JP2021096814A - 要約生成方法及び装置 - Google Patents

要約生成方法及び装置 Download PDF

Info

Publication number
JP2021096814A
JP2021096814A JP2020097663A JP2020097663A JP2021096814A JP 2021096814 A JP2021096814 A JP 2021096814A JP 2020097663 A JP2020097663 A JP 2020097663A JP 2020097663 A JP2020097663 A JP 2020097663A JP 2021096814 A JP2021096814 A JP 2021096814A
Authority
JP
Japan
Prior art keywords
paragraph
query
oriented
title
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020097663A
Other languages
English (en)
Other versions
JP7050857B2 (ja
Inventor
チェン・モイエ
Moye Chen
シュー・ウェイ
Wei Xu
リウ・ジアチェン
Jiachen Liu
シアオ・シンイエン
Xinyan Xiao
ショー・チャオチャオ
Qiaoqiao She
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021096814A publication Critical patent/JP2021096814A/ja
Application granted granted Critical
Publication of JP7050857B2 publication Critical patent/JP7050857B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

【課題】読者の情報取得要件を直接満たす要約を生成する要約生成方法、要約生成装置、電子機器及びコンピュータ可読媒体を提供する。【解決手段】方法は、タイトルと本文を含む目標テキストを取得するステップ201と、タイトルに質問が含まれているか否かを判定するステップ202と、タイトルに質問が含まれていると判定されたことに応答し、本文に質問の回答を含むクエリ指向段落を確定するステップ203と、クエリ指向段落に基づいて目標テキストの要約を生成するステップ204と、を含む。【選択図】図2

Description

本出願の実施例はコンピュータ技術分野に関し、具体的には要約生成方法及び装置に関する。
クエリ指向要約(query−focused summarization)は、ユーザの情報要件を満たすことを好む要約書形態であり、具体的には、文章の主な内容をカバーすることを目的とする従来の要約書に比べてクエリ指向要約はユーザの質問を回答することを目的とする。
それと同時に、情報ストリームが急速に流れる状況で、インターネットにおける個人メディアの文章、クリックベイトの文章、公式アカウントの文章が発表し続け、このような文章の数が膨大であるだけでなく、文章の構造やコンテンツに関しても従来のニュース記事とは大きな区別がある。このような文章は叙述構造が完全ではないし、タイトルが明確ではないことが多く、時々、読者を引き付けるためにタイトルに「サスペンス」が意図的に設定されている。
本出願の実施例は要約生成方法及び装置を提供する。
第1態様において、本出願の実施例は、要約生成方法であって、タイトルと本文を含む目標テキストを取得することと、上記タイトルに質問が含まれているか否かを判断することと、上記タイトルに質問が含まれていると判定されたことに応答し、上記本文から上記質問への回答が含まれるクエリ指向段落を確定することと、上記クエリ指向段落に基づいて上記目標テキストの要約を生成することとを含む要約生成方法を提供する。
いくつかの実施例において、上記タイトルに質問が含まれているか否かを判断することは、上記タイトルが疑問文であれば上記タイトルに質問が含まれていると判定することと、上記タイトルに参照関係が含まれている上に上記参照関係の対象が含まれていない場合、上記タイトルに質問が含まれていると判定することと、上記タイトルには事前設定された単語集合における少なくとも1つの単語が含まれている場合に、上記タイトルに質問が含まれていると判定することと、の少なくとも1項を含む。
いくつかの実施例において、上記本文にクエリ指向段落を確定することは、上記本文の各段落と上記タイトルとの類似度を確定することと、類似度の最大値に対応する段落をクエリ指向段落とすることと、を含む。
いくつかの実施例において、上記クエリ指向段落に基づいて上記目標テキストの要約を生成することは、上記クエリ指向段落と上記クエリ指向段落の後に位置する少なくとも1つの段落とに基づいて要約を生成することを備える。
いくつかの実施例において、上記クエリ指向段落に基づいて上記目標テキストの要約を生成することは、上記クエリ指向段落の開始詞が接続詞であると確定されたことに応答し、上記クエリ指向段落と上記クエリ指向段落の前に位置する少なくとも1つの段落とに基づいて要約を生成する。
いくつかの実施例において、上記クエリ指向段落に基づいて上記目標テキストの要約を生成することは、上記クエリ指向段落と、上記クエリ指向段落の前の少なくとも1つの段落と、上記クエリ指向段落の後の少なくとも1つの段落とのうちの少なくとも1項の無効な文を削除することと、削除処理後の各段落に基づいて要約を生成することと、を含む。
いくつかの実施例において、上記クエリ指向段落に基づいて上記目標テキストの要約を生成することは、上記クエリ指向段落の文字数が事前設定された文字数閾値よりも大きいと確定されたことに応答し、上記クエリ指向段落から複数の文を抽出し、抽出した複数の文を要約とすることを含む。
第2態様において、本出願の実施例は、要約生成装置であって、タイトルと本文を含む目標テキストを取得するように構成される取得手段と、上記タイトルに質問が含まれているか否かを判断するように構成される判断手段と、上記タイトルに質問が含まれていると判定されたことに応答し、上記本文から上記質問への回答が含まれるクエリ指向段落を確定するように構成される確定手段と、上記クエリ指向段落に基づいて上記目標テキストの要約を生成するように構成される生成手段と、を備える要約生成装置を提供する。
いくつかの実施例において、上記判断手段はさらに、上記タイトルが疑問文である場合、上記タイトルに質問が含まれていると判定することと、上記タイトルに参照関係が含まれている上に上記参照関係の対象が含まれていない場合、上記タイトルに質問が含まれていると判定することと、上記タイトルには事前設定された単語集合における少なくとも1つの単語が含まれている場合、上記タイトルに質問が含まれていると判定することと、の少なくとも1項を実行するように構成される。
いくつかの実施例において、上記確定手段はさらに、上記本文の各段落と上記タイトルとの類似度を確定し、類似度が最大値である段落をクエリ指向段落とするように構成される。
いくつかの実施例において、上記生成手段はさらに、上記クエリ指向段落と上記クエリ指向段落の後に位置する少なくとも1つの段落とに基づいて要約を生成するように構成される。
いくつかの実施例において、上記生成手段はさらに、上記クエリ指向段落の開始詞が接続詞であると確定されたことに応答し、上記クエリ指向段落と上記クエリ指向段落の前に位置する少なくとも1つの段落とに基づいて要約を生成するように構成される。
いくつかの実施例において、上記生成手段はさらに、上記クエリ指向段落と、上記クエリ指向段落の前の少なくとも1つの段落と、上記クエリ指向段落の後の少なくとも1つの段落とのうちの少なくとも1項の無効な文を削除することと、削除処理後の各段落に基づいて要約を生成することと、を実行するように構成される。
いくつかの実施例において、上記生成手段はさらに、上記クエリ指向段落の文字数が事前設定された文字数閾値よりも大きいと確定されたことに応答し、上記クエリ指向段落から複数の文を抽出することと、抽出した複数の文を要約とすることと、を実行するように構成される。
第3態様において、本出願の実施例は、電子機器であって、1つまたは複数のプロセッサと、1つまたは複数のプログラムが記憶されている記憶装置と、を備える電子機器であって、上記1つまたは複数のプログラムが上記1つまたは複数のプロセッサによって実行される場合、上記1つまたは複数のプロセッサに第1態様のいずれかの実施例に記載の方法を実現させる電子機器を提供する。
第4態様において、本出願の実施例は、コンピュータプログラムが記憶されるコンピュータ可読媒体であって、該プログラムがプロセッサによって実行される時、第1態様のいずれかの実施例に記載の方法を実現するコンピュータ可読媒体を提供する。
本出願の上記実施例により提供された要約生成方法及び装置は、目標テキストを取得した後、目標テキストのタイトルに質問が含まれているか否かを判断することができる。質問が含まれている場合に、目標テキストの本文に、クエリ指向段落を確定する。最後に、クエリ指向段落に基づいて目標テキストの要約を生成する。本実施例の方法により、読者の情報取得要件を直接満たす要約を生成することができる。
以下の図面を参照してなされる非限定的な実施例に対する詳細な説明により、本出願の他の特徴、目的及び利点がより明らかになる。
本出願の一実施例を適用可能な例示的なシステムアーキテクチャである。 本出願に係る要約生成方法の一実施例のフローチャートである。 本出願の要約生成方法に基づく応用シナリオの概略図である。 本出願に係る要約生成方法の他の実施例のフローチャートである。 本出願に係る要約生成装置の一実施例の構成概略図である。 本出願の実施例を実現するための電子機器に適するコンピュータシステムの構成概略図である。
以下は図面及び実施例を参照して本出願についてさらに詳細に説明する。ここに記載される具体的な実施例は、本出願を限定するものではなく、関連する発明を説明するためのものに過ぎないことを理解されたい。また、説明の便宜上、発明に関連する部分のみが図面に示されている。
なお、衝突しない場合に本出願における実施例及び実施例における特徴は互いに組み合わせることができる。以下では図面を参照し且つ実施例を参照して本出願について詳細に説明する。
図1は、本出願の要約生成方法又は要約生成装置を適用可能な例示的なシステムアーキテクチャ100を示す。
図1に示すように、システムアーキテクチャ100は端末装置101、102、103、ネットワーク104及びサーバ105を備えることができる。ネットワーク104は、端末装置101、102、103とサーバ105との間で通信リンクを提供するための媒体である。ネットワーク104には、有線、無線通信リンク又は光ファイバケーブル等の様々な接続タイプが含まれ得る。
ユーザは、端末装置101、102、103を用いて、ネットワーク104を介してサーバ105と情報のやり取りを行い、メッセージ等を送受信することができる。端末装置101、102、103には様々な通信クライアントアプリケーションがインストールされ、例えばウェブブラウザアプリケーション、ショッピングアプリケーション、検索アプリケーション、インスタントメッセージングツール、メールボックスクライアント、ソーシャルプラットフォームソフトウェアなどがインストールされ得る。
端末装置101、102、103は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末装置101、102、103がハードウェアである場合、ディスプレイを有しウェブページへの閲覧をサポートする様々な電子機器であり得、例えば、スマートフォン、タブレットコンピュータ、ラップトップコンピュータ及びデスクトップコンピュータなどを含むが特に限定されない。端末装置101、102、103がソフトウェアである場合、上述した電子機器にインストールされることができる。それは複数のソフトウェア又はソフトウェアモジュールとして実現されることができ(例えば分散サービスを提供するために用いられる)、また単一のソフトウェア又はソフトウェアモジュールとして実現されることもできる。ここでは特に限定しない。
サーバ105は様々なサービスを提供するサーバであってもよく、例えば、端末装置101、102、103に表示されるウェブページに対してサポートを提供するバックグラウンドウェブサーバである。バックグラウンドウェブサーバは受信したウェブページリクエスト等のデータに対して解析等の処理を行い、処理結果(例えばウェブページに記載されるテキストの要約)を端末装置101、102、103にフィードバックすることができる。
なお、サーバ105は、ハードウェアであってもよいし、ソフトウェアであってもよい。サーバ105がハードウェアである場合、複数のサーバで構成される分散サーバクラスタとして実現されてもよいし、単一のサーバとして実現されてもよい。サーバ105はソフトウェアである場合、複数のソフトウェア又はソフトウェアモジュール(例えば分散サービスを提供するために用いられる)として実現されてもよいし、単一のソフトウェア又はソフトウェアモジュールとして実現されてもよい。ここでは特に限定しない。
なお、本出願の実施例により提供される要約生成方法は端末装置101、102、103で実行されてもよく、サーバ105で実行されてもよい。したがって、要約生成装置は端末装置101、102、103に設置されてもよいし、サーバ105に設置されてもよい。
なお、図1における端末装置、ネットワーク及びサーバの数は例示のみである。また、実現の必要に応じて、任意の数の端末装置、ネットワーク、サーバ等を備えてもよい。
続いて、本出願の要約生成方法の一実施例の流れ200を示す図2を参照する。本実施例の要約生成方法は、以下のステップを含む。
ステップ201では、目標テキストを取得する。
本実施例において、要約生成方法の実行主体(例えば図1に示すサーバ105)は有線接続方式又は無線接続方式で目標テキストを取得することができる。ここで目標テキストは、ウェブページに公開されたテキストであってもよいし、各種の公式アカウントに記載された文章のテキストであってもよい。上記目標テキストはタイトルと本文を含むことができ、本文には複数の文字段落が含まれることができ、さらにピクチャ、テーブルなどが含まれることもできる。
ステップ202では、タイトルに質問が含まれているか否かを判断する。
目標テキストが取得された後、実行主体は、タイトルに質問が含まれているか否かを判断することができる。上記質問は、明示的な質問と潜在的な質問とを含むことができる。明示的な質問とは、質問文や疑問符が含まれる質問であり、例えば、「「独行くく(どっこうくく)」とはどういう意味ですか?」。潜在的な質問とは参照関係が含まれる質問であり、例えば「それをアワビの代わりに使用したが、本物のアワビよりも美味い!」。潜在的な質問には一般的に上記の参照関係の対象が与えられなく、ユーザが本文を読むことにより回答を取得する必要がある。
本実施例のいくつかの選択可能な実施方式において、実行主体は、タイトルが疑問文である場合、タイトルに質問が含まれていると判定することと、タイトルに参照関係が含まれている上に参照関係の対象が含まれていない場合、タイトルに質問が含まれていると判定することと、タイトルに事前設定された単語集合における少なくとも1つの単語が含まれている場合、タイトルに質問が含まれていると判定することと、のうちの少なくとも1つ(図2に示されていない)によってタイトルに質問が含まれていると判断することができる。
本実施形態において、タイトルが疑問文であればタイトルに質問が含まれ、且つ該質問が明示的な質問であると判定する。また、タイトルに参照関係が含まれている上に参照関係の対象が含まれていない場合には、タイトルに質問が含まれ、且つ該質問は潜在的な問題であると判定する。タイトルの中に事前設定された単語集合における少なくとも1つの単語が含まれている場合、タイトルの中に質問が含まれていると判定する。なお、前記事前設定された単語集合には、「何故」、「何ですか」、「この操作」などが含まれ得る。タイトルと事前設定された単語集合とを比較することにより、明示的な質問や潜在的な質問を判定することができる。
ステップ203では、タイトルに質問が含まれていると判定されたことに応答し、本文においてクエリ指向段落を確定する。
また、タイトルに質問が含まれていると判定された場合には、実行主体は本文中にクエリ指向段落を確定することができる。本実施例において、クエリ指向段落は、質問の回答が含まれている段落である。具体的には、実行主体は、複数の方式でクエリ指向段落を確定することができ、例えば、タイトルとの類似度が最も大きな段落をクエリ指向段落とすることができる。あるいは、実行主体は、N番目の段落をクエリ指向段落とすることができる。ここで、Nは事前設定された数値である。
本実施例のいくつかの選択可能な実施形態において、実行主体は、本文中の各段落とタイトルとの類似度を確定することと、類似度が最大となる値に対応する段落をクエリ指向段落とすることと、のステップ(図2に示されていない)によりクエリ指向段落を確定することができる。
本実施形態において、実行主体は、本文における各段落とタイトルとの類似度をそれぞれ算出することができる。そして、類似度が最大となる値に対応する段落を、回答が含まれている段落、すなわち、クエリ指向段落とする。なお、類似度の計算は先行技術であり、ここでは説明を省略する。
ステップ204では、クエリ指向段落に基づいて目標テキストの要約を生成する。
クエリ指向段落が確定された後、実行主体はクエリ指向段落に基づいて目標テキストの要約を生成することができる。具体的には、実行主体は、クエリ指向段落及び/又はその前の少なくとも1つの段落、その後の少なくとも1つの段落を目標テキストの要約とすることができる。なお、上記要約にはタイトルに含まれる質問の回答が含まれ、ユーザは要約を閲覧することにより質問の回答を確定することができ、従って、タイトルをクリックすることで本文で回答を探す必要がない。
続いて、本実施例に係る要約生成方法の一応用シナリオの概略図である図3を参照する。図3の応用シナリオにおいて、ユーザは端末にインストールされたブラウザにより表示されたウェブページを介して文章を閲覧し、端末は該ウェブページにおける各文章それぞれを目標テキストとしてサーバに送信することができ、サーバはステップ201〜204の処理に基づいて各文章の要約を取得し、要約を端末に出力し、端末は上記要約をブラウザに表示させる。このように、ユーザは該ウェブページを介して各文章の回答を取得することができ、従って、クリックすることで本文で回答を探す必要がない。
本出願の上記実施例により提供された要約生成方法は、目標テキストを取得した後、目標テキストのタイトルに質問が含まれているか否かを判断することができる。タイトルに質問が含まれている場合に、目標テキストの本文に、クエリ指向段落を確定する。最後に、クエリ指向段落に基づいて目標テキストの要約を生成する。本実施例の方法により、読者の情報取得要件を直接満たす要約を生成することができる。
続いて、本出願の要約生成方法の他の実施例の流れ400を示す図4を参照する。図4に示すように、本実施例の要約生成方法は、以下のステップを含むことができる。
ステップ401では、目標テキストを取得する。
ステップ402では、タイトルに質問が含まれているか否かを判断する。
ステップ403では、タイトルに質問が含まれていると判定されたことに応答し、本文にクエリ指向段落を確定する。
ステップ401〜403の原理はステップ201〜203の原理と類似し、ここでは説明を省略する。クエリ指向段落が確定された後、実行主体はステップ404及び/又はステップ405に基づいて要約を生成することができる。
ステップ404では、クエリ指向段落とクエリ指向段落の後に位置する少なくとも1つの段落に基づいて、要約を生成する。
本実施例において、実行主体はクエリ指向段落とクエリ指向段落の後に位置する少なくとも1つの段落とに基づいて、要約を生成することができる。具体的には、実行主体は、クエリ指向段落とその後の2つの段落又は3つの段落とを、目標テキストの要約とすることができる。
ステップ405では、クエリ指向段落の開始詞が接続詞であると判定されたことに応答し、クエリ指向段落及びクエリ指向段落の前の少なくとも1つの段落に基づいて要約を生成する。
実行主体はさらにクエリ指向段落の開始詞が接続詞であるか否かを判断することができ、接続詞であれば、実行主体はクエリ指向段落とその前に位置する少なくとも一つの段落とに基づいて要約を生成することができる。例えば、クエリ指向段落の開始詞が「しかし」である場合、ステップ404で生成された要約が一貫性がないと見なされ、ユーザが要約を閲覧する時、唐突と感じることがあり、実行主体はクエリ指向段落の前の少なくとも1つの段落をクエリ指向段落及び/又はその後の少なくとも1つの段落と組み合わせて目標テキストの要約とすることができる。例えば、実行主体は、クエリ指向段落の前の1つの段落、クエリ指向段落、及びクエリ指向段落の後の1つの段落を、要約とすることができる。
本実施例のいくつかの選択可能な実施形態において、実行主体はさらに、クエリ指向段落と、クエリ指向段落の前の少なくとも1つの段落と、クエリ指向段落の後の少なくとも1つの段落とのうちの少なくとも1項の無効な文を削除することと、削除処理後の各段落に基づいて要約を生成することとを含む図4に示されないステップによって要約を生成することができる。
本実施形態において、実行主体はさらに、クエリ指向段落、クエリ指向段落の前の少なくとも1つの段落及び/又はクエリ指向段落の後の少なくとも1つの段落に対して削除処理を行い、上記削除処理とは各段落における無効な文を削除することを意味する。上記無効文は、ピクチャを説明するための文、タイトルと一致する文、ヘッダを含むがこれらに限定されない。実行主体は、削除処理後の各段落に基づいて要約を生成することができる。
本実施例のいくつかの選択可能な実施形態において、実行主体はさらに、クエリ指向段落の文字数が事前設定された文字数の閾値よりも大きいと判定されたことに応答し、クエリ指向段落に複数の文を抽出することと、抽出した複数の文を要約とすることと、を備える図4に示されないステップによって要約を生成することができる。
本実施形態において、実行主体はさらに要約の文字数を限定することができ、クエリ指向段落の文字数が事前設定された文字数の閾値を超えない場合、実行主体は、クエリ指向段落及びその前の少なくとも1つの段落及び/又はその後の少なくとも1つの段落を組み合わせて要約とすることができる。なお、クエリ指向段落と他の段落を組み合わせた後、文字数が事前設定された文字数の閾値を超えた場合、実行主体はクエリ指向段落のみを要約とすることができる。また、クエリ指向段落の文字数が事前設定された文字数の閾値を超えている場合には、実行主体はクエリ指向段落に複数の文を抽出することができる。そして、抽出した複数の文を要約とする。
本出願の上記実施例により提供された要約生成方法は、生成した要約は一貫性を有し、ユーザの閲覧習慣に合致する。
さらに図5を参照し、上記各図に示す方法の実現として、本出願は要約生成装置の一実施例を提供し、該装置の実施例は図2に示す方法の実施例に対応し、該装置は具体的に様々な電子機器に適用することができる。
図5に示すように、本実施例の要約生成装置500は、取得手段501、判断手段502、確定手段503、および生成手段504を含む。
取得手段501は、目標テキストを取得するように構成される。目標テキストは、タイトルと本文とを含む。
判断手段502は、タイトルに質問が含まれているか否かを判断するように構成される。
確定手段503は、タイトルに質問が含まれていると判定されたことに応答し、本文にクエリ指向段落を確定する。クエリ指向段落は、上記質問の回答を含む。
生成手段504は、クエリ指向段落に基づいて目標テキストの要約を生成するように構成される。
本実施例のいくつかの実施形態では、判断手段502はさらに、タイトルが疑問文である場合、タイトルに質問が含まれていると判定することと、タイトルに参照関係が含まれている上に参照関係の対象が含まれない場合、タイトルに質問が含まれていると判定することと、タイトルに事前設定された単語集合における少なくとも1つの単語が含まれている場合、タイトルに質問が含まれていると判定することとの少なくとも1項を実行するように構成される。
本実施例のいくつかの選択可能な実施形態において、確定手段503はさらに、本文の各段落とタイトルとの類似度を確定することと、類似度が最大値である段落をクエリ指向段落とすることとを実行するように構成される。
本実施例のいくつかの選択可能な実施形態において、生成手段504はさらに、クエリ指向段落とクエリ指向段落の後に位置する少なくとも1つの段落とに基づいて、要約を生成するように構成される。
本実施例のいくつかの選択可能な実施形態において、生成手段504はさらに、クエリ指向段落の開始詞が接続詞であると確定されたことに応答し、クエリ指向段落とクエリ指向段落の前に位置する少なくとも1つの段落とに基づいて要約を生成するように構成される。
本実施例のいくつかの選択可能な実施形態において、生成手段504はさらに、クエリ指向段落と、クエリ指向段落の前の少なくとも1つの段落と、クエリ指向段落の後の少なくとも1つの段落とのうちの少なくとも1項の無効な文を削除し、削除処理後の各段落に基づいて要約を生成するように構成される。
本実施例のいくつかの選択可能な実施形態において、生成手段504はさらに、クエリ指向段落の文字数が事前設定された文字数の閾値よりも大きいと確定されたことに応答し、クエリ指向段落から複数の文を抽出し、抽出した複数の文を要約とするように構成される。
なお、要約生成装置500に記載された手段501〜504はそれぞれ、図2に説明した方法の各ステップに対応することを理解されたい。したがって、要約生成方法について説明した操作及び特徴は、装置500及びその中に含まれている手段についても適用し、ここでは説明を省略する。
続いて、本出願の実施例の実施に適する電子機器(例えば、図1におけるサーバや端末装置)600の構成概略図を示す図6を参照する。本出願の実施例における端末装置は、例えば携帯電話、ラップトップコンピュータ、デジタル放送受信機、PDA(パーソナルデジタルアシスタント)、PAD(タブレットコンピュータ)、PMP(ポータブルマルチメディアプレイヤー)及び車載端末(例えば、カーナビゲーション端末)等の携帯端末、並びにデジタルTV、デスクトップコンピュータ等の固定端末を含むがこれらに限定されない。図6に示した電子機器は例示のみであり、本出願の実施例の機能や使用範囲を制限するものではない。
図6に示すように、電子機器600は、ROM(Read Only Memory)602に格納されたプログラムや、記憶装置608からRAM(Random Access Memory)603にロードされたプログラムに基づき、各種の適当な動作や処理を実行することができる処理装置(例えば、中央処理装置、グラフィックプロセッサ等)601を備える。RAM603には、電子機器600の操作に必要な各種プログラムやデータが記憶される。処理装置601、ROM602及びRAM603は、バス604を介して相互に接続されている。バス604には、入出力(I/O)インタフェース605も接続されている。
I/Oインタフェース605には、一般的には、入力装置606、出力装置607、記憶装置608、通信装置609が接続されることができ、入力装置606は例えばタッチパネル、タッチパッド、キーボード、マウス、カメラ、マイク、加速度計、ジャイロスコープなどを含み、出力装置707は、例えば、LCD(Liquid Crystal Display)、スピーカ、バイブレータなどを含み、記憶装置608は例えば、磁気テープ、ハードディスクなどを含む。通信装置609は、データを交換するために、電子機器600が他の装置と無線又は有線通信を行うことを可能にすることができる。なお、図6は、各種の装置を備えた電子機器600を示したが、図示した全ての装置を実施又は備えることが要求されていないことを理解されたい。代替的に、より多く又はより少ない装置を実施又は備えることができる。図6に示す各ブロックは、1つの装置を表してもよく、必要に応じて複数の装置を代表してもよい。
特に、本出願の実施例に基づき、上述のフローチャートを参照して説明したプロセスは、コンピュータソフトウェアプログラムとして実現されることが可能である。例えば、本出願の実施例は、フローチャートに示された方法を実行するためのプログラムコードを含む、コンピュータ可読媒体上に担持されたコンピュータプログラム製品を含む。このような実施形態では、コンピュータプログラムは、通信装置609を介してネットワークからダウンロードされインストールされたり、記憶装置608からインストールされたり、RОM602からインストールされたりすることができる。このコンピュータプログラムが処理装置601によって実行されると、本出願の実施形態の方法に限定された上記機能が実行される。なお、本出願の実施形態で説明したコンピュータ可読媒体は、コンピュータ可読信号媒体若しくはコンピュータ可読記憶媒体、又は上記両者の任意の組み合わせであり得る。コンピュータ可読記憶媒体は、例えば、電気、磁気、光、電磁気、赤外線、又は半導体のシステム、装置若しくはデバイス、又は以上の任意の組み合わせであり得るが、これらに限られない。コンピュータ可読記憶媒体のより具体的な例は、1本又は複数本のリード線を有する電気的に接続された携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(RОM)、消去可能プログラマブル読取り専用メモリ(EPRОM又はフラッシュメモリ)、光ファイバ、携帯型コンパクトディスク読取り専用メモリ(CD−RОM)、光記憶装置、磁気記憶装置、又は上記の任意の適切な組み合わせを含むが、これらに限られない。本出願の実施形態では、コンピュータ可読記憶媒体は、命令実行システム、装置又はデバイスによって使用されることもそれらに結合して使用されることも可能なプログラムを含む又は記憶する任意の有形の媒体であり得る。本出願の実施形態では、コンピュータ可読信号媒体は、ベースバンド内において又はキャリアの一部として伝播された、コンピュータ可読プログラムコードを搬送しているデータ信号を含んでもよい。このような伝播されたデータ信号は、電磁信号、光信号、又は上述の任意の適切な組み合わせを含むが、これらに限られない様々な形態を採用することができる。コンピュータ可読信号媒体はまた、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよい。このコンピュータ可読信号媒体は、命令実行システム、装置又はデバイスによって使用されることもそれらに結合して使用されることも可能なプログラムを送信、伝播又は伝送することができる。コンピュータ可読媒体に含まれているプログラムコードは、電線、光ケーブル、RF(無線周波数)など、又は上記の任意の適切な組み合わせを含むが、これらに限られない任意の適切な媒体で伝送することができる。
上記のコンピュータ可読媒体は前記電子機器に含まれるものであってもよく、個別に存在しており、該電子機器に組み込まれていないものであってもよい。前記コンピュータ可読媒体は、1つ又は複数のプログラムを搬送しており、前記1つ又は複数のプログラムが該電子機器によって実行されると、該電子機器は、タイトルと本文を含む目標テキストを取得することと、タイトルに質問が含まれているか否かを判断することと、タイトルに質問が含まれていると判定されたことに応答し、本文に、上記質問の回答を含むクエリ指向段落を確定することと、クエリ指向段落に基づいて目標テキストの要約を生成することと、を実行する。
本出願の実施例の動作を実行するためのコンピュータプログラムコードは、1つ又は複数のプログラミング言語、又はそれらの組み合わせで書くことができる。プログラミング言語は、Java(登録商標)、Smalltalk、C++などのオブジェクト指向プログラミング言語や、「C」言語又は類似するプログラミング言語などの従来の手続き型プログラミング言語を含む。プログラムコードは、完全にユーザのコンピュータ上で実行されることも、部分的にユーザのコンピュータ上で実行されることも、スタンドアロンソフトウェアパッケージとして実行されることも、部分的にユーザのコンピュータ上で実行されながら部分的にリモートコンピュータ上で実行されることも、又は完全にリモートコンピュータ又はサーバ上で実行されることも可能である。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)又はワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを介してユーザのコンピュータに接続されることができる。又は、外部のコンピュータに接続されることができる(例えば、インターネットサービスプロバイダーによるインターネット経由で接続される)。
添付図面におけるフローチャート及びブロック図は、本出願の様々な実施形態に係るシステム、方法、及びコンピュータプログラム製品の実施可能なアーキテクチャ、機能、及び動作を示している。ここで、フローチャート又はブロック図における各ブロックは、モジュール、プログラムセグメント、又はコードの一部を表すことができる。該モジュール、プログラムセグメント、又はコードの一部は、指定されたロジック関数を実施するための1つ又は複数の実行可能な命令を含む。また、いくつかの代替的な実施形態では、ブロックに記載されている機能は、図面に示されているものとは異なる順序で発生する場合があることにも留意されたい。例えば、連続して表されている2つのブロックは、実際にほぼ並行して実行されてもよく、時には逆の順序で実行されてもよい。これは関連する機能によって決まる。また、ブロック図及び/又はフローチャートにおける各ブロック、及びブロック図及び/又はフローチャートにおけるブロックの組み合わせは、指定された機能又は動作を実行する専用のハードウェアベースのシステムで実施することも、又は専用のハードウェアとコンピュータの命令の組み合わせで実施することも可能であることに留意されたい。
本出願の実施例において説明された手段は、ソフトウェア又はハードウェアによって実施され得る。説明された手段はプロセッサに内蔵されてもよい。例えば、「取得手段、判断手段、確定手段及び生成手段を備えるプロセッサ」と記載されてもよい。これらの手段の名称は、手段その自体に対する限定ではなく、例えば、取得手段は、「目標テキストを取得する手段」と記載されてもよい。
上記の説明は、あくまでも本出願の好ましい実施形態及び応用技術原理の説明にすぎない。本出願に係る発明の範囲は、上記の技術的特徴の特定の組み合わせによって形成された技術的解決手段に限定されず、上記の発明の構想から逸脱しない範囲で上記の技術的特徴又はその同等の技術的特徴の任意の組み合わせによって形成されたその他の技術的解決手段、例えば、上記の特徴と本出願に開示された同様の機能を有する技術的特徴(それだけに限定されない)とが相互に代替することによって形成された技術的解決手段もカバーしていることを当業者は理解すべきである。
第4態様において、本出願の実施例は、コンピュータプログラムが記憶されるコンピュータ可読媒体であって、該プログラムがプロセッサによって実行される時、第1態様のいずれかの実施例に記載の方法を実現するコンピュータ可読媒体を提供する。
第5態様において、本出願の実施例は、コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサにより実行されると、第1態様のいずれかの実施例に記載の方法を実現する、コンピュータプログラムを提供する。

Claims (16)

  1. タイトルと本文を含む目標テキストを取得することと、
    前記タイトルに質問が含まれているか否かを判断することと、
    前記タイトルに質問が含まれていると判定されたことに応答し、前記本文から前記質問への回答が含まれるクエリ指向段落を確定することと、
    前記クエリ指向段落に基づいて前記目標テキストの要約を生成することとを含む要約生成方法。
  2. 前記タイトルに質問が含まれているか否かを判断することは、
    前記タイトルが疑問文である場合、前記タイトルに質問が含まれていると判定することと、
    前記タイトルに参照関係が含まれている上に前記参照関係の対象が含まれていない場合、前記タイトルに質問が含まれていると判定することと、
    前記タイトルには事前設定された単語集合における少なくとも1つの単語が含まれている場合、前記タイトルに質問が含まれていると判定することと、の少なくとも1項を含む請求項1に記載の方法。
  3. 前記本文にクエリ指向段落を確定することは、
    前記本文の各段落と前記タイトルとの類似度を確定することと、
    類似度が最大値である段落をクエリ指向段落とすることと、を含む
    請求項1に記載の方法。
  4. 前記クエリ指向段落に基づいて前記目標テキストの要約を生成することは、
    前記クエリ指向段落と前記クエリ指向段落の後に位置する少なくとも1つの段落とに基づいて要約を生成することを備える
    請求項1に記載の方法。
  5. 前記クエリ指向段落に基づいて前記目標テキストの要約を生成することは、
    前記クエリ指向段落の開始詞が接続詞であると確定されたことに応答し、前記クエリ指向段落と前記クエリ指向段落の前に位置する少なくとも1つの段落とに基づいて要約を生成する
    請求項1に記載の方法。
  6. 前記クエリ指向段落に基づいて前記目標テキストの要約を生成することは、
    前記クエリ指向段落と、前記クエリ指向段落の前の少なくとも1つの段落と、前記クエリ指向段落の後の少なくとも1つの段落とのうちの少なくとも1項の無効な文を削除することと、
    削除処理後の各段落に基づいて要約を生成することと、
    を含む請求項4または5に記載の方法。
  7. 前記クエリ指向段落に基づいて前記目標テキストの要約を生成することは、
    前記クエリ指向段落の文字数が事前設定された文字数閾値よりも大きいと確定されたことに応答し、前記クエリ指向段落から複数の文を抽出し、
    抽出した複数の文を要約とすることを含む請求項1に記載の方法。
  8. タイトルと本文を含む目標テキストを取得するように構成される取得手段と、
    前記タイトルに質問が含まれているか否かを判断するように構成される判断手段と、
    前記タイトルに質問が含まれていると判定されたことに応答し、前記本文から前記質問への回答が含まれるクエリ指向段落を確定するように構成される確定手段と、
    前記クエリ指向段落に基づいて前記目標テキストの要約を生成するように構成される生成手段と、
    を備える要約生成装置。
  9. 前記判断手段はさらに、
    前記タイトルが疑問文である場合、前記タイトルに質問が含まれていると判定することと、
    前記タイトルに参照関係が含まれている上に前記参照関係の対象が含まれていない場合、前記タイトルに質問が含まれていると判定することと、
    前記タイトルには事前設定された単語集合における少なくとも1つの単語が含まれている場合、前記タイトルに質問が含まれていると判定することと、の少なくとも1項を実行するように構成される請求項8に記載の装置。
  10. 前記確定手段はさらに、
    前記本文の各段落と前記タイトルとの類似度を確定し、
    類似度が最大値である段落をクエリ指向段落とするように構成される請求項8に記載の装置。
  11. 前記生成手段はさらに、前記クエリ指向段落と前記クエリ指向段落の後に位置する少なくとも1つの段落とに基づいて要約を生成するように構成される請求項8に記載の装置。
  12. 前記生成手段はさらに、前記クエリ指向段落の開始詞が接続詞であると確定されたことに応答し、前記クエリ指向段落と前記クエリ指向段落の前に位置する少なくとも1つの段落とに基づいて要約を生成するように構成される請求項8に記載の装置。
  13. 前記生成手段はさらに、
    前記クエリ指向段落と、前記クエリ指向段落の前の少なくとも1つの段落と、前記クエリ指向段落の後の少なくとも1つの段落とのうちの少なくとも1項の無効な文を削除することと、
    削除処理後の各段落に基づいて要約を生成することと、を実行するように構成される請求項8に記載の装置。
  14. 前記生成手段はさらに、
    前記クエリ指向段落の文字数が事前設定された文字数閾値よりも大きいと確定されたことに応答し、前記クエリ指向段落から複数の文を抽出することと、
    抽出した複数の文を要約とすることと、を実行するように構成される、請求項8に記載の装置。
  15. 1つまたは複数のプロセッサと、
    1つまたは複数のプログラムが記憶されている記憶装置と、を備える電子機器であって、
    前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行される場合、前記1つまたは複数のプロセッサに請求項1〜7のいずれか1項に記載の方法を実現させる電子機器。
  16. コンピュータプログラムが記憶されるコンピュータ可読媒体であって、
    該プログラムがプロセッサによって実行される時、請求項1〜7のいずれか1項に記載の方法を実現するコンピュータ可読媒体。
JP2020097663A 2019-12-12 2020-06-04 要約生成方法及び装置 Active JP7050857B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201911272761.1A CN111061860A (zh) 2019-12-12 2019-12-12 摘要生成方法和装置
CN201911272761.1 2019-12-12

Publications (2)

Publication Number Publication Date
JP2021096814A true JP2021096814A (ja) 2021-06-24
JP7050857B2 JP7050857B2 (ja) 2022-04-08

Family

ID=70298892

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020097663A Active JP7050857B2 (ja) 2019-12-12 2020-06-04 要約生成方法及び装置

Country Status (3)

Country Link
US (1) US11687715B2 (ja)
JP (1) JP7050857B2 (ja)
CN (1) CN111061860A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704457B (zh) * 2021-07-23 2024-03-01 北京搜狗科技发展有限公司 摘要的生成方法、装置及存储介质
US20230054726A1 (en) * 2021-08-18 2023-02-23 Optum, Inc. Query-focused extractive text summarization of textual data
US11860946B2 (en) * 2022-01-11 2024-01-02 Kyndryl, Inc. Autonomous webpage content summation

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005242624A (ja) * 2004-02-26 2005-09-08 Matsushita Electric Ind Co Ltd 情報蓄積システムおよび情報蓄積方法
JP2008129692A (ja) * 2006-11-17 2008-06-05 Nec Corp 回答支援装置、回答支援システム、回答支援方法および回答支援プログラム
JP2011257878A (ja) * 2010-06-07 2011-12-22 Nippon Telegr & Teleph Corp <Ntt> 重要語句抽出装置及び方法及びプログラム
JP2013214294A (ja) * 2012-03-06 2013-10-17 Okwave:Kk クライアントシステム及びサーバ

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3614648B2 (ja) * 1998-03-13 2005-01-26 富士通株式会社 文書理解支援装置、要約文生成方法、並びに文書理解支援プログラムを記録したコンピュータ読み取り可能な記録媒体
CN1609845A (zh) * 2003-10-22 2005-04-27 国际商业机器公司 用于改善由机器自动生成的摘要的可读性的方法和装置
US20080027935A1 (en) * 2005-11-30 2008-01-31 Sahar Sarid Anchored search engine results display
US20080104506A1 (en) * 2006-10-30 2008-05-01 Atefeh Farzindar Method for producing a document summary
US7966316B2 (en) * 2008-04-15 2011-06-21 Microsoft Corporation Question type-sensitive answer summarization
US9317595B2 (en) * 2010-12-06 2016-04-19 Yahoo! Inc. Fast title/summary extraction from long descriptions
US20140330794A1 (en) * 2012-12-10 2014-11-06 Parlant Technology, Inc. System and method for content scoring
US8488916B2 (en) * 2011-07-22 2013-07-16 David S Terman Knowledge acquisition nexus for facilitating concept capture and promoting time on task
US9466294B1 (en) * 2013-05-21 2016-10-11 Amazon Technologies, Inc. Dialog management system
US9348817B2 (en) * 2014-01-09 2016-05-24 International Business Machines Corporation Automatic generation of question-answer pairs from conversational text
US20150254213A1 (en) * 2014-02-12 2015-09-10 Kevin D. McGushion System and Method for Distilling Articles and Associating Images
US9317498B2 (en) * 2014-05-23 2016-04-19 Codeq Llc Systems and methods for generating summaries of documents
US9798708B1 (en) * 2014-07-11 2017-10-24 Google Inc. Annotating relevant content in a screen capture image
CN104636465B (zh) * 2015-02-10 2018-11-16 百度在线网络技术(北京)有限公司 网页摘要生成方法、展示方法及相应装置
CN105677764B (zh) * 2015-12-30 2020-05-08 百度在线网络技术(北京)有限公司 信息提取方法和装置
US20180349360A1 (en) * 2017-01-05 2018-12-06 Social Networking Technology, Inc. Systems and methods for automatically generating news article

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005242624A (ja) * 2004-02-26 2005-09-08 Matsushita Electric Ind Co Ltd 情報蓄積システムおよび情報蓄積方法
JP2008129692A (ja) * 2006-11-17 2008-06-05 Nec Corp 回答支援装置、回答支援システム、回答支援方法および回答支援プログラム
JP2011257878A (ja) * 2010-06-07 2011-12-22 Nippon Telegr & Teleph Corp <Ntt> 重要語句抽出装置及び方法及びプログラム
JP2013214294A (ja) * 2012-03-06 2013-10-17 Okwave:Kk クライアントシステム及びサーバ

Also Published As

Publication number Publication date
CN111061860A (zh) 2020-04-24
JP7050857B2 (ja) 2022-04-08
US11687715B2 (en) 2023-06-27
US20210182491A1 (en) 2021-06-17

Similar Documents

Publication Publication Date Title
CN111414498B (zh) 多媒体信息推荐方法、装置及电子设备
CN111368185B (zh) 数据展示方法、装置、存储介质及电子设备
JP7050857B2 (ja) 要約生成方法及び装置
US11758088B2 (en) Method and apparatus for aligning paragraph and video
US20220075932A1 (en) Method and apparatus for inserting information into online document
US20220374538A1 (en) Permission control method and device and electronic equipment
WO2020215852A1 (zh) 信息处理方法、装置、终端设备及服务器
JP2021103506A (ja) 情報を生成するための方法及び装置
WO2020042376A1 (zh) 用于输出信息的方法和装置
US11800201B2 (en) Method and apparatus for outputting information
US20240168605A1 (en) Text input method and apparatus, and electronic device and storage medium
CN111400625A (zh) 页面处理方法、装置、电子设备及计算机可读存储介质
WO2022233311A1 (zh) 展示方法、装置和电子设备
CN111723309B (zh) 用于网页搜索的方法和装置
WO2024087821A1 (zh) 信息处理方法、装置和电子设备
CN111400581B (zh) 用于标注样本的系统、方法和装置
CN109472028B (zh) 用于生成信息的方法和装置
CN112084441A (zh) 信息检索方法、装置和电子设备
CN115563134A (zh) 一种交互方法、装置、电子设备、计算机可读介质
JP2024500300A (ja) 情報インタラクション方法、装置、及び機器
KR20220127935A (ko) 정보 상호작용을 위한 방법 및 장치
CN112182290A (zh) 一种信息处理方法、装置和电子设备
CN111930229B (zh) 人机交互方法、装置和电子设备
CN111090485B (zh) 面向多集群的帮助数据处理方法及装置、介质和设备
US20230409813A1 (en) Document processing method, apparatus and device, and medium

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200608

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200608

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210803

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211101

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220322

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220329

R150 Certificate of patent or registration of utility model

Ref document number: 7050857

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150