JP7050857B2 - 要約生成方法及び装置 - Google Patents
要約生成方法及び装置 Download PDFInfo
- Publication number
- JP7050857B2 JP7050857B2 JP2020097663A JP2020097663A JP7050857B2 JP 7050857 B2 JP7050857 B2 JP 7050857B2 JP 2020097663 A JP2020097663 A JP 2020097663A JP 2020097663 A JP2020097663 A JP 2020097663A JP 7050857 B2 JP7050857 B2 JP 7050857B2
- Authority
- JP
- Japan
- Prior art keywords
- paragraph
- query
- oriented
- title
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
第1態様において、本出願の実施例は、要約生成方法であって、タイトルと本文を含む目標テキストを取得することと、上記タイトルに質問が含まれているか否かを判断することと、上記タイトルに質問が含まれていると判定されたことに応答し、上記本文から上記質問への回答が含まれるクエリ指向段落を確定することと、上記クエリ指向段落に基づいて上記目標テキストの要約を生成することとを含む要約生成方法を提供する。
第5態様において、本出願の実施例は、コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサにより実行されると、第1態様のいずれかの実施例に記載の方法を実現する、コンピュータプログラムを提供する。
本実施例において、要約生成方法の実行主体(例えば図1に示すサーバ105)は有線接続方式又は無線接続方式で目標テキストを取得することができる。ここで目標テキストは、ウェブページに公開されたテキストであってもよいし、各種の公式アカウントに記載された文章のテキストであってもよい。上記目標テキストはタイトルと本文を含むことができ、本文には複数の文字段落が含まれることができ、さらにピクチャ、テーブルなどが含まれることもできる。
目標テキストが取得された後、実行主体は、タイトルに質問が含まれているか否かを判断することができる。上記質問は、明示的な質問と潜在的な質問とを含むことができる。明示的な質問とは、質問文や疑問符が含まれる質問であり、例えば、「「独行くく(どっこうくく)」とはどういう意味ですか?」。潜在的な質問とは参照関係が含まれる質問であり、例えば「それをアワビの代わりに使用したが、本物のアワビよりも美味い!」。潜在的な質問には一般的に上記の参照関係の対象が与えられなく、ユーザが本文を読むことにより回答を取得する必要がある。
クエリ指向段落が確定された後、実行主体はクエリ指向段落に基づいて目標テキストの要約を生成することができる。具体的には、実行主体は、クエリ指向段落及び/又はその前の少なくとも1つの段落、その後の少なくとも1つの段落を目標テキストの要約とすることができる。なお、上記要約にはタイトルに含まれる質問の回答が含まれ、ユーザは要約を閲覧することにより質問の回答を確定することができ、従って、タイトルをクリックすることで本文で回答を探す必要がない。
ステップ402では、タイトルに質問が含まれているか否かを判断する。
Claims (17)
- タイトルと本文を含む目標テキストを取得することと、
前記タイトルに質問が含まれているか否かを判断することと、
前記タイトルに質問が含まれていると判定されたことに応答し、前記本文から前記質問への回答が含まれるクエリ指向段落を確定することと、
前記クエリ指向段落に基づいて前記目標テキストの要約を生成することとを含み、
前記タイトルに質問が含まれているか否かを判断することは、
前記タイトルには、参照関係が含まれ、前記参照関係の指示されている対象が含まれていない場合、質問が含まれていると判断することを含む要約生成方法。 - 前記タイトルに質問が含まれているか否かを判断することは、
前記タイトルが疑問文である場合、前記タイトルに質問が含まれていると判定することと、
前記タイトルには事前設定された単語集合における少なくとも1つの単語が含まれている場合、前記タイトルに質問が含まれていると判定することと、の少なくとも1項を含む請求項1に記載の方法。 - 前記本文にクエリ指向段落を確定することは、
前記本文の各段落と前記タイトルとの類似度を確定することと、
類似度が最大値である段落をクエリ指向段落とすることと、を含む
請求項1に記載の方法。 - 前記クエリ指向段落に基づいて前記目標テキストの要約を生成することは、
前記クエリ指向段落と前記クエリ指向段落の後に位置する少なくとも1つの段落とに基づいて要約を生成することを備える
請求項1に記載の方法。 - 前記クエリ指向段落に基づいて前記目標テキストの要約を生成することは、
前記クエリ指向段落の開始詞が接続詞であると確定されたことに応答し、前記クエリ指向段落と前記クエリ指向段落の前に位置する少なくとも1つの段落とに基づいて要約を生成する
請求項1に記載の方法。 - 前記クエリ指向段落に基づいて前記目標テキストの要約を生成することは、
前記クエリ指向段落と、前記クエリ指向段落の前の少なくとも1つの段落と、前記クエリ指向段落の後の少なくとも1つの段落とのうちの少なくとも1項の無効な文を削除することと、
削除処理後の各段落に基づいて要約を生成することと、
を含む請求項4または5に記載の方法。 - 前記クエリ指向段落に基づいて前記目標テキストの要約を生成することは、
前記クエリ指向段落の文字数が事前設定された文字数閾値よりも大きいと確定されたことに応答し、前記クエリ指向段落から複数の文を抽出し、
抽出した複数の文を要約とすることを含む請求項1に記載の方法。 - タイトルと本文を含む目標テキストを取得するように構成される取得手段と、
前記タイトルに質問が含まれているか否かを判断するように構成される判断手段と、
前記タイトルに質問が含まれていると判定されたことに応答し、前記本文から前記質問への回答が含まれるクエリ指向段落を確定するように構成される確定手段と、
前記クエリ指向段落に基づいて前記目標テキストの要約を生成するように構成される生成手段と、
を備え、
前記判断手段はさらに、
前記タイトルには、参照関係が含まれ、前記参照関係の指示されている対象が含まれていない場合、質問が含まれていると判断するように構成される要約生成装置。 - 前記判断手段はさらに、
前記タイトルが疑問文である場合、前記タイトルに質問が含まれていると判定することと、
前記タイトルには事前設定された単語集合における少なくとも1つの単語が含まれている場合、前記タイトルに質問が含まれていると判定することと、の少なくとも1項を実行するように構成される請求項8に記載の装置。 - 前記確定手段はさらに、
前記本文の各段落と前記タイトルとの類似度を確定し、
類似度が最大値である段落をクエリ指向段落とするように構成される請求項8に記載の装置。 - 前記生成手段はさらに、前記クエリ指向段落と前記クエリ指向段落の後に位置する少なくとも1つの段落とに基づいて要約を生成するように構成される請求項8に記載の装置。
- 前記生成手段はさらに、前記クエリ指向段落の開始詞が接続詞であると確定されたことに応答し、前記クエリ指向段落と前記クエリ指向段落の前に位置する少なくとも1つの段落とに基づいて要約を生成するように構成される請求項8に記載の装置。
- 前記生成手段はさらに、
前記クエリ指向段落と、前記クエリ指向段落の前の少なくとも1つの段落と、前記クエリ指向段落の後の少なくとも1つの段落とのうちの少なくとも1項の無効な文を削除することと、
削除処理後の各段落に基づいて要約を生成することと、を実行するように構成される請求項8に記載の装置。 - 前記生成手段はさらに、
前記クエリ指向段落の文字数が事前設定された文字数閾値よりも大きいと確定されたことに応答し、前記クエリ指向段落から複数の文を抽出することと、
抽出した複数の文を要約とすることと、を実行するように構成される、請求項8に記載の装置。 - 1つまたは複数のプロセッサと、
1つまたは複数のプログラムが記憶されている記憶装置と、を備える電子機器であって、
前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行される場合、前記1つまたは複数のプロセッサに請求項1~7のいずれか1項に記載の方法を実現させる電子機器。 - コンピュータプログラムが記憶されるコンピュータ可読媒体であって、
該プログラムがプロセッサによって実行される時、請求項1~7のいずれか1項に記載の方法を実現するコンピュータ可読媒体。 - コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサにより実行されると、請求項1~7のいずれか1項に記載の方法を実現する、コンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911272761.1A CN111061860A (zh) | 2019-12-12 | 2019-12-12 | 摘要生成方法和装置 |
CN201911272761.1 | 2019-12-12 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021096814A JP2021096814A (ja) | 2021-06-24 |
JP7050857B2 true JP7050857B2 (ja) | 2022-04-08 |
Family
ID=70298892
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020097663A Active JP7050857B2 (ja) | 2019-12-12 | 2020-06-04 | 要約生成方法及び装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11687715B2 (ja) |
JP (1) | JP7050857B2 (ja) |
CN (1) | CN111061860A (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113704457B (zh) * | 2021-07-23 | 2024-03-01 | 北京搜狗科技发展有限公司 | 摘要的生成方法、装置及存储介质 |
CN113656618B (zh) * | 2021-08-12 | 2024-06-21 | 工银科技有限公司 | 图片同步方法、装置、电子设备及可读存储介质 |
US20230054726A1 (en) * | 2021-08-18 | 2023-02-23 | Optum, Inc. | Query-focused extractive text summarization of textual data |
US11860946B2 (en) * | 2022-01-11 | 2024-01-02 | Kyndryl, Inc. | Autonomous webpage content summation |
CN117909557A (zh) * | 2023-12-29 | 2024-04-19 | 上海稀宇极智科技有限公司 | 基于大语言模型的人机交互方法、系统、设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005242624A (ja) | 2004-02-26 | 2005-09-08 | Matsushita Electric Ind Co Ltd | 情報蓄積システムおよび情報蓄積方法 |
JP2008129692A (ja) | 2006-11-17 | 2008-06-05 | Nec Corp | 回答支援装置、回答支援システム、回答支援方法および回答支援プログラム |
JP2011257878A (ja) | 2010-06-07 | 2011-12-22 | Nippon Telegr & Teleph Corp <Ntt> | 重要語句抽出装置及び方法及びプログラム |
JP2013214294A (ja) | 2012-03-06 | 2013-10-17 | Okwave:Kk | クライアントシステム及びサーバ |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3614648B2 (ja) * | 1998-03-13 | 2005-01-26 | 富士通株式会社 | 文書理解支援装置、要約文生成方法、並びに文書理解支援プログラムを記録したコンピュータ読み取り可能な記録媒体 |
CN1609845A (zh) * | 2003-10-22 | 2005-04-27 | 国际商业机器公司 | 用于改善由机器自动生成的摘要的可读性的方法和装置 |
US20080027935A1 (en) * | 2005-11-30 | 2008-01-31 | Sahar Sarid | Anchored search engine results display |
US20080104506A1 (en) * | 2006-10-30 | 2008-05-01 | Atefeh Farzindar | Method for producing a document summary |
US7966316B2 (en) * | 2008-04-15 | 2011-06-21 | Microsoft Corporation | Question type-sensitive answer summarization |
US9317595B2 (en) * | 2010-12-06 | 2016-04-19 | Yahoo! Inc. | Fast title/summary extraction from long descriptions |
US20140330794A1 (en) * | 2012-12-10 | 2014-11-06 | Parlant Technology, Inc. | System and method for content scoring |
US8488916B2 (en) * | 2011-07-22 | 2013-07-16 | David S Terman | Knowledge acquisition nexus for facilitating concept capture and promoting time on task |
US9466294B1 (en) * | 2013-05-21 | 2016-10-11 | Amazon Technologies, Inc. | Dialog management system |
US9348817B2 (en) * | 2014-01-09 | 2016-05-24 | International Business Machines Corporation | Automatic generation of question-answer pairs from conversational text |
US20150254213A1 (en) * | 2014-02-12 | 2015-09-10 | Kevin D. McGushion | System and Method for Distilling Articles and Associating Images |
US9317498B2 (en) * | 2014-05-23 | 2016-04-19 | Codeq Llc | Systems and methods for generating summaries of documents |
US9886461B1 (en) * | 2014-07-11 | 2018-02-06 | Google Llc | Indexing mobile onscreen content |
CN104636465B (zh) * | 2015-02-10 | 2018-11-16 | 百度在线网络技术(北京)有限公司 | 网页摘要生成方法、展示方法及相应装置 |
CN105677764B (zh) * | 2015-12-30 | 2020-05-08 | 百度在线网络技术(北京)有限公司 | 信息提取方法和装置 |
US20180349360A1 (en) * | 2017-01-05 | 2018-12-06 | Social Networking Technology, Inc. | Systems and methods for automatically generating news article |
-
2019
- 2019-12-12 CN CN201911272761.1A patent/CN111061860A/zh active Pending
-
2020
- 2020-06-02 US US16/890,685 patent/US11687715B2/en active Active
- 2020-06-04 JP JP2020097663A patent/JP7050857B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005242624A (ja) | 2004-02-26 | 2005-09-08 | Matsushita Electric Ind Co Ltd | 情報蓄積システムおよび情報蓄積方法 |
JP2008129692A (ja) | 2006-11-17 | 2008-06-05 | Nec Corp | 回答支援装置、回答支援システム、回答支援方法および回答支援プログラム |
JP2011257878A (ja) | 2010-06-07 | 2011-12-22 | Nippon Telegr & Teleph Corp <Ntt> | 重要語句抽出装置及び方法及びプログラム |
JP2013214294A (ja) | 2012-03-06 | 2013-10-17 | Okwave:Kk | クライアントシステム及びサーバ |
Also Published As
Publication number | Publication date |
---|---|
US20210182491A1 (en) | 2021-06-17 |
CN111061860A (zh) | 2020-04-24 |
JP2021096814A (ja) | 2021-06-24 |
US11687715B2 (en) | 2023-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7050857B2 (ja) | 要約生成方法及び装置 | |
CN111414498B (zh) | 多媒体信息推荐方法、装置及电子设备 | |
CN106874467B (zh) | 用于提供搜索结果的方法和装置 | |
US11023716B2 (en) | Method and device for generating stickers | |
CN111368185B (zh) | 数据展示方法、装置、存储介质及电子设备 | |
US11758088B2 (en) | Method and apparatus for aligning paragraph and video | |
JP2021103506A (ja) | 情報を生成するための方法及び装置 | |
US11800201B2 (en) | Method and apparatus for outputting information | |
US20240168605A1 (en) | Text input method and apparatus, and electronic device and storage medium | |
CN112287206A (zh) | 信息处理方法、装置和电子设备 | |
CN110825988A (zh) | 一种信息展示方法、装置和电子设备 | |
CN111400625A (zh) | 页面处理方法、装置、电子设备及计算机可读存储介质 | |
CN114357325A (zh) | 内容搜索方法、装置、设备及介质 | |
US20230409813A1 (en) | Document processing method, apparatus and device, and medium | |
WO2024087821A1 (zh) | 信息处理方法、装置和电子设备 | |
CN111400581B (zh) | 用于标注样本的系统、方法和装置 | |
CN109472028B (zh) | 用于生成信息的方法和装置 | |
CN112084441A (zh) | 信息检索方法、装置和电子设备 | |
CN112307393A (zh) | 信息发布方法、装置和电子设备 | |
CN112287171A (zh) | 信息处理方法、装置和电子设备 | |
JP2024500300A (ja) | 情報インタラクション方法、装置、及び機器 | |
KR20220127935A (ko) | 정보 상호작용을 위한 방법 및 장치 | |
CN112182290A (zh) | 一种信息处理方法、装置和电子设备 | |
CN113778387B (zh) | 用于生成代码的方法和装置 | |
CN111930229B (zh) | 人机交互方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200608 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200608 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210803 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211101 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220322 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220329 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7050857 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |