JP2016062181A - Weight vector learning device, summary generation device, method, and program - Google Patents

Weight vector learning device, summary generation device, method, and program Download PDF

Info

Publication number
JP2016062181A
JP2016062181A JP2014188068A JP2014188068A JP2016062181A JP 2016062181 A JP2016062181 A JP 2016062181A JP 2014188068 A JP2014188068 A JP 2014188068A JP 2014188068 A JP2014188068 A JP 2014188068A JP 2016062181 A JP2016062181 A JP 2016062181A
Authority
JP
Japan
Prior art keywords
unit
weight vector
discourse analysis
single document
extraction unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014188068A
Other languages
Japanese (ja)
Other versions
JP6170891B2 (en
Inventor
ジュン オウ
Jung Oh
ジュン オウ
康久 吉田
Yasuhisa Yoshida
康久 吉田
努 平尾
Tsutomu Hirao
努 平尾
克仁 須藤
Katsuto Sudo
克仁 須藤
昌明 永田
Masaaki Nagata
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014188068A priority Critical patent/JP6170891B2/en
Publication of JP2016062181A publication Critical patent/JP2016062181A/en
Application granted granted Critical
Publication of JP6170891B2 publication Critical patent/JP6170891B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

PROBLEM TO BE SOLVED: To allow quality of a single document summary to be improved.SOLUTION: A feature quantity extraction part 24 extracts a feature quantity every pair of a text unit included in an inputted single document. A discourse analysis part 26, on the basis of the extracted feature quantity every pair, an initial value of a weight vector, or value of the weight vector updated previously, generates a prediction discourse analytic tree. A summary extraction part 28, on the basis of the generated prediction discourse analytic tree, generates a summary of a single document. A summary comparison part 30 compares the generated summary with a correct answer of a summary prepared in advance with respect to a single document. A weight vector update part 32, when as a result of comparison, there is a difference between the summary and the correct answer of the summary, updates the value of the weight vector. A determination repetition part 34, repeats the generation by the discourse analysis part, generation by the summary extraction part, the comparison by the summary comparison part, and update by the weight vector update part until a predetermined termination condition is satisfied.SELECTED DRAWING: Figure 4

Description

本発明は、重みベクトル学習装置、方法、及びプログラムに係り、特に、入力された文書を要約するための重みベクトルを学習する重みベクトル学習装置、方法、及びプログラム、並びに入力された文書を要約する要約生成装置、方法、及びプログラムに関する。   The present invention relates to a weight vector learning apparatus, method, and program, and more particularly, a weight vector learning apparatus, method, and program for learning a weight vector for summarizing an input document, and an input document. The present invention relates to a summary generation apparatus, method, and program.

要約は、自然言語処理の分野において長年にわたって重要な研究課題であり、情報の急激な増大により、近年ますます重要度を増してきている。取り扱う文書数に応じて、要約を、単一文書要約及び複数文書要約の2種類に分類することができる。単一文書要約は、単一の文書のみを扱い、複数文書要約は、関連文書一式を扱う。   Abstracts have been an important research subject for many years in the field of natural language processing and have become increasingly important in recent years due to the rapid increase in information. Depending on the number of documents handled, summaries can be classified into two types: single document summaries and multiple document summaries. Single document summaries deal only with a single document, and multiple document summaries deal with a set of related documents.

非特許文献1は単一文書要約についての先行研究であり、文書を修辞構造理論談話木(Rhetorical Structure Theory Discourse Tree;以下「RST-DT」と略す)とみなし、要約生成のために木構造から抽出された優先ランクに従って、テキスト単位を選択している。また、雑音のある通信路モデルによりRST-DTが与えられた要約の確率を直接的にモデルする文書圧縮方法も知られている(非特許文献2)。   Non-Patent Document 1 is a previous study on single document summarization, which considers a document as a rhetorical structure theory discourse tree (hereinafter abbreviated as “RST-DT”). A text unit is selected according to the extracted priority rank. A document compression method that directly models the probability of summarization given RST-DT by a noisy channel model is also known (Non-Patent Document 2).

要約を、所与の談話解析木についての最適化問題とみなすことにより、談話関係及び最適化の双方を考慮することができる。最近、要約を、木構造についてのナップザック問題とみて、整数線形計画問題を用いて定式化することも知られている(非特許文献3)。報告されている結果によると、正解の談話解析木に基づく場合には、最先端の方法を凌駕することが可能になる。非特許文献4は最先端の解析法の一つであり、本発明の談話解析でも利用している。   By considering the summary as an optimization problem for a given discourse analysis tree, both discourse relationships and optimization can be considered. Recently, it is also known that a summary is formulated using an integer linear programming problem as a knapsack problem for a tree structure (Non-patent Document 3). According to the reported results, it is possible to surpass the state-of-the-art method when based on the correct discourse analysis tree. Non-Patent Document 4 is one of the most advanced analysis methods, and is also used in the discourse analysis of the present invention.

Marcu, Daniel. ”Improving summarization through rhetorical parsing tuning.” The 6th Workshop on Very Large Corpora. 1998.Marcu, Daniel. “Improving summarization through rhetorical parsing tuning.” The 6th Workshop on Very Large Corpora. 1998. Daum III, Hal, and Daniel Marcu. ”A noisy-channel model for document compression.” Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics,2002.Daum III, Hal, and Daniel Marcu. “A noisy-channel model for document compression.” Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2002. Hirao, Tsutomu, et al. ”Single-Document Summarization as a Tree Knapsack Problem.” Proceedings of the 2013 Conference on Empirical Methods in Natural Language. Association for Computational Linguistics.2013.Hirao, Tsutomu, et al. “Single-Document Summarization as a Tree Knapsack Problem.” Proceedings of the 2013 Conference on Empirical Methods in Natural Language. Association for Computational Linguistics. 2013. McDonald, Ryan, Koby Crammer, and Fernando Pereira. ”Online large-margin training of dependency parsers.” Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2005.McDonald, Ryan, Koby Crammer, and Fernando Pereira. “Online large-margin training of dependency parsers.” Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2005.

非特許文献1及び2の方法は、談話関係を考慮しているが、最適化に失敗する場合があるという問題がある。   The methods of Non-Patent Documents 1 and 2 consider discourse relations, but have a problem that optimization may fail.

また、いくつかの事前定義された原則に基づいて人間によって生成された談話解析木(正解の談話解析木)は、要約等の実用的なタスクに用いることを前提としていないので、要約を目的とした場合には、必ずしも正解ではないという問題がある。   In addition, discourse analysis trees (correct discourse analysis trees) generated by humans based on some predefined principles are not intended for use in practical tasks such as summarization. In such a case, there is a problem that the answer is not always correct.

そのため、注釈付きデータに基づいて開発された談話解析に用いる重みベクトルは要約には不適切な可能性がある。談話解析は、人手で注釈付けされたコーパスとできるだけ一致する解析木を生成することを目標としているが、要約は、高品質の要約を得ることが目的であり、談話解析木の精度は必ずしも関係ないためである。   Therefore, the weight vector used for discourse analysis developed based on annotated data may be inappropriate for summarization. Discourse analysis aims to generate an parse tree that matches the annotated corpus as much as possible, but the purpose of the summarization is to obtain a high-quality summary, and the accuracy of the discourse parse tree is not necessarily related. This is because there is not.

一言で言えば、高品質の要約を抽出することに談話関係は重要な役割を果たしているものの、談話解析木をそのまま利用するような簡単な方法で、実用的な要約を作成することは難しいという問題がある。   In short, discourse relations play an important role in extracting high-quality summaries, but it is difficult to create practical summaries in a simple way that uses discourse analysis trees as they are. There is a problem.

本発明では、上記問題点を解決するために成されたものであり、単一文書要約の品質を向上させる談話解析の重みベクトルを学習することができる重みベクトル学習装置、方法、及びプログラムを提供することを目的とする。   The present invention provides a weight vector learning apparatus, method, and program that can solve the above-mentioned problems and can learn a discourse analysis weight vector that improves the quality of a single document summary. The purpose is to do.

また、単一文書要約の品質を向上させることができる要約生成装置、方法、及びプログラムを提供することを目的とする。   Another object of the present invention is to provide a summary generation apparatus, method, and program capable of improving the quality of a single document summary.

上記目的を達成するために、第1の発明に係る重みベクトル学習装置は、入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出する特徴量抽出部と、前記特徴量抽出部により抽出されたペア毎の特徴量と、重みベクトルの初期値、又は前回更新された重みベクトルの値とに基づいて、前記単一文書のうちの最も重要な前記テキスト単位をルートノードとし、かつ前記単一文書のうちの各テキスト単位を各ノードとし、かつ修飾関係を有する前記各テキスト単位間に対応するノード間をエッジで結合した、前記単一文書の各テキスト単位の依存構造に基づく談話解析木である予測談話解析木を生成する談話解析部と、前記談話解析部により生成された予測談話解析木に基づいて前記単一文書の要約を生成する要約抽出部と、前記要約抽出部により生成された要約と、前記単一文書について予め用意された要約の正解とを比較する要約比較部と、前記要約比較部により前記要約抽出部により生成された要約と、前記単一文書について予め用意された要約の正解とを比較した結果、前記要約と、前記要約の正解とに差異がある場合、前記重みベクトルの値を更新する重みベクトル更新部と、前記談話解析部による生成と、前記要約抽出部による生成と、前記要約比較部による比較と、前記重みベクトル更新部による更新と、を予め定められた終了条件を満たすまで繰り返す繰り返し判定部と、を含んで構成されている。   In order to achieve the above object, a weight vector learning device according to a first invention includes a feature amount extraction unit that extracts a feature amount for each pair of text units included in an input single document, and the feature Based on the feature value for each pair extracted by the quantity extraction unit and the initial value of the weight vector or the value of the weight vector updated last time, the most important text unit of the single document is determined as a root node. Dependent structure of each text unit of the single document, wherein each text unit of the single document is a node, and nodes corresponding to the text units having a modification relationship are connected by an edge. A discourse analysis unit that generates a predictive discourse analysis tree that is a discourse analysis tree based on the above; a summary extraction unit that generates a summary of the single document based on the predictive discourse analysis tree generated by the discourse analysis unit; A summary comparison unit that compares the summary generated by the summary extraction unit with a correct summary prepared in advance for the single document; the summary generated by the summary extraction unit by the summary comparison unit; When there is a difference between the summary and the correct answer of the summary prepared in advance for one document, the weight vector update unit that updates the value of the weight vector and the discourse analysis unit A repetition determination unit that repeats generation, generation by the summary extraction unit, comparison by the summary comparison unit, and update by the weight vector update unit until a predetermined end condition is satisfied. Yes.

第2の発明に係る重みベクトル学習方法は、特徴量抽出部と、談話解析部と、要約抽出部と、要約比較部と、重みベクトル更新部と、繰り返し判定部と、を含む、重みベクトル学習装置における、重みベクトル学習方法であって、前記特徴量抽出部は、入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出し、前記談話解析部は、前記特徴量抽出部により抽出されたペア毎の特徴量と、重みベクトルの初期値、又は前回更新された重みベクトルの値とに基づいて、前記単一文書のうちの最も重要な前記テキスト単位をルートノードとし、かつ前記単一文書のうちの各テキスト単位を各ノードとし、かつ修飾関係を有する前記各テキスト単位間に対応するノード間をエッジで結合した、前記単一文書の各テキスト単位の依存構造に基づく談話解析木である予測談話解析木を生成し、前記要約抽出部は、前記談話解析部により生成された予測談話解析木に基づいて前記単一文書の要約を生成し、前記要約比較部は、前記要約抽出部により生成された要約と、前記単一文書について予め用意された要約の正解とを比較し、前記重みベクトル更新部は、前記要約比較部により前記要約抽出部により生成された要約と、前記単一文書について予め用意された要約の正解とを比較した結果、前記要約と、前記要約の正解とに差異がある場合、前記重みベクトルの値を更新し、前記繰り返し判定部は、前記談話解析部による生成と、前記要約抽出部による生成と、前記要約比較部による比較と、前記重みベクトル更新部による更新と、を予め定められた終了条件を満たすまで繰り返す。   A weight vector learning method according to a second invention includes a feature amount extraction unit, a discourse analysis unit, a summary extraction unit, a summary comparison unit, a weight vector update unit, and an iterative determination unit. A weight vector learning method in the apparatus, wherein the feature amount extraction unit extracts a feature amount for each pair of text units included in an input single document, and the discourse analysis unit includes the feature amount. Based on the feature value for each pair extracted by the extraction unit and the initial value of the weight vector or the value of the weight vector updated last time, the most important text unit of the single document is set as a root node. And each text unit of the single document is defined as each node, and nodes corresponding to the text units having a modification relationship are connected by edges. A predicted discourse analysis tree that is a discourse analysis tree based on a structure is generated, and the summary extraction unit generates a summary of the single document based on the predicted discourse analysis tree generated by the discourse analysis unit, and the summary comparison The summary compares the summary generated by the summary extraction unit with the correct summary prepared in advance for the single document, and the weight vector update unit is generated by the summary extraction unit by the summary comparison unit. When the summary and the correct answer of the summary prepared in advance for the single document are different, if the summary and the correct answer of the summary are different, the value of the weight vector is updated, and the iterative determination unit The generation by the discourse analysis unit, the generation by the summary extraction unit, the comparison by the summary comparison unit, and the update by the weight vector update unit until a predetermined end condition is satisfied Return Ri.

第1及び第2の発明によれば、特徴量抽出部により、入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出し、談話解析部により、抽出されたペア毎の特徴量と、重みベクトルの初期値、又は前回更新された重みベクトルの値とに基づいて、単一文書のうちの最も重要なテキスト単位をルートノードとし、かつ単一文書のうちの各テキスト単位を各ノードとし、かつ修飾関係を有する各テキスト単位間に対応するノード間をエッジで結合した、単一文書の各テキスト単位の依存構造に基づく談話解析木である予測談話解析木を生成し、要約抽出部により、生成された予測談話解析木に基づいて単一文書の要約を生成し、要約比較部により、生成された要約と、単一文書について予め用意された要約の正解とを比較し、重みベクトル更新部により、要約抽出部により生成された要約と、単一文書について予め用意された要約の正解とを比較した結果、要約と、要約の正解とに差異がある場合、重みベクトルの値を更新し、繰り返し判定部により、談話解析部による生成と、要約抽出部による生成と、要約比較部による比較と、重みベクトル更新部による更新と、を予め定められた終了条件を満たすまで繰り返す。   According to the first and second inventions, the feature amount extraction unit extracts a feature amount for each pair of text units included in the input single document, and the discourse analysis unit extracts each pair. The most important text unit of a single document is the root node and each text of the single document is based on the feature quantity of the text and the initial value of the weight vector or the previously updated weight vector value. Generate a predictive discourse analysis tree, which is a discourse analysis tree based on the dependency structure of each text unit of a single document, in which the unit is each node and the nodes corresponding to each text unit having a modification relationship are connected by an edge. The summary extraction unit generates a summary of a single document based on the generated predicted discourse analysis tree, and the summary comparison unit compares the generated summary with the correct summary prepared in advance for the single document. And heavy When the vector update unit compares the summary generated by the summary extraction unit with the summary correct answer prepared in advance for a single document, and there is a difference between the summary and the summary correct answer, the weight vector value is set. The repetitive determination unit repeats the generation by the discourse analysis unit, the generation by the summary extraction unit, the comparison by the summary comparison unit, and the update by the weight vector update unit until a predetermined end condition is satisfied.

このように、第1及び第2の発明によれば、入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出し、抽出されたペア毎の特徴量と、重みベクトルの初期値、又は前回更新された重みベクトルの値とに基づいて、予測談話解析木を生成し、生成された予測談話解析木に基づいて単一文書の要約を生成し、生成された要約と、単一文書について予め用意された要約の正解とを比較した結果、要約と、要約の正解とに差異がある場合、重みベクトルの値を更新することを繰り返すことにより、単一文書要約の品質を向上させる談話解析の重みベクトルを学習することができる。   As described above, according to the first and second inventions, the feature quantity is extracted for each pair of text units included in the input single document, and the feature quantity and the weight vector for each extracted pair are extracted. Or a previously updated weight vector value, a predicted discourse analysis tree is generated, a single document summary is generated based on the generated predicted discourse analysis tree, and the generated summary If there is a difference between the summary and the correct answer of the summary prepared in advance for a single document, there is a difference between the summary and the correct answer of the summary. It is possible to learn discourse analysis weight vectors that improve

また、第1及び第2の発明において、前記重みベクトル更新部は、前記要約比較部により、前記要約抽出部により生成された要約と、前記単一文書について予め用意された要約の正解とを比較した結果、前記要約と、前記要約の正解とに差異がある場合、前記要約の正解のみに現れる前記テキスト単位に対応する前記予測談話解析木のノードを繰り上げ、前記要約にのみ現れる前記テキスト単位に対応する前記予測談話解析木のノードを繰り下げた新規談話解析木を生成し、前記重みベクトルに基づいて前記単一文書について生成される前記談話解析木が、前記新規談話解析木となるように、前記重みベクトルの値を更新することができる。   In the first and second aspects of the invention, the weight vector update unit compares the summary generated by the summary extraction unit with a correct summary prepared for the single document by the summary comparison unit. As a result, when there is a difference between the summary and the correct answer of the summary, the predicted discourse analysis tree node corresponding to the text unit appearing only in the correct answer of the summary is moved up, and the text unit appearing only in the summary A new discourse analysis tree is generated by lowering the corresponding node of the predicted discourse analysis tree, and the discourse analysis tree generated for the single document based on the weight vector is the new discourse analysis tree. The value of the weight vector can be updated.

第3の発明に係る要約生成装置は、入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出する特徴量抽出部と、前記特徴量抽出部により抽出されたペア毎の特徴量と、第1の発明の重みベクトル学習装置により更新した前記重みベクトルの値とに基づいて、談話解析木を生成する談話解析部と、前記談話解析部により生成された談話解析木に基づいて、前記単一文書の要約を生成する要約抽出部と、を含んで構成されている。   According to a third aspect of the present invention, there is provided a summary generation device including a feature amount extraction unit that extracts a feature amount for each pair of text units included in an input single document, and each pair extracted by the feature amount extraction unit. A discourse analysis unit that generates a discourse analysis tree based on the feature amount of the first and the weight vector values updated by the weight vector learning device of the first invention, and a discourse analysis tree generated by the discourse analysis unit And a summary extractor for generating a summary of the single document.

第4の発明に係る要約生成方法は、特徴量抽出部と、談話解析部と、要約抽出部と、を含む要約生成装置における、要約生成方法であって、前記特徴量抽出部は、入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出し、前記談話解析部は、前記特徴量抽出部により抽出されたペア毎の特徴量と、第2の発明の重みベクトル学習方法により更新した前記重みベクトルの値とに基づいて、談話解析木を生成し、前記要約抽出部は、前記談話解析部により生成された談話解析木に基づいて、前記単一文書の要約を生成する。   A summary generation method according to a fourth invention is a summary generation method in a summary generation apparatus including a feature amount extraction unit, a discourse analysis unit, and a summary extraction unit, wherein the feature amount extraction unit is input The feature amount is extracted for each pair of text units included in the single document, and the discourse analysis unit extracts the feature amount for each pair extracted by the feature amount extraction unit and the weight vector of the second invention. A discourse analysis tree is generated based on the value of the weight vector updated by the learning method, and the summary extraction unit calculates a summary of the single document based on the discourse analysis tree generated by the discourse analysis unit. Generate.

第3及び第4の発明によれば、特徴量抽出部により、入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出し、談話解析部により、抽出されたペア毎の特徴量と、重みベクトル学習装置又は重みベクトル学習方法により更新した重みベクトルの値とに基づいて、談話解析木を生成し、要約抽出部により、生成された談話解析木に基づいて、単一文書の要約を生成する。   According to the third and fourth inventions, the feature amount extraction unit extracts a feature amount for each pair of text units included in the input single document, and the discourse analysis unit extracts each pair. And a discourse analysis tree is generated based on the feature vector and the weight vector value updated by the weight vector learning device or the weight vector learning method, and the summary extraction unit generates a single discourse analysis tree based on the generated discourse analysis tree. Generate document summaries.

このように、第3及び第4の発明によれば、入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出し、抽出されたペア毎の特徴量と、重みベクトル学習装置又は重みベクトル学習方法により更新した重みベクトルの値とに基づいて、談話解析木を生成し、生成された談話解析木に基づいて、単一文書の要約を生成することにより、単一文書要約の品質を向上させることができる。   As described above, according to the third and fourth inventions, the feature amount is extracted for each pair of text units included in the input single document, and the feature amount and the weight vector for each extracted pair are extracted. A discourse analysis tree is generated based on the weight vector value updated by the learning device or the weight vector learning method, and a single document summary is generated based on the generated discourse analysis tree. Summarization quality can be improved.

また、本発明のプログラムは、コンピュータを、上記の重みベクトル学習装置、及び要約生成装置を構成する各部として機能させるためのプログラムである。   Moreover, the program of this invention is a program for functioning a computer as each part which comprises said weight vector learning apparatus and summary production | generation apparatus.

以上説明したように、本発明の重みベクトル学習装置、方法、及びプログラムによれば、入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出し、抽出されたペア毎の特徴量と、重みベクトルの初期値、又は前回更新された重みベクトルの値とに基づいて、予測談話解析木を生成し、生成された予測談話解析木に基づいて単一文書の要約を生成し、生成された要約と、単一文書について予め用意された要約の正解とを比較した結果、要約と、要約の正解とに差異がある場合、重みベクトルの値を更新することを繰り返すことにより、単一文書要約の品質を向上させる談話解析の重みベクトルを学習することができる。   As described above, according to the weight vector learning device, method, and program of the present invention, feature quantities are extracted for each pair of text units included in an input single document, and each extracted pair is extracted. Generates a predicted discourse parse tree based on the feature quantity and the initial value of the weight vector or the previously updated weight vector value, and generates a single document summary based on the generated predicted discourse parse tree If there is a difference between the summary and the correct summaries prepared for a single document, and the summaries are different from the correct answers, the updating of the weight vector value is repeated. It is possible to learn discourse analysis weight vectors that improve the quality of single document summaries.

また、本発明の要約生成装置、方法、及びプログラムによれば、入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出し、抽出されたペア毎の特徴量と、学習した重みベクトルの値とに基づいて、談話解析木を生成し、生成された談話解析木に基づいて、単一文書の要約を生成することにより、単一文書要約の品質を向上させることができる。   Further, according to the summary generation device, method, and program of the present invention, the feature amount is extracted for each pair of text units included in the input single document, and the extracted feature amount for each pair; It is possible to improve the quality of a single document summary by generating a discourse analysis tree based on the learned weight vector values and generating a single document summary based on the generated discourse analysis tree. it can.

MIRAの一般方式を示すアルゴリズムの詳細を示す図である。It is a figure which shows the detail of the algorithm which shows the general system of MIRA. 重みベクトルの学習のアルゴリズムの詳細を示す図である。It is a figure which shows the detail of the algorithm of weight vector learning. 要約アルゴリズムの詳細を示す図である。It is a figure which shows the detail of a summary algorithm. 本発明の実施の形態に係る重みベクトル学習装置の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the weight vector learning apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る要約生成装置の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the summary production | generation apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る重みベクトル学習装置における重みベクトル学習処理ルーチンを示すフローチャート図である。It is a flowchart figure which shows the weight vector learning process routine in the weight vector learning apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る要約生成装置における要約生成処理ルーチンを示すフローチャート図である。It is a flowchart figure which shows the summary production | generation processing routine in the summary production | generation apparatus which concerns on embodiment of this invention. RST-DTについての結果を示す図である。It is a figure which shows the result about RST-DT. TAC-2011についての結果を示す図である。It is a figure which shows the result about TAC-2011.

以下、図面を参照して本発明の実施の形態を詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

<本発明の実施の形態の原理>
まず、本発明の実施の形態に係る重みベクトル学習装置の原理について説明する。本実施の形態に係る重みベクトル学習装置は、2つの主要な部分からなる。1つ目は談話解析部分であり、2つ目は要約部分である。本実施の形態に係る重みベクトル学習装置の独創性は、その包括性にある。
<Principle of Embodiment of the Present Invention>
First, the principle of the weight vector learning device according to the embodiment of the present invention will be described. The weight vector learning apparatus according to the present embodiment is composed of two main parts. The first is a discourse analysis part, and the second is a summary part. The originality of the weight vector learning device according to the present embodiment is its comprehensiveness.

本実施の形態においては、談話解析のトレーニングにおいて、談話解析で用いられる重みベクトルがトレーニングされる度に、学習データに対する新しい予測談話解析木を生成する。また、トレーニングされる度に生成された新しい予測談話解析木に基づいて要約を抽出し、人間により生成された正解の要約を表す標準要約と比較する。そして、予測談話解析木に基づく要約と、標準要約とを比較し、比較結果による両者の違いに基づいて、予測談話解析木を調整し、調整された談話解析木を新規談話解析木とする。そして、予測談話解析木と、新規談話解析木と、重みベクトルとに基づいて、新たな談話解析で用いられる重みベクトルを反復回用の学習データとして生成する。反復を数回繰り返した後、要約という特定のタスクに最適化された、更新後の談話解析で用いられる重みベクトルを取得することができる。この取得できる更新後の談話解析で用いられる重みベクトルは、文書を談話解析するのに用いられ、文書と、当該談話解析で用いられる重みベクトルとから生成される談話解析木に基づいて、文書から、要約を抽出することができる。なお、当該更新後の談話解析で用いられる重みベクトルは、談話解析精度が高いというよりも精度の良い要約を行うために最適化されている。そのため、談話解析と要約との隔たりを克服している。   In this embodiment, each time a weight vector used in discourse analysis is trained in discourse analysis training, a new predicted discourse analysis tree for learning data is generated. In addition, a summary is extracted based on a new predicted discourse parse tree generated each time it is trained, and is compared with a standard summary representing a summary of correct answers generated by humans. Then, the summary based on the predicted discourse analysis tree is compared with the standard summary, the predicted discourse analysis tree is adjusted based on the difference between the two based on the comparison result, and the adjusted discourse analysis tree is set as a new discourse analysis tree. Then, based on the predicted discourse analysis tree, the new discourse analysis tree, and the weight vector, a weight vector used in a new discourse analysis is generated as learning data for repeated iterations. After repeating the iteration several times, the weight vector used in the updated discourse analysis optimized for the specific task of summarization can be obtained. The weight vector used in the updated discourse analysis that can be obtained is used for the discourse analysis of the document, and is based on the discourse analysis tree generated from the document and the weight vector used in the discourse analysis. A summary can be extracted. Note that the weight vectors used in the updated discourse analysis are optimized for summarizing with higher accuracy than that of high discourse analysis accuracy. This overcomes the gap between discourse analysis and summarization.

次に、タスク志向談話解析について説明する。談話解析アルゴリズムは、複数種類知られているが、本実施の形態においては、動的ボトムアップ談話解析アルゴリズム(非特許文献4)を採用する。当該談話解析アルゴリズムは、当初、文解析用に設計されたものであるが、談話解析へと容易に移行することができる。   Next, task-oriented discourse analysis will be described. Although a plurality of types of discourse analysis algorithms are known, a dynamic bottom-up discourse analysis algorithm (Non-Patent Document 4) is adopted in the present embodiment. The discourse analysis algorithm was originally designed for sentence analysis, but can easily be shifted to discourse analysis.

入力文書を、X=x,x,...,xと定義する。ここで、xは、入力文書中のi番目の文を示している。文xから文xに対して、従属性があれば、(i,j)と表す。この場合、xがヘッド(head)であり、xが従属している。文単位を一つのノードと考えると、各ノードのヘッドが1つのみであるとするならば、従属関係は別々のペア同士では独立しているものと仮定する。各ノードペアに対し、得点を割り当て、2つのノード間に従属関係がある確率を示すことにすると、文書を談話解析する問題は、全ノードを連結すると共に、エッジの全得点の合計が最高となる木を発見する問題になる。これは、ある有向グラフにおいて、最大全域木(maximum spanning tree)を発見することになる。Eisnerアルゴリズムにおいては、談話解析中に方向及び要素の完全性を記録するのに2つの二進変数が必要であり、談話解析にО(n)時間かかる(非特許文献4)。 Let the input document be X = x 1 , x 2 ,. . . , Xn . Here, x i indicates the i-th sentence in the input document. If there is a dependency from the sentence x i to the sentence x j , it is expressed as (i, j). In this case, x i is a head and x j is subordinate. Considering a sentence unit as one node, if each node has only one head, it is assumed that the dependency relationship is independent between different pairs. Assigning a score to each node pair and indicating the probability that there is a dependency between the two nodes, the problem of discourse analysis of the document is to connect all the nodes and the sum of all the scores of the edges is the highest It becomes a problem to discover trees. This will find a maximum spanning tree in a directed graph. The Eisner algorithm requires two binary variables to record direction and element integrity during discourse analysis, and discourse analysis takes O (n 3 ) time (Non-Patent Document 4).

ここで、重要なことは、全ての取り得るエッジsに対して、得点を定義することである。文のペア(i,j)は、特徴ベクトルf(i,j)、及び以下の式で示される得点s(i,j)により表現可能である。   Here, what is important is to define scores for all possible edges s. A sentence pair (i, j) can be expressed by a feature vector f (i, j) and a score s (i, j) expressed by the following equation.

図1に示す、MIRAの一般方式を示すアルゴリズムの要点は、特徴についての重みベクトルを定義することである。本実施の形態においては、MIRAを用いて、重みベクトル   The main point of the algorithm shown in FIG. 1 that shows the general scheme of MIRA is to define weight vectors for features. In the present embodiment, the weight vector is used using MIRA.

をトレーニングする。 To train.

また、本実施の形態では、図1に示す手順は、数回繰り返され、最終的な重みベクトルを全履歴   In the present embodiment, the procedure shown in FIG. 1 is repeated several times, and the final weight vector is stored in the entire history.

の算術平均とすることで、学習データへの過度の適合を避けている。 By using the arithmetic mean of, excessive adaptation to the learning data is avoided.

次に、トレーニング例に従って、重みベクトルを更新する場合について説明する。従来の談話解析方法は、正解の談話解析木に従って、重みベクトル   Next, a case where the weight vector is updated according to the training example will be described. The conventional discourse analysis method uses weight vectors according to the correct discourse analysis tree.

を更新しようとしていた。すなわち、下記(1)式及び下記(2)式に従って、重みベクトルを更新することになる。 Was trying to update. That is, the weight vector is updated according to the following formula (1) and the following formula (2).

ここで、 here,

は、予測談話解析木であり、yは正解の談話解析木であり、損失関数は、ハミング関数であり、下記(2)式となる。なお、正解の談話解析木は、事前に定義された原則に基づいて人間によって生成されたものある。 Is a predicted discourse analysis tree, y i is a correct discourse analysis tree, a loss function is a Hamming function, and is expressed by the following equation (2). Note that the correct discourse analysis tree is generated by a human based on a pre-defined principle.

本実施の形態においては、上記(1)式、及び上記(2)式の正解の談話解析木の代わりに、新規談話解析木を用いて、下記(3)式及び下記(4)式に従って、重みベクトルをトレーニングする。   In the present embodiment, instead of the correct discourse analysis tree of the above formula (1) and the above formula (2), a new discourse analysis tree is used, and according to the following formula (3) and the following formula (4): Train the weight vector.

上記(3)式においては、上記(1)式の正解の談話解析木yを、新規談話解析木y に置き換えている。新規談話解析木y は、予測談話解析木 In the above equation (3), the correct discourse analysis tree y i of the above equation (1) is replaced with a new discourse analysis tree y * i . New discourse analysis tree y * i is the predicted discourse analysis tree

に基づいて生成された要約と、標準要約との差異に応じて、予測談話解析木 Depending on the difference between the summary generated based on the standard summary and the standard summary,

内に含まれるノードの各々を上下に移動させることにより生成される。談話解析木の調整においては、要約に現れたテキスト単位に対応したノードに着目している。詳細については、図2に示すアルゴリズム2に示す。 It is generated by moving up and down each of the nodes contained within. In the adjustment of the discourse analysis tree, attention is paid to nodes corresponding to text units appearing in the summary. Details are shown in Algorithm 2 shown in FIG.

なお、図2に示す、アルゴリズム2における「4)」及び「5)」における対応ノードは、文、節、又は文書内の他の基本的要素であり、本実施の形態においては、テキスト単位と定義する。RST-DTにおいて、本実施の形態においては、基本文書単位(文より短い単位で概ね節に相当する;以下「EDU」(Elementary Discourse Unit)と省略する)を用いている。アルゴリズム2の処理を、繰り返し条件を満たすまで、繰り返すことによって、重みベクトルの履歴の算術平均を、最終的な重みベクトルとして用いることができる。このように取得される重みベクトルが、要約生成のために特に最適化される。   Note that the corresponding nodes in “4)” and “5)” in Algorithm 2 shown in FIG. 2 are sentences, sections, or other basic elements in the document. Define. In the present embodiment, the RST-DT uses a basic document unit (a unit shorter than a sentence and generally corresponds to a section; hereinafter abbreviated as “EDU” (Elementary Discourse Unit)). By repeating the process of algorithm 2 until the repetition condition is satisfied, the arithmetic average of the history of the weight vectors can be used as the final weight vector. The weight vector thus obtained is particularly optimized for summary generation.

ここで、標準要約にのみ現れるテキスト単位に対応するノードは繰り上げられる。これは、図3に示す要約アルゴリズムであるアルゴリズム3において、談話解析木における上位のノード(ルートに近いノード)には、要約を生成する際に高い得点が割り当てられるためである。また、予測談話解析木に基づいて生成された要約にのみ現れるテキスト単位に対応するノードは繰り下げられる。これは、談話解析木における下位のノードには、要約を生成する際に低い得点が割り当てられるためである。   Here, nodes corresponding to text units appearing only in the standard summary are moved up. This is because, in Algorithm 3, which is the summarization algorithm shown in FIG. 3, high scores are assigned to higher nodes (nodes close to the root) in the discourse analysis tree when a summary is generated. Also, the node corresponding to the text unit that appears only in the summary generated based on the predicted discourse analysis tree is carried down. This is because lower scores are assigned to lower nodes in the discourse analysis tree when a summary is generated.

図3に示すアルゴリズム3は、談話関係を考慮するために制約を弱めた、談話解析木に基づく要約アルゴリズムである。   Algorithm 3 shown in FIG. 3 is a summarization algorithm based on a discourse analysis tree in which constraints are weakened to consider discourse relations.

全てのテキスト単位には、当該テキスト単位に含まれる語と、当該テキスト単位の談話解析木における位置とに応じて、初期得点が割り当てられる。これらのテキスト単位は、要約内のテキスト単位との距離に応じて再度ランク付けされる。要約内に含まれるテキスト単位に対応するノードが、近く設定されていれば、高い得点が割り当てられ、次回の反復にて要約に含まれるテキスト単位として選択される可能性が高くなる。このように、本実施の形態においては、比較的弱い制約下で一貫したテキストの広がりが生成されるようになる。予め定められた終了条件を満たす要約が得られるまで、ランク付け及び選択を繰り返す。ここで、2つのパラメータを調整する必要がある。α∈(0,1]は、ノードに対する役割の影響を示す。ノードに対する役割として、各ヘッドノードの得点は、それに依存するものに応じて増加し、依存ノードの得点は減少する。βは、要約におけるノードとの距離の影響を示す。現時点の要約に含まれるテキスト単位に対応するノードに近くなればなるほど、得点は増加する度合いが、βの値によって決定される。   Every text unit is assigned an initial score according to the word contained in the text unit and the position in the discourse analysis tree of the text unit. These text units are re-ranked according to their distance from the text units in the summary. If the node corresponding to the text unit included in the summary is set close, a high score is assigned and the possibility of being selected as the text unit included in the summary at the next iteration increases. Thus, in this embodiment, a consistent text spread is generated under relatively weak constraints. The ranking and selection is repeated until a summary is obtained that satisfies a predetermined termination condition. Here, it is necessary to adjust two parameters. α∈ (0,1] indicates the influence of the role on the node.As the role for the node, the score of each head node increases according to what depends on it, and the score of the dependent node decreases. The influence of the distance to the node in the summary is shown: the closer to the node corresponding to the text unit included in the current summary, the more the score is determined by the value of β.

次に、本実施の形態において用いる特徴ベクトルについて説明する。本実施の形態においては、特徴ベクトルを用いて、テキスト単位間のエッジを表している。従来の研究により、多くの特徴が開発されてきた。例えば、単語の集合(bag of words)、延べ頻度(token frequency)、品詞タグ、生成規則、及び共起性等があり、何れも本実施の形態において使用可能である。本実施の形態においては、特徴ベクトルに用いる特徴選択には着目していない。そのため、本実施の形態においては、上述したアルゴリズム2及び3の効率を確認するため、下記(a)〜(d)に示すいくつかの単純な種類の特徴を用いる。   Next, feature vectors used in the present embodiment will be described. In this embodiment, feature vectors are used to represent edges between text units. Many features have been developed through previous research. For example, there are a set of words (bag of words), a total frequency (token frequency), a part-of-speech tag, a generation rule, a co-occurrence, and the like, all of which can be used in this embodiment. In the present embodiment, attention is not paid to feature selection used for feature vectors. Therefore, in this embodiment, in order to confirm the efficiency of the algorithms 2 and 3 described above, some simple types of features shown in the following (a) to (d) are used.

(a)単語:現行の要素が特定の品詞タグの単語(代名詞、名詞、動詞、法(mod))を含んでいるかどうか
(b)長さ:要素内の単語数
(c)相対位置:ペアにおける第1のものであるかどうか
(d)単語ペア:2つの要素間のベクトル積
(A) word: whether the current element contains a word (pronoun, noun, verb, modulo) of a specific part of speech tag (b) length: number of words in the element (c) relative position: pair Whether (d) word pair: vector product between two elements

なお、特徴ベクトルに用いる特徴数は、用いるデータによって異なる。本実施の形態においては、RST−DTのトレーニング集合を用いて、特徴選択を行った。頻度5未満の特徴を全て削除した後、合計で5000以上の特徴が得られた。特徴抽出後、テキスト単位の各ペアは、二進ベクトルにより表されることになる。また、重みベクトルの各重みは、特徴ベクトルの各特徴の重みである。また、相対位置は、文書におけるテキスト単位の前後関係を表す。   Note that the number of features used for the feature vector varies depending on the data used. In the present embodiment, feature selection is performed using a training set of RST-DT. After deleting all features with a frequency less than 5, a total of 5000 or more features were obtained. After feature extraction, each pair of text units will be represented by a binary vector. Each weight of the weight vector is a weight of each feature of the feature vector. The relative position represents the context of the text unit in the document.

<本発明の実施の形態に係る重みベクトル学習装置の構成>
次に、本発明の実施の形態に係る重みベクトル学習装置の構成について説明する。図4に示すように、本発明の実施の形態に係る重みベクトル学習装置100は、CPUと、RAMと、後述する重みベクトル学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この重みベクトル学習装置100は、機能的には図4に示すように入力部10と、演算部20と、出力部90とを備えている。
<Configuration of Weight Vector Learning Device According to Embodiment of the Present Invention>
Next, the configuration of the weight vector learning device according to the embodiment of the present invention will be described. As shown in FIG. 4, the weight vector learning device 100 according to the embodiment of the present invention includes a CPU, a RAM, a ROM for storing a program and various data for executing a weight vector learning processing routine described later, Can be configured with a computer including Functionally, the weight vector learning apparatus 100 includes an input unit 10, a calculation unit 20, and an output unit 90 as shown in FIG.

入力部10は、一つ以上の単一文書と、単一文書の各々についての標準要約とを受け付け、単一文書の各々についての標準要約を標準要約記憶部22に記憶する。   The input unit 10 receives one or more single documents and a standard summary for each single document, and stores the standard summary for each single document in the standard summary storage unit 22.

演算部20は、標準要約記憶部22と、特徴量抽出部24と、談話解析部26と、要約抽出部28と、要約比較部30と、重みベクトル更新部32と、繰り返し判定部34と、重みベクトル記憶部36と、を含んで構成されている。   The calculation unit 20 includes a standard summary storage unit 22, a feature amount extraction unit 24, a discourse analysis unit 26, a summary extraction unit 28, a summary comparison unit 30, a weight vector update unit 32, a repetition determination unit 34, And a weight vector storage unit 36.

標準要約記憶部22には、入力部10において受け付けた、単一文書の各々についての標準要約が記憶されている。   The standard summary storage unit 22 stores a standard summary for each single document received by the input unit 10.

特徴量抽出部24は、単一文書の各々について、当該単一文書に含まれるテキスト単位の各々の組み合わせからなるペア毎に、複数の特徴量からなる特徴ベクトルを抽出する。なお、本実施の形態においては、テキスト単位は文単位とする。具体的には、ペア毎に、当該ペアのうちのヘッドとなる上位ノードに対応するテキスト単位と、当該ペアのうちの当該上位ノードに従属する下位ノードに対応するテキスト単位とのそれぞれについて、上記(a)〜(c)の特徴の各々を抽出し、当該ペアについて、上位ノードに対応するテキスト単位と下位ノードに対応するテキスト単位に含まれる単語集合の直積(cartesian product)を、上記(d)の特徴として抽出する。   The feature quantity extraction unit 24 extracts, for each single document, a feature vector composed of a plurality of feature quantities for each pair composed of a combination of text units included in the single document. In the present embodiment, the text unit is a sentence unit. Specifically, for each pair, for each of the text unit corresponding to the upper node as the head of the pair and the text unit corresponding to the lower node subordinate to the upper node of the pair, Each of the features (a) to (c) is extracted, and the cartesian product of the word set included in the text unit corresponding to the upper node and the text unit corresponding to the lower node is extracted from the above (d) ).

談話解析部26は、単一文書の各々について、メモリ(図示省略)に記憶されている重みベクトルの初期値、又は前回の処理で更新された重みベクトルの値と、特徴量抽出部24によって抽出された、当該単一文書のテキスト単位のペア毎の特徴ベクトルの各々とに基づいて、単一文書のうちの最も重要なテキスト単位をルートノードとし、かつ単一文書のうちの各テキスト単位を各ノードとし、かつ修飾関係を有する各テキスト単位間に対応するノード間をエッジで結合した、単一文書の各テキスト単位の依存構造に基づく談話解析木である予測談話解析木を生成する。   The discourse analysis unit 26 extracts the initial value of the weight vector stored in a memory (not shown) or the value of the weight vector updated in the previous process and the feature amount extraction unit 24 for each single document. Based on each of the feature vectors for each pair of text units of the single document, the most important text unit of the single document as a root node and each text unit of the single document as A predicted discourse analysis tree, which is a discourse analysis tree based on the dependency structure of each text unit of a single document, is generated by connecting nodes corresponding to each text unit having a modification relationship with edges.

要約抽出部28は、単一文書の各々について、談話解析部26によって生成された当該単一文書の予測談話解析木と、ノードに対する役割の影響を示すパラメータαと、要約におけるノードとの距離の影響を示すパラメータβと、に基づいて、当該単一文書に含まれるテキスト単位の各々についてランク付けを行い、ランク付きリストRを取得し、取得したランク付きリストRから要約に含まれるテキスト単位を選択することを、生成された要約に含まれる単語数が、予め定められた閾値以上となるまで繰り返す。   The summary extraction unit 28, for each single document, the predicted discourse analysis tree of the single document generated by the discourse analysis unit 26, the parameter α indicating the influence of the role on the node, and the distance between the nodes in the summary. Based on the parameter β indicating the influence, ranking is performed for each text unit included in the single document, a ranked list R is obtained, and the text unit included in the summary is obtained from the obtained ranked list R. The selection is repeated until the number of words included in the generated summary is equal to or greater than a predetermined threshold.

要約比較部30は、単一文書の各々について、要約抽出部28において生成された、当該単一文書の要約と、標準要約記憶部22に記憶されている当該単一文書の標準要約とを比較し、比較結果に基づいて、当該単一文書の予測談話解析木を調整して、新規談話解析木を生成する。具体的には、予測談話解析木について、標準要約のみに現れるテキスト単位に対応するノードを繰り上げ、要約抽出部28において生成された要約のみに現れるテキスト単位に対応するノードを繰り下げる。   The summary comparison unit 30 compares, for each single document, the summary of the single document generated by the summary extraction unit 28 and the standard summary of the single document stored in the standard summary storage unit 22. Then, based on the comparison result, the predicted discourse analysis tree of the single document is adjusted to generate a new discourse analysis tree. Specifically, in the predicted discourse analysis tree, the node corresponding to the text unit appearing only in the standard summary is moved up, and the node corresponding to the text unit appearing only in the summary generated by the summary extraction unit 28 is moved down.

重みベクトル更新部32は、単一文書の各々について、当該単一文書の予測談話解析木と、当該単一文書の新規談話解析木と、重みベクトルとに基づいて、上記(3)式、及び上記(4)式に従って、重みベクトルを更新し、メモリ(図示省略)に記憶する。   The weight vector update unit 32, for each single document, based on the predicted discourse analysis tree of the single document, the new discourse analysis tree of the single document, and the weight vector, The weight vector is updated according to the above equation (4) and stored in a memory (not shown).

繰り返し判定部34は、処理対象となる単一文書について、重みベクトル更新部32において、重みベクトルが更新されたか否かを判定し、更新されていた場合には、談話解析部26、要約抽出部28、要約比較部30、及び重みベクトル更新部32の処理を繰り返し、更新されていない場合には、繰り返し処理を終了し、更新された重みベクトルの履歴の各々の平均を、更新後の重みベクトルとして取得し、メモリ(図示省略)に記憶する。また、繰り返し判定部34は、対象となる全ての単一文書について、繰り返し処理を終了した場合、メモリ(図示省略)に記憶されている更新後の重みベクトルの各々の平均を、学習後の重みベクトルとして重みベクトル記憶部36に記憶すると共に、出力部90に出力する。   The repetition determination unit 34 determines whether or not the weight vector is updated in the weight vector update unit 32 for the single document to be processed. If the weight vector has been updated, the discourse analysis unit 26 and the summary extraction unit 28, the processes of the summary comparison unit 30 and the weight vector update unit 32 are repeated. If not updated, the repetition process is terminated, and the average of the history of the updated weight vectors is calculated as the updated weight vector. And stored in a memory (not shown). In addition, when the repetition determination unit 34 finishes the repetition process for all target single documents, the repetition weighting unit 34 calculates the average of the updated weight vectors stored in the memory (not shown) as the weight after learning. The vector is stored in the weight vector storage unit 36 as a vector and is output to the output unit 90.

重みベクトル記憶部36には、繰り返し判定部34により取得した学習後の重みベクトルが記憶されている。   The weight vector storage unit 36 stores the learned weight vector acquired by the repetition determination unit 34.

<本発明の実施の形態に係る要約生成装置の構成>
次に、本発明の実施の形態に係る要約生成装置の構成について説明する。図5に示すように、本発明の実施の形態に係る要約生成装置200は、CPUと、RAMと、後述する要約生成処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この要約生成装置200は、機能的には図5に示すように入力部210と、演算部220と、出力部290とを備えている。
<Configuration of Summary Generation Device According to Embodiment of the Present Invention>
Next, the configuration of the summary generation device according to the embodiment of the present invention will be described. As shown in FIG. 5, summary generation apparatus 200 according to the embodiment of the present invention includes a CPU, a RAM, and a ROM that stores a program and various data for executing a summary generation processing routine described later. Can be configured with a computer. Functionally, the summary generation apparatus 200 includes an input unit 210, a calculation unit 220, and an output unit 290 as shown in FIG.

入力部210は、要約生成対象となる単一文書を受け付ける。   The input unit 210 accepts a single document that is a summary generation target.

演算部220は、特徴量抽出部224と、談話解析部226と、要約抽出部228と、重みベクトル記憶部236と、を含んで構成されている。   The calculation unit 220 includes a feature amount extraction unit 224, a discourse analysis unit 226, a summary extraction unit 228, and a weight vector storage unit 236.

特徴量抽出部224は、単一文書に含まれるテキスト単位の各々の組み合わせからなるペア毎に、重みベクトル学習装置100における特徴量抽出部24と同様に、複数の特徴量からなる特徴ベクトルを抽出する。   The feature quantity extraction unit 224 extracts feature vectors composed of a plurality of feature quantities for each pair of combinations of text units included in a single document, like the feature quantity extraction unit 24 in the weight vector learning device 100. To do.

談話解析部226は、重みベクトル記憶部236に記憶されている重みベクトルの値と、特徴量抽出部224によって抽出された単一文書のテキスト単位のペア毎の特徴ベクトルの各々とに基づいて、談話解析木を生成する。   The discourse analysis unit 226 is based on the value of the weight vector stored in the weight vector storage unit 236 and each feature vector of each pair of text units of the single document extracted by the feature amount extraction unit 224. Generate a discourse analysis tree.

要約抽出部228は、談話解析部226によって生成された単一文書の談話解析木と、ノードに対する役割の影響を示すパラメータαと、要約におけるノードとの距離の影響を示すパラメータβと、に基づいて、単一文書に含まれるテキスト単位の各々についてランク付けを行い、ランク付きリストRを取得し、取得したランク付きリストRから要約に含まれるテキスト単位を選択することを、生成された要約の単語数が、予め定められた閾値以上となるまで繰り返すことによって、要約を生成し、出力部290に出力する。   The summary extraction unit 228 is based on a single document discourse analysis tree generated by the discourse analysis unit 226, a parameter α indicating the influence of the role on the node, and a parameter β indicating the influence of the distance to the node in the summary. A ranking of each text unit included in a single document, obtaining a ranked list R, and selecting a text unit included in the summary from the obtained ranked list R; A summary is generated by repeating until the number of words is equal to or greater than a predetermined threshold, and is output to the output unit 290.

重みベクトル記憶部236は、重みベクトル学習装置100の重みベクトル記憶部36に記憶されている重みベクトルと同一の重みベクトルが記憶されている。   The weight vector storage unit 236 stores the same weight vector as the weight vector stored in the weight vector storage unit 36 of the weight vector learning device 100.

<本発明の実施の形態に係る重みベクトル学習装置の作用>
次に、本発明の第1の実施の形態に係る重みベクトル学習装置100の作用について説明する。入力部10において単一文書の各々と、単一文書の各々についての標準要約とを受け付けると、単一文書の各々についての標準要約を標準要約記憶部22に記憶すると共に、重みベクトル学習装置100は、図6に示す重みベクトル学習処理ルーチンを実行する。
<Operation of Weight Vector Learning Device According to Embodiment of the Present Invention>
Next, the operation of the weight vector learning device 100 according to the first embodiment of the present invention will be described. When the input unit 10 receives each single document and the standard summary for each single document, the standard summary for each single document is stored in the standard summary storage unit 22 and the weight vector learning device 100. Executes the weight vector learning processing routine shown in FIG.

まず、ステップS100では、標準要約記憶部22に記憶されている、入力部10において受け付けた単一文書の各々の標準要約を読み込む。   First, in step S100, each standard summary of a single document received by the input unit 10 stored in the standard summary storage unit 22 is read.

次に、ステップS102では、入力部10において受け付けた単一文書の各々について、当該単一文書に含まれるテキスト単位の各々からなるペア毎に、複数の特徴量からなる特徴ベクトルを抽出する。   Next, in step S102, for each single document received by the input unit 10, a feature vector composed of a plurality of feature amounts is extracted for each pair of text units included in the single document.

次に、ステップS104では、メモリ(図示省略)に記憶されている重みベクトルの初期値を読み込む。   Next, in step S104, an initial value of a weight vector stored in a memory (not shown) is read.

次に、ステップS106では、処理対象となる単一文書について、ステップS102において取得したテキスト単位のペア毎の特徴ベクトルと、ステップS104において取得した重みベクトルの初期値、又は前回の処理においてステップS112において取得した重みベクトルの値とに基づいて、予測談話解析木を生成する。   Next, in step S106, for the single document to be processed, the feature vector for each pair of text units acquired in step S102 and the initial value of the weight vector acquired in step S104, or the previous processing in step S112. A predicted discourse analysis tree is generated based on the obtained weight vector value.

次に、ステップS108では、処理対象となる単一文書について、ステップS106において取得した予測談話解析木に基づいて、要約を生成する。   In step S108, a summary is generated for the single document to be processed based on the predicted discourse analysis tree acquired in step S106.

次に、ステップS110では、処理対象となる単一文書について、ステップS100において取得した、当該単一文書についての標準要約と、ステップS108において取得した要約とを比較し、比較した結果に基づいて、ステップS106において取得した予測談話解析木に含まれるノードの各々を上下に移動させることにより、新規談話解析木を生成する。   Next, in step S110, for the single document to be processed, the standard summary for the single document acquired in step S100 is compared with the summary acquired in step S108, and based on the comparison result, A new discourse analysis tree is generated by moving each of the nodes included in the predicted discourse analysis tree acquired in step S106 up and down.

次に、ステップS112では、処理対象となる単一文書について、ステップS104において取得した重みベクトルの初期値、又は前回の処理においてステップS112において取得した重みベクトルの値と、ステップS106において取得した予測談話解析木と、ステップS110において取得した新規談話解析木と、に基づいて、上記(3)式、及び上記(4)式に従って、重みベクトルの値を更新し、当該重みベクトルの値をメモリ(図示省略)に記憶する。   Next, in step S112, for the single document to be processed, the initial value of the weight vector acquired in step S104, or the value of the weight vector acquired in step S112 in the previous process, and the predicted discourse obtained in step S106. Based on the analysis tree and the new discourse analysis tree acquired in step S110, the value of the weight vector is updated in accordance with the above equations (3) and (4), and the value of the weight vector is stored in the memory (illustrated). (Omitted).

次に、ステップS114では、予め定められた終了条件を満たしているか否かを判定し、終了条件を満たしている場合には、ステップS116へ移行し、終了条件を満たしていない場合には、ステップS106へ移行し、ステップS106〜ステップS114までの処理を繰り返す。   Next, in step S114, it is determined whether or not a predetermined end condition is satisfied. If the end condition is satisfied, the process proceeds to step S116. If the end condition is not satisfied, step S114 is performed. The process proceeds to S106, and the processes from Step S106 to Step S114 are repeated.

次に、ステップS116では、処理対象となる単一文書について、ステップS112において取得した、繰り返し毎の重みベクトルの値の平均を、更新後の重みベクトルの値として取得し、メモリ(図示省略)に記憶する。   Next, in step S116, for the single document to be processed, the average of the weight vector values for each repetition obtained in step S112 is obtained as the updated weight vector value and stored in a memory (not shown). Remember.

次に、ステップS118では、入力部10において受け付けた全ての単一文書について、ステップS106〜ステップS116までの処理を終了したか否かを判定する。全ての単一文書についてステップS106〜ステップS116までの処理を終了した場合には、ステップS120へ移行し、全ての単一文書について、ステップS106〜ステップS116までの処理を終了していない場合には、処理対象となる単一文書を変更して、ステップS106〜ステップS118までの処理を繰り返す。   Next, in step S118, it is determined whether or not the processing from step S106 to step S116 has been completed for all the single documents received by the input unit 10. If the processing from step S106 to step S116 has been completed for all single documents, the process proceeds to step S120, and if the processing from step S106 to step S116 has not been completed for all single documents. The single document to be processed is changed, and the processing from step S106 to step S118 is repeated.

次に、ステップS120では、ステップS116において取得した更新後の重みベクトルの各々の値の平均を、学習した重みベクトルの値として取得する。   Next, in step S120, the average of the values of the updated weight vectors acquired in step S116 is acquired as the learned weight vector values.

次に、ステップS122では、ステップS120において取得した、学習した重みベクトルの値を重みベクトル記憶部36に記憶すると共に、出力部90に出力して、重みベクトル学習処理ルーチンを終了する。   Next, in step S122, the learned weight vector value acquired in step S120 is stored in the weight vector storage unit 36 and output to the output unit 90, and the weight vector learning processing routine is terminated.

<本発明の実施の形態に係る要約生成装置の作用>
次に、本発明の実施の形態に係る要約生成装置200の作用について説明する。入力部210において単一文書を受け付けると、要約生成装置200は、図7に示す要約生成処理ルーチンを実行する。
<Operation of Summary Generation Device According to Embodiment of the Present Invention>
Next, the operation of the summary generation apparatus 200 according to the embodiment of the present invention will be described. When the input unit 210 accepts a single document, the summary generation apparatus 200 executes a summary generation processing routine shown in FIG.

まず、ステップS200では、重みベクトル記憶部236に記憶されている、重みベクトル学習装置100の重みベクトル記憶部36に記憶されている重みベクトルの値と同一の重みベクトルの値を読み込む。   First, in step S200, the same weight vector value as that stored in the weight vector storage unit 236 and stored in the weight vector storage unit 36 of the weight vector learning device 100 is read.

次に、ステップS202では、入力部210において取得した単一文書に含まれるテキスト単位の各々からなるペア毎に、ステップS102と同様に、特徴ベクトルを抽出する。   Next, in step S202, a feature vector is extracted for each pair of text units included in the single document acquired by the input unit 210, as in step S102.

次に、ステップS204では、ステップS200において取得した重みベクトルの値と、ステップS202において取得したテキスト単位のペア毎の特徴ベクトルとに基づいて、談話解析木を生成する。   Next, in step S204, a discourse analysis tree is generated based on the weight vector value acquired in step S200 and the feature vector for each pair of text units acquired in step S202.

次に、ステップS206では、ステップS204において取得した談話解析木に基づいて、要約を生成する。   Next, in step S206, a summary is generated based on the discourse analysis tree acquired in step S204.

次に、ステップS208では、ステップS206において取得した要約を、出力部290から出力して要約生成処理ルーチンを終了する。   Next, in step S208, the summary acquired in step S206 is output from the output unit 290, and the summary generation processing routine ends.

<実験結果>
次に、RST-DT、及びTAC2011要約タスクデータについて、それぞれ実験を行った結果について説明する。RST-DTは、WSJからの385件(トレーニング347、テスト38)の文書を含む。385件の文書中、30件には、人間が書いた要約が付されており、150件には、手動で選択したEDUを含む要約が付されている。長い文書は談話解析に長時間を要し、短い文書には有用な情報が含まれていないことから、手動が書いた要約を付した30件の文書、及びあまりに長いかあまりに短い文書を除外して、100件の文書をトレーニング対象として選択し、30件の文書をテストデータとして選択した。
<Experimental result>
Next, the results of experiments on RST-DT and TAC2011 summary task data will be described. The RST-DT contains 385 documents (training 347, test 38) from WSJ. Of the 385 documents, 30 have a summary written by humans and 150 have a summary that includes a manually selected EDU. Long documents take a long time to analyze discourse, and short documents do not contain useful information, so we excluded 30 documents with manually written summaries and documents that were too long or too short. 100 documents were selected for training and 30 documents were selected as test data.

また、要約アルゴリズムのパラメータ調整のために、10件の文書を含んだ小型の開発集合を作成し、学習データにしたがって、パラメータを調整した。なお、各パラメータ(α、β、反復数)は、(0.7,0.1,6)と設定されている。   In order to adjust the parameters of the summarization algorithm, a small development set containing 10 documents was created, and the parameters were adjusted according to the learning data. Each parameter (α, β, number of repetitions) is set to (0.7, 0.1, 6).

さらに、TAC2011マルチ文書要約タスクデータを用いて、本実施の形態におけるシステムを検査した。44件の文書集合があり、各集合には、要約用のフォルダAと、更新された要約用のフォルダBとの2つのフォルダが含まれており、各フォルダには、10件の文書が含まれている。本実施の形態におけるシステムは、単一文書の要約のためにのみ設計されている。そして、文書集合全体の代表として、中型の文書が各Aフォルダから選択される。   Furthermore, the system in the present embodiment was inspected using the TAC2011 multi-document summary task data. There are 44 document sets, and each set contains two folders, a summary folder A and an updated summary folder B. Each folder contains 10 documents. It is. The system in this embodiment is designed only for single document summarization. A medium-sized document is selected from each folder A as a representative of the entire document set.

本実施の形態で説明した方法を、最先端の木構造ベース単一文書要約システムと比較した。図8に、RST-DTについての結果を示す。DST(Discourse Supervised Tree-based summarization)が、本実施の形態におけるシステムであり、TKP(Tree Knapsack Problem)が非特許文献3の木構造ナップザック問題法の方法である。Mも非特許文献3に由来し、これは非特許文献1の方法を実装したものである。MEADは、MEADツールキットが提供するベースライン(baseline)のシステムであり、ランク付け法およびMMR(Maximal Marginal Relevance;関連性の変化量を選択の基準とする)を用いて、要約を抽出している。ここで付されているGは、正解の談話解析木に基づいて要約を生成することを意味し、Hは、重みベクトルで生成した談話解析木を用いることを意味している。結果は、ROUGEツールキットで解析した。   The method described in this embodiment was compared with a state-of-the-art tree-structure-based single document summarization system. FIG. 8 shows the results for RST-DT. DST (Discourse Supervised Tree-based summarization) is a system in this embodiment, and TKP (Tree Knapsack Problem) is a method of the tree structure knapsack problem method of Non-Patent Document 3. M is also derived from Non-Patent Document 3, which implements the method of Non-Patent Document 1. MEAD is a baseline system provided by the MEAD toolkit, which uses a ranking method and MMR (Maximal Marginal Relevance) to extract summaries. Yes. G attached here means that a summary is generated based on a correct discourse analysis tree, and H means that a discourse analysis tree generated with a weight vector is used. The results were analyzed with the ROUGE toolkit.

本実施の形態で説明した方法は、他のどの方法よりも性能面で優れており、自動構文解析により得られた構文木に基づくものに対してだけでなく、人手により生成した正解の構文木に基づくものに対しても同様である。本実施の形態における談話解析において用いる重みベクトルは、要約用に学習されたものであり、要約の品質を向上させることに成功している。ROUGEスコア(単語の再現率に基づく要約の自動評価尺度。0から1の間の値で高いほどよい)が高いことからも、正解の談話解析木が、全体として要約に適しているというわけではないことが証明された。また、本実施の形態に係るシステムの性能を検証するためにTAC-2011データについても実験を行った。図9にその結果を示す。   The method described in this embodiment is superior to any other method in terms of performance, and is not only based on a syntax tree obtained by automatic parsing, but also a correct syntax tree generated manually. The same applies to those based on. The weight vector used in the discourse analysis in the present embodiment is learned for summarization, and succeeds in improving the quality of the summarization. The correct ROUGE score (automated assessment scale for summaries based on word recall. Higher values between 0 and 1 are better) suggests that the correct discourse parse tree is not suitable for summarization as a whole. Proven not. In addition, experiments were also performed on TAC-2011 data in order to verify the performance of the system according to the present embodiment. FIG. 9 shows the result.

図9において、全文を、基本要素として用いている。小型の基本要素を用いることにより、要約用の短文を得ることができる。この想定を検証するため、文をEDUに分割するのにSPADEを用いており、EDUに基づく結果(DST-EDU)を図9に示している。EDUに基づくシステムでは、性能面の向上はみられないが、それでも、複数文書要約法に匹敵するものである。   In FIG. 9, the whole sentence is used as a basic element. By using a small basic element, a short summary sentence can be obtained. In order to verify this assumption, SPADE is used to divide the sentence into EDUs, and the result based on EDU (DST-EDU) is shown in FIG. EDU-based systems do not improve performance, but are still comparable to multi-document summarization methods.

以上説明したように、本発明の実施の形態に係る重みベクトル学習装置によれば、入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴ベクトルを抽出し、抽出されたペア毎の特徴ベクトルと、重みベクトルの初期値、又は前回更新された重みベクトルの値とに基づいて、予測談話解析木を生成し、生成された予測談話解析木に基づいて単一文書の要約を生成し、生成された要約と、単一文書について予め用意された要約の正解とを比較した結果、要約と、要約の正解とに差異がある場合、重みベクトルの値を更新することを、予め定められた終了条件を満たすまで繰り返すことにより、単一文書要約の品質を向上させる、談話解析の重みベクトルを学習することができる。   As described above, according to the weight vector learning device according to the embodiment of the present invention, the feature vector is extracted for each pair of text units included in the input single document, and for each extracted pair Based on the feature vector and the initial value of the weight vector or the previously updated weight vector value, a predicted discourse analysis tree is generated, and a single document summary is generated based on the generated predicted discourse analysis tree. If the summarization and the correct answer of the summary are different as a result of comparing the generated summary and the correct answer of the summary prepared in advance for a single document, it is determined in advance that the value of the weight vector is updated. By repeating until the end condition is satisfied, it is possible to learn a discourse analysis weight vector that improves the quality of the single document summary.

また、本発明の実施の形態に係る要約生成装置によれば、入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴ベクトルを抽出し、抽出されたペア毎の特徴ベクトルと、学習した重みベクトルの値とに基づいて、談話解析木を生成し、生成された談話解析木に基づいて、単一文書の要約を生成することにより、単一文書要約の品質を向上させることができる。   Further, according to the summary generation device according to the embodiment of the present invention, the feature vector is extracted for each pair of text units included in the input single document, and the extracted feature vector for each pair; It is possible to improve the quality of a single document summary by generating a discourse analysis tree based on the learned weight vector values and generating a single document summary based on the generated discourse analysis tree. it can.

また、重要な情報を含む複数の文を選択する一方で、文同士の談話関係を考慮することによって、首尾一貫していると共に、高品質な要約を取得することができる。   In addition, by selecting a plurality of sentences including important information and considering a discourse relationship between sentences, it is possible to obtain a consistent and high-quality summary.

また、人間により提供された要約に従って、談話解析木を調整することにより、学習データが動的に生成される。すわなち、本実施の形態におけるシステムアーキテクチャは従来方法と非常に異なっており、学習データは、反復回毎に異なる。   In addition, learning data is dynamically generated by adjusting the discourse analysis tree according to the summary provided by a human. In other words, the system architecture in the present embodiment is very different from the conventional method, and the learning data is different for each iteration.

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。   Note that the present invention is not limited to the above-described embodiment, and various modifications and applications are possible without departing from the gist of the present invention.

例えば、本実施の形態においては、テキスト単位を文とする場合について説明したが、これに限定されるものではなく、テキスト単位を節、又は文書内の他の基本的要素としてもよい。ここで、修辞構造理論(RST)では「テキスト単位」としてEDUを使用した。複文において主節と従属節は、それぞれ1つのEDUになるため、EDUは、ほぼ日本語の「単文」に相当する。   For example, in the present embodiment, the case where the text unit is a sentence has been described, but the present invention is not limited to this, and the text unit may be a section or another basic element in a document. Here, rhetoric structure theory (RST) uses EDU as “text unit”. In a compound sentence, the main clause and the subordinate clause are each one EDU, so the EDU is almost equivalent to a “single sentence” in Japanese.

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。   Further, in the present specification, the embodiment has been described in which the program is installed in advance. However, the program can be provided by being stored in a computer-readable recording medium or provided via a network. It is also possible to do.

10 入力部
20 演算部
22 標準要約記憶部
24 特徴量抽出部
26 談話解析部
28 要約抽出部
30 要約比較部
32 重みベクトル更新部
34 繰り返し判定部
36 重みベクトル記憶部
90 出力部
100 重みベクトル学習装置
200 要約生成装置
210 入力部
220 演算部
224 特徴量抽出部
226 談話解析部
228 要約抽出部
236 重みベクトル記憶部
290 出力部
DESCRIPTION OF SYMBOLS 10 Input part 20 Operation part 22 Standard summary memory | storage part 24 Feature-value extraction part 26 Discourse analysis part 28 Summary extraction part 30 Summary comparison part 32 Weight vector update part 34 Repeat determination part 36 Weight vector memory | storage part 90 Output part 100 Weight vector learning apparatus 200 summary generation device 210 input unit 220 calculation unit 224 feature amount extraction unit 226 discourse analysis unit 228 summary extraction unit 236 weight vector storage unit 290 output unit

Claims (7)

入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部により抽出されたペア毎の特徴量と、重みベクトルの初期値、又は前回更新された重みベクトルの値とに基づいて、前記単一文書のうちの最も重要な前記テキスト単位をルートノードとし、かつ前記単一文書のうちの各テキスト単位を各ノードとし、かつ修飾関係を有する前記各テキスト単位間に対応するノード間をエッジで結合した、前記単一文書の各テキスト単位の依存構造に基づく談話解析木である予測談話解析木を生成する談話解析部と、
前記談話解析部により生成された予測談話解析木に基づいて前記単一文書の要約を生成する要約抽出部と、
前記要約抽出部により生成された要約と、前記単一文書について予め用意された要約の正解とを比較する要約比較部と、
前記要約比較部により前記要約抽出部により生成された要約と、前記単一文書について予め用意された要約の正解とを比較した結果、前記要約と、前記要約の正解とに差異がある場合、前記重みベクトルの値を更新する重みベクトル更新部と、
前記談話解析部による生成と、前記要約抽出部による生成と、前記要約比較部による比較と、前記重みベクトル更新部による更新と、を予め定められた終了条件を満たすまで繰り返す繰り返し判定部と、
を含む、重みベクトル学習装置。
A feature amount extraction unit that extracts a feature amount for each pair of text units included in the input single document;
Based on the feature value for each pair extracted by the feature amount extraction unit and the initial value of the weight vector or the value of the weight vector updated last time, the most important text unit of the single document is determined. Each text unit of the single document having a root node, each text unit of the single document as each node, and nodes corresponding to each other between the text units having a qualifying relationship are connected by an edge. A discourse analysis unit that generates a predictive discourse analysis tree that is a discourse analysis tree based on the dependency structure;
A summary extraction unit that generates a summary of the single document based on the predicted discourse analysis tree generated by the discourse analysis unit;
A summary comparison unit that compares the summary generated by the summary extraction unit with a correct summary prepared in advance for the single document;
As a result of comparing the summary generated by the summary extraction unit by the summary comparison unit and the correct answer of the summary prepared in advance for the single document, there is a difference between the summary and the correct answer of the summary, A weight vector updating unit for updating the value of the weight vector;
A repeat determination unit that repeats generation by the discourse analysis unit, generation by the summary extraction unit, comparison by the summary comparison unit, and update by the weight vector update unit until a predetermined end condition is satisfied,
A weight vector learning device.
前記重みベクトル更新部は、前記要約比較部により、前記要約抽出部により生成された要約と、前記単一文書について予め用意された要約の正解とを比較した結果、前記要約と、前記要約の正解とに差異がある場合、前記要約の正解のみに現れる前記テキスト単位に対応する前記予測談話解析木のノードを繰り上げ、前記要約にのみ現れる前記テキスト単位に対応する前記予測談話解析木のノードを繰り下げた新規談話解析木を生成し、前記重みベクトルに基づいて前記単一文書について生成される前記談話解析木が、前記新規談話解析木となるように、前記重みベクトルの値を更新する請求項1記載の重みベクトル学習装置。   The weight vector update unit compares the summary generated by the summary extraction unit with the summary correct answer prepared in advance for the single document by the summary comparison unit. And a node of the predicted discourse analysis tree corresponding to the text unit appearing only in the correct answer of the summary is raised, and a node of the predicted discourse analysis tree corresponding to the text unit appearing only in the summary is lowered. A new discourse analysis tree is generated, and the value of the weight vector is updated so that the discourse analysis tree generated for the single document based on the weight vector becomes the new discourse analysis tree. The described weight vector learning device. 入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部により抽出されたペア毎の特徴量と、請求項1又は請求項2の重みベクトル学習装置により更新した前記重みベクトルの値とに基づいて、談話解析木を生成する談話解析部と、
前記談話解析部により生成された談話解析木に基づいて、前記単一文書の要約を生成する要約抽出部と、
を含む、要約生成装置。
A feature amount extraction unit that extracts a feature amount for each pair of text units included in the input single document;
A discourse analysis unit that generates a discourse analysis tree based on the feature amount of each pair extracted by the feature amount extraction unit and the value of the weight vector updated by the weight vector learning device according to claim 1. When,
A summary extraction unit that generates a summary of the single document based on the discourse analysis tree generated by the discourse analysis unit;
A summary generation device.
特徴量抽出部と、談話解析部と、要約抽出部と、要約比較部と、重みベクトル更新部と、繰り返し判定部と、を含む、重みベクトル学習装置における、重みベクトル学習方法であって、
前記特徴量抽出部は、入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出し、
前記談話解析部は、前記特徴量抽出部により抽出されたペア毎の特徴量と、重みベクトルの初期値、又は前回更新された重みベクトルの値とに基づいて、前記単一文書のうちの最も重要な前記テキスト単位をルートノードとし、かつ前記単一文書のうちの各テキスト単位を各ノードとし、かつ修飾関係を有する前記各テキスト単位間に対応するノード間をエッジで結合した、前記単一文書の各テキスト単位の依存構造に基づく談話解析木である予測談話解析木を生成し、
前記要約抽出部は、前記談話解析部により生成された予測談話解析木に基づいて前記単一文書の要約を生成し、
前記要約比較部は、前記要約抽出部により生成された要約と、前記単一文書について予め用意された要約の正解とを比較し、
前記重みベクトル更新部は、前記要約比較部により前記要約抽出部により生成された要約と、前記単一文書について予め用意された要約の正解とを比較した結果、前記要約と、前記要約の正解とに差異がある場合、前記重みベクトルの値を更新し、
前記繰り返し判定部は、前記談話解析部による生成と、前記要約抽出部による生成と、前記要約比較部による比較と、前記重みベクトル更新部による更新と、を予め定められた終了条件を満たすまで繰り返す
重みベクトル学習方法。
A weight vector learning method in a weight vector learning device including a feature amount extraction unit, a discourse analysis unit, a summary extraction unit, a summary comparison unit, a weight vector update unit, and a repetition determination unit,
The feature amount extraction unit extracts a feature amount for each pair of text units included in the input single document,
The discourse analysis unit, based on the feature value for each pair extracted by the feature value extraction unit and the initial value of the weight vector or the value of the weight vector updated last time, The single text unit in which the important text unit is a root node, each text unit of the single document is a node, and nodes corresponding to the text units having a modification relationship are connected by an edge. Generate a predictive discourse analysis tree, which is a discourse analysis tree based on the dependency structure of each text unit of the document,
The summary extraction unit generates a summary of the single document based on the predicted discourse analysis tree generated by the discourse analysis unit;
The summary comparison unit compares the summary generated by the summary extraction unit with the correct answer of the summary prepared in advance for the single document,
The weight vector update unit compares the summary generated by the summary extraction unit by the summary comparison unit with the correct summary prepared in advance for the single document. If there is a difference, the value of the weight vector is updated,
The repetition determination unit repeats the generation by the discourse analysis unit, the generation by the summary extraction unit, the comparison by the summary comparison unit, and the update by the weight vector update unit until a predetermined end condition is satisfied. Weight vector learning method.
前記重みベクトル更新部により前記重みベクトルの値を更新することは、前記要約比較部により、前記要約抽出部により生成された要約と、前記単一文書について予め用意された要約の正解とを比較した結果、前記要約と、前記要約の正解とに差異がある場合、前記要約の正解のみに現れる前記テキスト単位に対応する前記予測談話解析木のノードを繰り上げ、前記要約にのみ現れる前記テキスト単位に対応する前記予測談話解析木のノードを繰り下げた新規談話解析木を生成し、前記重みベクトルに基づいて前記単一文書について生成される前記談話解析木が、前記新規談話解析木となるように、前記重みベクトルの値を更新する請求項4記載の重みベクトル学習方法。   Updating the weight vector value by the weight vector updating unit compares the summary generated by the summary extraction unit with the correct summary prepared for the single document by the summary comparison unit. As a result, if there is a difference between the summary and the correct answer of the summary, the node of the predicted discourse analysis tree corresponding to the text unit appearing only in the correct answer of the summary is moved up, and corresponding to the text unit appearing only in the summary Generating a new discourse analysis tree in which the nodes of the predicted discourse analysis tree are lowered, and the discourse analysis tree generated for the single document based on the weight vector is the new discourse analysis tree. 5. The weight vector learning method according to claim 4, wherein the weight vector value is updated. 特徴量抽出部と、談話解析部と、要約抽出部と、を含む要約生成装置における、要約生成方法であって、
前記特徴量抽出部は、入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出し、
前記談話解析部は、前記特徴量抽出部により抽出されたペア毎の特徴量と、請求項4又は請求項5の重みベクトル学習方法により更新した前記重みベクトルの値とに基づいて、談話解析木を生成し、
前記要約抽出部は、前記談話解析部により生成された談話解析木に基づいて、前記単一文書の要約を生成する
要約生成方法。
A summary generation method in a summary generation device including a feature amount extraction unit, a discourse analysis unit, and a summary extraction unit,
The feature amount extraction unit extracts a feature amount for each pair of text units included in the input single document,
The discourse analysis unit, based on the feature amount for each pair extracted by the feature amount extraction unit and the value of the weight vector updated by the weight vector learning method according to claim 4 or 5, Produces
The summary extraction unit generates a summary of the single document based on a discourse analysis tree generated by the discourse analysis unit.
コンピュータを、請求項1又は2記載の重みベクトル学習装置、若しくは、請求項3記載の要約生成装置を構成する各部として機能させるためのプログラム。   A program for causing a computer to function as each unit constituting the weight vector learning apparatus according to claim 1 or 2, or the summary generation apparatus according to claim 3.
JP2014188068A 2014-09-16 2014-09-16 Weight vector learning device, summary generation device, method, and program Active JP6170891B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014188068A JP6170891B2 (en) 2014-09-16 2014-09-16 Weight vector learning device, summary generation device, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014188068A JP6170891B2 (en) 2014-09-16 2014-09-16 Weight vector learning device, summary generation device, method, and program

Publications (2)

Publication Number Publication Date
JP2016062181A true JP2016062181A (en) 2016-04-25
JP6170891B2 JP6170891B2 (en) 2017-07-26

Family

ID=55797863

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014188068A Active JP6170891B2 (en) 2014-09-16 2014-09-16 Weight vector learning device, summary generation device, method, and program

Country Status (1)

Country Link
JP (1) JP6170891B2 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0916630A (en) * 1995-06-28 1997-01-17 Xerox Corp Method and product for automatic extraction of subset of sentence from sentence of natural language document
JPH11272664A (en) * 1998-03-19 1999-10-08 Sharp Corp Text structure analyzing device and abstract device, and program recording medium
JP2003248676A (en) * 2002-02-22 2003-09-05 Communication Research Laboratory Solution data compiling device and method, and automatic summarizing device and method
JP2013097723A (en) * 2011-11-04 2013-05-20 Nippon Telegr & Teleph Corp <Ntt> Text summarization apparatus, method and program
JP2013167985A (en) * 2012-02-15 2013-08-29 Nomura Research Institute Ltd Conversation summary generation system and conversation summary generation program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0916630A (en) * 1995-06-28 1997-01-17 Xerox Corp Method and product for automatic extraction of subset of sentence from sentence of natural language document
JPH11272664A (en) * 1998-03-19 1999-10-08 Sharp Corp Text structure analyzing device and abstract device, and program recording medium
JP2003248676A (en) * 2002-02-22 2003-09-05 Communication Research Laboratory Solution data compiling device and method, and automatic summarizing device and method
JP2013097723A (en) * 2011-11-04 2013-05-20 Nippon Telegr & Teleph Corp <Ntt> Text summarization apparatus, method and program
JP2013167985A (en) * 2012-02-15 2013-08-29 Nomura Research Institute Ltd Conversation summary generation system and conversation summary generation program

Also Published As

Publication number Publication date
JP6170891B2 (en) 2017-07-26

Similar Documents

Publication Publication Date Title
JP6618735B2 (en) Question answering system training apparatus and computer program therefor
US8594998B2 (en) Multilingual sentence extractor
CN110008335A (en) The method and device of natural language processing
CN105868175A (en) Abstract generation method and device
Zhao et al. A language model based evaluator for sentence compression
CN111274829A (en) Sequence labeling method using cross-language information
CN114021573B (en) Natural language processing method, device, equipment and readable storage medium
WO2015145981A1 (en) Multilingual document-similarity-degree learning device, multilingual document-similarity-degree determination device, multilingual document-similarity-degree learning method, multilingual document-similarity-degree determination method, and storage medium
Dubuisson Duplessis et al. Utterance retrieval based on recurrent surface text patterns
JP6112536B2 (en) Bilingual expression extraction apparatus, bilingual expression extraction method, and computer program for bilingual expression extraction
De Kok Feature selection for fluency ranking
KR101860472B1 (en) Apparatus and method of generation and classification for text classifier based on open directory project
JP4479745B2 (en) Document similarity correction method, program, and computer
CN114021572B (en) Natural language processing method, device, equipment and readable storage medium
JP6170891B2 (en) Weight vector learning device, summary generation device, method, and program
JP2017068742A (en) Relevant document retrieval device, model creation device, method and program therefor
CN110580280A (en) Method, device and storage medium for discovering new words
JP4567025B2 (en) Text classification device, text classification method, text classification program, and recording medium recording the program
JP7384221B2 (en) Summary learning method, summary learning device and program
CN107729509A (en) The chapter similarity decision method represented based on recessive higher-dimension distributed nature
CN107491417A (en) A kind of document structure tree method under topic model based on particular division
JP4314271B2 (en) Inter-word relevance calculation device, inter-word relevance calculation method, inter-word relevance calculation program, and recording medium recording the program
JP5503577B2 (en) Data polarity determination apparatus, method, and program
JP2016197289A (en) Parameter learning device, similarity calculation device and method, and program
Kashyapi et al. TREMA-UNH at TREC 2018: Complex Answer Retrieval and News Track.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160907

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170621

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170627

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170703

R150 Certificate of patent or registration of utility model

Ref document number: 6170891

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150