JP6170891B2

JP6170891B2 - 重みベクトル学習装置、要約生成装置、方法、及びプログラム

Info

Publication number: JP6170891B2
Application number: JP2014188068A
Authority: JP
Inventors: ジュンオウ; 康久吉田; 平尾　努; 努平尾; 克仁須藤; 永田　昌明; 昌明永田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2014-09-16
Filing date: 2014-09-16
Publication date: 2017-07-26
Anticipated expiration: 2034-09-16
Also published as: JP2016062181A

Description

本発明は、重みベクトル学習装置、方法、及びプログラムに係り、特に、入力された文書を要約するための重みベクトルを学習する重みベクトル学習装置、方法、及びプログラム、並びに入力された文書を要約する要約生成装置、方法、及びプログラムに関する。

要約は、自然言語処理の分野において長年にわたって重要な研究課題であり、情報の急激な増大により、近年ますます重要度を増してきている。取り扱う文書数に応じて、要約を、単一文書要約及び複数文書要約の２種類に分類することができる。単一文書要約は、単一の文書のみを扱い、複数文書要約は、関連文書一式を扱う。

非特許文献１は単一文書要約についての先行研究であり、文書を修辞構造理論談話木（Rhetorical Structure Theory Discourse Tree;以下「RST-DT」と略す）とみなし、要約生成のために木構造から抽出された優先ランクに従って、テキスト単位を選択している。また、雑音のある通信路モデルによりRST-DTが与えられた要約の確率を直接的にモデルする文書圧縮方法も知られている（非特許文献２）。

要約を、所与の談話解析木についての最適化問題とみなすことにより、談話関係及び最適化の双方を考慮することができる。最近、要約を、木構造についてのナップザック問題とみて、整数線形計画問題を用いて定式化することも知られている（非特許文献３）。報告されている結果によると、正解の談話解析木に基づく場合には、最先端の方法を凌駕することが可能になる。非特許文献４は最先端の解析法の一つであり、本発明の談話解析でも利用している。

Marcu, Daniel. "Improving summarization through rhetorical parsing tuning." The 6th Workshop on Very Large Corpora. 1998. Daum III, Hal, and Daniel Marcu. "A noisy-channel model for document compression." Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics,2002. Hirao, Tsutomu, et al. "Single-Document Summarization as a Tree Knapsack Problem." Proceedings of the 2013 Conference on Empirical Methods in Natural Language. Association for Computational Linguistics.2013. McDonald, Ryan, Koby Crammer, and Fernando Pereira. "Online large-margin training of dependency parsers." Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2005.

非特許文献１及び２の方法は、談話関係を考慮しているが、最適化に失敗する場合があるという問題がある。

また、いくつかの事前定義された原則に基づいて人間によって生成された談話解析木（正解の談話解析木）は、要約等の実用的なタスクに用いることを前提としていないので、要約を目的とした場合には、必ずしも正解ではないという問題がある。

そのため、注釈付きデータに基づいて開発された談話解析に用いる重みベクトルは要約には不適切な可能性がある。談話解析は、人手で注釈付けされたコーパスとできるだけ一致する解析木を生成することを目標としているが、要約は、高品質の要約を得ることが目的であり、談話解析木の精度は必ずしも関係ないためである。

一言で言えば、高品質の要約を抽出することに談話関係は重要な役割を果たしているものの、談話解析木をそのまま利用するような簡単な方法で、実用的な要約を作成することは難しいという問題がある。

本発明では、上記問題点を解決するために成されたものであり、単一文書要約の品質を向上させる談話解析の重みベクトルを学習することができる重みベクトル学習装置、方法、及びプログラムを提供することを目的とする。

また、単一文書要約の品質を向上させることができる要約生成装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、第１の発明に係る重みベクトル学習装置は、入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出する特徴量抽出部と、前記特徴量抽出部により抽出されたペア毎の特徴量と、重みベクトルの初期値、又は前回更新された重みベクトルの値とに基づいて、前記単一文書のうちの最も重要な前記テキスト単位をルートノードとし、かつ前記単一文書のうちの各テキスト単位を各ノードとし、かつ修飾関係を有する前記各テキスト単位間に対応するノード間をエッジで結合した、前記単一文書の各テキスト単位の依存構造に基づく談話解析木である予測談話解析木を生成する談話解析部と、前記談話解析部により生成された予測談話解析木に基づいて前記単一文書の要約を生成する要約抽出部と、前記要約抽出部により生成された要約と、前記単一文書について予め用意された要約の正解とを比較する要約比較部と、前記要約比較部により前記要約抽出部により生成された要約と、前記単一文書について予め用意された要約の正解とを比較した結果、前記要約と、前記要約の正解とに差異がある場合、前記重みベクトルの値を更新する重みベクトル更新部と、前記談話解析部による生成と、前記要約抽出部による生成と、前記要約比較部による比較と、前記重みベクトル更新部による更新と、を予め定められた終了条件を満たすまで繰り返す繰り返し判定部と、を含んで構成されている。

第２の発明に係る重みベクトル学習方法は、特徴量抽出部と、談話解析部と、要約抽出部と、要約比較部と、重みベクトル更新部と、繰り返し判定部と、を含む、重みベクトル学習装置における、重みベクトル学習方法であって、前記特徴量抽出部は、入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出し、前記談話解析部は、前記特徴量抽出部により抽出されたペア毎の特徴量と、重みベクトルの初期値、又は前回更新された重みベクトルの値とに基づいて、前記単一文書のうちの最も重要な前記テキスト単位をルートノードとし、かつ前記単一文書のうちの各テキスト単位を各ノードとし、かつ修飾関係を有する前記各テキスト単位間に対応するノード間をエッジで結合した、前記単一文書の各テキスト単位の依存構造に基づく談話解析木である予測談話解析木を生成し、前記要約抽出部は、前記談話解析部により生成された予測談話解析木に基づいて前記単一文書の要約を生成し、前記要約比較部は、前記要約抽出部により生成された要約と、前記単一文書について予め用意された要約の正解とを比較し、前記重みベクトル更新部は、前記要約比較部により前記要約抽出部により生成された要約と、前記単一文書について予め用意された要約の正解とを比較した結果、前記要約と、前記要約の正解とに差異がある場合、前記重みベクトルの値を更新し、前記繰り返し判定部は、前記談話解析部による生成と、前記要約抽出部による生成と、前記要約比較部による比較と、前記重みベクトル更新部による更新と、を予め定められた終了条件を満たすまで繰り返す。

第１及び第２の発明によれば、特徴量抽出部により、入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出し、談話解析部により、抽出されたペア毎の特徴量と、重みベクトルの初期値、又は前回更新された重みベクトルの値とに基づいて、単一文書のうちの最も重要なテキスト単位をルートノードとし、かつ単一文書のうちの各テキスト単位を各ノードとし、かつ修飾関係を有する各テキスト単位間に対応するノード間をエッジで結合した、単一文書の各テキスト単位の依存構造に基づく談話解析木である予測談話解析木を生成し、要約抽出部により、生成された予測談話解析木に基づいて単一文書の要約を生成し、要約比較部により、生成された要約と、単一文書について予め用意された要約の正解とを比較し、重みベクトル更新部により、要約抽出部により生成された要約と、単一文書について予め用意された要約の正解とを比較した結果、要約と、要約の正解とに差異がある場合、重みベクトルの値を更新し、繰り返し判定部により、談話解析部による生成と、要約抽出部による生成と、要約比較部による比較と、重みベクトル更新部による更新と、を予め定められた終了条件を満たすまで繰り返す。

このように、第１及び第２の発明によれば、入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出し、抽出されたペア毎の特徴量と、重みベクトルの初期値、又は前回更新された重みベクトルの値とに基づいて、予測談話解析木を生成し、生成された予測談話解析木に基づいて単一文書の要約を生成し、生成された要約と、単一文書について予め用意された要約の正解とを比較した結果、要約と、要約の正解とに差異がある場合、重みベクトルの値を更新することを繰り返すことにより、単一文書要約の品質を向上させる談話解析の重みベクトルを学習することができる。

また、第１及び第２の発明において、前記重みベクトル更新部は、前記要約比較部により、前記要約抽出部により生成された要約と、前記単一文書について予め用意された要約の正解とを比較した結果、前記要約と、前記要約の正解とに差異がある場合、前記要約の正解のみに現れる前記テキスト単位に対応する前記予測談話解析木のノードを繰り上げ、前記要約にのみ現れる前記テキスト単位に対応する前記予測談話解析木のノードを繰り下げた新規談話解析木を生成し、前記重みベクトルに基づいて前記単一文書について生成される前記談話解析木が、前記新規談話解析木となるように、前記重みベクトルの値を更新することができる。

第３の発明に係る要約生成装置は、入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出する特徴量抽出部と、前記特徴量抽出部により抽出されたペア毎の特徴量と、第１の発明の重みベクトル学習装置により更新した前記重みベクトルの値とに基づいて、談話解析木を生成する談話解析部と、前記談話解析部により生成された談話解析木に基づいて、前記単一文書の要約を生成する要約抽出部と、を含んで構成されている。

第４の発明に係る要約生成方法は、特徴量抽出部と、談話解析部と、要約抽出部と、を含む要約生成装置における、要約生成方法であって、前記特徴量抽出部は、入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出し、前記談話解析部は、前記特徴量抽出部により抽出されたペア毎の特徴量と、第２の発明の重みベクトル学習方法により更新した前記重みベクトルの値とに基づいて、談話解析木を生成し、前記要約抽出部は、前記談話解析部により生成された談話解析木に基づいて、前記単一文書の要約を生成する。

第３及び第４の発明によれば、特徴量抽出部により、入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出し、談話解析部により、抽出されたペア毎の特徴量と、重みベクトル学習装置又は重みベクトル学習方法により更新した重みベクトルの値とに基づいて、談話解析木を生成し、要約抽出部により、生成された談話解析木に基づいて、単一文書の要約を生成する。

このように、第３及び第４の発明によれば、入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出し、抽出されたペア毎の特徴量と、重みベクトル学習装置又は重みベクトル学習方法により更新した重みベクトルの値とに基づいて、談話解析木を生成し、生成された談話解析木に基づいて、単一文書の要約を生成することにより、単一文書要約の品質を向上させることができる。

また、本発明のプログラムは、コンピュータを、上記の重みベクトル学習装置、及び要約生成装置を構成する各部として機能させるためのプログラムである。

以上説明したように、本発明の重みベクトル学習装置、方法、及びプログラムによれば、入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出し、抽出されたペア毎の特徴量と、重みベクトルの初期値、又は前回更新された重みベクトルの値とに基づいて、予測談話解析木を生成し、生成された予測談話解析木に基づいて単一文書の要約を生成し、生成された要約と、単一文書について予め用意された要約の正解とを比較した結果、要約と、要約の正解とに差異がある場合、重みベクトルの値を更新することを繰り返すことにより、単一文書要約の品質を向上させる談話解析の重みベクトルを学習することができる。

また、本発明の要約生成装置、方法、及びプログラムによれば、入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出し、抽出されたペア毎の特徴量と、学習した重みベクトルの値とに基づいて、談話解析木を生成し、生成された談話解析木に基づいて、単一文書の要約を生成することにより、単一文書要約の品質を向上させることができる。

ＭＩＲＡの一般方式を示すアルゴリズムの詳細を示す図である。重みベクトルの学習のアルゴリズムの詳細を示す図である。要約アルゴリズムの詳細を示す図である。本発明の実施の形態に係る重みベクトル学習装置の機能的構成を示すブロック図である。本発明の実施の形態に係る要約生成装置の機能的構成を示すブロック図である。本発明の実施の形態に係る重みベクトル学習装置における重みベクトル学習処理ルーチンを示すフローチャート図である。本発明の実施の形態に係る要約生成装置における要約生成処理ルーチンを示すフローチャート図である。 RST-DTについての結果を示す図である。 TAC-2011についての結果を示す図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜本発明の実施の形態の原理＞
まず、本発明の実施の形態に係る重みベクトル学習装置の原理について説明する。本実施の形態に係る重みベクトル学習装置は、２つの主要な部分からなる。１つ目は談話解析部分であり、２つ目は要約部分である。本実施の形態に係る重みベクトル学習装置の独創性は、その包括性にある。

本実施の形態においては、談話解析のトレーニングにおいて、談話解析で用いられる重みベクトルがトレーニングされる度に、学習データに対する新しい予測談話解析木を生成する。また、トレーニングされる度に生成された新しい予測談話解析木に基づいて要約を抽出し、人間により生成された正解の要約を表す標準要約と比較する。そして、予測談話解析木に基づく要約と、標準要約とを比較し、比較結果による両者の違いに基づいて、予測談話解析木を調整し、調整された談話解析木を新規談話解析木とする。そして、予測談話解析木と、新規談話解析木と、重みベクトルとに基づいて、新たな談話解析で用いられる重みベクトルを反復回用の学習データとして生成する。反復を数回繰り返した後、要約という特定のタスクに最適化された、更新後の談話解析で用いられる重みベクトルを取得することができる。この取得できる更新後の談話解析で用いられる重みベクトルは、文書を談話解析するのに用いられ、文書と、当該談話解析で用いられる重みベクトルとから生成される談話解析木に基づいて、文書から、要約を抽出することができる。なお、当該更新後の談話解析で用いられる重みベクトルは、談話解析精度が高いというよりも精度の良い要約を行うために最適化されている。そのため、談話解析と要約との隔たりを克服している。

次に、タスク志向談話解析について説明する。談話解析アルゴリズムは、複数種類知られているが、本実施の形態においては、動的ボトムアップ談話解析アルゴリズム（非特許文献４）を採用する。当該談話解析アルゴリズムは、当初、文解析用に設計されたものであるが、談話解析へと容易に移行することができる。

入力文書を、Ｘ＝ｘ_１，ｘ_２，．．．，ｘ_ｎと定義する。ここで、ｘ_ｉは、入力文書中のｉ番目の文を示している。文ｘ_ｉから文ｘ_ｊに対して、従属性があれば、（ｉ，ｊ）と表す。この場合、ｘ_ｉがヘッド（ｈｅａｄ）であり、ｘ_ｊが従属している。文単位を一つのノードと考えると、各ノードのヘッドが１つのみであるとするならば、従属関係は別々のペア同士では独立しているものと仮定する。各ノードペアに対し、得点を割り当て、２つのノード間に従属関係がある確率を示すことにすると、文書を談話解析する問題は、全ノードを連結すると共に、エッジの全得点の合計が最高となる木を発見する問題になる。これは、ある有向グラフにおいて、最大全域木（maximum spanning tree）を発見することになる。Ｅｉｓｎｅｒアルゴリズムにおいては、談話解析中に方向及び要素の完全性を記録するのに２つの二進変数が必要であり、談話解析にО（ｎ^３）時間かかる（非特許文献４）。

ここで、重要なことは、全ての取り得るエッジｓに対して、得点を定義することである。文のペア（ｉ，ｊ）は、特徴ベクトルｆ（ｉ，ｊ）、及び以下の式で示される得点ｓ（ｉ，ｊ）により表現可能である。

図１に示す、ＭＩＲＡの一般方式を示すアルゴリズムの要点は、特徴についての重みベクトルを定義することである。本実施の形態においては、ＭＩＲＡを用いて、重みベクトル

をトレーニングする。

また、本実施の形態では、図１に示す手順は、数回繰り返され、最終的な重みベクトルを全履歴

の算術平均とすることで、学習データへの過度の適合を避けている。

次に、トレーニング例に従って、重みベクトルを更新する場合について説明する。従来の談話解析方法は、正解の談話解析木に従って、重みベクトル

を更新しようとしていた。すなわち、下記（１）式及び下記（２）式に従って、重みベクトルを更新することになる。

ここで、

は、予測談話解析木であり、ｙ_ｉは正解の談話解析木であり、損失関数は、ハミング関数であり、下記（２）式となる。なお、正解の談話解析木は、事前に定義された原則に基づいて人間によって生成されたものある。

本実施の形態においては、上記（１）式、及び上記（２）式の正解の談話解析木の代わりに、新規談話解析木を用いて、下記（３）式及び下記（４）式に従って、重みベクトルをトレーニングする。

上記（３）式においては、上記（１）式の正解の談話解析木ｙ_ｉを、新規談話解析木ｙ^＊ _ｉに置き換えている。新規談話解析木ｙ^＊ _ｉは、予測談話解析木

に基づいて生成された要約と、標準要約との差異に応じて、予測談話解析木

内に含まれるノードの各々を上下に移動させることにより生成される。談話解析木の調整においては、要約に現れたテキスト単位に対応したノードに着目している。詳細については、図２に示すアルゴリズム２に示す。

なお、図２に示す、アルゴリズム２における「４）」及び「５）」における対応ノードは、文、節、又は文書内の他の基本的要素であり、本実施の形態においては、テキスト単位と定義する。RST-DTにおいて、本実施の形態においては、基本文書単位（文より短い単位で概ね節に相当する;以下「EDU」（Elementary Discourse Unit）と省略する）を用いている。アルゴリズム２の処理を、繰り返し条件を満たすまで、繰り返すことによって、重みベクトルの履歴の算術平均を、最終的な重みベクトルとして用いることができる。このように取得される重みベクトルが、要約生成のために特に最適化される。

ここで、標準要約にのみ現れるテキスト単位に対応するノードは繰り上げられる。これは、図３に示す要約アルゴリズムであるアルゴリズム３において、談話解析木における上位のノード（ルートに近いノード）には、要約を生成する際に高い得点が割り当てられるためである。また、予測談話解析木に基づいて生成された要約にのみ現れるテキスト単位に対応するノードは繰り下げられる。これは、談話解析木における下位のノードには、要約を生成する際に低い得点が割り当てられるためである。

図３に示すアルゴリズム３は、談話関係を考慮するために制約を弱めた、談話解析木に基づく要約アルゴリズムである。

全てのテキスト単位には、当該テキスト単位に含まれる語と、当該テキスト単位の談話解析木における位置とに応じて、初期得点が割り当てられる。これらのテキスト単位は、要約内のテキスト単位との距離に応じて再度ランク付けされる。要約内に含まれるテキスト単位に対応するノードが、近く設定されていれば、高い得点が割り当てられ、次回の反復にて要約に含まれるテキスト単位として選択される可能性が高くなる。このように、本実施の形態においては、比較的弱い制約下で一貫したテキストの広がりが生成されるようになる。予め定められた終了条件を満たす要約が得られるまで、ランク付け及び選択を繰り返す。ここで、２つのパラメータを調整する必要がある。α∈（０，１］は、ノードに対する役割の影響を示す。ノードに対する役割として、各ヘッドノードの得点は、それに依存するものに応じて増加し、依存ノードの得点は減少する。βは、要約におけるノードとの距離の影響を示す。現時点の要約に含まれるテキスト単位に対応するノードに近くなればなるほど、得点は増加する度合いが、βの値によって決定される。

次に、本実施の形態において用いる特徴ベクトルについて説明する。本実施の形態においては、特徴ベクトルを用いて、テキスト単位間のエッジを表している。従来の研究により、多くの特徴が開発されてきた。例えば、単語の集合（bag of words）、延べ頻度（token frequency）、品詞タグ、生成規則、及び共起性等があり、何れも本実施の形態において使用可能である。本実施の形態においては、特徴ベクトルに用いる特徴選択には着目していない。そのため、本実施の形態においては、上述したアルゴリズム２及び３の効率を確認するため、下記（ａ）〜（ｄ）に示すいくつかの単純な種類の特徴を用いる。

（ａ）単語：現行の要素が特定の品詞タグの単語（代名詞、名詞、動詞、法（mod））を含んでいるかどうか
（ｂ）長さ：要素内の単語数
（ｃ）相対位置：ペアにおける第１のものであるかどうか
（ｄ）単語ペア：２つの要素間のベクトル積

なお、特徴ベクトルに用いる特徴数は、用いるデータによって異なる。本実施の形態においては、RST−DTのトレーニング集合を用いて、特徴選択を行った。頻度５未満の特徴を全て削除した後、合計で５０００以上の特徴が得られた。特徴抽出後、テキスト単位の各ペアは、二進ベクトルにより表されることになる。また、重みベクトルの各重みは、特徴ベクトルの各特徴の重みである。また、相対位置は、文書におけるテキスト単位の前後関係を表す。

＜本発明の実施の形態に係る重みベクトル学習装置の構成＞
次に、本発明の実施の形態に係る重みベクトル学習装置の構成について説明する。図４に示すように、本発明の実施の形態に係る重みベクトル学習装置１００は、ＣＰＵと、ＲＡＭと、後述する重みベクトル学習処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この重みベクトル学習装置１００は、機能的には図４に示すように入力部１０と、演算部２０と、出力部９０とを備えている。

入力部１０は、一つ以上の単一文書と、単一文書の各々についての標準要約とを受け付け、単一文書の各々についての標準要約を標準要約記憶部２２に記憶する。

演算部２０は、標準要約記憶部２２と、特徴量抽出部２４と、談話解析部２６と、要約抽出部２８と、要約比較部３０と、重みベクトル更新部３２と、繰り返し判定部３４と、重みベクトル記憶部３６と、を含んで構成されている。

標準要約記憶部２２には、入力部１０において受け付けた、単一文書の各々についての標準要約が記憶されている。

特徴量抽出部２４は、単一文書の各々について、当該単一文書に含まれるテキスト単位の各々の組み合わせからなるペア毎に、複数の特徴量からなる特徴ベクトルを抽出する。なお、本実施の形態においては、テキスト単位は文単位とする。具体的には、ペア毎に、当該ペアのうちのヘッドとなる上位ノードに対応するテキスト単位と、当該ペアのうちの当該上位ノードに従属する下位ノードに対応するテキスト単位とのそれぞれについて、上記（ａ）〜（ｃ）の特徴の各々を抽出し、当該ペアについて、上位ノードに対応するテキスト単位と下位ノードに対応するテキスト単位に含まれる単語集合の直積（cartesian product）を、上記（ｄ）の特徴として抽出する。

談話解析部２６は、単一文書の各々について、メモリ（図示省略）に記憶されている重みベクトルの初期値、又は前回の処理で更新された重みベクトルの値と、特徴量抽出部２４によって抽出された、当該単一文書のテキスト単位のペア毎の特徴ベクトルの各々とに基づいて、単一文書のうちの最も重要なテキスト単位をルートノードとし、かつ単一文書のうちの各テキスト単位を各ノードとし、かつ修飾関係を有する各テキスト単位間に対応するノード間をエッジで結合した、単一文書の各テキスト単位の依存構造に基づく談話解析木である予測談話解析木を生成する。

要約抽出部２８は、単一文書の各々について、談話解析部２６によって生成された当該単一文書の予測談話解析木と、ノードに対する役割の影響を示すパラメータαと、要約におけるノードとの距離の影響を示すパラメータβと、に基づいて、当該単一文書に含まれるテキスト単位の各々についてランク付けを行い、ランク付きリストＲを取得し、取得したランク付きリストＲから要約に含まれるテキスト単位を選択することを、生成された要約に含まれる単語数が、予め定められた閾値以上となるまで繰り返す。

要約比較部３０は、単一文書の各々について、要約抽出部２８において生成された、当該単一文書の要約と、標準要約記憶部２２に記憶されている当該単一文書の標準要約とを比較し、比較結果に基づいて、当該単一文書の予測談話解析木を調整して、新規談話解析木を生成する。具体的には、予測談話解析木について、標準要約のみに現れるテキスト単位に対応するノードを繰り上げ、要約抽出部２８において生成された要約のみに現れるテキスト単位に対応するノードを繰り下げる。

重みベクトル更新部３２は、単一文書の各々について、当該単一文書の予測談話解析木と、当該単一文書の新規談話解析木と、重みベクトルとに基づいて、上記（３）式、及び上記（４）式に従って、重みベクトルを更新し、メモリ（図示省略）に記憶する。

繰り返し判定部３４は、処理対象となる単一文書について、重みベクトル更新部３２において、重みベクトルが更新されたか否かを判定し、更新されていた場合には、談話解析部２６、要約抽出部２８、要約比較部３０、及び重みベクトル更新部３２の処理を繰り返し、更新されていない場合には、繰り返し処理を終了し、更新された重みベクトルの履歴の各々の平均を、更新後の重みベクトルとして取得し、メモリ（図示省略）に記憶する。また、繰り返し判定部３４は、対象となる全ての単一文書について、繰り返し処理を終了した場合、メモリ（図示省略）に記憶されている更新後の重みベクトルの各々の平均を、学習後の重みベクトルとして重みベクトル記憶部３６に記憶すると共に、出力部９０に出力する。

重みベクトル記憶部３６には、繰り返し判定部３４により取得した学習後の重みベクトルが記憶されている。

＜本発明の実施の形態に係る要約生成装置の構成＞
次に、本発明の実施の形態に係る要約生成装置の構成について説明する。図５に示すように、本発明の実施の形態に係る要約生成装置２００は、ＣＰＵと、ＲＡＭと、後述する要約生成処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この要約生成装置２００は、機能的には図５に示すように入力部２１０と、演算部２２０と、出力部２９０とを備えている。

入力部２１０は、要約生成対象となる単一文書を受け付ける。

演算部２２０は、特徴量抽出部２２４と、談話解析部２２６と、要約抽出部２２８と、重みベクトル記憶部２３６と、を含んで構成されている。

特徴量抽出部２２４は、単一文書に含まれるテキスト単位の各々の組み合わせからなるペア毎に、重みベクトル学習装置１００における特徴量抽出部２４と同様に、複数の特徴量からなる特徴ベクトルを抽出する。

談話解析部２２６は、重みベクトル記憶部２３６に記憶されている重みベクトルの値と、特徴量抽出部２２４によって抽出された単一文書のテキスト単位のペア毎の特徴ベクトルの各々とに基づいて、談話解析木を生成する。

要約抽出部２２８は、談話解析部２２６によって生成された単一文書の談話解析木と、ノードに対する役割の影響を示すパラメータαと、要約におけるノードとの距離の影響を示すパラメータβと、に基づいて、単一文書に含まれるテキスト単位の各々についてランク付けを行い、ランク付きリストＲを取得し、取得したランク付きリストＲから要約に含まれるテキスト単位を選択することを、生成された要約の単語数が、予め定められた閾値以上となるまで繰り返すことによって、要約を生成し、出力部２９０に出力する。

重みベクトル記憶部２３６は、重みベクトル学習装置１００の重みベクトル記憶部３６に記憶されている重みベクトルと同一の重みベクトルが記憶されている。

＜本発明の実施の形態に係る重みベクトル学習装置の作用＞
次に、本発明の第１の実施の形態に係る重みベクトル学習装置１００の作用について説明する。入力部１０において単一文書の各々と、単一文書の各々についての標準要約とを受け付けると、単一文書の各々についての標準要約を標準要約記憶部２２に記憶すると共に、重みベクトル学習装置１００は、図６に示す重みベクトル学習処理ルーチンを実行する。

まず、ステップＳ１００では、標準要約記憶部２２に記憶されている、入力部１０において受け付けた単一文書の各々の標準要約を読み込む。

次に、ステップＳ１０２では、入力部１０において受け付けた単一文書の各々について、当該単一文書に含まれるテキスト単位の各々からなるペア毎に、複数の特徴量からなる特徴ベクトルを抽出する。

次に、ステップＳ１０４では、メモリ（図示省略）に記憶されている重みベクトルの初期値を読み込む。

次に、ステップＳ１０６では、処理対象となる単一文書について、ステップＳ１０２において取得したテキスト単位のペア毎の特徴ベクトルと、ステップＳ１０４において取得した重みベクトルの初期値、又は前回の処理においてステップＳ１１２において取得した重みベクトルの値とに基づいて、予測談話解析木を生成する。

次に、ステップＳ１０８では、処理対象となる単一文書について、ステップＳ１０６において取得した予測談話解析木に基づいて、要約を生成する。

次に、ステップＳ１１０では、処理対象となる単一文書について、ステップＳ１００において取得した、当該単一文書についての標準要約と、ステップＳ１０８において取得した要約とを比較し、比較した結果に基づいて、ステップＳ１０６において取得した予測談話解析木に含まれるノードの各々を上下に移動させることにより、新規談話解析木を生成する。

次に、ステップＳ１１２では、処理対象となる単一文書について、ステップＳ１０４において取得した重みベクトルの初期値、又は前回の処理においてステップＳ１１２において取得した重みベクトルの値と、ステップＳ１０６において取得した予測談話解析木と、ステップＳ１１０において取得した新規談話解析木と、に基づいて、上記（３）式、及び上記（４）式に従って、重みベクトルの値を更新し、当該重みベクトルの値をメモリ（図示省略）に記憶する。

次に、ステップＳ１１４では、予め定められた終了条件を満たしているか否かを判定し、終了条件を満たしている場合には、ステップＳ１１６へ移行し、終了条件を満たしていない場合には、ステップＳ１０６へ移行し、ステップＳ１０６〜ステップＳ１１４までの処理を繰り返す。

次に、ステップＳ１１６では、処理対象となる単一文書について、ステップＳ１１２において取得した、繰り返し毎の重みベクトルの値の平均を、更新後の重みベクトルの値として取得し、メモリ（図示省略）に記憶する。

次に、ステップＳ１１８では、入力部１０において受け付けた全ての単一文書について、ステップＳ１０６〜ステップＳ１１６までの処理を終了したか否かを判定する。全ての単一文書についてステップＳ１０６〜ステップＳ１１６までの処理を終了した場合には、ステップＳ１２０へ移行し、全ての単一文書について、ステップＳ１０６〜ステップＳ１１６までの処理を終了していない場合には、処理対象となる単一文書を変更して、ステップＳ１０６〜ステップＳ１１８までの処理を繰り返す。

次に、ステップＳ１２０では、ステップＳ１１６において取得した更新後の重みベクトルの各々の値の平均を、学習した重みベクトルの値として取得する。

次に、ステップＳ１２２では、ステップＳ１２０において取得した、学習した重みベクトルの値を重みベクトル記憶部３６に記憶すると共に、出力部９０に出力して、重みベクトル学習処理ルーチンを終了する。

＜本発明の実施の形態に係る要約生成装置の作用＞
次に、本発明の実施の形態に係る要約生成装置２００の作用について説明する。入力部２１０において単一文書を受け付けると、要約生成装置２００は、図７に示す要約生成処理ルーチンを実行する。

まず、ステップＳ２００では、重みベクトル記憶部２３６に記憶されている、重みベクトル学習装置１００の重みベクトル記憶部３６に記憶されている重みベクトルの値と同一の重みベクトルの値を読み込む。

次に、ステップＳ２０２では、入力部２１０において取得した単一文書に含まれるテキスト単位の各々からなるペア毎に、ステップＳ１０２と同様に、特徴ベクトルを抽出する。

次に、ステップＳ２０４では、ステップＳ２００において取得した重みベクトルの値と、ステップＳ２０２において取得したテキスト単位のペア毎の特徴ベクトルとに基づいて、談話解析木を生成する。

次に、ステップＳ２０６では、ステップＳ２０４において取得した談話解析木に基づいて、要約を生成する。

次に、ステップＳ２０８では、ステップＳ２０６において取得した要約を、出力部２９０から出力して要約生成処理ルーチンを終了する。

＜実験結果＞
次に、RST-DT、及びTAC2011要約タスクデータについて、それぞれ実験を行った結果について説明する。RST-DTは、WSJからの385件（トレーニング347、テスト38）の文書を含む。385件の文書中、30件には、人間が書いた要約が付されており、150件には、手動で選択したEDUを含む要約が付されている。長い文書は談話解析に長時間を要し、短い文書には有用な情報が含まれていないことから、手動が書いた要約を付した30件の文書、及びあまりに長いかあまりに短い文書を除外して、100件の文書をトレーニング対象として選択し、30件の文書をテストデータとして選択した。

また、要約アルゴリズムのパラメータ調整のために、10件の文書を含んだ小型の開発集合を作成し、学習データにしたがって、パラメータを調整した。なお、各パラメータ（α、β、反復数）は、（０．７，０．１，６）と設定されている。

さらに、TAC2011マルチ文書要約タスクデータを用いて、本実施の形態におけるシステムを検査した。44件の文書集合があり、各集合には、要約用のフォルダＡと、更新された要約用のフォルダＢとの２つのフォルダが含まれており、各フォルダには、10件の文書が含まれている。本実施の形態におけるシステムは、単一文書の要約のためにのみ設計されている。そして、文書集合全体の代表として、中型の文書が各Ａフォルダから選択される。

本実施の形態で説明した方法を、最先端の木構造ベース単一文書要約システムと比較した。図８に、RST-DTについての結果を示す。DST（Discourse Supervised Tree-based summarization）が、本実施の形態におけるシステムであり、TKP（Tree Knapsack Problem）が非特許文献３の木構造ナップザック問題法の方法である。Ｍも非特許文献３に由来し、これは非特許文献１の方法を実装したものである。MEADは、MEADツールキットが提供するベースライン（baseline）のシステムであり、ランク付け法およびMMR（Maximal Marginal Relevance;関連性の変化量を選択の基準とする）を用いて、要約を抽出している。ここで付されているＧは、正解の談話解析木に基づいて要約を生成することを意味し、Ｈは、重みベクトルで生成した談話解析木を用いることを意味している。結果は、ROUGEツールキットで解析した。

本実施の形態で説明した方法は、他のどの方法よりも性能面で優れており、自動構文解析により得られた構文木に基づくものに対してだけでなく、人手により生成した正解の構文木に基づくものに対しても同様である。本実施の形態における談話解析において用いる重みベクトルは、要約用に学習されたものであり、要約の品質を向上させることに成功している。ROUGEスコア（単語の再現率に基づく要約の自動評価尺度。０から１の間の値で高いほどよい）が高いことからも、正解の談話解析木が、全体として要約に適しているというわけではないことが証明された。また、本実施の形態に係るシステムの性能を検証するためにTAC-2011データについても実験を行った。図９にその結果を示す。

図９において、全文を、基本要素として用いている。小型の基本要素を用いることにより、要約用の短文を得ることができる。この想定を検証するため、文をEDUに分割するのにSPADEを用いており、EDUに基づく結果（DST-EDU）を図９に示している。EDUに基づくシステムでは、性能面の向上はみられないが、それでも、複数文書要約法に匹敵するものである。

以上説明したように、本発明の実施の形態に係る重みベクトル学習装置によれば、入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴ベクトルを抽出し、抽出されたペア毎の特徴ベクトルと、重みベクトルの初期値、又は前回更新された重みベクトルの値とに基づいて、予測談話解析木を生成し、生成された予測談話解析木に基づいて単一文書の要約を生成し、生成された要約と、単一文書について予め用意された要約の正解とを比較した結果、要約と、要約の正解とに差異がある場合、重みベクトルの値を更新することを、予め定められた終了条件を満たすまで繰り返すことにより、単一文書要約の品質を向上させる、談話解析の重みベクトルを学習することができる。

また、本発明の実施の形態に係る要約生成装置によれば、入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴ベクトルを抽出し、抽出されたペア毎の特徴ベクトルと、学習した重みベクトルの値とに基づいて、談話解析木を生成し、生成された談話解析木に基づいて、単一文書の要約を生成することにより、単一文書要約の品質を向上させることができる。

また、重要な情報を含む複数の文を選択する一方で、文同士の談話関係を考慮することによって、首尾一貫していると共に、高品質な要約を取得することができる。

また、人間により提供された要約に従って、談話解析木を調整することにより、学習データが動的に生成される。すわなち、本実施の形態におけるシステムアーキテクチャは従来方法と非常に異なっており、学習データは、反復回毎に異なる。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、本実施の形態においては、テキスト単位を文とする場合について説明したが、これに限定されるものではなく、テキスト単位を節、又は文書内の他の基本的要素としてもよい。ここで、修辞構造理論（RST）では「テキスト単位」としてEDUを使用した。複文において主節と従属節は、それぞれ１つのEDUになるため、EDUは、ほぼ日本語の「単文」に相当する。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。

１０入力部
２０演算部
２２標準要約記憶部
２４特徴量抽出部
２６談話解析部
２８要約抽出部
３０要約比較部
３２重みベクトル更新部
３４繰り返し判定部
３６重みベクトル記憶部
９０出力部
１００重みベクトル学習装置
２００要約生成装置
２１０入力部
２２０演算部
２２４特徴量抽出部
２２６談話解析部
２２８要約抽出部
２３６重みベクトル記憶部
２９０出力部

Claims

入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部により抽出されたペア毎の特徴量と、重みベクトルの初期値、又は前回更新された重みベクトルの値とに基づいて、前記単一文書のうちの最も重要な前記テキスト単位をルートノードとし、かつ前記単一文書のうちの各テキスト単位を各ノードとし、かつ修飾関係を有する前記各テキスト単位間に対応するノード間をエッジで結合した、前記単一文書の各テキスト単位の依存構造に基づく談話解析木である予測談話解析木を生成する談話解析部と、
前記談話解析部により生成された予測談話解析木に基づいて前記単一文書の要約を生成する要約抽出部と、
前記要約抽出部により生成された要約と、前記単一文書について予め用意された要約の正解とを比較する要約比較部と、
前記要約比較部により前記要約抽出部により生成された要約と、前記単一文書について予め用意された要約の正解とを比較した結果、前記要約と、前記要約の正解とに差異がある場合、前記重みベクトルの値を更新する重みベクトル更新部と、
前記談話解析部による生成と、前記要約抽出部による生成と、前記要約比較部による比較と、前記重みベクトル更新部による更新と、を予め定められた終了条件を満たすまで繰り返す繰り返し判定部と、
を含む、重みベクトル学習装置。
前記重みベクトル更新部は、前記要約比較部により、前記要約抽出部により生成された要約と、前記単一文書について予め用意された要約の正解とを比較した結果、前記要約と、前記要約の正解とに差異がある場合、前記要約の正解のみに現れる前記テキスト単位に対応する前記予測談話解析木のノードを繰り上げ、前記要約にのみ現れる前記テキスト単位に対応する前記予測談話解析木のノードを繰り下げた新規談話解析木を生成し、前記重みベクトルに基づいて前記単一文書について生成される前記談話解析木が、前記新規談話解析木となるように、前記重みベクトルの値を更新する請求項１記載の重みベクトル学習装置。
入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部により抽出されたペア毎の特徴量と、請求項１又は請求項２の重みベクトル学習装置により更新した前記重みベクトルの値とに基づいて、談話解析木を生成する談話解析部と、
前記談話解析部により生成された談話解析木に基づいて、前記単一文書の要約を生成する要約抽出部と、
を含む、要約生成装置。
特徴量抽出部と、談話解析部と、要約抽出部と、要約比較部と、重みベクトル更新部と、繰り返し判定部と、を含む、重みベクトル学習装置における、重みベクトル学習方法であって、
前記特徴量抽出部は、入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出し、
前記談話解析部は、前記特徴量抽出部により抽出されたペア毎の特徴量と、重みベクトルの初期値、又は前回更新された重みベクトルの値とに基づいて、前記単一文書のうちの最も重要な前記テキスト単位をルートノードとし、かつ前記単一文書のうちの各テキスト単位を各ノードとし、かつ修飾関係を有する前記各テキスト単位間に対応するノード間をエッジで結合した、前記単一文書の各テキスト単位の依存構造に基づく談話解析木である予測談話解析木を生成し、
前記要約抽出部は、前記談話解析部により生成された予測談話解析木に基づいて前記単一文書の要約を生成し、
前記要約比較部は、前記要約抽出部により生成された要約と、前記単一文書について予め用意された要約の正解とを比較し、
前記重みベクトル更新部は、前記要約比較部により前記要約抽出部により生成された要約と、前記単一文書について予め用意された要約の正解とを比較した結果、前記要約と、前記要約の正解とに差異がある場合、前記重みベクトルの値を更新し、
前記繰り返し判定部は、前記談話解析部による生成と、前記要約抽出部による生成と、前記要約比較部による比較と、前記重みベクトル更新部による更新と、を予め定められた終了条件を満たすまで繰り返す
重みベクトル学習方法。
前記重みベクトル更新部により前記重みベクトルの値を更新することは、前記要約比較部により、前記要約抽出部により生成された要約と、前記単一文書について予め用意された要約の正解とを比較した結果、前記要約と、前記要約の正解とに差異がある場合、前記要約の正解のみに現れる前記テキスト単位に対応する前記予測談話解析木のノードを繰り上げ、前記要約にのみ現れる前記テキスト単位に対応する前記予測談話解析木のノードを繰り下げた新規談話解析木を生成し、前記重みベクトルに基づいて前記単一文書について生成される前記談話解析木が、前記新規談話解析木となるように、前記重みベクトルの値を更新する請求項４記載の重みベクトル学習方法。
特徴量抽出部と、談話解析部と、要約抽出部と、を含む要約生成装置における、要約生成方法であって、
前記特徴量抽出部は、入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出し、
前記談話解析部は、前記特徴量抽出部により抽出されたペア毎の特徴量と、請求項４又は請求項５の重みベクトル学習方法により更新した前記重みベクトルの値とに基づいて、談話解析木を生成し、
前記要約抽出部は、前記談話解析部により生成された談話解析木に基づいて、前記単一文書の要約を生成する
要約生成方法。
コンピュータを、請求項１又は２記載の重みベクトル学習装置、若しくは、請求項３記載の要約生成装置を構成する各部として機能させるためのプログラム。