JP6170891B2 - 重みベクトル学習装置、要約生成装置、方法、及びプログラム - Google Patents

重みベクトル学習装置、要約生成装置、方法、及びプログラム Download PDF

Info

Publication number
JP6170891B2
JP6170891B2 JP2014188068A JP2014188068A JP6170891B2 JP 6170891 B2 JP6170891 B2 JP 6170891B2 JP 2014188068 A JP2014188068 A JP 2014188068A JP 2014188068 A JP2014188068 A JP 2014188068A JP 6170891 B2 JP6170891 B2 JP 6170891B2
Authority
JP
Japan
Prior art keywords
unit
weight vector
discourse analysis
single document
extraction unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014188068A
Other languages
English (en)
Other versions
JP2016062181A (ja
Inventor
ジュン オウ
ジュン オウ
康久 吉田
康久 吉田
平尾 努
努 平尾
克仁 須藤
克仁 須藤
永田 昌明
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014188068A priority Critical patent/JP6170891B2/ja
Publication of JP2016062181A publication Critical patent/JP2016062181A/ja
Application granted granted Critical
Publication of JP6170891B2 publication Critical patent/JP6170891B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、重みベクトル学習装置、方法、及びプログラムに係り、特に、入力された文書を要約するための重みベクトルを学習する重みベクトル学習装置、方法、及びプログラム、並びに入力された文書を要約する要約生成装置、方法、及びプログラムに関する。
要約は、自然言語処理の分野において長年にわたって重要な研究課題であり、情報の急激な増大により、近年ますます重要度を増してきている。取り扱う文書数に応じて、要約を、単一文書要約及び複数文書要約の2種類に分類することができる。単一文書要約は、単一の文書のみを扱い、複数文書要約は、関連文書一式を扱う。
非特許文献1は単一文書要約についての先行研究であり、文書を修辞構造理論談話木(Rhetorical Structure Theory Discourse Tree;以下「RST-DT」と略す)とみなし、要約生成のために木構造から抽出された優先ランクに従って、テキスト単位を選択している。また、雑音のある通信路モデルによりRST-DTが与えられた要約の確率を直接的にモデルする文書圧縮方法も知られている(非特許文献2)。
要約を、所与の談話解析木についての最適化問題とみなすことにより、談話関係及び最適化の双方を考慮することができる。最近、要約を、木構造についてのナップザック問題とみて、整数線形計画問題を用いて定式化することも知られている(非特許文献3)。報告されている結果によると、正解の談話解析木に基づく場合には、最先端の方法を凌駕することが可能になる。非特許文献4は最先端の解析法の一つであり、本発明の談話解析でも利用している。
Marcu, Daniel. "Improving summarization through rhetorical parsing tuning." The 6th Workshop on Very Large Corpora. 1998. Daum III, Hal, and Daniel Marcu. "A noisy-channel model for document compression." Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics,2002. Hirao, Tsutomu, et al. "Single-Document Summarization as a Tree Knapsack Problem." Proceedings of the 2013 Conference on Empirical Methods in Natural Language. Association for Computational Linguistics.2013. McDonald, Ryan, Koby Crammer, and Fernando Pereira. "Online large-margin training of dependency parsers." Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2005.
非特許文献1及び2の方法は、談話関係を考慮しているが、最適化に失敗する場合があるという問題がある。
また、いくつかの事前定義された原則に基づいて人間によって生成された談話解析木(正解の談話解析木)は、要約等の実用的なタスクに用いることを前提としていないので、要約を目的とした場合には、必ずしも正解ではないという問題がある。
そのため、注釈付きデータに基づいて開発された談話解析に用いる重みベクトルは要約には不適切な可能性がある。談話解析は、人手で注釈付けされたコーパスとできるだけ一致する解析木を生成することを目標としているが、要約は、高品質の要約を得ることが目的であり、談話解析木の精度は必ずしも関係ないためである。
一言で言えば、高品質の要約を抽出することに談話関係は重要な役割を果たしているものの、談話解析木をそのまま利用するような簡単な方法で、実用的な要約を作成することは難しいという問題がある。
本発明では、上記問題点を解決するために成されたものであり、単一文書要約の品質を向上させる談話解析の重みベクトルを学習することができる重みベクトル学習装置、方法、及びプログラムを提供することを目的とする。
また、単一文書要約の品質を向上させることができる要約生成装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る重みベクトル学習装置は、入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出する特徴量抽出部と、前記特徴量抽出部により抽出されたペア毎の特徴量と、重みベクトルの初期値、又は前回更新された重みベクトルの値とに基づいて、前記単一文書のうちの最も重要な前記テキスト単位をルートノードとし、かつ前記単一文書のうちの各テキスト単位を各ノードとし、かつ修飾関係を有する前記各テキスト単位間に対応するノード間をエッジで結合した、前記単一文書の各テキスト単位の依存構造に基づく談話解析木である予測談話解析木を生成する談話解析部と、前記談話解析部により生成された予測談話解析木に基づいて前記単一文書の要約を生成する要約抽出部と、前記要約抽出部により生成された要約と、前記単一文書について予め用意された要約の正解とを比較する要約比較部と、前記要約比較部により前記要約抽出部により生成された要約と、前記単一文書について予め用意された要約の正解とを比較した結果、前記要約と、前記要約の正解とに差異がある場合、前記重みベクトルの値を更新する重みベクトル更新部と、前記談話解析部による生成と、前記要約抽出部による生成と、前記要約比較部による比較と、前記重みベクトル更新部による更新と、を予め定められた終了条件を満たすまで繰り返す繰り返し判定部と、を含んで構成されている。
第2の発明に係る重みベクトル学習方法は、特徴量抽出部と、談話解析部と、要約抽出部と、要約比較部と、重みベクトル更新部と、繰り返し判定部と、を含む、重みベクトル学習装置における、重みベクトル学習方法であって、前記特徴量抽出部は、入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出し、前記談話解析部は、前記特徴量抽出部により抽出されたペア毎の特徴量と、重みベクトルの初期値、又は前回更新された重みベクトルの値とに基づいて、前記単一文書のうちの最も重要な前記テキスト単位をルートノードとし、かつ前記単一文書のうちの各テキスト単位を各ノードとし、かつ修飾関係を有する前記各テキスト単位間に対応するノード間をエッジで結合した、前記単一文書の各テキスト単位の依存構造に基づく談話解析木である予測談話解析木を生成し、前記要約抽出部は、前記談話解析部により生成された予測談話解析木に基づいて前記単一文書の要約を生成し、前記要約比較部は、前記要約抽出部により生成された要約と、前記単一文書について予め用意された要約の正解とを比較し、前記重みベクトル更新部は、前記要約比較部により前記要約抽出部により生成された要約と、前記単一文書について予め用意された要約の正解とを比較した結果、前記要約と、前記要約の正解とに差異がある場合、前記重みベクトルの値を更新し、前記繰り返し判定部は、前記談話解析部による生成と、前記要約抽出部による生成と、前記要約比較部による比較と、前記重みベクトル更新部による更新と、を予め定められた終了条件を満たすまで繰り返す。
第1及び第2の発明によれば、特徴量抽出部により、入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出し、談話解析部により、抽出されたペア毎の特徴量と、重みベクトルの初期値、又は前回更新された重みベクトルの値とに基づいて、単一文書のうちの最も重要なテキスト単位をルートノードとし、かつ単一文書のうちの各テキスト単位を各ノードとし、かつ修飾関係を有する各テキスト単位間に対応するノード間をエッジで結合した、単一文書の各テキスト単位の依存構造に基づく談話解析木である予測談話解析木を生成し、要約抽出部により、生成された予測談話解析木に基づいて単一文書の要約を生成し、要約比較部により、生成された要約と、単一文書について予め用意された要約の正解とを比較し、重みベクトル更新部により、要約抽出部により生成された要約と、単一文書について予め用意された要約の正解とを比較した結果、要約と、要約の正解とに差異がある場合、重みベクトルの値を更新し、繰り返し判定部により、談話解析部による生成と、要約抽出部による生成と、要約比較部による比較と、重みベクトル更新部による更新と、を予め定められた終了条件を満たすまで繰り返す。
このように、第1及び第2の発明によれば、入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出し、抽出されたペア毎の特徴量と、重みベクトルの初期値、又は前回更新された重みベクトルの値とに基づいて、予測談話解析木を生成し、生成された予測談話解析木に基づいて単一文書の要約を生成し、生成された要約と、単一文書について予め用意された要約の正解とを比較した結果、要約と、要約の正解とに差異がある場合、重みベクトルの値を更新することを繰り返すことにより、単一文書要約の品質を向上させる談話解析の重みベクトルを学習することができる。
また、第1及び第2の発明において、前記重みベクトル更新部は、前記要約比較部により、前記要約抽出部により生成された要約と、前記単一文書について予め用意された要約の正解とを比較した結果、前記要約と、前記要約の正解とに差異がある場合、前記要約の正解のみに現れる前記テキスト単位に対応する前記予測談話解析木のノードを繰り上げ、前記要約にのみ現れる前記テキスト単位に対応する前記予測談話解析木のノードを繰り下げた新規談話解析木を生成し、前記重みベクトルに基づいて前記単一文書について生成される前記談話解析木が、前記新規談話解析木となるように、前記重みベクトルの値を更新することができる。
第3の発明に係る要約生成装置は、入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出する特徴量抽出部と、前記特徴量抽出部により抽出されたペア毎の特徴量と、第1の発明の重みベクトル学習装置により更新した前記重みベクトルの値とに基づいて、談話解析木を生成する談話解析部と、前記談話解析部により生成された談話解析木に基づいて、前記単一文書の要約を生成する要約抽出部と、を含んで構成されている。
第4の発明に係る要約生成方法は、特徴量抽出部と、談話解析部と、要約抽出部と、を含む要約生成装置における、要約生成方法であって、前記特徴量抽出部は、入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出し、前記談話解析部は、前記特徴量抽出部により抽出されたペア毎の特徴量と、第2の発明の重みベクトル学習方法により更新した前記重みベクトルの値とに基づいて、談話解析木を生成し、前記要約抽出部は、前記談話解析部により生成された談話解析木に基づいて、前記単一文書の要約を生成する。
第3及び第4の発明によれば、特徴量抽出部により、入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出し、談話解析部により、抽出されたペア毎の特徴量と、重みベクトル学習装置又は重みベクトル学習方法により更新した重みベクトルの値とに基づいて、談話解析木を生成し、要約抽出部により、生成された談話解析木に基づいて、単一文書の要約を生成する。
このように、第3及び第4の発明によれば、入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出し、抽出されたペア毎の特徴量と、重みベクトル学習装置又は重みベクトル学習方法により更新した重みベクトルの値とに基づいて、談話解析木を生成し、生成された談話解析木に基づいて、単一文書の要約を生成することにより、単一文書要約の品質を向上させることができる。
また、本発明のプログラムは、コンピュータを、上記の重みベクトル学習装置、及び要約生成装置を構成する各部として機能させるためのプログラムである。
以上説明したように、本発明の重みベクトル学習装置、方法、及びプログラムによれば、入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出し、抽出されたペア毎の特徴量と、重みベクトルの初期値、又は前回更新された重みベクトルの値とに基づいて、予測談話解析木を生成し、生成された予測談話解析木に基づいて単一文書の要約を生成し、生成された要約と、単一文書について予め用意された要約の正解とを比較した結果、要約と、要約の正解とに差異がある場合、重みベクトルの値を更新することを繰り返すことにより、単一文書要約の品質を向上させる談話解析の重みベクトルを学習することができる。
また、本発明の要約生成装置、方法、及びプログラムによれば、入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出し、抽出されたペア毎の特徴量と、学習した重みベクトルの値とに基づいて、談話解析木を生成し、生成された談話解析木に基づいて、単一文書の要約を生成することにより、単一文書要約の品質を向上させることができる。
MIRAの一般方式を示すアルゴリズムの詳細を示す図である。 重みベクトルの学習のアルゴリズムの詳細を示す図である。 要約アルゴリズムの詳細を示す図である。 本発明の実施の形態に係る重みベクトル学習装置の機能的構成を示すブロック図である。 本発明の実施の形態に係る要約生成装置の機能的構成を示すブロック図である。 本発明の実施の形態に係る重みベクトル学習装置における重みベクトル学習処理ルーチンを示すフローチャート図である。 本発明の実施の形態に係る要約生成装置における要約生成処理ルーチンを示すフローチャート図である。 RST-DTについての結果を示す図である。 TAC-2011についての結果を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態の原理>
まず、本発明の実施の形態に係る重みベクトル学習装置の原理について説明する。本実施の形態に係る重みベクトル学習装置は、2つの主要な部分からなる。1つ目は談話解析部分であり、2つ目は要約部分である。本実施の形態に係る重みベクトル学習装置の独創性は、その包括性にある。
本実施の形態においては、談話解析のトレーニングにおいて、談話解析で用いられる重みベクトルがトレーニングされる度に、学習データに対する新しい予測談話解析木を生成する。また、トレーニングされる度に生成された新しい予測談話解析木に基づいて要約を抽出し、人間により生成された正解の要約を表す標準要約と比較する。そして、予測談話解析木に基づく要約と、標準要約とを比較し、比較結果による両者の違いに基づいて、予測談話解析木を調整し、調整された談話解析木を新規談話解析木とする。そして、予測談話解析木と、新規談話解析木と、重みベクトルとに基づいて、新たな談話解析で用いられる重みベクトルを反復回用の学習データとして生成する。反復を数回繰り返した後、要約という特定のタスクに最適化された、更新後の談話解析で用いられる重みベクトルを取得することができる。この取得できる更新後の談話解析で用いられる重みベクトルは、文書を談話解析するのに用いられ、文書と、当該談話解析で用いられる重みベクトルとから生成される談話解析木に基づいて、文書から、要約を抽出することができる。なお、当該更新後の談話解析で用いられる重みベクトルは、談話解析精度が高いというよりも精度の良い要約を行うために最適化されている。そのため、談話解析と要約との隔たりを克服している。
次に、タスク志向談話解析について説明する。談話解析アルゴリズムは、複数種類知られているが、本実施の形態においては、動的ボトムアップ談話解析アルゴリズム(非特許文献4)を採用する。当該談話解析アルゴリズムは、当初、文解析用に設計されたものであるが、談話解析へと容易に移行することができる。
入力文書を、X=x,x,...,xと定義する。ここで、xは、入力文書中のi番目の文を示している。文xから文xに対して、従属性があれば、(i,j)と表す。この場合、xがヘッド(head)であり、xが従属している。文単位を一つのノードと考えると、各ノードのヘッドが1つのみであるとするならば、従属関係は別々のペア同士では独立しているものと仮定する。各ノードペアに対し、得点を割り当て、2つのノード間に従属関係がある確率を示すことにすると、文書を談話解析する問題は、全ノードを連結すると共に、エッジの全得点の合計が最高となる木を発見する問題になる。これは、ある有向グラフにおいて、最大全域木(maximum spanning tree)を発見することになる。Eisnerアルゴリズムにおいては、談話解析中に方向及び要素の完全性を記録するのに2つの二進変数が必要であり、談話解析にО(n)時間かかる(非特許文献4)。
ここで、重要なことは、全ての取り得るエッジsに対して、得点を定義することである。文のペア(i,j)は、特徴ベクトルf(i,j)、及び以下の式で示される得点s(i,j)により表現可能である。
図1に示す、MIRAの一般方式を示すアルゴリズムの要点は、特徴についての重みベクトルを定義することである。本実施の形態においては、MIRAを用いて、重みベクトル
をトレーニングする。
また、本実施の形態では、図1に示す手順は、数回繰り返され、最終的な重みベクトルを全履歴
の算術平均とすることで、学習データへの過度の適合を避けている。
次に、トレーニング例に従って、重みベクトルを更新する場合について説明する。従来の談話解析方法は、正解の談話解析木に従って、重みベクトル
を更新しようとしていた。すなわち、下記(1)式及び下記(2)式に従って、重みベクトルを更新することになる。
ここで、
は、予測談話解析木であり、yは正解の談話解析木であり、損失関数は、ハミング関数であり、下記(2)式となる。なお、正解の談話解析木は、事前に定義された原則に基づいて人間によって生成されたものある。
本実施の形態においては、上記(1)式、及び上記(2)式の正解の談話解析木の代わりに、新規談話解析木を用いて、下記(3)式及び下記(4)式に従って、重みベクトルをトレーニングする。
上記(3)式においては、上記(1)式の正解の談話解析木yを、新規談話解析木y に置き換えている。新規談話解析木y は、予測談話解析木
に基づいて生成された要約と、標準要約との差異に応じて、予測談話解析木
内に含まれるノードの各々を上下に移動させることにより生成される。談話解析木の調整においては、要約に現れたテキスト単位に対応したノードに着目している。詳細については、図2に示すアルゴリズム2に示す。
なお、図2に示す、アルゴリズム2における「4)」及び「5)」における対応ノードは、文、節、又は文書内の他の基本的要素であり、本実施の形態においては、テキスト単位と定義する。RST-DTにおいて、本実施の形態においては、基本文書単位(文より短い単位で概ね節に相当する;以下「EDU」(Elementary Discourse Unit)と省略する)を用いている。アルゴリズム2の処理を、繰り返し条件を満たすまで、繰り返すことによって、重みベクトルの履歴の算術平均を、最終的な重みベクトルとして用いることができる。このように取得される重みベクトルが、要約生成のために特に最適化される。
ここで、標準要約にのみ現れるテキスト単位に対応するノードは繰り上げられる。これは、図3に示す要約アルゴリズムであるアルゴリズム3において、談話解析木における上位のノード(ルートに近いノード)には、要約を生成する際に高い得点が割り当てられるためである。また、予測談話解析木に基づいて生成された要約にのみ現れるテキスト単位に対応するノードは繰り下げられる。これは、談話解析木における下位のノードには、要約を生成する際に低い得点が割り当てられるためである。
図3に示すアルゴリズム3は、談話関係を考慮するために制約を弱めた、談話解析木に基づく要約アルゴリズムである。
全てのテキスト単位には、当該テキスト単位に含まれる語と、当該テキスト単位の談話解析木における位置とに応じて、初期得点が割り当てられる。これらのテキスト単位は、要約内のテキスト単位との距離に応じて再度ランク付けされる。要約内に含まれるテキスト単位に対応するノードが、近く設定されていれば、高い得点が割り当てられ、次回の反復にて要約に含まれるテキスト単位として選択される可能性が高くなる。このように、本実施の形態においては、比較的弱い制約下で一貫したテキストの広がりが生成されるようになる。予め定められた終了条件を満たす要約が得られるまで、ランク付け及び選択を繰り返す。ここで、2つのパラメータを調整する必要がある。α∈(0,1]は、ノードに対する役割の影響を示す。ノードに対する役割として、各ヘッドノードの得点は、それに依存するものに応じて増加し、依存ノードの得点は減少する。βは、要約におけるノードとの距離の影響を示す。現時点の要約に含まれるテキスト単位に対応するノードに近くなればなるほど、得点は増加する度合いが、βの値によって決定される。
次に、本実施の形態において用いる特徴ベクトルについて説明する。本実施の形態においては、特徴ベクトルを用いて、テキスト単位間のエッジを表している。従来の研究により、多くの特徴が開発されてきた。例えば、単語の集合(bag of words)、延べ頻度(token frequency)、品詞タグ、生成規則、及び共起性等があり、何れも本実施の形態において使用可能である。本実施の形態においては、特徴ベクトルに用いる特徴選択には着目していない。そのため、本実施の形態においては、上述したアルゴリズム2及び3の効率を確認するため、下記(a)〜(d)に示すいくつかの単純な種類の特徴を用いる。
(a)単語:現行の要素が特定の品詞タグの単語(代名詞、名詞、動詞、法(mod))を含んでいるかどうか
(b)長さ:要素内の単語数
(c)相対位置:ペアにおける第1のものであるかどうか
(d)単語ペア:2つの要素間のベクトル積
なお、特徴ベクトルに用いる特徴数は、用いるデータによって異なる。本実施の形態においては、RST−DTのトレーニング集合を用いて、特徴選択を行った。頻度5未満の特徴を全て削除した後、合計で5000以上の特徴が得られた。特徴抽出後、テキスト単位の各ペアは、二進ベクトルにより表されることになる。また、重みベクトルの各重みは、特徴ベクトルの各特徴の重みである。また、相対位置は、文書におけるテキスト単位の前後関係を表す。
<本発明の実施の形態に係る重みベクトル学習装置の構成>
次に、本発明の実施の形態に係る重みベクトル学習装置の構成について説明する。図4に示すように、本発明の実施の形態に係る重みベクトル学習装置100は、CPUと、RAMと、後述する重みベクトル学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この重みベクトル学習装置100は、機能的には図4に示すように入力部10と、演算部20と、出力部90とを備えている。
入力部10は、一つ以上の単一文書と、単一文書の各々についての標準要約とを受け付け、単一文書の各々についての標準要約を標準要約記憶部22に記憶する。
演算部20は、標準要約記憶部22と、特徴量抽出部24と、談話解析部26と、要約抽出部28と、要約比較部30と、重みベクトル更新部32と、繰り返し判定部34と、重みベクトル記憶部36と、を含んで構成されている。
標準要約記憶部22には、入力部10において受け付けた、単一文書の各々についての標準要約が記憶されている。
特徴量抽出部24は、単一文書の各々について、当該単一文書に含まれるテキスト単位の各々の組み合わせからなるペア毎に、複数の特徴量からなる特徴ベクトルを抽出する。なお、本実施の形態においては、テキスト単位は文単位とする。具体的には、ペア毎に、当該ペアのうちのヘッドとなる上位ノードに対応するテキスト単位と、当該ペアのうちの当該上位ノードに従属する下位ノードに対応するテキスト単位とのそれぞれについて、上記(a)〜(c)の特徴の各々を抽出し、当該ペアについて、上位ノードに対応するテキスト単位と下位ノードに対応するテキスト単位に含まれる単語集合の直積(cartesian product)を、上記(d)の特徴として抽出する。
談話解析部26は、単一文書の各々について、メモリ(図示省略)に記憶されている重みベクトルの初期値、又は前回の処理で更新された重みベクトルの値と、特徴量抽出部24によって抽出された、当該単一文書のテキスト単位のペア毎の特徴ベクトルの各々とに基づいて、単一文書のうちの最も重要なテキスト単位をルートノードとし、かつ単一文書のうちの各テキスト単位を各ノードとし、かつ修飾関係を有する各テキスト単位間に対応するノード間をエッジで結合した、単一文書の各テキスト単位の依存構造に基づく談話解析木である予測談話解析木を生成する。
要約抽出部28は、単一文書の各々について、談話解析部26によって生成された当該単一文書の予測談話解析木と、ノードに対する役割の影響を示すパラメータαと、要約におけるノードとの距離の影響を示すパラメータβと、に基づいて、当該単一文書に含まれるテキスト単位の各々についてランク付けを行い、ランク付きリストRを取得し、取得したランク付きリストRから要約に含まれるテキスト単位を選択することを、生成された要約に含まれる単語数が、予め定められた閾値以上となるまで繰り返す。
要約比較部30は、単一文書の各々について、要約抽出部28において生成された、当該単一文書の要約と、標準要約記憶部22に記憶されている当該単一文書の標準要約とを比較し、比較結果に基づいて、当該単一文書の予測談話解析木を調整して、新規談話解析木を生成する。具体的には、予測談話解析木について、標準要約のみに現れるテキスト単位に対応するノードを繰り上げ、要約抽出部28において生成された要約のみに現れるテキスト単位に対応するノードを繰り下げる。
重みベクトル更新部32は、単一文書の各々について、当該単一文書の予測談話解析木と、当該単一文書の新規談話解析木と、重みベクトルとに基づいて、上記(3)式、及び上記(4)式に従って、重みベクトルを更新し、メモリ(図示省略)に記憶する。
繰り返し判定部34は、処理対象となる単一文書について、重みベクトル更新部32において、重みベクトルが更新されたか否かを判定し、更新されていた場合には、談話解析部26、要約抽出部28、要約比較部30、及び重みベクトル更新部32の処理を繰り返し、更新されていない場合には、繰り返し処理を終了し、更新された重みベクトルの履歴の各々の平均を、更新後の重みベクトルとして取得し、メモリ(図示省略)に記憶する。また、繰り返し判定部34は、対象となる全ての単一文書について、繰り返し処理を終了した場合、メモリ(図示省略)に記憶されている更新後の重みベクトルの各々の平均を、学習後の重みベクトルとして重みベクトル記憶部36に記憶すると共に、出力部90に出力する。
重みベクトル記憶部36には、繰り返し判定部34により取得した学習後の重みベクトルが記憶されている。
<本発明の実施の形態に係る要約生成装置の構成>
次に、本発明の実施の形態に係る要約生成装置の構成について説明する。図5に示すように、本発明の実施の形態に係る要約生成装置200は、CPUと、RAMと、後述する要約生成処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この要約生成装置200は、機能的には図5に示すように入力部210と、演算部220と、出力部290とを備えている。
入力部210は、要約生成対象となる単一文書を受け付ける。
演算部220は、特徴量抽出部224と、談話解析部226と、要約抽出部228と、重みベクトル記憶部236と、を含んで構成されている。
特徴量抽出部224は、単一文書に含まれるテキスト単位の各々の組み合わせからなるペア毎に、重みベクトル学習装置100における特徴量抽出部24と同様に、複数の特徴量からなる特徴ベクトルを抽出する。
談話解析部226は、重みベクトル記憶部236に記憶されている重みベクトルの値と、特徴量抽出部224によって抽出された単一文書のテキスト単位のペア毎の特徴ベクトルの各々とに基づいて、談話解析木を生成する。
要約抽出部228は、談話解析部226によって生成された単一文書の談話解析木と、ノードに対する役割の影響を示すパラメータαと、要約におけるノードとの距離の影響を示すパラメータβと、に基づいて、単一文書に含まれるテキスト単位の各々についてランク付けを行い、ランク付きリストRを取得し、取得したランク付きリストRから要約に含まれるテキスト単位を選択することを、生成された要約の単語数が、予め定められた閾値以上となるまで繰り返すことによって、要約を生成し、出力部290に出力する。
重みベクトル記憶部236は、重みベクトル学習装置100の重みベクトル記憶部36に記憶されている重みベクトルと同一の重みベクトルが記憶されている。
<本発明の実施の形態に係る重みベクトル学習装置の作用>
次に、本発明の第1の実施の形態に係る重みベクトル学習装置100の作用について説明する。入力部10において単一文書の各々と、単一文書の各々についての標準要約とを受け付けると、単一文書の各々についての標準要約を標準要約記憶部22に記憶すると共に、重みベクトル学習装置100は、図6に示す重みベクトル学習処理ルーチンを実行する。
まず、ステップS100では、標準要約記憶部22に記憶されている、入力部10において受け付けた単一文書の各々の標準要約を読み込む。
次に、ステップS102では、入力部10において受け付けた単一文書の各々について、当該単一文書に含まれるテキスト単位の各々からなるペア毎に、複数の特徴量からなる特徴ベクトルを抽出する。
次に、ステップS104では、メモリ(図示省略)に記憶されている重みベクトルの初期値を読み込む。
次に、ステップS106では、処理対象となる単一文書について、ステップS102において取得したテキスト単位のペア毎の特徴ベクトルと、ステップS104において取得した重みベクトルの初期値、又は前回の処理においてステップS112において取得した重みベクトルの値とに基づいて、予測談話解析木を生成する。
次に、ステップS108では、処理対象となる単一文書について、ステップS106において取得した予測談話解析木に基づいて、要約を生成する。
次に、ステップS110では、処理対象となる単一文書について、ステップS100において取得した、当該単一文書についての標準要約と、ステップS108において取得した要約とを比較し、比較した結果に基づいて、ステップS106において取得した予測談話解析木に含まれるノードの各々を上下に移動させることにより、新規談話解析木を生成する。
次に、ステップS112では、処理対象となる単一文書について、ステップS104において取得した重みベクトルの初期値、又は前回の処理においてステップS112において取得した重みベクトルの値と、ステップS106において取得した予測談話解析木と、ステップS110において取得した新規談話解析木と、に基づいて、上記(3)式、及び上記(4)式に従って、重みベクトルの値を更新し、当該重みベクトルの値をメモリ(図示省略)に記憶する。
次に、ステップS114では、予め定められた終了条件を満たしているか否かを判定し、終了条件を満たしている場合には、ステップS116へ移行し、終了条件を満たしていない場合には、ステップS106へ移行し、ステップS106〜ステップS114までの処理を繰り返す。
次に、ステップS116では、処理対象となる単一文書について、ステップS112において取得した、繰り返し毎の重みベクトルの値の平均を、更新後の重みベクトルの値として取得し、メモリ(図示省略)に記憶する。
次に、ステップS118では、入力部10において受け付けた全ての単一文書について、ステップS106〜ステップS116までの処理を終了したか否かを判定する。全ての単一文書についてステップS106〜ステップS116までの処理を終了した場合には、ステップS120へ移行し、全ての単一文書について、ステップS106〜ステップS116までの処理を終了していない場合には、処理対象となる単一文書を変更して、ステップS106〜ステップS118までの処理を繰り返す。
次に、ステップS120では、ステップS116において取得した更新後の重みベクトルの各々の値の平均を、学習した重みベクトルの値として取得する。
次に、ステップS122では、ステップS120において取得した、学習した重みベクトルの値を重みベクトル記憶部36に記憶すると共に、出力部90に出力して、重みベクトル学習処理ルーチンを終了する。
<本発明の実施の形態に係る要約生成装置の作用>
次に、本発明の実施の形態に係る要約生成装置200の作用について説明する。入力部210において単一文書を受け付けると、要約生成装置200は、図7に示す要約生成処理ルーチンを実行する。
まず、ステップS200では、重みベクトル記憶部236に記憶されている、重みベクトル学習装置100の重みベクトル記憶部36に記憶されている重みベクトルの値と同一の重みベクトルの値を読み込む。
次に、ステップS202では、入力部210において取得した単一文書に含まれるテキスト単位の各々からなるペア毎に、ステップS102と同様に、特徴ベクトルを抽出する。
次に、ステップS204では、ステップS200において取得した重みベクトルの値と、ステップS202において取得したテキスト単位のペア毎の特徴ベクトルとに基づいて、談話解析木を生成する。
次に、ステップS206では、ステップS204において取得した談話解析木に基づいて、要約を生成する。
次に、ステップS208では、ステップS206において取得した要約を、出力部290から出力して要約生成処理ルーチンを終了する。
<実験結果>
次に、RST-DT、及びTAC2011要約タスクデータについて、それぞれ実験を行った結果について説明する。RST-DTは、WSJからの385件(トレーニング347、テスト38)の文書を含む。385件の文書中、30件には、人間が書いた要約が付されており、150件には、手動で選択したEDUを含む要約が付されている。長い文書は談話解析に長時間を要し、短い文書には有用な情報が含まれていないことから、手動が書いた要約を付した30件の文書、及びあまりに長いかあまりに短い文書を除外して、100件の文書をトレーニング対象として選択し、30件の文書をテストデータとして選択した。
また、要約アルゴリズムのパラメータ調整のために、10件の文書を含んだ小型の開発集合を作成し、学習データにしたがって、パラメータを調整した。なお、各パラメータ(α、β、反復数)は、(0.7,0.1,6)と設定されている。
さらに、TAC2011マルチ文書要約タスクデータを用いて、本実施の形態におけるシステムを検査した。44件の文書集合があり、各集合には、要約用のフォルダAと、更新された要約用のフォルダBとの2つのフォルダが含まれており、各フォルダには、10件の文書が含まれている。本実施の形態におけるシステムは、単一文書の要約のためにのみ設計されている。そして、文書集合全体の代表として、中型の文書が各Aフォルダから選択される。
本実施の形態で説明した方法を、最先端の木構造ベース単一文書要約システムと比較した。図8に、RST-DTについての結果を示す。DST(Discourse Supervised Tree-based summarization)が、本実施の形態におけるシステムであり、TKP(Tree Knapsack Problem)が非特許文献3の木構造ナップザック問題法の方法である。Mも非特許文献3に由来し、これは非特許文献1の方法を実装したものである。MEADは、MEADツールキットが提供するベースライン(baseline)のシステムであり、ランク付け法およびMMR(Maximal Marginal Relevance;関連性の変化量を選択の基準とする)を用いて、要約を抽出している。ここで付されているGは、正解の談話解析木に基づいて要約を生成することを意味し、Hは、重みベクトルで生成した談話解析木を用いることを意味している。結果は、ROUGEツールキットで解析した。
本実施の形態で説明した方法は、他のどの方法よりも性能面で優れており、自動構文解析により得られた構文木に基づくものに対してだけでなく、人手により生成した正解の構文木に基づくものに対しても同様である。本実施の形態における談話解析において用いる重みベクトルは、要約用に学習されたものであり、要約の品質を向上させることに成功している。ROUGEスコア(単語の再現率に基づく要約の自動評価尺度。0から1の間の値で高いほどよい)が高いことからも、正解の談話解析木が、全体として要約に適しているというわけではないことが証明された。また、本実施の形態に係るシステムの性能を検証するためにTAC-2011データについても実験を行った。図9にその結果を示す。
図9において、全文を、基本要素として用いている。小型の基本要素を用いることにより、要約用の短文を得ることができる。この想定を検証するため、文をEDUに分割するのにSPADEを用いており、EDUに基づく結果(DST-EDU)を図9に示している。EDUに基づくシステムでは、性能面の向上はみられないが、それでも、複数文書要約法に匹敵するものである。
以上説明したように、本発明の実施の形態に係る重みベクトル学習装置によれば、入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴ベクトルを抽出し、抽出されたペア毎の特徴ベクトルと、重みベクトルの初期値、又は前回更新された重みベクトルの値とに基づいて、予測談話解析木を生成し、生成された予測談話解析木に基づいて単一文書の要約を生成し、生成された要約と、単一文書について予め用意された要約の正解とを比較した結果、要約と、要約の正解とに差異がある場合、重みベクトルの値を更新することを、予め定められた終了条件を満たすまで繰り返すことにより、単一文書要約の品質を向上させる、談話解析の重みベクトルを学習することができる。
また、本発明の実施の形態に係る要約生成装置によれば、入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴ベクトルを抽出し、抽出されたペア毎の特徴ベクトルと、学習した重みベクトルの値とに基づいて、談話解析木を生成し、生成された談話解析木に基づいて、単一文書の要約を生成することにより、単一文書要約の品質を向上させることができる。
また、重要な情報を含む複数の文を選択する一方で、文同士の談話関係を考慮することによって、首尾一貫していると共に、高品質な要約を取得することができる。
また、人間により提供された要約に従って、談話解析木を調整することにより、学習データが動的に生成される。すわなち、本実施の形態におけるシステムアーキテクチャは従来方法と非常に異なっており、学習データは、反復回毎に異なる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、本実施の形態においては、テキスト単位を文とする場合について説明したが、これに限定されるものではなく、テキスト単位を節、又は文書内の他の基本的要素としてもよい。ここで、修辞構造理論(RST)では「テキスト単位」としてEDUを使用した。複文において主節と従属節は、それぞれ1つのEDUになるため、EDUは、ほぼ日本語の「単文」に相当する。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。
10 入力部
20 演算部
22 標準要約記憶部
24 特徴量抽出部
26 談話解析部
28 要約抽出部
30 要約比較部
32 重みベクトル更新部
34 繰り返し判定部
36 重みベクトル記憶部
90 出力部
100 重みベクトル学習装置
200 要約生成装置
210 入力部
220 演算部
224 特徴量抽出部
226 談話解析部
228 要約抽出部
236 重みベクトル記憶部
290 出力部

Claims (7)

  1. 入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出する特徴量抽出部と、
    前記特徴量抽出部により抽出されたペア毎の特徴量と、重みベクトルの初期値、又は前回更新された重みベクトルの値とに基づいて、前記単一文書のうちの最も重要な前記テキスト単位をルートノードとし、かつ前記単一文書のうちの各テキスト単位を各ノードとし、かつ修飾関係を有する前記各テキスト単位間に対応するノード間をエッジで結合した、前記単一文書の各テキスト単位の依存構造に基づく談話解析木である予測談話解析木を生成する談話解析部と、
    前記談話解析部により生成された予測談話解析木に基づいて前記単一文書の要約を生成する要約抽出部と、
    前記要約抽出部により生成された要約と、前記単一文書について予め用意された要約の正解とを比較する要約比較部と、
    前記要約比較部により前記要約抽出部により生成された要約と、前記単一文書について予め用意された要約の正解とを比較した結果、前記要約と、前記要約の正解とに差異がある場合、前記重みベクトルの値を更新する重みベクトル更新部と、
    前記談話解析部による生成と、前記要約抽出部による生成と、前記要約比較部による比較と、前記重みベクトル更新部による更新と、を予め定められた終了条件を満たすまで繰り返す繰り返し判定部と、
    を含む、重みベクトル学習装置。
  2. 前記重みベクトル更新部は、前記要約比較部により、前記要約抽出部により生成された要約と、前記単一文書について予め用意された要約の正解とを比較した結果、前記要約と、前記要約の正解とに差異がある場合、前記要約の正解のみに現れる前記テキスト単位に対応する前記予測談話解析木のノードを繰り上げ、前記要約にのみ現れる前記テキスト単位に対応する前記予測談話解析木のノードを繰り下げた新規談話解析木を生成し、前記重みベクトルに基づいて前記単一文書について生成される前記談話解析木が、前記新規談話解析木となるように、前記重みベクトルの値を更新する請求項1記載の重みベクトル学習装置。
  3. 入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出する特徴量抽出部と、
    前記特徴量抽出部により抽出されたペア毎の特徴量と、請求項1又は請求項2の重みベクトル学習装置により更新した前記重みベクトルの値とに基づいて、談話解析木を生成する談話解析部と、
    前記談話解析部により生成された談話解析木に基づいて、前記単一文書の要約を生成する要約抽出部と、
    を含む、要約生成装置。
  4. 特徴量抽出部と、談話解析部と、要約抽出部と、要約比較部と、重みベクトル更新部と、繰り返し判定部と、を含む、重みベクトル学習装置における、重みベクトル学習方法であって、
    前記特徴量抽出部は、入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出し、
    前記談話解析部は、前記特徴量抽出部により抽出されたペア毎の特徴量と、重みベクトルの初期値、又は前回更新された重みベクトルの値とに基づいて、前記単一文書のうちの最も重要な前記テキスト単位をルートノードとし、かつ前記単一文書のうちの各テキスト単位を各ノードとし、かつ修飾関係を有する前記各テキスト単位間に対応するノード間をエッジで結合した、前記単一文書の各テキスト単位の依存構造に基づく談話解析木である予測談話解析木を生成し、
    前記要約抽出部は、前記談話解析部により生成された予測談話解析木に基づいて前記単一文書の要約を生成し、
    前記要約比較部は、前記要約抽出部により生成された要約と、前記単一文書について予め用意された要約の正解とを比較し、
    前記重みベクトル更新部は、前記要約比較部により前記要約抽出部により生成された要約と、前記単一文書について予め用意された要約の正解とを比較した結果、前記要約と、前記要約の正解とに差異がある場合、前記重みベクトルの値を更新し、
    前記繰り返し判定部は、前記談話解析部による生成と、前記要約抽出部による生成と、前記要約比較部による比較と、前記重みベクトル更新部による更新と、を予め定められた終了条件を満たすまで繰り返す
    重みベクトル学習方法。
  5. 前記重みベクトル更新部により前記重みベクトルの値を更新することは、前記要約比較部により、前記要約抽出部により生成された要約と、前記単一文書について予め用意された要約の正解とを比較した結果、前記要約と、前記要約の正解とに差異がある場合、前記要約の正解のみに現れる前記テキスト単位に対応する前記予測談話解析木のノードを繰り上げ、前記要約にのみ現れる前記テキスト単位に対応する前記予測談話解析木のノードを繰り下げた新規談話解析木を生成し、前記重みベクトルに基づいて前記単一文書について生成される前記談話解析木が、前記新規談話解析木となるように、前記重みベクトルの値を更新する請求項4記載の重みベクトル学習方法。
  6. 特徴量抽出部と、談話解析部と、要約抽出部と、を含む要約生成装置における、要約生成方法であって、
    前記特徴量抽出部は、入力された単一文書に含まれるテキスト単位の各々のペア毎に特徴量を抽出し、
    前記談話解析部は、前記特徴量抽出部により抽出されたペア毎の特徴量と、請求項4又は請求項5の重みベクトル学習方法により更新した前記重みベクトルの値とに基づいて、談話解析木を生成し、
    前記要約抽出部は、前記談話解析部により生成された談話解析木に基づいて、前記単一文書の要約を生成する
    要約生成方法。
  7. コンピュータを、請求項1又は2記載の重みベクトル学習装置、若しくは、請求項3記載の要約生成装置を構成する各部として機能させるためのプログラム。
JP2014188068A 2014-09-16 2014-09-16 重みベクトル学習装置、要約生成装置、方法、及びプログラム Active JP6170891B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014188068A JP6170891B2 (ja) 2014-09-16 2014-09-16 重みベクトル学習装置、要約生成装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014188068A JP6170891B2 (ja) 2014-09-16 2014-09-16 重みベクトル学習装置、要約生成装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2016062181A JP2016062181A (ja) 2016-04-25
JP6170891B2 true JP6170891B2 (ja) 2017-07-26

Family

ID=55797863

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014188068A Active JP6170891B2 (ja) 2014-09-16 2014-09-16 重みベクトル学習装置、要約生成装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6170891B2 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5918240A (en) * 1995-06-28 1999-06-29 Xerox Corporation Automatic method of extracting summarization using feature probabilities
JP3429184B2 (ja) * 1998-03-19 2003-07-22 シャープ株式会社 テキスト構造解析装置および抄録装置、並びにプログラム記録媒体
JP2003248676A (ja) * 2002-02-22 2003-09-05 Communication Research Laboratory 解データ編集処理装置、解データ編集処理方法、自動要約処理装置、および自動要約処理方法
JP5638503B2 (ja) * 2011-11-04 2014-12-10 日本電信電話株式会社 テキスト要約装置、方法及びプログラム
JP2013167985A (ja) * 2012-02-15 2013-08-29 Nomura Research Institute Ltd 談話要約生成システムおよび談話要約生成プログラム

Also Published As

Publication number Publication date
JP2016062181A (ja) 2016-04-25

Similar Documents

Publication Publication Date Title
CN110008335A (zh) 自然语言处理的方法及装置
CN105868175A (zh) 摘要生成方法及装置
US9767193B2 (en) Generation apparatus and method
JP2018185771A (ja) 文ペア分類装置、文ペア分類学習装置、方法、及びプログラム
CN114021573B (zh) 一种自然语言处理方法、装置、设备及可读存储介质
KR101860472B1 (ko) 오픈 디렉터리 프로젝트 기반의 텍스트 분류기, 및 텍스트 분류기의 생성 및 분류 방법
De Kok Feature selection for fluency ranking
JP2014010634A (ja) 対訳表現抽出装置、対訳表現抽出方法及び対訳表現抽出のためのコンピュータプログラム
US20090216739A1 (en) Boosting extraction accuracy by handling training data bias
JP6426074B2 (ja) 関連文書検索装置、モデル作成装置、これらの方法及びプログラム
JP4479745B2 (ja) 文書の類似度補正方法、プログラムおよびコンピュータ
JP6170891B2 (ja) 重みベクトル学習装置、要約生成装置、方法、及びプログラム
CN114021572B (zh) 一种自然语言处理方法、装置、设备及可读存储介质
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
JP2016197289A (ja) パラメタ学習装置、類似度算出装置、方法、及びプログラム
JP7384221B2 (ja) 要約学習方法、要約学習装置及びプログラム
JP4567025B2 (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
CN107491417A (zh) 一种基于特定划分的主题模型下的文档生成方法
JP6509391B1 (ja) 計算機システム
JP2017174009A (ja) 事態間知識抽出装置、事態間知識抽出方法、及びプログラム
JP5503577B2 (ja) データ極性判定装置、方法、及びプログラム
JP4314271B2 (ja) 単語間関連度算出装置、単語間関連度算出方法及び単語間関連度算出プログラム並びにそのプログラムを記録した記録媒体
JP4592556B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
CN111046657A (zh) 一种实现文本信息标准化的方法、装置及设备
Kashyapi et al. TREMA-UNH at TREC 2018: Complex Answer Retrieval and News Track.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160907

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170621

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170627

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170703

R150 Certificate of patent or registration of utility model

Ref document number: 6170891

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150