JP2014153766A - 文書要約方法、装置、及びプログラム - Google Patents

文書要約方法、装置、及びプログラム Download PDF

Info

Publication number
JP2014153766A
JP2014153766A JP2013020697A JP2013020697A JP2014153766A JP 2014153766 A JP2014153766 A JP 2014153766A JP 2013020697 A JP2013020697 A JP 2013020697A JP 2013020697 A JP2013020697 A JP 2013020697A JP 2014153766 A JP2014153766 A JP 2014153766A
Authority
JP
Japan
Prior art keywords
node
character string
input document
document
length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013020697A
Other languages
English (en)
Other versions
JP5921457B2 (ja
Inventor
Tsutomu Hirao
努 平尾
Yoshihito Yasuda
宜仁 安田
Masaaki Nishino
正彬 西野
Masaaki Nagata
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013020697A priority Critical patent/JP5921457B2/ja
Publication of JP2014153766A publication Critical patent/JP2014153766A/ja
Application granted granted Critical
Publication of JP5921457B2 publication Critical patent/JP5921457B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】入力文書の論理構造を正しく反映した要約を作成することができるようにする。
【解決手段】修辞構造木変換部24によって、入力文書のうちの最も重要な文字列単位をルートノードとし、かつ入力文書のうちの各文字列単位を各ノードとし、かつ修飾関係を有する各文字列単位間に対応するノード間をエッジで結合した、入力文書の各文字列単位の依存構造に基づく談話構造木を作成する。そして、依存構造木刈り込み部25によって、作成された依存構造に基づく談話構造木の各ノードに対応する文字列単位の長さ及び文字列単位の重要度に基づいて、依存木構造のルートノードを含む部分木のうち、部分木の各ノードに対応する文字列単位の長さの合計が長さの上限以下であって、重要度の合計が最大となる部分木を求め、入力文書から、求めた部分木の各ノードに対応する文字列単位を選択して、入力文書に対応する要約を生成する。
【選択図】図1

Description

本発明は、文書要約方法、装置、及びプログラムに関し、特に、入力文書に対応する要約を生成する文書要約方法、装置、及びプログラムに関する。
従来の計算機による文書の要約手法では、文書中の文法的な要素(文、句、節)に対し重要度を与え、それら要素の重要度の和が最大かつ、文字数(単語数)が要約の大きさとして許容できるある値以下に収まる組合せを選択する組合せ最適化問題として捉えている。
たとえば、非特許文献1では文書中の文法的な要素を「文」とし、文重要度の和が最大かつ、要約文字数がN以下の文の組合せをナップサック問題としてとらえ、ナップサックアルゴリズム(動的計画法)を利用して最適解を得ている。
従来技術の処理の流れを図14に示す。まず、分割部が文書を入力として受け取り、文法的な単位に分割する。ここではその単位を「文」とする。なお、単位を文とはせずそれよりも小さい単位、あるいは大きい単位としても以下の処理は変更せずに利用できる。文への分割は、日本語の場合、句点を手がかりとして簡単なルールで分割することができる。英語などヨーロッパ言語では、ピリオドを手がかりとすれば良い。
次に、重要度付与部が文中に含まれる単語重要度に基づき、文の重要度を決定する。単語重要度は情報検索システムなどで一般的に用いられるtf−idf法などを用いて決定しておけば良い。これを用いて文重要度をたとえば、以下の(1)式で文siの重要度を定義する。なお、w(t)は単語重要度データベースが保持する単語tの重要度である。
次に、組合せ探索部は要約として許容される長さをパラメータとして受け取り、その長さを超えず、かつ、文重要度の総和が最大となる文の組合せを探索する。
つまり、文集合をS、文集合の重要度を表す関数をFとすると、以下の(2)式を最大化し、かつ文集合の長さ(文字数あるいは単語数)がLmax以下となる文集合(組合せ)を探索する問題となる。本来であれば、Fを最大化する組合せの探索は2通りあり、その探索は現実的ではない。しかし、実際には長さLmaxを超える組合せを探索する必要がないため、ナップサックアルゴリズムを用いて効率的に最適解を求めることができる。
平尾努、鈴木潤、磯崎秀樹、「最適化問題としての文書要約」、 人工知能学会論文誌、2009年、Vol.24、No.2、p.223-231
しかし、従来の要約技術では、文を独立した単位として考えており、長さ制約Lmaxのもと関数Fを最大化する文集合が必ずしも入力文書の論理構造を捉えているとは限らない。たとえば、要約として読んだときに入力文書の持つ意味と反転した意味を伝えるようなものになる得る可能性がある。
本発明は、上記の事情を鑑みてなされたもので、入力文書の論理構造を正しく反映した要約を作成することができる文書要約方法、装置、及びプログラムを提供することを目的とする。
上記の目的を達成するために本発明に係る文書要約方法は、構造木作成手段及び要約生成手段を含み、入力文書から、予め定められた長さの上限以下となるように、予め定められた文字列単位を少なくとも1つを選択して、前記入力文書に対応する要約を生成する文書要約装置における文書要約方法であって、前記構造木作成手段によって、前記入力文書を前記文字列単位に分割した結果に基づいて、前記入力文書のうちの最も重要な前記文字列単位をルートノードとし、かつ前記入力文書のうちの各文字列単位を各ノードとし、かつ修飾関係を有する前記各文字列単位間に対応するノード間をエッジで結合した、前記入力文書の各文字列単位の依存構造に基づく談話構造木を作成するステップと、前記要約生成手段によって、前記構造木作成手段によって作成された前記依存構造に基づく談話構造木の各ノードに対応する前記文字列単位の前記長さ及び前記文字列単位の重要度に基づいて、前記依存木構造のルートノードを含む部分木のうち、前記部分木の各ノードに対応する前記文字列単位の長さの合計が前記長さの上限以下であって、重要度の合計が最大となる部分木を求め、前記入力文書から、前記求めた部分木の各ノードに対応する前記文字列単位を選択して、前記入力文書に対応する要約を生成するステップと、を含む。
本発明に係る文書要約装置は、入力文書から、予め定められた長さの上限以下となるように、予め定められた文字列単位を少なくとも1つを選択して、前記入力文書に対応する要約を生成する文書要約装置であって、前記入力文書を前記文字列単位に分割した結果に基づいて、前記入力文書のうちの最も重要な前記文字列単位をルートノードとし、かつ前記入力文書のうちの各文字列単位を各ノードとし、かつ修飾関係を有する前記各文字列単位間に対応するノード間をエッジで結合した、前記入力文書の各文字列単位の依存構造に基づく談話構造木を作成する構造木作成手段と、前記構造木作成手段によって作成された前記依存構造に基づく談話構造木の各ノードに対応する前記文字列単位の前記長さ及び前記文字列単位の重要度に基づいて、前記依存木構造のルートノードを含む部分木のうち、前記部分木の各ノードに対応する前記文字列単位の長さの合計が前記長さの上限以下であって、重要度の合計が最大となる部分木を求め、前記入力文書から、前記求めた部分木の各ノードに対応する前記文字列単位を選択して、前記入力文書に対応する要約を生成する要約生成手段と、を含んで構成されている。
本発明に係る文書要約方法及び文書要約装置によれば、構造木作成手段によって、入力文書を文字列単位に分割した結果に基づいて、入力文書のうちの最も重要な文字列単位をルートノードとし、かつ入力文書のうちの各文字列単位を各ノードとし、かつ修飾関係を有する各文字列単位間に対応するノード間をエッジで結合した、入力文書の各文字列単位の依存構造に基づく談話構造木を作成する。
そして、要約生成手段によって、構造木作成手段によって作成された依存構造に基づく談話構造木の各ノードに対応する文字列単位の長さ及び文字列単位の重要度に基づいて、依存木構造のルートノードを含む部分木のうち、部分木の各ノードに対応する文字列単位の長さの合計が長さの上限以下であって、重要度の合計が最大となる部分木を求め、入力文書から、求めた部分木の各ノードに対応する文字列単位を選択して、入力文書に対応する要約を生成する。
このように、入力文書の各文字列単位の依存構造に基づく談話構造木を作成し、依存構造に基づく談話構造木の各ノードに対応する文字列単位の長さ及び文字列単位の重要度に基づいて、依存木構造のルートノードを含む部分木のうち、部分木の各ノードに対応する文字列単位の長さの合計が長さの上限以下であって、重要度の合計が最大となる部分木を求め、部分木の各ノードに対応する文字列単位を選択して、入力文書に対応する要約を生成することにより、入力文書の論理構造を正しく反映した要約を作成することができる。
また、前記要約生成手段は、前記構造木作成手段によって作成された前記依存構造に基づく談話構造木の各ノードに対応する前記文字列単位の前記長さ及び前記文字列単位の重要度に基づいて、前記依存構造に基づく談話構造木の各ノードについて、葉ノードからボトムアップの順で、前記長さの上限以下の各長さに対して、前記ノードをルートノードとして形成される部分木のうち、前記部分木の各ノードに対応する前記文字列単位の長さの合計が前記長さ以下であって、かつ、重要度の合計が最大となる部分木を、ナップサック問題を解くことにより求め、前記求めた前記依存木構造のルートノードを含む部分木のうち、前記重要度の合計が最大となる部分木について、前記部分木の各ノードに対応する前記文字列単位を前記入力文書から選択して、前記入力文書に対応する要約を生成するようにすることができる。
また、前記構造木作成手段は、ルートノードが前記入力文書の全体を表し、かつ前記入力文書のうちの少なくとも1つの前記文字列単位からなる文字列単位の系列の各々を各ノードとした階層構造を表し、かつ、前記文字列単位の系列間の修飾関係を表した、前記入力文書の文字列単位の系列の各々の修辞構造に基づく談話構造木を作成する修辞構造解析手段と、前記修辞構造解析手段によって作成された前記修辞構造に基づく談話構造木を、前記依存構造に基づく談話構造木に変換する修辞構造木変換手段とを含むようにすることができる。
本発明に係るプログラムは、コンピュータを、本発明に係る文書要約方法を構成する各ステップをコンピュータに実行させるためのプログラムである。
以上説明したように、文書要約方法、装置、及びプログラムによれば、入力文書の各文字列単位の依存構造に基づく談話構造木を作成し、依存構造に基づく談話構造木の各ノードに対応する文字列単位の長さ及び文字列単位の重要度に基づいて、依存木構造のルートノードを含む部分木のうち、部分木の各ノードに対応する文字列単位の長さの合計が長さの上限以下であって、重要度の合計が最大となる部分木を求め、部分木の各ノードに対応する文字列単位を選択して、入力文書に対応する要約を生成することにより、入力文書の論理構造を正しく反映した要約を作成することができる、という効果が得られる。
本発明の実施の形態に係る文書要約装置の一構成例を示すブロック図である。 文書の修辞構造に基づく談話構造木(RST−DT)の一例を示す図である。 図2に示したRST−DTから得られた文書の依存構造に基づく談話構造木(DEP−DT)の一例を示す図である。 図2に示したRST−DTの各非終端記号にheadを定義した図である。 本発明の実施の形態に係る文書要約装置における構造木変換処理ルーチンの前半部分の内容を示すフローチャートである。 本発明の実施の形態に係る文書要約装置における構造木変換処理ルーチンの後半部分の内容を示すフローチャートである。 本発明の実施の形態に係る文書要約装置における構造木刈り込み処理ルーチンの前半部分の内容を示すフローチャートである。 本発明の実施の形態に係る文書要約装置における構造木刈り込み処理ルーチンの後半部分の内容を示すフローチャートである。 DEP−DTの一例と、当該依存構造に基づく談話構造木の各ノードに付与された文の重要度と文の長さとの一例を示す図である。 図9に示したDEP−DTのノード8〜4(ID=8〜4)に対応する配列内の重要度スコアの変化を説明するための図である。 図9に示したDEP−DTのノード3〜2(ID=3〜2)に対応する配列内の重要度スコアの変化を説明するための図である。 図9に示したDEP−DTのノード1(ID=1)に対応する配列内の重要度スコアの変化を説明するための図である。 図9に示したDEP−DTのノード0(ID=0)に対応する配列内の重要度スコアの変化を説明するための図である。 従来技術を説明するための図である。
<概要>
まず、本発明の実施の形態の概要について説明する。
本発明の実施の形態は、与えられた文書を要約する技術に関する。この技術は文書要約時において、与えられた文書を文書中の文法的な要素(文、句、節)をノードとした木として表現し、その木を刈り込むことで文書の要約を生成する技術である。本実施の形態では、「文」をノードとした木として表現し、その木を刈り込むことで文書の要約を生成する場合を例に挙げて説明する。
本実施の形態では、要約元の文書の論理構造(修辞構造) を正しく反映するため、入力文書を修辞構造に基づく談話構造木(Rhetorical Structure Theory based Discourse Tree:RST−DT)(以下、RST−DTと称する。)として捉え、木構造を壊すことなく刈り込むことで要約を生成する。ただし、RST−DTのそのままの構造では刈り込みが難しいため、RST−DTを一旦、依存構造に基づく談話構造木(Dependency based Discourse Tree:DEP−DT)(以下、DEP−DTと称する。)へと変換し、DEP−DTを刈り込むことで要約を生成する。
<システム構成>
以下、図面を参照して本発明の実施の形態を詳細に説明する。図1は、本発明の実施の形態に係る文書要約装置100を示すブロック図である。文書要約装置100は、CPUと、RAMと、後述する構造木変換処理ルーチン及び構造木刈り込み処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
本実施の形態に係る文書要約装置100は、図1に示すように、入力部1と、演算部2と、出力部3とを備えている。
入力部1は、要約対象となる文書(テキスト)と、要約文書の長さ(文字数又は単語数)の上限を表す指標Lmax(以下、長さの上限Lmaxと称する。)とを受け付ける。文書要約装置100は、入力された長さの上限Lmax以下となるように、入力部1により入力された文書から、文の少なくとも1つが選択され、入力された文書に対応する要約を生成する。
演算部2は、分割部20と、単語重要度データベース21と、重要度付与部22と、修辞構造解析部23と、修辞構造木変換部24と、依存構造木刈り込み部25とを備えている。なお、修辞構造解析部23及び修辞構造木変換部24は、構造木作成手段の一例である。また、依存構造木刈り込み部25は、要約生成手段の一例である。
分割部20は、入力部1により入力された文書を文に分割する。なお、文に分割する技術としては、従来既知の手法を用いればよいため、説明を省略する。
単語重要度データベース21には、複数の単語の各々について、当該単語tの重要度を示す単語重要度w(t)が予め記憶されている。単語重要度w(t)については情報検索システムなどで一般的に用いられるtf‐idf法などを用いて決定しておけば良い。
重要度付与部22は、分割部20によって分割された入力文書の各文について、当該文に含まれる各単語の単語重要度に基づいて、当該文の重要度を決定する。具体的には、入力文書の各文siについて、単語重要度データベース21に記憶されている、当該文に含まれる各単語tの単語重要度w(t)に基づいて、上記(1)式に従って、当該文siの重要度を算出し、当該文に対して重要度を付与する。
修辞構造解析部23は、分割部20によって分割された各文を解析し、図2に示すような、Rhetorical Structure Theory(参考文献1(Mann, WC. and Thomson, SA.、「Rhetorical Structure Theory:Toward a functional theory of text organization」、Text & Talk、1988、Vol.8、No.3、p.243-281(http://www.sfu.ca/rst/)を参照。)に基づく談話構造木(RST−DT)を作成する。ここで、RST−DTとは、ルートノードが入力文書の全体を表し、かつ入力文書のうちの少なくとも1つの文からなる文系列の各々を各ノードとした階層構造を表し、かつ、文系列間の修飾関係を表した、入力文書の文系列の各々の修辞構造に基づく談話構造木である。図2に示すeは文書中の文法的要素(例えば、文)を表す終端記号であり、rootは文書全体を表す仮想的なノードである。Sは衛星、Nは核という文法的要素そのものあるいは文法的要素の系列が文書中で担う役割を示す非終端記号である。さらに、Sは必ずNを修飾するというルールがある。また、SとN、SとS、NとNの間には修飾関係を表すラベルが定義される。たとえば、e6はe5に対する「Evidence」を表す。
修辞構造解析部23は、例えば、入力された文書の各文に基づいて、参考文献2(duVerle, D. and Prendinger, H.、「A Novel Discourse Parser Based on Support Vector Machine Classification」、Proc of the 47thACL、2009、p665-675)を参照。)に記載の解析技術を用いて、RST−DTを作成する。または、RST−DTのアノテーション済みコーパスを用いて、上記参考文献2と同様に解析器を構築しておき、構築した解析器を用いて、RST−DTを作成することも可能である。なお、Rhetorical Structure Theoryでは、文書中の文法的要素は節として定義されているが、本実施の形態ではこれが節であっても、文であっても問題はないので先にも述べた通り、以降の説明では、文が文法的要素であると仮定する。
RST−DTを要約文書生成に利用しようと考えた場合、特に文と文との間の修飾関係を把握し難いという問題がある。そこで本実施の形態では、修辞構造木変換部24によって、修辞構造解析部23によって作成されたRST−DTを、文と文との間の修飾関係が明らかになるような形の木、すなわち、依存構造に基づく談話構造木(Dependency based Discourse Tree:DEP−DT)へ変換する。DEP−DTとは、入力文書のうちの最も重要な文をルートノードとし、かつ入力文書のうちの各文を各ノードとし、かつ修飾関係を有する各文間に対応するノード間をエッジで結合した、入力文書の各文の依存構造に基づく談話構造木である。図3に上記図2のRST−DTをDEP−DTに変換した結果を示す。DEP−DTでは、RST−DTで定義されていた非終端記号間の関係ラベルが失われるが、文と文との間の修飾関係が明らかとなる。RST−DTからDEP−DTへの変換は、以下のステップ(0)〜(2−4)により行われる。
ステップ(0)
全ての非終端記号(S又はN)に対し、headを定義する。headとは、その記号の子孫の文の中で一番左のNに対応する文(e)を指す。子孫に、Nに対応する文が存在しない場合、headは未定義とする。上記図2のRST−DTの各非終端記号に、headを定義した場合を、図4に示す。
ステップ(1−1)
文(e)の親がSの場合、直近の先祖にheadが定義されているか否かをチェックし、headが定義されている場合、その文を修飾する。
ステップ(1−2)
headが定義されていない場合、さらに先祖を辿り、(1−1)が当てはまれば、その文を修飾し、rootまでたどりついた場合には、rootのheadとして定義されている文を修飾する。
ステップ(2−1)
文(e)の親がNの場合、直近の先祖のSの兄弟にNがいる場合、Nのheadが定義されているか否かをチェックする。
ステップ(2−2)
headが定義されている場合、その文を修飾する。
ステップ(2−3)
headが定義されていない場合、さらに先祖を辿り、Sを探し、(2−1)、(2−2)を適用する。
ステップ(2−4)
rootまでたどりついた場合には、rootのheadとして定義されている文を修飾する。
依存構造木刈り込み部25は、修辞構造木変換部24によって得られたDEP−DTを刈り込む。具体的には、依存構造木刈り込み部25は、修辞構造木変換部24によって変換されたDEP−DTの各ノードに対応する文の長さl及び文の重要度に基づいて、DEP−DTの最も重要な文に対応するルートノードを含む部分木のうち、部分木の各ノードに対応する文の長さlの合計が長さの上限Lmax以下であって、重要度の合計(重要度スコア)が最大となる部分木が得られるように、修辞構造木変換部24によって変換されたDEP−DTを刈り込み、DEP−DTを刈り込んだ部分木の各ノードに対応する文を選択して、入力文書に対応する要約を生成する。
より詳細には、依存構造木刈り込み部25は、修辞構造木変換部24によって変換されたDEP−DTの各ノードに対応する文の長さl及び文の重要度に基づいて、DEP−DTの各ノードについて、葉ノードからボトムアップの順で、長さの上限Lmax以下の各長さLに対して、ノードをルートノードとして形成される部分木のうち、部分木の各ノードに対応する文の長さlの合計が当該長さL以下であって、かつ、重要度の合計(重要度スコア)が最大となる部分木を、ナップサック問題を解くことにより求める。そして、求めた依存木構造のルートノードを含む部分木のうち、重要度スコアが最大となる部分木について、部分木の各ノードに対応する文を選択して、入力文書に対応する要約を生成する。
例えば、DEP−DTの刈り込みアルゴリズムは以下のステップ[0]〜[2−3]を備えている。
ステップ[0]
修辞構造木変換部24によって変換されたDEP−DTの全てのノードに対し、長さLmax+1の配列を用意し、配列の全ての要素の重要度スコアをゼロで初期化する。各ノードの配列は、当該ノードを含む部分木のうち、長さの合計が長さi(0≦i≦Lmax)以下の部分木に対応する要約の要約スコアの最大値を格納する。
ステップ[1]
修辞構造木変換部24によって変換されたDEP−DTをS式で表現し、S式の右側のノードから順に、当該ノードを対象ノードとし、対象ノードの配列の個々の要素の重要度スコアを以下のステップ[2−1]〜[2−3]で決定する。
ステップ[2−1]
対象ノードが子ノードを持たない、かつ、対象ノードに対応する文の長さlについてl≦Lmaxならば、対象ノードの配列に対し、添字がlからLmaxまでの要素の値を対象ノードに対応する文の重要度vとする。
ステップ[2−2]
対象ノードが子ノードを持つ場合、任意の子ノードを選択し、選択した子ノードの配列から、添字がゼロからLmax−lまでの要素を取り出す。これをベース配列と呼ぶ。
ステップ[2−2−1]
他の子ノードに対し、以下のステップ[2−2−2]〜[2−2−4]の処理を行う。
ステップ[2−2−2]
当該子ノードの配列から、添字がゼロからLmax−lまでの要素を取り出す。取り出した要素からなる配列に格納された値からアイテムを抽出する。取り出した要素からなる配列に格納された値の異なり数だけアイテムは存在する。たとえば、取り出した要素からなる配列が[0、1、1、2、3]であれば、この配列には長さ1、重要度スコア1のアイテム、長さ3、重要度スコア2のアイテム、長さ4、重要度スコア3のアイテムが存在する。
ステップ[2−2−3]
抽出した各アイテムについて、ベース配列と当該アイテムとでナップサック問題を解き、抽出したアイテムの数だけ長さLmax−lの配列を得る。
ステップ[2−2−4]
各添字について、得られた配列群の当該添字の要素から、最大値を取得し、各添字について取得した最大値を記憶した配列を生成し、生成した配列でベース配列を上書きする。
ステップ[2−3]
ベース配列に対し、対象ノードに対応する文の長さと重要度スコアを加算する。
上記のアルゴリズムにより、DEP−DTの全てのノードに対して、長さの合計が長さi(0≦i≦Lmax)以下の部分木に対応する要約の要約スコアの最大値を格納した配列が生成される。ここで、rootノードの配列のLmax番目の要素に最大値が格納されるので、当該要素に格納されている最大値を計算した履歴をたどることにより、長さ制約がLmaxのもと、文重要度の和が最大となる部分木を得ることができ、当該部分木から要約を得ることができる。
<文書要約装置の作用>
次に、本実施の形態に係る文書要約装置100の作用について説明する。要約対象の文書と、要約の長さの上限Lmaxとが文書要約装置100に入力されると、文書要約装置100によって、図5及び図6に示す構造木変換処理ルーチンが実行される。
まず、ステップS100において、入力部1により入力された文書を受け付ける。ステップS102において、上記ステップS100で入力された文書について、分割部20によって、文に分割する。
次に、ステップS104において、上記ステップS102で分割された各文について、重要度付与部22によって、単語重要度データベース21に記憶されている各単語の単語重要度に基づいて、上記(1)式に従って、当該文に対して重要度を付与する。
そして、ステップS106において、修辞構造解析部23によって、上記ステップS102で分割された各文に基づいて、文系列の各々の修辞構造を解析し、RST−DTを作成する。
ステップS108において、修辞構造木変換部24によって、上記ステップS106で作成されたRST−DTにおける非終端記号(上記図2に示すS又はNに相当)のノードを一つ処理対象ノードとして設定する。
次に、ステップS110において、上記ステップS108で設定された処理対象のノードについて、子孫のうちの一番左の非終端記号Nに対応する文(上記図2に示す終端記号e1〜e10に相当)をheadと定義する。
そして、ステップS112において、RST−DTの全ての非終端記号のノードについて、上記ステップS108〜S110の処理を実行したか否かを判定する。そして、上記ステップS108〜S110の処理を実行していない、非終端記号のノードが存在する場合には、上記ステップS108へ戻り、当該ノードを処理対象として設定する。一方、全ての非終端記号のノードについて、上記ステップS108〜S110の処理を実行した場合には、ステップS114へ進む。
次に、ステップS114において、RST−DTの1つの文に対応するノード(上記図2に示す終端記号e1〜e10に相当)を処理対象として設定する。
次に、ステップS116において、上記ステップS114で設定された処理対象の文ノードの親ノードをチェックし、当該親ノードが非終端記号Sのノードであるか否かを判定する。そして、当該親ノードが非終端記号Sのノードである場合には、ステップS118へ移行する。当該親ノードが非終端記号Sのノードでない場合(非終端記号Nのノードである場合)には、ステップS122へ移行する。
次にステップS118において、処理対象の文ノードの親ノードの先祖であって、headが定義されている直近の先祖を探索する。
次に、ステップS120において、上記ステップS114で設定された処理対象の文ノードの文の修飾先として、上記ステップS118で探索された先祖に定義されているheadを修飾する。なお、上記ステップ118でRST−DTのrootノードまで辿った場合には、処理対象ノードの文の修飾先として、rootノードに定義されているheadを修飾する。
ステップS122において、処理対象の文ノードの親ノードである非終端記号Nのノードの先祖を辿り、headが定義されている非終端記号Nのノードを兄弟ノードに持つ、直近の先祖の非終端記号Sのノードを探索する。
そして、ステップS124において、headが定義されている非終端記号Nのノードを兄弟ノードに持つ直近の先祖の非終端記号Sのノードが探索されたか否かを判定する。そして、headが定義されている非終端記号Nのノードを兄弟ノードに持つ直近の先祖の非終端記号Sのノードが探索された場合には、ステップS126へ移行する。headが定義されている非終端記号Nのノードを兄弟ノードに持つ直近の先祖の非終端記号Sのノードが探索されなかった場合には、ステップS128へ移行する。
ステップS126において、上記ステップS114で設定された処理対象の文ノードの文の修飾先として、上記ステップS122で探索された非終端記号Sのノードの兄弟ノードである非終端記号Nのノードに定義されているheadを修飾する。
ステップS128において、上記ステップS114で設定された処理対象の文ノードの文の修飾先として、rootノードに定義されているheadを修飾する。
ステップS130において、RST−DTの終端記号に対応する文ノードの全てについて、上記ステップS114〜S128の処理を実行したか否かを判定する。そして、上記ステップS114〜S128の処理を実行していない文ノードが存在する場合には、上記ステップS114へ戻り、当該文ノードを処理対象として設定する。一方、全ての文ノードについて、上記ステップS114〜S128の処理を実行した場合には、ステップS132へ進む。
そして、ステップS132において、上記ステップS122、S126、S128で得られた修飾関係に従って、各文ノード間をエッジで結合することにより、DEP−DTを作成する。
そして、ステップS134において、上記ステップS132で作成されたDEP−DTを結果として出力する。
そして、上記構造木変換処理ルーチンによって要約対象の文書に対応するRST−DTからDEP−DTへと変換されると、文書要約装置100によって、図7及び図8に示す構造木刈り込み処理ルーチンが実行される。
まず、ステップS200において、上記構造木変換処理ルーチンによって変換されたDEP−DTの全てのノードに対して、長さLmax+1の配列を用意する。当該配列については、文の長さlが配列の添え字に対応し、重要度スコアが配列の要素に格納される。
次に、ステップS202において、上記ステップS200で用意した全ての配列を初期化する。
そして、ステップS204において、上記構造木変換処理ルーチンによって変換されたDEP−DTをS式で表現する。
次に、ステップS206において、上記ステップS204で表現されたS式の右から順に、1つのノードを対象ノードとして設定する。
次に、ステップS208において、上記ステップS206で設定された対象ノードの長さlが、l≦Lmaxであるか否かを判定する。そして、対象ノードの長さlが、l≦Lmaxである場合には、ステップS210へ移行する。対象ノードの長さlが、l≦Lmaxでない場合には、ステップS206へ戻り、次のノードを対象ノードとして設定する。
ステップS210において、対象ノードの配列について、添え字がl〜Lmaxまでの要素の各々に、対象ノードに対応する文の重要度vを格納する。
ステップS212において、上記ステップS206で設定された対象ノードが子ノードを持つか否かを判定する。そして、対象ノードが子ノードを持つ場合には、ステップS214へ移行する。対象ノードが子ノードを持たない場合には、ステップS234へ移行する。
次に、ステップS214において、上記ステップS206で設定された対象ノードの子ノードを1つ設定する。ステップS216において、上記ステップS214で設定された子ノードの配列について、添え字0〜Lmax−lまでの要素からなる配列を、ベース配列として設定する。
そして、ステップS218において、上記ステップS206で設定された対象ノードが、他の子ノードを持つか否かを判定する。対象ノードが他の子ノードを持つ場合には、ステップS220へ移行する。対象ノードが他の子ノードを持たない場合には、ステップS232へ移行する。
次に、ステップS220において、上記の他の子ノードのうちの1つの子ノードを設定する。そして、ステップS222において、上記ステップS220で設定された子ノードの配列から、添え字0〜Lmax−lまでの各要素を取り出す。
そして、ステップS224において、上記ステップS222で取り出された添え字0〜Lmax−lまでの各要素からアイテムを抽出する。
そして、ステップS226において、上記ステップS224で抽出された各アイテムについて、上記ステップS216で設定されたベース配列と、当該アイテムとで、ナップサック問題を解いて、各アイテムに対する配列を作成する
次に、ステップS228において、上記ステップS226で作成された各アイテムに対する配列から、各添字における最大値を取り出した配列を作成し、作成した配列で、ベース配列を上書きする。
ステップS230において、対象ノードが更に他の子ノードを持つか否かを判定する。対象ノードが更に他の子ノードを持つ場合には、ステップS220へ移行する。対象ノードが更に他の子ノードを持たない場合には、ステップS232へ移行する。
次に、ステップS232において、上記ステップS216又は上記ステップS228で得られたベース配列に対して、上記ステップS210で設定された対象ノードの配列の各要素の重要度スコアを加算して、対象ノードの配列を更新する。
そして、ステップS234において、上記ステップS204で表現されたDEP−DTのS式の全てのノードについて、上記ステップS206〜S232の処理を実行したか否かを判定する。そして、上記ステップS206〜S232の処理を実行していない文が存在する場合には、上記ステップS206へ戻り、当該ノードを対象ノードとして設定する。一方、全てのノードについて、上記ステップS206〜S232の処理を実行した場合には、ステップS236へ進む。
次にステップS236において、rootノードの配列の添え字Lmaxの要素に格納されている重要度スコアが算出された履歴を辿り、DEP−DTに対し、当該要素の重要度スコアを算出するために用いられたノードを残し、その他のノードを刈り込むことによって、部分木を取得する。
そして、ステップS238において、上記ステップS236で取得された部分木に基づいて、要約を作成する。
そして、ステップS240において、上記ステップS238で作成された要約を出力部3により出力して、構造木刈り込み処理ルーチンを終了する。
<動作例>
次に、本実施の形態に係る文書要約装置の実際の動作例を以下で説明する。
動作例として、図9に示すDEP−DTを例に挙げて説明する。上記図9に示すDEP−DTは、既にRST−DTから変換されたものであることを想定する。上記図9の右側の表に、DEP−DTにおける各ノード(文)の重要度(V)と長さlとを示す。なお、要約の長さ制約(長さの上限Lmax)は、Lmax=10とする。
上記図9のDEP−DTをS式で表すと以下の表現となる。
(0(1(2)(3(4)(5)))(6(7))(8))
よって、ノード番号8〜0の順に対象ノードを設定し、各ノードに対し長さ10+1の配列を用意する。
そして、以下の手順に従って、各配列の各要素に格納される重要度スコアを決定すれば良い。
はじめに、ノード8を対象ノードとして設定する。上記図9に示すように、ノード8は子ノードを持たないため、配列の1番目から10番目までの要素に、ノード8の重要度である2を格納する(上記ステップ[2−1]適用、図10参照。)。
次に、ノード7を対象ノードとして設定する。上記図9に示すように、ノード7は子ノードを持たないため、配列の1番目から10番目までの要素に、ノード7の重要度である3を格納する(上記ステップ[2−1]適用、図10参照。)。
次に、ノード6を対象ノードとして設定する。ノード6は子ノードを持つため、任意の子ノードを1つ選択する。この場合、子ノードはノード7だけなのでこれを選択する。ノード6の長さlは2なので、ノード7の配列の0から8までの要素を取り出しベース配列とする(上記ステップ[2−2]適用、図10参照。)。
ノード6にはノード7以外の子ノードがいないため、先のステップで取り出されたベース配列の要素(0から8までの要素)に対し、ノード6自身の長さlと重要度スコアを足す(上記ステップ[2−3]適用、図10参照。)。
ここで、「ノード6自身の重要度スコア」とは、ノード6の配列の2番目から10番目までの要素に、ノード6の重要度である1を格納したものである(図10中段(2)参照)。また、「ノード6自身の長さl…を足す」とは、ノード6自身の長さl(=2)分だけシフトさせて、上記取り出された配列の要素(0から8までの要素)を足すことを意味する。
次に、ノード5を対象ノードとして設定する。ノード5は子ノードを持たないため、配列の1番目から10番目までの要素に、ノード5の重要度である2を格納する(上記ステップ[2−1]適用、図10参照。)。
次に、ノード4を対象ノードとして設定する。ノード4は子ノードを持たないため、配列の3番目から10番目までの要素に、ノード4の重要度である3を格納する(上記ステップ[2−1]適用、図10参照。)。
次に、ノード3を対象ノードとして設定する。ノード3は子ノードを持つため、任意の子ノードを1つ選択する。この場合、子ノードはノード4と5であるが、ここでは、5を選択する。ノード3の長さlは2なので、ノード5の配列の0から8までの要素を取り出しベース配列とする(上記ステップ[2−2]適用、図11参照。)。
ノード3の5以外の子ノードは4なので、ノード4の配列の0から8番目までの要素を取り出す。個々に含まれる非ゼロの重要度スコアは3のみであることから、ノード4の配列(ただし、添字は0から8まで)が保持するアイテムは長さ3、重要度スコア3のアイテム(ノード4そのもの) のみである(上記ステップ[2−2−1]、[2−2−2]適用、図11参照。)。
ベース配列と先のステップで抽出したアイテムとでナップサック問題を解いて配列を作成し、ベース配列を上書きする(上記ステップ[2−2−3]適用、図11(3)(ID=3の4行目)参照。)。
ベース配列に対し、ノード3自身の長さlと重要度スコアを足す(上記ステップ[2−3]適用、図11(5)(ID=3の7行目)参照。)。
次に、ノード2を対象ノードとして設定する。ノード2は子ノードを持たないため、配列の2番目から10番目までの要素をノード2の重要度スコアである4を格納する(上記ステップ[2−1]適用、図11参照。)。
次に、ノード1を対象ノードとして設定する。ノード1は子ノードを持つため、任意の子ノードを1つ選択する。この場合、子ノードはノード2と3であるが、ここでは、3を選択する。ノード1の長さlは1なので、ノード3の配列を0から9番目まで取り出しベース配列とする(上記ステップ[2−2]適用、図12参照。)。
ノード1の3以外の子ノードは2なので、ノード2の配列の0から9番目までの要素を取り出す。配列の個々に要素に含まれる非ゼロの重要度スコアは4のみであることから、ノード2の配列(ただし、添字は0から9まで)が保持するアイテムは長さ2、重要度スコア4のアイテム(ノード2そのもの)のみである(上記ステップ[2−2−1]、[2−2−2]適用、図12参照。)。
ベース配列と先のステップで抽出したアイテムとでナップサック問題を解いて配列を作成し、ベース配列を上書きする(上記ステップ[2−2−3]適用、図12(ID=1の4行目)参照。)。
ベース配列に対し、ノード1自身の長さlと重要度スコアを足す(上記ステップ[2−3]適用、図12(ID=1の7行目)参照。)。
次に、ノード0を対象ノードとして設定する。ノード0は子ノードを持つため、任意の子ノードを1つ選択する。この場合、子ノードはノード1と6と8であるが、ここでは、1を選択する。ノード0の長さは3なので、ノード1の配列を0から7番目までの要素を取り出しベース配列とする(上記ステップ[2−2]適用、図13(1)、(4)参照。)。
ノード0の1以外の子ノードは6と8であるが、まず、ノード6の配列の0から7番目までの要素を取り出す。配列の個々に要素に含まれる非ゼロの重要度スコアは1と4であることから、ノード6の配列(ただし、添字は0から7まで)が保持するアイテムは長さ2、重要度スコア1と長さ3、重要度スコア4の2つアイテムとなる(上記ステップ[2−2−1]、[2−2−2]適用、図13(2)、(5)参照。)。
ベース配列と先のステップで抽出したアイテム(長さ2、重要度スコア1)とでナップサック問題を解いて配列を作成する(上記ステップ[2−2−3]適用、図13(3)参照。)。
ベース配列と2つ前のステップで抽出したもう1つのアイテム(長さ3、重要度スコア4) とでナップサック問題を解いて配列を作成する(上記ステップ[2−2−3]適用、図13(6)参照。)。
前の2つのステップで作成した配列の個々の要素に対して最大値のみを記録した配列でベース配列を上書きする(上記ステップ[2−2−4]適用、図13(7)参照。)。
ノード0の残りの子ノードであるノード8の配列の0から7番目までの要素を取り出す。配列の個々に要素に含まれる非ゼロの重要度スコアは2のみであることから、ノード8の配列(ただし、添字は0から7まで)が保持するアイテムは長さ1、重要度スコア2のアイテム(ノード8そのもの)のみとなる(上記ステップ[2−2−1]、[2−2−2]適用、図13(8)参照。)。
ベース配列と先のステップで抽出したアイテムとでナップサック問題を解いて配列を作成し、ベース配列を上書きする(上記ステップ[2−2−3]適用、図13(9)参照。)。
ベース配列に対し、ノード0自身の長さlと重要度スコアを足す(上記ステップ[2−3]適用、図13(10)、(11)参照。)。
以上の手続きにより全てのノードに対し配列の要素を決定することができた。最大値は必ずrootノードに格納される。例ではその値は14であり、これを記録した履歴を辿ることで要約を得ることができる。この例では、ノード0、1、2、6、7、8から成る部分木(長さ10、重要度スコア14)の各ノードに対する文を入力文書から選択して要約を生成し出力する。
以上説明したように、本実施の形態に係る文書要約装置によれば、入力文書の各文の依存構造に基づく談話構造木を作成し、依存構造に基づく談話構造木の各ノードに対応する文の長さ及び文の重要度に基づいて、依存木構造のルートノードを含む部分木のうち、部分木の各ノードに対応する文の長さの合計が長さの上限以下であって、重要度の合計が最大となる部分木を求め、部分木の各ノードに対応する文を選択して、入力文書に対応する要約を生成することにより、入力文書の論理構造を正しく反映した要約を作成することができる。
また、本実施の形態に係る文書要約装置を用いることで、長さ制約(長さの上限Lmax)のもと、文書の論理構造を崩すことなく、文重要度の和が最大とする文の組合せ、すなわち、要約を生成することができるようになる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、本実施の形態では、要約対象を文書とした場合を例に挙げて説明したが、文書ではなく「文」をDEP−DTとして表せば、同様に一文要約も可能となる。
また、本実施の形態では、文書中の「文」をDEP−DTの各ノードとした場合を例に説明したが、各ノードを文以外の文字列単位として表わすこともできる。その場合には、分割部20によって、文書を「文字列単位」(文法的な要素(句、節など))に分割し、当該「文字列単位」をノードとした木としてDEP−DTを表現する。
また、本実施の形態に係る文書要約装置は、日本語だけでなく英語等の外国語にも適用可能である。その場合には、ピリオドを手がかりとして分割部20によって分割し、文の長さlに関しては、単語数を用いれば良い。
また、単語重要度データベース21は、外部に設けられ、文書要約装置とネットワークで接続されていてもよい。
また、入力部1に入力される文書は、既に文又は文字列単位に分割された形態であってもよい。
また、重要度付与部22は、上記(1)式に基づいて、各文又は各文字列単位に重要度を付与する場合を例に説明したが、これに限定されるものではなく、他の方法によって各文又は各文字列単位に重要度を付与してもよい。
また、本実施の形態では、要約対象の入力文書を表すRST−DTを変換してDEP−DTを得る場合を例に説明したが、要約対象の入力文書を表すDEP−DTを得るために、必ずしも、要約対象の入力文書を表すRST−DTが必要ではない。例えば、学習用文書を表すRST−DTのアノテーション済みコーパスをDEP−DTに変換したものを学習データとして、文書を入力として受け取り、直接DEP−DTを出力する解析器を構築することも可能である。この場合には、要約対象の入力文書を入力として、解析器を用いて、入力文書を表わすDEP−DTを作成することができる。
上述の文書要約装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
1 入力部
2 演算部
3 出力部
20 分割部
21 単語重要度データベース
22 重要度付与部
23 修辞構造解析部
24 修辞構造木変換部
25 依存構造木刈り込み部
100 文書要約装置

Claims (7)

  1. 構造木作成手段及び要約生成手段を含み、入力文書から、予め定められた長さの上限以下となるように、予め定められた文字列単位を少なくとも1つを選択して、前記入力文書に対応する要約を生成する文書要約装置における文書要約方法であって、
    前記構造木作成手段によって、前記入力文書を前記文字列単位に分割した結果に基づいて、前記入力文書のうちの最も重要な前記文字列単位をルートノードとし、かつ前記入力文書のうちの各文字列単位を各ノードとし、かつ修飾関係を有する前記各文字列単位間に対応するノード間をエッジで結合した、前記入力文書の各文字列単位の依存構造に基づく談話構造木を作成するステップと、
    前記要約生成手段によって、前記構造木作成手段によって作成された前記依存構造に基づく談話構造木の各ノードに対応する前記文字列単位の前記長さ及び前記文字列単位の重要度に基づいて、前記依存木構造のルートノードを含む部分木のうち、前記部分木の各ノードに対応する前記文字列単位の長さの合計が前記長さの上限以下であって、重要度の合計が最大となる部分木を求め、前記入力文書から、前記求めた部分木の各ノードに対応する前記文字列単位を選択して、前記入力文書に対応する要約を生成するステップと、
    を含む文書要約方法。
  2. 前記要約生成手段によって要約を生成するステップは、前記構造木作成手段によって作成された前記依存構造に基づく談話構造木の各ノードに対応する前記文字列単位の前記長さ及び前記文字列単位の重要度に基づいて、前記依存構造に基づく談話構造木の各ノードについて、葉ノードからボトムアップの順で、前記長さの上限以下の各長さに対して、前記ノードをルートノードとして形成される部分木のうち、前記部分木の各ノードに対応する前記文字列単位の長さの合計が前記長さ以下であって、かつ、重要度の合計が最大となる部分木を、ナップサック問題を解くことにより求め、前記求めた前記依存木構造のルートノードを含む部分木のうち、前記重要度の合計が最大となる部分木について、前記部分木の各ノードに対応する前記文字列単位を前記入力文書から選択して、前記入力文書に対応する要約を生成する請求項1記載の文書要約方法。
  3. 前記構造木作成手段によって前記依存構造に基づく談話構造木を作成するステップは、修辞構造解析手段及び修辞構造木変換手段を含み、
    前記修辞構造解析手段によって、ルートノードが前記入力文書の全体を表し、かつ前記入力文書のうちの少なくとも1つの前記文字列単位からなる文字列単位の系列の各々を各ノードとした階層構造を表し、かつ、前記文字列単位の系列間の修飾関係を表した、前記入力文書の文字列単位の系列の各々の修辞構造に基づく談話構造木を作成するステップと、
    前記修辞構造木変換手段によって、前記修辞構造解析手段によって作成された前記修辞構造に基づく談話構造木を、前記依存構造に基づく談話構造木に変換するステップとを含む請求項1又は2記載の文書要約方法。
  4. 入力文書から、予め定められた長さの上限以下となるように、予め定められた文字列単位を少なくとも1つを選択して、前記入力文書に対応する要約を生成する文書要約装置であって、
    前記入力文書を前記文字列単位に分割した結果に基づいて、前記入力文書のうちの最も重要な前記文字列単位をルートノードとし、かつ前記入力文書のうちの各文字列単位を各ノードとし、かつ修飾関係を有する前記各文字列単位間に対応するノード間をエッジで結合した、前記入力文書の各文字列単位の依存構造に基づく談話構造木を作成する構造木作成手段と、
    前記構造木作成手段によって作成された前記依存構造に基づく談話構造木の各ノードに対応する前記文字列単位の前記長さ及び前記文字列単位の重要度に基づいて、前記依存木構造のルートノードを含む部分木のうち、前記部分木の各ノードに対応する前記文字列単位の長さの合計が前記長さの上限以下であって、重要度の合計が最大となる部分木を求め、前記入力文書から、前記求めた部分木の各ノードに対応する前記文字列単位を選択して、前記入力文書に対応する要約を生成する要約生成手段と、
    を含む文書要約装置。
  5. 前記要約生成手段は、前記構造木作成手段によって作成された前記依存構造に基づく談話構造木の各ノードに対応する前記文字列単位の前記長さ及び前記文字列単位の重要度に基づいて、前記依存構造に基づく談話構造木の各ノードについて、葉ノードからボトムアップの順で、前記長さの上限以下の各長さに対して、前記ノードをルートノードとして形成される部分木のうち、前記部分木の各ノードに対応する前記文字列単位の長さの合計が前記長さ以下であって、かつ、重要度の合計が最大となる部分木を、ナップサック問題を解くことにより求め、前記求めた前記依存木構造のルートノードを含む部分木のうち、前記重要度の合計が最大となる部分木について、前記部分木の各ノードに対応する前記文字列単位を前記入力文書から選択して、前記入力文書に対応する要約を生成する請求項4記載の文書要約装置。
  6. 前記構造木作成手段は、
    ルートノードが前記入力文書の全体を表し、かつ前記入力文書のうちの少なくとも1つの前記文字列単位からなる文字列単位の系列の各々を各ノードとした階層構造を表し、かつ、前記文字列単位の系列間の修飾関係を表した、前記入力文書の文字列単位の系列の各々の修辞構造に基づく談話構造木を作成する修辞構造解析手段と、
    前記修辞構造解析手段によって作成された前記修辞構造に基づく談話構造木を、前記依存構造に基づく談話構造木に変換する修辞構造木変換手段とを含む請求項4又は5記載の文書要約装置。
  7. 請求項1〜請求項3の何れか1項記載の文書要約方法を構成する各ステップをコンピュータに実行させるためのプログラム。
JP2013020697A 2013-02-05 2013-02-05 文書要約方法、装置、及びプログラム Active JP5921457B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013020697A JP5921457B2 (ja) 2013-02-05 2013-02-05 文書要約方法、装置、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013020697A JP5921457B2 (ja) 2013-02-05 2013-02-05 文書要約方法、装置、及びプログラム

Publications (2)

Publication Number Publication Date
JP2014153766A true JP2014153766A (ja) 2014-08-25
JP5921457B2 JP5921457B2 (ja) 2016-05-24

Family

ID=51575623

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013020697A Active JP5921457B2 (ja) 2013-02-05 2013-02-05 文書要約方法、装置、及びプログラム

Country Status (1)

Country Link
JP (1) JP5921457B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016148946A (ja) * 2015-02-10 2016-08-18 日本電信電話株式会社 テキスト要約装置、方法、及びプログラム
JP2016162198A (ja) * 2015-03-02 2016-09-05 日本電信電話株式会社 パラメータ学習方法、装置、及びプログラム
WO2019163584A1 (ja) * 2018-02-20 2019-08-29 日本電信電話株式会社 文書要約装置、方法、及びプログラム
US11386272B2 (en) 2018-10-31 2022-07-12 Fujitsu Limited Learning method and generating apparatus

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040044519A1 (en) * 2002-08-30 2004-03-04 Livia Polanyi System and method for summarization combining natural language generation with structural analysis
JP2010055236A (ja) * 2008-08-27 2010-03-11 Nippon Telegr & Teleph Corp <Ntt> 文抽出および文短縮を組合せた文書要約方法、文書要約装置、文書要約プログラムおよびそのプログラムを記録した記録媒体
JP2010262511A (ja) * 2009-05-08 2010-11-18 Nippon Telegr & Teleph Corp <Ntt> テキスト要約方法、その装置およびプログラム
JP2012181685A (ja) * 2011-03-01 2012-09-20 Toshiba Corp 代表文抽出装置およびプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040044519A1 (en) * 2002-08-30 2004-03-04 Livia Polanyi System and method for summarization combining natural language generation with structural analysis
JP2004094946A (ja) * 2002-08-30 2004-03-25 Fuji Xerox Co Ltd ソーステキストを要約化する方法、圧縮のための等位関係を選択する方法、ソーステキストを要約化するシステム、及びプログラム
JP2010055236A (ja) * 2008-08-27 2010-03-11 Nippon Telegr & Teleph Corp <Ntt> 文抽出および文短縮を組合せた文書要約方法、文書要約装置、文書要約プログラムおよびそのプログラムを記録した記録媒体
JP2010262511A (ja) * 2009-05-08 2010-11-18 Nippon Telegr & Teleph Corp <Ntt> テキスト要約方法、その装置およびプログラム
JP2012181685A (ja) * 2011-03-01 2012-09-20 Toshiba Corp 代表文抽出装置およびプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
伊藤 潤 他: "係り受け木を用いた日本語文書の重要部分抽出", 情報処理学会研究報告, vol. Vol.2003,No.108(2003-NL-158(4)), JPN6015051819, 7 November 2003 (2003-11-07), JP, pages 19 - 24, ISSN: 0003222780 *
小林 良輔 他: "修辞構造に基づく法令文の解析", 言語処理学会第14回年次大会発表論文集, JPN6015051820, 17 March 2008 (2008-03-17), JP, pages 608 - 611, ISSN: 0003277338 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016148946A (ja) * 2015-02-10 2016-08-18 日本電信電話株式会社 テキスト要約装置、方法、及びプログラム
JP2016162198A (ja) * 2015-03-02 2016-09-05 日本電信電話株式会社 パラメータ学習方法、装置、及びプログラム
WO2019163584A1 (ja) * 2018-02-20 2019-08-29 日本電信電話株式会社 文書要約装置、方法、及びプログラム
US11386272B2 (en) 2018-10-31 2022-07-12 Fujitsu Limited Learning method and generating apparatus

Also Published As

Publication number Publication date
JP5921457B2 (ja) 2016-05-24

Similar Documents

Publication Publication Date Title
Kalra et al. Importance of Text Data Preprocessing & Implementation in RapidMiner.
US11210468B2 (en) System and method for comparing plurality of documents
JP5239307B2 (ja) 翻訳装置及び翻訳プログラム
KR101790793B1 (ko) 컴퓨터 분석을 위해 텍스트 문서를 표현하는 그래픽 모델
CN101079024B (zh) 一种专业词表动态生成系统和方法
JP5834883B2 (ja) 因果関係要約方法、因果関係要約装置及び因果関係要約プログラム
JP2004110161A (ja) テキスト文比較装置
WO2021258491A1 (en) Methods and systems for generating a reference data structure for anonymization of text data
JP2004110200A (ja) テキスト文比較装置
Zu et al. Resume information extraction with a novel text block segmentation algorithm
JP5921457B2 (ja) 文書要約方法、装置、及びプログラム
JP2007047974A (ja) 情報抽出装置および情報抽出方法
JP5441937B2 (ja) 言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム
JP6062829B2 (ja) 係り受け関係解析パラメータ学習装置、係り受け関係解析装置、方法、及びプログラム
Chen et al. Using latent Dirichlet allocation to improve text classification performance of support vector machine
JP2008021270A (ja) データ変換装置および方法、データベース管理装置および方法、ならびにデータベース検索システムおよび方法
JPH1196177A (ja) 用語辞書生成方法および用語辞書生成プログラムを記録した記録媒体
JP4937709B2 (ja) 構造化文書生成方法及び装置及びプログラム
Kunanets et al. Enhanced LSA Method with Ukraine Language Support.
JP7227705B2 (ja) 自然言語処理装置、検索装置、自然言語処理方法、検索方法およびプログラム
JP2014112306A (ja) 要望文抽出装置、要望内容同定モデル学習装置、方法、及びプログラム
CN115827829B (zh) 一种基于本体的搜索意图优化方法及系统
JP4543819B2 (ja) 情報検索システム、情報検索方法及び情報検索プログラム
JP6476638B2 (ja) 固有用語候補抽出装置、固有用語候補抽出方法、及び固有用語候補抽出プログラム
Misuraca et al. Network-based dimensionality reduction for textual datasets

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150129

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160315

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160412

R150 Certificate of patent or registration of utility model

Ref document number: 5921457

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150