JP4931958B2 - テキスト要約方法、その装置およびプログラム - Google Patents

テキスト要約方法、その装置およびプログラム Download PDF

Info

Publication number
JP4931958B2
JP4931958B2 JP2009113462A JP2009113462A JP4931958B2 JP 4931958 B2 JP4931958 B2 JP 4931958B2 JP 2009113462 A JP2009113462 A JP 2009113462A JP 2009113462 A JP2009113462 A JP 2009113462A JP 4931958 B2 JP4931958 B2 JP 4931958B2
Authority
JP
Japan
Prior art keywords
sentence
shortened
length
unit
shortening
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009113462A
Other languages
English (en)
Other versions
JP2010262511A (ja
Inventor
隆明 長谷川
仁 西川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009113462A priority Critical patent/JP4931958B2/ja
Publication of JP2010262511A publication Critical patent/JP2010262511A/ja
Application granted granted Critical
Publication of JP4931958B2 publication Critical patent/JP4931958B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、複数の文から構成されるテキスト(入力文書)を要約する技術に関する。
従来のテキスト要約の代表的な技術としては、重要文抽出と文短縮があり、それぞれ単独で利用することもあれば、両者を併用することもある。
重要文抽出では、テキストを構成する複数の文のうち、何らかの方法により重要と判定された文を重要な順に、予め指定された要約率あるいは制限文字数に達するまで選択していくことで、テキスト要約を実現する。一方、文短縮では、テキストを構成する各文において、文中の不要な部分を削除していくことにより、テキストを構成する文自体の長さを短く(文字数を少なく)することで、テキスト要約を実現する。
具体的な文短縮方法としては、文を構成する単語の中から所定の単語(例えば、重要な単語)を選択し、それらを接合した候補の中から、単語重要度や単語bigramを用いた評価関数の値が最も高くなる候補をその文の要約とする方法(非特許文献1参照)や、文の係り受け解析の結果である依存構造木に対し、ルート(根)から見て枝にある文節を刈り込むことにより係り受け関係を維持した要約を生成する方法であって、コーパスから係り受け関係の強さを学習することで強い係り受け関係の枝は残す方法(非特許文献2参照)が提案されている。
堀 智織、古井貞煕「講演音声の自動要約の試み」、話し言葉の科学と工学ワークショップ講演予稿集、2001、pp.165−171 Kiwamu Yamagata et al.,"Sentence Compression Using Statistical Information About Dependency Path Length", Proceedings of the 9th International Conference, TSD 2006 / Lecture Notes in Computer Science, pp.127-134
しかしながら、重要文抽出のみを用いる場合、文という比較的長い単位での取捨選択による要約となるため、予め指定された要約率や制限文字数いっぱいまでの長さの要約を作ることが難しいという問題があった。
一方、重要文抽出と文短縮を併用する場合、文短縮を行ってから重要文を抽出する方法では、予め統一して要約率や制限文字数を指定しても、個々の文を文短縮したときに短縮される要約率や制限文字数が必ずしも同じにはならず、予め指定された要約率や制限文字数いっぱいまでの長さの要約を作ることが難しいという問題があった。さらに多くの文を含めようとすると各文の要約率が低くなり、各原文の意味を保持するのが難しいという問題があった。なお、本出願では、要約率が低くなればなるほど原文から遠ざかり(短縮され)、要約率が高くなればなるほど原文に近づくものとする。
また、重要文を抽出してから文短縮を行う方法では、重要文を抽出する際に要約に含められる文の数に関わる要約率や制限文字数をどう指定するのか、そして各重要文に対する文短縮の要約率をどう指定するのかといった制御が困難であるという問題があった。
本発明の目的は、重要文抽出と文短縮を動的に組み合わせながら、予め指定した要約率や制限文字数いっぱいまでの長さの要約を作成することであり、特に携帯端末への要約の表示など、制限文字数に厳密な制約があるアプリケーションに対して、低い要約率や少ない制限文字数でも原文の内容を網羅しながら読み易く且つ分かり易い要約を作成することにある。
前記目的を達成するため、本発明では、複数の文から構成される入力文書の要約を生成するテキスト要約装置であって、生成すべき要約の制限長を受け付ける入力部と、前記複数の文から構成される入力文書の各文の内容と、前記各文の出現順序及び重要順位とを格納する重要文テーブルと、前記入力文書中の文を短縮した短縮文と、当該短縮文の出現順序とを格納する短縮文書テーブルと、前記重要文テーブルに格納された入力文書中の文を重要順位が高い順に選択する文選択部と、前記受け付けた制限長と、前記短縮文書テーブルに格納されている短縮文から構成される短縮文書の長さとから、前記選択された文に対する文短縮長を動的に決定する文短縮長決定部と、前記決定された文短縮長に従って前記選択された文を短縮する文短縮部と、前記短縮された短縮文と当該短縮文の出現順序とを前記短縮文書テーブルに格納する短縮文格納部と、前記短縮文書テーブルに格納されている短縮文から構成される短縮文書の長さが前記受け付けた制限長に対して規定の割合に達するまで、前記文選択部における文の選択から前記短縮文格納部における短縮文及び出現順序の格納までを繰り返し行わせ、前記短縮文書テーブルに格納された短縮文から構成される短縮文書を前記入力文書の要約として出力する出力部とを備えたことを特徴とする。
本発明によれば、テキストを要約する際、文の重要順位に従って要約に含める文を選択し短縮するが、既に選択した文の長さに応じて要約に含める文の短縮長を動的に決定することにより、携帯端末への表示などの用途において、予め決められた制限長にできるだけ近い長さの要約が生成できるという効果を有する。
本発明のテキスト要約装置の実施の形態の一例を示す構成図 本発明のテキスト要約装置における処理の流れ図 入力文書の一例を示す説明図 短縮文書の一例を示す説明図 入力文書の要約の一例を示す説明図 文短縮部の具体的な構成の一例を示す構成図 単語重要度テーブルの一例を示す説明図 文節連接テーブルの一例を示す説明図 入力文の依存構造を視覚的に表した説明図 入力文の依存構造を表形式で表した説明図 文候補テーブルの一例を示す説明図 文侯補生成部における処理の流れ図 文節連接テーブルの他の例を示す説明図 生成確率が上位の候補を含む文候補テーブルの一例を示す説明図 生成確率が上位の候補を含む文候補テーブルの他の例を示す説明図
次に、本発明の実施の形態について図面を参照して説明する。
図1は本発明のテキスト要約装置の実施の形態の一例を示すもので、本実施の形態のテキスト要約装置は、入力部1と、重要文テーブル2と、短縮文テーブル3と、文選択部4と、文短縮長決定部5と、文短縮部6と、短縮文格納部7と、出力部8とからなる。
入力部1は、図示しない入力装置から直接入力され又は記憶媒体から読み出されて入力され又は通信媒体を介して他の装置等から入力された入力文書とともに、同様にして入力された生成すべき要約の長さ(制限長)を受け付ける。なお、文(文書)の長さを表す単位としては文字数の外、特定のcodingにおけるバイト数等を用いることができる。
ここで、入力文書は複数の文から構成され、それらの各文の内容に対応する情報(テキストデータ)とともに、各文の出現順序を表す情報及び予め付与された各文の重要度の順位(重要順位)を表す情報を含むものとする。
なお、入力文書の各文は周知の形態素解析済み、さらには係り受け解析済みであっても良く、その場合、入力文書は前記に加え、形態素(単語)毎の表記、読み、品詞、係り受け関係を表す情報等を含むものとなる。また、重要順位を表す情報としては、重要度の順位そのものではなく、重要度を表す何らかのスコア(例えば、重要度が高ければ高いほど値が大きくなるようなスコア)で表現されていても良く、スコアの高い順(あるいは低い順)で重要順位を表現するようにしても良い。また、入力文書が入力されればその長さは一義的に決まり、この長さと制限長より要約率が算出できるので、制限長を要約率に置き換えても良い。
重要文テーブル2は、入力部1で受け付けた入力文書を格納する。なお、重要文テーブル2に格納する入力文章の情報(各文の内容、出現順序、重要順位などの情報)は、入力部1から受け付ける代わりに、予め重要文テーブル2に格納されていても良い。短縮文書テーブル3は、入力文書中の文を短縮した1以上の短縮文とその文の出現順序を格納する。また、重要文テーブル2に格納されている入力文書の各文に付与されている重要順位などの情報も短縮文と対応付けて格納しても良い。
文選択部4は、重要文テーブル2に格納された入力文書中の文を重要順位が高い順に順次選択、即ち(ある時点でみれば)入力文書中から、それまでに選択されていない文(未選択文)のうちで最も重要順位の高い文を選択する。
文短縮長決定部5は、入力部1で受け付けた制限長と、短縮文書テーブル3に格納されている短縮文から構成される短縮文書の長さとから、文選択部4で選択された文に対する文短縮長を動的に決定する。例えば、制限長が70バイト、短縮文書の長さが40バイトの場合、文短縮長を両者の差である30バイトに決定する。
ここで、後述するように、文選択部4で選択された文の出現順序と短縮文書テーブル3に格納されている短縮文書内の文の出現順序とが連続しないときに、それらの文と文との間に文の脱落を表す記号を挿入するような場合は、その長さの分だけ、さらに前記文短縮長から差し引くようにしても良い。なお、文短縮長の代わりに文短縮率を用いても良い。例えば、選択された文の長さが50バイト、文短縮長が30バイトの場合、文短縮率は60%になる。
文短縮部6は、文短縮長決定部5で決定された文短縮長(または文短縮率)に従って文選択部4で選択された文を短縮する。なお、文短縮部6における具体的処理については後述する。この際、文短縮率が100%以上であれば、文短縮を行わず、選択された文をそのままにしても良いし、文短縮を行って任意の文の長さに縮めても良い。
短縮文格納部7は、文短縮部6で短縮された短縮文を短縮文書テーブル3に追加格納するとともに、文選択部4で選択された文の入力文書中の出現順序を、当該短縮文の出現順序として短縮文とともに格納する。もしくは、文選択部4で選択された文の入力文書中の出現順序に基づき、短縮文書テーブル3に格納されている短縮文書の並び替え(短縮文書中の各短縮文の並び替え)を行ってから、短縮文書テーブル3に格納しても良い。並び替えの際に、原文(入力文書)における文の出現順序が連続しない場合には、文の脱落を表す記号、例えば「...」などを挿入しても良い。逆に、短縮文を格納することにより短縮文書の文の出現順序が連続した場合には、前述した記号「...」を削除しても良い。
出力部8は、短縮文書テーブル3に格納されている短縮文書の長さが入力部1で受け付けた制限長に対して予め設定された割合(規定の割合)に達するまで上記各部を制御し、文選択部4における文選択から短縮文格納部7における短縮文の並び替えまでを繰り返し行わせ、その結果を入力文書の要約として出力する。
図2に本装置全体の処理の流れを示す。
まず始めに、入力部1により、複数の文から構成され、各文の内容、出現順序及び重要順位を含む入力文書とともに、生成すべき要約の制限長を受け付け(s1)、当該受け付けた入力文書を重要文テーブル2に格納する(s2)。
次に、文選択部4により、重要文テーブル2に格納された入力文書中の未選択文のうちで最も重要順位が高い文を選択し(s3)、文短縮長決定部5により、前記受け付けた制限長と、短縮文書テーブル3に格納されている短縮文書の長さとから、前記選択された文に対する文短縮長を決定し(s4)、文短縮部6により、前記決定された文短縮長に従って前記選択された文を短縮する(s5)。
次に、短縮文格納部7により、前記短縮された短縮文を短縮文書テーブル3に追加格納するとともに、重要文テーブル2に格納された入力文書の出現順序に基づき、短縮文書テーブル3に格納されている短縮文書の並び替えを行う(s6)。
最後に、出力部8により、短縮文書テーブル3に格納されている短縮文書の長さが前記受け付けた制限長に対して規定の割合に達しているか否かを判定し、達していれば(s7)、その時点で短縮文書テーブル3に格納されている短縮文を出現順序の順番に並び替えて構成される短縮文書を入力文書の要約として出力する(s8)。なお、既に短縮文書テーブル3に格納されている短縮文が出現順序で並び替えられている場合には、そのまま短縮文書テーブル3に格納された短縮文から構成される短縮文書を入力文書の要約として出力する。また、短縮文書テーブル3に格納されている短縮文書の長さが前記受け付けた制限長に対して規定の割合に達していなければ、上記の(s3)から(s6)までのステップを繰り返す。
図3は入力文書の一例(フリー百科事典『ウィキペディア(Wikipedia)』http://ja.wikipedia.org/wiki/浅間山より一部抜粋)を示すもので、以下、当該入力文書が入力部1を介して重要文テーブル2に格納されている場合を例にとって本装置の動作を説明する。ここで、制限長は100バイト、また、制限長に対する規定の割合は80%と仮定する。
始めに、文選択部4により、入力文書中の未選択文のうちで最も重要順位が高い文、即ち重要順位が1位の文が選択される。次に、文短縮長決定部5により、文短縮長が決定されるが、この現時点で短縮文書テーブル3は空、つまり短縮文書テーブル3に格納されている短縮文書の長さは0なので、文短縮長は100バイトに設定される。ここで、前記選択された重要順位1位の文の長さが37バイトであるとすると、文短縮部6では文を短縮せず、短縮文格納部7により、そのままの文が短縮文書テーブル3に格納される。
この時点での短縮文書テーブル3中の短縮文書の長さは37バイトであるので、出力部8により、制限長100バイトに対し、規定の割合である80%の80バイトに達していないことが判定される。このため、文選択部4により、入力文書中の未選択文のうちで最も重要順位が高い文、ここでは重要順位が2位の文が選択される。
次に、文短縮長決定部5により、前記同様に文短縮長が決定されるが、この現時点で短縮文書テーブル3に格納されている短縮文書の長さは37バイトであり、制限長100バイトとの差は63バイトである。重要順位2位の文は既に選択された重要順位1位の文と出現順序が連続しないため、文の脱落を示す記号「...」を挿入するための長さ3バイトを文短縮長から差し引かれ、文短縮長は60バイトに決定される。
前記選択された重要順位2位の文の長さが82バイトであるとすると、文短縮部6により、これを60バイト以下に短縮する文短縮が実施され、短縮文格納部7により、短縮された文が短縮文書テーブル3に格納されるとともに、出現順序に従って文の並べ替えが行われ、出現順序が不連続な部分に文の脱落を示す記号「...」が挿入される。図4はこの時点における短縮文書の一例、即ち短縮文書テーブル3における格納内容を示すものである。
前記短縮された重要順位2位の文の長さが55バイトであるとすると、この時点での短縮文書テーブル3中の短縮文書の長さは55+3+37=95バイトとなり、制限長100バイトの規定の割合である80%の80バイトを越えるので、出力部8により、短縮文書テーブル3中に格納されている短縮文書が出力される。
図5に出力部8の出力結果の一例、即ち入力文書の要約の一例を示す。上記の例では、文と文との間の脱落を考慮しているが、これに加えて文書の先頭と末尾の脱落を考慮しても良い。
<文短縮部における具体的処理>
文短縮部6における処理としては、例えば非特許文献1、2に示されるような公知の手法により、文選択部4で選択された文から、その長さが文短縮長決定部5で決定された文短縮長以下となるような文を生成するものでも良い。
以下、文短縮部6における具体的処理の一例について説明するが、この処理を用いた場合には、非特許文献1、2等に示されるような公知の技術を用いた場合より、文全体を通して自然な読み易い短縮文を生成できるという効果がある。
図6は文短縮部6の具体的な構成の一例を示すもので、本例の文短縮部6は、単語重要度テーブル61と、文節連接テーブル62と、文節情報取得部63と、文情報計算部64と、文侯補生成部65と、文侯補テーブル66と、制御部67とからなり、文選択部4で選択された文を入力文(形態素解析および係り受け解析済みの入力文)とし、文短縮長決定部5で決定された文短縮長以下の短縮文(要約文)を生成して出力する。
単語重要度テーブル61は、所定のコーパス(文書の集合)に対し、周知の形態素解析を行い、その中で出現する単語について予め計算された重要度を格納している。単語の重要度を計算する方法については、TF*IDF等の周知の方法を用いることができるため、特に規定しない。図7は単語重要度テーブルの一例を示すもので、ここではコーパス中の各単語について、その表記、品詞(但し、内容語のみ)、当該コーパスにおける出現頻度、該出現頻度から求められた重要度(IDF)が格納されている。
文節連接テーブル62は、所定のコーパス(文書の集合)に対し、周知の形態素解析および係り受け解析を行い、その中で出現するある文節と別の文節との連鎖についての予め計算された確率(連接確率)を格納している。ある文節と別の文節とが連接する確率の計算方法については、n−gram言語モデルを作成するための周知の方法を使うことができるため、特に規定しない。
また、文節の表記の仕方については、その文節の内容語列の主辞または機能語列の主辞を単独または組み合わせて使っても良い。例えば、内容語列の主辞を単独で使う場合は、前の文節と後ろの文節における内容語列の主辞の表記のみ、前の文節と後ろの文節における内容語列の主辞の品詞のみ、あるいは前の文節と後ろの文節における内容語列の主辞の表記+品詞という形式等で表現されても良い。内容語列の主辞と機能語列の主辞を組み合わせる場合は、前の文節における内容語列の主辞と後ろの文節における機能語列の主辞の連接および前の文節における機能語列の主辞と後ろの文節における内容語列の主辞の連接で表現できる。
図8は文節連接テーブルの一例を示すもので、ここではコーパス中の連鎖する文節について、その内容語列の主辞の品詞、連接確率が格納されている。なお、ここでは文頭記号<s>や文末記号</s>との連接も含めるものとする。
文節情報取得部63は、文侯補生成部65で作成された、後述する要約文の候補(候補文)を構成する各文節について、その重要度を当該文節に含まれる各単語についての単語重要度テーブル61より得られる重要度に基づいて計算するとともに、その長さを計算する。重要度を計算する単語は品詞によって制限を設けても良く、例えば名詞に限定しても良い。重要度の計算の一例としては、文節内の各単語の重要度の総和を計算する方法がある。文節の長さは、例えば文節内の表記の文字列の文字数や特定のcodingにおけるバイト数としても良い。
文情報計算部64は、文侯補生成部65で作成された、後述する要約文の侯補(候補文)が生成される確率(生成確率)を計算する。文の生成確率については、文節連接テーブル62より得られる前記要約文の候補を構成する文節のそれぞれが隣り合う連接確率と、文節情報取得部63によって計算された前記要約文の候補を構成する各文節の重要度とに基づいて計算する。
図9および図10は文選択部4で選択され、制御部67に入力された入力文の一例、ここでは原文(テキストデータ)が「天気がとてもよかったこともあってお弁当を持って緑の多そうな公園にハイキングに行くことにした。」である場合の例を示すもので、図9は文節の依存構造を視覚的に、また、図10は同じ依存構造を表形式で表している。図10において、「*」で始まる行が文節を表す。文節の情報には、文節番号、係り先(の文節番号)、内容語列の主辞(ヘッド)、機能語列の主辞(ヘッド)がある。主辞とは文節における代表単語を指す。以降の行には、その文節に含まれる各単語の情報を示している。例えば、先頭の文節「天気が」の情報[*0 2D 0/1]は文節番号が0で文節番号2の文節「よかった」にかかることを意味する。文節の係り先が「−1O」となる文節は依存構造のルート(根)であることを示す。
文侯補生成部65は、入力文の依存構造に基づいて当該入力文を構成する単数または複数の文節を組み合わせて前記入力文に対する要約文の侯補を生成するとともに、生成した要約文の侯補を文節情報取得部63および文情報計算部64へ出力し、文節情報取得部63で計算される前記生成した要約文の侯補の各文節の長さの総和をとることによってその長さを求め、これと文情報計算部64で計算される前記生成した要約文の侯補の生成確率とを、当該生成した要約文の候補とともに文侯補テーブル66に格納する。
要約文の侯補を生成する処理の一例を挙げる。入力文の係り受け解析結果に基づいて入力文の依存構造に合致しない候補は排除する。ここでの依存構造は根(ルート)から枝分かれして1つ以上の葉(リーフ)が再帰的に枝分かれする構造を指す。例えば、入力文の依存構造の根(ルート)に相当する文節に注目すると、ルートの文節だけからなる要約文は、入力文の依存構造を保持するので侯補の一つとする。さらにルートの文節に加え、その他の文節を次々に組み合わせ、入力文の依存構造を保持するものだけを要約文の侯補とする。
また、文侯補生成部65は、文短縮長決定部5で決定された文短縮長に従って要約文の侯補を生成しても良い。即ち、文節情報取得部63を用いて求めた要約文の侯補の長さ、例えば前記要約文の候補を構成する全ての文節のバイト数の総和が文短縮長決定部5で決定された文短縮長を超えた場合は、その候補を除外することで要約文を生成する。
文侯補テーブル66は、文侯補生成部65で生成された要約文の候補をその生成確率および長さとともに格納する。図11は文候補テーブルの一例を示すもので、ここでは生成確率は対数を取っている。
制御部67は、前述した各部を制御し、文侯補テーブル66から予め指定された長さの範囲で最も生成確率が高い要約文の候補を入力文の要約文(短縮文)として出力する。
図12に文侯補生成部65における処理の流れを示す。
まず始めに、文侯補テーブル66を初期化する(s11)。初期化では文節数が0の文が存在すると考える。次に、入力文の文末の文節にポインタをセットする(s12)。文侯補テーブル66に処理していない侯補文があれば(s13)、文侯補テーブル66から処理する侯補文を取り出し、侯補文(文節の系列)の先頭にポインタの文節(ポインタがセットされた文節)をつなげて新たな候補文を生成する(s14)。この新たな侯補文の長さが文短縮長決定部5で決定された文短縮長を越えておらず(s15)、かつポインタの文節が依存構造のルートか、あるいはポインタの文節がs14で取り出した処理対象の侯補文のいずれかの文節に直接かかる場合は(s16)新たな候補文の生成確率を計算し(s17)、文侯補テーブル66に新たな侯補文とその生成確率および長さを格納して(s18)残りの候補文を処理する。また、それ以外の場合は何もせずに残りの候補文を処理する。文侯補テーブル66に処理していない侯補文がなくなったら(s13)、一つ前の文節にポインタを移す(s19)。上記について、ポインタを文頭に向けてずらしていき、処理できる文節がなくなるまで繰り返す(s20)。
文情報計算部64では、文節間の連接確率と文節の重要度とに基づいて文の生成確率を計算する。以下、生成確率を計算する処理の一例について説明する。
文節の重要度は式(1)のように文全体の重要度で各文節の重要度を正規化することにより、重要度の確率とみなしても良い。文節の重要度は文節を構成する単語の重要度を用いる。単語の重要度は文書頻度の逆数であるidfを用いる。名詞以外の品詞を有する単語には一定の非常に小さな重要度を与えても良い。重要度確率は対数を取ったものを用いても良い。
Figure 0004931958
ここで、wkは文節Biを構成する単語を表し、nは文節数を表す。また、Bjは全ての文節を表し、wlは全ての文節を構成する単語を表す。または、式(1)の代わりに以下の式(2)を用いても良い。
Figure 0004931958
ここで、wiは文節を表し、imp(tk)は単語tkの単語適合度を表す。
例えば図10から「公園に」という文節は、品詞が「名詞」の「公園」という単語と、品詞が「格助詞:連用」の「に」という単語とからなる。名詞に該当する単語は図7に示した単語重要度テーブル61中の重要度を用いるが、それ以外の単語は一定の値0.01を与えるとすると、文節「公園に」の重要度は(4.90+0.01)となり、同様に全ての文節の重要度を計算すれば、上記の式(1)より、文節「公園に」の重要度確率を求めることができる。
また、文節間の連接確率を求める処理の一例を以下に説明する。入力文の係り受け解析結果から、文節にはヘッドとなる内容語と機能語が得られるものとする。図10では、最初の文節は「*0 2D 0/1」となっているが、「0/1」の「0」が内容語のヘッドの位置を、「1」が機能語のヘッドの位置を表している。つまり、この場合、内容語のヘッドは「天気」であり、機能語のヘッドは「が」である。図8に示した文節間の連接確率は、別途用意したコーパスから各文節の内容語列の主辞の品詞bigramを用いて言語モデルを学習したものである。連接確率の数値は対数をとったものである。同様にして機能語列の主辞からも品詞bigramを用いて言語モデルを学習できる。これらの言語モデルから文節間の連接確率を得ることができる。
また、式(3)のようにこれらを組み合わせて、連接する文節に対して内容語列の主辞と機能語列の主辞との積を計算することにより文節間の連接確率を得ることもできる。
Figure 0004931958
但し、Padj contは内容語列の主辞の連接確率で、Padj funcは機能語列の主辞の連接確率を表す。あるいは、図13に示すように内容語列の主辞と機能語列の主辞との連接確率を用いても良い。
あるいは、内容語と機能語のヘッドの情報をそれぞれを交互に並べることにより、文節連接確率を計算することもできる。用いる情報としては、品詞のみを使っても良いし、表記と品詞を使っても良い。図13に示すように内容語列の主辞と機能語列の主辞との連接確率を用いても良い。この場合は、以下の式(4)により文節間の連接確率を得ることもできる。
Figure 0004931958
但し、Padjは主辞の連接確率で、fiはwiの主辞の情報を表す。
前後の文節が依存関係にある場合の連接確率については、例えば確率Padjを1にしたり平方根を取るなどして、依存関係にあることを考慮した数値にしても良い。
文節の重要度確率と文節の連接確率が求まれば、文の生成確率は式(5)で求めることができる。
Figure 0004931958
または、以下の式(6)により文の生成確率を算出しても良い。式(2)、(4)、(6)を用いた場合は、より精度の良い要約文、即ち文全体を通して自然な読み易い要約文を生成することができる。
Figure 0004931958
ここで、Wは原文Xより短縮された文、G(X)は原文Xから得られる係り受け構造の部分木の集合、node(W)はWの文節数、Wiはi番目の文節、αは重みパラメータ(任意の実数:デフォルトは1)とする。また、logの底は10とする。
入力文「天気がとてもよかったこともあってお弁当を持って緑の多そうな公園にハイキングに行くことにした。」において、図9に示した依存構造を入力とする場合について説明する。要約文の候補には始めに文頭記号と文末記号からなる<s></s>(文節数0の文)を保持しておく。
文候補生成部65では、ポインタを末尾に設定し、末尾の文末から検査することにより依存構造のルート文節である「した。」を得る。ルート文節は要約文の侯補にするので、要約文の侯補に追加し、「<s>した。</s>」の生成確率を計算する。図11はポインタを文末の1番目から8番目までずらした文侯補テーブルの例であり、この際、図11の1行目に示す文節数と生成確率と長さが文候補テーブル66に格納される。但し、図11では文頭記号と文末記号の記載を省略している。
次にポインタを1つ前にずらし、文節「ことに」を文侯補テーブル66にある「<s>した。</s>」と「<s></s>」の侯補文の前につなげる。このとき、「ことに」は「した。」にかかるので、「<s>ことにした。</s>」を要約文に採用する。図11の2行目に示すように文節数と生成確率と長さを格納する。「ことに」の直接の係り先が「した。」以外には存在しないので、「<s>ことに</s>」は採用しない。
以降同様に、「<s>行くことにした。</s>」は採用するが、「<s>行くことに</s>」や「<s>行く</s>」や「行くした。</s>」は採用しない。
以降同様に計算し、制限文字数を越えないという条件のもとで、ポインタを文頭までずらしていき、文頭文節までの組み合わせを計算する。
文節数が大きくなるにつれて計算量が増えるので、全ての組み合わせを計算するのではなく、ポインタのある位置での生成確率の高い上位N個の侯補文だけを保持して、次にポインタをずらすときはそれらを含む候補文だけに絞るために、ビームサーチのような周知の方法を取って計算量を減らしても良い。
この例の入力文はEUCエンコーディングにおいて92バイトで、制限文字数は要約率を60%としたときに55.2バイトである。候補となる要約文を生成する過程で55.2バイトを越える要約文は除外され、ポインタをずらした際にも除外した要約文の侯補はもはや考慮せず、これらの侯補に新たに文節を加えた要約文は生成されない。
図14はこのときの最終的な文侯補テーブルの生成確率が上位の侯補文を示している。図15は文節連接確率を用いないで文節重要度のみで生成確率を計算した場合の例である。これらを比較すると、図14は上位5件が全て自然な文であるのに対して、図15は上位5件のうちの2つが不自然な文になっている。このことから、本文短縮部では文を短縮する際に読み易い文を生成できるということが言える。
なお、要約率が100%以上の場合、つまり入力文の長さが文短縮長決定部5で決定された文短縮長以下の場合には、入力文(文選択部4で選択した文)をそのまま出力しても良いし、入力文も含めて最も高い確率で生成される文を出力しても良い。
また、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、図1、図6の構成図に示された機能を実現するプログラムあるいは図2、図8のフローチャートに示された手順を備えるプログラムをインストールすることによっても実現可能である。
1:入力部、2:重要文テーブル、3:短縮文テーブル、4:文選択部、5:文短縮長決定部、6:文短縮部、7:短縮文格納部、8:出力部、61:単語重要度テーブル、62:文節連接テーブル、63:文節情報取得部、64:文情報計算部、65:文侯補生成部、66:文侯補テーブル、67:制御部67。

Claims (9)

  1. 複数の文から構成される入力文書の要約を生成するテキスト要約装置であって、
    生成すべき要約の制限長を受け付ける入力部と、
    前記複数の文から構成される入力文書の各文の内容と、前記各文の出現順序及び重要順位とを格納する重要文テーブルと、
    前記入力文書中の文を短縮した短縮文と、当該短縮文の出現順序とを格納する短縮文書テーブルと、
    前記重要文テーブルに格納された入力文書中の文を重要順位が高い順に選択する文選択部と、
    前記受け付けた制限長と、前記短縮文書テーブルに格納されている短縮文から構成される短縮文書の長さとから、前記選択された文に対する文短縮長を動的に決定する文短縮長決定部と、
    前記決定された文短縮長に従って前記選択された文を短縮する文短縮部と、
    前記短縮された短縮文と当該短縮文の出現順序とを前記短縮文書テーブルに格納する短縮文格納部と、
    前記短縮文書テーブルに格納されている短縮文から構成される短縮文書の長さが前記受け付けた制限長に対して規定の割合に達するまで、前記文選択部における文の選択から前記短縮文格納部における短縮文及び出現順序の格納までを繰り返し行わせ、前記短縮文書テーブルに格納された短縮文から構成される短縮文書を前記入力文書の要約として出力する出力部とを備えた
    ことを特徴とするテキスト要約装置。
  2. 前記受け付けた制限長と、前記短縮文書テーブルに格納されている短縮文から構成される短縮文書の長さと、前記選択された文の出現順序と前記短縮文書テーブルに格納されている短縮文の出現順序とが連続しないときに文と文との間に挿入する文の脱落を表す記号の長さとから、前記選択された文に対する文短縮長を動的に決定する文短縮長決定部を備えた
    ことを特徴とする請求項1に記載のテキスト要約装置。
  3. 前記文短縮部は、
    コーパスに対する解析結果から得られる任意の単語の重要度を格納する単語重要度テーブルと、
    コーパスに対する解析結果から得られる任意の文節間の連接確率を格納する文節連接テーブルと、
    前記単語重要度テーブルより得られる、文を構成する文節に含まれる単語についての重要度に基づいて当該文節の重要度を計算するとともに、当該文節の長さを計算する文節情報取得部と、
    前記文節連接テーブルより得られる、文を構成する文節のそれぞれが隣り合う連接確率と、前記文節情報取得部より得られる前記文を構成する文節の重要度とに基づいて当該文が生成される生成確率を計算する文情報計算部と、
    前記文選択部で選択された文は形態素解析および係り受け解析済みの文(入力文)であり、当該入力文の依存構造に基づいて当該入力文を構成する文節を組み合わせて要約文の候補を生成するとともに、前記各要約文の候補の長さを前記文節情報取得部を用いて求め、さらに前記各要約文の候補の生成確率を前記文節情報取得部および前記文情報計算部を用いて求める文侯補生成部と、
    前記文侯補生成部で生成された要約文の候補をその生成確率および長さとともに格納する文候補テーブルと、
    前述した各部を制御し、前記文候補テーブルから予め指定された長さの範囲で最も生成確率が高い要約文の候補を前記入力文の短縮文として出力する制御部とからなる
    ことを特徴とする請求項1または2に記載のテキスト要約装置。
  4. 前記文候補テーブルには、要約文の候補の初期値として文節数0の文が格納され、
    前記文侯補生成部は、
    (a)前記入力文の文末の文節にポインタをセットし、
    (b)前記文侯補テーブルから処理する侯補文を取り出し、前記処理する侯補文(文節の系列)の先頭に前記ポインタがセットされた文節をつなげて新たな候補文を生成し、
    (c)前記新たな侯補文の長さが予め指定した制限を越えておらず、かつ前記ポインタがセットされた文節が依存構造のルートか、あるいは前記ポインタがセットされた文節が前記処理する侯補文のいずれかの文節に直接かかる場合は前記新たな候補文の生成確率を計算し、前記文侯補テーブルに前記新たな侯補文とその生成確率および長さを格納して(b)に戻り、それ以外の場合は何もせず(b)に戻り、
    (d)前記文侯補テーブルに処理していない侯補文がなくなったら一つ前の文節にポインタを移して(b)に戻り、
    (e)処理できる文節がなくなるまで(b)〜(d)を繰り返す、
    ことにより前記要約文の候補を生成する
    ことを特徴とする請求項3に記載のテキスト要約装置。
  5. 複数の文から構成される入力文書の要約を生成するテキスト要約方法であって、
    入力部が、生成すべき要約の制限長を受け付けるステップと、
    文選択部が、前記複数の文から構成される入力文書の各文の内容と、前記各文の出現順序及び重要順位とを格納する重要文テーブルから、入力文書中の未選択文のうちで最も重要順位が高い文を選択するステップと、
    文短縮長決定部が、前記受け付けた制限長と、前記入力文書中の文を短縮した短縮文と、当該短縮文の出現順序とを格納する短縮文書テーブル中の短縮文から構成される短縮文書の長さとから、前記選択された文に対する文短縮長を動的に決定するステップと、
    文短縮部が、前記決定された文短縮長に従って前記選択された文を短縮するステップと、
    短縮文格納部が、前記短縮された短縮文と当該短縮文の出現順序とを前記短縮文書テーブルに格納するステップと、
    出力部が、前記短縮文書テーブルに格納されている短縮文から構成される短縮文書の長さが前記受け付けた制限長に対して規定の割合に達するまで、前記文選択ステップから前記短縮文格納ステップまでを繰り返し行わせ、前記短縮文書テーブルに格納された短縮文から構成される短縮文書を前記入力文書の要約として出力するステップとを含む
    ことを特徴とするテキスト要約方法。
  6. 文短縮長決定部が、前記受け付けた制限長と、前記短縮文書テーブルに格納されている短縮文から構成される短縮文書の長さと、前記選択された文の出現順序と前記短縮文書テーブルに格納されている短縮文の出現順序とが連続しないときに文と文との間に挿入する文の脱落を表す記号の長さとから、前記選択された文に対する文短縮長を動的に決定するステップを含む
    ことを特徴とする請求項5に記載のテキスト要約方法。
  7. 文短縮ステップは、
    文侯補生成部が、前記文選択部で選択された形態素解析および係り受け解析済みの文(入力文)の依存構造に基づいて当該入力文を構成する文節を組み合わせて要約文の候補を生成し、文節情報取得部および文情報計算部へ出力するステップと、
    前記文節情報取得部が、コーパスに対する解析結果から得られる任意の単語の重要度を格納する単語重要度テーブルより得られる、前記要約文の候補を構成する文節に含まれる単語についての重要度に基づいて当該要約文の候補を構成する文節の重要度を計算するとともに当該文節の長さを計算し、当該文節の重要度を前記文情報計算部へ出力するとともに当該文節の長さを前記文侯補生成部へ出力するステップと、
    前記文情報計算部が、コーパスに対する解析結果から得られる任意の文節間の連接確率を格納する文節連接テーブルより得られる、前記要約文の候補を構成する文節のそれぞれが隣り合う連接確率と、前記文節情報取得部より得られる前記要約文の候補を構成する文節の重要度とに基づいて当該要約文の候補が生成される生成確率を計算し、前記文侯補生成部へ出力するステップと、
    前記文侯補生成部が、前記文節情報取得部より得られる前記要約文の候補を構成する文節の長さから当該要約文の候補の長さを求め、前記文情報計算部より得られる前記要約文の候補の生成確率とともに文候補テーブルに格納するステップと、
    制御部が、前記文候補テーブルから予め指定された長さの範囲で最も生成確率が高い要約文の候補を前記入力文の短縮文として出力するステップとを含む
    ことを特徴とする請求項5または6に記載のテキスト要約方法。
  8. 前記文候補テーブルには、要約文の候補の初期値として文節数0の文が格納され、
    前記文侯補生成ステップは、
    (a)前記入力文の文末の文節にポインタをセットし、
    (b)前記文侯補テーブルから処理する侯補文を取り出し、前記処理する侯補文(文節の系列)の先頭に前記ポインタがセットされた文節をつなげて新たな候補文を生成し、
    (c)前記新たな侯補文の長さが予め指定した制限を越えておらず、かつ前記ポインタがセットされた文節が依存構造のルートか、あるいは前記ポインタがセットされた文節が前記処理する侯補文のいずれかの文節に直接かかる場合は前記新たな候補文の生成確率を計算し、前記文侯補テーブルに前記新たな侯補文とその生成確率および長さを格納して(b)に戻り、それ以外の場合は何もせず(b)に戻り、
    (d)前記文侯補テーブルに処理していない侯補文がなくなったら一つ前の文節にポインタを移して(b)に戻り、
    (e)処理できる文節がなくなるまで(b)〜(d)を繰り返す、
    ことにより前記要約文の候補を生成する
    ことを特徴とする請求項7に記載のテキスト要約方法。
  9. コンピュータを、請求項1乃至4のいずれかに記載のテキスト要約装置の各手段として機能させるためのプログラム。
JP2009113462A 2009-05-08 2009-05-08 テキスト要約方法、その装置およびプログラム Active JP4931958B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009113462A JP4931958B2 (ja) 2009-05-08 2009-05-08 テキスト要約方法、その装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009113462A JP4931958B2 (ja) 2009-05-08 2009-05-08 テキスト要約方法、その装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2010262511A JP2010262511A (ja) 2010-11-18
JP4931958B2 true JP4931958B2 (ja) 2012-05-16

Family

ID=43360514

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009113462A Active JP4931958B2 (ja) 2009-05-08 2009-05-08 テキスト要約方法、その装置およびプログラム

Country Status (1)

Country Link
JP (1) JP4931958B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5810053B2 (ja) * 2012-08-27 2015-11-11 日本電信電話株式会社 要約生成装置及び方法及びプログラム
JP5810052B2 (ja) * 2012-08-27 2015-11-11 日本電信電話株式会社 要約生成装置及び方法及びプログラム
JP5921457B2 (ja) * 2013-02-05 2016-05-24 日本電信電話株式会社 文書要約方法、装置、及びプログラム
CN104216934B (zh) * 2013-09-29 2018-02-13 北大方正集团有限公司 一种知识抽取方法及系统
JP6021079B2 (ja) * 2014-03-07 2016-11-02 日本電信電話株式会社 文書要約装置、方法、及びプログラム
JP2017151863A (ja) * 2016-02-26 2017-08-31 国立大学法人東京工業大学 文書要約装置
JP6205466B1 (ja) * 2016-07-19 2017-09-27 ヤフー株式会社 生成装置、生成方法、及び生成プログラム
JP6870508B2 (ja) * 2017-07-07 2021-05-12 富士通株式会社 学習プログラム、学習方法及び学習装置
JP7142435B2 (ja) * 2017-12-29 2022-09-27 Airev株式会社 要約装置、要約方法、及び要約プログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11184865A (ja) * 1997-12-19 1999-07-09 Matsushita Electric Ind Co Ltd 文書要約装置
JP3832613B2 (ja) * 1998-09-24 2006-10-11 日本放送協会 自動要約装置および自動要約プログラムを記録した記録媒体
JP2001265792A (ja) * 2000-03-15 2001-09-28 Rikogaku Shinkokai 自動要約文生成装置、自動要約文生成方法及び自動要約文生成方法を記録した媒体
JP3790187B2 (ja) * 2002-05-22 2006-06-28 日本電信電話株式会社 テキスト要約方法、装置、およびテキスト要約プログラム
JP4856573B2 (ja) * 2007-03-16 2012-01-18 日本放送協会 要約文生成装置及び要約文生成プログラム

Also Published As

Publication number Publication date
JP2010262511A (ja) 2010-11-18

Similar Documents

Publication Publication Date Title
JP4931958B2 (ja) テキスト要約方法、その装置およびプログラム
EP2958105B1 (en) Method and apparatus for speech synthesis based on large corpus
JP5403696B2 (ja) 言語モデル生成装置、その方法及びそのプログラム
US9767193B2 (en) Generation apparatus and method
CN111247581A (zh) 一种多语言文本合成语音方法、装置、设备及存储介质
EP2418589A1 (en) Retrieval device
US20100281091A1 (en) Similar Text Search Method, Similar Text Search System, and Similar Text Search Program
US20170277679A1 (en) Information processing device, information processing method, and computer program product
Al-Gaphari et al. A method to convert Sana’ani accent to Modern Standard Arabic
JP6389795B2 (ja) 音声認識結果整形装置、方法及びプログラム
Yuret Fastsubs: An efficient and exact procedure for finding the most likely lexical substitutes based on an n-gram language model
US7328157B1 (en) Domain adaptation for TTS systems
KR20140132114A (ko) 수식 콘텐츠의 한글 독음 변환 시스템 및 방법
JP5058221B2 (ja) 文短縮装置、その方法およびプログラム
JP5111300B2 (ja) 文抽出および文短縮を組合せた文書要約方法、文書要約装置、文書要約プログラムおよびそのプログラムを記録した記録媒体
Sunitha et al. A phoneme based model for english to malayalam transliteration
JP6300601B2 (ja) 辞書装置、形態素解析装置、データ構造ならびに形態素解析の方法およびプログラム
JP6126965B2 (ja) 発話生成装置、方法、及びプログラム
CN112560466B (zh) 链接实体关联方法、装置、电子设备和存储介质
JP6619932B2 (ja) 形態素解析装置およびプログラム
JP2014225158A (ja) 文書要約装置、方法、及びプログラム
CN101371252A (zh) 字符处理装置、方法、程序以及存储介质
JP6300596B2 (ja) 辞書装置、形態素解析装置、データ構造ならびに形態素解析の方法およびプログラム
KR101543024B1 (ko) 발음 기반의 번역 방법 및 그 장치
KR101604553B1 (ko) 비교사 분할 및 병합에 의한 의사형태소 음성 인식 단위 생성 장치 및 방법

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20101215

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20110613

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110614

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110615

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110616

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120202

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120209

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120214

R150 Certificate of patent or registration of utility model

Ref document number: 4931958

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150224

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350