JP4931958B2

JP4931958B2 - テキスト要約方法、その装置およびプログラム

Info

Publication number: JP4931958B2
Application number: JP2009113462A
Authority: JP
Inventors: 隆明長谷川; 仁西川
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2009-05-08
Filing date: 2009-05-08
Publication date: 2012-05-16
Anticipated expiration: 2029-05-08
Also published as: JP2010262511A

Description

本発明は、複数の文から構成されるテキスト（入力文書）を要約する技術に関する。

従来のテキスト要約の代表的な技術としては、重要文抽出と文短縮があり、それぞれ単独で利用することもあれば、両者を併用することもある。

重要文抽出では、テキストを構成する複数の文のうち、何らかの方法により重要と判定された文を重要な順に、予め指定された要約率あるいは制限文字数に達するまで選択していくことで、テキスト要約を実現する。一方、文短縮では、テキストを構成する各文において、文中の不要な部分を削除していくことにより、テキストを構成する文自体の長さを短く（文字数を少なく）することで、テキスト要約を実現する。

具体的な文短縮方法としては、文を構成する単語の中から所定の単語（例えば、重要な単語）を選択し、それらを接合した候補の中から、単語重要度や単語ｂｉｇｒａｍを用いた評価関数の値が最も高くなる候補をその文の要約とする方法（非特許文献１参照）や、文の係り受け解析の結果である依存構造木に対し、ルート（根）から見て枝にある文節を刈り込むことにより係り受け関係を維持した要約を生成する方法であって、コーパスから係り受け関係の強さを学習することで強い係り受け関係の枝は残す方法（非特許文献２参照）が提案されている。

堀智織、古井貞煕「講演音声の自動要約の試み」、話し言葉の科学と工学ワークショップ講演予稿集、２００１、ｐｐ．１６５−１７１ Kiwamu Yamagata et al.,"Sentence Compression Using Statistical Information About Dependency Path Length", Proceedings of the 9th International Conference, TSD 2006 / Lecture Notes in Computer Science, pp.127-134

しかしながら、重要文抽出のみを用いる場合、文という比較的長い単位での取捨選択による要約となるため、予め指定された要約率や制限文字数いっぱいまでの長さの要約を作ることが難しいという問題があった。

一方、重要文抽出と文短縮を併用する場合、文短縮を行ってから重要文を抽出する方法では、予め統一して要約率や制限文字数を指定しても、個々の文を文短縮したときに短縮される要約率や制限文字数が必ずしも同じにはならず、予め指定された要約率や制限文字数いっぱいまでの長さの要約を作ることが難しいという問題があった。さらに多くの文を含めようとすると各文の要約率が低くなり、各原文の意味を保持するのが難しいという問題があった。なお、本出願では、要約率が低くなればなるほど原文から遠ざかり（短縮され）、要約率が高くなればなるほど原文に近づくものとする。

また、重要文を抽出してから文短縮を行う方法では、重要文を抽出する際に要約に含められる文の数に関わる要約率や制限文字数をどう指定するのか、そして各重要文に対する文短縮の要約率をどう指定するのかといった制御が困難であるという問題があった。

本発明の目的は、重要文抽出と文短縮を動的に組み合わせながら、予め指定した要約率や制限文字数いっぱいまでの長さの要約を作成することであり、特に携帯端末への要約の表示など、制限文字数に厳密な制約があるアプリケーションに対して、低い要約率や少ない制限文字数でも原文の内容を網羅しながら読み易く且つ分かり易い要約を作成することにある。

前記目的を達成するため、本発明では、複数の文から構成される入力文書の要約を生成するテキスト要約装置であって、生成すべき要約の制限長を受け付ける入力部と、前記複数の文から構成される入力文書の各文の内容と、前記各文の出現順序及び重要順位とを格納する重要文テーブルと、前記入力文書中の文を短縮した短縮文と、当該短縮文の出現順序とを格納する短縮文書テーブルと、前記重要文テーブルに格納された入力文書中の文を重要順位が高い順に選択する文選択部と、前記受け付けた制限長と、前記短縮文書テーブルに格納されている短縮文から構成される短縮文書の長さとから、前記選択された文に対する文短縮長を動的に決定する文短縮長決定部と、前記決定された文短縮長に従って前記選択された文を短縮する文短縮部と、前記短縮された短縮文と当該短縮文の出現順序とを前記短縮文書テーブルに格納する短縮文格納部と、前記短縮文書テーブルに格納されている短縮文から構成される短縮文書の長さが前記受け付けた制限長に対して規定の割合に達するまで、前記文選択部における文の選択から前記短縮文格納部における短縮文及び出現順序の格納までを繰り返し行わせ、前記短縮文書テーブルに格納された短縮文から構成される短縮文書を前記入力文書の要約として出力する出力部とを備えたことを特徴とする。

本発明によれば、テキストを要約する際、文の重要順位に従って要約に含める文を選択し短縮するが、既に選択した文の長さに応じて要約に含める文の短縮長を動的に決定することにより、携帯端末への表示などの用途において、予め決められた制限長にできるだけ近い長さの要約が生成できるという効果を有する。

本発明のテキスト要約装置の実施の形態の一例を示す構成図本発明のテキスト要約装置における処理の流れ図入力文書の一例を示す説明図短縮文書の一例を示す説明図入力文書の要約の一例を示す説明図文短縮部の具体的な構成の一例を示す構成図単語重要度テーブルの一例を示す説明図文節連接テーブルの一例を示す説明図入力文の依存構造を視覚的に表した説明図入力文の依存構造を表形式で表した説明図文候補テーブルの一例を示す説明図文侯補生成部における処理の流れ図文節連接テーブルの他の例を示す説明図生成確率が上位の候補を含む文候補テーブルの一例を示す説明図生成確率が上位の候補を含む文候補テーブルの他の例を示す説明図

次に、本発明の実施の形態について図面を参照して説明する。

図１は本発明のテキスト要約装置の実施の形態の一例を示すもので、本実施の形態のテキスト要約装置は、入力部１と、重要文テーブル２と、短縮文テーブル３と、文選択部４と、文短縮長決定部５と、文短縮部６と、短縮文格納部７と、出力部８とからなる。

入力部１は、図示しない入力装置から直接入力され又は記憶媒体から読み出されて入力され又は通信媒体を介して他の装置等から入力された入力文書とともに、同様にして入力された生成すべき要約の長さ（制限長）を受け付ける。なお、文（文書）の長さを表す単位としては文字数の外、特定のｃｏｄｉｎｇにおけるバイト数等を用いることができる。

ここで、入力文書は複数の文から構成され、それらの各文の内容に対応する情報（テキストデータ）とともに、各文の出現順序を表す情報及び予め付与された各文の重要度の順位（重要順位）を表す情報を含むものとする。

なお、入力文書の各文は周知の形態素解析済み、さらには係り受け解析済みであっても良く、その場合、入力文書は前記に加え、形態素（単語）毎の表記、読み、品詞、係り受け関係を表す情報等を含むものとなる。また、重要順位を表す情報としては、重要度の順位そのものではなく、重要度を表す何らかのスコア（例えば、重要度が高ければ高いほど値が大きくなるようなスコア）で表現されていても良く、スコアの高い順（あるいは低い順）で重要順位を表現するようにしても良い。また、入力文書が入力されればその長さは一義的に決まり、この長さと制限長より要約率が算出できるので、制限長を要約率に置き換えても良い。

重要文テーブル２は、入力部１で受け付けた入力文書を格納する。なお、重要文テーブル２に格納する入力文章の情報（各文の内容、出現順序、重要順位などの情報）は、入力部１から受け付ける代わりに、予め重要文テーブル２に格納されていても良い。短縮文書テーブル３は、入力文書中の文を短縮した１以上の短縮文とその文の出現順序を格納する。また、重要文テーブル２に格納されている入力文書の各文に付与されている重要順位などの情報も短縮文と対応付けて格納しても良い。

文選択部４は、重要文テーブル２に格納された入力文書中の文を重要順位が高い順に順次選択、即ち（ある時点でみれば）入力文書中から、それまでに選択されていない文（未選択文）のうちで最も重要順位の高い文を選択する。

文短縮長決定部５は、入力部１で受け付けた制限長と、短縮文書テーブル３に格納されている短縮文から構成される短縮文書の長さとから、文選択部４で選択された文に対する文短縮長を動的に決定する。例えば、制限長が７０バイト、短縮文書の長さが４０バイトの場合、文短縮長を両者の差である３０バイトに決定する。

ここで、後述するように、文選択部４で選択された文の出現順序と短縮文書テーブル３に格納されている短縮文書内の文の出現順序とが連続しないときに、それらの文と文との間に文の脱落を表す記号を挿入するような場合は、その長さの分だけ、さらに前記文短縮長から差し引くようにしても良い。なお、文短縮長の代わりに文短縮率を用いても良い。例えば、選択された文の長さが５０バイト、文短縮長が３０バイトの場合、文短縮率は６０％になる。

文短縮部６は、文短縮長決定部５で決定された文短縮長（または文短縮率）に従って文選択部４で選択された文を短縮する。なお、文短縮部６における具体的処理については後述する。この際、文短縮率が１００％以上であれば、文短縮を行わず、選択された文をそのままにしても良いし、文短縮を行って任意の文の長さに縮めても良い。

短縮文格納部７は、文短縮部６で短縮された短縮文を短縮文書テーブル３に追加格納するとともに、文選択部４で選択された文の入力文書中の出現順序を、当該短縮文の出現順序として短縮文とともに格納する。もしくは、文選択部４で選択された文の入力文書中の出現順序に基づき、短縮文書テーブル３に格納されている短縮文書の並び替え（短縮文書中の各短縮文の並び替え）を行ってから、短縮文書テーブル３に格納しても良い。並び替えの際に、原文（入力文書）における文の出現順序が連続しない場合には、文の脱落を表す記号、例えば「...」などを挿入しても良い。逆に、短縮文を格納することにより短縮文書の文の出現順序が連続した場合には、前述した記号「...」を削除しても良い。

出力部８は、短縮文書テーブル３に格納されている短縮文書の長さが入力部１で受け付けた制限長に対して予め設定された割合（規定の割合）に達するまで上記各部を制御し、文選択部４における文選択から短縮文格納部７における短縮文の並び替えまでを繰り返し行わせ、その結果を入力文書の要約として出力する。

図２に本装置全体の処理の流れを示す。

まず始めに、入力部１により、複数の文から構成され、各文の内容、出現順序及び重要順位を含む入力文書とともに、生成すべき要約の制限長を受け付け（ｓ１）、当該受け付けた入力文書を重要文テーブル２に格納する（ｓ２）。

次に、文選択部４により、重要文テーブル２に格納された入力文書中の未選択文のうちで最も重要順位が高い文を選択し（ｓ３）、文短縮長決定部５により、前記受け付けた制限長と、短縮文書テーブル３に格納されている短縮文書の長さとから、前記選択された文に対する文短縮長を決定し（ｓ４）、文短縮部６により、前記決定された文短縮長に従って前記選択された文を短縮する（ｓ５）。

次に、短縮文格納部７により、前記短縮された短縮文を短縮文書テーブル３に追加格納するとともに、重要文テーブル２に格納された入力文書の出現順序に基づき、短縮文書テーブル３に格納されている短縮文書の並び替えを行う（ｓ６）。

最後に、出力部８により、短縮文書テーブル３に格納されている短縮文書の長さが前記受け付けた制限長に対して規定の割合に達しているか否かを判定し、達していれば（ｓ７）、その時点で短縮文書テーブル３に格納されている短縮文を出現順序の順番に並び替えて構成される短縮文書を入力文書の要約として出力する（ｓ８）。なお、既に短縮文書テーブル３に格納されている短縮文が出現順序で並び替えられている場合には、そのまま短縮文書テーブル３に格納された短縮文から構成される短縮文書を入力文書の要約として出力する。また、短縮文書テーブル３に格納されている短縮文書の長さが前記受け付けた制限長に対して規定の割合に達していなければ、上記の（ｓ３）から（ｓ６）までのステップを繰り返す。

図３は入力文書の一例（フリー百科事典『ウィキペディア(Wikipedia)』http://ja.wikipedia.org/wiki/浅間山より一部抜粋）を示すもので、以下、当該入力文書が入力部１を介して重要文テーブル２に格納されている場合を例にとって本装置の動作を説明する。ここで、制限長は１００バイト、また、制限長に対する規定の割合は８０％と仮定する。

始めに、文選択部４により、入力文書中の未選択文のうちで最も重要順位が高い文、即ち重要順位が１位の文が選択される。次に、文短縮長決定部５により、文短縮長が決定されるが、この現時点で短縮文書テーブル３は空、つまり短縮文書テーブル３に格納されている短縮文書の長さは０なので、文短縮長は１００バイトに設定される。ここで、前記選択された重要順位１位の文の長さが３７バイトであるとすると、文短縮部６では文を短縮せず、短縮文格納部７により、そのままの文が短縮文書テーブル３に格納される。

この時点での短縮文書テーブル３中の短縮文書の長さは３７バイトであるので、出力部８により、制限長１００バイトに対し、規定の割合である８０％の８０バイトに達していないことが判定される。このため、文選択部４により、入力文書中の未選択文のうちで最も重要順位が高い文、ここでは重要順位が２位の文が選択される。

次に、文短縮長決定部５により、前記同様に文短縮長が決定されるが、この現時点で短縮文書テーブル３に格納されている短縮文書の長さは３７バイトであり、制限長１００バイトとの差は６３バイトである。重要順位２位の文は既に選択された重要順位１位の文と出現順序が連続しないため、文の脱落を示す記号「...」を挿入するための長さ３バイトを文短縮長から差し引かれ、文短縮長は６０バイトに決定される。

前記選択された重要順位２位の文の長さが８２バイトであるとすると、文短縮部６により、これを６０バイト以下に短縮する文短縮が実施され、短縮文格納部７により、短縮された文が短縮文書テーブル３に格納されるとともに、出現順序に従って文の並べ替えが行われ、出現順序が不連続な部分に文の脱落を示す記号「...」が挿入される。図４はこの時点における短縮文書の一例、即ち短縮文書テーブル３における格納内容を示すものである。

前記短縮された重要順位２位の文の長さが５５バイトであるとすると、この時点での短縮文書テーブル３中の短縮文書の長さは５５＋３＋３７＝９５バイトとなり、制限長１００バイトの規定の割合である８０％の８０バイトを越えるので、出力部８により、短縮文書テーブル３中に格納されている短縮文書が出力される。

図５に出力部８の出力結果の一例、即ち入力文書の要約の一例を示す。上記の例では、文と文との間の脱落を考慮しているが、これに加えて文書の先頭と末尾の脱落を考慮しても良い。

＜文短縮部における具体的処理＞
文短縮部６における処理としては、例えば非特許文献１、２に示されるような公知の手法により、文選択部４で選択された文から、その長さが文短縮長決定部５で決定された文短縮長以下となるような文を生成するものでも良い。

以下、文短縮部６における具体的処理の一例について説明するが、この処理を用いた場合には、非特許文献１、２等に示されるような公知の技術を用いた場合より、文全体を通して自然な読み易い短縮文を生成できるという効果がある。

図６は文短縮部６の具体的な構成の一例を示すもので、本例の文短縮部６は、単語重要度テーブル６１と、文節連接テーブル６２と、文節情報取得部６３と、文情報計算部６４と、文侯補生成部６５と、文侯補テーブル６６と、制御部６７とからなり、文選択部４で選択された文を入力文（形態素解析および係り受け解析済みの入力文）とし、文短縮長決定部５で決定された文短縮長以下の短縮文（要約文）を生成して出力する。

単語重要度テーブル６１は、所定のコーパス（文書の集合）に対し、周知の形態素解析を行い、その中で出現する単語について予め計算された重要度を格納している。単語の重要度を計算する方法については、ＴＦ＊ＩＤＦ等の周知の方法を用いることができるため、特に規定しない。図７は単語重要度テーブルの一例を示すもので、ここではコーパス中の各単語について、その表記、品詞（但し、内容語のみ）、当該コーパスにおける出現頻度、該出現頻度から求められた重要度（ＩＤＦ）が格納されている。

文節連接テーブル６２は、所定のコーパス（文書の集合）に対し、周知の形態素解析および係り受け解析を行い、その中で出現するある文節と別の文節との連鎖についての予め計算された確率（連接確率）を格納している。ある文節と別の文節とが連接する確率の計算方法については、ｎ−ｇｒａｍ言語モデルを作成するための周知の方法を使うことができるため、特に規定しない。

また、文節の表記の仕方については、その文節の内容語列の主辞または機能語列の主辞を単独または組み合わせて使っても良い。例えば、内容語列の主辞を単独で使う場合は、前の文節と後ろの文節における内容語列の主辞の表記のみ、前の文節と後ろの文節における内容語列の主辞の品詞のみ、あるいは前の文節と後ろの文節における内容語列の主辞の表記＋品詞という形式等で表現されても良い。内容語列の主辞と機能語列の主辞を組み合わせる場合は、前の文節における内容語列の主辞と後ろの文節における機能語列の主辞の連接および前の文節における機能語列の主辞と後ろの文節における内容語列の主辞の連接で表現できる。

図８は文節連接テーブルの一例を示すもので、ここではコーパス中の連鎖する文節について、その内容語列の主辞の品詞、連接確率が格納されている。なお、ここでは文頭記号＜ｓ＞や文末記号＜／ｓ＞との連接も含めるものとする。

文節情報取得部６３は、文侯補生成部６５で作成された、後述する要約文の候補（候補文）を構成する各文節について、その重要度を当該文節に含まれる各単語についての単語重要度テーブル６１より得られる重要度に基づいて計算するとともに、その長さを計算する。重要度を計算する単語は品詞によって制限を設けても良く、例えば名詞に限定しても良い。重要度の計算の一例としては、文節内の各単語の重要度の総和を計算する方法がある。文節の長さは、例えば文節内の表記の文字列の文字数や特定のｃｏｄｉｎｇにおけるバイト数としても良い。

文情報計算部６４は、文侯補生成部６５で作成された、後述する要約文の侯補（候補文）が生成される確率（生成確率）を計算する。文の生成確率については、文節連接テーブル６２より得られる前記要約文の候補を構成する文節のそれぞれが隣り合う連接確率と、文節情報取得部６３によって計算された前記要約文の候補を構成する各文節の重要度とに基づいて計算する。

図９および図１０は文選択部４で選択され、制御部６７に入力された入力文の一例、ここでは原文（テキストデータ）が「天気がとてもよかったこともあってお弁当を持って緑の多そうな公園にハイキングに行くことにした。」である場合の例を示すもので、図９は文節の依存構造を視覚的に、また、図１０は同じ依存構造を表形式で表している。図１０において、「＊」で始まる行が文節を表す。文節の情報には、文節番号、係り先（の文節番号）、内容語列の主辞（ヘッド）、機能語列の主辞（ヘッド）がある。主辞とは文節における代表単語を指す。以降の行には、その文節に含まれる各単語の情報を示している。例えば、先頭の文節「天気が」の情報［＊０２Ｄ０／１］は文節番号が０で文節番号２の文節「よかった」にかかることを意味する。文節の係り先が「−１Ｏ」となる文節は依存構造のルート（根）であることを示す。

文侯補生成部６５は、入力文の依存構造に基づいて当該入力文を構成する単数または複数の文節を組み合わせて前記入力文に対する要約文の侯補を生成するとともに、生成した要約文の侯補を文節情報取得部６３および文情報計算部６４へ出力し、文節情報取得部６３で計算される前記生成した要約文の侯補の各文節の長さの総和をとることによってその長さを求め、これと文情報計算部６４で計算される前記生成した要約文の侯補の生成確率とを、当該生成した要約文の候補とともに文侯補テーブル６６に格納する。

要約文の侯補を生成する処理の一例を挙げる。入力文の係り受け解析結果に基づいて入力文の依存構造に合致しない候補は排除する。ここでの依存構造は根（ルート）から枝分かれして１つ以上の葉（リーフ）が再帰的に枝分かれする構造を指す。例えば、入力文の依存構造の根（ルート）に相当する文節に注目すると、ルートの文節だけからなる要約文は、入力文の依存構造を保持するので侯補の一つとする。さらにルートの文節に加え、その他の文節を次々に組み合わせ、入力文の依存構造を保持するものだけを要約文の侯補とする。

また、文侯補生成部６５は、文短縮長決定部５で決定された文短縮長に従って要約文の侯補を生成しても良い。即ち、文節情報取得部６３を用いて求めた要約文の侯補の長さ、例えば前記要約文の候補を構成する全ての文節のバイト数の総和が文短縮長決定部５で決定された文短縮長を超えた場合は、その候補を除外することで要約文を生成する。

文侯補テーブル６６は、文侯補生成部６５で生成された要約文の候補をその生成確率および長さとともに格納する。図１１は文候補テーブルの一例を示すもので、ここでは生成確率は対数を取っている。

制御部６７は、前述した各部を制御し、文侯補テーブル６６から予め指定された長さの範囲で最も生成確率が高い要約文の候補を入力文の要約文（短縮文）として出力する。

図１２に文侯補生成部６５における処理の流れを示す。

まず始めに、文侯補テーブル６６を初期化する（ｓ１１）。初期化では文節数が０の文が存在すると考える。次に、入力文の文末の文節にポインタをセットする（ｓ１２）。文侯補テーブル６６に処理していない侯補文があれば（ｓ１３）、文侯補テーブル６６から処理する侯補文を取り出し、侯補文（文節の系列）の先頭にポインタの文節（ポインタがセットされた文節）をつなげて新たな候補文を生成する（ｓ１４）。この新たな侯補文の長さが文短縮長決定部５で決定された文短縮長を越えておらず（ｓ１５）、かつポインタの文節が依存構造のルートか、あるいはポインタの文節がｓ１４で取り出した処理対象の侯補文のいずれかの文節に直接かかる場合は（ｓ１６）新たな候補文の生成確率を計算し（ｓ１７）、文侯補テーブル６６に新たな侯補文とその生成確率および長さを格納して（ｓ１８）残りの候補文を処理する。また、それ以外の場合は何もせずに残りの候補文を処理する。文侯補テーブル６６に処理していない侯補文がなくなったら（ｓ１３）、一つ前の文節にポインタを移す（ｓ１９）。上記について、ポインタを文頭に向けてずらしていき、処理できる文節がなくなるまで繰り返す（ｓ２０）。

文情報計算部６４では、文節間の連接確率と文節の重要度とに基づいて文の生成確率を計算する。以下、生成確率を計算する処理の一例について説明する。

文節の重要度は式（１）のように文全体の重要度で各文節の重要度を正規化することにより、重要度の確率とみなしても良い。文節の重要度は文節を構成する単語の重要度を用いる。単語の重要度は文書頻度の逆数であるｉｄｆを用いる。名詞以外の品詞を有する単語には一定の非常に小さな重要度を与えても良い。重要度確率は対数を取ったものを用いても良い。

ここで、ｗ_kは文節Ｂ_iを構成する単語を表し、ｎは文節数を表す。また、Ｂ_jは全ての文節を表し、ｗ_lは全ての文節を構成する単語を表す。または、式（１）の代わりに以下の式（２）を用いても良い。

ここで、ｗ_iは文節を表し、imp(t_k)は単語ｔ_kの単語適合度を表す。

例えば図１０から「公園に」という文節は、品詞が「名詞」の「公園」という単語と、品詞が「格助詞：連用」の「に」という単語とからなる。名詞に該当する単語は図７に示した単語重要度テーブル６１中の重要度を用いるが、それ以外の単語は一定の値０．０１を与えるとすると、文節「公園に」の重要度は（４．９０＋０．０１）となり、同様に全ての文節の重要度を計算すれば、上記の式（１）より、文節「公園に」の重要度確率を求めることができる。

また、文節間の連接確率を求める処理の一例を以下に説明する。入力文の係り受け解析結果から、文節にはヘッドとなる内容語と機能語が得られるものとする。図１０では、最初の文節は「＊０２Ｄ０／１」となっているが、「０／１」の「０」が内容語のヘッドの位置を、「１」が機能語のヘッドの位置を表している。つまり、この場合、内容語のヘッドは「天気」であり、機能語のヘッドは「が」である。図８に示した文節間の連接確率は、別途用意したコーパスから各文節の内容語列の主辞の品詞ｂｉｇｒａｍを用いて言語モデルを学習したものである。連接確率の数値は対数をとったものである。同様にして機能語列の主辞からも品詞ｂｉｇｒａｍを用いて言語モデルを学習できる。これらの言語モデルから文節間の連接確率を得ることができる。

また、式（３）のようにこれらを組み合わせて、連接する文節に対して内容語列の主辞と機能語列の主辞との積を計算することにより文節間の連接確率を得ることもできる。

但し、Ｐ_{adj cont}は内容語列の主辞の連接確率で、Ｐ_{adj func}は機能語列の主辞の連接確率を表す。あるいは、図１３に示すように内容語列の主辞と機能語列の主辞との連接確率を用いても良い。

あるいは、内容語と機能語のヘッドの情報をそれぞれを交互に並べることにより、文節連接確率を計算することもできる。用いる情報としては、品詞のみを使っても良いし、表記と品詞を使っても良い。図１３に示すように内容語列の主辞と機能語列の主辞との連接確率を用いても良い。この場合は、以下の式（４）により文節間の連接確率を得ることもできる。

但し、Ｐ_adjは主辞の連接確率で、ｆ_iはｗ_iの主辞の情報を表す。

前後の文節が依存関係にある場合の連接確率については、例えば確率Ｐ_adjを１にしたり平方根を取るなどして、依存関係にあることを考慮した数値にしても良い。

文節の重要度確率と文節の連接確率が求まれば、文の生成確率は式（５）で求めることができる。

または、以下の式（６）により文の生成確率を算出しても良い。式（２）、（４）、（６）を用いた場合は、より精度の良い要約文、即ち文全体を通して自然な読み易い要約文を生成することができる。

ここで、Ｗは原文Ｘより短縮された文、Ｇ（Ｘ）は原文Ｘから得られる係り受け構造の部分木の集合、ｎｏｄｅ（Ｗ）はＷの文節数、Ｗ_iはｉ番目の文節、αは重みパラメータ（任意の実数：デフォルトは１）とする。また、ｌｏｇの底は１０とする。

入力文「天気がとてもよかったこともあってお弁当を持って緑の多そうな公園にハイキングに行くことにした。」において、図９に示した依存構造を入力とする場合について説明する。要約文の候補には始めに文頭記号と文末記号からなる＜ｓ＞＜／ｓ＞（文節数０の文）を保持しておく。

文候補生成部６５では、ポインタを末尾に設定し、末尾の文末から検査することにより依存構造のルート文節である「した。」を得る。ルート文節は要約文の侯補にするので、要約文の侯補に追加し、「＜ｓ＞した。＜／ｓ＞」の生成確率を計算する。図１１はポインタを文末の１番目から８番目までずらした文侯補テーブルの例であり、この際、図１１の１行目に示す文節数と生成確率と長さが文候補テーブル６６に格納される。但し、図１１では文頭記号と文末記号の記載を省略している。

次にポインタを１つ前にずらし、文節「ことに」を文侯補テーブル６６にある「＜ｓ＞した。＜／ｓ＞」と「＜ｓ＞＜／ｓ＞」の侯補文の前につなげる。このとき、「ことに」は「した。」にかかるので、「＜ｓ＞ことにした。＜／ｓ＞」を要約文に採用する。図１１の２行目に示すように文節数と生成確率と長さを格納する。「ことに」の直接の係り先が「した。」以外には存在しないので、「＜ｓ＞ことに＜／ｓ＞」は採用しない。

以降同様に、「＜ｓ＞行くことにした。＜／ｓ＞」は採用するが、「＜ｓ＞行くことに＜／ｓ＞」や「＜ｓ＞行く＜／ｓ＞」や「行くした。＜／ｓ＞」は採用しない。

以降同様に計算し、制限文字数を越えないという条件のもとで、ポインタを文頭までずらしていき、文頭文節までの組み合わせを計算する。

文節数が大きくなるにつれて計算量が増えるので、全ての組み合わせを計算するのではなく、ポインタのある位置での生成確率の高い上位Ｎ個の侯補文だけを保持して、次にポインタをずらすときはそれらを含む候補文だけに絞るために、ビームサーチのような周知の方法を取って計算量を減らしても良い。

この例の入力文はＥＵＣエンコーディングにおいて９２バイトで、制限文字数は要約率を６０％としたときに５５．２バイトである。候補となる要約文を生成する過程で５５．２バイトを越える要約文は除外され、ポインタをずらした際にも除外した要約文の侯補はもはや考慮せず、これらの侯補に新たに文節を加えた要約文は生成されない。

図１４はこのときの最終的な文侯補テーブルの生成確率が上位の侯補文を示している。図１５は文節連接確率を用いないで文節重要度のみで生成確率を計算した場合の例である。これらを比較すると、図１４は上位５件が全て自然な文であるのに対して、図１５は上位５件のうちの２つが不自然な文になっている。このことから、本文短縮部では文を短縮する際に読み易い文を生成できるということが言える。

なお、要約率が１００％以上の場合、つまり入力文の長さが文短縮長決定部５で決定された文短縮長以下の場合には、入力文（文選択部４で選択した文）をそのまま出力しても良いし、入力文も含めて最も高い確率で生成される文を出力しても良い。

また、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、図１、図６の構成図に示された機能を実現するプログラムあるいは図２、図８のフローチャートに示された手順を備えるプログラムをインストールすることによっても実現可能である。

１：入力部、２：重要文テーブル、３：短縮文テーブル、４：文選択部、５：文短縮長決定部、６：文短縮部、７：短縮文格納部、８：出力部、６１：単語重要度テーブル、６２：文節連接テーブル、６３：文節情報取得部、６４：文情報計算部、６５：文侯補生成部、６６：文侯補テーブル、６７：制御部６７。

Claims

複数の文から構成される入力文書の要約を生成するテキスト要約装置であって、
生成すべき要約の制限長を受け付ける入力部と、
前記複数の文から構成される入力文書の各文の内容と、前記各文の出現順序及び重要順位とを格納する重要文テーブルと、
前記入力文書中の文を短縮した短縮文と、当該短縮文の出現順序とを格納する短縮文書テーブルと、
前記重要文テーブルに格納された入力文書中の文を重要順位が高い順に選択する文選択部と、
前記受け付けた制限長と、前記短縮文書テーブルに格納されている短縮文から構成される短縮文書の長さとから、前記選択された文に対する文短縮長を動的に決定する文短縮長決定部と、
前記決定された文短縮長に従って前記選択された文を短縮する文短縮部と、
前記短縮された短縮文と当該短縮文の出現順序とを前記短縮文書テーブルに格納する短縮文格納部と、
前記短縮文書テーブルに格納されている短縮文から構成される短縮文書の長さが前記受け付けた制限長に対して規定の割合に達するまで、前記文選択部における文の選択から前記短縮文格納部における短縮文及び出現順序の格納までを繰り返し行わせ、前記短縮文書テーブルに格納された短縮文から構成される短縮文書を前記入力文書の要約として出力する出力部とを備えた
ことを特徴とするテキスト要約装置。
前記受け付けた制限長と、前記短縮文書テーブルに格納されている短縮文から構成される短縮文書の長さと、前記選択された文の出現順序と前記短縮文書テーブルに格納されている短縮文の出現順序とが連続しないときに文と文との間に挿入する文の脱落を表す記号の長さとから、前記選択された文に対する文短縮長を動的に決定する文短縮長決定部を備えた
ことを特徴とする請求項１に記載のテキスト要約装置。
前記文短縮部は、
コーパスに対する解析結果から得られる任意の単語の重要度を格納する単語重要度テーブルと、
コーパスに対する解析結果から得られる任意の文節間の連接確率を格納する文節連接テーブルと、
前記単語重要度テーブルより得られる、文を構成する文節に含まれる単語についての重要度に基づいて当該文節の重要度を計算するとともに、当該文節の長さを計算する文節情報取得部と、
前記文節連接テーブルより得られる、文を構成する文節のそれぞれが隣り合う連接確率と、前記文節情報取得部より得られる前記文を構成する文節の重要度とに基づいて当該文が生成される生成確率を計算する文情報計算部と、
前記文選択部で選択された文は形態素解析および係り受け解析済みの文（入力文）であり、当該入力文の依存構造に基づいて当該入力文を構成する文節を組み合わせて要約文の候補を生成するとともに、前記各要約文の候補の長さを前記文節情報取得部を用いて求め、さらに前記各要約文の候補の生成確率を前記文節情報取得部および前記文情報計算部を用いて求める文侯補生成部と、
前記文侯補生成部で生成された要約文の候補をその生成確率および長さとともに格納する文候補テーブルと、
前述した各部を制御し、前記文候補テーブルから予め指定された長さの範囲で最も生成確率が高い要約文の候補を前記入力文の短縮文として出力する制御部とからなる
ことを特徴とする請求項１または２に記載のテキスト要約装置。
前記文候補テーブルには、要約文の候補の初期値として文節数０の文が格納され、
前記文侯補生成部は、
（ａ）前記入力文の文末の文節にポインタをセットし、
（ｂ）前記文侯補テーブルから処理する侯補文を取り出し、前記処理する侯補文（文節の系列）の先頭に前記ポインタがセットされた文節をつなげて新たな候補文を生成し、
（ｃ）前記新たな侯補文の長さが予め指定した制限を越えておらず、かつ前記ポインタがセットされた文節が依存構造のルートか、あるいは前記ポインタがセットされた文節が前記処理する侯補文のいずれかの文節に直接かかる場合は前記新たな候補文の生成確率を計算し、前記文侯補テーブルに前記新たな侯補文とその生成確率および長さを格納して（ｂ）に戻り、それ以外の場合は何もせず（ｂ）に戻り、
（ｄ）前記文侯補テーブルに処理していない侯補文がなくなったら一つ前の文節にポインタを移して（ｂ）に戻り、
（ｅ）処理できる文節がなくなるまで（ｂ）〜（ｄ）を繰り返す、
ことにより前記要約文の候補を生成する
ことを特徴とする請求項３に記載のテキスト要約装置。
複数の文から構成される入力文書の要約を生成するテキスト要約方法であって、
入力部が、生成すべき要約の制限長を受け付けるステップと、
文選択部が、前記複数の文から構成される入力文書の各文の内容と、前記各文の出現順序及び重要順位とを格納する重要文テーブルから、入力文書中の未選択文のうちで最も重要順位が高い文を選択するステップと、
文短縮長決定部が、前記受け付けた制限長と、前記入力文書中の文を短縮した短縮文と、当該短縮文の出現順序とを格納する短縮文書テーブル中の短縮文から構成される短縮文書の長さとから、前記選択された文に対する文短縮長を動的に決定するステップと、
文短縮部が、前記決定された文短縮長に従って前記選択された文を短縮するステップと、
短縮文格納部が、前記短縮された短縮文と当該短縮文の出現順序とを前記短縮文書テーブルに格納するステップと、
出力部が、前記短縮文書テーブルに格納されている短縮文から構成される短縮文書の長さが前記受け付けた制限長に対して規定の割合に達するまで、前記文選択ステップから前記短縮文格納ステップまでを繰り返し行わせ、前記短縮文書テーブルに格納された短縮文から構成される短縮文書を前記入力文書の要約として出力するステップとを含む
ことを特徴とするテキスト要約方法。
文短縮長決定部が、前記受け付けた制限長と、前記短縮文書テーブルに格納されている短縮文から構成される短縮文書の長さと、前記選択された文の出現順序と前記短縮文書テーブルに格納されている短縮文の出現順序とが連続しないときに文と文との間に挿入する文の脱落を表す記号の長さとから、前記選択された文に対する文短縮長を動的に決定するステップを含む
ことを特徴とする請求項５に記載のテキスト要約方法。
文短縮ステップは、
文侯補生成部が、前記文選択部で選択された形態素解析および係り受け解析済みの文（入力文）の依存構造に基づいて当該入力文を構成する文節を組み合わせて要約文の候補を生成し、文節情報取得部および文情報計算部へ出力するステップと、
前記文節情報取得部が、コーパスに対する解析結果から得られる任意の単語の重要度を格納する単語重要度テーブルより得られる、前記要約文の候補を構成する文節に含まれる単語についての重要度に基づいて当該要約文の候補を構成する文節の重要度を計算するとともに当該文節の長さを計算し、当該文節の重要度を前記文情報計算部へ出力するとともに当該文節の長さを前記文侯補生成部へ出力するステップと、
前記文情報計算部が、コーパスに対する解析結果から得られる任意の文節間の連接確率を格納する文節連接テーブルより得られる、前記要約文の候補を構成する文節のそれぞれが隣り合う連接確率と、前記文節情報取得部より得られる前記要約文の候補を構成する文節の重要度とに基づいて当該要約文の候補が生成される生成確率を計算し、前記文侯補生成部へ出力するステップと、
前記文侯補生成部が、前記文節情報取得部より得られる前記要約文の候補を構成する文節の長さから当該要約文の候補の長さを求め、前記文情報計算部より得られる前記要約文の候補の生成確率とともに文候補テーブルに格納するステップと、
制御部が、前記文候補テーブルから予め指定された長さの範囲で最も生成確率が高い要約文の候補を前記入力文の短縮文として出力するステップとを含む
ことを特徴とする請求項５または６に記載のテキスト要約方法。
前記文候補テーブルには、要約文の候補の初期値として文節数０の文が格納され、
前記文侯補生成ステップは、
（ａ）前記入力文の文末の文節にポインタをセットし、
（ｂ）前記文侯補テーブルから処理する侯補文を取り出し、前記処理する侯補文（文節の系列）の先頭に前記ポインタがセットされた文節をつなげて新たな候補文を生成し、
（ｃ）前記新たな侯補文の長さが予め指定した制限を越えておらず、かつ前記ポインタがセットされた文節が依存構造のルートか、あるいは前記ポインタがセットされた文節が前記処理する侯補文のいずれかの文節に直接かかる場合は前記新たな候補文の生成確率を計算し、前記文侯補テーブルに前記新たな侯補文とその生成確率および長さを格納して（ｂ）に戻り、それ以外の場合は何もせず（ｂ）に戻り、
（ｄ）前記文侯補テーブルに処理していない侯補文がなくなったら一つ前の文節にポインタを移して（ｂ）に戻り、
（ｅ）処理できる文節がなくなるまで（ｂ）〜（ｄ）を繰り返す、
ことにより前記要約文の候補を生成する
ことを特徴とする請求項７に記載のテキスト要約方法。
コンピュータを、請求項１乃至４のいずれかに記載のテキスト要約装置の各手段として機能させるためのプログラム。