JP5235918B2

JP5235918B2 - テキスト要約装置、テキスト要約方法及びテキスト要約プログラム

Info

Publication number: JP5235918B2
Application number: JP2010010906A
Authority: JP
Inventors: 仁西川; 隆明長谷川
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2010-01-21
Filing date: 2010-01-21
Publication date: 2013-07-10
Anticipated expiration: 2030-01-21
Also published as: JP2011150515A

Description

本発明は、テキスト（文書）を要約する技術に関する。

近年、電子化されたテキストが大量に流通するようになった。そのため、それらのテキストに記述されている情報を迅速に把握するため、機械にテキストを要約させる技術が求められている。

現在、テキストを機械に要約させる際には、要約の対象となるテキストの内容を代表していると思われる文（以下、「重要文」という）をテキストから１つ以上選び出し、それらを並び替え連結することによって要約が作られることが多い。

重要文を選択する際には、何らかの方法によって、文が持つ情報にスコア（以下、「内容性スコア」という）を定義し、そのスコアに従って文を選択することがよく行われる。非特許文献１は、内容性スコアを定義する要素として文を構成する単語を用いている。

重要文を抽出したのち、それらを並び替えることによって、要約の読みやすさを向上させることができると考えられている。単一の文書を要約する際ならば、要約の対象となるテキストと同じ順序に選択した文を並べればよいが、複数の文書を要約する場合には文を適切に並び替える手段が必要となる。

重要文の抽出元のテキストが書かれた時間に従って文を並び替える従来技術として、非特許文献２が知られている。また、大規模なテキスト集合から文の並べ方を事前に学習しておき、学習の結果に従って並び替える従来技術として、非特許文献３が知られている。

Elena Filatova and Vasileios Hatzivassiloglou, "A formal model for information selection in multi-sentence text extraction", In Proceedings of the 20th International Conference on Computational Linguistics (COLING), Association for Computational Linguistics, 2004. Regina Barzilay, Noemie Elhadad and Kathleen R. McKeown, "Inferring Strategies for Sentence Ordering in Multidocument News Summarization", In Journal of Artificial Intelligence Research (JAIR), AI Access Foundation , 2002, Vol.17, Issue 1, pp.35-55. Mirella Lapata, "Probabilistic Text Structuring: Experiments with Sentence Ordering", In Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics (ACL), Association for Computational Linguistics, 2003, pp.545 - 552.

しかし、重要文を選択してからそれらを並べ替える方法では、どのように重要文を並び替えても読みやすい要約ができない場合があり得る。例えば、非特許文献１に記載の方法で重要文を選択し、その後非特許文献３に記載の方法で重要文を並び替えて要約を生成することを考える。そのような場合、そもそも重要文を選択する段階において、どのように並び替えても読みやすい要約とならないような重要文の組合せが選択されている可能性がある。結果として、選ばれた重要文の内容そのものは要約としてふさわしいかもしれないが、全体としては非常に読みづらい要約が生成されるという問題がある。

上記の課題を解決するために、本発明に係るテキスト要約技術は、２つの素性要素の順序を考慮した組合せである素性に対する重みパラメタと、文を構成する文要素に対する文要素スコアを記憶しておき、入力されるテキストから素性要素を抽出し、各文に含まれる文要素に対する文要素スコアを用いて、各文の内容性スコアを求め、素性要素抽出部で抽出した素性要素と重みパラメタを用いて、文の連接スコアを求め、内容性スコアと連接スコアの和が、最大値となる、または、最大値の近似値となる文の並びを探索して、入力されるテキストを要約する。

本発明は、内容性スコアが高く、かつ読みやすい重要文の並びを探索することにより、読みやすい要約を作成することができる。

テキスト要約装置１００の構成例を示す図。テキスト要約装置１００の処理フロー例を示す図。形態素データの一例を示す図。素性ベクトルの生成方法を説明するための図。平均化パーセプトロンを用いた学習アルゴリズムの疑似コード例を示す図。図５のフローチャート例を示す図。重みパラメタのデータ例を示す図。最大値を求める際に用いるHeld and Karp Algorithmの疑似コード例を示す図。動的計画法及びビームサーチを説明するための図。重要文順列探索部の処理フロー例を示す図。テキスト要約装置１００のブロック図。重みパラメタ（条件付き確率）のデータ例を示す図。

以下、本発明の実施の形態について、詳細に説明する。

＜テキスト要約装置１００＞
テキスト要約装置１００は、入力された１つ以上の文から構成される１つ以上のテキストから少なくとも１つ以上の文を選択して、入力テキストに対応する要約を生成する。図１及び２を用いて実施例１に係るテキスト要約装置１００を説明する。テキスト要約装置１００は、記憶部１０３、素性要素抽出部１１３、内容性スコア計算部１１５、連接スコア計算部１１７、重要文順列探索部１１９を有する。テキスト入力部１３１、要約長決定部１３３やテキスト出力部１３５を備えてもよい。
＜記憶部１０３＞
記憶部１０３は、２つの素性要素の順序を考慮した組合せである素性に対する重みパラメタと、文を構成する文要素に対する文要素スコアを予め記憶しておく。各データの生成方法については、後述する。さらに、記憶部１０３は入出力される各データや演算過程の各データを、逐一、格納・読み出しする。それにより各演算処理が進められる。但し、必ずしも記憶部１０３に記憶しなければならないわけではなく、各部間で直接データを受け渡してもよい。
＜素性要素抽出部１１３＞
例えば、テキスト入力部１３１（例えば、記録媒体の入力インターフェースやＬＡＮアダプタ等）からデータが入力され、素性要素抽出部１１３は、入力されたテキストデータから素性要素を抽出する（ｓ１１３）。例えば、素性要素として、内容語（名詞、動詞、形容詞）を用いる場合には、形態素分析部１１３ａにおいて形態素解析を行い、テキストデータを形態素単位に分割し、内容語抽出部１１３ｂにおいて内容語を抽出する。図３は、形態素データの一例であり、各行がそれぞれ一形態素に対応し、形態素の表記、品詞、読み、標準形等の情報を有する。なお、＜ＥＯＳ＞は文境界を示す。
＜内容性スコア計算部１１５＞
内容性スコア計算部１１５は、各文に含まれる文要素に対する文要素スコアを用いて、各文の内容性スコアを求める（ｓ１１５）。例えば、文要素として、素性要素を用いる場合には（本実施例では素性要素は内容語）、素性要素抽出部１１３の出力を、入力とし、内容性スコア計算部１１５は、入力される内容語に基づき、記憶部１０３からその内容語に対する文要素スコアを取得し、文に含まれる全ての内容語に対する文要素スコアの和を求める。この和を内容性スコアとし、以下の式で表すことができる。但し、Ｃｏｎｔｅｎｔ(ｓ)は文ｓの内容性スコアを、Ｗｅｉｇｈｔ(ｐ)は文sが含む内容語ｐの文要素スコアを表す。

［文要素スコアの算出方法］
各内容語の文要素スコアは、予め記憶部１０３に記憶しておく。テキスト要約装置１００は、例えば、図示しない文要素スコア計算部を有し、文要素スコアを求める。文要素スコアとして、例えば要約の対象とするテキスト中において該単語が出現する回数などを用いることができる。

また例えば、文要素スコア計算部は、予め文要素スコア学習用のテキスト集合を用いて、テキスト集合に含まれる文要素から文要素スコアを求める。例えば、文要素スコア計算部は、予め文要素スコア学習用のテキスト集合を用いて、文要素を含む文の数を数え、その数ｃｎｔを記録したデータベースを用いて、文要素スコアを求める。

例えば、文要素スコア計算部は、学習用テキスト集合内に、多い文要素ほど重要である場合には、その数ｃｎｔが大きいほど文要素スコアが大きくなるように文要素スコアを算出する。この場合、文要素スコアはその数ｃｎｔ自体や、ｃｎｔの対数等である。また、学習用テキスト集合内に、多い文要素ほど重要でない場合には、その数ｃｎｔが大きいほど文要素スコアが小さくなるように文要素スコアを算出する。この場合、文要素スコアはテキスト集合に含まれるテキストの数をその数ｃｎｔで割った値や割った値の対数等である。このような構成とすることによって、要約対象の文の集合に対して適切な内容性スコアを算出することができる。

もちろん、文要素として評価情報等の情報抽出の結果を用いることもできる。その場合、上述した内容語の代わりに「画質がよい」「料理がおいしい」などといった何らかの対象を評価している文言に対して文要素スコアを与え、それらに基づいて文に内容性スコアを与えることができる。
＜連接スコア計算部１１７＞
連接スコア計算部１１７は、素性要素抽出部で抽出した素性要素と重みパラメタｗを用いて、２つの文の連接スコアを求める（ｓ１１７）。２つの文の連接スコアは、その２つの文の繋がりの良さを示す値である。

例えば、「昨日ご飯を食べました」という文と「しかしあまりおいしくありませんでした」という文があったとする。この２つの文は「昨日ご飯を食べました」「しかしあまりおいしくありませんでした」という並びで現れるならば自然であるが、「しかしあまりおいしくありませんでした」「昨日ご飯を食べました」という並びで現れると非常に不自然である。これは「しかしあまりおいしくありませんでした」という文が、暗黙のうちに前の文で食事に関する話題が出現していることを前提にしているからである。

同様に、複数の文を繋ぎ合せて要約を生成する場合、文を適切に並び替えることができなければ、生成された要約は非常に読みづらく不自然なものになる場合がある。

仮に、文の繋がりの良さにスコアを与えることができ、「しかしあまりおいしくありませんでした」「昨日ご飯を食べました」という文の並びよりも、「昨日ご飯を食べました」「しかしあまりおいしくありませんでした」という並びの方に高いスコアを与えることができれば、スコアに従って文を並び替えることができる。つまり、仮に２つの文ｓｉとｓｊを与えられたときには、ｓｉ、ｓｊの順序と、ｓｊ、ｓｉの順序それぞれのスコアを計算し、スコアが高い順序を採用する。

そこで、まず、連接スコアを定義する。本実施例では一例として、文ｓｉの次に文ｓｊが現れる場合の連接スコアを以下の関数Ｃｏｎｎｅｃｔ(ｓｊ|ｓｉ)で定義する。

Connect(sj|si)=w^Tφ(si,sj) （2）
ここで、ｗは上述した重みパラメタであり、φ(ｓｉ,ｓｊ)は文ｓｉと文ｓｊの繋がりを表すバイナリベクトル（以下「素性ベクトル」という）であり、Ｔは転置を表す。ｗ^Ｔφ(ｓｉ,ｓｊ)はｗ^Ｔとφ（ｓｉ，ｓｊ）の内積である。重みパラメタｗは、一例として後述する方法によって事前に計算され、記憶部１０３に格納され、要約を行う際には記憶部１０３から呼び出される。

連接スコア計算部１１７は、例えば、素性ベクトル生成部１１７ａと計算部１１７ｂを備える。
（素性ベクトル生成部１１７ａ）
素性ベクトル生成部１１７ａは、２つの文ｓｉ、ｓｊが含む素性要素の直積集合の各要素を該２つの文の素性とし、求めた素性に対応する次元を１とし、他の次元を０とする素性ベクトルφ（ｓｉ，ｓｊ）を生成する。

２つの文の繋がりを表わす素性ベクトルは、一例として、２つの文が含む内容語（名詞、動詞、形容詞）の直積集合として与えられる。図４を用いて説明する。文ｓｉが「昨日ご飯を食べました」という文、文ｓｊが「しかしあまりおいしくありませんでした」という文であったとする。文ｓｉには「昨日」「ご飯」「食べ」という内容語が含まれ、文ｓｊには「おいし」「あ」という内容語が含まれる。これらの直積集合は図４に示すように「昨日」「おいし」、「昨日」「あ」、「ご飯」「おいし」、「ご飯」「あ」、「食べ」「おいし」「食べ」「あ」の6つの単語の組となる。素性ベクトルφ（ｓｉ，ｓｊ）はこれらの６種類の素性に対応する次元が１となっているバイナリベクトルである。素性ベクトルの次元は、素性の刈り込みを行わなければ、学習の際に用いるテキスト集合中に現れる素性の数と同数となる。そのため実際には遥かに高次元なベクトルとなるが、図４では簡単のため図に示した６種類の素性に対応する６次元のベクトルとしている。素性としては上に示したもの他にも、一例として、単語間の係り受けや固有表現などを用いることもできる。なお、素性の刈り込みとは、重みパラメタを算出する際に、文の繋がりの良さを示すパラメタとして、あまり重要でないと思われる素性については、削除し、素性の数を減らす処理のことである。
（計算部１１７ｂ）
計算部１１７ｂは、重みパラメタｗと素性ベクトルφ（ｓｉ，ｓｊ）の内積を、２つの文の連接スコアＣｏｎｎｅｃｔ（ｓｊ｜ｓｉ）として求める。つまり、重みパラメタと素性ベクトルを用いて、式（２）の計算を行う。
（３つ以上の文の連接スコアの算出部）
連接スコア計算部１１７は、２つの文の連接スコアＣｏｎｎｅｃｔ（ｓｊ｜ｓｉ）を用いて、３つ以上の文の並びの連接スコアｗ^ＴΦ（ｘ，ｙ）を求める（ｓ１１７）。この場合、連接スコアとは、３つ以上の文の集合の全体的な繋がりの良さを表す。ｘは与えられた文の集合を表し、ｙは文の並びを現す。

例えば文ｓ１、ｓ２、ｓ３が与えられたとき、これらには６通りの並べ方がある。この６通りの並べ方のうち、最も文の並びの連接スコアが高い並びを、与えられた３つの文の並びとする。そのためには３つ以上の文の並びの連接スコアを計算する必要があるが、ここでは、３つ以上の文の並びを２つの文の並びに分解し、分解された２つの文の連接スコアの和を３つ以上の文の並びの連接スコアとする。３つ以上の文の並びの連接スコアｗ^ＴΦ（ｘ，ｙ）を以下のように定義する。

ｙは文の並びを表わすもので、この例では、与えられた文の集合ｘ=｛ｓ１，ｓ２，ｓ３｝がｓ２、ｓ３、ｓ１の順に並べられていることを表す。加えて、ｓ０とｓ４はそれぞれ文書の頭と末尾を表わすもので、即ち文ｓ２が３つの文の先頭に、文ｓ１が３つの文の末尾にあることを示している。ｓ０とｓ４を導入することで、文書の先頭になりやすい文や、末尾になりやすい文を考慮することが可能になる。
［重みパラメタの算出方法］
重みパラメタｗの算出方法について説明する。ここで、人間によって書かれたテキストの文の並びを正解として、その文の並びを再現することができる重みパラメタｗがよいパラメタであるという仮定を置く。つまり、文の集合が与えられたとき、それらを読みやすく並べることができるパラメタｗは、人手で書かれたあるテキストに含まれる文の集合が与えられたとき、それを元の並びに復元できる、あるいは元の並びに近い並びに並べることができるという仮定を置く。この仮定の下、人手によって書かれたテキスト集合から、パラメタｗを推定する。重みパラメタｗは、一例としてテキスト集合から図５及び図６に示すアルゴリズムで計算することができる（参考文献１参照）。
［参考文献１］Michael Collins, “Discriminative Training Methods for Hidden Markov Models: Theory and Experiments with Perceptron Algorithms”, In Proceedings of the 2002 Conference on Empirical Methods on Natural Language Processing （EMNLP）, Association for Computational Linguistics, 2002, Volume 10, pp.1 - 8
テキスト要約装置１００は、例えば図示しない重みパラメタ算出部を有し、重みパラメタを求める。重みパラメタ算出部は、Ｑ個のｘ_ｑ（文の集合）と各文の集合に対する正しい文の並びｙ_ｑの組からなる訓練データτを入力され、図５に示すアルゴリズムは重みパラメタｗを学習する。但し、ｑ＝１，２，…，Ｑである。具体的には、Ｑ個の訓練事例を一つずつ取り上げ、現在のｗを用いてｘ_ｑ内の文を並べる（図５の４行目）。現在の重みパラメタｗを用いて得られる、可能な文の並びのうち連接スコアｗ^ＴΦ（ｘ，ｙ）が最大の文の並びｙ’を求める（図５の４行目のａｒｇｍａｘ操作）。ａｒｇｍａｘ操作の詳細については後述する。ｙ_ｑ≠ｙ’の場合（つまり、連接スコアｗ^ＴΦ（ｘ，ｙ）が最大の文の並びと正しい文の並びが異なる場合）、現在の重みパラメタｗでは、正しい並びを再現することができなかったことになる。その時は重みパラメタｗを更新し、正しく文を並び替えることができるようにする（図５の５行目）。現在のパラメタｗで正しい並びを再現することができたのならば、重みパラメタは更新しない（図５の６行目）。

これをＱ個の訓練データに対し行い、さらに、それをＮ回繰り返すことによって重みパラメタｗを更新し、ある瞬間の重みパラメタｗの和ｖを、ｗを足した回数であるＮ×Ｑで割ることによって平均化し、これを最終的な重みパラメタｗとし（図５の９行目）、記憶部１０３に格納する。なお、Ｎは求めようとする重みパラメタｗの性質により異なり、重みパラメタｗの算出に先立ち、実験等により適宜求めることができる。また、訓練データτは、文書の頭と末尾、文境界が明示された任意のテキストである。もちろん、要約の対象とするテキストのジャンルと同一ジャンルのテキストのみからパラメタｗを学習するなどの工夫をしてもよい。一例として、推定された重みパラメタを図７に示す。図７に示された素性の列が図４に示した素性と対応しており、重みの列が該素性の重みパラメタである。図７によれば、文を並べる際に、「料理」という語を含む文の後には「野菜」、「油」、「友達」といった語を含む文を並べた方が正しい並びとなりやすい。一方、「料理」という語を含む文の後に「夜景」「優雅」という語を含む文を並べると誤りとなりやすい。
（ａｒｇｍａｘ操作）
ａｒｇｍａｘ操作は、文の集合ｘ_ｑに含まれる文を用いて可能な文の並びのうち連接スコアが最大となる文の並びｙ’を求める。これはいわゆる巡回セールスマン問題であり、厳密解を短時間で求めることが難しい。例えば、Ｑ！通りの文の並びから最も連接スコアの高い文の並びを求める必要があり、Ｑの値が大きくなるに従い、指数的に計算量も増大する。

そのため、一例として、動的計画法とビームサーチを用いて近似解を求め、ａｒｇｍａｘ操作を代替することができる。具体的には、一例として、動的計画法の一種であるHeld and Karp Algorithmを用いる（参考文献２参照）。Held and Karp Algorithmによる文の並びの近似解の探索を図８に示す。
［参考文献２］Michael Held and Richard M. Karp, “A dynamic programming approach to sequencing problems”, In Journal of the Society for Industrial and Applied Mathematics （SIAM）, 1962, Vol.10, No.1, pp.196-210
Ｓは並び替えの対象とする文の集合であり、うちｓ０を文書の頭を示すもの、ｓ（Ｑ+１）を文書の末尾を示すものとする。すなわち、ｓ０から出発し、ｓ１からｓＱまでの文を必ず一度通過し、ｓ（Ｑ+１）に到着する全ての経路のうち最もスコアが高い経路を探索する問題となる。ＭはＳに含まれる全ての文の間の連接スコアを格納した行列である。例えばＭ_ｋ,ｊは文ｓｋとｓｊの連接スコアを示し、即ちｗ^Ｔφ（ｓｋ,ｓｊ）に相当する。Ｈ_ｉ（Ｃ,ｓｋ）は、既にＣ⊆Ｓを通過し、ｉ時点で文ｓｋを追加した仮説および該仮説のスコアである。Ｈ^＊は最も文の並びの連接スコアの高い経路である。

Held and Karp Algorithmは、文を並べる際に、最後に選ばれた文と、順序は関係なくそれまでに選ばれた文が同じである仮説が複数ある場合、スコアが最も高い仮説を除く全ての仮説を破棄することによって効率的に探索を行うものである（図８の５行目）。例えば、図９の破線で表す文の並びｓ１、ｓ２、ｓ３とｓ２、ｓ１、ｓ３は最後がｓ３であり、それまでに選ばれた文も同様であるため、これら２つの仮説を両方とも展開する必要はない。例えば、ｓ２、ｓ１、ｓ３の連接スコアが高い場合には、この文の並びに係る仮説のみを展開し、ｓ１、ｓ２、ｓ３に係る仮説は破棄すればよい。

しかし、それでも依然探索空間は広大であるため、ｉ時点において連接スコアが高い上位ｂ件の仮説のみを、展開し、ｉ＋１時点の仮説とする（ビームサーチ、図８の４行目）。つまり、上位ｂ件以外の仮説を破棄する。例えば、図９の一点鎖線で表す文の並びｓ３、ｓ１、ｓ２がｉ＝３時点において、上位ｂ件以内でなければ、この仮説について、ｉ＝４以降において展開する必要はない。これにより探索空間を大幅に狭めることができる。これにより、さらに効率的に近似解を探索することができる。

例えば、Ｑ＝１００とし、ｂ＝２０としHeld and Karp Algorithmを用いない場合、ｉ＝１時点において、生成される１００個の仮説のうち、上位２０件の仮説のみを展開する。よって、上位２０件に対し、それぞれ９９件の仮説が展開される。その結果、生成される１９８０件の仮説のうち、また上位２０件の仮説のみを展開するだけでよい。ビームサーチを行わない場合には、１００件に対し、それぞれ９９件の仮説が展開される。その結果生成される９９００件の仮説に対し、それぞれ９８件の仮説を展開する。この処理をｉ＝Ｑ時点まで繰り返すため、ビームサーチを用いる場合に比べ演算量が膨大となる。

なお、ａｒｇｍａｘ操作は、重みパラメタｗを求める処理の中で行われ（図５の４行目）、その操作中に連接スコアＭを用いるが（図８参照）、この連接スコアはａｒｇｍａｘ操作呼出し時の（更新中の）重みパラメタを用いて、式（２）等を用いて求める。
＜重要文順列探索部１１９＞
重要文順列探索部１１９は、内容性スコアと連接スコアの和が、最大値となる、または、最大値の近似値となる文の並びを探索する（ｓ１１９）。

重要文順列探索部１１９は、内容性スコア計算部１１５で求めた内容性スコアと、連接スコア計算部１１７で求めた連接スコアを入力とする。要約長Ｋは、要約長決定部１３３で求め重要文順列探索部１１９の入力としてもよいし、要約作成者が所望の要約サイズをキーボード等から重要文順列探索部１１９に入力してもよい。また、要約長決定部１３３に予め所定の値として記憶しておいてもよい。要約の制限サイズＫは、例えば、選ぼうとしている文の数、文の長さ（バイト数）、文の含む単語数、文字数などから要約作成者等が適宜設定する。

重要文順列探索部１１９は、連接スコアと内容性スコアを元に、要約の対象とするテキストに含まれる文の並びを、要約の要約長Ｋ以内から探し出す。

Ｓ^＊は内容性スコアと連接スコアの和が最大値、または、最大値の近似値である文の並びとし、Ｕは要約の対象とするテキストから構成可能な文の並びの全て、ＳはＵに含まれる任意の並びの一つとする。文を選び出す際には単純に文を選ぶのではなく、内容性スコアと、連接スコアの２点を考慮し、最良の文の並びＳ^＊を、Ｕから選び出す。一例として、Ｓ^＊は以下のように定義できる。

λは内容性スコアと連接スコアのどちらを重視するか制御するパラメタである。（ｓｉ,ｓｊ）∈Ｓは、文の並びＳにおいて隣接する文ｓｉとｓｊのうち、ｓｉがｓｊの前に現れることを示している。ｌｅｎｇｔｈ（Ｓ）は文の並びＳの長さを示す。

最良の要約Ｓ^＊は、Ｓ^＊が含む全ての文sの内容性スコアＣｏｎｔｅｎｔ（ｓ）の合計ΣＣｏｎｔｅｎｔ（ｓ）と、それらの文のうち隣接する文間の連接スコアＣｏｎｎｅｃｔ（ｓｊ｜ｓｉ）の合計ΣＣｏｎｎｅｃｔ（ｓｊ｜ｓｉ）の和が最大のものである。なお、内容性スコアと連接スコアの和の最大値とは、ａｒｇｍａｘ［ΣＣｏｎｔｅｎｔ（ｓ）＋ΣＣｏｎｎｅｃｔ（ｓｊ｜ｓｉ）］だけでなく、λを用いて調整される値ａｒｇｍａｘ［ΣＣｏｎｔｅｎｔ（ｓ）＋λΣＣｏｎｎｅｃｔ（ｓｊ｜ｓｉ）］をも含む。

しかし、このようなＳ^＊を求める問題、即ち式（４）のａｒｇｍａｘ操作を行う問題も厳密解を短時間で求めることが難しい。これに対処するため、重みパラメタｗを学習する際と同様に、動的計画法とビームサーチを用いて探索を行い、近似解を求める。具体的には、図８のＨ_ｉ（Ｃ,ｓｋ）を連接スコアと内容性スコアの和を表わすものとし（ｗを学習する際には連接スコアのみを表わす）、この和の高い仮説のみを順次展開するようにする。一方、ｗを学習した際とは異なり、要約サイズの制限があるため、全ての文を並べる必要はない。そのため、図８に示したHeld and Karp Algorithmとビームサーチを用い探索を行いつつ、いかなる文を追加しても要約サイズを超える仮説は展開を停止し要約候補として別途保存しておく。そして、全ての仮説を展開し終わった後、保存された要約候補の中から最もスコアが高いものを選ぶことによって近似解を得ることができる。

以下、図１０を用いて重要文順列探索部１１９の処理例について説明する。時点ｉにおけるＨ（ｉ）個の文の並びの集合をＳ（ｉ）＝｛Ｓ（ｉ，１），Ｓ（ｉ，２），…，Ｓ（ｉ，Ｈ（ｉ））｝とする。要約元となるテキストにはＱ個の文が含まれ、その集合をＺ＝｛ｓ１，ｓ２，…，ｓＱ｝と表す。

まず、初期設定を行う（ｓ１１９ａ）。ｉ時点の文の並びのＳ（ｉ，ｈ）が文ｓｑを既に網羅しているか否か判定し（ｓ１１９ｂ）、網羅していない場合には、Ｓ（ｉ，ｈ）に文ｓｑを追加し、文の並びＳ（ｉ＋１，ｋ）を生成する（ｓ１１９ｃ）。Ｓ（ｉ＋１，ｋ）の大きさが要約サイズＫ以下か否かを判定し（ｓ１１９ｄ）、大きい場合には、文ｓｑ追加前の文の並びＳ（ｉ，ｈ）を保存する（ｓ１１９ｅ）。以降、この文の並びＳ（ｉ＋１，ｋ）に対する仮説の展開は行わない。例えば、図９において、一点鎖線で表される文の並びＳ３，Ｓ１に対し、Ｓ２を追加したときに、要約サイズＫを超える場合には、文の並びＳ３，Ｓ１を保存し、文の並びＳ３，Ｓ１，Ｓ２に対する仮説の展開は行わない。

この処理をｉ時点の文の並びＳ全てに対して行い（ｓ１１９ｇ、ｈ）、さらに、要約元となるテキストに含まれる全ての文に対して行う（ｓ１１９ｉ，ｊ）。

生成された文の並びの集合Ｓ（ｉ＋１）＝｛Ｓ（ｉ＋１，１），Ｓ（ｉ＋１，２），…，Ｓ（ｉ＋１，ｋ）｝に含まれる各文の並びの内容性スコアと連接スコアの和ｓｕｍを求める（ｓ１１９ｋ）。ｋ’＝１，２，…，ｋとし、各文の並びの内容性スコアをＣｏｎｔｅｎｔ（Ｓ（ｉ＋１，ｋ’））とし、連接スコアをＣｏｎｎｅｃｔ（Ｓ（ｉ＋１，ｋ’））とすると、

と表すことができる。全てのｋ’に対応するｓｕｍ（Ｓ（ｉ＋１，ｋ’））を求め、最後に追加した文が同一であって、かつ、既に網羅した文の集合が同一の文の並びが存在するか否か判定し、存在する場合には、存在する文の並びの中でｓｕｍ（Ｓ（ｉ＋１，ｋ’））が最大か否か判定し（ｓ１１９ｍ）、最大でない場合には、対応する仮説を破棄する（ｓ１１９ｎ）。その上で、各ｓｕｍの値が上位ｂ件に属するか否か判定し（ｓ１１９ｐ）、属さない場合には対応する仮説を破棄する（ｓ１１９ｎ）。以降、破棄した文の並びに対する仮説の展開は行わない。

ｉを更新し（ｓ１１９ｑ）、上記処理（ｓ１１９ｂ〜ｓ１１９ｑ）を繰り返し、通常、Ｋは要約元のテキストの大きさよりも小さいので、要約元のテキストに含まれる文の全てを並べる前に、全ての仮説は破棄されるか、保存される。そして、保存された仮説の中から最も大きいｓｕｍに対応する文の並びをＳ^＊とする。

テキスト出力部１３５は、重要文順列探索部１１９で選ばれた文の並びＳを要約として出力する。

なお、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、図１の構成図に示された機能を実現するプログラムあるいは図２のフローチャートに示された手順を備えるプログラムをインストールすることによっても実現可能である。
＜効果＞
本実施例のテキスト要約装置１００によれば、内容性スコアが高く、かつ読みやすい重要文の並びを見つけ出すことができ、要約として十分な情報を保持することができ、単に重要文を選択しその後にそれらの文を並び替えた要約よりも読みやすい要約を作成することができる。
＜変形例＞
テキスト入力部は、キーボードや通信回線を介してテキストデータを入力されてもよい。

素性要素は、必ずしも形態素単位である必要はなく、文節等、素性を構成することができる単位であればよい。

内容性スコア計算部１１５は、素性要素とは異なる単位を文要素（例えば、単語等）としてもよい。その場合、素性要素抽出部１１３の出力を入力とするのではなく、自身の備える文要素抽出部において、入力されたテキストデータから文要素を抽出する。

文要素スコア及び重みパラメタは、他の方法を用いて求めてよいし、他の装置で予め求めたものを記憶部１０３に記憶してもよい。

重要文順列探索部１１９は、他に、冗長性を削減する工夫を行うこともできる。式（１）と式（４）によれば、同一の内容語や情報抽出の結果がＳに含まれていた場合、それらは何度も内容性スコアに加算される。しかし、一般に、要約に同一の情報が何度も現れることは好ましくないため、同一の内容語や情報抽出の結果は一度しか内容性スコアに加算されない工夫を行うことによって、要約に同一の情報が何度も含まれることを防ぐことができる。

連接スコア計算部１１７が３つ以上の文の並びの連接スコアｗ^ＴΦ（ｘ，ｙ）を求めているが、連接スコア計算部１１７は２つの文の連接スコアＣｏｎｎｅｃｔ（ｓｊ｜ｓｉ）のみを求め、出力し、重要文順列探索部１１９で３つ以上の文の並びの連接スコアｗ^ＴΦ（ｘ，ｙ）を求める構成としてもよい。

また、連接スコア計算部１１７は、２つの文の連接スコアＣｏｎｎｅｃｔ（ｓｊ｜ｓｉ）から３つ以上の文の並びの連接スコアｗ^ＴΦ（ｘ，ｙ）を求めているが、３つ以上の文から連接スコアを求め、その連接スコアを用いて、文の並びの連接スコアを求める構成としてもよい。例えば、Ｃｏｎｎｅｃｔ（ｓｎ｜ｓｉ，ｓ（ｉ＋１）,…，ｓ（ｎ−１））とし、文ｓｉ，ｓ（ｉ＋１）,…，ｓ（ｎ−１）の次に文ｓｎが続く場合の連接スコアを求める。この場合、重みパラメタ等をこれに併せて適宜設定する。

重みパラメタを算出する際や、重要文順列探索部１１９において、ビームサーチを用いる場合に、ｂの値は、テキスト要約装置の演算性能等を加味して適宜設定すればよい（例えば、ｂ＝１〜１０００）。また、時点ｉにより、その数を変更してもよい。例えば、ｉの増加に従い、ｂを減少させる構成としてもよい。ｉが大きくなるにつれ、一つの仮説から展開できる仮説の数は少なくなるため、演算量を調整することができる。また、ｂの値は、定数ではなく、例えば、要約元となるテキストに含まれる文の数Ｑに応じて変更してもよく、ｂ＝Ｑ×０．１等としてもよい。

また、重みパラメタを算出する際や、重要文順列探索部１１９において、必ずしもビームサーチと動的計画法を用いなくともよい。また、何れか一方のみを用いても、効率化を図ることは可能である。また、他の方法を用いて高いスコアを効率的に求めてもよい。

要約長決定部１３３は、テキスト入力部１３５を介して、要約元となるテキストデータ、または、その大きさ（キロバイト）が入力され、その大きさに応じて要約長を決定する。例えば、要約したテキストデータが、要約元となるテキストデータの大きさの５％〜２０％以下の大きさとなるように、要約長を決定する。
＜シミュレーション結果＞
本シミュレーションでは、テキスト要約装置１００を用いて作成した要約を内容性と可読性の観点から評価する。シミュレーションのため、ある個人が特定の飲食店を利用した感想が記述された１つ以上のテキスト（以下、評価文書という）に対してテキスト要約装置１００を用いて要約を行う。文要素として、評価情報を用いて、内容性スコアを以下のように定義する。

ｅはＳに含まれる評価情報、ｆ(ｅ)は要約の対象とするテキストにおいて評価情報ｅが現れる回数とする。すなわち、要約の内容性スコアは、文の順列Ｓが含む評価情報の文要素スコア（この場合は要約の対象とする文書における出現回数）の和とする。但し、Ｓに同一の評価情報が２つ以上含まれていたとしても、その評価情報に関しては１度しか内容性スコアに加算しない。このことによって、内容性スコアの高い要約の順列を探索する過程において冗長な要約の内容性スコアは相対的に低下するため、冗長な要約が生成されづらくなる。

評価情報ｅは評価属性ａと評価極性ｐ=｛＋１，０，−１｝の組ｅ＝＜ａ，ｐ＞として定義する。評価属性ａは何らかの対象を評価する際の観点であり、評価極性はどのような評価を行ったのかを示す指標である。評価対象に対して評価属性が示す観点において、ポジティブな評価が行われている場合評価極性は＋１とし、ネガティブな評価が行われている場合は−１、どちらでもない場合は０とする。上述した「料理がおいしい」という評価情報を例とすると、この評価情報の評価属性は「料理」であり、評価極性は＋１である。評価対象については、今回は特定の評価対象に紐付いた文書を要約の対象とするため、抽出される評価情報は全て特定の評価対象に対するものとし、抽出しない。

複数の評価文書を要約の対象とするため、要約に矛盾した評価情報が含まれる可能性がある。このため、同一の評価属性を持つが矛盾する評価極性を持つ評価情報（例えば＜料理，＋１＞と＜料理，−１＞）は同時に要約に含まれないようにした。

評価情報に抽出については、本シミュレーションでは、パタンマッチによる評価情報抽出器を作成し利用する。まず文に対し係り受け解析を行い（参考文献３参照）、係り受け木に対しパタンマッチを行い評価表現を含む文節を特定する。
［参考文献３］今村賢治. 「系列ラベリングによる準話し言葉の日本語係り受け解析」, 言語処理学会第13 回年次大会発表論文集, 2006, pp.548-551
評価表現は、「おいしい」「美しい」などの評価の核となる表現である。評価表現は、参考文献４記載の評価表現辞書を用いて特定する。
［参考文献４］浅野久子，平野徹，小林のぞみ，松尾義博, 「Web上の口コミを分析する評判情報インデクシング技術」, NTT技術ジャーナル，2008, Vol.20, No.6, pp.12-15
評価表現を含む文節が特定されたら、その文節にガ格やハ格、モ格で係る文節、連体修飾の場合はその文節が係る文節を評価属性として抽出する。評価極性は評価表現毎に評価表現辞書に登録されているため、評価属性と評価極性の組が得られる。

なお、同義関係にある評価属性がある場合には冗長な要約が生成される恐れがある。そのため、抽出した評価属性の集合をクラスタリングし、距離の近い評価属性は同一のものとして扱う。

評価文書は、飲食店に対する感想が多く投稿されているＷｅｂサイトから１００店舗に紐付く２９４０文書を収集した。１店舗に紐付いている文書の平均サイズは５３４３バイトであるため、それぞれの店舗に対して３００バイトの要約を生成する場合、要約率は約６％となる。
（内容性の評価結果）
内容性の評価にはROUGEを用いる（参考文献５参照）。
［参考文献５］Chin-Yew Lin, "ROUGE: A Package for Automatic Evaluation of Summaries", In Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics (ACL) Workshop: Text Summarization Branches Out, 2004, pp. 74-81
本シミュレーションではROUGE-２、ROUGE-SU４、ROUGE-SU９を利用した。評価に際しては評価文書を４名の作業者に要約させ、各店舗に４つの参照要約を付与した。システム要約のROUGEスコアは４つの参照要約とのROUGEスコアの平均を取ったものである。ROUGEに用いるＮグラムは、ROUGE-２、ROUGE-SU４、ROUGE-SU９何れも全ての単語を用いてＮグラムを計算した。また、Ｎグラムを計算する際には、参照要約、システム要約共に文に分割した後にＮグラムを計算するのではなく、それぞれを１つの長い文と見なしてＮグラムを計算した。これによって、ROUGE-SU４やROUGE-SU９といった２つの単語の長距離の並びを考慮する尺度を用いて文間の単語の並びを考慮することができるようになる。本シミュレーションでは以下の４種類の手法を評価する。
（１）表層
文のスコアとして内容語のスコアの和を用いる。内容語のスコアは、要約の対象とする文書セット中の単語頻度とした。重要文を選ぶ際にはＭＭＲを用いて冗長性を排除しつつ貪欲に文を選択する（参考文献６参照）。
［参考文献６］Jaime Carbonell and Jade Goldstein, "The use of MMR, diversity-based reranking for reordering documents and producing summaries", In Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval (SIGIR), 1998, pp. 335-356
ＭＭＲの類似度にはコサインを用い、新しく選ぶ文の重要度と、既に選んだ文との類似度のトレードオフを制御するパラメタは０.５とした。これをBaselineとする。
（２）表層＋組合せ最適化（連接性スコアなし）
Baselineと同様に内容語のスコアを用いる。重要文を選ぶ際にはＭＭＲによる貪欲法ではなく組合せ最適化を用い、スタック・デコーダを用いて探索を行った（参考文献７参照）。
［参考文献７］Wen-tau Yih, Joshua Goodman, Lucy Vanderwende and Hisami Suzuki, "Multi-Document Summarization by Maximizing Informative Content-Words", In Proceeding of the 20th International Joint Conference on Artificial Intelligence (ICJAI), 2007, pp. 1776-1782
冗長性の削減のため、各内容語は１度しか要約のスコアに加算されないようにした。これをMethod１とする。スタックのサイズは１０とした。
（３）評価情報＋組合せ最適化（連接性スコアなし）
式（４）においてλ＝０とした。探索にはMethod１同様スタック・デコーダを利用した。これをMethod２とする。
（４）評価情報＋組合せ最適化（連接性スコアあり）
本実施例を用いた手法である。連接性スコアの重みパラメタｗは以下のようにして学習する。まず１００店舗を２０店舗にランダムに分割する。要約を生成する店舗が含まれていない８０店舗に紐付く文書と、１００店舗とは別の、１５０店舗に紐付く評価文書を収集し、合計２３０店舗分の文書からｗを学習する。λは開発セットで調整し、６０００とし、ビーム幅ｂは１００とした。これをMethod３とする。

なお、人間の要約のパフォーマンスを調べるため、参照要約間のROUGEスコアを計算する。具体的には、４つの参照要約のうち、何れか１つと残りの３つに対してROUGEスコアを計算する。これを４つの参照要約それぞれに行い、平均を取る。これをHumanとする。
結果を以下に示す。

全ての尺度において、Baseline、Method１、Method２、Method３の順にスコアが向上するが、Humanには及ばない。ウィルコクソンの符号順位検定によれば、Baselineに対し他の全ての手法は有意にROUGEスコアが向上している。

連接性スコアのROUGEへの効果を議論する。Method２とMethod３を比較すると、全ての尺度においてROUGEスコアが向上している。ROUGE-SU４やROUGE-SU９といった尺度は長距離の単語の並びを考慮するため参照要約に近い文の並びを持つシステム要約に高いROUGEスコアを与えられると考えられる。そのためMethod３がこれらの尺度においてスコアが高いことは直観的である。一方、Method３はROUGE-２スコアも他の手法より高い。これは、連接性を考慮すると、内容性のみよりも適切に文を選択できることを示唆している。
（可読性の評価結果）
可読性は被験者実験にて評価した。前述の１００店舗に紐付く評価文書に対し３種類の方法で要約を生成し、計３００のシステム要約を用意した。１０名の被験者を用意し、１人の被験者に３０のシステム要約を評価させた。評価方法は提示されたシステム要約に対し５段階の評価（１点から５点）を与えるものである。被験者には、実験前に要約の品質の評価基準を提示し、評価基準に従って要約を評価するように指示した。また、被験者には要約を生成した手法は通知されない。比較の対象とするシステム要約は以下の３種類である。
（１）文を選んだ後、文番号順に並び替え
内容性評価におけるMethod２を用いて文を選んだ後、文が抽出された文書の投稿日時が新しく、かつ文書において先頭に出現する文が前になるように並べ替える。これをMethod２とする。
（２）文を選んだ後、連接性スコアを用いて並び替え
内容性評価におけるMethod２を用いて文を選んだ後、前述した連接性スコアを用いて文を並び替える。これをMethod２＋とする。
（３）順列を探索
本実施例記載の提案手法である。文を選んだ後にそれらを並び替えるのではなく、最初から順列を探索する。これをMethod３とする。評価の結果を表３に示す。

Method２、Method２＋、Method３の順に可読性が向上した。ウィルコクソンの符号順位検定にて検定を行ったところ、Method２とMethod２＋に有意差は見られず、Method２とMethod３はp<０．１０で有意であった。このことから、まず文を選んだ後に文を並び替えるという方法では必ずしも可読性は向上せず、最初から文の並びを考慮した場合には可読性が向上すると考えられる。

可読性が向上した要因として、要約に含まれる文数の変化が考えられる。Method２およびMethod２＋が平均７.２３文で構成されるのに対し、Method３は平均６.５２文である。この差はｐ＜０．０１で有意である。すなわちMethod２及びMethod２＋は短い文を選択しやすく、結果としてリストのような要約が生成されることが多く読みづらいが、Method３ではより長い文が選択されやすく、読みやすさが向上したと考えられる。また、全てのシステム要約において、同一の文書の中で隣接していた文がそのままの形で並んでいる回数は、Method２が０回であったのに対しMethod３は１２回であった。このことから、連接性を考慮し文を選択することによって、文よりいくらか広い単位で元の文書から情報が抽出されることが増え、結果として要約の可読性が向上したということも考えられる。
＜ハードウェア構成＞
図１１は、本実施例におけるテキスト要約装置１００のハードウェア構成を例示したブロック図である。図１１に例示するように、この例のテキスト要約装置１００は、それぞれＣＰＵ（Central Processing Unit）１１、入力部１２、出力部１３、補助記憶装置１４、ＲＯＭ（Read Only Memory）１５、ＲＡＭ（Random Access Memory）１６及びバス１７を有している。

この例のＣＰＵ１１は、制御部１１ａ、演算部１１ｂ及びレジスタ１１ｃを有し、レジスタ１１ｃに読み込まれた各種プログラムに従って様々な演算処理を実行する。また、入力部１２は、データが入力される入力インターフェース、キーボード、マウス等であり、出力部１３は、データが出力される出力インターフェース、ディスプレイ、プリンタ等である。補助記憶装置１４は、例えば、ハードディスク、半導体メモリ等であり、テキスト要約装置１００としてコンピュータを機能させるためのプログラムや各種データが格納される。また、ＲＡＭ１６には、上記のプログラムや各種データが展開され、ＣＰＵ１１等から利用される。また、バス１７は、ＣＰＵ１１、入力部１２、出力部１３、補助記憶装置１４、ＲＯＭ１５及びＲＡＭ１６を通信可能に接続する。なお、このようなハードウェアの具体例としては、例えば、パーソナルコンピュータの他、サーバ装置やワークステーション等を例示できる。
＜プログラム構成＞
上述のように、補助記憶装置１４には、本実施例のテキスト要約装置１００の各処理を実行するための各プログラムが格納される。テキスト要約プログラムを構成する各プログラムは、単一のプログラム列として記載されていてもよく、また、少なくとも一部のプログラムが別個のモジュールとしてライブラリに格納されていてもよい。
＜ハードウェアとプログラムとの協働＞
ＣＰＵ１１は、読み込まれたＯＳプログラムに従い、補助記憶装置１４に格納されている上述のプログラムや各種データをＲＡＭ１６に展開する。そして、このプログラムやデータが書き込まれたＲＡＭ１６上のアドレスがＣＰＵ１１のレジスタ１１ｃに格納される。ＣＰＵ１１の制御部１１ａは、レジスタ１１ｃに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すＲＡＭ１６上の領域からプログラムやデータを読み出し、そのプログラムが示す演算を演算部１１ｂに順次実行させ、その演算結果をレジスタ１１ｃに格納していく。

図１は、このようにＣＰＵ１１に上述のプログラムが読み込まれて実行されることにより構成されるテキスト要約装置１００の機能構成を例示したブロック図である。

ここで、記憶部１０３は、補助記憶装置１４、ＲＡＭ１６、レジスタ１１ｃ、その他のバッファメモリやキャッシュメモリ等の何れか、あるいはこれらを併用した記憶領域に相当する。また、素性要素抽出部１１３、内容性スコア計算部１１５、連接スコア計算部１１７及び重要文順列探索部１１９は、ＣＰＵ１１にテキスト要約プログラムを実行させることにより構成されるものである。

＜テキスト要約装置２００＞
図１及び図１２を用いて実施例２に係るテキスト要約装置２００を説明する。テキスト要約装置１００とは、連接スコア計算部２１７の構成及び記憶部２０３の記憶するデータが異なる。
＜連接スコア計算部２１７＞
連接スコア計算部２１７は、素性ベクトル生成部１１７ａを有さず、計算部２１７ｂのみを備え、連接スコアを非特許文献３記載の方法を用いても計算する。その場合、一例として、連接スコアは以下のように定義できる。

ｆｉｋは文ｓｉのｋ番目の素性要素、ｆｊｍは文ｓｊのｍ番目の素性要素である。これはそれぞれ図４の文ｓｉ、文ｓｊから抽出された素性要素に対応する。ｐ（ｆｊｍ|ｆｉｋ）は、即ち素性要素ｆｊｍが、素性要素ｆｉｋが与えられた状態で出現する確率である。式（５）によれば、連接スコア計算部２１７は、文ｓｉと文ｓｊの連接スコアとして、それぞれの文の素性要素の直積集合（ｓｉ,ｓｊ）の、各条件付き確率ｐ（ｆｊｍ|ｆｉｋ）の総積を、直積集合の濃度で正規化したものを求める。ｐ（ｆｊｍ|ｆｉｋ）は一例として以下のように計算できる。

ここでＣ（ｆｉｋ,ｆｊｍ）は素性要素ｆｉｋと素性要素ｆｊｍが、上述の訓練データτ中の隣接する文において、素性要素ｆｉｋが前の文に、素性要素ｆｊｍが後の文に現れる回数である。分母は素性要素ｆｉｋが訓練データτにおいて現れる数である。式（５）を連接スコアとして用いる場合、例えば、図示しない重みパラメタ算出部は、訓練用データτを用いて、各数をカウントし、式（６）により各条件付き確率を求め、重みパラメタとして、記憶部２０３に記憶する。図１２に推定した条件付き確率の一例を示す。素性の列の左側が素性要素ｆｉｋに対応し、右側が素性要素ｆｊｍ、条件付き確率の列がｐ（ｆｊｍ|ｆｉｋ）に対応する。

このような構成とすることで、実施例１と同様の効果を得ることができる。

１００，２００テキスト要約装置
１０３，２０３記憶部
１１３素性要素抽出部
１１５内容性スコア計算部
１１７，２１７連接スコア計算部
１１９重要文順列探索部

Claims

入力されるテキストを要約するテキスト要約装置であって、
２つの素性要素の順序を考慮した組合せである素性に対する重みパラメタと、文を構成する文要素に対する文要素スコアを記憶する記憶部と、
入力されるテキストから素性要素を抽出する素性要素抽出部と、
各文に含まれる文要素に対する文要素スコアを用いて、各文の内容性スコアを求める内容性スコア計算部と、
前記素性要素抽出部で抽出した素性要素と前記重みパラメタを用いて、文の連接スコアを求める連接スコア計算部と、
前記内容性スコアと前記連接スコアの和が、最大値となる、または、最大値の近似値となる文の並びを探索する重要文順列探索部とを有すること、
を特徴とするテキスト要約装置。
請求項１記載のテキスト要約装置であって、
前記重要文順列探索部は、文の並びを探索する際に、文の並びの仮説に対し、前記入力されるテキストに含まれまだ前記仮説に追加されていない一つの文を前記仮説に追加することで前記仮説を一つ以上展開し、文の並びの仮説に最後に追加した文が同じであって、かつ、順序は関係なく前記仮説に含まれる文が同じである仮説が複数存在する場合、前記内容性スコアと前記連接スコアの和が最も高い仮説を除く全ての仮説を破棄すること、
を特徴とするテキスト要約装置。
請求項１または２記載のテキスト要約装置であって、
前記重要文順列探索部は、文の並びを探索する際に、文の並びの仮説に対し、前記入力されるテキストに含まれまだ前記仮説に追加されていない一つの文を前記仮説に追加することで前記仮説を一つ以上展開し、仮説のうち、前記内容性スコアと前記連接スコアの和が高い所定数の仮説のみを展開すること、
を特徴とするテキスト要約装置。
請求項１から３の何れかに記載のテキスト要約装置であって、
前記連接スコア計算部は、２つの文が含む素性要素の直積集合の各要素を該２つの文の素性とし、求めた素性に対応する次元を１とし、他の次元を０とする素性ベクトルを生成する素性ベクトル生成部と、
前記重みパラメタと前記素性ベクトルの内積を、２つの文の連接スコアとして求める計算部を備えること、
を特徴とするテキスト要約装置。
請求項４記載のテキスト要約装置であって、
前記重みパラメタは、文の集合ｘ_ｑとその文の集合の正しい並びｙ_ｑの組からなる学習用データτを用いて、算出され、
文の集合ｘ_ｑに対し、その時点の重みパラメタを用いて連接スコアの和が最大値、または、最大値の近似値となる文の並びｙ’を求め、ｙ_ｑとｙ’が異なる場合には、ｙ_ｑとｙ’を用いて重みパラメタを更新すること、
を特徴とするテキスト要約装置。
請求項５記載のテキスト要約装置であって、
連接スコアの和が最大値、または、最大値の近似値となる文の並びｙ’を求める際に、文の並びの仮説に対し、前記集合ｘ _ｑに含まれまだ前記仮説に追加されていない一つの文を追加することで前記仮説を一つ以上展開し、仮説のうち、前記連接スコアの和が高い所定数の仮説のみを展開し、さらに、文の並びの仮説に最後に追加した文が同じであって、かつ、順序は関係なく前記仮説に含まれる文が同じである仮説が複数存在する場合、前記連接スコアの和が最も高い仮説を除く全ての仮説を破棄すること、
を特徴とするテキスト要約装置。
請求項１から３の何れかに記載のテキスト要約装置であって、
前記重みパラメタは、学習用データτを用いて算出され、文ｓｊのｍ番目の素性要素ｆｊｍが、文ｓｉのｋ番目の素性要素ｆｉｋが与えられた状態で出現する条件付き確率ｐ（ｆｊｍ｜ｆｉｋ）であり、
前記連接スコア計算部は、２つの文の素性要素ｆｊｍ、ｆｉｋの直積集合（ｓｉ，ｓｊ）の、各条件付き確率ｐ（ｆｊｍ｜ｆｉｋ）の総積を、直積集合の濃度で正規化し、連接スコアを求めること、
を特徴とするテキスト要約装置。
請求項１から７の何れかに記載のテキスト要約装置であって、
文要素スコアは、文要素スコア学習用のテキスト集合に含まれる文要素を用いて予め求められ、
学習用テキスト集合内に、多い文要素ほど重要である場合には、その数ｃｎｔが大きいほど文要素スコアが大きくなるように文要素スコアを算出し、学習用テキスト集合内に、多い文要素ほど重要でない場合には、その数ｃｎｔが大きいほど文要素スコアが小さくなるように文要素スコアを算出すること、
を特徴とするテキスト要約装置。
テキスト要約装置を用いて、入力されるテキストを要約するテキスト要約方法であって、
前記テキスト要約装置に、２つの素性要素の順序を考慮した組合せである素性に対する重みパラメタと、文を構成する文要素に対する文要素スコアを予め記憶しておき、
前記テキスト要約装置が、入力されるテキストから素性要素を抽出する素性要素抽出ステップと、
前記テキスト要約装置が、各文に含まれる文要素に対する文要素スコアを用いて、各文の内容性スコアを求める内容性スコア計算ステップと、
前記テキスト要約装置が、前記素性要素抽出ステップで抽出した素性要素と前記重みパラメタを用いて、文の連接スコアを求める連接スコア計算ステップと、
前記テキスト要約装置が、前記内容性スコアと前記連接スコアの和が、最大値となる、または、最大値の近似値となる文の並びを探索する重要文順列探索ステップとを有すること、
を特徴とするテキスト要約方法。
請求項１から８の何れかに記載のテキスト要約装置として、コンピュータを機能させるためのプログラム。