JP2012104041A

JP2012104041A - テキストデータ要約装置、テキストデータ要約方法及びテキストデータ要約プログラム

Info

Publication number: JP2012104041A
Application number: JP2010254028A
Authority: JP
Inventors: Takaaki Hasegawa; 隆明長谷川; Genichiro Kikui; 玄一郎菊井
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2010-11-12
Filing date: 2010-11-12
Publication date: 2012-05-31
Anticipated expiration: 2030-11-12
Also published as: JP5538185B2

Abstract

【課題】複数の回答文書を要約する際に、携帯端末など表示字数が制限される環境において少数派の回答が要約結果に反映されないことを回避し、様々なバリエーションの回答を要約に含めて出力可能とする。
【解決手段】複数の１以上の文で構成された文書からなるテキストデータについて、各文書を複数のクラスタに分類し、前記クラスタ内の文書に含まれる各単語列に対しスコアを付与し、前記クラスタ内の各文について、文に含まれる単語列のスコアを合計して文のスコアを計算する。そして、文書数が最も多いクラスタから順番に、クラスタに含まれる文のうち、未選択の各文について、文のスコアから、当該文と当該クラスタから選択済の文との類似度を減算し、減算結果が最大となる文を選択して要約に追加する。すべてのクラスタを一巡した場合は再度最も文書数が多いクラスタに戻り同様の処理を行う。これらの処理を所定の要約長に到達するまで行う。
【選択図】図１

Description

本発明は、複数の文書からなるテキストデータを要約するためのテキストデータ要約装置、テキストデータ要約方法及びテキストデータ要約プログラムに関する。

インターネットには、ユーザが投稿した質問に対して、別のユーザが回答を投稿する質問応答サイトが存在する。このようなサイトに投稿される質問の中には、Ｗｅｂ検索エンジンでは答えが見つからなかったり、人それぞれによって答えが異なったりするような質問も多く見受けられる。このような質問に対しては、複数のユーザがそれぞれ異なる回答を投稿する事例が多くみられる。そして、このような質問応答サイトでは、複数の回答の中から質問者が最も役に立った回答に点数を与えたり、ラベル付けをしたりすることが行われる。

もっとも、質問者に選ばれる回答の他にも有用な回答が存在していることが少なくない。しかし、携帯端末等から質問応答サイトにアクセスする場合、キーの操作性や画面サイズによる字数制限等を考慮すると、他の全ての回答が提示されることは利便性がよいとは言えない。そこで、複数の有用な回答を簡潔に要約して提示する手法（複数文書要約技術）が開発されている。例えば、文書集合に含まれる各単語の重要度を出現頻度等に基づき計算し、その重要度に基づく重要文を、既に抽出した重要文との類似度を考慮して、できるだけ似ていないものを抽出する手法が挙げられる（非特許文献１）。また、類似した内容の回答をクラスタリングし、クラスタに含まれる回答の個数が大きいクラスタから順に、クラスタのラベルとなるような句を多く含む回答を提示する手法も提案されている（非特許文献２）。

奥村学、難波英嗣、「テキスト自動要約」、オーム社、2005年、p.84-86 Yuanjie Liu, Shasha Li, Yunbo Cao, Chin-Yew Lin, Dingyi Han and yong Yu、"Understanding and Summarizing Answers in Community-Based Question Answering Services"、Proceedings of Coling 2008、2008年、p.497-504

単語の重要度に基づく重要文抽出の手法では、単語の重要度は文書集合に含まれる単語の出現頻度に基づき計算されるため、複数の回答において言及される類似した内容を表す単語の頻度が高くなり、その結果、類似した内容の文だけが抽出される。そのため、その単語を含まない回答で言及された有用な内容を抽出できないという問題が起こりうる。

また、クラスタリングを用いる手法では、類似した内容の回答をクラスタリングによりまとめることができるが、回答数の多いクラスタから順に、クラスタに含まれる回答ごとに要約文を抽出する。そのため、携帯端末等、表示字数に制約がある場合には、回答数の多いクラスタ内の各回答の要約文だけで所定の要約長に達してしまい、回答数が少ないクラスタに属する少数の有用な回答を要約に含めることができない。

本発明の目的は、複数の回答文書を要約する際に、携帯端末など要約長が制限される環境において少数派の回答が要約結果に反映されないことを回避し、様々なバリエーションの回答を要約に含めて出力可能な、テキストデータ要約装置、テキストデータ要約方法及びテキストデータ要約プログラムを提供することにある。

本発明のテキストデータ要約装置は、クラスタリング部と単語スコア計算部と文スコア計算部と文選択部とを備える。
クラスタリング部は、複数の１以上の文で構成された文書からなるテキストデータが入力され、各文書を任意のクラスタリング手法により、複数のクラスタに分類する。
単語スコア計算部は、前記クラスタ内の文書に含まれる各単語列に対し、任意のスコアリング手法によりスコアを付与する。
文スコア計算部は、前記クラスタ内の各文について、文に含まれる単語列のスコアを合計し、文のスコアを計算する。

文選択部は、文書数が最も多いクラスタから順番に、クラスタに含まれる文のうち、要約として未選択の各文について、文のスコアから、当該文と当該クラスタから選択済の文との類似度を減算し、減算結果が最大となる文を選択して要約に追加し、すべてのクラスタを一巡しても所定の要約長に到達しない場合には、再度最も文書数が多いクラスタに戻り、同様の処理を所定の要約長に到達するまで繰り返し実行する。

本発明のテキストデータ要約装置及びテキストデータ要約方法では、質問に対する複数の回答を要約する際、回答をクラスタリングして類似の回答からなるクラスタに分類した上で、回答数が多いクラスタからも少ないクラスタからも万遍なく重要文を選択して要約に含めるとともに、同じクラスタから複数の文を選択する場合には、要約の冗長性を排除するために、選択済の文と類似した文を選択しないように未選択の文を選択する。そのため、携帯端末など要約長が制限される環境においても、様々なバリエーションの回答を要約に含めることができる。

本発明のテキストデータ要約装置の機能構成例を示す図。本発明のテキストデータ要約装置の処理フロー例を示す図。本発明のテキストデータ要約装置への入力文の一例を示す図。名詞句のスコアの算出イメージを示す図。文選択部における処理フロー例を示す図。本発明のテキストデータ要約装置が出力する要約の一例を示す図。

図１に本発明のテキストデータ要約装置１００の機能構成例を、図２にその処理フロー例をそれぞれ示す。テキストデータ要約装置１００は、クラスタリング部１１０と単語スコア計算部１２０と文スコア計算部１３０と文選択部１４０とを備える。

クラスタリング部１１０は、複数の１以上の文で構成された文書からなるテキストデータが入力され、各文書を任意のクラスタリング手法により、複数のクラスタに分類する（Ｓ１）。ここでいう文書とは、質問応答サイトにおいては、質問に対するひとつひとつの回答にあたる。すなわち、テキストデータは回答文書の集合であり、各回答はそれぞれ１以上の文から構成される。入力されるテキストデータは、形態素解析済み、固有表現抽出済み、名詞句抽出済み、又は係り受け解析済みのものであってもよい。図３に、テキストデータに含まれる文「裁断面の真ん中に点ほどの小さな白い芯ができてたら食べ頃です。」を形態素解析した例を示す。クラスタリング手法としては、例えば、各文書について内容語とその内容語の文書内頻度(tf)からなる文書ベクトルを生成し、各文書を１つのクラスタとみなして、各文書の文書ベクトルの類似度に基づき、類似しているクラスタ同士を１つのクラスタにまとめるという手法が考えられる。内容語とは、例えば、形態素解析結果に基づく品詞情報により選択される名詞、動詞、形容詞などを意味する。文書ベクトルには、内容語の文書内頻度の他、文書頻度(df)の逆数(idf)や、それと文書内頻度との積(tf*idf)を用いること等が考えられる。クラスタ間の類似度としては、各クラスタから抽出した文書の組のうち、文書ベクトルの類似度が最も遠いものを用いてもよいし、逆に最も近いものや、全ての文書の組の類似度の平均値を用いてもよい。

その他のクラスタリング手法として、例えば、参考文献１に示す技術を用いることができる。
〔参考文献１〕高村大也、奥村学、「言語処理のための機械学習入門」、コロナ社、2010年、p.77-93

単語スコア計算部１２０は、クラスタ内の文書に含まれる各単語列に対し、任意のスコアリング手法によりスコアを付与する（Ｓ２）。スコアはクラスタごとに独立して付与される。単語列としては、例えば、内容語が１つ以上連続する単語列のうち、名詞あるいは未知語を含む１つ以上の単語からなる名詞句を用いることが考えられる。この場合、例文「裁断面の真ん中に点ほどの小さな白い芯ができてたら食べ頃です。」からは、図３に示す形態素解析データに基づき、「裁断面」（名詞＋名詞接尾辞）、「真ん中」（名詞）、「点程」（名詞＋名詞接尾辞）、「芯」（名詞）、「食べ頃」（名詞）が抽出される。なお、「点ほど」を「点程」としているように、表記揺れに対応するため、形態素解析の結果による表記ではなく標準形を用いてもよい。名詞句のスコアは、例えば、非特許文献２に開示された方法により計算することができる。非特許文献２の方法は、あるカテゴリの文書集合において、対象のクラスタに多く出現する単語とよく共起する名詞句は重要な名詞句であるという考え方に基づくものである。名詞句ｍのスコアは具体的には、例えば次式により計算する。

ここで、ｍ＿ｓｃｏｒｅ(ｍ)は名詞句ｍのスコア、θはクラスタ、ｗはクラスタに含まれる単語、ｐ(ｗ｜θ)はクラスタθに単語ｗが出現する確率である。Ｃは文書集合が属するカテゴリの全文書集合である。例えば、文「裁断面の真ん中に点ほどの小さな白い芯ができてたら食べ頃です。」を含む回答文書（及びその集合）が属するカテゴリは「料理」であり、そのカテゴリの全文書集合は、「料理」に係る各種質問に対する回答文書の集合である。ＰＭＩ(ｗ,ｍ｜Ｃ)はカテゴリの全文書集合の下での単語ｗと名詞句ｍの自己相互情報量(point wise mutual information)である。

名詞句ｍのスコアの計算結果の例を図４に示す。この例では、クラスタが２個であり、クラスタ１には文書が４個含まれ、名詞句が１０個含まれ、また、クラスタ２には文書が１個含まれ、名詞句が４個含まれる場合を示している。

文スコア計算部１３０は、次式により、クラスタ内の各文について、文に含まれる各単語列（名詞句ｍ）のスコアを合計し、更に、クラスタ内の文のスコアの最大値が１になるように正規化することにより、文ｓのスコアを求める（Ｓ３）。このスコアが高いほど、クラスタ内での重要度が高い文であることを意味する。

ここで、ｓ＿ｓｃｏｒｅ(ｓ)は文ｓのスコア、Ａはクラスタに含まれる文の集合である。

文選択部１４０は、文書数が最も多いクラスタから順番に、クラスタに含まれる文のうち、要約として未選択の各文について、文のスコアから、当該文と当該クラスタから選択済の文との類似度を減算し、減算結果が最大となる文を選択して要約に追加する。なお、選択した文を要約に追加すると所定の要約長を超える場合には、要約に追加した時に所定の要約長の範囲内になる文のうち、前記減算結果が最大となる文を要約に追加することとしてもよい。そして、すべてのクラスタを一巡しても所定の要約長に到達しない場合には、再度最も文書数が多いクラスタに戻り、同様の処理を所定の要約長に到達するまで繰り返し実行する（Ｓ４）。ここで、未選択の文と選択済の文との類似度は、単語を要素とする文ベクトル同士のコサイン類似度など、任意の公知技術により求めてよい。また、要約長は、文字数、バイト数、単語数など長さを規定するものならば何れでもよく、要約作成者等が要約作成の都度入力してもよいし、予め固定的に設定しておいてもよい。

文選択部１４０においては、文書数の多いクラスタから順に、クラスタ内の要約として未選択の各文のうち、要約として選択済の各文と類似しない文を選択して要約に追加する。類似しない文の選択は、まず、未選択の各文について、文の（クラスタ内での重要度の高さを示す）スコアから、全ての選択済の文のうち、当該未選択の文と最も類似度が高い（似ている）文の類似度を減算する。そして、全ての未選択の文のうち、この減算結果が最大となる文を選択する。つまり、選択済の文と類似した文を選択しないように未選択の文を選択する。このような文の選択及び要約への追加処理を、最も文書数が多いクラスタから順番に行い、すべてのクラスタを一巡しても所定の要約長に到達しない場合には、再度最も文書数が多いクラスタに戻って、同様の処理を所定の要約長に到達するまで繰り返す。このように各クラスタから文を１つずつ選択して要約に追加していくことで、文書数が多いクラスタからも文書数が少ないクラスタからも、万遍なく重要文を要約に含めることができ、かつ、二巡目以降に同じクラスタから文を選択する際に、選択済の文と最も似ていない文を選択することができる。そのため、所定の要約長が短くても、様々なバリエーションの回答を要約文に含めることができる。

文選択部１４０における処理は、具体的には例えば図５に示すフローに従って行う。

まず、文書数が多い順にクラスタをソートしリストにする（Ｓ４１）。次に、クラスタを指すポインタをリストの先頭、つまり最も大きいクラスタを指すようにセットする（Ｓ４２）。次に、クラスタに未選択の文が存在するか否かを確認する（Ｓ４３）。

ポインタの指すクラスタの中に未選択の文が存在する場合、未選択の各文について、文のスコアから、当該文と当該クラスタから選択済の文との類似度を減算し、減算結果が最大となる文を選択する（Ｓ４４）。このような選択手法（ＭＭＲ：Maximal Marginal Relevance、非特許文献１参照）の採用により、要約の冗長度を減らすことができる。

ここで、「当該クラスタから選択済の文」が、「当該クラスタから選択済の文のうち、当該未選択の文との類似度が最も高い（＝最も類似している）文」であるとすると、減算結果が最大となる文は、ＭＭＲに基づき次式のように求めることができる。

ここで、Ｒは同一クラスタにおける文の集合、ＳはＲのサブセットで選択済の文の集合、ｔはＳの要素の文、Ｒ＼ＳはＲのサブセットで未選択の文の集合、ｓはＲ＼Ｓの要素の文、Ｓｉｍ(ｓ,ｔ)は未選択の文ｓと選択済の文ｔとの類似度、λは第１項と第２項の重みを調整するパラメータである。

なお、「当該文と当該クラスタから選択済の文との類似度」として、「当該未選択の文と当該クラスタから選択済の全ての文との各類似度の総和」を用いてもよい。この場合、減算結果が最大となる文は、ＭＭＲに基づき次式のように求めることができる。

次に、選択した文の長さを測定し、その長さをこれまでの要約長に加算したときに、所定の要約長を超えないかどうかを確認する（Ｓ４５）。

所定の要約長を超えている場合、選択した文を未選択の文の集合から除外した上でＳ４３に戻る（Ｓ４６）。

一方、所定の要約長を超えていない場合、選択した文を要約に追加するとともに、未選択の文の集合から除外する（Ｓ４７）。そして、クラスタのポインタがリストの末尾にセットされているか否かを確認し（Ｓ４８）、セットされていなければ、クラスタを指すポインタを１つ進めた上でＳ４３に戻り（Ｓ４９）、セットされていればＳ４２に戻る。

そして、Ｓ４３でクラスタに未選択の文が無くなった場合、選択された複数の文からなる要約を出力し（Ｓ５０）、処理を終了する。要約を出力する際には、選択された各文のクラスタ番号と文書番号と文書における先頭からの文番号とを適宜利用し、任意の表示形態で出力することができる。図６に出力する要約の一例を示す。なお、括弧内の情報は説明のために表示したものであり、実際に利用者に提示する必要は無い。図６の出力例は、最初に質問を表示し、その回答の要約をクラスタ番号順に、かつ、同じクラスタ内では文書番号順に、かつ、同じ文書番号内では文番号順に並べるルールの下で表示したものである。

以上のように、本発明のテキストデータ要約装置及びテキストデータ要約方法では、質問に対する複数の回答を要約する際、回答をクラスタリングして類似の回答からなるクラスタに分類した上で、回答数が多いクラスタからも少ないクラスタからも万遍なく重要文を選択して要約に含めるとともに、同じクラスタから複数の文を選択する場合には、要約の冗長性を排除するために、選択済の文と類似した文を選択しないように未選択の文を選択する。そのため、携帯端末など要約長が制限される環境においても、様々なバリエーションの回答を要約に含めることができる。

上記のテキストデータ要約装置、テキストデータ要約方法における各処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本発明のテキストデータ要約装置の各機能は必要に応じ、併合・分割しても構わない。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

本発明のテキストデータ要約装置をコンピュータによって実現する場合、装置及びその各部が有す機能の処理内容はプログラムによって記述される。そのプログラムは、例えば、ハードディスク装置に格納されており、実行時には必要なプログラムやデータがＲＡＭ(Random Access Memory)に読み込まれる。その読み込まれたプログラムがＣＰＵにより実行されることにより、コンピュータ上で各処理内容が実現される。なお、処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

複数の１以上の文で構成された文書からなるテキストデータが入力され、各文書を任意のクラスタリング手法により、複数のクラスタに分類するクラスタリング部と、
前記クラスタ内の文書に含まれる各単語列に対し、任意のスコアリング手法によりスコアを付与する単語スコア計算部と、
前記クラスタ内の各文について、文に含まれる単語列のスコアを合計し、文のスコアを計算する文スコア計算部と、
文書数が最も多いクラスタから順番に、クラスタに含まれる文のうち、要約として未選択の各文について、文のスコアから、当該文と当該クラスタから選択済の文との類似度を減算し、減算結果が最大となる文を選択して要約に追加し、すべてのクラスタを一巡しても所定の要約長に到達しない場合には、再度最も文書数が多いクラスタに戻り、同様の処理を所定の要約長に到達するまで繰り返し実行する文選択部と、
を備えるテキストデータ要約装置。
請求項１に記載のテキストデータ要約装置であって、
前記文選択部において、選択した文を要約に追加すると前記所定の要約長を超える場合には、要約に追加した時に前記所定の要約長の範囲内になる文のうち、前記減算結果が最も大きい文を要約に追加する
ことを特徴とするテキストデータ要約装置。
複数の１以上の文で構成された文書からなるテキストデータが入力され、各文書を任意のクラスタリング手法により、複数のクラスタに分類するクラスタリングステップと、
前記クラスタ内の文書に含まれる各単語列に対し、任意のスコアリング手法によりスコアを付与する単語スコア計算ステップと、
前記クラスタ内の各文について、文に含まれる単語列のスコアを合計し、文のスコアを計算する文スコア計算ステップと、
文書数が最も多いクラスタから順番に、クラスタに含まれる文のうち、要約として未選択の各文について、文のスコアから、当該文と当該クラスタから選択済の文との類似度を減算し、減算結果が最大となる文を選択して要約に追加し、すべてのクラスタを一巡しても所定の要約長に到達しない場合には、再度最も文書数が多いクラスタに戻り、同様の処理を所定の要約長に到達するまで繰り返し実行する文選択ステップと、
を実行するテキストデータ要約方法。
請求項３に記載のテキストデータ要約方法であって、
前記文選択ステップにおいて、選択した文を要約に追加すると前記所定の要約長を超える場合には、要約に追加した時に前記所定の要約長の範囲内になる文のうち、前記減算結果が最も大きい文を要約に追加する
ことを特徴とするテキストデータ要約方法。
請求項１又は２に記載のテキストデータ要約装置としてコンピュータを機能させるためのテキストデータ要約プログラム。