JP2004258723A

JP2004258723A - 話題抽出装置、話題抽出方法およびプログラム

Info

Publication number: JP2004258723A
Application number: JP2003045687A
Authority: JP
Inventors: Naruhiro Ikeda; 成宏池田; Yoshihiro Matsuo; 義博松尾; Yoshihiko Hayashi; 林　　良彦
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2003-02-24
Filing date: 2003-02-24
Publication date: 2004-09-16

Abstract

【課題】所定の文書から、より適切な話題を抽出することができる話題抽出装置、話題抽出方法およびプログラムを提供することを目的とするものである。
【解決手段】文書群中の各文書から話題となりえる表現を規定した話題パターンにマッチする表現を話題候補として抽出し、各話題パターンに与えられたスコアと話題候補中の単語の重要度とに応じたスコアに基づいて、話題候補の話題らしさを表す話題スコアを算出し、この算出された話題スコアが最も大きい話題候補を文書群の話題として選択する。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、関連する複数の文書に共通する話題を抽出し、提示することによって、それらの文書が何について記述されているのかを、使用者が容易に理解することができる話題抽出装置、話題抽出方法およびプログラムに関する。
【０００２】
【従来の技術】
一般に、情報検索システムにおいて、その検索結果には、複数の話題に関する文書が含まれる。したがって、検索結果を提示する際に、検索結果を話題毎に分類して提示すれば、情報検索システムの使用者は、検索結果の概要を容易に把握することができる。この場合、文書から話題を抽出する作業が必要である。
【０００３】
文書から話題を抽出する方法として、話題語優先順位規則に基づいて、文書中の話題語候補（名詞句）に優先順位を付与し、話題候補に係る連体修飾節の有無に応じて、話題語候補優先順位を修正し、優先順位が最も高い話題語候補を、話題語として選択する方法が知られている（たとえば、特許文献１参照）。
【０００４】
また、複数のニュース記事について、類似記事毎にクラスタリングし、クラスタ毎に、そのクラスタを代表する文書を１つ選択し、この選択された１つの文書（代表文書）の中で、単語出現頻度に応じた重みが最も大きくなる名詞句を、各文書に共通する話題として選択する手法が知られている（たとえば、特許文献２参照）。
【０００５】
【特許文献１】
特開平８−０８７５０２号公報
【特許文献２】
特開２０００−２５９６６６公報
【０００６】
【発明が解決しようとする課題】
上記特許文献１記載の手法では、文書の分野に依存しないようにするために、「〜について」、「〜に関して」等の手がかりに応じた優先順位規則を用い、名詞句に含まれる単語の出現頻度等に応じた単語の重要度が考慮されていないという問題がある。また、複数の文書からの話題抽出に対応していないという問題がある。
【０００７】
一方、上記許文献２記載の手法では、関連記事によって構成されているクラスタを代表する記事のみに基づいて、話題が抽出される。したがって、代表記事以外の記事中に、代表記事よりも適切な表現の話題がある場合には、望ましい話題を抽出することができないという問題がある。
【０００８】
また、上記許文献２記載の手法では、話題候補として、名詞句を使用しているが、名詞句に含まれている単語の重要度に応じて、話題候補を決定しているので、話題になりやすい表現を考慮して話題候補を抽出する等、経験的知識を活かして話題候補を抽出することができないという問題がある。
【０００９】
本発明は、所定の文書から、より適切な話題を抽出することができる話題抽出装置、話題抽出方法およびプログラムを提供することを目的とするものである。
【００１０】
【課題を解決するための手段】
本発明は、文書群中の各文書から話題となりえる表現を規定した話題パターンにマッチする表現を話題候補として抽出し、各話題パターンに与えられたスコアと話題候補中の単語の重要度とに応じたスコアに基づいて、話題候補の話題らしさを表す話題スコアを算出し、この算出された話題スコアが最も大きい話題候補を文書群の話題とする。
【００１１】
【発明の実施の形態および実施例】
図１は、本発明の一実施例である話題抽出装置１００を示すブロック図である。
【００１２】
話題抽出装置１００は、入力部１と、制御部２と、文書情報格納部３と、形態素解析部４と、単語重要度計算部５と、類似度計算部６と、話題パターン格納部７と、話題候補抽出部８と、話題スコア計算部９と、話題選択部１０と、出力部１１とを有する。
【００１３】
入力部１１は、使用者から文書ＩＤや制御情報を受け取る入力部であり、制御部２は、話題抽出装置１００の全体を制御する。文書情報格納部３は、文書を格納し、形態素解析部４は、文書を形態素解析し、単語重要度計算部５は、各文書中の単語の重要度を計算する。
【００１４】
類似度計算部６は、文書間の類似度を計算し、話題パターン格納部７は、話題となり得る表現を規定した話題パターンを格納する。
【００１５】
話題候補抽出部８は、話題パターン格納部７中の話題パターンを使用し、入力文書文書から、話題となり得る表現を規定した話題パターンにマッチする話題候補を抽出する話題候補抽出手段の例である。
【００１６】
話題スコア計算部９は、話題スコアを演算する。なお、上記「話題スコア」は、話題候補の話題らしさを示すスコアである。つまり、話題スコア計算部９は、抽出された話題候補にマッチした話題パターンに設定されているスコアと、上記抽出された話題候補中の各単語の単語出現頻度に基づく単語重要度とに応じて、上記話題候補の話題らしさを示す話題スコアを計算する話題スコア計算手段の例である。
【００１７】
話題選択部１０は、話題候補のスコアに応じて、話題を選択する。つまり、話題選択部１０は、抽出された話題候補のうちで、計算された話題スコアが最大である話題候補を、所定の文書群の話題として選択する文章群の話題選択手段の例である。
【００１８】
出力部１１は、選択された話題を出力する。
【００１９】
次に、話題抽出装置１００の動作について説明する。
【００２０】
まず、実際に話題抽出を行なう前に、文書情報格納部３に格納されている全文書について、形態素解析、単語重要度の計算、文書間の類似度を計算する。制御部２は、文書情報格納部３に格納されている全文書を形態素解析するように、形態素解析部４に指示する。
【００２１】
この指示に応じて、形態素解析部４は、文書情報格納部３から文書を読み込み、文書を文毎に分割し、形態素解析し、文書情報格納部３に、形態素解析結果を格納する。ここでの形態素解析は、文書を文毎に分割し、さらに文を単語毎に分割し、各単語に品詞、標準形を付与するものである。
【００２２】
図２（１）、（２）、（３）、（４）は、上記実施例において、文書格納部３に記録されている文書、形態素情報、単語の頻度ｔｆ、文書頻度ｄｆ、ｉｄｆの例を示す図である。
【００２３】
図３（１）、（２）は、上記実施例において、文書格納部３に記録されている単語重要度ｓ、文書間の類似度ｓｉｍの例を示す図である。
【００２４】
たとえば、図２（１）に示す文書の形態素解析結果は、図２（２）に示すようになり、文書情報格納部３に格納される。
【００２５】
形態素解析が終了すると、制御部２は、文書情報格納部３に格納されている全文書中の各自立語の重要度を計算するように、単語重要度計算部５に指示する。自立語の重要度は、ＴＦ・ＩＤＦ値を、文書中の単語数で正規化した値であると定義される。なお、ＴＦ・ＩＤＦ値については、「徳永：『情報検索と言語処理』、東京大学出版会」を参照。
【００２６】
ＴＦ・ＩＤＦ値は、単語の頻度ＴＦ（ＴｅｒｍＦｒｅｑｕｅｎｃｙ）と、単語が、所定の文書中に含まれている度合いを示す尺度ＩＤＦ（ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）との積（ＴＦ・ＩＤＦ値）で示される。また、少数の文書に多数出現する単語程、ＴＦ・ＩＤＦ値が大きく、文書を特徴付ける単語とみなすことができる。文書ｄに含まれている自立語ｗの重要度ｓ（ｗ，ｄ）は、次の式（１）によって示される。
【００２７】
ｓ（ｗ，ｄ）＝ｔｆ（ｗ，ｄ）×ｉｄｆ（ｗ）／ｗｏｒｄｓ（ｄ）
ｉｄｆ（ｗ）＝１＋ｌｏｇ（Ｎ／ｄｆ（ｗ）） … 式（１）
ｔｆ（ｗ，ｄ）：文書ｄにおける単語ｗの出現回数
ｄｆ（ｗ）：単語ｗを含む文書数
ｗｏｒｄｓ（ｄ）：文書ｄにおける自立語の総数
Ｎ：全文書数。
【００２８】
次に、上記実施例において、単語の重要度を計算する手順について説明する。
【００２９】
図４は、上記実施例において、単語重要度を計算する手順を示すフローチャートである。
【００３０】
なお、上記実施例において、各処理ステップがＣＰＵ等の制御手段で実行され、各処理ステップの入出力を一時的に保持する記憶手段を有し、各処理において参照される話題パターン格納部７、文書情報格納部３等のデータベースが、記憶手段に記憶され、上記各データベースが、図４、後述の図７に示すフローチャートに応じて使用される。
【００３１】
上記式（１）は、図４に示す手順で計算される。まず、Ｓ５０１〜Ｓ５０４では、各値を初期化する。Ｓ５０１では、文書ｄにおける自立語数ｗｏｒｄｓ（ｄ）を０にし、Ｓ５０２で自立語と判定された単語について、Ｓ５０３では、文書ｄにおける単語ｗの頻度ｔｆ（ｗ，ｄ）を０にし、Ｓ５０４では、単語ｗを含む文書頻度ｄｆ（ｗ）を０にする。
【００３２】
なお、図４に示すフローチャートにおいて、Ｓ５０４の直下の六角形は、Ｓ５０２の直上に記載されている六角形の繰り返しの終端であることを示し、Ｓ５０４の２つ下の空白の六角形は、Ｓ５０１の直上に記載されている六角形の繰り返しの終端を示す。
【００３３】
次に、Ｓ５０５〜Ｓ５０９では、単語重要度を求めるのに必要な所定文書における単語の頻度ｔｆ、所定単語を含む文書頻度ｄｆ、所定文書における自立語数ｗｏｒｄｓが、カウントされる。Ｓ５０５で自立語であると判定された単語について、Ｓ５０６では、文書ｄの単語頻度ｗｏｒｄｓ（ｄ）をカウントし、Ｓ５０７では、単語の頻度ｔｆ（ｗ，ｄ）＝０である場合には、続くＳ５０８で、文書頻度ｄｆ（ｗ）をカウントし、単語の頻度ｔｆ（ｗ，ｄ）≠０である場合には、Ｓ５０９に進む。
【００３４】
そして、Ｓ５０９では、単語の頻度ｔｆ（ｗ，ｄ）をカウントする。Ｓ５１０〜Ｓ５１２では、単語重要度ｓ（ｗ，ｄ）を計算する。Ｓ５１０では、自立語であると判定された単語について、Ｓ５１１では、文書頻度ｄｆ（ｗ）に基づいて、所定の文書中に所定の単語ｗが含まれている度合いｉｄｆ（ｗ）を計算し、Ｓ５１２では、単語重要度ｓ（ｗ，ｄ）を計算する。
【００３５】
そして、上記計算された単語の頻度ｔｆ（ｗ，ｄ）、文書頻度ｄｆ（ｗ）、ｉｄｆ（ｗ）、単語重要度ｓ（ｗ，ｄ）を、文書格納部３に記録する。
【００３６】
制御部２は、全文書間の類似度の計算を実行するように、類似度計算部６に指示する。ここでは、文書ｄと文書ｅとの類似度ｓｉｍ（ｄ，ｅ）を共有する自立語の割合に基づいて、次の式（２）のように定義するが、他の他の定義を使用するようにしてもよい。
【００３７】
ｓｉｍ（ｄ，ｅ）＝（Σ_ｗｔｆ（ｗ，ｄ）×ｔｆ（ｗ，ｅ））／（Ｌ（ｄ）×Ｌ（ｅ））
Ｌ（ｄ）＝（Σ_ｗｔｆ（ｗ，ｄ）^２）^１／２ … 式（２）。
【００３８】
図５は、上記実施例において、文書間の類似度を計算する動作を示すフローチャートである。
【００３９】
上記式（２）の類似度ｓｉｍ（ｄ，ｅ）は、図５に示す手順で、類似度計算部６が計算する。
【００４０】
まず、Ｓ６０１では、類似度ｓｉｍ（ｄ，ｅ）、Ｌ（ｄ）、Ｌ（ｅ）を０に初期化する。なお、ｔｆ（ｗ，ｄ）は、文書ｄ中の単語ｗの出現回数を表すものであるので、Ｌ（ｄ）は、単語ｗをベクトルの成分、単語の出現回数ｔｆ（ｗ，ｄ）をその成分の値とした場合における文書ｄのベクトルの長さである。また、同様に、Ｌ（ｅ）は、上記と同様に、文書ｅのベクトルの長さである。
【００４１】
そして、文書ｄ中の単語ｗが、Ｓ６０２で自立語であると判断されると、Ｓ６０３では、ｓｉｍ（ｄ，ｅ）を更新し、Ｓ６０４では、Ｌ（ｄ）を更新する。
【００４２】
Ｓ６０５では、最終的なＬ（ｄ）を求める。Ｓ６０６〜Ｓ６０８では、Ｌ（ｅ）を計算する。文書ｅ中の単語ｗが、Ｓ６０６で自立語であると判定されると、Ｓ６０７では、Ｌ（ｅ）を更新する。そして、Ｓ６０８では、最終的なＬ（ｅ）が求められる。最後に、Ｓ６０９では、類似度ｓｉｍ（ｄ，ｅ）を計算する。
【００４３】
上記のようにして、全ての文書について、類似度ｓｉｍを計算し、文書情報格納部３に、類似度ｓｉｍが格納される。
【００４４】
以上で前処理を終了する。
【００４５】
次に、制御部２は、入力部１を介して使用者が入力した情報を取得する。入力部１に、文書ＩＤと話題抽出対象（全文／重要文）とが入力されると（文書ＩＤは複数個指定可能）、入力された文書ＩＤは、制御部２を通じて、話題候補抽出部８へ送られる。なお、指定された文書郡を、Ｄとする。
【００４６】
話題候補抽出部８は、話題パターン格納部７に格納されている話題パターン（話題となり得る表現を規定した話題パターン）にマッチする表現が、話題候補として、各文書から抽出される。入力部１を介して、話題抽出対象として「全文」が指定されている場合、各文書の全文から話題候補が抽出される。
【００４７】
一方、「重要文」が指定されている場合、各文書の重要文から、話題候補が抽出される。新聞記事等の場合には、先頭文において、記事の概要が述べられていることが多いので、記事の先頭文を重要文として抽出することができる。その他一般の文書の場合、文中の単語のＴＦ・ＩＤＦ値の総和を、文の重要度とみなし、重要度が大きい文を、重要文として抽出することができる。
【００４８】
図６は、上記実施例における話題パターンの例を示す図である。
【００４９】
話題パターンは、図６に示す正規表現のような書式で記述され、正規表現がオートマトンに変換され、マッチングが行われ、話題抽出対象から、話題パターンにマッチする表現が抽出される。なお、上記「オートマトン」については、「Ｊ．ホップクロフト、Ｊ．ウルマン：『オートマトン言語理論計算論Ｉ』」を参照されたい。
【００５０】
図６は、上記実施例における話題パターンの一例を示す図である。
【００５１】
話題パターンは、話題となり得る表現を規定した話題パターンであり、どのような単語（表記、品詞、標準表記を指定）の並びの表現を抽出するかを記述したパターンである。
【００５２】
話題パターン１は、接頭辞または名詞で始まり、助詞「の」または「・」で名詞（接頭辞、接尾辞を含む）が接続可能な表現を示すパターンであり、たとえば「日米包括経済協議」や「北朝鮮への食料援助」等の表現にマッチする。
【００５３】
パターンの先頭の（＾｜［：＾（接頭辞｜名詞）：］）と、パターンの末尾の（＄｜［：＾（名詞｜接尾辞）：］）とは、連続する名詞、接頭辞、接尾辞が、途中で分割されないようにするために設けられている。
【００５４】
一方、パターン２は、パターン１と同様な表現にマッチする点では、パターン１とは同じであるが、最後が「事故」、「事件」、「問題」等、特定の名詞で終わる名詞句に限られ、「原発事故」や「電話会社の分離・分割問題」等の表現にマッチする。これらの語は、話題になりやすいと考えられるので、話題パターン１よりも、スコアが高く設定されている。
【００５５】
次に、話題候補抽出部８が抽出した各話題候補の話題スコアを計算する。
【００５６】
文書群Ｄ中の文書ｄの話題パターンｐにマッチした話題候補ｔの話題スコアｓｃｏｒｅ（ｔ，ｄ，ｐ）は、次の式（３）で示される。
【００５７】

ここで、Ｄは、話題抽出対象の文書群、ｍ（ｐ）は、話題パターンｐのマッチングスコア、ｓｉｍ（ｄ，ｅ）は、文書ｄと文書ｅとの類似度、αは、重み付けの定数である。
【００５８】
上記式（３）は、話題パターンｐのスコアによって、話題スコアｓｃｏｒｅが重み付けされ、よく話題に含まれるような単語に対して、話題パターンｐのスコアを大きくする等、話題抽出装置１００の設計者の経験的知識を、話題スコアｓｃｏｒｅ（ｔ，ｄ，ｐ）に反映することができる。
【００５９】
つまり、上記実施例では、「〜事件」、「〜問題」等の話題になりやすそうな表現について、話題パターンのスコアに応じて高い重み付けをする。つまり、上記式（３）でΣによって計算された単語重要度に基づくスコアに対して、話題パターンのスコアｍ（ｐ）をかけ、このように重み付けすることによって、経験的知識を活かして話題候補を抽出することができる。
【００６０】
図７は、上記実施例において、話題スコアｓｃｏｒｅ（ｔ，ｄ，ｐ）の計算手順を示す図である。
【００６１】
Ｓ９１では、ｓｃｏｒｅ（ｔ，ｄ，ｐ）が０に初期化され、文書群Ｄ中の各文書ｅについて、Ｓ９２では、文書ｄと文書ｅとの類似度ｓｉｍ（ｄ，ｅ）を計算し、Ｓ９３では、一時的に保持する単語重要度ｓ（ｗ，ｄ）の和ｓｓが０に初期化される。
【００６２】
次に、話題候補ｔのうちで、Ｓ９４で自立語であると判定された単語ｗについて、スコアを計算する。Ｓ９５では、ｔｆ（ｗ，ｅ）＞０と判定された場合、Ｓ９６では、単語重要度ｓ（ｗ，ｄ）の和ｓｓに単語重要度ｓ（ｗ，ｅ）を加算し、そうではない場合、Ｓ９７では、単語重要度ｓ（ｗ，ｄ）の和ｓｓから、文書ｅ中に単語ｗが存在しないペナルティとして、重みαで重み付けされたｉｄｆ（ｗ）が減算される。
【００６３】
話題候補ｔ中の全単語について、Ｓ９４〜Ｓ９６が実行された後に、Ｓ９７では、話題スコアｓｃｏｒｅ（ｔ，ｄ，ｐ）に、類似度ｓｉｍ（ｄ，ｅ）の重み付きで、単語重要度ｓ（ｗ，ｄ）の和ｓｓを加算する。つまり、「Ｓ９８」を「Ｓ９７」に読みかえると、Ｓ９７の右辺におけるｓｉｍ（ｄ，ｅ）×ｓｓによって、和ｓｓにｓｉｍ（ｄ，ｅ）の重み付けをしている。
【００６４】
そして、文書群Ｄ中の全文書について、上記計算を行い、Ｓ９８では、話題パターンｐによるスコアｍ（ｐ）で、重み付けされた値が、話題候補ｔの最終的な話題スコアになる。つまり、「Ｓ９９」を「Ｓ９８」に読みかえると、Ｓ９８では、話題パターンｐによるスコアｍ（ｐ）をｓｃｏｒｅ（ｔ，ｄ）にかけ、ｓｃｏｒｅ（ｔ，ｄ）の値を重み付けしている。
【００６５】
話題選択部１０では、話題スコア計算部９が計算した話題スコアｓｃｏｒｅ（ｔ，ｄ，ｐ）に基づいて、話題が選択される。話題スコアｓｃｏｒｅ（ｔ，ｄ，ｐ）が最も大きい話題候補ｔが話題として抽出され、出力部１１に送られ、使用者に提示される。
【００６６】
［具体例１］
図８は、上記実施例の説明で使用する話題抽出対象の文書類を示す図である。
【００６７】
ここでは、図８に示すニュース記事１１〜１３における重要文の中から、話題抽出する場合について説明する。
【００６８】
なお、文書情報格納部３には、図８に示す記事以外にも、多数のニュース記事が格納されている。
【００６９】
まず、話題抽出が行われる前に、文書情報格納部３に格納されている全文書について、形態素解析、単語重要度の計算、文書間類似度の計算を行なう。
【００７０】
形態素解析実行の指示が、制御部２から、形態素解析部４に送られると、形態素解析部４では、文書情報格納部３に格納されている各文書を読み込み、形態素解析し、形態素解析結果を、文書情報格納部３に記録する。
【００７１】
態素解析が終了すると、制御部２は、全文書の単語の重要度を計算するように、単語重要度計算部５に指示する。この指示によって、単語重要度計算部５は、各文書の形態素解析結果に基づいて、図４に示す手順で、単語の重要度を計算する。
【００７２】
図９は、上記実施例における単語重要度の計算例を示す図である。
【００７３】
たとえば、文書１１〜１３における「日米」、「包括」、「経済」、「協議」の単語重要度は、図９に示すようになる。
【００７４】
次に、制御部２は、文書間の類似度を計算するように、類似度計算部６に指示し、類似度計算部６が、全文書間の類似度を計算する。
【００７５】
次に、入力部１を介して、使用者が入力した文書ＩＤと、話題候補抽出対象の情報とを取得する。ここでは、文書ＩＤ１１〜文書ＩＤ１３、話題候補抽出対象に、「重要文」が指定されたとする。そして、入力部１を介して指定された文書ＩＤ、話題抽出対象「重要文」の情報は、入力部１から制御部２に送られる。そして、制御部２は、話題候補抽出の指示とともに、文書ＩＤと、話題抽出対象「重要文」の情報とを、話題候補抽出８へ送信する。
【００７６】
話題候補抽出部８は、文書ＩＤと、話題抽出対象「重要文」の情報とを受信すると、まず、文書情報格納部３から、指定された文書の形態素解析結果を取得する。次に、話題パターン格納部７から、話題パターンを読み込み、各文書の重要文の中から、話題パターンに応じて、話題候補を抽出する。ここでは、文書情報格納部３に格納されている文書は、ニュース記事であり、ニュース記事は、先頭文が重要文であることが多いので、重要文として先頭文が抽出される。
【００７７】
図１０は、上記実施例において、話題候補と、その話題スコアとの関係を示す図である。
【００７８】
話題パターン格納部７に、図６に示すような２つの話題パターン（話題パターン１、話題パターン２）が格納されている場合、図１０に示すような話題候補が抽出される。そして、話題候補と、その話題候補の文書ＩＤと、話題パターンのＩＤとの組が、話題スコア計算部９へ送信される。
【００７９】
話題スコア計算部９は、話題候補抽出部８から、話題候補を受信し、図７に示す計算手順に従って、各話題候補の話題スコアを計算する。話題スコアの計算結果の一部を、図１０に示す。
【００８０】
話題スコア計算部９が計算した話題スコアと、話題候補とを、話題選択部１０へ送信する。話題選択部１０は、最大の話題スコアを持つ話題候補を、指定の文書群に共通する話題として、抽出する。この抽出された話題が、出力部１１へ送られ、出力される。この場合、図１０に示す話題スコアのうちで、スコアが最も大きい文書１１の「日米包括経済協議の金融サービス分野交渉」が、話題として選択され、出力される。
［具体例２］
図１１は、上記実施例において、話題抽出対象の文書群を示す図である。
【００８１】
図１１に示す文書２１〜文書２３の重要文（先頭文）から、話題抽出する例について説明する。
【００８２】
具体例１と同様に、話題候補抽出部８において、話題候補パターンに基づいて、話題候補が抽出され、話題スコア計算部９が話題候補のスコアを計算し、話題選択部１０が、最大スコアの話題候補を話題として選択する。
【００８３】
図１２は、上記実施例において、話題候補と、その話題スコアとの例を示す図である。
【００８４】
図１２によれば、文書２１〜文書２３に共通する話題は、文書２３において話題パターン２によって抽出された「もんじゅ事故」である。しかし、話題パターン２が定義されていない場合、文書２２の話題パターン１によって抽出された「ナトリウム火災」が、共通の話題になる。文書２１〜文書２３の話題として、「もんじゅ事故」が、「ナトリウム火災」よりも適しており、話題パターンのスコアをうまく設定することによって、より適切な話題を抽出することができる。
【００８５】
［具体例３］
上記実施例を、情報検索装置とともに用いると、検索結果を話題毎にまとめ、検索結果の概要を、わかりやすく提示することができる。
【００８６】
図１３は、上記実施例において、「日米包括経済協議」というキーワードによって検索し、この検索結果を示す画面の例を示す図である。
【００８７】
検索結果は、いずれも「日米包括経済協議」に関する文書ではあるが、検索結果の１、３、６は、「金融サービス分野交渉」に関する文書であり、検索結果の２、４、５、７の文書は、「自動車・同部品分野交渉」に関する文書である。２つの話題の文書が混在しているので、使用者にとっては、検索結果が見づらい。
【００８８】
ところが、上記実施例によれば、複数の文書に共通する話題を抽出し、検索結果に共通する話題を、自動的に抽出し、検索結果に付与することができ、したがって、使用者にとっては、検索結果が見易い。
【００８９】
図１４は、上記実施例において、情報検索結果を、上記実施例とは別に、クラスタリング手法を用いてクラスタリングし、上記実施例によって、各クラスタの文書に共通な話題を抽出し、話題毎に検索結果を提示する例を示す図である。
【００９０】
図１４では、「日米包括経済協議」の検索結果が、「日米包括経済協議の金融サービス分野交渉」と、「日米包括経済協議の自動車・同部品分野交渉」とに分けられ、提示され、使用者は、話題を手がかりにして、効率的に所望の文書を発見することができる。
【００９１】
上記実施例では、人手によって作成された話題パターンを用いて、所定の文書群から、所定の話題パターンにマッチする話題候補を抽出し、この抽出された話題候補について、単語出現頻度に基づく話題スコアを計算し、この計算された話題スコアが最大となる話題候補を、文書群に共通する話題として抽出している。
【００９２】
上記実施例において、話題パターンと、話題スコアとを適切に設定することによって、より適切な話題を抽出することができる。
【００９３】
また、情報検索装置とともに使用すれば、検索結果を話題毎に分け、話題を付加することによって、使用者は、話題を手がかりとして、所望の文書を効率的に発見することができる。
【００９４】
なお、上記実施例を、方法の発明として把握することができる。つまり、上記実施例は、所定の文書群中の各文書に共通する話題を抽出する話題抽出方法において、上記各文書を形態素解析する形態素解析段階と、話題となり得る表現を規定した話題パターンにマッチする話題候補を、上記各文書から、抽出する話題候補抽出段階と、上記抽出された話題候補にマッチした話題パターンに設定されているスコアと、上記抽出された話題候補中の各単語の単語出現頻度に基づく単語重要度とに応じて、上記話題候補の話題らしさを示す話題スコアを計算する話題スコア計算段階と、上記抽出された話題候補のうちで、上記計算された話題スコアが最大である話題候補を、上記所定の文書群の話題として選択する文章群の話題選択段階とを有することを特徴とする話題抽出方法の例である。
【００９５】
また、上記実施例を、プログラムの発明として把握することができる。つまり、上記実施例は、所定の文書群中の各文書に共通する話題を抽出するプログラムにおいて、上記各文書を形態素解析する形態素解析手順と、話題となり得る表現を規定した話題パターンにマッチする話題候補を、上記各文書から、話題候補抽出手段が抽出する話題候補抽出手順と、上記抽出された話題候補にマッチした話題パターンに設定されているスコアと、上記抽出された話題候補中の各単語の単語出現頻度に基づく単語重要度とに応じて、上記話題候補の話題らしさを示す話題スコアを、話題スコア計算手段が計算する話題スコア計算手順と、上記抽出された話題候補のうちで、上記計算された話題スコアが最大である話題候補を、上記所定の文書群の話題として、話題選択手段が選択する文章群の話題選択手順とをコンピュータに実行させるプログラムの例である。
【００９６】
【発明の効果】
本発明によれば、所定の文書から、より適切な話題を抽出することができるという効果を奏する。
【図面の簡単な説明】
【図１】本発明の一実施例である話題抽出装置１００を示すブロック図である。
【図２】上記実施例において、文書格納部３に記録されている文書、形態素情報、単語の頻度ｔｆ、文書頻度ｄｆ、ｉｄｆの例を示す図である。
【図３】上記実施例において、文書格納部３に記録されている単語重要度ｓ、文書間の類似度ｓｉｍの例を示す図である。
【図４】上記実施例において単語重要度を計算する手順を示すフローチャートである。
【図５】上記実施例において、文書間の類似度を計算する動作を示すフローチャートである。
【図６】上記実施例における話題パターンの例を示す図である。
【図７】上記実施例において、話題スコアｓｃｏｒｅ（ｔ，ｄ，ｐ）の計算手順を示す図である。
【図８】上記実施例の説明で使用する話題抽出対象の文書類を示す図である。
【図９】上記実施例における単語重要度の計算例を示す図である。
【図１０】上記実施例において、話題候補と、その話題スコアとの関係を示す図である。
【図１１】上記実施例において、話題抽出対象の文書群を示す図である。
【図１２】上記実施例において、話題候補と、その話題スコアとの例を示す図である。
【図１３】上記実施例において、「日米包括経済協議」というキーワードによって検索し、この検索結果を示す画面の例を示す図である。
【図１４】上記実施例において、情報検索結果を、上記実施例とは別に、クラスタリング手法を用いてクラスタリングし、上記実施例によって、各クラスタの文書に共通な話題を抽出し、話題毎に検索結果を提示する例を示す図である。
【符号の説明】
１００…話題抽出装置、
１…入力部、
２…制御部、
３…文書情報格納部、
４…形態素解析部、
５…単語重要度計算部、
６…類似度計算部、
７…話題パターン格納部、
８…話題候補抽出部、
９…話題スコア計算部、
１０…話題選択部、
１１…出力部、
ｄ、ｅ…文書、
ｗ…自立語、
ｓ（ｗ，ｄ）…文書ｄに含まれている自立語ｗの重要度、
ｔｆ（ｗ，ｄ）…文書ｄにおける単語ｗの出現回数、
ｄｆ（ｗ）…単語ｗを含む文書数、
ｗｏｒｄｓ（ｄ）…文書ｄにおける単語頻度、
ｓｉｍ（ｄ，ｅ）…文書ｄと文書ｅとの類似度、
Ｎ…全文書数、
Ｄ…話題抽出対象の文書群、
ｐ…話題パターン、
ｔ…話題候補、
ｓｃｏｒｅ（ｔ，ｄ，ｐ）…文書群Ｄ中の文書ｄの話題パターンｐにマッチした話題候補ｔの話題スコア、
ｍ（ｐ）…話題パターンｐのマッチングスコア、
α…重み付けの定数。

Claims

所定の文書群中の各文書に共通する話題を抽出する話題抽出装置において、
上記各文書を形態素解析する形態素解析手段と；
話題となり得る表現を規定した話題パターンにマッチする話題候補を、上記各文書から、抽出する話題候補抽出手段と；
上記抽出された話題候補にマッチした話題パターンに設定されているスコアと、上記抽出された話題候補中の各単語の単語出現頻度に基づく単語重要度とに応じて、上記話題候補の話題らしさを示す話題スコアを計算する話題スコア計算手段と；
上記抽出された話題候補のうちで、上記計算された話題スコアが最大である話題候補を、上記所定の文書群の話題として選択する文章群の話題選択手段と；
を有することを特徴とする話題抽出装置。
所定の文書群中の各文書に共通する話題を抽出する話題抽出方法において、
上記各文書を形態素解析する形態素解析段階と；
話題となり得る表現を規定した話題パターンにマッチする話題候補を、上記各文書から、抽出する話題候補抽出段階と；
上記抽出された話題候補にマッチした話題パターンに設定されているスコアと、上記抽出された話題候補中の各単語の単語出現頻度に基づく単語重要度とに応じて、上記話題候補の話題らしさを示す話題スコアを計算する話題スコア計算段階と；
上記抽出された話題候補のうちで、上記計算された話題スコアが最大である話題候補を、上記所定の文書群の話題として選択する文章群の話題選択段階と；
を有することを特徴とする話題抽出方法。
所定の文書群中の各文書に共通する話題を抽出するプログラムにおいて、
上記各文書を形態素解析する形態素解析手順と；
話題となり得る表現を規定した話題パターンにマッチする話題候補を、上記各文書から、話題候補抽出手段が抽出する話題候補抽出手順と；
上記抽出された話題候補にマッチした話題パターンに設定されているスコアと、上記抽出された話題候補中の各単語の単語出現頻度に基づく単語重要度とに応じて、上記話題候補の話題らしさを示す話題スコアを、話題スコア計算手段が計算する話題スコア計算手順と；
上記抽出された話題候補のうちで、上記計算された話題スコアが最大である話題候補を、上記所定の文書群の話題として、話題選択手段が選択する文章群の話題選択手順と；
をコンピュータに実行させるプログラム。