JP2004258723A - 話題抽出装置、話題抽出方法およびプログラム - Google Patents
話題抽出装置、話題抽出方法およびプログラム Download PDFInfo
- Publication number
- JP2004258723A JP2004258723A JP2003045687A JP2003045687A JP2004258723A JP 2004258723 A JP2004258723 A JP 2004258723A JP 2003045687 A JP2003045687 A JP 2003045687A JP 2003045687 A JP2003045687 A JP 2003045687A JP 2004258723 A JP2004258723 A JP 2004258723A
- Authority
- JP
- Japan
- Prior art keywords
- topic
- candidate
- score
- document
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】所定の文書から、より適切な話題を抽出することができる話題抽出装置、話題抽出方法およびプログラムを提供することを目的とするものである。
【解決手段】文書群中の各文書から話題となりえる表現を規定した話題パターンにマッチする表現を話題候補として抽出し、各話題パターンに与えられたスコアと話題候補中の単語の重要度とに応じたスコアに基づいて、話題候補の話題らしさを表す話題スコアを算出し、この算出された話題スコアが最も大きい話題候補を文書群の話題として選択する。
【選択図】 図1
【解決手段】文書群中の各文書から話題となりえる表現を規定した話題パターンにマッチする表現を話題候補として抽出し、各話題パターンに与えられたスコアと話題候補中の単語の重要度とに応じたスコアに基づいて、話題候補の話題らしさを表す話題スコアを算出し、この算出された話題スコアが最も大きい話題候補を文書群の話題として選択する。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は、関連する複数の文書に共通する話題を抽出し、提示することによって、それらの文書が何について記述されているのかを、使用者が容易に理解することができる話題抽出装置、話題抽出方法およびプログラムに関する。
【0002】
【従来の技術】
一般に、情報検索システムにおいて、その検索結果には、複数の話題に関する文書が含まれる。したがって、検索結果を提示する際に、検索結果を話題毎に分類して提示すれば、情報検索システムの使用者は、検索結果の概要を容易に把握することができる。この場合、文書から話題を抽出する作業が必要である。
【0003】
文書から話題を抽出する方法として、話題語優先順位規則に基づいて、文書中の話題語候補(名詞句)に優先順位を付与し、話題候補に係る連体修飾節の有無に応じて、話題語候補優先順位を修正し、優先順位が最も高い話題語候補を、話題語として選択する方法が知られている(たとえば、特許文献1参照)。
【0004】
また、複数のニュース記事について、類似記事毎にクラスタリングし、クラスタ毎に、そのクラスタを代表する文書を1つ選択し、この選択された1つの文書(代表文書)の中で、単語出現頻度に応じた重みが最も大きくなる名詞句を、各文書に共通する話題として選択する手法が知られている(たとえば、特許文献2参照)。
【0005】
【特許文献1】
特開平8−087502号公報
【特許文献2】
特開2000−259666公報
【0006】
【発明が解決しようとする課題】
上記特許文献1記載の手法では、文書の分野に依存しないようにするために、「〜について」、「〜に関して」等の手がかりに応じた優先順位規則を用い、名詞句に含まれる単語の出現頻度等に応じた単語の重要度が考慮されていないという問題がある。また、複数の文書からの話題抽出に対応していないという問題がある。
【0007】
一方、上記許文献2記載の手法では、関連記事によって構成されているクラスタを代表する記事のみに基づいて、話題が抽出される。したがって、代表記事以外の記事中に、代表記事よりも適切な表現の話題がある場合には、望ましい話題を抽出することができないという問題がある。
【0008】
また、上記許文献2記載の手法では、話題候補として、名詞句を使用しているが、名詞句に含まれている単語の重要度に応じて、話題候補を決定しているので、話題になりやすい表現を考慮して話題候補を抽出する等、経験的知識を活かして話題候補を抽出することができないという問題がある。
【0009】
本発明は、所定の文書から、より適切な話題を抽出することができる話題抽出装置、話題抽出方法およびプログラムを提供することを目的とするものである。
【0010】
【課題を解決するための手段】
本発明は、文書群中の各文書から話題となりえる表現を規定した話題パターンにマッチする表現を話題候補として抽出し、各話題パターンに与えられたスコアと話題候補中の単語の重要度とに応じたスコアに基づいて、話題候補の話題らしさを表す話題スコアを算出し、この算出された話題スコアが最も大きい話題候補を文書群の話題とする。
【0011】
【発明の実施の形態および実施例】
図1は、本発明の一実施例である話題抽出装置100を示すブロック図である。
【0012】
話題抽出装置100は、入力部1と、制御部2と、文書情報格納部3と、形態素解析部4と、単語重要度計算部5と、類似度計算部6と、話題パターン格納部7と、話題候補抽出部8と、話題スコア計算部9と、話題選択部10と、出力部11とを有する。
【0013】
入力部11は、使用者から文書IDや制御情報を受け取る入力部であり、制御部2は、話題抽出装置100の全体を制御する。文書情報格納部3は、文書を格納し、形態素解析部4は、文書を形態素解析し、単語重要度計算部5は、各文書中の単語の重要度を計算する。
【0014】
類似度計算部6は、文書間の類似度を計算し、話題パターン格納部7は、話題となり得る表現を規定した話題パターンを格納する。
【0015】
話題候補抽出部8は、話題パターン格納部7中の話題パターンを使用し、入力文書文書から、話題となり得る表現を規定した話題パターンにマッチする話題候補を抽出する話題候補抽出手段の例である。
【0016】
話題スコア計算部9は、話題スコアを演算する。なお、上記「話題スコア」は、話題候補の話題らしさを示すスコアである。つまり、話題スコア計算部9は、抽出された話題候補にマッチした話題パターンに設定されているスコアと、上記抽出された話題候補中の各単語の単語出現頻度に基づく単語重要度とに応じて、上記話題候補の話題らしさを示す話題スコアを計算する話題スコア計算手段の例である。
【0017】
話題選択部10は、話題候補のスコアに応じて、話題を選択する。つまり、話題選択部10は、抽出された話題候補のうちで、計算された話題スコアが最大である話題候補を、所定の文書群の話題として選択する文章群の話題選択手段の例である。
【0018】
出力部11は、選択された話題を出力する。
【0019】
次に、話題抽出装置100の動作について説明する。
【0020】
まず、実際に話題抽出を行なう前に、文書情報格納部3に格納されている全文書について、形態素解析、単語重要度の計算、文書間の類似度を計算する。制御部2は、文書情報格納部3に格納されている全文書を形態素解析するように、形態素解析部4に指示する。
【0021】
この指示に応じて、形態素解析部4は、文書情報格納部3から文書を読み込み、文書を文毎に分割し、形態素解析し、文書情報格納部3に、形態素解析結果を格納する。ここでの形態素解析は、文書を文毎に分割し、さらに文を単語毎に分割し、各単語に品詞、標準形を付与するものである。
【0022】
図2(1)、(2)、(3)、(4)は、上記実施例において、文書格納部3に記録されている文書、形態素情報、単語の頻度tf、文書頻度df、idfの例を示す図である。
【0023】
図3(1)、(2)は、上記実施例において、文書格納部3に記録されている単語重要度s、文書間の類似度simの例を示す図である。
【0024】
たとえば、図2(1)に示す文書の形態素解析結果は、図2(2)に示すようになり、文書情報格納部3に格納される。
【0025】
形態素解析が終了すると、制御部2は、文書情報格納部3に格納されている全文書中の各自立語の重要度を計算するように、単語重要度計算部5に指示する。自立語の重要度は、TF・IDF値を、文書中の単語数で正規化した値であると定義される。なお、TF・IDF値については、「徳永:『情報検索と言語処理』、東京大学出版会」を参照。
【0026】
TF・IDF値は、単語の頻度TF(Term Frequency)と、単語が、所定の文書中に含まれている度合いを示す尺度IDF(Inverse Document Frequency)との積(TF・IDF値)で示される。また、少数の文書に多数出現する単語程、TF・IDF値が大きく、文書を特徴付ける単語とみなすことができる。文書dに含まれている自立語wの重要度s(w,d)は、次の式(1)によって示される。
【0027】
s(w,d)=tf(w,d)×idf(w)/words(d)
idf(w)=1+log(N/df(w)) … 式(1)
tf(w,d):文書dにおける単語wの出現回数
df(w):単語wを含む文書数
words(d):文書dにおける自立語の総数
N:全文書数。
【0028】
次に、上記実施例において、単語の重要度を計算する手順について説明する。
【0029】
図4は、上記実施例において、単語重要度を計算する手順を示すフローチャートである。
【0030】
なお、上記実施例において、各処理ステップがCPU等の制御手段で実行され、各処理ステップの入出力を一時的に保持する記憶手段を有し、各処理において参照される話題パターン格納部7、文書情報格納部3等のデータベースが、記憶手段に記憶され、上記各データベースが、図4、後述の図7に示すフローチャートに応じて使用される。
【0031】
上記式(1)は、図4に示す手順で計算される。まず、S501〜S504では、各値を初期化する。S501では、文書dにおける自立語数words(d)を0にし、S502で自立語と判定された単語について、S503では、文書dにおける単語wの頻度tf(w,d)を0にし、S504では、単語wを含む文書頻度df(w)を0にする。
【0032】
なお、図4に示すフローチャートにおいて、S504の直下の六角形は、S502の直上に記載されている六角形の繰り返しの終端であることを示し、S504の2つ下の空白の六角形は、S501の直上に記載されている六角形の繰り返しの終端を示す。
【0033】
次に、S505〜S509では、単語重要度を求めるのに必要な所定文書における単語の頻度tf、所定単語を含む文書頻度df、所定文書における自立語数wordsが、カウントされる。S505で自立語であると判定された単語について、S506では、文書dの単語頻度words(d)をカウントし、S507では、単語の頻度tf(w,d)=0である場合には、続くS508で、文書頻度df(w)をカウントし、単語の頻度tf(w,d)≠0である場合には、S509に進む。
【0034】
そして、S509では、単語の頻度tf(w,d)をカウントする。S510〜S512では、単語重要度s(w,d)を計算する。S510では、自立語であると判定された単語について、S511では、文書頻度df(w)に基づいて、所定の文書中に所定の単語wが含まれている度合いidf(w)を計算し、S512では、単語重要度s(w,d)を計算する。
【0035】
そして、上記計算された単語の頻度tf(w,d)、文書頻度df(w)、idf(w)、単語重要度s(w,d)を、文書格納部3に記録する。
【0036】
制御部2は、全文書間の類似度の計算を実行するように、類似度計算部6に指示する。ここでは、文書dと文書eとの類似度sim(d,e)を共有する自立語の割合に基づいて、次の式(2)のように定義するが、他の他の定義を使用するようにしてもよい。
【0037】
sim(d,e)=(Σwtf(w,d)×tf(w,e))/(L(d)×L(e))
L(d)=(Σwtf(w,d)2)1/2 … 式(2)。
【0038】
図5は、上記実施例において、文書間の類似度を計算する動作を示すフローチャートである。
【0039】
上記式(2)の類似度sim(d,e)は、図5に示す手順で、類似度計算部6が計算する。
【0040】
まず、S601では、類似度sim(d,e)、L(d)、L(e)を0に初期化する。なお、 tf(w,d)は、文書d中の単語wの出現回数を表すものであるので、L(d)は、単語wをベクトルの成分、単語の出現回数tf(w,d)をその成分の値とした場合における文書dのベクトルの長さである。また、同様に、L(e)は、上記と同様に、文書eのベクトルの長さである。
【0041】
そして、文書d中の単語wが、S602で自立語であると判断されると、S603では、sim(d,e)を更新し、S604では、L(d)を更新する。
【0042】
S605では、最終的なL(d)を求める。S606〜S608では、L(e)を計算する。文書e中の単語wが、S606で自立語であると判定されると、S607では、L(e)を更新する。そして、S608では、最終的なL(e)が求められる。最後に、S609では、類似度sim(d,e)を計算する。
【0043】
上記のようにして、全ての文書について、類似度simを計算し、文書情報格納部3に、類似度simが格納される。
【0044】
以上で前処理を終了する。
【0045】
次に、制御部2は、入力部1を介して使用者が入力した情報を取得する。入力部1に、文書IDと話題抽出対象(全文/重要文)とが入力されると(文書IDは複数個指定可能)、入力された文書IDは、制御部2を通じて、話題候補抽出部8へ送られる。なお、指定された文書郡を、Dとする。
【0046】
話題候補抽出部8は、話題パターン格納部7に格納されている話題パターン(話題となり得る表現を規定した話題パターン)にマッチする表現が、話題候補として、各文書から抽出される。入力部1を介して、話題抽出対象として「全文」が指定されている場合、各文書の全文から話題候補が抽出される。
【0047】
一方、「重要文」が指定されている場合、各文書の重要文から、話題候補が抽出される。新聞記事等の場合には、先頭文において、記事の概要が述べられていることが多いので、記事の先頭文を重要文として抽出することができる。その他一般の文書の場合、文中の単語のTF・IDF値の総和を、文の重要度とみなし、重要度が大きい文を、重要文として抽出することができる。
【0048】
図6は、上記実施例における話題パターンの例を示す図である。
【0049】
話題パターンは、図6に示す正規表現のような書式で記述され、正規表現がオートマトンに変換され、マッチングが行われ、話題抽出対象から、話題パターンにマッチする表現が抽出される。なお、上記「オートマトン」については、「J.ホップクロフト、J.ウルマン:『オートマトン 言語理論 計算論I』」を参照されたい。
【0050】
図6は、上記実施例における話題パターンの一例を示す図である。
【0051】
話題パターンは、話題となり得る表現を規定した話題パターンであり、どのような単語(表記、品詞、標準表記を指定)の並びの表現を抽出するかを記述したパターンである。
【0052】
話題パターン1は、接頭辞または名詞で始まり、助詞「の」または「・」で名詞(接頭辞、接尾辞を含む)が接続可能な表現を示すパターンであり、たとえば「日米包括経済協議」や「北朝鮮への食料援助」等の表現にマッチする。
【0053】
パターンの先頭の(^|[:^(接頭辞|名詞):])と、パターンの末尾の($|[:^(名詞|接尾辞):])とは、連続する名詞、接頭辞、接尾辞が、途中で分割されないようにするために設けられている。
【0054】
一方、パターン2は、パターン1と同様な表現にマッチする点では、パターン1とは同じであるが、最後が「事故」、「事件」、「問題」等、特定の名詞で終わる名詞句に限られ、「原発事故」や「電話会社の分離・分割問題」等の表現にマッチする。これらの語は、話題になりやすいと考えられるので、話題パターン1よりも、スコアが高く設定されている。
【0055】
次に、話題候補抽出部8が抽出した各話題候補の話題スコアを計算する。
【0056】
文書群D中の文書dの話題パターンpにマッチした話題候補tの話題スコアscore(t,d,p)は、次の式(3)で示される。
【0057】
ここで、Dは、話題抽出対象の文書群、m(p)は、話題パターンpのマッチングスコア、sim(d,e)は、文書dと文書eとの類似度、αは、重み付けの定数である。
【0058】
上記式(3)は、話題パターンpのスコアによって、話題スコアscoreが重み付けされ、よく話題に含まれるような単語に対して、話題パターンpのスコアを大きくする等、話題抽出装置100の設計者の経験的知識を、話題スコアscore(t,d,p)に反映することができる。
【0059】
つまり、上記実施例では、「〜事件」、「〜問題」等の話題になりやすそうな表現について、話題パターンのスコアに応じて高い重み付けをする。つまり、上記式(3)でΣによって計算された単語重要度に基づくスコアに対して、話題パターンのスコアm(p)をかけ、このように重み付けすることによって、経験的知識を活かして話題候補を抽出することができる。
【0060】
図7は、上記実施例において、話題スコアscore(t,d,p)の計算手順を示す図である。
【0061】
S91では、score(t,d,p)が0に初期化され、文書群D中の各文書eについて、S92では、文書dと文書eとの類似度sim(d,e)を計算し、S93では、一時的に保持する単語重要度s(w,d)の和ssが0に初期化される。
【0062】
次に、話題候補tのうちで、S94で自立語であると判定された単語wについて、スコアを計算する。S95では、tf(w,e)>0と判定された場合、S96では、単語重要度s(w,d)の和ssに単語重要度s(w,e)を加算し、そうではない場合、S97では、単語重要度s(w,d)の和ssから、文書e中に単語wが存在しないペナルティとして、重みαで重み付けされたidf(w)が減算される。
【0063】
話題候補t中の全単語について、S94〜S96が実行された後に、S97では、話題スコアscore(t,d,p)に、類似度sim(d,e)の重み付きで、単語重要度s(w,d)の和ssを加算する。つまり、「S98」を「S97」に読みかえると、S97の右辺におけるsim(d,e)×ssによって、和ssにsim(d,e)の重み付けをしている。
【0064】
そして、文書群D中の全文書について、上記計算を行い、S98では、話題パターンpによるスコアm(p)で、重み付けされた値が、話題候補tの最終的な話題スコアになる。つまり、「S99」を「S98」に読みかえると、S98では、話題パターンpによるスコアm(p)をscore(t,d)にかけ、score(t,d)の値を重み付けしている。
【0065】
話題選択部10では、話題スコア計算部9が計算した話題スコアscore(t,d,p)に基づいて、話題が選択される。話題スコアscore(t,d,p)が最も大きい話題候補tが話題として抽出され、出力部11に送られ、使用者に提示される。
【0066】
[具体例1]
図8は、上記実施例の説明で使用する話題抽出対象の文書類を示す図である。
【0067】
ここでは、図8に示すニュース記事11〜13における重要文の中から、話題抽出する場合について説明する。
【0068】
なお、文書情報格納部3には、図8に示す記事以外にも、多数のニュース記事が格納されている。
【0069】
まず、話題抽出が行われる前に、文書情報格納部3に格納されている全文書について、形態素解析、単語重要度の計算、文書間類似度の計算を行なう。
【0070】
形態素解析実行の指示が、制御部2から、形態素解析部4に送られると、形態素解析部4では、文書情報格納部3に格納されている各文書を読み込み、形態素解析し、形態素解析結果を、文書情報格納部3に記録する。
【0071】
態素解析が終了すると、制御部2は、全文書の単語の重要度を計算するように、単語重要度計算部5に指示する。この指示によって、単語重要度計算部5は、各文書の形態素解析結果に基づいて、図4に示す手順で、単語の重要度を計算する。
【0072】
図9は、上記実施例における単語重要度の計算例を示す図である。
【0073】
たとえば、文書11〜13における「日米」、「包括」、「経済」、「協議」の単語重要度は、図9に示すようになる。
【0074】
次に、制御部2は、文書間の類似度を計算するように、類似度計算部6に指示し、類似度計算部6が、全文書間の類似度を計算する。
【0075】
次に、入力部1を介して、使用者が入力した文書IDと、話題候補抽出対象の情報とを取得する。ここでは、文書ID11〜文書ID13、話題候補抽出対象に、「重要文」が指定されたとする。そして、入力部1を介して指定された文書ID、話題抽出対象「重要文」の情報は、入力部1から制御部2に送られる。そして、制御部2は、話題候補抽出の指示とともに、文書IDと、話題抽出対象「重要文」の情報とを、話題候補抽出8へ送信する。
【0076】
話題候補抽出部8は、文書IDと、話題抽出対象「重要文」の情報とを受信すると、まず、文書情報格納部3から、指定された文書の形態素解析結果を取得する。次に、話題パターン格納部7から、話題パターンを読み込み、各文書の重要文の中から、話題パターンに応じて、話題候補を抽出する。ここでは、文書情報格納部3に格納されている文書は、ニュース記事であり、ニュース記事は、先頭文が重要文であることが多いので、重要文として先頭文が抽出される。
【0077】
図10は、上記実施例において、話題候補と、その話題スコアとの関係を示す図である。
【0078】
話題パターン格納部7に、図6に示すような2つの話題パターン(話題パターン1、話題パターン2)が格納されている場合、図10に示すような話題候補が抽出される。そして、話題候補と、その話題候補の文書IDと、話題パターンのIDとの組が、話題スコア計算部9へ送信される。
【0079】
話題スコア計算部9は、話題候補抽出部8から、話題候補を受信し、図7に示す計算手順に従って、各話題候補の話題スコアを計算する。話題スコアの計算結果の一部を、図10に示す。
【0080】
話題スコア計算部9が計算した話題スコアと、話題候補とを、話題選択部10へ送信する。話題選択部10は、最大の話題スコアを持つ話題候補を、指定の文書群に共通する話題として、抽出する。この抽出された話題が、出力部11へ送られ、出力される。この場合、図10に示す話題スコアのうちで、スコアが最も大きい文書11の「日米包括経済協議の金融サービス分野交渉」が、話題として選択され、出力される。
[具体例2]
図11は、上記実施例において、話題抽出対象の文書群を示す図である。
【0081】
図11に示す文書21〜文書23の重要文(先頭文)から、話題抽出する例について説明する。
【0082】
具体例1と同様に、話題候補抽出部8において、話題候補パターンに基づいて、話題候補が抽出され、話題スコア計算部9が話題候補のスコアを計算し、話題選択部10が、最大スコアの話題候補を話題として選択する。
【0083】
図12は、上記実施例において、話題候補と、その話題スコアとの例を示す図である。
【0084】
図12によれば、文書21〜文書23に共通する話題は、文書23において話題パターン2によって抽出された「もんじゅ事故」である。しかし、話題パターン2が定義されていない場合、文書22の話題パターン1によって抽出された「ナトリウム火災」が、共通の話題になる。文書21〜文書23の話題として、「もんじゅ事故」が、「ナトリウム火災」よりも適しており、話題パターンのスコアをうまく設定することによって、より適切な話題を抽出することができる。
【0085】
[具体例3]
上記実施例を、情報検索装置とともに用いると、検索結果を話題毎にまとめ、検索結果の概要を、わかりやすく提示することができる。
【0086】
図13は、上記実施例において、「日米包括経済協議」というキーワードによって検索し、この検索結果を示す画面の例を示す図である。
【0087】
検索結果は、いずれも「日米包括経済協議」に関する文書ではあるが、検索結果の1、3、6は、「金融サービス分野交渉」に関する文書であり、検索結果の2、4、5、7の文書は、「自動車・同部品分野交渉」に関する文書である。2つの話題の文書が混在しているので、使用者にとっては、検索結果が見づらい。
【0088】
ところが、上記実施例によれば、複数の文書に共通する話題を抽出し、検索結果に共通する話題を、自動的に抽出し、検索結果に付与することができ、したがって、使用者にとっては、検索結果が見易い。
【0089】
図14は、上記実施例において、情報検索結果を、上記実施例とは別に、クラスタリング手法を用いてクラスタリングし、上記実施例によって、各クラスタの文書に共通な話題を抽出し、話題毎に検索結果を提示する例を示す図である。
【0090】
図14では、「日米包括経済協議」の検索結果が、「日米包括経済協議の金融サービス分野交渉」と、「日米包括経済協議の自動車・同部品分野交渉」とに分けられ、提示され、使用者は、話題を手がかりにして、効率的に所望の文書を発見することができる。
【0091】
上記実施例では、人手によって作成された話題パターンを用いて、所定の文書群から、所定の話題パターンにマッチする話題候補を抽出し、この抽出された話題候補について、単語出現頻度に基づく話題スコアを計算し、この計算された話題スコアが最大となる話題候補を、文書群に共通する話題として抽出している。
【0092】
上記実施例において、話題パターンと、話題スコアとを適切に設定することによって、より適切な話題を抽出することができる。
【0093】
また、情報検索装置とともに使用すれば、検索結果を話題毎に分け、話題を付加することによって、使用者は、話題を手がかりとして、所望の文書を効率的に発見することができる。
【0094】
なお、上記実施例を、方法の発明として把握することができる。つまり、上記実施例は、所定の文書群中の各文書に共通する話題を抽出する話題抽出方法において、上記各文書を形態素解析する形態素解析段階と、話題となり得る表現を規定した話題パターンにマッチする話題候補を、上記各文書から、抽出する話題候補抽出段階と、上記抽出された話題候補にマッチした話題パターンに設定されているスコアと、上記抽出された話題候補中の各単語の単語出現頻度に基づく単語重要度とに応じて、上記話題候補の話題らしさを示す話題スコアを計算する話題スコア計算段階と、上記抽出された話題候補のうちで、上記計算された話題スコアが最大である話題候補を、上記所定の文書群の話題として選択する文章群の話題選択段階とを有することを特徴とする話題抽出方法の例である。
【0095】
また、上記実施例を、プログラムの発明として把握することができる。つまり、上記実施例は、所定の文書群中の各文書に共通する話題を抽出するプログラムにおいて、上記各文書を形態素解析する形態素解析手順と、話題となり得る表現を規定した話題パターンにマッチする話題候補を、上記各文書から、話題候補抽出手段が抽出する話題候補抽出手順と、上記抽出された話題候補にマッチした話題パターンに設定されているスコアと、上記抽出された話題候補中の各単語の単語出現頻度に基づく単語重要度とに応じて、上記話題候補の話題らしさを示す話題スコアを、話題スコア計算手段が計算する話題スコア計算手順と、上記抽出された話題候補のうちで、上記計算された話題スコアが最大である話題候補を、上記所定の文書群の話題として、話題選択手段が選択する文章群の話題選択手順とをコンピュータに実行させるプログラムの例である。
【0096】
【発明の効果】
本発明によれば、所定の文書から、より適切な話題を抽出することができるという効果を奏する。
【図面の簡単な説明】
【図1】本発明の一実施例である話題抽出装置100を示すブロック図である。
【図2】上記実施例において、文書格納部3に記録されている文書、形態素情報、単語の頻度tf、文書頻度df、idfの例を示す図である。
【図3】上記実施例において、文書格納部3に記録されている単語重要度s、文書間の類似度simの例を示す図である。
【図4】上記実施例において単語重要度を計算する手順を示すフローチャートである。
【図5】上記実施例において、文書間の類似度を計算する動作を示すフローチャートである。
【図6】上記実施例における話題パターンの例を示す図である。
【図7】上記実施例において、話題スコアscore(t,d,p)の計算手順を示す図である。
【図8】上記実施例の説明で使用する話題抽出対象の文書類を示す図である。
【図9】上記実施例における単語重要度の計算例を示す図である。
【図10】上記実施例において、話題候補と、その話題スコアとの関係を示す図である。
【図11】上記実施例において、話題抽出対象の文書群を示す図である。
【図12】上記実施例において、話題候補と、その話題スコアとの例を示す図である。
【図13】上記実施例において、「日米包括経済協議」というキーワードによって検索し、この検索結果を示す画面の例を示す図である。
【図14】上記実施例において、情報検索結果を、上記実施例とは別に、クラスタリング手法を用いてクラスタリングし、上記実施例によって、各クラスタの文書に共通な話題を抽出し、話題毎に検索結果を提示する例を示す図である。
【符号の説明】
100…話題抽出装置、
1…入力部、
2…制御部、
3…文書情報格納部、
4…形態素解析部、
5…単語重要度計算部、
6…類似度計算部、
7…話題パターン格納部、
8…話題候補抽出部、
9…話題スコア計算部、
10…話題選択部、
11…出力部、
d、e…文書、
w…自立語、
s(w,d)…文書dに含まれている自立語wの重要度、
tf(w,d)…文書dにおける単語wの出現回数、
df(w)…単語wを含む文書数、
words(d)…文書dにおける単語頻度、
sim(d,e)…文書dと文書eとの類似度、
N…全文書数、
D…話題抽出対象の文書群、
p…話題パターン、
t…話題候補、
score(t,d,p)…文書群D中の文書dの話題パターンpにマッチした話題候補tの話題スコア、
m(p)…話題パターンpのマッチングスコア、
α…重み付けの定数。
【発明の属する技術分野】
本発明は、関連する複数の文書に共通する話題を抽出し、提示することによって、それらの文書が何について記述されているのかを、使用者が容易に理解することができる話題抽出装置、話題抽出方法およびプログラムに関する。
【0002】
【従来の技術】
一般に、情報検索システムにおいて、その検索結果には、複数の話題に関する文書が含まれる。したがって、検索結果を提示する際に、検索結果を話題毎に分類して提示すれば、情報検索システムの使用者は、検索結果の概要を容易に把握することができる。この場合、文書から話題を抽出する作業が必要である。
【0003】
文書から話題を抽出する方法として、話題語優先順位規則に基づいて、文書中の話題語候補(名詞句)に優先順位を付与し、話題候補に係る連体修飾節の有無に応じて、話題語候補優先順位を修正し、優先順位が最も高い話題語候補を、話題語として選択する方法が知られている(たとえば、特許文献1参照)。
【0004】
また、複数のニュース記事について、類似記事毎にクラスタリングし、クラスタ毎に、そのクラスタを代表する文書を1つ選択し、この選択された1つの文書(代表文書)の中で、単語出現頻度に応じた重みが最も大きくなる名詞句を、各文書に共通する話題として選択する手法が知られている(たとえば、特許文献2参照)。
【0005】
【特許文献1】
特開平8−087502号公報
【特許文献2】
特開2000−259666公報
【0006】
【発明が解決しようとする課題】
上記特許文献1記載の手法では、文書の分野に依存しないようにするために、「〜について」、「〜に関して」等の手がかりに応じた優先順位規則を用い、名詞句に含まれる単語の出現頻度等に応じた単語の重要度が考慮されていないという問題がある。また、複数の文書からの話題抽出に対応していないという問題がある。
【0007】
一方、上記許文献2記載の手法では、関連記事によって構成されているクラスタを代表する記事のみに基づいて、話題が抽出される。したがって、代表記事以外の記事中に、代表記事よりも適切な表現の話題がある場合には、望ましい話題を抽出することができないという問題がある。
【0008】
また、上記許文献2記載の手法では、話題候補として、名詞句を使用しているが、名詞句に含まれている単語の重要度に応じて、話題候補を決定しているので、話題になりやすい表現を考慮して話題候補を抽出する等、経験的知識を活かして話題候補を抽出することができないという問題がある。
【0009】
本発明は、所定の文書から、より適切な話題を抽出することができる話題抽出装置、話題抽出方法およびプログラムを提供することを目的とするものである。
【0010】
【課題を解決するための手段】
本発明は、文書群中の各文書から話題となりえる表現を規定した話題パターンにマッチする表現を話題候補として抽出し、各話題パターンに与えられたスコアと話題候補中の単語の重要度とに応じたスコアに基づいて、話題候補の話題らしさを表す話題スコアを算出し、この算出された話題スコアが最も大きい話題候補を文書群の話題とする。
【0011】
【発明の実施の形態および実施例】
図1は、本発明の一実施例である話題抽出装置100を示すブロック図である。
【0012】
話題抽出装置100は、入力部1と、制御部2と、文書情報格納部3と、形態素解析部4と、単語重要度計算部5と、類似度計算部6と、話題パターン格納部7と、話題候補抽出部8と、話題スコア計算部9と、話題選択部10と、出力部11とを有する。
【0013】
入力部11は、使用者から文書IDや制御情報を受け取る入力部であり、制御部2は、話題抽出装置100の全体を制御する。文書情報格納部3は、文書を格納し、形態素解析部4は、文書を形態素解析し、単語重要度計算部5は、各文書中の単語の重要度を計算する。
【0014】
類似度計算部6は、文書間の類似度を計算し、話題パターン格納部7は、話題となり得る表現を規定した話題パターンを格納する。
【0015】
話題候補抽出部8は、話題パターン格納部7中の話題パターンを使用し、入力文書文書から、話題となり得る表現を規定した話題パターンにマッチする話題候補を抽出する話題候補抽出手段の例である。
【0016】
話題スコア計算部9は、話題スコアを演算する。なお、上記「話題スコア」は、話題候補の話題らしさを示すスコアである。つまり、話題スコア計算部9は、抽出された話題候補にマッチした話題パターンに設定されているスコアと、上記抽出された話題候補中の各単語の単語出現頻度に基づく単語重要度とに応じて、上記話題候補の話題らしさを示す話題スコアを計算する話題スコア計算手段の例である。
【0017】
話題選択部10は、話題候補のスコアに応じて、話題を選択する。つまり、話題選択部10は、抽出された話題候補のうちで、計算された話題スコアが最大である話題候補を、所定の文書群の話題として選択する文章群の話題選択手段の例である。
【0018】
出力部11は、選択された話題を出力する。
【0019】
次に、話題抽出装置100の動作について説明する。
【0020】
まず、実際に話題抽出を行なう前に、文書情報格納部3に格納されている全文書について、形態素解析、単語重要度の計算、文書間の類似度を計算する。制御部2は、文書情報格納部3に格納されている全文書を形態素解析するように、形態素解析部4に指示する。
【0021】
この指示に応じて、形態素解析部4は、文書情報格納部3から文書を読み込み、文書を文毎に分割し、形態素解析し、文書情報格納部3に、形態素解析結果を格納する。ここでの形態素解析は、文書を文毎に分割し、さらに文を単語毎に分割し、各単語に品詞、標準形を付与するものである。
【0022】
図2(1)、(2)、(3)、(4)は、上記実施例において、文書格納部3に記録されている文書、形態素情報、単語の頻度tf、文書頻度df、idfの例を示す図である。
【0023】
図3(1)、(2)は、上記実施例において、文書格納部3に記録されている単語重要度s、文書間の類似度simの例を示す図である。
【0024】
たとえば、図2(1)に示す文書の形態素解析結果は、図2(2)に示すようになり、文書情報格納部3に格納される。
【0025】
形態素解析が終了すると、制御部2は、文書情報格納部3に格納されている全文書中の各自立語の重要度を計算するように、単語重要度計算部5に指示する。自立語の重要度は、TF・IDF値を、文書中の単語数で正規化した値であると定義される。なお、TF・IDF値については、「徳永:『情報検索と言語処理』、東京大学出版会」を参照。
【0026】
TF・IDF値は、単語の頻度TF(Term Frequency)と、単語が、所定の文書中に含まれている度合いを示す尺度IDF(Inverse Document Frequency)との積(TF・IDF値)で示される。また、少数の文書に多数出現する単語程、TF・IDF値が大きく、文書を特徴付ける単語とみなすことができる。文書dに含まれている自立語wの重要度s(w,d)は、次の式(1)によって示される。
【0027】
s(w,d)=tf(w,d)×idf(w)/words(d)
idf(w)=1+log(N/df(w)) … 式(1)
tf(w,d):文書dにおける単語wの出現回数
df(w):単語wを含む文書数
words(d):文書dにおける自立語の総数
N:全文書数。
【0028】
次に、上記実施例において、単語の重要度を計算する手順について説明する。
【0029】
図4は、上記実施例において、単語重要度を計算する手順を示すフローチャートである。
【0030】
なお、上記実施例において、各処理ステップがCPU等の制御手段で実行され、各処理ステップの入出力を一時的に保持する記憶手段を有し、各処理において参照される話題パターン格納部7、文書情報格納部3等のデータベースが、記憶手段に記憶され、上記各データベースが、図4、後述の図7に示すフローチャートに応じて使用される。
【0031】
上記式(1)は、図4に示す手順で計算される。まず、S501〜S504では、各値を初期化する。S501では、文書dにおける自立語数words(d)を0にし、S502で自立語と判定された単語について、S503では、文書dにおける単語wの頻度tf(w,d)を0にし、S504では、単語wを含む文書頻度df(w)を0にする。
【0032】
なお、図4に示すフローチャートにおいて、S504の直下の六角形は、S502の直上に記載されている六角形の繰り返しの終端であることを示し、S504の2つ下の空白の六角形は、S501の直上に記載されている六角形の繰り返しの終端を示す。
【0033】
次に、S505〜S509では、単語重要度を求めるのに必要な所定文書における単語の頻度tf、所定単語を含む文書頻度df、所定文書における自立語数wordsが、カウントされる。S505で自立語であると判定された単語について、S506では、文書dの単語頻度words(d)をカウントし、S507では、単語の頻度tf(w,d)=0である場合には、続くS508で、文書頻度df(w)をカウントし、単語の頻度tf(w,d)≠0である場合には、S509に進む。
【0034】
そして、S509では、単語の頻度tf(w,d)をカウントする。S510〜S512では、単語重要度s(w,d)を計算する。S510では、自立語であると判定された単語について、S511では、文書頻度df(w)に基づいて、所定の文書中に所定の単語wが含まれている度合いidf(w)を計算し、S512では、単語重要度s(w,d)を計算する。
【0035】
そして、上記計算された単語の頻度tf(w,d)、文書頻度df(w)、idf(w)、単語重要度s(w,d)を、文書格納部3に記録する。
【0036】
制御部2は、全文書間の類似度の計算を実行するように、類似度計算部6に指示する。ここでは、文書dと文書eとの類似度sim(d,e)を共有する自立語の割合に基づいて、次の式(2)のように定義するが、他の他の定義を使用するようにしてもよい。
【0037】
sim(d,e)=(Σwtf(w,d)×tf(w,e))/(L(d)×L(e))
L(d)=(Σwtf(w,d)2)1/2 … 式(2)。
【0038】
図5は、上記実施例において、文書間の類似度を計算する動作を示すフローチャートである。
【0039】
上記式(2)の類似度sim(d,e)は、図5に示す手順で、類似度計算部6が計算する。
【0040】
まず、S601では、類似度sim(d,e)、L(d)、L(e)を0に初期化する。なお、 tf(w,d)は、文書d中の単語wの出現回数を表すものであるので、L(d)は、単語wをベクトルの成分、単語の出現回数tf(w,d)をその成分の値とした場合における文書dのベクトルの長さである。また、同様に、L(e)は、上記と同様に、文書eのベクトルの長さである。
【0041】
そして、文書d中の単語wが、S602で自立語であると判断されると、S603では、sim(d,e)を更新し、S604では、L(d)を更新する。
【0042】
S605では、最終的なL(d)を求める。S606〜S608では、L(e)を計算する。文書e中の単語wが、S606で自立語であると判定されると、S607では、L(e)を更新する。そして、S608では、最終的なL(e)が求められる。最後に、S609では、類似度sim(d,e)を計算する。
【0043】
上記のようにして、全ての文書について、類似度simを計算し、文書情報格納部3に、類似度simが格納される。
【0044】
以上で前処理を終了する。
【0045】
次に、制御部2は、入力部1を介して使用者が入力した情報を取得する。入力部1に、文書IDと話題抽出対象(全文/重要文)とが入力されると(文書IDは複数個指定可能)、入力された文書IDは、制御部2を通じて、話題候補抽出部8へ送られる。なお、指定された文書郡を、Dとする。
【0046】
話題候補抽出部8は、話題パターン格納部7に格納されている話題パターン(話題となり得る表現を規定した話題パターン)にマッチする表現が、話題候補として、各文書から抽出される。入力部1を介して、話題抽出対象として「全文」が指定されている場合、各文書の全文から話題候補が抽出される。
【0047】
一方、「重要文」が指定されている場合、各文書の重要文から、話題候補が抽出される。新聞記事等の場合には、先頭文において、記事の概要が述べられていることが多いので、記事の先頭文を重要文として抽出することができる。その他一般の文書の場合、文中の単語のTF・IDF値の総和を、文の重要度とみなし、重要度が大きい文を、重要文として抽出することができる。
【0048】
図6は、上記実施例における話題パターンの例を示す図である。
【0049】
話題パターンは、図6に示す正規表現のような書式で記述され、正規表現がオートマトンに変換され、マッチングが行われ、話題抽出対象から、話題パターンにマッチする表現が抽出される。なお、上記「オートマトン」については、「J.ホップクロフト、J.ウルマン:『オートマトン 言語理論 計算論I』」を参照されたい。
【0050】
図6は、上記実施例における話題パターンの一例を示す図である。
【0051】
話題パターンは、話題となり得る表現を規定した話題パターンであり、どのような単語(表記、品詞、標準表記を指定)の並びの表現を抽出するかを記述したパターンである。
【0052】
話題パターン1は、接頭辞または名詞で始まり、助詞「の」または「・」で名詞(接頭辞、接尾辞を含む)が接続可能な表現を示すパターンであり、たとえば「日米包括経済協議」や「北朝鮮への食料援助」等の表現にマッチする。
【0053】
パターンの先頭の(^|[:^(接頭辞|名詞):])と、パターンの末尾の($|[:^(名詞|接尾辞):])とは、連続する名詞、接頭辞、接尾辞が、途中で分割されないようにするために設けられている。
【0054】
一方、パターン2は、パターン1と同様な表現にマッチする点では、パターン1とは同じであるが、最後が「事故」、「事件」、「問題」等、特定の名詞で終わる名詞句に限られ、「原発事故」や「電話会社の分離・分割問題」等の表現にマッチする。これらの語は、話題になりやすいと考えられるので、話題パターン1よりも、スコアが高く設定されている。
【0055】
次に、話題候補抽出部8が抽出した各話題候補の話題スコアを計算する。
【0056】
文書群D中の文書dの話題パターンpにマッチした話題候補tの話題スコアscore(t,d,p)は、次の式(3)で示される。
【0057】
ここで、Dは、話題抽出対象の文書群、m(p)は、話題パターンpのマッチングスコア、sim(d,e)は、文書dと文書eとの類似度、αは、重み付けの定数である。
【0058】
上記式(3)は、話題パターンpのスコアによって、話題スコアscoreが重み付けされ、よく話題に含まれるような単語に対して、話題パターンpのスコアを大きくする等、話題抽出装置100の設計者の経験的知識を、話題スコアscore(t,d,p)に反映することができる。
【0059】
つまり、上記実施例では、「〜事件」、「〜問題」等の話題になりやすそうな表現について、話題パターンのスコアに応じて高い重み付けをする。つまり、上記式(3)でΣによって計算された単語重要度に基づくスコアに対して、話題パターンのスコアm(p)をかけ、このように重み付けすることによって、経験的知識を活かして話題候補を抽出することができる。
【0060】
図7は、上記実施例において、話題スコアscore(t,d,p)の計算手順を示す図である。
【0061】
S91では、score(t,d,p)が0に初期化され、文書群D中の各文書eについて、S92では、文書dと文書eとの類似度sim(d,e)を計算し、S93では、一時的に保持する単語重要度s(w,d)の和ssが0に初期化される。
【0062】
次に、話題候補tのうちで、S94で自立語であると判定された単語wについて、スコアを計算する。S95では、tf(w,e)>0と判定された場合、S96では、単語重要度s(w,d)の和ssに単語重要度s(w,e)を加算し、そうではない場合、S97では、単語重要度s(w,d)の和ssから、文書e中に単語wが存在しないペナルティとして、重みαで重み付けされたidf(w)が減算される。
【0063】
話題候補t中の全単語について、S94〜S96が実行された後に、S97では、話題スコアscore(t,d,p)に、類似度sim(d,e)の重み付きで、単語重要度s(w,d)の和ssを加算する。つまり、「S98」を「S97」に読みかえると、S97の右辺におけるsim(d,e)×ssによって、和ssにsim(d,e)の重み付けをしている。
【0064】
そして、文書群D中の全文書について、上記計算を行い、S98では、話題パターンpによるスコアm(p)で、重み付けされた値が、話題候補tの最終的な話題スコアになる。つまり、「S99」を「S98」に読みかえると、S98では、話題パターンpによるスコアm(p)をscore(t,d)にかけ、score(t,d)の値を重み付けしている。
【0065】
話題選択部10では、話題スコア計算部9が計算した話題スコアscore(t,d,p)に基づいて、話題が選択される。話題スコアscore(t,d,p)が最も大きい話題候補tが話題として抽出され、出力部11に送られ、使用者に提示される。
【0066】
[具体例1]
図8は、上記実施例の説明で使用する話題抽出対象の文書類を示す図である。
【0067】
ここでは、図8に示すニュース記事11〜13における重要文の中から、話題抽出する場合について説明する。
【0068】
なお、文書情報格納部3には、図8に示す記事以外にも、多数のニュース記事が格納されている。
【0069】
まず、話題抽出が行われる前に、文書情報格納部3に格納されている全文書について、形態素解析、単語重要度の計算、文書間類似度の計算を行なう。
【0070】
形態素解析実行の指示が、制御部2から、形態素解析部4に送られると、形態素解析部4では、文書情報格納部3に格納されている各文書を読み込み、形態素解析し、形態素解析結果を、文書情報格納部3に記録する。
【0071】
態素解析が終了すると、制御部2は、全文書の単語の重要度を計算するように、単語重要度計算部5に指示する。この指示によって、単語重要度計算部5は、各文書の形態素解析結果に基づいて、図4に示す手順で、単語の重要度を計算する。
【0072】
図9は、上記実施例における単語重要度の計算例を示す図である。
【0073】
たとえば、文書11〜13における「日米」、「包括」、「経済」、「協議」の単語重要度は、図9に示すようになる。
【0074】
次に、制御部2は、文書間の類似度を計算するように、類似度計算部6に指示し、類似度計算部6が、全文書間の類似度を計算する。
【0075】
次に、入力部1を介して、使用者が入力した文書IDと、話題候補抽出対象の情報とを取得する。ここでは、文書ID11〜文書ID13、話題候補抽出対象に、「重要文」が指定されたとする。そして、入力部1を介して指定された文書ID、話題抽出対象「重要文」の情報は、入力部1から制御部2に送られる。そして、制御部2は、話題候補抽出の指示とともに、文書IDと、話題抽出対象「重要文」の情報とを、話題候補抽出8へ送信する。
【0076】
話題候補抽出部8は、文書IDと、話題抽出対象「重要文」の情報とを受信すると、まず、文書情報格納部3から、指定された文書の形態素解析結果を取得する。次に、話題パターン格納部7から、話題パターンを読み込み、各文書の重要文の中から、話題パターンに応じて、話題候補を抽出する。ここでは、文書情報格納部3に格納されている文書は、ニュース記事であり、ニュース記事は、先頭文が重要文であることが多いので、重要文として先頭文が抽出される。
【0077】
図10は、上記実施例において、話題候補と、その話題スコアとの関係を示す図である。
【0078】
話題パターン格納部7に、図6に示すような2つの話題パターン(話題パターン1、話題パターン2)が格納されている場合、図10に示すような話題候補が抽出される。そして、話題候補と、その話題候補の文書IDと、話題パターンのIDとの組が、話題スコア計算部9へ送信される。
【0079】
話題スコア計算部9は、話題候補抽出部8から、話題候補を受信し、図7に示す計算手順に従って、各話題候補の話題スコアを計算する。話題スコアの計算結果の一部を、図10に示す。
【0080】
話題スコア計算部9が計算した話題スコアと、話題候補とを、話題選択部10へ送信する。話題選択部10は、最大の話題スコアを持つ話題候補を、指定の文書群に共通する話題として、抽出する。この抽出された話題が、出力部11へ送られ、出力される。この場合、図10に示す話題スコアのうちで、スコアが最も大きい文書11の「日米包括経済協議の金融サービス分野交渉」が、話題として選択され、出力される。
[具体例2]
図11は、上記実施例において、話題抽出対象の文書群を示す図である。
【0081】
図11に示す文書21〜文書23の重要文(先頭文)から、話題抽出する例について説明する。
【0082】
具体例1と同様に、話題候補抽出部8において、話題候補パターンに基づいて、話題候補が抽出され、話題スコア計算部9が話題候補のスコアを計算し、話題選択部10が、最大スコアの話題候補を話題として選択する。
【0083】
図12は、上記実施例において、話題候補と、その話題スコアとの例を示す図である。
【0084】
図12によれば、文書21〜文書23に共通する話題は、文書23において話題パターン2によって抽出された「もんじゅ事故」である。しかし、話題パターン2が定義されていない場合、文書22の話題パターン1によって抽出された「ナトリウム火災」が、共通の話題になる。文書21〜文書23の話題として、「もんじゅ事故」が、「ナトリウム火災」よりも適しており、話題パターンのスコアをうまく設定することによって、より適切な話題を抽出することができる。
【0085】
[具体例3]
上記実施例を、情報検索装置とともに用いると、検索結果を話題毎にまとめ、検索結果の概要を、わかりやすく提示することができる。
【0086】
図13は、上記実施例において、「日米包括経済協議」というキーワードによって検索し、この検索結果を示す画面の例を示す図である。
【0087】
検索結果は、いずれも「日米包括経済協議」に関する文書ではあるが、検索結果の1、3、6は、「金融サービス分野交渉」に関する文書であり、検索結果の2、4、5、7の文書は、「自動車・同部品分野交渉」に関する文書である。2つの話題の文書が混在しているので、使用者にとっては、検索結果が見づらい。
【0088】
ところが、上記実施例によれば、複数の文書に共通する話題を抽出し、検索結果に共通する話題を、自動的に抽出し、検索結果に付与することができ、したがって、使用者にとっては、検索結果が見易い。
【0089】
図14は、上記実施例において、情報検索結果を、上記実施例とは別に、クラスタリング手法を用いてクラスタリングし、上記実施例によって、各クラスタの文書に共通な話題を抽出し、話題毎に検索結果を提示する例を示す図である。
【0090】
図14では、「日米包括経済協議」の検索結果が、「日米包括経済協議の金融サービス分野交渉」と、「日米包括経済協議の自動車・同部品分野交渉」とに分けられ、提示され、使用者は、話題を手がかりにして、効率的に所望の文書を発見することができる。
【0091】
上記実施例では、人手によって作成された話題パターンを用いて、所定の文書群から、所定の話題パターンにマッチする話題候補を抽出し、この抽出された話題候補について、単語出現頻度に基づく話題スコアを計算し、この計算された話題スコアが最大となる話題候補を、文書群に共通する話題として抽出している。
【0092】
上記実施例において、話題パターンと、話題スコアとを適切に設定することによって、より適切な話題を抽出することができる。
【0093】
また、情報検索装置とともに使用すれば、検索結果を話題毎に分け、話題を付加することによって、使用者は、話題を手がかりとして、所望の文書を効率的に発見することができる。
【0094】
なお、上記実施例を、方法の発明として把握することができる。つまり、上記実施例は、所定の文書群中の各文書に共通する話題を抽出する話題抽出方法において、上記各文書を形態素解析する形態素解析段階と、話題となり得る表現を規定した話題パターンにマッチする話題候補を、上記各文書から、抽出する話題候補抽出段階と、上記抽出された話題候補にマッチした話題パターンに設定されているスコアと、上記抽出された話題候補中の各単語の単語出現頻度に基づく単語重要度とに応じて、上記話題候補の話題らしさを示す話題スコアを計算する話題スコア計算段階と、上記抽出された話題候補のうちで、上記計算された話題スコアが最大である話題候補を、上記所定の文書群の話題として選択する文章群の話題選択段階とを有することを特徴とする話題抽出方法の例である。
【0095】
また、上記実施例を、プログラムの発明として把握することができる。つまり、上記実施例は、所定の文書群中の各文書に共通する話題を抽出するプログラムにおいて、上記各文書を形態素解析する形態素解析手順と、話題となり得る表現を規定した話題パターンにマッチする話題候補を、上記各文書から、話題候補抽出手段が抽出する話題候補抽出手順と、上記抽出された話題候補にマッチした話題パターンに設定されているスコアと、上記抽出された話題候補中の各単語の単語出現頻度に基づく単語重要度とに応じて、上記話題候補の話題らしさを示す話題スコアを、話題スコア計算手段が計算する話題スコア計算手順と、上記抽出された話題候補のうちで、上記計算された話題スコアが最大である話題候補を、上記所定の文書群の話題として、話題選択手段が選択する文章群の話題選択手順とをコンピュータに実行させるプログラムの例である。
【0096】
【発明の効果】
本発明によれば、所定の文書から、より適切な話題を抽出することができるという効果を奏する。
【図面の簡単な説明】
【図1】本発明の一実施例である話題抽出装置100を示すブロック図である。
【図2】上記実施例において、文書格納部3に記録されている文書、形態素情報、単語の頻度tf、文書頻度df、idfの例を示す図である。
【図3】上記実施例において、文書格納部3に記録されている単語重要度s、文書間の類似度simの例を示す図である。
【図4】上記実施例において単語重要度を計算する手順を示すフローチャートである。
【図5】上記実施例において、文書間の類似度を計算する動作を示すフローチャートである。
【図6】上記実施例における話題パターンの例を示す図である。
【図7】上記実施例において、話題スコアscore(t,d,p)の計算手順を示す図である。
【図8】上記実施例の説明で使用する話題抽出対象の文書類を示す図である。
【図9】上記実施例における単語重要度の計算例を示す図である。
【図10】上記実施例において、話題候補と、その話題スコアとの関係を示す図である。
【図11】上記実施例において、話題抽出対象の文書群を示す図である。
【図12】上記実施例において、話題候補と、その話題スコアとの例を示す図である。
【図13】上記実施例において、「日米包括経済協議」というキーワードによって検索し、この検索結果を示す画面の例を示す図である。
【図14】上記実施例において、情報検索結果を、上記実施例とは別に、クラスタリング手法を用いてクラスタリングし、上記実施例によって、各クラスタの文書に共通な話題を抽出し、話題毎に検索結果を提示する例を示す図である。
【符号の説明】
100…話題抽出装置、
1…入力部、
2…制御部、
3…文書情報格納部、
4…形態素解析部、
5…単語重要度計算部、
6…類似度計算部、
7…話題パターン格納部、
8…話題候補抽出部、
9…話題スコア計算部、
10…話題選択部、
11…出力部、
d、e…文書、
w…自立語、
s(w,d)…文書dに含まれている自立語wの重要度、
tf(w,d)…文書dにおける単語wの出現回数、
df(w)…単語wを含む文書数、
words(d)…文書dにおける単語頻度、
sim(d,e)…文書dと文書eとの類似度、
N…全文書数、
D…話題抽出対象の文書群、
p…話題パターン、
t…話題候補、
score(t,d,p)…文書群D中の文書dの話題パターンpにマッチした話題候補tの話題スコア、
m(p)…話題パターンpのマッチングスコア、
α…重み付けの定数。
Claims (3)
- 所定の文書群中の各文書に共通する話題を抽出する話題抽出装置において、
上記各文書を形態素解析する形態素解析手段と;
話題となり得る表現を規定した話題パターンにマッチする話題候補を、上記各文書から、抽出する話題候補抽出手段と;
上記抽出された話題候補にマッチした話題パターンに設定されているスコアと、上記抽出された話題候補中の各単語の単語出現頻度に基づく単語重要度とに応じて、上記話題候補の話題らしさを示す話題スコアを計算する話題スコア計算手段と;
上記抽出された話題候補のうちで、上記計算された話題スコアが最大である話題候補を、上記所定の文書群の話題として選択する文章群の話題選択手段と;
を有することを特徴とする話題抽出装置。 - 所定の文書群中の各文書に共通する話題を抽出する話題抽出方法において、
上記各文書を形態素解析する形態素解析段階と;
話題となり得る表現を規定した話題パターンにマッチする話題候補を、上記各文書から、抽出する話題候補抽出段階と;
上記抽出された話題候補にマッチした話題パターンに設定されているスコアと、上記抽出された話題候補中の各単語の単語出現頻度に基づく単語重要度とに応じて、上記話題候補の話題らしさを示す話題スコアを計算する話題スコア計算段階と;
上記抽出された話題候補のうちで、上記計算された話題スコアが最大である話題候補を、上記所定の文書群の話題として選択する文章群の話題選択段階と;
を有することを特徴とする話題抽出方法。 - 所定の文書群中の各文書に共通する話題を抽出するプログラムにおいて、
上記各文書を形態素解析する形態素解析手順と;
話題となり得る表現を規定した話題パターンにマッチする話題候補を、上記各文書から、話題候補抽出手段が抽出する話題候補抽出手順と;
上記抽出された話題候補にマッチした話題パターンに設定されているスコアと、上記抽出された話題候補中の各単語の単語出現頻度に基づく単語重要度とに応じて、上記話題候補の話題らしさを示す話題スコアを、話題スコア計算手段が計算する話題スコア計算手順と;
上記抽出された話題候補のうちで、上記計算された話題スコアが最大である話題候補を、上記所定の文書群の話題として、話題選択手段が選択する文章群の話題選択手順と;
をコンピュータに実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003045687A JP2004258723A (ja) | 2003-02-24 | 2003-02-24 | 話題抽出装置、話題抽出方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003045687A JP2004258723A (ja) | 2003-02-24 | 2003-02-24 | 話題抽出装置、話題抽出方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004258723A true JP2004258723A (ja) | 2004-09-16 |
Family
ID=33112432
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003045687A Pending JP2004258723A (ja) | 2003-02-24 | 2003-02-24 | 話題抽出装置、話題抽出方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004258723A (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006190196A (ja) * | 2005-01-07 | 2006-07-20 | Ntt Docomo Inc | 人物評価装置、及び、人物評価方法 |
JP2006293471A (ja) * | 2005-04-06 | 2006-10-26 | Toshiba Solutions Corp | レポートチェック装置、レポート作成装置、記憶媒体、プログラム |
JP2008090396A (ja) * | 2006-09-29 | 2008-04-17 | Ntt Data Corp | 電子文書検索方法、電子文書検索装置及びプログラム |
JP2008287388A (ja) * | 2007-05-16 | 2008-11-27 | National Institute Of Information & Communication Technology | 情報抽出装置、情報抽出方法及び情報抽出プログラム |
JP2010117832A (ja) * | 2008-11-12 | 2010-05-27 | Nippon Telegr & Teleph Corp <Ntt> | 関係情報抽出装置、その方法、プログラム及び記録媒体 |
JP2010191710A (ja) * | 2009-02-18 | 2010-09-02 | Yahoo Japan Corp | ジャンル判定辞書作成装置、ジャンル判定装置及び方法 |
JP2010286997A (ja) * | 2009-06-10 | 2010-12-24 | Yahoo Japan Corp | 記事の価値を評価する装置、方法、およびプログラム |
-
2003
- 2003-02-24 JP JP2003045687A patent/JP2004258723A/ja active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006190196A (ja) * | 2005-01-07 | 2006-07-20 | Ntt Docomo Inc | 人物評価装置、及び、人物評価方法 |
JP2006293471A (ja) * | 2005-04-06 | 2006-10-26 | Toshiba Solutions Corp | レポートチェック装置、レポート作成装置、記憶媒体、プログラム |
JP4693466B2 (ja) * | 2005-04-06 | 2011-06-01 | 東芝ソリューション株式会社 | レポートチェック装置、レポート作成装置、記憶媒体、プログラム |
US8793143B2 (en) | 2005-04-06 | 2014-07-29 | Kabushiki Kaisha Toshiba | Report check apparatus and computer program product |
JP2008090396A (ja) * | 2006-09-29 | 2008-04-17 | Ntt Data Corp | 電子文書検索方法、電子文書検索装置及びプログラム |
JP2008287388A (ja) * | 2007-05-16 | 2008-11-27 | National Institute Of Information & Communication Technology | 情報抽出装置、情報抽出方法及び情報抽出プログラム |
JP2010117832A (ja) * | 2008-11-12 | 2010-05-27 | Nippon Telegr & Teleph Corp <Ntt> | 関係情報抽出装置、その方法、プログラム及び記録媒体 |
JP2010191710A (ja) * | 2009-02-18 | 2010-09-02 | Yahoo Japan Corp | ジャンル判定辞書作成装置、ジャンル判定装置及び方法 |
JP2010286997A (ja) * | 2009-06-10 | 2010-12-24 | Yahoo Japan Corp | 記事の価値を評価する装置、方法、およびプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Christian et al. | Single document automatic text summarization using term frequency-inverse document frequency (TF-IDF) | |
Wu et al. | Domain-specific keyphrase extraction | |
JP5587821B2 (ja) | 文書トピック抽出装置及び方法及びプログラム | |
JP2005128873A (ja) | 質問応答型文書検索システム及び質問応答型文書検索プログラム | |
Krishnaveni et al. | Automatic text summarization by local scoring and ranking for improving coherence | |
JPWO2016051551A1 (ja) | 文章生成システム | |
JP4426894B2 (ja) | 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 | |
JP5718405B2 (ja) | 発話選択装置、方法、及びプログラム、対話装置及び方法 | |
JP2002132811A (ja) | 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体 | |
Bashir et al. | Automatic Hausa LanguageText Summarization Based on Feature Extraction using Naïve Bayes Model | |
JP2004258723A (ja) | 話題抽出装置、話題抽出方法およびプログラム | |
JP4671164B2 (ja) | 文書クラスタリング装置、クラスタリング方法及びクラスタリングプログラム | |
JPH1145274A (ja) | 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
US20110106849A1 (en) | New case generation device, new case generation method, and new case generation program | |
JP2007122525A (ja) | 言い換え処理方法及び装置 | |
JP2007172179A (ja) | 意見抽出装置、意見抽出方法、および意見抽出プログラム | |
JP2018077604A (ja) | 機能記述からの実現手段・方法の侵害候補を自動特定する人工知能装置 | |
JP2529418B2 (ja) | 文書検索装置 | |
Belkebir et al. | TALAA-ASC: A sentence compression corpus for Arabic | |
JP2008282328A (ja) | テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体 | |
CN117648917B (zh) | 一种版式文件对比方法及系统 | |
JP7216241B1 (ja) | チャンキング実行システム、チャンキング実行方法、及びプログラム | |
JP2004280316A (ja) | 分野判定装置及び言語処理装置 | |
JP2001243230A (ja) | 類似性判別方法 | |
JP2002297592A (ja) | 自然文マッチング装置、自然文マッチング方法、及び自然文マッチングプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050117 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20071228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080111 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080516 |