JP2012247923A

JP2012247923A - 情報検索方法、情報検索装置及び情報検索プログラム

Info

Publication number: JP2012247923A
Application number: JP2011118129A
Authority: JP
Inventors: Shinya Sato; 進也佐藤; Masami Takahashi; 公海高橋; Tetsuya Nakamura; 哲也中村; Masato Matsuo; 真人松尾
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2011-05-26
Filing date: 2011-05-26
Publication date: 2012-12-13
Anticipated expiration: 2031-05-26
Also published as: JP5461475B2

Abstract

【課題】ある語句に関連した文書を文書集合から容易に抽出することを可能とすること。
【解決手段】属性値が付与されている複数の文書からなる文書集合を対象として、指定された特定の語句の出現頻度と属性値との関係を求め、前記特定の語句の出現頻度が高い属性値を特定し、前記文書集合を対象として、前記特定の語句とは異なる複数の他の語句それぞれについて出現頻度と属性値との関係を求め、前記複数の他の語句の中から、前記特定の語句と同じ属性値で前記出現頻度が高くなる語句を関連語句の候補として選択し、前記特定の語句を含む前記文書と、前記関連語句の候補を含む前記文書と、に基づいて、前記特定の語句によって指し示される概念と関連性の高い文書を検索し、前記検索の結果を出力する。
【選択図】図５

Description

本発明は、情報を検索するための技術に関する。

ＷＷＷ（World Wide Web）の発展は、文字コードで記述された文書を含む膨大な量のデータに容易にアクセスすることを可能にした。情報流通という役割に加えて、ＷＷＷは、経済的活動の場としても使われるようになって久しい。更に最近では、ＷＷＷは、商品の評価などを含む、一般消費者が発する情報も提供している。つまり、現在のＷＷＷには、世の中の人々が日常生活の中でどのような行動を起こし、何を思っているのかということが記録されている。それゆえ、近年、ＷＷＷは、社会の鏡と呼ばれている。

実世界の状況理解や日常生活の様々な場面で判断をする上で有用な知識をＷＷＷから得ようとする取り組みが盛んに行われている。このような取り組みの具体例として、ＷｅｂマイニングやＷｅｂインテリジェンス等がある。これらの技術により、事物、人、場所などの語句を指定してＷＷＷ上の情報を検索することにより、その語句に関連した知識をＷＷＷから取得することが可能である。また、語句が表す事物、人、場所などの相互関係に関する知識についても、ＷＷＷから獲得することが可能である。

一般に、文書の内容の理解のためには、コンテキストの理解が欠かせない。コンテキストの取得は、実世界の知識を取り出そうとするＷｅｂマイニングやＷｅｂインテリジェンスではなおさら重要である。例えば、同じ語句であっても、状況によって異なるものを指し示すことがある。ある文書に”ハブ”という語句が用いられているとき、この”ハブ”という語句が指し示すのは、蛇の一種かもしれないし、ネットワーク機器であるかもしれないし、交通機関が集中する場所であるかもしれない。この文書の内容を理解するためには、”ハブ”が何れを意味しているのかを明らかにしなければならない。”ハブ”という語句が何れの意味であるかを理解するということは、この言葉が用いられているコンテキストを把握することに他ならない。

ＷＷＷ上のデータを対象とする多義性解消の技術としては、分野別百科事典の自動生成（非特許文献１）や同姓同名人物の分離（非特許文献２）などの技術が提案されている。

藤井敦、石川徹也、「ＷｏｒｌｄＷｉｄｅＷｅｂを用いた事典知識情報の抽出と組織化」、電子情報通信学会論文誌Ｄ−ＩＩ，Ｖｏｌ．Ｊ８５−Ｄ−ＩＩ，Ｎｏ．２，ｐｐ．３００〜３０７，２００２．関根聡、「Ｗｅｂ検索における人名の曖昧性解消技術の動向」、情報処理，Ｖｏｌ．４９，Ｎｏ．５，ｐｐ．５７３〜５７８，２００８．

上述のように、同じ語句であっても、その語句が指し示しているものは多種多様である。さらに、ある語句が同一のもの（概念）を指し示している場合でも、そのものの役割が状況に応じて変化することも珍しくはない。例えば、”かぼちゃ”は一般には食用であるが、ハロウィンでは”かぼちゃ”は装飾に用いられる。また、日本では冬至に”かぼちゃ”を食べる習慣がある。冬至における”かぼちゃ”の役割は、食用という範疇にありながら、冬至特有の役割を有しており、日常的に食する場合とは異なるものと捉えるべきであると考えられる。

しかしながら、既存手法を単純に適用することでは上記のように複数の概念を示す語句の中から特定の概念を判断することは難しい。なぜなら、先ず、解くべき問題に本質的な違いがあるからである。語句が表す事物の役割の識別で判断しなければならないのは、事物の同一性ではなく、同一の事物の役割の違い、すなわち、人間との関わり方の違いである。

更に、語句が表す事物には多種多様のものが存在し、その多様さに対応する工夫が必要になる。例えば、同姓同名人物分離手法（非特許文献２）では、場所や組織名などの固有表現を各文書から抽出し、それらに基づいて人物を識別する。この手法が効果的であるのは、個々の人物は、社会における活動状況により特徴付けられ、その活動状況は、関連する場所、組織、コミュニティにより特徴付けられるからである。つまり、同姓同名人物分離は、人固有の性質を識別に利用しているのである。もし、この方法を、人物の名前ではなく、”かぼちゃ”のような事物を表す語句に対して適用するのであれば、それらを特徴付ける他の事物を個別に選び出さなければならない。しかしながら、各種の事物に対してこのような他の事物を選び出すには、多大な労力を要する。

例えば、”かぼちゃ”がハロウィンで使われている状況を表している文書には、“かぼちゃ”という語句とともに”ろうそく”という語句も頻繁に現れる。よって、”ろうそく”という語句の有無が、”かぼちゃ”がどのような場面で使われているかを判定する一つの材料になると考えられる。したがって、“かぼちゃ”が使われている場面が“ハロウィン”であるか否かを判定するための事物として“ろうそく”を用いることが可能である。しかし、この事物は“かぼちゃ”が”ハロウィン”で使われているか否かを判定するための特有の事物であり、他の事物にそのまま転用することはできない。他の事物に関連する状況を区別するためには、その事物の特徴を考慮して、個別に他の事物を用意しなければならない。このように、ある事物が具体的にどのような事物を表す目的で使われているかを判定する材料を全ての語句に対して設定することは非常に困難である。そのため、ある語句（例えば“かぼちゃ”）に関連する状況（例えば“ハロウィン”）に関する文書を検出することは困難であった。

上述の課題を鑑み、本発明は、ある語句に関連した文書を文書集合から容易に抽出することを可能とする技術を提供することを目的とする。

本発明の一態様は、情報検索装置が、属性値が付与されている複数の文書からなる文書集合を対象として、指定された特定の語句の出現頻度と属性値との関係を求め、前記特定の語句の出現頻度が高い属性値を特定するステップと、前記情報検索装置が、前記文書集合を対象として、前記特定の語句とは異なる複数の他の語句それぞれについて出現頻度と属性値との関係を求め、前記複数の他の語句の中から、前記特定の語句と同じ属性値で前記出現頻度が高くなる語句を関連語句の候補として選択するステップと、前記情報検索装置が、前記特定の語句を含む前記文書と、前記関連語句の候補を含む前記文書と、に基づいて、前記特定の語句によって指し示される概念と関連性の高い文書を検索するステップと、前記情報検索装置が、前記検索の結果を出力するステップと、を有する情報検索方法である。

本発明の一態様は、上記の情報検索方法であって、前記検索するステップにおいて、前記情報検索装置が、前記特定の語句に関連する文書、又は、前記関連語句の候補のうち前記特定の語句に関連する語句に関連する文書を検索する。

本発明の一態様は、上記の情報検索方法であって、前記検索するステップにおいて、前記情報検索装置が、前記特定の語句と前記特定の語句が出現する文書との出現分布状況と、前記関連語句と当該関連語句が出現する文書との出現分布状況とを相互に比較してクラスタリングを行い、前記特定の語句を含むクラスタに含まれる文書を検索結果として取得する。

本発明の一態様は、属性値が付与されている複数の文書からなる文書集合を対象として、指定された特定の語句の出現頻度と属性値との関係を求め、前記特定の語句の出現頻度が高い属性値を特定する出現頻度計算部と、前記文書集合を対象として、前記特定の語句とは異なる複数の他の語句それぞれについて出現頻度と属性値との関係を求め、前記複数の他の語句の中から、前記特定の語句と同じ属性値で前記出現頻度が高くなる語句を関連語句の候補として選択する出現頻度集計部と、前記特定の語句を含む前記文書と、前記関連語句の候補を含む前記文書と、に基づいて、前記特定の語句によって指し示される概念と関連性の高い文書を検索する関連情報獲得部と、前記情報検索装置が、前記検索の結果を出力する検索結果提示部と、を備える情報検索装置である。

本発明の一態様は、上記の情報検索装置であって、前記関連情報獲得部は、前記特定の語句に関連する文書、又は、前記関連語句の候補のうち前記特定の語句に関連する語句に関連する文書を検索する。

本発明の一態様は、上記の情報検索装置であって、前記関連情報獲得部は、前記特定の語句と前記特定の語句が出現する文書との出現分布状況と、前記関連語句と当該関連語句が出現する文書との出現分布状況とを相互に比較してクラスタリングを行い、前記特定の語句を含むクラスタに含まれる文書を検索結果として取得する。

本発明の一態様は、上記のいずれかの態様に係る情報検索方法をコンピュータに実行させるための情報検索プログラムである。

本発明によれば、ある語句に関連した文書を文書集合から容易に抽出することが可能となる。

文書集合の概略について表す図である。語句が含まれるブログ記事の記事数を日単位で集計し、その時間経過に伴う変化を示したグラフである。語句を含むブログ記事の出現頻度のバーストのピークを検出した結果を示したグラフである。語句同士の文書集合における出現分布状況をネットワーク的に表現した説明図である。情報検索装置の機能ブロック図である。情報検索装置の動作を示すフローチャートである。

以下、本発明の実施の形態について図面を参照しながら説明する。本発明の実施形態は情報検索装置である。情報検索装置は、ある語句に対して、その語句が指し示す概念固有の役割を演じている場面（コンテキスト）を文書集合から求める。そして、情報検索装置は、その場面について記述している文書を文書集合から抽出する。先ず、図１を用いて、情報検索装置が行う処理の概略について説明する。

図１は、文書集合１０の概略について表す図である。図１Ａにおいて、文書集合１０は、ＷＷＷ上の複数のブログ記事１１を含む文書集合である。文書集合１０には、例えば”かしわもち”の語句を含むブログ記事１１ａが含まれる。情報検索装置は、“かしわもち”という語句が指定された場合には、文書集合１０の中から、”かしわもち”の語句を含むブログ記事１１ａを検索し、時系列で構造化する。これにより、”かしわもち”という語句が用いられるコンテキストを特定することができる。

具体的には以下の通りである。情報検索装置は、図１Ｂに示すように、”かしわもち”の語句を含むブログ記事１１ａを文書集合１０から検索する。情報検索装置は、”かしわもち”の語句を含むブログ記事１１ａの数（記事数）を日付毎に計数し、その出現頻度（記事数）を日付毎に求める。”かしわもち”の語句を含むブログ記事１１ａの日付毎の記事数は、図１Ｂに示すように、５月５日にピークとなっている。このときの記事数は２１である。これにより、情報検索装置は、”かしわもち”という語句が用いられるコンテキストは、５月５日であると判断する。すなわち、情報検索装置は、この語句が用いられるコンテキストは”子供の日”であると判断する。

このように、情報検索装置は、語句が用いられるコンテキストを特定するために有用であると考えられる属性値（例えば、日付、時刻、空間座標等）に基づいて、文書を構造化する。情報検索装置は、属性値に基づいて語句の出現分布を調べ、高頻度に出現する属性値を、語句が用いられるコンテキストに関連すると判断する。このようにして、その語句に固有な役割を演じている場面（コンテキスト）の情報を取得できることについて、以下に更に説明する。

図２は、“かぼちゃ”という語句が含まれるブログ記事の記事数を日単位で集計し、その時間経過に伴う変化を示したグラフである。調査範囲の日付は、２００８年１月１日から２００８年１２月３１日としている。図２において、横軸はブログ記事の作成日付である。この日付は、２００８年１月１日から数えた日数で示されている。縦軸はブログ記事の数である。

なお、以下の説明では、日付ｄに書かれたブログ記事の集合をＢ（ｄ）と記述する。また、集合Ｂ（ｄ）の中で、語句ｘを含むものの集合をＢ（ｄ，ｘ）と記述するものとする。また、｜Ｓ｜は集合Ｓの要素数を示す。したがって、｜Ｂ（ｄ，ｘ）｜は、日付ｄに書かれ且つ語句ｘを含むブログ記事の記事数を示す。

図２から明らかなように、日付ｄを変化させたときのブログ記事の記事数｜Ｂ（ｄ，ｘ）｜の変動のグラフには、２カ所で急激な増加（バースト）が認められる。一つのピークは１０月３１日であり、この日は、”ハロウィン”に合致する。他のピークは１２月２１日であり、この日は、”冬至”に合致する。このように、”かぼちゃ”という語句と、日付（属性値）との関係を求めると、”ハロウィン”と”冬至”で、出現頻度のピークが生じている。このことから、”かぼちゃ”という語句に対して固有な役割を演じている場面（コンテキスト）は、”ハロウィン”と”冬至”であると言える。

このように、ある語句に対して固有な役割を演じている場面は、その語句を含むブログ記事の出現頻度の時系列データからバーストのピークを取り出すことで抽出できる。ある語句を含むブログ記事の出現頻度の時系列データからバーストのピークを自動的に検出するための具体的な方法としては、Kleinberg のアルゴリズム（J. Kleinberg. Bursty and Hierarchical Structure in Streams. Proc.8th ACM SIGKDD Intl. Conf. on Knowledge Discovery and DataMining, 2002.）がある。

図３は、上述のKleinberg のアルゴリズムを適用して、”かぼちゃ”の語句を含むブログ記事の出現頻度のバーストのピークを検出した結果を表す図である。上述のアルゴリズムを用いて、図３Ａに示すような”かぼちゃ”の語句を含むブログ記事の出現頻度の時系列データにおいてピーク検出を行うと、図３Ｂに示すようなグラフが得られる。図３Ｂに示すように、このグラフは、１０月３１日と、１２月２１日にバーストレベルが極大になっている。したがって、情報検索装置は、この二つの日（１０月３１日及び１２月２１日）を、バーストのピークが発生する属性値（日付）とみなす。なお、ピークとなる日は１日であるとは限らず、複数の日にわたることもある。

図３Ｂに示すように、この例では、”かぼちゃ”の語句を含むブログ記事の出現頻度の時系列データから、情報検索装置は、バーストのピークに対応する日として、ｄ１＝１０月３１日及びｄ２＝１２月２１日を検出する。そして、情報検索装置は、ハロウィンの場面について書かれたブログ記事の候補の集合として、集合Ｂ（ｄ１，ｘ）を検出する。また、情報検索装置は、冬至の場面について書かれたブログ記事の候補の集合として、集合Ｂ（ｄ２，ｘ）を検出する。

次に、同一場面を構成する関連語句候補の抽出について説明する。これまでの説明では、”かぼちゃ”という語句を手がかりに、”ハロウィン”や”冬至”という場面を検出する方法について説明した。しかしながら、”ハロウィン”や”冬至”という場面について書かれたブログ記事には、必ず、”かぼちゃ”という語句が含まれているとは限らない。よって、”かぼちゃ”という語句を手がかりに”ハロウィン”や”冬至”という場面が特定できたとしても、それだけでは、”ハロウィン”や”冬至”の場面について記載したブログ記事を漏れなく抽出することは難しい。

そこで、情報検索装置は、同一のコンテキストで頻繁に用いられる他の語句（関連語句）を抽出する。例えば”ハロウィン”というコンテキストで頻繁に用いられる語句としては、”かぼちゃ”以外にも、”魔女”、”仮装”、”ランタン”、”お化け”、”ろうそく”等がある。また、例えば“冬至”というコンテキストで頻繁に用いられる語句としては、“冬至梅”、“小豆粥”、“回帰線”等がある。このような関連語句が抽出できれば、”ハロウィン”や”冬至”といった場面について書かれたブログ記事をより網羅的に収集できる。そこで、情報検索装置は、まず関連語句の候補を取得し、その候補の中から関連語句を検出する。そして、関連語句に基づいてブログ記事を検出する。

情報検索装置は、ユーザによって指定された語句“かぼちゃ”が高頻度で出現した日付（ｄ１又はｄ２）において高頻度で出現した他の語句を、関連語句の候補として取得する。つまり、ある語句ｙが”ハロウィン”という場面で固有の役割を担っている語句であるとすれば、この語句ｙが用いられたブログ記事の記事数｜Ｂ（ｄ，ｙ）｜も、ｄ１＝１０月３１日でピークに達するように、バースト的に変化すると考えられる。よって、”ハロウィン”の日付ｄ１（ｄ１＝１０月３１日）にバーストのピークがある他の語句ｙを含むブログ記事の集合Ｂ（ｄ１，ｙ）の記事は、たとえ”かぼちゃ”という語句が含まれていないとしても、”ハロウィン”という場面について記述されたものである可能性が高い。

具体的には、情報検索装置は、”ハロウィン”という場面について記述されたものである可能性が高い関連語句の候補の集合Ｙ（ｄ１）を、次のように作成する。先ず、情報検索装置は、辞書やコーパスなどから、語句の集合Ｄを作る。次に、情報検索装置は、語句の集合Ｄの要素となる語句ｙ毎に、語句ｙを含むブログ記事の記事数｜Ｂ（ｄ，ｙ）｜を時系列で計数する。そして、情報検索装置は、Kleinberg等のアルゴリズムに基づいて、記事数のバーストのピークが発生する日付を検出する。そして、集合Ｄの要素となる語句ｙのうち、バーストのピークが発生する日付が、指定された語句“かぼちゃ”のバーストのピークが発生する日付（１０月３１日）と一致する語句ｙを関連語句の候補として抽出する。例えば、情報検索装置は、２００８年１０月３１日がバーストのピークとなる関連語句の候補として、”魔女”、”仮装”、”ランタン”、”お化け”、”ろうそく”、”さつまいも”、”柿”、”セーター”、”ストーブ”を抽出する。

次に、関連語句の取捨選択について説明する。上述のように、情報検索装置は、２００８年１０月３１日がバーストのピークとなる語句を関連語句として抽出する。この場合、関連語句は”ハロウィン”という場面について記述されたブログ記事に含まれている可能性が高い。しかしながら、２００８年１０月３１日がバーストのピークとなる語句は、必ずしも”ハロウィン”という場面について記述されているとは限らない。例えば、上述した関連語句の具体例のうち、”さつまいも”、”柿”、”セーター”、”ストーブ”などのは、確かにこの時期に特徴的な食材や生活財であるが、”ハロウィン”との関係性は低い。

そこで、情報検索装置は、語句同士の文書集合における出現分布状況を相互に比較することにより、関連語句の候補を取捨選択する。つまり、情報検索装置は、語句は偏在するという性質を利用し、関連語句の候補から関連語句を最終的に選択する。このような選択が可能となる理由は、一般に、特定の語句は、どの文書にも同じように出現するのではなく、それが示す意味を反映し特定の文書でのみ出現確率が高くなっているためである。

図４は、語句同士の文書集合における出現分布状況をネットワーク的に表現した図である。図４に示される図は、文書及び語句をノードとする二部グラフである。図４の二部グラフは、文書が語句を含む場合、又は語句が文書に現れる場合に、文書と語句との間にリンクが張られている。図４において、”セーター”や”ストーブ”という語句は、文書２１ｄ、２１ｅに出現している。一方、”かぼちゃ”という語句が登場する文書２１ａ、２１ｂには、”セーター”や”ストーブ”という語句は出現しない。また、”かぼちゃ”という語句が出現する文書２１ａ、２１ｂには、”仮装”や”魔女”という語句も出現している。また、文書２１ｃには、“かぼちゃ”という語句は含まれていないが、文書２１ａ、２１ｂと同様に”仮装”や”魔女”という語句が出現している。このように、語句の偏在性により、文書に出現する語句には偏りが生じる。

図４の例では、指定された語句である”かぼちゃ”と、”仮装”及び”魔女”という語句と、文書２１ａ、２１ｂ、２１ｃとが密なつながりを形成している（図４の破線で囲まれた部分）。よって、情報検索装置は、語句同士の文書集合における出現分布状況を相互に比較し、文書のつながりが密な部分構造を抽出することによって、ハロウィン関連の語句と文書とを抽出することができる。

近年盛んに行われている複雑ネットワークの研究では、互いに密につながっている部分ネットワークをコミュニティと呼び、その抽出方法が各種提案されている。その中には、図４に示したような二部グラフに特化した手法もある（M.J. Barber. Modularity and community detection in bipartite networks.Physical Review E 76 (2007) 066102.）。情報検索装置は、これらのコミュニティ抽出法を使うことで、関連語句の候補と、指定語句と、文書集合１０に含まれる文書とをクラスタリング（グループ分け）する。そして、情報検索装置は、クラスタリングによって生成された複数のクラスタのうち、指定語句を含んでいるクラスタに含まれる文書を、検索結果として取得する。

上述のクラスタリングをこの記事と語句の関係を示すネットワークに適用すると、”かぼちゃ”を含むクラスタには”魔女”、”仮装”、”ランタン”、”お化け”、”ろうそく”が含まれ、”さつまいも”、”柿”、”セーター”、”ストーブ”は他のクラスタに含まれる。情報検索装置は、クラスタの中から、指定語句である“かぼちゃ”を含むクラスタに含まれている関連語句の候補を、関連語句として判断する。その結果、関連語句の候補の中から、”魔女”、”仮装”、”ランタン”、”お化け”、”ろうそく”の各語句がハロウィンという場面の関連語句であると判断される。

また、情報検索装置は、指定語句である“かぼちゃ”を含むクラスタに含まれている文書を、指定語句”かぼちゃ”が指し示す概念固有の役割を演じている”ハロウィン”という場面について記述している関連文書として判断する。このような処理によって、情報検索装置は、たとえ“かぼちゃ”という指定語句そのものを含んでいないとしても、網羅的に関連する文書を検索することができる。

なお、上述の例では、情報検索装置は、１年間という期間の間に投稿されたブログ記事を対象としてバーストのピークを検出している。しかし、情報検索装置は、複数年の期間の間に投稿されたブログ記事を対象としてバーストのピークを検出してもよい。情報検索装置は、このような情報取得を複数年のブログ記事に適用することによって、その場面が毎年起きている年間行事に関するものであるのか、あるいは、突発的に発生した事件等（例えば、自然災害や、経済事情の大きな変化など）に関するものであるか区別することができる。

また、年間行事の類いには、”ハロウィン”や”冬至”といった名称が付けられていることが多く、それらもまた、ブログ記事の中に少なからず出現する。一方、それらの行事名を収集・整理した情報源が存在する。それら情報源にある行事名のうち、上述のクラスタに属するブログ記事に高頻度で出現するものを選ぶことにより、抽出した場面に対して、その名称を付与することもできる。

次に、情報検索装置の具体例について説明する。図５は、情報検索装置１００の機能構成を表す機能ブロック図である。情報検索装置１００は、上述した処理を行うことによって、ユーザ１５０によって指定された語句（指定語句）に関連した文書を、文書集合１０から検出する。以下、情報検索装置１００の構成について説明する。
図５に示すように、情報検索装置１００は、情報処理装置を用いて構成され、処理プログラム１５１を実行することによって実現される。情報検索装置１００の処理プログラム１５１は、機能により分類すると、初期化部１０１と、語入力部１０２と、出現頻度計算部１０３と、バースト計算部１０４と、出現頻度集計部１０５と、クラスタ分け計算部１０６と、関連情報獲得部１０７と、検索結果提示部１０８と、通信部１０９とを備える。
情報検索装置１００の記憶装置１５２は、機能により分類すると、パラメータ等格納領域１１１と、ｔｓ格納領域１１２と、日−バースト語対応格納領域１１３と、ブログ−語出現関係格納領域１１４と、クラスタ帰属関係格納領域１１５とを備える。

初期化部１０１は、検索開始の日付ｄｓｔａｒａｔや、検索終了の日付ｄｅｎｄ等のパラメータを初期化し、パラメータ等格納領域１１１に設定する。例えば、２００８年１月１日から、２００８年１２月３１日までのブログ記事を検索対象とする場合には、初期化部１０１は、初期化処理を実行することによって、ｄｓｔａｒａｔに２００８年１月１日という値を代入し、ｄｅｎｄに２００８年１２月３１日という値を代入する。

語入力部１０２は、”かぼちゃ”等、ユーザ１５０から入力された特定の語句ｘ（指定語句）を情報検索装置１００に入力する。語入力部１０２は、ユーザ１５０によって入力された語句ｘを、パラメータ等格納領域１１１に格納する。

出現頻度計算部１０３は、通信部１０９によりネットワーク１５３を介してＷＷＷ上のデータを検索する。出現頻度計算部１０３は、日付ｄ毎に、語句ｘを含むブログ記事の記事数｜Ｂ（ｄ，ｘ）｜（出現頻度）を計算し、計算結果をｔｓ格納領域１１２に格納する。

バースト計算部１０４は、日付毎ｄの語句ｘを含むブログ記事の記事数｜Ｂ（ｄ，ｘ）｜から、バーストのピークが発生する日付（例えばｄ１，ｄ２）を求める。このとき、バースト計算部１０４は、例えばKleinberg のアルゴリズムを用いてバーストのピークが発生する日付を検出する。また、バースト計算部１０４は、辞書やコーパスなどから構成される語句の集合Ｄを予め記憶している。バースト計算部１０４は、集合Ｄの要素となる語句ｙ毎に、バーストのピークが発生する日付を検出する。そして、バースト計算部１０４は、バーストのピークとなる日付が指定語句ｘのピークｄ１又はｄ２と一致する語句ｙの集合Ｙ（ｄ１）、Ｙ（ｄ２）を、関連語句の候補として日−バースト語対応格納領域１１３に格納する。

出現頻度集計部１０５は、集合Ｙ（ｄ１）、Ｙ（ｄ２）に含まれる語句と、集合Ｙ（ｄ１）、Ｙ（ｄ２）に含まれる語句を含むブログ記事の文書との関係を集計する。そして、出現頻度集計部１０５は、集計結果をブログ−語出現関係格納領域１１４に格納する。ブログ−語出現関係格納領域１１４には、語句ｘを含むブログ記事のＵＲＬ（Uniform Resource Locator）と、その語句ｘと、その出現頻度と共に、関連語句候補となる語句ｙ１、ｙ２を含むブログ記事のＵＲＬと、関連語句の候補となる語句ｙ１，ｙ２と、その出現頻度とが格納される。

クラスタ分け計算部１０６は、ブログ−語出現関係格納領域１１４に格納されている情報から、文書のつながりが密な部分構造を抽出することによりクラスタリングを行い、クラスタリングの結果をクラスタ帰属関係格納領域１１５に設定する。

関連情報獲得部１０７は、指定語句ｘを含むクラスタ（指定クラスタ）に属する文書（ブログ記事）を取得する。検索結果提示部１０８は、関連情報獲得部１０７によって取得されたブログ記事の文書を、検索結果としてユーザ１５０に提示する。

図６は、情報検索装置の動作を示すフローチャートである。
先ず、ステップＳ１で、初期化部１０１は、検索開始の日付ｄｓｔａｒａｔや、検索終了の日付ｄｅｎｄ等のパラメータを初期化し、パラメータ等格納領域１１１に設定する。次に、ステップＳ２で、語入力部１０２は、ユーザ１５０から入力された語句ｘを入力し、入力された語句ｘを指定語句としてパラメータ等格納領域１１１に設定する。そして、ステップＳ３で、出現頻度計算部１０３は、指定語句ｘを含むブログ記事の出現頻度を示す変数ｔｓを０に初期設定する。

次に、ステップＳ４で、出現頻度計算部１０３は、日付の変数ｄの検索範囲をステップＳ１で初期化した範囲（ｄｓｔａｒｔ〜ｄｅｎｄ）に設定する。そして、ステップＳ５で、出現頻度計算部１０３は、通信部１０９によりネットワーク１５３を介してＷＷＷ上のデータを検索し、日付ｄ毎に、語句ｘを含むブログ記事の記事数｜Ｂ（ｄ，ｘ）｜を計算し、その値をｔｓ格納領域１１２に格納する。
次に、ステップＳ６で、バースト計算部１０４は、記事数｜Ｂ（ｄ，ｘ）｜に基づいて、時系列でのバーストのピークを抽出する。この場合は、バースト計算部１０４は、二つのピーク（ｄ１，ｄ２）を検出する。

次に、ステップＳ７で、バースト計算部１０４は、日付の変数ｄをバーストのピークが発生した日付に設定する。ステップＳ８で、バースト計算部１０４は、辞書やコーパスなどから生成された語句の集合Ｄを読み出す。そして、バースト計算部１０４は、各語句について、バーストのピークとなる日付がｄとなる関連語句の候補（語句ｙ）の集合Ｙ（ｄ）を作成する。ステップＳ９で、クラスタ分け計算部１０６は、語句ｘ及び語句ｙの集合に含まれる語句と、それを含む文書集合における出現分布状況の関連を比較する。そして、クラスタ分け計算部１０６は、文書のつながりが密な部分構造を抽出することによって、ネットワークのクラスタリングを行う。ステップＳ１０で、関連情報獲得部１０７は、語句ｘを含むクラスタＣを抽出する。ステップＳ１１で、関連情報獲得部１０７は、語句ｘを含むクラスタＣに属する語句を用いて、文書集合１０から関連するブログ記事の情報を獲得する。ステップＳ１２で、検索結果提示部１０８は、クラスタＣに属する語句により抽出されたブログ記事の文書と関連情報をユーザ１５０に提示する。次に、バースト計算部１０４は、ステップＳ７の処理において、バーストのピークが発生した日付のうち未だに変数ｄに設定されていない日付があるか否か判定する。そして、バースト計算部１０４は、全ての日付が変数ｄに設定されたと判定した場合は、図６に示される処理を終了する。一方、未だに変数ｄに設定されていない日付（未設定日付）がある場合には、バースト計算部１０４は未設定日付を変数ｄに設定する。そして、ステップＳ７以降の処理が実行される。

本実施形態の情報検索装置は、場面を特定するために有用であると考えられる属性値（時刻や空間座標など）に基づいて文書集合を構造化する。情報検索装置は、属性値毎に（例えば日付毎に）、構造化された文書集合での語句の出現分布を調べる。情報検索装置は、出現頻度の高い属性値をコンテキストとして抽出することで、ある語句に対して、それが指し示す固有の役割を演じている場面を文書集合から見つけ出す。それぞれの場面について記述している文書を抽出できる。これにより、入力された語句から、その語句が使われている場面に関係する文書を文書集合から検索することが可能となる。
具体的には以下の通りである。例えば”かぼちゃ" という指定語句をユーザが情報検索装置に入力すると、日常生活の中でその固有の役割を演じる場面として”ハロウィン”や”冬至”に該当する場面の属性値（日付）が、属性値として検出される。そして、”ハロウィン”や”冬至”の場面に関連する文書が、文書集合（例えばＷＷＷ）から抽出され、ユーザに提示される。
＜変形例＞
検出対象となる文書データ（文書集合１０に含まれる文書データ）は、ブログ記事に限定される必要は無い。例えば、ニュースの記事や掲示板への投稿文や簡易ブログ（例えばＴｗｉｔｔｅｒ（登録商標）等）に投稿された文が検出対象の文書データとなっても良い。
文書集合１０は、ＷＷＷに限定される必要は無く、予め情報検索装置１００の補助記憶装置が記憶している複数の文書であっても良いし、情報検索装置１００にケーブルやＬＡＮ等のネットワークで接続された補助記憶装置が記憶している複数の文書であっても良い。

本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。例えば、上述の例では、属性値として時刻を用い、時刻に基づいて文書を構造化し、各時刻での当該語句の出現分布を調べて、そのもの固有な役割を演じている場面として抽出しているが、属性値として場所を用い、場所に基づいて文書を構造化し、各場所での当該語句の出現分布を調べて、そのもの固有な役割を演じている場面として抽出しても良い。

また、図６に示したような処理を行うためのソースとなるプログラムは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体等のコンピュータ読み取り可能な記録媒体で提供される。また、ソースとなるプログラムは、コンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、ソースとなるプログラムは、前述した機能の一部を実現するためのものであっても良い。更に、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

１００…情報検索装置，１０１…初期化部，１０２…語入力部，１０３…出現頻度計算部，１０４…バースト計算部，１０５…出現頻度計算部，１０６…クラスタ分け計算部，１０７…関連情報獲得部，１０８…検索結果提示部，１０９…通信部，１１１…パラメータ等格納領域，１１２…ｔｓ格納領域，１１３…日−バースト語対応格納領域，１１４…ブログ−語出現関係格納領域，１１５…クラスタ帰属関係格納，１５１…処理プログラム，１５２…記憶装置，１５３…ネットワーク

Claims

情報検索装置が、属性値が付与されている複数の文書からなる文書集合を対象として、指定された特定の語句の出現頻度と属性値との関係を求め、前記特定の語句の出現頻度が高い属性値を特定するステップと、
前記情報検索装置が、前記文書集合を対象として、前記特定の語句とは異なる複数の他の語句それぞれについて出現頻度と属性値との関係を求め、前記複数の他の語句の中から、前記特定の語句と同じ属性値で前記出現頻度が高くなる語句を関連語句の候補として選択するステップと、
前記情報検索装置が、前記特定の語句を含む前記文書と、前記関連語句の候補を含む前記文書と、に基づいて、前記特定の語句によって指し示される概念と関連性の高い文書を検索するステップと、
前記情報検索装置が、前記検索の結果を出力するステップと、
を有する情報検索方法。
前記検索するステップにおいて、前記情報検索装置が、前記特定の語句に関連する文書、又は、前記関連語句の候補のうち前記特定の語句に関連する語句に関連する文書を検索する、請求項１に記載の情報検索方法。
前記検索するステップにおいて、前記情報検索装置が、前記特定の語句と前記特定の語句が出現する文書との出現分布状況と、前記関連語句と当該関連語句が出現する文書との出現分布状況とを相互に比較してクラスタリングを行い、前記特定の語句を含むクラスタに含まれる文書を検索結果として取得する、請求項１に記載の情報検索方法。
属性値が付与されている複数の文書からなる文書集合を対象として、指定された特定の語句の出現頻度と属性値との関係を求め、前記特定の語句の出現頻度が高い属性値を特定する出現頻度計算部と、
前記文書集合を対象として、前記特定の語句とは異なる複数の他の語句それぞれについて出現頻度と属性値との関係を求め、前記複数の他の語句の中から、前記特定の語句と同じ属性値で前記出現頻度が高くなる語句を関連語句の候補として選択する出現頻度集計部と、
前記特定の語句を含む前記文書と、前記関連語句の候補を含む前記文書と、に基づいて、前記特定の語句によって指し示される概念と関連性の高い文書を検索する関連情報獲得部と、
前記情報検索装置が、前記検索の結果を出力する検索結果提示部と、
を備える情報検索装置。
前記関連情報獲得部は、前記特定の語句に関連する文書、又は、前記関連語句の候補のうち前記特定の語句に関連する語句に関連する文書を検索する、請求項４に記載の情報検索装置。
前記関連情報獲得部は、前記特定の語句と前記特定の語句が出現する文書との出現分布状況と、前記関連語句と当該関連語句が出現する文書との出現分布状況とを相互に比較してクラスタリングを行い、前記特定の語句を含むクラスタに含まれる文書を検索結果として取得する、請求項４に記載の情報検索装置。
請求項１乃至請求項３の何れかに記載した情報検索方法をコンピュータに実行させるための情報検索プログラム。