JP2012247923A - 情報検索方法、情報検索装置及び情報検索プログラム - Google Patents

情報検索方法、情報検索装置及び情報検索プログラム Download PDF

Info

Publication number
JP2012247923A
JP2012247923A JP2011118129A JP2011118129A JP2012247923A JP 2012247923 A JP2012247923 A JP 2012247923A JP 2011118129 A JP2011118129 A JP 2011118129A JP 2011118129 A JP2011118129 A JP 2011118129A JP 2012247923 A JP2012247923 A JP 2012247923A
Authority
JP
Japan
Prior art keywords
phrase
document
specific
word
information search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011118129A
Other languages
English (en)
Other versions
JP5461475B2 (ja
Inventor
Shinya Sato
進也 佐藤
Masami Takahashi
公海 高橋
Tetsuya Nakamura
哲也 中村
Masato Matsuo
真人 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011118129A priority Critical patent/JP5461475B2/ja
Publication of JP2012247923A publication Critical patent/JP2012247923A/ja
Application granted granted Critical
Publication of JP5461475B2 publication Critical patent/JP5461475B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ある語句に関連した文書を文書集合から容易に抽出することを可能とすること。
【解決手段】属性値が付与されている複数の文書からなる文書集合を対象として、指定された特定の語句の出現頻度と属性値との関係を求め、前記特定の語句の出現頻度が高い属性値を特定し、前記文書集合を対象として、前記特定の語句とは異なる複数の他の語句それぞれについて出現頻度と属性値との関係を求め、前記複数の他の語句の中から、前記特定の語句と同じ属性値で前記出現頻度が高くなる語句を関連語句の候補として選択し、前記特定の語句を含む前記文書と、前記関連語句の候補を含む前記文書と、に基づいて、前記特定の語句によって指し示される概念と関連性の高い文書を検索し、前記検索の結果を出力する。
【選択図】図5

Description

本発明は、情報を検索するための技術に関する。
WWW(World Wide Web)の発展は、文字コードで記述された文書を含む膨大な量のデータに容易にアクセスすることを可能にした。情報流通という役割に加えて、WWWは、経済的活動の場としても使われるようになって久しい。更に最近では、WWWは、商品の評価などを含む、一般消費者が発する情報も提供している。つまり、現在のWWWには、世の中の人々が日常生活の中でどのような行動を起こし、何を思っているのかということが記録されている。それゆえ、近年、WWWは、社会の鏡と呼ばれている。
実世界の状況理解や日常生活の様々な場面で判断をする上で有用な知識をWWWから得ようとする取り組みが盛んに行われている。このような取り組みの具体例として、WebマイニングやWebインテリジェンス等がある。これらの技術により、事物、人、場所などの語句を指定してWWW上の情報を検索することにより、その語句に関連した知識をWWWから取得することが可能である。また、語句が表す事物、人、場所などの相互関係に関する知識についても、WWWから獲得することが可能である。
一般に、文書の内容の理解のためには、コンテキストの理解が欠かせない。コンテキストの取得は、実世界の知識を取り出そうとするWebマイニングやWebインテリジェンスではなおさら重要である。例えば、同じ語句であっても、状況によって異なるものを指し示すことがある。ある文書に”ハブ”という語句が用いられているとき、この”ハブ”という語句が指し示すのは、蛇の一種かもしれないし、ネットワーク機器であるかもしれないし、交通機関が集中する場所であるかもしれない。この文書の内容を理解するためには、”ハブ”が何れを意味しているのかを明らかにしなければならない。”ハブ”という語句が何れの意味であるかを理解するということは、この言葉が用いられているコンテキストを把握することに他ならない。
WWW上のデータを対象とする多義性解消の技術としては、分野別百科事典の自動生成(非特許文献1)や同姓同名人物の分離(非特許文献2)などの技術が提案されている。
藤井敦、石川徹也、「World Wide Webを用いた事典知識情報の抽出と組織化」、電子情報通信学会論文誌D−II,Vol.J85−D−II,No.2,pp.300〜307,2002. 関根聡、「Web検索における人名の曖昧性解消技術の動向」、情報処理,Vol.49,No.5,pp.573〜578,2008.
上述のように、同じ語句であっても、その語句が指し示しているものは多種多様である。さらに、ある語句が同一のもの(概念)を指し示している場合でも、そのものの役割が状況に応じて変化することも珍しくはない。例えば、”かぼちゃ”は一般には食用であるが、ハロウィンでは”かぼちゃ”は装飾に用いられる。また、日本では冬至に”かぼちゃ”を食べる習慣がある。冬至における”かぼちゃ”の役割は、食用という範疇にありながら、冬至特有の役割を有しており、日常的に食する場合とは異なるものと捉えるべきであると考えられる。
しかしながら、既存手法を単純に適用することでは上記のように複数の概念を示す語句の中から特定の概念を判断することは難しい。なぜなら、先ず、解くべき問題に本質的な違いがあるからである。語句が表す事物の役割の識別で判断しなければならないのは、事物の同一性ではなく、同一の事物の役割の違い、すなわち、人間との関わり方の違いである。
更に、語句が表す事物には多種多様のものが存在し、その多様さに対応する工夫が必要になる。例えば、同姓同名人物分離手法(非特許文献2)では、場所や組織名などの固有表現を各文書から抽出し、それらに基づいて人物を識別する。この手法が効果的であるのは、個々の人物は、社会における活動状況により特徴付けられ、その活動状況は、関連する場所、組織、コミュニティにより特徴付けられるからである。つまり、同姓同名人物分離は、人固有の性質を識別に利用しているのである。もし、この方法を、人物の名前ではなく、”かぼちゃ”のような事物を表す語句に対して適用するのであれば、それらを特徴付ける他の事物を個別に選び出さなければならない。しかしながら、各種の事物に対してこのような他の事物を選び出すには、多大な労力を要する。
例えば、”かぼちゃ”がハロウィンで使われている状況を表している文書には、“かぼちゃ”という語句とともに”ろうそく”という語句も頻繁に現れる。よって、”ろうそく”という語句の有無が、”かぼちゃ”がどのような場面で使われているかを判定する一つの材料になると考えられる。したがって、“かぼちゃ”が使われている場面が“ハロウィン”であるか否かを判定するための事物として“ろうそく”を用いることが可能である。しかし、この事物は“かぼちゃ”が”ハロウィン”で使われているか否かを判定するための特有の事物であり、他の事物にそのまま転用することはできない。他の事物に関連する状況を区別するためには、その事物の特徴を考慮して、個別に他の事物を用意しなければならない。このように、ある事物が具体的にどのような事物を表す目的で使われているかを判定する材料を全ての語句に対して設定することは非常に困難である。そのため、ある語句(例えば“かぼちゃ”)に関連する状況(例えば“ハロウィン”)に関する文書を検出することは困難であった。
上述の課題を鑑み、本発明は、ある語句に関連した文書を文書集合から容易に抽出することを可能とする技術を提供することを目的とする。
本発明の一態様は、情報検索装置が、属性値が付与されている複数の文書からなる文書集合を対象として、指定された特定の語句の出現頻度と属性値との関係を求め、前記特定の語句の出現頻度が高い属性値を特定するステップと、前記情報検索装置が、前記文書集合を対象として、前記特定の語句とは異なる複数の他の語句それぞれについて出現頻度と属性値との関係を求め、前記複数の他の語句の中から、前記特定の語句と同じ属性値で前記出現頻度が高くなる語句を関連語句の候補として選択するステップと、前記情報検索装置が、前記特定の語句を含む前記文書と、前記関連語句の候補を含む前記文書と、に基づいて、前記特定の語句によって指し示される概念と関連性の高い文書を検索するステップと、前記情報検索装置が、前記検索の結果を出力するステップと、を有する情報検索方法である。
本発明の一態様は、上記の情報検索方法であって、前記検索するステップにおいて、前記情報検索装置が、前記特定の語句に関連する文書、又は、前記関連語句の候補のうち前記特定の語句に関連する語句に関連する文書を検索する。
本発明の一態様は、上記の情報検索方法であって、前記検索するステップにおいて、前記情報検索装置が、前記特定の語句と前記特定の語句が出現する文書との出現分布状況と、前記関連語句と当該関連語句が出現する文書との出現分布状況とを相互に比較してクラスタリングを行い、前記特定の語句を含むクラスタに含まれる文書を検索結果として取得する。
本発明の一態様は、属性値が付与されている複数の文書からなる文書集合を対象として、指定された特定の語句の出現頻度と属性値との関係を求め、前記特定の語句の出現頻度が高い属性値を特定する出現頻度計算部と、前記文書集合を対象として、前記特定の語句とは異なる複数の他の語句それぞれについて出現頻度と属性値との関係を求め、前記複数の他の語句の中から、前記特定の語句と同じ属性値で前記出現頻度が高くなる語句を関連語句の候補として選択する出現頻度集計部と、前記特定の語句を含む前記文書と、前記関連語句の候補を含む前記文書と、に基づいて、前記特定の語句によって指し示される概念と関連性の高い文書を検索する関連情報獲得部と、前記情報検索装置が、前記検索の結果を出力する検索結果提示部と、を備える情報検索装置である。
本発明の一態様は、上記の情報検索装置であって、前記関連情報獲得部は、前記特定の語句に関連する文書、又は、前記関連語句の候補のうち前記特定の語句に関連する語句に関連する文書を検索する。
本発明の一態様は、上記の情報検索装置であって、前記関連情報獲得部は、前記特定の語句と前記特定の語句が出現する文書との出現分布状況と、前記関連語句と当該関連語句が出現する文書との出現分布状況とを相互に比較してクラスタリングを行い、前記特定の語句を含むクラスタに含まれる文書を検索結果として取得する。
本発明の一態様は、上記のいずれかの態様に係る情報検索方法をコンピュータに実行させるための情報検索プログラムである。
本発明によれば、ある語句に関連した文書を文書集合から容易に抽出することが可能となる。
文書集合の概略について表す図である。 語句が含まれるブログ記事の記事数を日単位で集計し、その時間経過に伴う変化を示したグラフである。 語句を含むブログ記事の出現頻度のバーストのピークを検出した結果を示したグラフである。 語句同士の文書集合における出現分布状況をネットワーク的に表現した説明図である。 情報検索装置の機能ブロック図である。 情報検索装置の動作を示すフローチャートである。
以下、本発明の実施の形態について図面を参照しながら説明する。本発明の実施形態は情報検索装置である。情報検索装置は、ある語句に対して、その語句が指し示す概念固有の役割を演じている場面(コンテキスト)を文書集合から求める。そして、情報検索装置は、その場面について記述している文書を文書集合から抽出する。先ず、図1を用いて、情報検索装置が行う処理の概略について説明する。
図1は、文書集合10の概略について表す図である。図1Aにおいて、文書集合10は、WWW上の複数のブログ記事11を含む文書集合である。文書集合10には、例えば”かしわもち”の語句を含むブログ記事11aが含まれる。情報検索装置は、“かしわもち”という語句が指定された場合には、文書集合10の中から、”かしわもち”の語句を含むブログ記事11aを検索し、時系列で構造化する。これにより、”かしわもち”という語句が用いられるコンテキストを特定することができる。
具体的には以下の通りである。情報検索装置は、図1Bに示すように、”かしわもち”の語句を含むブログ記事11aを文書集合10から検索する。情報検索装置は、”かしわもち”の語句を含むブログ記事11aの数(記事数)を日付毎に計数し、その出現頻度(記事数)を日付毎に求める。”かしわもち”の語句を含むブログ記事11aの日付毎の記事数は、図1Bに示すように、5月5日にピークとなっている。このときの記事数は21である。これにより、情報検索装置は、”かしわもち”という語句が用いられるコンテキストは、5月5日であると判断する。すなわち、情報検索装置は、この語句が用いられるコンテキストは”子供の日”であると判断する。
このように、情報検索装置は、語句が用いられるコンテキストを特定するために有用であると考えられる属性値(例えば、日付、時刻、空間座標等)に基づいて、文書を構造化する。情報検索装置は、属性値に基づいて語句の出現分布を調べ、高頻度に出現する属性値を、語句が用いられるコンテキストに関連すると判断する。このようにして、その語句に固有な役割を演じている場面(コンテキスト)の情報を取得できることについて、以下に更に説明する。
図2は、“かぼちゃ”という語句が含まれるブログ記事の記事数を日単位で集計し、その時間経過に伴う変化を示したグラフである。調査範囲の日付は、2008年1月1日から2008年12月31日としている。図2において、横軸はブログ記事の作成日付である。この日付は、2008年1月1日から数えた日数で示されている。縦軸はブログ記事の数である。
なお、以下の説明では、日付dに書かれたブログ記事の集合をB(d)と記述する。また、集合B(d)の中で、語句xを含むものの集合をB(d,x)と記述するものとする。また、|S|は集合Sの要素数を示す。したがって、|B(d,x)|は、日付dに書かれ且つ語句xを含むブログ記事の記事数を示す。
図2から明らかなように、日付dを変化させたときのブログ記事の記事数|B(d,x)|の変動のグラフには、2カ所で急激な増加(バースト)が認められる。一つのピークは10月31日であり、この日は、”ハロウィン”に合致する。他のピークは12月21日であり、この日は、”冬至”に合致する。このように、”かぼちゃ”という語句と、日付(属性値)との関係を求めると、”ハロウィン”と”冬至”で、出現頻度のピークが生じている。このことから、”かぼちゃ”という語句に対して固有な役割を演じている場面(コンテキスト)は、”ハロウィン”と”冬至”であると言える。
このように、ある語句に対して固有な役割を演じている場面は、その語句を含むブログ記事の出現頻度の時系列データからバーストのピークを取り出すことで抽出できる。ある語句を含むブログ記事の出現頻度の時系列データからバーストのピークを自動的に検出するための具体的な方法としては、Kleinberg のアルゴリズム(J. Kleinberg. Bursty and Hierarchical Structure in Streams. Proc.8th ACM SIGKDD Intl. Conf. on Knowledge Discovery and DataMining, 2002.)がある。
図3は、上述のKleinberg のアルゴリズムを適用して、”かぼちゃ”の語句を含むブログ記事の出現頻度のバーストのピークを検出した結果を表す図である。上述のアルゴリズムを用いて、図3Aに示すような”かぼちゃ”の語句を含むブログ記事の出現頻度の時系列データにおいてピーク検出を行うと、図3Bに示すようなグラフが得られる。図3Bに示すように、このグラフは、10月31日と、12月21日にバーストレベルが極大になっている。したがって、情報検索装置は、この二つの日(10月31日及び12月21日)を、バーストのピークが発生する属性値(日付)とみなす。なお、ピークとなる日は1日であるとは限らず、複数の日にわたることもある。
図3Bに示すように、この例では、”かぼちゃ”の語句を含むブログ記事の出現頻度の時系列データから、情報検索装置は、バーストのピークに対応する日として、d1=10月31日及びd2=12月21日を検出する。そして、情報検索装置は、ハロウィンの場面について書かれたブログ記事の候補の集合として、集合B(d1,x)を検出する。また、情報検索装置は、冬至の場面について書かれたブログ記事の候補の集合として、集合B(d2,x)を検出する。
次に、同一場面を構成する関連語句候補の抽出について説明する。これまでの説明では、”かぼちゃ”という語句を手がかりに、”ハロウィン”や”冬至”という場面を検出する方法について説明した。しかしながら、”ハロウィン”や”冬至”という場面について書かれたブログ記事には、必ず、”かぼちゃ”という語句が含まれているとは限らない。よって、”かぼちゃ”という語句を手がかりに”ハロウィン”や”冬至”という場面が特定できたとしても、それだけでは、”ハロウィン”や”冬至”の場面について記載したブログ記事を漏れなく抽出することは難しい。
そこで、情報検索装置は、同一のコンテキストで頻繁に用いられる他の語句(関連語句)を抽出する。例えば”ハロウィン”というコンテキストで頻繁に用いられる語句としては、”かぼちゃ”以外にも、”魔女”、”仮装”、”ランタン”、”お化け”、”ろうそく”等がある。また、例えば“冬至”というコンテキストで頻繁に用いられる語句としては、“冬至梅”、“小豆粥”、“回帰線”等がある。このような関連語句が抽出できれば、”ハロウィン”や”冬至”といった場面について書かれたブログ記事をより網羅的に収集できる。そこで、情報検索装置は、まず関連語句の候補を取得し、その候補の中から関連語句を検出する。そして、関連語句に基づいてブログ記事を検出する。
情報検索装置は、ユーザによって指定された語句“かぼちゃ”が高頻度で出現した日付(d1又はd2)において高頻度で出現した他の語句を、関連語句の候補として取得する。つまり、ある語句yが”ハロウィン”という場面で固有の役割を担っている語句であるとすれば、この語句yが用いられたブログ記事の記事数|B(d,y)|も、d1=10月31日でピークに達するように、バースト的に変化すると考えられる。よって、”ハロウィン”の日付d1(d1=10月31日)にバーストのピークがある他の語句yを含むブログ記事の集合B(d1,y)の記事は、たとえ”かぼちゃ”という語句が含まれていないとしても、”ハロウィン”という場面について記述されたものである可能性が高い。
具体的には、情報検索装置は、”ハロウィン”という場面について記述されたものである可能性が高い関連語句の候補の集合Y(d1)を、次のように作成する。先ず、情報検索装置は、辞書やコーパスなどから、語句の集合Dを作る。次に、情報検索装置は、語句の集合Dの要素となる語句y毎に、語句yを含むブログ記事の記事数|B(d,y)|を時系列で計数する。そして、情報検索装置は、Kleinberg等のアルゴリズムに基づいて、記事数のバーストのピークが発生する日付を検出する。そして、集合Dの要素となる語句yのうち、バーストのピークが発生する日付が、指定された語句“かぼちゃ”のバーストのピークが発生する日付(10月31日)と一致する語句yを関連語句の候補として抽出する。例えば、情報検索装置は、2008年10月31日がバーストのピークとなる関連語句の候補として、”魔女”、”仮装”、”ランタン”、”お化け”、”ろうそく”、”さつまいも”、”柿”、”セーター”、”ストーブ”を抽出する。
次に、関連語句の取捨選択について説明する。上述のように、情報検索装置は、2008年10月31日がバーストのピークとなる語句を関連語句として抽出する。この場合、関連語句は”ハロウィン”という場面について記述されたブログ記事に含まれている可能性が高い。しかしながら、2008年10月31日がバーストのピークとなる語句は、必ずしも”ハロウィン”という場面について記述されているとは限らない。例えば、上述した関連語句の具体例のうち、”さつまいも”、”柿”、”セーター”、”ストーブ”などのは、確かにこの時期に特徴的な食材や生活財であるが、”ハロウィン”との関係性は低い。
そこで、情報検索装置は、語句同士の文書集合における出現分布状況を相互に比較することにより、関連語句の候補を取捨選択する。つまり、情報検索装置は、語句は偏在するという性質を利用し、関連語句の候補から関連語句を最終的に選択する。このような選択が可能となる理由は、一般に、特定の語句は、どの文書にも同じように出現するのではなく、それが示す意味を反映し特定の文書でのみ出現確率が高くなっているためである。
図4は、語句同士の文書集合における出現分布状況をネットワーク的に表現した図である。図4に示される図は、文書及び語句をノードとする二部グラフである。図4の二部グラフは、文書が語句を含む場合、又は語句が文書に現れる場合に、文書と語句との間にリンクが張られている。図4において、”セーター”や”ストーブ”という語句は、文書21d、21eに出現している。一方、”かぼちゃ”という語句が登場する文書21a、21bには、”セーター”や”ストーブ”という語句は出現しない。また、”かぼちゃ”という語句が出現する文書21a、21bには、”仮装”や”魔女”という語句も出現している。また、文書21cには、“かぼちゃ”という語句は含まれていないが、文書21a、21bと同様に”仮装”や”魔女”という語句が出現している。このように、語句の偏在性により、文書に出現する語句には偏りが生じる。
図4の例では、指定された語句である”かぼちゃ”と、”仮装”及び”魔女”という語句と、文書21a、21b、21cとが密なつながりを形成している(図4の破線で囲まれた部分)。よって、情報検索装置は、語句同士の文書集合における出現分布状況を相互に比較し、文書のつながりが密な部分構造を抽出することによって、ハロウィン関連の語句と文書とを抽出することができる。
近年盛んに行われている複雑ネットワークの研究では、互いに密につながっている部分ネットワークをコミュニティと呼び、その抽出方法が各種提案されている。その中には、図4に示したような二部グラフに特化した手法もある(M.J. Barber. Modularity and community detection in bipartite networks.Physical Review E 76 (2007) 066102.)。情報検索装置は、これらのコミュニティ抽出法を使うことで、関連語句の候補と、指定語句と、文書集合10に含まれる文書とをクラスタリング(グループ分け)する。そして、情報検索装置は、クラスタリングによって生成された複数のクラスタのうち、指定語句を含んでいるクラスタに含まれる文書を、検索結果として取得する。
上述のクラスタリングをこの記事と語句の関係を示すネットワークに適用すると、”かぼちゃ”を含むクラスタには”魔女”、”仮装”、”ランタン”、”お化け”、”ろうそく”が含まれ、”さつまいも”、”柿”、”セーター”、”ストーブ”は他のクラスタに含まれる。情報検索装置は、クラスタの中から、指定語句である“かぼちゃ”を含むクラスタに含まれている関連語句の候補を、関連語句として判断する。その結果、関連語句の候補の中から、”魔女”、”仮装”、”ランタン”、”お化け”、”ろうそく”の各語句がハロウィンという場面の関連語句であると判断される。
また、情報検索装置は、指定語句である“かぼちゃ”を含むクラスタに含まれている文書を、指定語句”かぼちゃ”が指し示す概念固有の役割を演じている”ハロウィン”という場面について記述している関連文書として判断する。このような処理によって、情報検索装置は、たとえ“かぼちゃ”という指定語句そのものを含んでいないとしても、網羅的に関連する文書を検索することができる。
なお、上述の例では、情報検索装置は、1年間という期間の間に投稿されたブログ記事を対象としてバーストのピークを検出している。しかし、情報検索装置は、複数年の期間の間に投稿されたブログ記事を対象としてバーストのピークを検出してもよい。情報検索装置は、このような情報取得を複数年のブログ記事に適用することによって、その場面が毎年起きている年間行事に関するものであるのか、あるいは、突発的に発生した事件等(例えば、自然災害や、経済事情の大きな変化など)に関するものであるか区別することができる。
また、年間行事の類いには、”ハロウィン”や”冬至”といった名称が付けられていることが多く、それらもまた、ブログ記事の中に少なからず出現する。一方、それらの行事名を収集・整理した情報源が存在する。それら情報源にある行事名のうち、上述のクラスタに属するブログ記事に高頻度で出現するものを選ぶことにより、抽出した場面に対して、その名称を付与することもできる。
次に、情報検索装置の具体例について説明する。図5は、情報検索装置100の機能構成を表す機能ブロック図である。情報検索装置100は、上述した処理を行うことによって、ユーザ150によって指定された語句(指定語句)に関連した文書を、文書集合10から検出する。以下、情報検索装置100の構成について説明する。
図5に示すように、情報検索装置100は、情報処理装置を用いて構成され、処理プログラム151を実行することによって実現される。情報検索装置100の処理プログラム151は、機能により分類すると、初期化部101と、語入力部102と、出現頻度計算部103と、バースト計算部104と、出現頻度集計部105と、クラスタ分け計算部106と、関連情報獲得部107と、検索結果提示部108と、通信部109とを備える。
情報検索装置100の記憶装置152は、機能により分類すると、パラメータ等格納領域111と、ts格納領域112と、日−バースト語対応格納領域113と、ブログ−語出現関係格納領域114と、クラスタ帰属関係格納領域115とを備える。
初期化部101は、検索開始の日付dstaratや、検索終了の日付dend等のパラメータを初期化し、パラメータ等格納領域111に設定する。例えば、2008年1月1日から、2008年12月31日までのブログ記事を検索対象とする場合には、初期化部101は、初期化処理を実行することによって、dstaratに2008年1月1日という値を代入し、dendに2008年12月31日という値を代入する。
語入力部102は、”かぼちゃ”等、ユーザ150から入力された特定の語句x(指定語句)を情報検索装置100に入力する。語入力部102は、ユーザ150によって入力された語句xを、パラメータ等格納領域111に格納する。
出現頻度計算部103は、通信部109によりネットワーク153を介してWWW上のデータを検索する。出現頻度計算部103は、日付d毎に、語句xを含むブログ記事の記事数|B(d,x)|(出現頻度)を計算し、計算結果をts格納領域112に格納する。
バースト計算部104は、日付毎dの語句xを含むブログ記事の記事数|B(d,x)|から、バーストのピークが発生する日付(例えばd1,d2)を求める。このとき、バースト計算部104は、例えばKleinberg のアルゴリズムを用いてバーストのピークが発生する日付を検出する。また、バースト計算部104は、辞書やコーパスなどから構成される語句の集合Dを予め記憶している。バースト計算部104は、集合Dの要素となる語句y毎に、バーストのピークが発生する日付を検出する。そして、バースト計算部104は、バーストのピークとなる日付が指定語句xのピークd1又はd2と一致する語句yの集合Y(d1)、Y(d2)を、関連語句の候補として日−バースト語対応格納領域113に格納する。
出現頻度集計部105は、集合Y(d1)、Y(d2)に含まれる語句と、集合Y(d1)、Y(d2)に含まれる語句を含むブログ記事の文書との関係を集計する。そして、出現頻度集計部105は、集計結果をブログ−語出現関係格納領域114に格納する。ブログ−語出現関係格納領域114には、語句xを含むブログ記事のURL(Uniform Resource Locator)と、その語句xと、その出現頻度と共に、関連語句候補となる語句y1、y2を含むブログ記事のURLと、関連語句の候補となる語句y1,y2と、その出現頻度とが格納される。
クラスタ分け計算部106は、ブログ−語出現関係格納領域114に格納されている情報から、文書のつながりが密な部分構造を抽出することによりクラスタリングを行い、クラスタリングの結果をクラスタ帰属関係格納領域115に設定する。
関連情報獲得部107は、指定語句xを含むクラスタ(指定クラスタ)に属する文書(ブログ記事)を取得する。検索結果提示部108は、関連情報獲得部107によって取得されたブログ記事の文書を、検索結果としてユーザ150に提示する。
図6は、情報検索装置の動作を示すフローチャートである。
先ず、ステップS1で、初期化部101は、検索開始の日付dstaratや、検索終了の日付dend等のパラメータを初期化し、パラメータ等格納領域111に設定する。次に、ステップS2で、語入力部102は、ユーザ150から入力された語句xを入力し、入力された語句xを指定語句としてパラメータ等格納領域111に設定する。そして、ステップS3で、出現頻度計算部103は、指定語句xを含むブログ記事の出現頻度を示す変数tsを0に初期設定する。
次に、ステップS4で、出現頻度計算部103は、日付の変数dの検索範囲をステップS1で初期化した範囲(dstart〜dend)に設定する。そして、ステップS5で、出現頻度計算部103は、通信部109によりネットワーク153を介してWWW上のデータを検索し、日付d毎に、語句xを含むブログ記事の記事数|B(d,x)|を計算し、その値をts格納領域112に格納する。
次に、ステップS6で、バースト計算部104は、記事数|B(d,x)|に基づいて、時系列でのバーストのピークを抽出する。この場合は、バースト計算部104は、二つのピーク(d1,d2)を検出する。
次に、ステップS7で、バースト計算部104は、日付の変数dをバーストのピークが発生した日付に設定する。ステップS8で、バースト計算部104は、辞書やコーパスなどから生成された語句の集合Dを読み出す。そして、バースト計算部104は、各語句について、バーストのピークとなる日付がdとなる関連語句の候補(語句y)の集合Y(d)を作成する。ステップS9で、クラスタ分け計算部106は、語句x及び語句yの集合に含まれる語句と、それを含む文書集合における出現分布状況の関連を比較する。そして、クラスタ分け計算部106は、文書のつながりが密な部分構造を抽出することによって、ネットワークのクラスタリングを行う。ステップS10で、関連情報獲得部107は、語句xを含むクラスタCを抽出する。ステップS11で、関連情報獲得部107は、語句xを含むクラスタCに属する語句を用いて、文書集合10から関連するブログ記事の情報を獲得する。ステップS12で、検索結果提示部108は、クラスタCに属する語句により抽出されたブログ記事の文書と関連情報をユーザ150に提示する。次に、バースト計算部104は、ステップS7の処理において、バーストのピークが発生した日付のうち未だに変数dに設定されていない日付があるか否か判定する。そして、バースト計算部104は、全ての日付が変数dに設定されたと判定した場合は、図6に示される処理を終了する。一方、未だに変数dに設定されていない日付(未設定日付)がある場合には、バースト計算部104は未設定日付を変数dに設定する。そして、ステップS7以降の処理が実行される。
本実施形態の情報検索装置は、場面を特定するために有用であると考えられる属性値(時刻や空間座標など)に基づいて文書集合を構造化する。情報検索装置は、属性値毎に(例えば日付毎に)、構造化された文書集合での語句の出現分布を調べる。情報検索装置は、出現頻度の高い属性値をコンテキストとして抽出することで、ある語句に対して、それが指し示す固有の役割を演じている場面を文書集合から見つけ出す。それぞれの場面について記述している文書を抽出できる。これにより、入力された語句から、その語句が使われている場面に関係する文書を文書集合から検索することが可能となる。
具体的には以下の通りである。例えば”かぼちゃ" という指定語句をユーザが情報検索装置に入力すると、日常生活の中でその固有の役割を演じる場面として”ハロウィン”や”冬至”に該当する場面の属性値(日付)が、属性値として検出される。そして、”ハロウィン”や”冬至”の場面に関連する文書が、文書集合(例えばWWW)から抽出され、ユーザに提示される。
<変形例>
検出対象となる文書データ(文書集合10に含まれる文書データ)は、ブログ記事に限定される必要は無い。例えば、ニュースの記事や掲示板への投稿文や簡易ブログ(例えばTwitter(登録商標)等)に投稿された文が検出対象の文書データとなっても良い。
文書集合10は、WWWに限定される必要は無く、予め情報検索装置100の補助記憶装置が記憶している複数の文書であっても良いし、情報検索装置100にケーブルやLAN等のネットワークで接続された補助記憶装置が記憶している複数の文書であっても良い。
本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。例えば、上述の例では、属性値として時刻を用い、時刻に基づいて文書を構造化し、各時刻での当該語句の出現分布を調べて、そのもの固有な役割を演じている場面として抽出しているが、属性値として場所を用い、場所に基づいて文書を構造化し、各場所での当該語句の出現分布を調べて、そのもの固有な役割を演じている場面として抽出しても良い。
また、図6に示したような処理を行うためのソースとなるプログラムは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体等のコンピュータ読み取り可能な記録媒体で提供される。また、ソースとなるプログラムは、コンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、ソースとなるプログラムは、前述した機能の一部を実現するためのものであっても良い。更に、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
100…情報検索装置, 101…初期化部, 102…語入力部, 103…出現頻度計算部, 104…バースト計算部, 105…出現頻度計算部, 106…クラスタ分け計算部, 107…関連情報獲得部, 108…検索結果提示部, 109…通信部, 111…パラメータ等格納領域, 112…ts格納領域, 113…日−バースト語対応格納領域, 114…ブログ−語出現関係格納領域, 115…クラスタ帰属関係格納, 151…処理プログラム, 152…記憶装置, 153…ネットワーク

Claims (7)

  1. 情報検索装置が、属性値が付与されている複数の文書からなる文書集合を対象として、指定された特定の語句の出現頻度と属性値との関係を求め、前記特定の語句の出現頻度が高い属性値を特定するステップと、
    前記情報検索装置が、前記文書集合を対象として、前記特定の語句とは異なる複数の他の語句それぞれについて出現頻度と属性値との関係を求め、前記複数の他の語句の中から、前記特定の語句と同じ属性値で前記出現頻度が高くなる語句を関連語句の候補として選択するステップと、
    前記情報検索装置が、前記特定の語句を含む前記文書と、前記関連語句の候補を含む前記文書と、に基づいて、前記特定の語句によって指し示される概念と関連性の高い文書を検索するステップと、
    前記情報検索装置が、前記検索の結果を出力するステップと、
    を有する情報検索方法。
  2. 前記検索するステップにおいて、前記情報検索装置が、前記特定の語句に関連する文書、又は、前記関連語句の候補のうち前記特定の語句に関連する語句に関連する文書を検索する、請求項1に記載の情報検索方法。
  3. 前記検索するステップにおいて、前記情報検索装置が、前記特定の語句と前記特定の語句が出現する文書との出現分布状況と、前記関連語句と当該関連語句が出現する文書との出現分布状況とを相互に比較してクラスタリングを行い、前記特定の語句を含むクラスタに含まれる文書を検索結果として取得する、請求項1に記載の情報検索方法。
  4. 属性値が付与されている複数の文書からなる文書集合を対象として、指定された特定の語句の出現頻度と属性値との関係を求め、前記特定の語句の出現頻度が高い属性値を特定する出現頻度計算部と、
    前記文書集合を対象として、前記特定の語句とは異なる複数の他の語句それぞれについて出現頻度と属性値との関係を求め、前記複数の他の語句の中から、前記特定の語句と同じ属性値で前記出現頻度が高くなる語句を関連語句の候補として選択する出現頻度集計部と、
    前記特定の語句を含む前記文書と、前記関連語句の候補を含む前記文書と、に基づいて、前記特定の語句によって指し示される概念と関連性の高い文書を検索する関連情報獲得部と、
    前記情報検索装置が、前記検索の結果を出力する検索結果提示部と、
    を備える情報検索装置。
  5. 前記関連情報獲得部は、前記特定の語句に関連する文書、又は、前記関連語句の候補のうち前記特定の語句に関連する語句に関連する文書を検索する、請求項4に記載の情報検索装置。
  6. 前記関連情報獲得部は、前記特定の語句と前記特定の語句が出現する文書との出現分布状況と、前記関連語句と当該関連語句が出現する文書との出現分布状況とを相互に比較してクラスタリングを行い、前記特定の語句を含むクラスタに含まれる文書を検索結果として取得する、請求項4に記載の情報検索装置。
  7. 請求項1乃至請求項3の何れかに記載した情報検索方法をコンピュータに実行させるための情報検索プログラム。
JP2011118129A 2011-05-26 2011-05-26 情報検索方法、情報検索装置及び情報検索プログラム Expired - Fee Related JP5461475B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011118129A JP5461475B2 (ja) 2011-05-26 2011-05-26 情報検索方法、情報検索装置及び情報検索プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011118129A JP5461475B2 (ja) 2011-05-26 2011-05-26 情報検索方法、情報検索装置及び情報検索プログラム

Publications (2)

Publication Number Publication Date
JP2012247923A true JP2012247923A (ja) 2012-12-13
JP5461475B2 JP5461475B2 (ja) 2014-04-02

Family

ID=47468326

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011118129A Expired - Fee Related JP5461475B2 (ja) 2011-05-26 2011-05-26 情報検索方法、情報検索装置及び情報検索プログラム

Country Status (1)

Country Link
JP (1) JP5461475B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019046017A (ja) * 2017-08-31 2019-03-22 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07325832A (ja) * 1994-05-31 1995-12-12 Fujitsu Ltd 単語使用パターンの時間的変化を利用した検索方法および情報検索装置
JP2000172701A (ja) * 1998-12-04 2000-06-23 Fujitsu Ltd 文書データ提供装置、文書データ提供システム、文書データ提供方法及び文書データを提供するプログラムを記録した記録媒体
JP2004086534A (ja) * 2002-08-27 2004-03-18 Nippon Telegr & Teleph Corp <Ntt> 時系列情報からの固有情報抽出方法および装置,並びに時系列情報からの固有情報抽出プログラムおよびそのプログラムを記録した記録媒体
JP2006302024A (ja) * 2005-04-21 2006-11-02 Nippon Telegr & Teleph Corp <Ntt> 関連文書表示方法及びプログラム
WO2009096506A1 (ja) * 2008-01-30 2009-08-06 Nec Corporation 情報分析装置、情報分析方法、情報分析用プログラム、及び検索システム
JP2010224823A (ja) * 2009-03-23 2010-10-07 Toshiba Corp 共起表現抽出装置及び共起表現抽出方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07325832A (ja) * 1994-05-31 1995-12-12 Fujitsu Ltd 単語使用パターンの時間的変化を利用した検索方法および情報検索装置
JP2000172701A (ja) * 1998-12-04 2000-06-23 Fujitsu Ltd 文書データ提供装置、文書データ提供システム、文書データ提供方法及び文書データを提供するプログラムを記録した記録媒体
JP2004086534A (ja) * 2002-08-27 2004-03-18 Nippon Telegr & Teleph Corp <Ntt> 時系列情報からの固有情報抽出方法および装置,並びに時系列情報からの固有情報抽出プログラムおよびそのプログラムを記録した記録媒体
JP2006302024A (ja) * 2005-04-21 2006-11-02 Nippon Telegr & Teleph Corp <Ntt> 関連文書表示方法及びプログラム
WO2009096506A1 (ja) * 2008-01-30 2009-08-06 Nec Corporation 情報分析装置、情報分析方法、情報分析用プログラム、及び検索システム
JP2010224823A (ja) * 2009-03-23 2010-10-07 Toshiba Corp 共起表現抽出装置及び共起表現抽出方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
CSNG200400383015; 藤井 敦 他: 'World Wide Webを用いた事典知識情報の抽出と組織化' 電子情報通信学会論文誌 第J85-D-II巻,第2号, 20020201, pp.300-307., 社団法人電子情報通信学会 *
CSNG200800444008; 関根 聡: 'Web検索における人名の曖昧性解消技術の動向-同姓同名のクラスタリング-' 情報処理 第49巻、第5号, 20080515, pp.573-578., 社団法人情報処理学会 *
CSNJ201010004326; 山本 健一 他: '動向情報の検索による情報編纂' 2007年度人工知能学会全国大会(第21回)論文集 Vol.2007,No3H9-3, 20070622, pp.1-4., 社団法人人工知能学会 *
JPN6013063873; 山本 健一 他: '動向情報の検索による情報編纂' 2007年度人工知能学会全国大会(第21回)論文集 Vol.2007,No3H9-3, 20070622, pp.1-4., 社団法人人工知能学会 *
JPN6013063874; 藤井 敦 他: 'World Wide Webを用いた事典知識情報の抽出と組織化' 電子情報通信学会論文誌 第J85-D-II巻,第2号, 20020201, pp.300-307., 社団法人電子情報通信学会 *
JPN6013063875; 関根 聡: 'Web検索における人名の曖昧性解消技術の動向-同姓同名のクラスタリング-' 情報処理 第49巻、第5号, 20080515, pp.573-578., 社団法人情報処理学会 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019046017A (ja) * 2017-08-31 2019-03-22 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム

Also Published As

Publication number Publication date
JP5461475B2 (ja) 2014-04-02

Similar Documents

Publication Publication Date Title
CN110046236B (zh) 一种非结构化数据的检索方法及装置
Adamic et al. Friends and neighbors on the web
US9922050B2 (en) Identifying data from keyword searches of color palettes and color palette trends
US9898487B2 (en) Determining color names from keyword searches of color palettes
US20150378999A1 (en) Determining affiliated colors from keyword searches of color palettes
US20150379000A1 (en) Generating visualizations from keyword searches of color palettes
CN104268148B (zh) 一种基于时间串的论坛页面信息自动抽取方法及系统
US20160125502A1 (en) Travel Itinerary Recommendation Engine Using Inferred Interests and Sentiments
JP7353655B2 (ja) 商品リコメンドシステム
JP2003330948A (ja) ウェブページを評価する装置および方法
CN107563867A (zh) 一种基于多臂赌博机置信上限的推荐系统冷启动方法
KR101355945B1 (ko) 온라인 문맥기반 광고 장치 및 방법
JP2002215659A (ja) 情報検索支援方法および情報検索支援システム
JP2000090103A (ja) 情報検索装置及び情報検索プログラムを記録したコンピュータ読み取り可能な記録媒体
CN107256513A (zh) 一种对象的搭配推荐方法及装置
Neshati et al. Integration of scientific and social networks
US20080183759A1 (en) System and method for matching expertise
TW201642195A (zh) 商品相關網路文章之自動圖文摘要方法及系統
KR20090013928A (ko) 토픽 추출 장치, 상기 토픽 추출 장치를 이용한 소셜네트워크 생성 시스템 및 그 방법
US20120239657A1 (en) Category classification processing device and method
Pohl et al. Supporting crisis management via sub-event detection in social networks
JP5224532B2 (ja) 評判情報分類装置及びプログラム
JP5461475B2 (ja) 情報検索方法、情報検索装置及び情報検索プログラム
JP5661719B2 (ja) 質問応答装置、方法、及びプログラム
JP6639040B2 (ja) 情報検索装置及びプログラム

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20130606

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130717

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20130801

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131218

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140115

R150 Certificate of patent or registration of utility model

Ref document number: 5461475

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees