JP4428703B2

JP4428703B2 - 情報検索方法及びそのシステム並びにコンピュータプログラム

Info

Publication number: JP4428703B2
Application number: JP2004327849A
Authority: JP
Inventors: 隆明長谷川; 永小原
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2004-11-11
Filing date: 2004-11-11
Publication date: 2010-03-10
Anticipated expiration: 2024-11-11
Also published as: JP2006139484A

Description

本発明は、大規模に蓄積されている文書に対して、ユーザが特定のキーワードを入力することにより、キーワードに関連する共起単語を抽出して、共起単語を含む共起表現を検索する情報検索方法及びそのシステムに関する。

インターネットの発達により個人が情報を発信する機会が大きく増え、ユーザはインターネットを使って特定の話題について多くの他人の意見を調べることが可能になった。しかし、ユーザは検索エンジンを使って特定の話題について調べる際に、話題に関連する検索に効果的なキーワードをあらかじめ想定するのは難しいため、通常検索エンジンに入力されるキーワードの数はせいぜい２語から３語であり１語だけの場合もある。少ないキーワードの入力でも、検索結果を分類・クラスタリングしてユーザに提示することにより、ユーザの検索意図が明確になるように誘導する研究開発が行われている[非特許文献１]。

一般に文書のクラスタリングは、文書に含まれる単語に何らかの重みを付けることにより、文書をベクトルとして表現し、ベクトルの類似している文書をグループ化することにより実現される[非特許文献２]。

個人が情報発信する文書には日記形式の文書が多く、そのような文書では日付の後ろに個人の意見や感想が述べられているものが繰り返される。個人の関心は多様であり日々変化していくので、結果としてひとつの文書の中に雑多な話題が混在している場合も存在する。このため、文書単位の分類では、話題単位で文書を分類することは難しい。また、分類された文書集合について、ひとつひとつの文書を開いて内容を確認することになるので、ピンポイントに個々の意見情報にアクセスしたり全体の意見の傾向を掴んだりするという観点から見れば効率が悪いという問題も存在する。

一方、あらかじめ抽出したい話題の内容がはっきりと決まっている場合には、[非特許文献３]に記載されているように話題に関係する辞書やパターンを事前に作成しておき、これに合致する部分を文書集合から抽出する方法も提案されている。しかしながら、抽出したい内容が事前には不明であったり、話題を動的に変化させたりする場合にはこのようなアプローチでは難しい。
"情報検索結果の知的提示のための自動要約ならびにインタフェースに関する研究",http://www.forest.eis.ynu.ac.jp/〜mori/Kaken/Informatics/ 岩波講座ソフトウェア科学15 自然言語処理、長尾真編、11章 "Web 文書集合からの意見情報抽出と着眼点に基づく要約生成"立石他，言語処理学会第10回年次大会発表論文集(2004年3月)

上記に述べたように、検索結果の文書分類では文書に雑多な話題が含まれるため話題単位で文書を分類することは難しいし、分類された文書の内容を個別に確認する必要があり話題を俯瞰するには効率が悪い。

一方で、話題ごとに関係する辞書やパターンを事前に作成することも時間やコストの問題が存在する。

本発明はこの問題を解決するため、文書を分類することなく、また辞書やパターンを事前に作成することなく、検索キーワードによる検索によって所望の文書に含まれる共起表現を俯瞰的に検索可能とする情報検索方法及びそのシステム並びにコンピュータプログラムを提供することを目的とするものである。

本発明は、上記の目的を達成するために、コンピュータ装置が実行する情報検索方法であって、前記コンピュータ装置は、複数の文書が格納されている文書集合データベースからクエリ単語を含む文書を検索し、検索された文書を検索文書として検索文書データベースに格納するステップと、前記検索文書データベースに格納されている各検索文書について、前記クエリ単語を含むパラグラフ中に存在する単語を共起単語とし、前記クエリ単語に対応させて前記共起単語を前記共起単語リストに登録するステップと、前記クエリ単語で前記文書集合データベースを検索したときに得られる適合文書数と、前記共起単語リストに登録されている各共起単語で前記文書集合データベースを検索したときに得られる適合文書数と、前記クエリ単語と該クエリ単語に対応する各共起単語の対で前記文書集合データベースを検索したときに得られる適合文書数とを適合文書数テーブルに格納するステップと、前記共起単語毎に、前記適合文書数テーブルに格納された前記３種類の適合文書数を用いて、前記クエリ単語と前記共起単語の関連度を算出するステップと、前記算出した関連度が所定の上限値と下限値からなる範囲内に属する共起単語を重要共起単語とし、前記クエリ単語に対応させて前記重要共起単語を重要共起単語リストに格納するステップと、前記重要共起単語リストに格納されているクエリ単語と各重要共起単語で前記文書集合データベースを検索し、これらの単語を含む文書を取得し、前記クエリ単語と前記各重要共起単語のうちの何れかとを同時に含む文全体またはフレーズの少なくとも何れか一方を前記抽出した文書から抽出して共起表現として共起表現データベースに格納するステップと、を実行する情報検索方法を提案する。

本発明の情報検索方法によれば、クエリ単語で文書集合データベースに存在する文書が検索され、該文書中においてクエリ単語の周辺に存在する単語が共起単語として抽出される。また、文書集合データベースに存在する文書を検索し、クエリ単語だけを含む文書の数と、共起単語だけを含む文書の数と、クエリ単語と共起単語の両者を含む文書の数が取得され、取得した文書数に基づいてクエリ単語と共起単語との関連度が算出される。また、重要共起単語リストに格納されているクエリ単語と各重要共起単語で文書集合データベースが検索され、これらの単語を含む文書が取得される。さらに、算出された関連度に基づいて、クエリ単語と共起単語との関連が強い共起単語を重要共起単語として、クエリ単語及び該重要共起単語を共に含む文全体またはフレーズの少なくとも何れか一方が前記取得した文書から抽出されて共起表現とされ、この共起表現が提示される。

これにより、例えば意見情報を含む文書に含まれる話題に関する少量のキーワードによる検索結果から適合する文書数に基づいて話題に関連する共起単語を抽出し、共起単語を含むフレーズや文の共起表現を意見情報を含む文書集合から収集し、共起単語ごとにまとめられた共起表現をユーザに提示することが可能になり、ユーザが所望の話題についての意見情報を俯瞰的に検索可能となる。

また、本発明は、上記方法を実施可能とするために、複数の文書が格納されている文書集合データベースと、前記文書集合データベースから前記クエリ単語を含む文書を検索し、検索された文書を検索文書として検索文書データベースに格納する適合文書検索部と、前記検索文書データベースに格納されている各検索文書について、前記クエリ単語を含むパラグラフ中に存在する単語を共起単語とし、前記クエリ単語に対応させて前記共起単語を前記共起単語リストに登録する共起単語取得部と、前記クエリ単語で前記文書集合データベースを検索したときに得られる適合文書数と、前記共起単語リストに登録されている各共起単語で前記文書集合データベースを検索したときに得られる適合文書数と、前記クエリ単語と該クエリ単語に対応する各共起単語の対で前記文書集合データベースを検索したときに得られる適合文書数とを適合文書数テーブルに格納する適合文書数取得部と、前記共起単語毎に、前記適合文書数テーブルに格納された前記３種類の適合文書数を用いて、クエリ単語と共起単語の関連度を計算する関連度計算部と、前記クエリ単語と共起単語の関連度が所定の上限値と下限値からなる範囲内に属する共起単語を重要共起単語として、クエリ単語に対応させて重要共起単語を前記重要共起単語リストに格納する重要共起単語格納部と、前記重要共起単語リストに格納されているクエリ単語と各重要共起単語で前記文書集合データベースを検索し、これらの単語を含む文書を取得し、前記クエリ単語と前記各重要共起単語のうち何れかとを同時に含む文全体またはフレーズの少なくとも何れか一方を前記取得した文書から抽出して共起表現として前記共起表現データベースに格納する共起表現収集部と、を有する情報検索システムを構成した。

本発明の情報検索方法及びそのシステムによれば、意見情報を含む文書集合を対象にユーザが調べたい話題について、話題に適度に関連してかつ一般的過ぎない共起単語を適合文書数に基づいて獲得し、話題語と共起単語を同時に含む文やフレーズを共起表現として網羅的に収集し、共起単語ごとにユーザに提示するので、ユーザは調べたい話題についての軸となるキーワードやそれを含む意見情報を俯瞰することが可能となる。

図１は本発明の一実施形態における情報検索システムを示す構成図である。図において、100は情報検索システムで、単語入力部200、適合文書検索部300、文書集合データベース400、検索文書データベース500、共起単語取得部600、共起単語リスト700、適合文書数取得部800、適合文書数テーブル900、関連度計算部1000、重要共起単語格納部1100、重要共起単語リスト1200、共起表現収集部1300、共起表現データベース1400、出力部1500を備えており、少なくとも１つの周知のコンピュータ装置によって構成されている。

単語入力部200は、外部よりクエリとしての単語（以下、単にクエリ単語と称する）を入力する。

適合文書検索部300は、入力されたクエリ単語に適合する文書すなわちクエリ単語を含む文書を文書集合データベース400から検索し、あらかじめ定められた所定文書数だけの文書を検索文書として取得し、この検索文書をクエリ単語と組にして検索文書データベース500に格納する。ここで、文書集合データベース400には、あらかじめ大量の文書が格納されている。

検索文書データベース500には、適合文書検索部300によって取得された検索文書がクエリ単語と組にされて格納される。

共起単語取得部600は、検索文書データベース500に格納されている検索文書に対して、文書にタグが付いていればタグを削除し、各検索文書を単語に分割し、クエリ単語の周辺に存在する単語を共起単語として抽出し、この抽出した共起単語をクエリ単語に対応させて共起単語リスト700に登録する。

共起単語リスト700は、検索文書内でクエリ単語と共起する共起単語をクエリ単語に対応させて格納する。

適合文書数取得部800は、共起単語リスト700に格納されている各共起単語で文書集合データベース400を検索したときに得られる適合文書数と、クエリ単語と各共起単語の対で文書集合データベース400を検索したときに得られる適合文書数を適合文書数テーブル900に格納する。

従って、適合文書数テーブル900には、共起単語で文書集合データベース400を検索したときの適合文書数と、クエリ単語とこのクエリ単語に対応する共起単語の対で文書集合データベース400を検索したときの適合文書数が格納される。

関連度計算部1000は、適合文書数テーブル900を参照して、クエリ単語と共起単語の関連度を計算する。この関連度の計算方法に関しては後述する。

重要共起単語格納部1100は、クエリ単語と共起単語の関連度があらかじめ定められた条件を満たす共起単語を重要共起単語として、この重要共起単語をクエリ単語に対応させて重要共起単語リスト1200に格納する。

従って、重要共起単語リスト1200には、共起単語の中である定められた条件を満たす重要共起単語とクエリ単語が格納される。

共起表現収集部1300は、重要共起単語リスト1200に格納されているクエリ単語と各重要共起単語で文書集合データベース400を検索し、この検索に適合する文書を得て、あらかじめ定められた文書数だけを対象として、クエリ単語と各重要共起単語を同時に含む文やフレーズを対象となる文書から網羅的に収集し、これらの文やフレーズを共起表現として共起表現データベース1400に格納する。

従って、共起表現データベース1400には、クエリ単語と重要共起単語を同時に含む文やフレーズが格納される。

出力部1500は、共起表現収集部1300に格納されている共起表現を重要共起単語ごとに出力表示する。

次に、前述の構成よりなる情報検索システムのコンピュータプログラム処理動作を図２に示すフローチャートを参照して説明する。

情報検索システム100は、単語入力部200から単語が入力されると（Ｓ１）、入力された単語をクエリ単語として文書集合データベース400からクエリ単語に適合する文書を検索し（Ｓ２）、クエリ単語に適合した文書数を取得してクエリ単語に対応させて適合文書数テーブル900に格納する（Ｓ３）と共に、あらかじめ定められた数値以内の文書数だけ検索文書を取得し（Ｓ４）、取得した検索文書をクエリ単語と対応させて検索文書データベース500に格納する（Ｓ５）。

次いで、検索文書データベース500に格納されている文書に対して、文書にタグが付いていればタグを削除し、各文書を単語に分割し（Ｓ６）、クエリ単語の周辺に存在する単語を共起単語として抽出する（Ｓ７）と共に、抽出した共起単語をクエリ単語に対応させて共起単語リスト700に登録する（Ｓ８）。

この後、共起単語リスト700に格納されている各共起単語で文書集合データベース400を検索したときに得られる適合文書数と、クエリ単語とこのクエリ単語に対応する各共起単語との対で文書集合データベース400を検索したときに得られる適合文書数を適合文書数テーブル900に格納する（Ｓ９）。

次に、適合文書数テーブル900を参照し、クエリ単語と共起単語の関連度を共起単語毎に計算する（Ｓ１０）。この関連度の計算方法に関しては、その一具体例を後述する。

さらに、情報検索システム100は、上記算出したクエリ単語と共起単語の関連度があらかじめ定められた条件を満たす共起単語を重要共起単語とし（Ｓ１１）、クエリ単語に対応させて重要共起単語を重要共起単語リスト1200に格納する（Ｓ１２）。

次いで、重要共起単語リスト1200に格納されているクエリ単語と各重要共起単語で文書集合データベース400を検索し（Ｓ１３）、これらの単語に適合する文書すなわちこれらの単語を含む文書を抽出し（Ｓ１４）、あらかじめ定められた数の文書だけを対象としてクエリ単語と各重要共起単語を同時に含む文やフレーズを対象となる文書から網羅的に収集して、これらの文やフレーズを共起表現とし（Ｓ１５）、これらの共起表現を共起表現データベース1400に格納する（Ｓ１６）。

この後、情報検索システム100は、共起表現データベース1400に格納されている共起表現を重要共起単語ごとに出力表示する（Ｓ１７）。

以下、図１乃至図６を参照し、一具体例を用いて、本実施形態における情報検索システム100の動作を説明する。

例えば、単語入力部200に「デジカメ1」という製品名が入力されたとする。適合文書検索部300はクエリ単語を「デジカメ1」として、これに適合する文書を抽出するために文書集合データベース400を検索する。尚、ここでの文書集合データベース400の形式は特に規定されるものではなく、[非特許文献２]に示されるようなインデックスを保持しても良い。

あらかじめ設定される文書数を例えば100とすると、適合文書検索部300は、検索結果のランキング順の上位100個の文書を検索文書データベース500に格納する。尚、本具体例では、検索文書データベース500は、文書IDと文書のテキストからなる。文書IDはURL等であってもよい。

共起単語取得部600は、検索文書データベース500に格納されている100個の文書について「デジカメ1」を含むパラグラフあるいは文書全体に存在する単語を抽出し、共起単語リスト700に格納する。このとき、形態素解析を行って、例えば品詞が名詞である単語だけに限定しても良いし、名詞の連続する複合語を含めてもよいし、あるいは品詞が動詞や形容詞の単語としてもよい。

図３は共起単語リスト700の一例を示す図である。クエリ単語である「デジカメ1」に対応する共起単語として、例えば「起動」、「バッテリ」、「小型」、「軽量」、「画質」、「レスポンス」、「ストロボ」、「シャッター」、「メーカー1」、「商品」、「デジカメ2」等が格納される。

適合文書数取得部800は、共起単語リスト700に格納されている共起単語の各々について、それをキーワードして文書集合データベース400から適合する文書の数を取得する。さらに、共起単語リスト700に格納されているクエリ単語と共起単語の各々とを組み合わせて、これをキーワードとして文書集合データベース400から適合する文書の数を取得する。すなわち、このキーワードを含む文書の数を取得する。例えば「デジカメ1 起動」や「デジカメ1 バッテリ」をキーワードとして文書集合データベース400から適合する文書の数を取得する。次いで、これらの文書数を適合文書数テーブル900に格納する。

図４は適合文書数テーブル900の一例を示す図である。共起単語単独の「起動」に適合する文書数は 1,230,000件で、クエリ単語と共起単語のアンドの「デジカメ1 起動」に適合する文書数は 1,920件であることを示している。

関連度計算部1000は、適合文書数テーブル900を参照し、次式によってクエリ単語ｑと共起単語ｗの関連度Ｒ(ｑ，ｗ)を計算し、適合文書数テーブル900の関連度を更新する。

ここで、Ｈ(ｑ)は文書集合データベース400に対してクエリ単語ｑが適合する文書数である。Ｈ(ｗ)は文書集合データベース400に対して共起単語ｗが適合する文書数である。Ｈ(ｑ，ｗ)はクエリ単語ｑと共起単語ｗのアンド検索で適合する文書数である。また、式中における「＊」は乗算を表す。

この式のように、クエリ単語ｑを含む文書の数Ｈ(ｑ)と共起単語ｗを含む文書の数Ｈ(ｗ)とを乗算した値で、クエリ単語ｑと共起単語ｗの双方を含む文書の数Ｈ(ｑ，ｗ)を除算した値の対数を関連度Ｒ(ｑ，ｗ)として算出する。

この式の意図するところは、クエリ単語と共起単語の文書集合における相互情報量に相当する情報量を計算することである。そのため、ここでは相互情報量の算出式と類似した計算式を採用している。相違点は、相互情報量は文書集合における２つの単語の出現頻度に基づいて計算されるものであるが、文書集合が大規模になると直接出現頻度を求めるのは効率が悪いので、ここでは代わりに２つの単語が適合する文書数を用いている。

この計算式の値から、一般的過ぎる共起単語または関連が強すぎる共起単語を推定する。計算式の値は、共起単語が一般的過ぎると小さくなり、共起単語が強く関連すると大きくなる。そこで、重要共起単語格納部1100は、関連度Ｒに対する条件として、一般的過ぎる共起単語を除いたり逆にクエリ単語との関連が強すぎたりする共起単語を除く必要があるため、関連度Ｒ(ｑ，ｗ)が所定の範囲内にある共起単語を重要共起単語として重要共起単語リスト1200に格納する。例えば閾値の範囲を-17から-15に設定し、適合文書数テーブル900を参照してこの閾値の範囲に含まれる関連度を有する共起単語を重要共起単語として重要共起単語リスト1200に格納する。例えば、図４においては、-16.9の関連度を持つ「起動」や-15.1の関連度を持つ「バッテリ」の共起単語を重要共起単語として重要共起単語リスト1200に格納する。

図５は重要共起単語リスト1200の一例を示す図である。重要共起単語リスト1200には、クエリ単語としての「デジカメ1」と、重要共起単語として「起動」、「バッテリ」、「小型」、「軽量」、「画質」等が格納される。

ここで、関連が強すぎる共起単語を除く理由は、例えば図３のようなクエリ単語が「デジカメ1」である場合の共起単語「メーカー1」が相当するが、このような共起単語からはユーザが知りたいと考えている情報というよりは「メーカー1」が開発元や販売元であるような多くのユーザにとっては既知の情報しか得られず、ユーザに有益な情報を提示するという効果が薄くなるからである。

反対に、一般的過ぎる共起単語を除く理由は、例えばクエリ単語「デジカメ1」の場合の「商品」という共起単語からはユーザにとって自明の情報しか得られず、やはりユーザに有益な情報を提示することができないからである。

共起表現収集部1300は、重要共起単語リスト1200を参照し、クエリの単語と各重要共起単語の対を作成し、例えば「デジカメ1 起動」をキーワードとして文書集合データベース400を検索し、あらかじめ定められた文書数を100件とすると、ランキング順上位100件の文書を取得し、クエリ単語「デジカメ1」と重要共起単語「起動」を同時に含む箇所を抽出する。このとき、「デジカメ1」と「起動」を含む文全体でもよいし、句読点を単位とするフレーズでもよいし、「デジカメ1」と「起動」を両端とするフレーズでもよい。クエリ単語とすべての重要共起単語を含む箇所を共起表現として収集し、共起表現データベース1400に格納する。

図６は共起表現データベース1400の一例を示す図である。共起表現データベース1400は、共起表現を収集した文書の文書IDも同時に格納する。文書IDはURL等であってもよい。

出力部1500は、共起表現データベース1400を参照し、クエリ単語に関連する各重要共起単語と、クエリ単語と各重要共起単語の共起表現の集合を出力表示する。

以上説明したように、本実施形態の情報検索システムによれば、意見情報を含む文書集合を対象にユーザが調べたい話題（クエリ単語）について、話題に関連するが一般的でない共起単語を適合文書数に基づいて獲得し、話題語と共起単語を同時に含む文やフレーズを共起表現として網羅的に収集し、共起単語ごとにユーザに提示することにより、ユーザは調べたい話題についての軸となるキーワードやそれを含む意見情報を俯瞰することが可能となる。

尚、上記実施形態の情報検索システムは本発明の一実施例であって、本発明がこれのみに限定されないことは言うまでもないことである。

本発明の一実施形態における情報検索システムを示す構成図本発明の一実施形態における情報検索システムのコンピュータプログラム動作を説明するフローチャート本発明の一実施形態における共起単語リストの一例を示す図本発明の一実施形態における適合文書数テーブルの一例を示す図本発明の一実施形態における重要共起単語リストの一例を示す図本発明の一実施形態における共起表現データベースの一例を示す図

符号の説明

100…情報検索システム、200…単語入力部、300…適合文書検索部、400…文書集合データベース、500…検索文書データベース、600…共起単語取得部、700…共起単語リスト、800…適合文書数取得部、900…適合文書数テーブル、1000…関連度計算部、1100…重要共起単語格納部、1200…重要共起単語リスト、1300…共起表現収集部、1400…共起表現データベース、1500…出力部。

Claims

コンピュータ装置が実行する情報検索方法であって、
前記コンピュータ装置は、
複数の文書が格納されている文書集合データベースからクエリ単語を含む文書を検索し、検索された文書を検索文書として検索文書データベースに格納するステップと、
前記検索文書データベースに格納されている各検索文書について、前記クエリ単語を含むパラグラフ中に存在する単語を共起単語とし、前記クエリ単語に対応させて前記共起単語を前記共起単語リストに登録するステップと、
前記クエリ単語で前記文書集合データベースを検索したときに得られる適合文書数と、前記共起単語リストに登録されている各共起単語で前記文書集合データベースを検索したときに得られる適合文書数と、前記クエリ単語と該クエリ単語に対応する各共起単語の対で前記文書集合データベースを検索したときに得られる適合文書数とを適合文書数テーブルに格納するステップと、
前記共起単語毎に、前記適合文書数テーブルに格納された前記３種類の適合文書数を用いて、前記クエリ単語と前記共起単語の関連度を算出するステップと、
前記算出した関連度が所定の上限値と下限値からなる範囲内に属する共起単語を重要共起単語とし、前記クエリ単語に対応させて前記重要共起単語を重要共起単語リストに格納するステップと、
前記重要共起単語リストに格納されているクエリ単語と各重要共起単語で前記文書集合データベースを検索し、これらの単語を含む文書を取得し、前記クエリ単語と前記各重要共起単語のうちの何れかとを同時に含む文全体またはフレーズの少なくとも何れか一方を前記取得した文書から抽出して共起表現として共起表現データベースに格納するステップと、
を実行することを特徴とする情報検索方法。
前記コンピュータ装置は、前記関連度を算出する際に、前記クエリ単語で前記文書集合データベースを検索したときに得られる適合文書数と前記共起単語リストに登録されている各共起単語で前記文書集合データベースを検索したときに得られる適合文書数とを乗算した値で、前記クエリ単語と該クエリ単語に対応する各共起単語の対で前記文書集合データベースを検索したときに得られる適合文書数を除算した値の対数を前記関連度として算出するステップを実行する
ことを特徴とする請求項１に記載の情報検索方法。
複数の文書が格納されている文書集合データベースと、
前記文書集合データベースから前記クエリ単語を含む文書を検索し、検索された文書を検索文書として検索文書データベースに格納する適合文書検索部と、
前記検索文書データベースに格納されている各検索文書について、前記クエリ単語を含むパラグラフ中に存在する単語を共起単語とし、前記クエリ単語に対応させて前記共起単語を前記共起単語リストに登録する共起単語取得部と、
前記クエリ単語で前記文書集合データベースを検索したときに得られる適合文書数と、前記共起単語リストに登録されている各共起単語で前記文書集合データベースを検索したときに得られる適合文書数と、前記クエリ単語と該クエリ単語に対応する各共起単語の対で前記文書集合データベースを検索したときに得られる適合文書数とを適合文書数テーブルに格納する適合文書数取得部と、
前記共起単語毎に、前記適合文書数テーブルに格納された前記３種類の適合文書数を用いて、クエリ単語と共起単語の関連度を計算する関連度計算部と、
前記クエリ単語と共起単語の関連度が所定の上限値と下限値からなる範囲内に属する共起単語を重要共起単語として、クエリ単語に対応させて重要共起単語を前記重要共起単語リストに格納する重要共起単語格納部と、
前記重要共起単語リストに格納されているクエリ単語と各重要共起単語で前記文書集合データベースを検索し、これらの単語を含む文書を取得し、前記クエリ単語と前記各重要共起単語のうちの何れかとを同時に含む文全体またはフレーズの少なくとも何れか一方を前記取得した文書から抽出して共起表現として前記共起表現データベースに格納する共起表現収集部と、
を有することを特徴とする情報検索システム。
前記関連度計算部は、前記クエリ単語で前記文書集合データベースを検索したときに得られる適合文書数と前記共起単語リストに登録されている各共起単語で前記文書集合データベースを検索したときに得られる適合文書数とを乗算した値で、前記クエリ単語と該クエリ単語に対応する各共起単語の対で前記文書集合データベースを検索したときに得られる適合文書数を除算した値の対数を前記関連度として算出する手段を有する
ことを特徴とする請求項３に記載の情報検索システム。
前記請求項１乃至請求項２の何れかに記載の処理ステップを含むことを特徴とするコンピュータプログラム。