JP4428703B2 - 情報検索方法及びそのシステム並びにコンピュータプログラム - Google Patents

情報検索方法及びそのシステム並びにコンピュータプログラム Download PDF

Info

Publication number
JP4428703B2
JP4428703B2 JP2004327849A JP2004327849A JP4428703B2 JP 4428703 B2 JP4428703 B2 JP 4428703B2 JP 2004327849 A JP2004327849 A JP 2004327849A JP 2004327849 A JP2004327849 A JP 2004327849A JP 4428703 B2 JP4428703 B2 JP 4428703B2
Authority
JP
Japan
Prior art keywords
word
occurrence
document
query
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004327849A
Other languages
English (en)
Other versions
JP2006139484A (ja
Inventor
隆明 長谷川
永 小原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004327849A priority Critical patent/JP4428703B2/ja
Publication of JP2006139484A publication Critical patent/JP2006139484A/ja
Application granted granted Critical
Publication of JP4428703B2 publication Critical patent/JP4428703B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、大規模に蓄積されている文書に対して、ユーザが特定のキーワードを入力することにより、キーワードに関連する共起単語を抽出して、共起単語を含む共起表現を検索する情報検索方法及びそのシステムに関する。
インターネットの発達により個人が情報を発信する機会が大きく増え、ユーザはインターネットを使って特定の話題について多くの他人の意見を調べることが可能になった。しかし、ユーザは検索エンジンを使って特定の話題について調べる際に、話題に関連する検索に効果的なキーワードをあらかじめ想定するのは難しいため、通常検索エンジンに入力されるキーワードの数はせいぜい2語から3語であり1語だけの場合もある。少ないキーワードの入力でも、検索結果を分類・クラスタリングしてユーザに提示することにより、ユーザの検索意図が明確になるように誘導する研究開発が行われている[非特許文献1]。
一般に文書のクラスタリングは、文書に含まれる単語に何らかの重みを付けることにより、文書をベクトルとして表現し、ベクトルの類似している文書をグループ化することにより実現される[非特許文献2]。
個人が情報発信する文書には日記形式の文書が多く、そのような文書では日付の後ろに個人の意見や感想が述べられているものが繰り返される。個人の関心は多様であり日々変化していくので、結果としてひとつの文書の中に雑多な話題が混在している場合も存在する。このため、文書単位の分類では、話題単位で文書を分類することは難しい。また、分類された文書集合について、ひとつひとつの文書を開いて内容を確認することになるので、ピンポイントに個々の意見情報にアクセスしたり全体の意見の傾向を掴んだりするという観点から見れば効率が悪いという問題も存在する。
一方、あらかじめ抽出したい話題の内容がはっきりと決まっている場合には、[非特許文献3]に記載されているように話題に関係する辞書やパターンを事前に作成しておき、これに合致する部分を文書集合から抽出する方法も提案されている。しかしながら、抽出したい内容が事前には不明であったり、話題を動的に変化させたりする場合にはこのようなアプローチでは難しい。
"情報検索結果の知的提示のための自動要約ならびにインタフェースに関する研究",http://www.forest.eis.ynu.ac.jp/〜mori/Kaken/Informatics/ 岩波講座ソフトウェア科学15 自然言語処理、長尾真 編、11章 "Web 文書集合からの意見情報抽出と着眼点に基づく要約生成"立石他,言語処理学会 第10回年次大会発表論文集(2004年3月)
上記に述べたように、検索結果の文書分類では文書に雑多な話題が含まれるため話題単位で文書を分類することは難しいし、分類された文書の内容を個別に確認する必要があり話題を俯瞰するには効率が悪い。
一方で、話題ごとに関係する辞書やパターンを事前に作成することも時間やコストの問題が存在する。
本発明はこの問題を解決するため、文書を分類することなく、また辞書やパターンを事前に作成することなく、検索キーワードによる検索によって所望の文書に含まれる共起表現を俯瞰的に検索可能とする情報検索方法及びそのシステム並びにコンピュータプログラムを提供することを目的とするものである。
本発明は、上記の目的を達成するために、コンピュータ装置が実行する情報検索方法であって、前記コンピュータ装置は、複数の文書が格納されている文書集合データベースからクエリ単語を含む文書を検索し、検索された文書を検索文書として検索文書データベースに格納するステップと、前記検索文書データベースに格納されている各検索文書について、前記クエリ単語を含むパラグラフ中に存在する単語を共起単語とし、前記クエリ単語に対応させて前記共起単語を前記共起単語リストに登録するステップと、前記クエリ単語で前記文書集合データベースを検索したときに得られる適合文書数と、前記共起単語リストに登録されている各共起単語で前記文書集合データベースを検索したときに得られる適合文書数と、前記クエリ単語と該クエリ単語に対応する各共起単語の対で前記文書集合データベースを検索したときに得られる適合文書数とを適合文書数テーブルに格納するステップと、前記共起単語毎に、前記適合文書数テーブルに格納された前記3種類の適合文書数を用いて、前記クエリ単語と前記共起単語の関連度を算出するステップと、前記算出した関連度が所定の上限値と下限値からなる範囲内に属する共起単語を重要共起単語とし、前記クエリ単語に対応させて前記重要共起単語を重要共起単語リストに格納するステップと、前記重要共起単語リストに格納されているクエリ単語と各重要共起単語で前記文書集合データベースを検索し、これらの単語を含む文書を取得し、前記クエリ単語と前記各重要共起単語のうちの何れかとを同時に含む文全体またはフレーズの少なくとも何れか一方を前記抽出した文書から抽出して共起表現として共起表現データベースに格納するステップと、を実行する情報検索方法を提案する。
本発明の情報検索方法によれば、クエリ単語で文書集合データベースに存在する文書が検索され、該文書中においてクエリ単語の周辺に存在する単語が共起単語として抽出される。また、文書集合データベースに存在する文書を検索し、クエリ単語だけを含む文書の数と、共起単語だけを含む文書の数と、クエリ単語と共起単語の両者を含む文書の数が取得され、取得した文書数に基づいてクエリ単語と共起単語との関連度が算出される。また、重要共起単語リストに格納されているクエリ単語と各重要共起単語で文書集合データベースが検索され、これらの単語を含む文書が取得される。さらに、算出された関連度に基づいて、クエリ単語と共起単語との関連が強い共起単語を重要共起単語として、クエリ単語及び該重要共起単語を共に含む文全体またはフレーズの少なくとも何れか一方が前記取得した文書から抽出されて共起表現とされ、この共起表現が提示される。
これにより、例えば意見情報を含む文書に含まれる話題に関する少量のキーワードによる検索結果から適合する文書数に基づいて話題に関連する共起単語を抽出し、共起単語を含むフレーズや文の共起表現を意見情報を含む文書集合から収集し、共起単語ごとにまとめられた共起表現をユーザに提示することが可能になり、ユーザが所望の話題についての意見情報を俯瞰的に検索可能となる。
また、本発明は、上記方法を実施可能とするために、複数の文書が格納されている文書集合データベースと、前記文書集合データベースから前記クエリ単語を含む文書を検索し、検索された文書を検索文書として検索文書データベースに格納する適合文書検索部、前記検索文書データベースに格納されている各検索文書について前記クエリ単語を含むパラグラフ中に存在する単語を共起単語とし、前記クエリ単語に対応させて前記共起単語を前記共起単語リストに登録する共起単語取得部と、前記クエリ単語で前記文書集合データベースを検索したときに得られる適合文書数と、前記共起単語リストに登録されている各共起単語で前記文書集合データベースを検索したときに得られる適合文書数と、前記クエリ単語と該クエリ単語に対応する各共起単語の対で前記文書集合データベースを検索したときに得られる適合文書数とを適合文書数テーブルに格納する適合文書数取得部と、前記共起単語毎に、前記適合文書数テーブルに格納された前記3種類の適合文書数を用いて、クエリ単語と共起単語の関連度を計算する関連度計算部と、前記クエリ単語と共起単語の関連度が所定の上限値と下限値からなる範囲内に属する共起単語を重要共起単語として、クエリ単語に対応させて重要共起単語を前記重要共起単語リストに格納する重要共起単語格納部と、前記重要共起単語リストに格納されているクエリ単語と各重要共起単語で前記文書集合データベースを検索し、これらの単語を含む文書を取得し、前記クエリ単語と前記各重要共起単語のうち何れかとを同時に含む文全体またはフレーズの少なくとも何れか一方を前記取得した文書から抽出して共起表現として前記共起表現データベースに格納する共起表現収集部と、を有する情報検索システムを構成した。
本発明の情報検索方法及びそのシステムによれば、意見情報を含む文書集合を対象にユーザが調べたい話題について、話題に適度に関連してかつ一般的過ぎない共起単語を適合文書数に基づいて獲得し、話題語と共起単語を同時に含む文やフレーズを共起表現として網羅的に収集し、共起単語ごとにユーザに提示するので、ユーザは調べたい話題についての軸となるキーワードやそれを含む意見情報を俯瞰することが可能となる。
図1は本発明の一実施形態における情報検索システムを示す構成図である。図において、100は情報検索システムで、単語入力部200、適合文書検索部300、文書集合データベース400、検索文書データベース500、共起単語取得部600、共起単語リスト700、適合文書数取得部800、適合文書数テーブル900、関連度計算部1000、重要共起単語格納部1100、重要共起単語リスト1200、共起表現収集部1300、共起表現データベース1400、出力部1500を備えており、少なくとも1つの周知のコンピュータ装置によって構成されている。
単語入力部200は、外部よりクエリとしての単語(以下、単にクエリ単語と称する)を入力する。
適合文書検索部300は、入力されたクエリ単語に適合する文書すなわちクエリ単語を含む文書を文書集合データベース400から検索し、あらかじめ定められた所定文書数だけの文書を検索文書として取得し、この検索文書をクエリ単語と組にして検索文書データベース500に格納する。ここで、文書集合データベース400には、あらかじめ大量の文書が格納されている。
検索文書データベース500には、適合文書検索部300によって取得された検索文書がクエリ単語と組にされて格納される。
共起単語取得部600は、検索文書データベース500に格納されている検索文書に対して、文書にタグが付いていればタグを削除し、各検索文書を単語に分割し、クエリ単語の周辺に存在する単語を共起単語として抽出し、この抽出した共起単語をクエリ単語に対応させて共起単語リスト700に登録する。
共起単語リスト700は、検索文書内でクエリ単語と共起する共起単語をクエリ単語に対応させて格納する。
適合文書数取得部800は、共起単語リスト700に格納されている各共起単語で文書集合データベース400を検索したときに得られる適合文書数と、クエリ単語と各共起単語の対で文書集合データベース400を検索したときに得られる適合文書数を適合文書数テーブル900に格納する。
従って、適合文書数テーブル900には、共起単語で文書集合データベース400を検索したときの適合文書数と、クエリ単語とこのクエリ単語に対応する共起単語の対で文書集合データベース400を検索したときの適合文書数が格納される。
関連度計算部1000は、適合文書数テーブル900を参照して、クエリ単語と共起単語の関連度を計算する。この関連度の計算方法に関しては後述する。
重要共起単語格納部1100は、クエリ単語と共起単語の関連度があらかじめ定められた条件を満たす共起単語を重要共起単語として、この重要共起単語をクエリ単語に対応させて重要共起単語リスト1200に格納する。
従って、重要共起単語リスト1200には、共起単語の中である定められた条件を満たす重要共起単語とクエリ単語が格納される。
共起表現収集部1300は、重要共起単語リスト1200に格納されているクエリ単語と各重要共起単語で文書集合データベース400を検索し、この検索に適合する文書を得て、あらかじめ定められた文書数だけを対象として、クエリ単語と各重要共起単語を同時に含む文やフレーズを対象となる文書から網羅的に収集し、これらの文やフレーズを共起表現として共起表現データベース1400に格納する。
従って、共起表現データベース1400には、クエリ単語と重要共起単語を同時に含む文やフレーズが格納される。
出力部1500は、共起表現収集部1300に格納されている共起表現を重要共起単語ごとに出力表示する。
次に、前述の構成よりなる情報検索システムのコンピュータプログラム処理動作を図2に示すフローチャートを参照して説明する。
情報検索システム100は、単語入力部200から単語が入力されると(S1)、入力された単語をクエリ単語として文書集合データベース400からクエリ単語に適合する文書を検索し(S2)、クエリ単語に適合した文書数を取得してクエリ単語に対応させて適合文書数テーブル900に格納する(S3)と共に、あらかじめ定められた数値以内の文書数だけ検索文書を取得し(S4)、取得した検索文書をクエリ単語と対応させて検索文書データベース500に格納する(S5)。
次いで、検索文書データベース500に格納されている文書に対して、文書にタグが付いていればタグを削除し、各文書を単語に分割し(S6)、クエリ単語の周辺に存在する単語を共起単語として抽出する(S7)と共に、抽出した共起単語をクエリ単語に対応させて共起単語リスト700に登録する(S8)。
この後、共起単語リスト700に格納されている各共起単語で文書集合データベース400を検索したときに得られる適合文書数と、クエリ単語とこのクエリ単語に対応する各共起単語との対で文書集合データベース400を検索したときに得られる適合文書数を適合文書数テーブル900に格納する(S9)。
次に、適合文書数テーブル900を参照し、クエリ単語と共起単語の関連度を共起単語毎に計算する(S10)。この関連度の計算方法に関しては、その一具体例を後述する。
さらに、情報検索システム100は、上記算出したクエリ単語と共起単語の関連度があらかじめ定められた条件を満たす共起単語を重要共起単語とし(S11)、クエリ単語に対応させて重要共起単語を重要共起単語リスト1200に格納する(S12)。
次いで、重要共起単語リスト1200に格納されているクエリ単語と各重要共起単語で文書集合データベース400を検索し(S13)、これらの単語に適合する文書すなわちこれらの単語を含む文書を抽出し(S14)、あらかじめ定められた数の文書だけを対象としてクエリ単語と各重要共起単語を同時に含む文やフレーズを対象となる文書から網羅的に収集して、これらの文やフレーズを共起表現とし(S15)、これらの共起表現を共起表現データベース1400に格納する(S16)。
この後、情報検索システム100は、共起表現データベース1400に格納されている共起表現を重要共起単語ごとに出力表示する(S17)。
以下、図1乃至図6を参照し、一具体例を用いて、本実施形態における情報検索システム100の動作を説明する。
例えば、単語入力部200に「デジカメ1」という製品名が入力されたとする。適合文書検索部300はクエリ単語を「デジカメ1」として、これに適合する文書を抽出するために文書集合データベース400を検索する。尚、ここでの文書集合データベース400の形式は特に規定されるものではなく、[非特許文献2]に示されるようなインデックスを保持しても良い。
あらかじめ設定される文書数を例えば100とすると、適合文書検索部300は、検索結果のランキング順の上位100個の文書を検索文書データベース500に格納する。尚、本具体例では、検索文書データベース500は、文書IDと文書のテキストからなる。文書IDはURL等であってもよい。
共起単語取得部600は、検索文書データベース500に格納されている100個の文書について「デジカメ1」を含むパラグラフあるいは文書全体に存在する単語を抽出し、共起単語リスト700に格納する。このとき、形態素解析を行って、例えば品詞が名詞である単語だけに限定しても良いし、名詞の連続する複合語を含めてもよいし、あるいは品詞が動詞や形容詞の単語としてもよい。
図3は共起単語リスト700の一例を示す図である。クエリ単語である「デジカメ1」に対応する共起単語として、例えば「起動」、「バッテリ」、「小型」、「軽量」、「画質」、「レスポンス」、「ストロボ」、「シャッター」、「メーカー1」、「商品」、「デジカメ2」等が格納される。
適合文書数取得部800は、共起単語リスト700に格納されている共起単語の各々について、それをキーワードして文書集合データベース400から適合する文書の数を取得する。さらに、共起単語リスト700に格納されているクエリ単語と共起単語の各々とを組み合わせて、これをキーワードとして文書集合データベース400から適合する文書の数を取得する。すなわち、このキーワードを含む文書の数を取得する。例えば「デジカメ1 起動」や「デジカメ1 バッテリ」をキーワードとして文書集合データベース400から適合する文書の数を取得する。次いで、これらの文書数を適合文書数テーブル900に格納する。
図4は適合文書数テーブル900の一例を示す図である。共起単語単独の「起動」に適合する文書数は 1,230,000件で、クエリ単語と共起単語のアンドの「デジカメ1 起動」に適合する文書数は 1,920件であることを示している。
関連度計算部1000は、適合文書数テーブル900を参照し、次式によってクエリ単語qと共起単語wの関連度R(q,w)を計算し、適合文書数テーブル900の関連度を更新する。
Figure 0004428703
ここで、H(q)は文書集合データベース400に対してクエリ単語qが適合する文書数である。H(w)は文書集合データベース400に対して共起単語wが適合する文書数である。H(q,w)はクエリ単語qと共起単語wのアンド検索で適合する文書数である。また、式中における「*」は乗算を表す。
この式のように、クエリ単語qを含む文書の数H(q)と共起単語wを含む文書の数H(w)とを乗算した値で、クエリ単語qと共起単語wの双方を含む文書の数H(q,w)を除算した値の対数を関連度R(q,w)として算出する。
この式の意図するところは、クエリ単語と共起単語の文書集合における相互情報量に相当する情報量を計算することである。そのため、ここでは相互情報量の算出式と類似した計算式を採用している。相違点は、相互情報量は文書集合における2つの単語の出現頻度に基づいて計算されるものであるが、文書集合が大規模になると直接出現頻度を求めるのは効率が悪いので、ここでは代わりに2つの単語が適合する文書数を用いている。
この計算式の値から、一般的過ぎる共起単語または関連が強すぎる共起単語を推定する。計算式の値は、共起単語が一般的過ぎると小さくなり、共起単語が強く関連すると大きくなる。そこで、重要共起単語格納部1100は、関連度Rに対する条件として、一般的過ぎる共起単語を除いたり逆にクエリ単語との関連が強すぎたりする共起単語を除く必要があるため、関連度R(q,w)が所定の範囲内にある共起単語を重要共起単語として重要共起単語リスト1200に格納する。例えば閾値の範囲を-17から-15に設定し、適合文書数テーブル900を参照してこの閾値の範囲に含まれる関連度を有する共起単語を重要共起単語として重要共起単語リスト1200に格納する。例えば、図4においては、-16.9の関連度を持つ「起動」や-15.1の関連度を持つ「バッテリ」の共起単語を重要共起単語として重要共起単語リスト1200に格納する。
図5は重要共起単語リスト1200の一例を示す図である。重要共起単語リスト1200には、クエリ単語としての「デジカメ1」と、重要共起単語として「起動」、「バッテリ」、「小型」、「軽量」、「画質」等が格納される。
ここで、関連が強すぎる共起単語を除く理由は、例えば図3のようなクエリ単語が「デジカメ1」である場合の共起単語「メーカー1」が相当するが、このような共起単語からはユーザが知りたいと考えている情報というよりは「メーカー1」が開発元や販売元であるような多くのユーザにとっては既知の情報しか得られず、ユーザに有益な情報を提示するという効果が薄くなるからである。
反対に、一般的過ぎる共起単語を除く理由は、例えばクエリ単語「デジカメ1」の場合の「商品」という共起単語からはユーザにとって自明の情報しか得られず、やはりユーザに有益な情報を提示することができないからである。
共起表現収集部1300は、重要共起単語リスト1200を参照し、クエリの単語と各重要共起単語の対を作成し、例えば「デジカメ1 起動」をキーワードとして文書集合データベース400を検索し、あらかじめ定められた文書数を100件とすると、ランキング順上位100件の文書を取得し、クエリ単語「デジカメ1」と重要共起単語「起動」を同時に含む箇所を抽出する。このとき、「デジカメ1」と「起動」を含む文全体でもよいし、句読点を単位とするフレーズでもよいし、「デジカメ1」と「起動」を両端とするフレーズでもよい。クエリ単語とすべての重要共起単語を含む箇所を共起表現として収集し、共起表現データベース1400に格納する。
図6は共起表現データベース1400の一例を示す図である。共起表現データベース1400は、共起表現を収集した文書の文書IDも同時に格納する。文書IDはURL等であってもよい。
出力部1500は、共起表現データベース1400を参照し、クエリ単語に関連する各重要共起単語と、クエリ単語と各重要共起単語の共起表現の集合を出力表示する。
以上説明したように、本実施形態の情報検索システムによれば、意見情報を含む文書集合を対象にユーザが調べたい話題(クエリ単語)について、話題に関連するが一般的でない共起単語を適合文書数に基づいて獲得し、話題語と共起単語を同時に含む文やフレーズを共起表現として網羅的に収集し、共起単語ごとにユーザに提示することにより、ユーザは調べたい話題についての軸となるキーワードやそれを含む意見情報を俯瞰することが可能となる。
尚、上記実施形態の情報検索システムは本発明の一実施例であって、本発明がこれのみに限定されないことは言うまでもないことである。
本発明の一実施形態における情報検索システムを示す構成図 本発明の一実施形態における情報検索システムのコンピュータプログラム動作を説明するフローチャート 本発明の一実施形態における共起単語リストの一例を示す図 本発明の一実施形態における適合文書数テーブルの一例を示す図 本発明の一実施形態における重要共起単語リストの一例を示す図 本発明の一実施形態における共起表現データベースの一例を示す図
符号の説明
100…情報検索システム、200…単語入力部、300…適合文書検索部、400…文書集合データベース、500…検索文書データベース、600…共起単語取得部、700…共起単語リスト、800…適合文書数取得部、900…適合文書数テーブル、1000…関連度計算部、1100…重要共起単語格納部、1200…重要共起単語リスト、1300…共起表現収集部、1400…共起表現データベース、1500…出力部。

Claims (5)

  1. コンピュータ装置が実行する情報検索方法であって、
    前記コンピュータ装置は、
    複数の文書が格納されている文書集合データベースからクエリ単語を含む文書を検索し、検索された文書を検索文書として検索文書データベースに格納するステップと、
    前記検索文書データベースに格納されている各検索文書について、前記クエリ単語を含むパラグラフ中に存在する単語を共起単語とし、前記クエリ単語に対応させて前記共起単語を前記共起単語リストに登録するステップと
    記クエリ単語で前記文書集合データベースを検索したときに得られる適合文書数と、前記共起単語リストに登録されている各共起単語で前記文書集合データベースを検索したときに得られる適合文書数と、前記クエリ単語と該クエリ単語に対応する各共起単語の対で前記文書集合データベースを検索したときに得られる適合文書数とを適合文書数テーブルに格納するステップと、
    前記共起単語毎に、前記適合文書数テーブルに格納された前記3種類の適合文書数を用いて、前記クエリ単語と前記共起単語の関連度を算出するステップと、
    前記算出した関連度が所定の上限値と下限値からなる範囲内に属する共起単語を重要共起単語とし、前記クエリ単語に対応させて前記重要共起単語を重要共起単語リストに格納するステップと、
    前記重要共起単語リストに格納されているクエリ単語と各重要共起単語で前記文書集合データベースを検索し、これらの単語を含む文書を取得し、前記クエリ単語と前記各重要共起単語のうちの何れかとを同時に含む文全体またはフレーズの少なくとも何れか一方を前記取得した文書から抽出して共起表現として共起表現データベースに格納するステップと、
    実行することを特徴とする情報検索方法。
  2. 前記コンピュータ装置は、前記関連度を算出する際に、前記クエリ単語で前記文書集合データベースを検索したときに得られる適合文書数前記共起単語リストに登録されている各共起単語で前記文書集合データベースを検索したときに得られる適合文書数とを乗算した値で、前記クエリ単語と該クエリ単語に対応する各共起単語の対で前記文書集合データベースを検索したときに得られる適合文書数を除算した値の対数を前記関連度として算出するステップを実行する
    ことを特徴とする請求項1に記載の情報検索方法。
  3. 数の文書が格納されている文書集合データベースと、
    前記文書集合データベースから前記クエリ単語を含む文書を検索し、検索された文書を検索文書として検索文書データベースに格納する適合文書検索部と、
    記検索文書データベースに格納されている各検索文書について前記クエリ単語を含むパラグラフ中に存在する単語を共起単語とし、前記クエリ単語に対応させて前記共起単語を前記共起単語リストに登録する共起単語取得部と、
    前記クエリ単語で前記文書集合データベースを検索したときに得られる適合文書数と、前記共起単語リストに登録されている各共起単語で前記文書集合データベースを検索したときに得られる適合文書数と、前記クエリ単語と該クエリ単語に対応する各共起単語の対で前記文書集合データベースを検索したときに得られる適合文書数とを適合文書数テーブルに格納する適合文書数取得部と、
    前記共起単語毎に、前記適合文書数テーブルに格納された前記3種類の適合文書数を用いて、クエリ単語と共起単語の関連度を計算する関連度計算部と、
    前記クエリ単語と共起単語の関連度が所定の上限値と下限値からなる範囲内に属する共起単語を重要共起単語として、クエリ単語に対応させて重要共起単語を前記重要共起単語リストに格納する重要共起単語格納部と、
    前記重要共起単語リストに格納されているクエリ単語と各重要共起単語で前記文書集合データベースを検索し、これらの単語を含む文書を取得し、前記クエリ単語と前記各重要共起単語のうちの何れかとを同時に含む文全体またはフレーズの少なくとも何れか一方を前記取得した文書から抽出して共起表現として前記共起表現データベースに格納する共起表現収集部と、
    を有することを特徴とする情報検索システム。
  4. 前記関連度計算部は、前記クエリ単語で前記文書集合データベースを検索したときに得られる適合文書数前記共起単語リストに登録されている各共起単語で前記文書集合データベースを検索したときに得られる適合文書数とを乗算した値で、前記クエリ単語と該クエリ単語に対応する各共起単語の対で前記文書集合データベースを検索したときに得られる適合文書数を除算した値の対数を前記関連度として算出する手段を有する
    ことを特徴とする請求項3に記載の情報検索システム。
  5. 記請求項1乃至請求項の何れかに記載の処理ステップを含むことを特徴とするコンピュータプログラム。
JP2004327849A 2004-11-11 2004-11-11 情報検索方法及びそのシステム並びにコンピュータプログラム Expired - Fee Related JP4428703B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004327849A JP4428703B2 (ja) 2004-11-11 2004-11-11 情報検索方法及びそのシステム並びにコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004327849A JP4428703B2 (ja) 2004-11-11 2004-11-11 情報検索方法及びそのシステム並びにコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2006139484A JP2006139484A (ja) 2006-06-01
JP4428703B2 true JP4428703B2 (ja) 2010-03-10

Family

ID=36620279

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004327849A Expired - Fee Related JP4428703B2 (ja) 2004-11-11 2004-11-11 情報検索方法及びそのシステム並びにコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP4428703B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4938515B2 (ja) * 2007-03-16 2012-05-23 日本電信電話株式会社 単語間相関度計算装置および方法、プログラム並びに記録媒体
JP5536991B2 (ja) * 2008-06-10 2014-07-02 任天堂株式会社 ゲーム装置、ゲームデータ配信システムおよびゲームプログラム
JP5768492B2 (ja) 2011-05-18 2015-08-26 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP5491446B2 (ja) * 2011-05-20 2014-05-14 日本電信電話株式会社 話題語獲得装置、方法、及びプログラム
WO2015162719A1 (ja) * 2014-04-23 2015-10-29 楽天株式会社 情報提供装置、情報提供方法、プログラム、及び記録媒体
CN112989118B (zh) * 2021-02-04 2023-08-18 北京奇艺世纪科技有限公司 视频召回方法及装置
CN114925692B (zh) * 2022-07-21 2022-10-11 中科雨辰科技有限公司 一种获取目标事件的数据处理系统

Also Published As

Publication number Publication date
JP2006139484A (ja) 2006-06-01

Similar Documents

Publication Publication Date Title
US10552467B2 (en) System and method for language sensitive contextual searching
US9659084B1 (en) System, methods, and user interface for presenting information from unstructured data
US7657546B2 (en) Knowledge management system, program product and method
US20150379018A1 (en) Computer-generated sentiment-based knowledge base
US10387469B1 (en) System and methods for discovering, presenting, and accessing information in a collection of text contents
US20100205198A1 (en) Search query disambiguation
Piperski et al. Big and diverse is beautiful: A large corpus of Russian to study linguistic variation
Lytvyn et al. Identifying textual content based on thematic analysis of similar texts in big data
US10621252B2 (en) Method for searching in a database
JP2014106665A (ja) 文書検索装置、文書検索方法
Quasthoff et al. Building large resources for text mining: The Leipzig Corpora Collection
Kisilevich et al. “Beautiful picture of an ugly place”. Exploring photo collections using opinion and sentiment analysis of user comments
Kerremans et al. Using data-mining to identify and study patterns in lexical innovation on the web: The NeoCrawler
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
JP2012104051A (ja) 文書インデックス作成装置
JP4057962B2 (ja) 質問応答装置、質問応答方法及びプログラム
KR101667918B1 (ko) 질의 반응형 스마트 검색 서비스 제공 방법 및 이를 구현하기 위한 검색 서비스 장치
Přichystal Mobile application for customers’ reviews opinion mining
JP2007293377A (ja) 主観的ページと非主観的ページを分離する入出力装置
JP2002278982A (ja) 情報抽出方法および情報検索方法
Krilavičius et al. News media analysis using focused crawl and natural language processing: case of Lithuanian news websites
JP5187187B2 (ja) 体験情報検索システム
CN106708808B (zh) 一种信息挖掘方法及装置
JP2002183195A (ja) 概念検索方式
Aksan et al. The Turkish National Corpus (TNC): comparing the architectures of v1 and v2

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070125

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090910

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090915

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091210

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091214

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121225

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121225

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131225

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees