JP3895955B2 - 情報検索方法および情報検索システム - Google Patents

情報検索方法および情報検索システム Download PDF

Info

Publication number
JP3895955B2
JP3895955B2 JP2001254772A JP2001254772A JP3895955B2 JP 3895955 B2 JP3895955 B2 JP 3895955B2 JP 2001254772 A JP2001254772 A JP 2001254772A JP 2001254772 A JP2001254772 A JP 2001254772A JP 3895955 B2 JP3895955 B2 JP 3895955B2
Authority
JP
Japan
Prior art keywords
search
document
page
link
displayed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001254772A
Other languages
English (en)
Other versions
JP2003067419A (ja
Inventor
和之 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2001254772A priority Critical patent/JP3895955B2/ja
Publication of JP2003067419A publication Critical patent/JP2003067419A/ja
Application granted granted Critical
Publication of JP3895955B2 publication Critical patent/JP3895955B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、インターネットやイントラネットに代表される大規模なネットワーク上で、ユーザが所望する情報、たとえばウェブページを検索するための情報検索システムに関する。
【0002】
【従来の技術】
インターネットの普及により、誰もが世界に発信したい情報をウェブページという形で自由に公開できるようになった。一方、情報検索技術の進歩と計算機の性能向上により、膨大な数のページから、自分が所望する情報を検索することが可能になった。
【0003】
しかしながら、ユーザが真に欲しい情報だけを効率よく検索できるまでには至っていない。例えば、従来型の全文検索システムでは、ユーザは、所望する情報を表現する検索条件として、検索語(キーワードやフレーズ)の論理式を入力し、検索システムは、検索条件に適合するページ、すなわち、論理式を満たすように検索語を含むページを検索結果として出力する。検索結果のランキングは、主に、検索語がページ中に出現する頻度や位置によって行なわれる。しかし、このような素朴な検索方式では、数十億ともいわれるウェブページの中から、ユーザにとって価値の高い情報を見つけ出すことは不可能である。
【0004】
このような反省から、まず、価値のあるウェブサイトを人間の手作業で探して、これをユーザに提供するサービスが行なわれるようになった。その1つに、人手で集めたウェブサイトをディレクトリ構造に整理して利用しやすい形で提供するサービスがある。また、例えば、企業などの団体の名称と、その団体が運営しているウェブサイトの場所(URL)との組をデータベース化して、ユーザが入力した企業名に相当するウェブサイトを提示するサービスなどが運用されている。しかしながら、膨大、かつ、日々更新される情報を人手によって網羅的に整理する作業は不可能であり、労力も非常にかかかる。
【0005】
これに対し、ユーザにとって価値の高いページを自動的に求めて、これを検索結果の中で優先的に提示する方法がいくつか考えられている。例えば、米国グーグルの検索システムGoogle(http://www.google.com/)では、多くのページにリンクされているページは重要なページであり、さらに、重要ページにリンクされているページは重要である、という仮説に基づいて求めた、PageRankと呼ばれる重要度によって、検索結果をランキングする方法がとられている(文献1:Sergey Brin and Lawrence Page. The Anatomy of a Large−Scale Hypertextual Web Search Engine. The 7th International WorldWide Web Conference, 1998)。
【0006】
この方法によれば、たとえば「T社」という検索要求に対しては、「T社」という語を含むウェブページのうち、被リンク数の多いページが、より上位にランクされる。しかしながら、この方法では、ページの重要度は、ユーザの検索要求、すなわち、「T社」という語に無関係に求められたものであるため、検索要求に関係のない内容のページが検索結果の上位にランクされる恐れがある。
【0007】
これに対して、被リンク数だけでなく、リンクのラベルの表現(HTML文書の場合にはアンカーテキストと呼ばれる)を考慮して検索結果をランキングする方法が試みられている(文献2:風間一洋,原田昌紀,佐藤進也.「ハイパーリンクとアンカーテキストを利用した情報検索とランキングの一手法」情報処理学会研究報告,SIGDD,Vol.24,2000)。この方法は、リンクのラベルは、リンク先のページの内容をよく示すという仮説に基づいている。この方法によれば、「T社」というラベルが付されたリンクによって他ページから多く参照されたページが、ユーザにとって重要で、かつ、検索要求ともよく適合するページであると求められる。
【0008】
同様の方法は「ハイパーテキスト検索装置」(文献3:特許公報第3108015号)でも考案されている。この特許でも、ページの内容自体の適合度に加え、ページの参照元のアンカーテキストの適合度も考慮して、ページの適合度を求める方法をとっている。
【0009】
また、参照関係にあるページ同士を統合して検索要求との適合度を求めることにより、たとえば、「青森」の語を含むページと「りんご」の語を含むページがあり、前者から後者がリンクで参照されている場合、これら2つのページを1つの文書とみなして、これを「青森りんご」という検索要求に適合する文書であるとする。また、「青森」を含むページと「りんご」を含むページを併せた形で検索結果を提示することにより、ユーザがこれらのページの参照関係を容易に把握することができるとしている。
【0010】
文献3と同様の発明としては、他に「文章検索装置および方法ならびに文書検索プログラムを記録したコンピュータ読取り可能な記憶媒体」(文献4:特開2000−259648号公報)がある。
【0011】
上記文献1および文献2の方法によれば、いわゆる公式ウェブサイト、すなわち、企業などの団体が公式に運営しているウェブサイトのトップページを、その団体名を検索要求として、ほぼ正しく検索することができると報告されている。実際、「T社」という検索要求に対しては、「(株)T社」という企業が公式に運用しているウェブサイトのトップページが、検索結果の上位にランクされる。これは、「(株)T社」の公式サイトのトップページは、「T社」という表現を含んだ他のページよりも、被リンク数が多く、かつ、「T社」という表現を含んだラベルを付されたリンクによって参照されることが多いからである。
【0012】
しかしながら、ユーザの要求は、公式サイトを見つけることだけではない。例えば、「T社のノートパソコンを修理したい」といった、より詳細で複雑な情報を要求する場合が多い。そして、このような検索要求に対しては、文献1および2の方法では、よく適合するページを検索することはできない。「T社」「ノート」「パソコン」「修理」という検索語を全て含むページは、インターネット上に少なくとも3千ページ以上ある。このうち、ユーザが所望する情報、すなわち、製造元である「(株)T社」がそのウェブサイト上で公式に公開している、ノートパソコンの修理の方法や手続きに関するページが、文献1の方法で上位にランクされるとは限らない。ウェブサイトのトップページ以外のページが、他のページから極端に多くリンクされることは稀なので、ページの重要度(文献1のPageRank)に有意な差が出にくいからである。
【0013】
同様に、文献2の方法でも、正しく検索できない恐れある。ユーザが所望するページが、「T社」「ノート」「パソコン」「修理」という4つの語を含むラベルで数多くリンクされているとは限らないからである。例えば、求めるページが「T社」サイトのトップページから、「パソコン」、「PCカスタマーセンター」というラベルをリンクを順に辿ったところに公開されていて、このページ自体には「PCカスタマーセンター」というラベルでしかリンクされていないかもしれない。逆に、「ノート」「パソコン」「修理」という3語を含むラベルで数多くリンクされた、「T社」と関係のないページが存在するかもしれない。
【0014】
一方、文献3や文献4で考案されている方法では、複数のハイパーテキストを、リンクによる参照関係に基づいて統合したページとして検索することができるとしている。しかしながら、インターネットには膨大な数のページがあり、ページ間のリンクの個数も、平均するとページの個数の数倍〜十数倍もある。「T社」「ノート」「パソコン」「修理」という4つの語のいずれか一つでも含むウェブページはインターネット上に200万ページ以上あり、これらの膨大なページについて、その各々を逐一リンクで統合して適合度を求めることは、現実的には不可能である。さらに、複数の文書を統合したものを検索対象とすれば、一般に、検索の再現率は向上するものの、適合率は低下することが知られている。もっと効率的で、かつ、よく制御された方法によって、ユーザの複雑な検索要求に適合するページを検索する必要がある。
【0015】
また、現実のリンクの構造は複雑であり、階層的な構造に整理されているとは限らない。ウェブページのリンクは、ページの内容上の関連を表すものだけでなく、ユーザのブラウジングのしやすさを助けることを目的としたリンクや、どちらからどちらを引用しているかわからないような相互的なリンク、ループになったリンクなどが多い。
【0016】
文献4ではループになったリンクを排除できるとしているものの、やはり、内容的な関連がほとんどないページを統合してしまう恐れが多分にある。また、複雑で個数の多いリンク構造を、文献3や文献4の方法によって、検索結果上で、ユーザが見やすい形に整理して提示することは困難である。
【0017】
【発明が解決しようとする課題】
以上説明したように、従来は、ウェブページ間のリンクによる参照関係に基づき検索する際には、あるウェブページが他のウェブページを直接参照する1段のリンクのみを用いていたため、複数の語からなる複雑な検索条件に適合するウェブページの検索が容易に行えないという問題点があった。
【0018】
そこで、本発明では、上記問題点に鑑みてなされたもので、大量のハイパーテキスト形式の文書の中から、複数の語からなる複雑な検索条件に適合する文書の検索が容易に行えるとともに、高い精度の検索結果が得られる情報検索方法およびそれを用いた情報検索装置を提供することを目的とする。
【0019】
本発明は、ユーザにより入力された主に自然文による、複雑で詳細な検索条件に対して、よく適合するハイパーテキスト形式の文書を検索するための、スケーラビリティのある方法、すなわち、大量の文書に対しても高速に検索できる方法を実現することを、第一の目的とし、さらに、検索結果をユーザが理解しやすい形で提示することを第二の目的とする。
【0020】
【課題を解決するための手段】
本発明は、複数の文書から、ユーザにより入力された自然文または複数の語からなる検索条件に適合する文書を検索するためのものであって、前記複数の文書のうちの任意の2つの文書間は1段のハイパーリンクでリンクされ、(a)前記複数の文書のそれぞれについて、その文書と前記1段のハイパーリンクおよび複数段のハイパーリンクを経て参照関係にある文書群から、前記参照関係を表す前記ハイパーリンクについて、それぞれに付されたラベルに含まれる語を抽出し、(b)前記検索条件に含まれる複数の語と、前記複数の文書のそれぞれについて抽出された語とを比較して、前記複数の文書のそれぞれについて、前記検索条件との適合度を算出し、(c)前記適合度に基づき、検索結果として表示する文書の順位を決定し、この順位に従って前記検索結果としての文書を表示することを特徴とする。
【0021】
本発明によれば、1段のハイパーリンクにより参照関係にある文書群のみらなず、複数段のハイパーリンクを経て参照関係にある文書群からも、その参照関係を表すハイパーリンクについて、それぞれに付されたラベルに含まれる語を抽出して、検索対象の複数の文書のそれぞれについての検索時のインデックス(索引語)とすることにより、複数の語からなる複雑な検索条件に適合する文書の検索が容易に行えるとともに、高い精度の検索結果が得られる。
【0022】
また、本発明は、複数の文書から、ユーザにより入力された自然文または複数の語からなる検索条件に適合する文書を検索するためのものであって、前記複数の文書のうちの任意の2つの文書間は1段のハイパーリンクでリンクされ、(a)前記複数の文書のそれぞれについて、その文書と前記1段のハイパーリンクおよび複数段のハイパーリンクを経て参照関係にある文書群から、前記参照関係を表す前記ハイパーリンクについて、それぞれに付されたラベルに含まれる語を抽出し、(b)前記検索条件に含まれる複数の語と、前記複数の文書のそれぞれについて前記ラベルから抽出された語とを比較して、前記複数の文書のそれぞれについて、前記検索条件との第1の適合度を算出し、この第1の適合度に基づき、検索結果として表示する文書の順位を決定し、(c)前記複数の文書のそれぞれから、その文書の内容を表す語を抽出し、(d)前記検索条件に含まれる複数の語と前記複数の文書のそれぞれについて、その内容から抽出された語とを比較して、前記複数の文書のそれぞれについて、前記検索条件との第2の適合度を算出し、この第2の適合度に基づき、検索結果として表示する文書の順位を決定し、(e)前記第1および第2の適合度を統合した第3の適合度を算出し、この第3の適合度に基づき、検索結果として表示する文書の順位を決定し、(f)前記第1〜第3の適合度のそれぞれに対応して決定された順位のうちの少なくとも1つを用いて、検索結果としての文書を表示することを特徴とする。
【0023】
本発明によれば、複数段のハイパーリンクを経て参照関係にある文書群から、その参照関係を表すハイパーリンクについて、それぞれに付されたラベルに含まれる語を抽出し、それと各文書から抽出したその文書内容を表した語とを、検索対象の複数の文書のそれぞれについての検索時のインデックスとすることで、複数の語からなる複雑な検索条件に適合する文書の検索が容易に行えるとともに、より高い精度の検索結果が得られる。
【0024】
本発明は、複数の文書から、ユーザにより入力された自然文または複数の語からなる検索条件に適合する文書を検索するためのものであって、前記複数の文書のうちの任意の2つの文書間は1段のハイパーリンクでリンクされ、前記複数の文書のそれぞれは、予め定められた複数の文書グループのうちのうちの1つに属し、(a)前記複数の文書のそれぞれについて、その文書の属する文書グループ内から、前記1段のハイパーリンクおよび複数段のハイパーリンクを経て参照関係にある第1の文書群を抽出して、この各第1の文書群から、前記参照関係を表す前記ハイパーリンクについて、それぞれに付されたラベルに含まれる語を抽出し、(b)前記複数の文書のそれぞれについて、2つの前記文書グループ間にまたがって2つの文書をリンクする1段の文書グループ間ハイパーリンクおよび複数段の文書グループ間ハイパーリンクを経て文書グループ間の参照関係にある第2の文書群を前記複数の文書から抽出し、この各第2の文書群から、前記文書グループ間の参照関係を表す文書グループ間ハイパーリンクについて、それぞれに付されたラベルに含まれる語を抽出すし、(c)前記検索条件に含まれる複数の語と、前記複数の文書のそれぞれについて前記文書グループ間ハイパーリンクのラベルから抽出された語とを比較して、前記複数の文書のそれぞれについて、前記検索条件との第1の適合度を算出すし、(d)前記第1の適合度に基づき前記複数の文書グループから少なくとも1つの文書グループを検索対象として選択し、(e)前記検索対象として選択された文書グループのそれぞれについて、前記検索条件に含まれる複数の語と、前記文書グループ内の文書のそれぞれについて前記ハイパーリンクのラベルから抽出された語とを比較して、前記文書グループ内の文書のそれぞれについて、前記検索条件との第2の適合度を算出し、(f)前記第1の適合度に基づき検索結果として表示する文書グループの順位を決定するとともに、前記文書グループ毎に前記第2の適合度に基づき検索結果として表示する文書の順位を決定し、これら順位に従って前記検索結果としての文書グループと文書を表示することを特徴とする。
【0025】
本発明によれば、検索対象の複数の文書を複数の文書グループに分けて、文書グループ間ハイパーリンクを利用した検索と、各文書グループ内の検索とを組み合わせることにより、複数の語からなる複雑な検索条件に適合する文書の検索が容易に行えるとともに、より高い精度の検索結果が得られる。
【0026】
【発明の実施の形態】
以下、本発明の実施形態について図面を参照して説明する。
【0027】
本発明の情報検索システムが検索対象とする文書は、インターネットのウェブページなどに用いられるハイパーリンクで他の文書を結びつけることのできる文書(ハイパーテキスト文書)である。インターネットのウェブページが、本発明の効果をもっとも発揮できる対象であるので、ここでは、検索対象のハイパーテキスト文書の一例として、ウェブページを用いて説明を行う。従って、以下の説明では、検索対象とするハイパーテキスト文書をページと呼び、文書間のハイパーリンクをリンクと呼び、文書のユニークな位置をURLと呼ぶ。なお、ここで、リンクとは、全て、2つのページ間をリンクするハイパーリンクのことを指す。
【0028】
(第1の実施の形態)
図1は、第1の実施形態に係る情報検索システムの構成を表すブロック図である。図1において、ユーザインタフェース1は、ユーザがシステムに対して検索要求を入力し、また、システムがユーザに検索結果を提示するためのものである。
【0029】
検索語抽出部2は、特にユーザが検索条件を自然文で入力した場合、その自然文から検索に用いる語(ここでは検索語と呼ぶ)を抽出する処理を行うものである。
【0030】
リンク情報記憶部4には、検索対象である複数のページが、そのリンク構造に基づき検索可能なように、これらページから予め抽出されたリンク情報が記憶されている。
【0031】
リンク検索部3は、検索語抽出部2で抽出された検索語とリンク情報記憶部4に記憶されているリンク情報とを比較して、適合する文書を検索する。
【0032】
ページ情報記憶部7には、検索対象である複数のページを、その各々の内容自体から検索可能なように、ページ情報が記憶されている。
【0033】
ページ検索部6では、検索語抽出部2で抽出された検索語とページ情報記憶部7に記憶されたページ情報とを比較して、適合する文書を検索する。
【0034】
検索結果統合部5では、リンク検索部3およびページ検索部6での検索結果をユーザが所望する形に統合して、表示用データを生成する処理を行うものである。
【0035】
ウェブ情報収集部11は、インターネット、かつ、または、イントラネットから所定のウェブ頁を収集する手段である。これは、一般にロボット、クローラ、あるいはスパイダーなどと呼ばれるプログラムであり、ウェブページのハイパーリンクを再帰的に辿って、それぞれのページの内容や情報を収集する。この手段は従来技術に属するものである。
【0036】
リンク索引作成部8は、ウェブ情報収集部11によって得た個々のウェブページに記述されたハイパーリンクについて、そのリンク先URLとアンカーテキストを抽出し、リンク情報記憶部に記憶せしめる。また、リンクのアンカーテキストから索引語の単語ベクトル、すなわち、リンクのベクトルを作成する処理を行う。
【0037】
ページ索引作成部9は、ウェブ情報収集部11によって得た個々のウェブページから、その内容、すなわち、タイトルや本文などの文章部分を抽出し、ページ情報記憶部に記憶せしめる。また、ページ内容から索引語の単語ベクトル、すなわち、ページの内容のベクトルを作成する処理を行う。
【0038】
ここで、ページ検索部6およびページ情報記憶部7は、本発明の情報検索システムに必須の構成要素ではなく、これらページ検索部6およびページ情報記憶部7を含めずにシステムを構成することも可能である。この場合、検索結果統合部5では、検索結果を統合する処理を行う必要はなく、リンク検索部3での検索結果から所定の表示用データを生成する処理を行う。
【0039】
図2、図3、図4は、上記リンク情報記憶部4およびページ情報記憶部7に記憶されているデータの記憶例を示したものである。
【0040】
図2は、本システムの検索対象である各ページのURLと、当該ページに与えられた本システム内でユニークな識別子(ID)との対応関係が記述されたデータである。このデータは、上記リンク情報記憶部4とページ情報記憶部7のいずれか一方に記憶されていればよく、また、これらとは別個の他の記憶部を設けて記憶されていてもよい。なお、URLは通常、圧縮してデータ量を減じたり、トライ構造のような効率よくアクセスできる形式にして記憶する。
【0041】
図3は、リンク情報記憶部4に記憶されているリンク情報の記憶例を示したものである。図3に示すリンク情報では、1つのリンクを、リンク元であるページのIDと、リンク先であるページのIDと、当該リンクのラベル(リンクのラベルは、例えば、HTML文書の場合、アンカーテキストと呼ばれているものである)との、三者によって表現されるている。リンク元IDとリンク先IDは、図2で説明したIDと同じである。また、ラベルについては、図3ではラベルとして記述されている文字列をそのまま図示しているが、形態素やNグラムなどの部分文字列に分割し、転置ファイルの形式で索引が付されて記憶するようになっていてもよい。また、語の頻度や出現位置なども併せて記憶するようにしてもよい。文字列を索引を付して記憶する技術は従来技術に属するので説明は省略するが、本発明の要旨に関わる検索モデル、すなわち、ユーザの検索要求と文書との適合度を求める方法については、後に詳述する。
【0042】
図4は、ページ情報記憶部7に記憶するデータの例を表す図である。図のように、ページは、そのIDと、タイトルと、本文との三者で表現される。IDは、前述の図2および図3の説明同様、ページをシステム内部でユニークに表現するためのIDである。
【0043】
タイトルと本文は、例えばHTML文書の場合は、タイトルタグおよびボディタグで指定された文字列である。なお、HTML文書のボディタグの内部には、図表などを指定するタグが埋め込まれているが、ここではこれらのタグをパージングし、不要な部分を除いて記憶する。これら、タイトル、本文は、前述の図3のラベルと同様、転置ファイルなどの形式で索引を付して記憶するようにしてもよい。
【0044】
また、図2、図3のデータに加えて、他の属性、例えば、ページの更新日時などの情報を、必要に応じて記憶するようにしてもよい。
【0045】
図5は、リンクによる複数のページ間の参照関係を示したものである。図5中、「P1」、「P2」…などはページのIDを表し、矢印はページ間のリンクを表し、リンクに付された文字列はリンクのラベルを表す。
【0046】
例えば、ページ「P1」は、「お問合せ一覧」というラベルを付されたリンクによってページ「P3」を参照しており、逆に、ページ「P3」は、「ホーム」というラベルを付されたリンクによってページ「P1」を参照している。
【0047】
ページ「P1」は、ハイパーリンクにて直接ページ「P3」を参照している。この場合のハイパーリンクを1段のハイパーリンク、あるいは簡単に、1段のリンクと呼ぶ。
【0048】
ページ「P1」はページ「P7」から「T社トップ」というラベルを付されたリンクによって参照されている。この場合、ここでは、ページ「P7」はページ「P1」を介してページ「P3」と参照関係にあるということである。また、ページ「P7」とページ「P3」は、2段のリンクで参照関係にあるということである。
【0049】
インターネットのウェブページは、数十億ページとも言われる膨大なページが、このようなリンクによって複雑に接続されている。これをグラフ構造と呼ぶ。
【0050】
次に、図6〜図8に示すフローチャートを参照して、図1の情報検索システムの処理動作について説明する。
【0051】
図8は、ユーザから入力された検索要求に適合するページを検索するための処理動作を説明するためのフローチャートである。
【0052】
図6,図7は、検索のための前処理を説明するためのフローチャートであり、ユーザから入力された検索要求とページとの適合度を求めるために用いるデータ、すなわち、ベクトルを作成する処理動作について説明するためのものである。これらの処理は、リンク情報、ページ情報を、リンク情報記憶部4、ページ情報記憶部7にそれぞれ記憶する際に実行する処理であり、これらの処理結果のデータ(すなわち、図6のステップS6で算出された各ページのリンクのベクトルVpl(図14の文書グループ間のリンクのベクトルVplexを含む)、図7のステップS13で算出されたページ内容のベクトルVptなど)は、リンク情報記憶部4、ページ情報記憶部6に記憶するものである。
【0053】
図6で示した処理動作は、リンク構造に着目した検索モデルによってページをモデル化する処理である。ここではベクトル空間モデルを用いて実施しているが、他の検索モデルであってよい。
【0054】
図6に示した処理は、主に、リンク索引作成部8で実行される処理である。まず、ステップS1〜ステップS5で、ページ情報記憶部7に記憶されている全てのページpについて(ステップS1)、各ページpを参照している(すなわち、ページpをリンク先とする)リンク情報記憶部4に記憶されている全てのリンクlのラベルを調べ(ステップS2)、各リンクlの(ラベルの)ベクトルを作成し(ステップS4)、さらに、各ページpについて、そのページpを参照するリンクのベクトルvlの総和Vpl(1)を作成する(ステップS5)。
【0055】
すなわち、リンク索引作成部8は、ある1つのページpを選択し、そのページpを参照するリンクをリンク情報記憶部4を検索する。そして、1または複数個見つかれば、その1つ1つのリンクlに対し、当該リンクに付されたラベルを形態素解析して、当該ラベルから索引語を抽出する(ステップS3)。例えば、ラベルを形態素解析した結果得られる自立語の中から、さらに接続詞、感動詞や、その他、検索には不要であると予め定められた語など(以下、これらを不要語と呼ぶ)を取り除いて、索引語を抽出する。
【0056】
たとえば、「安くて便利なパソコン販売のページ」というラベルに対し形態素解析を行うと、「安」「く」「て」「便利」「な」「パソコン」「販売」「の」「ページ」といった形態素が解析結果として得られる。このうち、活用語尾や助詞などは自立語ではないので除かれる。また、「〜のページ」という表現はウェブページのリンクに特有な表現であり、検索要求とは無関係の場合が多いので、不要語として除く。結果として、「安くて便利なパソコン販売のページ」というラベルから、「安」「便利」「パソコン」「販売」という4つの語が索引語として抽出される。
【0057】
次に、ステップS4では、ステップS3で抽出された索引語の重みを決定する。これには、一般にTF・IDFと呼ばれる方法を用いる。すなわち、あるテキスト(この場合はラベル)におけるある語の重みは、そのテキストに含まれるその語の個数(TF)と、全テキストのうちその語を含むテキストの個数(DF)とによって求めることができる。TFが大きいほど重みは大きくなり、DFが大きいほど重みは小さくなる。一方、形容詞「安(く)」、形容動詞「便利(な)」、名詞「パソコン」などの品詞の違いを重みに反映させることも行う。一般に、名詞や固有名詞の重みを、動詞や形容詞、形容動詞などと比較して大きくすると検索精度が向上することが知られている。なお、ここでは、自立語を索引語としたが、自立語に加え、格フレームなどを索引とし、これをベクトルで表現することも可能である。
【0058】
以上の処理によって、リンクlのベクトルvl(ラベルに含まれる語とその重みをベクトルで表現したデータ)が作成できる。
【0059】
例えば、図5において、ページ「P3」を参照するページ「P6」をリンク元とするリンクに付された「その他の製品に関するお問い合わせ」というラベルから、索引語として、「その他」「製品」「問い合わせ」という3つの語が索引語として抽出され、そのそれぞれに対し、重みが、「g1」「g2」「g3」と、求められたとする。この場合、当該ラベルをもつリンクlのベクトルvlは、(その他、製品、問い合わせ)=(g1、g2、g3)となる。
【0060】
選択されたページpについて、そのページを参照するリンクlの全てに対し、ベクトルvlを作成したら、次に、ステップS5へ進み、リンク検索部3は、当該選択されたページpについて、そのページを参照するリンクのベクトルの総和を作成する。
【0061】
ページpを参照するリンクのベクトルの総和Vpl(1)とは、ページpを直接(1段で)参照する(リンク情報記憶素4に記憶されている全ての)リンクのベクトルvlから作成したベクトルである。
【0062】
例えば、例えば、図5において、ページ「P3」には2つのリンクにより参照され、その2つのリンクには、それぞれ「その他の製品に関するお問い合わせ」というラベルと、「お問合わせ先一覧」というラベルが付されている。この場合、各リンクのベクトルは、(その他、製品、問い合わせ)=(g1、g2、g3)と、(問合わせ、先、一覧)=(g4,g5、g6)であるとする。このとき、当該ページ「P3」を参照するリンクのベクトル総和Vpl(1)は、(その他、製品、問い合わせ、先、一覧)=(g1、g2、g3+g4、g5,g6)となる。
【0063】
選択された1つのページpに対し、上記ステップS3〜ステップS5の処理を行って、当該選択されたページpについて、そのページを1段で参照するリンクのベクトル総和Vpl(1)を作成したら、ステップS1へ戻り、他のページを選択して、上記同様にして、当該ページを1段で参照するリンクのベクトル総和を作成する処理を、ページ情報記憶部7に記憶されている全てのページに対し行う(ステップS1)。
【0064】
次に、ステップS6へ進み、リンク検索部3は、ページ同士のリンクの参照関係に基づいて、各ページpを複数段のリンクで参照する他のページがあるときは、その全てのリンクのベクトルの総和、すなわち、ベクトルVpl(n)を作成する。
【0065】
ここでは、ある1つのページ(第1のページ)が他のページ(第2のページ)からリンク(第1のリンク)にて直接参照されている場合、第1のページは、第2のページから1段のリンクで参照されていると表現し、第2のページがさらに他のページ(第3のページ)からリンク(第2のリンク)にて直接参照されている場合、第1のページは、第3のページから2段のリンクで参照されていると表現する。
【0066】
ステップS6で作成しようとしているページpのベクトルVpl(n)は、ページpがn段のリンクで他のページから参照されている場合に、その全てのリンクのベクトルの総和を求めることにより作成することができる。ベクトルVpl(n)を、以下簡単に、ページpのn段のリンクのベクトルと呼ぶ。これに対応して、ベクトルVpl(1)をページpの1段のリンクのベクトルと呼ぶ。
【0067】
例えば、ここでは、段数に応じた異なる重みαをつけて和をとったベクトルVpl(n)を例えば次式(1)に従って作成する。なお、式(1)では、ページpに至るまでの複数段のリンクの各ベクトルに含まれている索引語のそれぞれに対応する重みに、段数に応じて異なる重みαを乗じて総和を求めている。ページpのn段のリンクのベクトルは、各リンクのベクトルに含まれている索引語の並びと、その各索引語に対する式(1)で求めた重みの値で表されるものである。
【0068】
【数1】
Figure 0003895955
【0069】
式(1)において、αとβは係数であるが、どちらも例えば「0」以上「1」未満とする。αは、ページpに向かうリンクに関する係数であり、βは、ページpから出ていくリンクに関する係数であるため、βよりもαの値を大きくする。βは「0」であってもよい。
【0070】
なお、式(1)において、係数βを「0」とした場合、ページpのn段のリンクのベクトルは、ページpに向かう方向のリンクのみから作成されるものである。以下、説明の簡単のため、係数βが「0」の場合について説明する。
【0071】
式(1)を用いて、ページpがn段のリンクにて参照されているときは、式(1)を用いた計算をn回繰り返すことにより、ページpに対する、n段のリンク構造を反映したベクトルを求めることができる。
【0072】
例えば、図5のページ「P7」の場合、上記ステップS1〜ステップS6を経た結果、ページ「P7」の3段のリンクのベクトルに含まれる索引語は、例えば、「ノート」「PC」「超」「薄型」「家庭」「向け」「パソコン」「周辺」「機器」であり、その各索引語の重みは式(1)を用いて計算した結果、それぞれ「g11」「g12」「g13」「g14」「g15」「g16」「g17」「g18」「g19」であるとすると、ページ「P7」のリンクのベクトルは、(ノート、PC、超、薄型、家庭、向け、パソコン、周辺、機器、T社、修理、拠点、…)=(g11、g12、g13、g14、g15、g16、g17、g18、g19、g20、g21、g22、…)となる。
【0073】
ページ「P7」の場合、「ノート」「PC」などの索引語は、ページ「P7」に近い段数のリンクのラベルに含まれ、かつ、頻度が多いので、重みが大きくなる。
【0074】
なお、式(1)の係数αの値は、例えば、対象としているページp(例えば、ページ「P7」)に近い段数のリンクほど大きい値となるように定めてもよい。すなわち、ページ「P7」を直接参照している1段目のリンクを加算するときには、αを最も大きくする。
【0075】
ページpのn段のリンクのベクトルVpl(n)を計算する際の段数nは、検索システムの目的や要求される検索精度に応じて設定すればよい。nを大きくするほど、ベクトルの語の数が増えることになるが、多くてもn=5程度でよく、n=2か3でも実用的な検索が可能であることが分かっている。以下、ページpのn段のリンクのベクトルVpl(n)の表記を、単にVplと記述する。
【0076】
図7に示すフローチャートは、ページの内容に着目してページ内容のベクトルを作成するための処理動作を示したもので、ページ索引作成部9での処理動作を示したものである。
【0077】
ページ情報記憶部7に記憶されている全てのページpについて(ステップS11)、その内容(すなわち、図4に示したタイトルと本文)を、形態素解析し、図6のステップS3において、ラベルから索引語を抽出するのと同様にして、ページpの内容から索引語を抽出する(ステップS12)。そして、図6のステップS4の説明と同様にして、各索引語の重みを求め、ページ情報記憶部7に記憶されている各ページについて、ページ内容のベクトルVptを作成する(ステップS13)。
【0078】
なお、図7に示した処理自体は従来技術に属するものである。
【0079】
次に、図8に示すフローチャートを参照して、ユーザが検索条件qを入力したときに、その入力された検索条件に適合するページを検索するための処理動作について説明する。
【0080】
ここで、ユーザにより入力される検索条件qとは、ページを検索するためのキーワード(語)が複数含まれるものであって、自然文、または複数の語を羅列したもの、複数の語を論理式で結合したものなどである。
【0081】
ユーザにより検索条件qが入力される(ステップS21)。検索語抽出部2では、まず、これを形態素解析して、例えば、図6のステップS3で索引語を抽出するのと同様にして、検索語を抽出する(ステップS21)。すなわち、検索条件qを形態素解析した結果得られる自立語の中から、さらに不要語を取り除いて、検索語を抽出する。そして、各検索語の重みを図6のステップS4の説明と同様にして求め、さらに、図6のステップS5の説明と同様にして、検索条件qのベクトルVqを作成する(ステップS23)。
【0082】
以上のようにして作成された検索条件qのベクトルVqを用いて、ページ情報記憶部7に記憶されている全てのページに対し、以下のステップS25、ステップS26の処理を実行する。
【0083】
なお、ページ情報記憶部7に記憶されている全てのページの中から、検索条件qのベクトルVqに含まれる検索語を少なくとも1つ含むページを予め検索し、検索結果として得られたページを処理対象として、ステップS25、ステップS26の処理を実行するようにしてもよいし、処理の高速化のため、他と比べて少ない個数の検索語しか含まないページについては、検索条件との適合度が他と比べて小さくなると見込まれるので、それらについては処理を省略してもよい。
【0084】
また、ステップS25とS26は、後述するように、ユーザの要求や使い方に応じて一方を省略してもよい。
【0085】
以下、ここでは、検索条件qのベクトルVqに含まれる検索語を少なくとも1つ含むページをステップS25,ステップS26の処理対象とした場合を例にとり説明を行う。
【0086】
ステップS25では、図6のステップS6で求めたページpのn段のリンクのベクトルVpl(すなわち、ページのリンク構造に着目して作成したベクトル)と、検索条件のベクトルVqとを比較し、その類似度を求める。類似度の算出方法としては、一般に、ベクトルの内積や余弦をとる方法がよいとされている。こうして求めたVplとVqとの類似度を、検索条件qに対するページpのリンク構造に基づく適合度Sl(p,q)とする。
【0087】
同様にして、ステップS26では、図7の処理で求めた各ページのページ内容のベクトルVpt(すなわち、ページの内容に着目して作成したベクトル)と、検索条件のベクトルVqとを比較して、検索条件qに対するページpのページ内容に基づく適合度St(p,q)を求める。
【0088】
処理対象の各ページから、ページのリンクのベクトルと検索条件qのベクトルとの類似度(リンク構造に基づく適合度Sl(p,q))と、ページ内容のベクトルと検索条件qのベクトルとの類似度(ページ内容に基づく適合度St(p,q))が算出されたら、次に、ステップS27〜ステップS29の検索結果を表示するための処理を行う。なお、ステップS27〜ステップS28の処理は、後述するように、ユーザが検索条件などの入力の段階で、どの検索方法を選択したかにより省略される場合もある。
【0089】
ステップS27では、リンク構造に基づく適合度Sl(p,q)に基づき、ページの順位を付けて、それを検索結果として表示する。
【0090】
ステップS28では、ページ内容に基づく適合度St(p,q)に基づきページに順位を付けて、それを検索結果として表示する。
【0091】
ステップS29では、適合度Sl(p,q)、St(p,q)を統合した適合度S(p,q)を各ページについて算出する。そして、この適合度S(p,q)に基づいて、各ページを順位付けしたものを検索結果としてユーザに提示する。
【0092】
以下、ステップS29の処理について説明する。
【0093】
たとえば、適合度Sl(p,q)、St(p,q)から、これらを統合した適合度S(p,q)を算出するには、次式(2)を用いればよい。
【0094】
S(p,q)=Cl×Sl(p,q)+Ct×St(p,q) …(2)
なお、式(2)において、Cl、Ctは、予め定められた定数で、適合度S(p,q)に占める適合度Sl(p,q)、St(p,q)のそれぞれの比率、すなわち、重要度を定めるものである。
【0095】
また、ここで、ページpを検索結果に含めてよいかどうかの判定は、予め定められた閾値との比較によって行う。すなわち、リンクに基づく適合度Sl(p,q)については、これが閾値Slmin以上であれば、ページpを検索結果に含めてよいとする。ページ内容に基づく適合度St(p,q)についても同様に、閾値Stmin以上であれば、ページpを検索結果に含めてよいとする。
【0096】
統合した適合度S(p,q)についても同様に、閾値Sminより大きければページpを検索結果に含めてよいする。
【0097】
ClとCtは、各々定数である。閾値Slmin、Stmin、Sminのいずれかを「0」に設定すれば、その閾値での判定は行わないことになる。また、ClとCtのいずれかを「0」に設定すれば、Sl(p,q)あるいはSt(p,q)は、統合された適合度S(p,q)の値には反映されないことになる。
【0098】
図9〜図11は、図1の情報検索システムのユーザインタフェース1の画面表示例を示す図である。
【0099】
図9に示した画面は、検索要求を入力する領域201からなる入力画面である。領域201には、ユーザが検索条件を入力する領域101と、検索方法を指定する領域102からなる。
【0100】
ユーザは、図1の情報検索システムに検索要求を行う場合には、領域101に、例えば「T社のパソコン」といった自然文で記述した検索条件qを入力する。領域102は、ユーザが検索方法(図9では、「リンク構造で検索」「ページ内容で検索」「両方の検索結果を個別に表示」「両方の検索結果を総合して表示」の4つがある)を指定するための領域である。
【0101】
図9に示した上記4つの検索方法とは、それぞれ、(1)リンク構造で検索する方法、(2)ページ内容で検索する方法、(3)リンク構造での検索結果とページ内容での検索結果をそれぞれ個別に表示する方法、(4)リンク構造での検索結果とページ内容での検索結果を統合して表示する方法である。
【0102】
ユーザは、領域101に検索条件を入力し、上記4つの検索方法から所望の方法を選択した後、「検索」ボタン103をマウス等で選択する(押す)ことにより、図8に示した検索処理が実行される。すると、ユーザインタフェースには、図10〜図11に示すような検索結果が表示される。
【0103】
図10に示した画面は、図9に示した入力画面からユーザが、検索方法として、「リンク構造で検索」「ページ内容で検索」「両方の検索結果を個別に表示」のいずれかを選択したときの検索結果の表示方法を説明するための図である。なお、図10に示した画面表示例そのものは、検索方法として「両方の検索結果を個別に表示」が選択されたときの検索結果の表示例を示したものである。
【0104】
図10に示した画面は、大きく分けて3つの領域に分かれている。1つは、検索要求を入力する領域201であり、他の1つは、リンク構造に基づく検索結果を表示する領域202であり、さらに他の1つは、ページ内容に基づく検索結果を表示する領域203である。
【0105】
検索方法のうち、(1)リンク構造で検索する方法とは、前述した適合度Sl(p,q)のみに基づいて検索結果を求める方法である。この方法が選択された場合には、図8のステップS28,ステップS29の処理は省略してもよい。ユーザインターフェース1には、検索結果として領域202に示したような、リンクに基づく検索結果が表示される。なお、このとき、領域203のページ内容に基づく検索結果は表示されない。
【0106】
検索方法のうち、(2)ページ内容で検索する方法とは、前述した適合度St(p,q)のみに基づいて検索結果を求める方法である。この方法が選択された場合には、図8のステップS27,ステップS29の処理は省略してもよい。ユーザインターフェース1には、検索結果として、領域203に示したような、ページ内容に基づく検索結果が表示される。なお、このとき、領域202のリンク構造に基づく検索結果は表示されない。
【0107】
検索方法のうち、(3)リンク構造での検索結果とページ内容での検索結果をそれぞれ個別に表示する方法とは、リンク構造による検索(すなわち適合度Sl(p,q)に基づく検索)と、ページ内容による検索(すなわち適合度St(p,q)に基づく検索結果)とを両方行い、それぞれの検索結果を領域202,203に表示する方法である。この方法が選択された場合には、図8のステップS29を省略してもよい。検索結果は、領域202と領域203に表示される。
【0108】
図11に示した画面は、図9に示した入力画面からユーザが、検索方法として、「両方の検索結果を総合して表示」を選択したときの検索結果の表示例を示したものである。
【0109】
両方の検索結果を総合して表示する検索方法が選択されたときは、図8に示したフローチャートに従って、ステップS29までの処理を全て実行して、式(2)のCl、Ctを適宜指定して(あるいは、予め定められた値をそのまま用いてよい)求めた適合度S(p,q)に基づいた検索結果を含めた検索結果の表示を行う方法である。なお、図11については、後述する。
【0110】
図10の領域202には、リンク構造に基づいた検索結果が表示される。順位105の高い方から順に、検索されたページの見出し107が並べられている。なお、順位105は上記Sl(p,q)の大きい順に、1位、2位、…と検索された各ページに与えたものである。また、ページの見出し106は、図1のページ情報記憶部7に記憶されたページのタイトル(図4のタイトル)を表示してもよいが、ページ情報記憶部7がない場合や、当該ページの情報をシステムが取得していない場合は、図1のリンク情報記憶部4に記憶した当該ページを参照するリンクのラベルのうち、代表的なもの(例えば、検索条件に最も合致するもの)を見出し106として用いてもよい。また、見出し106の文字列の中で検索条件に関連する部分、例えば、検索条件に「T社」「パソコン」などの語が含まされているとき、見出し106に含まれているこれらの語は強調して表示する。
【0111】
ページの見出し106に、記号「<」にて追加されている情報は、見出し106に対応するページをリンクで参照するリンク元ページの見出し107である。この見出し107には、この見出し107に対応するページへジャンプするリンクが埋め込まれていて、この見出し107をマウス等でクリックすれば、当該ページが表示可能になっている。リンク元ページは複数あり得るが、ここでは、そのうち、Sl(p,q)が最も大きいページを1つ表示することとする。
【0112】
一方、ページの見出し106に、記号「>」にて追加されている情報は、見出し106に対応するページがリンクで参照するリンク先ページの見出し108である。この見出し108には、見出し108に対応するページへジャンプするリンクが埋め込まれていて、この見出し108をマウス等でクリックすれば、当該ページが表示可能になっている。リンク先ページは複数あり得るが、これについても、Sl(p,q)が大きいものを複数(例えば5つまで)表示することにする。
【0113】
このように、検索結果のページの見出し106に対して、これとリンクにより参照関係にあるページの見出し107,108を表示することにより、ユーザは、見出し106に対応するページの内容自体を見なくても、見出し106に対応するページと参照関係にあるページのうち所望のページを直接アクセスして、見出し6に対応するページがどのような位置付けのページなのかを理解することも容易になる。
【0114】
一般に、リンク構造は必ずしも階層構造に整理されているわけではないが、上述した方法で、ユーザの検索要求によく適合するリンクを選択的に表示すれば、リンク構造の複雑さによるユーザの混乱は避けられる。
【0115】
図10の領域202には、ページ内容に基づいた検索結果が表示される。順位110の高い方から順に、検索されたページの見出し111が並べられている。なお、見出し111は、検索結果のページのタイトルであり、順位110は、上記St(p,q)が大きい順に、1位、2位、…と検索された各ぺージに与えたものである。
【0116】
ページの見出し111の下には、当該ページの内容の要約112が表示されている。要約112は、ここでは、当該ページの本文から検索条件に合致する表現、すなわち、例えば、検索条件に含まれている「T社」「パソコン」等の語をよく含む部分(文など)を抜きだして表示する。
【0117】
また、見出し111に対応する検索結果のページから他のページを参照するリンクがある場合は、そのうち、検索条件と関連するリンク113が見出し111に対応させて表示されている。例えば、見出し111に対応するページの本文に「デスクトップパソコン」「ノートパソコン」「周辺機器」「ソフトウェア」などのラベルをもつリンクがある場合にも、ユーザの検索条件に関連のあるリンク「デスクトップパソコン」「ノートパソコン」のみがリンク113としてに表示される。すなわち、これらリンク113をマウス等でクリックすると、当該リンクにて参照している他のページが表示されるようになっている。これにより、ユーザは、見出し111に対応するページの内容自体を見ずとも、見出し111に対応するページから参照されているページのうち所望するものに直接アクセスすることができる。
【0118】
次に、図11について説明する。
【0119】
図11は、リンク構造に基づく検索と、ページ内容に基づく検索との両方の検索結果を1つに統合した検索結果を、ユーザが所望する方法で順位付けてユーザに提示する場合の画面表示例である。
【0120】
上述の通り、検索により得たページには、リンク構造に基づく適合度Sl(p,q)と、ページ内容に基づく適合度St(p,q)と、Sl(p,q)とSt(p,q)とを総合して求めた適合度S(p,q)がある。ユーザが、図9の入力画面において、検索方法として、「両方の検索結果を統合して表示」を選択したときには、これらSl(p,q)、St(p,q)、S(p,q)のうちいずれの適合度によっても検索結果の並び替えが行えるように、領域204にて、並び替え方法を選択するようになっている。
【0121】
並び替え方法の選択肢としては、図11に示すように、「リンク構造に基づく適合度(Sl(p,q))で並び替え」、「ページ内容に基づく適合度(St(p,q))で並び替え」、「統合された適合度(S(p,q))で並び替え」がある。
【0122】
例えば、統合された適合度によれば1位のページは、リンク構造に基づく適合度やページ内容に基づく適合度では、2位以下のこともある。統合された適合度で並び替えを行うと、当該ぺージは一番上に表示されるが、他の適合度で並び替えを行うと、2番目以下に表示される。
【0123】
ユーザは、例えば、統合された適合度S(p,q)で並び替えを行いたい場合には、3番目の選択肢を選択する。そして、比率設定領域132において、統合された適合度を求めるための式(2)の定数Cl、Ctに対応する、統合された適合度中に占めるリンク構造に基づく適合度Sl(p,q)の比率、ページ内容に基づく適合度St(p,q)の比率をそれぞれ設定する。その後、「並び替え」ボタン134を押すことよって並び替えの実行を指示する。
【0124】
例えば、比率設定領域132で設定されたSl(p,q)とSt(p,q)の比率が60%対40%であったときは、式(2)において、Cl=0.6、Ct=0.4として統合された適合度S(p,q)を求めた結果、この値の大きい順に順位が設定され、この設定された順位の順に検索結果が領域205に表示される。
【0125】
領域205に表示されている検索結果は、領域204で並び替え方法として、3番目の選択肢が選択されたときの表示例である。「統合適合度」「リンク構造適合度」「ページ内容適合度」と付された欄135,136,137には、それぞれ、適合度S(p,q)、Sl(p,q)、St(p,q)に基づくページの順位が表示されている。
【0126】
例えば、「統合適合度」が1位で、「リンク構造適合度」が1位で、「ページ内容適合度」が7位である一番上に表示されているページの見出し、すなわち、ここでは、タイトルは、「T社PCウェブ」であり、この見出しとともに、前述同様、当該ページの内容の要約と、当該ページから他のページを参照するリンクがある場合は、そのうち、検索条件と関連するが表示されている。
【0127】
以上説明したように、第1の実施形態の情報検索システムは、リンク構造に基づいた検索を行うことに特徴があり、このような検索手法によって、ユーザの検索条件によく適合する文書を効率よく検索できる。複数段のリンク構造を反映した検索を行うため、自然文などで記述されたユーザの複雑な検索要求に対しても、その要求に合致する検索結果を求めることができる。
【0128】
なお、リンク構造のみによっても検索が可能であるが、上述のように、ページ内容に基づいた従来型の検索方式と統合した方法で検索を行うことも可能である。その統合の方法は柔軟であるため、ユーザは、リンク構造に基づく検索、すなわち、他のページから検索条件によく適合する表現で多くリンクされているページを検索する方法と、ページ内容に基づく検索、すなわち、内容自体が検索条件によく適合する表現で記述されているページを検索する方法を、目的に応じて自由に使い分けることができる。さらに、上述のように、検索結果のページとともに、これと参照関係にある他のページをユーザの検索条件を反映した形で整理して提示するため、検索結果の理解や利用が容易である。
【0129】
(第2の実施の形態)
第2の実施形態に係る情報検索システムは、検索方法としては、第1の実施形態と類似した方法をとるが、ハイパーテキスト形式の文書を、複数の文書グループに分けて考えることにより、検索性能をさらに向上させることに特徴がある。
【0130】
例えば、インターネット上のウェブページは、個々のページの一つ一つが個別の場所に存在するのではなく、サイトやドメインなどと呼ばれる管理単位でまとめて配置されている。このような文書のまとまりを、ここでは文書グループと呼ぶことにする。当然ながら、同一の文書グループに属するページは互いに内容が類似していたり、意味的な関連性が強い場合が多い。
【0131】
また、同一の文書グループに属するページ間のリンクと、別々の文書グループに属するページ間のリンクとは、性質や意味が異なる。
【0132】
図13は、ページ間の参照関係を、文書グループの概念を加えて摸式的に表現した図である。図13において、文書グループは、例えば、文書グループD1〜D3の3つである。また、図5と同様に、図13中、「D1−1」「D1−2」…「D2−1」「D2−2」…「D3−1」「D3−2」…は、ページのIDを表し、矢印はページ間のリンクを表し、リンクに付された文字列はリンクのラベルを表す。
【0133】
例えば、文書グループD1は、インターネット上で(株)T社が運用管理しているサイトに相当する。ページ「D1−1」「D1−2」「D1−3」は、同一の文書グループD1に属する。
【0134】
一方、図13において、リンク301、302、303、304は、異なる文書グループに属するページ間のリンクである。このようなリンクを、ここでは、文書グループ間リンクと呼ぶ。
【0135】
なお、文書グループの定義としては、サイトやドメインといった大まかな単位を文書グループと見なすのが最も単純な方法であるが、さらに細かく文書グループを分割したり、文書グループを階層的に構成する方法も可能である。
【0136】
このような文書グループを用いた情報検索システムの構成例を図12に示す。なお、図12において、図1と同一部分には同一符号を付し、異なる部分についてのみ説明する。
【0137】
すなわち、図1のリンク検索部3、リンク情報記憶部4,ページ検索部6,ページ情報記憶部7からなる文書グループ内検索部50を文書グループ毎に設け、文書グループ間リンクの情報を記憶するための文書グループ間リンク情報記憶部52と、この情報を用いてユーザの検索要求に適合するページを検索する文書グループ間リンク検索部51、が新たに追加されている。
【0138】
文書グループ間リンク情報記憶部52には、文書グループ間リンク情報が図3と同様にして記憶されている。ただし、この場合、1つのリンク(文書グループ間リンク)について、リンク元であるページと、リンク先であるページのそれぞれの属する文書グループは必ず異なっている。
【0139】
文書グループ間リンク検索部51は、索引語抽出部2で抽出された索引語とリンク情報とを比較して、適合する文書を検索する点でリンク検索部3と基本的には同様であるが、文書グループ間リンク検索部51は、文書グループ間リンク情報記憶部52に記憶されている文書グループ間リンクのみを処理対象とする点で異なる。
【0140】
複数の文書グループにそれぞれ対応する複数の文書グループ内検索部50のそれぞれは、同一の文書グループ内に存在するリンクとページを検索対象とするものである。なお、ここでは、説明の簡単のため、1つの文書グループ内検索部50が1つの文書グループに1対1で対応しているものとするが、この場合に限らず、1つの文書グループ内検索部50が複数の文書グループに対応していてもよいし、1つの文書グループ内検索部50が全ての文書グループのそれぞれに対応していてもよい。ただし、1つの文書グループに1つの文書グループ内検索部50を割り当て、並列分散して動作するように構成すれば、個々の検索部の負荷が減じ、大量のページに対しても高速に検索できるようになる。
【0141】
図12に示した情報検索システムでは、1つの文書グループに1つの文書グループ内検索部50を割り当てているので、リンク情報記憶部4に記憶されているリンク情報は、検索対象である1つの同じ文書グループに属するページからページへのリンクに関するものだけである。また、ページ情報記憶部7に記憶されているページ情報も検索対象である1つの同じ文書グループに属するページに関するものだけである。
【0142】
図12の検索結果統合部5では、文書グループ間リンク検索部51による検索結果と、複数の文書グループ内検索部50のそれぞれによる検索結果とを、統合する処理を行う。
【0143】
次に、図12に示した情報検索システムの処理動作について、図14に示すフローチャートを参照して説明する。
【0144】
ユーザにより入力された検索条件qから検索語を抽出して、ベクトルVqを作成するステップS111の処理は、図8のステップS21〜ステップS23と同様である。
【0145】
また、図14ののステップS112およびステップS113の処理は、図8のステップS24およびS25とほぼ同様であるが、ステップS113では文書グループ間リンクの構造のみを用いて適合度Slex(p,q)を求める点で異なる。ステップS112とS113の処理は、文書グループ間リンク検索部51で行う。
【0146】
なお、ステップS113で、検索条件qのベクトルVqと比較するベクトルVplexは、図6を参照して説明した、ページpのベクトルVplの作成するための処理と同様にして、文書グループ間リンク情報記憶部52に記憶されている文書グループ間リンク情報のみに基づいて、文書グループ間リンク索引作成部10で、各ページpについて、あらかじめ作成したものである。ベクトルVplexを、ここでは、ページpのn段の文書グループ間リンクのベクトルと呼ぶ。
【0147】
ここで、文書グループ間リンク索引作成部10の処理動作について、図6を参照して、リンク索引作成部8での処理動作と異なる部分についてのみ説明する。すなわち、図6のステップS5では、ページpと1段のリンクで参照関係にある、ページpとは異なる文書グループに属する文書からのリンクのベクトルの総和、すなわち、Vpl(1)を作成する。また、図6のステップS6では、ページpがn段のリンクで参照されていて、このn段のリンクのそれぞれが異なる2つの文書グループ間にまたがるリンク(このような2つのページ間をリンクするハイパーリンクを文書グループ間リンクと呼ぶ)であるとき、図6のステップS6では、この全ての文書グループ間リンクのベクトルの総和を求めることにより作成することができる。そして得られたVpl(n)を、Vplexに置き換えればよい。
【0148】
例えば、図13において、ページ「D3−1」は、1段の文書グループ間リンク303でページ「D1−3」から参照されており、ページ「D1−3」は、1段の文書グループ間リンク302でページ「D2−1」から参照されているので、ページ「D3−1」は、2段の文書グループ間リンクでページ「D2−1」から参照されていることになる。このような複数段の文書グループ間リンクを用いて、そのそれぞれのラベルのベクトルvlから、上記したようにして、Vpl(1)、Vplexを作成する。
【0149】
文書グループ間のリンクのベクトルVplexは、上述したように、文書グループ間リンク情報のみに基づいて作成されたものであり、言い換えれば、文書グループ間のリンクの参照関係に基づき作成されたものである。
【0150】
ステップS113では、各ページ毎に求めた文書グループ間のリンクのベクトルVplexと、検索条件のベクトルVqとを比較し、その類似度を求める。類似度の算出方法としては、一般に、ベクトルの内積や余弦をとる方法がよいとされている。こうして求めたVplexとVqとの類似度を、検索条件qに対する文書グループ間リンク構造に基づく適合度Slex(p,q)とする。
【0151】
次に、全ての文書グループGrについて(S114)、ステップS115からS117の処理を行う。
【0152】
ステップS115では、文書グループGrに属するページについて、上記ステップS113で求めた適合度Slex(p,q)のうち、その最大値を、Grと検索条件qとの適合度S(Gr,q)とする。このS(Gr,q)は、検索条件qに対して、文書グループGrがどれくらい適合しているかを表す値と考えることができる。なお、同じ文書グループに属するページpのSlex(p,q)の最大値をS(Gr,q)とするのではなく、これらページpのSlex(p,q)の総和や平均値などをS(Gr,q)としてもよい。
【0153】
S(Gr,q)が予め定められた閾値Sgminより大きい文書グループGrについては(ステップS116)、その文書グループ内での検索を行う(ステップS117)。すなわち、ステップS117では、当該文書グループ対応の文書グループ内検索部50のそれぞれに、図8のステップS24〜ステップS29までの処理を行う。
【0154】
S(Gr,q)が予め定められた閾値Sgminより大きい文書グループGr内における検索結果は、S(Gr,q)の値が大きい文書グループの順に、文書グループ毎にまとめられて、ユーザに提示する(S118)。
【0155】
次に、ユーザが検索条件として、例えば「T社のノートパソコンを修理したい」を所定の入力画面から入力して、検索の実行を図12の情報検索システムに指示した場合の検索結果の表示例について説明する。
【0156】
図15〜図16は、図12の情報検索システムのユーザインタフェース1の画面表示例を示す図である。
【0157】
図15において、領域300には、先にユーザにより入力された検索条件が表示されている。
【0158】
図14に示したようにして検索した結果は、S(Gr,q)の値が大きい文書グループから順に表示されるが、図15では、1つの文書グループに1つの表示領域301を割り当てて表示している。
【0159】
1番目の領域301には、S(Gr,q)の値が最も大きい文書グループ内の検索結果が表示される。
【0160】
例えば、図15では、(株)T社のサイトが、検索条件に最も適合する文書グループとして求められる。例えば「T社」という語と「パソコン」という語を比較した場合、文書グループ間リンクだけに着目すれば、「T社」という固有名詞をラベルに含んだリンクは、少数のURLを集中して参照する傾向にある。これに対し、「パソコン」という一般名詞をラベルに含むリンクは、多数のURLを参照する傾向にあり、少数のURLに集中して参照することは稀である。このような性質が検索語の重みに影響するため、T社のサイトが、より適合度の大きい文書グループとして選ばれる。このことはユーザの検索条件に合致する。
【0161】
図15において、1番目の領域301の1番目の行には、当該文書グループGrに属するページのうち、図14のステップS113で求めた適合度Slex(p,q)が最も大きいページの見出し(例えば、ここではタイトル)302が表示されている。このページは、文書グループ間リンクの構造に基づいた適合度が大きいページであるから、当該文書グループ1を代表的するページと見なすことができる。一方、2番目、3番目、4番目に表示されているページの見出し302,304,305は、図14のステップS117の処理によって、当該文書グループの中で求められた検索結果のページである。
【0162】
文書グループ内のリンク構造だけに着目すれば、「T社」という語は、当該文書グループ内では数多く使われる語であるため、文書グループ内でページを特定する働きが弱い。これと比較して、「ノート」「パソコン」「修理」という一連の語は、ページを特定する働きが強い。このような性質は、リンクのラベルについても、ページの内容についても成り立つ。この性質が検索語の重みに影響するため、ステップS117では、文書グループ内からユーザの検索条件によく適合するページが検索できる。
【0163】
なお、図15の表示例では、1番目のページの見出し302以外の各ページの見出し303,304,305には、そのページの本文の要約を対応付けて表示している。これは、前述の第1の実施形態の図10の領域203で要約を表示している場合と同様である。
【0164】
また、検索結果として表示される全ての見出しは、マウス等でクリックすることにより、その見出しに対応するページを表示するようになっていることが望ましい。
【0165】
さらに、各文書グループ内の検索は、第1の実施形態で説明したように、検索実行に先だって、検索方法を指定することにより、リンク構造に基づく検索、ページ内容に基づく検索、それらを総合した検索を行って、指定された検索方法に対応する検索結果の表示を行ってもよい。
【0166】
ユーザにより入力された検索条件によっては、上記処理によってユーザが所望する文書グループを求めることができても、その文書グループ内でユーザがどのページを所望しているかということまでは求めることができないときがある。例えば単に「T社」という検索条件が入力された場合には、ユーザが所望するページを文書グループ内で検索するための条件がユーザから与えられていない。このような場合の処理としては、文書グループ内の検索を行わないという方法と、検索条件がなくてもユーザにとって有用と思われるページを文書グループ内から選んで提案する方法の、二通りが考えられる。
【0167】
前者の方法では、例えば、図14のステップS117の処理は省略し、検索結果として、文書グループに属するページのうち、図14のステップS113で求めた適合度Slex(p,q)が最も大きいページの見出し302のみをユーザに提示する。
【0168】
後者の方法の一つの実施形態としては、ハイパーリンクによって他のページから参照されている数の多いページを有用なページであると見なし、そのような有用度の大きいページをユーザにいくつか提示する方法がある。すなわち、図4に示したようなリンク情報から各ページについての被リンク数が求まるので、この被リンク数の単調増加関数としてページの有用度を定義する。ステップS117では、文書グループGr内の個々のページについて有用度を求め、有用度が大きいページを所定の個数(例えば上位5件)だけを選ぶという処理を行う。この場合の検索結果の表示例を図16に示す。
【0169】
なお、図16において、図15と同一部分には、同一符号を付し、異なる部分について説明する。すなわち、検索結果として得られた各文書グループの表示領域301では、1番目の行には、当該文書グループに属するページのうち、図14のステップS113で求めた適合度Slex(p,q)が最も大きいページの見出し(例えば、ここではタイトル)302を表示するものの、それ以下には、被リンク数に基づいた上述の方法で有用度が大きいと見なされたページの見出し(例えば、ここでは、タイトル)403〜407が表示される。
【0170】
図16に示した形式で検索結果を表示することによって、ユーザは、簡単な検索要求を入力した場合にも、有用なページを容易に見つけることができる。なお、ページの有用度を被リンク数によって求める処理では、文書グループ内リンクと文書グループ間リンクとを区別し、文書グループ間リンクの方を重要視する方法が効果的である。なぜなら、異なる文書グループから多く参照されているページは、その価値がより客観的に支持されているページであると考えられるからである。
【0171】
以上説明したように、文書グループを考慮した上記第2の実施形態によれば、文書グループ間リンクと、文書グループ内のリンクとの、性質の違いに着目することにより、ユーザの検索条件によく適合するページを検索できるのみならず、得られた検索結果が、文書グループ毎にまとめた形で提示されるため、ユーザは、検索結果から所望のページを簡単に見つけることができる。さらに、文書グループ内の検索処理を、複数の文書グループ内検索部50に分散し、並列して実行することにより、大量の文書についても高速に検索できるという利点がある。
【0172】
上記第1〜第2の実施形態によれえば、大量のハイパーテキスト形式の文書の中から、ユーザが自然文または複数の語で記述した複雑な検索条件に適合する文書を、効率よく検索することができる。また、ハイパーリンクによる参照関係や文書グループに基づいて検索結果を整理して提示することにより、ユーザは、所望する情報を検索結果の中から容易に見つけ出すことができる。
【0173】
なお、上記第1〜第2の実施形態において、検索結果として、ページの見出しを表示する際には、その全ての見出しは、マウス等によりクリックされることにより、その見出しに対応するページが表示されるようになっていることが望ましい。
【0174】
また、本発明の実施の形態に記載した本発明の手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスクなど)、光ディスク(CD−ROM、DVDなど)、半導体メモリなどの記録媒体に格納して頒布することもできる。
【0175】
さらに、本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。さらに、上記実施形態には種々の段階の発明は含まれており、開示される複数の構成用件における適宜な組み合わせにより、種々の発明が抽出され得る。例えば、実施形態に示される全構成要件から幾つかの構成要件が削除されても、発明が解決しようとする課題の欄で述べた課題(の少なくとも1つ)が解決でき、発明の効果の欄で述べられている効果(のなくとも1つ)が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
【0176】
【発明の効果】
以上説明した様に本発明によれば、大量のハイパーテキスト形式の文書の中から、複数の語からなる複雑な検索条件に適合する文書の検索が容易に行えるとともに、高い精度の検索結果が得られる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係る情報検索システムの構成例を示した図。
【図2】検索対象の複数のページのそれぞれに与えられた識別子と、各識別子に対応する各ページのURLの記憶例を示した図。
【図3】リンク情報記憶部におけるリンク情報の記憶例を示した図。
【図4】ページ情報記憶部におけるページ情報の記憶例を示した図。
【図5】検索対象の複数のページのハイパーリンクによる参照関係の一例を示した図。
【図6】各ページについて、n段のリンクのベクトルを作成するための処理を説明するためのフローチャート。
【図7】各ページについて、ページ内容のベクトルを作成するための処理を説明するためのフローチャート。
【図8】図1の情報検索システムの検索処理動作を説明するためのフローチャート。
【図9】図1の情報検索システムのユーザインタフェースの画面表示例を示す図で、検索要求を入力する入力画面の一例を示した図。
【図10】図1の情報検索システムのユーザインタフェースの画面表示例を示す図で、検索結果の表示例を示した図。
【図11】図1の情報検索システムのユーザインタフェースの画面表示例を示す図で、検索結果の表示例を示した図。
【図12】本発明の第2の実施形態に係る情報検索システムの構成例を示した図。
【図13】検索対象の複数のページと文書グループのハイパーリンクによる参照関係の一例を示した図。
【図14】図12の情報検索システムの検索処理動作を説明するためのフローチャート。
【図15】図12の情報検索システムのユーザインタフェースの画面表示例を示す図で、検索結果の表示例を示した図。
【図16】図12の情報検索システムのユーザインタフェースの画面表示例を示す図で、検索結果の他の表示例を示した図。
【符号の説明】
1…ユーザインタフェース
2…検索語抽出部
3…リンク検索部
4…リンク情報記憶部
5…検索結果統合部
6…ページ検索部
7…ページ情報記憶部
8…リンク索引作成部
9…ページ索引作成部
10…文書グループ間リンク索引作成部
11…ウェブ情報収集部
50…文書グループ内検索部
51…文書グループ間リンク検索部
52…文書グループ間リンク情報記憶部

Claims (8)

  1. 検索条件を入力する入力手段と、
    ハイパーリンクでリンクされた複数の文書のなかから、前記検索条件に基づき文書の検索を行う検索手段と、
    を備えた情報検索システムにおける情報検索方法であって、
    前記入力手段が、複数の語を含む自然文の検索条件、複数の語の論理式で表された検索条件、及び複数の語を列挙した検索条件のうちの1つを入力する入力ステップと、
    前記検索手段が、前記複数の文書のそれぞれについて、(a)当該文書を1段及び複数段のハイパーリンクを経て参照する参照関係にある文書群の前記参照関係を表す各ハイパーリンクのラベルから索引語を抽出し、(b)抽出された各索引語に対し、各ハイパーリンクの段数に応じて重み付けされた当該索引語の重み値の和を算出することにより、複数の索引語と各索引語の前記重み値の和を示す第1の種別のベクトルを求めるステップと、
    前記検索手段が、前記複数の文書のそれぞれについて、当該文書に対し求めた前記第1の種別のベクトルと、前記入力ステップで入力された前記検索条件に含まれる複数の語と各語の重み値を示す検索語ベクトルとの間の類似度であるリンク構造に基づく類似度を算出するステップと、
    前記検索手段が、前記リンク構造に基づく類似度に基づき検索結果として表示する文書の順位を決定するステップと、
    前記検索手段が、前記順位に従って前記検索結果としての文書を表示する表示ステップと、
    を含む情報検索方法。
  2. 前記表示ステップは、
    前記検索結果として表示する文書に、該文書を前記1段のハイパーリンクで参照する関係にあるリンク元文書があるとき、該リンク元文書の前記リンク構造に基づく類似度が所定値以上であれば、該リンク元文書の存在を前記検索結果として表示する文書に関連付けて表示し、その際、所定の操作により該リンク元文書の内容表示を可能にする形態で表示することを特徴とする請求項1記載の情報検索方法。
  3. 前記表示ステップは、
    前記検索結果として表示する文書に、該文書が前記1段のハイパーリンクで参照する関係にあるリンク先文書があるとき、該リンク先文書の前記リンク構造に基づく類似度が所定値以上であれば、該リンク先文書の存在を前記検索結果として表示する文書に関連付けて表示し、その際、所定の操作により該リンク先文書の内容表示を可能にする形態で表示することを特徴とする請求項1記載の情報検索方法。
  4. 前記検索手段が、前記複数の文書のそれぞれについて、当該文書の内容から索引語を抽出し、抽出された各索引語と各索引語の重み値を示す第2の種別のベクトルを求めるステップと、
    前記検索手段が、前記複数の文書のそれぞれについて、当該文書に対し求めた前記第2の種別のベクトルと、前記検索語ベクトルとの間の類似度である文書内容に基づく類似度を算出するステップと、
    前記検索手段が、前記複数の文書のそれぞれについて算出された前記リンク構造に基づく類似度及び前記文書内容に基づく類似度を統合して統合類似度を算出するステップと、
    前記統合類似度に基づき検索結果として表示する文書の順位を決定するステップと、
    前記検索手段が、前記統合類似度に基づき決定された順位に従って前記検索結果としての文書を表示する表示ステップと、
    をさらに含む請求項1記載の情報検索方法。
  5. ハイパーリンクでリンクされた複数の文書のそれぞれについて、(a)当該文書を1段及び複数段のハイパーリンクを経て参照する参照関係にある文書群の前記参照関係を表す各ハイパーリンクのラベルから索引語を抽出し、(b)抽出された各索引語に対し、各ハイパーリンクの段数に応じて重み付けされた当該索引語の重み値の和を算出することにより、複数の索引語と各索引語の前記重み値の和を示す第1の種別のベクトルを求める手段と、
    複数の語を含む自然文の検索条件、複数の語の論理式で表された検索条件、及び複数の語を列挙した検索条件のうちの1つを入力する入力手段と、
    前記複数の文書のそれぞれについて、当該文書に対し求めた前記第1の種別のベクトルと、前記入力手段で入力された前記検索条件に含まれる複数の語と各語の重み値を示す検索語ベクトルとの間の類似度であるリンク構造に基づく類似度を算出する算出手段と、
    前記リンク構造に基づく類似度に基づき、検索結果として表示する文書の順位を決定し、この順位に従って前記検索結果としての文書を表示する手段と、
    を具備したことを特徴とする情報検索システム。
  6. 前記表示手段は、
    前記検索結果として表示する文書に、該文書を前記1段のハイパーリンクで参照する関係にあるリンク元文書があるとき、該リンク元文書の前記リンク構造に基づく類似度が所定値以上であれば、該リンク元文書の存在を前記検索結果として表示する文書に関連付けて表示し、その際、所定の操作により該リンク元文書の内容表示を可能にする形態で表示することを特徴とする請求項5記載の情報検索システム。
  7. 前記表示手段は、
    前記検索結果として表示する文書に、該文書が前記1段のハイパーリンクで参照する関係にあるリンク先文書があるとき、該リンク先文書の前記リンク構造に基づく類似度が所定値以上であれば、該リンク先文書の存在を前記検索結果として表示する文書に関連付けて表示し、その際、所定の操作により該リンク先文書の内容表示を可能にする形態で表示することを特徴とする請求項5記載の情報検索システム。
  8. 前記複数の文書のそれぞれについて、当該文書の内容から索引語を抽出し、抽出された各索引語と各索引語の重み値を示す第2の種別のベクトルを求める手段と、
    前記複数の文書のそれぞれについて、当該文書に対し求めた前記第2の種別のベクトルと、前記検索語ベクトルとの間の類似度である文書内容に基づく類似度を算出する手段と、
    前記複数の文書のそれぞれについて算出された前記リンク構造に基づく類似度及び前記文書内容に基づく類似度を統合して統合類似度を算出する手段と、
    前記統合類似度に基づき、検索結果として表示する文書の順位を決定し、この順位に従って前記検索結果としての文書を表示する手段と、
    をさらに具備する請求項5記載の情報検索システム。
JP2001254772A 2001-08-24 2001-08-24 情報検索方法および情報検索システム Expired - Fee Related JP3895955B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001254772A JP3895955B2 (ja) 2001-08-24 2001-08-24 情報検索方法および情報検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001254772A JP3895955B2 (ja) 2001-08-24 2001-08-24 情報検索方法および情報検索システム

Publications (2)

Publication Number Publication Date
JP2003067419A JP2003067419A (ja) 2003-03-07
JP3895955B2 true JP3895955B2 (ja) 2007-03-22

Family

ID=19082883

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001254772A Expired - Fee Related JP3895955B2 (ja) 2001-08-24 2001-08-24 情報検索方法および情報検索システム

Country Status (1)

Country Link
JP (1) JP3895955B2 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8706747B2 (en) * 2000-07-06 2014-04-22 Google Inc. Systems and methods for searching using queries written in a different character-set and/or language from the target pages
JP2004348241A (ja) * 2003-05-20 2004-12-09 Hitachi Ltd 情報提供方法、サーバ及びプログラム
US7305389B2 (en) * 2004-04-15 2007-12-04 Microsoft Corporation Content propagation for enhanced document retrieval
US8972444B2 (en) 2004-06-25 2015-03-03 Google Inc. Nonstandard locality-based text entry
US7606793B2 (en) 2004-09-27 2009-10-20 Microsoft Corporation System and method for scoping searches using index keys
US7739277B2 (en) 2004-09-30 2010-06-15 Microsoft Corporation System and method for incorporating anchor text into ranking search results
US20060149800A1 (en) 2004-12-30 2006-07-06 Daniel Egnor Authoritative document identification
KR100645711B1 (ko) * 2005-03-04 2006-11-15 (주)첫눈 다수의 정보 블록으로 구분된 웹 페이지를 이용한 정보검색 서비스 제공 서버, 방법 및 시스템
JP2006301975A (ja) * 2005-04-20 2006-11-02 Canon Inc 情報処理装置及び情報処理方法並びにプログラム
JP4756953B2 (ja) * 2005-08-26 2011-08-24 富士通株式会社 情報検索装置および情報検索方法
JP4963620B2 (ja) * 2007-03-30 2012-06-27 楽天株式会社 情報検索システム、情報検索装置、検索結果画面情報生成方法及び検索結果画面情報生成処理プログラム
JP4963619B2 (ja) * 2007-03-30 2012-06-27 楽天株式会社 情報検索システム、情報検索装置、検索結果画面情報生成方法及び検索結果画面情報生成処理プログラム
JP4983401B2 (ja) * 2007-05-25 2012-07-25 富士ゼロックス株式会社 情報処理装置及び制御プログラム
JP2009075777A (ja) * 2007-09-19 2009-04-09 Newswatch Inc 文書処理システム及び方法
CN101399818B (zh) 2007-09-25 2012-08-29 日电(中国)有限公司 基于导航路径信息的主题相关网页过滤方法和系统
US9348912B2 (en) 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
JP5316158B2 (ja) * 2008-05-28 2013-10-16 株式会社リコー 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体
JP2010198058A (ja) * 2009-02-23 2010-09-09 Newswatch Inc 文書処理システム及び方法
JP5044591B2 (ja) * 2009-03-13 2012-10-10 株式会社東芝 メンバキーワード関係表示装置
JP2011039717A (ja) * 2009-08-10 2011-02-24 Nippon Telegr & Teleph Corp <Ntt> 情報検索システム、情報検索方法および情報検索プログラム
US8560519B2 (en) * 2010-03-19 2013-10-15 Microsoft Corporation Indexing and searching employing virtual documents
JP5591622B2 (ja) * 2010-08-10 2014-09-17 日本電信電話株式会社 文書検索方法、文書検索システム、文書検索プログラム
JP5858456B2 (ja) * 2011-01-21 2016-02-10 国立研究開発法人情報通信研究機構 情報検索サービス提供装置及びコンピュータプログラム
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results

Also Published As

Publication number Publication date
JP2003067419A (ja) 2003-03-07

Similar Documents

Publication Publication Date Title
JP3895955B2 (ja) 情報検索方法および情報検索システム
US7185001B1 (en) Systems and methods for document searching and organizing
JP3717808B2 (ja) 情報検索システム
CN1288583C (zh) 汇总与聚合以将文件就概念分类
US7805432B2 (en) Meta search engine
US20020073079A1 (en) Method and apparatus for searching a database and providing relevance feedback
JP3577819B2 (ja) 情報探索装置及び情報探索方法
US20060117002A1 (en) Method for search result clustering
JP2010055618A (ja) トピックを基にした検索を提供する方法及びシステム
US20040098385A1 (en) Method for indentifying term importance to sample text using reference text
Attardi et al. Categorisation by Context.
KR20070089449A (ko) 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체.
US20040015485A1 (en) Method and apparatus for improved internet searching
Ru et al. Indexing the invisible web: a survey
JP5146108B2 (ja) 文書重要度算出システム、文書重要度算出方法およびプログラム
JP2003271609A (ja) 情報監視装置及び情報監視方法
WO1999014690A1 (fr) Procede d&#39;addition d&#39;un mot cle au moyen d&#39;informations de liaison
JPH1145257A (ja) Web文書の検索支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
TWI290684B (en) Incremental thesaurus construction method
JP2003085181A (ja) 事典システム
JP2000105769A (ja) 文書表示方法
JP4146067B2 (ja) 文書検索システムおよび文書検索方法
WO2021210210A1 (ja) 文書検索装置、文書検索システムおよび文書検索方法
Sengupta et al. Semantic thumbnails: a novel method for summarizing document collections
Cheng et al. Learning To Rank Relevant Documents for Information Retrieval in Bioengineering Text Corpora

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060330

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060509

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060707

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060905

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061102

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061215

R151 Written notification of patent or utility model registration

Ref document number: 3895955

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091222

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101222

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101222

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111222

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121222

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131222

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees