JP2003030235A - 情報検索システム、情報検索方法、及びプログラム - Google Patents

情報検索システム、情報検索方法、及びプログラム

Info

Publication number
JP2003030235A
JP2003030235A JP2001212184A JP2001212184A JP2003030235A JP 2003030235 A JP2003030235 A JP 2003030235A JP 2001212184 A JP2001212184 A JP 2001212184A JP 2001212184 A JP2001212184 A JP 2001212184A JP 2003030235 A JP2003030235 A JP 2003030235A
Authority
JP
Japan
Prior art keywords
information
word
position information
character string
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001212184A
Other languages
English (en)
Inventor
Toshihito Terada
俊仁 寺田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2001212184A priority Critical patent/JP2003030235A/ja
Publication of JP2003030235A publication Critical patent/JP2003030235A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

(57)【要約】 【課題】 検索エンジンが提供する情報検索の結果を情
報検索者の検索目的に対してより適切なものにする。 【解決手段】 単語抽出部123はWebページ20に
含まれている文字列から単語を抽出する。索引登録部1
24は抽出された文字列のうちハイパーリンクが埋め込
まれているものについて該リンク先の位置情報を取得
し、該単語に、Webページ20の位置情報と該リンク
先の位置情報とを対応付けて索引ファイル310に登録
する。情報検索部210は索引ファイル310を検索
し、検索対象を表す単語に対応付けられている位置情報
を取得して検索結果ファイル320に格納する。検索結
果管理部220は検索結果ファイル320の情報をソー
トして多くのハイパーリンクが張られているリンク先の
位置情報に高い優先順位を与えたものを表現するHTM
Lファイルを作成してブラウザ30に提供する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、情報を検索する技
術に関し、特に、検索の要求に対し、その要求により適
切に合致した情報を提供できるようにする技術に関す
る。
【0002】
【従来の技術】近年、インターネットの普及により、イ
ンターネット上のWWW(World WideWeb)システムで
提供されているWebページの数は爆発的に増え続けて
いる。また、インターネット上では、この膨大な情報の
中から目的とする情報を検索するサービスを提供する検
索エンジンが多数開設されている。
【0003】検索エンジンがネット上の情報を収集する
方式のひとつとして、ロボット型と称されているものが
ある。ロボット型の検索エンジンでは、スパイダあるい
はクローラなどと呼ばれるロボットプログラムが定期的
に起動されて、インターネット上で公開されているWe
bページを表現しているHTML(HyperText MarkupLa
nguage )ファイルの自動収集が行なわれる。情報検索
が行なわれるときには、検索エンジンを利用する情報検
索者が目的とする情報に関係の深いキーワードを検索サ
イトに与えることにより、収集されたファイルからその
キーワードが含まれたものを抽出する処理が行なわれ、
そのキーワードの含まれているWebページのリスト
が、そのWebページについてのインターネット上にお
ける論理的な位置を示す情報と共に、検索結果として情
報検索者に提供される。
【0004】
【発明が解決しようとする課題】一般に、ロボット型の
検索エンジンは、情報の収集から検索結果の提供に至る
までの全ての処理をコンピュータで自動的に行なってお
り、人間の判断による情報の操作は介在しないので、収
集された情報の属するジャンルやその情報の質について
の整理がなされていない。そのため、情報の検索の際
に、単なるキーワードの一致による検索を行なっていた
のでは、重要な情報を含むWebページが検索結果に埋
もれてしまったり、あるいは、いわゆる検索ノイズ、す
なわち有用性の低い情報しか含まれていないWebペー
ジばかり検索結果に多く含まれてしまったりする場合が
少なくなかった。
【0005】以上の問題を鑑み、検索エンジンが提供す
る情報検索の結果を情報検索者の検索目的に対してより
適切なものにすることが本発明が解決しようとする課題
である。
【0006】
【課題を解決するための手段】本発明は、通信ネットワ
ーク上で公開されている文書情報に含まれている単語
と、該通信ネットワーク上の論理的な位置を示す情報で
あって該単語に関連する情報が存在する文書情報位置を
示す単語関連位置情報とを対応付けてなる索引ファイル
を用意し、検索の対象を表す単語に基づいて該索引ファ
イルを検索して該検索対象を表す単語に対応している単
語関連位置情報を提示するシステムまたは方法を前提と
する。
【0007】そして、本発明の態様のひとつである情報
検索システムでは、前記文書情報に含まれている文字列
から単語を抽出する抽出手段と、前記文字列のうち、該
文字列に関連する情報が提供されている参照先について
の前記位置を示す情報である参照先位置情報を有してい
ることを示す属性が付されているものについて、該参照
先位置情報を取得する参照先位置取得手段と、前記抽出
手段によって抽出された単語を、該単語の抽出元の文字
列が含まれていた文書情報についての前記位置を示す文
書位置情報と前記属性が付されている該文字列について
の前記参照先位置情報とからなる単語関連位置情報に対
応付けて前記索引ファイルに登録する登録手段と、前記
検索対象を表す単語に基づいて前記索引ファイルの検索
を行なって該単語に対応付けられている単語関連位置情
報を該索引ファイルから取得する検索手段と、前記検索
手段によって取得された単語関連位置情報のうち、前記
参照先位置情報を優先して提示する提示手段とを有する
ように構成することによって前述した課題を解決する。
【0008】例えば技術論文において、他の多くの論文
によって参照されている論文は特に重要度が高いものと
考えることができる。本発明はこの考え方に基づくもの
であり、他の文書情報から参照されている情報を示す位
置情報はそうでないものと比べてより適切なものである
とみなす。すなわち、単語関連位置情報において参照先
位置情報は単なる文書位置情報よりも重要であるとみな
し、単語関連位置情報提示手段に参照先位置情報を優先
的に提示させるようにするのである。こうすることによ
って、通信ネットワーク上で公開されている文書情報に
おける文字列であって検索条件に合致する単語が含まれ
ている該文字列が参照している参照先を示す参照先位置
情報が単なる文書位置情報よりも優先的に提示されるの
で、情報検索の結果が情報検索者の検索目的に対してよ
り適切なものとなる。
【0009】なお、上述した本発明に係る情報検索シス
テムにおいて、前記提示手段は、前記検索手段によって
取得された単語関連位置情報に同一の前記位置を示す前
記単語関連位置情報と参照先位置情報とが含まれている
ときには、該単語関連位置情報のうち参照先位置情報と
して取得された数の多いものが優先されるようにして該
単語関連位置情報を提示するようにしてもよい。
【0010】この構成によれば、他の文字列から参照さ
れる数のより多い情報の位置が示されている単語関連位
置情報ほど優先されて提示されるようになる。また、前
述した本発明に係る情報検索システムにおいて、前記文
書情報は、Webページを表現するページ記述言語によ
って記述されており、前記参照先位置取得手段は、前記
文字列に埋め込まれていたハイパーリンクにおけるリン
ク先の前記位置を示す情報を前記参照先位置情報として
取得するようにしてもよく、この構成によっても本発明
に係る情報検索システムと同様の作用・効果を奏する。
【0011】なお、このとき、前記登録手段は、前記索
引ファイルに、前記文書位置情報によって前記位置が示
されている文書情報に付されているタイトルである文字
列に該文書位置情報を対応付ける登録、及び、前記参照
先位置情報によって前記位置が示されている前記リンク
先へのハイパーリンクが埋め込まれている文字列に該参
照先情報を対応付ける登録を行ない、前記提示手段は、
前記索引ファイルに登録されている対応付けに基づいた
ハイパーリンクの埋め込まれた文字列であって前記単語
関連位置情報で示される前記位置へのリンクを示す該文
字列を用いて該単語関連位置情報を提示するようにして
もよい。
【0012】この構成によれば、検索結果として提示さ
れる単語関連位置情報が文字列に埋め込まれたハイパー
リンクとして提示されるので、その検索結果を受け取っ
た情報検索者はリンク先へ簡単に辿り着くことが可能と
なり、検索条件の単語に関連する情報を容易に取得でき
るようになる。
【0013】また、本発明の態様のひとつである情報検
索方法は、前記文書情報に含まれている文字列から単語
の抽出を行ない、前記文字列のうち、該文字列に関連す
る情報が提供されている参照先についての前記位置を示
す情報である参照先位置情報を有していることを示す属
性が付されているものについて、該参照先位置情報を取
得し、前記抽出によって抽出された単語を、該単語の抽
出元の文字列が含まれていた文書情報についての前記位
置を示す文書位置情報と前記属性が付されている該文字
列についての前記参照先位置情報とからなる単語関連位
置情報に対応付けて前記索引ファイルに登録し、前記検
索対象を表す単語に基づいて前記索引ファイルの検索を
行なって該単語に対応付けられている単語関連位置情報
を該索引ファイルから取得し、前記検索によって取得さ
れた単語関連位置情報うち、前記参照先位置情報を優先
して提示することにより、前述した本発明に係る情報検
索システムと同様の作用・効果が得られる。
【0014】なお、上述した本発明に係る情報検索方法
と同様の手順からなる処理をコンピュータに行なわせる
ためのプログラムでも、そのプログラムをコンピュータ
に実行させることによって前述した課題を解決すること
ができる。
【0015】
【発明の実施の形態】以下、本発明の実施の形態を図面
に基づいて説明する。図1は本発明を実施する情報検索
サイトが情報検索サービスを提供する通信ネットワーク
の全体構成を示す図である。
【0016】図1において、情報検索サイト1、情報提
供サイト2a、2b、2c、2d、及びユーザ端末3
a、3bはいずれも通信ネットワークであるインターネ
ット4に接続されており、相互にデータの授受を行なう
ことができる。情報検索サイト1は、ユーザ端末3a及
びabにロボット検索型の情報検索サービスを提供する
WWWサーバシステムであり、情報管理部100、情報
検索管理部200、情報データベース管理部300、及
びWWWサーバ管理部400を備えて構成されている。
【0017】情報管理部100は、インターネット4上
に公開されている情報の自動収集を行ない、収集された
情報を情報データベース管理部300に蓄積する。情報
検索管理部200は、インターネット4を介して送られ
てくる情報検索の要求に応じて情報データベース管理部
300に蓄積されている情報の検索を行ない、その検索
の結果を要求元に返送する。
【0018】情報データベース管理部300では、情報
管理部100によって収集された情報の蓄積、及び情報
検索管理部200による情報の検索が行なわれる。WW
Wサーバ部400は、インターネット4を介して送られ
てくる収集された情報を情報管理部100に転送する処
理、インターネット4を介して送られてくる情報検索の
要求を情報検索管理部200に転送する処理、及び情報
検索管理部200から送られてくる情報検索の結果を示
す情報が表されているWebページの送出の処理が行な
われる。
【0019】情報提供サイト2a、2b、2c、及び2
dは、それぞれWebページ20a、20b、20c、
及び20dをインターネット4上で公開するWWWサー
バシステムである。なお、図1においては4つの情報提
供サイトを示しているが、インターネット4に接続され
る情報提供サイトの数は任意でよい。
【0020】ユーザ端末3a及び3bは、それぞれ情報
提供サイト2a、2b、2c、及び2dや情報検索サイ
ト1から提供されるWebページを閲覧するソフトウェ
アであるブラウザ30a及び30bを実行可能なコンピ
ュータであり、インターネット4上で公開されている情
報の検索を情報検索サイト1へ依頼する情報検索者によ
って操作される。なお、図1においては2つのユーザを
示しているが、インターネット4に接続されるユーザ端
末の数も任意でよい。
【0021】なお、これらの情報検索サイト1、情報提
供サイト2a、2b、2c、及び2d、ユーザ端末3a
及び3bは、いずれも標準的な構成を有するコンピュー
タ、すなわち、制御プログラムを実行することで各構成
要素を制御するCPUと、ROMやRAM及び磁気記憶
装置などからなり、CPUに各構成要素を制御させる制
御プログラムの記憶やCPUが制御プログラムを実行す
る際のワークエリアあるいは各種データの記憶領域とし
て使用される記憶部と、ユーザによる操作に対応する各
種のデータが取得される入力部と、ディスプレイなどに
各種のデータを提示してユーザに通知する出力部と、ネ
ットワークに接続するためのインタフェース機能を提供
するI/F部とを備えるコンピュータを用いて構成する
こともできる。
【0022】次に図2について説明する。同図は、図1
における情報検索サイト1に備えられている情報管理部
100、情報検索管理部200、及び情報データベース
管理部300の構成を更に詳細に示したものである。図
2に示すように、情報管理部100はWebページ収集
部110及び索引生成部120を備えて構成されてお
り、情報管理検索部200は情報検索部210及び検索
結果管理部220を備えて構成されており、情報データ
ベース管理部300は索引ファイル310、検索結果フ
ァイル320、及び検索結果リストファイル330を備
えて構成されている。
【0023】Webページ収集部110は、インターネ
ット4上で公開されているWebページ20の収集を行
なう。索引作成部120は、Webページ収集部110
によって収集されたWebページ20の位置情報、すな
わちWebページ20が存在するインターネット4上の
論理的な位置を示す位置情報を引くことのできる索引を
索引ファイル310に登録する。索引作成部120はW
ebページ解析部121、単語抽出部123、索引登録
部124を備えて構成されている。
【0024】Webページ解析部121はWebページ
20の解析を行なってWebページ20を表現している
HTMLファイルの本文に記述されている各HTMLタ
グをレコードの単位とするHTMLフィルタテーブル1
22を作成する。単語抽出部123は、HTMLフィル
タテーブル122に示されている文字列から単語の抽出
を行なう。
【0025】索引登録部124は、単語抽出部123に
よって抽出された単語とWebページ20についての位
置情報との関係、及び、Webページ20でその単語に
ハイパーリンク(以下、単に「リンク」と略す)が埋め
込まれているときにはリンクの存在及びその単語とその
リンク先であるWebページの位置情報との関係を示す
索引データを索引ファイル310に登録する。
【0026】情報検索部210は、インターネット4に
接続されているいずれかのユーザ端末で実行されている
ブラウザ30の制御によってそのユーザ端末から送られ
てくる情報検索の要求をWWWサーバ部400から取得
して、その情報検索の条件を示す検索式を取り出して検
索式格納部211に格納する。そして、索引ファイル3
00を検索してその検索式に示されている単語(キーワ
ード)が見出しとなっている索引データを取得して検索
結果ファイル320に格納する。
【0027】検索結果管理部220は、情報検索部21
0による検索が完了すると、検索結果ファイル320に
格納されている索引データに示されている位置情報と、
その位置情報へ張られているリンクの数の合計とを検索
結果リストファイル330に格納する。そして、検索結
果リストファイル330に格納された位置情報をそのリ
ンク数に従ってソートし、ソートされた位置情報ならな
る検索結果リストが表示されるWebページを表現する
HTMLファイルをHTML作成部221で作成する。
作成されたHTMLファイルはブラウザ30が実行され
ているユーザ端末へ宛ててWWWサーバ部400により
インターネット4に送出される。
【0028】次に、情報検索サイト1の有する情報管理
部100において行なわれる、Webページの収集及び
索引の生成の処理の詳細について、具体例を提示して説
明する。図3は、インターネット4に公開されていて情
報検索サイト1によって収集されるWebページ20の
例を示している。
【0029】図3にはHP1−1、HP1−2、HP1
−3、HP2−1、HP2−2の計5枚のWebページ
が例示されている。なお、同図に示されている矢印はリ
ンクの関係を示している。すなわち、例えばHP1−1
の「宿泊プラン」なる文字列にはHP1−2へのリンク
が埋め込まれていることを示している。
【0030】また、図4にはHP1−1のHTMLソー
スが示されている。同図(b)に示すHTMLがブラウ
ザ30によって閲覧されると同図(a)に示す画面が表
示される。ここで図5について説明する。同図は情報管
理部100で実行される索引生成処理の処理内容を示す
フローチャートである。この処理が実行されることによ
って、Webページの収集及び索引の生成が情報管理部
100で行なわれる。
【0031】まず、S101において、現在の日付が、
予め指定されているWebページ20の収集指定日であ
るか否かが判別され、この判定結果がYes、すなわち
現在がその指定日になったときにのみ、処理がS102
に進む。この日付の指定の仕方は任意であるが、例えば
毎月の月末最終日などといった指定が行なわれる。
【0032】S102ではWebページ収集部110に
よるインターネット4上で公開されているWebページ
20の巡回・収集の処理が行なわれる。この巡回・収集
の手法は周知のロボット型検索エンジンで従来から行な
われているものをそのまま利用すればよい。
【0033】S103では、収集されたWebページ2
0のHTMLソースのタグ書式がWebページ解析部1
21によって解析され、続くS104においてHTML
フィルタテーブルがWebページ解析部121によって
生成される。図3に示したHP1−1から生成されるH
TMLフィルタテーブルを図6に示す。Webページ解
析部121では、図4(b)に示したHP1−1につい
てのHTMLソースが解析されて図6に示すHTMLフ
ィルタテーブルが生成される。
【0034】S103の処理内容を図4(b)を参照し
ながら更に説明すると、Webページ解析部121で
は、解析対象のHTMLソースの本文、すなわち<BODY>
の開始タグと終了タグとの間に挟まれている全ての文字
列が<BR>タグ(改行タグ)を文字列の区切りとみなされ
て抽出される。
【0035】続くS104の処理では、選択された文字
列、その文字列が選択された理由を示す表示、及び他の
Webページへのリンクが埋め込まれているものについ
てはそのリンク先の位置情報が1つのレコードとして纏
められてHTMLフィルタテーブル122が生成され
る。
【0036】図4(b)に示すHTMLソースから図6
に示すHTMLフィルタテーブルが作成される様子につ
いて説明すると、まず、HTMLソースにおける本文の
記述部分である<BODY>タグの開始タグと終了タグとの間
に挟まれている部分、すなわち<BODY>タグと</BODY> タ
グとに挟まれている部分に含まれている文字列は、<BR>
タグによって「箱根ホテルへようこそ」、「宿泊プラ
ン」、「周辺観光案内」、「交通&マップ」なる4つの
文字列に区切られている。
【0037】そして、これらの文字列のうち、「箱根ホ
テルにようこそ」には、リンクが埋め込まれていない文
字列であることを示す「STRING」という種別が与
えられてHTMLフィルタテーブルのレコードがひとつ
生成される。また、「宿泊プラン」、「周辺観光案
内」、「交通&マップ」の各文字列はいずれも他のWe
bページへのリンクが埋め込まれているので、これらの
文字列には「LINK」、すなわちリンクが埋め込まれ
ている文字列であるという種別が与えられ、その文字列
と種別と各文字列のリンク先の位置情報であるそのリン
ク先のURL(Uniform Resource Locator)とからなる
HTMLフィルタテーブルのレコードがその文字列毎に
生成される。
【0038】S105では、単語抽出部123において
HTMLフィルタテーブル122のレコードが順番にひ
とつずつ指定され、続くS106において、その指定さ
れたレコードに示されている文字列の種別を示すデータ
が「STRING」若しくは「LINK」のいずれかで
あるか否かが単語抽出部123によって判別される。そ
して、この判別の結果がYesならば、S107におい
てそのレコードに示されている文字列を構成している単
語の切り出しが単語抽出部123で行なわれる。そして
続くS108において、切り出された単語を見出しと
し、その単語が含まれていたページのタイトルと位置情
報とをその見出しの単語に対応付けた索引が索引登録部
124で生成されて索引ファイル310に登録される。
【0039】一方、S105の判別処理の結果がNoな
らばS109に処理が進む。S109では、HTMLフ
ィルタテーブル122の全てのレコードについて前述し
たS105の指定がなされたか否かが単語抽出部123
で判別され、この判別の結果がYesならばS110に
処理が進む。一方、この判別処理の結果がNoならばS
104へ処理が戻って上述した処理が繰り返される。
【0040】S110では、単語抽出部123でHTM
Lフィルタテーブル122のレコードが改めて順番にひ
とつずつ指定され、続くS111において、その指定さ
れたレコードに示されている文字列の種別を示すデータ
が「LINK」であるか否かが単語抽出部123によっ
て判別される。そして、この判別の結果がYesなら
ば、S112においてそのレコードに示されている文字
列を構成している単語の切り出しが単語抽出部123で
行なわれる。そして続くS113において、切り出され
た単語の切り出し元である文字列とその文字列のリンク
先のWebページの位置情報とを組にしたデータが、そ
の単語が見出し語である索引ファイル310中のレコー
ドへ索引登録部124によって登録されると共に、続く
S114において索引登録部124によってそのデータ
についてのリンクフラグが併せてそのレコードに登録さ
れる。
【0041】一方、S111の判別処理の結果がNoな
らばS115に処理が進む。S115では、HTMLフ
ィルタテーブル122の全てのレコードについて前述し
たS110の指定がなされたか否かが判別され、この判
別の結果がYesならばこの索引生成処理が終了する。
一方、この判別処理の結果がNoならばS110へ処理
が戻って上述した処理が繰り返される。
【0042】以上までの処理が索引生成処理である。次
に、S105からS115にかけて行なわれる処理を図
3の例を用いて更に説明する。図7は、図3の例の場合
に上述した索引生成処理によって情報データベース管理
部300に生成される索引ファイル310のデータ構造
を示している。なお、図7においては、位置情報として
URLを示すと煩雑になるので、その代わりに図3に示
した各Webページに付したHP1−1等の名称を示し
ている。
【0043】なお、以下の説明においては、前述したS
104までの処理によって図6に示したHP1−1につ
いてのHTMLフィルタファイルが生成されているもの
とする。図6において、まず、先頭のレコードがS10
5の処理によって指定されると、このレコードの文字列
「箱根ホテルへようこそ」についての種別は「STRI
NG」であるので、S106の判別結果はYesとな
り、処理はS107に進む。
【0044】S107では、文字列「箱根ホテルへよう
こそ」から単語の切り出しが行なわれる。なお、単語の
切り出しの処理には周知の方式を採用してよく、例えば
いわゆる形態素解析を利用し、切り出した単語の品詞と
活用形を各種の辞書を用いてその単語の標準形を取得し
てその標準形の単語を文字列から切り出した単語とする
方式や、文字列の切り出しをその文字列の先頭から1文
字ずつずらしながら順に長さNの語を機械的に切り出す
いわゆるNグラム方式を採用してもよい。
【0045】ここでは、文字列「箱根ホテルへようこ
そ」から「箱根」及び「ホテル」が単語として切り出さ
れたものとする。S108では、前ステップの処理によ
って切り出された単語「箱根」及び「ホテル」の各々を
見出し語とし、その単語が抽出されたWebページのタ
イトル、すなわちここでは「箱根ホテル」と、このWe
bページの位置情報、すなわちここでは「HP1−1」
とを組にした索引が生成され、索引ファイル310に登
録される。このS108の処理によって、図7に示す索
引ファイルの第1行目の「箱根」、「HP1−1」、
「箱根ホテル」の各データ、及び第2行目の「ホテ
ル」、「HP1−1」、「箱根ホテル」の各データが登
録される。
【0046】次にS109の判別処理の結果がNoとな
り、S105の処理によってHTMLフィルタファイル
の第2行目のレコードが指定されるが、このレコードの
種別は「BR」なのでS106の判別処理の結果はNo
となる。続いてS109の判別処理の結果がNoとな
り、S106の処理によってHTMLフィルタファイル
の第3行目のレコードが指定される。このレコードの文
字列「宿泊プラン」の種別は「LINK」なのでS10
6の判別処理の結果はYesとなり、処理はS107に
進む。
【0047】S107では、文字列「宿泊プラン」から
文字列の切り出しが行なわれ、単語「宿泊」及び「プラ
ン」が切り出される。S108では、この単語「宿泊」
及び「プラン」各々を見出し語とし、その単語が抽出さ
れたWebページのタイトル、すなわちここでは「箱根
ホテル」と、このWebページの位置情報、すなわちこ
こでは「HP1−1」とを組にした索引が生成され、索
引ファイル310に登録される。このS108の処理に
よって、図7に示す索引ファイルの第3行目の「宿
泊」、「HP1−1」、「箱根ホテル」の各データ、及
び第4行目の「プラン」、「HP1−1」、「箱根ホテ
ル」の各データが登録される。
【0048】以下、文字列「周辺観光案内」及び「交通
&マップ」についても同様の処理が施され、図7に示す
索引ファイルの第5行目から第9行目にかけての見出し
語「周辺」、「観光」、「案内」、「交通」、「マッ
プ」についての第1列目から第3列目までの各データが
登録されると、S109の判別処理の結果がNoとな
り、処理はS110に進む。
【0049】次に、S110の処理によってHTMLフ
ィルタファイルの第1行目のレコードが改めて指定され
るが、このレコードの種別は「STRING」なのでS
111の判別処理の結果はNoとなり、処理はS115
に進む。ここではS115の判別処理の結果はNoとな
るので、処理はS105へと戻り、このS105の処理
によってHTMLフィルタファイルの第2行目のレコー
ドが指定されるが、このレコードの種別は「BR」なの
でS106の判別処理の結果は再びNoとなる。
【0050】続いてS115の判別処理の結果がNoと
なり、S110の処理によってHTMLフィルタファイ
ルの第3行目のレコードが指定される。このレコードの
文字列「宿泊プラン」の種別は「LINK」なのでS1
11の判別処理の結果はYesとなり、処理はS112
に進む。
【0051】S112では、文字列「宿泊プラン」から
文字列の切り出しが行なわれ、単語「宿泊」及び「プラ
ン」が切り出される。S113では、切り出された単語
「宿泊」及び「プラン」の切り出し元である文字列「宿
泊プラン」とその文字列のリンク先のWebページの位
置情報「HP1−2」とを組にしたデータが、その単語
が見出し語である索引ファイル310中のレコードへ索
引登録部124によって登録されると共に、続くS11
4において索引登録部124によってそのデータについ
てのリンクフラグが併せてそのレコードに登録される。
このS113の処理によって、図7に示す索引ファイル
の第3行目の「宿泊」、「HP1−2」、「宿泊プラ
ン」の各データ、及び第4行目の「プラン」、「HP1
−2」、「宿泊プラン」の各データが登録され、続くS
114の処理によって索引ファイルの第3行目及び第4
行目のそれぞれ第7列目のリンクフラグに「1」が登録
される。
【0052】以下、文字列「周辺観光案内」及び「交通
&マップ」についても同様の処理が施され、図7に示す
索引ファイルの第5行目から第9行目にかけての見出し
語「周辺」、「観光」、「案内」、「交通」、「マッ
プ」についての第5列目から第7列目までの各データが
登録されると、S115の判別処理の結果がYesとな
り、HP1−1についての索引生成処理が終了する。
【0053】なお、図7に示した索引ファイルは、HP
1−1についての索引生成処理に続き、HP2−1につ
いての索引生成処理が行なわれたときのものである。同
図のように、索引ファイルに更に索引を登録するときに
は、既に登録されている索引レコードをまず調べ、同一
の見出し語が存在するときには、新たにレコードを生成
せずに、既に登録されている同一の見出し語についての
索引レコードに追加登録を行なうようにする。
【0054】次に、情報検索サイト1の有する情報検索
管理部200において行なわれる、Webページの収集
及び索引の生成の処理の詳細について、具体例を提示し
て説明する。図8は情報管理検索部200で実行される
検索処理の処理内容を示すフローチャートである。ま
ず、同図に沿って検索処理の処理内容を説明する。
【0055】S201では、情報検索の要求及びその検
索の条件である単語が示されている検索式がブラウザ3
0から送られてきたか否かが情報検索部210で判別さ
れ、この判別結果がYesとなったときにのみ、処理が
S202に進む。なお、情報検索部210では、検索式
が送られてくるとその検索式を検索式格納部211に格
納する。
【0056】S202では送られてきた検索式が情報検
索部210で解析され、その検索式から検索条件である
単語が切り出される。S203では、検索単語が切り出
された順番で、その検索単語をキーとした索引ファイル
310の見出し語の検索が情報検索部210によって行
なわれる。
【0057】S204では、前ステップでの検索の結
果、検索単語に一致する見出し語が発見されたか否かが
情報検索部210によって判別され、この判別の結果が
YesならばS205に処理が進み、NoならばS20
7に処理が進む。S205では、情報検索部210によ
って、検索単語に一致する見出し語の含まれていた検索
レコードから位置情報、文字列、及びリンクフラグが全
て取得され、続くS206において、この取得された見
出し語と、位置情報、文字列、及びリンクフラグとから
なるレコードが情報検索部210によって検索結果ファ
イル320に格納される。
【0058】S207では、前述したS202の処理に
よって切り出された全ての検索単語について前述したS
203の検索の処理が行なわれたか否かが情報検索部2
10によって判別され、この判別の結果がYesならば
S208に処理が進み、一方この判別の結果がNoなら
ばS203へと処理が戻って未だ検索の処理の行なわれ
ていない検索単語について上述した処理が行なわれる。
【0059】ここで、S208において、検索結果ファ
イル320に格納されている位置情報のうち前述したS
202の処理によって切り出された全ての検索単語に該
当する位置情報、すなわち検索結果ファイル320の全
てのレコードに共通に含まれている位置情報が検索結果
管理部220によって検索結果ファイル320から抽出
される。
【0060】S209では、前ステップでの処理によっ
て位置情報の抽出が行なえたか否か、すなわち検索結果
ファイル320の全てのレコードに共通に含まれている
位置情報が存在したか否かが検索結果管理部220によ
って判別され、この判別の結果がYesならばS210
に処理が進み、NoならばS213に処理が進む。
【0061】S210では、前述したS208の処理に
よって抽出された位置情報と、検索結果ファイル320
においてその位置情報に対応付けられて格納されている
文字列とが検索結果管理部220によって検索結果リス
トファイル330に格納される。
【0062】S211では、検索結果ファイル320に
おいて、前述したS208の処理によって抽出された位
置情報に対応付けられて格納されているリンクフラグの
個数がその位置情報毎に検索結果管理部220によって
計数され、計数結果が検索結果リストファイル330に
格納される。
【0063】S212では、前ステップによって計数さ
れたリンクフラグの計数値の大きい順となるように検索
結果リストファイル330が検索結果管理部220によ
ってソートされる。S213では、検索結果リストファ
イル330に基づき、ソートされた後の検索結果リスト
の内容をWebページで表現するHTMLファイルがH
TML作成部221によって作成され、続くS214に
おいて、検索結果管理部220は、前述した検索式の送
信元であるブラウザ30へ宛てて作成されたHTMLフ
ァイルをWWWサーバ部400に送出させ、この検索処
理が終了する。
【0064】以上までの処理が検索処理である。次に、
この検索処理について、索引ファイル310として図7
に示したものが情報データベース管理部300に格納さ
れている場合を例にして説明する。まず、ブラウザ30
から検索式が送られてくると、S201の判別の結果が
Yesとなり、続くS202において検索単語の切り出
しが行なわれる。ここでは、このS202の処理の結
果、検索単語として「箱根」、「観光」、「案内」の各
語が切り出されたものとする。
【0065】検索単語の切り出しが完了すると処理はS
203に進み、まず、索引ファイル310の見出し語に
ついて検索単語「箱根」の検索が行なわれ、図7におけ
る見出し語「箱根」についてのレコードが発見される。
従ってS204の判別処理の結果はYesとなり、S2
05に処理が進む。
【0066】S205では発見されたレコードから位置
情報、文字列、及びリンクフラグが全て取得され、続く
S206において位置情報、文字列、及びリンクフラグ
からなるレコードが検索結果ファイル320に格納され
る。その後、S207における判別処理が行なわれる
が、前述したS202の処理によって切り出された検索
単語のうち「観光」及び「案内」についてはS203の
検索の処理が未だ行なわれていないので、S207の判
別処理の結果はNoとなり、処理はS203へと戻る。
【0067】以降、検索単語「観光」及び「案内」につ
いて上述した検索単語「箱根」と同様の処理が行なわ
れ、図7に示す索引ファイル310から見出し語「観
光」及び「案内」についてのレコードが発見されてその
レコードにおける位置情報、文字列、及びリンクフラグ
と検索単語「箱根」とからなるレコードが検索結果ファ
イル320に格納される。
【0068】以上までの処理によって生成される検索結
果ファイル320の内容を図9に示す。この図9に示す
検索結果ファイル320が生成された後にはS207の
判別処理の結果がYesとなり、処理はS208に進
む。
【0069】S208では、検索結果ファイル320の
全てのレコードに共通に含まれている位置情報の抽出が
行なわれ、その結果、「箱根」、「観光」、「案内」の
全てのレコードに共通に含まれている位置情報としてH
P1−1、HP2−1、及びHP2−2の3つが抽出さ
れる。従って、続くS209の判別処理の結果はYes
となり、処理はS210に進む。
【0070】S210では、抽出された位置情報HP1
−1、HP2−1、及びHP2−2と検索結果ファイル
320においてその位置情報に対応付けられて格納され
ている文字列とが検索結果リストファイル330に格納
され、続くS211において、抽出された位置情報HP
1−1、HP2−1、及びHP2−2の各々に対応付け
られて格納されているリンクフラグの個数がそれぞれ計
数され、その計数結果が検索結果リストファイル330
に格納される。
【0071】ここで図10について説明する。同図は、
検索結果リストファイル330の内容を示しており、上
述したS211までの処理によって、同図(a)に示す
ものが検索結果リストファイル330として作成され
る。図9に示す検索結果ファイル320には位置情報H
P1−1及びHP2−1についてのリンクフラグが全く
格納されていないので、図10(a)に示す検索結果リ
ストファイル330における位置情報HP1−1及びH
P2−1については、リンクフラグ数は「0」とされて
いる。一方、図9に示す検索結果ファイル320におけ
る位置情報HP2−2についてはリンクフラグが合計3
つ格納されているので、図10(a)に示す検索結果リ
ストファイル330における位置情報HP2−2につい
てのリンクフラグ数は「3」とされている。
【0072】なお、図10(a)に示す検索結果リスト
ファイル330における位置情報HP2−2についての
文字列として、「周辺観光案内」と「箱根周辺ガイド」
の2つの文字列が格納されている。このように、図9に
示す検索結果ファイル320において同一の位置情報に
格納されている文字列が異なるときには、その異なる文
字列の全てを検索結果リストファイル330に格納する
ようにする。
【0073】前述したS211までの処理によって図1
0(a)にその内容を示す検索結果リストファイル33
0が作成されると、続くS212において、リンクフラ
グの計数値の大きい順となるように検索結果リストファ
イル330のソートが行なわれる。図10(a)の検索
結果リストファイル330に対してリンクフラグの計数
値に基づくソートの行なわれた結果が図10(b)に示
されているものである。
【0074】その後、S213において、図10(b)
のようにソートが行なわれた検索結果リストファイル3
30の内容をWebページで表現するHTMLファイル
が作成され、続くS214において作成されたHTML
ファイルが送出されて、この検索処理が終了する。
【0075】作成されたHTMLがブラウザ30によっ
て閲覧されることによって表示される、情報検索の結果
を示すWebページの画面例を図11に示す。図11に
示す画面において、「周辺観光案内」及び「箱根周辺ガ
イド」の文字列には、図10(b)に示す検索結果リス
トファイル330においてそれらの文字列に位置情報が
対応付けられているHP2−2へのリンクが埋め込まれ
ており、同様に、文字列「箱根ホテル」にはHP1−1
へのリンクが、また、文字列「箱根観光協会」にはHP
2−1へのリンクがそれぞれ埋め込まれている。このよ
うに、HTML作成部221は、S213におけるHT
MLファイルの作成処理においては、検索結果リストフ
ァイル330で位置情報が各文字列に対応付けられてい
るWebページへのリンクが、それらの文字列の表示に
埋め込まれているHTMLファイルを作成する。
【0076】なお、以上までに説明した本発明の実施形
態において情報サイト1が行なっていた索引生成処理及
び検索処理と同様の処理を前述したような標準的な構成
を有するコンピュータに行なわせるための制御プログラ
ムを作成し、その制御プログラムをそのコンピュータに
読み込ませて実行させることにより、このようなコンピ
ュータで本発明を実施することができる。
【0077】また、このような制御プログラムをコンピ
ュータで読み取り可能な記録媒体に記録させ、そのプロ
グラムを記録媒体からコンピュータに読み出させて実行
させることによって本発明をコンピュータで実施するこ
とも可能である。記録させた制御プログラムをコンピュ
ータで読み取ることの可能な記録媒体の例を図12に示
す。同図に示すように、記録媒体としては、例えば、コ
ンピュータ501に内蔵若しくは外付けの付属装置とし
て備えられるROMやハードディスク装置などの記憶装
置502、あるいはフレキシブルディスク、MO(光磁
気ディスク)、CD−ROM、DVD−ROMなどとい
った携帯可能記録媒体503等が利用できる。また、記
録媒体はネットワーク504を介してコンピュータ50
1と接続される、プログラムサーバ505として機能す
るコンピュータが備えている記憶装置506であっても
よい。この場合には、制御プログラムを表現するデータ
信号で搬送波を変調して得られる伝送信号を、プログラ
ムサーバ5055から伝送媒体であるネットワーク50
4を通じて伝送するようにし、コンピュータ501では
受信した伝送信号を復調して制御プログラムを再生する
ことで当該制御プログラムを実行できるようになる。
【0078】
【発明の効果】本発明によれば、索引ファイルに、通信
ネットワーク上で公開されている文書情報に含まれてい
る文字列を構成する単語を、その文字列が含まれていた
文書情報の位置を示す文書位置情報、及びその文字列に
関連する情報が提供されている参照先についての位置を
示す参照先位置情報とからなる単語関連位置情報に対応
付けて登録することで、検索対象を表す単語に基づいて
その索引ファイルの検索を行った場合に、その検索によ
って取得された単語関連位置情報のうち、参照先位置情
報を優先して提示することができるので、情報検索者の
検索目的に対してより適切な情報検索の結果を提供でき
る。
【図面の簡単な説明】
【図1】本発明を実施する情報検索サイトが情報検索サ
ービスを提供する通信ネットワークの全体構成示す図で
ある。
【図2】情報管理部、情報検索管理部、及び情報データ
ベース管理部の詳細構成を示す図である。
【図3】情報検索サイトによって収集されるWebペー
ジの例を示す図である。
【図4】図3におけるHP1−1のHTMLソースを示
す図である。
【図5】索引生成処理の処理内容を示すフローチャート
である。
【図6】図3のHP1−1から生成されるHTMLフィ
ルタテーブルを示す図である。
【図7】図3の例の場合に生成される索引ファイルのデ
ータ構造を説明する図である。
【図8】検索処理の処理内容を示すフローチャートであ
る。
【図9】検索結果ファイルの例を示す図である。
【図10】検索結果リストファイルのソートの様子を示
す図である。
【図11】情報検索の結果を示すWebページの画面例
を示す図である。
【図12】記録させた制御プログラムをコンピュータで
読み取ることの可能な記録媒体の例を示す図である。
【符号の説明】
1 情報検索サイト 2a、2b、2c、2d 情報提供サイト 3a、3b ユーザ端末 4 インターネット 20、20a、20b、20c、20d Webページ 30、30a、30b ブラウザ 100 情報管理部 110 Webページ収集部 120 索引作成部 121 Webページ解析部 122 HTMLフィルタテーブル 123 単語抽出部 124 索引登録部 200 情報検索管理部 210 情報検索部 211 検索式格納部 220 検索結果管理部 221 HTML作成部 300 情報データベース管理部 310 索引ファイル 320 検索結果ファイル 330 検索結果リストファイル 400 WWWサーバ部 501 コンピュータ 502、506 記憶装置 503 携帯可能記録媒体 504 ネットワーク 505 プログラムサーバ

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 通信ネットワーク上で公開されている文
    書情報に含まれている単語と、該通信ネットワーク上の
    論理的な位置を示す情報であって該単語に関連する情報
    が存在する文書情報位置を示す単語関連位置情報とを対
    応付けてなる索引ファイルを用意し、検索の対象を表す
    単語に基づいて該索引ファイルを検索して該検索対象を
    表す単語に対応している単語関連位置情報を提示するシ
    ステムであって、 前記文書情報に含まれている文字列から単語を抽出する
    抽出手段と、 前記文字列のうち、該文字列に関連する情報が提供され
    ている参照先についての前記位置を示す情報である参照
    先位置情報を有していることを示す属性が付されている
    ものについて、該参照先位置情報を取得する参照先位置
    取得手段と、 前記抽出手段によって抽出された単語を、該単語の抽出
    元の文字列が含まれていた文書情報についての前記位置
    を示す文書位置情報と前記属性が付されている該文字列
    についての前記参照先位置情報とからなる単語関連位置
    情報に対応付けて前記索引ファイルに登録する登録手段
    と、 前記検索対象を表す単語に基づいて前記索引ファイルの
    検索を行なって該単語に対応付けられている単語関連位
    置情報を該索引ファイルから取得する検索手段と、 前記検索手段によって取得された単語関連位置情報のう
    ち、前記参照先位置情報を優先して提示する提示手段
    と、 を有することを特徴とする情報検索システム。
  2. 【請求項2】 前記提示手段は、前記検索手段によって
    取得された単語関連位置情報に同一の前記位置を示す前
    記単語関連位置情報と参照先位置情報とが含まれている
    ときには、該単語関連位置情報のうち参照先位置情報と
    して取得された数の多いものが優先されるようにして該
    単語関連位置情報を提示することを特徴とする請求項1
    に記載の情報検索システム。
  3. 【請求項3】 前記文書情報は、Webページを表現す
    るページ記述言語によって記述されており、 前記参照先位置取得手段は、前記文字列に埋め込まれて
    いたハイパーリンクにおけるリンク先の前記位置を示す
    情報を前記参照先位置情報として取得する、 ことを特徴とする請求項1に記載の情報検索システム。
  4. 【請求項4】 前記登録手段は、前記索引ファイルに、
    前記文書位置情報によって前記位置が示されている文書
    情報に付されているタイトルである文字列に該文書位置
    情報を対応付ける登録、及び、前記参照先位置情報によ
    って前記位置が示されている前記リンク先へのハイパー
    リンクが埋め込まれている文字列に該参照先情報を対応
    付ける登録を行ない、 前記提示手段は、前記索引ファイルに登録されている対
    応付けに基づいたハイパーリンクの埋め込まれた文字列
    であって前記単語関連位置情報で示される前記位置への
    リンクを示す該文字列を用いて該単語関連位置情報を提
    示する、 ことを特徴とする請求項3に記載の情報検索システム。
  5. 【請求項5】 通信ネットワーク上で公開されている文
    書情報に含まれている単語と、該通信ネットワーク上の
    論理的な位置を示す情報であって該単語に関連する情報
    が存在する文書情報位置を示す単語関連位置情報とを対
    応付けてなる索引ファイルを用意し、検索の対象を表す
    単語に基づいて該索引ファイルを検索して該検索対象を
    表す単語に対応している単語関連位置情報を提示する方
    法であって、 前記文書情報に含まれている文字列から単語の抽出を行
    ない、 前記文字列のうち、該文字列に関連する情報が提供され
    ている参照先についての前記位置を示す情報である参照
    先位置情報を有していることを示す属性が付されている
    ものについて、該参照先位置情報を取得し、 前記抽出によって抽出された単語を、該単語の抽出元の
    文字列が含まれていた文書情報についての前記位置を示
    す文書位置情報と前記属性が付されている該文字列につ
    いての前記参照先位置情報とからなる単語関連位置情報
    に対応付けて前記索引ファイルに登録し、 前記検索対象を表す単語に基づいて前記索引ファイルの
    検索を行なって該単語に対応付けられている単語関連位
    置情報を該索引ファイルから取得し、 前記検索によって取得された単語関連位置情報のうち、
    前記参照先位置情報を優先して提示する、 ことを特徴とする情報検索方法。
  6. 【請求項6】 コンピュータに実行させることにより、
    通信ネットワーク上で公開されている文書情報に含まれ
    ている単語と、該通信ネットワーク上の論理的な位置を
    示す情報であって該単語に関連する情報が存在する文書
    情報位置を示す単語関連位置情報とを対応付けてなる索
    引ファイルを用意し、検索の対象を表す単語に基づいて
    該索引ファイルを検索して該条件を表す単語に対応して
    いる単語関連位置情報を提示する処理を該コンピュータ
    に行なわせるためのプログラムであって、 前記文書情報に含まれている文字列から単語の抽出を行
    なう処理と、 前記文字列のうち、該文字列に関連する情報が提供され
    ている参照先についての前記位置を示す情報である参照
    先位置情報を有していることを示す属性が付されている
    ものについて、該参照先位置情報を取得する処理と、 前記抽出によって抽出された単語を、該単語の抽出元の
    文字列が含まれていた文書情報についての前記位置を示
    す文書位置情報と前記属性が付されている該文字列につ
    いての前記参照先位置情報とからなる単語関連位置情報
    に対応付けて前記索引ファイルに登録する処理と、 前記検索対象を表す単語に基づいて前記索引ファイルの
    検索を行なって該単語に対応付けられている単語関連位
    置情報を該索引ファイルから取得する処理と、 前記検索によって取得された単語関連位置情報のうち、
    前記参照先位置情報を優先して提示する処理と、 をコンピュータに行なわせるためのプログラム。
JP2001212184A 2001-07-12 2001-07-12 情報検索システム、情報検索方法、及びプログラム Pending JP2003030235A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001212184A JP2003030235A (ja) 2001-07-12 2001-07-12 情報検索システム、情報検索方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001212184A JP2003030235A (ja) 2001-07-12 2001-07-12 情報検索システム、情報検索方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2003030235A true JP2003030235A (ja) 2003-01-31

Family

ID=19047383

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001212184A Pending JP2003030235A (ja) 2001-07-12 2001-07-12 情報検索システム、情報検索方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2003030235A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007500903A (ja) * 2003-07-28 2007-01-18 グーグル・インク 拡張検索クエリを有するユーザインターフェースを提供するシステム
US7421322B1 (en) 2004-04-30 2008-09-02 Carfax, Inc. System and method for automatic identification of vehicle identification number
US8725584B1 (en) 2008-06-06 2014-05-13 Carfax, Inc. Tool for selling and purchasing vehicle history reports

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007500903A (ja) * 2003-07-28 2007-01-18 グーグル・インク 拡張検索クエリを有するユーザインターフェースを提供するシステム
JP4731479B2 (ja) * 2003-07-28 2011-07-27 グーグル・インク 検索システム及び検索方法
US8856163B2 (en) 2003-07-28 2014-10-07 Google Inc. System and method for providing a user interface with search query broadening
US7421322B1 (en) 2004-04-30 2008-09-02 Carfax, Inc. System and method for automatic identification of vehicle identification number
US8725584B1 (en) 2008-06-06 2014-05-13 Carfax, Inc. Tool for selling and purchasing vehicle history reports
US9646308B1 (en) 2008-06-06 2017-05-09 Carfax, Inc. Tool for selling and purchasing vehicle history reports
US9741066B2 (en) 2008-06-06 2017-08-22 Carfax, Inc. Tool for selling and purchasing vehicle history reports

Similar Documents

Publication Publication Date Title
US9111008B2 (en) Document information management system
US6999959B1 (en) Meta search engine
Schwartz Web search engines
US7099861B2 (en) System and method for facilitating internet search by providing web document layout image
US6199081B1 (en) Automatic tagging of documents and exclusion by content
US20020091835A1 (en) System and method for internet content collaboration
WO2007051397A1 (fr) Systeme d’extraction d’informations et procede d’extraction d’informations
JP2005535039A (ja) 地理的なテキスト検索システムを備えたデスクトップクライアントとの対話
JP2009151749A (ja) ナビゲーションパス情報に基づく主題関連ウェブページのフィルタリング方法およびシステム
KR100359233B1 (ko) 웹 정보 추출 방법 및 시스템
JP2003208434A (ja) 情報検索システム及びそれに用いる情報検索方法
JPWO2003042869A1 (ja) 情報検索支援装置、コンピュータプログラム、プログラム格納媒体
JP2003157283A (ja) 情報検索プログラム
JP2004234288A (ja) Web検索方法及び装置、Web検索プログラム並びにそのプログラムを記録した記録媒体
JP4469432B2 (ja) インターネット情報処理装置、インターネット情報処理方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003316824A (ja) 文書ファイル検索システム、文書ファイル検索プログラムおよび文書ファイル検索方法
JP2003141155A (ja) Webページ検索システムおよびWebページ検索プログラム
JP2003030235A (ja) 情報検索システム、情報検索方法、及びプログラム
JP2000029869A (ja) 文書管理システムおよび管理方法、ならびにそのプログラムを記録した記録媒体
KR100496384B1 (ko) 검색엔진과, 검색시스템, 검색시스템에서의 데이터베이스 작성방법 및, 기억매체
US20060059126A1 (en) System and method for network searching
JP2002049638A (ja) 文書情報検索装置、方法、文書情報検索プログラム及び文書情報検索プログラムを格納したコンピュータ可読の記録媒体
KR100942902B1 (ko) 웹페이지 검색 방법 및 상기 방법을 컴퓨터에서 구현하는 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
JP2001134616A (ja) 特定の話題に関するウェブ情報の構成方法とその構成システム
JP2003030228A (ja) 情報検索システム、情報検索方法、及びプログラム