JP2003203089A - Webページ検索方法およびWebページ検索装置、Webページ検索プログラム並びにそのプログラムを記録した記録媒体 - Google Patents

Webページ検索方法およびWebページ検索装置、Webページ検索プログラム並びにそのプログラムを記録した記録媒体

Info

Publication number
JP2003203089A
JP2003203089A JP2002000225A JP2002000225A JP2003203089A JP 2003203089 A JP2003203089 A JP 2003203089A JP 2002000225 A JP2002000225 A JP 2002000225A JP 2002000225 A JP2002000225 A JP 2002000225A JP 2003203089 A JP2003203089 A JP 2003203089A
Authority
JP
Japan
Prior art keywords
web page
condition
web
processing
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002000225A
Other languages
English (en)
Inventor
Kaoru Hiramatsu
薫 平松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2002000225A priority Critical patent/JP2003203089A/ja
Publication of JP2003203089A publication Critical patent/JP2003203089A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 Webページの系列を検索する方法を高速化
する。 【解決手段】 インターネット上に発信されている大量
のWebページから、Webページから抽出した属性に
関する条件とハイパーリンクに関する条件を組み合わせ
て指定し、Webページの系列を検索するための問い合
わせの処理方法において、Webページに関するインデ
ックスを利用し、問い合わせに指定された条件から、未
処理で、かつ他条件の処理結果に依存せずに処理結果を
求めることのできる条件の処理コストと処理結果を予測
し、問い合わせ処理の進行状況にあわせて最適な条件を
選択し処理する操作を、問い合わせで指定された全ての
条件を処理するまで繰り返し、問い合わせの条件を満た
すWebページの系列を求める。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、出願中の特許「ホ
ームページの系列的検索方法、および装置、記録媒体
(特願2000−162658)」で発明された検索方
法を高速に行うための発明である。
【0002】インターネット上に発信されているWeb
ページは、年々増加しており、特に都市部においては、
地理的にも集中する傾向にある。このため、現在インタ
ーネット上で公開されているキーワード検索やディレク
トリサービスだけでは、必要な情報を短時間で検索する
ことは困難になりつつある。この問題を解決する手法の
一つとして、複数の条件を組み合わせて、Webページ
を系列として検索する手法が考えられる。この系列を検
索するための方法は、特願2000−162658にて
発明されているが、その検索を高速に実施する方法は発
明されていなかった。
【0003】Webページ系列の検索では、Webペー
ジの属性に関する条件と、Webページ間のリンクに関
する条件を複数組み合わせて、問い合わせを指定するこ
とができる。例えば、類似する情報が複数あるときに、
Webページ間のハイパーリンク関係に基づいて有名な
リンク集からリンクされているWebページを選択した
り、Webページから抽出した地理属性に基づき、一定
距離以内にある情報という形で条件を指定し、リンク先
を検索することができる。
【0004】この問い合わせの処理するためには、大量
のWebページとそこから抽出した属性を評価する必要
があり、その検索空間が膨大となるため、幅優先探索ア
ルゴリズムなど、従来の単純なアルゴリズムでは、現実
的な時間で問い合わせを処理することはできなかった。
本出願で発明する高速化手法では、検索対象となる情報
に関する各種インデックスを利用し、その問い合わせ中
の条件の評価順序を最適化し、高速に問い合わせ処理を
可能にする。
【0005】このWebページの系列に関する問い合わ
せが高速に処理できるようになると、従来のキーワード
指定によるWebページの検索を、リンクに関する条件
も含め複数の条件の指定による検索へと拡張することが
できる。この場合、検索サービスの利用者が、直接条件
項目を指定することになるが、その問い合わせの入力方
法を変えることで、文章や音声など自然言語による情報
検索や、グラフィックユーザインタフェース(GUI)
を利用したインタラクティブな情報検索にも適用可能で
ある。また、問い合わせの結果がWebページの系列と
なるので、その系列をリスト形式で出力したり、直接図
示したり、カーナビゲーションのように必要に応じて、
順序だててWebページを提示することも可能になる。
このように、問い合わせの検索結果は、現在のカーナビ
ゲーションや将来の携帯端末や街頭端末を使った歩行者
ナビゲーションなどに応用可能であり、その処理を高速
化することにより、ユーザから見た使い勝手を向上させ
ることができる。
【0006】
【従来の技術】インターネット上に存在する膨大な情報
から、都市に関連したものを抽出するためには検索機能
が必須である。ユーザが検索機能を直接利用する場合
は、キーワード指定による検索が便利ではあるが、その
検索結果に意図しない結果が大量に含まれるなど、その
結果に対する信頼性には問題があった。
【0007】こうした問題を解決する手法の一つとし
て、キーワードなどWebページの属性やハイパーリン
ク関係など複数の条件を指定して、Webページを系列
として検索する手法が考えられる。これにより、例えば
キーワードレベルだけで検索されていた意図されていな
かった結果を排除することができる。
【0008】こうしたWebページの系列を検索するた
めの方法の一つとしてWeb空間を対象とした検索言語
がある。この検索言語には、リンク構造とコンテンツに
関する条件の指定により検索を行うW3QL(David Ko
nopnicki and Oded Shmueli.W3QS: A Query System for
the World-Wide Web. In Proceedings of the 21stInt
ernational Conference on Very Large Data Bases, p
p.54-65, 1995、David Konopllicki and Oded Shmueli.
Information Gathering in the World WideWeb: The W
3QL Query Language and the W3QS System. ACM Transa
ctions on Database Systems, Vol. 23, No. 4, pp. 36
9-410, 1998)やWebSQL(Alberto O. Mendelzon,
George A. Mihaila, and Tova Milo. Querying the Wo
rld Wide Web. International Journal on Digital Lib
raries, Vol. 1, No. 1, pp. 54-67, 1997、Alberto O.
Mendelzon and Tova Milo. Formal Models of Web Que
ries. In Proceedings of the 16th ACM Symposium on
Principles of DatabaseSystems, pp. 134-143, 199
7)、Webページの構造に関する条件指定や検索結果
の再構成が可能なWebOQL(Gustavo O. Arocena a
nd Alberto O. Mendelzon. Weboql: Restructuring Doc
uments, Databases, and Webs. In Proceedings of ICD
E, pp. 24-33. 1998)、StruQL(Mary Fernande
z, Daniela Florescu, Alon Levy, and Dan Suciu. A Q
uery Language for a Web-Site Management System. SI
GMOD Record, Vol. 26, No. 3, pp. 4-11, 1997)があ
る。Web情報を対象とした検索言語はXMLの標準化
と密接に関連する領域でもある。
【0009】一方、電子化した都市情報を地図と関連づ
けて扱うためのシステムとしては、地理情報システム
(GIS)がある。従来GISは単独の計算機で用いら
れることが多かったが、近年のネットワークとパソコン
の普及により、多様な利用形態が可能な数多くの製品が
発表されてきている。WebGISなどインターネット
への広がりもその一つと考えられ、将来的には、インタ
ーネット上のコンテンツと密接に関わりを持つ可能性も
持っている。現在の段階では、情報の位置を地図上に表
示するようなサービスが公開されているが、特願200
0−162658のようなWebページの系列を検索す
るようなサービスはまだ行われていないと理解してい
る。
【0010】特願2000−162658の発明は、そ
の検索空間を拡張Web空間(平松薫、石田亨、地域情
報サービスのための拡張Web空間、情報処理学会論文
誌:データベース、Vol. 41, No. SIG6(TOD7), PP. 81-
90, 2000)とし、その情報空間を半構造データ(Serge
Abiteboul. Querying Semi-Structured Data. In Datab
ase Theory - ICDT '97, 6th, International Conferen
ce, pp. 1-18, 1997、田島敬史、半構造データのための
データモデルと操作言語、情報処理学会論文誌:データ
ベース、Vol. 40, No. SIG 3(TOD 1), pp. 152-170, 19
99)として捉えている。半構造データを対象としたデー
タベースシステム(DBMS)の一つに、スタンフォー
ド大学で開発されたLoreがある。Loreでは、X
MLに代表される半構造データに特化した各種インデッ
クスを導入(Roy Goldman and Jennifer Widom. DataGu
ide: Enabling Query Formulation and Optimization i
nSemistructured Databases. In Proceedings of the 2
3rd International Conference on Very Large Data Ba
ses, pp. 436-445, 1997)し、その問い合わせ処理には
コスト予測を導入して最適化を実現している(Jason Mc
Hugh and Jennifer Widom. Query Optimization for XM
L. In Proceedings of the 25th International Confer
ence on Very Large Data Bases, pp. 315-326, 199
9)。本発明の手法は、Loreの手法と非常に良く似
ているが、最大の差は、対象とした検索空間の具体性に
ある。本発明では、実際の都市における情報に基づいた
拡張Web空間を検索対象とし、その問い合わせを最適
化するために、条件の評価順序の決定方法を特化させて
いる。また、検索システムで利用するインデックスの構
築をWebページとGISを用いて作成し、最適化手法
の有効性なものにしている。
【0011】このインデックスの構築は、Web情報の
キャッシュを行うプロキシや、その関連プロトコル、G
ISとWeb情報を関連づけるためのアドレスマッチン
グなどと関連するものである。本発明では、インデック
スの効率的な構築や更新は考慮にいれていないが、問い
合わせ処理の最適化と合わせて、拡張Web空間に基づ
く検索システムの周辺技術として連携させる必要があ
る。
【0012】
【発明が解決しようとする課題】本発明は、特願平11
−149100(特開2000−339330号公報)
および特願2000−162658から発想したもので
あり、これまでに発明したWebページの系列を検索す
る方法を高速化するためのものである。これまでに発明
してきたWebページの系列の検索では、大量のWeb
ページとそこから抽出した属性を評価する必要がある。
その検索空間が膨大となるため、これまでの発明で用い
た幅優先探索アルゴリズムなど、単純なアルゴリズムで
は、検索自体は可能なものの、現実的な時間で問い合わ
せを処理することはできなかった。この処理時間の問題
により、これまでの方法に基づき作製したシステムは、
旅行計画やナビゲーション用のコンテンツの作成など、
問い合わせに基づく検索結果をあらかじめ構築してそれ
を公開するような、間接的な利用に限られていた。
【0013】
【課題を解決するための手段】前節で述べた処理時間に
よる制限をなくすため、本出願ではその高速化手法を発
明する。高速化手法では、検索対象となるWebページ
から抽出したキーワードやハイパーリンクなどの属性情
報に関する各種インデックス、問い合わせに応じて抽出
した属性間の関連性に基づきWebページ間のリンクを
動的に生成するためのインデックスを利用し、問い合わ
せ処理を進めていく。インデックスは、実際のWebペ
ージをWebロボットで収集し、自然言語処理やアドレ
スマッチング等を行って作成する。
【0014】問い合わせに含まれる複数の条件は、これ
らインデックスを利用して評価されるが、単純なアルゴ
リズムでは、従来システムと同様、検索空間が爆発する
可能性がある。そこで、問い合わせを進めていく上で、
逐次、指定された条件で未評価のものから条件間の依存
関係に基づき評価可能な条件を選び、その条件式それぞ
れの処理コストと検索結果数を予測し、その積が最小と
なる条件式から、評価を行っていく。条件式の処理コス
トとは、システムが検索で利用するインデックスにアク
セスする上で関数を呼び出す上での初期の遅延と、条件
ごとにかかる検索遅延、そして検索結果の内部処理にか
かる遅延をさす。これらの遅延は、検索システムの動作
する環境ごとに計測し、統計情報として処理に反映させ
る。また、検索結果数は、インデックスの先読みと、イ
ンデックスの統計情報に基づいた予測により求めた、条
件を満たすWebページ数をさす。この条件を選択する
操作と条件の評価を、未評価の条件が無くなるまで繰り
返すことで、要求された問い合わせの条件を満たすWe
bページの系列を求める。
【0015】処理コストと検索結果数の積が最小になる
条件式とは、処理が高速にでき、かつその処理による検
索空間の広がりを抑えられる条件式になる。これによ
り、従来システムの単純なアルゴリズムで問題となった
処理時間の問題と検索空間の爆発を回避できる。
【0016】また、この種の予測を利用した最適化手法
では、手法自体の精度と処理コストが問題となる。最適
化手法で用いる予測の精度は、随時検索の進行状況を反
映させた予測を行うことで、正確な予測を行うことを可
能にする。また、発明した方法では、データベースシス
テムの最適化で多く利用されている動的プログラミング
のような、処理の順序の組合わせ問題を解決するような
複雑な処理は行わない。単純な処理の逐次予測を行い、
処理を進めていくので、最適化による問い合わせ処理自
体への影響を小さく抑え、問い合わせ処理全体を高速な
ものにできる。
【0017】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を詳細に説明する。 [実施形態1]図1に本発明の一実施形態の構成を示
す。本発明に基づいたこの検索システムは、検索制御モ
ジュール、Webモジュール、形態素解析器、GIS、
地理的ジェネリックリンク生成モジュール、位置情報デ
ータベース(POI−DB)、Webページ中の属性に
関するインデックス(属性インデックス)、そしてハイ
パーリンクに関するインデックス(リンクインデック
ス)で構成される。なお本実施形態では、Webページ
から抽出した地理属性に基づきユーザの問い合わせ要求
に応じてWebページ間に動的に生成するリンクのこと
を地理的ジェネリックリンクと呼ぶ。
【0018】各モジュールは以下のように動作する。 ・検索制御モジュールは、ユーザインタフェースからの
クエリの受け付けと問い合わせ処理の実行、そして処理
結果の出力を行う。問い合わせ処理を実行するために、
検索制御モジュールは、Webモジュールおよび地理的
ジェネリックリンク生成モジュールと連携し、クエリで
指定された検索経路上のWebページの条件評価とリン
クの展開を行う。また検索制御モジュールは、この問い
合わせ処理を最適化するために、評価可能な条件式の選
択と処理コスト及び検索結果数の予測を行い、その積が
最小となる条件から処理を行う。 ・Webモジュールは、検索制御モジュールからの指示
に従い、Webページの属性に対する条件評価、ハイパ
ーリンクの抽出、そして属性指定によるインデックスの
検索を行う。 ・地理的ジェネリックリンク生成モジュールは、検索制
御モジュールからの指示に従い、Webページから抽出
した地理的属性に基づき、Webページ間の地理的な関
係を表す地理的ジェネリックリンクを生成する。
【0019】各インデックスは、実際のインターネット
から収集したWebページと実際の地理情報に基づいて
構築する。図2に、Webページ中の属性に関するイン
デックス、およびハイパーリンクに関するインデックス
の構築例を示す。Webページ中の属性に関するインデ
ックスでは、Webページから抽出したタイトル、キー
ワード、住所等の属性とURLを関連づけて保存し、ク
エリに指定された属性条件を満たすWebページのUR
Lを高速に検索できるようにする。この際、Webペー
ジのタイトルはページ中のHTMLタグを分析して抽出
する。キーワード、住所は自然言語処理を行い抽出す
る。また、ハイパーリンクに関するインデックスでは、
指定されたWebページのURLをキーとして、そのW
ebページからリンクしているリンク先Webページの
URL、もしくはそのWebページへとリンクしている
リンク元WebページのURLを高速に検索できるよう
にする。
【0020】Webページ間の地理的ジェネリックリン
クは、リンクの起点となるWebページのURLに対応
する地理的座標を検索し、求めた座標と指定された地理
的関係にあるオブジェクトを検索し、そのオブジェクト
に対応するURLを求めて生成する。このうち、Web
ページのURLと地理的座標の対応付けには、図3に示
すような、WebページのURLとそのページの内容に
対応する地理的なオブジェクトの座標を組にして格納し
たPOI−DBを利用する。このPOI−DBを利用す
ることで、対応付けの高速化を図る。また図中の例で
は、地理座標の表現方法として緯度経度による座標系の
みを利用しているが、本発明の手法はこの座標系に限定
されない。インデックスの高速検索および地理座標間の
関係演算の高速化のために、POI−DB中の地理座標
系を統一する必要があるが、1つのWebページに対応
する座標が必要に応じて複数の座標系で表現されていて
も良い。平面直角座標系やWGS−84系など、複数の
座標系間での相互変換を可能にする適切な変換関数を用
いることにより、複数の座標系への対応を可能にする。
なお、各インデックスに格納されるURLに付加情報を
加えることにより、検索時の優先順位の設定や、検索の
抑制・禁止を指定することも可能である。
【0021】本検索システムでは、インターネット上に
発信されている大量のWebページから、問い合わせで
指定された条件に基づいてWebページの系列を検索す
る。この問い合わせは、以下の要素を組み合わせて指定
する。 ・検索経路 Webページとハイパーリンク、および地理的ジェネリ
ックリンクの組合わせにより、Webページの系列を検
索するための経路を指定する。 ・検索条件 検索経路上に出現するWebページの属性に関する条件
と、ハイパーリンクもしくは地理的ジェネリックリンク
に関する条件を指定する。 ・出力形式 検索されたWebページの系列から、検索結果として出
力する要素を指定する。
【0022】このうち、検索条件として指定できる条件
とその例を以下に示す。 (1)Webページから抽出した属性と定数を比較する
条件 ・Webページp_1のURLを指定 → p_1.url eq 'h
ttp://www.aa.com/' ・Webページp_1のURLの一部を指定 → P_1.url
=/com/ ・Webページp_1のテキスト部に指定文字列が含まれ
る → P_1.text =/xxxx/ ・Webページp_1の住所に指定文字列が含まれる →
P_1.address =/addr/ (2)Webページ間のハイパーリンクに関する条件 ・Webページp_1とWebページp_2がハイパーリンク
linkで接続している →link AS HYPERLINK (3)Webページ間の地理的ジェネリックリンクに関
する条件 ・Webページp_1とWebページp_2が地理的ジェネリ
ックリンクlinkで接続している → link AS Distance
(P_1,P_2) < 100(検索経路上でP_1とP_2がlinkで接続
していて、かつ距離100未満という条件で地理的ジェ
ネリックリンクを生成する場合) (4)Webページから抽出した属性間で比較を行う条
件 ・指定された属性(attr)がWebページp_1とWeb
ページp_2で一致 → P_1.attr eq P_2.attr
【0023】なお、これら問い合わせに含まれる要素は
論文(平松薫、石田亨、地域情報サービスのための拡張
Web空間、情報処理学会論文誌:データベース、Vol.
41,No. SIG6(TOD7), PP. 81-90, 2000)中で定義され
ているデータベース検索言語として一般的なSQLを拡
張Web空間の検索に合わせて拡張した検索言語に対応
するものであるが、下記の要素を含んでいれば、本実施
形態の検索システムはWebページの系列の検索を実行
することができる。従って、問い合わせを指定するため
の表現は、定義された検索言語に限定されるものではな
い。
【0024】また、この問い合わせを生成するユーザイ
ンタフェースとしては、地図を使ったインタフェースや
3次元仮想空間を利用したインタフェース、自然言語を
用いたインタフェースなどが考えられるが、本実施形態
の中では特に言及はしない。ユーザがこれらのユーザイ
ンタフェースを利用して入力した問い合わせが、上記の
形式へと変換された後の問い合わせ処理についてのみ扱
うものとする。
【0025】入力された問い合わせの処理手順は以下の
ようになる。また、この処理の流れを図4に示す。 [1]問い合わせ処理に利用する各関数の予測処理コス
トとインデックスの統計値を取得する。 [2]入力された問い合わせを解析し、システム内の中
間形式に変換する。この際、検索パス上のWebページ
の状態を全て未処理に設定する。 [3]条件式のうち、未評価でかつ評価可能な式それぞ
れについて処理コストと検索結果数を予測し、その積が
最小となる条件式を選択して以下のように処理する。 [3.1]対象Webページが未処理、かつ条件式が属
性条件によるWebページの選択の場合は、条件式によ
る検索結果を全て登録し、対象となったWebページの
状態を処理中にする。 [3.2]対象Webページが処理中、かつ条件式が属
性条件によるWebページの選択の場合は、条件式によ
る検索結果と既に登録されている検索結果を比較し、一
致しなかった検索結果を登録から削除する。 [3.3]対象Webページが未処理、かつ条件式がリ
ンクの展開の場合は、条件式によって得たリンク情報を
全て登録し、対象となったWebページの状態を処理中
にする。 [3.4]対象Webページが処理中、かつ条件式がリ
ンクの展開の場合は、条件式によって得たリンク先とリ
ンク先のWebページとして既に登録されている検索結
果を比較し、一致しなかった検索結果とそのリンク情報
を登録から削除する。 [4]未評価の条件式が無くなった検索パス上のWeb
ページの状態を検索済に変更する。 [5]検索パス上の全てのWebページが処理済となっ
たら登録された検索結果から指定された属性を出力して
検索終了、それ以外の場合は[3]へ戻る。
【0026】この処理手順中で利用する処理コストの予
測式は、問い合わせに指定された条件を、問い合わせの
進行状況に応じて、最適な順序で処理するために利用す
る。従来のデータベース管理システムの問い合わせ処理
では、実際の処理を始める前に指定された条件の処理順
序を最適化し、その順序に従って処理を進めるのが一般
的である。これに対し、本発明の処理手順では、問い合
わせ処理の進行にあわせて処理可能な条件の処理コスト
を予測し、場面場面で最適な条件を決定する。検索シス
テムは、この予測に基づいた処理対象とする条件の決定
と実際の条件処理を繰り返し、問い合わせ処理を進め
る。これにより、インターネット上のWWW情報空間を
地理情報により拡張した拡張Web空間に半構造性に対
応する。表1に処理コストの予測式の詳細を示す。
【0027】
【表1】
【0028】まず、問い合わせ条件に関する予測式に含
まれる定数について説明する。*_index_access_overhea
dは、条件を処理するためにインデックスを利用する際
に関数の初期化に必要なオーバーヘッドを示す。*_inde
x_access_costは、実際に条件を指定しインデックスを
検索するためのコストである。CompCostは検索システム
内で、変数間の比較処理を行うためのコストを表す。こ
れらの定数は、検索システム内の処理時間に基づいたコ
ストであり、動作環境および検索システムが利用する各
種インデックスの状況によって変化する。従って、検索
システムが起動時に自動的に調査取得、もしくは同じ環
境で調査取得して保存してある値を利用する。
【0029】次に、予測式に含まれる変数について説明
する。|Pn|は、それまでに行った問い合わせ処理の
中間結果の中で、条件の対象となっているWebページ
Pnに対応する中間結果として登録されているWebペ
ージ数を表す。|estimation_result|は、条件の処理
により得られるであろう検索結果数の予測を表す。この
うち|estimation_result|は、処理対象となっている
属性のインデックスから条件に合致するデータ数のみを
取得、もしくは属性の値の分布を表したヒストグラムと
条件に合致する値の区間の関係を利用したデータ数の予
測(Gregory Piatetsky-Shapiro and Charles Connnel
l. Accutrate estimation of the numberof tuples sat
isfying a condition. In Proceedings of 1984 ACM-SI
GMOD Conference on the Managemente of Data, pp. 25
6-276, 1984)により求める。
【0030】表1の問い合わせの条件は、先に述べた検
索条件(1)〜(4)に対応する。なお、条件式中のo
peratorは、eq(等しい)などの2項間の比較
演算子、=〜(含んでいる)などのパターンマッチ演算
子を示す。これらの記号は、プログラミング言語Per
lで用いられている演算子と同等である。
【0031】問い合わせの条件のうち(1)〜(3)
は、条件の対象となっている検索経路上のWebページ
が、それまでに処理の対象となったか否かによって、利
用する予測式が異なる。(1)のWebページの属性と
定数の比較の処理コストは、属性に関するインデックス
を利用する際の関数の初期化に必要なコスト(予測式1
行目)と、指定された値のインデックス検索を行うため
のコスト(予測式2行目)と、検索結果の後処理に必要
なコスト(予測式3行目)を足しあわせて予測する。こ
のうち後処理に必要なコストは、条件の対象となってい
る検索経路上のWebページが、それまでに処理の対象
となっていない場合は、条件の処理結果を中間結果とし
てシステム内の記憶領域へ登録するためのコストを加え
る。この時、条件の処理結果得られるWebページ数は
インデックスを利用して予測する。また、Webページ
が既に処理対象となっていた場合は、登録されている中
間結果と新たに得られた結果で一致している結果のみを
中間結果に残すため、双方の比較に必要なコストを予測
コストに加える。
【0032】(2)のハイパーリンクの展開、および
(3)の地理的ジェネリックリンクの展開は、リンクの
起点となるWebページの中間結果が得られた時点で処
理可能となり、処理コストを予測対象となる。予測式
は、ほぼ(1)の予測式と同様であるが、各予測式の2
行目でリンクに関するインデックス検索を行うコストを
求める際、インデックス検索コストに条件の起点となっ
ているWebページに対応する中間結果数をかけ、コス
トを予測する。また、ハイパーリンクに関する条件の場
合は、順方向のリンク展開と逆方向のリンク展開の双方
を考慮にいれる。(4)のWebページ間で属性を比較
は、条件の対象となるWebページ双方の中間結果が得
られた段階で評価可能となる。この操作の処理コストの
予測は、対象となるWebページ数の和に比較処理コス
トをかけて求める。
【0033】まず、コスト予測を利用した処理の最適化
手順を示すために、図5に示した簡単な問い合わせ例の
処理手順を説明する。図中の楕円でP1等記入されてい
るのが、問い合わせで検索するWebページを示し、説
明ではノードと呼ぶ。また、ノード間の矢印がリンクを
示し、矢印の説明として記述されている“hyperlink”
や“Distance”がそのリンクに関する条件を表す。
【0034】この例では、URLがhttp://www.aa.com/
であるノードP1からハイパーリンクしているWebペ
ージで、かつ本文中に「支店」という文字列を含むノー
ドP2を検索し、その系列を出力するというものであ
る。この例ではURLの指定によりP1を確定した後、
P1からハイパーリンクしているノードを検索するか、
本文中に「支店」という文字列を含むノードを検索する
かを、処理の予測コストの大小により決定する。この予
測コストの大小は、時間に基づいた処理コストと処理結
果の積で決まるので、処理時間が短く、かつ条件処理に
よって得られる結果が少ない場合に予測コストが小さく
なる。すなわち、問い合わせ処理を進める上で、処理に
時間が係らない条件で、かつ処理の結果、検索空間が大
きくならない場合に予測コストが小となる。
【0035】もし、ハイパーリンク条件の処理の方が予
測コストが小さい場合、図の左側の処理となる。この場
合は、P1からハイパーリンクで接続しているノードを
ハイパーリンクに関するインデックスを利用して求め、
求めたノードの中からWebページの属性に関する条件
である文字列「支店」を含むものを選択する。また、W
ebページの属性に関する条件の処理の方が予測コスト
が小さい場合は、図の右側の処理となる、こちらの場合
は、Webページの属性に関する条件である文字列「支
店」を含むノードを、Webページの本文中のキーワー
ドに関するインデックスを利用して検索し、その後、検
索したノードの中からP1とハイパーリンクで接続して
いるノードを求める。
【0036】いずれの場合も処理結果は同じであるが、
問い合わせ処理中の途中結果の大きさは、P1からハイ
パーリンクで接続しているWebページの数、およびP
2の属性条件として指定された「支店」という文字列を
含むWebページの数によって大きく左右される。この
途中の検索空間を小さく抑えることで、システム内部の
比較処理回数等を削減することができ、最終的には高速
な問い合わせ処理が可能となる。
【0037】次に、本実施形態を用いたより具体的な問
い合わせ処理の最適化例を示すために、図6の例につい
て説明する。この問い合わせでは、指定されたリンク集
を起点にハイパーリンクをたどり、Webページの属性
に関する条件と、地理的ジェネリックリンクに関する条
件を組み合わせて、Webページの系列を検索する。問
い合わせは、起点となるリンク集に対応するノードP1
から、目的のWebページに対応するノードP4まで
が、ノードとリンクの繰り返しによる検索パスによって
指定する。なお、バス停と喫茶店については、Webペ
ージ上の記述から検索できるものとして説明を進める。
【0038】ちなみに、この例の問い合わせを文章で記
述すると以下のようになる。「イタリア料理店を紹介す
るリンク集」で紹介されているお店から、「パスタ」に
関する記述のあるWebページを選び、そのお店から、
500m以内にあるバス停を検索し、そのバス停からさ
らに500m以内にある「コーヒー」を出す喫茶店を検
索する。
【0039】次に、この問い合わせ例の中の条件の処理
順序について説明する。図7が最適化なしの場合の条件
の処理順序、図8が最適化ありの場合の条件の処理順序
であり、図中の括弧付の数字は、問い合わせ例の中で指
定された条件の処理順序を表す。この処理順序を最適化
ありの場合となしの場合で比較すると、URLの指定に
基づいた検索の起点P1の確定と、ハイパーリンクに関
するインデックスを利用したP1からP2へのハイパー
リンクの展開の2番目の処理までは同じ順序で行われ
た。しかし、3番目以降の処理順序には差が見られた。
最適化なしの場合は、問い合わせに指定された順序に従
って、条件処理が進んだのに対し、最適化ありの場合
は、ノードP4、P2、P3のWebページの属性に関
する条件が、Webページのテキスト部に出現する語句
に関するインデックスを利用して先に処理され、その
後、ノード間の地理的ジェネリックリンクに関する条件
がPOI−DBと地理的関係演算により処理された。
【0040】この問い合わせ処理中にシステム内部で行
われた比較処理回数(図9)を見てみると、問い合わせ
処理の3番目と5番目に大きな差が見られ、最適化によ
り属性に関する条件を先に評価し、その後リンクを展開
することで、システム内部の比較回数が削減された事が
わかる。従って、問い合わせ例の処理では、処理の前半
に検索パス上のノードに対応するWebページの選択を
行い、その後Webページ間のリンク関係を検証する手
順を最適化により選択することで、問い合わせ処理の高
速化ができた。
【0041】本実施形態は、上記のような手法で実装す
る検索システムに関するものであるが、下記に挙げたユ
ーザが利用する端末の形態、検索システムの設置形態、
検索システムの利用形態、および利用するネットワーク
の形態のいずれを組合わせた場合も、実施形態の検索シ
ステムは入力された問い合わせを高速に処理することが
できる。 ・ユーザが利用する端末の形態:デスクトップコンピュ
ータ、携帯型コンピュータ、PDA、ノート型コンピュ
ータ、ウェアラブルコンピュータ、携帯電話、固定電
話、公衆電話、カーナビゲーションシステム、街頭端
末。
【0042】・検索システムの設置形態:インターネッ
トで公開されているコンピュータへの検索システムの設
置。インターネットに公開されていない内部利用を目的
とするコンピュータへの検索システムの設置。ネットワ
ークに接続されていないが電話網、携帯電話網と接続す
るモデムを有するコンピュータへの検索システムの設
置。ネットワーク及び電話網と独立し、単独で動作する
コンピュータへの検索システムの設置。(上記の単独動
作以外の場合は、検索システムを構成するモジュールを
一台のコンピュータ上で集中的に動作しなければならな
いという制限はなく、複数のコンピュータに分散させる
ことも可能)
【0043】・検索システムの利用形態:穴埋め式フォ
ームからの入力受け付けと、木構造表示、地図もしくは
仮想空間を利用した2次元もしくは3次元的な表示の一
つ以上の表示方法を組み合わせた検索結果表示。穴埋め
式フォームからの条件入力と、検索可能な項目の木構造
表示、地図もしくは仮想空間を利用した2次元もしくは
3次元的な検索可能な項目の表示を一つ以上組合わせた
問い合わせ入力と、それに対応した検索結果表示。上記
の複数の入出力手法に、音声による条件入力及び検索結
果出力を加えた複数の入出力方法から、一つ以上を組み
合わせた利用形態。 ・利用するネットワークの形態:無線接続もしくは有線
接続、また常時接続もしくはダイアルアップ接続。
【0044】[実施形態2]実施形態1の地理的ジェネ
リックリンク生成モジュールと同様に、Webページか
ら抽出した語句の類似性など、Webページの自然言語
属性の関連性によって動的にリンクを生成するモジュー
ルを問い合わせ処理に利用する。このモジュールは、W
ebページから抽出した属性と抽出元であるWebペー
ジのURLを格納した自然言語属性DBと、シソーラス
もしくは辞書に基づき属性間の類似性を評価するための
関数により、Webページ間にリンクを生成する。たと
えば、以下のような語句の類似性に基づきWebページ
間に動的にリンクを生成する。 ・リンク元Webページの指定語句と同じ語句を含む。 ・リンク元Webページの指定語句の類義語を含む。 この自然言語属性の関連性によって動的にリンクを生成
するモジュール以外の検索システムの構成、検索手順、
および利用形態は実施形態1と同様である。
【0045】[実施形態3]実施形態1の地理的ジェネ
リックリンク生成モジュールの代わりに、Webページ
から抽出した属性、Webサーバ名、Webページのア
ドレス、URL、HTMLタグ、ハイパーリンクの関連
性により、動的に生成するモジュールを利用する。この
モジュールは、抽出した属性と抽出元であるWebペー
ジのURLを格納したWebページ属性DBと、属性間
の類似性を評価するための関数により、Webページ間
にリンクを生成する。
【0046】たとえば、以下のような属性の類似性に基
づきWebページ間に動的にリンクを生成する。 ・リンク元Webページの保存されているサーバと同じ
サーバに保存されている(サーバアドレスの完全一
致)。 ・リンク元Webページの保存されているサーバと同じ
ドメインに属するサーバに保存されている(サーバアド
レスの部分一致)。 ・リンク元Webページが保存されているWebサーバ
上のディレクトリと同じディレクトリに保存されてい
る。 ・リンク元Webページが保存されているWebサーバ
上のディレクトリに含まれる下位ディレクトリに保存さ
れている。 ・リンク元Webページが保存されているWebサーバ
上のディレクトリの上位ディレクトリに保存されてい
る。 ・リンク元Webページと同種のタグ(たとえば、イメ
ージタグ、表、箇条書き)を含んでいる。 ・リンク元Webページ中のハイパーリンク先と同じリ
ンク先を含んでいる。
【0047】この、サーバ名、Webページのアドレス
など、Webページから抽出した属性の関連性によりリ
ンクを動的に生成するモジュール以外の検索システムの
構成、検索手順、および利用形態は実施形態1と同様で
ある。
【0048】[実施形態4]実施形態1から実施形態3
で示した動的なリンクを生成するモジュールを一つ以上
組み合わせて実施できる検索システム。
【0049】以上、本発明者によってなされた発明を、
前記実施の形態に基づき具体的に説明したが、本発明
は、前記実施の形態に限定されるものではなく、その要
旨を逸脱しない範囲において種々変更可能であることは
勿論である。
【0050】
【発明の効果】以上述べたように本発明によれば、We
bページの系列を検索する問い合わせを高速に処理する
ことを可能にするという効果が得られる。この問い合わ
せとは、Webページから抽出した属性に関する条件
と、Webページ間のハイパーリンクに関する条件と、
Webページから抽出した属性の関連性を利用して動的
に生成するWebページ間のリンクに関する条件を組み
合わせ問い合わせたものである。また処理には、抽出し
た属性に関するインデックスとリンクを生成するための
インデックスを利用し、問い合わせ中の条件の処理コス
トと検索結果数の予測の積が最小となる条件から処理を
進め、問い合わせの高速処理を可能にする。
【図面の簡単な説明】
【図1】本発明の一実施形態を示す図である。
【図2】検索システムで利用するインデックスの構築例
を示す図である。
【図3】POI−DBの構築例を示す図である。
【図4】問い合わせ処理手順を示す図である。
【図5】コスト予測による処理条件の選択例を示す図で
ある。
【図6】問い合わせ例の検索パスを示す図である。
【図7】最適化なしの場合の検索順序を示す図である。
【図8】最適化ありの場合の検索順序を示す図である。
【図9】検索システム内部の累積比較回数を示す図であ
る。

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 インターネット上に発信されている大量
    のWebページから、Webページから抽出した属性に
    関する条件とハイパーリンクに関する条件を組み合わせ
    て指定し、Webページの系列を検索するための問い合
    わせの処理方法において、 Webページに関するインデックスを利用し、問い合わ
    せに指定された条件から、未処理で、かつ他条件の処理
    結果に依存せずに処理結果を求めることのできる条件の
    処理コストと処理結果を予測し、問い合わせ処理の進行
    状況にあわせて最適な条件を選択し処理する操作を、問
    い合わせで指定された全ての条件を処理するまで繰り返
    し、問い合わせの条件を満たすWebページの系列を求
    めるWebページ検索方法。
  2. 【請求項2】 請求項1に記載のWebページ検索方法
    であって、 前記Webページに関するインデックスは、Webペー
    ジの属性値からURLを求めることの出来るインデック
    スと、WebページのURLからリンク先およびリンク
    元WebページのURLを求めることのできるハイパー
    リンクに関するインデックスであり、 前記他条件の処理結果に依存せずに処理結果を求めるこ
    とのできる条件は、Webページの属性に関する条件
    と、ハイパーリンクに関する条件のうち、他の条件の処
    理により、リンク元またはリンク先もしくはその両方の
    Webページ集合が空でない条件以外の条件であり、 前記処理コストの予測は、検索システムがWebページ
    に関するインデックスを利用して条件を処理するときに
    必要な時間の予測に基づくものであり、関数呼び出し時
    の初期遅延の予測と、条件を処理するための時間の予
    測、処理結果を検索システム内のそれまでの処理結果と
    整合させるために必要な時間の予測の和であり、 前記処理結果の予測は、検索システムがWebページに
    関するインデックスを利用して条件を処理を行い得られ
    る結果の予測であり、インデックスの先読みとインデッ
    クスの統計情報に基づき求めるものであり、 前記問い合わせ処理の進行状況にあわせて最適な条件
    は、処理コストの予測と処理結果の予測の積が最小とな
    る条件であることを特徴とするWebページ検索方法。
  3. 【請求項3】 請求項1または2に記載のWebページ
    検索方法であって、 前記Webページの系列を検索するための問い合わせ
    に、Webページから抽出した属性に基づきWebペー
    ジ間に動的に生成するリンクに関する条件を加えて指定
    することができることを特徴とする検索方法。
  4. 【請求項4】 請求項3に記載のWebページ検索方法
    であって、 WebページのURLから動的に生成するリンクのリン
    ク先およびリンク元WebページのURLは、次の3ス
    テップを経て求めることを特徴とするWebページ検索
    方法。 1.問い合わせ中で指定された属性をURLで指定され
    たWebページから抽出するステップ 2.抽出した属性値から条件で指定された関係にある属
    性値を検索するステップ 3.検索した属性値に対応するURLをインデックスを
    利用して検索するステップ
  5. 【請求項5】 請求項3または4に記載のWebページ
    検索方法であって、前記動的に生成するリンクに関する
    条件として、Webページ間の地理的関係によって動的
    に生成するリンクに関する条件を指定することができる
    ことを特徴とするWebページ検索方法。
  6. 【請求項6】 請求項5に記載のWebページ検索方法
    であって、 Webページから抽出した地理的属性間の関係は、地理
    情報システム(GIS)上の地理的関係演算、もしくは
    幾何的な関係演算を用いて処理し、 Webページからの地理属性の抽出は、システム中に指
    定された地理表現とのパターンマッチング、もしくは文
    書中から地理表現を抽出することの出来る形態素解析を
    用いることを特徴とするWebページ検索方法。
  7. 【請求項7】 請求項3ないし6のうちいずれか1項に
    記載のWebページ検索方法であって、 前記動的に生成するリンクに関する条件として、Web
    ページから抽出した表現を自然言語表現の類似性によっ
    て動的に生成するリンクに関する条件を指定でき、 Webページから抽出した自然言語表現間の類似性は、
    シソーラス、もしくは言語辞書を用いて、その関係を評
    価することを特徴とするWeb検索方法。
  8. 【請求項8】 請求項3ないし6のうちいずれか1項に
    記載のWebページ検索方法であって、 前記動的に生成するリンクに関する条件として、Web
    ページから抽出した属性Webサーバ名、Webページ
    のアドレス、URL、HTMLタグ、ハイパーリンクの
    関連性により動的に生成するリンクに関する条件を指定
    することができることを特徴とするWebページ検索方
    法。
  9. 【請求項9】 コンピュータを、 インターネット上に発信されている大量のWebページ
    から、Webページから抽出した属性に関する条件とハ
    イパーリンクに関する条件を組み合わせて指定した、W
    ebページの系列を検索するための問い合わせを受け付
    ける手段、 Webページに関するインデックスを利用し、問い合わ
    せに指定された条件から、未処理で、かつ他条件の処理
    結果に依存せずに処理結果を求めることのできる条件の
    処理コストと処理結果を予測し、問い合わせ処理の進行
    状況にあわせて最適な条件を選択し処理する操作を、問
    い合わせで指定された全ての条件を処理するまで繰り返
    し、問い合わせの条件を満たすWebページの系列を求
    める手段、および、 問い合わせの条件を満たすWebページの系列を出力す
    る手段、として機能させるためのWebページ検索プロ
    グラム。
  10. 【請求項10】 請求項9に記載のWebページ検索プ
    ログラムであって、 前記Webページに関するインデックスは、Webペー
    ジの属性値からURLを求めることの出来るインデック
    スと、WebページのURLからリンク先およびリンク
    元WebページのURLを求めることのできるハイパー
    リンクに関するインデックスであり、 前記他条件の処理結果に依存せずに処理結果を求めるこ
    とのできる条件は、Webページの属性に関する条件
    と、ハイパーリンクに関する条件のうち、他の条件の処
    理により、リンク元またはリンク先もしくはその両方の
    Webページ集合が空でない条件以外の条件であり、 前記処理コストの予測は、検索システムがWebページ
    に関するインデックスを利用して条件を処理するときに
    必要な時間の予測に基づくものであり、関数呼び出し時
    の初期遅延の予測と、条件を処理するための時間の予
    測、処理結果を検索システム内のそれまでの処理結果と
    整合させるために必要な時間の予測の和であり、 前記処理結果の予測は、検索システムがWebページに
    関するインデックスを利用して条件を処理を行い得られ
    る結果の予測であり、インデックスの先読みとインデッ
    クスの統計情報に基づき求めるものであり、 前記問い合わせ処理の進行状況にあわせて最適な条件
    は、処理コストの予測と処理結果の予測の積が最小とな
    る条件であることを特徴とするWebページ検索プログ
    ラム。
  11. 【請求項11】 請求項9または10に記載のWebペ
    ージ検索プログラムであって、 前記Webページの系列を検索するための問い合わせ
    に、Webページから抽出した属性に基づきWebペー
    ジ間に動的に生成するリンクに関する条件を加えて指定
    することができることを特徴とする検索プログラム。
  12. 【請求項12】 請求項11に記載のWebページ検索
    プログラムであって、 WebページのURLから動的に生成するリンクのリン
    ク先およびリンク元WebページのURLは、次の3ス
    テップを経て求めることを特徴とするWebページ検索
    プログラム。 1.問い合わせ中で指定された属性をURLで指定され
    たWebページから抽出するステップ 2.抽出した属性値から条件で指定された関係にある属
    性値を検索するステップ 3.検索した属性値に対応するURLをインデックスを
    利用して検索するステップ
  13. 【請求項13】 請求項11または12に記載のWeb
    ページ検索プログラムであって、 前記動的に生成するリンクに関する条件として、Web
    ページ間の地理的関係によって動的に生成するリンクに
    関する条件を指定することができることを特徴とするW
    ebページ検索プログラム。
  14. 【請求項14】 請求項13に記載のWebページ検索
    プログラムであって、 Webページから抽出した地理的属性間の関係は、地理
    情報システム(GIS)上の地理的関係演算、もしくは
    幾何的な関係演算を用いて処理し、 Webページからの地理属性の抽出は、システム中に指
    定された地理表現とのパターンマッチング、もしくは文
    書中から地理表現を抽出することの出来る形態素解析を
    用いることを特徴とするWebページ検索プログラム。
  15. 【請求項15】 請求項11ないし14のうちいずれか
    1項に記載のWebページ検索プログラムであって、 前記動的に生成するリンクに関する条件として、Web
    ページから抽出した表現を自然言語表現の類似性によっ
    て動的に生成するリンクに関する条件を指定でき、 Webページから抽出した自然言語表現間の類似性は、
    シソーラス、もしくは言語辞書を用いて、その関係を評
    価することを特徴とするWeb検索プログラム。
  16. 【請求項16】 請求項11ないし14のうちいずれか
    1項に記載のWebページ検索プログラムであって、 前記動的に生成するリンクに関する条件として、Web
    ページから抽出した属性Webサーバ名、Webページ
    のアドレス、URL、HTMLタグ、ハイパーリンクの
    関連性により動的に生成するリンクに関する条件を指定
    することができることを特徴とするWebページ検索プ
    ログラム。
  17. 【請求項17】 請求項9ないし16のうちいずれか1
    項に記載のプログラムを備えたWebページ検索装置。
  18. 【請求項18】 請求項9ないし16のうちいずれか1
    項に記載のプログラムを記録したコンピュータ読み取り
    可能な記録媒体。
JP2002000225A 2002-01-07 2002-01-07 Webページ検索方法およびWebページ検索装置、Webページ検索プログラム並びにそのプログラムを記録した記録媒体 Pending JP2003203089A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002000225A JP2003203089A (ja) 2002-01-07 2002-01-07 Webページ検索方法およびWebページ検索装置、Webページ検索プログラム並びにそのプログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002000225A JP2003203089A (ja) 2002-01-07 2002-01-07 Webページ検索方法およびWebページ検索装置、Webページ検索プログラム並びにそのプログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2003203089A true JP2003203089A (ja) 2003-07-18

Family

ID=27640676

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002000225A Pending JP2003203089A (ja) 2002-01-07 2002-01-07 Webページ検索方法およびWebページ検索装置、Webページ検索プログラム並びにそのプログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2003203089A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005122556A (ja) * 2003-10-17 2005-05-12 Hitachi Ltd 情報評価システム
US7584184B2 (en) 2005-12-02 2009-09-01 International Business Machines Corporation System of effectively searching text for keyword, and method thereof
JP2013135045A (ja) * 2011-12-26 2013-07-08 Samsung Techwin Co Ltd 電子部品実装の最適化方法及び最適化プログラム
CN104050189A (zh) * 2013-03-14 2014-09-17 华为技术有限公司 页面共享处理方法及装置
CN106919601A (zh) * 2015-12-25 2017-07-04 北京奇虎科技有限公司 从查询词中提取兴趣点的方法和装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005122556A (ja) * 2003-10-17 2005-05-12 Hitachi Ltd 情報評価システム
US7584184B2 (en) 2005-12-02 2009-09-01 International Business Machines Corporation System of effectively searching text for keyword, and method thereof
US7945552B2 (en) 2005-12-02 2011-05-17 International Business Machines Corporation System of effectively searching text for keyword, and method thereof
JP2013135045A (ja) * 2011-12-26 2013-07-08 Samsung Techwin Co Ltd 電子部品実装の最適化方法及び最適化プログラム
KR101783983B1 (ko) 2011-12-26 2017-10-10 한화테크윈 주식회사 전자 부품 실장의 최적화 방법
CN104050189A (zh) * 2013-03-14 2014-09-17 华为技术有限公司 页面共享处理方法及装置
CN104050189B (zh) * 2013-03-14 2019-05-28 华为技术有限公司 页面共享处理方法及装置
CN106919601A (zh) * 2015-12-25 2017-07-04 北京奇虎科技有限公司 从查询词中提取兴趣点的方法和装置
CN106919601B (zh) * 2015-12-25 2021-01-12 北京奇虎科技有限公司 从查询词中提取兴趣点的方法和装置

Similar Documents

Publication Publication Date Title
JP3225912B2 (ja) 情報検索装置、方法及び記録媒体
US8166013B2 (en) Method and system for crawling, mapping and extracting information associated with a business using heuristic and semantic analysis
US7499965B1 (en) Software agent for locating and analyzing virtual communities on the world wide web
JP5106045B2 (ja) 検索エンジン連携ファイル共有システム
US8977650B2 (en) Scalable summarization of data graphs
US8812508B2 (en) Systems and methods for extracting phases from text
JP2000010996A (ja) 文書整理装置および方法
US9971828B2 (en) Document tagging and retrieval using per-subject dictionaries including subject-determining-power scores for entries
JP2940459B2 (ja) ノード・リンク探索装置
JP2001188802A (ja) 情報検索装置及び情報検索方法
JP2003203089A (ja) Webページ検索方法およびWebページ検索装置、Webページ検索プログラム並びにそのプログラムを記録した記録媒体
KR100445943B1 (ko) 근접 검색식을 이용한 정보 검색 시스템 및 방법
JP3255264B2 (ja) 情報空間アクセス支援方法および装置
JP3671765B2 (ja) 異種情報源問い合わせ変換方法及び装置及び異種情報源問い合わせ変換プログラムを格納した記憶媒体
Nguyen et al. Estimating searching cost of regular path queries on large graphs by exploiting unit-subqueries
JP3565117B2 (ja) 複数異種情報源アクセス方法及びクライアント装置及び複数異種情報源アクセスプログラムを格納した記憶媒体
JPH05266085A (ja) 動的概念辞書を用いた類似検索方法及びその装置
JP3632354B2 (ja) 情報検索装置
KR100496384B1 (ko) 검색엔진과, 검색시스템, 검색시스템에서의 데이터베이스 작성방법 및, 기억매체
JP2000172680A (ja) 文書登録システム、文書登録方法、その方法を実行させるための記録媒体、文書閲覧システム、文書閲覧方法、その方法を実行させるための記録媒体および文書取出しシステム
JPH09218880A (ja) ドキュメントデータ検索システム
JP2003186901A (ja) Webサイト検索方法とシステム、並びに、この方法の実行プログラムとこの方法の実行プログラムを記録した記録媒体
KR20030082109A (ko) 앤드 연산자를 이용한 색인어 검색 및 정보 제공 시스템및 방법
JP3626897B2 (ja) ホームページの系列的検索方法及び装置、記録媒体
KR20100059327A (ko) 데이터의 연관성을 정의한 번들 데이터를 이용하는 검색 시스템 및 그 검색 방법