JP2005209043A - 検索システム、コンピュータ及び記録媒体 - Google Patents
検索システム、コンピュータ及び記録媒体 Download PDFInfo
- Publication number
- JP2005209043A JP2005209043A JP2004016333A JP2004016333A JP2005209043A JP 2005209043 A JP2005209043 A JP 2005209043A JP 2004016333 A JP2004016333 A JP 2004016333A JP 2004016333 A JP2004016333 A JP 2004016333A JP 2005209043 A JP2005209043 A JP 2005209043A
- Authority
- JP
- Japan
- Prior art keywords
- document
- distance
- documents
- search
- inter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 WWW、ハイパーテキストなどの文書集合から、文書を収集し、文書データベース2として格納する収集部1と、文書間の距離を計算する文書間距離計算部3と、検索文字列を指定して文書を検索する検索部4からなり、この検索部4が今見ている文書との文書間の距離を加味して検索する検索システム。
【選択図】 図1
Description
本発明の目的は、上述した実情を考慮して、近くまで来ていながら後少しで見つからないという場合に、ユーザがハイパーテキスト中の今見ている文書の近くだけを検索して所望の文書を得ることができる、効果的に所望の文書を検索する検索システムを提供することにある。
また、請求項2に記載の発明は、前記文書間距離計算部を有し、文書間のリンクを辿る最少回数を距離とする請求項1記載の検索システムを特徴とする。
また、請求項3に記載の発明は、前記文書間距離計算部を有し、文書の類似度を距離とする請求項1記載の検索システムを特徴とする。
また、請求項4に記載の発明は、文書間の距離の近い順にソートするソート部を更に備え、該ソート部は検索結果を、指定した文書との文書間の距離の近い順にソートすることを特徴とする。
また、請求項5に記載の発明は、請求項1ないし4のいずれか1項に記載の検索システムとして機能させるためのプログラムを使用するコンピュータを特徴とする。
また、請求項6に記載の発明は、請求項5記載の検索システムを記録したコンピュータ読み取り可能な記録媒体を特徴とする。
ステップ1では、収集部1はWWWなどから文書を収集する。収集はリンクを辿ることで行なわれ、クローリングなどと呼ばれる技術であるので、詳細は省略する。
図2は図1の収集部で収集した結果を示す図である。収集した結果は、例えば、図2のようになる。なお、番号は収集時に文書に順番に付けられた番号である。また、URLは文書を特定する文字列である。
リンク先には、この文書から辿ることのできる文書の文書番号を「,」で区切って入れている。直接URLを入れてもかまわない。さらに、文書のタイトルと本文が入る。
図3は文書間距離表を示す図である。ステップ2では文書間距離計算部3によって、全ての文書間の距離を計算する。これは、文書をノードと見立ててグラフの最短距離を求めるという、よく知られた技術であるため、詳細は省略する。この結果、文書間距離表は図3のようになる。
ステップ3では、ユーザは現在見ている文書(例えば文書番号=3)から検索を行なう。ここでは、今見ているハイパーテキスト上の文書番号を3とする。また、この文書から距離2以内の文書を検索語「平和」で検索することを考える。
ステップ4では、文書DB(データベース)2中の文書を順に見ていき、本文に検索文字列「平和」を含む文書を探す。ステップ5では、見つけたら、次に文書間距離表で距離が2以下であるかを調べる。ステップ6では、条件を満たせば、返すべき文書とする。図4は検索の結果を示す図である。検索の結果、図4に示すような文書が得られる。
以上のように、複数の文書が見つかる。この実施の形態では説明の都合上少数の文書しか見つからないが、距離を大きくすればそれに応じて、見つかる文書数は増大し、その中から所望の文書を見つけることが難しくなる。
次に、ユーザが、先程よりも狭い範囲(距離1)以内の文書を検索する第2の場合について考える。
ステップ7では、ユーザは、現在見ている文書(例えば、文書番号=3)から、検索を行なう。ここでは、今見ているハイパーテキスト上の文書番号を3とする。また、この文書から距離1以内の文書を検索語「平和」で検索することを考える。
ステップ7では、文書DB2中の文書を順に見ていき、本文に検索文字列「平和」を含む文書を探す。ステップ8では、見つけたら、次に文書間距離表で距離が1以下であるかを調べる。ステップ9では、条件を満たせば、返すべき文書とする。
図5は検索の結果、得られた文書を示す図である。図5に示すような文書が検索の結果得られる。今回は、先程よりも狭い範囲で検索が行われたため、ユーザが今見ている文書の近くに所望の文書がありそうだと思っているときには、より正しく文書を見つけることができる。
ステップ1では、収集部1は、WWWなどから文書を収集する。収集は、リンクを辿ることで行なわれ、クローリングなどと呼ばれる技術であるので、詳細は省略する。収集した結果は、例えば、図2のようになる。
なお、番号は収集時に文書に順番につけられた番号である。また、URLは文書を特定する文字列である。リンク先には、この文書から辿ることのできる文書の文書番号を「,」で区切って入れている。直接、URLを入れてもかまわない。さらに、文書のタイトルと本文が入る。
ステップ2では、文書間距離計算部3によって、全ての文書間の距離を計算する。これは、2つのURLの類似度をもって、距離とする。ステップ3では、全ての2つの文書間について1つ1つ、それぞれ距離を調べる。
ステップ4では、或るURLと別のURLの距離は次のように計算する。すなわち、ステップ5:それぞれのURLをセパレータ(/)で区切る。ステップ6:区切ったトークンを、前から見ていき、一致しなくなった場所からの、それぞれの残りのトークンの数を加えて、距離とする。
これは、URLをディレクトリ階層とみたときの、あるディレクトリから別のディレクトリに移動する距離に等しい。例えば、「http://index.htm」と「http://aaa/ccc.htm」の2つのURLについて距離を調べてみる。
1番目のトークン:「http:」なので一致する。
2番目のトークン:「」なので一致する。
3番目のトークン:「index.htm」と「aaa」なので一致しない。
残りのトークンの和(1+2+3)を返す。図6は文書間距離表を示す図である。この結果、文書間距離表は図6のようになる。
ステップ7では、ユーザは現在見ている文書(例えば文書番号=7)から、検索を行なう。そこでは、現在見ているハイパーテキスト上の文書番号を7とする。また、この文書から距離5以内の文書を検索語「発見」で検索することを考える。
ステップ8では、文書DB2中の文書を順に見ていき、本文に検索文字列「発見」を含む文書を探す。ステップ9では、見つけたら、次に文書間距離表で距離が5以下であるかを調べる。ステップ10では、条件を満たせば、返すべき文書とする。図7は検索の結果得られた文書を示す図である。
以上のように、複数の文書が見つかる。この実施の形態では説明の都合上少数の文書しか見つからないが、距離を大きくすればそれに応じて、見つかる文書数は増大し、その中から所望の文書を見つけることが難しくなる。
ステップ11では、ユーザは、現在見ている文書(例えば文書番号=7)から、検索を行なう。ここでは、今見ているハイパーテキスト上の文書番号を7とする。また、この文書から距離3以内の文書を検索語「発見」で検索することを考える。
ステップ12では、文書DB2中の文書を順に見ていき、本文に検索文字列「発見」を含む文書を探す。ステップ13では、見つけたら、次に文書間距離表で距離が3以下であるかを調べる。
ステップ13では、条件を満たせば、返すべき文書とする。図8は検索の結果得られる文書を示す図である。
今回は先程よりも狭い範囲で検索が行われたため、ユーザが今見ている文書の近くに所望の文書がありそうだと思っているときには、より正しく文書を見つけることができる。
ステップ1では、収集部1は、WWWなどから文書を収集する。収集は、リンクを辿ることで行なわれ、クローリングなどと呼ばれる技術であるので、詳細は省略する。収集した結果は、例えば、図2のようになる。
なお、番号は、収集時に文書に順番につけられた番号である。また、URLは文書を特定する文字列である。リンク先には、この文書から辿ることのできる文書の文書番号を「,」で区切って入れている。直接URLを入れてもかまわない。さらに、文書のタイトルと本文が入る。
ステップ2では、文書間距離計算部3によって、全ての文書間の距離を計算する。これは、2つの文書の類似度をもって、距離とする。類似度を求めることは類似検索と呼ばれる技術によって一般に行われていることである。
したがって、詳細は省略するが、例えば、文書からキーワードを抽出し(キーワード抽出技術は公知)、一致するキーワードの数によって、類似度とすることができる。類似度から距離は、例えば、逆数をとることで、類似度が高くなるほど距離が近くなり、類似度が低くなるほど距離を遠くすることができる。
ステップ3では、全ての2つの文書間について1つ1つ、それぞれ距離を調べる。ステップ4では、ある文書と別の文書の距離は次のように計算する。ステップ5では、それぞれの文書から、形態素解析技術によってキーワードを抽出する。
ステップ6では、両方の文書にあるキーワードの数を数える。この数の逆数を便宜上10倍距離とする。図9は逆数の結果から得られる文書間距離表を示す図である。
ステップ7では、ユーザは、現在見ている文書(例えば文書番号=11)から、検索を行なう。ここでは、今見ているハイパーテキスト上の文書番号を11とする。また、この文書から距離5以内の文書を検索語「戦争」で検索することを考える。
ステップ8では、文書DB2中の文書を順に見ていき、本文に検索文字列「戦争」を含む文書探す。ステップ9では、見つけたら、次に文書間距離表で距離が5以下であるかを調べる。
ステップ10では、条件を満たせば、返すべき文書とする。図10は検索の結果、得られる文書を示す図である。以上のように、ユーザが今見ている文書が探したい文書と似ていると思ったときに、より正しく文書を見つけることができる。
ステップ1では、収集部1は、WWWなどから文書を収集する。収集は、リンクを辿ることで行なわれ、クローリングなどと呼ばれる技術であるので、詳細は省略する。収集した結果は、例えば、図2のようになる。
なお、番号は、収集時に文書に順番につけられた番号である。また、URLは文書を特定する文字列である。リンク先には、この文書から辿ることのできる文書の文書番号を「,」で区切って入れている。直接URLを入れてもかまわない。さらに、文書のタイトルと本文が入る。
ステップ2では、文書間距離計算部3によって、全ての文書間の距離を計算する。これは、文書をノードと見立ててグラフの最短距離を求めるという、よく知られた技術であるため、詳細は省略する。この結果、文書間距離表は図3のようになる。
ステップ3では、ユーザは、現在見ている文書(例えば文書番号=9)から、検索を行なう。ここでは、今見ているハイパーテキスト上の文書番号を9とする。さらに、文書を検索語「発見」で検索することを考える。検索の結果、図7に示す文書が得られる。
ステップ4では、文書間距離表を用いて、文書を文書(文書番号=9)に近い順にソート部5でソートする。ステップ5では、これには、単純に、個々の文書について距離を求め、ソートすればよい。ソート技術はよく知られた技術であるため詳細は省略する。図12はソートの結果得られる文書を示す図である。
このCD−ROMをCD−ROMドライブのような媒体駆動装置を搭載したコンピュータに装着して、これらのプログラムをコンピュータのメモリあるいはハードディスクのような記憶装置に格納し、それを実行することによっても、本発明の目的を達成できる。
この場合、記録媒体から読み出されたプログラム自体が上述した実施の形態の機能を実現することになり、そのプログラムおよびそのプログラムを記録した記録媒体も本発明を構成することになる。
なお、記録媒体としては半導体媒体(例えば、ROM、不揮発性メモリカードなど)、光媒体(例えば、DVD、MO、MD、CD−R等)、磁気媒体(例えば、磁気テープ、フレキシブルディスク等)のいずれであってもよい。
また、ロードしたプログラムを実行することにより上述した実施の形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、オペレーティングシステム(OS)10などが実際の処理の一部または全部を行い、その処理によって上述した実施の形態の機能が実現される場合も含まれる。
また、上述した実施の形態の機能を実現するプログラム11が、機能拡張ボードや機能拡張ユニットに備わるメモリ13にロードされ、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU12などが実際の処理の一部または全部を行い、その処理によって、上述した実施例の機能が実現される場合も含まれる。
さらに、上述したプログラム11をサーバコンピュータの磁気ディスクなどの記憶装置に格納しておき、通信網で接続されたユーザのコンピュータからダウンロードの形式で頒布する場合、このサーバコンピュータの記憶装置も本発明の記録媒体に含まれる。
また、2つの文書のURLを元に距離を計算して、今見ている文書と近い場所にある文書を検索するので、URLが対象のハイパーテキスト文書集合の構造をよく表している場合に、ある文書の近くにある、所望の文書を得ることができることができる。
さらに、文書間の類似度を元に距離を計算して、今見ている文書と近い場所にある文書を検索するので、ユーザはハイパーテキスト中のリンクを辿りながら、または文書検索をして検索結果を調べている最中に、今見ている文書が近いと思ったときに検索を実行し、所望の文書を得ることができる。
検索結果を距離の近い順にソートするので、ユーザはハイパーテキスト中のリンクを辿りながら、所望の文書の近くに来ている場合には、容易に、所望の文書を見つけることができることができる。
本発明は、ハイパーテキスト、とくにWWWなどの文書間にリンクが張られている文書集合を対象とした文書検索技術、WWWや文書の検索システムに、とくに企業や団体が自分のWWWサイトやイントラネット専用の検索エンジンを構築する場合に使用される。
2 文書DB(データベース)
3 文書間距離計算部
4 検索部
5 ソート部
10 OS(オペレーションシステム)
11 検索システムプログラム
12 CPU
13 記録媒体(メモリ)
14 CD−ROMドライブ
Claims (6)
- WWW、ハイパーテキストなどの文書集合から、文書を収集し、文書データベースとして格納する収集部と、文書間の距離を計算する文書間距離計算部と、検索文字列を指定して文書を検索する検索部からなり、該検索部が今見ている文書との文書間の距離を加味して検索することを特徴とする検索システム。
- 前記文書間距離計算部は、文書間のリンクを辿る最少回数を距離とすることを特徴とする請求項1記載の検索システム。
- 前記文書間距離計算部は、文書の類似度を距離とすることを特徴とする請求項1記載の検索システム。
- 文書間の距離の近い順にソートするソート部を更に備え、該ソート部は検索結果を、指定した文書との文書間の距離の近い順にソートすることを特徴とする請求項1または2記載の検索システム。
- 請求項1ないし4のいずれか1項に記載の検索システムとして機能させるためのプログラムを使用することを特徴とするコンピュータ。
- 請求項5記載の検索システムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004016333A JP2005209043A (ja) | 2004-01-23 | 2004-01-23 | 検索システム、コンピュータ及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004016333A JP2005209043A (ja) | 2004-01-23 | 2004-01-23 | 検索システム、コンピュータ及び記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005209043A true JP2005209043A (ja) | 2005-08-04 |
Family
ID=34901522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004016333A Pending JP2005209043A (ja) | 2004-01-23 | 2004-01-23 | 検索システム、コンピュータ及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005209043A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013069136A (ja) * | 2011-09-22 | 2013-04-18 | Fuji Xerox Co Ltd | 検索装置及びプログラム |
JP2013131247A (ja) * | 2013-03-22 | 2013-07-04 | Nomura Research Institute Ltd | 情報提供装置、情報提供方法および情報処理装置 |
JP2013140607A (ja) * | 2005-11-30 | 2013-07-18 | Microsoft Corp | ネットワークを用いてフォーカスされたサーチ |
JP2014238889A (ja) * | 2014-09-11 | 2014-12-18 | 株式会社野村総合研究所 | 情報処理装置 |
-
2004
- 2004-01-23 JP JP2004016333A patent/JP2005209043A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013140607A (ja) * | 2005-11-30 | 2013-07-18 | Microsoft Corp | ネットワークを用いてフォーカスされたサーチ |
JP2013069136A (ja) * | 2011-09-22 | 2013-04-18 | Fuji Xerox Co Ltd | 検索装置及びプログラム |
JP2013131247A (ja) * | 2013-03-22 | 2013-07-04 | Nomura Research Institute Ltd | 情報提供装置、情報提供方法および情報処理装置 |
JP2014238889A (ja) * | 2014-09-11 | 2014-12-18 | 株式会社野村総合研究所 | 情報処理装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101311022B1 (ko) | 클릭 간격 결정 | |
KR101076894B1 (ko) | 앵커 텍스트를 랭킹 검색 결과에 통합하는 시스템 및 방법 | |
JP4976666B2 (ja) | 情報検索システムにおけるフレーズ識別方法 | |
Zhao et al. | SmartCrawler: a two-stage crawler for efficiently harvesting deep-web interfaces | |
JP4944406B2 (ja) | フレーズに基づく文書説明の生成方法 | |
JP5492187B2 (ja) | 編集距離および文書情報を使用する検索結果順位付け | |
JP4944405B2 (ja) | 情報検索システムにおけるフレーズに基づくインデックス化方法 | |
US7949648B2 (en) | Compiling and accessing subject-specific information from a computer network | |
JP5175005B2 (ja) | 情報検索システムにおけるフレーズに基づく検索方法 | |
US20160004704A1 (en) | Document retrieval using internal dictionary-hierarchies to adjust per-subject match results | |
US20060288001A1 (en) | System and method for dynamically identifying the best search engines and searchable databases for a query, and model of presentation of results - the search assistant | |
US7698294B2 (en) | Content object indexing using domain knowledge | |
CN108304444A (zh) | 信息查询方法及装置 | |
KR20070086804A (ko) | 연관된 콘텐트 검색에서 위치 유사 문턱값의 조정 | |
JP2005209043A (ja) | 検索システム、コンピュータ及び記録媒体 | |
US7895232B2 (en) | Object-oriented twig query evaluation | |
JPH11338869A (ja) | 情報推薦方法及びシステム及び情報推薦プログラムを格納した記憶媒体及び情報蓄積方法及び装置及び情報蓄積プログラムを格納した記憶媒体 | |
Trotman et al. | Identifying and ranking relevant document elements | |
EP1288794A1 (en) | Methods of ordering and of retrieving information from a corpus of documents and database system for the same | |
JP2005122509A (ja) | 階層構造データ分析方法、分析装置および分析プログラム | |
KR100884889B1 (ko) | 검색 데이터베이스의 자동 색인어 추가 방법 및 시스템 | |
JP3422396B2 (ja) | 観点に基づく類似検索方法 | |
KR20050004274A (ko) | 검색엔진과, 검색시스템, 검색시스템에서의 데이터베이스작성방법 및, 기억매체 | |
JP2010122932A (ja) | 文書検索装置、文書検索方法、および文書検索プログラム | |
KR100932046B1 (ko) | 도서 검색 방법 및 도서 검색 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070110 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20070122 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090731 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090811 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091009 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20091117 |