JP2005209043A - 検索システム、コンピュータ及び記録媒体 - Google Patents

検索システム、コンピュータ及び記録媒体 Download PDF

Info

Publication number
JP2005209043A
JP2005209043A JP2004016333A JP2004016333A JP2005209043A JP 2005209043 A JP2005209043 A JP 2005209043A JP 2004016333 A JP2004016333 A JP 2004016333A JP 2004016333 A JP2004016333 A JP 2004016333A JP 2005209043 A JP2005209043 A JP 2005209043A
Authority
JP
Japan
Prior art keywords
document
distance
documents
search
inter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004016333A
Other languages
English (en)
Inventor
Atsushi Ito
篤 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2004016333A priority Critical patent/JP2005209043A/ja
Publication of JP2005209043A publication Critical patent/JP2005209043A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 文書を検索中に近くまで検索されていて、あと少しで見つからないという場合に、ユーザがハイパーテキスト中の今見ている文書の近くだけを検索して所望の文書を得ることができ、効果的に所望の文書を検索する検索システムを提供する。
【解決手段】 WWW、ハイパーテキストなどの文書集合から、文書を収集し、文書データベース2として格納する収集部1と、文書間の距離を計算する文書間距離計算部3と、検索文字列を指定して文書を検索する検索部4からなり、この検索部4が今見ている文書との文書間の距離を加味して検索する検索システム。
【選択図】 図1

Description

本発明は、ハイパーテキスト、特にWWWなどの文書間にリンクが張られている文書集合を対象とした文書検索技術、及びWWWや文書の検索システムに関するものである。
従来では、とくに企業や団体が自分のWWWサイトやイントラネット専用の検索エンジンを構築する場合には、文書間距離計算、入力された検索条件に基づいて検索、文書間の距離に応じた順で、検索結果を順序付けすることが知られている(特許文献1ないし4参照)。特に、ハイパーテキストのようなリンク付けされた文書に含まれる単語の出現頻度から文書間距離を計算することが特許文献2に開示されており、また、蓄積された文書データを検索条件にしたがって検索し、結果をソート条件にしたがって並べ替えることが特許文献3に開示されている。
特開2000−331016公報 特開平10−027125号公報 特開2001−109766公報 特開2002−269140公報
しかしながら、ハイパーテキストのリンクを辿りながら、文書を探している場合、なかなか見つからないことがある。このようなときに、ユーザは検索を行なうことができるが、今度はそれまで辿ったリンクを無視して検索するので、膨大な量の検索結果を得、その中から所望の文書を見つけることが難しくなる。
本発明の目的は、上述した実情を考慮して、近くまで来ていながら後少しで見つからないという場合に、ユーザがハイパーテキスト中の今見ている文書の近くだけを検索して所望の文書を得ることができる、効果的に所望の文書を検索する検索システムを提供することにある。
上記の課題を解決するために、請求項1に記載の発明は、WWW、ハイパーテキストなどの文書集合から、文書を収集し、文書データベースとして格納する収集部と、文書間の距離を計算する文書間距離計算部と、検索文字列を指定して文書を検索する検索部からなり、この検索部が今見ている文書との文書間の距離を加味して検索する検索システムを特徴とする。
また、請求項2に記載の発明は、前記文書間距離計算部を有し、文書間のリンクを辿る最少回数を距離とする請求項1記載の検索システムを特徴とする。
また、請求項3に記載の発明は、前記文書間距離計算部を有し、文書の類似度を距離とする請求項1記載の検索システムを特徴とする。
また、請求項4に記載の発明は、文書間の距離の近い順にソートするソート部を更に備え、該ソート部は検索結果を、指定した文書との文書間の距離の近い順にソートすることを特徴とする。
また、請求項5に記載の発明は、請求項1ないし4のいずれか1項に記載の検索システムとして機能させるためのプログラムを使用するコンピュータを特徴とする。
また、請求項6に記載の発明は、請求項5記載の検索システムを記録したコンピュータ読み取り可能な記録媒体を特徴とする。
本発明によれば、文書間のリンクを基に距離を計算して、今見ている文書と近い場所にある文書を検索するので、ユーザはハイパーテキスト中のリンクを辿りながら、この近くに文書がありそうだと思ったときに検索を実行し、所望の文書を効率良く得ることができる。
図1は本発明による検索システムの第1の実施の形態を示す概略図である。ユーザが、ハイパーテキスト上の現在見ている文書から、距離2以内の文書を検索する第1の場合について考える。
ステップ1では、収集部1はWWWなどから文書を収集する。収集はリンクを辿ることで行なわれ、クローリングなどと呼ばれる技術であるので、詳細は省略する。
図2は図1の収集部で収集した結果を示す図である。収集した結果は、例えば、図2のようになる。なお、番号は収集時に文書に順番に付けられた番号である。また、URLは文書を特定する文字列である。
リンク先には、この文書から辿ることのできる文書の文書番号を「,」で区切って入れている。直接URLを入れてもかまわない。さらに、文書のタイトルと本文が入る。
図3は文書間距離表を示す図である。ステップ2では文書間距離計算部3によって、全ての文書間の距離を計算する。これは、文書をノードと見立ててグラフの最短距離を求めるという、よく知られた技術であるため、詳細は省略する。この結果、文書間距離表は図3のようになる。
ステップ3では、ユーザは現在見ている文書(例えば文書番号=3)から検索を行なう。ここでは、今見ているハイパーテキスト上の文書番号を3とする。また、この文書から距離2以内の文書を検索語「平和」で検索することを考える。
ステップ4では、文書DB(データベース)2中の文書を順に見ていき、本文に検索文字列「平和」を含む文書を探す。ステップ5では、見つけたら、次に文書間距離表で距離が2以下であるかを調べる。ステップ6では、条件を満たせば、返すべき文書とする。図4は検索の結果を示す図である。検索の結果、図4に示すような文書が得られる。
以上のように、複数の文書が見つかる。この実施の形態では説明の都合上少数の文書しか見つからないが、距離を大きくすればそれに応じて、見つかる文書数は増大し、その中から所望の文書を見つけることが難しくなる。
次に、ユーザが、先程よりも狭い範囲(距離1)以内の文書を検索する第2の場合について考える。
ステップ7では、ユーザは、現在見ている文書(例えば、文書番号=3)から、検索を行なう。ここでは、今見ているハイパーテキスト上の文書番号を3とする。また、この文書から距離1以内の文書を検索語「平和」で検索することを考える。
ステップ7では、文書DB2中の文書を順に見ていき、本文に検索文字列「平和」を含む文書を探す。ステップ8では、見つけたら、次に文書間距離表で距離が1以下であるかを調べる。ステップ9では、条件を満たせば、返すべき文書とする。
図5は検索の結果、得られた文書を示す図である。図5に示すような文書が検索の結果得られる。今回は、先程よりも狭い範囲で検索が行われたため、ユーザが今見ている文書の近くに所望の文書がありそうだと思っているときには、より正しく文書を見つけることができる。
図1において、ユーザが、ハイパーテキスト上の現在いる文書から、距離2以内の文書を検索する第3の場合について考える。
ステップ1では、収集部1は、WWWなどから文書を収集する。収集は、リンクを辿ることで行なわれ、クローリングなどと呼ばれる技術であるので、詳細は省略する。収集した結果は、例えば、図2のようになる。
なお、番号は収集時に文書に順番につけられた番号である。また、URLは文書を特定する文字列である。リンク先には、この文書から辿ることのできる文書の文書番号を「,」で区切って入れている。直接、URLを入れてもかまわない。さらに、文書のタイトルと本文が入る。
ステップ2では、文書間距離計算部3によって、全ての文書間の距離を計算する。これは、2つのURLの類似度をもって、距離とする。ステップ3では、全ての2つの文書間について1つ1つ、それぞれ距離を調べる。
ステップ4では、或るURLと別のURLの距離は次のように計算する。すなわち、ステップ5:それぞれのURLをセパレータ(/)で区切る。ステップ6:区切ったトークンを、前から見ていき、一致しなくなった場所からの、それぞれの残りのトークンの数を加えて、距離とする。
これは、URLをディレクトリ階層とみたときの、あるディレクトリから別のディレクトリに移動する距離に等しい。例えば、「http://index.htm」と「http://aaa/ccc.htm」の2つのURLについて距離を調べてみる。
1番目のトークン:「http:」なので一致する。
2番目のトークン:「」なので一致する。
3番目のトークン:「index.htm」と「aaa」なので一致しない。
残りのトークンの和(1+2+3)を返す。図6は文書間距離表を示す図である。この結果、文書間距離表は図6のようになる。
ステップ7では、ユーザは現在見ている文書(例えば文書番号=7)から、検索を行なう。そこでは、現在見ているハイパーテキスト上の文書番号を7とする。また、この文書から距離5以内の文書を検索語「発見」で検索することを考える。
ステップ8では、文書DB2中の文書を順に見ていき、本文に検索文字列「発見」を含む文書を探す。ステップ9では、見つけたら、次に文書間距離表で距離が5以下であるかを調べる。ステップ10では、条件を満たせば、返すべき文書とする。図7は検索の結果得られた文書を示す図である。
以上のように、複数の文書が見つかる。この実施の形態では説明の都合上少数の文書しか見つからないが、距離を大きくすればそれに応じて、見つかる文書数は増大し、その中から所望の文書を見つけることが難しくなる。
次に、ユーザが、先程よりも狭い範囲(距離1)以内の文書を検索する第4の場合について考える。
ステップ11では、ユーザは、現在見ている文書(例えば文書番号=7)から、検索を行なう。ここでは、今見ているハイパーテキスト上の文書番号を7とする。また、この文書から距離3以内の文書を検索語「発見」で検索することを考える。
ステップ12では、文書DB2中の文書を順に見ていき、本文に検索文字列「発見」を含む文書を探す。ステップ13では、見つけたら、次に文書間距離表で距離が3以下であるかを調べる。
ステップ13では、条件を満たせば、返すべき文書とする。図8は検索の結果得られる文書を示す図である。
今回は先程よりも狭い範囲で検索が行われたため、ユーザが今見ている文書の近くに所望の文書がありそうだと思っているときには、より正しく文書を見つけることができる。
図1において、ユーザが、ハイパーテキスト上の現在いる文書から、距離5以内の文書を検索する第5の実施の形態の場合について考える。
ステップ1では、収集部1は、WWWなどから文書を収集する。収集は、リンクを辿ることで行なわれ、クローリングなどと呼ばれる技術であるので、詳細は省略する。収集した結果は、例えば、図2のようになる。
なお、番号は、収集時に文書に順番につけられた番号である。また、URLは文書を特定する文字列である。リンク先には、この文書から辿ることのできる文書の文書番号を「,」で区切って入れている。直接URLを入れてもかまわない。さらに、文書のタイトルと本文が入る。
ステップ2では、文書間距離計算部3によって、全ての文書間の距離を計算する。これは、2つの文書の類似度をもって、距離とする。類似度を求めることは類似検索と呼ばれる技術によって一般に行われていることである。
したがって、詳細は省略するが、例えば、文書からキーワードを抽出し(キーワード抽出技術は公知)、一致するキーワードの数によって、類似度とすることができる。類似度から距離は、例えば、逆数をとることで、類似度が高くなるほど距離が近くなり、類似度が低くなるほど距離を遠くすることができる。
ステップ3では、全ての2つの文書間について1つ1つ、それぞれ距離を調べる。ステップ4では、ある文書と別の文書の距離は次のように計算する。ステップ5では、それぞれの文書から、形態素解析技術によってキーワードを抽出する。
ステップ6では、両方の文書にあるキーワードの数を数える。この数の逆数を便宜上10倍距離とする。図9は逆数の結果から得られる文書間距離表を示す図である。
ステップ7では、ユーザは、現在見ている文書(例えば文書番号=11)から、検索を行なう。ここでは、今見ているハイパーテキスト上の文書番号を11とする。また、この文書から距離5以内の文書を検索語「戦争」で検索することを考える。
ステップ8では、文書DB2中の文書を順に見ていき、本文に検索文字列「戦争」を含む文書探す。ステップ9では、見つけたら、次に文書間距離表で距離が5以下であるかを調べる。
ステップ10では、条件を満たせば、返すべき文書とする。図10は検索の結果、得られる文書を示す図である。以上のように、ユーザが今見ている文書が探したい文書と似ていると思ったときに、より正しく文書を見つけることができる。
図11は本発明による検索システムの第2の実施の形態を示す概略図である。図11において、ユーザが、ハイパーテキスト上の現在いる文書から、文書を検索する場合について考える。
ステップ1では、収集部1は、WWWなどから文書を収集する。収集は、リンクを辿ることで行なわれ、クローリングなどと呼ばれる技術であるので、詳細は省略する。収集した結果は、例えば、図2のようになる。
なお、番号は、収集時に文書に順番につけられた番号である。また、URLは文書を特定する文字列である。リンク先には、この文書から辿ることのできる文書の文書番号を「,」で区切って入れている。直接URLを入れてもかまわない。さらに、文書のタイトルと本文が入る。
ステップ2では、文書間距離計算部3によって、全ての文書間の距離を計算する。これは、文書をノードと見立ててグラフの最短距離を求めるという、よく知られた技術であるため、詳細は省略する。この結果、文書間距離表は図3のようになる。
ステップ3では、ユーザは、現在見ている文書(例えば文書番号=9)から、検索を行なう。ここでは、今見ているハイパーテキスト上の文書番号を9とする。さらに、文書を検索語「発見」で検索することを考える。検索の結果、図7に示す文書が得られる。
ステップ4では、文書間距離表を用いて、文書を文書(文書番号=9)に近い順にソート部5でソートする。ステップ5では、これには、単純に、個々の文書について距離を求め、ソートすればよい。ソート技術はよく知られた技術であるため詳細は省略する。図12はソートの結果得られる文書を示す図である。
図13は本発明による検索システムの各機能をそれぞれプログラム化した構成を示す第3の実施の形態の構成図である。図13に示すように、上述した実施の形態を構成する各機能をそれぞれプログラム化し、予めCD−ROM14などの記録媒体に書き込んでおく。
このCD−ROMをCD−ROMドライブのような媒体駆動装置を搭載したコンピュータに装着して、これらのプログラムをコンピュータのメモリあるいはハードディスクのような記憶装置に格納し、それを実行することによっても、本発明の目的を達成できる。
この場合、記録媒体から読み出されたプログラム自体が上述した実施の形態の機能を実現することになり、そのプログラムおよびそのプログラムを記録した記録媒体も本発明を構成することになる。
なお、記録媒体としては半導体媒体(例えば、ROM、不揮発性メモリカードなど)、光媒体(例えば、DVD、MO、MD、CD−R等)、磁気媒体(例えば、磁気テープ、フレキシブルディスク等)のいずれであってもよい。
また、ロードしたプログラムを実行することにより上述した実施の形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、オペレーティングシステム(OS)10などが実際の処理の一部または全部を行い、その処理によって上述した実施の形態の機能が実現される場合も含まれる。
また、上述した実施の形態の機能を実現するプログラム11が、機能拡張ボードや機能拡張ユニットに備わるメモリ13にロードされ、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU12などが実際の処理の一部または全部を行い、その処理によって、上述した実施例の機能が実現される場合も含まれる。
さらに、上述したプログラム11をサーバコンピュータの磁気ディスクなどの記憶装置に格納しておき、通信網で接続されたユーザのコンピュータからダウンロードの形式で頒布する場合、このサーバコンピュータの記憶装置も本発明の記録媒体に含まれる。
また、2つの文書のURLを元に距離を計算して、今見ている文書と近い場所にある文書を検索するので、URLが対象のハイパーテキスト文書集合の構造をよく表している場合に、ある文書の近くにある、所望の文書を得ることができることができる。
さらに、文書間の類似度を元に距離を計算して、今見ている文書と近い場所にある文書を検索するので、ユーザはハイパーテキスト中のリンクを辿りながら、または文書検索をして検索結果を調べている最中に、今見ている文書が近いと思ったときに検索を実行し、所望の文書を得ることができる。
検索結果を距離の近い順にソートするので、ユーザはハイパーテキスト中のリンクを辿りながら、所望の文書の近くに来ている場合には、容易に、所望の文書を見つけることができることができる。
本発明は、ハイパーテキスト、とくにWWWなどの文書間にリンクが張られている文書集合を対象とした文書検索技術、WWWや文書の検索システムに、とくに企業や団体が自分のWWWサイトやイントラネット専用の検索エンジンを構築する場合に使用される。
本発明による検索システムの第1の実施の形態を示す概略図である。 図1の収集部で収集した結果を示す図である。 文書間距離表を示す図である。 検索の結果を示す図である。 検索の結果、得られた文書を示す図である。 文書間距離表を示す図である。 検索の結果得られた文書を示す図である。 検索の結果得られる文書を示す図である。 逆数の結果から得られる文書間距離表を示す図である。 検索の結果、得られる文書を示す図である。 本発明による検索システムの第2の実施の形態を示す概略図である。 ソートの結果得られる文書を示す図である。 本発明による検索システムの各機能をそれぞれプログラム化した構成を示す第3の実施の形態の構成図である。
符号の説明
1 収集部
2 文書DB(データベース)
3 文書間距離計算部
4 検索部
5 ソート部
10 OS(オペレーションシステム)
11 検索システムプログラム
12 CPU
13 記録媒体(メモリ)
14 CD−ROMドライブ

Claims (6)

  1. WWW、ハイパーテキストなどの文書集合から、文書を収集し、文書データベースとして格納する収集部と、文書間の距離を計算する文書間距離計算部と、検索文字列を指定して文書を検索する検索部からなり、該検索部が今見ている文書との文書間の距離を加味して検索することを特徴とする検索システム。
  2. 前記文書間距離計算部は、文書間のリンクを辿る最少回数を距離とすることを特徴とする請求項1記載の検索システム。
  3. 前記文書間距離計算部は、文書の類似度を距離とすることを特徴とする請求項1記載の検索システム。
  4. 文書間の距離の近い順にソートするソート部を更に備え、該ソート部は検索結果を、指定した文書との文書間の距離の近い順にソートすることを特徴とする請求項1または2記載の検索システム。
  5. 請求項1ないし4のいずれか1項に記載の検索システムとして機能させるためのプログラムを使用することを特徴とするコンピュータ。
  6. 請求項5記載の検索システムを記録したコンピュータ読み取り可能な記録媒体。
JP2004016333A 2004-01-23 2004-01-23 検索システム、コンピュータ及び記録媒体 Pending JP2005209043A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004016333A JP2005209043A (ja) 2004-01-23 2004-01-23 検索システム、コンピュータ及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004016333A JP2005209043A (ja) 2004-01-23 2004-01-23 検索システム、コンピュータ及び記録媒体

Publications (1)

Publication Number Publication Date
JP2005209043A true JP2005209043A (ja) 2005-08-04

Family

ID=34901522

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004016333A Pending JP2005209043A (ja) 2004-01-23 2004-01-23 検索システム、コンピュータ及び記録媒体

Country Status (1)

Country Link
JP (1) JP2005209043A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013069136A (ja) * 2011-09-22 2013-04-18 Fuji Xerox Co Ltd 検索装置及びプログラム
JP2013131247A (ja) * 2013-03-22 2013-07-04 Nomura Research Institute Ltd 情報提供装置、情報提供方法および情報処理装置
JP2013140607A (ja) * 2005-11-30 2013-07-18 Microsoft Corp ネットワークを用いてフォーカスされたサーチ
JP2014238889A (ja) * 2014-09-11 2014-12-18 株式会社野村総合研究所 情報処理装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013140607A (ja) * 2005-11-30 2013-07-18 Microsoft Corp ネットワークを用いてフォーカスされたサーチ
JP2013069136A (ja) * 2011-09-22 2013-04-18 Fuji Xerox Co Ltd 検索装置及びプログラム
JP2013131247A (ja) * 2013-03-22 2013-07-04 Nomura Research Institute Ltd 情報提供装置、情報提供方法および情報処理装置
JP2014238889A (ja) * 2014-09-11 2014-12-18 株式会社野村総合研究所 情報処理装置

Similar Documents

Publication Publication Date Title
KR101311022B1 (ko) 클릭 간격 결정
KR101076894B1 (ko) 앵커 텍스트를 랭킹 검색 결과에 통합하는 시스템 및 방법
JP4976666B2 (ja) 情報検索システムにおけるフレーズ識別方法
Zhao et al. SmartCrawler: a two-stage crawler for efficiently harvesting deep-web interfaces
JP4944406B2 (ja) フレーズに基づく文書説明の生成方法
JP5492187B2 (ja) 編集距離および文書情報を使用する検索結果順位付け
JP4944405B2 (ja) 情報検索システムにおけるフレーズに基づくインデックス化方法
US7949648B2 (en) Compiling and accessing subject-specific information from a computer network
JP5175005B2 (ja) 情報検索システムにおけるフレーズに基づく検索方法
US20160004704A1 (en) Document retrieval using internal dictionary-hierarchies to adjust per-subject match results
US20060288001A1 (en) System and method for dynamically identifying the best search engines and searchable databases for a query, and model of presentation of results - the search assistant
US7698294B2 (en) Content object indexing using domain knowledge
CN108304444A (zh) 信息查询方法及装置
KR20070086804A (ko) 연관된 콘텐트 검색에서 위치 유사 문턱값의 조정
JP2005209043A (ja) 検索システム、コンピュータ及び記録媒体
US7895232B2 (en) Object-oriented twig query evaluation
JPH11338869A (ja) 情報推薦方法及びシステム及び情報推薦プログラムを格納した記憶媒体及び情報蓄積方法及び装置及び情報蓄積プログラムを格納した記憶媒体
Trotman et al. Identifying and ranking relevant document elements
EP1288794A1 (en) Methods of ordering and of retrieving information from a corpus of documents and database system for the same
JP2005122509A (ja) 階層構造データ分析方法、分析装置および分析プログラム
KR100884889B1 (ko) 검색 데이터베이스의 자동 색인어 추가 방법 및 시스템
JP3422396B2 (ja) 観点に基づく類似検索方法
KR20050004274A (ko) 검색엔진과, 검색시스템, 검색시스템에서의 데이터베이스작성방법 및, 기억매체
JP2010122932A (ja) 文書検索装置、文書検索方法、および文書検索プログラム
KR100932046B1 (ko) 도서 검색 방법 및 도서 검색 시스템

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070110

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20070122

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090731

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090811

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091009

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20091117