JP2005209043A

JP2005209043A - 検索システム、コンピュータ及び記録媒体

Info

Publication number: JP2005209043A
Application number: JP2004016333A
Authority: JP
Inventors: Atsushi Ito; 篤伊藤
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2004-01-23
Filing date: 2004-01-23
Publication date: 2005-08-04

Abstract

【課題】文書を検索中に近くまで検索されていて、あと少しで見つからないという場合に、ユーザがハイパーテキスト中の今見ている文書の近くだけを検索して所望の文書を得ることができ、効果的に所望の文書を検索する検索システムを提供する。
【解決手段】ＷＷＷ、ハイパーテキストなどの文書集合から、文書を収集し、文書データベース２として格納する収集部１と、文書間の距離を計算する文書間距離計算部３と、検索文字列を指定して文書を検索する検索部４からなり、この検索部４が今見ている文書との文書間の距離を加味して検索する検索システム。
【選択図】図１

Description

本発明は、ハイパーテキスト、特にＷＷＷなどの文書間にリンクが張られている文書集合を対象とした文書検索技術、及びＷＷＷや文書の検索システムに関するものである。

従来では、とくに企業や団体が自分のＷＷＷサイトやイントラネット専用の検索エンジンを構築する場合には、文書間距離計算、入力された検索条件に基づいて検索、文書間の距離に応じた順で、検索結果を順序付けすることが知られている（特許文献１ないし４参照）。特に、ハイパーテキストのようなリンク付けされた文書に含まれる単語の出現頻度から文書間距離を計算することが特許文献２に開示されており、また、蓄積された文書データを検索条件にしたがって検索し、結果をソート条件にしたがって並べ替えることが特許文献３に開示されている。
特開２０００−３３１０１６公報特開平１０−０２７１２５号公報特開２００１−１０９７６６公報特開２００２−２６９１４０公報

しかしながら、ハイパーテキストのリンクを辿りながら、文書を探している場合、なかなか見つからないことがある。このようなときに、ユーザは検索を行なうことができるが、今度はそれまで辿ったリンクを無視して検索するので、膨大な量の検索結果を得、その中から所望の文書を見つけることが難しくなる。
本発明の目的は、上述した実情を考慮して、近くまで来ていながら後少しで見つからないという場合に、ユーザがハイパーテキスト中の今見ている文書の近くだけを検索して所望の文書を得ることができる、効果的に所望の文書を検索する検索システムを提供することにある。

上記の課題を解決するために、請求項１に記載の発明は、ＷＷＷ、ハイパーテキストなどの文書集合から、文書を収集し、文書データベースとして格納する収集部と、文書間の距離を計算する文書間距離計算部と、検索文字列を指定して文書を検索する検索部からなり、この検索部が今見ている文書との文書間の距離を加味して検索する検索システムを特徴とする。
また、請求項２に記載の発明は、前記文書間距離計算部を有し、文書間のリンクを辿る最少回数を距離とする請求項１記載の検索システムを特徴とする。
また、請求項３に記載の発明は、前記文書間距離計算部を有し、文書の類似度を距離とする請求項１記載の検索システムを特徴とする。
また、請求項４に記載の発明は、文書間の距離の近い順にソートするソート部を更に備え、該ソート部は検索結果を、指定した文書との文書間の距離の近い順にソートすることを特徴とする。
また、請求項５に記載の発明は、請求項１ないし４のいずれか１項に記載の検索システムとして機能させるためのプログラムを使用するコンピュータを特徴とする。
また、請求項６に記載の発明は、請求項５記載の検索システムを記録したコンピュータ読み取り可能な記録媒体を特徴とする。

本発明によれば、文書間のリンクを基に距離を計算して、今見ている文書と近い場所にある文書を検索するので、ユーザはハイパーテキスト中のリンクを辿りながら、この近くに文書がありそうだと思ったときに検索を実行し、所望の文書を効率良く得ることができる。

図１は本発明による検索システムの第１の実施の形態を示す概略図である。ユーザが、ハイパーテキスト上の現在見ている文書から、距離２以内の文書を検索する第１の場合について考える。
ステップ１では、収集部１はＷＷＷなどから文書を収集する。収集はリンクを辿ることで行なわれ、クローリングなどと呼ばれる技術であるので、詳細は省略する。
図２は図１の収集部で収集した結果を示す図である。収集した結果は、例えば、図２のようになる。なお、番号は収集時に文書に順番に付けられた番号である。また、ＵＲＬは文書を特定する文字列である。
リンク先には、この文書から辿ることのできる文書の文書番号を「，」で区切って入れている。直接ＵＲＬを入れてもかまわない。さらに、文書のタイトルと本文が入る。
図３は文書間距離表を示す図である。ステップ２では文書間距離計算部３によって、全ての文書間の距離を計算する。これは、文書をノードと見立ててグラフの最短距離を求めるという、よく知られた技術であるため、詳細は省略する。この結果、文書間距離表は図３のようになる。
ステップ３では、ユーザは現在見ている文書（例えば文書番号＝３）から検索を行なう。ここでは、今見ているハイパーテキスト上の文書番号を３とする。また、この文書から距離２以内の文書を検索語「平和」で検索することを考える。
ステップ４では、文書ＤＢ（データベース）２中の文書を順に見ていき、本文に検索文字列「平和」を含む文書を探す。ステップ５では、見つけたら、次に文書間距離表で距離が２以下であるかを調べる。ステップ６では、条件を満たせば、返すべき文書とする。図４は検索の結果を示す図である。検索の結果、図４に示すような文書が得られる。
以上のように、複数の文書が見つかる。この実施の形態では説明の都合上少数の文書しか見つからないが、距離を大きくすればそれに応じて、見つかる文書数は増大し、その中から所望の文書を見つけることが難しくなる。
次に、ユーザが、先程よりも狭い範囲（距離１）以内の文書を検索する第２の場合について考える。
ステップ７では、ユーザは、現在見ている文書（例えば、文書番号＝３）から、検索を行なう。ここでは、今見ているハイパーテキスト上の文書番号を３とする。また、この文書から距離１以内の文書を検索語「平和」で検索することを考える。
ステップ７では、文書ＤＢ２中の文書を順に見ていき、本文に検索文字列「平和」を含む文書を探す。ステップ８では、見つけたら、次に文書間距離表で距離が１以下であるかを調べる。ステップ９では、条件を満たせば、返すべき文書とする。
図５は検索の結果、得られた文書を示す図である。図５に示すような文書が検索の結果得られる。今回は、先程よりも狭い範囲で検索が行われたため、ユーザが今見ている文書の近くに所望の文書がありそうだと思っているときには、より正しく文書を見つけることができる。

図１において、ユーザが、ハイパーテキスト上の現在いる文書から、距離２以内の文書を検索する第３の場合について考える。
ステップ１では、収集部１は、ＷＷＷなどから文書を収集する。収集は、リンクを辿ることで行なわれ、クローリングなどと呼ばれる技術であるので、詳細は省略する。収集した結果は、例えば、図２のようになる。
なお、番号は収集時に文書に順番につけられた番号である。また、ＵＲＬは文書を特定する文字列である。リンク先には、この文書から辿ることのできる文書の文書番号を「，」で区切って入れている。直接、ＵＲＬを入れてもかまわない。さらに、文書のタイトルと本文が入る。
ステップ２では、文書間距離計算部３によって、全ての文書間の距離を計算する。これは、２つのＵＲＬの類似度をもって、距離とする。ステップ３では、全ての２つの文書間について１つ１つ、それぞれ距離を調べる。
ステップ４では、或るＵＲＬと別のＵＲＬの距離は次のように計算する。すなわち、ステップ５：それぞれのＵＲＬをセパレータ（／）で区切る。ステップ６：区切ったトークンを、前から見ていき、一致しなくなった場所からの、それぞれの残りのトークンの数を加えて、距離とする。
これは、ＵＲＬをディレクトリ階層とみたときの、あるディレクトリから別のディレクトリに移動する距離に等しい。例えば、「http://index.htm」と「http://aaa/ccc.htm」の２つのＵＲＬについて距離を調べてみる。
１番目のトークン：「http:」なので一致する。
２番目のトークン：「」なので一致する。
３番目のトークン：「index.htm」と「aaa」なので一致しない。
残りのトークンの和（１＋２＋３）を返す。図６は文書間距離表を示す図である。この結果、文書間距離表は図６のようになる。
ステップ７では、ユーザは現在見ている文書（例えば文書番号＝７）から、検索を行なう。そこでは、現在見ているハイパーテキスト上の文書番号を７とする。また、この文書から距離５以内の文書を検索語「発見」で検索することを考える。
ステップ８では、文書ＤＢ２中の文書を順に見ていき、本文に検索文字列「発見」を含む文書を探す。ステップ９では、見つけたら、次に文書間距離表で距離が５以下であるかを調べる。ステップ１０では、条件を満たせば、返すべき文書とする。図７は検索の結果得られた文書を示す図である。
以上のように、複数の文書が見つかる。この実施の形態では説明の都合上少数の文書しか見つからないが、距離を大きくすればそれに応じて、見つかる文書数は増大し、その中から所望の文書を見つけることが難しくなる。

次に、ユーザが、先程よりも狭い範囲（距離１）以内の文書を検索する第４の場合について考える。
ステップ１１では、ユーザは、現在見ている文書（例えば文書番号＝７）から、検索を行なう。ここでは、今見ているハイパーテキスト上の文書番号を７とする。また、この文書から距離３以内の文書を検索語「発見」で検索することを考える。
ステップ１２では、文書ＤＢ２中の文書を順に見ていき、本文に検索文字列「発見」を含む文書を探す。ステップ１３では、見つけたら、次に文書間距離表で距離が３以下であるかを調べる。
ステップ１３では、条件を満たせば、返すべき文書とする。図８は検索の結果得られる文書を示す図である。
今回は先程よりも狭い範囲で検索が行われたため、ユーザが今見ている文書の近くに所望の文書がありそうだと思っているときには、より正しく文書を見つけることができる。

図１において、ユーザが、ハイパーテキスト上の現在いる文書から、距離５以内の文書を検索する第５の実施の形態の場合について考える。
ステップ１では、収集部１は、ＷＷＷなどから文書を収集する。収集は、リンクを辿ることで行なわれ、クローリングなどと呼ばれる技術であるので、詳細は省略する。収集した結果は、例えば、図２のようになる。
なお、番号は、収集時に文書に順番につけられた番号である。また、ＵＲＬは文書を特定する文字列である。リンク先には、この文書から辿ることのできる文書の文書番号を「，」で区切って入れている。直接ＵＲＬを入れてもかまわない。さらに、文書のタイトルと本文が入る。
ステップ２では、文書間距離計算部３によって、全ての文書間の距離を計算する。これは、２つの文書の類似度をもって、距離とする。類似度を求めることは類似検索と呼ばれる技術によって一般に行われていることである。
したがって、詳細は省略するが、例えば、文書からキーワードを抽出し（キーワード抽出技術は公知）、一致するキーワードの数によって、類似度とすることができる。類似度から距離は、例えば、逆数をとることで、類似度が高くなるほど距離が近くなり、類似度が低くなるほど距離を遠くすることができる。
ステップ３では、全ての２つの文書間について１つ１つ、それぞれ距離を調べる。ステップ４では、ある文書と別の文書の距離は次のように計算する。ステップ５では、それぞれの文書から、形態素解析技術によってキーワードを抽出する。
ステップ６では、両方の文書にあるキーワードの数を数える。この数の逆数を便宜上１０倍距離とする。図９は逆数の結果から得られる文書間距離表を示す図である。
ステップ７では、ユーザは、現在見ている文書（例えば文書番号＝１１）から、検索を行なう。ここでは、今見ているハイパーテキスト上の文書番号を１１とする。また、この文書から距離５以内の文書を検索語「戦争」で検索することを考える。
ステップ８では、文書ＤＢ２中の文書を順に見ていき、本文に検索文字列「戦争」を含む文書探す。ステップ９では、見つけたら、次に文書間距離表で距離が５以下であるかを調べる。
ステップ１０では、条件を満たせば、返すべき文書とする。図１０は検索の結果、得られる文書を示す図である。以上のように、ユーザが今見ている文書が探したい文書と似ていると思ったときに、より正しく文書を見つけることができる。

図１１は本発明による検索システムの第２の実施の形態を示す概略図である。図１１において、ユーザが、ハイパーテキスト上の現在いる文書から、文書を検索する場合について考える。
ステップ１では、収集部１は、ＷＷＷなどから文書を収集する。収集は、リンクを辿ることで行なわれ、クローリングなどと呼ばれる技術であるので、詳細は省略する。収集した結果は、例えば、図２のようになる。
なお、番号は、収集時に文書に順番につけられた番号である。また、ＵＲＬは文書を特定する文字列である。リンク先には、この文書から辿ることのできる文書の文書番号を「，」で区切って入れている。直接ＵＲＬを入れてもかまわない。さらに、文書のタイトルと本文が入る。
ステップ２では、文書間距離計算部３によって、全ての文書間の距離を計算する。これは、文書をノードと見立ててグラフの最短距離を求めるという、よく知られた技術であるため、詳細は省略する。この結果、文書間距離表は図３のようになる。
ステップ３では、ユーザは、現在見ている文書（例えば文書番号＝９）から、検索を行なう。ここでは、今見ているハイパーテキスト上の文書番号を９とする。さらに、文書を検索語「発見」で検索することを考える。検索の結果、図７に示す文書が得られる。
ステップ４では、文書間距離表を用いて、文書を文書（文書番号＝９）に近い順にソート部５でソートする。ステップ５では、これには、単純に、個々の文書について距離を求め、ソートすればよい。ソート技術はよく知られた技術であるため詳細は省略する。図１２はソートの結果得られる文書を示す図である。

図１３は本発明による検索システムの各機能をそれぞれプログラム化した構成を示す第３の実施の形態の構成図である。図１３に示すように、上述した実施の形態を構成する各機能をそれぞれプログラム化し、予めＣＤ−ＲＯＭ１４などの記録媒体に書き込んでおく。
このＣＤ−ＲＯＭをＣＤ−ＲＯＭドライブのような媒体駆動装置を搭載したコンピュータに装着して、これらのプログラムをコンピュータのメモリあるいはハードディスクのような記憶装置に格納し、それを実行することによっても、本発明の目的を達成できる。
この場合、記録媒体から読み出されたプログラム自体が上述した実施の形態の機能を実現することになり、そのプログラムおよびそのプログラムを記録した記録媒体も本発明を構成することになる。
なお、記録媒体としては半導体媒体（例えば、ＲＯＭ、不揮発性メモリカードなど）、光媒体（例えば、ＤＶＤ、ＭＯ、ＭＤ、ＣＤ−Ｒ等）、磁気媒体（例えば、磁気テープ、フレキシブルディスク等）のいずれであってもよい。
また、ロードしたプログラムを実行することにより上述した実施の形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、オペレーティングシステム（ＯＳ）１０などが実際の処理の一部または全部を行い、その処理によって上述した実施の形態の機能が実現される場合も含まれる。
また、上述した実施の形態の機能を実現するプログラム１１が、機能拡張ボードや機能拡張ユニットに備わるメモリ１３にロードされ、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵ１２などが実際の処理の一部または全部を行い、その処理によって、上述した実施例の機能が実現される場合も含まれる。
さらに、上述したプログラム１１をサーバコンピュータの磁気ディスクなどの記憶装置に格納しておき、通信網で接続されたユーザのコンピュータからダウンロードの形式で頒布する場合、このサーバコンピュータの記憶装置も本発明の記録媒体に含まれる。
また、２つの文書のＵＲＬを元に距離を計算して、今見ている文書と近い場所にある文書を検索するので、ＵＲＬが対象のハイパーテキスト文書集合の構造をよく表している場合に、ある文書の近くにある、所望の文書を得ることができることができる。
さらに、文書間の類似度を元に距離を計算して、今見ている文書と近い場所にある文書を検索するので、ユーザはハイパーテキスト中のリンクを辿りながら、または文書検索をして検索結果を調べている最中に、今見ている文書が近いと思ったときに検索を実行し、所望の文書を得ることができる。
検索結果を距離の近い順にソートするので、ユーザはハイパーテキスト中のリンクを辿りながら、所望の文書の近くに来ている場合には、容易に、所望の文書を見つけることができることができる。
本発明は、ハイパーテキスト、とくにＷＷＷなどの文書間にリンクが張られている文書集合を対象とした文書検索技術、ＷＷＷや文書の検索システムに、とくに企業や団体が自分のＷＷＷサイトやイントラネット専用の検索エンジンを構築する場合に使用される。

本発明による検索システムの第１の実施の形態を示す概略図である。図１の収集部で収集した結果を示す図である。文書間距離表を示す図である。検索の結果を示す図である。検索の結果、得られた文書を示す図である。文書間距離表を示す図である。検索の結果得られた文書を示す図である。検索の結果得られる文書を示す図である。逆数の結果から得られる文書間距離表を示す図である。検索の結果、得られる文書を示す図である。本発明による検索システムの第２の実施の形態を示す概略図である。ソートの結果得られる文書を示す図である。本発明による検索システムの各機能をそれぞれプログラム化した構成を示す第３の実施の形態の構成図である。

符号の説明

１収集部
２文書ＤＢ（データベース）
３文書間距離計算部
４検索部
５ソート部
１０ＯＳ（オペレーションシステム）
１１検索システムプログラム
１２ＣＰＵ
１３記録媒体（メモリ）
１４ＣＤ−ＲＯＭドライブ

Claims

ＷＷＷ、ハイパーテキストなどの文書集合から、文書を収集し、文書データベースとして格納する収集部と、文書間の距離を計算する文書間距離計算部と、検索文字列を指定して文書を検索する検索部からなり、該検索部が今見ている文書との文書間の距離を加味して検索することを特徴とする検索システム。
前記文書間距離計算部は、文書間のリンクを辿る最少回数を距離とすることを特徴とする請求項１記載の検索システム。
前記文書間距離計算部は、文書の類似度を距離とすることを特徴とする請求項１記載の検索システム。
文書間の距離の近い順にソートするソート部を更に備え、該ソート部は検索結果を、指定した文書との文書間の距離の近い順にソートすることを特徴とする請求項１または２記載の検索システム。
請求項１ないし４のいずれか１項に記載の検索システムとして機能させるためのプログラムを使用することを特徴とするコンピュータ。
請求項５記載の検索システムを記録したコンピュータ読み取り可能な記録媒体。