JP2006134169A - 検索エンジンシステム、インデキシング装置、インデックス情報中継装置、および情報検索方法 - Google Patents

検索エンジンシステム、インデキシング装置、インデックス情報中継装置、および情報検索方法 Download PDF

Info

Publication number
JP2006134169A
JP2006134169A JP2004323976A JP2004323976A JP2006134169A JP 2006134169 A JP2006134169 A JP 2006134169A JP 2004323976 A JP2004323976 A JP 2004323976A JP 2004323976 A JP2004323976 A JP 2004323976A JP 2006134169 A JP2006134169 A JP 2006134169A
Authority
JP
Japan
Prior art keywords
index
information
index information
indexing
generated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004323976A
Other languages
English (en)
Inventor
Mitsugi Miura
貢 三浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2004323976A priority Critical patent/JP2006134169A/ja
Publication of JP2006134169A publication Critical patent/JP2006134169A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 検索エンジンシステムを実現するために、高性能なコンピュータを用いなければならない。
【解決手段】 情報のインデックスを生成し、生成したインデックスと、インデックスが生成された情報の位置とを含む情報であるインデックス情報を生成するインデキシング部20と、インデキシング部20が生成したインデックス情報を送信するインデックス通信部22とを含むインデキシング装置200を備える。また、インデキシング装置200から受信したインデックス情報を記憶するインデックスデータベース11と、キーワードが入力されると、入力されたキーワードに合致するインデックスを含むインデックス情報をインデックスデータベース11から抽出して出力する検索部10とを含む検索装置100を備える。すなわち、処理を実行する装置を複数台設け、処理の負担を分散させる。
【選択図】 図1

Description

本発明は、情報のインデックスを生成して、入力されたキーワードに合致する情報の位置を提供する検索エンジンシステム、インデキシング装置、インデックス情報中継装置、および情報検索方法に関する。
入力されたキーワードを含む情報の存在位置を提供する検索エンジンシステムがある。従来の検索エンジンシステムでは、1台のコンピュータが、情報の収集と、収集した情報のインデックス化と、インデックス化した情報の記憶と、インデックス化した情報の検索とを実行していた。非特許文献1には、そのような検索エンジンシステムについて記載されている(非特許文献1参照。)。
図5は、非特許文献1に記載されているような従来の検索エンジンシステム700の一構成例示すブロック図である。図5に示すように、従来の検索エンジンシステム700は、情報収集部71、インデキシング部72、インデックスデータベース73、および検索部74を含む。
クローラまたは検索ロボットである情報収集部71は、検索エンジンシステムを実現するコンピュータに通信ネットワーク800を介して接続されたサーバ900に情報の送信を要求し、装置から情報を受信する。インデキシング部72は、情報収集部71が収集した情報に、例えば、形態素解析等の処理を行って、情報のインデックスを生成し、生成したインデックスと情報の位置とを対応づけてインデックスデータベース73に記憶させる。検索部74は、入力されたキーワードに合致するインデックスを抽出し、抽出したインデックスとインデックスに対応づけられた情報の位置とを出力する。
しかし、非特許文献1に記載されているような従来の検索エンジンシステムでは、収集した情報のインデックス化と、インデックス化した情報の検索とを1台のコンピュータが行うため、検索エンジンシステムに高性能なコンピュータを用いなければならないという問題がある。
そこで、特許文献1では、情報の収集および収集した情報のインデックス化の処理と、インデックス化した情報の検索の処理との実行を分散させ、地理情報に応じたインデックス情報の生成と、地理情報の記憶とを行う地理情報供給装置と、インデックス情報の記憶と、入力されたキーワードにもとづくインデックス情報の検索とを行う所在管理装置とを含むシステムが提案されている(例えば、特許文献1参照。)。このとき、インデックス情報は、各地理情報のテーマや、各地理情報が記憶されている位置を示す情報等を含む情報である。
馬場肇著、「日本語全文検索システムの構築と活用」、ソフトバンク株式会社、1998年9月25日、p.20−23 特開2000−267563号公報 (段落0018〜0042、図1)
しかし、特許文献1に記載されているシステムは、地理情報供給装置や所在管理装置を複数台備えても、それらの装置が行う処理の分担について考慮されていないため、それらの装置には、高性能なコンピュータを用いなければならないという問題がある。
そこで、本発明は、高性能なコンピュータを用いずに、入力されたキーワードに合致する情報の位置を提供する検索エンジンシステム、インデキシング装置、インデックス情報中継装置、および情報検索方法を提供することを目的とする。
本発明による検索エンジンシステムは、情報のインデックスを生成し、生成したインデックスと、インデックスが生成された情報の位置とを含む情報であるインデックス情報を生成するインデックス情報生成手段と、インデックス情報生成手段が生成したインデックス情報を送信するインデックス情報送信手段とを含むインデキシング装置と、インデックス情報を受信するインデックス情報受信手段と、インデックス情報受信手段が受信したインデックス情報を記憶するインデックスデータベースと、キーワードが入力されると、入力されたキーワードに合致するインデックスを含むインデックス情報をインデックスデータベースから抽出して出力する検索手段とを含む検索装置とを備え、インデキシング装置は、インデックスを生成するべき情報を記憶している装置に応じて設けられていることを特徴とする。
インデックス情報送信手段は、所定のタイミングで、インデックス情報を送信してもよい。
インデキシング装置からインデックス情報を受信し、受信したインデックス情報を検索装置に送信するインデックス情報送受信手段を含むインデックス情報中継装置を備えてもよい。そのような構成によれば、インデキシング装置と、検索装置とを、インデックス情報中継装置を介してカスケードに接続することができる。
本発明によるインデキシング装置は、インデックスを生成するべき情報を記憶している装置に応じて設けられ、情報のインデックスを生成し、生成したインデックスと、インデックスが生成された情報の位置とを含む情報であるインデックス情報を生成するインデックス情報生成手段と、インデックス情報生成手段が生成したインデックス情報を送信するインデックス情報送信手段とを含むことを特徴とする。
インデックス情報送信手段は、所定のタイミングで、インデックス情報を送信してもよい。
本発明によるインデックス情報中継装置は、情報のインデックスとインデックスを生成した情報の位置とを含む情報であるインデックス情報を受信すると、インデックス情報を送信するインデックス情報送受信手段を含んでもよい。
本発明による情報検索方法は、インデックスを生成するべき情報を記憶している装置に応じてインデキシング装置を設け、それぞれのインデキシング装置が、情報のインデックスを生成し、生成したインデックスと、インデックスが生成された情報の位置とを含む情報であるインデックス情報を生成し、生成したインデックス情報を送信し、インデックス情報を受信し、受信したインデックス情報を記憶し、キーワードが入力されると、入力されたキーワードに合致するインデックスを含むインデックス情報を抽出して出力することを特徴とする。
本発明によれば、高性能なコンピュータを用いずに、入力されたキーワードに合致する情報の位置を提供することができる。
実施の形態1.
本発明の第1の実施の形態について、図面を参照して説明する。図1は、本発明の第1の実施の形態の一構成例を示すブロック図である。
図1に示す例によれば、本発明の第1の実施の形態は、検索装置100とインデキシング装置200と通信ネットワーク300とを含む。なお、図1に示す例では、説明の簡単のため、インデキシング装置200を1台としているが、インデックスを生成する情報を記憶している装置に応じて、インデキシング装置を複数台備えていることが好ましく、複数台のインデキシング装置をカスケードに接続していてもよい。また、検索装置を複数台備えていてもよい。
検索装置100およびインデキシング装置200は、例えば、ワークステーションやサーバ、パーソナルコンピュータ等によって実現される。通信ネットワーク300は、例えば、インターネットや、LAN、無線通信網等によって実現される。
インデキシング装置200は、インデキシング部(インデックス情報生成手段)20と、インデックス記憶部21と、インデックス通信部(インデックス情報送信手段)22とを含む。インデキシング部20は、インデキシング装置200自身、またはインデキシング装置200に、例えば、LAN等で接続された装置や、インデキシング装置200に付随して接続されている外部装置が記憶している情報をインデックス化したインデックスと、インデックス化した情報の位置を示す情報とを含む情報であるインデックス情報を生成する。なお、「インデックス化」とは、情報に形態素解析処理等を行って、情報が含む文字や、単語等を抽出することである。
なお、インデキシング部20は、情報のファイルの更新日時等を参照して情報が更新されたか否かを判断し、情報が更新されたと判断すると情報のインデックス化を行う。ここで、インデキシング部20が情報のインデックス化を行う際に、例えば、形態素解析処理による文字インデックス方式や、単語インデックス方式等を使用することができる。しかし、本発明はこれに限定されるものではなく、他のインデックス方式を用いてもよい。インデキシング部20は、プログラムによって処理を実行するCPUによって実現される。
インデックス記憶部21は、インデキシング部20が生成したインデックス情報を記憶する。インデックス記憶部21は、例えば、RAM(Random Access Memory)や、ハードディスク等の記憶媒体によって実現される。インデックス通信部22は、インデックス記憶部21が記憶しているインデックス情報を、所定のタイミングで、通信ネットワーク300を介して検索装置100に送信する。
インデックス通信部22が、インデックス情報を送信する所定のタイミングとは、例えば、毎日の予め決められた時刻や、インデキシング部20がインデックス情報を生成した情報が更新されたとき、インデキシング部20がインデックス情報を生成した情報が一定量以上変化したとき等である。インデックス通信部22は、例えば、通信インタフェースによって実現される。
検索装置100は、検索部(検索手段)10と、インデックスデータベース11とを含む。インデックスデータベース11は、インデキシング装置200から受信したインデックス情報を記憶する。インデックスデータベース11は、例えば、RAM(Random Access Memory)や、ハードディスク等の記憶媒体によって実現される。なお、検索装置100の図示しない通信インタフェース(インデックス情報受信手段)が、インデキシング装置200からインデックス情報を受信する。
検索部10は、検索装置100に接続されたクライアント端末(図示せず)から受信したキーワードに合致するインデックスを含むインデックス情報をインデックスデータベース11から抽出し、抽出したインデックス情報が含む情報の位置を示す情報をクライアント端末に出力する。検索部10は、プログラムによって処理を実行するCPUによって実現される。
次に、本発明の第1の実施の形態の動作について説明する。図2は、本発明の第1の実施の形態の動作を説明するフローチャートである。
インデキシング部20は、インデキシング装置200自身、またはインデキシング装置200に、例えば、LAN等で接続された装置が記憶している情報を読み出し、読み出した情報をインデックス化し、情報をインデックス化したインデックスと、入力された情報の位置を示す情報とを含む情報であるインデックス情報を生成する(ステップS101)。
インデキシング部20は、生成したインデックス情報を、インデックス記憶部21に記憶させる(ステップS102)。
インデックス通信部22は、所定のタイミングで(ステップS103)、インデックス情報記憶部21が記憶しているインデックス情報を、通信ネットワーク300を介して検索装置100に送信する(ステップS104)。
検索装置100の制御部(図示せず)は、インデキシング装置200から受信したインデックス情報を、インデックスデータベース11に記憶させる(ステップS105)。
検索部10は、検索装置100に接続されたクライアント端末からキーワードを受信すると(ステップS106)、受信したキーワードに合致するインデックスを含むインデックス情報を抽出する(ステップS107)。そして、検索部10は、抽出したインデックス情報が含む情報の位置を示す情報をクライアント端末に出力する(ステップS108)。
なお、以上に述べた説明では、簡単のため、インデキシング装置200が1台の場合について説明したが、インデキシング装置200は、例えば、インデキシング部20がインデックス化する対象等に応じて、複数台あることが好ましい。すなわち、インデキシング装置を、インデックス化する情報が記憶されている装置に応じて設ける。
図3は、インデキシング装置が複数台ある場合の構成例を示すブロック図である。図3に示す例において、インデキシング装置400のインデキシング部40は、例えば、新聞社のサーバ等が提供する情報にもとづいてインデックス情報を生成し、インデックス記憶部41は、インデキシング部40が生成した情報を記憶し、インデックス通信部42は、インデックス情報記憶部41が記憶しているインデックス情報を、通信ネットワーク300を介して検索装置100に送信する。
また、インデキシング装置500のインデキシング部50は、例えば、出版社のサーバ等が提供する情報にもとづいてインデックス情報を生成し、インデックス記憶部51は、インデキシング部50が生成した情報を記憶し、インデックス通信部52は、インデックス情報記憶部51が記憶しているインデックス情報を、通信ネットワーク300を介して検索装置100に送信する。
以上に述べたように、この実施の形態によれば、検索エンジンシステムを実現する装置を、検索装置100とインデキシング装置200とに分離した構成にしたため、図3に示したように、インデキシング装置を複数台備える構成にすることができる。すると、インデキシング処理の負荷を複数の装置に分散することができるため、高性能なコンピュータを用いずに、検索エンジンシステムを実現することができる。
また、インデキシング処理の負荷を複数の装置に分散すると、インデキシング処理の速度を向上させたり、情報の更新をインデックス情報に反映させるまでの時間を短縮させたりすることができる。
また、複数のインデキシング装置400、500が、それぞれ異なる情報保有システム(例えば、新聞社や出版社)が保有する情報についてインデックス化を行うようにすれば、システム全体としてインデックス化の効率が向上する。
実施の形態2.
本発明の第2の実施の形態について説明する。図4は、本発明の第2の実施の形態の一構成例を示すブロック図である。
図4の例に示すように、本発明の第2の実施の形態は、インデキシング装置400およびインデキシング装置500と、検索装置100とを、通信ネットワーク700、インデキシング中継装置(インデックス情報中継装置)600、および通信ネットワーク800を介して接続している。その他の構成は第1の実施の形態と同様なため、第1の実施の形態と同様な装置等には、図1および図3と同じ符号を付し、説明を省略する。
なお、図4に示す例では、説明の簡単のため、インデキシング中継装置600を1台としているが、複数台備えていることが好ましく、各インデキシング中継装置は、検索装置100、および複数のインデキシング装置と接続されているものとする。また、複数のインデキシング中継装置が互いにカスケードに接続され、検索装置100に接続されている一のインデキシング中継装置および通信ネットワークを介して、他のインデキシング中継装置が検索装置100に接続されていてもよい。なお、インデキシング中継装置として、インデキシング装置を用いてもよい。
インデキシング中継装置600のインデックス記憶部61は、インデキシング装置400のインデックス通信部42、およびインデキシング装置500のインデックス通信部52から受信したインデックス情報を記憶する。インデキシング中継装置600のインデックス通信部62は、インデックス記憶部61が記憶しているインデックス情報を、所定のタイミングで検索装置100に送信する。
インデキシング中継装置600のインデックス通信部62がインデックス情報を送信する所定のタイミングとは、例えば、第1の実施の形態の説明において、インデキシング装置200のインデキシング部20がインデックス情報を送信するタイミングとして例示したタイミング等である。
なお、インデキシング中継装置600の図示しない通信インタフェースは、インデキシング装置400のインデックス通信部42、およびインデキシング装置500のインデックス通信部52からインデックス情報を受信し、インデックス情報送受信手段は、通信インタフェース、およびインデックス通信部62によって実現される。
以上に述べたように、この実施の形態によれば、インデキシング中継装置600を介して複数のインデキシング装置を備える構成にしたため、第1の実施の形態において多数のインデキシング装置がインデックス情報を検索装置100に送信した場合に発生しうるインデックス情報同士のコリジョン(衝突)を防ぐことができる。
そのため、各インデキシング装置は、コリジョンが発生したインデックス情報を再送したりする必要がないため、情報が更新されてから、検索装置100のインデックスデータベース11が記憶しているインデックス情報が更新されるまでの時間を短縮することができる。
本発明は、WEB検索サイトに利用することができる。また、会社等の内部の情報の検索システムに利用することができる。
本発明の第1の実施の形態の一構成例を示すブロック図である。 本発明の第1の実施の形態の動作を説明するフローチャートである。 インデキシング装置が複数台ある場合の構成例を示すブロック図である。 本発明の第2の実施の形態の一構成例を示すブロック図である。 従来の検索エンジンシステム700の一構成例示すブロック図である。
符号の説明
10 検索部
11 インデックスデータベース
20、40、50 インデキシング部
21、41、51、61 インデックス記憶部
22、42、52、62 インデックス通信部
100 検索装置
200、400、500 インデキシング装置
300、700、800 通信ネットワーク
600 インデキシング中継装置

Claims (7)

  1. 情報のインデックスを生成し、生成した前記インデックスと、前記インデックスが生成された前記情報の位置とを含む情報であるインデックス情報を生成するインデックス情報生成手段と、
    前記インデックス情報生成手段が生成した前記インデックス情報を送信するインデックス情報送信手段とを含むインデキシング装置と、
    前記インデックス情報を受信するインデックス情報受信手段と、
    前記インデックス情報受信手段が受信した前記インデックス情報を記憶するインデックスデータベースと、
    キーワードが入力されると、入力された前記キーワードに合致するインデックスを含む前記インデックス情報を前記インデックスデータベースから抽出して出力する検索手段とを含む検索装置とを備え、
    前記インデキシング装置は、インデックスを生成するべき情報を記憶している装置に応じて設けられている
    ことを特徴とする検索エンジンシステム。
  2. インデックス情報送信手段は、所定のタイミングで、インデックス情報を送信する
    請求項1記載の検索エンジンシステム。
  3. インデキシング装置からインデックス情報を受信し、受信した前記インデックス情報を検索装置に送信するインデックス情報送受信手段を含むインデックス情報中継装置を備えた
    請求項1または請求項2記載の検索エンジンシステム。
  4. インデックスを生成するべき情報を記憶している装置に応じて設けられ、
    情報のインデックスを生成し、生成した前記インデックスと、前記インデックスが生成された前記情報の位置とを含む情報であるインデックス情報を生成するインデックス情報生成手段と、
    前記インデックス情報生成手段が生成した前記インデックス情報を送信するインデックス情報送信手段とを含む
    ことを特徴とするインデキシング装置。
  5. インデックス情報送信手段は、所定のタイミングで、インデックス情報を送信する
    請求項4記載のインデキシング装置。
  6. 情報のインデックスと前記インデックスを生成した情報の位置とを含む情報であるインデックス情報を受信すると、前記インデックス情報を送信するインデックス情報送受信手段を含む
    ことを特徴とするインデックス情報中継装置。
  7. インデックスを生成するべき情報を記憶している装置に応じてインデキシング装置を設け、
    それぞれのインデキシング装置が、
    前記情報のインデックスを生成し、生成した前記インデックスと、前記インデックスが生成された前記情報の位置とを含む情報であるインデックス情報を生成し、
    生成した前記インデックス情報を送信し、
    前記インデックス情報を受信し、
    受信した前記インデックス情報を記憶し、
    キーワードが入力されると、入力された前記キーワードに合致するインデックスを含む前記インデックス情報を抽出して出力する
    ことを特徴とする情報検索方法。
JP2004323976A 2004-11-08 2004-11-08 検索エンジンシステム、インデキシング装置、インデックス情報中継装置、および情報検索方法 Pending JP2006134169A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004323976A JP2006134169A (ja) 2004-11-08 2004-11-08 検索エンジンシステム、インデキシング装置、インデックス情報中継装置、および情報検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004323976A JP2006134169A (ja) 2004-11-08 2004-11-08 検索エンジンシステム、インデキシング装置、インデックス情報中継装置、および情報検索方法

Publications (1)

Publication Number Publication Date
JP2006134169A true JP2006134169A (ja) 2006-05-25

Family

ID=36727651

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004323976A Pending JP2006134169A (ja) 2004-11-08 2004-11-08 検索エンジンシステム、インデキシング装置、インデックス情報中継装置、および情報検索方法

Country Status (1)

Country Link
JP (1) JP2006134169A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101739400A (zh) * 2008-11-11 2010-06-16 日电(中国)有限公司 生成索引的方法和装置以及检索方法和装置
JP2011134262A (ja) * 2009-12-25 2011-07-07 Dainippon Printing Co Ltd 検索仲介システム
JP2015518223A (ja) * 2012-06-06 2015-06-25 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 メモリ検索、リアルタイム検索システム及び方法、コンピュータ記憶媒体
CN104765836A (zh) * 2015-04-15 2015-07-08 王磊 一种针对音频指纹库数据的多级索引方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101739400A (zh) * 2008-11-11 2010-06-16 日电(中国)有限公司 生成索引的方法和装置以及检索方法和装置
JP2011134262A (ja) * 2009-12-25 2011-07-07 Dainippon Printing Co Ltd 検索仲介システム
JP2015518223A (ja) * 2012-06-06 2015-06-25 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 メモリ検索、リアルタイム検索システム及び方法、コンピュータ記憶媒体
US9619512B2 (en) 2012-06-06 2017-04-11 Tencent Technology (Shenzhen) Company Limited Memory searching system and method, real-time searching system and method, and computer storage medium
CN104765836A (zh) * 2015-04-15 2015-07-08 王磊 一种针对音频指纹库数据的多级索引方法
CN104765836B (zh) * 2015-04-15 2019-03-26 高第网络技术(北京)有限公司 一种针对音频指纹库数据的多级索引方法

Similar Documents

Publication Publication Date Title
CN104679778B (zh) 一种搜索结果的生成方法及装置
CN108133008B (zh) 数据库中业务数据的处理方法、装置、设备和存储介质
US8150823B2 (en) Private searching on a public search engine
US9195744B2 (en) Protecting information in search queries
US20110179002A1 (en) System and Method for a Vector-Space Search Engine
US10783127B2 (en) Componentized data storage
US7676553B1 (en) Incremental web crawler using chunks
CN102375837A (zh) 数据采集系统和方法
CN102591930B (zh) 分解和合并正则表达式
CN102246172A (zh) 用于电子内容的分布式索引搜索的系统及方法
CN103248645A (zh) Bt离线数据下载系统及方法
CN103902535A (zh) 获取联想词的方法、装置及系统
CN101640623A (zh) 在对等网络中搜索资源的方法和设备
CN100383794C (zh) 词典类数据的检索方法、保存方法及检索系统
CN103942344A (zh) 一种预览文件的方法及文件处理系统
JP2010224705A (ja) ログ検索システム
JP5320204B2 (ja) 情報端末装置、情報検索方法、および情報検索プログラム
CN103366008A (zh) 一种查找资源的方法和装置
JP2010537324A5 (ja)
CN109739854A (zh) 一种数据存储方法及装置
Li et al. Survey of recent research progress and issues in big data
Hurst et al. Social streams blog crawler
JP2006134169A (ja) 検索エンジンシステム、インデキシング装置、インデックス情報中継装置、および情報検索方法
CN102651721A (zh) 一种信息反馈方法和设备
CN105574037A (zh) 一种信息处理方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060911

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090410

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090421

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090622

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090908