JP5135060B2 - 分散型情報検索システム、分散型情報検索方法、分散型情報検索プログラムおよびそのプログラムを記録した記録媒体 - Google Patents

分散型情報検索システム、分散型情報検索方法、分散型情報検索プログラムおよびそのプログラムを記録した記録媒体 Download PDF

Info

Publication number
JP5135060B2
JP5135060B2 JP2008132588A JP2008132588A JP5135060B2 JP 5135060 B2 JP5135060 B2 JP 5135060B2 JP 2008132588 A JP2008132588 A JP 2008132588A JP 2008132588 A JP2008132588 A JP 2008132588A JP 5135060 B2 JP5135060 B2 JP 5135060B2
Authority
JP
Japan
Prior art keywords
search
processing
distributed
relay communication
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008132588A
Other languages
English (en)
Other versions
JP2009282647A (ja
Inventor
大和 高橋
幸生 植松
俊介 小長井
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008132588A priority Critical patent/JP5135060B2/ja
Publication of JP2009282647A publication Critical patent/JP2009282647A/ja
Application granted granted Critical
Publication of JP5135060B2 publication Critical patent/JP5135060B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、主に大量の電子文書群の中から任意の単語を含む電子文書を検索し、検索結果に対する情報処理を複数の計算機で分散処理する分散型情報検索の技術に関する。
大規模な文書データベースを高速に検索するためには、様々な全文検索システムが開発されている。この全文検索の方法としては、単語とその単語を含む全ての文書との対応をリスト化した「転置インデクス」を構築して検索に利用する方法が知られている。
そして、検索対象の文書が大量の場合には、「転置インデクス」による検索を複数の計算機(コンピュータ)に分散させて行い、複数の計算機による検索結果をまとめて最終的な検索結果を得る分散型検索技術が用いられている。このインデクスをネットワーク上に分散化した技術は非特許文献1に記載されている。
野田十悟,佐藤隆士,"n−gramに基づく全文検索システムの分散処理:分散索引と自立負荷分散更新",電子情報通信学会技術研究報告 DE98−33,pp.25−32,1998.
しかしながら、従来は、複数の計算機で分散処理を行うことで検索の高速化と大規模化を実現しているものの、検索結果に自然言語処理などの利用者の所望する情報処理を施すときに、別個の計算機を用意して検索処理とは独立したシステムを構築しなければならない。
これではシステム構築のコストが増加するばかりか、大量の検索結果(例えば上位1000件など)を処理するときに検索結果の転送時間が増加し、処理が遅延するおそれがある。
そこで、本発明は、検索結果に利用者の所望する情報処理を高速に施すことが可能なシステムを低コストで提供することを解決課題としている。
本発明は、前記課題を解決するために創作された技術的思想であって、請求項1記載の発明は、電子文書群の中から任意の単語を含む電子文書を検索し、検索結果に任意の情報処理を施す分散型情報検索システムであって、検索単語の指示を含む検索命令および前記検索結果に施す情報処理を指示する処理命令を利用者端末から受け付ける入出力装置に複数の中継通信装置が接続され、各中継通信装置を経由して複数の分散型検索装置がネットワークで接続され、前記各分散型検索装置は、前記検索命令に基づき電子文書群を検索して検索単語を含む電子文書を前記検索結果として求め、予め設定された基準に従って前記検索結果の電子文書毎に評価値を付与し、前記入出力装置と前記中継通信装置とは、前記評価値に従って選別した電子文書に前記処理命令の指示する情報処理を実行する手段を備え、前記入手力装置は、前記検索命令の指示する情報量が予め設定された閾値以下のときに前記処理命令の指示する情報処理を行う一方、前記検索命令の指示する情報量が予め設定された閾値を超えているときに各中継通信装置に分散して前記処理命令の指示する情報処理を行わせて、前記検索結果および前記情報処理の結果を前記利用者端末に返信することを特徴としている。
また、請求項2記載の発明は、電子文書群の中から任意の単語を含む電子文書を検索し、検索結果に任意の情報処理を施す分散型情報検索システムであって、検索単語の指示を含む検索命令および前記検索結果に施す情報処理を指示する処理命令を利用者端末から受け付ける入出力装置に複数の中継通信装置が接続され、各中継通信装置を経由して複数の分散型検索装置がネットワークで接続され、前記各分散型検索装置は、前記検索命令に基づき電子文書群を検索して検索単語を含む電子文書を前記検索結果として求め、予め設定された基準に従って前記検索結果の電子文書毎に評価値を付与し、前記入出力装置と前記中継通信装置とは、前記評価値に従って選別した電子文書に前記処理命令の指示する情報処理を実行する手段を備え前記入出力装置が、前記検索命令の指示する情報量を前記中継通信装置の台数に応じて割り振って検索を指示する一方、前記各中継通信装置が、前記各分散型検索装置の検索結果を統合した結果に前記選別を行って前記処理命令の指示する情報処理を施し、前記検索結果および前記情報処理の結果を前記利用者端末に返信することを特徴としている。
また、請求項3記載の発明は、入出力装置に複数の中継通信装置が接続され、かつ各中継通信装置を経由して複数の分散型検索装置がネットワークで接続されたシステムをもって電子文書郡の中から任意の単語を含む電子文書を検索し、検索結果に任意の情報処理を施す分散型情報検索方法であって、前記入出力装置が、検索単語の指示を含む検索命令および前記検索結果に施す情報処理を指示する処理命令を利用者端末から受け付ける第1ステップと、前記各分散型検索装置が、前記検索命令に基づき電子文書群を検索して、検索単語を含む電子文書を前記検索結果として求める第2ステップと、前記各分散型検索装置が、予め設定された基準に従って前記検索結果の電子文書毎に評価値を求める第3ステップと、前記入出力装置と前記中継通信装置の少なくとも一方が、前記評価値に従って選別した電子文書に前記処理命令の指示する情報処理を行った結果を取得する第4ステップと、前記入出力装置が、前記検索結果および前記情報処理の結果を前記利用者端末に返信する第5ステップと、を有し、前記第4ステップにおいて、前記入出力装置は前記検索命令の指示する情報量が予め設定された閾値以下のときに前記処理命令の指示する情報処理を行う一方、前記検索命令の指示する情報量が予め設定された閾値を超えているときに各中継通信装置に分散して前記処理命令の指示する情報処理を行わせることを特徴としている。
また、請求項4記載の発明は、入出力装置に複数の中継通信装置が接続され、かつ各中継通信装置を経由して複数の分散型検索装置がネットワークで接続されたシステムをもって電子文書郡の中から任意の単語を含む電子文書を検索し、検索結果に任意の情報処理を施す分散型情報検索方法であって、前記入出力装置が、検索単語の指示を含む検索命令および前記検索結果に施す情報処理を指示する処理命令を利用者端末から受け付ける第1ステップと、前記各分散型検索装置が、前記検索命令に基づき電子文書群を検索して、検索単語を含む電子文書を前記検索結果として求める第2ステップと、前記各分散型検索装置が、予め設定された基準に従って前記検索結果の電子文書毎に評価値を求める第3ステップと、前記入出力装置と前記中継通信装置の少なくとも一方が、前記評価値に従って選別した電子文書に前記処理命令の指示する情報処理を行った結果を取得する第4ステップと、前記入出力装置が、前記検索結果および前記情報処理の結果を前記利用者端末に返信する第5ステップと、を有し、前記第4ステップは、前記入出力装置が前記検索命令の指示する情報量を前記中継通信装置の台数に応じて割り振って検索を指示するステップと、前記各中継通信装置が前記各分散型検索装置の前記検索結果を統合した後に前記選別を行って前記処理命令の指示する情報処理を施すステップと、を有することを特徴としている。
また、請求項記載の発明は、分散型情報検索プログラムであり、請求項1または2のいずれかに記載の分散型情報検索システムを構成する各装置としてコンピュータを機能させることを特徴としている。
また、請求項記載の発明は、コンピュータ読み取り可能な記録媒体であり、請求項記載の分散型情報検索プログラムを記録したことを特徴としている。
請求項1〜記載の発明によれば、検索処理系のシステムを用いて、検索結果に自然言語処理などの利用者の所望する情報処理が施されることから、処理時間が短縮される。したがって、利用者は必要な情報を高速に取得することができる。また、処理系の計算機を別途用意する必要もなく、この点でコストも抑制される。
また、検索結果が検索命令の件数をオーバしている場合に必要度に応じて選別・足きりされる。したがって、選別・足きりされた電子文書の処理を行う必要がなく、この点でも処理時間が短縮される。
さらに入出力装置には、検索命令の件数内の検索結果が返信されるため、入出力装置での選別・足きりが不要になり、処理効率が向上する。
本発明は、主に大量の電子文書群の中から、任意の単語を含む文書を検索し、その文書に付随する情報を処理するといった利用を想定している。例えば、任意の単語を含む文書群の特徴を計算するため、検索結果の文書に自然言語処理などの情報処理を施し、重要な単語の頻度を算出するといった利用方法である。
もっとも、大量の検索結果を分析する場合は、文書毎の処理コストが多くなるため、統計結果を取得する時間が大きく増加するおそれがある。この場合に、任意の単語が含まれている文書に対して、複数の装置で分散して自然言語処理を行えば、処理効率が向上する。
そこで、本発明は、検索結果に利用者の所望する情報処理を行う場合に、検索結果を中継する装置で検索結果を一時的に記憶し、検索結果数に応じて、記憶した検索結果を利用して、複数の装置で分散して言語処理を行うことで、大量の文書の情報処理を可能にしている。以下、本発明の実施形態を図面に基づき説明する。
図1は、本発明の実施形態に係る分散型情報検索システムを示している。この分散型情報検索システムによれば、携帯電話やコンピュータなどの利用者端末1から入力された検索命令に基づいて電子文書群が検索され、検索結果が前記利用者端末1へ返信される。この検索命令は、任意の単語を含む電子文書の検索条件の指定であって、例えば「東京」を含む電子文書を検索するといった指定などが挙げられる。
これと同時に利用者端末1から処理命令が入力された場合、前記分散型情報検索システムは、前記検索命令に合致した電子文書の付随情報に対して自然言語処理などの任意の情報処理を施した結果を取得し、これを併せて前記利用者端末1へ返信する。
この付随情報としては、例えば電子文書の文字数や文書量(文書データ量:何KBなど)などが挙げられる。処理命令としては、例えば前記検索命令に合致した電子文書群のうち上位500件の電子文書の総文字数を取得するなどの指定が挙げられる。もっとも、付随情報および処理命令は、これらに限定されるものではなく、設定や使用によって適宜に利用者の所望する形式に変更することができる。
具体的には、分散型情報検索システムは、図1に示すように、入出力装置2に複数の中継通信装置3が接続され、この各中継通信装置3に複数の分散型検索装置4が接続されたネットワーク構成からなる。
この各装置2〜4は、それぞれコンピュータにより構成され、各構成要素の制御や演算処理をする処理部(例えばCPUなど)と、ネットワーク接続に使用する通信デバイスと、処理データなどを一時記憶可能なメモリ(RAM)と、ハードディスクドライブ装置などの保存部と、キーボードやマウスなどの入力デバイスとが実装され、かかるハードウェア資源とソフトウェアとの協働によって各装置の具体的処理が実現されている。以下、前記各装置2〜4の具体的構成例および具体的処理内容を説明する。
(1)入出力装置2
前記入出力装置2は、図2に示すように、前記利用者端末1に入力された前記検索命令・前記処理命令をネットワーク経由で受信する検索命令受付手段5と、前記中継通信装置3に前記検索命令・前記処理命令を送信し、前記検索命令に合致する前記分散型検索装置4の検索結果を前記中継通信装置3から受信する中継処理制御手段6と、前記検索結果に対して前記処理命令に応じた情報処理を行い利用者が所望する形式で処理結果を算出する情報処理手段7と、前記検索結果および前記処理結果を前記利用者端末1へ返信する情報検索結果応答手段8とを備えている。
前記検索命令受付手段5と前記中継処理制御手段6と前記情報検索結果応答手段8の機能は、それぞれ前記通信デバイスを通じて実現されている。このとき前記中継処理制御手段6は、前記検索結果に対する前記処理命令を前記中継通信装置3に送信可能に設定することもできる。
前記情報処理手段7は、コンピュータのハードディスクドライブ装置などに保存された情報処理プログラムを前記検索結果に適用して前記処理命令に応じた情報処理を実行している。この情報処理プログラムとしては、例えば検索結果の電子文書に関して総文字数や総データ量などを計算処理するプログラムで足りる。
また、前記情報処理プログラムは、前記処理命令に応じた情報処理を検索結果の件数に応じて前記中継通信装置3に分散処理させる形式で構築してもよい。この情報処理プログラムによれば、例えば前記処理命令で指示された取得件数が予め設定された閾値内のときには入出力装置2で指示命令の情報処理が行われる一方、前記閾値を超えるときには前記各中継通信装置3に指示命令の情報処理を分散させることができる。
さらに、前記情報処理プログラムは、前記処理命令で指定された取得件数を、前記中継通信装置3の台数分で振り分ける形式で構築してもよい。この情報処理プログラムによれば、例えば取得件数500件の指示命令の場合に5台の中継通信装置にそれぞれ100件を処理するように命令が送信される。
(2)中継通信装置3
前記中継通信装置3は、図3に示すように、前記検索命令を前記分散型検索装置4へ送信し、前記分散型検索装置4から対応する検索結果を受信して前記検索結果を命令結果記憶装置9に一時記憶する処理受付手段10と、前記検索命令・前記処理命令に応じて前記命令結果記憶装置9から前記検索結果を取得して前記処理命令に対応した情報処理を行う情報処理手段11とを備えている。
前記命令結果記憶装置9は、メモリ(RAM)などで構成され、前記検索命令・前記処理命令と前記検索結果とを対応付けて記憶(キャッシュ)している。
前記情報処理手段11は、前記入出力装置2の情報処理手段7と同様に、ハードディスクドライブ装置などに保存された情報処理プログラムを、前記検索結果に適用して前記処理命令に応じた情報処理を実行している。この情報処理プログラムは、検索結果の電子文書に関して総文字数や総データ量などを計算処理するプログラムが好ましいが、処理命令に応じて適宜変更することができる。
(3)分散型検索装置4
前記分散型検索装置4は、前記中継通信装置3から前記検索命令を受信し、図4に示すような転置インデクスなどの既存の検索手法を用いて電子文書群を検索する(検索対象は電子文書毎に作成された要約であってもよい。)。
このとき検索された各電子文書を予め設定された基準に従って評価するとともに、評価値に沿って順位順に並べた検索結果と、検索命令に応じた電子文書それぞれに関する情報(電子文書番号やタイトル、作者名など)を取得する。この評価値の基準は、例えば検出頻度などでよく、コンピュータのプログラムに設定してあれば足りる。
前記電子文書群は、文書毎に重複の無い文書番号が与えられ、データベースに格納されている。このデータベースは前記分散型検索装置4内に内蔵された態様でもよく、また前記分散型検索装置4に接続された態様であってもよい。このデータベース内の転置インデクス例(一部抜粋)を表1に示す。
Figure 0005135060
(4)動作例
そこで、以下、分散型情報検索システムの動作例を図5に基づき説明する。図5では図示省略されているが、ネットワーク中、前記入出力装置2には2台の中継通信装置3が接続され、また各中継通信装置3には2台の分散型検索装置4が接続されているものとする。
ここでは利用者端末1から、検索命令に合致した上位500件の電子文書の総文字数の取得を処理命令として要求され、文字数の算出処理を前記中継通信装置3で分散して行う場合を例に説明する。
まず、利用者は、利用者端末1からネットワークを介して、入出力装置2に取得したい文書に関する検索命令と、検索結果に対して行う情報処理に関する処理命令を送信する。
入出力装置2は、検索命令受付手段5にて検索命令・処理命令を受信し、これを中継処理制御手段6へ渡す。この中継処理制御手段6は、受け取った検索命令・処理命令に対して、処理命令が指示されたときのみ一意な命令番号を与える。
この命令番号に検索命令・処理命令を付加して中継通信装置3へ送信する。中継通信装置3は、処理受付手段10にて検索命令・処理命令を受信し、さらに分散型検索装置4に検索命令を送信する。
分散型検索装置4は、受信した検索命令に従って、従来手法である転置インデクスなどで予め構築された電子文書群の索引を利用して、検索命令に合致する電子文書の文書番号(文書ID)を取得する。そして、検索命令で指示された検索条件との合致度などを算出し、算出した合致度などを評価値として電子文書に付与する。この評価値に基づき電子文書を並べ替え、検索結果として前記中継通信装置3へ返信する。このとき、検索命令によっては、指定された情報(例えば電子文書の題名やサイト名など)を検索結果に付加してもよい。
前記中継通信装置3は、処理受付手段10にて前記分散型検索装置4から受信した検索結果を、前記評価値に応じて統合し並べ替え、前記入出力装置2の中継処理制御手段6に送信する。このとき命令番号がある場合は、前記命令結果記憶装置9に命令番号と検索命令・処理命令と検索結果を一時的に記憶する。
前記入出力装置2は、中継処理制御手段6にて、前記中継通信装置3から取得した検索結果を前記評価値に応じて統合し並べ替え、上位500件を決定する(足きり処理あるいは選別処理)。入出力装置2の情報処理手段7は、情報処理プログラムに応じて、受け取った検索結果の文字数を計算してよく、また前記中継通信装置3へ検索命令・処理命令を送信して文字数計算を分散処理させてもよい。ここでは一例として前記情報処理プログラムは、処理命令で指示された取得件数が上位250件以内のときには入出力装置2で処理する一方、取得件数が250件以上のときには各中継通信装置3に処理を分散させるものとする。この例によれば、上位500件の電子文書の総文字数を取得する処理命令であるので、電子文書の文字数の算出処理が各中継通信装置3で分散処理される。
具体的には、前記入出力装置2は、処理命令と命令番号のほか、決定した上位500件中の最下位の評価値および該評価値の電子文書番号を各中継通信装置3へ送信する。これらを各中継通信装置3は処理受付手段10にて受信するとともに、前記命令結果記憶装置9に記憶済みの命令番号に応じた検索結果に対し、前記処理命令で指示された総文字数の計算を行う。
このとき情報処理手段11は、受け取った評価値よりも低い評価の電子文書については文字数をカウントしない。また、評価値が同値であっても、電子文書番号順が下位の電子文書も文字数をカウントしない。これにより前記入出力装置2で足きり処理される電子文書に関しては処理を行わずに済むため、例えば上位500件を処理する場合、入出力装置2の下位に中継通信装置3が5台あれば、各中継通信装置3は平均して1/5の件数(平均100件)の文字数をカウントすればよく、この意味で計算処理の時間が1/5に短縮される。
この計算処理された文字数は、処理受付手段10から入出力装置2の中継処理制御手段6に送信され、情報処理手段7にて統合され総量が計算される。この算出された総量および検索結果が情報検索結果応答手段8を通じて利用者端末1に送信され、利用者は分散処理しない場合よりも約5倍の速度で所望の検索結果および総文字数の情報を取得することができる。
なお、処理命令によっては、足きり処理される電子文書も処理対象にしてもよい。この場合には5台の中継通信装置3毎に500件を情報処理するため、合計で2500件の電子文書を処理できる。
(5)実施例1
本実施例では、利用者端末1には、大量の日本語電子文書群から「東京」を含む電子文書を200件検索する検索命令と、検索結果から文書量の総量(データ量:〜KBなど)を算出する処理命令とが入力されているものとする。
本実施例のシステム構成は、2台の中継通信装置3と4台の分散型検索装置4とを有しているものとする。情報処理手段7.11で使用する情報処理プログラムは、電子文書群の中で検索命令に合致した電子文書の中から検索命令が上位200件以内であれば入出力装置2で指示命令の情報処理を行う一方、上位200件を超える場合は各中継通信装置3で分散して指示命令の情報処理を行わせる形式とする。
大量の日本語電子文書群は、文書毎に重複の無い文書番号を与えられ、文書量(KBなど)の情報とともに、転置インデクス方式で前記分散型検索装置4に格納済みであるとする。本実施例では、文書番号として、「001」を与えている。
以下、本実施例の処理を図6のシーケンス図を基に説明する。図6では図示省略されているが、ネットワーク中、前記入出力装置2には2台の中継通信装置3が接続され、また各中継通信装置3には2台の分散型検索装置4が接続されているものとする。
入出力装置2が受信した検索命令・処理命令は、検索命令受付手段5から中継処理制御手段6に送られる。中継処理制御手段6は、一意な命令番号(ここでは00001)を付け、2台の中継通信装置3それぞれへ検索命令と命令番号を送信する。各中継通信装置3は、処理受付手段10にて、検索命令と命令番号を受け取り、それぞれが受け持つ各分散型検索装置4へ検索命令を送信する。
分散型検索装置4は、検索命令に合致する電子文書を指定された200件を最大数として検索する。このとき分散型検索装置4は、検索命令に合致した電子文書に対して評価値を付与する。一般的な電子文書では、何度か同じ単語が出現する場合が多く、基本的には、出現回数が多いほど合致しているとみなされ、高い評価値を与えられる。ただし、検索命令によっては、題名との合致度を優先したり、他の文書からのリンクが多いものを優先するといった、任意の評価値を算出することができる。
一般的には、評価値が高い順に検索結果を並べ替えるが、評価値が同値の場合は、文書番号などの大小で順番を決定する。そして、検索命令で指示された形式の検索結果を前記中継通信装置3へ返信する。
中継通信装置3は、各分散型検索装置4から200件ずつの検索結果を受信する。そして、検索命令の指示に沿って、200件ずつの検索結果を統合し、評価値と文書番号により順番付けを行い、200件の検索結果を決定する。
ここで前記中継通信装置3は、受け取った検索命令と命令番号の検索結果として、前記命令結果記憶装置9に決定した200件の検索結果を記憶しつつ、この検索結果を入出力装置2へ返信する。
前記入出力装置2の中継処理制御手段6は、前記中継通信装置3から200件ずつの検索結果を受け取り、評価値と文書番号を基に検索命令の指示に沿って、上位200件を決定する。
ここで、取得件数が上位200件以内なので、前記入出力装置2の情報処理手段7にて、上位200件の検索結果から各電子文書の文書量を合計し、総量を算出して、情報検索結果応答手段8により、検索結果・処理結果として前記利用者端末1へ返信する。
(6)実施例2
本実施例では、利用者端末1には、大量の日本語電子文書群から「東京」を含む電子文書を400件検索する検索命令と、検索結果から文書量の総量(データ量:〜KBなど)を算出する処理命令とが入力されているものとする。
また、情報処理手段7.11で使用する情報処理プログラムは、電子文書群の中で検索命令に合致した電子文書の中から検索命令が上位250件以内であれば入出力装置2で指示命令の情報処理を行う一方、上位250件を超える場合は各中継通信装置3で分散して指示命令の情報処理を行わせる形式とする。システム構成および日本語電子文書群は実施例1と同様とする。
以下、本実施例における処理について、図7(A),図7(B)に示すシーケンス図を基に説明する。この図7(A),図7(B)では、図示省略されているが、ネットワーク中、前記入出力装置2には2台の中継通信装置3が接続され、また各中継通信装置3には2台の分散型検索装置4が接続されているものとする。
入出力装置2が受信した検索命令・処理命令は、図7(A)に示すように、検索命令受付手段5から中継処理制御手段6へ送られ、中継処理制御手段6は一意な命令番号(ここでは00001)を付け、各中継通信装置3に検索命令と命令番号を送信する。
各中継通信装置3は、処理受付手段10にて、検索命令と命令番号を受け取り、それぞれが受け持つ各分散型検索装置4へ検索命令を送信する。分散型検索装置4は、検索命令に合致する電子文書を指定された400件を最大数として検索する。
各中継通信装置3は、各分散型検索装置4から400件の検索結果を受け取り、検索命令の指示に沿って、400件ずつの検索結果を統合し、評価値と文書番号により順番付けを行い、400件の検索結果を決定する。
ここで、中継通信装置3は、受け取った検索命令と命令番号の検索結果として、前記命令結果記憶装置9に決定した400件の検索結果を記憶しつつ、この検索結果を入出力装置2へ返信する。
入出力装置2の中継処理制御手段6は、中継通信装置3から400件ずつの検索結果を受信し、評価値と文書番号を基に検索命令の指示に沿って上位400件を決定する。
ここで本実施例では、取得件数が上位250件以上なので、図7(B)に示すように、文書量の計算が各中継通信装置3で分散して行われる。具体的には、中継処理制御手段6は、処理命令、命令番号のほか、決定した上位400件中の最下位の評価値(ここでは第400位の評価値=999.9)および該評価値の電子文書番号を各中継通信装置3へ送信する。これらを各中継通信装置3は、処理受付手段10にて受信するとともに、命令結果記憶装置9に記憶済みの命令番号に応じた検索結果に対し、処理命令で指示された文書量(KBなど)の計算を行う。
このとき情報処理手段11は、受け取った評価値以上の文書の総文書量(文字データ量=90KB)を算出する。すなわち、該評価値よりも低い評価の電子文書は文書量を算出しない。また、該評価値が同値であっても、電子文書番号順が下位の電子文書も文書量を算出しない。
これにより、前記入出力装置2で足きり処理される電子文書に関しては処理を行わずに済むため、前記中継通信装置3は平均1/2の件数(平均200件)を情報処理すればよい。したがって、実施例1と比較して平均1/2程度の時間で処理結果を得ることができる。
この各中継通信装置3で計算処理された文書量は、処理受付手段10から入出力装置2の中継処理制御手段6に送信され、情報処理手段7にて合計され、情報検索結果応答手段8により、検索結果・処理結果として利用者端末1へ送信される。
(7)実施例3
本実施例では、利用者端末1には、大量の日本語電子文書群から「東京」を含む電子文書を800件検索する検索命令と、検索結果から文書量の総量(データ量:〜KBなど)を計算する処理命令とが入力されているものとする。システム構成および日本語電子文書群は実施例1と同様とする。
また、情報処理手段7.11には、中継通信装置3の台数分で振り分けて処理を実施させる情報処理プログラムが使用される。ここでは検索命令の指示件数の1/2(400件)が、各中継通信装置3に送信される。
以下、本実施例における処理について説明する。入出力装置2へ送られた検索命令・処理命令は、検索命令受付手段5から中継処理制御手段6へ送られ、中継処理制御手段6は一意な命令番号(ここでは00001)を付け、2台の中継通信装置3それぞれへ検索命令・処理命令および命令番号を送信する。
これらを各中継通信装置3の処理受付手段10が受け取り、処理命令で指定された情報処理プログラムに沿って、それぞれが受け持つ2台の分散型検索装置4へ検索命令のみを送信する。分散型検索装置4は、検索命令に合致する電子文書を指定された400件を最大数として検索を行う。
前記中継通信装置3は、前記各分散型検索装置4から400件ずつの検索結果を受信する。そして、中継通信装置3の情報処理プログラムは、受け取った400件ずつの検索結果に対し、評価値の高い順(同値の場合は文書番号の大小など)で順番付けを行い、上位400件の検索結果を決定し、電子文書の文書量の総量を求める。
前記入出力装置2は、前記各中継通信装置3からの処理結果を受け取り、処理結果を合計することで総量を算出し、情報検索結果応答手段8により、検索結果・処理結果として利用者端末1に送信する。
本実施例によれば、入出力装置2の足きり処理などが不要になるばかりか、中継通信装置3は1/2の件数(400件)の文字データ量を算出すればよい。したがって、実施例1とほぼ同等の速度で倍の件数に対する処理結果を得ることができる。
(8)変形例
本発明は、上記実施形態に限定されるものではなく、例えば、ネットワーク構成中、図8に示すように、前記入出力装置2と前記分散型検索装置4との間に、中継通信装置群を多段に接続してもよい。
このネットワーク構成によれば、前記中継通信装置群は、前記入出力装置2に接続された中継通信装置3Aと、この中継通信装置3Aに接続された複数の中継通信装置3Bとを備え、この各中継通信装置3Bに複数の前記分散型検索装置4が接続されている。
したがって、前記各中継通信装置3A.3Bは、前記各分散型検索装置4の検索結果を検索命令に応じて統合して並べ替え、必要があれば足きり処理を行って、新たな検索結果として入出力装置2へ返すことができる。例えば、上位100件といった検索結果の場合、100件を超える検索結果が前記各分散型検索装置4から前記中継通信装置3Bに送られると、該中継通信装置3Bにおいて足きり処理が行われる。また、前記各中継通信装置3Bから前記中継通信装置3Aに送られた検索結果が100件を越えている場合には、該中継通信装置3Aにおいて足きり処理が行われる。これにより検索条件内に収まる検索結果が前記入出力装置2に送信され、この点で無駄な処理が削減される。
また、前記中継通信装置3Aの情報処理プログラムの内容によっては前記入出力装置2の処理機能を代替することもできる。例えば情報処理プログラムの設定に応じて、前記処理命令で指示された取得件数が予め設定された閾値内のときには前記中継通信装置3Aで情報処理が行われる一方、前記閾値を超えるときには前記各中継通信装置3Bに処理を分散させることができる。
なお、本発明は、コンピュータを分散型検情報検索システムを構成する各装置2.3.4として機能させるプログラムとして構築することもできる。
この場合には、コンピュータの処理部(例えばCPUなど)がプログラムコードを読み出して、本発明の実施形態の各処理が実行される。このプログラムコードは、例えばCD−ROM,DVD−ROM,CD−R,CD−RW,DVD−R,DVD−RW,DVD+R,DVD+RW,MO,HDDなどの各種の記録媒体に格納される。また、前記プログラムを、インターネットサイトからダウンロードしてコンピュータに提供してもよい。
(9)応用例
本発明は、例えば利用者端末1として携帯電話を使用する場合、携帯電話で受信可能な最大文書量を前記検索命令に含めて受信し、検索結果のデータ量が前記最大文書量を超えた場合には、前記携帯電話にメッセージを送信して利用者に知らせる技術に応用することができる。
また、前記分散型検索装置4に、電子文書の文書番号のほかにテキスト情報を取得させ、かかるテキスト情報を命令結果記憶装置9に一時記憶して必要に応じて任意の情報処理を施した後に、利用者端末1へ返信することもできる。
本発明の実施形態に係る分散型情報検索システムの構成図。 同 入出力装置の構成図。 同 中継通信装置の構成図。 同 転置インデクスの一例図。 同 動作例のシーケンス図。 同 実施例1のシーケンス図。 同 実施例2のシーケンス図(1)。 同 実施例2のシーケンス図(2)。 分散型情報検索システムの他例を示すシステム構成図。
符号の説明
1…利用者端末
2…入出力装置
3…中継通信装置
4…分散型検索装置
5…検索命令受付手段
6…中継処理制御手段
7…情報処理手段
8…情報検索結果応答手段
9…命令結果記憶装置
10…処理受付手段
11…情報処理手段

Claims (6)

  1. 電子文書群の中から任意の単語を含む電子文書を検索し、検索結果に任意の情報処理を施す分散型情報検索システムであって、
    検索単語の指示を含む検索命令および前記検索結果に施す情報処理を指示する処理命令を利用者端末から受け付ける入出力装置に複数の中継通信装置が接続され、各中継通信装置を経由して複数の分散型検索装置がネットワークで接続され、
    前記各分散型検索装置は、前記検索命令に基づき電子文書群を検索して検索単語を含む電子文書を前記検索結果として求め、予め設定された基準に従って前記検索結果の電子文書毎に評価値を付与し、
    前記入出力装置と前記中継通信装置とは、前記評価値に従って選別した電子文書に前記処理命令の指示する情報処理を実行する手段を備え、
    前記入手力装置は、前記検索命令の指示する情報量が予め設定された閾値以下のときに前記処理命令の指示する情報処理を行う一方、
    前記検索命令の指示する情報量が予め設定された閾値を超えているときに各中継通信装置に分散して前記処理命令の指示する情報処理を行わせて、
    前記検索結果および前記情報処理の結果を前記利用者端末に返信することを特徴とする分散型情報検索システム
  2. 電子文書群の中から任意の単語を含む電子文書を検索し、検索結果に任意の情報処理を施す分散型情報検索システムであって、
    検索単語の指示を含む検索命令および前記検索結果に施す情報処理を指示する処理命令を利用者端末から受け付ける入出力装置に複数の中継通信装置が接続され、各中継通信装置を経由して複数の分散型検索装置がネットワークで接続され、
    前記各分散型検索装置は、前記検索命令に基づき電子文書群を検索して検索単語を含む電子文書を前記検索結果として求め、予め設定された基準に従って前記検索結果の電子文書毎に評価値を付与し、
    前記入出力装置と前記中継通信装置とは、前記評価値に従って選別した電子文書に前記処理命令の指示する情報処理を実行する手段を備え、
    前記入出力装置が、前記検索命令の指示する情報量を前記中継通信装置の台数に応じて割り振って検索を指示する一方、
    前記各中継通信装置が、前記各分散型検索装置の検索結果を統合した結果に前記選別を行って前記処理命令の指示する情報処理を施し、
    前記検索結果および前記情報処理の結果を前記利用者端末に返信することを特徴とする分散型情報検索システム
  3. 入出力装置に複数の中継通信装置が接続され、かつ各中継通信装置を経由して複数の分散型検索装置がネットワークで接続されたシステムをもって電子文書郡の中から任意の単語を含む電子文書を検索し、検索結果に任意の情報処理を施す分散型情報検索方法であって、
    前記入出力装置が、検索単語の指示を含む検索命令および前記検索結果に施す情報処理を指示する処理命令を利用者端末から受け付ける第1ステップと、
    前記各分散型検索装置が、前記検索命令に基づき電子文書群を検索して、検索単語を含む電子文書を前記検索結果として求める第2ステップと、
    前記各分散型検索装置が、予め設定された基準に従って前記検索結果の電子文書毎に評価値を求める第3ステップと、
    前記入出力装置と前記中継通信装置の少なくとも一方が、前記評価値に従って選別した電子文書に前記処理命令の指示する情報処理を行った結果を取得する第4ステップと、
    前記入出力装置が、前記検索結果および前記情報処理の結果を前記利用者端末に返信する第5ステップと、を有し、
    前記第4ステップにおいて、前記入出力装置は前記検索命令の指示する情報量が予め設定された閾値以下のときに前記処理命令の指示する情報処理を行う一方、
    前記検索命令の指示する情報量が予め設定された閾値を超えているときに各中継通信装置に分散して前記処理命令の指示する情報処理を行わせる
    ことを特徴とする分散型情報検索方法。
  4. 入出力装置に複数の中継通信装置が接続され、かつ各中継通信装置を経由して複数の分散型検索装置がネットワークで接続されたシステムをもって電子文書郡の中から任意の単語を含む電子文書を検索し、検索結果に任意の情報処理を施す分散型情報検索方法であって、
    前記入出力装置が、検索単語の指示を含む検索命令および前記検索結果に施す情報処理を指示する処理命令を利用者端末から受け付ける第1ステップと、
    前記各分散型検索装置が、前記検索命令に基づき電子文書群を検索して、検索単語を含む電子文書を前記検索結果として求める第2ステップと、
    前記各分散型検索装置が、予め設定された基準に従って前記検索結果の電子文書毎に評価値を求める第3ステップと、
    前記入出力装置と前記中継通信装置の少なくとも一方が、前記評価値に従って選別した電子文書に前記処理命令の指示する情報処理を行った結果を取得する第4ステップと、
    前記入出力装置が、前記検索結果および前記情報処理の結果を前記利用者端末に返信する第5ステップと、を有し、
    前記第4ステップは、前記入出力装置が前記検索命令の指示する情報量を前記中継通信装置の台数に応じて割り振って検索を指示するステップと、
    前記各中継通信装置が前記各分散型検索装置の前記検索結果を統合した後に前記選別を行って前記処理命令の指示する情報処理を施すステップと、
    を有することを特徴とする分散型情報検索方法。
  5. 請求項1または2のいずれかに記載の分散型情報検索システムを構成する各装置としてコンピュータを機能させることを特徴とする分散型情報検索プログラム。
  6. 請求項5記載の分散型情報検索プログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
JP2008132588A 2008-05-21 2008-05-21 分散型情報検索システム、分散型情報検索方法、分散型情報検索プログラムおよびそのプログラムを記録した記録媒体 Expired - Fee Related JP5135060B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008132588A JP5135060B2 (ja) 2008-05-21 2008-05-21 分散型情報検索システム、分散型情報検索方法、分散型情報検索プログラムおよびそのプログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008132588A JP5135060B2 (ja) 2008-05-21 2008-05-21 分散型情報検索システム、分散型情報検索方法、分散型情報検索プログラムおよびそのプログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2009282647A JP2009282647A (ja) 2009-12-03
JP5135060B2 true JP5135060B2 (ja) 2013-01-30

Family

ID=41453064

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008132588A Expired - Fee Related JP5135060B2 (ja) 2008-05-21 2008-05-21 分散型情報検索システム、分散型情報検索方法、分散型情報検索プログラムおよびそのプログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP5135060B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101624126B1 (ko) * 2014-06-27 2016-05-26 주식회사 내일비 콘텐츠 제공 장치 및 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3278406B2 (ja) * 1998-12-10 2002-04-30 富士通株式会社 ドキュメント検索仲介装置、ドキュメント検索システム、および、ドキュメント検索仲介プログラムを記録した記録媒体
JP3693958B2 (ja) * 2001-04-05 2005-09-14 松下電器産業株式会社 分散型文書検索方法及び装置、並びに分散型文書検索プログラム及びそのプログラムを記録した記録媒体
JP2003178092A (ja) * 2001-12-10 2003-06-27 Mitsubishi Electric Corp 情報検索システム、情報提供装置及び情報検索方法並びにプログラム

Also Published As

Publication number Publication date
JP2009282647A (ja) 2009-12-03

Similar Documents

Publication Publication Date Title
JP6028567B2 (ja) データ格納プログラム、データ検索プログラム、データ格納装置、データ検索装置、データ格納方法及びデータ検索方法
CN107291928B (zh) 一种日志存储系统和方法
JP4724701B2 (ja) 文章検索サーバコンピュータ,文章検索方法,文章検索プログラム,そのプログラムを記録した記録媒体
US9405819B2 (en) Efficient indexing using compact decision diagrams
EP2631815A1 (en) Method and device for ordering search results, method and device for providing information
JP2015508543A (ja) 店舗訪問データを処理すること
WO2006131909A3 (en) Method and system for monitoring and analyzing peer-to-peer users' activities over a data network
JP5320204B2 (ja) 情報端末装置、情報検索方法、および情報検索プログラム
US20120239657A1 (en) Category classification processing device and method
US20140067853A1 (en) Data search method, information system, and recording medium storing data search program
JP5135060B2 (ja) 分散型情報検索システム、分散型情報検索方法、分散型情報検索プログラムおよびそのプログラムを記録した記録媒体
JP5194856B2 (ja) コンパクトな決定図を用いた効率的インデックス付け
JP5622880B2 (ja) アイテム推薦システム、アイテム推薦方法およびアイテム推薦プログラム
KR100899930B1 (ko) 연관 데이터 클래스 생성 방법 및 시스템
US20080082516A1 (en) System for and method of searching distributed data base, and information management device
JP2006134191A (ja) 文書検索方法およびそのシステム
CN104468482A (zh) 一种文件排序的方法及装置
US20190114297A1 (en) Information search method and server
JP2009245181A (ja) 分散型全文検索システム、分散型全文検索方法、分散型全文検索プログラム及びそのプログラムを記録した記録媒体
WO2016013209A1 (ja) 文集合抽出システム、方法およびプログラム
JP5199952B2 (ja) 情報利用履歴共有方法、情報利用履歴共有装置、情報利用履歴共有プログラムおよび同プログラムを記録した記録媒体
JP5416659B2 (ja) 情報格納検索装置、情報格納方法、および情報格納プログラム
KR101648707B1 (ko) 큐브리드 기반 미들웨어, 및 큐브리드 기반 미들웨어를 이용한 분산 병렬 질의 처리 방법
US9996621B2 (en) System and method for retrieving internet pages using page partitions
CN110659345B (zh) 事实报表的数据推送方法、装置、设备及存储介质

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20100603

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100721

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120628

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120703

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120822

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120911

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121010

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121106

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121112

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151116

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5135060

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees