JP2009187211A - 情報検索システム、情報検索方法およびプログラム - Google Patents

情報検索システム、情報検索方法およびプログラム Download PDF

Info

Publication number
JP2009187211A
JP2009187211A JP2008025444A JP2008025444A JP2009187211A JP 2009187211 A JP2009187211 A JP 2009187211A JP 2008025444 A JP2008025444 A JP 2008025444A JP 2008025444 A JP2008025444 A JP 2008025444A JP 2009187211 A JP2009187211 A JP 2009187211A
Authority
JP
Japan
Prior art keywords
search
index
information
score calculation
calculation information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008025444A
Other languages
English (en)
Other versions
JP5374881B2 (ja
Inventor
Maki Suga
真樹 菅
Yoshihiro Kajiki
善裕 梶木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008025444A priority Critical patent/JP5374881B2/ja
Publication of JP2009187211A publication Critical patent/JP2009187211A/ja
Application granted granted Critical
Publication of JP5374881B2 publication Critical patent/JP5374881B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】検索精度と、検索処理の応答性能と両立させることのできる情報検索システムの提供。
【解決手段】情報検索システムは、索引語について、他の検索インデックス又は情報処理システムから取得したスコア演算情報を格納可能な検索インデックスと、検索の際に、前記検索インデックスに格納されたスコア演算情報を用いてスコア演算を行って検索結果を生成する検索手段と、を備える。
【選択図】図1

Description

本発明は、情報検索システム、情報検索方法およびプログラムに関し、特に、予め作成した検索インデックスを参照して、検索結果を生成する情報検索システム、情報検索方法及びプログラムに関する。
Google(登録商標)等に代表されるWeb検索システムの普及により、電子ファイル等に対する全文検索システムが一般化してきた。ユーザは検索システムを用いて情報を検索する作業を行うことを日常的に行うようになっている。
現在、電子ファイル等に対する全文検索システムは、高速に検索するためのインデックス(検索インデックス)を予め作成しておき、このインデックスを用いて電子ファイルを検索する仕組みが主流となっている。このような情報検索システムの例が、特許文献1、非特許文献1に記載されている。非特許文献2には、辞書ファイルと、位置ファイルとによって構成した転置ファイルの基本的な仕組みが記載されている。
情報検索システムの中には、複数のインデックスを有するものがあり、例えば、特許文献2〜5、非特許文献3に記載されている。
特許文献2には、新規文書をインデックスに登録する際に、主インデックスよりも小さな副インデックスに登録し、検索時には、各インデックスにアクセスして検索し、その結果を合わせて検索結果とする文書検索装置が開示されている。
特許文献3には、複数の検索エンジン部と、検索エンジン部の検索結果の先頭から所定の基準値までを取得して順序付けする全体ソート部と、を用いて、各検索エンジンと全体ソート部間の通信量を減らし、書誌一覧の作成を高速化する構成が開示されている。
特許文献4には、個々のインデックス毎に得られるスコア(DF値)を統合(マージ)し、検索対象文書群全体に対するスコア(DF値)を算出することにより、検索精度を向上させる構成が開示されている。
特許文献5には、個々の検索格納手段に格納されている登録文書数から算出した検索格納手段全体の総合登録文書数と、個々の検索格納手段に格納されている検索キーワードを含む文書の数である文書頻度から算出した検索格納手段全体の総合文書頻度と、から、検索キーワードのスコアを算出する文書検索システムが開示されている。
非特許文献3には、時系列に分割した複数のインデックスを用意し、過去の時点で参照可能であったインデックスを用いることで、過去に遡った検索を実現する情報検索システムが開示されている。
特開平9−223152号公報 (第1頁) 特開平7−146880号公報 特開平11−265393号公報 特開2003−323457号公報 特開2006−331117号公報 北 研二、津田 和彦、獅々堀 正幹著、「情報検索アルゴリズム」共立出版、2002年1月1日、pp.6、pp.160〜179 徳永 建伸著, 「情報検索と言語処理」東京大学出版会、1999年11月25日、pp.40 菅 真樹、鳥居 隆史、梶木 善裕、「過去に遡った検索を実現する情報検索システムの提案」、電子情報通信学会総合大会、D−4−8、2007年
特許文献3の情報検索装置は、高速な検索を実現するが、特許文献4にも指摘されているとおり、スコア計算の際に使用する文書頻度はインデックス毎の値であるために、正しいスコアが得られず、検索結果の精度も落ちてしまうという問題点がある。
一方、特許文献4、5に記載の文書検索装置/システムは、単一のインデックスと同等のスコアを期待することができるが、検索の都度、各インデックスのスコアを収集し、再計算する必要があるため、検索速度を向上させるのが難しいという問題点がある。
本発明は、上記した事情に鑑みてなされたものであって、その目的とするところは、特許文献4、5と同様またはそれ以上の検索精度を保ちつつ、検索処理の応答性能を向上させることのできる情報検索システム、情報検索方法およびプログラムを提供することにある。
本発明の第1の視点によれば、索引語について、他の検索インデックス又は情報処理システムから取得したスコア演算情報を格納可能な検索インデックスと、検索の際に、前記検索インデックスに格納されたスコア演算情報を用いてスコア演算を行って検索結果を生成する検索手段と、を備える情報検索システムが提供される。
本発明の第2の視点によれば、検索インデックスを備える情報検索システムにおける情報検索方法であって、前記検索インデックスの更新の際に、他の検索インデックス又は情報処理システムから更新する索引語についてのスコア演算情報を取得し、更新対象の検索インデックスに格納しておき、任意の検索インデックスを用いた検索の際に、当該検索インデックスに格納されたスコア演算情報を用いてスコア演算を行って検索結果を生成する情報検索方法が提供される。
本発明の第3の視点によれば、索引語について、他の検索インデックス又は情報処理システムから取得したスコア演算情報を格納可能な検索インデックスを備える情報検索システムを構成するコンピュータに実行させるプログラムであって、検索の際に、前記検索インデックスに格納された前記他の検索インデックス又は情報処理システムから取得したスコア演算情報を用いてスコア演算を行って検索結果を生成する検索手段として前記コンピュータを機能させるプログラムが提供される。
本発明の第4の視点によれば、他の検索インデックス又は情報処理システムから取得したスコア演算情報を格納可能な検索インデックスを備える情報検索システムを構成するコンピュータに実行させるプログラムであって、所定のインデックス更新規則に従って、前記他の検索インデックス又は情報処理システムから当該索引語のスコア演算情報を取得して、前記検索インデックスを更新するインデックス更新手段として前記コンピュータを機能させるプログラムが提供される。
本発明によれば、他の検索インデックス又は情報処理システムにアクセスすることなく、正確なスコア演算を行なうことが可能となる。その理由は、他の検索インデックス又は情報処理システムから取得したスコア演算情報を検索インデックスに予め格納する構成を採用したことにある。
続いて、本発明を実施するための最良の形態について図面を参照して詳細に説明する。
[第1の実施形態]
図1は、本発明の第1の実施形態に係る情報検索システムの概要構成を示す図である。
図1を参照すると、本発明の第1の実施形態に係る情報検索システムは、文書格納手段1と、インデックス登録手段2と、インデックス31〜33と、検索手段41〜43と、マージ手段5と、検索条件入力手段6と、検索結果提示手段7とを備えている。
なお、図1の例では、3つのインデックス(検索インデックス)31〜33を有する構成としているが、このインデックスの数は任意の数でよい。
また、図1の例では、インデックス毎に検索手段41〜43を設けた構成としているが、検索手段の数も任意の数とすることができる。例えば、1つの検索手段が複数のインデックスを読み込んで計算する構成を取っても良いし、任意の数のインデックスを担当する検索手段を複数備える構成とすることもできる。
以後の説明では、本発明の理解をより容易にするため、図1に示したように、インデックス1つあたり1つの検索手段が割り当てられているものとして説明する。
文書格納手段1は、検索対象の情報(文書)を保持する機能を果たす。文書格納手段1としては、例えば、
・ユーザが保持するパーソナルコンピュータのハードディスク装置や、
・NAS(Network Attached Storage)等の外部装置、
・WWW(World Wide Web)、
・Intranet(企業内のWebページ群)、
・バックアップのための記憶装置および情報システム、
・データを出力する情報システム(例えば、データベースシステムや、データベースなどのシステムの情報から目的に合わせた情報を出力するビジネスインテリジェンス(BI)システムなど)
等が挙げられる。
検索対象の情報(文書)とは、上記のような文書格納手段1内に存在するWebページやオフィス文書、画像、動画等の電子ファイル、データベース内の構造化された情報等である。
図2は、インデックス登録手段2の構成をより詳細に説明する図である。図2を参照すると、インデックス登録手段2は、文書取得手段21と、索引語抽出手段22と、索引語及びスコア演算情報登録手段23と、スコア演算情報取得手段24と、を含んで構成される。
文書取得手段21は、文書格納手段1からインデックス31〜33に登録する文書を取得し(あるいは、文書格納手段1から渡された情報を受け入れる)、索引語抽出手段22に対して渡す。
索引語抽出手段22は、文書取得手段21から受け取った文書から、インデックス31〜33に登録する索引語を抽出する役割を果たす。索引語を抽出する方法としてはN−Gramや形態素解析などの方法が挙げられる。
また、索引語抽出手段22は、スコア演算に必要な値の算出も行う。一般的に、スコアの計算方法としてTF−IDF法に基づいて計算される。TF−IDF法とは、ある文書における検索文字列の出現回数(文書内頻度とも呼ばれる)であるTF値、検索対象文書集合におけるその検索文字列を含む文書数であるDF値に基づいた数式によりスコアを計算する方法である。ここで、IDFはDF値の逆数である。
この場合において、TF値は索引語抽出を行う検索対象文書単体で算出できるため、索引語抽出手段22において算出してよい。また、当然ながら、後記する索引語及びスコア演算情報登録手段23においてTF値を算出することとしてもよい。
索引語及びスコア演算情報登録手段23は、索引語抽出手段22が取り出した索引語及び索引語に関係するスコア演算情報を、更新対象のインデックス(図2の例では、インデックス31を更新対象としている。)に登録あるいは更新を行う。索引語及びスコア演算情報登録手段23は、インデックス31の文書リスト格納位置特定情報格納手段311側に格納するものとするが、詳細な方法及びデータ構造については後に説明する。
更新対象のインデックスの選択方法や更新のタイミングは、情報検索システムのインデックス更新ポリシ(インデックス更新規則)に依存する。従って、索引語及びスコア演算情報登録手段23が更新対象とするインデックスは任意で良いものとする。
例えば、非特許文献3に開示されている情報検索システムの場合、最新のインデックスを更新対象とし、一定の契機で更に新しいインデックスを作成(新設)するインデックス更新ポリシを用いている。これにより、時系列に区分されたインデックスを構成できる。また上記のインデックス更新ポリシを基本としつつ、過去のインデックスをまとめる(マージする)など、過去のインデックスを更新対象とすることもできる。
スコア演算情報とはスコア演算に必要な値や情報、またはスコアの値自体のことを示し、具体例の一つとしては、先に述べたTF−IDF法におけるTF値およびDF値などが挙げられる。これらのスコア演算情報には、索引語抽出手段22あるいは索引語及びスコア演算情報登録手段23で計算された自インデックスのスコア情報と、スコア演算情報取得手段24から取得したスコア情報とが含まれる。また、他の例としては、スコアを演算するための演算式や、予め用意されている複数のスコア演算式の中から利用する演算式を特定するための情報(例えば、関数名等)が含まれる。
スコア演算情報取得手段24は、インデックス32、33(更新対象以外の任意のインデックス)から、更新対象のインデックスへ登録又は更新するスコア演算情報を取得し、索引語及びスコア演算情報登録手段23に対して渡す機能を果たす。
スコア演算情報取得手段24が、任意のインデックス32、33から、該当の索引語や検索対象文書に対するスコア演算情報を取得する方法は、インデックスを用いた索引語に対する検索方法と同一である。例えば、ある索引語に対するインデックス32におけるDF値を取得するには、インデックス32内の文書リスト格納位置特定情報格納手段321を用いて該当索引語の文書リストの位置情報を取得する。この際、検索インデックスの構成によっては、文書リスト格納位置特定情報格納手段321にDF値が格納されている場合がある(図4参照)。この場合、スコア演算情報取得手段24は、文書リスト及びスコア演算情報格納手段322にアクセスすることなく、DF値を得ることができる。DF値が文書リスト及びスコア演算情報格納手段322に格納されている場合には、文書リスト格納位置特定情報格納手段321から得られた索引語を含む文書リストの位置情報を用いて、文書リスト及びスコア演算情報格納手段322から索引語のスコア演算情報を取得すればよい。
スコア演算情報取得手段24が、索引語や検索対象文書に対するスコア演算情報を取得する対象は、図1、図2に例示されたインデックスに限定する必要はない。例えば、図1、図2において省略されているデータベース(各種辞書データベースを含む。)などの任意のデータ保持方法による記憶手段や他の情報処理システムを、スコア演算情報の取得対象とすることができる。また、これら記憶手段に保持された検索語に関連する値が、そのままスコア演算情報として用いることができない場合は、当該値に応じた変換式等により適宜加工すればよい。
一般的な情報検索システムのインデックスに登録されているスコア演算情報は、TF値及びDF値であるが、上記スコア演算情報取得手段24が取得するのは、個々のインデックスにおけるDF値でよい。これは、本来のDF値は検索対象文書全体の数値であるが、一般的な情報検索システムでは本来のDF値ではなく、更新処理が容易になるため個々のインデックスにおける検索対象文書集合のDF値を登録しているためである。また、TF値に関しては元々単一の検索対象文書から得ることができる値であるため、他のインデックス等から取得する必要は無い。
DF値は、更新の都度再集計する必要はなく、ある索引語を含む検索対象文書が新しくインデックスに追加される場合には、当該索引語のDF値に対して1を追加すればよい。また、更新の際には該当の索引語が更新前にも検索対象文書に含まれていればDF値は変わらないことになる。また、ある索引語を含む検索対象文書が削除された場合には、当該索引語のDF値を1減少させればよい。
本発明の一つの特徴は、更新対象のインデックス(例:インデックス31)に、当該更新対象のインデックスにおける当該検索語のスコア演算情報(例:インデックス31の検索対象とする文書集合におけるDF値)だけでなく、他の分散された検索インデックス(32、33)に登録されたスコア演算情報(例:インデックス32、33の検索対象とする文書集合におけるDF値)も登録する点にある。スコア演算情報取得手段24は、そのために必要な値を取得する。
また、更新対象の検索インデックスが保持するスコア演算情報(例:インデックス31の検索対象とする文書集合におけるDF値)は、索引語及びスコア演算情報登録手段23によって、他の分散されたインデックス(32、33)にそれぞれ登録される。なお、図2の索引語及びスコア演算情報登録手段23から検索インデックス32への矢印が上記スコア演算情報(例:インデックス31の検索対象とする文書集合におけるDF値)の流れに相当する。なお、図2では、索引語及びスコア演算情報登録手段23からインデックス33への矢印は省略されている。
続いて、インデックス31〜33の構成について図2を用いて説明する。インデックス31は、文書リスト格納位置特定情報格納手段311と、文書リスト及びスコア演算情報格納手段312とを含む。また、他のインデックス32、33も同じ構成を持つ。
インデックス31〜33は、検索エンジン処理の高速化のために、各索引語とその索引語を含む文書集合を得るための記憶構造によって構成される。本実施形態のインデックス31〜33は、非特許文献2に記載されている転置ファイル(inverted file)法で構成されているものとする。当然ながら、データベースシステムソフトウェアなどにより上記の構造を実現しても良い。
文書リスト格納位置特定情報格納手段311は、索引語の一覧を格納し、これら索引語と対応付けられた当該索引語を含む文書リスト及びスコア演算情報格納手段312内の場所を示す情報(以降、ポインタ)を保持している。
文書リスト格納位置特定情報格納手段311は、転置ファイル法の例においては、辞書ファイル(dictionary file)に相当する。辞書ファイルは単純な表構造やソートされたリスト構造などを取ることもあるが、B木構造やトライ(Trie)構造を取って高速な索引語の検索が出来るようにすることが一般的である。また、非特許文献2の例では索引語に付属されるスコア情報であるDF値が辞書ファイル内に記録されている。本発明においてもこれらと同様の構成を採用することができる。
文書リスト及びスコア演算情報格納手段312は、文書の情報に対するポインタや文書に対するスコア演算情報を保持する。検索手段41〜43やインデックス登録手段2は、文書リスト格納位置特定情報格納手段311により示されるポインタにより、索引語が含まれる文書のスコア演算情報にアクセスすることができる。文書リスト及びスコア演算情報格納手段312に格納される文書のスコア演算情報としては、索引語の出現頻度やその索引語の出現位置などが挙げられる。
文書リスト及びスコア演算情報格納手段312は、転置ファイル法の例においては、位置ファイル(posting file)に相当する。非特許文献2に記載されている位置ファイルの例では、辞書ファイルのポインタの示す先に、該索引語を含む文書の文書番号と、索引語の出現頻度(必要なら出現位置)が保持されている。また、一般の情報検索システムにおいては、この文書番号によって特定される文書の他の情報などを別のデータ構造として格納することが一般的に行われている。本発明においてもこれらと同様の構成を採用することができる。
続いて、図4を参照して、上記転置ファイル法を用いた場合のインデックスのデータ構造について説明する。図4の左側の表が文書リスト格納位置特定手段(辞書ファイル)、右側の表が文書リスト及びスコア演算情報格納手段(位置ファイル)を示す。文書リスト格納位置特定手段には、索引語t1〜t5のスコア演算情報1(図4の例ではDF値)が格納されている。文書リスト及びスコア演算情報格納手段には、索引語t1〜t5のスコア演算情報2(図4の例ではTF値)が格納されている。
図5は、本実施形態の情報検索システムのインデックス31〜33のデータ構造例を示す。文書リスト格納位置特定手段の他のスコア演算情報欄に、他の検索インデックス(例えば32、33、あるいは、図4に示した他の情報検索システムのインデックス等)から取得した索引語に付随するスコア演算情報を格納可能となっている。この他のスコア演算情報欄は、実際の記憶媒体上の記憶場所を問わないが、スコア演算情報1と同時に取得できるよう、記憶媒体上の連続した箇所にあることが望ましい。
なお、上記のように文書リスト格納位置特定手段内にデータ保持領域を確保することによって、インデックスサイズの増大が起きる。しかしながら、計算機のデータへのアクセスサイズはオペレーティングシステム(OS)などで指定されるブロックサイズに依存する。このブロックサイズは512byteや4Kbyteなどの値であるため、一般に索引語1つ分の行に格納されている情報より十分大きいため、索引語1つあたりの検索に対するデータ読み出し量は、他のスコア演算情報の保持量が一定サイズを超えない限り変化が無い。また、情報検索システムの場合、検索時に索引語の周囲の情報(例えば、索引語t3を検索する場合に索引語t2、t4の情報)を取得することは性能向上の役に立たないため、一回のブロックアクセスで取得できる周囲の索引語の情報が減少しても問題ない。以上のことから、記憶媒体上の連続した場所(同一ブロックまたは該当ブロック前後の箇所)にスコア演算情報の格納領域を設けることによって、その他の不特定の場所に格納するよりも性能が向上するという効果が得られる。これは、記憶媒体の種類を問わず、有効であるが、特に、磁気ディスクなどのランダムアクセス性能に劣る記憶媒体には有効である。
上記した他のスコア演算情報欄へのスコア演算情報の登録形態(登録規則)としては、幾つか存在する。以下、図6〜図8を参照して、代表的なものを説明する。
まず、図6に示すように、他の検索インデックスから取得したスコア演算情報を統合した値(例えばDF値の場合、総和)を保持する方法が挙げられる。この場合、データ量が少なくて済むため、ディスク使用量を効率化できる、という利点がある。ただし、すべての検索インデックスを選択せず、任意の検索インデックスのみを選択して検索する際に、選択された任意の検索インデックスがカバーする情報空間でのスコア演算情報を利用することができない。
図6の例では、インデックス31が保持するスコア演算情報をS31(索引語毎に保持)、インデックス32が保持するスコア演算情報をS32、同じく、インデックス33がS33、インデックス34がS34、インデックス35がS35、インデックス36がS36とする。そして、統合されたスコア演算情報をS_all(DF値の場合、S31−S36の総和)と示している。なお、上記統合されたスコア演算情報S_allは、自身のインデックスが保持する値(インデックス31のS31)を含まないで演算した結果としてもよい。この場合、インデックス31に保存される他のスコア演算情報はS31を除外して算出される(DF値の場合S32−S36の総和)。
図7は、他の検索インデックスから取得したスコア演算情報を個別の値のまま保持するようにしたインデックスの集合を示している。この場合、データ量が大きくなってしまうが、検索インデックスをすべて用いて検索せず、任意の検索インデックスのみを選択し、そして選択された任意の検索インデックスがカバーする情報空間における正しいスコア演算を行うことが出来る、という利点を得ることができる。
図7の例では、個々のインデックス本来のスコア演算情報と他のインデックスのスコア演算情報を別に扱っているが(図5も同様)、同等に扱って列挙しても良い。例えばその場合、インデックス33のスコア情報格納欄に、S31〜S36のデータが順に列挙されて保持される。
さらに図7のように、他のインデックスから取得したスコア演算情報を個別の値のまま保持する場合に、索引語1つあたりのデータ量が一定のサイズ(例:4インデックス分)を超えた場合に、いくつかのスコア演算情報を選択して統合した値(例えばS31−S34の総和)として保持して、データ量が一定のサイズを超えないようにしてもよい。このようにすることによって、索引語1つに対するデータアクセスが一回のブロックアクセスで収まる範囲にしておき、データ量が大きくなりすぎたときに、ディスクアクセス性能の劣化を低減する、という効果を得ることができる。
また、図8のように、新設されたインデックスに、既存のインデックスのスコア演算情報を登録し、既にあるインデックスには新しいインデックスのスコア演算情報を登録しないという方法も考えられえる。この方式は、非特許文献3の情報検索システムに好適に用いることができる。
図8の例では、一つ前に新設されたインデックスをコピーし、当該インデックスのスコア演算情報を計算・追加していけばよいため、インデックス登録処理時の負荷が軽減されるという効果がある。その代わり、検索対象のインデックス内で最新のインデックス(例:32)に、検索語が含まれない場合には、次に新しいインデックス(例:33)から、他のスコア演算情報を取得した後に、該インデックスを担当する検索手段がスコア演算を実行することになる。この場合、図6、図7と比較して検索精度が劣化するが、すべての検索インデックスの結果を収集した後、統合値を演算しなければならない従来手法よりは性能の向上が期待できる。
続いて、図1の検索手段41〜43、マージ手段5、検索条件入力手段6、検索結果提示手段6の構成について、図3を用いて詳細に説明する。
図3を参照すると、検索手段41は、文書リスト及びスコア演算情報取得手段411と、スコア演算処理手段412と、検索結果出力手段413と、から構成される。検索手段42、43も同じ構成を持つ。
文書リスト及びスコア演算情報取得手段411は、検索条件入力手段6から検索条件を受け付け、文書リスト格納位置特定情報格納手段311に対してアクセスし、受け付けた検索条件の索引語を含む文書数(図5のスコア演算情報1及び他のスコア演算情報)と、文書リスト及びスコア演算情報格納手段312内を示す、該索引語を含む文書リスト情報へのポインタを取得する。文書リスト及びスコア演算情報取得手段411は、このポインタを利用して、文書リスト及びスコア演算情報格納手段312から検索結果の文書リスト及びそれぞれのスコア演算情報(図5のスコア演算情報2)を取得する。そして、文書リスト及びスコア演算情報取得手段411は、スコア演算処理手段412に対して、前記取得した文書リスト及びスコア演算情報を渡す。
スコア演算処理手段412は、文書リスト及びスコア演算情報取得手段411から得られたスコア演算情報を用いて、個々の索引語を含む文書の検索条件に対するスコアを演算する。
検索結果出力手段413は、検索結果の文書リスト及び演算されたスコアをマージ手段5に対して渡す。このとき、検索結果出力手段413は、得られたスコア演算情報を元にスコアの高い順にソートしてからマージ手段5に対して渡すようにすることもできる。
前述したとおり、検索手段41が担当する検索インデックスの数は任意に決定できる。検索手段41が複数の検索インデックスを担当する場合には、複数の検索インデックスに対してそれぞれ上記の処理を行って、検索結果をマージ手段5に対して渡すことになる。
マージ手段5は、検索手段41〜43からの検索結果を受け取り、それぞれの検索手段による検索結果を1つの結果にまとめて、検索結果提示手段7に対して渡す。検索結果をまとめる処理としては、個々の検索手段で演算したスコア結果をもとに検索結果をソートする処理や、複数の検索結果に含まれる同一の文書を1つにまとめる処理等などの処理を挙げることができる。
検索条件入力手段6は、ユーザからの検索条件を受け付けて、検索手段41〜43に対して渡す機能を果たす。
また、非特許文献3の情報検索システムのように、過去の時点に基づく検索結果を得る機能を実現するには、検索条件入力手段6が、検索手段又はインデックスを選択する機構として動作することになる。あるいは、検索手段が、検索条件入力手段6より受け付けた検索条件に基づいて、インデックスを選択する構成としてもよい。
検索結果提示手段7は、マージ手段5によって作成された検索結果を受け取り、ユーザに対して検索結果として提示する機能を果たす。
続いて、図9のフローチャートを参照して、本実施形態の情報検索システムにおけるインデックス登録処理の流れについて説明する。
まず、文書取得手段21が文書格納手段1から検索インデックスに登録する検索対象文書を取得する(ステップS101)。
次に、索引語抽出手段22が検索対象文書の解析を行って、索引語の抽出を行う(ステップS102)。索引語の抽出方法については、非特許文献1などの文献に記載されているため、説明を省略する。
次に、スコア演算情報取得手段24が、ステップS102で抽出された索引語に付随するスコア演算情報を、更新対象とは別のインデックスあるいは、別の情報処理システムから取得する(ステップS103)。
次に、索引語及びスコア演算情報登録手段23が検索インデックス31の更新処理を行う(ステップS104)。
以上により、図8に示したような、自らのインデックスのスコア演算情報以外のスコア演算情報を持つインデックスの集合を得ることができる。
図6、7に示したような、自らのインデックスのスコア演算情報が、他のすべてのインデックスに反映されたインデックスの集合を得るには、図10のステップS105以下の処理が継続される。
まず、索引語及びスコア演算情報登録手段23が、上記ステップS104で更新した更新対象のインデックスが保持する、索引語に付随するスコア演算情報(前述の説明のDF値)を取得する(ステップS105)。
次に、索引語及びスコア演算情報登録手段23が、他の検索インデックスに対して、前記更新対象のインデックスが保持するスコア演算情報の登録あるいは更新処理を行う(ステップS106)。
なお、図10のように文書が1つ更新される毎にステップS105〜S106の処理を行うのではなく、ある程度修正する情報が溜まってから、他の検索インデックスに反映するような仕組みとしてもよい。
続いて、図11のフローチャートを参照して、本実施形態の情報検索システムにおけるい検索処理の流れについて説明する。
まず、ユーザが検索条件入力手段6に対して検索条件を入力する(ステップS201)。
次に、検索条件入力手段6はユーザが入力した検索条件から、検索対象とするインデックス(あるいは検索手段)を選択する(ステップS202)。
非特許文献3の情報検索システムの場合、ステップS201にて時間条件が入力され、当該時間条件によって参照するインデックスが決定される。
また、検索条件とは関係なくすべてのインデックス(あるいは検索手段)を参照する情報検索システムの場合は、上記ステップS202は省略することができる。また、計算機性能確保のために、任意の数のインデックス(あるいは検索手段)を選択する情報検索システムの場合は、検索条件ではなく、計算機性能確保のために定められた規則によって、インデックス(あるいは検索手段)が選択される。
次に、検索手段(例:検索手段41)は、文書リスト及びスコア演算情報取得手段411が担当するインデックス(例:インデックス31)の文書リスト格納位置特定情報格納手段311と、文書リスト及びスコア演算情報格納手段312とを参照して、検索条件から決定される検索索引語を含む検索文書リストとスコア演算に必要な情報を取得する(ステップS203)。
次に、スコア演算処理手段412が、ステップS203で得られた情報を用いて、検索文書リストの個々の文書のスコア値を演算する(ステップS205)。
次に、検索結果出力手段413はステップS205で演算されたスコア値を用いて、スコア順に文書をソートして、マージ手段5に出力する(ステップS206)。
次に、マージ手段5は、各検索手段から出力された結果をまとめて、検索結果提示手段7に対して、結果の一部あるいは全体を検索結果提示手段7に対して渡すと、検索結果提示手段7がユーザに対して検索結果として提示する(ステップS207)。
なお、図8に示したような、自らのインデックスのスコア演算情報が、他のインデックスに格納されているとは限らないインデックスの集合の場合には、図12のように、ステップS204が必要となる。
ステップS204では、文書リスト及びスコア演算情報取得手段411が、索引語のステップS203で取得できなかったスコア演算情報が記録されているインデックスから必要な索引語のスコア演算情報を取得する(ステップS204)。例えば、非特許文献3の情報検索システムにおいて、最新の文書頻度を検索結果に反映させたい場合、文書リスト及びスコア演算情報取得手段411は、時系列で分割されたインデックスのうち最新のインデックスに対してアクセスすることによって、必要なスコア演算情報を得ることができる。また、文書リスト及びスコア演算情報取得手段411が直接最新のインデックスにアクセスするのではなく、最新のインデックスを担当する検索手段と通信して情報を取得することとしてもよい。また、非特許文献3の情報検索システムの場合、ある時点でインデックスから索引語が削除されることがあるため、全体の最新インデックスに必要とする索引語が含まれているとは限らない。その場合、文書リスト及びスコア演算情報取得手段411が、当該索引語が含まれているインデックスのうち一番新しいインデックスを探索することになる。
なお、情報検索システムの複数の検索手段が並列動作するよう構成することも可能であり、その場合には、個々の検索手段が、上記したステップS202〜206の処理を並列に実行することになる。
続いて、本実施形態の効果について説明する。本実施形態では、各インデックスに、索引語の横断的なスコア演算情報が予め格納されているため、各検索手段単位で検索処理を完結し、スコア演算処理やソート処理を並列に行うことができるため、検索性能を高速化することができる。
また、非特許文献3の情報検索システムに適用した場合にも、過去のある時点の検索再現に、必要なスコア演算情報がすでに探索対象とするインデックスに格納されているため、良好な検索性能を得ることができる。
[第2の実施形態]
続いて、本発明の第2の実施形態について図面を参照して詳細に説明する。例えば、非特許文献3のような時系列にインデックスを区分する情報検索システムでは、個々のインデックス内で完結するスコア演算情報を保持し、そのスコア演算情報を用いて検索することにも価値がある。
例えば、スコア演算情報の例としてDF値を用いると、時間の経過によってDF値が大きく異なる場合がある。例えば、ある索引語Aが過去の一定期間では頻繁に出現し、最近の期間ではあまり出現しないような状況が発生した場合である。具体的には、組織内での組織名の変更や、製品開発部門における製品名の変更が挙げられる。
ここで例えば、検索対象文書集合全体のDF値を用いてスコア演算を行うと、ある索引語Aの重要度は時間に関係なく同一として扱われてしまう。しかし、過去に頻繁に索引語Aが出現していた時の索引語Aの重要度と、時間が経った後に頻繁に出現しなくなった索引語Aの重要度は、後者がより重要として扱うべきである。このような場合、個々のインデックス内で完結するスコア演算情報をそのまま使った方が、ユーザの検索要件によってはより精度の高い検索結果を提示することができる。
そこで、第2の実施形態では、図13に示すように、第1の実施形態と比較して、検索手段の演算方法を選択できるスコア演算方法選定手段8を追加した構成となっている。
スコア演算方法選定手段8は、ユーザが検索条件入力手段6に入力する検索条件に基づき、各検索手段でのスコア演算方法を決定する機能を果たす。
検索条件入力手段6は、ユーザに検索時のスコア演算方法を選択するインタフェースを提供する。ユーザが選択した演算方法に従い、検索手段41〜43は検索時のスコア演算を行う。なお、明示的な選択インタフェースを提供せず、検索条件の内容から暗黙的に演算方法を選択しても良い。例えば、検索キーワードに含まれる単語の種類によって、演算方法を変更する方法が考えられる。
検索手段41〜43は、スコア演算方法選定手段8が選択したスコア演算方法により、スコア演算を行う。スコア演算方法はすべて同一の方法を用いてもよいし、検索手段毎、インデックス毎に別の方法を用いても良い。
その他の手段については、基本的に上記第1の実施形態と同一なため説明を省略する。
次に、上記したスコア演算方法選定手段8が選択可能なスコア演算方法についていくつかの例を挙げて説明する。
第1のスコア演算方法は、上記第1の実施形態で説明したとおり、検索対象文書全体のスコア演算情報を用いて、正しいスコア演算を行う方法である。
第2のスコア演算方法は、分散されたインデックス固有のスコア演算情報だけでスコア演算を行う方法である。この方法の場合には、インデックスに格納された他のインデックス等のスコア演算情報は不要であるが、先に述べた1つ目のスコア演算方法と両立して利用することに意義があり、非特許文献3のような時系列に区分されたインデックスを有する情報検索システムにおいてその価値が発揮される。当然に、第2のスコア演算方法は、個々のインデックスでスコア演算処理が完結するため、高速にスコアを演算することが可能である。
第3のスコア演算方法は、分散されたインデックスのスコア演算情報をいくつか選択してスコア演算を行う方法である。特に、非特許文献3のような時系列に区分されたインデックスを有する情報検索システムでは、あるインデックスと、時間的に近い、他のインデックスのスコア演算情報を用いたスコア演算が可能となる。
上記第1〜第3のスコア演算方法の使い分けについて、図7のインデックス集合を例に取って説明する。ここでは、インデックスは非特許文献3の記載のとおり、時系列にインデックスが分割されているものとする。
インデックス33を対象とした検索を行う際に、第1のスコア演算方法では、S31〜36のスコア演算情報を用いてスコア演算を行う。第2のスコア演算方法では、S33のスコア演算情報のみを用いてスコア演算を行う。第3のスコア演算方法では、S32、S33、S34のスコア演算情報を用いてスコア演算を行う。
上記の第3のスコア演算方法の例では、時間的に直接前後に位置するスコア演算情報を選択した。当然ながら、時間的に2つ隣までのスコア演算情報(S31〜S35)を選択するように動作しても良いし、過去の任意の数のスコア演算情報を選択するよう動作してもよい。
なお、本実施形態において、各インデックスが、他のすべてのインデックスのスコア演算情報を保持しない構成とすることもできる。例えば、図6に示したように、インデックス固有のスコア演算情報と、他のインデックスから取得したスコア演算情報を統合した値(例えばDF値の場合、総和)とを格納するようにすることもできる。この場合には、良好な検索速度を確保できる第1、第2のスコア演算方法のみを選択するように構成することができる。
また例えば、図7のインデックス集合を例にして説明した第3のスコア演算方法のように、必要なスコア演算情報が決まっている場合には、インデックス固有のスコア演算情報と、第3のスコア演算方法に必要なスコア演算情報と、を格納するようにすることもできる。この場合には、良好な検索速度を確保できる第2、第3のスコア演算方法のみを選択するように構成することができる。
以上、本発明の好適な実施形態を説明したが、本発明は、上記した実施形態に限定されるものではなく、本発明の基本的技術的思想を逸脱しない範囲で、更なる変形・置換・調整を加えることができる。
本発明は、インデックス固有のスコア演算情報以外のスコア演算情報を用いてスコア演算を行う情報検索システム全般に適用可能であるが、例えば、World Wide Webに存在する情報に対する情報検索システムや、組織内の情報(イントラネットのhtmlページや、組織における情報システム、データベース、ストレージなどが保有する情報)に対する情報検索システムのうち、複数の検索インデックスから成り立つシステムに対して適用できる。
本発明の第1の実施形態に係る情報検索システムの概要構成を示す図である。 本発明の第1の実施形態に係る情報検索システムのインデックス登録手段の構成を説明するための図である。 本発明の第1の実施形態に係る情報検索システムのインデックス及び検索手段の構成を説明するための図である。 一般的なインデックスの構成を示す図である。 本発明の第1の実施形態に係る情報検索システムのインデックスの構成を示す図である。 本発明の第1の実施形態に係る情報検索システムの各インデックスの他のスコア演算情報欄へのスコア演算情報の登録形態(登録規則)の例を示した図である。 本発明の第1の実施形態に係る情報検索システムの各インデックスの他のスコア演算情報欄へのスコア演算情報の登録形態(登録規則)の別の例を示した図である。 本発明の第1の実施形態に係る情報検索システムの各インデックスの他のスコア演算情報欄へのスコア演算情報の登録形態(登録規則)の別の例を示した図である。 本発明の第1の実施形態に係る情報検索システムにおけるインデックス登録処理の流れを表したフローチャートである。 本発明の第1の実施形態に係る情報検索システムにおける別のインデックス登録処理の流れを表したフローチャートである。 本発明の第1の実施形態に係る情報検索システムにおける検索処理の流れを表したフローチャートである。 本発明の第1の実施形態に係る情報検索システムにおける別の検索処理の流れを表したフローチャートである。 本発明の第2の実施形態に係る情報検索システムの概要構成を示す図である。
符号の説明
1 文書格納手段
2 インデックス登録手段
5 マージ手段
6 検索条件入力手段
7 検索結果提示手段
8 スコア演算方法選定手段
21 文書取得手段
22 索引語抽出手段
23 索引語及びスコア演算情報登録手段
24 スコア演算情報取得手段
31 インデックス
32 インデックス
33 インデックス
41 検索手段
42 検索手段
43 検索手段
311 文書リスト格納位置特定情報格納手段
312 文書リスト及びスコア演算情報格納手段
321 文書リスト格納位置特定情報格納手段
322 文書リスト及びスコア演算情報格納手段
411 文書リスト及びスコア演算情報取得手段
412 スコア演算処理手段
413 検索結果出力手段

Claims (19)

  1. 索引語について、他の検索インデックス又は情報処理システムから取得したスコア演算情報を格納可能な検索インデックスと、
    検索の際に、前記検索インデックスに格納されたスコア演算情報を用いてスコア演算を行って検索結果を生成する検索手段と、を備えたこと、
    を特徴とする情報検索システム。
  2. 個々の検索インデックスが、前記他の検索インデックス又は情報処理システムから取得したスコア演算情報を格納可能である複数の検索インデックスを備えること、
    を特徴とする請求項1に記載の情報検索システム。
  3. 所定のインデックス更新規則に従って、前記他の検索インデックス又は情報処理システムから当該索引語のスコア演算情報を取得して、前記検索インデックスを更新するインデックス更新手段を備えること、を特徴とする請求項1又は2に記載の情報検索システム。
  4. 前記インデックス更新手段は、
    所定の文書から索引語を抽出する手段と、
    他の検索インデックス又は情報処理システムから、当該索引語のスコア演算情報を取得する手段と、
    更新対象の検索インデックスに、前記索引語と、前記スコア演算情報とを関連付けて格納する手段と、を含むこと、
    を特徴とする請求項3に記載の情報検索システム。
  5. 前記インデックス更新手段は、
    前記索引語と、自インデックスのスコア演算情報と、前記他の検索インデックス又は情報処理システムから取得したスコア演算情報と、を関連付けて格納する請求項3に記載の情報検索システム。
  6. 前記インデックス更新手段は、
    前記自インデックスのスコア演算情報と、前記他の検索インデックス又は情報処理システムから取得したスコア演算情報と、を記憶媒体上の連続した位置に格納すること、を特徴とする請求項5に記載の情報検索システム。
  7. 前記スコア演算情報は、検索対象文書集合における当該索引文字列を含む文書数を示す文書頻度情報である請求項1乃至6いずれか一に記載の情報検索システム。
  8. 前記他の検索インデックス又は情報処理システムから取得したスコア演算情報として、検索対象文書全体のスコア演算情報が格納されている請求項2乃至7いずれか一に記載の情報検索システム。
  9. 前記他の検索インデックス又は情報処理システムから取得したスコア演算情報として、他の検索インデックスのスコア演算情報が、選択可能に個別に格納されている請求項2乃至7いずれか一に記載の情報検索システム。
  10. 前記各検索インデックスは時系列に分割されており、前記他の検索インデックスから取得したスコア演算情報として、時系列的に過去に当たる検索インデックスのスコア演算情報が格納されている請求項2乃至7いずれか一に記載の情報検索システム。
  11. 更に、スコア演算に用いる前記他の検索インデックスのスコア演算情報の組み合わせを選定するスコア演算方法選定手段と、を備えたことを特徴とする請求項1乃至10いずれか一に記載の情報検索システム。
  12. 検索インデックスを備える情報検索システムにおける情報検索方法であって、
    前記検索インデックスの更新の際に、他の検索インデックス又は情報処理システムから更新する索引語についてのスコア演算情報を取得し、更新対象の検索インデックスに格納しておき、
    任意の検索インデックスを用いた検索の際に、当該検索インデックスに格納されたスコア演算情報を用いてスコア演算を行って検索結果を生成すること、
    を特徴とする情報検索方法。
  13. 前記スコア演算情報は、検索対象文書集合における当該索引文字列を含む文書数を示す文書頻度情報である請求項12に記載の情報検索方法。
  14. 前記検索インデックスの更新の際に、自インデックスを含むすべての検索インデックスのスコア演算情報に基づいて算出した検索対象文書全体のスコア演算情報を、前記更新対象の検索インデックスに格納する請求項12又は13に記載の情報検索方法。
  15. 前記検索インデックスの更新の際に、他の検索インデックスのスコア演算情報を取得し、前記更新対象の検索インデックスに、前記他の検索インデックスのスコア演算情報を選択可能に個別に格納する請求項12又は13に記載の情報検索方法。
  16. 所定のタイミングで検索インデックスを新設してゆき、
    前記検索インデックスを新設した際に、前記他の検索インデックスのスコア演算情報として、時系列的に過去に当たる検索インデックスのスコア演算情報を格納する請求項12又は13に記載の情報検索方法。
  17. 任意の検索インデックスを用いた検索の際に、スコア演算に用いる前記他の検索インデックスのスコア演算情報の組み合わせの選択を受け付けること、を特徴とする請求項12乃至16いずれか一に記載の情報検索方法。
  18. 索引語について、他の検索インデックス又は情報処理システムから取得したスコア演算情報を格納可能な検索インデックスを備える情報検索システムを構成するコンピュータに実行させるプログラムであって、
    検索の際に、前記検索インデックスに格納された前記他の検索インデックス又は情報処理システムから取得したスコア演算情報を用いてスコア演算を行って検索結果を生成する検索手段として前記コンピュータを機能させることを特徴とするプログラム。
  19. 他の検索インデックス又は情報処理システムから取得したスコア演算情報を格納可能な検索インデックスを備える情報検索システムを構成するコンピュータに実行させるプログラムであって、
    所定のインデックス更新規則に従って、前記他の検索インデックス又は情報処理システムから当該索引語のスコア演算情報を取得して、前記検索インデックスを更新するインデックス更新手段として前記コンピュータを機能させることを特徴とするプログラム。
JP2008025444A 2008-02-05 2008-02-05 情報検索システム、情報検索方法およびプログラム Active JP5374881B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008025444A JP5374881B2 (ja) 2008-02-05 2008-02-05 情報検索システム、情報検索方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008025444A JP5374881B2 (ja) 2008-02-05 2008-02-05 情報検索システム、情報検索方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2009187211A true JP2009187211A (ja) 2009-08-20
JP5374881B2 JP5374881B2 (ja) 2013-12-25

Family

ID=41070396

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008025444A Active JP5374881B2 (ja) 2008-02-05 2008-02-05 情報検索システム、情報検索方法およびプログラム

Country Status (1)

Country Link
JP (1) JP5374881B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012003740A (ja) * 2010-06-16 2012-01-05 Fuji Xerox Co Ltd 検索結果生成方法、検索結果生成プログラムおよび検索システム
JP2012058936A (ja) * 2010-09-08 2012-03-22 Dainippon Printing Co Ltd 書籍情報検索装置、書籍情報検索システム、書籍情報検索方法及びプログラム
WO2013179441A1 (ja) * 2012-05-31 2013-12-05 株式会社日立製作所 検索サーバ、検索方法及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11265393A (ja) * 1998-03-17 1999-09-28 Matsushita Electric Ind Co Ltd 情報検索装置
JP2004164060A (ja) * 2002-11-11 2004-06-10 Matsushita Electric Ind Co Ltd 検索処理システム及び検索処理方法
JP2006331117A (ja) * 2005-05-26 2006-12-07 Ricoh Co Ltd 文書検索システム、文書検索装置、文書検索方法および文書検索プログラム
JP2008009918A (ja) * 2006-06-30 2008-01-17 Fujitsu Ltd 索引作成プログラム、索引作成装置および索引作成方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11265393A (ja) * 1998-03-17 1999-09-28 Matsushita Electric Ind Co Ltd 情報検索装置
JP2004164060A (ja) * 2002-11-11 2004-06-10 Matsushita Electric Ind Co Ltd 検索処理システム及び検索処理方法
JP2006331117A (ja) * 2005-05-26 2006-12-07 Ricoh Co Ltd 文書検索システム、文書検索装置、文書検索方法および文書検索プログラム
JP2008009918A (ja) * 2006-06-30 2008-01-17 Fujitsu Ltd 索引作成プログラム、索引作成装置および索引作成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG199900471002; 森 大二郎他: '分散型大規模文書検索システムに関する一検討' 情報処理学会研究報告 Vol.98,No.107(98-DD-15-2), 19981127, pp.9-16., 社団法人情報処理学会 *
JPN6012064932; 森 大二郎他: '分散型大規模文書検索システムに関する一検討' 情報処理学会研究報告 Vol.98,No.107(98-DD-15-2), 19981127, pp.9-16., 社団法人情報処理学会 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012003740A (ja) * 2010-06-16 2012-01-05 Fuji Xerox Co Ltd 検索結果生成方法、検索結果生成プログラムおよび検索システム
JP2012058936A (ja) * 2010-09-08 2012-03-22 Dainippon Printing Co Ltd 書籍情報検索装置、書籍情報検索システム、書籍情報検索方法及びプログラム
WO2013179441A1 (ja) * 2012-05-31 2013-12-05 株式会社日立製作所 検索サーバ、検索方法及びプログラム

Also Published As

Publication number Publication date
JP5374881B2 (ja) 2013-12-25

Similar Documents

Publication Publication Date Title
JP5492187B2 (ja) 編集距離および文書情報を使用する検索結果順位付け
US11853334B2 (en) Systems and methods for generating and using aggregated search indices and non-aggregated value storage
US7689574B2 (en) Index and method for extending and querying index
JP5233233B2 (ja) 情報検索システム、情報検索用インデックスの登録装置、情報検索方法及びプログラム
JP4922692B2 (ja) 検索クエリー作成装置
JP5079471B2 (ja) 同義語抽出装置
KR20130049111A (ko) 분산 처리를 이용한 포렌식 인덱스 방법 및 장치
CN110109910A (zh) 数据处理方法及系统、电子设备和计算机可读存储介质
Hmedeh et al. Subscription indexes for web syndication systems
CN105224624A (zh) 一种实现倒排链快速归并的方法和装置
JP5374881B2 (ja) 情報検索システム、情報検索方法およびプログラム
Huang et al. Design a batched information retrieval system based on a concept-lattice-like structure
Karras et al. Query optimization in NoSQL databases using an enhanced localized R-tree index
KR101135126B1 (ko) 메타데이터 기반 색인 및 검색 장치와 그 방법
Yadav et al. Wavelet tree based hybrid geo-textual indexing technique for geographical search
WO2013069149A1 (ja) データ検索装置、データの検索方法及びプログラム
JP5472929B2 (ja) 文書検索装置、文書検索方法及び文書検索プログラム
Rong et al. Efficient duplicate detection on cloud using a new signature scheme
Buranasaksee Optimization of textual attribute support in generic location-aware rank query
Helin et al. High-Speed Retrieval Method for Unstructured Big Data Platform Based on K-Ary Search Tree Algorithm
Sah et al. ‘Learning to Rank’Text Search Engine Platform for Internal Wikis
Kumar et al. Enhancing the Search Results through Web Structure Mining Using Frequent Pattern Analysis and Linear Correlation Method
JP5389715B2 (ja) 複合語に対する文書数予測装置及び方法及びプログラム
Veretennikov Proximity full-text searches of frequently occurring words with a response time guarantee
JP2003030238A (ja) 並列型情報検索装置および方法と並列型情報検索プログラムおよび該プログラムを記録した記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110112

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121211

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130827

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130909

R150 Certificate of patent or registration of utility model

Ref document number: 5374881

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150