JP4930153B2 - 文書検索システム、文書番号部分列取得装置、および文書検索方法 - Google Patents
文書検索システム、文書番号部分列取得装置、および文書検索方法 Download PDFInfo
- Publication number
- JP4930153B2 JP4930153B2 JP2007091664A JP2007091664A JP4930153B2 JP 4930153 B2 JP4930153 B2 JP 4930153B2 JP 2007091664 A JP2007091664 A JP 2007091664A JP 2007091664 A JP2007091664 A JP 2007091664A JP 4930153 B2 JP4930153 B2 JP 4930153B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- search
- subsequence
- document number
- start address
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図19は、従来の文書検索システムの例を示す図である。並列化された文書検索システムでは、複数の転置インデックス記憶装置93a,93b,93c,93dが設けられている。転置インデックス記憶装置93a,93b,93c,93dには、転置インデックスが格納されている。各転置インデックスには、同様のキーワード文字列が設定されており、各キーワード文字列を含む文書の文書番号が、いずれかの転置インデックスに登録されている。すなわち、膨大な数の文書の文書番号が、複数の転置インデックス記憶装置93a,93b,93c,93dに分散格納されている。
佐藤俊一、佐藤理、"Web検索サービス:InfoNavigator"、雑誌FUJITSU Vol.49, No.5, pp.353-357 、[online]、1998年9月、富士通株式会社、[平成19年2月15日検索]、インターネット<URL:http://img.jp.fujitsu.com/downloads/jp/jmag/vol49-5/paper04.pdf>
第1に、転置インデックスを作成する際のインデックスデータ分割数によって、検索時に使用する処理装置の数が固定されてしまうという問題がある。すなわち、インターネット上の文書検索等に用いる場合、検索対象の文書は日々変化する。そのため、文書検索システムの運用を開始し、ある程度の期間が経過すると、適切な検索処理時間を実現できる装置台数に対して、運用している文書番号部分列取得装置の過不足が生じる。検索対象の文書量に対して文書番号部分列取得装置が不足していれば、処理時間の超過(保証すべき検索処理時間を超過すること)が発生する。また、運用開始時に、処理能力に余裕を持って文書番号部分列取得装置の並列化を図ると、資源の無駄が生じ、文書検索システムの運用効率が低下してしまう。
このような文書検索システムによれば、検索依頼装置4からの文書検索依頼7aが文書検索管理装置5に入力されると、文書番号部分列取得要求手段5aにより、文書番号部分列取得要求7bが複数の文書番号部分列取得装置6a,6b,6c,6dそれぞれに送信される。すると、文書番号部分列取得装置6aの担当文書群決定手段6aaにより、文書DB1内の文書データを文書番号の小さい順に担当文書数ずつの集合に纏めた文書群を順次定義した場合に、予め設定された自装置の装置番号に応じた順番の文書群が担当文書群7cとして決定される。次に、文書番号部分列取得装置6aの部分列探索開始位置決定手段6abにより、検索キーワードに対応するキーワード文字列に関連付けられた複数の部分列探索開始アドレスの中から、自装置の装置番号に応じた順番で登録された担当文書群頭出し文書番号に対応する部分列探索開始アドレスが抽出される。さらに、文書番号部分列取得装置6aの部分列取得手段6acにより、抽出された部分列探索開始アドレス7dで示される位置から文書番号の配列が昇順に探索され、検索キーワードに対応するキーワード文字列に関連付けられた文書番号配列内の担当文書群7cに含まれる文書番号が取得され、取得された文書番号の集合が文書番号部分列7eとして文書検索管理装置5に送信される。同様に、他の文書番号部分列取得装置6b,6c,6dからも、文書番号部分列が文書検索管理装置5に送信される。文書検索管理装置5の文書番号配列集計手段5bにより、複数の文書番号部分列取得装置から返される文書番号部分列が取得され、文書番号部分列に含まれる文書番号が集計され文書番号配列7fが生成される。次に、文書検索管理装置5の文書リスト作成手段5cにより、文書番号配列7fに含まれる文書番号それぞれに対応する文書データが文書DB1から抽出され、文書リスト7gが作成される。そして、文書検索管理装置5の検索結果通知手段5dにより、文書リスト7gが検索依頼装置4に送信される。
図1は、発明の概要を示す図である。本発明に係る文書検索システムには、文書DB1、転置インデックス記憶装置2、文書番号部分列探索開始アドレス表記憶装置3、文書検索管理装置5、および複数の文書番号部分列取得装置6a,6b,6c,6dが設けられている。
転置インデックス記憶装置2は、転置インデックスを記憶する。転置インデックスには、複数のキーワード文字列それぞれに対応付けて、キーワード文字列を含む文書データの文書番号が、文書番号の数値に応じて昇順の配列で登録されている。
文書番号部分列取得要求手段5aは、検索依頼装置4からの検索キーワードを含む文書検索依頼7aに応答して、文書DB1に登録されている文書データの数を示す文書総数、文書番号部分列取得装置の運用数を示す並列処理台数、および検索キーワードを含む文書番号部分列取得要求7bを、複数の文書番号部分列取得装置6a,6b,6c,6dそれぞれに送信する。
文書番号部分列取得装置6aは、担当文書群決定手段6aa、部分列探索開始位置決定手段6ab、および部分列取得手段6acを有する。
このような文書検索システムによれば、検索依頼装置4からの文書検索依頼7aが文書検索管理装置5に入力されると、文書番号部分列取得要求手段5aにより、文書番号部分列取得要求7bが複数の文書番号部分列取得装置6a,6b,6c,6dそれぞれに送信される。すると、文書番号部分列取得装置6aの担当文書群決定手段6aaにより、文書DB1内の文書データを文書番号の小さい順に担当文書数ずつの集合に纏めた文書群を順次定義した場合に、予め設定された自装置の装置番号に応じた順番の文書群が担当文書群7cとして決定される。次に、文書番号部分列取得装置6aの部分列探索開始位置決定手段6abにより、検索キーワードに対応するキーワード文字列に関連付けられた複数の部分列探索開始アドレスの中から、自装置の装置番号に応じた順番で登録された担当文書群頭出し文書番号に対応する部分列探索開始アドレス7dが抽出される。さらに、文書番号部分列取得装置6aの部分列取得手段6acにより、抽出された部分列探索開始アドレス7dで示される位置から文書番号の配列が昇順に探索され、検索キーワードに対応するキーワード文字列に関連付けられた文書番号配列内の担当文書群7cに含まれる文書番号が取得され、取得された文書番号の集合が文書番号部分列7eとして文書検索管理装置5に送信される。同様に、他の文書番号部分列取得装置6b,6c,6dからも、文書番号部分列が文書検索管理装置5に送信される。
図2は、第1の実施の形態の文書検索システム構成例を示す図である。第1の実施の形態では、インターネット10にWebサーバ300が接続されている。Webサーバ300は、インターネット10を介して、複数のクライアント21,22に対して情報提供を行う。なお、このWebサーバ300は、図1に示す検索依頼装置4に相当する。
図3は、第1の実施の形態に用いる文書検索管理装置のハードウェア構成例を示す図である。文書検索管理装置100は、CPU(Central Processing Unit)101によって装置全体が制御されている。CPU101には、バス108を介してRAM(Random Access Memory)102、ハードディスクドライブ(HDD:Hard Disk Drive)103、グラフィック処理装置104、入力インタフェース105、および通信インタフェース106が接続されている。
転置インデックス作成部126は、運用管理者からの操作入力等により転置インデックスの作成指示を受け取ると、文書DB110から文書データを取得し、転置インデックスと文書番号部分列探索開始アドレス表とを作成する。転置インデックス作成部126は、作成した転置インデックスを転置インデックス記憶装置420に格納し、作成した文書番号部分列探索開始アドレス表を文書番号部分列探索開始アドレス表記憶装置410に格納する。
また、検索条件に複数の検索キーワードが含まれていた場合の論理演算は、文書検索管理装置100内で行うことも可能である。たとえば、検索条件解析部121で抽出された論理演算子を文書リスト作成部124が取得する。そして、文書リスト作成部124は、検索キーワードそれぞれに応じて取得された文書番号配列を論理演算子に応じて統合する。統合方法は、論理演算部215の処理と同様である。そして、文書リスト作成部124は、統合後の文書番号配列に応じた文書データを、文書DB110から取得する。
図5は、文書DBのデータ構造例を示す図である。文書DB110には、複数の文書データ111,112,113,・・・が格納されている。文書データ111,112,113,・・・には、その文書の内容を示す文字列が含まれている。また、各文書データ111,112,113,・・・には、文書番号が付与されている。
図8は、文書番号配列とアドレスの関係を示す図である。図8に示すように、転置インデックス421の最上位に登録されているキーワード文字列「研究」の文書番号配列に含まれる文書番号から順番に、0から始まるアドレスが付与されている。
図9は、文書検索処理の手順を示すシーケンス図である。以下、図9に示す処理をステップ番号に沿って説明する。なお、図9では、文書番号部分列取得装置210の処理を代表として示しているが、他の文書番号部分列取得装置220,230,240の処理も、文書番号部分列取得装置210の処理と同様である。
[ステップS12]すると、Webサーバ300は、検索要求に示される検索条件による文書検索を文書検索管理装置100に依頼する。
[ステップS14]検索条件解析部121は、文書検索依頼に含まれる検索条件を解析し、1つ以上の検索キーワードを抽出する。また、検索条件解析部121は、検索条件に論理演算子が含まれている場合、その論理演算子も抽出する。検索条件解析部121は、抽出した検索キーワードや論理演算子を、文書番号部分列取得要求部122に渡す。
[ステップS17]担当文書群決定部211は、取得すべき文書番号部分列の、担当文書番号の範囲を決定する。具体的には、担当文書群決定部211は、最後に登録された文書の文書番号(文書番号最大値)に1を加えた数を、並列処理台数で割る。これにより、1台当たりの担当文書数が求められる。
・部分列開始文書番号
=文書番号部分列取得装置1台当たりの担当文書数
×着目している文書番号部分列取得装置の装置番号;
さらに、担当文書群決定部211は、文書番号部分列取得装置210自身の装置番号に1を加算した値に1台当たりの担当文書数を乗算し、乗算結果から1を減算した値を、担当する文書群の部分列終了文書番号とする。計算式で表すと以下の通りである。
・部分列終了文書番号
=文書番号部分列取得装置1台当たりの担当文書数
×(装置番号+1)−1;
これにより、文書番号部分列取得装置210が担当すべき文書群の部分列開始文書番号と部分列終了文書番号とが決定される。本実施の形態では4台の文書番号部分列取得装置210,220,230,240で運用しているため、図7の例の様に文書番号最大値が「11」の場合、1台当たりの担当文書数は「3」(12÷4)となる。
[ステップS18]部分列探索開始位置決定部212は、文書番号部分列探索開始アドレス表記憶装置410から部分列探索開始アドレスを取得する。
[ステップS20]論理演算部215は、文書番号部分列取得要求に複数の検索キーワードと論理演算子とが含まれていた場合、各検索キーワードに対応する文書番号部分列を、部分列取得部214から受け取る。そして、論理演算部215は、取得した文書番号部分列を、論理演算子に基づいて統合する。
[ステップS22]文書検索管理装置100の文書番号配列集計部123は、各文書番号部分列取得装置210,220,230,240から送信された文書番号部分列を集計し、1つの纏まった文書番号配列を生成する。文書番号配列集計部123は、生成した文書番号配列を文書リスト作成部124に渡す。
[ステップS25]Webサーバ300は、文書検索管理装置100から送られた検索結果を受信する。
図10は、文書番号配列の取得状況を示す図である。この図には、検索キーワード「情報」に対応する文書番号配列を取得する例を示している。
図11は、転置インデックス作成処理の手順を示すフローチャートである。以下、図11に示す処理をステップ番号に沿って説明する。なお、以下の処理は、運用管理者から転置インデックス作成を指示する操作入力があったときに実行される。
[ステップS37]転置インデックス作成部126は、文書番号部分列取得装置1台当たりの担当文書数を決定する。具体的には、転置インデックス作成部126は、最後に登録された文書データの文書番号に1を加えた数(文書データの総数)を、並列運用予定台数候補の数で割る。除算によって得られた値(小数点以下は繰り上がりとする)が、文書番号部分列取得装置1台当たりの担当文書数として決定される。
・文書番号部分列取得装置1台当たりの担当文書数
=ceil((最後に登録された文書の文書番号+1)
/並列運用予定台数候補);
なお、文書番号および装置番号は0から数える。また、関数ceil()は、引数に指定した値と等しいか大きい最小の整数を返す。
次に、部分列探索開始位置決定処理の手順を詳細に説明する。
[ステップS51]転置インデックス作成部126は、選択されている並列運用予定台数候補に応じた数の装置番号の中から、未処理の装置番号の1つに着目する。
・部分列開始文書番号
=文書番号部分列取得装置当たりの担当文書数
×着目している文書番号部分列取得装置の装置番号;
[ステップS53]転置インデックス作成部126は、転置インデックス記憶装置420内の転置インデックス421に登録されたキーワード文字列のうち、着目している装置番号について部分列探索開始アドレスを算出していないキーワード文字列の1つに着目する。
次に、第2の実施の形態について説明する。第2の実施の形態は、文書番号部分列取得装置の並列運用予定台数候補を、連続の整数ではなく、不連続の値とすることで、生成すべき文書番号部分列探索開始アドレス表を削減したものである。第2の実施の形態では、第1の実施の形態を基本形として、部分列探索開始アドレスの計算処理を以下のとおり変更する。
図13は、並列運用予定台数候補を2の倍数としたときの文書番号部分列探索開始アドレス表の例を示す図である。図13に示すように、文書番号部分列取得装置を2台で運用するとき用の文書番号部分列探索開始アドレス表415と、4台で運用するとき用の文書番号部分列探索開始アドレス表416とが文書番号部分列探索開始アドレス表記憶装置410に格納されている。
第3の実施の形態は、複数の並列運用予定台数候補用の文書番号部分列探索開始アドレス表を、1つに統合したものである。第3の実施の形態では、第1の実施の形態を基本形として、部分列探索開始アドレスの計算処理を以下のとおり変更する。
図14は、並列処理台数が2台と4台との場合に使用可能な文書番号部分列探索開始アドレス表の例を示す図である。図14に示すように、文書番号部分列取得装置の台数が2台の場合と4台の場合とで使用可能な文書番号部分列探索開始アドレス表417が文書番号部分列探索開始アドレス表記憶装置410に格納される。
第4の実施の形態は、文書番号部分列取得装置の運用台数が何台であっても、1つの文書番号部分列探索開始アドレス表で対応できるようにしたものである。すなわち、第1の実施の形態では、計算する文書番号部分列探索開始アドレス表の数を、使用を想定する文書番号部分列取得装置の台数と等しくしている。一方、第4の実施の形態では、文書番号部分列探索開始アドレス表を1つだけ作成し、文書番号部分列取得装置の台数を特に想定しない。
[ステップS66]転置インデックス作成部126は、部分列探索開始文書番号の集合(部分列探索開始文書番号集合)を作成する。具体的には、転置インデックス作成部126は、着目しているキーワード文字列に対応する文書番号配列の中で、予め指定された文書間隔(たとえば、1000)を示す数値の倍数(0以上の整数)それぞれに対して、その値以下で最大の文書番号の集合を作成する。
図16は、第4の実施の形態における文書番号部分列探索開始アドレス表の例を示す図である。この例は、文書間隔を2とした場合である。文書番号部分列探索開始アドレス表418には、キーワード文字列ごとに、複数の部分列探索開始アドレスが登録されている。各部分列探索開始アドレスには、該当するアドレスに格納されている文書番号(図中、括弧書きで示す)が設定されている。
・部分列開始文書番号
=文書番号部分列取得装置1台当たりの担当文書数
×着目している文書番号部分列取得装置の装置番号;
・部分列終了文書番号
=文書番号部分列取得装置1台当たりの担当文書数
×(装置番号+1)−1;
その後、担当文書群決定部211は、検索キーワードと部分列開始文書番号とを部分列探索開始位置決定部212に渡す。また、担当文書群決定部211は、検索キーワード、部分列開始文書番号、および部分列終了文書番号を部分列取得部214に渡す。
第5の実施の形態は、文書DB110に追加された文書データが所定の量を超えるまで、転置インデックスの更新をしても、文書番号部分列探索開始アドレス表の更新をせずに済むようにしたものである。すなわち、図11に示した転置インデックス作成処理において、ステップS31〜S34の処理を行ったとしても、ステップS35以降の処理を必ずしも毎回行わないようにする。換言すると、転置インデックスを更新した際に、追加登録した文書数が少なければ、部分列探索開始アドレスの再計算処理を見送るというものである。
[ステップS83]転置インデックス作成部126は、追加文書総数を0に設定する。その後処理が終了する。
第6の実施の形態は、第5の実施の形態における文書番号部分列探索開始アドレス表作成処理(図17のステップS77〜S82)を、転置インデックスの更新処理(図17のステップS71〜S74)と独立で実行するものである。たとえば、文書検索システムの処理負荷が低いときに、古い値のままとなっている部分列探索開始アドレスを再計算するというものである。処理負荷が低いときとしては、たとえば、文書検索管理装置100のCPUの負荷を検出し、所定値以下になったときがある。また深夜には処理負荷が低い(文書検索依頼が少ない)ことが予め分かっている場合、予め指定された深夜の時間帯に文書番号部分列探索開始アドレス表作成処理を実行することもできる。
なお、上記の各実施の形態では、転置インデックス作成部126を文書検索管理装置100の一機能として説明しているが、必ずしも文書検索管理装置100内にある必要はない。文書DB110、文書番号部分列探索開始アドレス表記憶装置410、および転置インデックス記憶装置420にアクセス可能なコンピュータであれば、転置インデックス作成部126の機能を実装し、上記の実施の形態通りに動作させることができる。たとえば、文書番号部分列取得装置210が転置インデックス作成部126の機能を有していてもよく、図示していない管理サーバが転置インデックス作成部126の機能を有していてもよい。
以上説明した実施の形態の主な技術的特徴は、以下の付記の通りである。
文書番号が付与された複数の文書データを記憶する文書データベースと、
複数のキーワード文字列それぞれに対応付けて、前記キーワード文字列を含む前記文書データの前記文書番号が、前記文書番号の数値に応じて昇順の配列で登録された転置インデックスを記憶する転置インデックス記憶装置と、
前記文書データベースに登録されている文書データの数を示す文書総数を、予定されている並列運用予定台数で除算して得られる値を1台当たりの担当文書数とし、前記文書データベース内の前記文書データを文書番号の小さい順に前記担当文書数ずつの集合に纏めた文書群を順次定義した場合の各文書群において前記キーワード文字列を含む先頭の文書データに対応する前記文書番号の値を担当文書群頭出し文書番号とし、前記転置インデックスにおいて前記キーワード文字列それぞれに対応付けられた前記文書番号の配列上で前記担当文書群頭出し文書番号が記録される位置を示す部分列探索開始アドレスが、対応する前記担当文書群頭出し文書番号の値の小さい順に前記キーワード文字列に対応付けて登録された文書番号部分列探索開始アドレス表を記憶する文書番号部分列探索開始アドレス表記憶装置と、
検索依頼装置からの検索キーワードを含む文書検索依頼に応答して、前記文書総数、文書番号部分列取得装置の運用数を示す並列処理台数、および前記検索キーワードを含む文書番号部分列取得要求を、複数の前記文書番号部分列取得装置それぞれに送信する文書番号部分列取得要求手段と、前記文書番号部分列取得要求に応じて複数の前記文書番号部分列取得装置から返される文書番号部分列を取得し、前記文書番号部分列に含まれる前記文書番号を集計して文書番号配列を生成する文書番号配列集計手段と、前記文書番号配列集計手段が生成した前記文書番号配列に含まれる前記文書番号それぞれに対応する前記文書データを前記文書データベースから抽出し、抽出した前記文書データに関する文書リストを作成する文書リスト作成手段と、前記文書リスト作成手段が作成した前記文書リストを前記検索依頼装置に送信する検索結果通知手段と、を具備する前記文書検索管理装置と、
前記文書番号部分列取得要求を前記文書検索管理装置から受け取ると、前記文書総数を並列処理台数で除算して1台当たりの担当文書数を計算し、前記文書データベース内の前記文書データを文書番号の小さい順に前記担当文書数ずつの集合に纏めた文書群を順次定義した場合に、予め設定された自装置の装置番号に応じた順番の前記文書群を担当文書群として決定する担当文書群決定手段と、前記文書番号部分列探索開始アドレス表記憶装置内の前記文書番号部分列探索開始アドレス表を参照し、前記検索キーワードに対応する前記キーワード文字列に関連付けられた複数の前記部分列探索開始アドレスの中から、自装置の前記装置番号に応じた順番で登録された前記担当文書群頭出し文書番号に対応する前記部分列探索開始アドレスを抽出する部分列探索開始位置決定手段と、前記転置インデックス記憶装置内の前記転置インデックスを参照し、部分列探索開始位置決定手段で抽出された前記部分列探索開始アドレスで示される位置から前記文書番号の配列を昇順に探索し、前記検索キーワードに対応する前記キーワード文字列に関連付けられた前記文書番号配列内の前記担当文書群に含まれる前記文書番号を取得し、取得した前記文書番号の集合を前記文書番号部分列として前記文書検索管理装置に送信する部分列取得手段と、を具備する複数の前記文書番号部分列取得装置と、
を有することを特徴とする文書検索システム。
前記部分列探索開始位置決定手段は、前記文書番号部分列取得要求で示された前記並列処理台数に対応する前記並列運用予定台数の前記文書番号部分列探索開始アドレス表を参照して、前記部分列探索開始アドレスの抽出を行うことを特徴とする付記1記載の文書検索システム。
前記部分列探索開始位置決定手段は、前記並列処理台数で前記文書番号部分列取得装置を運用したときの前記装置番号の中から自己の前記装置番号を検出し、検出した前記装置番号に対応する前記部分列探索開始アドレスを抽出することを特徴とする付記1記載の文書検索システム。
前記部分列取得手段は、前記転置インデックス記憶装置内の前記検索キーワードに対応する前記キーワード文字列に関連付けられた文書番号の配列における先頭アドレスに、前記部分列探索開始アドレスで示される前記相対アドレスを加算した位置から、アドレスが大きくなる方向へ向かって前記文書番号の探索を行う、
ことを特徴とする付記1記載の文書検索システム。
文書番号が付与された複数の文書データを記憶する文書データベースと、
複数のキーワード文字列それぞれに対応付けて、前記キーワード文字列を含む前記文書データの前記文書番号が、前記文書番号の数値に応じて昇順の配列で登録された転置インデックスを記憶する転置インデックス記憶装置と、
前記文書番号の最小値から所定間隔の数値に対応する前記文書番号の値を所定間隔頭出し文書番号とし、前記転置インデックスにおいて前記キーワード文字列それぞれに対応付けられた前記文書番号の配列上で、前記所定間隔頭出し文書番号が記録される位置を示す部分列探索開始アドレスが、前記キーワード文字列に対応付けて登録されており、前記部分列探索開始アドレスに対して、前記部分列探索開始アドレスが指し示す位置を含む前記文書番号の配列において前記部分列探索開始アドレスに対応する前記所定間隔頭出し文書番号以下の文書番号のうち最も大きな値が付与された文書番号部分列探索開始アドレス表を記憶する文書番号部分列探索開始アドレス表記憶装置と、
検索依頼装置からの検索キーワードを含む文書検索依頼に応答して、前記文書データベースに登録されている文書データの数を示す文書総数、文書番号部分列取得装置の運用数を示す並列処理台数、および前記検索キーワードを含む文書番号部分列取得要求を、複数の前記文書番号部分列取得装置それぞれに送信する文書番号部分列取得要求手段と、前記文書番号部分列取得要求に応じて複数の前記文書番号部分列取得装置から返される文書番号部分列を取得し、前記文書番号部分列に含まれる前記文書番号を集計して文書番号配列を生成する文書番号配列集計手段と、前記文書番号配列集計手段が生成した前記文書番号配列に含まれる前記文書番号それぞれに対応する前記文書データを前記文書データベースから抽出し、抽出した前記文書データに関する文書リストを作成する文書リスト作成手段と、前記文書リスト作成手段が作成した前記文書リストを前記検索依頼装置に送信する検索結果通知手段と、を具備する前記文書検索管理装置と、
前記文書番号部分列取得要求を前記文書検索管理装置から受け取ると、前記文書総数を前記並列処理台数で除算して1台当たりの担当文書数を計算し、前記文書データベース内の前記文書データを文書番号の小さい順に前記担当文書数ずつの集合に纏めた文書群を順次定義した場合に、予め設定された自装置の装置番号に応じた順番の前記文書群を担当文書群として決定する担当文書群決定手段と、前記文書番号部分列探索開始アドレス表記憶装置内の前記文書番号部分列探索開始アドレス表を参照し、前記検索キーワードに対応する前記キーワード文字列に関連付けられた複数の前記部分列探索開始アドレスの中から、前記担当文書群の先頭の文書データの文書番号以下の前記文書番号が付与された前記所定間隔頭出し文書番号のうち最も大きな値の前記文書番号が付与された前記所定間隔頭出し文書番号に対応する前記部分列探索開始アドレスを抽出する部分列探索開始位置決定手段と、前記転置インデックス記憶装置内の前記転置インデックスを参照し、部分列探索開始位置決定手段で抽出された前記部分列探索開始アドレスで示される位置から前記文書番号の配列を昇順に探索し、前記検索キーワードに対応する前記キーワード文字列に関連付けられた前記文書番号配列内の前記担当文書群に含まれる前記文書番号を取得し、取得した前記文書番号の集合を前記文書番号部分列として前記文書検索管理装置に送信する部分列取得手段と、を具備する複数の前記文書番号部分列取得装置と、
を有することを特徴とする文書検索システム。
前記文書データベースに登録されている文書データの数を示す文書総数を、予定されている並列運用予定台数で除算して得られる値を1台当たりの担当文書数とし、前記文書データベース内の前記文書データを文書番号の小さい順に前記担当文書数ずつの集合に纏めた文書群を順次定義した場合の各文書群において前記キーワード文字列を含む先頭の文書データに対応する前記文書番号の値を担当文書群頭出し文書番号とし、前記転置インデックスにおいて前記キーワード文字列それぞれに対応付けられた前記文書番号の配列上で前記担当文書群頭出し文書番号が記録される位置を示す部分列探索開始アドレスが、対応する前記担当文書群頭出し文書番号の値の小さい順に前記キーワード文字列に対応付けて登録された文書番号部分列探索開始アドレス表を記憶する文書番号部分列探索開始アドレス表記憶装置と、を用い、
文書検索管理装置からの文書番号部分列取得要求に応じて、前記転置インデックス記憶装置から前記文書番号の配列の一部を取得するための文書番号部分列取得装置において、
前記文書データの数を示す文書総数、前記文書番号部分列取得装置の運用数を示す並列処理台数、および検索キーワードを含む前記文書番号部分列取得要求を前記文書検索管理装置から受け取ると、前記文書総数を前記並列処理台数で除算して1台当たりの担当文書数を計算し、文書データベース内の前記文書データを文書番号の小さい順に前記担当文書数ずつの集合に纏めた文書群を順次定義した場合に、予め設定された自装置の装置番号に応じた順番の前記文書群を担当文書群として決定する担当文書群決定手段と、
前記文書番号部分列探索開始アドレス表記憶装置内の前記文書番号部分列探索開始アドレス表を参照し、前記検索キーワードに対応する前記キーワード文字列に関連付けられた複数の前記部分列探索開始アドレスの中から、自装置の前記装置番号に応じた順番で登録された前記担当文書群頭出し文書番号に対応する前記部分列探索開始アドレスを抽出する部分列探索開始位置決定手段と、
前記転置インデックス記憶装置内の前記転置インデックスを参照し、部分列探索開始位置決定手段で抽出された前記部分列探索開始アドレスで示される位置から前記文書番号の配列を昇順に探索し、前記検索キーワードに対応する前記キーワード文字列に関連付けられた前記文書番号配列内の前記担当文書群に含まれる前記文書番号を取得し、取得した前記文書番号の集合を前記文書検索管理装置に送信する部分列取得手段と、
を有することを特徴とする文書番号部分列取得装置。
文書番号が付与された複数の文書データを記憶する文書データベースと、
複数のキーワード文字列それぞれに対応付けて、前記キーワード文字列を含む前記文書データの前記文書番号が、前記文書番号の数値に応じて昇順の配列で登録された転置インデックスを記憶する転置インデックス記憶装置と、
前記文書データベースに登録されている文書データの数を示す文書総数を、予定されている並列運用予定台数で除算して得られる値を1台当たりの担当文書数とし、前記文書データベース内の前記文書データを文書番号の小さい順に前記担当文書数ずつの集合に纏めた文書群を順次定義した場合の各文書群において前記キーワード文字列を含む先頭の文書データに対応する前記文書番号の値を担当文書群頭出し文書番号とし、前記転置インデックスにおいて前記キーワード文字列それぞれに対応付けられた前記文書番号の配列上で前記担当文書群頭出し文書番号が記録される位置を示す部分列探索開始アドレスが、対応する前記担当文書群頭出し文書番号の値の小さい順に前記キーワード文字列に対応付けて登録された文書番号部分列探索開始アドレス表を記憶する文書番号部分列探索開始アドレス表記憶装置と、が予め用意されており、
文書検索管理装置の文書番号部分列取得要求手段が、検索依頼装置からの検索キーワードを含む文書検索依頼に応答して、前記文書データベースに登録されている文書データの数を示す文書総数、文書番号部分列取得装置の運用数を示す並列処理台数、および前記検索キーワードを含む文書番号部分列取得要求を、複数の前記文書番号部分列取得装置それぞれに送信し、
前記文書番号部分列取得装置それぞれの担当文書群決定手段が、前記文書番号部分列取得要求を前記文書検索管理装置から受け取ると、前記文書総数を前記並列処理台数で除算して1台当たりの担当文書数を計算し、前記文書データベース内の前記文書データを文書番号の小さい順に前記担当文書数ずつの集合に纏めた文書群を順次定義した場合に、予め設定された自装置の装置番号に応じた順番の前記文書群を担当文書群として決定し、
前記文書番号部分列取得装置それぞれの部分列探索開始位置決定手段が、前記文書番号部分列探索開始アドレス表記憶装置内の前記文書番号部分列探索開始アドレス表を参照し、前記検索キーワードに対応する前記キーワード文字列に関連付けられた複数の前記部分列探索開始アドレスの中から、自装置の前記装置番号に応じた順番で登録された前記担当文書群頭出し文書番号に対応する前記部分列探索開始アドレスを抽出し、
前記文書番号部分列取得装置それぞれの部分列取得手段が、前記転置インデックス記憶装置内の前記転置インデックスを参照し、部分列探索開始位置決定手段で抽出された前記部分列探索開始アドレスで示される位置から前記文書番号の配列を昇順に探索し、前記検索キーワードに対応する前記キーワード文字列に関連付けられた文書番号配列内の前記担当文書群に含まれる前記文書番号を取得し、取得した前記文書番号の集合を文書番号部分列として前記文書検索管理装置に送信し、
前記文書検索管理装置の文書番号配列集計手段が、前記文書番号部分列取得要求に応じて複数の前記文書番号部分列取得装置から返される前記文書番号部分列を取得し、前記文書番号部分列に含まれる前記文書番号を集計して前記文書番号配列を生成し、
前記文書検索管理装置の文書リスト作成手段が、前記文書番号配列集計手段が生成した前記文書番号配列に含まれる前記文書番号それぞれに対応する前記文書データを前記文書データベースから抽出し、抽出した前記文書データに関する文書リストを作成し、
前記文書検索管理装置の検索結果通知手段が、前記文書リスト作成手段が作成した前記文書リストを前記検索依頼装置に送信する、
ことを特徴とする文書検索方法。
2 転置インデックス記憶装置
3 文書番号部分列探索開始アドレス表記憶装置
4 検索依頼装置
5 文書検索管理装置
5a 文書番号部分列取得要求手段
5b 文書番号配列集計手段
5c 文書リスト作成手段
5d 検索結果通知手段
6a,6b,6c,6d 文書番号部分列取得装置
6aa 担当文書群決定手段
6ab 部分列探索開始位置決定手段
6ac 部分列取得手段
7a 文書検索依頼
7b 文書番号部分列取得要求
7c 担当文書群
7d 部分列探索開始アドレス
7e 文書番号部分列
7f 文書番号配列
7g 文書リスト
Claims (8)
- 電子化された文書の検索を行う文書検索システムにおいて、
文書番号が付与された複数の文書データを記憶する文書データベースと、
複数のキーワード文字列それぞれに対応付けて、前記キーワード文字列を含む前記文書データの前記文書番号が、前記文書番号の数値に応じて昇順の配列で登録された転置インデックスを記憶する転置インデックス記憶装置と、
前記文書データベースに登録されている文書データの数を示す文書総数を、予定されている並列運用予定台数で除算して得られる値を1台当たりの担当文書数とし、前記文書データベース内の前記文書データを文書番号の小さい順に前記担当文書数ずつの集合に纏めた文書群を順次定義した場合の各文書群において前記キーワード文字列を含む先頭の文書データに対応する前記文書番号の値を担当文書群頭出し文書番号とし、前記転置インデックスにおいて前記キーワード文字列それぞれに対応付けられた前記文書番号の配列上で前記担当文書群頭出し文書番号が記録される位置を示す部分列探索開始アドレスが、対応する前記担当文書群頭出し文書番号の値の小さい順に前記キーワード文字列に対応付けて登録された文書番号部分列探索開始アドレス表を記憶する文書番号部分列探索開始アドレス表記憶装置と、
検索依頼装置からの検索キーワードを含む文書検索依頼に応答して、前記文書総数、文書番号部分列取得装置の運用数を示す並列処理台数、および前記検索キーワードを含む文書番号部分列取得要求を、複数の前記文書番号部分列取得装置それぞれに送信する文書番号部分列取得要求手段と、前記文書番号部分列取得要求に応じて複数の前記文書番号部分列取得装置から返される文書番号部分列を取得し、前記文書番号部分列に含まれる前記文書番号を集計して文書番号配列を生成する文書番号配列集計手段と、前記文書番号配列集計手段が生成した前記文書番号配列に含まれる前記文書番号それぞれに対応する前記文書データを前記文書データベースから抽出し、抽出した前記文書データに関する文書リストを作成する文書リスト作成手段と、前記文書リスト作成手段が作成した前記文書リストを前記検索依頼装置に送信する検索結果通知手段と、を具備する前記文書検索管理装置と、
前記文書番号部分列取得要求を前記文書検索管理装置から受け取ると、前記文書総数を並列処理台数で除算して1台当たりの担当文書数を計算し、前記文書データベース内の前記文書データを文書番号の小さい順に前記担当文書数ずつの集合に纏めた文書群を順次定義した場合に、予め設定された自装置の装置番号に応じた順番の前記文書群を担当文書群として決定する担当文書群決定手段と、前記文書番号部分列探索開始アドレス表記憶装置内の前記文書番号部分列探索開始アドレス表を参照し、前記検索キーワードに対応する前記キーワード文字列に関連付けられた複数の前記部分列探索開始アドレスの中から、自装置の前記装置番号に応じた順番で登録された前記担当文書群頭出し文書番号に対応する前記部分列探索開始アドレスを抽出する部分列探索開始位置決定手段と、前記転置インデックス記憶装置内の前記転置インデックスを参照し、部分列探索開始位置決定手段で抽出された前記部分列探索開始アドレスで示される位置から前記文書番号の配列を昇順に探索し、前記検索キーワードに対応する前記キーワード文字列に関連付けられた前記文書番号配列内の前記担当文書群に含まれる前記文書番号を取得し、取得した前記文書番号の集合を前記文書番号部分列として前記文書検索管理装置に送信する部分列取得手段と、を具備する複数の前記文書番号部分列取得装置と、
を有することを特徴とする文書検索システム。 - 前記文書番号部分列探索開始アドレス表記憶装置には、前記文書番号部分列取得装置の前記並列運用予定台数が異なる複数の前記文書番号部分列探索開始アドレス表が記憶されており、
前記部分列探索開始位置決定手段は、前記文書番号部分列取得要求で示された前記並列処理台数に対応する前記並列運用予定台数の前記文書番号部分列探索開始アドレス表を参照して、前記部分列探索開始アドレスの抽出を行うことを特徴とする請求項1記載の文書検索システム。 - 前記文書番号部分列探索開始アドレス表記憶装置には、前記文書番号部分列取得装置の前記並列運用予定台数を複数の数値の公倍数とした前記文書番号部分列探索開始アドレス表が記憶され、前記文書番号部分列探索開始アドレス表の前記部分列探索開始アドレスは、前記公倍数の約数それぞれの台数の前記文書番号部分列取得装置で運用したときの装置番号と対応付けられており、
前記部分列探索開始位置決定手段は、前記並列処理台数で前記文書番号部分列取得装置を運用したときの前記装置番号の中から自己の前記装置番号を検出し、検出した前記装置番号に対応する前記部分列探索開始アドレスを抽出することを特徴とする請求項1記載の文書検索システム。 - 前記文書番号部分列探索開始アドレス表記憶装置に記憶された前記文書番号部分列探索開始アドレス表には、前記転置インデックスにおいて前記キーワード文字列それぞれに対応付けられた前記文書番号の配列上で、前記担当文書群頭出し文書番号が記録される位置を前記文書番号の配列における先頭からのアドレスの差分で表した相対アドレスが、前記部分列探索開始アドレスとして登録されており、
前記部分列取得手段は、前記転置インデックス記憶装置内の前記検索キーワードに対応する前記キーワード文字列に関連付けられた文書番号の配列における先頭アドレスに、前記部分列探索開始アドレスで示される前記相対アドレスを加算した位置から、アドレスが大きくなる方向へ向かって前記文書番号の探索を行う、
ことを特徴とする請求項1記載の文書検索システム。 - 前記文書検索管理装置は、転置インデックス作成指示が入力されると、前記文書データベースを参照して前記転置インデックスを更新すると共に、更新後の前記転置インデックスを参照して前記文書番号部分列探索開始アドレス表を更新する転置インデックス更新手段をさらに有することを特徴とする請求項1記載の文書検索システム。
- 電子化された文書の検索を行う文書検索システムにおいて、
文書番号が付与された複数の文書データを記憶する文書データベースと、
複数のキーワード文字列それぞれに対応付けて、前記キーワード文字列を含む前記文書データの前記文書番号が、前記文書番号の数値に応じて昇順の配列で登録された転置インデックスを記憶する転置インデックス記憶装置と、
前記文書番号の最小値から所定間隔の数値に対応する前記文書番号の値を所定間隔頭出し文書番号とし、前記転置インデックスにおいて前記キーワード文字列それぞれに対応付けられた前記文書番号の配列上で、前記所定間隔頭出し文書番号が記録される位置を示す部分列探索開始アドレスが、前記キーワード文字列に対応付けて登録されており、前記部分列探索開始アドレスに対して、前記部分列探索開始アドレスが指し示す位置を含む前記文書番号の配列において前記部分列探索開始アドレスに対応する前記所定間隔頭出し文書番号以下の文書番号のうち最も大きな値が付与された文書番号部分列探索開始アドレス表を記憶する文書番号部分列探索開始アドレス表記憶装置と、
検索依頼装置からの検索キーワードを含む文書検索依頼に応答して、前記文書データベースに登録されている文書データの数を示す文書総数、文書番号部分列取得装置の運用数を示す並列処理台数、および前記検索キーワードを含む文書番号部分列取得要求を、複数の前記文書番号部分列取得装置それぞれに送信する文書番号部分列取得要求手段と、前記文書番号部分列取得要求に応じて複数の前記文書番号部分列取得装置から返される文書番号部分列を取得し、前記文書番号部分列に含まれる前記文書番号を集計して文書番号配列を生成する文書番号配列集計手段と、前記文書番号配列集計手段が生成した前記文書番号配列に含まれる前記文書番号それぞれに対応する前記文書データを前記文書データベースから抽出し、抽出した前記文書データに関する文書リストを作成する文書リスト作成手段と、前記文書リスト作成手段が作成した前記文書リストを前記検索依頼装置に送信する検索結果通知手段と、を具備する前記文書検索管理装置と、
前記文書番号部分列取得要求を前記文書検索管理装置から受け取ると、前記文書総数を前記並列処理台数で除算して1台当たりの担当文書数を計算し、前記文書データベース内の前記文書データを文書番号の小さい順に前記担当文書数ずつの集合に纏めた文書群を順次定義した場合に、予め設定された自装置の装置番号に応じた順番の前記文書群を担当文書群として決定する担当文書群決定手段と、前記文書番号部分列探索開始アドレス表記憶装置内の前記文書番号部分列探索開始アドレス表を参照し、前記検索キーワードに対応する前記キーワード文字列に関連付けられた複数の前記部分列探索開始アドレスの中から、前記担当文書群の先頭の文書データの文書番号以下の前記文書番号が付与された前記所定間隔頭出し文書番号のうち最も大きな値の前記文書番号が付与された前記所定間隔頭出し文書番号に対応する前記部分列探索開始アドレスを抽出する部分列探索開始位置決定手段と、前記転置インデックス記憶装置内の前記転置インデックスを参照し、部分列探索開始位置決定手段で抽出された前記部分列探索開始アドレスで示される位置から前記文書番号の配列を昇順に探索し、前記検索キーワードに対応する前記キーワード文字列に関連付けられた前記文書番号配列内の前記担当文書群に含まれる前記文書番号を取得し、取得した前記文書番号の集合を前記文書番号部分列として前記文書検索管理装置に送信する部分列取得手段と、を具備する複数の前記文書番号部分列取得装置と、
を有することを特徴とする文書検索システム。 - 複数のキーワード文字列それぞれに対応付けて、前記キーワード文字列を含む文書データの文書番号が、前記文書番号の数値に応じて昇順の配列で登録された転置インデックスを記憶する転置インデックス記憶装置と、
前記文書データベースに登録されている文書データの数を示す文書総数を、予定されている並列運用予定台数で除算して得られる値を1台当たりの担当文書数とし、前記文書データベース内の前記文書データを文書番号の小さい順に前記担当文書数ずつの集合に纏めた文書群を順次定義した場合の各文書群において前記キーワード文字列を含む先頭の文書データに対応する前記文書番号の値を担当文書群頭出し文書番号とし、前記転置インデックスにおいて前記キーワード文字列それぞれに対応付けられた前記文書番号の配列上で前記担当文書群頭出し文書番号が記録される位置を示す部分列探索開始アドレスが、対応する前記担当文書群頭出し文書番号の値の小さい順に前記キーワード文字列に対応付けて登録された文書番号部分列探索開始アドレス表を記憶する文書番号部分列探索開始アドレス表記憶装置と、を用い、
文書検索管理装置からの文書番号部分列取得要求に応じて、前記転置インデックス記憶装置から前記文書番号の配列の一部を取得するための文書番号部分列取得装置において、
前記文書データの数を示す文書総数、前記文書番号部分列取得装置の運用数を示す並列処理台数、および検索キーワードを含む前記文書番号部分列取得要求を前記文書検索管理装置から受け取ると、前記文書総数を前記並列処理台数で除算して1台当たりの担当文書数を計算し、文書データベース内の前記文書データを文書番号の小さい順に前記担当文書数ずつの集合に纏めた文書群を順次定義した場合に、予め設定された自装置の装置番号に応じた順番の前記文書群を担当文書群として決定する担当文書群決定手段と、
前記文書番号部分列探索開始アドレス表記憶装置内の前記文書番号部分列探索開始アドレス表を参照し、前記検索キーワードに対応する前記キーワード文字列に関連付けられた複数の前記部分列探索開始アドレスの中から、自装置の前記装置番号に応じた順番で登録された前記担当文書群頭出し文書番号に対応する前記部分列探索開始アドレスを抽出する部分列探索開始位置決定手段と、
前記転置インデックス記憶装置内の前記転置インデックスを参照し、部分列探索開始位置決定手段で抽出された前記部分列探索開始アドレスで示される位置から前記文書番号の配列を昇順に探索し、前記検索キーワードに対応する前記キーワード文字列に関連付けられた前記文書番号配列内の前記担当文書群に含まれる前記文書番号を取得し、取得した前記文書番号の集合を前記文書検索管理装置に送信する部分列取得手段と、
を有することを特徴とする文書番号部分列取得装置。 - 電子化された文書の検索を行うための文書検索方法において、
文書番号が付与された複数の文書データを記憶する文書データベースと、
複数のキーワード文字列それぞれに対応付けて、前記キーワード文字列を含む前記文書データの前記文書番号が、前記文書番号の数値に応じて昇順の配列で登録された転置インデックスを記憶する転置インデックス記憶装置と、
前記文書データベースに登録されている文書データの数を示す文書総数を、予定されている並列運用予定台数で除算して得られる値を1台当たりの担当文書数とし、前記文書データベース内の前記文書データを文書番号の小さい順に前記担当文書数ずつの集合に纏めた文書群を順次定義した場合の各文書群において前記キーワード文字列を含む先頭の文書データに対応する前記文書番号の値を担当文書群頭出し文書番号とし、前記転置インデックスにおいて前記キーワード文字列それぞれに対応付けられた前記文書番号の配列上で前記担当文書群頭出し文書番号が記録される位置を示す部分列探索開始アドレスが、対応する前記担当文書群頭出し文書番号の値の小さい順に前記キーワード文字列に対応付けて登録された文書番号部分列探索開始アドレス表を記憶する文書番号部分列探索開始アドレス表記憶装置と、が予め用意されており、
文書検索管理装置の文書番号部分列取得要求手段が、検索依頼装置からの検索キーワードを含む文書検索依頼に応答して、前記文書データベースに登録されている文書データの数を示す文書総数、文書番号部分列取得装置の運用数を示す並列処理台数、および前記検索キーワードを含む文書番号部分列取得要求を、複数の前記文書番号部分列取得装置それぞれに送信し、
前記文書番号部分列取得装置それぞれの担当文書群決定手段が、前記文書番号部分列取得要求を前記文書検索管理装置から受け取ると、前記文書総数を前記並列処理台数で除算して1台当たりの担当文書数を計算し、前記文書データベース内の前記文書データを文書番号の小さい順に前記担当文書数ずつの集合に纏めた文書群を順次定義した場合に、予め設定された自装置の装置番号に応じた順番の前記文書群を担当文書群として決定し、
前記文書番号部分列取得装置それぞれの部分列探索開始位置決定手段が、前記文書番号部分列探索開始アドレス表記憶装置内の前記文書番号部分列探索開始アドレス表を参照し、前記検索キーワードに対応する前記キーワード文字列に関連付けられた複数の前記部分列探索開始アドレスの中から、自装置の前記装置番号に応じた順番で登録された前記担当文書群頭出し文書番号に対応する前記部分列探索開始アドレスを抽出し、
前記文書番号部分列取得装置それぞれの部分列取得手段が、前記転置インデックス記憶装置内の前記転置インデックスを参照し、部分列探索開始位置決定手段で抽出された前記部分列探索開始アドレスで示される位置から前記文書番号の配列を昇順に探索し、前記検索キーワードに対応する前記キーワード文字列に関連付けられた文書番号配列内の前記担当文書群に含まれる前記文書番号を取得し、取得した前記文書番号の集合を文書番号部分列として前記文書検索管理装置に送信し、
前記文書検索管理装置の文書番号配列集計手段が、前記文書番号部分列取得要求に応じて複数の前記文書番号部分列取得装置から返される前記文書番号部分列を取得し、前記文書番号部分列に含まれる前記文書番号を集計して前記文書番号配列を生成し、
前記文書検索管理装置の文書リスト作成手段が、前記文書番号配列集計手段が生成した前記文書番号配列に含まれる前記文書番号それぞれに対応する前記文書データを前記文書データベースから抽出し、抽出した前記文書データに関する文書リストを作成し、
前記文書検索管理装置の検索結果通知手段が、前記文書リスト作成手段が作成した前記文書リストを前記検索依頼装置に送信する、
ことを特徴とする文書検索方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007091664A JP4930153B2 (ja) | 2007-03-30 | 2007-03-30 | 文書検索システム、文書番号部分列取得装置、および文書検索方法 |
US12/054,198 US7797324B2 (en) | 2007-03-30 | 2008-03-24 | Document retrieval system, document number subsequence acquisition apparatus, and document retrieval method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007091664A JP4930153B2 (ja) | 2007-03-30 | 2007-03-30 | 文書検索システム、文書番号部分列取得装置、および文書検索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008250722A JP2008250722A (ja) | 2008-10-16 |
JP4930153B2 true JP4930153B2 (ja) | 2012-05-16 |
Family
ID=39796085
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007091664A Expired - Fee Related JP4930153B2 (ja) | 2007-03-30 | 2007-03-30 | 文書検索システム、文書番号部分列取得装置、および文書検索方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7797324B2 (ja) |
JP (1) | JP4930153B2 (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5332364B2 (ja) * | 2007-10-16 | 2013-11-06 | 富士通株式会社 | 分散ストレージ管理プログラム、分散ストレージ管理装置、および分散ストレージ管理方法 |
US8964743B2 (en) * | 2009-12-18 | 2015-02-24 | Telefonaktiebolaget L M Ericsson (Publ) | Methods and arrangements in a packet switched network |
US8204887B2 (en) * | 2010-08-27 | 2012-06-19 | Hewlett-Packard Development Company, L.P. | System and method for subsequence matching |
JP5071539B2 (ja) * | 2010-09-13 | 2012-11-14 | コニカミノルタビジネステクノロジーズ株式会社 | 画像検索装置、画像読取装置、画像検索システム、データベース生成方法およびデータベース生成プログラム |
US8527497B2 (en) * | 2010-12-30 | 2013-09-03 | Facebook, Inc. | Composite term index for graph data |
US9646108B2 (en) * | 2011-05-10 | 2017-05-09 | Uber Technologies, Inc. | Systems and methods for performing geo-search and retrieval of electronic documents using a big index |
JP6107429B2 (ja) | 2013-05-30 | 2017-04-05 | 富士通株式会社 | データベースシステム、検索方法およびプログラム |
JP5954742B2 (ja) * | 2013-07-23 | 2016-07-20 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 文書を検索する装置及び方法 |
US9400845B2 (en) * | 2013-09-03 | 2016-07-26 | Ferrandino & Son Inc. | Providing intelligent service provider searching and statistics on service providers |
JP6267252B2 (ja) * | 2016-03-09 | 2018-01-24 | ヤフー株式会社 | 検索装置、検索方法及び検索プログラム |
US11088864B1 (en) | 2016-06-29 | 2021-08-10 | Amazon Technologies, Inc. | Device subcomponent representations |
US10291424B1 (en) * | 2016-06-29 | 2019-05-14 | Amazon Technologies, Inc. | Device representation management using representation types |
JP6708239B2 (ja) * | 2018-09-21 | 2020-06-10 | 富士ゼロックス株式会社 | ドキュメント管理システム |
CN110377604B (zh) * | 2019-07-23 | 2022-06-24 | 北京小米移动软件有限公司 | 一种提取表格信息的方法、装置及介质 |
WO2023276162A1 (ja) * | 2021-07-02 | 2023-01-05 | 晋二 古庄 | データ作成装置、データ作成方法、及びプログラム |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3554459B2 (ja) * | 1997-02-26 | 2004-08-18 | 株式会社日立製作所 | テキストデータ登録検索方法 |
JP3181548B2 (ja) * | 1998-02-03 | 2001-07-03 | 富士通株式会社 | 情報検索装置及び情報検索方法 |
JP4070382B2 (ja) * | 2000-02-08 | 2008-04-02 | 富士通株式会社 | 情報検索装置および情報検索プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP4230710B2 (ja) * | 2002-03-19 | 2009-02-25 | 株式会社ジャストシステム | 検索装置、検索方法、ならびに、プログラム |
CN100437561C (zh) * | 2003-12-17 | 2008-11-26 | 国际商业机器公司 | 电子文档的处理方法和装置及其系统 |
JP2006134191A (ja) * | 2004-11-09 | 2006-05-25 | Hitachi Ltd | 文書検索方法およびそのシステム |
WO2006123429A1 (ja) * | 2005-05-20 | 2006-11-23 | Fujitsu Limited | 情報検索方法、装置、プログラム、該プログラムを記録した記録媒体 |
JP2007058605A (ja) * | 2005-08-24 | 2007-03-08 | Ricoh Co Ltd | 文書管理システム |
JP5105894B2 (ja) * | 2006-03-14 | 2012-12-26 | キヤノン株式会社 | 文書検索システム、文書検索装置及びその方法とプログラム、記憶媒体 |
WO2008107997A1 (ja) * | 2007-03-08 | 2008-09-12 | Fujitsu Limited | 帳票種識別プログラム、帳票種識別方法および帳票種識別装置 |
-
2007
- 2007-03-30 JP JP2007091664A patent/JP4930153B2/ja not_active Expired - Fee Related
-
2008
- 2008-03-24 US US12/054,198 patent/US7797324B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008250722A (ja) | 2008-10-16 |
US20080243836A1 (en) | 2008-10-02 |
US7797324B2 (en) | 2010-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4930153B2 (ja) | 文書検索システム、文書番号部分列取得装置、および文書検索方法 | |
US11544623B2 (en) | Consistent filtering of machine learning data | |
JP5492187B2 (ja) | 編集距離および文書情報を使用する検索結果順位付け | |
US10713589B1 (en) | Consistent sort-based record-level shuffling of machine learning data | |
US8359315B2 (en) | Generating a representative sub-signature of a cluster of signatures by using weighted sampling | |
JP5727512B2 (ja) | 検索提案のクラスタ化及び提示 | |
CN104166673B (zh) | 用于复制内容可寻址存储集群的异步分布式去重 | |
KR101203259B1 (ko) | 사용자 행동에 기초한 디지털 미디어 전송 | |
US8452788B2 (en) | Information retrieval system, registration apparatus for indexes for information retrieval, information retrieval method and program | |
KR20130049111A (ko) | 분산 처리를 이용한 포렌식 인덱스 방법 및 장치 | |
Sisodia et al. | Fast prediction of web user browsing behaviours using most interesting patterns | |
JP4896132B2 (ja) | 情報価値を反映した情報検索方法及びその装置 | |
JP2016157290A (ja) | 文書検索装置、文書検索方法、および文書検索プログラム | |
JP5398663B2 (ja) | データ処理装置及びデータ処理方法及びプログラム | |
WO2020136790A1 (ja) | エッジシステム、情報処理方法及び情報処理プログラム | |
JP2013222418A (ja) | パッセージ分割方法、装置、及びプログラム | |
JP5613536B2 (ja) | 利用者の要求に応じて動的にもっとも適したイメージを抽出して提供するための方法、システム及びコンピューター判読可能な記録媒体 | |
US11567906B2 (en) | Generation and traversal of a hierarchical index structure for efficient data retrieval | |
JP2022053542A (ja) | コンピュータシステム、コンピュータプログラムおよびコンピュータ実装方法(ワークロード駆動によるデータベース再編成) | |
JP2011100302A (ja) | ランキング関数生成装置、ランキング関数生成方法、ランキング関数生成プログラム | |
JP3967230B2 (ja) | 画像情報表示システム | |
JP5199968B2 (ja) | キーワードタイプ判定装置、キーワードタイプ判定方法およびキーワードタイプ判定プログラム | |
JP2009146013A (ja) | コンテンツ検索方法及び装置並びにプログラム | |
JP2021067962A (ja) | 情報処理システム及び情報処理方法 | |
Gilheany | Processing time of TFIDF and Naive Bayes on Spark 2.0, Hadoop 2.6 and Hadoop 2.7: Which Tool Is More Efficient? |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091208 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120112 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120117 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120130 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150224 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |