JP2865831B2 - 並列ストリング・サーチ装置 - Google Patents

並列ストリング・サーチ装置

Info

Publication number
JP2865831B2
JP2865831B2 JP2228145A JP22814590A JP2865831B2 JP 2865831 B2 JP2865831 B2 JP 2865831B2 JP 2228145 A JP2228145 A JP 2228145A JP 22814590 A JP22814590 A JP 22814590A JP 2865831 B2 JP2865831 B2 JP 2865831B2
Authority
JP
Japan
Prior art keywords
text
search
string
divided
address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2228145A
Other languages
English (en)
Other versions
JPH04111064A (ja
Inventor
英俊 伊東
弘行 北嶋
正己 榎原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Hitachi Nuclear Engineering Co Ltd
Original Assignee
Hitachi Ltd
Hitachi Nuclear Engineering Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd, Hitachi Nuclear Engineering Co Ltd filed Critical Hitachi Ltd
Priority to JP2228145A priority Critical patent/JP2865831B2/ja
Publication of JPH04111064A publication Critical patent/JPH04111064A/ja
Application granted granted Critical
Publication of JP2865831B2 publication Critical patent/JP2865831B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
〔産業上の利用分野〕 本発明は、情報検索システムなどに使用されるストリ
ング・サーチ法、すなわち、入力データ文字列(以下
「テキスト」という)中に、指定された文字列(「パタ
ーン」,「キーワード」等と呼ばれる)が存在するか否
かを判別するための装置に関する。上記ストリング・サ
ーチ装置は、近年のデータベースの大規模化及び、文書
データの増大により、重要性が増している情報検索に欠
かせないものである。 〔従来の技術〕 オフィス・オートメイション化の進行に伴って、文書
情報のデータベース化が急速に進んでおり、そのデータ
ベースの規模も大規模化してきている。このような状況
の中で、文書情報の高速化が強く望まれている。なかで
も、テキストと呼ばれる文字列の中から、パターンある
いはキーワードと呼ばれる指定された特定の文字列を探
し出すストリング・サーチ処理は、使用頻度も高く処理
負荷も極めて大きいため、その高速化が特に望まれてい
る。 このようなニーズに応える手段として、ストリング・
サーチ方法がいくつか提案されている。これらを大別す
ると、セル・アレイ法と表一瞥型の有限オートマトン法
および、表一瞥型のスキップ法とに分けられる。セル・
アレイ法は、複数のセルをアレイ状に直接に接続し、セ
ル間の状態信号の伝達により、ストリング・サーチを実
現する方式である。表一瞥型の有限オートマトン法は、
有限オートマトンを利用した方法であり、テキストを1
文字ずつ入力しながら、そのつど、状態遷移テーブルを
参照し、有限オートマトンの状態遷移を繰り返しながら
パターンの検索を行う方法である。表一瞥型のスキップ
法は、テキストとパターンの一致状態を示す状態遷移テ
ーブルと、入力テキスト文字とサーチ状態から、次に入
力すべきテキストまでのオフセットを示すスキップテー
ブルを用いることで、テキストを飛ばし読みするだけで
サーチ処理を終了できる方式である。 これらについては、アイ・イー・イー・イー・トラン
ザクションズ オン コンピューターズ,シー28,(197
9年)第384頁から第394頁(IEEE Transactions on COMP
UTERS,Vol.C−28,No.6,pp.384−394,JUNE 1979.)(文
【1】)やコンピュータ,ボリューム13,(1980年)
第26頁から第40頁(Computer,Vol.13,No.1,pp.26−40,J
ANUARY 1980.)(文字
【2】)、コンピュータ,ボリュ
ーム12,(1979年)第40頁から第50頁(Computer,Vol.1
2,No.3,pp.40−50,MARCH 1979.)(文献
【3】)、コン
ピュータソフトウェア,ボリューム4,(1987年)第2頁
から第23頁、情報処理学会第35回全国大会予稿集「複数
パターンに対する高速ストリング・サーチ・アルゴリズ
ムの提案」(1987)、などにおいて論じられている。 〔発明が解決しようとする課題〕 上記従来技術では、いずれもテキストを逐次的に入力
するか、あるいは、テキストをスキップテーブルに従っ
て、飛ばし読みしつつ処理するものであり、処理速度は
逐次的に入力する場合、1文字当たりの入出力速度ある
いは、比較速度によって抑えられる。飛ばし読みする場
合にも、上記の処理速度に飛ばし読みの文字数の平均を
乗した値で抑えられる。このため、ある一定値以上の性
能向上は不可能であった。また、データ入出力速度と、
比較速度を比べた場合には、技術的,コスト的要因から
比較速度がボトルネックとなる場合が多く、比較速度の
向上が重要である。 これに対して、本発明の目的は、大量のサーチ対象テ
キストを多数のテキストに分割し、各々を並列にストリ
ング・サーチ処理することで、ストリング・サーチの並
列処理を実現し、データ入出力が高速化した場合にも、
これに追随したストリング・サーチ処理を実現すること
である。 〔課題を解決するための手段〕 上記目的は、 (a)テキストを、句読点や、単語間のスペースなどの
文法上あるいは構文上の区切り文字または、記号で分割
するテキスト分割装置、または、ある長さ分のテキスト
を重複させて分割するテキスト分割装置と、 (b)分割テキストをそれぞれ、並列にサーチする複数
のストリング・サーチ装置、 とを導入することにより達成される。 〔作用〕 上記手段(a)によりテキストは複数の分割テキスト
に分割され、手段(b)により分割テキストを並列にス
トリング・サーチすることができるので、分割処理に関
するオーバヘッドが隠せるような、テキスト長が長く、
十分な分割サーチが可能な環境において、検索速度の向
上が達成できる。 〔実施例〕 以下、本発明の実施例を説明する。以下の実施例で
は、データ入出力速度に比べて比較速度が遅い場合につ
いて説明する。また、文字のコード長は1バイトと仮定
する。文字コード長が2バイト以上の場合でも、以下の
実施例との差異は、アドレッシングのみであり、容易に
推案ができる。 第1図は、本発明のストリング・サーチ・システムの
構成例である。1は検索すべきテキストを格納する磁気
ディスク装置等の記憶装置、2はテキストを一旦蓄える
共有バッファ装置、3は共有バッファ装置の入出力制御
装置、4は共有バッファ上のテキストをある長さの分割
テキストに分割するためのテキスト分割位置決定装置、
40〜4nはストリング・サーチ装置群、5はテキスト分割
位置決定装置4と、ストリング・サーチ装置群40〜4nを
制御する検索制御装置である。ここで、ストリング・サ
ーチ装置40〜4nとテキスト分割位置決定装置4は、非同
期に動作するものとする。また、説明を簡単にするため
に、以下の実施例ではストリング・サーチ装置は2台と
する。3台以上の場合の実施方法は以下の説明から容易
に推案ができる。 ここで、 (1)第1の実施例として、テキストを複数の文字列に
分割し、並列にストリング・サーチ処理を実行する装置
に関して説明する。第1図は並列ストリング・サーチ装
置の構成図、第2図は並列ストリング・サーチにおける
データ及び処理の流れを示すタイムチャートである。 ストリング・サーチ装置40,41の2台を用い、各装置
間のデータ入出力速度は一定とする。また、各ストリン
グ・サーチ装置内の検索装置の検索速度は、データ入出
力速度の1/2とする。ここで、検索装置とは、テキスト
中に指定されたキーワードが存在するか否かを判別する
装置であり、専用ハードウェアまたは、プロセッサ上で
稼動する各種ソフトウェア・アルゴリズムなど、どのよ
うな方法で実現してあっても構わない。 第2図のタイムチャートの時間軸の単位は、テキスト
を複数に分割した際の、1つの分割テキストが各装置間
を移動する時間を1としてある。よって各ストリング・
サーチ装置における検索処理時間は、1分割テキスト当
り2時刻となる。 また、テキストの分割位置の決定方法に関しては、第
2の実施例以降で説明する。ここでは、任意のサイズに
分割(n個)するものとする。 以下、第1図及び第2図を用いて並列ストリング・サ
ーチ処理を説明する。 (a)記憶装置1から共有バッファ2へテキストを転送
する(時刻0〜n)。 (b)共有バッファ上のテキストに対して、テキスト分
割位置決定装置4が、1回目の分割位置決定処理を実施
する(時刻1〜2)。実際にはこの処理において、分割
テキストのサイズが決定するため、各分割テキストのサ
イズは異なるが、ここでは、説明を簡単にするために、
各分割テキストのサイズは全て同じとする。 (c)テキスト分割位置決定装置4は、分割テキストの
先頭及び再後遅アドレスを検索制御装置5に報告する
(時刻2)。 (d)検索制御装置5は、ストリング・サーチ装置40に
対して、分割テキストの先頭及び再後尾アドレスを伝え
サーチ処理の実行を指定する(時刻2)。 (e)ストリング・サーチ装置40は、共有バッファ2か
らローカルバッファ401へ、分割テキスト1を入力する
(時刻2〜3)。 (f)ストリング・サーチ装置40は、分割テキストに対
するサーチ処理を実行する(時刻3〜5)。 上記処理と並行してストリング・サーチ装置41に対し
ては、 (g)共有バッファ上のテキストに対して、テキスト分
割位置決定装置4が、2回目の分割位置決定処理を実施
する(時刻2〜3)。 (h)テキスト分割位置決定装置4は、分割テキストの
先頭及び再後尾アドレスを検索制御装置5に報告する
(時刻3)。 (i)検索制御装置5は、ストリング・サーチ装置41に
対して、分割テキストの先頭及び再後遅アドレスを伝
え、サーチ処理の実行を指示する(時刻3)。 (j)ストリング・サーチ装置41は、共有バッファ2か
らローカルバッファ411へ、分割テキスト2を入力する
(時刻3〜4)。 (k)ストリング・サーチ装置41は、分割テキストに対
するサーチ処理を実行する(時刻4〜6)。 これら一連の処理は、パイプライン処理で実現され、
時刻(n+4)でサーチ処理が終了する。つまり、デー
タ入出力速度に対して、検索速度が1/2であるストリン
グ・サーチ装置を2台使用し、データ入出力時間にほぼ
同期したサーチ処理が実現できることが判る。 次に、テキストの分割位置の決定方法について説明す
る。以下の実施例においては、入力テキストを「XYΔAB
CΔDEF」の10文字とし、検索キーワードを「ABC」の3
文字とした場合の並列処理のためのテキスト分割処理に
関して記述する。「Δ」はスペースを表すものとする。 ここで、第3図に示すように、単純にテキストを先頭
から、ストリング・サーチ装置数分に分割(本例では2
等分)した場合には、発見されるべきテキスト中の文字
列「ABC」は、2つのストリング・サーチ装置40,41のそ
れぞれのサーチ範囲に分断される。このため、ストリン
グ・サーチ装置40,ストリング・サーチ装置41共に、検
索キーワードと一致する文字列を発見せず、検索漏れと
なる。これに対し、 (2)本発明の第2の実施例においては、句読点や単語
間のスペースなどのテキストの区切りとなる文字を検索
し、その区切り文字を基準としてテキストを分割し、サ
ーチ処理を行なうことで、上記検索漏れを回避する。 第1図に示すテキスト分割位置決定装置4では、第5
図に示すような区切り文字判定テーブル180を用い、第
6図に示す分割位置決定処理フローに従ってテキストの
分割位置決定処理を行う。 (a)まず、テキスト分割位置決定装置4では、テキス
ト分割アドレスPWを計算する(ステップ110)。この値
はテキスト先頭アドレスPに、値MB(=テキスト長/ス
トリング・サーチ装置数)を加えた値である。本例で
は、テキスト分割アドレスPW=5となる。 (b)次に、テキスト分割アドレスPWが、テキスト終了
アドレスPEを超えているか否かの判定を行なう(ステッ
プ120)。本処理ループ(ステップ110〜150)の1回目
では、アドレスPWがアドレスPEを超えることはないが、
2回目以降の処理ループでは、テキスト分割アドレスPW
がテキスト終了アドレスPEを超える場合がある。この場
合は、アドレスP〜アドレスPE間のテキストを分割テキ
ストとして分割アドレス(P,PE)を検索制御装置5に報
告し(ステップ160)、テキスト分割処理を終了する。
本例では、テキスト分割アドレスPW=5,テキスト終了ア
ドレスPE=9であるため、分割処理を終了しない。 (c)次に、区切り文字判定処理(ステップ130)を実
行する。この処理は、テキスト分割アドレスPWで示され
るテキスト「C」をフェッチし、この文字「C」で第5
図に示す区切り文字判定テーブル180を参照し、区切り
文字であるか否かを判定する処理である。ここで、区切
り文字判定テーブル180は、入力文字が区切り文字であ
る場合は、それに対する出力が‘1'となり、それ以外の
場合は‘0'を出力するように作成するテーブルである。
本例では文字「C」に対する出力結果は‘0'であり、文
字「C」は区切り文字でないことがわかる。 (d)入力文字が区切り文字でない場合は、テキスト分
割アドレスPWをカウントアップし(ステップ170)、ス
テップ130の処理に戻る。本例では、テキスト分割アド
レスPW=6,入力テキスト文字は「Δ」であり、区切り文
字判定テーブル180の参照結果から区切り文字であると
判断される。 (e)区切り文字を発見した場合には、アドレスP〜ア
ドレス(PW−1)間のテキスト「XYΔABC」を分割テキ
ストとして、分割アドレス(P,PW−1)を検索制御装置
5に報告する(ステップ140)。 (f)分割アドレス報告後、テキスト分割位置決定装置
4では、次のテキストの分割処理を行なうため、テキス
ト先頭アドレスPを更新(P=PW+MK)(ステップ15
0)し、ステップ110の処理に戻る。 これら一連の処理をステップ120でテキストの終了を
検出するまで繰り返すことにより、テキストの分割位置
が決定される。また、上記のテキスト分割位置決定処理
と並行して、第2図に示すように、テキスト分割処理及
び分割テキストに対するストリング・サーチ処理を実行
する。 本例では、第4図のようにテキストは「XYΔABC」と
「ΔDEF」の2つに分割され、それぞれストリング・サ
ーチ装置40,41でサーチ処理を実行する。 ストリング・サーチ処理40ではテキスト「XYΔABC」
をキーワード「ABC」でサーチし、ストリング・サーチ
装置41ではテキスト「ΔDEF」をキーワード「ABC」でサ
ーチする。サーチ結果は、ストリング・サーチ装置40に
おいて検索キーワード「ABC」と一致する文字列が発見
される。これから、検索漏れが生じない並列サーチ処理
が可能なことが分かる。 (3)本発明の第3の実施例としては、分割テキストを
第7図に示すように、N文字分重複させて分割すること
で、検索キーワードと一致すべきテキストの部分文字列
が、複数の分割テキストに分断されることを防ぐテキス
ト分割装置を用いる処理について説明する。まず、テキ
ストを重複させる文字数Nについて説明する。 第10図に示すように、テキストを分割点およびで
分割した場合には、検索キーワードと一致するテキスト
中の文字列「ABC」は、右または左側の分割テキストに
含まれるため検索漏れは生じない。しかし、テキストを
分割点およびで分割した場合には、検索キーワード
と一致するテキスト中の文字列「ABC」は、異なる分割
テキストに分断され検索漏れが生じる。分割点で分割
された場合、検索キーワードと一致する文字列「ABC」
は、左側の分割テキストに2文字「AB」、右側の分割テ
キストに1文字「C」というように分断される。そこ
で、例′に示すように、右側の分割テキストの分割先
頭位置を、2文字、つまり、検索キーワードの長さから
1文字分減じた値だけ左側に移動することで、右側の分
割テキスト中に、キーワードと一致する文字列「ABC」
が含まれる形となり検索漏れが妨げる。分割点につい
ても同様のことが言える。 次に、第7図及び、第8図を用いて、具体的な分割処
理を説明する。ここで、分割テキストを重複させる文字
数を変数Nで示す。本実施例では、キーワード長=3で
あるので、N=2となる。 (a)まず、テキスト分割アドレスPWを計算する(ステ
ップ210)。この値はテキスト先頭アドレスPに、値MB
(=テキスト長/テキスト分割数)を加えた値である。
本例においては、テキスト分割アドレスPW=5となる。 (b)次に、テキスト分割アドレスPWが、テキスト終了
アドレスPEを超えているか否かの判定を行なう(ステッ
プ220)。本処理ループ(ステップ210〜240)の1回目
では、アドレスPWがアドレスPEを超えることはないが、
2回目以降の処理ループでは、テキスト分割アドレスPW
がテキスト終了アドレスPEを越える場合がある、この場
合は、アドレスP〜アドレスPE間のテキストを分割テキ
ストとして分割アドレス(P,PE)を検索制御装置5に報
告し(ステップ260)、テキスト分割処理を終了する。
本例では、テキスト分割アドレスPW=5,テキスト終了ア
ドレスPE=9であるため、分割処理を終了しない。 (c)次に、アドレスP〜アドレス(PW−1)間のテキ
スト「XYΔAB」を分割テキストとして、分割アドレス
(P,PW−1)を検索制御装置5に報告する(ステップ23
0)。 (d)テキスト分割位置決定装置は分割アドレス報告
後、次のテキスト分割処理のためにテキスト先頭アドレ
スPを更新する(P=PW−N)(ステップ240)。ここ
で、テキスト先頭アドレスPは、1つ前の分割テキスト
の分割アドレスPWから、テキスト重複文字数Nを減じた
値であり、本例ではP=3となる。 これら一連の処理をステップ220でテキストの終了を
検出するまで繰り返すことにより、テキストの分割位置
が決定される。また、上記のテキスト分割位置決定処理
と並行して、第2図に示すように、テキスト分割処理及
び分割テキストに対するストリング・サーチ処理を実行
する。 本例では、テキストは「XYΔAB」と「ABCΔDEF」の2
つの分割テキストに分割され、それぞれのストリング・
サーチ装置40,41で処理される。 ストリング・サーチ装置40では、テキスト「XYΔAB」
をキーワード「ABC」でサーチし、ストリング・サーチ
装置41ではテキスト「ABCΔEDF」をキーワード「ABC」
でサーチする。サーチ結果は、ストリング・サーチ装置
41において検索キーワード「ABC」と一致する文字列が
発見させる。これから、検索漏れが生じない並列サーチ
処理が可能なことが分かる。 ここで、複数キーワードの検索が指定されている場
合、例えば、第11図に示すように検索キーワードが
「A」と「ABC」の2つであった場合(「A」をキーワ
ード1,「ABC」をキーワード2と呼ぶ)は、サーチ装置4
0でキーワード1の「A」が、サーチ装置41ではキーワ
ード1の「A」とキーワード2の「ABC」がヒットとな
り、キーワード1の「A」が重複してヒットすることに
なる。 このため、第12図に示すように、ヒットしたキーワー
ドとテキスト中の一致文字列の先頭アドレスを、各スト
リング・サーチ装置の検索結果情報として検索制御装置
5に報告する。検索制御装置5では、連続する分割テキ
ストを処理したストリング・サーチ装置の検索結果情報
を比較し、同一キーワードが同一アドレスで複数個ヒッ
トしているかどうかの重複ヒット判定を行ない、重複ヒ
ットである場合は、一方のヒット情報を削除する。 (4)本発明の第4の実施例として、前記第2の実施例
と第3の実施例とを組合せたテキスト分割処理について
説明する。これは、テキスト中に区切り文字が存在しな
いか、または、ごく僅かの区切り文字しか存在していな
い場合にテキスト分割処理の負荷が増大することを防ぐ
処理である。 第9図に本実施例の処理フローを示す。本実施例は、
基本的には第2の実施例に示す区切り文字を用いた分割
方式であり、異なる点は、区切り文字の判定のために、
テキストをサーチする際に、最長キーワード長から1減
じた値N以上に、テキスト分割処理を繰り返すことを防
ぐものである。具体的には、 (a)テキスト中から、第5図に示すような区切り文字
判定テーブルを用いて、区切り文字をサーチする処理
(ステップ340)において、 (b)テキスト分割アドレスPWで示すテキスト文字が区
切り文字であった場合は、ステップ332でテキスト分割
アドレス(P,PW−1)を検索制御装置5に報告する。区
切り文字でなかった場合には、テキスト分割アドレスを
カウントアップし処理を続行する。この際、始めに設定
したキーワード分割アドレスPWから、何文字離れている
かを表す変数BPをカウントアップする(ステップ35
0)。 (c)変数BPの値が、最長キーワード長から1減じた値
Nより小さい場合はステップ340に戻り、区切り文字サ
ーチ処理を続行する。また、BP=Nとなった場合は、テ
キスト重複フラグを立て、テキスト先頭アドレスPに変
数MBを加えた値を、テキスト分割アドレスPWとする(ス
テップ370)。ここで、テキスト重複フラグとは、テキ
ストを重複して分割した場合に、それを検索制御装置5
に報告する手段として用いるものであり、重複している
テキストに対してはフラグを立てた状態で検索制御装置
5に報告し、重複が無い場合にはフラグを立てない状態
で検索制御装置5に報告するものである。 (d)アドレスP〜アドレス(PW−1)間のテキストを
分割テキストとして分割アドレス(P,PW−1)を検索制
御装置5に報告する。同時に、テキスト重複フラグも報
告する(ステップ331)。 (e)次のテキスト分割処理のために、テキスト先頭ア
ドレスPの更新(P=PW−BP)、テキスト重複フラグOF
F,変数BP=0の設定を実行(ステップ380)し、ステッ
プ320に戻る。 これら一連の処理をステップ320でテキストの終了を
検出するまで繰り返すことにより、テキストの分割位置
が決定される。また、上記のテキスト分割位置決定処理
と並行して、第2図に示すように、テキスト分割処理及
び分割テキストに対するストリング・サーチ処理を実行
する。 ところで、分割テキストは、区切り文字で分割された
テキストと、分割テキストの前後で重複があるテキスト
とが混在することとなる。これは、前記第3の実施例で
示した、キーワードの重複ヒットの可能性のある分割テ
キストとそうでない分割テキストとが混在する結果とな
る。このため、テキスト検索制御装置5では、テキスト
重複フラグのON/OFFから、キーワードの重複ヒット判定
を行なうか否かを判断し、検索誤りおよび、無駄な重複
ヒット判定処理を防ぐ。 上記処理により、テキスト中に区切り文字が存在しな
いか、または、ごく僅かの区切り文字しか存在していな
い場合でも、低負荷な分割処理が可能となる。 〔発明の効果〕 本発明によれば、テキストの多数の分割テキストに分
割し、複数台のストリング・サーチ装置を用いて、並列
にストリング・サーチを実行することが可能となるの
で、テキストを分割せずに処理する従来方式に比べ、最
大でストリング・サーチ装置台数倍に近い高速化が図れ
る。
【図面の簡単な説明】
第1図は本発明のストリング・サーチ装置の構成例を示
すブロツク図、第2図は本発明の並列ストリング・サー
チ処理のタイムチャート、第3図はテキスト分割及びサ
ーチ処理の失敗例の説明図、第4図は本発明の第2の実
施例の説明図、第5図は第2の実施例における区切り文
字判定テーブルを示す図、第6図は第2の実施例の処理
フロー図、第7図,第10図,第11図および第12図は第3
の実施例の説明図、第8図は第3の実施例の処理フロー
図、第9図は第4の実施例の処理フロー図である。 1…記憶装置、2…共有バッファ、3…共有バッファ制
御装置、4…テキスト分割位置決定装置、5…検索制御
装置、40〜4n…ストリング・サーチ装置、400〜4n0…入
出力制御装置、401〜4n1…ローカルバッファ、402〜4n2
…検索装置、180…区切り文字判定テーブル。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 北嶋 弘行 神奈川県川崎市麻生区王禅寺1099番地 株式会社日立製作所システム開発研究所 内 (72)発明者 榎原 正己 神奈川県秦野市堀山下1番地 株式会社 日立製作所神奈川工場内 (56)参考文献 特開 昭58−146955(JP,A) 特開 昭58−139273(JP,A) 加藤,外6名「全文検索用テキストア ーチマシンの開発」電子情報通信学会技 術研究報告(DE89−38),Vol. 89,No.335,p.17−24,1989(平 1−12−14) (58)調査した分野(Int.Cl.6,DB名) G06F 17/30 JICST科学技術文献ファイル

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】ある長さのコードで表現される文字によっ
    て構成される被検索文字列であるテキスト中に、指定さ
    れた検索対象文字列であるキーワードが存在するか否か
    を判定する並列ストリング・サーチ装置において、 (a)テキストを複数の文字列に分割する手段と、 (b)分割された複数の文字列を各々サーチ対象とする
    複数のストリング・サーチ手段と、 (c)前記テキストの先頭から、前記ストリング・サー
    チ手段で処理可能な最大文字数分離れた位置から文字列
    の分離位置を決定する処理を開始する手段とを有するこ
    とを特徴とするストリング・サーチ装置。
  2. 【請求項2】キーワード中の、最長の文字列長から1文
    字分の長さを減じた文字数以上を重複させて、テキスト
    の分割処理を実行する手段を有することを特徴とする請
    求項1に記載の並列ストリング・サーチ装置。
JP2228145A 1990-08-31 1990-08-31 並列ストリング・サーチ装置 Expired - Fee Related JP2865831B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2228145A JP2865831B2 (ja) 1990-08-31 1990-08-31 並列ストリング・サーチ装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2228145A JP2865831B2 (ja) 1990-08-31 1990-08-31 並列ストリング・サーチ装置

Publications (2)

Publication Number Publication Date
JPH04111064A JPH04111064A (ja) 1992-04-13
JP2865831B2 true JP2865831B2 (ja) 1999-03-08

Family

ID=16871933

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2228145A Expired - Fee Related JP2865831B2 (ja) 1990-08-31 1990-08-31 並列ストリング・サーチ装置

Country Status (1)

Country Link
JP (1) JP2865831B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8423499B2 (en) 2008-07-01 2013-04-16 Fujitsu Limited Search device and search method

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0969113A (ja) * 1995-09-01 1997-03-11 Ricoh Co Ltd 文書管理方式
CN1293502C (zh) * 1999-06-30 2007-01-03 倾向探测公司 用于监控网络流量的方法和设备
JP3723767B2 (ja) * 2001-12-11 2005-12-07 株式会社バイオマティクス 生物学的な配列情報処理方法および装置
DE102013104158A1 (de) * 2013-04-24 2014-11-13 Igor Gunko Verfahren zur Markierung von vorgebbaren Mustern in einer strukturierten Datenmenge
CN113010072A (zh) * 2021-04-27 2021-06-22 维沃移动通信(杭州)有限公司 搜索方法、装置、电子设备及可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
加藤,外6名「全文検索用テキストアーチマシンの開発」電子情報通信学会技術研究報告(DE89−38),Vol.89,No.335,p.17−24,1989(平1−12−14)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8423499B2 (en) 2008-07-01 2013-04-16 Fujitsu Limited Search device and search method

Also Published As

Publication number Publication date
JPH04111064A (ja) 1992-04-13

Similar Documents

Publication Publication Date Title
US11604782B2 (en) Systems and methods for scheduling concurrent summarization of indexed data
US20210042306A1 (en) Querying an archive for a data store
US5060143A (en) System for string searching including parallel comparison of candidate data block-by-block
CN108268596B (zh) 搜索存储在存储器中的数据的方法和系统
JP2865831B2 (ja) 並列ストリング・サーチ装置
US10380111B2 (en) System and method for searching data
WO2005043409A1 (ja) 表形式データの結合方法、結合装置およびプログラム
US11210280B2 (en) Systems and methods for fast bloom filter operations
JP2745710B2 (ja) ストリングサーチ方法およびそのための装置
Lee ALTEP—A cellular processor for high-speed pattern matching
Lee et al. HYTREM-a hybrid text-retrieval machine for large databases
JPH0773187A (ja) 検索システム
Hollaar et al. A specialized architecture for textual information retrieval
Lin Cat: An execution model for concurrent full text search
JPH04257062A (ja) ハッシュキューを用いるデータ処理装置
US20230229657A1 (en) Zero Copy Optimization for SELECT * Queries
JPH0752447B2 (ja) 検索方法及び装置
JP3061486B2 (ja) データソート処理システム
JPH04156624A (ja) 知識ベースシステムにおける高速アクセス方式
JP2835065B2 (ja) 文字列検索方法
JP2943643B2 (ja) 意味関係検索装置
JPH06149635A (ja) レコード追加処理方法
Shaw Relational query processing on the NON-VON supercomputer
WO2014207416A1 (en) Method and system for searching and storing data
JPH01259418A (ja) 文字列検索装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees