JPH04111064A - 並列ストリング・サーチ装置 - Google Patents

並列ストリング・サーチ装置

Info

Publication number
JPH04111064A
JPH04111064A JP2228145A JP22814590A JPH04111064A JP H04111064 A JPH04111064 A JP H04111064A JP 2228145 A JP2228145 A JP 2228145A JP 22814590 A JP22814590 A JP 22814590A JP H04111064 A JPH04111064 A JP H04111064A
Authority
JP
Japan
Prior art keywords
text
search
string
string search
divided
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2228145A
Other languages
English (en)
Other versions
JP2865831B2 (ja
Inventor
Hidetoshi Ito
伊東 英俊
Hiroyuki Kitajima
北嶋 弘行
Masami Enohara
榎原 正己
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Hitachi Nuclear Engineering Co Ltd
Original Assignee
Hitachi Ltd
Hitachi Nuclear Engineering Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd, Hitachi Nuclear Engineering Co Ltd filed Critical Hitachi Ltd
Priority to JP2228145A priority Critical patent/JP2865831B2/ja
Publication of JPH04111064A publication Critical patent/JPH04111064A/ja
Application granted granted Critical
Publication of JP2865831B2 publication Critical patent/JP2865831B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、情報検索システムなどに使用されるストリン
グ・サーチ法、すなわち、入力データ文字列(以下「テ
キスト」という)中に、指定された文字列(「パターン
」、「キーワード」等と呼ばれる)が存在するか否かを
判別するための装置に関する。上記ストリング・サーチ
装置は、近年のデータベースの大規模化及び、文書デー
タの増大により、重要性が増している情報検索に欠かせ
ないものである。
〔従来の技術〕
オフィス°オートメイション化の進行に伴って、文書情
報のデータベース化が急速【こ進んでおり、そのデータ
ベースの規模も大規模化してきてしする。
このような状況の中で、文書情報の高速化が強く望まれ
ている。なかでも、テキストと呼ばれる文字列の中から
、パターンあるいはキーワードと呼ばれる指定された特
定の文字列を探し出すストリング・サーチ処理は、使用
頻度も高く処理負荷も極めて大きいため、その高速化が
特に望まれている。
このようなニーズに応える手段として、ストリング・サ
ーチ方法がいくつか提案されている。これらを大別する
と、セル・アレイ法と表−瞥型の有限オートマトン法お
よび、表−瞥型のスキップ法とに分けられる。セル・ア
レイ法は、複数のセルをアレイ状に直列に接続し、セル
間の状態信号の伝達により、ストリング・サーチを実現
する方式である。表−瞥型の有限オートマトン法は、有
限オートマトンを利用した方法であり、テキストを1文
字ずつ入力しながら、そのつど、状態遷移テーブルを参
照し、有限オートマトンの状態遷移を繰り返しながらパ
ターンの検索を行う方法である。表−瞥型のスキップ法
は、テキストとパターンの一致状態を示す状態遷移テー
ブルと、入力テキスト文字とサーチ状態から、次に入力
すべきテキストまでのオフセットを示すスキップテーブ
ルを用いることで、テキストを飛ばし読みするだけでサ
ーチ処理を終了できる方式である。
これらについては、アイ・イー・イー・イー・トランザ
クションズ オン コンピューターズ。
シー28.(1979年)第384頁から第394頁(
IEEE Transactions on COMP
UTER5,Vo Q 、 C−28、嵐6. pp、
384−394. JLINE 1979.)(文献[
1])やコンピュータ、ボリューム13゜(1980年
)第26頁から第40頁(Computer 。
Von、13. N(11,p p、26−40. J
ANUARY1980、)(文字(2] )、コンピュ
ータ、ボリューム12.(1979年)第40頁から第
50頁(Computer、VoQ、12. Na3.
 p p、40−50゜MARCH1979,) (文
献(31) 、コンピュータソフトウェア、ボリューム
4.(1987年)第2頁から第23頁、情報処理学会
筒35口金国大会予稿集「複数パターンに対する高速ス
トリング・サーチ・アルゴリズムの提案J  (198
7)、などにおいて論じられている。
〔発明が解決しようとする課題〕
上記従来技術では、いずれもテキストを逐次的に入力す
るか、あるいは、テキストをスキップテーブルに従って
、飛ばし読みしつつ処理するものであり、処理速度は逐
次的に入力する場合、1文字光たりの入出力速度あるい
は、比較速度によって抑えられる。飛ばし読みする場合
にも、上記の処理速度に飛ばし読みの文字数の平均を乗
した値で抑えられる。このため、ある一定値以上の性能
向上は不可能であった。また、データ入出力速度と、比
較速度を比べた場合には、技術的、コスト的要因から比
較速度がボトルネックとなる場合が多く、比較速度の向
上が重要である。
これに対して、本発明の目的は、大量のサーチ対象テキ
ストを多数のテキストに分割し、各々を並列にストリン
グ・サーチ処理することで、ストリング・サーチの並列
処理を実現し、データ入出力が高速化した場合にも、こ
れに追随したストリング・サーチ処理を実現することで
ある。
〔課題を解決するための手段〕
上記目的は、 (a)テキストk、句読点や、単語間のスペースなどの
文法上あるいは構文上の区切り文字または、記号で分割
するテキスト分割装置、または、ある長さ分のテキスト
を重複させて分割するテキスト分割装置と、 (b)分割テキストをそれぞれ、並列にサーチする複数
のストリング・サーチ装置。
とを導入することにより達成される。
〔作用〕
上記手段(a)によりテキストは複数の分割テキストに
分割され、手段(b)により分割テキストを並列にスト
リング・サーチすることができるので、分割処理に関す
るオーバヘッドが隠せるような、テキスト長が長く、十
分な分割サーチが可能な環境において、検索速度の向上
が達成できる。
〔実施例〕
以下、本発明の詳細な説明する。以下の実施例では、デ
ータ入出力速度に比べて比較速度が遅い場合について説
明する。また、文字のコート長は1バイトと仮定する。
文字コード長が2パイ1〜以上の場合でも、以下の実施
例との差異は、アドレッシングのみであり、容易に推案
ができる。
第1図は、本発明のストリング・サーチ・システムの構
成例である。1は検索すべきテキストを格納する磁気デ
ィスク装置等の記憶装置、2はテキストを一旦蓄える共
有バッファ装置、3は共有バッファ装置の入出力制御装
置、4は共有バッファ上のテキストをある長さの分割テ
キストに分割するためのテキスト分割位置決定装置、4
0〜4nはストリング・サーチ装置群、5はテキスト分
割位置決定装置4と、ストリング・サーチ装置群40〜
4nを制御する検索制御装置である。ここで、ストリン
グ・サーチ装置40〜4nとテキスト分割位置決定装置
4は、非同期に動作するものとする。また、説明を簡単
にするために、以下の実施例ではストリング・サーチ装
置は2台とする。3台以上の場合の実施方法は以下の説
明から容易に推案ができる。
ここで、 (1)第1の実施例として、テキストを複数の文字列に
分割し、並列にストリング・サーチ処理を実行する装置
に関して説明する。第1図は並列ストリング・サーチ装
置の構成図、第2図は並列ストリング・サーチにおける
データ及び処理の流れを示すタイムチャートである。
ストリング・サーチ装置40.41の2台を用い、各装
置間のデータ入出力速度は一定とする。
また、各ストリング・サーチ装置内の検索装置の検索速
度は、データ入出力速度の1/2とする。
ここで、検索装置とは、テキスト中に指定されたキーワ
ードが存在するか否かを判別する装置であり、専用ハー
ドウェアまたは、プロセッサ上で稼動する各種ソフトウ
ェア・アルゴリズムなど、どのような方法で実現してあ
っても構わない。
第2図のタイムチャートの時間軸の単位は、テキストを
複数に分割した際の、1つの分割テキストが各装置間を
移動する時間を1としである。よって各ストリング・サ
ーチ装置における検索処理時間は、1分割テキスト当り
2時刻となる。
また、テキストの分割位置の決定方法に関しては、第2
の実施例以降で説明する。ここでは、任意のサイズに分
割(n個)するものとする。
以下、第1図及び第2図を用いて並列ストリング・サー
チ処理を説明する。
(a)記憶装置1から共有バッファ2ヘテキストを転送
する(時刻0〜n)。
(b)共有バッファ上のテキストに対して、テキスト分
割位置決定装置4が、1回目の分割位置決定処理を実施
する(時刻1〜2)。実際にはこの処理において、分割
テキストのサイズが決定するため、各分割テキストのサ
イズは異なるが、ここでは、説明を簡単にするために、
各分割テキストのサイズは全て同じとする。
(c)テキスト分割位置決定装置4は、分割テキストの
先頭及び再後遅アドレスを検索制御装置5に報告する(
時刻2)。
(d)検索制御装置5は、ストリング・サーチ装置40
に対して、分割テキストの先頭及び再後尾アドレスを伝
えサーチ処理の実行を指定する(時刻2)。
(e)ストリング・サーチ装置40は、共有バッファ2
からローカルバッファ401へ、分割テキスト1を入力
する(時刻2〜3)。
(f)ストリング・サーチ装置40は、分割テキストに
対するサーチ処理を実行する(時刻3〜5)。
上記処理と並行してストリング・サーチ装置41に対し
ては、 (g)共有バッファ上のテキストに対して、テキスト分
割位置決定装置4が、2回目の分割位置決定処理を実施
する(時刻2〜3)。
(h)テキスト分割位置決定装置4は、分割テキストの
先頭及び再後尾アドレスを検索制御装置5に報告する(
時刻3)。
(i)検索制御装置5は、ストリング・サーチ装置41
に対して、分割テキストの先頭及び再後遅アドレスを伝
え、サーチ処理の実行を指示する(時刻3)。
(j)ストリング・サーチ装置41は、共有バッファ2
からローカルバッファ411へ、分割テキスト2を入力
する(時刻3〜4)。
(k)ストリング・サーチ装置41は、分割テキストに
対するサーチ処理を実行する(時刻4〜6)。
これら一連の処理は、パイプライン処理で実現され、時
刻(n+4)でサーチ処理が終了する。
つまり、データ入出力速度に対して、検索速度が1/2
であるストリング・サーチ装置を2台使用し、データ入
出力時間にほぼ同期したサーチ処理が実現できることが
判る。
次に、テキストの分割位置の決定方法について説明する
。以下の実施例においては、入力テキストをrXY△A
BC△DEFJの10文字とし、検索キーワードをrA
BcJの3文字とした場合の並列処理のためのテキスト
分割処理に関して記述する。「△」はスペースを表すも
のとする。
ここで、第3図に示すように、単純にテキストを先頭か
ら、ストリング・サーチ装置数分に分割(本例では2等
分)した場合には、発見されるべきテキスト中の文字列
rABCJは、2つのストリング・サーチ装置40.4
1のそれぞれのサーチ範囲に分断される。このため、ス
トリング・サーチ装置!40.ストリング・サーチ装置
41共に、検索キーワードと一致する文字列を発見せず
、検索漏れとなる。これに対し、 (2)本発明の第2の実施例においては、句読点や単語
間のスペースなどのテキストの区切りとなる文字を検索
し、その区切り文字を基準としてテキストを分割し、サ
ーチ処理を行なうことで、上記検索漏れを回避する。
第1図に示すテキスト分割位置決定装置4では、第5図
に示すような区切り文字判定テーブル180を用い、第
6図に示す分割位置決定処理フローに従ってテキストの
分割位置決定処理を行う。
(a)まず、テキスト分割位置決定装置4では、テキス
ト分割アドレスPWを計算する(ステップ110)。こ
の値はテキスト先頭アドレスPに、値MB (=テキス
ト長/ストリング・サーチ装置数)を加えた値である。
本例では、テキスト分割アドレスPW=5となる。
(b)次に、テキスト分割アドレスPWが、テキスト終
了アドレスPEを超えているか否かの判定を行なう(ス
テップ120)。本処理ループ(ステップ110〜15
0)の1回目では、アドレスPWがアドレスPEを超え
ることはないが、2回目以降の処理ループでは、テキス
ト分割アドレスPWがテキスト終了アドレスPEを超え
る場合がある。この場合は、アドレスP〜アドレスPE
間のテキストを分割テキストとして分割アドレス(P、
PE)を検索制御装置5に報告しくステップ160)、
テキスト分割処理を終了する。本例では、テキスト分割
アドレスPW=5.テキスト終了アドレスPE=9であ
るため、分割処理を終了しない。
(c)次に、区切り文字判定処理(ステップ13o)を
実行する。この処理は、テキスト分割アドレスPWで示
されるテキストrCJをフェッチし、この文字「C」で
第5図に示す区切り文字判定テーブル]80を参照し、
区切り文字であるか否かを判定する処理である。ここで
、区切り文字判定テーブル180は、入力文字が区切り
文字である場合は、それに対する出力が1゛となり、そ
れ以外の場合は0゛を出力するように作成するテーブル
である。本例では文字「C」に対する出力結果はl O
lであり、文字rCJは区切り文字でないことがわかる
(d)入力文字が区切り文字でない場合は、テキスト分
割アドレスPWをカウントアツプしくステップ170)
、ステップ130の処理に戻る。
本例では、テキスト分割アドレスPW=6.入力テキス
ト文字は「△」であり、区切り文字判定テーブル180
の参照結果から区切り文字であると判断される。
(e)区切り文字を発見した場合には、アドレスP〜ア
ドレス(PW−1)間のテキス)−rXYAABcJを
分割テキストとして、分割アドレス(P。
PW−1)を検索制御装置5に報告する(ステップ14
0)。
(f)分割アドレス報告後、テキスト分割位置決定装置
4では、次のテキストの分割処理を行なうため、テキス
ト先頭アドレスPを更新(P=PW+MK)(ステップ
150)L、ステップ110の処理に戻る。
これら一連の処理をステップ120でテキストの終了を
検出するまで繰り返すことにより、テキストの分割位置
が決定される。また、上記のテキスト分割位置決定処理
と並行して、第2図に示すように、テキスト分割処理及
び分割テキストに対するストリング・サーチ処理を実行
する。
本例では、第4図のようにテキストは「xYΔABCJ
と「△DEFJの2つに分割され、それぞれストリング
・サーチ装置40.41でサーチ処理を実行する。
ストリング・サーチ処理40ではテキストrxyΔA、
BCJをキーワードrABcJでサーチL1、ストリン
グ・サーチ装置41ではテキスト「△DEFJ をキー
ワード「ABC」でサーチする。サーチ結果は、ストリ
ング・サーチ装置4゜において検索キーワードrA B
 C」 と一致する文字列が発見される。これから、検
索漏れが生じない並列サーチ処理が可能なことが分かる
(3)本発明の第3の実施例としては、分割テキストを
第7図に示すように、N文字分重複させて分割すること
で、検索キーワードと一致すべきテキストの部分文字列
が、複数の分割テキストに分断されることを防ぐテキス
ト分割装置を用いる処理について説明する。まず、テキ
ストを重複させる文字数Nについて説明する。
第10図に示すように、テキストを分割点■および■で
分割した場合には、検索キーワードと一致するテキスト
中の文字列rA B C」は、右または左側の分割テキ
ストに含まれるため検索漏れは生じない。しかし、テキ
ストを分割点■および■で分割した場合には、検索キー
ワードと一致するテキスト中の文字列rABCJは、異
なる分割テキストに分断され検索漏れが生じる。分割点
■で分割された場合、検索キーワードと一致する文字列
rABcJは、左側の分割テキストに2文字「AB」、
右側の分割テキストに1文字「C」というように分断さ
れる。そこで、例■′に示すように、右側の分割テキス
トの分割先頭位置を52文字、つまり、検索キーワード
の長さから1文字分域じた値だけ左側に移動することで
、右側の分割テキスト中に、キーワードと一致する文字
列rABcJが含まれる形となり検索漏れが防げる。
分割点■についても同様のことが言える。
次に、第7図及び、第8図を用いて、具体的な分割処理
を説明する。ここで1分割テキストを重複させる文字数
を変数Nで示す。本実施例では、キーワード長=3であ
るので、N=2となる。
(a)まず、テキスト分割アドレスPwを計算する(ス
テップ210)。この値はテキスト先頭アドレスPに、
値MB (=テキスト長/テキスト分割数)を加えた値
である。゛本例においては、テキスト分割アドレスPW
=5となる。
(b)次に、テキスト分割アドレスPWが、テキスト終
了アドレスPEを超えているか否かの判定を行なう(ス
テップ220)。本処理ループ(ステップ210〜24
0)の1回目では、アドレスPWがアドレスPEを超え
ることはないが、2回目以降の処理ループでは、テキス
ト分割アドレスPWがテキスト終了アドレスPEを越え
る場合がある、この場合は、アドレスP〜アドレスPE
間のテキストを分割テキストとして分割アドレス(P、
PE)を検索制御袋W5に報告しくステップ260)、
テキスト分割処理を終了する。本例では、テキスト分割
アドレスPW=5.テキスト終了アドレスPE=9であ
るため、分割処理を終了しない。
(c)次に、アドレスP〜アドレス(PW−1)間のテ
キスト「XY△ABJを分割テキストとして、分割アド
レス(P、PW−1)を検索制御装置5に報告する(ス
テップ230)。
(d)テキスト分割位置決定装置は分割アドレス報告後
、次のテキスト分割処理のためにテキスト先頭アドレス
Pを更新する(P=PW−N)(ステップ240)。こ
こで、テキスト先頭アドレスPは、1つ前の分割テキス
トの分割アドレスPWから、テキスト重複文字数Nを減
じた値であり、本例ではP=3となる。
これら一連の処理をステップ220でテキストの終了を
検出するまで繰り返すことにより、テキストの分割位置
が決定される。また、上記のテキスト分割位置決定処理
と並行して、第2図に示すように、テキスト分割処理及
び分割テキストに対するストリング・サーチ処理を実行
する。
本例では、テキストはrXY△ABJとrABC△DE
FJの2つの分割テキストに分割され、それぞれのスト
リング・サーチ装置40゜41で処理される。
ストリング・サーチ装置40では、テキスト「XYΔA
BJをキーワードrABcJでサーチし、ストリング・
サーチ装置41では、テキストrABCΔEDF1をキ
ーワードrABclでサーチする。サーチ結果は、スト
リング・サーチ装置41において検索キーワード「AB
C」と一致する文字列が発見させる。これから、検索漏
れが生じない並列サーチ処理が可能なことが分かる。
ここで、複数キーワードの検索が指定されている場合、
例えば、第11図に示すように検索キーワードがrA」
とrABCJの2つであった場合(「A」をキーワード
1.rABcJ をキーワード2と呼ぶ)は、サーチ装
置40でキーワード1の「A」が、サーチ装置41では
キーワード1のrAJ とキーワード2のrABCJが
ヒツトとなり、キーワード1のrAJ が重複してヒツ
トすることになる。
このため、第12図に示すように、ヒツトしたキーワー
ドとテキスト中の一致文字列の先頭アドレスを、各スト
リング・サーチ装置の検索結果情報として検索制御装置
5に報告する。検索制御装置5では、連続する分割テキ
ストを処理したストリング・サーチ装置の検索結果情報
を比較し、同一キーワードが同一アドレスで複数個ヒツ
トしているかどうかの重複ヒツト判定を行ない、重複ヒ
ツトである場合は、一方のヒツト情報を削除する。
(4)本発明の第4の実施例として、前記第2の実施例
と第3の実施例とを組合せたテキスト分割処理について
説明する。これは、テキスト中に区切り文字が存在しな
いか、または、ごく僅かの区切り文字しか存在していな
い場合にテキスト分割処理の負荷が増大することを防ぐ
処理である。
第9図に本実施例の処理フローを示す。本実施例は、基
本的には第2の実施例に示す区切り文字を用いた分割方
式であり、異なる点は、区切り文字の判定のために、テ
キストをサーチする際に、最長キーワード長から1減じ
た値N以上に、テキスト分割処理を繰り返すことを防ぐ
ものである。
具体的には、 (a)テキスト中から、第5図に示すような区切り文字
判定テーブルを用いて、区切り文字をサーチする処理(
ステップ340)において、(b)テキスト分割アドレ
スPwで示すテキスト文字が区切り文字であった場合は
、ステップ332でテキスト分割アドレス(P、PW−
1)を検索制御装置5に報告する。区切り文字でなかっ
た場合には、テキスト分割アドレスをカウントアツプし
処理を続行する。この際、始めに設定したキーワード分
割アドレスPWから、何文字離れているかを表す変数B
Pをカウントアツプする(ステップ350)。
(C)変数BPの値が、最長キーワード長から1減した
値Nより小さい場合はステップ340に戻り、区切り文
字サーチ処理を続行する。また、BP=Nとなった場合
は、テキスト重複フラグを立て、テキスト先頭アドレス
Pに変数MBを加えた値を、テキスト分割アドレスPW
とする(ステップ370)。ここで、テキスト重複フラ
グとは、テキストを重複して分割した場合に、それを検
索制御装置5に報告する手段として用いるものであり、
重複しているテキストに対してはフラグを立てた状態で
検索制御袋M5に報告し、重複が無い場合にはフラグを
立てない状態で検索制御装置5に報告するものである。
(d)アドレスP〜アドレス(PW−1)間のテキスト
・を分割テキストとして分割アドレス(P。
PW−1)を検索制御袋W5に報告する。同時に、テキ
スト重複フラグも報告する(ステップ331)。
(e)次のテキスト分割処理のために、テキスト先頭ア
ドレスPの更新(P=PW−BP) 、テキスト重複フ
ラグOFF、変数BP=Oの設定を実行(ステップ38
0)L、ステップ320に戻る。
これら一連の処理をステップ320でテキストの終了を
検出するまで繰り返すことにより、テキストの分割位置
が決定される。また、上記のテキスト分割位置決定処理
と並行して、第2図に示すように、テキスト分割処理及
び分割テキストに対するストリング・サーチ処理を実行
する。
ところで、分割テキストは、区切り文字で分割されたテ
キストと、分割テキストの前後で重複があるテキストと
が混在することとなる。これは、前記第3の実施例で示
した、キーワードの重複ヒツトの可能性のある分割テキ
ストとそうでない分割テキストとが混在する結果となる
。このため、テキスト検索制御装置5では、テキスト重
複フラグの0N10FFから、キーワードの重複ヒツト
判定を行なうか否かを判断し、検索誤りおよび、無駄な
重複ヒツト判定処理を防ぐ。
上記処理により、テキスト中に区切り文字が存在しなN
)か、または、ごく僅かの区切り文字しか存在していな
い場合でも、低負荷な分割処理が可能となる。
〔発明の効果〕
本発明によれば、テキストの多数の分割テキストに分割
し、複数台のストリング・サーチ装置を用いて、並列に
ストリング・サーチを実行することが可能となるので、
テキストを分割せずに処理する従来方式に比べ、最大で
ストリング・サーチ装置台数倍に近い高速化が図れる。
【図面の簡単な説明】
第1図は本発明のストリング・サーチ装置の構成例を示
すブロック図、第2図は本発明の並列ストリング・サー
チ処理のタイムチャート、第3図はテキスト分割及びサ
ーチ処理の失敗例の説明図、第4図は本発明の第2の実
施例の説明図、第5図は第2の実施例における区切り文
字判定テーブルを示す図、第6図は第2の実施例の処理
フロー図、第7図、第10図、第11図および第12図
は第3の実施例の説明図、第8図は第3の実施例の処理
フロー図、第9図は第4の実施例の処理フロー図である
。 1・・・記憶装置、2・・・共有バッファ、3・・・共
有バッファ制御装置、4・・・テキスト分割位置決定装
置、5・・・検索制御装置、40〜4n・・・ストリン
グ・サーチ装置、400〜4nO・・・入出力制御装置
、401〜4nl・・・ローカルバッファ、402〜4
n2・・・検索装置、180・・・区切り文字判定テー
某 区 引・ 猶 葉 茅 凶 第 図 図 狛 /θ 図 (b)六−ワード  [づ丁i=丁二冨]]7911V
’+ 45’l (D M  [習]逼;]■=丁←コ
耳]=]マヲ;二[]セ「1二″″″        
                  −八/ ヒラF
””  ■5   3  ア>ヒ、yc(°) ”j″
″。】ヨ■■[)日■玉ヨ1−目→[〒e  [=丁づ
[)J)=■■璽ニア 、by)(Il) (Cン 口コ  ヒ・ソ’h<べベプAスト

Claims (1)

  1. 【特許請求の範囲】 1、ある長さのコードで表現される文字によって構成さ
    れる被検索文字列であるテキスト中に、指定された検索
    対象文字列であるキーワードが存在するか否かを判定す
    るストリング・サーチ装置において、 (a)テキストを複数の文字列に分割する手段と、 (b)分割された複数の文字列を各々サーチ対象とする
    複数のストリング・サーチ手段とを有することを特徴と
    する並列ストリング・サーチ装置。 2、句読点や単語間のスペース等の、文字列の区切りと
    なる文字を登録してテーブルを参照し、テキストの分割
    位置を決定する手段を有することを特徴とする特許請求
    の範囲第1項記載の並列ストリング・サーチ装置。 3、句読点やスペース等の文字列の区切りとなる文字と
    、テキスト中の文字を逐次比較し、テキストの分割位置
    を決定する手段を有することを特徴とする特許請求の範
    囲第1項記載の並列ストリング・サーチ装置。 4、キーワード中の、最長の文字列長から1文字分の長
    さを減じた文字数以上を重複させて、テキストの分割処
    理を実行する手段を有することを特徴とする特許請求の
    範囲第1項記載の並列ストリング・サーチ装置。 5、特許請求の範囲第1項記載のストリング・サーチ装
    置において、テキストの先頭から、ストリング・サーチ
    手段で処理可能な最大文字数分離れた位置から文字列の
    分離位置を決定する処理を開始する手段を有することを
    特徴とする並列ストリング・サーチ装置。 6、特許請求の範囲第1項記載のストリング・サーチ装
    置において、テキストの先頭から、文字列をストリング
    ・サーチ手段数分に分割する場合の分割位置から文字列
    の分割位置を決定する処理を開始する手段を有すること
    を特徴とする並列ストリング・サーチ装置。 7、特許請求の範囲第1項記載のストリング・サーチ装
    置において、複数のキーワード間の関係を定義する条件
    検索を可能とするため、テキスト中でサーチ条件と一致
    した文字列の位置と、一致したキーワードとを特定でき
    るサーチ結果情報を作成し、サーチ結果情報を突き合わ
    せを行う手段を有することを特徴とする並列ストリング
    ・サーチ装置。
JP2228145A 1990-08-31 1990-08-31 並列ストリング・サーチ装置 Expired - Fee Related JP2865831B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2228145A JP2865831B2 (ja) 1990-08-31 1990-08-31 並列ストリング・サーチ装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2228145A JP2865831B2 (ja) 1990-08-31 1990-08-31 並列ストリング・サーチ装置

Publications (2)

Publication Number Publication Date
JPH04111064A true JPH04111064A (ja) 1992-04-13
JP2865831B2 JP2865831B2 (ja) 1999-03-08

Family

ID=16871933

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2228145A Expired - Fee Related JP2865831B2 (ja) 1990-08-31 1990-08-31 並列ストリング・サーチ装置

Country Status (1)

Country Link
JP (1) JP2865831B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0969113A (ja) * 1995-09-01 1997-03-11 Ricoh Co Ltd 文書管理方式
WO2003054744A1 (fr) * 2001-12-11 2003-07-03 Biomatics Inc. Procede et dispositif pour traiter une information de sequence biologique
JP2011010341A (ja) * 1999-06-30 2011-01-13 Apptitude Acquisition Corp ネットワークにおけるトラフィックを監視する方法および装置
US8423499B2 (en) 2008-07-01 2013-04-16 Fujitsu Limited Search device and search method
EP2797012A3 (de) * 2013-04-24 2015-01-07 Igor Gunko Verfahren zur Markierung von vorgebbaren Mustern in einer strukturierten Datenmenge
CN113010072A (zh) * 2021-04-27 2021-06-22 维沃移动通信(杭州)有限公司 搜索方法、装置、电子设备及可读存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0969113A (ja) * 1995-09-01 1997-03-11 Ricoh Co Ltd 文書管理方式
JP2011010341A (ja) * 1999-06-30 2011-01-13 Apptitude Acquisition Corp ネットワークにおけるトラフィックを監視する方法および装置
WO2003054744A1 (fr) * 2001-12-11 2003-07-03 Biomatics Inc. Procede et dispositif pour traiter une information de sequence biologique
US8423499B2 (en) 2008-07-01 2013-04-16 Fujitsu Limited Search device and search method
EP2797012A3 (de) * 2013-04-24 2015-01-07 Igor Gunko Verfahren zur Markierung von vorgebbaren Mustern in einer strukturierten Datenmenge
CN113010072A (zh) * 2021-04-27 2021-06-22 维沃移动通信(杭州)有限公司 搜索方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
JP2865831B2 (ja) 1999-03-08

Similar Documents

Publication Publication Date Title
US10817569B2 (en) Methods and devices for saving and/or restoring a state of a pattern-recognition processor
US8719206B2 (en) Pattern-recognition processor with matching-data reporting module
US7680852B2 (en) Search processing method and search system
US7098815B1 (en) Method and apparatus for efficient compression
CN108268596B (zh) 搜索存储在存储器中的数据的方法和系统
JPH04111064A (ja) 並列ストリング・サーチ装置
US10380111B2 (en) System and method for searching data
CN115982311B (zh) 一种链表的生成方法、装置、终端设备及存储介质
Burkowski A hardware hashing scheme in the design of a multiterm string comparator
JPS61210478A (ja) ベクトル処理装置
Sanders Fast priority queues for parallel branch-and-bound
JP2005242672A (ja) パターンマッチング装置および方法ならびにプログラム
Lee ALTEP—A cellular processor for high-speed pattern matching
JP2745710B2 (ja) ストリングサーチ方法およびそのための装置
Lee et al. Text retrieval machines
Chen et al. An improved hash-based join algorithm in the presence of double skew on a hypercube computer
Hollaar A list merging processor for inverted file information retrieval systems.
ZhanPeng et al. Dictionary matching: Review of the Aho-Corasick algorithm and vision for large dictionaries
Berkovich et al. A bit‐counting algorithm using the frequency division principle
CN113535710B (zh) 一种搜索方法、装置、终端设备及存储介质
JPS59229659A (ja) デ−タ処理方式
JP2895892B2 (ja) データ処理装置
JPS63271525A (ja) デ−タ処理装置
JP3075543B2 (ja) 走査演算を実行する伝搬ユニットがツリー構成で配列される走査演算装置
CN116860798A (zh) 数据查询方法、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees