JPH04111064A

JPH04111064A - 並列ストリング・サーチ装置

Info

Publication number: JPH04111064A
Application number: JP2228145A
Authority: JP
Inventors: Hidetoshi Ito; 伊東　英俊; Hiroyuki Kitajima; 北嶋　弘行; Masami Enohara; 榎原　正己
Original assignee: Hitachi Ltd; Hitachi Nuclear Engineering Co Ltd
Current assignee: Hitachi Ltd; Hitachi Nuclear Engineering Co Ltd
Priority date: 1990-08-31
Filing date: 1990-08-31
Publication date: 1992-04-13
Anticipated expiration: 2014-03-08
Also published as: JP2865831B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、情報検索システムなどに使用されるストリン
グ・サーチ法、すなわち、入力データ文字列（以下「テ
キスト」という）中に、指定された文字列（「パターン
」、「キーワード」等と呼ばれる）が存在するか否かを
判別するための装置に関する。上記ストリング・サーチ
装置は、近年のデータベースの大規模化及び、文書デー
タの増大により、重要性が増している情報検索に欠かせ
ないものである。

〔従来の技術〕

オフィス°オートメイション化の進行に伴って、文書情
報のデータベース化が急速【こ進んでおり、そのデータ
ベースの規模も大規模化してきてしする。

このような状況の中で、文書情報の高速化が強く望まれ
ている。なかでも、テキストと呼ばれる文字列の中から
、パターンあるいはキーワードと呼ばれる指定された特
定の文字列を探し出すストリング・サーチ処理は、使用
頻度も高く処理負荷も極めて大きいため、その高速化が
特に望まれている。

このようなニーズに応える手段として、ストリング・サ
ーチ方法がいくつか提案されている。これらを大別する
と、セル・アレイ法と表−瞥型の有限オートマトン法お
よび、表−瞥型のスキップ法とに分けられる。セル・ア
レイ法は、複数のセルをアレイ状に直列に接続し、セル
間の状態信号の伝達により、ストリング・サーチを実現
する方式である。表−瞥型の有限オートマトン法は、有
限オートマトンを利用した方法であり、テキストを１文
字ずつ入力しながら、そのつど、状態遷移テーブルを参
照し、有限オートマトンの状態遷移を繰り返しながらパ
ターンの検索を行う方法である。表−瞥型のスキップ法
は、テキストとパターンの一致状態を示す状態遷移テー
ブルと、入力テキスト文字とサーチ状態から、次に入力
すべきテキストまでのオフセットを示すスキップテーブ
ルを用いることで、テキストを飛ばし読みするだけでサ
ーチ処理を終了できる方式である。

これらについては、アイ・イー・イー・イー・トランザ
クションズ　オン　コンピューターズ。

シー２８．（１９７９年）第３８４頁から第３９４頁（
ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　ＣＯＭＰ
ＵＴＥＲ５，Ｖｏ　Ｑ　、　Ｃ−２８、嵐６．　ｐｐ、
３８４−３９４．　ＪＬＩＮＥ　１９７９．）（文献［
１］）やコンピュータ、ボリューム１３゜（１９８０年
）第２６頁から第４０頁（Ｃｏｍｐｕｔｅｒ　。

Ｖｏｎ、１３．　Ｎ（１１，ｐ　ｐ、２６−４０．　Ｊ
ＡＮＵＡＲＹ１９８０、）（文字（２］　）、コンピュ
ータ、ボリューム１２．（１９７９年）第４０頁から第
５０頁（Ｃｏｍｐｕｔｅｒ、ＶｏＱ、１２．　Ｎａ３．
　ｐ　ｐ、４０−５０゜ＭＡＲＣＨ１９７９，）　（文
献（３１）　、コンピュータソフトウェア、ボリューム
４．（１９８７年）第２頁から第２３頁、情報処理学会
筒３５口金国大会予稿集「複数パターンに対する高速ス
トリング・サーチ・アルゴリズムの提案Ｊ　　（１９８
７）、などにおいて論じられている。

〔発明が解決しようとする課題〕

上記従来技術では、いずれもテキストを逐次的に入力す
るか、あるいは、テキストをスキップテーブルに従って
、飛ばし読みしつつ処理するものであり、処理速度は逐
次的に入力する場合、１文字光たりの入出力速度あるい
は、比較速度によって抑えられる。飛ばし読みする場合
にも、上記の処理速度に飛ばし読みの文字数の平均を乗
した値で抑えられる。このため、ある一定値以上の性能
向上は不可能であった。また、データ入出力速度と、比
較速度を比べた場合には、技術的、コスト的要因から比
較速度がボトルネックとなる場合が多く、比較速度の向
上が重要である。

これに対して、本発明の目的は、大量のサーチ対象テキ
ストを多数のテキストに分割し、各々を並列にストリン
グ・サーチ処理することで、ストリング・サーチの並列
処理を実現し、データ入出力が高速化した場合にも、こ
れに追随したストリング・サーチ処理を実現することで
ある。

〔課題を解決するための手段〕

上記目的は、（ａ）テキストｋ、句読点や、単語間のスペースなどの
文法上あるいは構文上の区切り文字または、記号で分割
するテキスト分割装置、または、ある長さ分のテキスト
を重複させて分割するテキスト分割装置と、（ｂ）分割テキストをそれぞれ、並列にサーチする複数
のストリング・サーチ装置。

とを導入することにより達成される。

〔作用〕

上記手段（ａ）によりテキストは複数の分割テキストに
分割され、手段（ｂ）により分割テキストを並列にスト
リング・サーチすることができるので、分割処理に関す
るオーバヘッドが隠せるような、テキスト長が長く、十
分な分割サーチが可能な環境において、検索速度の向上
が達成できる。

〔実施例〕

以下、本発明の詳細な説明する。以下の実施例では、デ
ータ入出力速度に比べて比較速度が遅い場合について説
明する。また、文字のコート長は１バイトと仮定する。

文字コード長が２パイ１〜以上の場合でも、以下の実施
例との差異は、アドレッシングのみであり、容易に推案
ができる。

第１図は、本発明のストリング・サーチ・システムの構
成例である。１は検索すべきテキストを格納する磁気デ
ィスク装置等の記憶装置、２はテキストを一旦蓄える共
有バッファ装置、３は共有バッファ装置の入出力制御装
置、４は共有バッファ上のテキストをある長さの分割テ
キストに分割するためのテキスト分割位置決定装置、４
０〜４ｎはストリング・サーチ装置群、５はテキスト分
割位置決定装置４と、ストリング・サーチ装置群４０〜
４ｎを制御する検索制御装置である。ここで、ストリン
グ・サーチ装置４０〜４ｎとテキスト分割位置決定装置
４は、非同期に動作するものとする。また、説明を簡単
にするために、以下の実施例ではストリング・サーチ装
置は２台とする。３台以上の場合の実施方法は以下の説
明から容易に推案ができる。

ここで、（１）第１の実施例として、テキストを複数の文字列に
分割し、並列にストリング・サーチ処理を実行する装置
に関して説明する。第１図は並列ストリング・サーチ装
置の構成図、第２図は並列ストリング・サーチにおける
データ及び処理の流れを示すタイムチャートである。

ストリング・サーチ装置４０．４１の２台を用い、各装
置間のデータ入出力速度は一定とする。

また、各ストリング・サーチ装置内の検索装置の検索速
度は、データ入出力速度の１／２とする。

ここで、検索装置とは、テキスト中に指定されたキーワ
ードが存在するか否かを判別する装置であり、専用ハー
ドウェアまたは、プロセッサ上で稼動する各種ソフトウ
ェア・アルゴリズムなど、どのような方法で実現してあ
っても構わない。

第２図のタイムチャートの時間軸の単位は、テキストを
複数に分割した際の、１つの分割テキストが各装置間を
移動する時間を１としである。よって各ストリング・サ
ーチ装置における検索処理時間は、１分割テキスト当り
２時刻となる。

また、テキストの分割位置の決定方法に関しては、第２
の実施例以降で説明する。ここでは、任意のサイズに分
割（ｎ個）するものとする。

以下、第１図及び第２図を用いて並列ストリング・サー
チ処理を説明する。

（ａ）記憶装置１から共有バッファ２ヘテキストを転送
する（時刻０〜ｎ）。

（ｂ）共有バッファ上のテキストに対して、テキスト分
割位置決定装置４が、１回目の分割位置決定処理を実施
する（時刻１〜２）。実際にはこの処理において、分割
テキストのサイズが決定するため、各分割テキストのサ
イズは異なるが、ここでは、説明を簡単にするために、
各分割テキストのサイズは全て同じとする。

（ｃ）テキスト分割位置決定装置４は、分割テキストの
先頭及び再後遅アドレスを検索制御装置５に報告する（
時刻２）。

（ｄ）検索制御装置５は、ストリング・サーチ装置４０
に対して、分割テキストの先頭及び再後尾アドレスを伝
えサーチ処理の実行を指定する（時刻２）。

（ｅ）ストリング・サーチ装置４０は、共有バッファ２
からローカルバッファ４０１へ、分割テキスト１を入力
する（時刻２〜３）。

（ｆ）ストリング・サーチ装置４０は、分割テキストに
対するサーチ処理を実行する（時刻３〜５）。

上記処理と並行してストリング・サーチ装置４１に対し
ては、（ｇ）共有バッファ上のテキストに対して、テキスト分
割位置決定装置４が、２回目の分割位置決定処理を実施
する（時刻２〜３）。

（ｈ）テキスト分割位置決定装置４は、分割テキストの
先頭及び再後尾アドレスを検索制御装置５に報告する（
時刻３）。

（ｉ）検索制御装置５は、ストリング・サーチ装置４１
に対して、分割テキストの先頭及び再後遅アドレスを伝
え、サーチ処理の実行を指示する（時刻３）。

（ｊ）ストリング・サーチ装置４１は、共有バッファ２
からローカルバッファ４１１へ、分割テキスト２を入力
する（時刻３〜４）。

（ｋ）ストリング・サーチ装置４１は、分割テキストに
対するサーチ処理を実行する（時刻４〜６）。

これら一連の処理は、パイプライン処理で実現され、時
刻（ｎ＋４）でサーチ処理が終了する。

つまり、データ入出力速度に対して、検索速度が１／２
であるストリング・サーチ装置を２台使用し、データ入
出力時間にほぼ同期したサーチ処理が実現できることが
判る。

次に、テキストの分割位置の決定方法について説明する
。以下の実施例においては、入力テキストをｒＸＹ△Ａ
ＢＣ△ＤＥＦＪの１０文字とし、検索キーワードをｒＡ
ＢｃＪの３文字とした場合の並列処理のためのテキスト
分割処理に関して記述する。「△」はスペースを表すも
のとする。

ここで、第３図に示すように、単純にテキストを先頭か
ら、ストリング・サーチ装置数分に分割（本例では２等
分）した場合には、発見されるべきテキスト中の文字列
ｒＡＢＣＪは、２つのストリング・サーチ装置４０．４
１のそれぞれのサーチ範囲に分断される。このため、ス
トリング・サーチ装置！４０．ストリング・サーチ装置
４１共に、検索キーワードと一致する文字列を発見せず
、検索漏れとなる。これに対し、（２）本発明の第２の実施例においては、句読点や単語
間のスペースなどのテキストの区切りとなる文字を検索
し、その区切り文字を基準としてテキストを分割し、サ
ーチ処理を行なうことで、上記検索漏れを回避する。

第１図に示すテキスト分割位置決定装置４では、第５図
に示すような区切り文字判定テーブル１８０を用い、第
６図に示す分割位置決定処理フローに従ってテキストの
分割位置決定処理を行う。

（ａ）まず、テキスト分割位置決定装置４では、テキス
ト分割アドレスＰＷを計算する（ステップ１１０）。こ
の値はテキスト先頭アドレスＰに、値ＭＢ　（＝テキス
ト長／ストリング・サーチ装置数）を加えた値である。

本例では、テキスト分割アドレスＰＷ＝５となる。

（ｂ）次に、テキスト分割アドレスＰＷが、テキスト終
了アドレスＰＥを超えているか否かの判定を行なう（ス
テップ１２０）。本処理ループ（ステップ１１０〜１５
０）の１回目では、アドレスＰＷがアドレスＰＥを超え
ることはないが、２回目以降の処理ループでは、テキス
ト分割アドレスＰＷがテキスト終了アドレスＰＥを超え
る場合がある。この場合は、アドレスＰ〜アドレスＰＥ
間のテキストを分割テキストとして分割アドレス（Ｐ、
ＰＥ）を検索制御装置５に報告しくステップ１６０）、
テキスト分割処理を終了する。本例では、テキスト分割
アドレスＰＷ＝５．テキスト終了アドレスＰＥ＝９であ
るため、分割処理を終了しない。

（ｃ）次に、区切り文字判定処理（ステップ１３ｏ）を
実行する。この処理は、テキスト分割アドレスＰＷで示
されるテキストｒＣＪをフェッチし、この文字「Ｃ」で
第５図に示す区切り文字判定テーブル］８０を参照し、
区切り文字であるか否かを判定する処理である。ここで
、区切り文字判定テーブル１８０は、入力文字が区切り
文字である場合は、それに対する出力が１゛となり、そ
れ以外の場合は０゛を出力するように作成するテーブル
である。本例では文字「Ｃ」に対する出力結果はｌ　Ｏ
ｌであり、文字ｒＣＪは区切り文字でないことがわかる
。

（ｄ）入力文字が区切り文字でない場合は、テキスト分
割アドレスＰＷをカウントアツプしくステップ１７０）
、ステップ１３０の処理に戻る。

本例では、テキスト分割アドレスＰＷ＝６．入力テキス
ト文字は「△」であり、区切り文字判定テーブル１８０
の参照結果から区切り文字であると判断される。

（ｅ）区切り文字を発見した場合には、アドレスＰ〜ア
ドレス（ＰＷ−１）間のテキス）−ｒＸＹＡＡＢｃＪを
分割テキストとして、分割アドレス（Ｐ。

ＰＷ−１）を検索制御装置５に報告する（ステップ１４
０）。

（ｆ）分割アドレス報告後、テキスト分割位置決定装置
４では、次のテキストの分割処理を行なうため、テキス
ト先頭アドレスＰを更新（Ｐ＝ＰＷ＋ＭＫ）（ステップ
１５０）Ｌ、ステップ１１０の処理に戻る。

これら一連の処理をステップ１２０でテキストの終了を
検出するまで繰り返すことにより、テキストの分割位置
が決定される。また、上記のテキスト分割位置決定処理
と並行して、第２図に示すように、テキスト分割処理及
び分割テキストに対するストリング・サーチ処理を実行
する。

本例では、第４図のようにテキストは「ｘＹΔＡＢＣＪ
と「△ＤＥＦＪの２つに分割され、それぞれストリング
・サーチ装置４０．４１でサーチ処理を実行する。

ストリング・サーチ処理４０ではテキストｒｘｙΔＡ、
ＢＣＪをキーワードｒＡＢｃＪでサーチＬ１、ストリン
グ・サーチ装置４１ではテキスト「△ＤＥＦＪ　をキー
ワード「ＡＢＣ」でサーチする。サーチ結果は、ストリ
ング・サーチ装置４゜において検索キーワードｒＡ　Ｂ
　Ｃ」　と一致する文字列が発見される。これから、検
索漏れが生じない並列サーチ処理が可能なことが分かる
。

（３）本発明の第３の実施例としては、分割テキストを
第７図に示すように、Ｎ文字分重複させて分割すること
で、検索キーワードと一致すべきテキストの部分文字列
が、複数の分割テキストに分断されることを防ぐテキス
ト分割装置を用いる処理について説明する。まず、テキ
ストを重複させる文字数Ｎについて説明する。

第１０図に示すように、テキストを分割点■および■で
分割した場合には、検索キーワードと一致するテキスト
中の文字列ｒＡ　Ｂ　Ｃ」は、右または左側の分割テキ
ストに含まれるため検索漏れは生じない。しかし、テキ
ストを分割点■および■で分割した場合には、検索キー
ワードと一致するテキスト中の文字列ｒＡＢＣＪは、異
なる分割テキストに分断され検索漏れが生じる。分割点
■で分割された場合、検索キーワードと一致する文字列
ｒＡＢｃＪは、左側の分割テキストに２文字「ＡＢ」、
右側の分割テキストに１文字「Ｃ」というように分断さ
れる。そこで、例■′に示すように、右側の分割テキス
トの分割先頭位置を５２文字、つまり、検索キーワード
の長さから１文字分域じた値だけ左側に移動することで
、右側の分割テキスト中に、キーワードと一致する文字
列ｒＡＢｃＪが含まれる形となり検索漏れが防げる。

分割点■についても同様のことが言える。

次に、第７図及び、第８図を用いて、具体的な分割処理
を説明する。ここで１分割テキストを重複させる文字数
を変数Ｎで示す。本実施例では、キーワード長＝３であ
るので、Ｎ＝２となる。

（ａ）まず、テキスト分割アドレスＰｗを計算する（ス
テップ２１０）。この値はテキスト先頭アドレスＰに、
値ＭＢ　（＝テキスト長／テキスト分割数）を加えた値
である。゛本例においては、テキスト分割アドレスＰＷ
＝５となる。

（ｂ）次に、テキスト分割アドレスＰＷが、テキスト終
了アドレスＰＥを超えているか否かの判定を行なう（ス
テップ２２０）。本処理ループ（ステップ２１０〜２４
０）の１回目では、アドレスＰＷがアドレスＰＥを超え
ることはないが、２回目以降の処理ループでは、テキス
ト分割アドレスＰＷがテキスト終了アドレスＰＥを越え
る場合がある、この場合は、アドレスＰ〜アドレスＰＥ
間のテキストを分割テキストとして分割アドレス（Ｐ、
ＰＥ）を検索制御袋Ｗ５に報告しくステップ２６０）、
テキスト分割処理を終了する。本例では、テキスト分割
アドレスＰＷ＝５．テキスト終了アドレスＰＥ＝９であ
るため、分割処理を終了しない。

（ｃ）次に、アドレスＰ〜アドレス（ＰＷ−１）間のテ
キスト「ＸＹ△ＡＢＪを分割テキストとして、分割アド
レス（Ｐ、ＰＷ−１）を検索制御装置５に報告する（ス
テップ２３０）。

（ｄ）テキスト分割位置決定装置は分割アドレス報告後
、次のテキスト分割処理のためにテキスト先頭アドレス
Ｐを更新する（Ｐ＝ＰＷ−Ｎ）（ステップ２４０）。こ
こで、テキスト先頭アドレスＰは、１つ前の分割テキス
トの分割アドレスＰＷから、テキスト重複文字数Ｎを減
じた値であり、本例ではＰ＝３となる。

これら一連の処理をステップ２２０でテキストの終了を
検出するまで繰り返すことにより、テキストの分割位置
が決定される。また、上記のテキスト分割位置決定処理
と並行して、第２図に示すように、テキスト分割処理及
び分割テキストに対するストリング・サーチ処理を実行
する。

本例では、テキストはｒＸＹ△ＡＢＪとｒＡＢＣ△ＤＥ
ＦＪの２つの分割テキストに分割され、それぞれのスト
リング・サーチ装置４０゜４１で処理される。

ストリング・サーチ装置４０では、テキスト「ＸＹΔＡ
ＢＪをキーワードｒＡＢｃＪでサーチし、ストリング・
サーチ装置４１では、テキストｒＡＢＣΔＥＤＦ１をキ
ーワードｒＡＢｃｌでサーチする。サーチ結果は、スト
リング・サーチ装置４１において検索キーワード「ＡＢ
Ｃ」と一致する文字列が発見させる。これから、検索漏
れが生じない並列サーチ処理が可能なことが分かる。

ここで、複数キーワードの検索が指定されている場合、
例えば、第１１図に示すように検索キーワードがｒＡ」
とｒＡＢＣＪの２つであった場合（「Ａ」をキーワード
１．ｒＡＢｃＪ　をキーワード２と呼ぶ）は、サーチ装
置４０でキーワード１の「Ａ」が、サーチ装置４１では
キーワード１のｒＡＪ　とキーワード２のｒＡＢＣＪが
ヒツトとなり、キーワード１のｒＡＪ　が重複してヒツ
トすることになる。

このため、第１２図に示すように、ヒツトしたキーワー
ドとテキスト中の一致文字列の先頭アドレスを、各スト
リング・サーチ装置の検索結果情報として検索制御装置
５に報告する。検索制御装置５では、連続する分割テキ
ストを処理したストリング・サーチ装置の検索結果情報
を比較し、同一キーワードが同一アドレスで複数個ヒツ
トしているかどうかの重複ヒツト判定を行ない、重複ヒ
ツトである場合は、一方のヒツト情報を削除する。

（４）本発明の第４の実施例として、前記第２の実施例
と第３の実施例とを組合せたテキスト分割処理について
説明する。これは、テキスト中に区切り文字が存在しな
いか、または、ごく僅かの区切り文字しか存在していな
い場合にテキスト分割処理の負荷が増大することを防ぐ
処理である。

第９図に本実施例の処理フローを示す。本実施例は、基
本的には第２の実施例に示す区切り文字を用いた分割方
式であり、異なる点は、区切り文字の判定のために、テ
キストをサーチする際に、最長キーワード長から１減じ
た値Ｎ以上に、テキスト分割処理を繰り返すことを防ぐ
ものである。

具体的には、（ａ）テキスト中から、第５図に示すような区切り文字
判定テーブルを用いて、区切り文字をサーチする処理（
ステップ３４０）において、（ｂ）テキスト分割アドレ
スＰｗで示すテキスト文字が区切り文字であった場合は
、ステップ３３２でテキスト分割アドレス（Ｐ、ＰＷ−
１）を検索制御装置５に報告する。区切り文字でなかっ
た場合には、テキスト分割アドレスをカウントアツプし
処理を続行する。この際、始めに設定したキーワード分
割アドレスＰＷから、何文字離れているかを表す変数Ｂ
Ｐをカウントアツプする（ステップ３５０）。

（Ｃ）変数ＢＰの値が、最長キーワード長から１減した
値Ｎより小さい場合はステップ３４０に戻り、区切り文
字サーチ処理を続行する。また、ＢＰ＝Ｎとなった場合
は、テキスト重複フラグを立て、テキスト先頭アドレス
Ｐに変数ＭＢを加えた値を、テキスト分割アドレスＰＷ
とする（ステップ３７０）。ここで、テキスト重複フラ
グとは、テキストを重複して分割した場合に、それを検
索制御装置５に報告する手段として用いるものであり、
重複しているテキストに対してはフラグを立てた状態で
検索制御袋Ｍ５に報告し、重複が無い場合にはフラグを
立てない状態で検索制御装置５に報告するものである。

（ｄ）アドレスＰ〜アドレス（ＰＷ−１）間のテキスト
・を分割テキストとして分割アドレス（Ｐ。

ＰＷ−１）を検索制御袋Ｗ５に報告する。同時に、テキ
スト重複フラグも報告する（ステップ３３１）。

（ｅ）次のテキスト分割処理のために、テキスト先頭ア
ドレスＰの更新（Ｐ＝ＰＷ−ＢＰ）　、テキスト重複フ
ラグＯＦＦ、変数ＢＰ＝Ｏの設定を実行（ステップ３８
０）Ｌ、ステップ３２０に戻る。

これら一連の処理をステップ３２０でテキストの終了を
検出するまで繰り返すことにより、テキストの分割位置
が決定される。また、上記のテキスト分割位置決定処理
と並行して、第２図に示すように、テキスト分割処理及
び分割テキストに対するストリング・サーチ処理を実行
する。

ところで、分割テキストは、区切り文字で分割されたテ
キストと、分割テキストの前後で重複があるテキストと
が混在することとなる。これは、前記第３の実施例で示
した、キーワードの重複ヒツトの可能性のある分割テキ
ストとそうでない分割テキストとが混在する結果となる
。このため、テキスト検索制御装置５では、テキスト重
複フラグの０Ｎ１０ＦＦから、キーワードの重複ヒツト
判定を行なうか否かを判断し、検索誤りおよび、無駄な
重複ヒツト判定処理を防ぐ。

上記処理により、テキスト中に区切り文字が存在しなＮ
）か、または、ごく僅かの区切り文字しか存在していな
い場合でも、低負荷な分割処理が可能となる。

〔発明の効果〕

本発明によれば、テキストの多数の分割テキストに分割
し、複数台のストリング・サーチ装置を用いて、並列に
ストリング・サーチを実行することが可能となるので、
テキストを分割せずに処理する従来方式に比べ、最大で
ストリング・サーチ装置台数倍に近い高速化が図れる。

【図面の簡単な説明】

第１図は本発明のストリング・サーチ装置の構成例を示
すブロック図、第２図は本発明の並列ストリング・サー
チ処理のタイムチャート、第３図はテキスト分割及びサ
ーチ処理の失敗例の説明図、第４図は本発明の第２の実
施例の説明図、第５図は第２の実施例における区切り文
字判定テーブルを示す図、第６図は第２の実施例の処理
フロー図、第７図、第１０図、第１１図および第１２図
は第３の実施例の説明図、第８図は第３の実施例の処理
フロー図、第９図は第４の実施例の処理フロー図である
。１・・・記憶装置、２・・・共有バッファ、３・・・共
有バッファ制御装置、４・・・テキスト分割位置決定装
置、５・・・検索制御装置、４０〜４ｎ・・・ストリン
グ・サーチ装置、４００〜４ｎＯ・・・入出力制御装置
、４０１〜４ｎｌ・・・ローカルバッファ、４０２〜４
ｎ２・・・検索装置、１８０・・・区切り文字判定テー
某区引・猶葉茅凶第図図狛　／θ　図（ｂ）六−ワード　　［づ丁ｉ＝丁二冨］］７９１１Ｖ
’＋　４５’ｌ　（Ｄ　Ｍ　　［習］逼；］■＝丁←コ
耳］＝］マヲ；二［］セ「１二″″″　　　　　　　　
　　　　　　　　　　　　　　　　　　−八／　ヒラＦ
””　　■５　　　３　　ア＞ヒ、ｙｃ（°）　”ｊ″
″。】ヨ■■［）日■玉ヨ１−目→［〒ｅ　　［＝丁づ
［）Ｊ）＝■■璽ニア　、ｂｙ）（Ｉｌ）（Ｃン口コ　　ヒ・ソ’ｈ＜べベプＡスト

Claims

【特許請求の範囲】１、ある長さのコードで表現される文字によって構成さ
れる被検索文字列であるテキスト中に、指定された検索
対象文字列であるキーワードが存在するか否かを判定す
るストリング・サーチ装置において、（ａ）テキストを複数の文字列に分割する手段と、（ｂ）分割された複数の文字列を各々サーチ対象とする
複数のストリング・サーチ手段とを有することを特徴と
する並列ストリング・サーチ装置。２、句読点や単語間のスペース等の、文字列の区切りと
なる文字を登録してテーブルを参照し、テキストの分割
位置を決定する手段を有することを特徴とする特許請求
の範囲第１項記載の並列ストリング・サーチ装置。３、句読点やスペース等の文字列の区切りとなる文字と
、テキスト中の文字を逐次比較し、テキストの分割位置
を決定する手段を有することを特徴とする特許請求の範
囲第１項記載の並列ストリング・サーチ装置。４、キーワード中の、最長の文字列長から１文字分の長
さを減じた文字数以上を重複させて、テキストの分割処
理を実行する手段を有することを特徴とする特許請求の
範囲第１項記載の並列ストリング・サーチ装置。５、特許請求の範囲第１項記載のストリング・サーチ装
置において、テキストの先頭から、ストリング・サーチ
手段で処理可能な最大文字数分離れた位置から文字列の
分離位置を決定する処理を開始する手段を有することを
特徴とする並列ストリング・サーチ装置。６、特許請求の範囲第１項記載のストリング・サーチ装
置において、テキストの先頭から、文字列をストリング
・サーチ手段数分に分割する場合の分割位置から文字列
の分割位置を決定する処理を開始する手段を有すること
を特徴とする並列ストリング・サーチ装置。７、特許請求の範囲第１項記載のストリング・サーチ装
置において、複数のキーワード間の関係を定義する条件
検索を可能とするため、テキスト中でサーチ条件と一致
した文字列の位置と、一致したキーワードとを特定でき
るサーチ結果情報を作成し、サーチ結果情報を突き合わ
せを行う手段を有することを特徴とする並列ストリング
・サーチ装置。