JPH0415751A

JPH0415751A - 文字列検索装置

Info

Publication number: JPH0415751A
Application number: JP2112849A
Authority: JP
Inventors: Koji Tomimitsu; 康治冨滿
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1990-04-28
Filing date: 1990-04-28
Publication date: 1992-01-21

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野］本発明は、外部から入力された文字列と予め登録された
文字列との一致を検出する文字列検索装置に関し、特に
ＬＳＩ化された文字列検索装置に関する。

［従来の技術］文書作成装置及び文書ファイリングシステム等では、文
字列を高速検索するためのＬＳＩが使用されている。第
５図は、従来のこの種の文字列検索装置の構成を示すブ
ロック図である。

入力文字列はシフトレジスタ２１に入力される。

また、検査対象文字列レジスタ２３には、予め検査対象
文字列が登録されている。シフトレジスタ２１からの入
力文字列と、検査対象文字列レジスタ２３からの検査対
象文字列とは、比較一致回路２２で比較されるようにな
っている。そして、これらの比較一致回路２２の出力が
論理和回路２４で論理和され、論理和回路２４から一致
検出信号が出力されるようになっている。

［発明が解決しようとする課題］しかしながら、上述した従来の文字列検索装置では、検
査対象文字列を格納するための検査対象文字列レジスタ
が必要であるため、多くの検査対象文字列を登録しよう
とすると、ハードウェア規模が増大し、コスト的に実現
不可能になるという問題点がある。

また、これを回避するため検査対象文字列レジスタをメ
モリ構成とすると、検索対象文字列の読み出しがシーケ
ンシャルにしか行なえないため、検索に時間がかかると
いう問題点がある。また、特殊なメモリを使用すること
により高速検索が可能であるが、この場合には、やはり
コストが高くなってしまうという問題点がある。

本発明は、かかる問題点に鑑みてなされたものであって
、従来の装置よりもより多くの検索対象文字列を登録す
ることができ、高速検索が可能で、しかも低コストの文
字列検索装置を提供することを目的とする。

［課題を解決するための手段］本発明に係る文字列検索装置は、検索対象文字列を登録
する第１の領域、前記検索対象文字列のコードの加算値
から求められる剰余値で示される位置に前記検索対象文
字列の第１の領域における格納位置を示すポインタを登
録する第２の領域、前記検索対象文字列の文字数を登録
する第３の領域及び前記検索対象文字列の先頭の文字の
コードから求められる剰余値で示される位置にその文字
列の文字数の前記第３の領域における格納位置を示すポ
インタを登録する第４の領域からなる記憶手段と、入力
文字列を格納する文字列格納手段と、この手段に格納さ
れた前記入力文字列の先頭文字の剰余値を算出する手段
と、この手段で得られた剰余値で前記記憶手段の第４の
領域へアクセスする手段と、この手段によって前記第４
の領域から得られた前記第３の領域へのポインタで前記
記憶手段の第３の領域にアクセスする手段と、この手段
によって前記第３の領域から得られた文字列数の文字列
を前記文字列格納手段から切り出す手段と、この手段で
切り出された文字列を加算すると共にその剰余値を算出
する手段と、この手段で算出された剰余値で前記記憶手
段の第２の領域へアクセスする手段と、この手段によっ
て前記第２の領域から得られた前記第１の領域へのポイ
ンタで前記記憶手段の第１の領域へアクセスする手段と
、この手段によって前記第１の領域から得られた検索対
象文字列と前記入力文字列から切り出された文字列とを
比較して一致した場合には一致検出信号を出力する手段
とを有することを特徴とする。

［作用コ本発明では、入力文字列が入力されると、その先頭文字
の剰余値によって前記記憶手段の第４の領域へのアクセ
スが行なわれ、この第４の領域から得られた前記第３の
領域へのポインタで前記記憶手段の第３の領域へのアク
セスが行なわれる。

そして、前記第３の領域から得られた文字列数の文字列
に基づいて、入力文字列から所定文字数の文字列が切り
出され、この切り出された文字列の加算・剰余結果によ
って前記記憶手段の第２の領域へのアクセスが行なわれ
る。そして、前記第２の領域から得られた前記第１の領
域へのポインタで前記記憶手段の第１の領域へのアクセ
スが行なわれることにより登録された検索対象文字列を
読み出すことができる。これにより、読み出された検索
対象文字列と前記入力文字列から切りだされた文字列と
が比較され、一致した場合には一致検出信号が出力され
る。

このように、本発明においては、先ず、入力文字列の先
頭文字による検索が行なわれ、続いてその先頭文字を使
用した検索対象文字列の文字数で入力文字が切りだされ
て検索対象文字列と比較される。そして、前記先頭文字
及び文字列の検索は、その文字又は文字列の加算値の剰
余値によって特定されるポインタから、限定された対象
についてだけ行なわれるから、記憶手段として通常のメ
モリを使用した場合でも、検索時間を大幅に削減するこ
とができる。

従って、本発明によれば、記憶手段として汎用の安価な
メモリを使用することができ、コストダウンが図れると
共に、メモリを使用することにより、従来よりも多くの
検索対象文字列を登録することができ、しかも高速検索
処理が可能である。

［実施例コ以下、添付の図面を参照しながら、本発明の実施例につ
いて説明する。

第１図は本発明の第１の実施例に係る文字列検索用ＬＳ
Ｉのブロック図である。

入力文字列はシフトレジスタ１に格納されるようになっ
ている。シフトレジスタ１に格納された文字列は、文字
数レジスタ３に格納された文字数に基づいてゲート２に
よって所定文字数だけ切りだされる。切りだされた文字
列は、加算回路４で加算され、剰余算回路５で剰余算さ
れ、切替回路６に入力されている。また、切替回路６に
は、記憶回路９のアドレスをインクリメントするインク
リメント回路７の出力と、記憶回路９から読み出された
データ格納する出力レジスタ１０の出力とが入力されて
いる。切替回路６は、これらの入力を切替えて、アドレ
スレジスタ８に出力する。アドレスレジスタ８は、格納
されたデータをアドレスとして記憶手段９からデータを
読み出す。記憶手段９は、例えば汎用のＲＡＭ、ＲＯＭ
等から構成されており、後述する４つの記憶領域に分割
されている。記憶回路９から読み出されたデータは、出
力レジスタ１０に格納されるようになっている。

出力レジスタ１０の出力は、終了コード検出回路１１、
切替回路６、文字数レジスタ３及び検索対象文字列用の
シフトレジスタ１３に供給されている。シフトレジスタ
１，１３の出力は、比較一致回路１４に入力され、ここ
で比較されるようになっている。そして、この比較一致
回路１４の出力が一致検出信号として出力されている。

なお、制御回路１２は、これら各部の動作を制御するも
のである。

第２図は、記憶回路９の内容を示す模式図である。

記憶回路９は、４つの領域Ａ　＋　＋　Ａ２　＋　Ａ３
　＋Ａ４に分割されている。第１の領域Ａ１には検索対
象文字列とその長さとを登録する。第２の領域Ａ２には
、前記検索対象文字列のコードの加算値から求められる
剰余値で示される位置に前記検索対象文字列の領域Ａ１
における格納位置を示すポインタを登録する。第３の領
域Ａ３には、前記検索対象文字列の文字数を登録する。

第４の領域Ａ４には、前記検索対象文字列の先頭の文字
のコードから求められる剰余値で示される位置にその文
字列の文字数の領域Ａ３における格納位置を示すポイン
タを登録する。

次に、このように構成された文字列検索装置の動作につ
いて説明する。

先ず、この装置に検索動作をさせるためには、検索対象
文字列を記憶回路９に登録する必要がある。この検索対
象文字列の登録は、記憶回路９にアクセス可能な外部の
プロセッサ又はメインのプロセッサによって行なう。登
録に先立ち、記憶回路９の領域Ａ２．Ａ４には全て終了
コードを記憶しておく。終了コードは便宜上Ｏとしてお
く。

また、これらの領域Ａ２．Ａ４に領域ＡＩ＋Ａ３へのポ
インタを設け、これを１にする。１にするのは、終了コ
ードＯと区別するためである。

従って、領域ＡユｌＡ３の０番地は使用しない。

ここで、例えば“特許゛という文字列を登録する場合に
ついて説明する。即ち、゛特°′のＪＩＳコードは１６
進で“４６４３　”であり、パ許“は“３５７６”であ
る。これを加算すると７ＢＢ９”になる。次に、この加
算結果の剰余値を求める。ここで、除数に任意の自然数
を選択すると、除算回路が必要になるが、２Ｔ′を除算
に選ぶようにすれば、剰余演算は下位ｎビットをとるだ
けでよいので、回路構成が簡単になる。また、除数を登
録できる文字列数に対して近い値に選ぶと、剰余値が重
なるケースが増えるので、検索スピードに影響を与える
。従って、登録文字列の最大値に対し、２倍以上の値を
とるのが好ましい。従って、ここでは、登録文字列の最
大を１にワードとして、除数を２に＝２”に設定する。

この場合、剰余演算は加算結果の下位１１ビツトをとれ
ばよいので、前述の例では、剰余値が“３Ｂ９”となる
。従って、第２図中Ｐで示す領域Ａ２の“３Ｂ９”番地
に領域Ａ、へのポインタ“Ｍ”を登録する。

次に、領域Ａ１のポインタ“Ｍ”で示された位置に“特
許パの文字数“２”“特許°′の文字、文字列終了コー
ド“０″、次の文字列へのポインタ（この段階では終了
コード）を、夫々領域Ａ１のポインタを順次インクリメ
ントしながら記憶していく。

続いて、“特”という先頭文字と文字列の長さとを領域
Ａ３．Ａ４に登録する。このとき、１６ビツトコードそ
のものを登録すると、２′６の容量の記憶回路が必要に
なるので、領域Ａ、、Ａ２と同様に２に＝２”で割った
剰余をとるものとする。

従って、′特”は領域Ａ４の“６４３”′番地（第２図
中Ｔで示す位置）に対応する。従って、この番地に領域
Ａ３へのポインタ“Ｒ”を記憶する。

次に、領域Ａ３のＲ番地に“特許”という文字列の文字
数“２”及び次の文字列数へのポインタ（この段階では
終了コード）を、領域Ａ３のポインタを順次インクリメ
ントしながら記憶していく。

この動作を順次繰り返すことにより、文字列の登録を行
なうことができるが、２回目以降は、文字列及び先頭文
字の剰余値が既に登録されている場合があるので、登録
されているか否かの判断が必要である。

いま、′技術部”′という文字列を登録するとし、この
文字列の剰余値が“特許”の剰余値と一致したとする。

この場合、その剰余値で領域Ａ２のデータを読みにいく
と、既に“Ｍ”が登録されており、終了コードでないた
め、その“Ｍ”の値を使用して領域Ａ１を読み、その文
字列の次の文字列へのポインタが終了コードになるまで
これを繰り返す。第２図の例では、′特許”で終了して
いるので、次へのポインタの終了コードを現在保持して
いる領域Ａ１のポインタＮに置き換え、Ｎ番地に“技術
部”の登録を行なう。

領域Ａ３　、Ａ４の登録も同様に行なう。これにより、
領域Ａ３のポインタ“Ｒ”で示す文字列数のデータ“２
”の次のポインタの値が“Ｑ　ＩＩに置き換えられる。

しかし、文字列数の登録の場合には、登録文字列を順に
サーチして、登録しようとしている文字列数が既に存在
している場合には、そこでその文字列数の登録は中止さ
れ、次の文字列の処理に移る。

次に、検索文字列を登録した後の文字列検索について説
明する。

第３図に文字列検索処理のフローチャート図を示す。

初めに、検索対象の文章をシフトレジスタ１に入力する
（Ｓｌ）。制御回路１２により、ゲート２を操作して、
先頭の文字を切り出し、この文字を加算回路４、剰余算
回路５及び切替回路６を介してアドレスレジスタ８に格
納する。

次に、記憶回路９の領域Ａ４にアクセスして、アドレス
レジスタ８に格納されたアドレスのデータを読み出し、
これを出力レジスタ１０に格納する（Ｓ２）。出力レジ
スタ１０に格納されたデータが終了コード検出回路１１
で終了コードと判断された場合には（Ｓ３）、制御回路
１２はゲート２を操作して次の文字の読取りを行なう。

出力レジスタ１０に格納されたデータが終了コードでな
い場合には（Ｓ３）、そのデータを切替回路６を介して
アドレスレジスタ８に送り、領域Ａ３がらその先頭文字
を使用している文字列の長さを得る（Ｓ４．Ｓ５）。そ
して、これを文字数レジスタ３へ送り、ゲート２をその
文字数分たけ開いてその文字列をシフトレジスタ１から
抜き出す。

この文字列は、加算回路４で加算された後、剰余算回路
５で剰余算結果に変換されて（ｓ６）、アドレスレジス
タ８に格納される。これにより、文字列の加算値の剰余
値で記憶回路９の領域Ａ２へのアクセスが行なわれ（Ｓ
７）、の読み出し結果が出力レジスタ１０に格納される
。

ここで、出力データが終了コード検出回路１１によって
終了コードと判定された場合には、領域Ａ３をアクセス
して別の文字数の文字列が存在するかどうかを検索しく
８．６）、存在した場合、文字数レジスタ３へ出力して
、再度領域Ａ２へのアクセスを行なう（８５〜Ｓａ）こ
れを文字数が存在する限り繰り返す。

一方、領域Ａ２をアクセスした結果が終了コードでなか
った場合には、これをアドレスレジスタ８に戻し、領域
Ａ１にアクセスしくＳ９．Ｓ、。）、領域Ａ３から得ら
れた文字数と領域Ａ１に登録されている文字数とを比較
して（Ｓ、、）、一致すれば領域ＡＩの次のアドレスに
登録されている文字列をンフ）・レジスタ１３へ格納す
る（Ｓ、□）。そして、これを比較一致回路１４で入力
文字列と比較しくＳ、３）、一致した場合には、一致信
号を出力する（　Ｓ　、４）。また、一致しない場合に
は、順次領域Ａ工をアクセスして次の文字列が存在すれ
ば（Ｓ　１５）　、同様の比較処理を行なう。

このように、本実施例の文字列検索回路によれば、汎用
のＲＡＭを使用することができ、従来の文字列検索用Ｌ
ＳＩに比べ、より多くの検索文字列を登録することがで
き、しかも安価に構成することができる。また、この回
路によれば、登録文字列を順次読み出すのではなく、一
定条件を満足した登録文字列とのみ比較する方式である
ため、メモリを使用した方式であっても高速検索が可能
である等の効果を奏する。

第２図は本発明の第２の実施例に係る文字列検索装置の
構成を示すブロック図である。

この実施例が第１図に示した第１の実施例と異なる点は
、ゲート２と加算回路４との間に乗算回路１５が介挿さ
れている点にある。その他の構成は第１図と同一である
ため、詳しい説明は省略する。

即ち、例えば“主動作′°と゛主作動”とを登録した場
合、文字列の加算値の剰余値及び文字数が同一であるた
め、最後の文字列比較まで両者を判別することはできな
い。この場合、最後の文字列比較まで処理が進み、その
時点でようやく不一致が判別される。

そこで、乗算回路１５により、各文字の位置に合わせて
適当な定数を乗算することで、両文字列の先頭文字だけ
でなく、その中間文字等によって検索を行なうようにし
ている。このとき、乗算回路１５は、任意の自然数を乗
算するものであると、ハードウェアの規模が大きくなる
。従って　２　ｍ（ｍは自然数）を乗算する。このよう
にすれば、単に文字コードをＭＳＢ側にシフトするたけ
でよく、ハードウェア量が大幅に増えることはない。

［発明の効果］以上述べたように、本発明によれば、記憶手段に登録さ
れた検索対象文字列の検索を、その文字又は文字列の加
算値の剰余値によって特定されるポインタから、限定さ
れた対象についてたけ行なうようにしているので、記憶
手段として通常のメモリを使用した場合でも、高速検索
が可能になる。

従って、本発明によれば、記憶手段として汎用の安価な
メモリを使用することができるので、低コストでしかも
従来の装置よりもより多くの検索対象文字列を登録する
ことができ、高速検索が可能である等の効果を奏するこ
とができる。

【図面の簡単な説明】

第１図は本発明の第１の実施例に係る文字列検索装置の
ブロック図、第２図は同装置における記憶回路の記憶領
域を示す模式図、第３図は同装置による文字列検索動作
のフローチャート図、第４図は本発明の第２の実施例に
係る文字列検索装置のブロック図、第５図は従来の文字
列検索装置のブロック図である。１．１３；シフトレジスタ、２；ゲート、３；文字数レ
ジスタ、４；加算回路、５；剰余算回路、６；切替回路
、７；インクリメント回路、８；アドレスレジスタ、９
；記憶回路、１０；出力レジスタ、１１；終了フード検
出回路、１２；制御回路、１４；比較一致回路、１５；
乗算回路第３図第４図

Claims

【特許請求の範囲】

（１）検索対象文字列を登録する第１の領域、前記検索
対象文字列のコードの加算値から求められる剰余値で示
される位置に前記検索対象文字列の第１の領域における
格納位置を示すポインタを登録する第２の領域、前記検
索対象文字列の文字数を登録する第３の領域及び前記検
索対象文字列の先頭の文字のコードから求められる剰余
値で示される位置にその文字列の文字数の前記第３の領
域における格納位置を示すポインタを登録する第４の領
域からなる記憶手段と、入力文字列を格納する文字列格
納手段と、この手段に格納された前記入力文字列の先頭
文字の剰余値を算出する手段と、この手段で得られた剰
余値で前記記憶手段の第４の領域へアクセスする手段と
、この手段によって前記第４の領域から得られた前記第
３の領域へのポインタで前記記憶手段の第３の領域にア
クセスする手段と、この手段によって前記第３の領域か
ら得られた文字列数の文字列を前記文字列格納手段から
切り出す手段と、この手段で切り出された文字列を加算
すると共にその剰余値を算出する手段と、この手段で算
出された剰余値で前記記憶手段の第２の領域へアクセス
する手段と、この手段によって前記第２の領域から得ら
れた前記第１の領域へのポインタで前記記憶手段の第１
の領域へアクセスする手段と、この手段によって前記第
１の領域から得られた検索対象文字列と前記入力文字列
から切り出された文字列とを比較して一致した場合には
一致検出信号を出力する手段とを有することを特徴とす
る文字列検索装置。