JPH01297724A - 学習型文字列検索装置と同装置の制御方式 - Google Patents

学習型文字列検索装置と同装置の制御方式

Info

Publication number
JPH01297724A
JPH01297724A JP63128849A JP12884988A JPH01297724A JP H01297724 A JPH01297724 A JP H01297724A JP 63128849 A JP63128849 A JP 63128849A JP 12884988 A JP12884988 A JP 12884988A JP H01297724 A JPH01297724 A JP H01297724A
Authority
JP
Japan
Prior art keywords
search
string
character string
text
storage means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63128849A
Other languages
English (en)
Other versions
JP2718062B2 (ja
Inventor
Tsunesuke Takahashi
恒介 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP63128849A priority Critical patent/JP2718062B2/ja
Publication of JPH01297724A publication Critical patent/JPH01297724A/ja
Application granted granted Critical
Publication of JP2718062B2 publication Critical patent/JP2718062B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は特許や学術文献などのテキスト情報の内容検索
を能率よく高速に処理する事ができる文字列検索装置に
関するものである。
(従来の技術) 特許や学術文献などのテキスト情報はOA(オフィス・
オートメーション)41器の技術の進歩に合わせて増加
の一途にある。それらは再利用されるために次々と大容
量化するファイルメモリに貯えられて行く。しかし、そ
れらの内容を高速に検索1〜で、必要な情報をとり出せ
るようにするファイル情報のデータベース化は余り進ま
ない。すなわち、ファイル情報の各レコードにその内容
にマツチしたキーワードを付加し、且つ、キーワード検
索を高速化できるようなキーワードの並べ替えをする作
業が人手に頼っていて、容易に達成されないからである
。また、内容がマツチしていても、検索の時に使うキー
ワードがレコードに付加するキーワードと一致しない用
語のばらつきの問題もあるからである。
したがって、キーワードを付加したり、並べ替えたりの
作業なしで、ファイルメモリの中のテキスト情報を高速
に検索できないがと、リアルタイムな文字列検索の色々
な技法が研究されていた。
一般に、文字列検索装置はキーワードとして与えられる
検索文字列がテキスト情報のどこに含まれるかを探り出
す機能を持ったものである。この機能を実現するために
は、テキスト情報の中の各文字列を複数個の検索文字列
と一斉に比較照合する文字列照合手段が必須となる。
そこで、本願の発明者等は任意長さの文字列を複数個記
憶する連想メモリ部と入力文字列の各文字に対する連想
メモリ部の文字比較結果を並列に受付けて、入力文字列
と記憶文字列間の文字の並び(順序)の比較を行なう順
序ロジック部とで文字列照合を可能とする構成記号列識
別装置の発明について特許出願を行った。名称が異なる
が、以」二の装置が文字列検索装置の基本要素となる。
(特開昭60−211539号(特願昭59−0684
95号)、特開昭61−253536号(特願昭60−
96213号)など)このような文字列検索装置は検索
したいキーワード(検索文字列)を登録した後、被検索
テキスト文字列を入力すると、テキスト文字列が検索文
字列のいずれかに一致した時にマツチ信号を発生し、テ
キス)・文字列のどの部分がとの検索文字列にマツチし
たかを出力する。したがって、キーワードのついていな
いテキスト文字列情報の全文検索(フルテキストサーチ
)が可能である。
すなわち、ファイル記憶されるテキスト文字列情報にキ
ーワードを付加するなどの煩雑な作業を伴わないで、フ
ァイル情報をデータベース化できる。
しかしなから、全文検索方式による情報検索はキーワー
ドを付加したテキスト文字列情報のキーワード部分のみ
の検索で検索条件にマツチしたテギスト文字列情報のフ
ァイル格納位置をみつけ出すインデスク検索方式に比べ
てはるかに長い検索時間を必要とする。というのは、文
字列照合速度がたとえ毎秒1000万字に及んでも、テ
キスト文字列情報の長さが一例として、10億字(1ギ
ガバイト)になると、検索時間は全文をサーチするかぎ
り、100秒に及んでしまう。1組のキーワード(検索
文字列)での検索だけでも、検索の都度100秒もかか
ると、多くの検索要求を次々と受けることができなくな
る。
(発明が解決しようとする課題) 従来の文字列検索装置の検索条件に含まれる、キーワー
ド(検索文字列)を文字列照合手段に登録し、そこにテ
キスト情報を入力し、テキスト情報のどの部分(レコー
ド)がどのキーワ下ドを含んでいたかを見つけ、その後
、検索条件式に合ったレコードを決定する。検索条件式
に合っているか否かはイツト・シェア(プログラム)に
よって決められる。このために、大量のテキスト情報の
サーチは全文検索方式に従って行うと、検索時間が長す
ぎて、実用にならなかった。
この検索時間が長ずぎるために、−度のテキスト情報の
サーチに際して、多数の検索要求に含まれるキーワード
を文字列照合手段G;登録でおく事も考えられたが、テ
キスト情報のどのレコードがどのキーワードを含んだと
いう照合結果情報を複数の検索条件式に照らし合わせる
作業が並列に進まないと、検索終了までのレスポンス時
間が更に長くなるだけであった。すなわち、相異なる検
索条件の検索要求が到着する時に、ソフトウェアの力を
借りないと、そらを順次に高速に処理し、マツチしたレ
コードアドレスを短時間に出力できないという問題があ
った。
本発明の目的は全文検索方式での上記問題を解決する文
字列検索技術を提供することにある。もう少し具体的に
は、検索条件に含まれるキーワードの中で、過去の検索
に使われた事のあるものがあればそれらが新しい検索条
件式を満足するかをソフトウェアの助けを借りずに直ち
に判定し、検索条件に合ったレコードアドレスを出力し
、使わ杵た事のないキーワードが与えられた時にのみ、
テキスト情報全文をサーチするようにして平均の検索時
間を短縮できるようにする学習型文字列検索技術を提供
する事にある。
(課題を解決するだめの手段) したがって、本発明は、複数検索文字列を記憶し、入力
文字列が複数検索文字列のいずれに一致するかを判別す
る文字列照合手段と、どのテキストレコーがどの検索文
字列を含むかを記憶し、前記文字列照合手段の判別する
文字列のクラスコードによってアクセス番地の決まる第
1記憶手段と、入力文字列間の検索条件論理に従って第
1記憶手段の出力の論理処理を行う検索条件照合手段と
、これにつながるエンコード手段と、照合のあった文字
列を含むテキストレコードの格納番地を記憶し、エンコ
ード手段の出力によってアクセス番地の決まる第2記憶
手段と、検索文字列照合手段の入力文字列として検索文
字列かテキスト文字列を選択するスイッチ手段とを備え
る事を特徴ケする学習型文字列検索装置と、 複数検索文字列を、記憶し、入力文字列が複数検索文字
列のいずれに一致するかを判別する文字列照合手段と、
どのテキストレコーがどの検索文字列を含むかを記憶し
、前記文字列照合手段の判別する文字列のクラスコード
によってアクセス番地の決まる第1煕憶手段と、入力文
字列間の検索条件論理に従って第1記憶手段の出力の論
理処理を行う検索条件照合手段と、これにつながり、検
索条件を満足するテキストレコードを指定するエンコー
ド手段と、前記テキストレコードの実際の格納番地を記
憶し、前記エンコード手段の出力によってアクセス番地
の決まる第2記憶手段と、前記文字列照合手段の入力文
字列として検索文字列かテキスト文字列を選択するスイ
ッチ手段とを備えた学習型文字列検索装置の制御方式で
あって、前記文字列照合手段と第1及び第2記憶手段に
それぞれ過去の検索文字列、文字列照合結果とテキスト
コレコードの格納番地を初期設定するイニシャライズモ
ード、新検索文字列の中に検索文字列に一致しない検索
文字列のあった時に、その検索文字列を文字列照合手段
に追加登録する検索文字列登録モードと、文字列照合手
段にテキスト文字列を入力し、検索文字列を含んだテキ
ストレコードをマークして第1記憶手段及び第2記憶手
段に書き込むテキスト文字列検索モードと、検索条件論
理と検索文字列を検索条件照合手段と文字列照合手段に
入力し、前記文字列照合手段の出力によってアクセス番
地の決まる記憶手段の出力を検索条件照合手段で処理す
る検索条件照合モードと、その結果を用いて第2記憶手
段から検索条件にマツチしたテキストレコードの格納番
地を出力する検索結果出力モードとを備え、検索文字列
照合モードで全所検索文字列と過去の検索文字列とのマ
ツチがあった時は、検索条件照合モードと検索結果出力
モードに移って、マツチしたテキストレコード格納番地
を出力するように制御し、検索文字列照合モードでマツ
チのない時は、追加登録モードに移ってミスマツチ文字
列を文字列照合手段に登録し、その後、テキスト文字列
検索モードに移って検索結果を第1記憶手段と第2記憶
手段に書き込み、その後、検索条件照合モードを経て、
検索結果出力モードでマツチしたテキストレコードの格
納番地を出力するように制御する事を特徴とする学習型
文字列検索装置の制御方式である。
(作用) 本発明によると、検索文字列を、検索の都度、登録し直
すのでなく、追加登録し、テキスト情報全文のサーチに
よって得た検索結果を検索文字列毎に記憶する学習型文
字列検索装置で、検索条件式の違いによる検索のやり直
しをなくせるので検索時間が短縮でき、その結果とし毎
分当たりの検索サービス要求(トランザクション)の受
付回数が増えるという効果が期待される。
検索の都度検索条件を設定し直す従来方式では、たとえ
ば、テキスト情報全文のサーチ時間が1分に及ぶと、毎
分1回の検索要求しか受付けれない。本発明の学習型文
字列検索方式では、過去の検索要求に対する全文サーチ
の結果を貯えているために、はとんどの場合、テキスト
情報全文のサーチをしないで新しい検索要求に列する検
索結果を直ちに出力できるようになる。はとんどの場合
に検索時間が1m5ec以下に減る。検索結果を直ちに
出力できない検索要求の来た時にのみ、検索文字列を追
加登録してテキスト情報全文サーチを行い、その結果を
記憶された検索結果データに加えるので、その時だけは
検索時間が長いが、長期には、次第に、新検索要求に対
する全文サーチの必要回数が減少する。1/10以下に
減れば、その分だけ、毎分の検索要求受側は回数が10
倍以上に増える事になる。
(実施例) 第1図は本発明の一実施例であり、基本構成図でもある
。文字列照合手段110がスイッチ手段120を介して
入力される検索文字列121を記憶し、次に、テキスト
ファイル装置130から来るテキスト文字列122を受
付け、記憶した検索文字列121に等しい文字列を含む
レコードが来た時にマツチ信号を出力すると共に、検索
文字列の識別コードも出力する。
第1記憶手段140は文字列照合手段110の出力する
識別コードによって番地が指定され、マツチ信号によっ
てアクセスされる。各番地の複数ビットのメモリはマツ
チしたレコードのどれがその番地に対応したキーワード
を含んだか否かのマークビットを貯えているものとする
。すなわち、i番地のマツチしたレコードに対応して、
i番目のビット位置のマークビットが1+111なら、
そのレコードがi番地に対応したキーワードを含み、+
1011なら含んでいない事を示す。
検索条件照合手段150は、文字列照合手段110の出
力する識別コードによってアクセス番地の決まる第1記
憶手段140から読み出されるマークビットデータを、
順次に入力端子151から与えられる論理条件に従って
処理する部分である。
エンコーダ160は検索条件照合手段150の出力の中
の゛J″位置を符号化する部分である。flll+の発
生位置が複数個に及ぶ場合に、番号の低い方から順に符
号化するには、エンコーダ160にプライオリティ・エ
ンコード機能を持たせる必要があるが、それはエンコー
ダ160にマンチェスター・チエイン回路を付加するだ
けで実現できる。
第2記憶手段170はマツチしたレコードのファイル装
置130での格納番地を記憶する部分である。当然、エ
ンコーダ160の出力によってアクセス番地が決まり、
マツチしたレコードが複数個の場合にはテキスト情報の
始めの方のレコードの格納番地から順に出力される。
このような構成を採用する事によって、新検索文字列を
文字列照合手段110に登録し、その後でテキスト情報
を入力して、文字列照合結果の第1記憶手段140への
一時記憶が可能になるのは当然であるが、スイッチ手段
120を切り替える事で新検索文字列と文字列照合手段
110の中の旧検索文字列との照合も可能になる。旧検
索文字列に対するテキスト情報の検索結果を第1と第2
の記憶手段140,170に記憶しておく事により、新
検索文字列がすべて旧検索文字列に一致するならば、テ
キスト情報全文のサーチを行わず、検索のための条件論
理を検索条件照合手段150に入力するだけでマツチレ
コードの格納番地を出力できるようになる。新検索文字
列が旧検索文字列に一致しない時にのみ、新検索文字列
を文字列照合手段110に追加登録し、テキスト情報全
文のサーチを行なう事が可能である。故に、検索サービ
スをすればする程、文字列照合手段110への旧検索文
字列の登録数が増え、はとんどの新検索文字列が旧検索
文字列に一致するようになる。このために、テキスト情
報全文サーチを行ずにマツチレコードを出力できるよう
になり、性能が上がる。この事が学習効果を示す。
この事から、本発明が学習型文字列検索装置と呼ばれる
第2図は第1記憶手段、検索条件照合手段と第2記憶手
段の一実施例を示すと共に、第1記憶手段と第2記憶手
段の記憶内容の一例を示している。第1図と同じ番号の
ものは第1図と同じ名称のものとする。
第1記憶手段140のXアドレスレコーダ141には入
力端子119を通して文字列照合手段110の出力する
検索文字列の識別コードが入力され、Yアドレスデコー
ダ142にはアドレスカウンタ143が接続されている
。テキスト情報の全文サーチが始まる直前にアドレスカ
ウンタ143の内容は0(ゼロ)にセットされ、フリッ
プ・フロップ144からの立下り信号によって内容がカ
ウントアツプされる。フリップ・フロップ144には文
字列照合手段110から入力端子118を通してマツチ
信号パルスが来て、内容をハイレベルにする。1つのレ
コードの中でマツチパルスが2つ以上でも同じである。
入力端子145にはテキスト情報のレコード・クロック
信号が与えられる。レコードが変わる都度、レコード・
クロック信号(RCLK)がフリップ・クロップ144
の内容をローレベルに下げる。その時に、アドレスカウ
ンタ143の内容を+1だけ増加させる。以下では、ま
ず始めにテキスト情報全文検索の結果が第1と第2の記
憶手段によってどのように貯えられるかを説明する。
第1記憶手段140はテキスト情報全文サーチの期間は
書き込みモードにセットされ、文字列照合手段110か
ら入力端子118,119を通してマツチ信号と検索文
字列の識別コードが入力される。その識別コードで第1
記憶手段140のアクセス番地が決まる。検索文字列B
に対するマツチ信号が39番目のレコードで始めて発生
したとすると、そのマツチ信号によって第1記憶手段1
40の第2行目と第1列目(左端の列)が選択されて、
そこにマークピッ) LTIが書き込まれる。合わせて
第2記憶手段170の第1列目にアドレスデコーダ17
1とR/W回路172を介してマツチしたレコードのア
ドレスデータが書き込まれる。すなわち、39番目のレ
コードが第1番目にマツチのあったレコードであれば、
39が第2記憶手段170の第1番地に書き込まれる。
1つのレコードの中でいくつかの検索文字列がマツチす
ると、第1記憶手段140の中の1つの列のいくつかの
番地にマークピッドパ1”′が書き込まれる。
テキスト情報のレコードが切り替わる時(入力端子14
5からレコードクロック信号が与えられる時)にアドレ
スカウンタ143の内容が1つ増え、したがって、右隣
の列がYアドレスデコーダ142によって選択される。
しかし、入力端子118がらマツチ信号が来ないと、そ
の列にはマークビットが書き込まれない。次の17コ一
ドクロツク信号がフリップフロップ]44に与えられて
も、その後にマツチ信号が発生しないと、フリップ、フ
ロップ1440レベルが変化しないのでアドレスカウン
タ143の内容は増えて行かない。したがって、Yアド
レスデコーダ142は同一列を選択し続ける。
マツチ信号の発生したレコードが39番目の後、47番
目、48番目、91番目、140番目、275番目、3
02番目、・・・だとすると、第2記憶手段170には
図中に示したようにアドレスデコーダ17]とR/W回
路1.72を介して1番地から順に39.47.48;
 9L 140.275゜302、・・・が書き込まれ
る。39番目のレコードで検索文字列BとCが含まれ、
47番目のレコードで検索文字列Aだけが含まれ、48
番目レコードでAとDが含まれ、同様に、91番目レコ
ードにA、BとCが含まれ、14040番目レコードと
Dが含まれ、27575番目レコードとBが含まれ、3
0202番目レコード、BとDが含まれたとすると、第
1記憶手段140では、それぞれ、1列目に0110・
・が、2列目に1000・・が、3列[」に1001・
・が4ダ]]目に1110・・が、5列目に0011・
・が、6列目に1100・・が、7列目に1101−・
・が相き込まれることになる。検索−検索結果は以」−
のようにマークピノ(・とマツチレコードのアドレスデ
ータとに分けられて第]と第2の記憶手段に貯えられる
次に、検索条件照合手段150について第2図で説明す
る。検索条件式を示す条件論理(たとえばオア論理、ノ
ア論理、アンド論理、ナンド論理など)が入力端子15
2から与えられると、論理演算ユニノh155は第1記
憶手段140の読出し信号レジスタ146の内容と処理
結果のレジスタ156の内容との間の論理演算処理を行
って、その結果をレジスタ1.56に残す。論理演算ユ
ニッl−1,55の処理機能は入力端子152から与え
られる条件論理によって変わる。入力端子151には入
力端子118に与えられるマツチ信号より時間遅れのあ
るタイミングで演算処理結果のレジスタ156への七ノ
I・パルスが与えられるとする。
入力端118からマツチ信号パルスが来ると、第1記憶
手段140の読み出し信号がレジスタ146に設定され
、論理演算ユニッl−155がレジスタ146とレジス
タ156の内容に対して論理演算を開始する。プライオ
リティエンコーダ160は検索条件式の最後の記号が入
力された時に、入力端子161がら与えられる検索結果
I・ランスノアパルスに従って、第2記憶手段170の
アドレスデコーダ171に選択番地を与える。マツチし
たレコードアドレスが複数個の時には、選択番地を小さ
い方から順に出力する。
たとえば、検索条件式が(A*百十〇)=Dであるとす
れば、それは+A)*B) + C)*D)==に変1
灸されて、*や十などの条件論理が入力端子152に入
力される。始めに、□文字列A、B、C,Dは文字列照
合手段110に入力され、その後の′右カッコU月が論
理演算処理結果のレジスタ156へのセントパルスとし
て入力端子151に入力される。レジスタ156の初期
値は当然オールO(ゼロ)である。
入力端子152に与えられる検索条件論理が、+、矛、
+ 、*−であれば、それぞれ論理演算ユニy h15
5はオアゲート、アントゲ−1・、ノアゲーI・、ナン
ドゲーI・とじて働く。
第1の検索文字列Aが入ると、マツチ信号パルスによっ
て第1記憶手′段140の第1行目の内容011101
1・・が読み出され、レジスタ146にセットされる。
セットされると同時に、レジスタ146と156の内容
のオアゲートによる論理演算が実行される。
入力端子151からセソI・パルスが与えられると、レ
ジスタ146と156の内容のオア論理演算結果がレジ
スタ156にセットされる。
その後1.(NAND)が入力端子152に与えられ、
第2の検索文字列Bが入力されると、第1記憶手段14
0の第2行目の内容1001011・・がレジスタ14
6にセットeれる。セットが終わると、レジスタ146
の内容のノット(袖)とレジスタ156の内容との論理
積の演算が実行される。次の右カッコ入力時に、演算結
果がレジスタ156にセノ+−mれる。故に、十A)、
B)か入力され終わった時点で、レジスタ156の内容
は0110000・・になる。
次に、入力端子152から十の条件論理が指定され、検
索文字列Cが文字列照合手段110に入力されると、第
1記・億手段140の第3行目の内容1001100・
・がレジスタ146に七ノドされ、その内容とレジスタ
156の内容0110000との論理和が論理演算ユニ
ット155で実行され、右カッコ入力時に、論理演算ユ
ニッl−155の演算結果がレジスタ156に七ノトカ
れる。レジスタ156の内容は1111100・・に変
わる。
最後に、入力端子152がら*の条件論理が指定か胱、
検索文字列りが文字列照合手段110に入力されると、
第1記憶手段140の第4行目に内容0010101・
・がレジスタ146にセントされ、その内容とレジスタ
156の内容1111100・・との論理積が論理演算
ユニット155で実行される。その後の右カッコ入力時
に、演算ユニッl−155の演算結果がレジスタ15G
にセラ)・される。その内容は001.0100・・と
なる。
この結果は最後の条件論理−が入力された時に、入力端
子161にトランスファパルスが与えられ、プライオリ
ティ・エンコーダ160と第2記憶手段170を介して
マツチ・レコードのアドレスデータ(47と91)に変
換され、47.91の順に出力される。
第2図はテキスト情報の全文検索の結果を第1記憶手段
140と第2記憶手段170に分けて、各検索文字列と
対応がつくように記憶できる事を示すと共に、新しい検
索条件が与えられた時に、以上の検索結果を用いて、マ
ツチしたレコードのアドレスデータを出力できる事を示
した。もし新しい検索条件を満足するレコードアドレス
データが求まらない時には、ミスマツチのあった検索文
字列全文字列照合手段110に追加登録して、テキスト
情報の全文サーチを行う必要がある。さらに、新しい検
索文字列に対する検索結果を第1記憶手段140と第2
記憶手段170へ記憶する必要がある。しかしながら、
新検索文字列を文字列照合手段110に追加登録した後
でテキ、スト情報全文をサーチすると、全検索文字列に
対する検索結果が求まる。この事は第1と第2記憶手段
における検索結果の記憶は追加する事でなく、最新のも
のを書き込める事を意味する。ずなわぢ、テキスト情報
に変更や追加があってもこの時に修正が行われる。検索
結果が単に追加でなく、全文サーチの都度新しいものに
書き替えられる事は実用的であり、検索時間の増加を伴
わない。
第3図は文字列照合手段の一実施例の説明図である。最
もスマ−1・と思われる例として、連想メモリ310の
出力段に順序論理回路320とエンコーダ330を付加
したものをとり上げている。連想メモリ310は検索文
字列を記憶する。すなわち、検索文字列の各文字コード
を先頭から番地順に貯える。i番地にi番地の文字コー
ドXiを記憶した連想メモリに対して、入力テキスト文
字列の時刻tで文字コードX(t)がXiに等しい時に
はi行目の比較器316からyi= +lll+が出力
される。Xiに等しくない時には3’1=RO!+が出
力される。
順序論理回路320の中にはフラグビットのフリップフ
ロップFFiのアレイがANDゲー1−.325によっ
て連結されていて、i番目のANDゲー1−325には
FFi 1の内容(フラグビット)S□−1と連想メモ
リ310のi行目比較器315の出力yiが入力されて
いる。
そして、i番目のANDゲー1−325の出力がFF、
にセットされ、その内容Siが1ということはテキスト
文字列が検索文字列の1番目の文字まで一致してきた事
を意味する。FFIには検索文字列の1番目の文字がテ
キスト文字列に含まれて入力された時にf/、11+に
設定される。検索文字列の長さがnであるとするとSn
が1″になるか否かをチエツクする事によって文字列の
一致があったが否かを判別できる。
第3図では検索文字列が可変長である場合にうまく対応
できるように、デリミタ・フリップフロップDFiが導
入されている。検索文字列のスタート位置を任意にする
と、エンコーダ330の入力本数が多ずぎるために、4
行置きに検索文字列の登録位置を指定できる。そのため
に、DF□、DF4.DFB、DF12とDF16にフ
ラグビットのイニシャルセントを行うデリミタ信号を設
定できるようにしている。
連想メモリ310の中には1例として、ABCD、CA
T、DONKEYの3つの検索文字列の登j県例が示さ
れている。4文字に等しい場合、それより短い場合と、
4文字より長い場合にデリミツタ信号どう設定するかと
いうと、一般に、検索文字列の登録の始まりの行と終わ
りの行のデリミツタ・フリップフロップに“1″をセッ
トする。図中ではわかりやすいように、1”′の七ノド
されたDFに斜線を施した。すなわち、ABCDに対し
て、DFOとDF4にR1l+をセットし、CATに対
してDF4とDF7にパ1”2をセットし、DONKE
Yに対してDF3とDF14にRil+をセットしであ
る。
始まりの行のデリミツタ、フリップフロップDFO,D
F4.DF3のR1l+はフラグピッフリップ・フロツ
グIi”po 、FF4.FFsの出力信号に論理的に
加算しされる。
それによって、フラグビットのイニシャルセットが行わ
れる。検索文字列の最後を示す行のデリミタ・フリップ
フロップDF4.DF7.DF14はフラグビットがF
F4.FF7.FF14に到達したか否かをORゲーI
・OGl、OG2.OG4を通してエンコーダ330に
伝達するために使われる。フラグビットがFF4.FF
7.FF14に到達するという事によって、テキスト文
字列が検索文字列に対して始めから終わりまで一致した
事を示す。故に、ORゲートOF1.OG2.OG3.
OG4の中のいずれかで1°′が出力される事は文字列
マツチのあった事を意味する。ここに、DONKEYを
登録した場合に、DONKの4文字分の照合結果がOG
3から出力されないのは、DF12に1″をセットして
いないからである。つまり、DONKEYの最後まで一
致しない時にはマツチ信号を出さないようにDF9から
DF13までを“0″にしている。
このように、文字列照合回路は連想メモリ310はデリ
ミタ・フリップフロップ付きの順序論理回路320とエ
ンコーダ330を付加する事によって実現できる。マツ
チ信号はOGl、OG2.、、、、OG4.・・・のオ
アゲートの出力の論理和の形で出力端子331から、ま
た入力テキスト文字列がどの検索文字列に一致したかを
示すクラスコードが出力端子332から送り出される。
テキス)・文字列の各成分が連想メモリ310に入力さ
れると、そこに貯えられた検索文字列の全文字コードと
一斉に比較が行われ、入力クロックの周期内にエンコー
ダ330から応答結果が出力される。
第1図から第3図までの説明で文字列照合手段110の
中の連想メモリ310、第1記憶手段140、第2記憶
手段170はそれぞれ文字コード、検索結果のマークビ
ットやマツチしたレコードのアドレスデータを随時に高
速に書き込める事、それ等を高速に読み出せる事を前提
としたが、代わりに電源停止の時に記憶内容が削減して
しまう。したがって、連想メモリ310の内容、第1、
第2の記憶手段の記憶内容はテキストファイル装置13
0の一部に格納され、電源投入時に、テキストファイル
装置130からこれらのメモリに記憶内容がロードされ
る事が望ましい。そのためにも、第1図の学習型文字列
検索装置には文字列照合手段110、第1記憶手段14
0や第2記憶手段170に過去の検索条件や検索結果の
データを初期設定するイニシャライズモードが用意され
ていなければならない。
イニシャライズモードでは、まず、過去に登録された検
索文字列がリセット後の文字列照合手段110に順次に
登録され、次に、各検索文字列に対するマークビットデ
ータが第1記憶手段140に1行目から順に書き込まれ
る。第2図の第1記憶手段140のアドレスカウンタ1
43は各行のマークピットの個数までカウントするとゼ
ロに戻るように七ノドされ、過去の検索結果に相当する
データビットを順次に書き込んでいく。
すなちわ、第2図における書き込みデータスイッチ14
7は入力端子148からマークピッド1″を、入力端子
149からデータビットを、第1記憶手段140への書
き込み信号として受は付ける部分である。イニシャライ
ズモードの時には入力端子149側の方にスイッチが倒
れ、テキスト情報全文検索時は入力端子148側の方に
スイッチが倒シする。
第2記憶手段170への過去の検索でマツチしたレコー
ドアドレスに関するデータの書き込みは入力端子173
からR/W(read/Write)回路172を介し
て行われ、書き込みアドレスはアドレスカウンタ175
からオアゲート176を介して与えられる。アドレスカ
ウンタ175の内容は入力端子174から与えられる書
き込みクロック信号によってインクリメン1〜(+1ず
つ増や)される。
以上によって、文字列照合手段110の連想メモリ31
.0、第1記憶手段140、第2記憶手段170への初
期状態(過去の検索条件と検索結果)の設定が達成され
る。
第1図の学習型文字列検索装置はイニシャライズモード
の他に、新検索文字列が過去の検索文字列(連想メモリ
310に登録ずみの文字列)に一致しない時に新検索文
字列を文字列照合手段110の連想メモリ310に追加
登録する検索文字列登録モードと、その後で、文字列照
合手段110にテキストファイル装置130からテキス
ト文字列を入力し、検索文字列を含んだテキストレコー
ドをマークして第1記憶手段140と第2記憶手段17
0に検索結果を書き込む(または検索結果の記憶内容を
書き直す)テキスト文字列検索モードと、検索条件論理
と検索文字列をそれぞれ検索条件照合手段150と文字
列照合手段110を入力し、文字列照合手段110の出
力によってアクセス番地の決まる第1記憶手段140の
出力を検索条件照合手段で処理する検索条件照合モード
と、その結果を用いて第2記憶手段170から検索条件
にマツチしたテキストレコードの格納番地を出力する検
索結果出力モードとがある。各モードでの動作はすでに
説明した通りである。
これらの動作モードによって学習型文字列検索装置は過
去の検索結果を利用してテキスト情報全文サーチの回数
を大幅に削減できる。そのためには、まず、電源投入後
にイニシャライズモードでメモリへのデータの初期設定
が行われる。次に新検索条件が検索結果出力モードで与
えられる。その時の検索文字列はA、B、CとかDでは
なく、具体的にはそれぞれ、Magnetic、Mem
ory、MaterialとかThin−filmのよ
うに与えられ、検索条件式も単に十A)*百)十〇)*
D)=でな <  、+Magnetic)*Memo
ry)+ Materia1%Thin−film) 
=のように与えられる。条件論理は検索条件照合手段1
50へ、文字列の方は文字列照合手段110に与えられ
、その出力でアクセス番地の決まる第1記憶手段140
の出力が論理演算ユニット155で処理される。そして
カッコ11)+1記号の入力時にレジスタ156にセッ
トされる。そして、=(イコール)記号が入力されると
、レジスタ156の内容がエンコードされ、第2記憶手
段170からR/W回路172を介してマツチレコード
の格納番地(レコードアドレス)が出力される。
もし新検索条件が検索結果出力モードで入力されている
時に、文字列照合手段110がミスマツチ信号を発生ず
る時は、その検索文字列をホストコンピュータ側のメモ
リに一時貯え、レジスタ146の内容をオールパ1”に
してから、次の検索文字列の入力を受付け、ミスマツチ
がなければ、そのまま検索条件の照合を続ける。ミスマ
ツチ信号発生の都度、新検索文字列を一時的にポストコ
ンピュータ側のメモリに待避さぜる。検索条件の照合の
終わった時点で検索結果を第2記憶手段170から出力
することは可能である力飄 ミスマツチの検索文字列を
無視したものとなっている。1つでも新検索文字列が過
去の検索文字列にマツチすると、その文字列を含むテキ
ストレコードアドレスが求まり、検索対象に関する速報
を提供することができる。
次に、検索文字列登録モードに設定して、ホストコンピ
ュータ側のメモリに一時的に待避させられなミスマツチ
の検索文字列を文字列照合手段110に追加登録すると
、その後は、テキスト文字列検索、モードによる全文→
ノーーチで検索結果を第1記憶手段140と第2記憶手
段170に書き込める。その後、検索条件照合モードを
経て検索結果出力モードに戻ると、新検索条件にマツチ
したレコードアドレスが求まる。このような制御方式を
採用すると、新検索文字列が過去の検索文字列一致する
限り、検索条件が違っていても、テキスト情報の全文サ
ーチなしで新検索条件にマツチしたレコードアドレスを
出力できることになる。
(発明の効果) 以上のように新検索条件の検索文字列が過去の検索文字
列に等しくても検索条件式が異なるために、過去の検索
結果を利用できず、新たにテキスト情報の全文サーチを
必要とするために検索要求の受付速度の高くならない問
題が本発明によれば容易に解決される。
学習型文字列検索装置では、検索要求受付が増えれば、
増えるほど、多くの検索文字列を文字列照合手段110
に追加登録することが積み重なるために、新しい検索条
件に含まれるほとんどの検索文字列が文字列照合手段1
10にすでに登録された検索文字列に一致するようにな
る。したがって、90%の検索文字列がマツチする(ヒ
ツト率90%)と考えると、全文サーチは10回の検索
要求の中で1回ですみ、99%がマツチすると、全文サ
ーチはJ−00回の検索要求に対して1回ですもみテキ
スト情報全文サーチに1分を要していたとすると、従来
ならば、毎分1回しか検索要求を受は付けられなかった
が、本発明によれば、毎分10回とか100回も検索要
求を受付できるようになると言える。ヒソI・率は検索
要求の条件の内容によるため、−概に高くなるとは言え
ないが、パーソナルなテキストデータベースの検索にお
いてはかなりの効果が期待される。
【図面の簡単な説明】
第1図は本発明、の一実施例を示す図、第2図は本発明
の第1記憶手段、検索条件照合手段と第2記憶手段の一
実施例を示す図、第3図は本発明の文字列照合手段の一
実施例の説明図である。 第1図において、110・・・文字列照合手段、120
・・・文字列スイッチ、140,170・・・記憶手段
、150・・・検索条件照合手段、第2図において、1
.18・・・文字列マツチ信号、119・・・検索文字
列識別コード入力端子、141.142・・・アドレス
・デコーダ、143・・・アドレスカウンタ、144・
・・フリップ・フロップ、145・・・マツチレコード
・クロック入力端子、]、46・・・読出しデータ・レ
ジスタ、147・・・書き込みデータスイッチ、148
・・・マークピッ)・入力端子、149・・・検索結果
データ入力端子、151・・・セットパルス入力端子、
152・・・検索条件論理入力端子、156・・・検索
条件照合結果レジスタ、160・・・プライオリティ・
エンコーダ、161・・・検索結果I・ランスファ・パ
ルス入力端子、171・・・アドレスデコーダ、172
・・・R/WOO路、]73・・・マツチレコードアド
レスデータ入出力端子、174・・・アドレスデータR
/Wクロック入力端子、175・・・アドレス・カウン
タ、176・・・オアゲート。

Claims (2)

    【特許請求の範囲】
  1. (1)複数検索文字列を記憶し、入力文字列が複数検索
    文字列のいずれに一致するかを判別する文字列照合手段
    と、どのテキストレコードがどの検索文字列を含むかを
    記憶し、前記文字列照合手段の判別する文字列のクラス
    コードによってアクセス番地の決まる第1記憶手段と、
    入力文字列間の検索条件論理に従って第1記憶手段の出
    力の論理処理を行う検索条件照合手段と、これにつなが
    るエンコード手段と、照合のあった文字列を含むテキス
    トレコードの格納番地を記憶し、エンコード手段の出力
    によってアクセス番地の決まる第2記憶手段と、検索文
    字列照合手段の入力文字列として検索文字列かテキスト
    文字列を選択するスイッチ手段とを備える事を特徴とす
    る学習型文字列検索装置。
  2. (2)複数検索文字列を記憶し、入力文字列が複数検索
    文字列のいずれに一致するかを判別する文字列照合手段
    と、どのテキストレーコドがどの検索文字列を含むかを
    記憶し、前記文字列照合手段の判別する文字列のクラス
    コードによってアクセス番地の決まる第1記憶手段と、
    入力文字列間の検索条件論理に従って第1記憶手段の出
    力の論理処理を行う検索条件照合手段と、これにつなが
    り、探索条件を満足するテキストレコードを指定するエ
    ンコード手段とを、前記テキストレコードの実際の格納
    番地を記憶し、前記エンコード手段の出力によってアク
    セス番地の決まる第2記憶手段と、前記文字列照合手段
    の入力文字列として検索文字列かテキスト文字列を選択
    するスイッチ手段とを備えた学習型文字列検索装置の制
    御方式であって、前記文字列照合手段と第1と第2記憶
    手段にそれぞれ過去の検索文字列、文字列照合結果とテ
    キストレコードの格納番地を初期設定するイニシャライ
    ズモード、新検索文字列の中に検索文字列に一致しない
    検索文字列のあった時に、その検索文字列を文字列照合
    手段に追加登録する検索文字列登録モードと、文字列照
    合手段にテキスト文字列を入力し、検索文字列を含んだ
    テキストレコードをマークして第1記憶手段及び第2記
    憶手段に書き込むテキスト文字列検索モードと、検索条
    件論理と検索文字列を検索条件照合手段と文字列照合手
    段に入力し、前記文字列照合手段の出力によってアクセ
    ス番地の決まる記憶手段の出力を検索条件照合手段で処
    理する検索条件照合モードと、その結果を用いて第2記
    憶手段から検索条件にマッチしたテキストレコードの格
    納番地を出力する検索結果出力モードとを備え、検索文
    字列照合モードで全新検索文字列と過去の検索文字列と
    のマッチがあった時は、検索条件照合モードと検索結果
    出力モードに移って、マッチしたテキストレコード格納
    番地を出力するように制御し、検索文字列照合モードで
    マッチのない時は、追加登録モードに移ってミスマッチ
    文字列を文字列照合手段に登録し、その後、テキスト文
    字列検索モードに移って検索結果を第1記憶手段と第2
    記憶手段に書き込み、その後、検索条件照合モードを経
    て、検索結果出力モードでマッチしたテキストレコード
    の格納番地を出力するように制御する事を特徴とする学
    習型文字列検索装置の制御方式。
JP63128849A 1988-05-25 1988-05-25 学習型文字列検索装置と同装置の制御方式 Expired - Lifetime JP2718062B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63128849A JP2718062B2 (ja) 1988-05-25 1988-05-25 学習型文字列検索装置と同装置の制御方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63128849A JP2718062B2 (ja) 1988-05-25 1988-05-25 学習型文字列検索装置と同装置の制御方式

Publications (2)

Publication Number Publication Date
JPH01297724A true JPH01297724A (ja) 1989-11-30
JP2718062B2 JP2718062B2 (ja) 1998-02-25

Family

ID=14994899

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63128849A Expired - Lifetime JP2718062B2 (ja) 1988-05-25 1988-05-25 学習型文字列検索装置と同装置の制御方式

Country Status (1)

Country Link
JP (1) JP2718062B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07239861A (ja) * 1994-02-25 1995-09-12 Ricoh Co Ltd 文書検索装置
JPH0844758A (ja) * 1994-07-27 1996-02-16 Fuji Photo Film Co Ltd データ検索方法、その装置および情報記録媒体
WO2015098707A1 (ja) * 2013-12-23 2015-07-02 井上 克己 情報検索機能を備えたメモリ、その利用方法、装置、情報処理方法。
WO2016199808A1 (ja) * 2015-06-08 2016-12-15 井上 克己 メモリ型プロセッサ、メモリ型プロセッサを含んだ装置、その使用方法。

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07239861A (ja) * 1994-02-25 1995-09-12 Ricoh Co Ltd 文書検索装置
JPH0844758A (ja) * 1994-07-27 1996-02-16 Fuji Photo Film Co Ltd データ検索方法、その装置および情報記録媒体
WO2015098707A1 (ja) * 2013-12-23 2015-07-02 井上 克己 情報検索機能を備えたメモリ、その利用方法、装置、情報処理方法。
JP5981666B2 (ja) * 2013-12-23 2016-08-31 井上 克己 情報検索機能を備えたメモリ、その利用方法、装置、情報処理方法。
JP2017016668A (ja) * 2013-12-23 2017-01-19 井上 克己 情報検索機能を備えたメモリ、その利用方法、装置、情報処理方法。
US9627065B2 (en) 2013-12-23 2017-04-18 Katsumi Inoue Memory equipped with information retrieval function, method for using same, device, and information processing method
WO2016199808A1 (ja) * 2015-06-08 2016-12-15 井上 克己 メモリ型プロセッサ、メモリ型プロセッサを含んだ装置、その使用方法。

Also Published As

Publication number Publication date
JP2718062B2 (ja) 1998-02-25

Similar Documents

Publication Publication Date Title
Kohonen et al. Logic Principles of Content-Addressable Memories
KR940003700B1 (ko) 검색방법 및 그 장치
US5319762A (en) Associative memory capable of matching a variable indicator in one string of characters with a portion of another string
US3275991A (en) Memory system
US5175857A (en) System for sorting records having sorted strings each having a plurality of linked elements each element storing next record address
US6760821B2 (en) Memory engine for the inspection and manipulation of data
US3435423A (en) Data processing system
JPH0218790A (ja) 内容でアドレス指定可能なメモリ・システム
US3332069A (en) Search memory
US4254476A (en) Associative processor
US3456243A (en) Associative data processing system
JPH01297724A (ja) 学習型文字列検索装置と同装置の制御方式
EP0232376B1 (en) Circulating context addressable memory
JPH11282852A (ja) データ検索装置
JPH0666050B2 (ja) ソート処理方法
US3354436A (en) Associative memory with sequential multiple match resolution
Hollaar Specialized merge processor networks for combining sorted lists
US6513053B1 (en) Data processing circuit and method for determining the first and subsequent occurences of a predetermined value in a sequence of data bits
US3271745A (en) Register search and detection system
JPH0315221B2 (ja)
JPS6132695B2 (ja)
Healy A character-oriented context-addressed segment-sequential storage
JPS6143339A (ja) 連想マトリツクスのサーチ方法
SU342185A1 (ru) УСТРОЙСТВО дл ПОИСКА ИНФОРМАЦИИ
JPS6244839A (ja) 命令取出装置