JPH04205561A - 用語辞書による文書検索システム - Google Patents

用語辞書による文書検索システム

Info

Publication number
JPH04205561A
JPH04205561A JP2339176A JP33917690A JPH04205561A JP H04205561 A JPH04205561 A JP H04205561A JP 2339176 A JP2339176 A JP 2339176A JP 33917690 A JP33917690 A JP 33917690A JP H04205561 A JPH04205561 A JP H04205561A
Authority
JP
Japan
Prior art keywords
search
character string
string
memory
term dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2339176A
Other languages
English (en)
Other versions
JP2961888B2 (ja
Inventor
Tsunesuke Takahashi
恒介 高橋
Hirobumi Nishizuka
西塚 博文
Tetsuya Yamazaki
山崎 哲矢
Kaoru Mihashi
薫 三橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2339176A priority Critical patent/JP2961888B2/ja
Publication of JPH04205561A publication Critical patent/JPH04205561A/ja
Application granted granted Critical
Publication of JP2961888B2 publication Critical patent/JP2961888B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、電子化される学術論文や雑誌や特許や新聞や
各種文書の中のテキスト情報を自然言語の用語文字列に
よって検索するなめに用語辞書による文書検索システム
に関する。
(従来の技術) 上記の文書検索システムは電子情報処理#lj器が広範
囲に背反するこれからの情報化社会で欠かせないらのと
なる。文書情報か電子的に大量に生産可能になる時代に
は、いかに不要情報を高速に整理するかが第1の課題と
なる。すなわち、電子的情報は、人間が目で内容を確か
める事ができないほどに増加すると、その中から必要な
情報を捜し出すことがかえって難しくなる。そのために
は、必要になりそうな文書情報を必要となりそうな場面
と関連付けてファイルメモリに記憶すること、必要な場
面に直面したときにファイルメモリから必要文書情報を
読み出せることが求められる。また、電子的文書情報の
大量生産時代においては、情報検索を行なうことによっ
て知りたい知識が何であるかを知ることが第2の課題と
なる。
従来は1文書情報をファイル記憶する前に、文書にキー
ワードを付加し、キーワードと文書情報の格納場所を対
応ずけるインデクステーブルを用意し、それを検索する
ことによって、該当するキーワードを含む文書情報を格
納アドレスを求めた。
しかし、キーワードは文書内容をよく理解しないと正確
につけられない。付ける人の理解の度合によって異なる
。したかって、検索する人とキーワードを付けた人か異
なると、検索がうまくいかない。
これらの課題を解決するために、キーワードの付加され
ていない文書のテキスト情報部分をコンピュータに直接
読ませて、文字列照合で、検索文字列(キーワード)の
存在する位置を見つけ出すフルテキストサーチ技術が研
究されてきた。生のテキスト情報を検索するときの文字
列照合の難しさは、キーワードとなる検索文字列がスペ
ースで区切られているとか、いないとか、ドントケア(
以下ではDCと略す)文字を含んでいるとか、文字の誤
りや抜けや余分な文字を含んでいるとがのあいまいな文
字列の記述にどう対応できるかにかかっている。
しながってアンカーマツチ、ノンアンカーマツチ、固定
長DCマツチ、可変長DCマツチ、ワイルドカードマツ
チなどの文字列照合m能が要求される。これらのIl能
をソフトウェアで実f!!シようとすると、検索速度が
遅くて、大量のテキストデータ検索が時間的に無理にな
る。ところが、最近の半導体LSI技術の進歩によって
、上記のような各種の機能を持った文字列照合専用ハー
ドウェアが1つのLSIチップ上で実現可能になって来
た0例えば、I S S P (Intelligen
t StringSearch Processorの
略)と呼ばれる文字列検索プロセッサのLSIチップが
すでに開発された。このプロセッサ100MBのテキス
ト情報を約10秒で検索する。可変長の文字列のアンカ
ー/ノンアンカーマツチ、DCマツチ、ワイルドカード
マツチ、あいまいマツチの機能を備えているのは当然で
あるが、64個の検索文字列とテキストデータの文字列
を並列に照合する。このような文字列照合プロセッサ(
Parallel String 5earchPro
cessor)を以下では、sspと略す。
第10図はSSPを用いた文書検索システムの従来の一
例の基本構成部分の説明図である。
ホストコンピュータ110とSSP 140がIOデテ
ーバス130でつながっている。5SP140において
は、検索文字列を貯える連想メモリ1100と文字列照
合を行なう順序ロジック1170とエンコーダ115o
か主なat要素となっている。あいまいマツチマツチや
可変長DCマツチなどの付加機能の回路は省かれている
順序ロジック1170はANDゲートアレイ1110と
フラグレジスタアレイ112oとORゲート1130.
1140とヘッドフラグ設定用のデコーダ1160とか
ら成る。
まず始めに、検索文字列が4文字毎に区切られて、クリ
ヤ後に連想メモリ110oに書き込まれる。各検索文字
列の最後の文字位置が4の倍数でないときに、繰り上げ
られて、次の4文字車位の文字列先頭位置にフラグを設
定するように順序ロジック117oの中のデコーダ11
6oが働くっ検索文字列が連想メモリ1100に登録さ
れた後、テキストデータの文字列が連想メモリ1100
に入力される。1文字人力される都度、それが連想メモ
リ110oの中の全検索文字列の全文字と並列に比較さ
れる。全文字比較結果が連想メモリ1100から順序ロ
ジック117oのANDゲート111oに送られる。
文字一致があると、デコーダ116oで設定されたフラ
グがレジスタ112oの上段から下段ヘシフトされる。
不一致のときには、ANDゲート1110で、フラグが
消滅される。全レジスタ1120で以上のフラグシフト
が一斉に起こる。
どこかで、4文字連続して下膜へフラグシフトが起こる
と、そこのレジスタ112oにつながるORゲート11
3oから文字列照合結果(マツチ信号)が出現する。
連想メモリ1100に登録された検索文字列のいずれか
がテキストデータの文字列に一致すると、全ORゲート
1130につながるORゲート1140から文字列のマ
ツチ信号が出力される。
マツチ信号がどの順序ロジック1170から出力された
かはエンコーダ1150で検出される。それによって検
索文字列のクラスコードが出力される。
第10図では、5SP140がホストコンピュータ11
0に直接接続されていて、テキストデータをホストコン
ピュータ110の主記憶120からIOババス30を介
して5SP140に入力することと、5SP140の検
索結果を主記憶120へ送り返すことが交互に起こる。
■0データバス130上で入力と出力が交互に行なわれ
ると、検索速度はIOババスデータ転送速度の半分以下
に下がってしまう。したがって、主記憶120のデータ
RW動作速度のIOMB/sで、SSP 140が同じ
速度で動作するとしても、IOババス30でのデータ転
送レイトがI M B / sであれば、検索速度50
0 K B / sに下がってしまう。
したがって、5SP140が高速であっても、2バイト
づつの漢字文字コード転送速度か250K B / s
に押えられる第10図のようなシステム構成では、10
fl!文字(1ギガバイト)のテキストデータの検索時
間は4000秒に及ぶ。待ち時間が大きいという検索時
間の問題が残されている。
検索者かテキストデータ(例えば火事のニュース)に含
まれていると考えたキーワード(火事)が、テキストデ
ータの中では別の表現(出火、半焼、全情、小火、延焼
など)になっていて1期待したテキストデータ(火事に
関するニュース)が検索結果に現れなかったというシソ
ーラスの問題もある。キーワードとそれの異表記同義語
、類似語など(シソーラス)の検索文字列をフロッピデ
ィスクなどの補助メモリ115から読み出して、表示画
面を見ながら64個までの検索文字列を選択し、5SP
140に登録することが可能である。
ただし、64個の検索文字列の5SP140への登録を
マニュアルで行なうと、問い合わせ処理の処理時間が長
びく。
(発明が解決しようとする課題) 本発明の目的は、上記検索時間の問題とシソーラスの問
題の両方を解決することにある。具体的には、検索時間
を短縮するために、■oババス介したデータ転送を最小
にする技術を提供し、シソーラスの問題を解決するため
に、用語辞書(シソーラス)における文字列を階層的に
配列し、記憶する用語辞書を文字列照合手段で検索し、
類似検索文字列を見つけてから、複数の類似検索文字列
の並列照合による文書データを検索を行う技術を提供す
る。
(課題を解決するための手段) したがって、本発明は以下のように構成される。
第1の発明は、用語辞書の文字列を階層的に記憶する第
1データ記憶手段と、検索文字列で指定される範囲の用
語辞書に含まれる文字列を類似検索文字列として切り出
す文字列登録手段と、検索文字列を記憶する文字列照合
手段と、外部から入力される文書データに対する文字列
照合手段の照合結果を記憶するマツチ回数記憶手段と、
その内容を用語辞書の文字列配列順に出力する信号と全
体の動作を制御する信号を発生するタイミング制御手段
とを備えることを特徴とする。
第2の発明は、用語辞書の文字列を階層的に記憶する第
1データ記憶手段と、検索文字列で指定される範囲の用
語辞書に含まれる文字列を類似検索文字列として切り出
す文字列登録手段と、$、索大文字列記憶する文字列照
合手段と、検索される文書データを順番に記憶する第2
データ記憶手段と、第2データ記憶手段での順次書き込
み読み出しのためのアドレス走査手段と、マツチ回数記
憶手段と、その内容を用語辞書の文字列の配列順に出力
する信号とアドレス走査手段並びに全体の動作を制御す
る信号を発生する制御手段とを備えることを特徴とする
第3の発明は、用語辞書の文字列を階層的に記憶する第
1データ記憶手段と、検索文字列で指定される範囲の用
語辞書に含まれる文字列を類似検索文字列として切り出
す文字列登録手段と、前記検索文字列を記憶する文字列
照合手段と、検索される文書データを記憶する第2デー
タ記憶手段と、そこでの任意配列文書データの書き込み
・読み出し動作を制御するアドレス管理手段と、文書デ
ータに対する文字列照合手段の照合結果を貯えるマツチ
回数記憶手段と、マツチ回数記憶手段の内容を用語辞書
の文字列の配列順に出力する信号とアドレス管理手段並
びに全体の動作を制御する信号を発生するタイミング制
御手段とを備えることを特徴とする。
第4の発明は、用語辞書の文字列を階層的に記憶する第
1データ記憶手段と、検索文字列で指定される範囲の用
語辞書に含まれる文字列を類似検索文字列として切り出
す文字列登録手段と、前記検索文字列を先頭からと後尾
から順に記憶する第1と第2の文字列照合手段と、検索
される文書データを記憶する第2データ記憶手段と、そ
こでの文書データの順次書き込み・読み出し動作を制御
するアドレス管理手段と、文書データに対する文字列照
合手段の照合結果を貯えるマツチ回数記憶手段と、第2
データ記憶手段と同じアドレスにマツチ信号を書き込む
マツチ位置記憶手段と、マツチ回数記憶手段の内容を用
語辞書の文字列配列順に出力するためのクロック信号と
アドレス管理手段並びに全体の動作を制御する信号を発
生するタイミング制御手段とを備え、第1文字列照合手
段で文字列マツチがあると、マツチ位置記憶手段への論
理信号1の書き込みを開始し、第2データ紀憶手段の記
憶データを逆順読みで出力させ、第2文字列照合手段で
文字列マツチ信号があると、論理信号1の書き込みを終
了させ、第2データ記憶手段の記憶データを順読みに切
り替えることを特徴とする。
第5の発明は、第1、第2、第3又は第4の発明におい
て、文書検索の前に、検索文字列を文字列照合手段に登
録し、用語辞書を検索して、類似検索文字列の範囲を決
定し、それを文字列照合手段へ追加登録し、文書データ
の検索を行い、検索終了後、用語辞書の指定範囲内の類
似検索文字列を配列順に、再度、文字列照合手段へ入力
し、各検索文字列の入力の都度、マツチ回数記憶手段の
内容をレコード番号を走査して順次に出力するようにし
たことを特徴とする。
第6の発明は、第1、第2、第3又は第4の発明におい
て、用語辞書の中における文字列の先頭文字位置がネス
トレベルを示すように階層的に配列されること、指定範
囲の文字列がORやANDなどの検索条件信号と共に第
1のデータ記憶手段に記憶されること、文字列が改行、
スペース、コンマなどの特定記号コードを区切り信号に
使い、文字列照合手段へ登録されることを特徴とする。
第7の発明は、第1、第2、第3又は第4の発明におい
て、新しい文書レコードか入手される都度、用語辞書の
文字列による検索で、階層的配列の文字列のどれに類似
したものかを判別し、文書レコードのファイル番号を決
定し、ファイル管理に利用することを特徴とする。
第8の発明は、第1、第2、第3、第4、第5又は第6
の発明において、用語辞書による文書検索の結果を見て
、用語辞書内の階層的配列の文字列に文字列に新知識や
新概念の文字列を加え、不要の文字列を削除し 中詰辞
書を修正していくことを特徴とする。
(実施例) 以下、図面を参照して本発明のさらに詳しい説明を行な
う。
第1図は本発明の第1の実施例を示す図であり。
(a)が全体の構成図で、(b)が文字列登録手段の部
分図である。(a)は、第1データ記憶手段としての用
語辞書メモリ125と文字列表示手段135と検索文字
列登録手段145と文字列検索プロセッサ5SP140
とマツチ回数メモリ155とタイミング制御回路160
とが10バス130を介して主記憶120や補助記憶1
15などを備えたホストコンピュータ110に接続され
た検索システムを示している。
用語辞書に貯えられるシソーラス(用語辞書)は階層的
に配列された文字列から成る。すなわち、始めに、ユー
ザが持っている知識の概念を記述する、意味の明らかな
用語文字列が作成され、次に、必要な知識に関して、意
味のわからない用語文字列が作成され、合わせたものか
シソーラスとして、登録される。
シソーラスは、5SP140に登録される前に、ホスト
コンピュータ110f!lで、配列関係が正しいか表示
され、その後で、フロッピディスクファイルやICメモ
リカードや磁気ディスクなどの補助メモリ105に記憶
される。5SP140への登録時は、それが主記憶12
0に読み出され、IOババス20を通して用語辞書メモ
リ125へ転送される5 その後で、知りたい知識に関して、ホストコンピュータ
110に与えられる検索文字列は、まず、文字列照合プ
ロセッサ5SP140に登録され、用語辞書の検索に使
われる。すなわち、用語辞書から類似検索文字列の位置
が見つけられ、その部分の文字列が用語辞書メモリ12
5から読み出され、5SP140へ追加登録される。そ
の後で、文書のテキストデータが5SP140で検索さ
れる。
用語辞書メモリ125の内容は用語文字列を階層的に配
列したシソーラスの形式の用語辞書である。その内容は
用語辞書表示手段135によって、先頭からか、あるい
は、マウスやキーボードで指定された位置から表示され
る。
大規模な用語辞書をマウス指示によってスクロールで高
速表示するために、表示手段135はキャラクタパター
ン発生器131とグラフィック表示コントローラ133
とフレームバッファメモリ132と表示デバイス134
を備える。フレームバッファメモリ132はマウスで指
定されたアドレスのテキストデータを表示画面上のビッ
トパターンに変換して、1面分ずつ記憶する。数万語の
用語文字列を数秒で眺めるなめには、毎秒30画面スク
ロールは必須となる。
用語辞書における用語文字列の階層的配列は、文字列の
配列開始位置の違いを使って表わす。すなわち、上位概
念の用語文字列を左側へ並べ、下位概念の用語文字列を
右側へ並べると、シソーラスの用語の概念体系をうまく
表現できる。意味のわかっている文字列と、わかってい
ない文字列が色を違えて表示されるという工夫も役に立
つ。
第2図は用語辞書の表示例と記憶構造を示す図であり、
(a)は階層的に配列された用語文字列の一例を示し、
(b)は第1データメモリ125での記憶内容を示す。
(a)のように、概念レベルの低い文字列をレベル数だ
け先頭にスペース文字を入れて表示している。概念レベ
ルが同じ謬義語や異表記の文字列は、改行無しのスペー
スで区切られて配列される。それによって、検索者が用
語辞書の中のどのような概念レベルの文字列を調べよう
としているかがわかる。
新しい知識や概念の用語文字列を知ったときには、概念
レベル別に配列され、表示された用語辞書の該当する概
念レベルの関連する文字列位1の近くに追加するとわか
り易いし、検証し易い0個人の要求に合わせて、文字列
の配列を最適化することも可能になる。
このような階層的配列の文字列から成る用語辞書を文書
のテキストデータの検索に用いる時には、表示がいくら
高速化されても、用語辞書から、検索文字列に類似した
文字列をすぐに見つけ出すのは容易でない。表示画面で
検索文字列の位置にマークが必要である。それを文字列
照合手段5SP140で求めておく。次に、マークされ
た文字列に見て、5SSP140へ類似検索文字列とし
て登録しない文字列の配列領域をマウスかキーボードで
指定する。5SP140に登録できる文字列数が決って
いるために 領域の最初を指示するだけで、5SP14
0に登録される讐僻検索文字列が決る。
第2図(b)に示すのは表示内容に対応した用語辞書の
文字データであって、このような形式で用語辞書メモリ
125に貯えられる。検索文字列を文字列照合手段に設
定した後、これを用語辞書メモ リ125から読み出し
、検索を行う、スペースやコンマで区切り情報として使
えるため、アンカーマツチで検索が済む。マツチ位!が
わかると、それをマーカにして類似検索文字列位!が求
まる。
第1図の文字列登録手段145は、第1図(b)に示さ
れるように、2個のカウンタ141゜142とPROM
143とマルチプレクサ144と区切り記号検出回路〈
単なるANDゲート)146とマイクロプロセッサ14
7から成る。
タイミング制御手段160から来るクロック信号でPR
OM143のアクセスが始まり、そこに格納されたマイ
クロプログラムが読み出される。
この間、第1図のスイッチS1は左へ倒されているとす
る。PROM143の出力はカウンタ142に戻される
ため、PROM143は状況に応じてプログラムパター
ンを変えていくことができる。
PROM143の出力の一部かホストコンピュータ11
0から検索文字列を1文字づつマルチプレクサ144に
転送させる命令となる。そのときに、PROM143か
らSSP 140へ書き込みクロックを与えると、IO
デテーバス130からマルチプレクサ144を介して転
送される検索文字列が5SP140へ登録される。それ
が終わった後、PROM143からカウンタ141ヘパ
ルスを送り 用語辞書メモリ125ヘアドレス信号を与
える。マイクロプロセッサ147はアドレスの開始位置
とサイズをホストコンピュータ110から受は付けて、
PROM143のパルス発生回数を制御する。
用語辞書メモリ125ヘアドレスを与えると。
第2図に示したような階層的配列の文字列がマルチプレ
クサ144を介して5SP140へ転送される。その期
間にはPROM143が5sp140へ検索クロックを
与えると、用語辞書の文字列か検索モードの5SP14
0で検索される。
マツチ信号があったときの用語辞書メモリアドレスを表
示手段135に伝達することができる。それをマツチ文
字列の位置表示(マーカ)に使える。
表示画面でマツチした文字列位置のまわりをスクロール
し、用語辞書の中の類似検索文字列位置をマウスで指定
すると、再び、マイクロプロセッサ147を使って、辞
書メモリのアクセスするアドレス範囲が指定される。
その部分の文字列を辞書メモリから読み出し、マルチプ
レクサ144を介して5SP140へ送る。区切り記号
検出回路146と改行やスペースを区切り記号として検
出し、5SP140へデリミタ信号として与える。それ
によって、登録させる類似検索文字列が切り出される。
この登録手段145によって検索文字列だけが左に倒れ
たスイッチSIを経由して順次に書き込みモードの5S
P140へ登録される。
次に、第1図(a)でのテキスト検索方法と検索結果を
説明する。まず、検索される文書データをホストコンピ
ュータ110によって補助メモリ115からページ単位
のテキストデータとして、主記憶120上に読み出し、
IOデテーバス130と右に倒れたスイッチSIを介し
、5SP140へ転送する。
主記憶120から転送されるテキストデータを、類似検
索文字列の登録され終わった5SP140へ与えると、
どの検索文字列でマツチ信号発生があったかを示す検索
結果が出力される。それをすぐにホストコンピュータ1
10に返さないで、マツチ回数メモリ155に貯える。
文書データの一部ページ数分のテキストデータが転送し
終わると、タイミング制御回路160の発生するデータ
転送りロックとアドレス信号を使ってマツチ回数メモリ
155の内容を主記憶120へ転送する。ページ数の最
大値はマツチ回数メモリ155の容量によって決る。マ
ツチ回数メモリ155は検索文字列の個数に等しい計数
回路(バイナリ−カウンタ)を用意するだけで実現され
るが、ハードウェア量が大きくなりすぎる。
第3図(a)はマツチ回数記憶手段の具体例とそこに記
憶される検索結果の実例を示す図である。
マツチ回数記憶手段はマツチ回数メモリ155とそれに
つながるRボート154とWボート153とマツチ回数
加算器152と文字列アドレススキャナ161やレコー
ドまたはページの番号スキャナ162から成る。
5SP140によってテキストデータを検索する期間に
は、検索文字列のクラスコードとページ番号が5SP1
40やホストコンピュータからマッチ回数メモ−′す1
55のアドレス端子に与えられる。マツチ回数メモリ1
55の各アドレスに記憶される値は、各テキストデータ
のレコード単位あるいはページ単位での各検索文字列の
出現回数である。文字列マツチの発生の都度、そのとき
までの回数がRボート154から読み出され、加yL器
152で1を加算され、その結果、Wボート153から
マツチ回数メモリ155に最新のマ・ンチ回数(8ビツ
ト)が書込まれる。
文字列数が128個で、ページ数が1024で、マツチ
回数の最大値が8ビツトとすると、メモリ容量は1Mビ
ットでなければならない。これはIMbのSRAMメモ
リチップ1個で簡単に実現される。タイミング制御手j
9160はマツチ回数メモリの読みだし書込み動作に必
要なタイミングパルスも発生する。特に、検索結果を出
力するときには、マツチ回数メモリ155のアドレスに
入力される信号が5SP140の出力から文字列アドレ
ススキャナ161の出力に変わる。このアドレススキャ
ナ161はタイミング制御手段160の発生するクロッ
ク信号でカウントアツプされる。
第3図(b)はSSP 140の後ろに用意されたマツ
チ回数メモリ155の内容を示す。テキストサーチによ
って求まった、レコードやページ番号別の検索文字列の
出現回数例を示している。各列の数字が各検索文字列の
検出回数である2各行は各検索文字列の文書レコードで
の出現回数の分布を示していることになる。
このような検索結果はテキストデータメモリ220から
5SP140へ高速に入力されるテキストデータの検索
期間に書き込みモードのマツチ回数メモリ155に順次
に蓄積される。検索結果は検索か終わるまで主記憶12
0へ送り返される必要がない。
テキストデータ検索後は、マツチ回数メモリ155のア
ドレス入力端子につながるスイッチS2を上側に切り替
える。したがって、アドレススキャナ161とレコード
スキャナ162か、読み出しモードの状態のマツチ回数
メモリ155にアドレス信号を与える。それによって、
検索文字列のクラスコードとテキストレコード番号が順
次に走査され、(b)に示すマツチ回数メモリ155の
内容が一列づき出力される。ホストコンピュータ310
へ送り出される。
第1図から第3図による実施例の説明では、テキストデ
ータを外部から転送される代りに、転送期間中の検索結
果をマツチ回数メモリ155に貯えておくので、IOデ
テーバス130上でのデータ衝突を回避している。した
がって、テキストデータのIOデテーバス上での転送速
度さえ高速化されれば、検索時間は短縮される。問題は
テキストデータサイズが主記憶120の記憶容量て制約
されることである。
第4図は本発明の第2の実施例の構成図である。
用語辞書メモリ125、表示手段135、文字列登録手
段145、文字列検索プロセッサ5SP140、テキス
トデータメモリ220、アドレス走査手段225、マツ
チ回数メモリ155、タイミング制御手段160から成
る0文書の中のテキストデータがホストコンピュータ1
10側の上記゛憶120から−ffsP140へ直接に
転送される代りに、1度、テキストデータメモリ220
に格納され、その後、5SP140で検索される。その
他は第1図の場合とほとんど同じである。
はじめに、磁気ディスクやCDROMなどの補助メモリ
115からテキストデータが主記憶120に読み出され
、それから、半導体集積回路による高速なテキストデー
タメモリ220に転送される。主記憶120の記憶容量
に制限かあるので、大きなテキストデータはIMb程度
の単位のレコードに区切られ、多数回に渡り、テキスト
データメモリ220へ書込まれる。
テキストデータメモリ220はIMbのDRAMチップ
を1ボード上に256個程度配列するだけで32Mbは
記憶容量を実現する。ディスクメモリに較べると大容量
と言えないが、IMbチップが4Mbや16Mbチップ
に置き換えられ、数年すると、同じチップ個数でボード
記憶容量が128Mbや512Mbに増える。パーソナ
ルコンピュータに接続するファイルメモリとして手ごろ
であり、チップの並列動作によってデータ転送速度が2
0 M B / s以上になる。
各テキストデータのサイズSiが計数され、テキストデ
ータメモリ220の各レコードの先頭アドレスAiに加
算され、次のテキストデータレコードの先頭アドレスか
決り、保持され1次のデータサイズSi+1か与えられ
ると、その次のアドレスAi+lが計算される。このよ
うに、テキストデータの転送に合わせて、AiとStか
与えられる。それがアドレス走査手段225の中でテキ
ストデータメモリ220のアドレス生成に使われる。
したがって、テキストデータメモリ220には、テキス
トデータが隙間なく格納される。タイミング制御手段1
60の発生するクロックパルスをアドレス走査手段22
5に与えると、アドレスがインクレメントされ、テキス
トデータメモリ220からテキストデータが下に倒れた
スイッチSIを介して、5SP140へ連続的に転送さ
れる。
第5図はアドレス走査手段の一具体例の回路図である2
このアドレス走査手段225には9m個のテキストデー
タのサイズの系列Si、i=1゜2.3.・・・1mと
開始アドレスの系列Ai、i−1,2,3,・・・1m
を貯えるマツプメモリ525が使われている。系列デー
タは、テキストデータの転送時に、データレジスタ52
4からマ・ツブメモリ525に順次に書込まれる。At
をA1−1+5i−1から計算すると、マツプメモリ5
25は半分で済むが、計算回路を使う方がサイズが大き
くなる。
テキストデータ読み出し時にアドレスカウンタ528が
テキストデータメモリ220にアドレス信号を与える。
レコードの終わりのアドレスはマツプメモリ525から
読み出されるStとAtを加算器526で加算すること
によって、エンドアドレスレジスタ527に保持される
。上記アドレス信号がこのエンドアドレスと比較回路5
29で比較される。
比較回路529の出力はテキストデータメモリ220の
アドレス信号がレコードの終わりに達したことを示す。
その信号が検出される都度、レコード番号カウンタをカ
ウントアツプする。それによって、1つのレコードか終
わると、次のレコードのエンドアドレスがレジスタ52
7に設定される。アドレスカウンタ528の出力するア
ドレス信号は全レコードの読み出しが終わるまでカウン
トアツプされ続ける。レコード番号カウンタ523はマ
ツチ回数メモリのアドレスに使われる。
第6図はテキスト検索プロセスの状態図である。
第4図におけるタイミング制御手段160の機能設計に
必要な検索動作の状態遷移を示している。
この第6図で、始めの状態610はホストコンピュータ
110fFlでの文書の検索条件や検索範囲の指定を行
なう処理を言う。その内訳は、第1が、補助メモリ11
5から用語辞書を主記憶120へ読み出し、その内容を
表示することと、用語辞書を用語辞書メモリ125へ転
送することである。
第2が、検索される文書データの格納場所を示すマツプ
テーブルを補助メモリ115から主記憶に読み出して、
表示し、検索範囲を指定し、テキストデータメモリ22
0のアドレス管理手段に設定することである。第3が、
検索範囲内の該当するテキストデータレコードをレコー
ド単位で補助メモリ115がら主記憶120へ読み出し
、部分表示で内容を確認しそれをテキストデータメモリ
220へ転送することである。
次の状態620は用語辞書メモリの内容の表示手段によ
る表示と、マウスによる表示位置の設定と、検索文字列
の切出しと、5SP140への登録を行なう処理からな
る。
そのつぎの状態630は、テキストデータメモリ220
のアクセスによるテキストデータの5sP140への高
速入力とテキストサーチ動作の実行からなる。この期間
に各検索文字列が各テキストデータレコードにどの程度
含まれるかを示す検索結果がマツチ回数メモリ55に格
納される。
第4の状態640は、マツチ回数メモリ155から検索
結果を主記憶120に転送し、それを表示することと、
検索結果を見て、レコード番号を指定し、該当するテキ
ストデータをテキストデータメモリ220から読み出す
こと、さらに、テキストデータの中のマツチ文字列の終
わり部分にマークを付加して、表示することから成る。
第5の状!9650は階層的に用語文字列を配列したシ
ソーラスに、検索結果によって求まった知識の用語文字
列を付は加え、辞書を修正する学習プロセスと、テキス
トデータの分類を正すようにファイル番号を付は変える
学習プロセスを含む。
学習プロセスを繰り返すことによって、検索者の知識体
系が整理され、かつ、文書のテキストデータが新しい知
識の用語文字列を加えた元で正しく分類されるようにな
る。
第4図から第6図までの実施例の説明によると、半導体
集積回路のテキストデータメモリ220を使うことによ
って、テキストデータの検索は高速化されるが、テキス
トデータの削除や追加などの編集作業の高速化が困難な
ままである。
すなわち、テキストレコードの変更が必要な時は、テキ
ストデータメモリ220の内容をいったんクリヤする。
そのあと、変更したい文書レコードが補助メモ−υから
主記憶120へ読み出され、ホストコンピュータ110
側で修正される。修正後、該当文書レコードが補助メモ
リにセーブされる。全文書レコードのテキストデータメ
モリ220への設定は補助メモリから主記憶120を介
し、検索したい文書レコード順に行なわれる。
したがって、折角、高速のテキストデータメモリ220
を待ってても、テキストデータの変更や削除に時間のか
かる問題か残る。
第7図は本発明の第3の実施例の構成図である。
第4図の実施例の問題を解決するため、テキストデータ
メモリ220上で、文書レコード単位のデータ変更を可
能にするアドレス管理手段700が、アドレス走査手段
225の代りに、導入される。
それはマツプメモリ725を中心にマツプメモリへのR
/Wデータレジスタ724とアドレス加算器726とエ
ンドアドレスレジスタ727とアドレスカウンタ728
とアドレス比較器729とレコード番号の変更信号レジ
スタ721とレコード番号カウンタ723とを備えたも
のである。
レコード番号Nと対応したテキストデータの格納エリヤ
のサイズSと開始アドレスAがこのマツプメモリ725
に格納され、その内容はデータレジスタ724とIOデ
テーバス130を介してホストコンピュータ110側の
主記憶120に転送され、表示される。NとSとAの関
係テーブルが主記憶で用意され、レジスタ724を介し
てマツプメモリ725に書込まれる。マツプメモリ72
5のアドレスを走査しながら、マツプメモリ725の内
容を読み出すと、開始アドレスAがアドレスカウンタ7
28に設定される。それと同時に、アドレス加算器72
6でAとSの和が計算され、エンドアドレス727に保
持される。
その後、タイミングパルスをカウンタ728へ送ると、
アドレスカウンタ728の内容がカウントアツプされ、
テキストデータ220の記憶データが番地Aから順次に
読み出され、5SP140でテキストサーチが起こる。
比較器729でアドレスカウンタ728の出力がレコー
ドのエンドアドレスA+Sに到達すると、タイミング制
御手段160にクロックパルスの発生を停止される。1
つのレコードのテキストサーチか完了する。完了の都度
、変更信号レジスタ721かパルス信号を発生する。
このパルス信号でカウンタ723をカウントアツプし、
マツプメモリ725をアクセスし、AとA+Sをカウン
タ728とレジスタ727に設定し、再びタイミングパ
ルスをカウンタ728に与えると、テキストデータメモ
リ220のアクセスが始まり、5SP140でのテキス
トサーチか起こる。
第8図はテキストデータメモリのアドレス管理動作の一
例を示す図である。
(a)が文書データのテキストデータメモリ220への
初期設定動作を示す。テキストデータメモリ220に何
も格納されていない状況で、サイズS1の#ルコード、
サイズS2の#2レコード、サイズS3レコードの#3
レコード、サイズS3レコードの#4レコードが順次に
隙間なくテキストデータメモリ220に格納される。
このためには、マツプメモリ725に記憶される開始ア
ドレスA1.A2.As 、A−、とサイズs、、s2
.s、、s、がルコード分のアクセスの終わる都度、順
次に読み出される。それに伴って、カウンタ728にA
t 、A2.AsA4がセットされ、レジスタ727に
A + + S + 。
A2−+−52,A、±33.A4+34がセットされ
る。
(b)は#2レコードが修正される場合を示す。
#2レコードが主記憶120に移された後、ホストコン
ピュータ110で修正され、テキストデータメモリ72
0に戻される。そのときに、新しい#2レコードのサイ
ズか元のレコードサイズより大きい時は、新しい記憶エ
リヤに書込まれる。そのとき、アドレス管理手段のマツ
プメモリ725には#2に対応付けて新しい開始アドレ
スA2と新しいサイズS2が書込まれる。その結果、元
の#2レコードのデータは読みだしできなくなる。
もちろん、新しいレコードのサイズが元のものより小さ
い場合には、#2に対応付けて元の開始アドレスA2と
新しいサイズS2がマツプメモリ725に書込まれる。
(c)は新しいレコードを追加する場合を示す。
サイズS、の#5レコードか追加される場合に、#5レ
コードめサイズが空きエリヤS2より大きい場合、#5
レコードは新しい記憶エリヤに書込まれる。それに合わ
せてマツプメモリ725には、#5に対応付けてA、と
S、が書込まれる。
(d)はレコード削除の場合である。たとえば、#3レ
コードを削除する場合、マツプメモリ725の#3に対
応したアドレスA、とサイズS3をA3とOに書き換え
るだけで良い。レコード番号の#3を0に変えると、A
、はどんな値でもよいことになるが、空きエリヤの検索
を容易にするためにはA、も0の方がよい。
(e)は記憶されたレコードの空きエリヤへの移動を示
す。ガーベジコレクションのために使われる。マツプメ
モリ725の内容を全て主記憶120に転送し、レコー
ドの格納状況を調べることができる。今の例では、旧の
#2と#3のレコードエリヤが空いたまま残っている。
そのエリヤに新しい#2と#5レコードを収容できる。
したがって、まずは、マツプメモリ724の#2.#5
に対応した部分をアクセスし、その内容にしたがって、
テキストデータメモリ220から#2と#5のレコード
を主記憶120へ読み出す6次に、マツプメモリ725
の#2と#5レコードに関する部分の開始アドレスA2
とA、を書き変える。
次に、マツプメモリ725の#2と#5のレコードに対
応した部分のA2.A5とs、、S、を読み出して、書
込みモードのテキストデータメモリ220へ#2と#5
のレコードを書き込む。いしようで、#2と#5のレコ
ードの移動が完了したことになる。
第9図は本発明の第4の実施例の構成図である。
用語辞書メモリ125と、指定範囲の用語辞書に含まれ
る文字列を類似検索文字列として切り出す文字列登録手
段145と、前記検索文字列を先舷!1から順に記憶す
る第1の文字列照合手段5SP141と語尾から順に記
憶する第2の文字列照合手段5SP142と、検索され
る文書データを記憶するテキストデータメモリ220と
、そこでの又署アータの順次書き込み・読み出し動作を
制御するアドレス管理手段700とを備えている声は第
4図や第7図とほとんど同じである。
この他に1文書データに対する第1文字列昭合手uss
P141の照合結果によりテキストデータメモリ220
と同じアドレスにマツチ信号を書き込むマツチ位置メモ
リ222と、第2文字列前合手段5SP142の照合結
果を貯えるマツチ回数記憶手段155と、マツチ回数記
憶手段155の内容を順次に出力するためのクロック信
号とアドレス管理手段700並びに全体の動作を制御す
るタイミング信号を発生するタイミング制御手段160
と、アップダウン切り否信号レジスタ961を備える。
第1文字列前合手段5SP141で文字列マツチがある
と、スイッチS5と86が右と上へ切り替えられるとす
る。その時点からマツチ位置記憶手段222への1力書
き込みを開始し、テキストデータ記憶手段220の記憶
データを逆読みで出力させ、レジスタ961のセ・ソト
でテキストデータが5SP142に入力される。
第2文字列叩合手段5SP142で文字列マツチ信号が
あると、マツチ位置メモリ222への1の書込みを終了
させ、スイッチS5と86を元の状g(左と下)へ切り
替え、レジスタ961の内容を元に戻す。それによって
、テキストデータか5SP141に与えられると同時に
、テキストデータメモリ220は順読みのモードに切り
替わる。
そこでは、マツチ位置メモリ155の記憶内容をテキス
トデータメモリ220の内容と共に表示手段135に与
えると、テキストデータ内の検索文字列にマツチした文
字列がマークされて表示されるようになる。
(発明の効果) 以上に述べたように、本発明によれば、文字列検索プロ
セッサ5SP140と共に、用語文字列メモリ125や
、半導体集積回路の高速−rキストデータメモリ220
や、マ・ソチ回数メモ’) 155やアドレス管理手段
700を導入することによって、TO−F−一タバス1
30でのデータ転送文・ツクによる検索時間の増加する
問題を解消し、検索速度をSSPの処理能力き゛りぎり
まで高めろことかできた。また、検索文字列を1つ与え
るたけて、概念上で関連のある類似検索文字列の位置を
高速に見つけ出せ、それ等検索文字列を切り出して、5
SP140へ登録し、各文字列の出現回数を出力するこ
とで検索もれを無くせるようにした。
検索時間の問題とシソーラスの問題の解決された理由を
まとめると、以下のようになる。
まず、検索速度問題は、半導体集積回路のテキストデー
タメモリを使い、そこへ、大容量のテキストデータを格
納してから、10データバスを介さす、その内容を順次
に読みだし、SSPに高速テキストサーチを行わせ、検
索結果をマツチ回数メモリに貯め込む事で、解決される
。読みだし速度が20 M b / sでデータサイズ
がIGBであれば、2Bづつの続みなりのテキストサー
チ時間か25秒となる。マツチ回数メモリの内容はテキ
ストサーチの終了後に、1秒より十分短い時間で出力さ
れる。パーソナルユースでの文書検索システムはこの時
間はそう長くない。
次に シソーラスl?F1類は テキストサーチによる
文書検索結果に基づいてシソーラスに含まれる用語文字
列が概念の階層を意識して付は加えられて行くために、
個人的に関心ある分野の専門用語のシソーラスが知識体
系として確立され、そのシソーラスを使ってテキストサ
ーチを行える学習効果によって解決される。
【図面の簡単な説明】
第1図(a)は本発明の第1の実施例の全体の回路構成
を示す図、同図(b)は部分図である。 第2図は用語辞書における文字列の配列の説明図、第3
図(a>はマツチ回数メモリの具体例を示す図、同図(
b)はマツチ回数メモリの内容の一例を示す図、第4図
は本発明の第2の実施例の構成図、第5図はアドレス走
査手段の一具体例を示す回路図、第6図は用語辞書によ
る文書検索動作のプロセスの状態図、第7図は本発明の
第3の実施例を示す構成図、第8図はアドレス管理手段
の動作説明図、第9図は本発明の第4の実施例を示す構
成図である。第10図は従来力文@検索システムと文字
列検索グロセンサの説明図である。

Claims (8)

    【特許請求の範囲】
  1. (1)用語辞書の文字列を階層的に記憶する第1データ
    記憶手段と、検索文字列で指定される範囲の用語辞書に
    含まれる文字列を類似検索文字列として切り出す文字列
    登録手段と、検索文字列を記憶する文字列照合手段と、
    外部から入力される文書データに対する文字列照合手段
    の照合結果を記憶するマッチ回数記憶手段と、その内容
    を用語辞書の文字列配列順に出力する信号と全体の動作
    を制御する信号を発生するタイミング制御手段とを備え
    ることを特徴とする用語辞書による文書検索システム。
  2. (2)用語辞書の文字列を階層的に記憶する第1データ
    記憶手段と、検索文字列で指定される範囲の用語辞書に
    含まれる文字列を類似検索文字列として切り出す文字列
    登録手段と、検索文字列を記憶する文字列照合手段と、
    検索される文書データを順番に記憶する第2データ記憶
    手段と、第2データ記憶手段での順次書き込み読み出し
    のためのアドレス走査手段と、マッチ回数記憶手段と、
    その内容を用語辞書の文字列の配列順に出力する信号と
    アドレス走査手段並びに全体の動作を制御する信号を発
    生する制御手段とを備えることを特徴とする用語辞書に
    よる文書検索システム。
  3. (3)用語辞書の文字列を階層的に記憶する第1データ
    記憶手段と、検索文字列で指定される範囲の用語辞書に
    含まれる文字列を類似検索文字列として切り出す文字列
    登録手段と、前記検索文字列を記憶する文字列照合手段
    と、検索される文書データを記憶する第2データ記憶手
    段と、そこでの任意配列文書データの書き込み・読み出
    し動作を制御するアドレス管理手段と、文書データに対
    する文字列照合手段の照合結果を貯えるマッチ回数記憶
    手段と、マッチ回数記憶手段の内容を用語辞書の文字列
    の配列順に出力する信号とアドレス管理手段並びに全体
    の動作を制御する信号を発生するタイミング制御手段と
    を備えることを特徴とする用語辞書による文書検索シス
    テム。
  4. (4)用語辞書の文字列を階層的に記憶する第1データ
    記憶手段と、検索文字列で指定される範囲の用語辞書に
    含まれる文字列を類似検索文字列として切り出す文字列
    登録手段と、前記検索文字列を先頭からと後尾から順に
    記憶する第1と第2の文字列照合手段と、検索される文
    書データを記憶する第2データ記憶手段と、そこでの文
    書データの順次書き込み・読み出し動作を制御するアド
    レス管理手段と、文書データに対する文字列照合手段の
    照合結果を貯えるマッチ回数記憶手段と、第2データ記
    憶手段と同じアドレスにマッチ信号を書き込むマッチ位
    置記憶手段と、マッチ回数記憶手段の内容を用語辞書の
    文字列配列順に出力するためのクロック信号とアドレス
    管理手段並びに全体の動作を制御する信号を発生するタ
    イミング制御手段とを備え、第1文字列照合手段で文字
    列マッチがあると、マッチ位置記憶手段への論理信号1
    の書き込みを開始し、第2データ記憶手段の記憶データ
    を逆順読みで出力させ、第2文字列照合手段で文字列マ
    ッチ信号があると、論理信号1の書き込みを終了させ、
    第2データ記憶手段の記憶データを順読みに切り替える
    ことを特徴とする用語辞書による文書検索システム。
  5. (5)文書検索の前に、検索文字列を文字列照合手段に
    登録し、用語辞書を検索して、類似検索文字列の範囲を
    決定し、それを文字列照合手段へ追加登録し、文書デー
    タの検索を行い、検索終了後、用語辞書の指定範囲内の
    類似検索文字列を配列順に、再度、文字列照合手段へ入
    力し、各検索文字列の入力の都度、マッチ回数記憶手段
    の内容をレコード番号を走査して順次に出力するように
    したことを特徴とする請求項1、2、3又は4に記載の
    用語辞書による文書検索システム。
  6. (6)用語辞書の中における文字列の先頭文字位置がネ
    ストレベルを示すように階層的に配列されること、指定
    範囲の文字列がORやANDなどの検索条件信号と共に
    第1のデータ記憶手段に記憶されること、文字列が改行
    、スペース、コンマなどの特定記号コードを区切り信号
    に使い、文字列照合手段へ登録されることを特徴とする
    請求項1、2、3又は4に記載の用語辞書による文書検
    索システム。
  7. (7)新しい文書レコードが入手される都度、用語辞書
    の文字列による検索で、階層的配列の文字列のどれに類
    似したものかを判別し、文書レコードのファイル番号を
    決定し、ファイル管理に利用することを特徴とする請求
    項1、2、3又は4に記載の用語辞書による文書検索シ
    ステム。
  8. (8)用語辞書による文書検索の結果を見て、用語辞書
    内の階層的配列の文字列に文字列に新知識や新概念の文
    字列を加え、不要の文字列を削除し、用語辞書を修正し
    ていくことを特徴とする請求項1、2、3、4、5又は
    6に記載の用語辞書による文書検索システム。
JP2339176A 1990-11-30 1990-11-30 用語辞書による文書検索システム Expired - Lifetime JP2961888B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2339176A JP2961888B2 (ja) 1990-11-30 1990-11-30 用語辞書による文書検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2339176A JP2961888B2 (ja) 1990-11-30 1990-11-30 用語辞書による文書検索システム

Publications (2)

Publication Number Publication Date
JPH04205561A true JPH04205561A (ja) 1992-07-27
JP2961888B2 JP2961888B2 (ja) 1999-10-12

Family

ID=18324959

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2339176A Expired - Lifetime JP2961888B2 (ja) 1990-11-30 1990-11-30 用語辞書による文書検索システム

Country Status (1)

Country Link
JP (1) JP2961888B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07319906A (ja) * 1994-05-27 1995-12-08 Fujitsu Ltd 同義語検索処理方式および文字列検索システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07319906A (ja) * 1994-05-27 1995-12-08 Fujitsu Ltd 同義語検索処理方式および文字列検索システム

Also Published As

Publication number Publication date
JP2961888B2 (ja) 1999-10-12

Similar Documents

Publication Publication Date Title
US5706365A (en) System and method for portable document indexing using n-gram word decomposition
US7440947B2 (en) System and method for identifying query-relevant keywords in documents with latent semantic analysis
AU2001282106B2 (en) Associative memory
US6138114A (en) Sort system for merging database entries
US5293616A (en) Method and apparatus for representing and interrogating an index in a digital memory
AU2001282106A1 (en) Associative memory
EP0241717A2 (en) Linguistic analysis method and apparatus
JP2693914B2 (ja) 検索システム
KR100459832B1 (ko) N-그램워드(n-gramword)분해원리를이용하여이식가능한문서를인덱싱하는시스템및방법
JPH05101102A (ja) 検索装置
JPH04205561A (ja) 用語辞書による文書検索システム
JPH1027183A (ja) データ登録方法および装置
JPS59105141A (ja) 電子的文書の管理方法
JPH04308B2 (ja)
JP2002132789A (ja) 文書検索方法
JP2560656B2 (ja) 文書ファイリングシステム
JPH0752450B2 (ja) 辞書デ−タ検索装置
EP0649106B1 (en) Compactly stored word groups
JPH07296005A (ja) 日本語テキスト登録・検索装置
JPH09212523A (ja) 全文検索方法
JPH0991297A (ja) 文字列検索方法及び装置
JP2975529B2 (ja) 電子化辞書検索装置
JPH06309368A (ja) 文書検索装置
JPH0991304A (ja) 情報検索方法、情報検索システム及び情報検索用記憶媒体
JPH08180060A (ja) 電子辞書表示装置