JPH03174652A - データ検索方法および装置 - Google Patents

データ検索方法および装置

Info

Publication number
JPH03174652A
JPH03174652A JP2193015A JP19301590A JPH03174652A JP H03174652 A JPH03174652 A JP H03174652A JP 2193015 A JP2193015 A JP 2193015A JP 19301590 A JP19301590 A JP 19301590A JP H03174652 A JPH03174652 A JP H03174652A
Authority
JP
Japan
Prior art keywords
search
character
string
document
magnetic disk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2193015A
Other languages
English (en)
Other versions
JP2986865B2 (ja
Inventor
Kanji Kato
加藤 寛次
Hiromichi Fujisawa
浩道 藤澤
Mitsuo Oyama
大山 光男
Hisamitsu Kawaguchi
川口 久光
Atsushi Hatakeyama
敦 畠山
Noriyuki Kaneoka
則幸 兼岡
Mitsuru Akisawa
秋沢 充
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2193015A priority Critical patent/JP2986865B2/ja
Publication of JPH03174652A publication Critical patent/JPH03174652A/ja
Application granted granted Critical
Publication of JP2986865B2 publication Critical patent/JP2986865B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
〔産業上の利用分野〕 この発明は、情報検索システム、特にスキャン方式に基
づく全文検索方法及びその装置(フルテキストサーチシ
ステム)に係り、特に統制されていないキーワード(自
由語と呼ぶ)を用いて検索する際に回議語や表記法の違
いによる検索もれをなくすのに好適な文書検索方法及び
装置に関する。 また、この発明においては、被検索文字列中に複数の文
字列集合が存在するか否かを一括して判定するのに適し
た方法及び装置を提供するものである。さらにこの発明
によれば、上記の方法を実施する装置に適した記憶容量
が大きく、短時間の書き込み、読み出しが可能な集合型
磁気ディスク装置、並びに、複数件のファイルの連続書
き込み、読み出しに適した集合型磁気ディスク装置を提
供するものである。 〔従来の技術〕 近年、文献情報や特許情報などの2次情報(書誌情報)
のみならず、1次情報(本文)をも含む大規模データベ
ース・サービスの重要性が増している。このようなデー
タベース(DBと略すこともある)の情報検索では、従
来からキーワードや分類コードによる方法が用いられて
きている。 キーワードは、データベースへの情報登録時に、キーワ
ードを付与する(インデキシングと言う)専門家が統制
語集(シソーラスと呼ぶ)から選んで付けている。そし
て、DB検索者もこのシソーラスからキーワードを選び
出して検索を行なう方式がとられている。しかしながら
、このキーワード付与作業は、非常に煩雑な作業を伴う
。すなわち、登録すべき文書の内容を読み、この内容を
表現する適切な語索をシソーラスから選び出す必要があ
る。もしインデキシングを適切に行なわなければ、デー
タベースから正しい情報が得られないことになる。従っ
て、このインデキシングには文書の内容に関する専門知
識を持ち、かつシソーラ9ら スに登録されている語8にも精通した専門家が必要にな
るという問題がある。また、検索時にも同様に、シソー
ラスに則った適切な語紮をキーワードとして指定しなけ
れば、要求する文書を呼び出せなかったり、あるいは呼
び出した文書の中に不要なものが混しり込むという問題
がある。 また、このシソーラスにおいては、分類体系自゛体が年
月と共に変化するため、常にキーワードや分類コードを
更新しなければならないという問題も生じてくる。 更に、インデキシングには時間がかかるため、新たな文
書はバッチ処理によりかなりの量をまとめて登録するこ
とになる。そのため、検索できる情報は常に一定期間の
おくれを持つという問題もある。このようなことから、
DBの普及に伴い、DBの専門家でなくとも、シソーラ
ス等に拘束される゛ことなく、簡単に自由語(非統制語
ともいう)で、文書の登録、検索が行なえるシステムが
望まれてきた。 また、データベースが大規模化するに従い、シツーラス
に記述された統制語だけでは文書の内容を十分詳細に記
述できないため、キーワードで検索しても数十件から数
百件までにしか絞り込めなくなってきている。この中か
ら目的とする文書を見つけ出すためには、それらの内容
を直接読むしか方法がなく、これが検索効率」二の大き
な問題となっている。 このシソーラスの制限語を用いたインデキシングに基づ
く現状の検索方式の問題に対して、自動抄録や自動イン
デキシングの試みがなされてきているが、日本語の場合
その言語的な困難性から、やはり種々の辞書を必要とす
るため上記の本質的な問題の解決に至っていない。 このような自由語による検索の過程では、しばしはユー
ザの指定するキーワードすなわち検索文字列と、検索対
象であるDB中で用いられている言葉が同一の内容を示
すのにもかかわらず、表記あるいは表現が食い違ってい
るために検索漏れを生ずる場合がある。例えば、 ″ピアノ″という言葉を″ピャノ″ 万 と記述したり、また ″インターフェイス″という言葉を ″インタフェース″、′インタフェイス”あるいは “インターフェース” と記述したりすることがある。このような微妙な音節表
記法のバリエーションの違いにより、所望する情報を検
索できない場合がある。 以下、表記法の異なる文字列に展開することを異表記展
開と呼び、辞書を用いて他の文字列へ展開することを同
義語展開と呼ぶ。また、表記法の異なる文字列のことを
異表記と呼ぶ。 これらの問題に対する根本的解決方法として、検索者が
自由なキーワード(自由語あるいは非統制語と呼ぶ)に
基づいて文書の本文を直接参照して内容を検索できる全
文検索(フルテキストサーチと呼ぶ)システムが提案さ
れている。 その代表的な構成を第1図に示し、以下その内容につい
て説明する。 検索システム101はホスl−コンピュータに接々l 続され、通信回線を介して検索要求の受信及び検索結果
め送信を行う。ホストコンピュータから検索要求107
が送られると、検索制御手段103がこれを受け付け、
解析して、文字列照合手段105と複合条件判定手段1
04へこれに対応した検索制御情報108を送る。また
、検索制御手段102は記憶装置制御手段103を制御
して、文字列記憶手段106に格納されている文字列デ
ータ(テキストデータ)111を文字列照合手段105
へ転送させる。 文字列照合手段105は入力された文字列データと、予
め設定された検索文字列(キーワード)との照合を行い
、該当する文字列を検出すると検出情報110を複合条
件判定手段104へ出力する。複合条件判定手段104
は検索要求中に記述された文字列間の位置関係や共起関
係などに関する複合条件に検出情報110が合致するか
否かを調べる。これに合致する場合には、該当する文書
データの識別情報や文書内容を検索結果109として出
力し、これをホストコンピュータへ送り返す。 こうした従来例の一つが、アール・エル・ハンスキン 
アント ホラー:″オペレーショナルキャラクタリステ
ィック オン ア ハードウェア ベイスト パターン
 マツチャー 、ニーシー エム トランザルジョン 
オン データベース システムズ、第8巻、第1号、1
983年(R,L、1(askjn  and  A、
  Ho]]aar  :   ”0peration
a]Characterj、stj、cs of a 
Hardtoare−Based PatternMa
tcher”、 ACM Trans、 on Dat
abase System。 Vol、、8. No、]、 1983) ニ記載され
ている。 上述した文字列検索装置200の要となる文字列照合手
段213における文字列の照合方式としては、有限オー
トマトンを用いて複数の文字列を1回の走査で検索する
方法が知られている。その代表的な方式としては、ニー
、ブイ、エーホ アンド エム、ジェイ、コラッシック
:“エフイシェント ストリング マツチング″、コミ
ュニケーションズ ニー シー エム、 第18巻、 
第6号、1975年+ A、V、 Aho and M
、 J、 Corasjck :”Efficj、en
t String Matching” 、  CAC
M、  Vol  18゜No、6.1975にその一
例が開示されている。 本文献には2種類のオートマトン作成方法とオートマト
ンを用いた文字列照合方法が詳細に述にられている。以
下、各々について説明する。 まず、第1の方法(以後、従来方法1と呼ぶ)について
第2図を用いて説明する。同図は、文字列データの中か
ら、ユーザから与えられたキーワードパインタフエース
″を検察するためのオーI・マトンの状態遷移図である
。ここで、円形はオートマトンの状態を、矢印は状態遷
移を表している。 各矢印に付記された文字はこれに対応した状態遷移が起
きる入力文字を示す。本図では″ン″以外および″イ″
以外の文字といった否定を表わす場合は否定記号″″を
付け’m”’ン″・コ “イ”)」と表わしている。矢印403は状態遷移の始
まる始点状態を示している。各円形の内部に記された数
値は、同状態の状態番号を示す。二重内は“インタフェ
ース″を照合したことを示す終点の状態を表している。 本方法の特徴は入力される可能性のある全ての入力文字
に対する状態遷移をオートマシンで記述している点にあ
る。このため状態遷移の数が多くなるため、キーワニド
の数が多くなるというオートマトンの作成時間が極めて
長くなるという問題がある。 以下、同図を用いて従来方法上の文字列照合動作につい
て説明する。オートマトンに文字が入力された場合、ど
の状態において入力文字の照合を行なうべきかをトーク
ンに置くことにより明らかにする。すなわち、トークン
とは、オートマトン内で遷移する状態の位置を表わすマ
ークである。 まず、初期設定としてトークンを始点状態である状態O
に置く。この例の場合、入力文字が″イ″であるとトー
クンは状態1へ移動する。もし、ここで″イ″以外の文
字が入ってきた場合はトークンは状態Oに移動する。一
方、トークンが状態1にあって入力文字がン”ならば、
トークンは状態2に移動する。“イ″であれば状態1に
移動する。″イ″′および″ン′″以外の文字であれば
状態〇へ移動する。次にトークンが状態2にある場合、
入力文字が″夕″ならば、トークンは状態3に移動する
。ここで、もし、パイ″が入力されたときは、トークン
は状態エヘ移動する。更に、状態3にトークンがある場
合、″フェース″が入力されると、トークンは状態4→
状態5→状態6→状態7と移動する。状態7は2重円で
記されており、ここでは“インタフェース″とう文字列
が照合されたことになる。 この従来方法上では入力される可能性のある全ての入力
文字に対する状態遷移をオー1〜マトンに記述している
ため、キーワードが多くなると状態遷移の数が多くなり
オートマトンの作成時間が極めて長くなるという問題が
ある。本方法を実現するハードウェアについては、特開
昭60−105039、特開昭60−105040に開
示されている。 次に、第2の方法(以後、従来方法2と呼ぶ)について
説明する。この従来方法2は従来方法上と比ベオートマ
トン作成時間を短縮するための工夫がされている。従来
方法2では、従来方法上と比ベオー1へマトンの作成時
間3分のlと大幅に改善されており、詳細について特開
昭6331153Qに述べられている。この従来方法2
を第3図と第4図を用いて説明する。第3図は、第2図
と同様に″インタフェース″を照合する場合のオートマ
トンの状態遷移図を示したものである。初期設定として
、トークンは始点状態である状態Oに置かれる。ここで
、入力文字パイ″が入力されたならばトークンが置かれ
ている状態Oで照合を行ない状態エヘ移動する。もし、
状態Oで″イ′″以外の文字が入ってきた場合はトーク
ンは状態Oに移動する。 一方、トークンが状態1にあって入力文字ン″が入力さ
れたならばトークンは状態2に移動する。 トークンが状態2にあって″夕″が入力されたならばト
ークンは状態3に移動する。ここでもし1−一クンが状
態3にあって同オートマトンに記述されていないパフ″
以外の文字、例えば″イタ′が入力されたときは、この
従来方法2では「フェイル」したと言い、第4図のフェ
イルテーブルを参照することになる。フェイルテーブル
には1・−クンが置かれている状態番号に対して再照合
す尺きフェイル先の状態番号が格納されている。この場
合、現在の状態番号3に対応するフェイル先の値0を得
て状態Oヘトークンを移動する。そして、ここで該入力
文字イ″につぃて照合することによりトークンは状態1
へ移動させる。このような機能をフェイル機能と呼んで
いる。更に、続けてUンタフェース”という入力文字列
が1文字づつ入ってきた場合、トークンは状態2→状態
3→状態4→状態5→状態6→状態7と移動する。状態
7は2重円で記されており、ここでは″インタフェース
′″という文字列が照合されたことになる。 例えば、キーワードとして″インタフェース″が与えら
れた場合、本文中にはユーザが指定した検索タームと異
なる表記(異表記)で記述されることもある。 本文には、″インタフェース″のように1′(長音記号
)の代わりに′−(マイナス記号)を使用したり(これ
を長音異表記と呼ぶ)、″インターフェース″のように
II  IIを付加したり(これを長音の有無と呼ぶ)
、″インタフェイス′tのように発音の表記の違いによ
り″フェー″を゛フェイ″と記述したりする(これを発
音異表記と呼ぶ)。 これらを全て検索するためには、これらの異表記を組合
せた″インタフェース″″インターフェース”、′イン
タフェイス″″インターフェイスII 、 Ifインタ
ーフェイス” パインタフエース″“インターフェース
″′インターフェ゛−ス〃″インターフェース″の9語
全てをキーワードとする必要がある。 この場合の例について第5図と第6図を用いて説明する
。第5図は、文字列データの中から、異表記を含む上記
9語を照合する場合のオー1−マトンの状態遷移図であ
る。 キーワードの先頭から比較して遷移文字が異なる場合は
別状前に分岐する。 例えば、パインタフエース”と1′インターフエース″
のキーワードの例では、キーワードの前方から比較する
と″インタ″までは同じであるが、その次の文字では“
フ”と“−”で遷移文字が異なる。このため状態3から
遷移文字フ″で状態22に遷移し、遷移文字II  I
Iで状態4へ遷移するといった状態遷移の分岐が起こる
。 すなわち、ある状態において遷移文字が異なる場合別々
の遷移先状態を割り付けているため氷状のオートマトン
になる。第6図はこのオートマトンに示されてない文字
が入力された場合の遷移先を示すフェイルテーブルの説
明図である。このように、異表記を含めて照合を行なお
うとすると、キーワードが多くなるため状態数が非常に
増加してしまうという問題が発生する。 また、文字列検索ではキーワードにdon’t car
e文字を使用することがある。キーワードに固定長のd
on’t care文字を使用した例を第7図と第8図
を用いて説明する。第7図は1文字の固定長のdon’
t care文字“?”を含むキーワード“A?B”を
検索する場合のオートマトンの状態遷S図を表わしてい
る。第8図はこのオートノ1〜ンに示されてない文字が
入力された場合の遷移先を示すフェイルテーブルの説明
図である。 この例では1バイトの文字コード(JISコードを用い
ている)の場合についてオートマトンを作成している。 if ?I+は任意の文字や記号との一致を許すことを
意味する文字記号である。従って、don’t car
e文字rr (7IIによる遷移は本図の状態1を遷移
元とする全ての文字コード00〜FFによる遷移として
表わされる。すなわち=′AOB IIは、先頭がrt
 A IIで間に任意の1文字が入り、末尾がLL B
 IIである文字列を検索するという指定になる。 このように簡単な検索条件でも固定長のdon’tCa
re文字が入るとオートマj・ンの状態数が非常に増加
してしまうという問題が発生する。 また異表記や同義語の問題を解決する方法として、特開
昭62−011932を提案した。なお、この引例の中
では、異表記展開のことを異表記発生と呼び、同義語展
開のことを類似語抽出と呼んでいる。 第9図に、この引例の構成をブロック図で示す。 この構成では、ローマ字やカタカナ表現で入力した検索
文字列を、−旦全てカタカナの標準化された表記の文字
列に変換する。すなわち、異表記発生の逆の操作により
、複数個の表記法を−っにまとめる表記の標準化処理を
まず最初に行なう。 また、アルファベラ1へ表現で入力された検索文字列も
外来語カナ変換により、カタカナ表現に統一される。 こうして、−旦標準化したカタカナ文字列を、同義語辞
書を用いて類似語展開し、入力したカタカナ文字列と同
義の単語をカタカナ文字列として出力する。類似語抽出
した後のカタカナ文字列は、カナ漢字変換を行ない漢字
文字列へ、カナ外来語変換を行ないアルファベット表現
の外国語に、カナローマ字変換を施してローマ字文字列
へ変換する。 このようにして、類似語抽出の結果であるカタカナ文字
列を、漢字、ローマ字、カタカナ、外国語の各表現に変
換して、それぞれ異表記展開する。 また、第]−図のこうした従来の文字列検索装置101
においては、文字列検索装置i 103−の構成要素で
ある文字列記憶手段106として大規模なデータの記憶
ができる磁気ディスク装置が必要となる。一般の磁気デ
ィスク装置はデータの入出力が高速にできない問題があ
り、また、データの入出力が高速にできるマルチヘッド
型の磁気ディスク装置は非常に高価であるという問題が
あった。 そこで、安価な一般の小型磁気ディスク複数台接続して
データの入出力の速度を高速化する集合型の磁気ディス
ク装置が考えられてきた。そのひとつとして特開昭60
−11.7326号公報記載の「画像データ分割記憶装
置」がある。 この装置は複数台の磁気ディスク装置を有し、磁気ディ
スク装置と同数の磁気ディスクコントローラ、入出力バ
ッファと外部装置との間のデータ輸送を制御するマスタ
コンl−ローラによって構成し、外部装置から入力した
データをマスクコントローラにおいて、入出力バッファ
の容量以下に分割し、その分割したデータを各磁気ディ
スクコン1−〇−ラに順次転送し、該磁気ディスクコン
トロ−ラは対応する磁気ディスク装置に書き込む。マス
タコン1−ローラは書き込みを行なっていない磁気ディ
スク装置の磁気ディスクコントローラに対し、シーク動
作を行なわせることによって、データを格納する複数の
磁気ディスク装置の2台目以降の、シーク時間を見掛は
上なくし、データの書き込み、読み出し時間を短縮しよ
うとするものである。 〔発明が解決しようとする課題〕 ところで、第1図に示した様な従来例の検索システムに
おいて大容量のテキス1−データベース検索しようとす
ると、下記のような幾つかの問題が発生してくる。 先ず第一に、検索時間の問題である。例えば、−文献当
り20KBの容量を持つ文献2万件を対象にしてフルテ
キストサーチを行おうとすると、400MBのデータを
スキャンしなければならないことになる。 この400MBのテキストデータを文字列記憶手段に格
納し、これを平均約I M B / sの実効速度で読
み出し、文字列照合手段においてこれと同等の速度で照
合処理を行ったとしても、検索を終了するには約7分を
要してしまう。すなわち、殻内な磁気ディスク装置を用
いたのではテキストデータの読み出しに時間が掛ってし
まい実用に耐えないという問題がある。すなわち、テキ
ストデータを納める文字列記憶手段の読み出し速度を文
字列照合手段の処理速度と同程度にまで高めるこ17 
’4必要となる。本発明が解決しようとする第一の課題
がここにある。 しかし、文字列記憶手段の読み出し速度を文字列照合手
段と同程度にまで高めたとしても、すなわち例えばIO
MB/sまで高速化したとしても、4、OOMBのテキ
ストデータをスキャンし終えるには、未だ40秒を要し
てしまう。これを実用上許容し得る数秒台に納めること
が、本発明の第二の課題である。 このスキャン処理の高速化という技術に関して、JP−
A −62−241026r文字列検索方式」が出願さ
れている。本「文字列検索方式」ては、テキストデータ
ーペース(ファイルと呼んでいる)の中に指定文字列が
あるかどうかを検索する処理を高速化するために、あら
かじめテキスト(データと呼んでいる)の内容を見てど
ういった文字がどの程度の頻度で用いられているかを調
べ「使用文字頻度分布テーブル」を作成しておく。 そして、検索時にはこの「使用文字頻度分布テーブル」
を参照して、ユーザが指定したキーワードの中の最も使
用頻度の低い文字を手掛かりにして最初テキス1−をサ
ーチし、これに照合するものがあれば、次にその前後の
文字についても照合を行う方式を提案している。 また、上記JP −A −62−241026では、キ
ーワードの最も頻度の低い文字の「使用文字頻度分布テ
ーブル」中での頻度が零の場合には、テキストをサーチ
することなく検索を終えることができるとしている。 したがって、JP−A −62−241026によれば
、無駄な文字照合回数を削減することができるため、検
索処理速度を上げる効果が得られることになる。 しかし、本方式は、テータヘース(ファイル)全体にお
ける「使用文字頻度分布テーブル」を作成し、これに基
づいてこの中のテキストファイル(データ)を検索する
ものである(図参照)。したがって、データベース全体
の中で、−度も現れない文字に関するキーワードを検索
する場合にはサーチ処理の効率化という点で効果が得ら
れるが、−殻内にデータベースの規模が大きくなると、
データベース全体で一度も現れないという文字はほとん
どなくなるため、本方式によるサーチ処理の効果はほと
んどなくなるという問題がある。 こうした問題を解決し、効率的なサーチ処理を実現し、
延いては等価的に高速なフルテキス1〜サーチを可能と
することが本発明の第二の課題となる。 一方、自由語を用いたフルテキス1〜サーチにおいては
、しばしば検索者が指定したキーワードと、テキス1−
本文中に記述されている言葉の間に、同じ意味を表して
いても表現に食い違いがあることがある。このような場
合には、異なる表現形態を持つ文献が検索漏れとなり、
目的の文書が検索されないことが生じてくる。このよう
な言葉の例として、同義語や異形語(異表記語あるいは
単に異表記とも呼ぶ)などがある。同義語の例としては
、「計算機」に対して「電子計算機」やr電算機」。 rComputer Jなどが挙げられる。また、異表
記の例としては、「コンピュータ」に対して「コンピュ
ーター」や「コンピュータ」、「コンピューター」、「
コン上0ニーター」、「コン上0ユータ」。 「コン上0ニーター」、「コンピュータ」、「コンピュ
ーター」や「コンピュータ」、「コンピューター」、「
コンピュータ」、「コン上0ニーター」、「コン上0ユ
ータ」、「コン上0ニーター」が、rcomputer
 Jに対してrcomputerJ 。 rcOMPUTERJなどが挙げられる。検索者が指定
するキーワードと文書の内容に記述されている言葉との
表記上の食い違いの問題に対処するためには、検索者が
これらの同義語や異表記をすべて指定して検索を行う必
要がある。しかし、異表記などは場合によって数百にも
及ぶ形態を取り得るため、検索者が−々指定するのは事
実上困難である。こうした問題を解決するのが、本発明
の第三の課題である。 すなわち、上記従来例では、表記を標準化する際に、元
の文字列が持つ情報を変えてしまうため、期待する展開
結果が得られないことがあった。 このことを、カタカナ表記の標準化用の部分文字列の変
換ルール 「“ホオ”→″ホウ」 を例にして説明する。この変換ルールを適用すると文字
列 “ジョウホオ” を ″ジヨウホウ” (情報) と正しく標準化される。しかにの同じ変換ルールを用い
ても ″ジョウオホン” (定保温) が入力された場合には ″ジョウホウン” と誤った文字列へ標準化してしまう。このことは、標準
化処理の後の同義語展開処理、更にその後に続く異表記
展開処理に影響をおよぼし、期待する展開結果が得られ
ないことになる。 本発明の課題の一つは上記の標準化を行なわずに、常に
期待する展開結果を得ることにある。 また上記引例では、同義語辞書によって″計算機″から
″コンピュータ”にキーワードを同義語展開するときに
、ユーザが入力する検索キーワードを、−旦すべてカタ
カナ表現に変換してから同義語展開し、そのあとでカナ
漢字変換、カナローマ字変換及びカナ外国語変換をする
構成となっている。そのため、同義語辞書は必ずカタカ
ナ文字列からカタカナ文字列へ展開するようなものでな
ければならなかった。すなわち、 見出し語二″コンピュータ” 同義語J:″ケイサンキ″ 同義語2:“ジョウホウショリソウチ”などと、単語間
の同義関係を常にカタカナ文字列で記述しなければなら
なかった。このことは、同義語展開後のカナ漢字変換辞
書及びカナ外来語変換辞書でも、必ずこれらに対応する
表現の文字列を出力するよう登録しておかなければなら
ないために、辞書が大きくなるという問題がある。また
、日本語には同じ読みを持っていても、意味の異なる同
音異義語が多く存在し、これが同義語展開時に弊害を生
じる。例えば“ケンサク”という文字列は″検索″とも
解釈できるし″研削″とも解釈できるので、カタカナ表
現のみによる同義語辞書では両者を区別できないという
問題がある。さらに、同義語展開後のカタカナ漢字変換
において、同音異義語を選択をユーザが対話的に行わな
ければならないという問題があった。 また、検索キーワードをカタカナ表現に変換するための
外国語カナ変換辞書や、同義語展開した後のカナ漢字変
換辞書及びカナ外国語変換辞書が必要であり、多種類の
大規模な辞書を使うためにその作成と保守が大変となる
という問題もある。 すなわち、本発明の第三の課題は上記のカナ漢字変換、
カナ外国語変換時における同音異義語の問題と、これら
の変換に用いる大規模な辞書の作戊、保守の問題を解決
することにある。 また、こうした数百にも及ぶ同義語や異表記を含めてキ
ーワードとして検索を行おうとすると、どうしてもこれ
らを−括して照合する文字列照合手段が必要となってく
る。さもなければ、同義語や異表記を含めて検索すると
、検索時間が数百倍掛ってしまい、とても実用に耐えら
れなくなってしまう。このように−千語に近い語数のキ
ーワードが指定されても、照合速度が低下することなく
検索処理を行い得る文字列照合手段を提供することが、
本発明の第四の課題である。 また、従来のオートマトンを用いた検索方式では、異表
記の場合、異表記を含むキーワードを全て列挙し、キー
ワードに展開する。さらに、これらに基づいたオートマ
トンを作成する。ここで作成されるオートマトンは本状
に記述されるため非常に多くのオートマトンの状態が必
要となる。 また、don″t care文字指定検索を行なう場合
も、don’t care文字の部分が許容する文字コ
ードの全ての組合せを列挙し、キーワードに展開する。 これらに基づきオートマトンを作成するため、異表記と
同様に、非常に多くのオートマトンの状態が必要となる
。 このようにオートマ1〜ンの状態数の増加は、オートマ
トン作成時間の増加や、更にはオーI・マトンを格納す
るための状態遷移テーブルの容量が増加、すなわちハー
ドウェアの増大という問題を発生する。 本発明はオートマトンを用いた検索方式において、異表
記やdon’t care文字が指定された検索を行な
う場合もオートマ1〜ンの遷移を網状にまとめて記述す
ることにより、状態数を従来より低減し、オー1へマト
ンの作成時間の短縮をはかると共に、状態遷移テーブル
の容量が小さくて済むためコンパクトなハードウェアで
実現可能な検索方式を提供することを目的とする。 さらに、テキストデータベースに文書データが逐次登録
されて行くと、ある時点て文字列記憶手段を構成する磁
気ディスク装置の容量が満杯に達してしまう場合がでて
くる。こうした時にも、それ迄蓄積したデータを損なう
ことなくシステムの蓄積容量を拡大できることが必要と
なる。また、被検索テキストデータベースの容量が例え
ば10万件、すなわち4GBにも達する程に大規模化し
てきた場合、唯単に磁気ディスク装置の格納容量を拡張
するだけでは処理時間が増加し、当初の目的が達っせな
くなってしまう。検索時間を低下させることなく、蓄積
容量の大規模化に応えられなければならない。 こうした要求に応え得るアーキテクチャを持つ検索装置
を提供することが、本発明の第五の課題である。 文字列検索装置の文字列記憶手段で重要となる要素は、
記憶容量が大きいこと、ファイルのサイズにかかわらず
、複数のファイルを連続的に高速で入出力できること、
安価であることの3点であり、これらの要素を満足する
集合型磁気ディスク装置が必要とされている。 従来技術では、ただシーク時間のアクセス時間を見掛は
上なくすことはより、データの書き込み。 読み出し時間を短縮しようとするもので、外部機器の要
求するデータ転送速度に対して何台の磁気ディスク装置
を用いて構成すれば良いかについて配慮されておらずコ
ストパフォーマンスの点で問題があった。 また、従来技術は画像データのようにデータサイズの大
きなファイルが複数の磁気ディスク装置にまたがるよう
な場合にはアクセス時間を削減できる効果があるが、複
数の磁気ディスク装置にまたがらないデータサイズの小
さなファイルの書き込み、読み出しを行なう場合には、
シーク時間を隠すことができす、土台の磁気ディスク装
置と同じアクセス時間となってしまう問題力Sあった。 また、従来技術は複数のファイルの連続的な書き込み、
読み出しを行なう点に配慮がされておらず、上位機器か
らの書き込み、読み出し命令を1件のファイルについて
のみ処理可能で、複数のファイルをアクセスする場合に
は、1件の処理を繰返し行なう必要があり、それに要す
るオーバヘッド時間が長くなってしまう問題があった。 また、オーバヘッド時間のひとつとして、上位機器から
アクセス対象となるファイルを指定するためのファイル
識別コードから磁気ディスク装置の格納位置情報を検索
する処理がある。 従来の一般的な磁気ディスク装置では、ファイル識別コ
ードとしてASCIIコード等の文字コード列で構成さ
れるファイル名称で表現されており、このファイル名称
により、磁気ディスク装置のファイル管理情報エリアに
格納されているファイル管理情報を検索して物理的な格
納位置を求めなければならず、それに要する処理時間が
大きい問題があった。 本発明の目的は、記憶容量が大きい、ファイルのサイズ
にかかわらず複数のファイルを連続的に高速に入出力で
きる、安価な集合型磁気ディスク装置を提供するもので
ある。 一方、文書情報はテキス1−データだけで構成されてい
る訳ではなく、図面や写真などもその構成要素として含
まれている。したがって、検索された文献の印刷イメー
ジでの閲読の要求にも応えることが必要になる。これに
応え得るアーキテクチャを持つ検索装置を提供すること
が本発明の第六の課題である。 さらに、テキストデータベースは複数のユーザによって
共有されるべきものであり、例えばLAN (ローカル
 エリア ネットワーク)を介して検索対話用のワーク
ステーションからアクセスできなければならない。した
がって、検索装置はLANに接続され、他の複数のワー
クステーションからの検索要求に応えられる機能を持た
なければならない。こうした機能を備えた全文検索装置
を提供することが、本発明の第七の課題である。 以上述べた各課題に応え得るフルテキストサーチシステ
ムを提供することが本発明の最終的な目的である。 〔課題が解決するための手段〕 これらの課題を解決するために、本発明が提供するテキ
ストサーチシステムでは以下の手段を用いる。 すなわち、先ず第一は、テキス1−、データを納める文
字列記憶手段の読み出し速度を文字列照合手段の処理速
度と同程度にまで高めるために、複数台の磁気ディスク
装置で構成する文字列記憶手段を用いることである。す
なわち、これらの磁気ディスク装置を並列に並べて同時
に開動し、その出力をマルチプレクシングすることによ
って、高い読み出し速度を得ようとするものである。 この発明では、集合型磁気ディスク装置を、磁気ディス
ク装置を有する複数台のデータ記憶装置と、データ記憶
装置へ入出力するデータを一時格納する入出力バッファ
と、データ記憶装置と入出力バッフアの制御を行なうマ
ルチディスクコントローラとによって構成している。 さらに、データ記憶装置を、磁気ディスクコントローラ
を有する1台の磁気ディスク装置によって構成するか、
または、磁気ディスクコントローラを有する複数台の磁
気ディスク装置と、磁気ディスク装置を選択するマルチ
プレクサとによって構成している。 さらに、入出力バッファは、上記データ記憶装5装 置1台につき、磁気ディスク装置の少なくとも1シリン
ダ分の容量を持ち、1面、また、2面の半導体メモリに
よって構成する。 なお、メモリは半導体記憶素子以外の光メモリ等の高速
記憶素子を用いて実現することもできる。 データ記憶装置と入出力バッファの制御を行うマルチデ
ィスクコントローラは、上位機器からの要求を格納する
半導体記憶素子を用いた通信メモリと、データ転送の制
御を行なうマルチプレクスコントローラと、磁気ディス
ク装置内の物理的格納位置を検索するための半導体記憶
素子を用いた物理情報テーブルと、それらを制御するマ
スクコントローラとによって構成している。なお、通信
メモリ、物理情報テーブルは半導体記憶素子以外の光メ
モリ等の高速記憶素子を用いて実現することもできる。 なお、マスタコントローラは、マイクロコンピュータを
使用し、各構成要素を制御するものである。 さらにマルチディスクコン1−〇−ラに、ファイル識別
子として、階層的なグループに分類する論理分類を行な
ったファイルの該論理分類固有の識別コードである論理
分類識別子(IDとも称する)と、該論理分類内の固有
の番号とによって構成するファイルIDを用いるように
したものである。 また、マルチディスクコントローラでは、ファイルID
内の論理分類IDに従い、ファイルの磁気ディスク装置
への物理的格納位置を決定する管理情報を格納した構造
定義テーブルをマスクコントローラのメモリ内に持つよ
うにすることも可能である。 上位機器と入出力バッファ間のデータ転送の制御を行な
うマルチプレクスコントローラは、入出力バッフアのデ
ータバスを選択するマルチプレクサと、マスクコントロ
ーラの介在なしにデータ転送を行なうDMAコントロー
ラと、データ転送が必要な範囲の入出力バッファの先頭
アドレスを格納する先頭アドレス登録テーブルと、終了
アドレスを格納する終了アドレス登録テーブルとによっ
て構成したものである。 データ記憶装置がn台、データ記憶装置内の上記磁気デ
ィスク装置の転送データが1−ラック間にまたがらずシ
ーク動作を行なわないときの磁気ディスク装置から入出
力バッフアへのデータ転送速度をt [Byte/se
e] 、ディスク装置のニジリンダ分の容量をM [B
yte] 、磁気ディスク装置の最小シーク時間をs[
sec]、磁気ディスク装置の回転速度をR[rps]
 、出力バッファの容量を上記磁気ディスク装置の1シ
リンダ分の容量M [Byte]と同一とした場合に、
集合型磁気ディスク装置から上位機器へのデータ転送速
度T[Byte/see]は以下の条件を満足する必要
かある。 磁気ディスク装置の最小シーク時間S[SeC]が1つ
の上記入出力バッファのM [Byte]のデータを上
位機器に転送する時間(M / T )  [sec]
より大きい場合、データ記憶装置から出力バッファへの
データ転送時間は、磁気ディスク装置の最小シーク時間
s [sec]と、磁気ディスク装置の最大回転待ち時
間(1/R)  [sec]と、データ記憶装置から入
出力バッフアへの転送時間(M/t ) [sec]の
台別時間で、これが、全ての入出力バッファのデータを
上位機器に転送する時間(n M / T ) [se
c]以内で動作すればよい。 これを数式で表すと Rt       T のようになり、データ記憶装置の台数nは次式のように
書き表すことができる。 また、磁気ディスク装置の最小シーク時間S[sec]
が1つの入出力バッファのMl:Byte]のデータを
上位機器に転送する時間(M/T) [5ec1以下の
場合には、磁気ディスク装置がシーク動作を終了しても
磁気ディスク装置からデータ転送を行なおうとする入出
力バッファが、上記機器へのデータ転送を行っているた
めにデータ記憶装置から入出力バッファへのデータ転送
ができない。そのため、入出力バッファから上位機器へ
のデータ転送が終了するまで待つ必要がある。そこで、
ブタ記憶装置から入出力ハノファへのデータ転送時間は
、]一つの入出カバソファから上位機器へのデータ転送
時間(M / T ) [sec]と、磁気ディスク装
置の最大回転待ち時間(1/ R) [sec]とデー
タ記憶装置から入出力バッファへのデータ転送時間(M
 / t ) [sec]の合計時間が、全ての入出力
バッファのデータを上位機器に転送する時間(n M 
/ T ) [sec]以内で動作すればよい。これを
数式で表すと TRt       T のようになり、データ記憶装置の台数nは次式のように
書き表すことができる。 t     RM これらの条件式を満足する最小台数のデータ記憶装置で
集合型磁気ディスク装置を構成することで、上位機器の
要求するデータ転送速度を満足するコストパフォーマン
スの良い磁気ディスク装置を提供することができる。 データ記憶装置は、データファイルの記憶を行なう。デ
ータ記憶装置を磁気ディスクコントローラを有する磁気
ディスク装置で構成することによって、磁気ディスクへ
のデータの書き込み、読み出し制御を該磁気ディスクコ
ンI・ローラが行ない、マルチディスクコン1−ローラ
の処理が軽減される。 また、データ記憶装置を複数台の磁気ディスク装置と、
磁気ディスク装置のデータバスを上記入出力バッファの
データバスに選択して接続するマルチプレクサにより構
成することにより、記憶容量を大きくすることができる
。 入出力バッファはデータ記憶装置に入出力するデータの
一時格納を行なう。 書き込みの場合、データ記憶装置内の磁気ディスク装置
の書き込み速度より早い速度で、上位機器から入出力バ
ッファに次々とデータの転送を行ない、データ転送が終
了した入出力バッファは磁気ディスク装置へ磁気ディス
ク装置の書き込み速度でデータの書き込みを行なう。読
み出しの場合、それぞれの磁気ディスク装置は磁気ディ
スク装置の読み出し速度で入出力バッファへのデータの
読み出しを行ない、読み出しが終了した入出力バッファ
は、磁気ディスク装置の読み出し速度よりも早い速度で
、上位機器へのデータの転送を行なう。 これにより、上位機器へのデータの入出力を磁気ディス
ク装置の書き込み、読み出し速度よりも早い速度で行な
うことができる。 さらに入出カバソファをデータ記憶装置上台につき2面
持つことにより、第上面の入出力バッファが上位機器と
データ転送している間に、第2面の入出力バッファがデ
ータ記憶装置との書き込み。 読み出しを行なえる。これにより」三位機器とのデータ
転送が終了するまで磁気ディスク装置がデータの転送動
作を持つ時間を削減でき、書き込み。 読み出しが短時間に行なえる。このときの」三位機器の
要求するデータ転送速度を満足するコストパフォーマン
スの良い磁気ディスク装置を提供する条件式は、第(1
)式で表現される。 マルチディスクコン1−〇−ラは上位機器からのデータ
ファイルの書き込み、読み出し要求に対し、データ記憶
装置と入出力バッファの制御を行なうものである。書き
込み、読み出しの対象となるファイルのファイルIDを
複数件格納できる半導体記憶素子を用いた通信メモリは
、上位機器からの命令の受理、処理の終了報告処理にお
けるオーバヘッド時間が削減され、データファイルの連
続書き込み、読み出しが短時間に行なえる。 短時間にアクセス可能な半導体記憶素子を用いた物理情
報テーブルは、論理的なファイルIDから磁気ディスク
装置の物理的格納位置を短時間に求めることができ、こ
のため、データファイルの読み出しにかかるオーバヘッ
ド時間が短時間になる。 また、磁気ディスク装置に格納するファイルの識別を行
なうものは、従来、可変長の文字コード列で構成される
ファイル名称であったのに対し、固定長の数値コードで
構成されるファイルIDは、小さなサイズのコードで表
現が可能で、書き込み。 読み出しを行なうデータファイルの指定や物理的格納位
置の検索処理が単純化され、それに要するオーバヘット
時間も短縮できる。 さらに、データファイルを格納する場合にも、論理的に
関係するファイルの物理的格納位置を近接させることに
より、シーク時間を短くすることができアクセス時間を
短縮できる。 マルチプレクスコントローラ内のマルチプレクサは、上
記入出力バッファのデータバスを選択する。先頭アドレ
ス登録テーブルと終了アドレス登録テーブルは、入出力
バッファに格納されているデータ内、必要なデータが格
納されている範囲を指定する先頭アドレスと終了アドレ
スをいくつか格納する。DMAコントローラは、先頭7
1−レス登録テーブルと終了アドレス登録テーブルで指
定した範囲の入出力バッファのデータを上位機器にマス
クコントローラの介在なしで高速に転送する。 磁気ディスク装置の同一シリンダ上に読み出すファイル
が複数件ある場合に、読み出すファイルのサイズをf 
1 [Bytel、 f 2 [Bytel、その間の
読み出し不要のファイルのサイズをに [Bytel 
、磁気ディスク装置の読み出し速度をt [Byte/
5ect、磁気ディスク装置の回転速度をR[rps]
 、磁気ディスク装置の平均シーク時間をS [sec
]とするとき、平均回転待ち時間は(1/ 2 R) 
[sec]であり、−度に読み出す時間が一つづつ読み
出す時間よりも短かくなる条件は、 のように表すことができる。この数式は容易に次式のよ
うに書き表すことができる。 この条件式を満足する時、マルチプレクスコントローラ
は、読み出し不要のファイルも一旦入出力バッファに読
み出し、」二値機器に転送する際に不要なファイルの部
分を除いて必要部分のみを転送する。これにより、磁気
ディスクが一度の読み出し処理で複数のファイルを読み
出すことができ、読み出し処理で発生するアクセス時間
を短くすることができる。 第二は、有限オートマトン方式に基づく文字列照合用の
専用ハードウェア(サーチエンジンと呼ぶ)を搭載した
文字列照合手段を用いることである。この文字照合専用
ハードウェアは、約−千語のキーワードを一括して、照
合速度を低下させることなく検索することを可能にする
ものである。 上記目的を達成するために、まず、異表記検索用オート
マトンにおいてキーワード中の異表記が存在する部分文
字列の先頭でオートマトンの遷移を分岐し、末尾で分岐
した遷移を集合させることにより状態数の低減を図った
。don’t care文字指定検索用オートマトンに
おいても異表記検索と同様にdon’t care文字
が許容する文字群を異表記と見なし、don″t ca
re文字でオートマトンの遷移を分岐し、それらの遷移
を1ケ所の状態に集合させることにより状態数の低減を
図る。 これらによりオートマトンの作成時間が短く済み、状態
遷移テーブルの許容が小さくできるコンパクトな検索装
置を実現した。 オートマトンの状態数増加という課題を解決する手段と
して採用したオートマトンの作成方法について説明する
。本方法は従来方法2と以下の点で異なる。すなわち、
従来方法2では「フェイル処理」を用いるため、フェイ
ル先状態を計算する必要性から本状に状態遷移を分岐し
たオートマトンを作成しなければならないため、状態数
が多くなるのに対して、本方法では「フェイル処理」が
不要で、状態遷移の分岐を抑え、状態遷移をまとめて遷
移先状態を共有することができるため、状態数の増加が
抑えられている(以後、本方法を用いて作成したオート
71〜ンを集合遷移許容オートマトンと呼ぶ)。 以下、状態遷移をまとめる方法について説明する。 第46図は本方法を用いて作成したオートマトンの状態
遷移である。 同図のオートマトンは第5図に示したオートマトンと同
様に、′インタフェース”と、その異表記である“イン
ターフェース”、″インタフェイス”インターフェイス
n、nインターフェイス” 1′インタフエース”、′
インターフェース”″インタ フニ ス” ″インタ フェース″ を 含めた9語のキーワードについて検索するためのもので
ある。 これらを、 これらを、 第9図下の複合語表現文字列 (式1) %式% ″フェー″の異表記である。 まず、 発音異表記により ″フエー”が″フェイ″ に置き換えられるので、 次に″フェー″の長音が長音異表記で″が きる。 られる。 ここでは以後、置き換え可能の文字列の関係を等価と呼
ぶことにする。 更に、これらの遷移の遷移先状態を状態5とし、遷移に
まとめる。 本方式を用いることによりオートノ1−ンの状態数を第
5図のオートマトンに比べ約3分の王に減らすことがで
きる。 第三は、スキャン型のフルテキストサーチを加速する方
法として、2段階のプリサーチを行う手段を設けること
である。その第一段階目のプリサーチとしては、第16
図及び第17図に示す様に、後述する凝縮本文中に表わ
される文字をエビットの情報で表示する文字成分表を用
いて、指定されたキーワードを構成する文字を含む文書
だけを抽出する文字成分表サーチ手段を用いる。第二段
目のプリサーチとしては、予めテキスト本文の中から助
詞や接続詞などの付属語を削除すると共に、繰り返し表
れる単語を排除したデータファイル(凝縮本文と呼ぶ)
をスキャンし、指定したキーワードが記述されている文
書だけを抽出する(凝縮本文サーチと呼ぶ)手段を用い
る。したがって、この2段階のプリサーチの結果絞り込
まれた文書についてのみ、テキスト本文を磁気ディスク
装置から読み出してスキャンする(本文サーチと呼ぶ)
ことになるため、等価的に非常に高速なフルテキストサ
ーチが実現されることになる。以下、文字成分表サーチ
に続き、凝縮本部サーチを行い、次々と絞り込みながら
行う検定のことを階層型プリサーチと呼ぶ。 第四は、フルテキストサーチ特有の木目細かな検索を可
能にするために、論理条件のみならず近傍条件や文脈条
件をも組み合わせた検索を可能とする複合条件判定手段
を設けることである。 第五は、上記複数の磁気ディスク装置から構成される文
字列記憶手段と文字列照合手段、プリサーチ手段、複合
条件判定手段をまとめて一つのユニットとし、このユニ
ットを複数個並列に並べ、この」1位にこれらを制御す
るコントローラ手段を設け、これらをまとめて−台のフ
ルテキストサーチ装置(この−台をサーチマシンと呼ぶ
)に構成することである。このような構成にすることに
よって、大容量テキストデータベースに対処すると共に
、データベースの増加に際してはマシン内のユニットの
増設によって対処することが可能となる。 第六は、複数のユーザに対してサービスを提供できると
共に、大規模なテキストデータベースの構築に耐え得る
ように、このテキストサーチマシンにLANに接続でき
るLAN接続手段を設けることである。このような構成
にすることによって、大規模テキストデータベースに対
してはLANを介して複数台のサーチマシンを接続する
ことによって対処でき、データベース容量の増加に際し
てもLAN内のマシン数の増設によって対処することが
可能となる。 第七は、同義語や異表記などの問題に対処するために、
テキストサーチマシンの内部に自動的に同義語及び異表
記の展開処理を行う同義語展開手段及び異表記展開手段
を設けることである。そして、これらの展開語党すべて
をキーワードとして全文検索を行うことによって、漏れ
なく所望の文書が検索できることになる。 上記課題を解決するために、第26図のようにキーボー
ドから入力した文字列を一旦異表記展開し、異表記展開
された各々の文字列に対し、同義語辞書を参照して同義
語展開をし、更に同義語展開で得た各々の文字列に対し
て異表記展開する構成とする。 この異表記及び同義語展開処理の概略を第27図に示す
。ユーザが指定したキーワード(文字列とも呼ぶ)27
01は一旦異表記展開し、その展開した文字列群270
2に対して、次に同義語辞書2710を用いて同義語展
開する。その後、この同義語展開で得られた文字列27
03に対して、さらに異表記展開し、最終の展開結果と
して文字列群2704を得る。 このように同義語展開の前に異表記展開するこ−か− とにより、表記の標準化によって情報を変更することな
く展開処理が可能となる。同義語辞書中の文字列の表現
や表記に配慮することなく辞書が構成できるため、辞書
の作成や編集が容易になる。 また、同義語展開した文字列についても異表記展開をす
ることにより、同義語展開で新しく得られた文字列につ
いても異表記を得ることができる。 次に本発明における重要な手段の一つである異表記展開
について説明する。異表記展開では、まず最初に入力文
字列を文字種毎に分割し、漢字及びひらがな文字列、カ
タカナ文字列、アルファベット文字列の3種類の部分文
字列へ分割する。次に分割した部分文字列毎に変換ルー
ルテーブルを用いて文字列の置き換え処理を行い、漢字
、カタカナの各文字種の異表記展開をしていく。アルフ
ァベット文字種については変換ルールテーブルは用いず
に、入力文字列中のアルファベット文字を大文字から小
文字、小文字から大文字へコード変換する。 ここで変換ルールテーブルとは人力文字列中の該当文字
列を文字列のリストへ置き換えることを指示した変換ル
ールを複数個蓄えたものである。 変換ルールは、例えば文字列″イウ″を″イウ″と″ユ
ウ″とに展開する場合には、 〔″イウ″→(″イウ′″、″ユウ″)〕と記述する。 また部分文字列を文字列リスl〜へ変換することを、こ
こでは′置き換えゝと呼ぶことにする。 漢字、カタカナの各文字種の異表記展開用の変換ルール
には例えば次のようなものが考えられる。 (1)漢字及びひらがな文字列の場合 (a)漢字の新字体と旧字体の表記による展開に関する
変換ルール 例:〔″斉″→(″斉II 、 N斎II 、 II齋
II 、 II齋″)〕(b)漢字の送りがな表記の違
う展開に関する変換ルール 例:〔″読み取り′″→(″読み取りn、u読取″)〕
(2)カタカナの場合 類似音節の様々な表記に展開する変換ルール 例:〔゛′ピア″→(″ピアn、uビヤ′″)〕このよ
うに、漢字ひらがな文字種、カタカナ文字種については
、変換ルールテーブルを用いて異表記展開する。 次にローマ字の異表記展開について説明する。 ローマ字の異表記としては、ヘボン式表記法と訓令式表
記法あるいはこれらの表記法の混在したものが考えられ
る。従って、ここでは変換ルールとしてヘボン式表記法
と訓令式表記法の音節表記を併記したルールを作るもの
とする。例えばヘボン式表記法の ” S HI” を訓令式表記法及びヘボン式表記法の音節表記の“SI
”と” S HI ” という2つの部分文字列のリストに置き換える変換ルー
ル 〔“S HI ”→(”SI”、”SHI”)〕を作る
ことによりローマ字の異表記展開を実現する。あるいは
、別な方法としてローマ字の全文字列を一旦カタカナ表
記に変換し、カタカナ文字列=75 中の各音節をヘボン式表記法と訓令式表記法の両方で置
き換える方法もある。例えば、ローマ字文字列の ”SISHAM○″ を−旦カタカナ文字列の 11シシヤモ” に変換し、次に [LLシII  、  (IIs  III  、  
 ll5I(T11  )  )などの変換ルールでロ
ーマ字化する方法もある。 以上の文字種毎の展開の後、最初に文字種によって分割
した文字列の順序に従って展開した文字列を組み合せて
、異表記展開の最終出力とする。 以上異表記展開処理をまとめると、 (1)漢字及びひらがな文字列に関する異表記展開(送
りがな、新旧字体)、 (2)カタカナ文字列に関する異表記展開、(3)ロー
マ字文字列に関する異表記展開(ヘボン式、副側式表記
)、 (4)アルファベット文字に関する異表記展開(大小文
字) がある。しかし、常時これらの異表記展開をする必要が
ない場合もある。この場−合、使用する変換ルールテー
ブルの種類をユーザが選択できる手段を合わせ持つこと
によって、むだな展開処理を省き、かつユーザの望む検
索処理が可能となる。 次に本発明におけるもう一つの重要な手段である同義語
展開について説明する。同義語展開では、入力文字列を
同義語辞書を用いて次の4種類の展開を行う。 (1)同位語展開 概念的に同位の諸量への展開 例:“計算機”から“コンピュータ”、′情報処理装置
″に展開する。 (2)上位語展開 上位の意味を持つ諸量への展開 例:″計算機″から“電子機器″に展開する。 (3)下位語展開 下位の意味を持つ語禦への展開 例:″計算機″から″電子卓上計算機″に展開する。 (4)関連語展開 関連した意味を持つ語禦への展開 例:″計算機′″から″オフィスオーI・メイション”
に展開する。 また、同義語展開でも異表記展開と同様に」1記4種類
の請負への展開を選択する手段を持つことによって、よ
り柔軟なユーザの望み通りの検索が可能となる。 以上の手段によってユーザの入力する検索文字列をまず
最初に異表記展開し、異表記展開した文字列群の中の各
々の文字列を一つずつ同義語展開し、さらに同義語展開
して得られた新しい文字列に対して異表記展開を行う。 このように異表記展開を同義語展開の前で行なうことに
より、表記の標準化による情報の欠落を避け、常に期待
する展開結果を得ることができる。 また、同義語辞書内での表記も統一化する必要がなく、
辞書の作成と保守を簡易化できる。また、同義語展開の
後でも異表記展開を行うために、同義語辞書に表記のバ
リエーションを色々と記述しておく必要がなく辞書を小
さくすることができる。 〔作用〕 以上述へた様にこの発明によれば先ず第一に、テキスト
データを納める文字列記憶手段を並列に並べた複数台の
磁気ディスク装置で構成し、これらを同時に原動しその
出力データを統合することによって、高い読み出し速度
を得ることが可能となる。 第二に、文字列照合手段に有限オートマトン方式に基づ
く文字列照合用の専用ハードウェアを搭載することによ
って、照合速度を低下させることなく約−千語のキーワ
ードを一括して検索することが可能となる。このことは
、同義語及び異表記を含めても、テキストデータベース
を唯一回スキャンするだけで検索を終えることができる
ということである。 第三に、スキャン型のフルテキス1−サーチを加速する
方法として、2段階のプリサーチを行う手段を設けるこ
とによって、磁気ディスクに格納されたテキスト本文を
参照しに行く件数を減らすこQ4 とが可能になる。すなわち、検索処理時間に占める割合
が高い本文検索処理量を減らすことによって、全体の検
索処理時間を短縮することが可能となる。 この階層型プリサーチを行うためには、検索に先立って
、「凝縮本文」と「文字成分表」という補助ファイルを
準備する必要がある。この「凝縮本文」とr文字成分表
」の作成は、文書の登録時に自動的に行われる。この処
理内容を、第16図に示す。 本図で、登録すべき文書が入力されると、まずそのまま
「本文」として時期ディスク装置に格納する。 次に、この「本文」から「凝縮本文jを作成する。「凝
縮本文」は、「本文」の中から検索には使用されない付
属語を取り去るとともに、繰り返し表れる言葉の重複を
排除して作成される。本文が「あいまい検索のための検
索技術・・・」という文書1の場合には、「のための」
が付属語として、また「検索」が重複語として切り捨て
られ、「あいまい」と「検索技術」が「凝縮本文」とし
て残ることになる。 最後に、この「凝縮本文]から「文字成分表Jを作成す
る。ここでは、「凝縮本文」に現れる文字を1ビットの
情報で表す。文書10例では、「あ」と「い」があるの
でそれぞれ11′を、また「う」ではないのでI O+
 を設定する。「検」と「索」も同様にそれぞれ′1′
を設定する。以下同様にして、文字成分表の該当文字部
分に、「凝縮本文」にその文字がある場合には′1′を
、存在しない場合にはI O+ を設定する。 このようにして、文書の登録時に「凝縮本文」と「文字
成分表」を自動的に作成し、階層型プリサーチの準備を
しておく。 検索時には、第17図に示すように、登録の逆の順序で
これらの補助ファイルを参照する。例えば、″検索〔4
C〕理解”という条件式が人力されたとする。この条件
式は、″検索″と″理解″が4文字以内に近接して現わ
れる文書を検索することを表す。 まず、第1ステツプとして文字成分表をサーチする。こ
こでは、指定されたキーワードを構成する文字をすへて
含む文書だけを抽出する。本図の例では、まず″検索″
に着目し、パ検索″を構I戊する2文字、すなわち′検
′と′素′が同時に現われる文書を探し出す。処理の仕
方としては、文字成分表の′検′と′索′の縦の列のビ
ットごとの理論積(AND)を取る。その結果、l J
、 l として残ったものが、 ′検′と′索′の両方
の文字を含む文書を表すことになる。したがって、′○
′となった文書は′検′か′索′、あるいはその両方の
文字がない文書となるので、以降の検索処理の対象から
除外することが可能となる。 この文字成分表は文字の存在がlビットの情報(ビット
リストと呼ぶ)で表されているため、サーチするデータ
容量を極めて小さくすることができ、その結果検索時間
も短時間に納めることが可能となる。さらに、キーワー
ドを構成する文字毎のピノ1ヘリストの論理積を取るこ
とによって、キーワードの関連のない文書を大幅に切捨
て、以降の対象文書を格段に絞り込むことが可能となる
。 次に、この文字成分表サーチの結果絞り込まれた文書の
凝縮本文をサーチする。ここでは、指定されたキーワー
ドが単語として現われる文書だけを抽出する本図の例で
は、′検′と′索′の2文字が″検索′″と連続して現
れる文書のみを抽出する。すなわち、文書3のように、
′検′と′素″が含まれていても、″検出”と“検索”
というように、別の単語として現われるようなものはこ
こで切り捨ててしまう。 ″理解″についても、文字成分表サーチ及び凝縮本文サ
ーチで同様の処理を行い、最後に残った文書についての
みその本文をサーチし、検索条件式に指定された複合条
件への適合を調べる。本図の例では、検索条件式に近傍
条件として設定されたu (4c) I+を満足する文
書を探索することになる。その結果、この例では″検索
″とパ理解″が4文字前れている文書4が検索されてく
ることになる。 このように、「階層型プリサーチ方式」では、「文字成
分表」と「凝縮本文」という2段階のブリサーチを事前
に行い、それぞれ「文字レベル」と「単語レベル」のふ
るいに掛け、最も時間を要する本文サーチの対象となる
文書数をあらかしめ最小に絞り込んでおくことによって
、等価的な非常に高速なフルテキストサーチが実現でき
ることになる。 第四に、本文検索の際、サーチエンジンの出力結果から
検索式に記述された論理条件及び近傍条件や文脈条件に
合致するものだけを抽出する複合条件判別手段を設ける
ことにより、フルテキストサーチ特有の木目細かな検索
が可能となる。論理条件としては、論理和や論理積、論
理否定などの検索演算を実現する。近傍条件としては、
日本語の場合にはキーワードとキーワー1〜の間に存在
する文字数に上記あるいは下限を指定した字間距離条件
検索を、英語の場合にはキーワード間の語数に上限ある
いは下限を指定した語間距離条件検索などを実現する。 近傍条件としては、日本語対応の「字間距離条件」と英
語対応のF語間距離条件」がある。まず、字間距離条件
の例としては、以下のようなものがある。 ″文書〔8c〕検索″・・・・・・・・・・・・・・(
1)″文書[10c)検索″・・・・・・・・・・・・
(2)“文書[8c、10c]検索″・・・・・・(3
)″文書<10 c>検索″・・・・・・・・・・・・
(4)(1)式の″文書〔8C〕検索″という条件式は
、″文書”と″検索″という2つの言葉がこの順序で現
われ、かつこの2つの言葉の間に8文字以内の文字が挾
まっている文書を探し出すということを表す。したがっ
て、第14図に示した例文の中では、■と■が検索され
てくることになる。 (2)式の″文書〔10C〕検索″という条件式は、″
文書″と″検索″という2つの言葉が、その順序を問わ
ずに、すなわち11文書″が″検索″の前に現われる場
合でも、あるいは1′検索″が″文書″の前に現われる
場合でもどちらであっても、これらの言葉が10文字以
内に近接して現われる文書を探し出すということを表す
。したがって、第I4図に示した例文の中では、■と■
と■が探索されてくることになる。 (3)式の“文書[8c、10cl検索”という条件式
は、″文書゛″と″検索″という2つの言葉がその出@
順序を問わず、8文字以上離れていて、かつ10文字以
内に近接して現われる文書を探し出すということを表す
。したがって、第I4図に示した例文の中では、■と■
が検索されてくることになる。 (4)式の″文書(10c>検索″という条件式は、″
文書″と″検索′″という2つの言葉がその出現順序を
問わず、]−〇文字以」二離れて現われる文書を探し出
すということを表す。したがって、第14図に示した例
文の中では、■と■が検索されてくることになる。 次に、語間距離条件の例としては、以下のようなものが
ある。 “text (8W) retrieval”・・・・
・・・・・・(5)“text (10W) retr
ieval” ・==・・・(6)“text 〔8W
、 1.0 Wl retrj、eval”−(7)“
text (10W) retrjeval” ・・=
 = ・・(8)(5)式の”text 〔8W) r
etrieval、”という条件式は、”text”と
” retrieva ] ”という2つの単語がこの
順序で現われ、かつこの2つの単語の間に8語以内の数
の単語が挾まっている文書を探し出すということを表す
。 (6)式の”text 〔10W) retrieva
l”という条件式は、II t ext IIと”re
trjeval ”という2つの単語が、その順序を問
わずに、すなわち“text”が“retrieval
”の前に現われる場合でも、あるいは“retriev
al、”が“text”の前に現われる場合でもどちら
であっても、これらの単語が工○語以内に近接して現わ
れる文書を探し出すということを表す。 (7)式の”text [8W 、 10 W ] r
etrieval”という条件式は、“text”と“
retrieval”という2つの単語が、その出現順
序を問わず、8語以上前れていて、かつ10語以内に近
接して現われる文書を探し出すということを表す。 (8)式の“text (10W) retrieva
l”という条件式は、”text”と11retrie
val”という2つの単語がその出現順序を問わす、]
−〇語以」二離れて現われる文書を探し出すということ
を表す。 文脈条件としては、キーワードとキーワードが同一の交
円に共起するものを検索したり、あるいは同一の段落に
表れるものを検索したりする検索機能を実現する。 文脈条件検索としては、日本語及び英語とも次のような
ものがある。 ″文書〔P〕検索″・・・・・・・・・・・・・・・・
(9)″文書〔p〕検索″・・・・・・・・・・・・・
・・・(10)″文書[S]検索″・・・・・・・・・
・・・・・・・(11)″文書〔s〕検索″・・・・・
・・・・・・・・・・・(12)″文書(PH)検索″
・・・・・・・・・・・・・・・・(13)″文書〔p
h〕検索″・・・・・・・・・・・・・・・・(14)
(9)式の″文書(P)検索″という条件式は、″文書
″と″検索″という2つの言葉がこの順序で、同一の段
落(パラグラフ)に現われる文書を探し出すということ
を表す。 (10)式の″文書〔p〕検索″という条件式は、″文
書”と″検索″という2つの言葉が出現=88 順序を問わずに、同一の段落に現われる文書を探し出す
ということを表す。 (↑l)式の゛′文書〔S〕検索″という条件式は、“
文書”と“検索”という2つの言葉がこの順序で、同一
の文(センテンス)に現われる文書を探し出すというこ
とを表す。 (12)式の″文書〔s〕検索″という条件式は、″文
書″と″検索″という2つの言葉が出現順序を問わずに
、同一の文(センテンス)に現われる文書を探し出すと
いうことを表す。 (13)式の″文書(PH)検索″という条件式は、6
文書”と″検索″という2つの言葉がこの順序で、同一
の句(フレーズ)に現われる文書を探し出すということ
を表す。句とは、 、″及び″で区切られた文章を言う
。英語の場合は、”と“、′で区切られた文章というこ
とになる。 (14)式の″文書(ph)検索″という条件式は、″
文書″と″検索″という2つの言葉が出現順序を問わず
に、同一の句(フレーズ)に現われる文書を探し出すと
いうことを表す。 論理条件検索としては、日本語及び英語とも次のような
ものがある。 “文書(AND)検索” (あるいは、 and(文書
、検索)とも表す・・・・・・・・・・・・・・(15
)″文書[OR:l検索″(あるいは、 or(文書、
検索)とも表す・・・・・・・・・・・・・・(16)
“文書[N0T)検索″(あるいは、”not(文書、
検索)とも表す・・・・・・・・・・・・・・(II)
(15)式の“文書(AND)検索”という条件式は、
″文書″と″検索″という2つの言葉が現われる文書を
探し出すということを表す。 (16)式の″文書〔OR〕検素″という条件式は、″
文書″′あるいは″検索″という言葉が現われる文書を
探し出すということを表す。 (17)式の″文書(NOTI検素″という条件式は、
″文書”という言葉が現われて、かつ″検索″という言
葉が現われない文書を探し出すということを表す。 第五に、複数の磁気ディスク装置から横取される文字列
記憶手段2文字列照合手段、プリサーチ手段、及び複合
条件判別手段をまとめて一つのユニットとし、このユニ
ットを複数個並列に並べ、この上位にこれらを制御する
コントロール手段を設け、これらをまとめて−台のサー
チマシンに構成することによって、大容量テキストデー
タベースに対処すると共に、データベースの増加に際し
てはマシン内のユニットの増設によって対処することが
可能となる。 第六に、このテキストサーチマシンにLANに接続でき
るLAN接続手段を設けることによって、複数のユーザ
に対してサービスが提供できると共に、大規模なテキス
トデータベースの構築に応えることも可能になる。すな
わち、大規模テキストデータベースに対してはLANを
介して複数台のサーチマシンを接続することによって対
処でき、データベース容量の増加に際してもLAN内の
マシン数の増設によって対処することが可能となる。 第七に、テキストサーチマシンの内部に同義語及び異表
記の展開処理を行う同義語展開手段及び異表記展開手段
を設けることによって、ユーザがこれらの問題を意識し
なくとも自動的に同義語や異表記などの展開語8すべて
をキーワーIくとして全文検索を行うことができ、表現
及び表記の違いに起因する漏れを生ずることなく所望の
文書が検索できることになる。 〔実施例〕 以下、本発明の第一の実施例を、第10図を用いて説明
する。 本実施例は、キーボード1101、サーチマシン制御用
コンピュータ(CPU、)1150、デイスプレィ11
20、オートマトン生成用コンピュータ(CPU、) 
1105 a、ビットサーチ用コンピュータ(CPU3
) 1107 a、ストリングサーチエンジン1106
、複合条件判定用コンピュータ(CPU2) 1145
 a、検索結果格納メモリ1146、及びテキス1ヘデ
ータファイル1110から構成される。また、サーチマ
シン制御用コンピュータ(CPUo)1 ]−50では
、検索式解析プログラム1102、同義語異表記展開=
92 プログラム1103a、複合条件解析プログラム114
、1. a、検索実行制御プログラム1108、及び検
索結果表示プログラム1工47が実行され、オートマト
ン生成用コンピュータ(CPU□)1105aではオー
トマトン生成プログラム1105が、ビットサーチ用コ
ンピュータ(CPU3) 1107 aではビットサー
チプログラム1107が、複合条件判定用コンピュータ
(CPU2)114−5aでは複合条件判定プロゲラA
、 114.5が実行される。 先ず、キーボード1.10↓から入力された検索条件式
はサーチマシン制御用コンピュータ(CPUo)115
0J二の検索式解析プログラム1102により解析され
る。すなわち、検索式解析プログラム1.102では検
索条件式を構成するキーワード部分とそれらの包含条件
及び配置条件を記述した複合条件記述部に分離される。 包含条件は論理条件として記述され、配置条件は近傍条
件や文脈条件として記述されたものである。分離抽出後
、キーワード部分は同じ<CPU。 11501の同義語異表記展開プログラム1103aに
渡され、複合条件記述部は複合条件解析プログラム↓1
41aに渡される。 同義語異表記展開プログラム13.03 aでは、ここ
に内蔵された同義語辞書を参照して入力されたキーワー
ドの同義語が、また変換ルールによって異表記が求めら
れる。例えば、″計算機″というキーワードが入力され
ると、同義語としては″計算機″のほかに1電算機”や
″コンピュータ″などが生成され、異表記としては″コ
ンピュータ″から″コンピューター”などが生成される
。 同義語としては、上記の例のような同位語のほかに、上
位語や下位語、関連語などがあり、これらも含めて同義
語として展開される。この場合の」二位語の例としては
″電子機器″などがあり、下位語としては“電卓”など
、関連語としては1′オフイスオートメーシヨン”など
がある。 また、異表記展開としては、カタカナ展開のほか、漢字
ひらがな展開、アルファベット展開がある。図示されて
いるのはこの中のカタカナ展開の則 例である。漢字ひらがな展開としては、新旧字体の変換
と送りがな展開がある。新旧字体変換の例としては、′
斉”から“齋”、斉”への変換などがある。また、送り
がな展開としては、“読取”から″読取り″、″読み取
り″への展開などがある。アルファベツI〜展開として
は、ローマ字のヘボン式展開、ローマ字の訓令式展開及
びアルファベットの大文字小文字展開がある。ローマ字
のヘボン式展開の例としては″チシキ”から”Tl5I
KI”への展開が、ローマ字の訓令式展開の例としては
“CHISHIKI”への展開があり、アルファベット
の大文字小文字展開例としては“Tl5IKI”から“
tisjki”への展開などがある。 以」二説明した同義語展開並びに異表記展開の展開種類
については、ユーザの指定によって組み合わせ選択でき
るようにすることも可能である。 英語の同義語の例としては looking glass→m j、r r o r
pingpong    →table tenn]s
→ God → cyc]、one       → hurric
ane→ Hitachi  Amerjca  Lj
mjted→ work  5tation 英語の異表記の例としては → centre → 1itre →briar →humour −+  modeller → Chili →orangoutan  →orangoutang
−+ McDonald ツ語の同義語の例としては → 5chreiben →Mo5trich → Motor ドイツ語の異表記の例としては →Phot。 the  Lord typhoon AL AS 等があり、 enter 1ter rier umor modeler hjle orangutan MacDonald 等の例がある。 さらに、トイ rief Mostert 阿aschine 等があり、 Fot。 一% Coda          −+  KodaCod
e          → KodeBuffet  
      → BuffetFriburg    
  −+  Fribourg等が挙げられる。 こうして同義語及び異表記展開されたキーワード群は1
次にオートマトン生成用コンピュータ(CPU1) 1
105 a上のオー1〜マトン生成プログラム1105
に送られる。 オー1マトン生成プログラム1105では、同義語異表
記展開プログラム1103aから送られてきたキーワー
ド群に対して、これらを−括照合するオートマトンを作
成する。同義語及び異表記展開を施すと、初期入力され
たキーワードの数によっては、数百にも及ぶ展開結果が
得られることになる。 これらのキーワードを一つずつ入力テキストデータから
探索していたので、高速な検索を実現することが不可能
である。すなわち、これらのキーワードをまとめて、テ
キストデータをただ一回走ノ 査するだけで探索する必要がある。このように複数のキ
ーワードを一括して照合する(多重照合とも呼ぶ)方法
としてオートマトンを用いた照合方法が知られている。 その中で、このオートマトンをハードウェアで実行する
方式として「特開昭63−31.1530Jを提案して
いる。サーチエンジン1106はこの方式をさらに発展
させて実現した高速多重文字列照合回路である。したが
って、本オートマトン生成プログラム1105では、こ
のサーチエンジン1106に設定する状態遷移テーブル
と照合すべきキーワードの識別コード情報を生成し、こ
れらをサーチエンジン1106へ転送することになる。 また、同義語異表記展開プログラム1103 aで同義
語及び異表記展開されたキーワード群は、該当キーワー
ド識別コード(キーワード識別子ども呼ぶ)と共に、ビ
ットサーチ用コンピュータ(CP U3 ) 11.0
7 a上のビットサーチプログラム1107へ渡される
。 一方、検索式解析プログラム1102から入力検索条件
式中の複合条件記述部を受け取ったサーチマシン制御用
コンピュータ(CPUo)1150上の複合条件解析プ
ログラム1141では、近傍条件や文脈条件、並びに論
理条件などを解析し、各条件を判定するための制御情報
として、指定されたキーワードの識別コードとその間の
指定距離情報や指定文脈コード情報及び指定論理条件コ
ード情報に変換され、複合条件判定用コンピュータ(C
PU2) 1.145 a上の複合条件判定プログラム
1145に渡される。 さて、上述した検索式解析処理、同義語異表記展開処理
、オートマトン生成処理、複合条件解析処理が終わり、
ビットサーチ用コンピュータ(CPU3) 1107 
a上のビットサーチプログラムエ107、サーチエンジ
ン1106、及び複合条件判定用コンピュータ(CPU
2)1145a上の複合条件判定プログラム1工45に
それぞれ制御情報が渡し終わると、検索処理が始めらる
。 検索処理は、サーチマシン制御用コンピュータ(CPU
o) 1 ]−50上の検索実行制御プログラム1↓0
8により制御される。すなわち、検索実行制御プログラ
ム1108では、ピッ1〜サーチプログラム1107、
サーチエンジン1106、及び複合条件判定プログラム
]145に苅して8動を掛け、テキストデータファイル
]]10から被検索テキストデータを読み込み、階層型
プリサーチと本文サーチを実行する。まず、テキス1−
データファイル1110からビットサーチプログラム1
107へ文字成分表を読み出して文字成分表サーチを行
う。文字成分表サーチ結果は、該当文書識別子として検
索結果格納メモリ1146に書き出される。次に、該文
書識別子で指定される文書の凝縮本文をテキストデータ
ファイル1]−l○からストリングサーチエンジン11
.06へ読み込み凝縮本文サーチを行う。ストリングサ
ーチエンジン1106では、あらかじめ設定された状態
遷移テーブル情報にしたがって指定されたキーワード群
を入力凝縮本文データの中から探し出す。そして、キー
ワードのどれかでも見つかると、そのテキストファイル
の識別子と該当キーワードの識別コード並びに検出され
た位置情報を、複合条件判定用コンピュータ(CPU2
) 1145 a上の複合条件判定プログラム1145
に送出する。 サーチエンジンの出力情報として付加される位置情報と
は、そのキーワードが見つかった文書中の位置を表す情
報のことであり、具体的にはその文書の先頭から数えて
何文字目に当るのかを文字数でカウントした値である。 ・第11図に具体例で照合位置情報を示した。本図は、
文書の内容が、「あいまい検索のための知的検索技術を
開発した。 ・・・・・・」という場合、これを″知的検索″という
キーワードで検索した場合を想定したものである。ここ
では、″知的検索技術″の中の″知的検索”の部分がキ
ーワードと一致することになるので、この部分が検出さ
れることになる。照合位置情報としては、″知的検索″
の末尾文字索″の文書先頭からの文字位置が採られる。 この例では、工3が照合位置情報となる。 この照合位置情報を付加したサーチエンジンの出力情報
は、第15図に示した構成を取る。すなわち、本実施例
では32ビツト長のキーワード識別子と、同じく32ビ
ツト長のキーワード照合位置情報で構成される。また、
各文書毎にキーワード識別子の出力に先立って文書識別
子が出力され、照合出力情報がどの文書に対応するもの
かが分かるようにしである。 凝縮本文サーチ結果は、該当文書識別子と照合キーワー
ド識別子及びキーワード照合位置情報が組み合わされた
照合情報として、複合条件判定用コンピュータ(CPU
2) 1145 a上の複合条件判定プログラム114
5に渡される。複合条件判定プログラム↓145では、
先に設定された複合条件判定制御情報に基づいて、指定
条件に合致する文書を判定し、その文書識別子を検索結
果格納メモリ↓146に書き出す。検索実行制御プログ
ラム1工08は、複合条件中に近傍条件あるいは文脈条
件が設定されているかを判定し、もし設定されている場
合には最後の本文サーチを行う。 すなわち、凝縮本文サーチの結果得られた該当文書識別
子に対応する本文データをテキストデータファイル11
10からストリングサーチエンジン上106へ読み込み
本文サーチを行うことになる。 ストリングサーチエンジン上 る照合情報は複合条件判定プログラム1145に渡され
、ここで指定された近傍条件及び文脈条件に合致するか
否かの判定処理が行われる。この判定処理結果は、最終
的な検索結果情報として、該当文書識別子という形で検
索結果格納メモリ1工46に出力される。 凝縮本文サーチあるいは本文サーチが済み、最終的に検
索処理が終わると、サーチマシン制御用コンピュータ(
CPUo) 1150上の検索結果表示プログラム1工
47が検索結果格納メモリ1146上の該当文書識別子
に基づいて、検索結果件数、あるいはヒツトした文書の
書誌情報である文書名や著者などの書誌事項をテキスト
データファイル1110から読み出してデイスプレィ1
120へ一覧表示したり、あるいはユーザの指定に応じ
てヒツトした文書の本文データをテキストデ−タファイ
ル1110から読み出して表示したりする。 以上が本発明により提供されるフルテキストサーチ装置
の第一の実施例についての説明である。 次に、本発明の第二の実施例について、第25図を用い
て説明する。 本実施例は、キーボード250 ]、 、サーチマシン
制御用コンピュータ(CPUo)2520、デイスプレ
ィ2520、オー1−マトン生成用コンピュータ(CP
U□) 2505 a、ピッ1〜サーチ用コンピユータ
(CPU3) 2507 a、ストリングサーチエンジ
ン上 ピュータ(CPU2)254−5a、検索結果格納メモ
リ2546、半導体メモリ装置2510a、RAMディ
スク装W25↓Ob、集合型磁気ディスク装置2510
c、及びイメージデータファイル2530から構成され
る。また、サーチマシン制御用コンピュータ(CI)U
o)2550では、検索式解析プログラム2502、同
義語展開プログラム2503、異表記展開プログラム2
504、複合条件解析プログラム2541、近傍条件解
析プログラム2542、文脈条件解析プログラム254
3、論理条件解析プログラム2544、検索実行制御プ
ログラム2508、及び検索結果表示プログラム254
7が実行され、オートマトン生成用コンピュータ(CP
U1) 2505 aではオー1へマトン生成プログラ
ム2505が、ビットサーチ用コンピュータ(CPU3
)2507aではビットサーチプログラム2507が、
複合条件判定用コンピュータ(CPU2)2545aで
は複合条件判定プログラム2545が実行される。 また、集合型磁気ディスク装置2510cは、集合型磁
気ディスク制御装置2510clと磁気ディスク装置2
510e、〜25工Oe、2から構成される。 本図において、先ずキーボード2501から入力された
検索条件式はサーチマシン制御用コンピュータ(CPU
o)2550J二の検索式解析プログラム2502によ
り解析される。すなわち、検索式解析プログラム250
2ては検索条件式を構成するキーワード部分とそれらの
包含条件及び配置条件を記述した複合条件記述部に分離
する。包含条件は論理条件として記述され、配置条件は
近傍条件や文脈条件として記述されたものである。 分離抽出後、キーワード部分は同じくCPU。 2550上の同義語展開プログラム2503に渡され、
複合条件記述部は複合条件解析プログラム2541に渡
される。 同義語展開プログラム2503では、ここに内蔵された
同義語辞書を参照して、入力されたキーワードの同義語
が求められる。そして、ここで同義語展開されたキーワ
ード群は異表記展開プログラム2504へ渡される。本
図の例の場合、′計算機”から、″電算機″、″コンピ
ュータ”“C0MPt1TER”などが生成される。 異表記展開プログラム2504では、ここに入力されて
きたキーツー1−群に対して異表記展開処理が施される
。本図の例の場合、″コンピュータ”から“コンピュー
ター”が、また“COMPUTER”から”Compu
ter”などが生成される。 こうして同義語及び異表記展開されたキーワード群は、
次にオー1−71〜ン生成用コンピユータ(CP U 
1) 2505 a上のオートマトン生成プログラム2
505に送られる。 オートマトン生成プログラム2505では、異表記展開
プログラム2504から送られてきたキーワード群に対
して、これらを−括照合するオートマトンを生成し、状
態遷移テーブルと照合すべきキーワードの識別コード情
報として、サーチエンジン2506に設定する。サーチ
エンジン2506は有限オートマトン方式に基づく高速
多重文字列照合回路である。 また、異表記展開プログラム2504で異表記展開され
たキーワード群は、該当キーワード識別コードと共に、
ビットサーチ用コンピュータ(CP U3) 2507
 a上のビットサーチプログラム2507へ渡される。 一方、検索式解析プログラム2502から入力検索条件
式中の複合条件記述部を受け取ったサーチマシン制御用
コンピュータ(CPU、)2550上の複合条件解析プ
ログラム2541では、これを解析して近傍条件記述部
と文脈条件記述部並びに論理条件記述部に分離する。そ
して、各条件記述部をそれぞれ近傍条件解析プログラム
2542、文脈条件解析プログラム2543及び論理条
件解析プログラム2544へ渡す。 近傍条件解析プログラム2542では、字間距離条件や
語間距離条件が抽出される。ここで抽出された各条件は
、指定されたキーワードの識別コードとその間の距離情
報に変換され、複合条件判定用コンピュータ(CPU2
)2545a上の複合条件判定プログラム2545に渡
される。 文脈条件解析プログラム2543では、同−交円共起条
件や同−段落的共起条件、同−筒内共起条件、同−意向
共起条件などの各種の共起条件が抽出される。ここで抽
出された各条件は、指定されたキーワードの識別コード
と指定文脈コード情報に変換され、複合条件判定用コン
ピュータ(CPU2)2545a上の複合条件判定プロ
グラム2545に渡される。 論理条件解析プログラム2544では、検索条件式中に
指定された論理条件が抽出され、論理条件コード情報に
変換され、複合条件判定用コンピュータ(CPU2)2
545a上の複合条件判定プログラム2545に渡され
る。 さて、上述した検索式解析処理、同義語及び異表記展開
処理、オートマトン生成処理、複合条件解析処理、近傍
条件解析処理、文脈条件解析処理、及び論理条件解析処
理が終わり、ビットサーチ用コンピュータ(CP U 
3 ) 2507 a上のビットサーチプログラム25
07、サーチエンジン2506、及び複合条件判定用コ
ンピュータ(CP U 2 ) 2545 a上の複合
条件判定プログラム2545にそれぞれ制御情報が渡し
終わると、検索処理が始められる。 検索処理は、サーチマシン制御用コンピュータ(CPU
、)2550上の検索実行制御プログラム2508によ
り制御される。すなわち、検索実行制御プログラム25
08では、まずビットサーチプログラム2507に起動
を掛け、半導体メモが+n。 す装置2510aから文字成分表を読み出して文字成分
表サーチを行う。文字成分表サーチ結果は、該当文書識
別子として検索結果格納メモリ2546に書き出される
。 次に、ストリングサーチエンジン2506、複合条件判
定プロクラム2545及びRAMディスク装置2510
bに起動を掛けて、検索結果格納メモリ2546に書き
出された文書識別子で指定される文書の凝縮本文をRA
Mディスク装置2510bからストリングサーチエンジ
ン2506へ読み込み凝縮本文サーチを行う。凝縮本文
サーチ結果は、該当文書識別子と照合キーワード識別子
及びキーワード照合位置情報が組み合わされた照合情報
として、複合条件判定用コンピュータ(CP U2) 
2545 a上の複合条件判定プログラム2545に渡
される。複合条件判定プログラム2545では、先に設
定された複合条件判定制御情報に基づいて、指定条件に
合致する文書を判定し、その文書識別子を検索結果格納
メモリ2546に書き出す。 そして、検索実行制御プログラム2508は、複合条件
中に近傍条件あるいは文脈条件が設定されているかを判
定し、もし設定されている場合には最後の本文サーチを
行う。すなわち、ストリングサーチエンジン2506、
複合条件判定プログラム2545及び集合型磁気ディス
ク装置25↓Ocに起動を掛けて、凝縮本文サーチの結
果得られた検索結果格納メモリ2546中の該当文書識
別子に対応する本文データを集合型磁気ディスク装置2
510cからストリングサーチエンジン2506へ読み
込み本文サーチを行うことになる。 集合型磁気ディスク装置2510cは複数台の磁気ディ
スク装置2510e□〜2510e□2から構成され、
文字成分表、凝縮本文、本文、及び書誌事項などの各種
テキストデータがこれらの磁気ディスク装置2510e
、〜2510e工2に分散して格納される。そして、こ
れらの磁気ディスク装置2510e、〜2510e1□
は集合磁気ディスク制御装置2510dの制御のもとに
、平行して独立にテキストデータを読み出す。読み出さ
れたそれぞれのテキストデータは、集合磁気ディスク制
御装置2510dで統合され、すなわちマルチプレクシ
ングされて高速にストリングサーチエンジン2506へ
送り出される。工2台の磁気ディスク装置を同時に動作
させた場合、−台だけの場合に比較して釣上0倍の読み
出し速度が得られることになる。 ストリングサーチエンジン2506から出力される集合
情報は、複合条件判定プログラム2545に渡され、こ
こで指定された近傍条件及び文脈条件に合致するか否か
の判定処理が行われる。この判定処理結果は、最終的な
検索結果情報として、該当文書識別子という形で検索結
果格納メモリ2546に出力される。 凝縮本文サーチあるいは本文サーチが済み、最終的に検
索処理が終わると、サーチマシン制御用コンピュータ(
CPU、)2550上の検索結果表示プログラム254
7が、検索結果格納メモリ2546上の該当文書識別子
に基づいて、検索結果件数、あるいはヒツトした文書の
書誌情報である文書名や著者などの書誌事項を集合型磁
気ディスク装置25]、○Cから読み出してデイスプレ
ィ2520へ一覧表示したり、あるいはユーザの指定に
応じてヒツトした文書の本文データを集合磁気ディスク
装置2510cから読み出して表示したりする。更に、
ユーザがヒツトした文献の図面や画像情報の閲覧を指定
した場合には、イメージデータファイル2530から該
当するイメージデータを読み出しデイスプレィ2520
へ表示する。 以」二が本発明により提供されるフルテキストサーチ装
置の第二の実施例についての説明である。 また、本実施例ではテキストデータを格納するテキスト
データファイル1工○(第工図)として集合磁気ディス
ク制御装置110d (第20図)を用いているが、テ
キストデータファイル1.10の容量を拡大するために
集合型の光ディスク装置を用いることも可能である。す
なわち、磁気ディスク装置1.10e1〜110e□2
の代わりに、光ディスク装置を用いることも可能である
。ただし、磁気ディスク装置を用いる場合に比較して、
アクセス速度が落ちるため、本文サーチ速度がその9低
下することになる。さらに、この場合、光ディスク装置
として、テキストデータの修正がない場合には追記型の
光ディスク装置が使え、テキストデータの修正が生じる
場合には書替え型の光ディスク装置を用いることになる
。 次に、上述した第二の実施例におけるRAMディスク装
置2510bの具体的実施例について、第75図を用い
て説明する。 本図において、RAMディスク装置2510bは、凝縮
本文を納める半導体メモリ7100(RAM)と、この
半導体メモリ7100上の凝縮本文の読み出しを制御す
るRAMディスクコントローラ7200から構成される
。 RAMディスクコン1−〇−ラフ200は、ダイレクト
メモリアクセスコンI−ローラ7210(DMAC)、
アドレスコントローラ7220、アドレスメモリ723
0から構成される。アドレスメモリ7230には、半導
体メモリ7100内のどこからどこまで読みだすのかを
、それぞれ開始アドレス5TARTnと終了アドレスE
NDnの対データとして、複数組設定できるようにして
いる。この開始アドレス7360と終了アドレス737
0は、検索実行制御プログラム2508 ニより、検索
結果格納メモリ2546内に書き込まれた読み出し対象
とすべき凝縮本文の識別子情報をもとに、検索実行制御
プログラム25o8内で管理される凝縮本文格納情報を
参照して与えられる。 アドレスコントローラ7220は、検索実行制御プログ
ラム2508から与えられる起動信号に基づいて、アド
レスメモリ7230内の読み出し領域アドレス情報、す
なわち開始アドレス5TART1と終了アドレスEND
□を読み出し、これから読み出すべき領域の先頭アドレ
ス7310と読み出すべきワード数7320を求めて、
これをダイレクトメモリアクセスコントローラ7210
に設定され、これに起動を掛ける。ダイレクトメモリア
クセスコントローラ72↓0は、指定されたアドレス7
3 ]−0とワード数7320に基づき、該当領域のデ
ータを半導体メモリ73−00から読み出し出力する。 ダイレフ1〜メモリアクセスコントローラ7210は、
読み出しが終了したら終了信号7370をアドレスコン
トローラ7220へ送出する。アドレスコントローラ7
22oはこれを受けて、次の転送アドレス情報、すなわ
ち開始アドレス5TART2と終了アドレスEND2を
読め出し、同様にしてこれから読み出す八き領域の先頭
ア1〜レス7310と読み出すべきツー1〜数7320
を求めて、これをダイレクトメモリアクセスコントロー
ラ7210に設定し、起動を掛ける。これを受けてダイ
レクトメモリアクセスコントローラ721oは指定され
たアl〜レス731゜とワード数7320に基づき、該
当領域のデータを半導体メモリ7100から読み出し出
力する。 以下同様の処理をくりかえして、アドレスメモリ723
0内に設定された転送情報に対応する半導体メモリ71
00内のデータを読み出すことに−1,、Lも なる。 以上が、RA、 Mディスク装置2510bの実施例の
説明である。 次に、上記第二の実施例における複合条件解析プログラ
ム2541 (第25図)の更に詳細な実施例について
第13図を用いて説明する。 本実施例では、複合条件解析プログラム1141が、近
傍条件判定プログラム330、文脈条件判定プログラム
340、及び論理条件判定プロゲラt、、 a 50に
よりパイプライン的に構成されている。 また、検索実行制御段階としては、本文サーチを行う場
合を例にしている。すなわち、入力テキストデータとし
ては、集合型磁気ディスク装置11、10 cから本文
データを入力し、このなかからサーチエンジン1106
でキーワードの探索照合を行う場合である。 探索条件式としては、論理条件、近傍条件及び文脈条件
を含む複合条件式301が入力されるものとする。 複合条件式301:Q=and(文書〔4C〕理解、文
書(S)検索) この複合条件式301は、「文書」と「理解」がこの順
序で現れ、かつ43r字以内の距離に近接し、さらに「
文書」と「検索」が同一文中に共起するものを検索する
ことを意味している。すなわち、″文書〔4C〕理解″
が、「文書」と「理解」がこの順序で現れ、かつ4文字
以内の距離に近接するという近傍条件を示し、″文書[
S’l検索″が、「文書」と「理解」が同一文中に共起
する文脈条件を、  and  (・・・、・・・)″
が、これら両者が同時に起こるという論理条件を示して
いる。 このような複合条件検索式30土が指定されると、第二
の実施例(第25図)で説明したように、先ずこの検索
条件式が検索式解析プログラム1102で解析され、こ
れに含まれるキーワー1〜、すなわち単語「文書」、「
理解」及び「検索」が抽出される。そして、これらにそ
れぞれT□、T2及びT3という識別子が付与され、同
義語展開プログラム1103、さらには異表記展開プロ
グラム1」04へ渡される。ここでは、説明を簡単にす
るために、同義語及び異表記展開される言葉がなかった
ものとして説明する。したがって、同義語及び異表記展
開された結果は、入力キーワードと変わらず、「文書」
、「理解」及び「検索」の3単語ということになる。こ
れらは、オー1−71〜ン生戊プログラム1107に渡
され、ここで各文字列を照合するオートマトンが作成さ
れ、その状態遷移テーブルがサーチエンジン1106に
設定されることになる。 一方、検索条件式中の複合条件については、複合条件解
析プログラム1141にて、それぞれ近傍条件″文書〔
4C〕理解″、文脈条件″文書〔S〕検索″、及び論理
条件”and (・・・・・・、・・)に分解される。 この時、各条件式中のキーワードは、先にオートマトン
生成に際して付与されたキーワード識別子(ターム識別
子ども呼ぶ)で置き換えられる。したがって、近傍条件
はrrT□[4C3T2”と、文脈条件は”T、 l:
s’l T3’″という形式で表される。また、これら
の条件式にj19− もそれぞれ項識別子■□及び1.が付与される。し。 たがって、論理条件式は”a n d (Ix+ I2
)”と表されることになる。以」二の処理は、それぞれ
近傍条件解析プログラム254.2(図25)、文脈条
件解析プログラム2543 (図25)及び論理条件解
析プログラム(図25)2544にて行われる。このよ
うにしてターム識別子及び項識別子で表現された各条件
は、複合条件判定プログラム2545 (図25)の各
条件判定処理プログラムに送られる。 こうしてサーチエンジン1106に各検索ターム照合用
のオートマトン状態遷移テーブル及び検索ターム識別子
情報が設定され、近傍条件判定プログラム330、文脈
条件判定−プログラム34. O5及び論理条件判定プ
ログラム350にそれぞれ検索ターム識別子及び項識別
子で記述された各条件式が設定されると、検索実行制御
プログラム1108により集合型磁気ディスク装置1↓
10C、サーチエンジン1106、複合条件解析プログ
ラム1145、近傍条件判定プログラム330、文脈条
件判定プログラム340、及び論理条件判定プログラム
350に起動が掛けられる。 そうすると、集合型磁気ディスク装置 1110Cからはテキストデータが読み出されサーチエ
ンジン110.6へ送られる。サーチエンジン1106
では、指定された検索ターム「文書」、「理解」及び「
検索」のどれかが見つかると、その検索ターム識別子T
、、T2及びT3力天見つかったテキスト内の位置情報
と一緒に近傍条件判定プログラム330へ送られる。ま
た、支間の区切り記号となる「。」についても、とくに
ユーザからの指定かなくともサーチエンジン1106で
検出にれに対応する句点識別子T。並びに位置情報を近
傍条件判定プログラム330に送り出す。 近傍条件判定プログラム330では、サーチエンジン1
106から送られてくる検索ターム識別子をその位置情
報も加味して指定された近傍条件と照らし合わせる。も
し指定近傍条件″T□(4C) T2” 、すなわち″
文書〔4C〕理解″に合致するものがあれば、その照合
結果として該・へ 光条件に対応した項識別子■□を、サーチエンジン11
06から入力した句点識別子T。、検索ターム識別子T
□、T2及びI3に加えて文脈条件判定プログラム34
0へ送り出す。 文脈条件判定プログラム340では、上記近傍条件判定
プログラム330から入力した句点識別子To及び検索
ターム識別子T□、T3並びにその位置情報を基に、指
定文脈条件をチエツクする。 文脈条件rrT□[:5)I3”は、上記句点識別子T
oと、Tよ及びI3の並びから判定する。すなわち、T
1とI3がこの順序でその前後を二つのT。 で挾まれていれば文脈条件”T1[5)I3”が成立し
たものと判断する。もにの文脈条件″文書〔S〕検索″
に合致するものが見つかれば、その照合結果として該当
条件に対応した項識別子■2を、近傍条件判定プログラ
ム330から入力した句点識別子T。、及び検索ターム
識別子T1. I3並びに項識別子工、に加えて論理条
件判定プログラム350に送り出す。 論理条件判定プログラム350では、文脈条件判定プロ
グラム340から送られてくる句点識別子T。及び検索
ターム識別子T1.T3並びに項識別子11. I2の
中から指定論理条件” a n d(11,I2) ”
に合致する識別子11. I、があるかどうか調べる。 すなわち、項識別子■□と工、の両者が見つかれば火元
の複合条件検索式Qが戊り立ったことになり、そのテキ
ス1−(文書)は検索式Qで検索されたことになる。該
当テキストの例としては、同図に示したテキスl−30
2のようなものが検索されることになる。 一方、上記集合型磁気ディスク装置1110cから、サ
ーチエンジン1106、近傍条件判定プログラム330
、文脈条件判定プログラム340及び論理条件判定プロ
グラム350へ流れる照合情報の中にはこれまで説明し
なかったテキストデータの識別子も含まれている。すな
わち、論理条件判定プログラム350では検索式Qが成
立したテキストデータについては、その文書識別子を次
段の検索結果表示プログラムへ送られ、ここでヒツト件
数が表示されたり、あるいはこの文書識別1L)3 子をもとに集合型磁気ディスク装置1110cから該当
文書の書誌事項が読み出され、これがデイスプレィ11
20へ表示されることになる。 以上が、第二の実施例における複合条件判定プログラム
2545(第25図面の簡単な説明である。 以」二が、第一の実施例におけるテキストデータファイ
ル11↓O(第10図)と、複合条件解析部1141 
(第10図面の簡単な説明である。 次に、本発明が提供するフルテキストサーチ方式につい
て具体的に説明する。 本発明においては、スキャン型のフルテキストサーチを
加速する方法として、2段階のプリサーチ、すなわち第
15図に示す文字成分表サーチ402と凝縮本文サーチ
403を行っている。すなわち、本文サーチ403を行
う前に上記2段階のプレサーチを行うことによって、磁
気ディスクに格納されたテキスト本文を参照しに行く件
数を予め絞り込んでおく。こうすることによって、検索
処理時間に占める割合が高い本文検索処理量を減らすこ
とができ、全体の検索処理時間を短縮することか可能と
なる。 これらは全て検索実行制御プログラムによって制御され
る。先ず、第1段階目のプリサーチである文字成分表サ
ーチの実施例について説明する。 本文字成分表サーチでは、第二6図の登録処理全体の流
れ及び第18図に詳細に示したハツシュコード化手順に
示すように、後述する凝縮本文中のすべての文字コード
に対してその文字コードをテキスト中に含む文書のリス
トを作成しておく。 すなわち、各文字コードの文書毎の有無をエビットの情
報(ビットリストと呼ぶ)で表し、更にこれをハツシュ
化したものを文字成分表500として持つ。 例えば、「検索」というキーワードが指定された場合に
は、第18図に示すように「検」と「索」のそれぞれの
文字毎にハツシュ関数510を介して文字成分表500
のエントリアドレスを求める。 そして、それぞれの文字コードのハツシュ値から求めら
れたピッ1〜リスト503および506のピッ1−間の
論理積を取ることによって、「検」と「索」の両文字を
含む文献のビットリスト520が求められる。 以上の文字成分表サーチの処理手順は、第23図に示し
たとおりである。すなわち、指定された検索条件式中に
含まれるキーワード数分だけ文字成分表サーチを繰返し
、各キーワードの文字成分表サーチでは、このキーワー
ドを構成する文字数分、それぞれの文字の存在を示した
ビットリストの論理積ANDをとることになる。この結
果、各キーワード毎に、これを含む可能性を持った文書
候補がビットリストの形で求まることになる。最後に、
こうして求まったビットリストを文書識別子へ変換する
。この文書識別子はシステム内部でユニークに定められ
た文書番号であり、ビットリストの先頭からビット位置
に対応して付与されている。 また、文字成分表サーチにおいて、指定された検索条件
式中に論理積条件(AND)が設定されている場合には
、文字成分表サーチ処理の中で論理積条件の処理も行い
、これ以降の検索処理対象文書件数を絞り込んでおくこ
とによって、全体の検索処理時間を短縮することが可能
となる。 例えば、 ”Q=and(文書、検索)″ という検索条件式が入力された場合について説明する。 この検索条件式は、″文書″と″検索″が両方共裏われ
る文書を検索する意味を表す。この場合、まずキーワー
ド″文書″にいて文字成分表サーチを行い、次にパ検索
”というキーワードについて文字成分表サーチを行う。 その後、この両者の検索結果のビットリスト間の相互の
ビット毎の論理積ANDをとり、文字成分表サーチの最
終的な検索結果とする。この処理手順を第24図に示す
。本図では、検索条件式中に含まれるキーワード、すな
わちキーワード数分文字成分表サーチを繰返すことにな
る。 そして、この各キーワード毎の文字成分表サーチにおい
ては、このキーワードを構成する文字数分、それぞれの
文字の存在を示したビットリストの論理積ANDをとる
。この処理を、全キーワード数分行った後、各キーワー
ドの文字成分表サーチ結果のビットリス1〜間の論理積
ANDをとる。 こうして得られた最終ビットリストは、検索条件式中の
論理積条件で指定されたキーワードを同時に含みうる文
書候補を表すことになる。 以」二の処理のように、指定された検索条件式中に論理
積条件(AND)が設定されている場合には、文字成分
表サーチ処理の中で論理積条件の処理も行い、これ以降
の検索処理対象文書件数を絞り込むことによって、全体
の検索処理時間を短縮することが可能となる。 この文字成分表500は、各文字コードの文献毎の有無
をlビットの情報で表すと共に、更にこれをハツシュ化
しているため、テーブル容量は原テキストデータの数十
分の+になり、サーチすべきデータ容量も極めて小さく
なり、検索の高速化に大きく寄与することになる。ただ
し、この文字成分表サーチだけではノイズが生じてしま
う。すなわち、検索処理手順を示す第エフ図の文書3の
様に「検」と「索」がばらばらに表れるテキストも検索
されてしまうことになる。このノイズを消去するのが第
二のプレサーチ、すなわち、凝縮本文サーチである。 第二のプリサーチである凝縮本文サーチでは、凝縮本文
を対象に検索を行う。凝縮本文は、予めテキスト本文の
中から助詞や接続詞などの付属語を削除すると共に繰り
返し現れる単語の重複を排除したものである。第19図
にこの凝縮本文の作成方法を示す。 ここでは、「あいまい検索のための知的検索技術」60
1というテキスI・文字列を例にとる。先ず最初に文字
種分割処理610において、入力文字列を異なる文字種
の間で分割する。この例では、「あいまい」、「検索」
、「のための」および「知的検索技術」の4つの文字列
602に分解される。 次に付属語解析処理620において、文字種分割された
文字列602のうち、ひらがな文字列「あいまい」と「
のための」に対して[、↑属語解析を加え、付属語と解
釈できるものは検索には用いられない言葉として取り除
く。すなわち、助詞や接続詞とみなせるものについては
捨ててしまう。 このような言葉は、もし検索のキーワードとして用いた
としても、はとんど全ての文書に現れるため、はぼ全件
がヒツトしてしまうことになり、検索という意味をなさ
ないことになる。この例では、ひらがな文字列「のため
の」603が助詞「の」と、接続詞「ため」及び助詞「
の」と、すべての部分文字列が不要語と解釈できるので
、検索には使われ得ない文字列とみなして除去する。一
方、「あいまい」は付属語と解釈することができないの
で、そのまま凝縮本文として残す。この場合、「あいま
い」を名詞として認識して残しているのではない。した
がって、どのような新語が文書に現れようとも、必す凝
縮本文に登録されることになる。 最後に、重複登録排除処理630において、不要語とし
て除去された残りの文字列群602の中に、同じ言葉が
ないかどうかを調へる。もし、同じものがあれば二重登
録しないように次のものを捨ててしまう。まったく同じ
でなくとも、どちらかの文字列がもう一方の文字列に含
まれていれば、その含まれる文字列は不要であるので捨
ててしまう。本図の例では、「検索」が「知的検索技術
」に含まれるため、重複登録排除ということで切り落と
される。その結果、凝縮本文として最終的に、「あいま
い」、「検索」及び「技術」が残ることになる。このよ
うに、凝縮本文は単語単位で原文書を情報圧縮したこと
になるため、この凝縮本文をサーチすることによって、
例えば「検索」と連続した文字列、すなわち単語として
キーワードが現れる文書のみを拾い出すことが可能にな
る。 このようにして作成された凝縮本文は、原テキストと比
較しその約20〜25%に容量が減じられる。したがっ
て、フルテキストサーチを等価的に約5倍高速化できる
ことになる。さらに、この凝縮本文を半導体メモリなど
の高速アクセスが可能なメモリ上に置くことによって、
さらに等価スキャン速度を高めることが可能となる。 また、本凝縮本文の作成方式は、キーワード辞書などを
用いて検索に必要とする単語を切り出してくる方法と異
なり、辞書を用いず文法的に解析し得る不要語だけを除
去する方法を用いているために、必要な単語を切り落し
てしまう危険性がなく、検索漏れが生じにくい特徴があ
る。従来の検索方式ではキーワード辞書に登録されてい
ない新語などが採取できないことにより検索漏れが生じ
たりするが、本方式では新語であっても凝縮本文から落
ちることがないため、新語ということによる検索漏れが
生しることはない。 また、この凝縮本文検索は、サーチエンジン1106 
(第10図)を用いて行われ、この後この凝縮本文検索
の結果絞り込まれた文書について、該当する本文データ
をサーチし最後の複合条件による検索を行うことになる
。すなわち、本文サチではテキスト本体をスキャンしな
ければ判定ができない近傍条件と文脈条件の判定処理を
行いながら検索をすることになる。 通常、文字成分表と凝縮本文は1本文データと共に集合
型磁気ディスク装置11]、Oc(第3図)に格納され
ていて、検索システムの立ち上げ時にそれぞれ半導体メ
モリ装置1110a及びRAMディスク装置1110b
ヘローデインされる。検索時には、それぞれ半導体メモ
リ装置1110a及びRA、 Mディスク装置1]−1
0bから読み出されることになる。また、本文データは
格納元の集合型磁気ディスク装置1110c (第I3
図)から直接読み出されて、検索されることになる。 以上説明したように、事前に「文字成分表サーチ」と「
凝縮本文サーチJという2段階のブリサーチを行い、最
も時間を要する「本文サーチ」の対象となる文書数を予
め最小に絞り込んでおくことによって、等価的に高速な
フルテキストサーチが実現できるようになる。 本文検索では、テキス1〜データをスキャンしなければ
判別ができない近傍条件と文脈条件の判別処理を加えて
検索を行うことになる。通常、文字成分表及び凝縮本文
は集合磁気ディスクに格納されているが、システムの立
上時にRAMディスクにロードされ、検索時にはRAM
ディスクから読み出される。テキスト本文は集合磁気デ
ィスク装置2510 (第25図)から読み出されるこ
とになる。 このように、事前に2段階のプリサーチを行い、最も時
間を要する本文検索の対象となる文献数を予め最小に絞
り込んでおくことによって、等価的に高速なフルテキス
トサーチが実現できることになる。 この3段階検索では、近傍条件検索と文脈条件検索が指
定されなかった場合には、本文をサーチする必要がない
ので、文字成分表サーチと凝縮本文サーチだけで検索を
終了することができる。すなわち、第2上図に示すよう
に、指定検索条件式中に近傍条件あるいは文脈条件が含
まれない場合には、キーワードが単語として存在するか
否かだけを探索すればよいことになるため、文字成分表
サーチで指定キーワー1−を構成する文字を含む文書を
抽出し、その結果求められた文書の凝縮本文をサーチし
てキーワードが単語として含まれるもののみを抽出し、
検索を終えることができる。この結果、サーチ時間が掛
かる不要な本文サーチを省略できるため、検索時間を全
体として短縮することが可能となる。 また、この3段階の階層検索において、最初の文字成分
表サーチ結果がゼロ件で該当文書がなかった場合には、
ここで検索を打ち切ることが可能である。すなわち、第
22図に示すように、近傍条件あるいは文脈条件が設定
されていたとしても、次段の凝縮本文サーチとその後の
本文サーチを省略することができる。同様に、凝縮本文
サーチ結果件数がゼロ件の場合には、たとえ近傍条件あ
るいは文脈条件が設定されていたとしても、次段の本文
サーチを省略することが可能である。この結果、入力さ
れた検索条件式に応じて最小の時間で検索処理を済ませ
ることが可能となる。 以上説明した階層型のプリサーチでは、半導体メモリ上
に置いた文字成分表と凝縮本文で絞り込みを行い、最後
に本文を集合磁気ディスク装置から読み出して検索を行
う方式としている。このように凝縮本文を半導体メモリ
に置く方式では、半導体メモリを用いる分検索装置のコ
ストが高くなる。したがって、凝縮本文を磁気ディスク
装置」ニに置いて検索を行うことにより、半導体メモリ
を不要とすることができ、装置のコストを低く抑えるこ
とが可能となる。 ただし、文字成分表サーチで絞り込んだ結果で凝縮本文
サーチを行う場合、凝縮本文を集合磁気ディスク装置上
から選択的に読み出すことになる。 この場合、比較的小容量の多数のデータをアクセスする
ことになるため、集合磁気ディスク装置からの実効的な
読み出し速度、すなわちスループッ1〜は、データの読
み出し時間よりも、むしろシーク時間に大きく影響され
ることになる。したがって、文字成分表サーチの結果件
数が多い場合には、アクセス時間が極めて短い半導体メ
モリ上に凝縮本文を置いた場合に比較して、凝縮本文サ
ーチ時間が極めて大きくなることになる。このような場
合には、凝縮本文を選択的に拾い読みするより、全件を
1フアイルとしてまとめ読みする方がシーク回数を減少
させることができるため、はるかに短時間で読み出しを
行うことが可能となる。 したがって、検索装置のコストを低減するために、凝縮
本文を半導体メモリではなく磁気ディスク装置」二に置
いたまま検索する場合、第20A図に示すような手順で
検索を行うことによって、検索速度を大きく落すとこな
く検索を行うことが可能となる。すなわち、文字成分表
サーチの結果件数が所定件数よりも多い場合には、この
文字成分表サーチの検索結果を無視して、新たに凝縮本
文を全件集合磁気ディスク装置から読み出して指定キー
ワードの存在を検索する。もし、文字成分表サーチの結
果件数が所定件数よりも少ない場合には、集合磁気ディ
スク装置」二の該当凝縮本文を選択的に読み出して凝縮
本文サーチを行う。 この場合の所定件数とは、凝縮本文をこの所定性数分選
択的に読み出す時間と、凝縮本文を全件−つのファイル
として連続的に読み出す時間が等しくなるような読み出
し件数のことである。また、この場合も当然凝縮本文サ
ーチ結果件数がゼロ件の場合には、近傍条件及び文脈条
件の設定の有無にかかわらず、ここで検索処理を打ち切
ることが可能である。 また、本文データの容量が小さい場合には、殻内に冗長
な文章が少ないため、凝縮本文の大きな圧縮率は望めな
い。したがって、ファイルの読み出し時間においてディ
スクのシーク時間と回転待ち時間が支配的なことを考慮
すれば、凝縮本文の読み出し時間と本文の読み出し時間
に大きな差が生しなくなることになる。すなわち、文字
成分表サーチの結果件数が所定件数よりも少ない場合に
は、第22B図に示すように集合型磁気ディスク装置上
の該当本文データを選択的に読み出して本文サーチを行
う方が効率的になる。つまり、最初の文字成分表サーチ
の結果件数が所定件数よりも多い場合には、この文字成
分表サーチの検索結果を無視して、新たに凝縮本文を全
件集合型磁気ディスク装置から読み出して指定キーワー
ドの存在を検索する。この場合、当該凝縮本文サーチ結
果件数がゼロ件の場合には、近傍条件及び文脈条件の設
定の有無にかかわらず、ここで検索処理を打ち切る。ゼ
ロ件でない場合には、条件式中に近傍条件あるいは文脈
条件が設定されているかを見て、もし設定されていると
きには本文サーチを行うことになる。一方、文字成分表
サーチの結果件数が所定件数よりも少ない場合には、集
合型磁気ディスク装置上の該当本文を選択的に読み出し
て近傍条件及び文脈条件を含めて本文サーチを行うこと
になる。このような検索手順を踏むことによって、文書
データの平均容量が小さい場合には、さらに効率的な検
索が行えるようになる。 このように、文字成分表サーチの結果件数に応して凝縮
本文の読み出し方法を変えることによって、凝縮本文を
集合磁気ディスク装置上に置いても、検索時間を大幅に
増やすことなく検索処理ができるようになるため、低価
格で高性能な全文検索装置の提供が可能となる。 次に本発明による同義語展開及び異表記展開の変形例に
ついて説明する。 第28図は本発明の実施例の構成を示すブロック図であ
る。本実施例は、コンソール2800、対話制御部28
01、異表記展開処理部2802及び2805、同義語
展開処理部2803、同義語辞書ファイル2804. 
、文字列統合列部2806、文字列検索処理部2807
、テキス1〜データベース2808から構成されている
。コンソール2800から入力された検索文字列40は
、対話制御部2801を介して異表記展開処理部280
2へ送られる。異表記展開処理部2802で展開した文
字列群4土は、同義語展開処理部2803へ送られると
共に、文字列統合処理部2806へも送られる。同義語
展開処理部2803では、同義語辞書2804を参照し
送られてきた文字列群41の各文字列と辞書の見出しと
のマツチングをとり、−1した文字列が存在すれば、同
義語展開モート制御信号2810に従い、辞書に記載し
である見出しに対応する言葉を出力し、異表記展開処理
部2805へ文字列群42を送る。異表記展開処理部2
805では、同義語展開された文字列42に対し、異表
記展開処理部2803と全く同じ処理方法で異表記展開
して、文字列群43を文字列統合処理部2806へ出力
する。文字列統合処理部2806は、異表記展開処理部
2802と2805から受け取った文字列群41と文字
列群43を、一つの文字列群44にまとめて文字列検索
部2807へ出力する。文字列検索部2807は、受け
取った文字列群44のうちのいずれかの文字列が存在す
るものをテキストDBから検索して、ヒツトした文書の
識別子情報などを、対話制御部2801へ検索結果45
として出力する。対話制御部2801は、この検索結果
45を受けて、検索結果件数46や、テキスト情報46
を適宜コンソール2800へ出力する。 異表記展開処理部2802と2805は、全く同一のも
のである。文字列検索部2807は公知の技術で、例え
ば特開昭63−31↑530を用いて実現できる。テキ
スI−D B 4.08は、文字コード情報であれば、
新聞記事データでも、ワープロで作成した文書のデータ
でも、電子ファイリングシステムの書誌事項データでも
構わない。 以下、異表記展開処理部2802.2805と同義語展
開処理部2803の構成作用について詳細に説明する。 \ まず、異表記展開処理の概要を第29図を用いて説明す
る。ここでは、最初に入力文字列2901を異なる字種
の間で切断し、部分文字列へ分割する。 例えば、入力文字列2901 “卓上型インクフォーン” の場合には、漢字文字列2902 ″卓上型” と、カタカナ文字列2903 “インクフォーン” 八女字種に従って分割する。次に、分割した文字列毎に
異表記展開を行ない、漢字異表記文字列リスト2904
、カタカナ異表記文字列リスト2905を得る。その後
、漢字異表記文字列リスト2904及びカタカナ異表記
文字列リスト2905をそれぞれ展開し、2つの文字種
で別々に展開した文字列群を1つに組み合せて最終結果
2906として出力する。 次に、第30図を用いて異表記展開の処理内容を詳細に
説明する。第30図は本発明における異表記展開手段の
実施例を示すブロック図である。 本実施例の構成は、文字種分割・選別部3001、ロー
マ字判別部3002、ローマ字カナ変換部3003、漢
字異表記展開部3004、カタカナ異表記展開部300
5、アルファベット異表記展開部300F3、カナロー
マ字変換部3007、分割文字列統合部3010よりな
る。 異表記展開処理部2802あるいは2805への入力文
字列3020は、まず文字種分割・選別部300工へ送
られる。文字種分割・選別部3001では入力文字列3
020を、上述したように漢字及びひらがな文字列30
3工、カタカナ文字列3032、アルファベット文字列
3033、それ以外の文字列3030の4種類の部分文
字列に分割する。分割した部分文字列をそれぞれの文字
種に従って分類し、別々の展開処理を施す。以下文字種
別に、その展開処理の概要を示す。 (1)漢字・ひらがな・カタカナ・アルファベット以外
の文字列 この文字種には数字、記号、特殊文字あるいは′ゝ\ 外字コー1く等が当たる。本実施例ではこれらの文字種
を、展開せずに入力した文字列3030をそのまま分割
文字列統合部3010へ出力している。 しかし数字に関して英数字を漢数字に変換したり、英記
号に関して記号″・″を−′″や/”に展開することな
ども考えられる。 (2)漢字・ひらがな文字列 これらの文字種に関しては、文字列3031を漢字異表
記展開部3004にて、漢字の新旧字体及び送りがなに
ついての異表記展開をする。漢字異表記展開部3004
の出力文字列3041は、分割文字列統合部3010へ
送られる。 (3)カタカナ文字列 この文字種に関しては、文字列3032をカタカナ異表
記展開部3005にて、類似音節の表記について異表記
展開を行う。展開した文字列3042は、分割文字列統
合部3010へ送られる。また、同時にカナローマ字変
換部3007へも送られる。カナローマ字変換部300
7でローマ字へ変換された文字列3053は、アルファ
ベ\ ット異表記展開部3006にて、アルファベットの大小
文字に関する異表記展開が行なわれ、文字列3043と
して分割文字列統合部3010へ送られる。 (4)アルファベラ1〜文字列 この文字種に関しては、日本語のローマ字表現の場合と
、外国語の原語の場合の2つの場合がある。 ここでは、まずローマ字判別部3002で、文字列30
33がローマ字か外国語かの判定をする。 この判定基準には、ローマ字の表記法を用いている。す
なわち、アルファベット文字の並びがローマ字の表記法
に合っていればローマ字と判定し、ローマ字として解釈
不能の場合は外国語と判定する。この判定は、ローマ字
カナ変換部3003で兼ねることもできる。すなわち、
ローマ字カナ変換ができれば、ローマ字と判定し、そう
でない場合に外国語と判定する。また、この判定には本
実施例の方法以外にも、外国語辞書を使うといった方法
も用いることが可能である。 =145 0一マ字判別部3002でローマ字と判定した文字列3
051は、ローマ字カナ変換部3003に送られ、ここ
でカタカナ文字列3052に変換され、これを更にカタ
カナ異表記展開部3005で、類似音節に関する異表記
展開を行い文字列群3042を得る。文字列群3042
に対するこの後の処理は、(3)のカタカナ文字列の処
理と同じである。すなわち、カタカナ異表記展開された
文字列群3042は、分割文字列統合部30 ]、 Q
へ送られると共に、カナローマ字変換部3007へも送
り出される。カタカナ文字列群3042は、カナローマ
字変換部3007で各々ローマ字へ変換され、ローマ字
文字列群3053としてアルファベット異表記展開部3
006に送られる。該ローマ字文字列群3053は、ア
ルファベット異表記展開部3006でアルファベットの
大小文字に関する異表記展開を施された後、分割文字列
統合部3010へ送られる。 一方、ローマ字判別部3002で外国語と判定された文
字列3034は、ローマ字カナ変換せずに、アルファベ
ット異表記展開部3006へ送られ、その出力文字列3
043は分割文字列統合部3010へ送られる。 以上、異表記展開処理の流れについて説明した。 続いて、この異表記展開処理における各処理ブロックの
詳細について説明する。 まず始めにカタカナ異表記展開部3005の処理につい
て説明する。第31図は異表記展開部における処理をカ
タカナ文字列を例にして説明した図である。ここでは、 “インタフォーン” という入力文字列を例としている。異表記展開処理は、
変換ルールを参照して行う。また、その変換処理は、入
力文字列中の部分文字列として変換対象となり得るもの
があれば、該変換ルールを参照して他の表記に置き換え
るものである。この変換ルールのテーブル形式も本図に
示されている。 この変換ルールテーブルは、見出し部と展開部文字列リ
スト部から構成されている。入力文字列中に、変換ルー
ルテーブルの見出し部分に相当するものが存在すれば、
該当部分を展開文字列リスト部に記述された異表記文字
列群で順次置き換えていく。 この見出し文字列の探索は、入力文字列の先頭から最長
−教法により行なう。すなわち本図に示したように、入
力文字列中の ″フォー という部分文字列と “フォ″ という部分文字列の両方が見出しにある場合には、より
長い見出しの “フォー のほうの変換ルールを適用する。 第31図の例を用いて、この見出し文字列探索及び展開
文字列リストへの置き換え処理を説明する。見出し文字
列探索において、入力文字列中の部分文字列と見出し文
字列との照合のため、探索ポインタを設定する。入力文
字列と見出し文字列の照合時には、探索ポインタの位置
を動かしながら、入力文字列中の探索ポインタを先頭と
する文7ゝ\ 字列と、見出し文字列との照合を行なっていく。 まず探索ポインろを入力文字列の先頭文字にセットする
。従って、この例では文字“イ”から見出し文字列の探
索を開始すると、゛・になる。該当する見出し 存在し
ないので、探索ポインタを1文字移動して″ン″を先頭
とする文字列からもう一度見出し文字列を探索する。ま
た該当する見出しが存在しないので、もう工文字探索ポ
インタを移動して″夕″の文字から見出し文字列を探索
する。 今後は “り” の見出し文字列が見つかるので、 夕” の部分を展開文字列リスト部に記述された“り″と11
ター に置き換える。そして探索ポインタを見出し″夕″ の文字数分、すなわち1文字分移動する。次に″フ゛′
の文字から見出し文字列探索し、該当する見、!t l
−y “フォー”と“フォ” を得る。今度は2つの見出し文字列が照合するが、この
ように複数個の照合した見出し文字列がある場合、最長
−教法に従い、最も長い見出し文字列のある変換ルール
を採用する。この例では、見出し ″フォー のほうが “フォ” より長いので、 “フォー を展開用変換ルールとして採用し、入力文字列内の部分
文字列 “フォー を展開文字列リスト部に記述された “フォー 、″フォ”、″ホー″及び″ホ″に置き換え
る。そして探索ポインタを見出し“フォー の文字数分、すなわち3文字分移動する。最後に入力文
字列中の最終文字、″ン″から見出し探索15〇− を行なうことになるが、該当する見出しがないので文字
ン′″は、展開処理が施されずそのままとなる。こうし
て探索ポインタが入力文字列の最終位置に来たので処理
を終了する。 以上の処理の結果として生成された展開リストを含む文
字列 ″イン(夕、ター)(フォー、フォ、ホー、ホ)ン″ の展開リストを組み合せることによって最終的な異表記
展開文字列が得られる。この例では、パ夕″の部分で2
通り、 ″フォー”の部分で4通り に展開するので展開結果は2×4の8通りの文字列、す
なわち 1)“インクフォーン” 2)“インタフオン″ 3)“インタホーン” 4)“インタホン” 5)″インターフォーン” 6)″インターフオン” 7)″インターホーン″ 8)“インターホン” となる。 以上の見出し文字列探索と展開文字列リス1へへの置き
換え処理を第32図に示すPAD図で説明する。まず探
索ポインタを入力文字列の先頭にセットする。次に現在
の探索ポインタを先頭とする文字列で、変換ルールの見
出し文字列があるかどうかを探索する。もしもマツチン
グする見出しがなければ、探索ポインタを1文字後方に
移動してから、再び探索ポインタを先頭とする文字列で
マツチングする見出し文字列を探索する。マツチングす
る見出しが存在する場合には、マツチングした見出しの
うち最も長い見出しを採用して、該当部分を展開文字列
リストで置き換える。置き換えがすんだら探索ポインタ
をマツチングした見出し文字列の文字数分後方に移動す
る。そして、探索ポインタが入力文字列の最終位置に来
るまで、上記の見出し文字列探索と展開リストへの置き
換え処理を繰り返す。 いままで説明してきた異表記展開における見出し文字列
の探索方法に関するもう一つの実施例について第33図
を用いて説明する。本実施例では、見出し文字列の探索
にオートマトンを用いている。 以下、その手順について述べる。まず変換ルールにより
、図に示すようなオートマトンを生成する。 異表記展開処理は、このオートマトンに入力文字列を1
文字ずつ入力して、そのオートマトンの動作出力から第
3工図で説明した展開文字列リストを含む文字列を得る
。 以下、具体的にその動作内容について説明する。 本図において記号aは入力文字を、丸はオートマトンを
構成する各状態を、丸の中の数字はその状態番号を示す
。線上の文字は、その文字が入力されたとき、矢印の方
向へ状態を遷移することを示す。記号′−′は、その後
に続く文字以外の文字を表す。また、記号′→′は、以
下に続く文字列を出力することを示す。このオートマト
ンは、その動作を制御するための状態遷移テーブルと、
各状態の出力を記述する出力子−プルからなる。状態遷
移テーブルは、第34図に示すものとなる。 ここでは、各状態における入力文字とその文字が入力さ
れたときに遷移する遷移先の状態番号が対として記述さ
れている。但し状態Oへ遷移する場合は記述を省略しで
ある。すなわち、各状態において状態遷移テーブルに記
述されていない文字が入力した場合には、状態Oへ遷移
するものとしている。出力テーブルには第35図に示す
ように、オートマトンの各状態において、出力する文字
列リストが記述されている。オートマトンが動作する場
合、状態O以外の状態から状態0へ遷移する場合のみ、
この出力テーブルを参照して該当する展開文字列を出力
する。そして出力がすんだら、もう−度状態OAの遷移
を引き起こした文字をオートマトンへ入力し、状態遷移
テーブルを参照してオートマンを再遷移させる。状態O
から状態Oへ戻る場合には、入力文字をそのまま出力す
る。 以上、オートマトン方式における状態遷移の制御及び出
力について説明した。次に、具体例をもとに、この動作
を詳細に説明する。以下、第33図の入力例゛′インタ
フォーン″の文字列が1文字入力される毎の動作につい
て記述する。最初、オートマトンの状態は、状態Oにあ
る。 (1)文字′イ″が入力されると 状態遷移テーブルに状態Oからの遷移先が登録されてい
ないので、そのまま “イ” が出力された状態は○のままとなる。 (2)文字ン″が入力されると 状態遷移テーブルに状態Oからの遷移先が登録されてい
ないので、そのまま “ン″ が出力され状態はOのままとなる。 (3)文字夕”が入力されると 状態遷移テーブルを参照し、現在の状態Oから遷移先と
して状態番号6が読み出され、状態は6に移る。 (4)文字“フ”が入力されると 状態遷移テーブルからは状態6から″フ″で遷移する遷
移先が得られない。かつ現在の状態は0でないので、出
力テーブルが参照され状態6での出力文字列 夕”と″ター が出力される。その後、状態はOに移動する。さらに、
この新しい状態Oでもう一度入力文字の゛′フ″をオー
トマトンに入力する。その結果、状態遷移テーブルの内
容に従って状態○から状態1に状態が移動する。 (5)文字オ″が入力されると 状態遷移テーブルの内容から、状態工より状態2へ状態
が移動する。 (6)文字rr  trが入力されると状態遷移テーブ
ルの内容から、状態2より状態3へ状態が移動する。 (7)文字ン″が入力されると 状態遷移テーブルからは状態3から“ン”で遷移する遷
移先状態番号が得られない。かつ現在の状態は状態Oで
ないので、出力テーブルが参照され、状態3での出力文
字列 “フォー 、′フォ”、″ホー″及び“ホ″が出力され
る。その後、状態がOに移り、もう−度入力文字の″ン
″がオートマトンに入力される。 ここでは、状態遷移テーブルから遷移先が得られないの
で入力文字の “ン″ がそのまま出力される。 (8)入力文字列の最終文字まで来たので、処理を終了
する。こうして展開リストを含む文字列″イン(夕、タ
ー)(フォー、フォ、ホー、ホ)ン″ が得られる。 次に、この見出し文字列探索用オートマトンの生成方式
を第36図を用いて説明する。このオートマトン生成は
、実際に入力文字列が送られてくる前に一度作っておけ
ば良い。本図は探索オートマトンの生成方法、すなわち
状態遷移テーブル及び出力テーブルの作成方式をPAD
図で表したもので、以下この内容について説明する。ま
ず状態遷移テーブル及び出力テーブルを初期化する。次
に、一つずつルールを取り出しながら変換ルールの終わ
りまで以下の処理を繰り返す。 (1)状態番号を○にセット (2)見出し文字列の終わりまで]文字ずつ文字を取り
出しながら状態遷移テーブルを作っていく。 すなわち状態遷移テーブルを参照し、取り出した文字に
よる遷移先が登録されていれば遷移先状態に移動する。 遷移先が登録されていなければ、新しい状態番号を生成
し、状態遷移テーブルに追加登録する。そして、今の状
態を新しい状態に移動する。さらに出力テーブルに状態
Oから今の状態へ遷移させてきた文字列を登録する。 (3)見出し文字列の全文字について(2)の処理が終
了した後、出力テーブルの現在の状態番号と、変換ルー
ルの展開文字列リストを登録する。 具体的な処理の流れを2つの変換ルール〔″フォー”→ (″フォー 、″フォア7%ホー 、゛ホ″)〕と 〔″フォ″→ (″フォー 、パフォrr、uホー 、″ホ″)〕を使
って説明する。 まず工番目の変換ルールの見出し文字列“フォー について処理する。 (1)文字フ″の入力 状態遷移テーブルは最初初期化されているため、遷移先
状態番号は一つも登録されていない。従って新しい状態
番号1を生成し、状態を1に移動する。そして、出力テ
ーブルに状態Oから状態1への遷移を引き起こす文字列 “フ” を状態番号1の出力として登録する。 (2)文字オ″の入力 状態遷移テーブルに今の状態1からの遷移先は定義され
ていない。従って新しい状態番号2を生成し、状態を2
に移動する。そして出力テーブルに状態Oから状態2に
至るまでの文字列“フォ” を状態番号2の出力として登録する。 (3)文字rr  rrの入力 状態遷移テーブルに今の状態2からの遷移先は定義され
ていない。従って新しい状態番号3を生成し、状態を3
に移動する。そして出力テーブルに状態Oから状態3に
至るまての文字列“フォー を状態番号3の出力として登録する。また、これで見出
し文字列の最終文字であるので、変換ルールの展開文字
列リスト (“フォー 、aフォ″、Uホー 、aホ″)を、先に
登録した出力文字列 ″フォー を入れ替える形で、状態3の出力として出力テーブルに
登録する。 次に2番目の変換ルールの見出し文字列11フオ″ について処理を実行する。処理に先立ち、状態はOに戻
る。 (4)文字“フ′″の入力 先に登録した状態遷移テーブルを参照して、遷移先の状
態番号1を得、状態を1に移動する。 (5)文字オ″の入力 状態遷移テーブルを参照して、遷移先の状態番号2を得
、状態を2へ移動する。出力テーブルに状態2の出力は
既に登録されているが、見出し文字列の最終であるので
、出力テーブルに状態2の出力として既に登録されてい
る。 ″フォ” を、変換ルールの展開文字列リスト (″フォー 、″フォ′″、″ホー 、″ホ″)に書き
換える。 以」二の処理により、上記二つの変換ルールを探索する
オートマトンを作成することができる。具体例で示した
2つの変換ルール以外についても、これと全く同様の手
順でオートマトンにすることができる。 以上、例で説明してきたカタカナ異表記展開用の変換ル
ールテーブルの詳細を第37図に示す。 この他、変換ルールテーブルの作成には、カタカナ文字
列の類似音節表記に関してその表記の原則を定めたr昭
和29年国語審議会報告 外来語の表記」を利用するこ
とができる。すなわち上記報告書ではカタカナ文字列の
異表記が示され、その表記を統一化するための原則が述
べられているが、これを逆に利用して変換ルールを作成
することができる。 今までカタカナ文字列の異表記展開について例をあげて
説明したきたが、漢字文字列の異表記展開についても、
漢字文字列用の変換ルールテーブルを用いるだけで全く
同じ処理で実現できる。漢字の新旧字体に関する異表記
展開用の変換ルールテーブルの例を第38図に示し、送
りがなに関する異表記展開ルールの例を第39図に示す
。 また、第37図から第39図に示した異表記展開ルール
テーブルは、必要に応じて追加修正が可能であり、従っ
てユーザの望む異表記展開が可能となる。 以上が漢字異表記展開部3004、カタカナ異表記展開
部3005の処理の詳細である。 次にローマ字の異表記展開に関する説明をする。 本実施例では、ローマ字の異表記展開をするのに、ロー
マ字で入力された文字列を一旦カタカナ文字列へ変換し
た後、これをカタカナ異表記展開し、もう−度カナロー
マ字変換によりローマ字に戻すという方法を採っている
。従って、ローマ字の異表記展開に関する部分は、第3
0図のローマ字カナ変換部3003とカナローマ字変換
部3007の2つとなる。 まずローマ字カナ変換部の処理内容について説明する。 アルファベット文字列が入力されると、まずローマ字カ
ナ変換が行われる。ローマ字カナ変換部3003では、
第40図に示すようなローマ字とカタカナの対応表を用
いて、ローマ字カナ変換が行われる。同図において、例
えば1番目のレコードでは ローマ字の”A”がカタカナの“ア” に対応することを示している。ローマ字の項目中に複数
個の文字列が並んでいるレコードに関しては、複数個並
んでいる全ての文字列がカタカナの項目に対応している
ことを示している。例えば、ローマ字の “SYA”及び” S HA ” が、カタカナの “シャ” に対応する。これらは、それぞれローマ字の訓令式表記
法と、ヘボン式表記法に対応している。従って、このロ
ーマ字カナ変換部3003では訓令式でもヘボン式でも
あるいはこれらの混合したような表記法に文字列でもカ
タカナへ変換されることになる。変換方法は、前述した
漢字異表記展開、カタカナ異表記展開と同様である。す
なわち、入力文字列と対応表のローマ字文字列を最長一
致で探索して、順次対応するカタカナ文字列に置き換え
ていく。もし、対応するローマ字文字列が対応表に見つ
からないときには、入力文字列はローマ字でないと判断
し、カタカナ文字列の出力を行なわない。 次にカナローマ字変換部3007の説明をする。 ここでも第40図の対応表をそのまま用いる。こんどは
逆に入力文字列と対応表のカタカナ文字列とを最長一致
でマツチングを取りながら順次ロー−lb。 マ字へ入力文字列を置き換えていく。前述の“シャ″ の例のように対応するローマ字表記が複数個存在すると
きには、該当部分を部分文字列のリストとして置き換え
ていく。すなわち、カタカナの入力文字列に対し、異表
記展開の処理と同様に展開リストを含む文字列に展開し
、その展開リストの部分を組み合せることによってロー
マ字異表記展開の結果を得ることができる。これを “シシャモ” というカタカナ文字列が入力された場合を例にして説明
する。この時、入力文字列 “シシャモ″ に対してカタカナローマ字対応表とのマツチング処理に
より、 “(SI、5HI)(SYA、SHA)MO”という展
開リストを含む文字列が得られる。従って、展開リスト
の組み合せにより、 1)“SISYAMO” 2)“S工SRAM0” 且A− 3) “SHISYAM○” 4) “SHISHAMO” という4種類のローマ字異表記文字列が得られることに
なる。 以上が異表記展開方式の処理に関する説明である。 これまで、説明してきた異表記展開の実施例においては
、漢字ひらがな文字列、カタカナ文字列、ローマ字文字
列、及びアルファベット文字列の全てについて展開処理
を行っているが、これらの処理を選択的に行うことも可
能である。すなわち、異表記展開後の出力文字列の種類
を、 1)漢字ひらがな文字列 2)カタカナ文字列 3)ローマ字文字列 4)アルファベット文字列 のいずれかもしくは、これらの混合した文字列を異表記
展開結果として出力するように制御することができる。 こうして、異表記展開を文字種毎に選択可能にすること
により、むだな展開処理を省き、かつユーザの要求に応
じた検索処理が可能となる。 以下、この異表記展開結果の文字種制御方法について説
明する。 この出力文字種の制御は第4工図に示すように、第30
図の実施例の構成に更にアルファベラ]・文字列303
4の出力制御を行うスイッチa 3008、及びカタカ
ナ文字列群3042の出力制御を行うスイッチb300
9を設けることで実現する。また、漢字異表記展開部3
004、カタカナ異表記展開部3005、カナローマ字
変換部3007、スイッチ830008.及びスイッチ
b3009の出力を制御する制御信号線3061.30
62.3063.6034.3065をそれぞれ設番づ
る。 そして、ユーザが設定する異表記展開結果出力文字種の
指定モードにより該制御信号をON。 OFFすることでモードに応した異表記展開を実現する
。例えば、ローマ字異表記展開が不要な場合にはカナロ
ーマ字変換部3007の制御信号3063をOFFして
出力を止める。このような二)167 展開モーIくによる各変換部、展開部、スイッチの制御
信号の組み合せを第42図に示す。図において、展開モ
ードはそれぞれ C:漢字及びひらがな異表記展開 に:カタカナ異表記展開 r:ローマ字異表記展開 a:アルファベット異表記展開 を実施し、出力することを示している。複数文字では複
数の異表記の出力指定を表す。例えば展開モー1く ’cka’ は漢字ひらがな、カタカナ及びアルファベットの各異表
記を異表記展開結果として出力するモードであることを
表す。また、表中の○は該当モジュールが文字列を出力
することを示す。逆にOがついていないところは、文字
列を出力しない。例えば、 ’Q  k  a’ という文字列展開モードでは、ローマ字カナ変換部30
03、漢字異表記展開部3004、カタカす異表記展開
部3005が展開文字列を出力し、スイッチa3008
、及びスイッチb3009が入力文字列を通すが、カナ
ローマ字変換部3007は文字列を出力しないことを示
す。 最後に同義語展開処理について説明する。 同義語展開処理部2803は、第43図に示すような同
義語辞書を持つ。図において、レコード番号とは、辞書
中の各見出し文字列に付与されている一連番号である。 各見出し文字列には、それぞれ同位語、上位語、下位語
、関連語が定義されている。同図の同位語、上位語、下
位語、関連語の項目に記述されている番号は全て同辞書
のレコード番号を示す。例えば見出し ″計算機” は、同位語としてレコード番号2および3、すなわち “コンピュータ″′とパ情報処理装置″を持っているこ
とを表している。同義語展開では辞書中のどの項目を用
いて展開するか、第28図の同義語展開モード制御信号
2810によりニーザがモードを設定できるようにして
いる。設定可能なモードは次の通りである。すなわち、
U:同位語を使った展開 b:上位語を使った展開 n:下位語を使った展開 r:関連語を使った展開 およびu、b、n、rの各モードを組み合せた展開がで
きるようにしている。 同義語展開の処理は、同義語展開部への入力文字列中に
存在する辞書の見出し文字列を探索することによって行
う。すなわち、異表記展開処理における変換ルールの見
出し文字列の探索の場合と同様に、入力文字列の先頭か
ら最長一致により見出し文字列を探索する。そして、同
位語展開の場合には入力文字列において照合された部分
文字列を、順次同位語文字列のリス1へで置き換えてい
く。 この際、照合した見出し文字列をも加えて書き替えを行
う。上位語展開、下位語展開、関連語展開の場合には、
入力文字列と見出し文字列が完全に一致した時に限って
、上述の置き換え出力を行う。 3/70 すなわち、入力文字列中で部分的に一致しただけでは、
展開を行わない。これは、」二位詔展開、下位語展開、
関連語展開において部分的な文字列の置き換えは意味の
ない単語を作ってしまうためである。 同位語展開の処理を例を用いて説明する。 入力文字列が パ大型計算機″ とすると、同義語辞書の見出し文字列探索を行うことに
より、入力文字列の3文字目から見出し文字列 ″計算機″ が照合する。同義語辞書のレコード番号1の″計算機″ から、同位語としてレコード番号2の 1′コンピユータ″ とレコード番号3の ゛′情報処理装置” が同位語リス1〜 (″計算機II%Lコンピュータn、u情報処理て1> 装置″) として得られる。入力文字列の該当部分をこのリストで
置き換えることにより、異表記展開処理の場合と同様に
、展開リス1へを含む文字列″大型(計算機、コンピュ
ータ、情報処理装置)″が得られる。この展開リス1へ
を組み合せて(この場合は一つしかりス1−がないが (1)”大型計算機″ (2)”大型コンピュータ″ (3)”大型情報処理装置″ の3つの同位語文字列が得られることになる。 次に上位語展開が処理について例をあげて説明する。 入力文字列が パ計算機″ の場合、同義語辞書の見出し文字列探索で入力文字列と
見出し文字列 パ計算機″ が完全一致する。そこで、上位語としてレコード番号4
の ″電子機器″ が出力される。この場合には上位品、カーつしかないが
、もちろん複数個あってもよい。複数個の上位語が存在
する場合には、前述のようにリストとして出力する。 下位語、関連語についても上位語展開と全く同じ処理と
する。なお、同義語展開において辞書中に該当する文字
列が存在しないときは同義語展開処理部2803から、
何も文字列が出力されない。 以上同義語展開の処理方式の実施例について説明した。 ところで同義語展開では、辞書を使用するために辞書ま
レコード数が多くなると見出し文字列探索に時間が掛か
ることがある。この問題の解決として、辞書の見出し文
字列をインデクステーブルを用いて探索する方法がある
。第44図にこの方式の概要を示す。同義語辞書は、予
めその見出し文字列にてアルファベット順に並べておく
。 そして、同義語辞書とは別に見出し文字列の第一番目の
文字だけを集め、その文字から始まる見出しが辞書のど
の部分から始まるかを登録したイン117
【 デクステーブルを持つ。例えば文字LL A I+で始
まる姑出1.以レコード番号lから存在していることべ
示している。見出し文字列探索をするときには、まずこ
のインデクステーブルを参照し、レコード番号を求め、
次にこれに基づいて同義語辞書にアクセスする。こうす
ることにより、同義語辞書の全見出し文字列をスキャン
する必要がなくなるため、処理時間が短縮できる。例え
ば、文字1′計″で始まる文字列を探索しようとした場
合、インデクステーブルにより、″計″で始まる文字列
が辞書のレコード番号501から存在することがわかる
。従って、それ以前の無、駄な文字列探索を省くことが
でる。さらに、見出し文字列をアルファベット順に並べ
ることにより、見出し文字列の探索中に先頭文字の異な
る見出しまで探索したら後の探索は省略できる。例えば
11計″で始まる見出し文字列を探索していれば、″計
″以外の文字で始まる見出し ″情報処理装置″ まで探索すれば後の不要な探索をおこなわなくとも済む
。 また、インデクステーブル及び辞書中の同位語などの記
述にレコード番号を用いたが、これを辞書中の位置を特
定するアドレスで記述することにより、辞書へのアクセ
スを更に高速化できる。アドレスとは、辞書の該当する
見出し文字列が存在する最初の位置を示すもので1例え
ば辞書の先頭からのバイト数がある。こうすることによ
り、辞書へのアクセスが直に特定できるため、レコード
番号を指定するよりも更に高速化が可能となる。 ここで、第45図から第55図の開示にしたがって、本
発明のオートマトンの実施例について説明する。 異表記検索用のオートマトンについては第46図の集合
許容形オートマンの状態遷移図を用いた場合の作用につ
いて説明する。以後、集合許容形オートマトンをオート
マトンと略して説明を行なう。同図のオートマトンは第
5図に示したオートマトンと同様に″インタフェース″
の異表記である″インターフェース”、′インタフェイ
ス”“インターフェイス++、uインターフェイス″1
′インタフェース”、″インターフェース″“インター
フェース”、“インターフェース″を含む9語の検索タ
ームを検索するためのものである。 これらを、第46図下の複合語表現文字列(式1)で表
すことができる。″フエー″の異表記でと記述すること
ができる。 次に″フェー″の長音が長音異表記でII  uが″に
置き換えられるため(LLII)と記述できる。 が得られる。この複合語表現文字列を用いれば。 ()内の部分文字列は等価なので部分文字列の\ 末尾文字による遷移を同一遷移先状態にまとめることが
可能である。 ただし、他の部分文字列の遷移の中に含まれて場合は、
次の遷移文字の゛′フ″の遷移の遷移元状態が″夕″の
遷移先状態である状態3と″ターおよび″ター″の遷移
先状態である状態4であるので、これらの2ケ所を遷移
元状態とする遷移を記述し、遷移先状態を状態5とする
。 このように遷移をまとめることにより、第5図のオート
マトンと比べ状態数を約3分の1と大幅に減らすことが
できている。 ここで用いたオートマトンの作成方法は引用文献(ニー
、ブイ、エーホ アンド エム、ジェオ。 コラッシック:“エフインェン1〜 ストリングマツチ
ング、コミュニケーションズニー シーエム、第18巻
、第6号、1975年、 A、 V。 Aho and L J、 Corasick :“E
ff4cjent StringMatchjng 、
 CACM、 VOL、 18. Na6.1975)
に開示されている。このオートマトンは上記のコンカレ
)1゜7 ントステートオートマトン方式により制御される。 以下、その内容を具体的に説明する。 次に、オートマトンの状態遷移制御方法について説明す
る。本方法は「フェイル処理」を用いずに状態遷移を制
御しようとするものである。すなわち、「フェイル処理
」を行なう代わりに、複数のトークンを用いることよっ
てオートマトンの状態遷移を表わそうとするものである
。 これまで述へてきたオートマトン方式では、オートマト
ンの状態遷移図は、初期状態を除いてアクティブな状態
、すなわち、照合途中を示す遷移状態(トークンが置か
れた状態)が唯1個だけという条件のもとに作成された
ものである。その結果、照合途中で入力文字との不一致
が生じた場合には、I・−クンの動きが不連続になるた
め「フェイル処理Jを行なわなければならなくなる。 本方法においては、アクティブな状態が発生する度に1
ヘークンを生成し、照合途中で不一致が生じた場合には
1〜−クンを消滅させるという方法を採ることにより、
フェイル処理を不要にしている。 】78 従って、入力文字列によっては、状態遷移図」二に複数
のトークンが同時に存在することにもなる。 その意味で、本方法をコンカレントステートオートマト
ン方式と呼ぶことにする。 本方法によれば、「フェイル処理」を用いずに済むため
、オートマトン作成時においてもフェイル先状態の計算
が不要な文字列検索装置を実現することができる。 まず、始点状態におけるトークン生成方法について説明
する。始点状態では入力文字が入る度に照合を行なう。 遷移文字と照合した場合、新たなトークンを生成し、こ
のトークンを始点状態から遷移先状態へ移動させる。た
だし、始点状態から始点状態への状態遷移の場合には、
トークンを生成しない。したがって、始点状態から始点
状態への遷移は無効となるため、この遷移を省略するこ
とも可能である。 次に、例えば“インタフェイス”という文字列が1文字
づつ入力された場合についてオートマトンの動作を説明
する。 まず、イ”が入力されると、始点状態での照合が一致し
トークンT1が生成され、状態エヘ移動する。トークン
T1が状態1にきたところでン”が入力されると、トー
クンTlは状態2に移動する。また、これと同時に始点
状態でも″ン″による照合が行なわれるが不一致なので
新たなトークンは生成されない。更に状態2では入力文
字1′夕″が入力されると、トークンT1は状態3に移
動する。また、同時に始点状態での照合が不一致なので
新たなトークンは生成されない。次に、続けて“フエ”
が入ってきた場合1ヘークンT↓は状態4→状態5→状
態6と移動する。またこの間、始点状態での照合が不一
致なので新たなトークンは生成されない。次に、イ”が
入力されるとトークンT1は状態6から状態7へ移動す
る。また、始点状態での照合は一致するので新たにトー
クンT2が生成され、状態1へ移動する。次に、″ス″
が入ってきた場合トークンTlは状態7から状態8へ移
動する。トークンT2は状態1での照合が不一致なため
にここで消滅する。また、始点状態での照合が不一致な
ので新たなトークンは生成されない。この時、トークン
Tlが状態8に達すると、″インタフェイス″という文
字列を検索したことになる。 このように複数のトークンを用いて状態遷移を制御する
ことにより、オートマトンの状態数が約3の1と少なく
て済む異表記許容検索を実現することができる。 固定長don’t  care文字を検索タームに指定
した固定長don’t  care文字指定検索の処理
方法について説明する。 オートマトンは第47図のものを用いる。本図は第7図
と同様に“A?B”を検索する場合のオートマトンであ
り、集合遷移を採用した上記方法を用いることにより状
態数を第7図に比べて約150分の−と少なく実現でき
ている。 本オー1−マトン作成方法は前述の異表記のオートマ1
ヘン作成方法と同様である。 例えば、“AXB”という文字列が入力された場合の本
方法の動作について説明する。 18] まず、”A”が入力されると始点状態で照合が一致する
ためトークンT1が新たに生成され、状態工へと移動す
る。次に11 X #が入力されると、トークンT1は
状態1から状態2に移動する。また、始点状態での照合
が不一致なので新たなトークンT1は状態2から状態3
に移動する。同時に、始点状態での照合が不一致なので
新たなトークンは生成されない。次に“B”が入力され
ると、トークンは生成されない。状態3は2重円で記さ
れており、ここでは“A?B”が検索されたことになる
。 このように複数のトークンを用いて状態遷移を制御する
ことにより、異表記許容検索と同様に、オートマトンの
状態数が約150分の1と少なくて済む固定長don″
t  care文字指定検索を実現することができる。 上限距離、下限距離や上下限距離などの文字距離を指定
した距離指定検索のオートマトン方式による処理方法に
ついて述べる。 まず、上限指定の距離指定の実現方法を以下に−182
−、。 説明する。ここではLLA”とII B IIの距離が
4文字以内の距離という上限距離指定がされている場合
を例にする。上限距離指定は固定長don’tcare
文字で表すことができ、この例は“A”とII B I
Iの距離が4文字以内の距離という上限距離指定の場合
は、”AB”、”A?B”  ”A??B”、”A??
?B”、”A? ? ? ?B” 、の5つのキーワー
ドで表すことができる。 これらのキーワードからのオートマトン作成方法を以下
に説明する。まず、′/ A B j′のオートマトン
を作成する。ここで、状態O2状態1.および状態7が
作成される。次に、”A?B”のオートマトンを作成す
る。第2文字目の?”は1文字の全ての文字を表すため
、遷移文字If B +1による状態1から状態7への
遷移以外の遷移文字による遷移先を新たに作成する必要
がある。すなわち、遷移文字−(”B”)による状態1
から状態2への遷移が作成される。さらに第3文字目の
遷移文字“B”による遷移として第2文字目の“?”の
遷移先である状態2及び状態7から状態8への遷移が作
成される。同様に”A??B” ”A? ? ?B” 、”A? ? ? ?B”につい
て作成することにより第48図のオートマトンが得られ
る。本オートマトン作成方法は前述の固定長don’t
  care文字のオートマトン作成方法と同様である
。 次に、例えば”ABCBBBC”という文字列が1文字
づつ入力された場合についてオートマトンの動作を説明
する。まず、# A Trが入力されると、始点状態で
の照合が一致しトークンが生成され状態lへ移動する。 “B”が入力されるとトークンは状態7へ移動し、“A
”と“B IIが隣接している”AB”を照合する。さ
らに、′C”が入力されるとトークンは状態3へ移動す
る。次に、LLB”が入力されるトークンは状態9へ移
動し、”A”とLL B IIが2文字の距離にある”
 A B CB”を照合する。 次に、“B”が入力されると1ヘークンは状態10へ移
動し、”A″′とLL B IIが3文字以内の距離に
ある“ABCBB”を照合する。次に、LL B II
が入力されるとトークンは状態6へ移動し、′A”とI
IB”が4文字の距離にある” A B CB B B
 ”を照合する。さらに、II CIIが入力されると
状態6においてトークンの遷移先がないためトークンは
消滅する。 以」二のことから、”ABCBBC”から“A”とII
 B IIが4文字以内の距離にある検索タームである
“AB”、”ABCB”、”ABCBB”および”AB
CBB”が照合されていることが分かる。すなわち、”
AB” 、”A? ?B”、”A?Q ?B #、およ
び”A????B”が探索できていることが示されてい
る。 このオートマトンの場合も固定長don’tQa re
文字の場合と同様にトークンを制御することにより、上
限指定の距離指定検索を実現することができる。 次に、下限指定の距離指定の実現方法を以下に説明する
。ここではIt A IIとLL B IIの距離が2
文字以上の距離という下限距離指定がされた場合を例に
する。下限距離指定では上限距離が無限大となるためd
on’t  care文字で表わすことができない。つ
まり、′A″とII B IIの距離が2文字以上の距
離という下限距離指定の場合は、固定長don’t  
care文字で表わすと“A??B”A???B”、I
IA? ? ? ?B” 、  ・・となりキーワード
数が無限大になるためである。 この問題を解決する方法を第49図のオートマトンで説
明する。 まず、下限距離を固定長don’t  care文字で
表したキーワードでオートマトンを作成する。このオー
トマトンの作成方法は固定長don’t  care文
字の場合と同様である。 ここでは下限距離は2なので、II A 9 Q B”
を検索タームとしてオートマトンを作成する。次に、下
限距離だけ遷移した状態(この例では状態3)を仮の始
点とし、この始点状態以降につながる状態についてオー
トマトンを作成する。このオートマトンは、全ての入力
文字に対して遷移を記述する従来方式Jを用いて作成で
きる。このようにして、上限距離が無限大の場合でもオ
ートマトンを′i\ 作成することができることになる。 オートマトンの作成方法は前述した上限距離指定のオー
トマトンの場合と同様である。 次に、例えば“A CD E F B ”という文字列
が1文字づつ入力された場合のオートマトンの動作につ
いて説明する。まず、′A”が入力されると、始点状態
での照合が一致しトークンが生成され状態1へ移動する
。 “C”が入力されるとトークンは状態2へ移動する。さ
らに、′D”が入力されるとIIB”以外の文字という
ことでトークンは状態3へ移動する。 次に、IIE”が入力されるとトークンは状態3でルー
プする。 次に、/# F IIが入力されると同様にトークンは
再度状態3でループする。さらにrr B nが入力さ
れるとトークンは状@4へ移動する。状態4は、2重丸
の状態なので、rr A IIとLL B IIが2文
字以上離れた距離にある文字列が照合されたことを示し
ている。 すなわち、” A CD E F B ”を“A II
と“B II−凧7 が2文字以上、すなわち4文字離れた距離にある文字列
として探索できていることが分かる。 次に、下限距離指定を用いたキーワー1〜に可変長do
n’t  care文字“宰”を指定した検索の方法に
ついて説明する。 可変長don’t  care文字“零″は、下限距離
にOを指定した場合の距離指定を用いて実現することが
できる。すなわち、”AB”* CD++は“AB″′
と“CD”の距離がO文字以上の距離という下限距離指
定に置き換えることができる。 この場合のオートマトンは第50図のようになる。 このように可変長don’t  care文字を指定し
た検索も下限距離指定と同様に実現することができる。 オートマトンの作成方法および動作は前述した下限距離
指定のオートマトンの場合と同様である。 最後に、上下限指定の距離指定の実現方法を以下に説明
する。ここでは“A”と“B IIの距離が2文字以上
で、かつ、4文字以下の距離という」二下限距離指定を
例にする。上下限距離指定は固定5]81 長don’t  care文字で表すことができ、この
例の“A ”とIf B ++の距離が2文字以上、4
文字以内の距離という場合には、′−A 9 B ++
”A??B”A???B”、  “AO’/’/’7B
”の4つのキーワードで表すことができ、これらから固
定長don’t  care文字の場合と同様に第51
図に示すオートマトンを作成することができる。 オートマトンの作成方法および動作は前述した下限am
指定のオートマトンの場合と同様である。 1文字誤りを許容した検索である1文字誤り許容検索の
処理方法について説明する。 キーワードに” A B CD ”を指定した場合の例
について説明する。この例ではキーワードとしては誤り
なしの場合として“ABCD”について、1文字削除と
して”ABC”、”ABD”。 ” A CD”  ” B CD”について、1文字相
違として“A、 ? CD”、′AB?D”  ((A
 B CO17について、1文字押入として”A?BC
D”。 “AB?CD” ABC?D”、”ABCI)’?”汐 についてオートマトンを作成する。これらを複合語表現
文字列にすると と表すことができる。これに基づいて固定長don’t
  care文字の場合と同様に第52図に示すオート
マトンを作成することができる。 オートマトンの作成方法および動作は前述したノ 上下限距離指定のオートマトンの場合と同様である。 工文字入れ替わりを許容した検索である1文字入れ替わ
り許容検索の処理方法について説明する。 キーワードに” A B CD ”を指定した場合の例
について説明する。この例ではキーワードとしては誤り
なしの場合としてABCD”について、」文字入れ替わ
りとして“BACD” 、”ACBD”。 “ABCD”についてオートマトンを作成する。 これらを複合語表現文字列にすると、 と表すことができる。これに基づいて固定長don’t
  care文字の場合と同様に第53図に示すオート
マトンを作成することができる。 オート71〜ンの作成方法および動作は前述した一文字
誤り許容のオートマトンの場合と同様である。 以上のように本発明によれば、少ない状態数で異表記検
索、固定長don″t  care文字指定検索、文字
距離指定検索、可変長don’taare文字指定検索
、1文字誤り許容検索、王文字入れ替わり許容検索など
の検索機能を実現するオートマトンを作成することがで
きる。したがって、オートマトンの作成時間も短縮でき
、状態遷移テーブルもコンパクトにできるためハードウ
ェア量の少ない文字列検索装置を実現することが可能と
なる。 以下、上記文字列検索方法を用いた第10図のサーチエ
ンジン1]06に相当する文字列検索装置の実施例につ
いて述べる。 本実施例の構成を第45図に示す。本実施例の構成は、
文字コードと状態番号を入力することにより次状態番号
を出力する状態遷移テーブル220と、状態番号を入力
することにより照合したか否かの照合結果IDを出力す
る照合結果チープル260、トークンの消滅を制御する
セレクタ262、トークンの消滅制御情報として移動先
の状態がないトークンか否かを判定を行うコンパレータ
252、初期状態番号を格納するレジスタ251および
、現状態番号や次状態番号を格納するバッファ280と
バッファ281などから成っている。 本実施例を用いたオートマトンの状態遷移動作を下記に
説明する。第45図において所定の文字列記憶手段から
読み出された文字列301は1文字づつレジスタ211
に格納される。レジスタ211から出力される文字コー
ド302は、本発明によるオートマトンの遷移表が格納
されている状態遷移テーブル220にアドレス情報とし
て入力される。状態遷移テーブル220では現在の状態
番号305と文字コード302から次に遷移すべき遷移
先状態番号303を出力する。次状態番号が初期状態番
号であるとき、オート7トン移が記述されていないこと
を表している。このため次状態番号が初期状態番号であ
るとき、1・−クンを消滅させる必要がある。次状態番
号303ばレジスタ250に格納された後、セレクタ2
62及びマルチプレクサ260を経由しバッファ280
またはバッファ281のいずれか選択されている方に格
納される。このとき、セレクタ262ではトークンを消
滅させるか否かを制御している。このトークンを消滅さ
せるか否かの判定は次状態番号303がレジスタ251
に格納されている初期次状態番号(この例では、状態番
号O)と異なるか否かをコンパレータ252で調べるこ
とにより実現している。 すなわち、次状態番号303が初期状態番号である場合
はトークンが移動す八き状態がないことを示しているた
め、セレクタ262ては次状態番号303を選択しない
。このため次状態番号303はマルチプレクサ260に
は送られず、トークンは消滅することになる。 逆に次状態番号303が初期状態番号でない場合、トー
クンが移動すべき状態があることを示しているため、セ
レクタ262では次状態番号1則 303を選択してマルチプレクサ260に送られ、1〜
−クンは消滅されない。 このように、次状態番号303が初期状態番号の場合は
トークンを消滅させることによって、初期状態番号のト
ークンがバッファ280およびバッファ281に溜り、
冗長なトークンがバッファ280およびバッファ281
に溜り、冗長なトークンがバッファ280およびバッフ
ァ281内に存在し、オーバーフローするという問題を
解決できることになる。 バッファ280とバッファ281は、それぞれデータの
読取り用と書込み用の2面バッファとして用い、高速処
理を実現している。この2つのバッファは1つにまとめ
回路規模を小さくすることも可能である。ただし、処理
速度は低下することになる。バッファ280及びバッフ
ァ281には初期値として始点次状態番号を先頭アドレ
スに設定しておく。バッファ280及びバッファ281
に送られてきた次状態番号303は始点状態の次のアド
レスから格納する。現状態番号305はセレクタ261
で選択されているバッファ280及びバッファ281の
いずれかから逐次読み出され、全て読み出したときに読
出し終了信号307を発生する。マルチプレクサ260
とセレクタ26]は同期しており1選択動作については
マルチプレクサ260がバッファ280を選択している
ときはセレクタ26↓はバッファ281を選択している
。また、マルチプレクサ260かバッファ28]を選択
しているときはセレクタ261はバッファ280を選択
する。バッファ280及びバッファ281の選択の切り
替えは、セレクタ261が選択したバッファ280また
は281のいずれかの読出し終了信号307の発生のタ
イミングで行われる。状態遷移テーブル220には第5
5図に示した状態遷移表を格納する。これは第46図の
オートマトンに対応したものである。レジスタ211は
通常は、レジスタ250と同期して文字列データを取り
込むが、読出し終了信号が発生するまで文字列データを
保持し、現状態番号が全て読み出されるまで次の入力を
待つことにな19e′ る。検索結果テーブル260には文字列の終点となる終
点状態に対応して各検索タームを識別するための所定の
コードが格納されている。第46図のオートマトンに対
応した検索結果テーブル260の内容を第55図に示す
。検索ターム番号が○以外の内容のとき有効な検索ター
ム番号を表している。すなわち、状態番号に対応した検
索ターム番号がO以外のとき照合結果として第10図の
複合条件判定手段1145へ送られる。以」二の動作が
第46図に示したオートマトンを実行する形で、入力文
字列を構成する各文字ごとに繰返し行われることにより
検索処理が実現される。 入力文字列が入力された場合、例えば、″インタフェイ
ス″という文字列が入力された場合の本方式の照合動作
について説明する。 まず初期設定として、以下の処理を行なう。 状態遷移テーブル220には第54図に示した状態遷移
表を、また、検索結果テーブル260には第55図の検
索結果表を格納する。これらのテーブルは、第46図の
オートマトンに対応したも=197 のである。 バッファ280及びバッファ281には初期値として始
点状態番号であるOを先頭アドレスに格納する。レジス
タ250、レジスタ25]には初期状態番号であるOを
格納する。マルチプレクサ260はバッファ281を選
択し、セレクタ26]はバッファ280を選択する。し
たがって、次状態番号303は始点状態番号であるOと
なる。 次に、これらの初期設定に基づいた照合動作について説
明する。 まず、1文字目の“イ″がレジスタ211に格納される
。すると、文字コード302と現状態番号305をアド
レスとして状態遷移テーブル220より次状態番号1が
読み出され、レジスタ250に格納される。このとき現
状態番号305は○となっている。 コンパレータ252はレジスタ251に格納されている
初期状態番号であるOとレジスタ250に格納されてい
る次状態番号303であるlを比較する。等しくないの
でセレクタ262は次状態番号303を選択する。この
ことば、状態Oから状態工に遷移文字イ”による遷移が
記述されていることを示している。 状態lにおける検索結果テーブル260の検索ターム番
号はOであるので照合結果306は出力されない。この
ことは、状態1に照合結果が格納されていないことを示
している。 マルチプレクサ260では、バッファ28]が選択され
ているので、バッファ281に次状態番号である1が、
始点状態番号に続く2つめの次状態番号として格納され
る。バッファ280から全ての現状態番号が読み取られ
たので、終了信号307が発生する。 これによりマルチプレクサ260はバッファ280を選
択し、セレクタ261はバッファ281を選択すること
になる。すなわち、バッファ内の2つの次状態番号が現
状態番号として、次の文字に対する遷移に用いられるこ
とになる。 これらの動作をオートマトンの状態遷移としてみると、
まずバッファ280に格納されている現状態番号である
状態Oにおいて遷移文字イ″が記述されているかの照合
が行なわれている。次に、遷移が記述されてなければ次
の現状態番号の処理が行なわれ、遷移が記述されている
場合、バッファ281に次状態番号が格納され、同時に
照合結果が格納されているか、照合結果テーブルの次状
態番号で示されるアドレスに有効なタームIDが格納さ
れているかチエツクすることにより調べられている。こ
の場合では遷移が記述されているので、次状態番号であ
る状態コ−がバッファ281に格納されており、照合結
果テーブルを調べたところ結果は格納されていないため
照合結果は出力されない。 次に2文字目の1′ン″がレジスタ21.1に読み込ま
れる。すると、文字コード302と現状態番号305を
アドレスとする状態遷移テーブル220より次状態番号
であるOが出力され、レジスタ250に格納される。 コンパレータ252はレジスタ251に格納されている
初期状態番号であるOとレジスタ250に格納されてい
る次状態番号であるOを比較する。 等しいのでセレクタ262では次状態番号303は選択
されない。このため次状態番号303は、バッファ28
0に格納されない。このことは、状態Oには遷移文字“
ン”による遷移が記述されていないことを示している。 本方式ではこのように制御することにより、始点状態か
ら始点状態への遷移における1〜−クンの生成を防いで
いる。 次に、バッファ281より第2の次状態番号上が読み出
され、文字コード302と次状態番号である王をアドレ
スとして状態遷移テーブル220より次状態番号2が出
力され、レジスタ250に格納される。コンパレータ2
52はレジスタ25」、に格納されている初期状態番号
であるOとレジスタ250に格納されている次状態番号
303である2を比較する。等しくないのでセレクタ2
62は次状態番号303を選択することになる。このこ
とは、状態1から状態2に遷移文字“ン”による遷移が
記述されていることを示している。 状態2における検索結果テーブル260の検索ターム番
号はOであるので照合結果306は出力されない。この
ことは、状態2に照合結果が格納されていないことを示
している。 また、マルチプレクサ260では、バッファ280を選
択しているので、バッファ280に次状態番号303で
ある2が始点状態番号に続く2つめの次状態番号として
格納される。 バッファ281からは全ての現状態番号を読み取られた
ので、終了信号307が発生する。 これによりマルチプレクサ260はバッファ281を選
択し、セレクタ261はバッファ280を選択すること
になる。すなわち、バッファ280内の2つの次状態番
号が2つの現状態番号として、次の文字に対する遷移に
用いられることになる。 これらの動作をオートマトンの状態遷移としてみると、
まずバッファ281に格納されている現状態番号である
状態Oにおいて遷移文字ン″が記述されているかの照合
を行なっている。この場合記述されてないので次の現状
態番号である状態1について同様に照合を行う。状態2
への遷移が記述されているので、状態2は次状態番号と
してバッファ280に格納される。また、状態2には照
合結果が格納されてないので、照合結果は出力されてい
ない。 次に3文字目の゛′夕″も2文字目と同様の照合処理と
なるので説明を簡略する。まず、バッファ280に登録
されている、現状態番号である状態0における照合動作
を行なうこの場合記述されていないので次の現状態番号
である状態2について同様に照合を行なう。状態3への
遷移が記述されているので、状態3が次状態番号として
バッファ280に格納される。また、状態3には照合結
果が格納されてないので、照合結果は出力されない。 次に4文字目の″フ″も3文字目と同様の照合処理とな
るので説明を簡略する。ます、バッファ281に登録さ
れている、現状態番号である状態Oにおける照合動作を
行なう。この場合記述されていないので次の現状態番号
である状態3について同様に照合を行なう。状態4への
遷移か記述されているので、状態4が次状態番号として
バッファ280に格納される。また、状態4には照合結
果が格納されてないので、照合結果は出力されない。 次に5文字目の″工″も4文字目と同様の照合処理とな
るので説明を簡略する。まず、バッファ280に登録さ
れている。現状態番号である状態○における照合動作を
行なう。この場合記述されてないので次の現状態番号で
ある状態4について同様に照合を行なう。状態5への遷
移が記述されているので、状態5が次状態番号としてバ
ッファ281に格納される。また、状態5には照合結果
が格納されてないので、照合結果は出力されない。 次に6文字目の″イ′″がレジスタ21]に読み込まれ
る。このステップではトークンが2つから3つに増加し
ているので詳細に説明する。 文字コー8302と次状態番号である0をアドレスとす
る状態遷移テーブル220より次状態番=204 号としてlが出力され、レジスタ250に格納される。 コンパレータ252はレジスタ251に格納されている
初期状態番号であるOとレジスタ250に格納されてい
る次状態番号である1を比較する。この場合、等しくな
いのでセレクタ262は次状態番号303を選択する。 状M1における検索結果テーブルのキーワード番号は○
であるので照合結果306は出力されない。マルチプレ
クサ260では、バッファ280が選択されているので
、バッファ280に次状態番号である1が始点状態番号
に続く2つめの次状態番号として格納される。 次に、バッファ281より第2の次状態番号6が読み出
され、文字コード302と次状態番号である6を7トレ
スとする状態遷移テーブル220より次状態番号として
7が出力され、レジスタ250に格納される。コンパレ
ータ252はレジスタ251に格納されている初期状態
番号である0とレジスタ250に格納されている次状態
番号である7を比較する。この場合、等しくないのでセ
レクタ262は次状態番号を選択する。状態7における
検索結果テーブルのキーワード番号はOであるので照合
結果306は出力されない。マルチプレクサ260では
、バッファ280が選択されているので、バッファ28
0に次状態番号である7が3つめの次状態番号として格
納される。バッファ28土からは全ての現状態番号が読
み取られたので、終了信号307が発生する。 これによりマルチプレクサ260はバッファ281を選
択し、セレクタ261はバッファ280を選択すること
になる。すなわち、バッファ280内の3つの次状態番
号が3つの現状態番号として、次の文字に対する遷移に
用いられることになる。 次に7文字目の“ス″の照合処理に入るがレジスタ21
1に読み込まれる。すると、文字コード302と次状態
番号であるOを71−レスとする状態遷移テーブル22
0より次状態番号としてOが出力され、レジスタ250
に格納される。コンパレータ252はレジスタ2S土に
格納されている初期状態番号であるOとレジスタ250
に格納されている次状態番号である0を比較する。この
場合、等しいのでセレクタ262では次状態番号303
か選択されない。このため次状態番号は、バッファ28
1に格納されないことになる。 次に、バッファ281より第2の次状態番号である1が
読み出され、文字コード302と次状態番号である○を
アドレスとする状態遷移テーブル220より次状態番号
としてOが出力され、レジスタ250に格納される。コ
ンパレータ252はレジスタ251に格納されている初
期状態番号であるOとレジスタ250に格納されている
次状態番号であるOを比較する。この場合、等しいので
セレクタ262では次状態番号が選択されない。 このため次状態番号は、バッファ281に格納されない
ことになる。 本実施例では、このように制御することによりトークン
の消滅を実現している。 さらにバッファ281より第3の次状態番号である7が
読み出され、文字コード302と次状態番号である7を
アドレスとする状態遷移テーブル220より次状態番号
として8が出力され、レジスタ250に格納される。コ
ンパレータ252はレジスタ25 、+−に格納されて
いる初期状態番号であるOとレジスタ250に格納され
ている次状態番号である8を比較する。この場合、等し
くないのでセレクタ262では次状態番号303が選択
される。 状態8における検索結果テーブル260のキーワード番
号は1であるのでキーワード番号として]が照合結果3
06とし出力される。マルチプレクサ260では、バッ
ファ281が選択されているので、バッファ281に次
状態番号であるの8が始点状態番号に続く2つめの次状
態番号として格納される。 バッファ280からは全ての現状態番号が読み取られた
ので、終了信号307が発生する。 これによりマルチプレクサ260はバッファ280を選
択し、セレクタ261はバッファ281を選択する。す
なわち、2つの次状態番号11R が2つの現状態番号として、次の文字に対する遷移に用
いられることを示している。 以上のように、トークンを制御することにより″インタ
フェイス″という文字列の検索を実現している。 本実施例によれば、このように複数のトークンを制御す
ることにより、「フェイル」という概念を必要としない
文字列検索方式を実現できる。このため、オーマトン作
成時間を短くするこ2ができ、状態数を少なくできるた
め状態遷移テーブルをコンパクトにできるという利点が
ある。 次に、第56図から第70図の開示に基づいて、本発明
を実現するのに用いられる磁気ディスク装置の実施例を
説明する。 第57図は集合型磁気ディスク装置の構成を示すもので
、磁気ディスク装置jを有するn台のデータ記憶装置1
5と、データ記憶装置15それぞれに接続する磁気ディ
スク装置1の1シリンダ分の容量を持つ入出力バッファ
3と、データ記憶装置15と入出力バッファ3の制御を
行なうマルチディスクコントローラ4によって構成して
いる。 ここではデータ記憶装置15は土台の磁気ディスク装置
]で構成し、入出力バッファ3は上記磁気ディスク装置
1の」シリンダの容量を持つメモリ1面て構成している
。 マルチディスクコントローラ4は、アクセスの対象とな
るファイルのファイルIDを上位機器7から直接設定で
きる通信メモリ5と高速データバス10の制御を行なう
マルチプレクズコン1〜ローラ8とファイルIDから磁
気ディスク装置の格納先物理情報を求めるため変換テー
ブルである物理情報テーブル6および、それらを制御す
るマスタコンi・ローラ9によって構成している。 上位機器7は集合型磁気ディスク装置に命令を与えるホ
ストコン1−ローラと入力されるデータの中から指定し
た文字列を検出し、その検出情報を出力する文字列検索
装置により構成している。 本集合型磁気ディスク装置にデータファイルを構成する
データベースの構築を行なう前には、データベースの構
造定義処理を行なう。 本集合型磁気ディスク装置では論理的に関連するファイ
ルを物理的格納位置が近接するように配置する手段とし
て、最初に物理シリンダを階層構造を持つ論理分類ID
に従い割り振っている。複数件のファイルを一度にアク
セスする場合、理論的に関連するファイルを対象にする
ことが多い。 そこで、格納位置を近接させることにより、磁気ディス
ク装置のシリンダ間を磁気ヘッドが移動する距離を短く
シ、アクセス時間の一部であるシーク時間を短縮させる
。 階層構造を持つ論理類IDに従って物理シリンダの割り
振りは、上位機器7が論理分類IDと該ファイル分類が
必要とする記憶容量の組が集まって構成されるデータベ
ース構造定義情報を通信メモリ5に格納した後、マルチ
ディスクコントローラ4に対しデータベースの構造定義
命令を発行する。構造定義命令を受けたマルチディスク
コントローラ4内のマスクコントローラ9は、通信メモ
リ5にセットされたデータベースの構造定義情報に基づ
いて、論理分類に物理位置がどう対応する− 21.1
− かをマスクコントローラ9内のメモリ上に第58A、5
8B図で示すような構造の構造定義テーブルを作成する
。第58A、58B図は2階層でそれぞれの階層で2つ
の分類を持つ例で、磁気ディスク装置全体を一台の磁気
ディスク装置としてまとめて、各分類ごとの格納位置を
シリンダの位置で、記憶容量をシリンダ数で示したもの
である。 また、データベースの構造定義処理では、マルチディス
クコントローラ4内のマスタコン)−ローラ9は論理分
類毎に、書き込みファイルの格納先の物理位置を保持す
るために、マスクコントローラ9内のメモリ上に第58
A図に示すような、書き込みファイルの格納先の物理位
置を差し示す格納位置ポインタテーブルを作成する。構
造定義が終了した時点では、格納位置ポインタテーブル
は構造定義で設定した各論理分類の先頭シリンダ、先頭
トラック、先頭セクタ、セクタ内先頭位置を示すことに
なる。第59A、B、C,D図では第58A図で示した
例の分類でファイルを格納した場合の格納位置ポインタ
情報を格納している。 次にデータベースの構築について説明する。本集合型磁
気ディスク装置ではアクセスの対盆となるファイルをフ
ァイルID(論理分類IDと論理分類内の個有の番号で
構成)により指定する手段として、ファイルIDを用い
た管理情報を作成している。 上位機7は通信メモリ5に書込み対象となるファイルの
ファイルIDとファイルサイズの組が複数件分集まって
構成されるファイル情報を格納した後、マルチディスク
コントローラ4に対し書き込み命令を発行する。書き込
み命令を受けたマルチディスクコントローラ4は、第6
1図に示すフローで処理を実行する。マルチディスクコ
ントローラ4内のマスクコントローラ9は、通信メモリ
5からファイル情報の中のファイルIDを読み出し、該
ファイルIDが示すファイルを格納する格納位置を格納
位置ポインタテーブルから読み出す格納位置が求まると
その物理シリンダに書き込める残り容量が求まる。その
残り容量よりもファイル情報のファイルサイズで与えら
れるファイルのサイズが小さげかば第60A11に示す
ようなファイルIDをエントリとする物理情報テーブル
6にその格納位置(ディスク番号、シリンダ番号。 トラック番号、セクタ番号、1=クタ内位置)、ファイ
ルサイズ、ディスクまたがり数を書き込む。 ディスクまたがり数は、ファイルが何台の磁気ディスク
装置lにまたがっているかを表わすもので、処理対象と
なっているファイルが、1台の磁気ディスク装置の1つ
のシリンダに書き切れなかった場合はファイルを分割し
て書き残したファイルを次のディスクに書き込むことに
なる。このファイル分割した書き残しファイルであれば
、この値をカウントアツプする。物理情報テーブル6の
エントリはファイル情報で与えられるファイルIDで示
される。 物理情報テーブルへの書込みの後、格納位置ポインタを
ファイルサイズ9進める。 ファイルサイズと残り容量が等しい場合は、1台の磁気
ディスク装置」のシリンダがいっばいになった時で、そ
の磁気ディスク装置1への書き込み処理を行なう。 残り容量よりもファイルサイズが大きい場合には、残り
容量と分割基準サイズを比べる。分割基準サイズは構造
定義処理で設定する値で、シリンダの残り容量が非常に
小さいにもかかわらずファイルを磁気ディスク装置」の
間にまたがるように格納すると、そのファイルを読み出
すためには2台の磁気ディスク装置lを制御しなければ
ならず、その処理分オーバヘッドが大きくなる。そこで
、ある基準を設定してその基準値よりも残り容量が小さ
い場合には次の磁気ディスク装置lのシリンダの先頭か
ら書き込むようにするものである。 残り容量が分割基準サイズ以上の場合には、物理情報テ
ーブル6に格納位置、ファイルサイズを格納した後、残
り容量に書き込める分のファイルと書き残した分の書き
残しファイルとに分割する。 物理情報テーブル6には格納物理位置とファイルサイズ
を書込む。 1シリンダがいっばいとなる物理情を作成した磁気ディ
スク装置1は書き込み処理を行なう。書き残しファイル
はループを戻り、次の処理対象ファイルとなる。 残り容量が分割基準サイズよりも小さい場合には、格納
位置ポインタテーブルを次のシリンダの先頭に進めた後
、処理対象ファイルをそのまま次の処理対象ファイルと
してループを戻り処理を続ける。この時、1シリンダが
いっばいとなる物理情報を作成した磁気ディスク装置は
書き込み処理を行なう。 書き込み処理は、マスクコントローラ9がシーク命令を
磁気ディスク装置1に発行し、シーク動作を開始する。 次に、上位機器7にファイルの転送要求を発行し、マス
クコントローラ9は上位機器7にファイルの転送を要求
するとともに、マルチディクコントローラ8を制御して
データバスを切り換え、転送されてくるファイルを物理
情報で指定する入出力バッファ3へのファイルの転送を
行なう。シーク動作が終了し、ファイルの転送が終了す
るとマスクコントローラ9は書込み命令を磁気ディスク
装置1に発行し、該磁気ディスク装置1は書き込み動作
を実行する。 上記の動作を繰返しデータベースの構築を行なう。 第62図は書き込み処理の時間的な関係を示すもので、
上位機器7から図に示すようにril  111 11
2 111.・・・:、 、  11nI II“1−
2”2−2”、・・・・・と次々と転送されてくるデー
タは、マルチディスクコントローラ4内のマルチプレク
スコントロラー8により、入出力バッファ3−1.3−
2.・・・・・、3−n、3−1.3−2.・・・・・
・に格納される。このとき、例えば磁気データベース装
置1−1は、データ″1−↓″の転送を開始する直前に
マスタコントローラ9の指令によりシークを開始してい
る。データII 1.  I IIの転送が終了した時
点で、マスクコントローラ9は磁気ディスク装置1−1
に書き込み命令を発行する。磁気ディスク装置1−1は
指定の書き込み位置に達するまで回転待ちを行なった後
、入出力バッファ3−1のデータ″↓−1″を所定のシ
リンダ、トラック、セクタへ書き込み始める。 この間、他の磁気ディスク装置も図に示すように同様の
処理を行なうことになる。 第62図とこれに関する以上の説明から明らかなように
、各磁気ディスク装置はそれぞれ並行して、連続でファ
イルの書き込みができ、短時間でデータベースの構築が
できる。 次に、ファイルの読み出し処理について説明する。また
、同一磁気ディスク装置の同一シリンダ」二に読み出す
ファイルが複数件有る場合に、読み出すファイルの間に
ある読み出し不要のファイルも入出力バッファに一旦読
み出し、上位機器に転送する際に読み出し不要のファイ
ルを削除する手段について説明する。 上位機器7は読み出すファイルのファイルIDが複数件
分集まって構成するファイル情報を通信メモリ5に格納
した後、マルチディスクコントローラ4に対して読み出
し命令を発行する。 読み出し命令を受けたマルチディスクコン1へ口−ラ4
は、第63図に示すフローで処理を実行する。 マルチディスクコントローラ4内のマスクコントローラ
9は、通信メモリ5から最初に読み出すべきファイルの
ファイルIDを読み出し、該ファイルIDから該ファイ
ルが格納されている物理情を物理情報テーブル6により
検索する。このファイルを先ファイル、物理情報を先フ
ァイルの物理情報とする。次に1通信メモリ5から次に
読み出すべきファイルのファイルIDを読み出し、該フ
ァイルIDから該ファイルが格納されている物理情報を
物理情報テーブル6により検索する。このファイルを後
ファイル、物理情報を後ファイルの物理情報とする。 求めた物理情報から先ファイルと後ファイルが同一シリ
ンダに存在するかを調べ、同一シリンダに存在すれば先
ファイルと後ファイルの間に、指定していない読み出し
不要のファイル群があるか調べ、あれば、そのファイル
群の総サイズを求める。読み出し不要のファイルのサイ
ズが小さい場合には、先ファイルと後ファイルを一度の
読み出し命令で読出せるように、物理情報を合成する。 次に合成した物理情報を先ファイルの物理情報としてル
ープを戻り、通信メモリ5から次のファイルIDを読み
出し、そのファイルを後ファイルとして同様な処理を行
なう。 先ファイルと後ファイルが同一シリンダに存在しない場
合と読み出し不要ファイルのサイズが大きい場合には、
先ファイルの磁気ディスク装置から読み出し処理を実行
する。後ファイルの物理情報は先ファイルの物理情報と
してループを戻り、通信メモリ5から次のファイルID
を読出し、それを後ファイルとし同様な処理を行なう。 このような動作を指定したファイルすべてを読み出すま
で繰り返す。 先ファイルの磁気ディスク装置からの読み出し処理は、
まず、マスクコントローラ9は先ファイルの物理情報が
示す磁気ディスク装置1−1の磁気ディスクコントロー
ラ2−iに物理情報が示す物理位置へ磁気ヘッドを移動
させるシーク命令を発行し、磁気ディスク装置1−iは
シーク動作を開始する。シーク動作が終了すると、入出
力バツファ3−1がデータを書き込んでも良い状態であ
れば、マスクコントローラ9は読み出し命令を磁気ディ
スクコントローラ2−iに発行し、入出力バッファ3−
1に磁気ディスク装置1−iから読み出したファイルの
格納を開始する。格納が終了すると、マスクコン1〜ロ
ーラ9はマルチブレクスコントローラ8を制御して入出
力バッファ3−iから」二値機器7へのデータの転送を
開始させる。 マルチプレクスコントローラ8は第64図に示すように
、上位機器7のデータバスに入出力バツファ3−1から
3−nのデータバスを選択して接続するマルチプレクサ
201と選択したi番目の入出力バッファ3−iから上
位機器7にマスクコントローラ9の介在なしにデータを
出力するDMAコン1ヘローラ202と該DMAコント
ローラ202に入出力バッファ3−jの転送範部を指定
するための先頭アドレスと終了アドレスを格納する先頭
アドレス登録テーブル203と終了アドレス登録テーブ
ル204により構成している。 マスクコントローラ9は入出力バツファ3−iの転送す
べきファイルが存在する先頭アドレスを先頭アドレス登
録テーブル203に、終了アドレスを終了アドレス登録
テーブル204に設定した後位の入出力バッファ3から
」二値機器7へのデータの転送が行なわれていなければ
DMAコントローラ202に起動命令を発行する。DM
Aコントローラ202は先頭アドレスy[テーブル20
3と終了アドレス登録テーブル204を参照しながら指
定した範囲のデータのみ」二値機器7の要求する転送速
度でマスクコントローラ9の介在なしに転送を行なう。 先ファイルと後ファイルを一度の読出し命令で読み出せ
るように、物理情報を合成する処理を行ない入出力バツ
ファ3−iに読み出した場合には、先頭アドレス登録テ
ーブル203と終了アドレス登録テーブル204に必要
なファイルすへてか転送されるようにアドレスを複数件
分設定し、同様な処理を行なう。 先ファイルと後ファイルを一度の読出し命令で読み出せ
るように、物理情報を合成する処理は次の条件を満足す
る場合に行なう。 先ファイルのサイズをf 1 [Byte]、後ファイ
ルのサイズをf 2 [Byte] 、読み出し不要の
ファイル群の総サイズをに [Byte] 、磁気ディ
スク装ftW1から入出力バッファ3へのシーク動作を
含まない実効的な転送速度をt [Byte/sec]
、回転速度をR[rps] 、平均シーク時間をS [
SeCコとするとき、平均回転待ち時間は(1,/ 2
 R)であり、−度に読み出す時間が−づずつ読み出す
時間よりも短くなる条件は、 のようになり、第3式で示すように書き表すことができ
る。 ファイルの読み出し処理の時間的な関係は、」三位機器
7が要求する転送速度をT [Byte/sCc]、各
磁気ディスク装置1の1シリンダ分の容量がM[Byt
e]、各磁気ディスク装置」から入出力バッファ3への
転送速度をt [Byte/see] 、各磁気ディス
ク装置1の最少シーク時間をs [sec] 、回転速
度をR[rρs]とすると、最少シーク時間s [se
c]が1番目の入出力バッファ3−j」−のファイルを
」−位機器7に転送する時間(M/T)より大きい場合
には、第65図に示すようになる。」三位機器7の要求
する転送速度を満足するには、j台目の磁気ディスク装
置1−1が入出力バッファ3−jにファイルを読み出す
時間(s + 1 / R+ M / t )が、全て
の入出力バッファ3」−のファイルを上位機器7に転送
する時間(n M / T )以内であれば良いことに
なる。ここでは、連続したシリンダを読み出すためシー
ク時間を最少シーク時間とした。 また、磁気ディスク装置1に読み出し命令を発行した時
点の磁気ヘッドの位置がいかなる場合でも、上位機器7
の要求する転送速度を満足するように、回転待ちの時間
を最大値である(1/R)とした。 この関係を数式で表わすと t        T のようになり、第1式で示すように書き表わすことがで
きる。 また、最少シーク時間s [sec]がi番目の入出力
バッファ3−j上のファイルを」三位機器7に転送する
時間(M/T)以下の場合のファイルの読み出し処理の
時間的な関係は、第66図に示すようになる。この場合
は、シーク動作が終了しても入出力バッファ3−iはフ
ァイルを上位機器7に転送中であるため、読み出し命令
をi台目の磁気ディスク装置1−jに発行することがで
きない。 そこで、入出力バッファ3−iのファイルが上位機器7
に転送が終了した時点に読み出し命令を」合口の磁気デ
ィスク装置1−iに発行することになる。従って、上位
機器7の要求する転送速度を満足するには、i台目の磁
気ディスク装置↓−1が入出力バッファ3−iにファイ
ルを読み出す時間(M/T+1/R+M/l)が、全て
の入出力バッファ3上のファイルを上位機器7に転送す
る時間(n M / T )以内であれば良いことにな
る。 この関係を数式で表わすと TRt          ゴ のようになり、第2式で示すように書き表わすことがで
きる。 t;        MR これらの条件式より、」三位機器7が要求する転送速度
を満足するには磁気ディスク装置1を何台組み合わせれ
ばよいかを求めることができ、第1式を満足する最少の
台数の磁気ディスク装置]で集合型磁気ティスフ装置を
構成すれば最もコストパフォーマンスの良いものとなる
。 例えば、11〜ラツクの容量が20k(キロ)[Byt
e]の61〜ラツクからなる、]シリンダ分の容量が1
20k [Byte]の磁気ディスク装置工により構成
し、上位機器7が要求する転送速度2M(メガ)  [
Byte/see] 、各磁気ディスク装置1から入出
力バッファ3へのシーク動作を含まない実効的な転送速
度をI M [Byte/5ecl 、各磁気ディスク
装置1の最少シーク時間10m(ミリ)[sec]、回
転速度50 [rpslとすると、第↓式%式% この式を満足する最少のnは4となる。 第67図に3台の磁気ディスク装置↓で構成した集合型
磁気ディスク装置の読み出し中の時間関係で、第68図
に4台の磁気ディスク装置1で構成した集合型磁気ディ
スク装置の読み出し中の時間関係、第19図に5台の磁
気ディスク装置1で構成した集合型磁気ディスク装置の
読み出し中の時間関係を示す。 第67図の3台の磁気ディスク装置工で構威した場合に
は、図からもわかるように磁気ディスク装置]−から入
出力バッファ3にデータを読み出す時間が入出力バッフ
ァ3から上位機器7への転送時間に間に合す、入出力バ
ッファ3から上位機器7にデータの転送ができない時間
aが発生し、入出力バッファ3から上位機器7への転送
速度が約1 、6 M [Byte/see]となり上
位機器が要求する転送速度を満足できない。 また、第69図の5台の磁気ティスフ装置上で構成した
場合には、上位機器7が要求する転送速度を満足はする
ものの、第68図の4台の磁気ディスク装置]−で構成
した場合に比へ、1台の磁気ディスク装置1が処理をし
ない時間すが長く磁気ディスク装置の使用効率が悪い。 従って、第1式を満足する最少のnに一致する4台の磁
気ディスク装置1で構成した場合が、最もコストパフォ
ーマンスの良い集合型磁気ディスク装置と言える。 本発明を文字列検索装置に適用したもう1つの実施例に
ついて第56図を用いて説明する。 第57図で説明した集合型磁気ディスク装置は、指定し
たファイルのみを読み出す場合、指定したファイルが磁
気ディスク装置ニー1から1−nに平均して存在すれば
、実施例1で述べたような動作を実施して、上位機器7
へのデータ転送速度を高めることができる。しかし、1
台の磁気ディスク装fit 1− iにだけ指定したフ
ァイルが存在する場合、上台の磁気ディスク装置1−1
の読み出しが連続して行われることになる。この場合、
上位機器7へのデータ転送は、−旦磁気ディスク装置1
−iから入出力バッファ3−iに読み出した後、入出力
バッファ3−jから上位機器7へ転送する2段読み出し
を行なわねばならないため、データ転送が低下してしま
うという状況が発生する。このように、指定したファイ
ルが偏って磁気ディスク装置1に存在すると上位機器7
へのデータ転送速度を効果的に高めることができない状
況が発生し得る。そこで、実施例2は、ファイルが偏っ
て格納されないようにすることで、常に全磁気ディスク
装置1を読み出し動作させ、」二値機器7へのデータ転
送速度を高めるものである。 また、本実施例では記憶容量をさらに高めるために、磁
気ディスク装置の台数を増やしている。 第56図は本発明を用いた集合型磁気ディスク装置の構
成を示すもので、第57図と相違点は磁気ディスク装置
1の1シリンダ分と同じ容量の入出力バッファ3を2面
待ち、第1面の入出力バッファ3aのデータを上位機器
7に転送している間に、第2面の入出力バッファ3bに
磁気ディスク装置1からの読み出したフィルムを格納す
ることができることである。 また、一つのデータ記憶装置上5をm台の磁気ディスク
装置↓−1−1〜1−j−mとマルチプレクサ14によ
って構威し、集合型磁気ディスク装置の総記憶容量を上
台の磁気ディスク装置の記憶容量の(nXm)倍にして
いる。 動作を説明すると、まず、第57図の構成と同様にデー
タベースの構造定義処理を行なうが、入出力バッファ3
にマルチプレクサ14を介して接続するm台の磁気ディ
スク装置jを識別する情報を構造定義情報に追加する。 データベースの構築は第57図の構成と同様に行なうが
、いくつかの相違点がある。第57図の構成との相違点
は、ファイル情報で与えられるファイルを構成する磁気
ディスク装置の台数分に分割して、全磁気ディスク装置
に分散して格納することである。また、入出力バッファ
3のデータを格納物理情報で与えられるm台の内の王台
の磁気ディスク装置1−i−jにマルチプレクサ14を
制御して格納することである。 ファイルの分割方法としては、ファイルサイズを台数で
割った分割サイズを求め、ファイルの先頭から分割サイ
ズごとにt命日の磁気ディスク装置1−1−jから1−
2−、j、1−3−、jと順番に格納していくものと、
ファイルの先頭からlバイトずつと言ったように、決め
られたサイズごとに1台目の磁気ディスク装置1−1−
jから上−2−j、1−3−jと順番に格納していくも
のがある。 ファイルサイズが磁気ディスク装置の台数で割り切れな
い場合は、ファイルサイズが磁気ディスクの倍数となる
ように無効データを末尾に付加して、常に1台目の磁気
ディスク装置h−1−Jにファイルの先頭がくるように
格納する。 次にファイルの読出しについて説明する。これも第57
図の例と同様に行なうが、本構成では入出力バッファ3
を2面(3a及び3b)持っているため、それぞれの磁
気ディスク装置1から入出力バッファ3に読出したファ
イルを格納した時点で、次のファイルの読出しの処理を
開始することができる。 ファイルの読み出し処理の時間的な関係は第70図のよ
うになり、第57図の例に比べると入出力バッファ3に
データを書き込んでも良い状態になるまでの待ち時間が
なくなり、より高速の転送が可能になる。第57図の例
と同じ条件で上位機器7の要求する転送速度を満足する
関係は、を台の磁気ディスク装置1−i−jから2面あ
る入出力バッファ3−iの一方の入出力バッファ3a−
jにファイルを読み出す時間(s+1/R+M/1)が
、もう一方の全ての入出力バッファ3b1から3b−n
までのファイルを上位機器7に転送する時間(n M 
/ T )以内であればよく、これを数式で表すと Rt        T のようになり、この数式は容易に次式のように書き表す
ことができる。 この条件により、実施例工と同様に上位機器が要求する
転送速度を満足するためのデータ記憶装置]−5の台数
を求めることができる。 また、大きな記憶容量が求められる場合には、データ記
憶装M15をm台の磁気ディスク装置lとマルチプレク
サ14によって構成し、記憶容量をm倍化することがで
きる。 これらのことから決定される最少台数の磁気ディスク装
置工で集合型磁気ディスク装置を構成すれば、最もコス
トパフォーマンスの良いものどなる。 第70図の実施例では各磁気ディスク装置のシーク動作
の起動を上位機器への入出力バッファ3−1〜3−r)
のデータ転送が終了した時点で行なっているが、それぞ
れ読み出しが終了した時点で行なっても良いことは明ら
かである。 以上の2つの実施例では磁気ディスク装置を用いた場合
について説明したが、磁気ディスク装置以外の光ディス
ク装置等の記憶媒体が回転する記憶装置についても同様
なことは明確である。 次に、第71図から第74図の開示に基づいて、本発明
の文書情報検索装置をLAN等を通して外部と接続可能
にする実施例について説明する。 第71図における文書情報検索装置(サーチマシンと呼
ぶ)3000では、サーチマシン制御用コンピュータに
1150LANなどの通信回線1000に接続できるよ
うなT、 A N接続制御機能を備えている。サーチマ
シン3000はサーチマシン制御用コンピュータ1]5
0とサーチユニット3」O○から構成されている。サー
チマシン制御用コンピュータ1150では5サーチマシ
ン制御プログラム1100が実行される。このサーチマ
シン制御プログラム1100は、本発明の第一の実施例
(第10図)で説明した、検索式解析ブロクラム110
2、同義語異表記展開プロクラム1103a、複合条件
解析プログラム114↓a、及び検索実行制御プログラ
ム11o8が実行される。 サーチプログ1〜3100は、オー1〜で1−ン生成用
コンピュータ(CPU、)  11.05 a 、ビッ
トサーチ用コンピュータ(CPU、) 1.107 a
、ストリングサーチエンジンエ106、複合条件判定用
コンピュータ(CP U 2 ) 1145 a、半導
体メモリ装置1110a、RAMディスク装置1110
b、集合型磁気ディスク装置1110cから構成される
。 オー1−マトン生成用コンピュータ(CPU□)110
5aではオートマトン生成プログラム]」05が、ビッ
トサーチ用コンピュータ(CPU3) l 107 a
ではピッ1−サーチプログラム1107が、複合条件判
定用コンピュータ(CPU2) 11−45 aでは複
合条件判定プログラム1145が実行される。 また、集合型磁気ディスク装置1 ]、 10 cは集
合型磁気ディスク制御装置111− Odと磁気ディス
ク装Fi1.110 e、−11,i、 Oe、□から
構成される。また、集合型磁気ティスフ制御装置111
、 Odはマルチディスクコン1ヘローラ1、110 
fと、同期制御バッファ1110g1〜1110 g□
、から構成される。同期制御バッファ]−↓10g□〜
11.10 g+、は、それぞれ独立に動作する磁気デ
ィスク装fW ]、 1 ]、 Oe工〜1110e1
2の出力を整合し、同期を取ってス1−リングサーチエ
ンジン1106へ送出するためのものである。すなわち
、例えば、磁気ディスク装置1.110 e□内の本文
データを磁気ディスク装置]、110e2内の本文デー
タより先に送りださなければならないときに、もし磁気
ディスク装置1110e2内の本文データが先に読み出
されてしまった場合でも、このデータを同期制御バッフ
71110g2内に保持しておき、磁気ディスク装置1
.110e1内の本文データが同期制御バッファ、+−
i1og1に読み出され、ここからマルチディスクコン
1ヘローラ1110 fを介してス1〜リングサーチエ
ンジン1106へ読み出した後、同期制御バッファ11
10 g、内のデータをス1−リングサーチエンジン1
106へ読み出すことによって、当初の順番通りにデー
タをス1〜リングサーチエンジン1106へ読み出すこ
とが可能になる。 このように、同期制御バッファ1.110 g工〜11
10gx2は、磁気ディスク装置1110 e。 〜1110 e、。の読み出し順序が各磁気ディスク装
置のシーク時間及び回転待ち時間のバラツキによりどう
変化したとしても、正しい所定の順番で外部に送り出す
ことが可能となる。マルチディスクコントローラ111
0fは、サーチマシン制御プログラム1 ]、 OO内
の検索実行制御プログラム1108の制御のもとに、同
期制御バッファ1110g、〜1 ]、 10 gユ2
の出力を選択するマルチプレクサの機能を果たす。 RAMディスク装置1110bは、RAMディスクコン
トローラ4.200と半導体メモリポート4100 a
 、 4100 b 、 4 ]、 00 c 。 4100dから構成される。半導体メモリボード41、
OOa、、4100b、4100c。 4、100 dは、同一バスに接続され、RAMディス
クコン1−口−ラ4.200制御により、ここに格納さ
れた接縮本文がランダムにアクセスされる。 そして、読み出されたデータはス1−リングサーチエン
ジン]106へと送出される。 サーチマシン制御プログラム」150は、LAN100
Oを介して送られてくる検索指令に応して、先ず第一に
検索条件の解析、同義語展開、異表記展開、複合条件解
析、近傍条件解析、文脈条件解析、論理条件解析を行い
、ここで作成された各制御情報をピッI・サーチプログ
ラム1107、オートマトン生成プログラム土105、
及び複合条件判定プログラム1145へ渡す。オートマ
トン生成プログラム上工05で作成されたキーワード照
合用の状態遷移テーブルデータは、ストリンサーチエン
ジン1106へ書き込まれる。 第二に、検索制御情報の設定が終了したら、検索の実行
に入る。最初、半導体メモリ11 ]、 Oa上の文字
成分表が読み出され、ビットサーチプログラム1107
により文字成分表サーチが行なわれる。この文字或表サ
ーチの結果は、サーチマシン制御用コンピュータ115
0の主メモリ」二に格納される。次に、文字成分表サー
チにより絞り込まれた文書集合に対して、凝縮本文サー
チを実行する。すなわち、サーチマシン制御用コンピュ
ータ1150の主メモリ上に格納された文字成分表サー
チの結果情報としての該当文書識別子を読み出し、これ
に対応する凝縮本文をRAMデイ・スフ装置]110b
から読み出し、ストリングサーチエンジン1↓06で指
定キーワードの照合処理を行う。このストリングサーチ
エンジン1106の照合情報は、複合条件判定プログラ
ムエ145に渡され、ここで指定された複合条件に合致
するか否かの判定が行われる。この接縮本文サーチ結果
は、同様にしてサーチマシン制御用コンピュータ圭15
0の主メモリ上に格納される。この後、もし複合条件に
近傍条件あるいは文脈条件が設定されていたなら、本文
サーチへ入る。本文サーチでは、サーチマシン制御用コ
ンピュータi ]、 50の主メモリ上に格納された凝
縮本文サーチの結果情報としての該当文書識別子を読み
出し、これに対応する本文を集合型磁気ディスク装置1
1土Ocから読み出し、ストリングサーチエンジン11
06で指定キーワードの照合処理を行う。このストリン
グサーチエンジン1106の照合情報は、複合条件判定
プログラム1145に渡され、ここで指定された複合条
件、すなわち近傍条件と文脈条件に合致するか否かの判
定が行われる。この本文サーチ結果は、同様にしてサー
チマシン制御用コンピュータ1150の主メモリ」二に
格納される。 これらの検索手順の制御は、す八でサーチマシン制御プ
ログラム]−100内の検索実行制御プログラム110
8によって行われる。 第三に、」二連した一連の検索処理が終了したら、サー
チマシン制御用コンピュータ:1.150の主メモリ上
に書き込まれた検索結果を、サーチマシン制御プログラ
ム」、100の制御によりLAN100○を介して要求
元であるワークステーション等の検索対話端末に返送す
る。 以上説明した本発明の変形例によれば、文書情報検索装
置をLAN内のサーバとして、同じLANに接続された
複数の検索対話用端末から検索を行うことが可能となり
、共有資源としての有効活用ができるようになる。 次に、本発明のもう一つ別の実施例について第72図を
用いて説明する。 本実施例における文書情報検索装M(サーチマシンと呼
ぶ)3000はLANなどの通信回線1000に接続で
きるようLAN接続制御アダプタ2.1. OOを備え
ている。サーチマシン3000は上記LAN接続制御ア
ダプタ2100のほか、サーチマシン制御用コンピュー
タ2200と複数のサーチユニット3001..300
2.・・・・・から構成されている。 サーチマシン制御用コンピュータ1150では、サーチ
マシン制御プログラム1100が実行される。このサー
チマシン制御プログラム1100は、本発明の第一実施
例(第10図)で説明した、検索式解析プログラム11
02、同義語異表記展開プログラム1103a、複合条
件解析プログラム↓14↓a、及び検索実行制御プログ
ラム1108で構成される。 サーチマシン1〜3001は、オー]・7トン生成用コ
ンピュータ(CPU、)  i i O5a、ピッ1〜
サーチ用コンピユータ(CP U3) 1−107 a
、ストリングサーチエンジン11.06、複合条件判定
用コンピュータ(CP U2) 1145 a、半導体
メモリ装置1110a、RAMディスク装置1110b
、集合型磁気ディスク装置11.10C5検索結果格納
メモリ1146、及びセレクタ3610.3620から
構成される。 オートマトン生成用コンピュータ(CPU、)工」−〇
5aではオートマトン生成プログラム1105が、ピッ
1〜サーチ用コンピュータ(CPU、) 1107 a
ではピッ1ヘサーチプログラム1107が、複合条件判
定用コンピュータ(CPU2) 1145 aでは複合
条判定プログラムエ145が実行される。 また、集合型磁気ディスク装置1110cは集合型磁気
ディスク装置1110dと磁気ディスク装fil!11
10 e1〜1110 el)lから構成される。 これらの磁気ディスク装置1110e1〜1110 e
xNには1本文データ、接縮本文データ、文字成分表及
び書誌事項などが分散して格納されている。本文サーチ
の際には、ここから本文データがストリングサーチエン
ジン1106へ読み込まれる。 半導体メモリ装置1110aには、システムの立ち上げ
時に磁気ディスク装置1110 e、〜1110e、N
から文字成分表がロードされ、検索時に文字成分表サー
チの対象データとしてビットサーチプログラム1105
によりアクセスさせる。 同様にRAMディスク装置1110bには、システムの
立ち上げ時に磁気ディスク装置1110e、〜1110
e、sから接縮本文がロードされ、検索時に凝縮本文サ
ーチの対象データとしてストリングサーチエンジン11
06番こよりアクセスされる。 ストリンクサーチエンジン1106は、凝縮本文サーチ
及び本文サーチ時に、それぞれ接縮本文をRAMディス
ク装置1.110 bから、本文を集合型磁気ディスク
装置1110cから読み出し、指定キーワードの探索照
合処理を行う。セレクタ3610は、ストリングサーチ
エンジン1106へに入力をRAMディスク装置111
0bと集合型磁気ディスク装置1上王Ocとで切り替え
る働きをする。また、セレクタ3620は、検索結果格
納メモリ1146へ文字成分表サーチ結果を書き込む際
と、型線本文サーチ結果及び本文サーチ結果を書き込む
際の入力を切り替える働きをする。 サーチマシン制御プログラム1150は、LA、N10
00を介して送られてくる検索指令に応じて、先ず第一
に検索条件の解析、同義語展開、異表記展開、複合条件
解析、近傍条件解析、文脈条件解析、論理条件解析を行
い、ここで作成された各制御情報を各サーチユニット3
001゜3002、  ・・・・のビットサーチプログ
ラム1107、オートマトン生成プログラムエ105、
及び複合条件判定プログラム1145ヘブロードキヤス
トする。各サーチユニット3001゜3002、・・・
・・では、それぞれオートマ1ン生戒プログラム110
5で作成されたキーワード照合用の状態遷移テーブルデ
ータが、ストリングサーチエンジン1106へ書き込ま
れる。 第二に、検索制御情報の設定が終了したら、検索の実行
に入る。ここでは、サーチマシン制御用コンピュータ1
150上の検索実行制御プログラム1108が各サーチ
ユニット3001゜3002、・・・・・・へ検索起動
情報をブロードキャストすることになる。 各サーチユニット3001,3002.・・・・・・で
は、最初、半導体メモリ1110a上の文字成分表が読
み出され、ビットサーチプログラム1107により文字
成分表サーチが行われる。この文字成分表サーチの結果
は、検索結果格納メモリ1146に書き込まれる。この
「゛、3620はビットサーチプログラム1107から
の書込みを選択すべく、検索実行制御プログラム110
8により切り替えられている。 次に、り字成分表サーチにより絞り込まれた文書集合に
対して、凝縮本文サーチを実行する。すなわち、検索結
果格納メモリ1146上に格納された文字成分表サーチ
の結果情報としての該当文書識別子を検索実行制御プロ
グラム]108が内蔵する接縮本文格納情報を参照して
、該当接縮本文のRAMディスク装置11 ]、 Ob
上の格納領域情報をRAMディスクコントローラ720
0 (第22図)に設定する。その後、該当接縮本文を
RAMディスク装置1110bから読み出し、ストリン
グサーチエンジン1106で指定キーワードの照合処理
= 行う。このストリングサーチエンジン1106の照
合情報は、複合条件判定プログラム1工45に渡され、
ことで指定された複合条件に合致するか否かの判定が行
われる。この擬縮本文サーチ結果は、同様にして検索結
果格納メモリエ]46に書き込まれる。当然、セレクタ
3620は複合条件判定プログラム1工45からの書込
みを選択すべく、検索実行制御プログラム1108によ
り切り替えられている。 この後、もし複合条件に近傍条件あるいは文脈条件が設
定されていたなら、本文サーチへ入る。 本文サーチでは、検索結果格納メモリ1146上に格納
された凝縮本文サーチの結果情報としての該当文書識別
子を検索実行制御プログラム1108が内蔵する本文格
情報を参照して、該当本文の集合型磁気ディスク装置1
110c上の格納領域情報を集合型磁気ディスク制御装
置1110d (第20図)に設定する。その後、これ
に対応する本文を集合型磁気ディスク装置1110 c
から読み出し、ストリングサーチエンジン1106で指
定キーワードの照合処理を行う。 このストリングサーチエンジン1106の照合情報は、
複合条件判定プログラム1145に渡され、ここで指定
された複合条件、すなわち近傍条件と文脈条件に合致す
るか否かの判定が行われる。この本文サーチ結果は、検
索結果格納メモリ]−146に書き込まれる。この時、
セレクタ3610は集合型磁気ディスク装置1 」−1
0cから読み込みを選択すべく、またセレクタ3620
は複合条件判定プログラム1145からの書込みを選択
すべく、検索実行制御プログラム1108により切り替
えられている。 以上説明した検索手順の制御は、すべて検索実行制御プ
ログラム1108により、各サーチユニット3001,
3002.  ・・・・・ヘブロードキャストすること
により行われる。 第三に、上述した一連の検索処理が全サーチユニット3
001,3002.  ・・・・で終了したら、各検索
結果格納メモリ1146上に書き込まれた検索結果を、
検索実行制御プログラム1108が全ユニット3001
,3002.  ・・・から収集にれを統合してサーチ
マシン制御プログラム↓100の制御によりLANl0
○Oを介して要求元へ返送する。 また、サーチマシン制御用コンピュータ1150には磁
気ディスク装置2400が付設されており、ここには本
サーチマシン3000の構成情報、すなわちサーチユニ
ット数などが格納されている。さらに、この磁気ディス
ク装置2400は、LANを介して複数のユーザから検
索要求が来る場合、サーチユニットの動作状況に応じこ
れらの要求を一時的に格納したり、あるいは返送すべき
検索結果情報を一時的に格納するのにも用いられる。 さらに、サーチマシン制御用コンピュータ1150に付
随したコンソール2300には、本サーチマシンの動作
状況が適宜表示されたり、あるいはここから保守動作の
指示を行うことができるようになっている。 この実施例の構成に示されているように、本発明によれ
ば、集合型磁気ディスク装置内の磁気ディスク装置の台
数及びサーチユニットのユニット数をユーザの要求仕様
、すなわち要求テキストデータ蓄積容量、検索時間など
に応して極めて容易に情報検索装置を構成できることに
なる。 第73図は、本発明の更に別の実施例を示したものであ
る。これまで説明してきた実施例では、集合型磁気ディ
スク装置111. Oc、ピッ1ヘサーチ用コンピユー
タ1107aあるいはストリングサーチエンジン110
6、複合条件判定用コンピュータ1145a及び検索結
果格納メモリ1146をカスケードに接続し、パイプラ
イン動作させることによって処理速度の向上を図ってい
る。これに対して、本実施例では、上記各部分をバス8
000で結合することによって、ハードウェアの構成を
簡単化し、引いては装置規模を抑えた構成にしたもので
ある。また、集合型磁気ディスク装置1110c、RA
Mディスク装置1110b、及び半導体メモリ装置11
10aの制御コンピュータ1150aを、またビットサ
ーチ用コンピュータ1107a、ストリングサーチエン
ジン1106、及び複合条件判定用コンピュータ114
.5 aの制御にコンピュータ1150bをそれぞれ一
台ずつ配することによって、サーチマシン制御用コンピ
ュータ1150のロードを軽減し、全体として負荷分散
を図ることにより、検索処理にかかわるオーバヘッドの
低減を可能とするものである。 最後に、本発明の文書情報検索装置をネットワークシス
テムにおいて使用する場合の実施例について、第74図
を用いて説明する。 同図において1000がLANなどのネットワークであ
り、これにサーチマシン3000がサーチマシン制御用
ワークステーション2200を介して、通信制御手段2
100により接続されている。 また5200は光ディスク装置5510゜5520、・
・・・・・5530を統括制御するイメージサーバであ
る。該イメージサーバ5200も同じく、通信制御手段
5100によりネットワーク1000に接続されている
。5400は光ディスク装置5510,5520.  
・・・・5530における文書に対応するイメージデー
タの所在を管理する管理情報を格納する磁気ディスク装
置である。 1200はデータを表示できる検索対話用のワークステ
ーションであり、これもまた通信制御手段]。100に
よってネットワーク」、 OOOに接続されている。本
ワークステーションにはこのほかイメージプリンタi 
4. OO、イメージスキャナ1500、磁気ディスク
装置」−600、光ディスク装置1700が接続されて
いる。 6200も検索対話用のワークステーションであり、こ
れも通信制御手段6100により同じネットワークに接
続されている。これは、検索ならびに閲読専用のワーク
ステーションである。ワークステーション1200から
は、サーチマシン3000からの検索結果に応して、イ
メージサーバ5200へ該当文書に対応するイメージデ
ータを要求し、これをネット−ワーク経由で受け取りコ
ンソール1300に表示し、図面などをも含めて閲読す
ることが可能である。このイメージデータはイメージプ
リンタ14. OOにハードコピーをとることもてきる
。また、このイメージデータを本ワークステーション上
で編集し、個人専用のブライポー1〜フアイルとして光
ディスク装置1、700に格納することも可能である。 この編集に際しては、イメージスキャナ1500から入
力したイメージを用いることもできる。 したがって、サーチマシンあるいはイメージサーバのデ
ータベースに格納されているパブリックなデータには手
を加えることなく編集部分のみを磁気ディスク装置16
00及び光ディスク装置1700に格納し、その対応情
報を磁気ディスク装置1.600に持つことも可能であ
る。 〔発明の効果〕 以上の各実施例によれば、先ず第一にテキストデータを
納める文字列記憶手段を並列に並へた複数台の磁気ディ
スク装置で構成し、これらを同時に駆動しその出力デー
タを統合することによって、高い読み出し速度を得るこ
とができるため、テキストデータを対象にした本文検索
が高速に行えるようになり、検索時間の大幅な短縮が可
能となる。 第二に、文字列照合手段に有限オートマトン方式に基づ
く文字列照合用の専用ハードウェアを搭載することによ
って、照合速度を低下させることなく約−千語のキーワ
ードを一括して検索することが可能となる。したがって
、同義語及異表記を含めて、テキストデータベースを蛸
ニー回スキャンするだけで検索を終えることができるよ
うになるため、異なる表現及び表記を許容した」二で高
速な検索処理を実現することが可能になる。 第三に、スキャン型のフルテキス1へサーチを加速する
方法として、2段階のプリサーチを行うことによって、
磁気ディスクに格納されたテキス1−本文を参照しに行
く件数を減らすことができるようになるため、検索処理
時間に占める割合が高い本文検索処理量を減らすことか
可能になり、その結果全体の検索処理時間を短縮するこ
とが可能となる。 具体的には、第一段階目のプリサーチ方法として、予め
すべての文字コードについて文書毎にその文字の有無を
1ビツトの情報を表したビットリストをハツシュ化した
テーブルとして持ち、指定されたキーワードを構成する
文字単位にこのチープルを検索して該当する文書のピッ
1へリストを求め、その後これらのビットリストの相互
の論理積を取ることによって、指定された文字をすへて
含む文献のみを抽出することができ、以降の検索対象と
する文書数を必要最小限に絞り込むことが可能になるた
め、全体の検索処理時間を短縮することが可能となる。 さらに、第二段目のプリサーチ方法として、予めテキス
1〜本文の中から助詞や接続詞などの附属語を削除する
と共に、繰り返し表れる単語の重複を排除した接縮本文
を用意し、第一段目のプリサーチて絞り込みれた文書の
接縮本文をスキャンすることによって、指定されたキー
ワードが単語単位で記述されている文書だけを抽出する
ことができ、以降の本文検索の対象となる文書数を必要
最小限に絞り込むことが可能になるため、全体の検索処
理時間をさらに短縮することが可能となる。 したがって、この2段階のプリサーチの結果絞り込まれ
た文書についてのみ、テキス1−本文を磁気ディスク装
置から読み出してスキャンし、最後の複合条件による本
文検索を行うことになるため、等価的に非常に高速なフ
ルテキスI−サーチが実現できることになる。 第四に、本文検索の際、サーチエンジンの出力結果から
検索式に記述された論理条件及び近傍条件や文脈条件に
合致するものだけを抽出する複合条件判定手段を設ける
ことにより、フルテキス1〜サーチ特有の木目細かな検
索が可能となる。すなわち、論理条件判定手段により論
理和や論理積、論理否定なとの検索演算機能が実現でき
ることになり、近傍条件判定手段により日本語の場合に
はキーワードとキーワードの間に存在する文字数に上限
あるいは下限を指定した字間距離条件検索が、英語の場
合にはキーワード間の語数に上限あるいは下限を指定し
た語間距離条件検索などの機能が実現できることになり
、文脈条件判定手段により。 キーワードとキーワードが同一の交円に共起するものを
検索したり、あるいは同一の段落に現れる文書を検索し
たりする検索機能が実現できることになる。 また、複合条件判定手段を構成する近傍条件判定手段、
文脈条件判定手段及び論理条件判定手段をこの順序で結
合し、パイプライン的に実行することによって、高速な
複合条件処理を実現することが可能となる。 第五に、複数の磁気ディスク装置から構成される文字列
記憶手段、文字列照合手段、プリサーチ手段、及び複合
条件判定手段をまとめて一つのユニッI・とじ、このユ
ニットを複数個並列に並べ、この」三位にこれらを制御
するコントロール手段を設け、さらにこれらをまとめて
−台のサーチマシンとする構成を採ることによって、大
容量テキストデータベースに対しては複数のサーチマシ
ンを並列に設置することで対処すると共に、データベー
スの蓄積に伴う容量の増加に対しては既存のテキストデ
ータベースに手を加えることなくマシン内のユニットの
増設、あるいはシステム内のサーチマシン増設によって
対処することが可能となる。 第六に、このテキスl−サーチマシンにL A、 Hに
対する接続手段を設けることによって、サーチマシンを
LANに接続して使用できるようになる仁め、複数のユ
ーザに対してのサービスが提供できると共に、大規模な
テキスI〜データベースのLANを介した構築に応える
ことも可能なる。すなわち、大規模テキストデータベー
スに対してはL A Nを介して複数台のサーチマシン
を接続することによって対処でき、データベース容量の
増加に際してもLAN内のマシン数の増設によって対処
することが可能となる。 第七に、テキストサーチマシンの内部に同義語及び異表
記の展開処理を行う同義語展開手段及び異表記展開手段
を設けることによって、ユーザがこれらの問題を意識し
なくとも自動的に同義語や異表記などの展開諸費すへて
をキーワードとして全文検索を行うことができ、表現及
び表記の違いに起因する漏れを生ずることなく所望の文
書が検索できることになる。 以上のように、本発明に係る階層プリサーチ式文書検索
方法及びこの装置に用いられる磁気ディスク装置によれ
ば文書の登録及び、この登録された文書の自由語による
フルテキストサーチ手段として有用であり、特に大規模
データベースを使ってのサーチ等の効率を要求される文
書検索に好適である。
【図面の簡単な説明】
第1図は従来の検索システムを示すブロック構成図、第
2図、第3図、第5図及び第7図は従来の有限オートマ
トンによる文字列検索原理を表した説明図、第4図、第
6図及び第8図は、上記従来例に対応するフェイルテー
ブルの説明図、第9図は異表記展開の従来構成を示した
ブロック図、第10図は、この発明の第1の実施例の概
要を示すブロック構成図、第11図は照合位置情報の一
例を示す図、第12図は照合位置情報を付したサーチエ
ンジンの出力情報何回、第13図は複合条件判定部の詳
細を示す図、第14図は2つのキーワードを使った検索
何回、第15図は、この発明の特徴の一つである、フル
テキストサーチを加速する手段を示す構成図、第16図
はテキストの登録処理の手順を示す図、第エフ図は、上
記第16図で登録、生成された文字成分表から、検索処
理を行う手段を示した図、第工8図は文字成分表の構成
とこれを用いたサーチの具体例を示すした図、第19図
は接縮本文の作成を示す図、第2OA。 20B図、第21図、第22図、第23図及び第24図
は文字成分表サーチの手順を示したPAD図、第25図
は第10図に示した実施例の変形例を示す構成図、第2
6図はこの発明の一つの特徴部分である同義語・異表記
の展開の処理を行う実施例のブロック構成図、第27図
は上記26図に示した実施例での処理概略を説明した図
、第28図は同じ〈実施例の構成ブロック図、第29図
は、異表記展開処理の過程を例示する図、第30図は、
異表記展開手段のブロック図、第31図は異表記展開処
理部における変換ルールの適用処理をカタカナ文字の列
で説明した図、第32図は異表記展開処理を示すPAD
図、第33図は見出し文字列検索をオートラ1−ンを用
いて実行する実施例を説明する図、第34図はオートマ
トンの状態遷移テーブル図、第35図はオートラ1−ン
の出力テープル図、第36図は検索オートマトンの状態
遷移テーブル及び出力テーブルの作成方法を表したPA
D図、第37図はカタカナ異表記変換ルールテーブル、
第38図は漢字の新旧字体に関する異表記変換ルールテ
ーブル、第39図は漢字の送り仮名に関する異表記変換
ルールテーブル、第40図はローマ字とカタカナの対応
表の例、第41図は実施例の異表記展開手段の展開モー
ドを設定可能とするブロック図、第42図は異表記展開
における各変換部、展開部及びスイッチの出力の制御状
態を示す図、第43図は同義語辞書を示す図、第44図
は同義語辞書の見出し文字列をインデックステーブルを
用いて探索する方式の概要を示す図、第45図はこの発
明の実施例である有限オートマトンを用いた文字検索回
路の構成ブロック図、第46図、第47図、第48図、
第49図、第50図、第5工図、第52図、第53図は
この実施例の有限オートマトンによる文字列検索方法の
原理を示した説明図、第54図はこの実施例の状態遷移
テーブルの説明図、第55図は検索結果テロ1 一プルの説明図、第56図はこの発明の実施例である集
合型磁気ディスク装置の構成何回、第57図は、他の実
施例を示す構成図、第58A図及び第58B図は構造定
義テーブルの構造を示す図、第59A図、第59B図、
第59C図及び第59D図は格納位置ポインタテーブル
の構造を示す図、第60A図、第60B図、第60C図
及び第60D図は物理情報テーブルの構造を示す図、第
61図は第57図に示した実施例のファイルの書き込み
のフローチャート、第62図は同じく第57図の集合型
磁気ディスク装置におけるファルの書き込み処理のタイ
ムチャー1へ、第63図は第57図の実施例におけるフ
ァイルの読み出し処理のフローチャート、第64図はマ
ルチプレクスコントローラの構成を示す図、第65図は
第57図の実施例における集合型磁気ディスク装置にお
けるファイルの読み出し処理のタイムチャート、第66
図は、同じく第57図の実施例における集合型磁気ディ
スク装置におけるファイルの読み出し処理のタイムチャ
ート、第67図は、第57図の実施例において3台の磁
気ディスク装置で構成した集合型磁気ディスク装置にお
けるファイルの読み出し処理のタイムチャート、第68
図は、上第57図の実施例において4台の磁気ディスク
装置で構成した集合型磁気ディスク装置におけるファイ
ルの読み出し処理のタイムチャート、第69図は第57
図の実施例において5台の磁気ディスク装置で構成した
集合型磁気ディスク装置におけるファイルの読み出し処
理のタイムチャー1・、第70図は、第56図の実施例
において、2台の集合型磁気ディスク装置におけるファ
イルの読み出し処理のタイムチャート、第71図はこの
発明をLANに接続した実施例を示す構成ブロック図、
第72図は、第71図に示した実施例の変形例を示すブ
ロック図、第73図は同じく第71図に示した実施例の
変形例図、第74図は同じく第71図の変形例の構成を
示す構成ブロック図である。 第75図は、RAMディスク装置の具体例を示す図。

Claims (1)

  1. 【特許請求の範囲】 1、予め格納された文書のテキストデータ群から任意の
    検索対象キーワードを含む特定のテキストデータを検索
    する文書検索方法において、予め前記テキストデータ群
    に含まれる全ての文字コードについて前記文書毎におけ
    る当該文字コードの有無を記述した文字成分表を生成し
    、任意に指定された検索対象キーワードを構成する全て
    の文字コードで前記文字成分表をサーチし、 前記検索対象キーワードを構成する全ての文字コードを
    含む全ての文書を抽出する第1のプリサーチを行うこと
    、 を特徴とする文書情報検索方法。 2、請求の範囲第1項において、 さらに、前記文書毎に予めテキストデータ中に含まれる
    付属語及び繰り返し記述される単語の重複を排除した凝
    縮テキストデータを生成し、前記第1のプリサーチで抽
    出された文書中から前記検索対象キーワードを単語単位
    で含む文書を抽出する第2のプリサーチを行うこと、を
    特徴とする文書情報検索方法。 3、請求の範囲第2項において、 さらに、前記第2のプリサーチにより抽出された文書中
    から検索対象キーワードの所定の探索条件に基づくサー
    チを行って該当文書を抽出すること、 を特徴とする文書情報検索方法。 4、請求の範囲第2項において、 前記第1のプリサーチにおいて抽出された該当文書件数
    が、当該件数の文書を前記凝縮テキストデータから選択
    的に読み出すのに要する時間に対して、前記凝縮テキス
    トデータ全体を読み出すのに要する時間よりも多くの時
    間を要する場合には、前記凝縮テキストデータの全体に
    前記第2のプリサーチを行うことを特徴とする、文書情
    報検索方法。 5、請求の範囲第1項において、 前記第1のプリサーチにおいて、前記文字成分表中に前
    記任意に指定された検索対象キーワードを構成する全て
    の文字コードに該当するものが無い場合には、当該検索
    対象キーワードに基づく文書の検索を中断することを特
    徴とする、文書情報検索方法。 6、請求の範囲第2項において、 前記第2のプリサーチにおいて、前記凝縮テキストデー
    タ中に、前記検索対象キーワードが単語単位で含まれる
    文書が無い場合には、当該検索対象キーワードによる文
    書の検索を中断すること、 を特徴とする文書情報検索方法。 7、請求の範囲第3項において、 前記検索対象キーワードの所定の検索条件が与えられて
    いない場合には、前記第2のプリサーチでの探索結果を
    前記所定の検索対象キーワードによる探索結果とするこ
    とを特徴とする、文書情報検索方法。 8、請求の範囲第3項において、 前記所定の検索対象キーワードに与えられる検索条件に
    は、少なくとも近傍条件及び文脈条件の何れか一つを含
    むことを特徴とする、 文書情報検索方法。 9、文書のテキストデータ群を格納する少なくとも一台
    のテキストデータ格納手段と、これを検索するためのキ
    ーワードとこれらの間の位置関係と論理関係すなわち複
    合条件を指定した検索条件式を入力する検索式入力手段
    と、入力された検索条件式を解析し検索対象キーワード
    と複合条件記述部を抽出する検索式解析手段と、該検索
    式解析手段から出力される検索対象キーワードを基にこ
    の同義語を発生する同義語展開手段と、これらの同義語
    を含めてその異形語を発生する異表記展開手段と、前記
    検索式解析手段から出力された複合条件記述部を解析し
    前記位置関係条件と論理関係条件に展開する複合条件解
    析手段と、前記テキストデータ格納手段からそれぞれテ
    キストデータを読み出し前記異表記展開手段から与えら
    れたキーワード群を一括して照合する少なくとも一台の
    文字列照合手段と該文字列照合手段からそれぞれ出力さ
    れる照合結果を基に前記複合条件解析手段によって指定
    した条件に適合するものを検出し該当文書識別子を出力
    する少なくとも一台の複合条件判別手段と、該複合条件
    判別手段の出力結果に基づいて検索条件式に適合した文
    書の識別子情報を出力する検索結果出力手段を有するこ
    とを特徴とする文書情報検索装置。 10、請求の範囲第九項記載の文書情報検索装置におい
    て、文書のテキストデータ群を格納するテキストデータ
    格納手段として、複数の記憶装置を用い、これらを並列
    に動作させそれらの出力を統合して文字列照合手段へ供
    給することを特徴とする文書情報検索装置。 11、請求の範囲第十項記載の文書情報検索装置におい
    て、テキストデータ格納手段を構成する記憶装置として
    、磁気ディスク装置を用いたことを特徴とする文書情報
    検索装置。 12、特許請求の範囲第十項記載の文書情報検索装置に
    おいて、テキストデータ格納手段を構成する記憶装置と
    して、光ディスク装置を用いたことを特徴とする文書情
    報検索装置。 13、特許請求の範囲第九項記載の文書情報検索装置に
    おいて、予めすべての文字コードについて文書毎の有無
    を記述したテーブルデータを用意すると共に、指定され
    た検索条件式中のキーワードを構成するすべての文字を
    含む文書を抽出する第一のプリサーチ手段を有し、該第
    一のプリサーチ手段によって絞り込まれた文書集合につ
    いてテキストデータをテキストデータ格納手段から読み
    出し、文字列照合手段並びに複合条件判別手段によって
    検索を行うことを特徴とする文書情報検索装置。 14、請求の範囲第十三項記載の文書情報検索装置にお
    いて、すべての文字コードについて文書毎の有無を記述
    したテーブルデータを半導体メモリ上に格納したことを
    特徴とする文書情報検索装置。 15、請求の範囲第十三項記載の文書情報検索装置にお
    いて、すべての文字コードについて文書毎の有無を記述
    したテーブルデータをテキストデータ格納手段上にテキ
    ストデータと共に格納したことを特徴とする文書情報検
    索装置。 16、請求の範囲第九項記載の文書情報検索装置におい
    て、予め文書毎にテキストデータの中から付属語及び繰
    り返し記述される単語の重複を排除した凝縮テキストデ
    ータを用意すると共に、指定された検索条件式中のキー
    ワードが単語単位で含まれる文書を抽出する第二のプリ
    サーチ手段を有し、該第二のプリサーチ手段によって絞
    り込まれた文書集合についてテキストデータをテキスト
    データ格納手段から読み出し、文字列照合手段並びに複
    合条件判別手段によって検索を行うことを特徴とする文
    書情報検索装置。 17、請求の範囲第十六項記載の文書情報検索装置にお
    いて、第二のプリサーチ手段に文字列照合手段を併用し
    たことを特徴とする文書情報検索装置。 18、請求の範囲第十六項記載の文書情報検索装置にお
    いて、テキストデータの中から付属語及び繰り返し記述
    される単語の重復を排除した凝縮テキストデータを半導
    体メモリ上に格納したことを特徴とする文書情報検索装
    置。 19、請求の範囲第十六項記載の文書情報検索装置にお
    いて、テキストデータの中から付属語及び繰り返し記述
    される単語の重複を排除した凝縮テキストデータをテキ
    ストデータ格納手段上にテキストデータと共に格納した
    ことを特徴とする文書情報検索装置。 20、請求の範囲第九項記載の文書情報検索装置におい
    て、予めすべての文字コードについて文書毎の有無を記
    述したテーブルデータを用意すると共に、指定された検
    索条件式中のキーワードを構成するすべての文字を含む
    文書を抽出する第一のプリサーチ手段と、予め文書毎に
    テキストデーターの中から付属語及び繰り返し記述され
    る単語を削除した凝縮テキストデータを用意すると共に
    、指定された検索条件式中のキーワードが単語単位で含
    まれる文書を抽出する第二のプリサーチ手段を有し、先
    ず該第一のプリサーチ手段を用いて検索対象文書集合を
    絞り込み、次にその絞り込み結果に対して該第二のプリ
    サーチ手段を作用させ、最後に該絞り込み結果の文書集
    合についてテキストデータをテキストデータ格納手段か
    ら読み出し、文字列照合手段並びに複合条件判別手段に
    よって検索を行うことを特徴とする文書情報検索装置。 21、請求の範囲第二十項記載の文書情報検索装置にお
    いて、すべての文字コードについて文書毎の有無を記述
    したテーブルデータとテキストデータの中から付属語及
    び繰り返し記述される単語を削除した凝縮テキストデー
    タを半導体メモリ上に格納したことを特徴とする文書情
    報検索装置。 22、請求の範囲第二十項記載の文書情報検索装置にお
    いて、すべての文字コードについて文書毎の有無を記述
    したテーブルデータを半導体メモリ上に格納し、テキス
    トデータの中から付属語及び繰り返し記述される単語の
    重複を排除した凝縮テキストデータをテキストデータ格
    納手段上にテキストデータと共に格納したことを特徴と
    する文書情報検索装置。 23、請求の範囲第九項記載の文書情報検索装置におい
    て、検索結果出力手段として、検索条件式に適合した文
    書の識別子情報から該文書の書誌情報及びテキストデー
    タを出力することを特徴とする文書情報検索装置。 24、請求の範囲第九項記載の文書情報検索装置におい
    て、格納文書情報に関連する画像情報を格納したイメー
    ジデータ格納手段を備え、検索結果出力手段から出力さ
    れる検索条件適合文書識別子を基に、該文書に関連する
    画像情報を上記イメージデータ格納手段から読み出して
    書誌情報やテキストデータなどと共に出力することを特
    徴とする文書情報検索装置。 25、請求の範囲第九項記載の文書情報検索装置におい
    て、LAN(ローカルエリアネットワ ーク)などの通信回線に接続するための通信手段を備え
    、該通信手段により受け取った検索条件式を検索式入力
    手段に入力すると共に、検索結果出力手段から出力され
    る検索結果を上記通信手段を用いて該検索結果に対応す
    る検索要求送信元の検索対話端末に返送することを特徴
    とする文書情報検索装置。 26、請求の範囲第二十四項記載の文書情報検索装置に
    おいて、LANなどの通信回線に接続するための通信手
    段を備え、該通信手段により受け取った検索条件式を検
    索式入力手段に入力すると共に、検索結果出力手段から
    出力される検索結果を上記通信手段を用いて該検索結果
    に対応する検索要求送信元の検索対話端末に返送するこ
    とを特徴とする文書情報検索装置。 27、文書情報などの検索システムにおいて、請求の範
    囲第二十五項記載の文書情報検索装置をLANに複数台
    接続し、該LANに接続された複数の検索端末装置から
    検索条件を放送して上記文書情報検索装置を並列動作さ
    せると共に、該文書情報検索装置から送られてくる検索
    結果を該検索端末装置で収集して表示することを特徴と
    する文書情報検索システム。 28、文書情報などの検索システムにおいて、請求の範
    囲第二十六項記載の文書情報検索装置をLANに複数台
    接続し、該LANに接続された複数の検索端末装置から
    検索条件を放送して上記文書情報検索装置を並列動作さ
    せると共に、該文書情報検索装置から送られてくる検索
    結果を該検索端末装置で収集して表示することを特徴と
    する文書情報検索システム。 29、請求の範囲第二十七項記載の文書情報検索システ
    ムにおいて、LANに文書情報検索装置に格納した文書
    情報に関連する画像情報を格納した少なくとも一台のイ
    メージデータ格納装置をLANに接続し、検索端末装置
    が検索結果として受け取った検索条件適合文書識別子を
    上記イメージデータ格納装置に指令して、該文書の関連
    画像情報を受け取り表示することを特徴とする文書情報
    検索システム。 30、請求の範囲第二十四項記載の文書情報検索装置に
    おいて、イメージデータ格納手段に光ディスク装置を用
    いたことを特徴とする文書情報検索装置。 31、請求の範囲第二十九項記載の文書情報検索装置に
    おいて、イメージデータ格納手段に光ディスク装置を用
    いたことを特徴とする文書情報検索装置。 32、請求の範囲第十七項に記載の異表記展開手段は、
    一文字以上の文字列からなる見出し文字列と、見出し文
    字列に対応する少なくとも一つの他の文字列を格納した
    変換ルールテーブルを持ち、入力した文字列の中で該変
    換ルールテーブルの見出し文字列に合致する部分を全て
    、見出し文字列と見出し文字列に対応した他の文字列か
    らなる文字列リストに変換し、次に文字列リストを組合
    せて入力した文字列から他の文字列群へ展開することを
    特徴とした文書情報検索装置。 33、請求の範囲第三十二項において、文字列展開に用
    いる変換ルールとして、漢字の新旧字体あるいは送りが
    な、外来語のカタカナ表記、ローマ字のヘボン式あるい
    は訓令式表記のうち、少なくとも一つの表記法に基づい
    た変換ルールテーブルを用いて展開することを特徴とす
    る文書情報検索装置。 34、請求の範囲第三十二項において、変換ルールテー
    ブルを用いた展開の他に、アルファベット文字列を入力
    した場合には、一個の入力文字列に対しすべてが大文字
    で構成される文字列、最初の一文字が大文字で残りが小
    文字の文字列、及びすべてが小文字の文字列の3種の文
    字列の少なくとも一種に展開することを特徴とする文書
    情報検索装置。 35、請求の範囲第三十二項において、入力文字列中の
    部分文字列を他の文字列へ置き換える指示を記述した変
    換ルールテーブルは、ユーザも再定義可能であることを
    特徴とする文書情報検索装置。 36、請求の範囲第九項において前記同義語展開手段と
    異表記展開手段は、入力した文字列から部分文字列の変
    換ルールを利用して音節表記など表記法の異なる他の文
    字列に展開する第1の異表記展開手段と、異表記展開さ
    れた各々の文字列に対し、同義語辞書を参照して同義関
    係を持つ他の文字列へ展開する第2の同義語展開手段と
    、同義語展開で得た各々の文字列に対して、第1の異表
    記展開手段と同様に変換ルールを利用して他の文字列へ
    展開する第3の異表記展開手段からなることを特徴とす
    る文書情報検索装置。 37、請求の範囲第三十六項において、第1及び第3の
    異表記展開手段では、漢字の新旧字体あるいは送りがな
    、外来語のカタカナ表記、ローマ字のヘボン式あるいは
    訓令式表記、アルファベット文字の大小文字の表記法の
    うち少なくとも一つの表記法について展開し、第2の同
    義語展開手段では、同義語文字列として同位語、上位語
    、下位語、関連語の少なくとも一つの語彙群へ展開する
    ことを特徴とする文書情報検索装置。 38、請求の範囲第三十七項において、異表記展開手段
    で漢字の新旧字体及び送りがな、外来語のカタカナ表記
    、ローマ字のヘボン式及び訓令式表記、アルファベット
    文字の大小文字の表記のうちどれとどの展開を行なうか
    を、さらに同義語展開手段で同位語、上位語、下位語、
    関連語のうち、どれとどの語彙群へ展開するのかを、ユ
    ーザが設定可能なモードにより選択することを特徴とす
    る文書情報検索装置。 39、請求の範囲第三十六項において、同義語展開に用
    いる辞書として、見出し文字列と見出し文字列に対応す
    る同位語、下位語、上位語、関連語を併記した形式の辞
    書を用いることを特徴とする文書情報検索装置。 40、テキストデータを文献単位などのデータ単位で格
    納する手段と、検索文字列を入力する手段と、格納され
    たテキストデータの中から該検索文字列を検索する手段
    を持つ文書情報検索装置において、入力文字列から音節
    表記など表記法のバリエーションを持つ文字列群に展開
    する異表記展開手段と、同義語辞書を持ち入力文字列か
    ら該同義語辞書を参照して、同義語文字列群に展開する
    同義語展開手段と、上記二つの文字列展開手段により得
    られる文字列群を統合する統合手段を持ち、ユーザの入
    力する検索文字列から一旦前記異表記展開手段により表
    記の異なる文字列群Aに展開し、該文字列群Aの各々の
    文字列に対し前記同義語展開手段により同義語の文字列
    群Bに展開し、該文字列群Bの各々の文字列についてさ
    らに前記異表記展開手段を用いて表記の異なる文字列群
    Cに展開し、前記統合手段により文字列群Aと文字列群
    Cとを統合して文字列群Dを求め、該文字列群Dのうち
    のいずれかの文字列が存在するテキストデータ中のデー
    タ単位を検索することを特徴とする文書情報検索装置。 41、請求の範囲第九項において、文字列照合手段はコ
    ード表現された文字で構成される被検索文字列中に複数
    の検索対象文字列が存在するか否かを一括して判定する
    有限オートマトンを用い、複数状態からの遷移を同一の
    状態に遷移させることにより状態数を減らすことを特徴
    とする文書情報検索装置。 42、請求の範囲第九項において、文字列照合手段はコ
    ード表現された文字で構成される被検索文字列中に複数
    の検索対象文字列が存在するか否かを一括して判定する
    有限オートマトンを、被検索対象文字と検索対象文字と
    の照合時に、オートマトンのどの状態で該照合を行なう
    べき状態かを示すトークンを設け、始点状態では常に該
    照合が一致したかを監視し、該照合の結果が一致した場
    合には、新たなトークンを生成すると共に、該トークン
    をオートマトンに従い遷移先状態に移動し、始点以外の
    該トークンが置かれている状態では該照合の結果が一致
    した場合にオートマトンに従い該トークンを遷移先状態
    に移動し、該照合が一致しない場合は該トークンを消滅
    させるオートマトン状態遷移制御方法を用いたことを特
    徴とする文書情報検索装置。 43、請求の範囲第九項において、文字列照合手段は異
    表記文字列群を検索するための有限オートマトンを用い
    、検索対象文字列から異表記を複合語表現形式Aで作成
    し、最も内側の括弧の中の部分文字列群において、先頭
    文字から順に、同一の遷移状態を始点にしてオートマト
    ンを作成し、同じ文字なら同じ状態を遷移先状態として
    生成し、異なる場合は新たな遷移先状態を生成し、該部
    分文字列群の末尾文字で遷移先状態を同一状態にまとめ
    、網形式にオートマトンの遷移を記述することを特徴と
    する文書情報検索装置。 44、磁気ディスク装置を有する複数台のデータ記憶装
    置と、該データ記憶装置へ入出力するデータを一時格納
    する入出力バッファと、該データ記憶装置と該入出力バ
    ッファの制御を行なうマルチディスクコントローラから
    なる集合型磁気ディスク装置と、該マルチディスクコン
    トローラ制御命令を発行する上位機器とを有する磁気デ
    ィスクシステムにおいて、前記上位機器の要求する転送
    速度がT[Byte/sec]、該磁気ディスク装置の
    1シリンダ分の容量がM[Byte]、上記データ記憶
    装置から上記入出力バッフアへのデータ転送速度をを[
    Byte/sec]、上記磁気ディスク装置の最小シー
    ク時間をs[sec]、上記磁気ディスク装置の回転速
    度をR[rps]、上記入出力バッファの容量を上記磁
    気ディスク装置の該シリンダ分の容量M[Byte]と
    同一またはそれ以上とするとき、上記磁気ディスク装置
    の最小シーク時間s[sec]が上記入出力バッファの
    データM[Byte]を上記上位機器に転送する時間(
    M/T)[sec]より長いときn≧T{1/t+1/
    M(s+1/R)} また、上記磁気ディスク装置の最小シーク時間s[se
    c]が上記入出力バッファのデータM[Byte]を上
    記上位機器に転送する時間(M/T)[sec]以下の
    とき n≧1+T(1/t+1/MR)} を満足するn台のデータ記憶装置によって構成すること
    を特徴とする集合型磁気ディスク装置。 45、請求の範囲第四十四項記載の集合型磁気ディスク
    装置において、上記データ記憶装置として、磁気ディス
    クコントローラを有する複数台の磁気ディスク装置と、
    複数台の上記磁気ディスク装置の内の1台の上記磁気デ
    ィスク装置を選択するマルチプレクサによって構成する
    ことを特徴とする集合型磁気ディスク装置。 46、請求の範囲第四十四項記載の集合型磁気ディスク
    装置において、上記入出力バッファを上記データ記憶装
    置1台につき2面持ち、第1面の入出力バッファのデー
    タを上記上位機器に転送している間に、第2面の入出力
    バッファに上記データ記憶装置からの読み出したデータ
    を格納し、上記磁気ディスク装置の最小シーク時間s[
    sec]が上記入出力バッファのデータM[Byte]
    を上記上位機器に転送する時間以下のときに n≧T{1/t+1/M(s+1/K)} を満足するnを有することを特徴とした集合型磁気ディ
    スク装置。 47、請求の範囲第四十四項記載の集合型磁気ディスク
    装置において、上記上位機器とマルチディスクコントロ
    ーラを接続する通信メモリ手段をマルチディスクコント
    ローラ内に有することを特徴とする集合型磁気ディスク
    装置。 48、請求の範囲第四十七項記載の集合型磁気ディスク
    装置において、上記通信メモリ手段として半導体記憶素
    子を有することを特徴とする集合型磁気ディスク装置。 49、請求の範囲第四十四項記載の集合型磁気ディスク
    装置において、上位機器から転送される論理分類の固有
    の識別コードである論理分類識別子と、該論理分類内の
    ファイル固有の番号とからなる、ファイル識別子を解釈
    し、上記磁気ディスク装置の物理位置に対応させる物理
    情報テーブル手段を上記マルチディスクコントローラ内
    に有することを特徴とする集合型磁気ディスク装置。 50、請求の範囲第四十九項記載の集合型磁気ディスク
    装置において、上記物理情報テーブル手段として半導体
    記憶素子を有することを特徴とする集合型磁気ディスク
    装置。 51、請求の範囲第四十四項記載の集合型磁気ディスク
    装置において、上記磁気ディスク装置の同一シリンダ上
    に読み出すファイルが複数件ある場合に、先に読み出す
    ファイルと次に読み出すファイルとの間の読み出さない
    ファイル群の総容量をに[Byte]、上記データ記憶
    装置から上記入出力バッフアへの転送速度をを[Byt
    e/sec]、上記磁気ディスク装置の回転速度をR[
    rps]とするとき k≦t/2R を満足するに[Byte]の場合には、先に読み出すフ
    ァイルと次に読み出すファイルとの間の、読み出す必要
    のないファイル群も上記入出力バッファに一旦読み出し
    、上記入出力バッファから上記上位機器への転送の際に
    、不要なファイル群の部分を除いて転送する手段を持つ
    マルチディスクコントローラを有することを特徴とした
    集合型磁気ディスク装置。
JP2193015A 1989-07-24 1990-07-23 データ検索方法および装置 Expired - Lifetime JP2986865B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2193015A JP2986865B2 (ja) 1989-07-24 1990-07-23 データ検索方法および装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP1-188773 1989-07-24
JP18877389 1989-07-24
JP2193015A JP2986865B2 (ja) 1989-07-24 1990-07-23 データ検索方法および装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP9093439A Division JPH1027183A (ja) 1997-04-11 1997-04-11 データ登録方法および装置

Publications (2)

Publication Number Publication Date
JPH03174652A true JPH03174652A (ja) 1991-07-29
JP2986865B2 JP2986865B2 (ja) 1999-12-06

Family

ID=26505141

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2193015A Expired - Lifetime JP2986865B2 (ja) 1989-07-24 1990-07-23 データ検索方法および装置

Country Status (1)

Country Link
JP (1) JP2986865B2 (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06259481A (ja) * 1993-03-03 1994-09-16 Hitachi Ltd 同一文字種最長一致照合機能を備えた文字列照合方法および装置
US5450580A (en) * 1991-04-25 1995-09-12 Nippon Steel Corporation Data base retrieval system utilizing stored vicinity feature valves
US5454105A (en) * 1989-06-14 1995-09-26 Hitachi, Ltd. Document information search method and system
JPH08147311A (ja) * 1994-11-17 1996-06-07 Hitachi Ltd 構造化文書検索方法及び装置
US5590317A (en) * 1992-05-27 1996-12-31 Hitachi, Ltd. Document information compression and retrieval system and document information registration and retrieval method
JPH0954777A (ja) * 1995-06-09 1997-02-25 Matsushita Electric Ind Co Ltd 情報検索装置
US5745745A (en) * 1994-06-29 1998-04-28 Hitachi, Ltd. Text search method and apparatus for structured documents
US5748953A (en) * 1989-06-14 1998-05-05 Hitachi, Ltd. Document search method wherein stored documents and search queries comprise segmented text data of spaced, nonconsecutive text elements and words segmented by predetermined symbols
JP2009266171A (ja) * 2008-04-30 2009-11-12 Xanavi Informatics Corp 情報検索装置およびナビゲーション装置
WO2011148511A1 (ja) 2010-05-28 2011-12-01 富士通株式会社 情報生成プログラム/装置/方法、情報検索プログラム/装置/方法
JP2015121707A (ja) * 2013-12-24 2015-07-02 株式会社東芝 デコーダ、デコード方法およびプログラム
US9916314B2 (en) 2011-09-14 2018-03-13 Fujitsu Limited File extraction method, computer product, file extracting apparatus, and file extracting system
US10389378B2 (en) 2009-12-25 2019-08-20 Fujitsu Limited Computer product, information processing apparatus, and information search apparatus
CN112988754A (zh) * 2021-04-08 2021-06-18 中煤科工集团重庆研究院有限公司 一种面向数据集成的快速查询方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3220865B2 (ja) * 1991-02-28 2001-10-22 株式会社日立製作所 フルテキストサーチ方法
JP4893805B2 (ja) 2009-11-06 2012-03-07 富士通株式会社 情報処理プログラム、情報検索プログラム、および情報処理装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57137965A (en) * 1981-02-20 1982-08-25 Nippon Kagaku Gijutsu Joho Center Automatic key word extraction system of sentence consisting of chinese character and "kana"(japanese syllabary)
JPS59112339A (ja) * 1982-12-20 1984-06-28 Fujitsu Ltd 文書検索高速化方式
JPS62211728A (ja) * 1986-03-12 1987-09-17 Tokai Tv Hoso Kk 日本語情報検索システム
JPS63244259A (ja) * 1987-03-31 1988-10-11 Matsushita Electric Ind Co Ltd キ−ワ−ド抽出装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57137965A (en) * 1981-02-20 1982-08-25 Nippon Kagaku Gijutsu Joho Center Automatic key word extraction system of sentence consisting of chinese character and "kana"(japanese syllabary)
JPS59112339A (ja) * 1982-12-20 1984-06-28 Fujitsu Ltd 文書検索高速化方式
JPS62211728A (ja) * 1986-03-12 1987-09-17 Tokai Tv Hoso Kk 日本語情報検索システム
JPS63244259A (ja) * 1987-03-31 1988-10-11 Matsushita Electric Ind Co Ltd キ−ワ−ド抽出装置

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5454105A (en) * 1989-06-14 1995-09-26 Hitachi, Ltd. Document information search method and system
US5748953A (en) * 1989-06-14 1998-05-05 Hitachi, Ltd. Document search method wherein stored documents and search queries comprise segmented text data of spaced, nonconsecutive text elements and words segmented by predetermined symbols
US5546578A (en) * 1991-04-25 1996-08-13 Nippon Steel Corporation Data base retrieval system utilizing stored vicinity feature values
US5450580A (en) * 1991-04-25 1995-09-12 Nippon Steel Corporation Data base retrieval system utilizing stored vicinity feature valves
US5590317A (en) * 1992-05-27 1996-12-31 Hitachi, Ltd. Document information compression and retrieval system and document information registration and retrieval method
JPH06259481A (ja) * 1993-03-03 1994-09-16 Hitachi Ltd 同一文字種最長一致照合機能を備えた文字列照合方法および装置
US5745745A (en) * 1994-06-29 1998-04-28 Hitachi, Ltd. Text search method and apparatus for structured documents
JPH08147311A (ja) * 1994-11-17 1996-06-07 Hitachi Ltd 構造化文書検索方法及び装置
JPH0954777A (ja) * 1995-06-09 1997-02-25 Matsushita Electric Ind Co Ltd 情報検索装置
JP2009266171A (ja) * 2008-04-30 2009-11-12 Xanavi Informatics Corp 情報検索装置およびナビゲーション装置
US10389378B2 (en) 2009-12-25 2019-08-20 Fujitsu Limited Computer product, information processing apparatus, and information search apparatus
WO2011148511A1 (ja) 2010-05-28 2011-12-01 富士通株式会社 情報生成プログラム/装置/方法、情報検索プログラム/装置/方法
US9501557B2 (en) 2010-05-28 2016-11-22 Fujitsu Limited Information generating computer product, apparatus, and method; and information search computer product, apparatus, and method
US9916314B2 (en) 2011-09-14 2018-03-13 Fujitsu Limited File extraction method, computer product, file extracting apparatus, and file extracting system
JP2015121707A (ja) * 2013-12-24 2015-07-02 株式会社東芝 デコーダ、デコード方法およびプログラム
US10008200B2 (en) 2013-12-24 2018-06-26 Kabushiki Kaisha Toshiba Decoder for searching a path according to a signal sequence, decoding method, and computer program product
CN112988754A (zh) * 2021-04-08 2021-06-18 中煤科工集团重庆研究院有限公司 一种面向数据集成的快速查询方法
CN112988754B (zh) * 2021-04-08 2023-07-14 中煤科工集团重庆研究院有限公司 一种面向数据集成的快速查询方法

Also Published As

Publication number Publication date
JP2986865B2 (ja) 1999-12-06

Similar Documents

Publication Publication Date Title
US5168533A (en) Hierarchical presearch type text search method and apparatus and magnetic disk unit used in the apparatus
JPH03174652A (ja) データ検索方法および装置
US5748953A (en) Document search method wherein stored documents and search queries comprise segmented text data of spaced, nonconsecutive text elements and words segmented by predetermined symbols
JP3160201B2 (ja) 情報検索方法、情報検索装置
US5995962A (en) Sort system for merging database entries
US20060031207A1 (en) Content search in complex language, such as Japanese
JPS6244878A (ja) 文書フアイリングシステム
JPS63231674A (ja) コンピュータによる形態論的テキスト解析方法
EP0241717A2 (en) Linguistic analysis method and apparatus
JP2791106B2 (ja) 文字列検索装置
JPH1027183A (ja) データ登録方法および装置
JPH05101102A (ja) 検索装置
Craft et al. A table look-up machine for processing of natural languages
JP3489237B2 (ja) 文書検索方法
JPH09198404A (ja) 文書処理方法及び装置
EP1605371A1 (en) Content search in complex language, such as japanese
JP2880192B2 (ja) 文字列検索方法及び装置
JP2002251401A (ja) 文書検索装置および方法ならびに記憶媒体
JP3873305B2 (ja) 仮名漢字変換装置および仮名漢字変換方法
JPH06309360A (ja) 否定論理条件の処理に適したフルテキストサーチ方法
JPH0827803B2 (ja) テキストベース検索方法
JPH0766380B2 (ja) かな漢字変換装置
JPH08221443A (ja) 漢字を含むテキストの検索方法及び装置
JPH04215181A (ja) 情報検索処理方式および検索ファイル作成装置
Bowers et al. The World's Fair machine translator

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081001

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091001

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101001

Year of fee payment: 11

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101001

Year of fee payment: 11