JPH03174652A

JPH03174652A - データ検索方法および装置

Info

Publication number: JPH03174652A
Application number: JP2193015A
Authority: JP
Inventors: Kanji Kato; 加藤　寛次; Hiromichi Fujisawa; 浩道藤澤; Mitsuo Oyama; 大山　光男; Hisamitsu Kawaguchi; 川口　久光; Atsushi Hatakeyama; 敦畠山; Noriyuki Kaneoka; 則幸兼岡; Mitsuru Akisawa; 秋沢　充
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1989-07-24
Filing date: 1990-07-23
Publication date: 1991-07-29
Anticipated expiration: 2014-12-06
Also published as: JP2986865B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

〔産業上の利用分野〕この発明は、情報検索システム、特にスキャン方式に基
づく全文検索方法及びその装置（フルテキストサーチシ
ステム）に係り、特に統制されていないキーワード（自
由語と呼ぶ）を用いて検索する際に回議語や表記法の違
いによる検索もれをなくすのに好適な文書検索方法及び
装置に関する。また、この発明においては、被検索文字列中に複数の文
字列集合が存在するか否かを一括して判定するのに適し
た方法及び装置を提供するものである。さらにこの発明
によれば、上記の方法を実施する装置に適した記憶容量
が大きく、短時間の書き込み、読み出しが可能な集合型
磁気ディスク装置、並びに、複数件のファイルの連続書
き込み、読み出しに適した集合型磁気ディスク装置を提
供するものである。〔従来の技術〕近年、文献情報や特許情報などの２次情報（書誌情報）
のみならず、１次情報（本文）をも含む大規模データベ
ース・サービスの重要性が増している。このようなデー
タベース（ＤＢと略すこともある）の情報検索では、従
来からキーワードや分類コードによる方法が用いられて
きている。キーワードは、データベースへの情報登録時に、キーワ
ードを付与する（インデキシングと言う）専門家が統制
語集（シソーラスと呼ぶ）から選んで付けている。そし
て、ＤＢ検索者もこのシソーラスからキーワードを選び
出して検索を行なう方式がとられている。しかしながら
、このキーワード付与作業は、非常に煩雑な作業を伴う
。すなわち、登録すべき文書の内容を読み、この内容を
表現する適切な語索をシソーラスから選び出す必要があ
る。もしインデキシングを適切に行なわなければ、デー
タベースから正しい情報が得られないことになる。従っ
て、このインデキシングには文書の内容に関する専門知
識を持ち、かつシソーラ９らスに登録されている語８にも精通した専門家が必要にな
るという問題がある。また、検索時にも同様に、シソー
ラスに則った適切な語紮をキーワードとして指定しなけ
れば、要求する文書を呼び出せなかったり、あるいは呼
び出した文書の中に不要なものが混しり込むという問題
がある。また、このシソーラスにおいては、分類体系自゛体が年
月と共に変化するため、常にキーワードや分類コードを
更新しなければならないという問題も生じてくる。更に、インデキシングには時間がかかるため、新たな文
書はバッチ処理によりかなりの量をまとめて登録するこ
とになる。そのため、検索できる情報は常に一定期間の
おくれを持つという問題もある。このようなことから、
ＤＢの普及に伴い、ＤＢの専門家でなくとも、シソーラ
ス等に拘束される゛ことなく、簡単に自由語（非統制語
ともいう）で、文書の登録、検索が行なえるシステムが
望まれてきた。また、データベースが大規模化するに従い、シツーラス
に記述された統制語だけでは文書の内容を十分詳細に記
述できないため、キーワードで検索しても数十件から数
百件までにしか絞り込めなくなってきている。この中か
ら目的とする文書を見つけ出すためには、それらの内容
を直接読むしか方法がなく、これが検索効率」二の大き
な問題となっている。このシソーラスの制限語を用いたインデキシングに基づ
く現状の検索方式の問題に対して、自動抄録や自動イン
デキシングの試みがなされてきているが、日本語の場合
その言語的な困難性から、やはり種々の辞書を必要とす
るため上記の本質的な問題の解決に至っていない。このような自由語による検索の過程では、しばしはユー
ザの指定するキーワードすなわち検索文字列と、検索対
象であるＤＢ中で用いられている言葉が同一の内容を示
すのにもかかわらず、表記あるいは表現が食い違ってい
るために検索漏れを生ずる場合がある。例えば、 ″ピアノ″という言葉を″ピャノ″ 万と記述したり、また ″インターフェイス″という言葉を ″インタフェース″、′インタフェイス”あるいは “インターフェース” と記述したりすることがある。このような微妙な音節表
記法のバリエーションの違いにより、所望する情報を検
索できない場合がある。以下、表記法の異なる文字列に展開することを異表記展
開と呼び、辞書を用いて他の文字列へ展開することを同
義語展開と呼ぶ。また、表記法の異なる文字列のことを
異表記と呼ぶ。これらの問題に対する根本的解決方法として、検索者が
自由なキーワード（自由語あるいは非統制語と呼ぶ）に
基づいて文書の本文を直接参照して内容を検索できる全
文検索（フルテキストサーチと呼ぶ）システムが提案さ
れている。その代表的な構成を第１図に示し、以下その内容につい
て説明する。検索システム１０１はホスｌ−コンピュータに接々ｌ続され、通信回線を介して検索要求の受信及び検索結果
め送信を行う。ホストコンピュータから検索要求１０７
が送られると、検索制御手段１０３がこれを受け付け、
解析して、文字列照合手段１０５と複合条件判定手段１
０４へこれに対応した検索制御情報１０８を送る。また
、検索制御手段１０２は記憶装置制御手段１０３を制御
して、文字列記憶手段１０６に格納されている文字列デ
ータ（テキストデータ）１１１を文字列照合手段１０５
へ転送させる。文字列照合手段１０５は入力された文字列データと、予
め設定された検索文字列（キーワード）との照合を行い
、該当する文字列を検出すると検出情報１１０を複合条
件判定手段１０４へ出力する。複合条件判定手段１０４
は検索要求中に記述された文字列間の位置関係や共起関
係などに関する複合条件に検出情報１１０が合致するか
否かを調べる。これに合致する場合には、該当する文書
データの識別情報や文書内容を検索結果１０９として出
力し、これをホストコンピュータへ送り返す。こうした従来例の一つが、アール・エル・ハンスキン　
アント　ホラー：″オペレーショナルキャラクタリステ
ィック　オン　ア　ハードウェア　ベイスト　パターン
　マツチャー　、ニーシー　エム　トランザルジョン　
オン　データベース　システムズ、第８巻、第１号、１
９８３年（Ｒ，Ｌ、１（ａｓｋｊｎ　　ａｎｄ　　Ａ、
　　Ｈｏ］］ａａｒ　　：　　　”０ｐｅｒａｔｉｏｎ
ａ］Ｃｈａｒａｃｔｅｒｊ、ｓｔｊ、ｃｓ　ｏｆ　ａ　
Ｈａｒｄｔｏａｒｅ−Ｂａｓｅｄ　ＰａｔｔｅｒｎＭａ
ｔｃｈｅｒ”、　ＡＣＭ　Ｔｒａｎｓ、　ｏｎ　Ｄａｔ
ａｂａｓｅ　Ｓｙｓｔｅｍ。Ｖｏｌ、、８．　Ｎｏ、］、　１９８３）　ニ記載され
ている。上述した文字列検索装置２００の要となる文字列照合手
段２１３における文字列の照合方式としては、有限オー
トマトンを用いて複数の文字列を１回の走査で検索する
方法が知られている。その代表的な方式としては、ニー
、ブイ、エーホ　アンド　エム、ジェイ、コラッシック
：“エフイシェント　ストリング　マツチング″、コミ
ュニケーションズ　ニー　シー　エム、　第１８巻、　
第６号、１９７５年＋　Ａ、Ｖ、　Ａｈｏ　ａｎｄ　Ｍ
、　Ｊ、　Ｃｏｒａｓｊｃｋ　：”Ｅｆｆｉｃｊ、ｅｎ
ｔ　Ｓｔｒｉｎｇ　Ｍａｔｃｈｉｎｇ”　、　　ＣＡＣ
Ｍ、　　Ｖｏｌ　　１８゜Ｎｏ、６．１９７５にその一
例が開示されている。本文献には２種類のオートマトン作成方法とオートマト
ンを用いた文字列照合方法が詳細に述にられている。以
下、各々について説明する。まず、第１の方法（以後、従来方法１と呼ぶ）について
第２図を用いて説明する。同図は、文字列データの中か
ら、ユーザから与えられたキーワードパインタフエース
″を検察するためのオーＩ・マトンの状態遷移図である
。ここで、円形はオートマトンの状態を、矢印は状態遷
移を表している。各矢印に付記された文字はこれに対応した状態遷移が起
きる入力文字を示す。本図では″ン″以外および″イ″
以外の文字といった否定を表わす場合は否定記号″″を
付け’ｍ”’ン″・コ “イ”）」と表わしている。矢印４０３は状態遷移の始
まる始点状態を示している。各円形の内部に記された数
値は、同状態の状態番号を示す。二重内は“インタフェ
ース″を照合したことを示す終点の状態を表している。本方法の特徴は入力される可能性のある全ての入力文字
に対する状態遷移をオートマシンで記述している点にあ
る。このため状態遷移の数が多くなるため、キーワニド
の数が多くなるというオートマトンの作成時間が極めて
長くなるという問題がある。以下、同図を用いて従来方法上の文字列照合動作につい
て説明する。オートマトンに文字が入力された場合、ど
の状態において入力文字の照合を行なうべきかをトーク
ンに置くことにより明らかにする。すなわち、トークン
とは、オートマトン内で遷移する状態の位置を表わすマ
ークである。まず、初期設定としてトークンを始点状態である状態Ｏ
に置く。この例の場合、入力文字が″イ″であるとトー
クンは状態１へ移動する。もし、ここで″イ″以外の文
字が入ってきた場合はトークンは状態Ｏに移動する。一
方、トークンが状態１にあって入力文字がン”ならば、
トークンは状態２に移動する。“イ″であれば状態１に
移動する。″イ″′および″ン′″以外の文字であれば
状態〇へ移動する。次にトークンが状態２にある場合、
入力文字が″夕″ならば、トークンは状態３に移動する
。ここで、もし、パイ″が入力されたときは、トークン
は状態エヘ移動する。更に、状態３にトークンがある場
合、″フェース″が入力されると、トークンは状態４→
状態５→状態６→状態７と移動する。状態７は２重円で
記されており、ここでは“インタフェース″とう文字列
が照合されたことになる。この従来方法上では入力される可能性のある全ての入力
文字に対する状態遷移をオー１〜マトンに記述している
ため、キーワードが多くなると状態遷移の数が多くなり
オートマトンの作成時間が極めて長くなるという問題が
ある。本方法を実現するハードウェアについては、特開
昭６０−１０５０３９、特開昭６０−１０５０４０に開
示されている。次に、第２の方法（以後、従来方法２と呼ぶ）について
説明する。この従来方法２は従来方法上と比ベオートマ
トン作成時間を短縮するための工夫がされている。従来
方法２では、従来方法上と比ベオー１へマトンの作成時
間３分のｌと大幅に改善されており、詳細について特開
昭６３３１１５３Ｑに述べられている。この従来方法２
を第３図と第４図を用いて説明する。第３図は、第２図
と同様に″インタフェース″を照合する場合のオートマ
トンの状態遷移図を示したものである。初期設定として
、トークンは始点状態である状態Ｏに置かれる。ここで
、入力文字パイ″が入力されたならばトークンが置かれ
ている状態Ｏで照合を行ない状態エヘ移動する。もし、
状態Ｏで″イ′″以外の文字が入ってきた場合はトーク
ンは状態Ｏに移動する。一方、トークンが状態１にあって入力文字ン″が入力さ
れたならばトークンは状態２に移動する。トークンが状態２にあって″夕″が入力されたならばト
ークンは状態３に移動する。ここでもし１−一クンが状
態３にあって同オートマトンに記述されていないパフ″
以外の文字、例えば″イタ′が入力されたときは、この
従来方法２では「フェイル」したと言い、第４図のフェ
イルテーブルを参照することになる。フェイルテーブル
には１・−クンが置かれている状態番号に対して再照合
す尺きフェイル先の状態番号が格納されている。この場
合、現在の状態番号３に対応するフェイル先の値０を得
て状態Ｏヘトークンを移動する。そして、ここで該入力
文字イ″につぃて照合することによりトークンは状態１
へ移動させる。このような機能をフェイル機能と呼んで
いる。更に、続けてＵンタフェース”という入力文字列
が１文字づつ入ってきた場合、トークンは状態２→状態
３→状態４→状態５→状態６→状態７と移動する。状態
７は２重円で記されており、ここでは″インタフェース
′″という文字列が照合されたことになる。例えば、キーワードとして″インタフェース″が与えら
れた場合、本文中にはユーザが指定した検索タームと異
なる表記（異表記）で記述されることもある。本文には、″インタフェース″のように１′（長音記号
）の代わりに′−（マイナス記号）を使用したり（これ
を長音異表記と呼ぶ）、″インターフェース″のように
ＩＩ　　ＩＩを付加したり（これを長音の有無と呼ぶ）
、″インタフェイス′ｔのように発音の表記の違いによ
り″フェー″を゛フェイ″と記述したりする（これを発
音異表記と呼ぶ）。これらを全て検索するためには、これらの異表記を組合
せた″インタフェース″″インターフェース”、′イン
タフェイス″″インターフェイスＩＩ　、　Ｉｆインタ
ーフェイス”　パインタフエース″“インターフェース
″′インターフェ゛−ス〃″インターフェース″の９語
全てをキーワードとする必要がある。この場合の例について第５図と第６図を用いて説明する
。第５図は、文字列データの中から、異表記を含む上記
９語を照合する場合のオー１−マトンの状態遷移図であ
る。キーワードの先頭から比較して遷移文字が異なる場合は
別状前に分岐する。例えば、パインタフエース”と１′インターフエース″
のキーワードの例では、キーワードの前方から比較する
と″インタ″までは同じであるが、その次の文字では“
フ”と“−”で遷移文字が異なる。このため状態３から
遷移文字フ″で状態２２に遷移し、遷移文字ＩＩ　　Ｉ
Ｉで状態４へ遷移するといった状態遷移の分岐が起こる
。すなわち、ある状態において遷移文字が異なる場合別々
の遷移先状態を割り付けているため氷状のオートマトン
になる。第６図はこのオートマトンに示されてない文字
が入力された場合の遷移先を示すフェイルテーブルの説
明図である。このように、異表記を含めて照合を行なお
うとすると、キーワードが多くなるため状態数が非常に
増加してしまうという問題が発生する。また、文字列検索ではキーワードにｄｏｎ’ｔ　ｃａｒ
ｅ文字を使用することがある。キーワードに固定長のｄ
ｏｎ’ｔ　ｃａｒｅ文字を使用した例を第７図と第８図
を用いて説明する。第７図は１文字の固定長のｄｏｎ’
ｔ　ｃａｒｅ文字“？”を含むキーワード“Ａ？Ｂ”を
検索する場合のオートマトンの状態遷Ｓ図を表わしてい
る。第８図はこのオートノ１〜ンに示されてない文字が
入力された場合の遷移先を示すフェイルテーブルの説明
図である。この例では１バイトの文字コード（ＪＩＳコードを用い
ている）の場合についてオートマトンを作成している。ｉｆ　？Ｉ＋は任意の文字や記号との一致を許すことを
意味する文字記号である。従って、ｄｏｎ’ｔ　ｃａｒ
ｅ文字ｒｒ　（７ＩＩによる遷移は本図の状態１を遷移
元とする全ての文字コード００〜ＦＦによる遷移として
表わされる。すなわち＝′ＡＯＢ　ＩＩは、先頭がｒｔ
　Ａ　ＩＩで間に任意の１文字が入り、末尾がＬＬ　Ｂ
　ＩＩである文字列を検索するという指定になる。このように簡単な検索条件でも固定長のｄｏｎ’ｔＣａ
ｒｅ文字が入るとオートマｊ・ンの状態数が非常に増加
してしまうという問題が発生する。また異表記や同義語の問題を解決する方法として、特開
昭６２−０１１９３２を提案した。なお、この引例の中
では、異表記展開のことを異表記発生と呼び、同義語展
開のことを類似語抽出と呼んでいる。第９図に、この引例の構成をブロック図で示す。この構成では、ローマ字やカタカナ表現で入力した検索
文字列を、−旦全てカタカナの標準化された表記の文字
列に変換する。すなわち、異表記発生の逆の操作により
、複数個の表記法を−っにまとめる表記の標準化処理を
まず最初に行なう。また、アルファベラ１へ表現で入力された検索文字列も
外来語カナ変換により、カタカナ表現に統一される。こうして、−旦標準化したカタカナ文字列を、同義語辞
書を用いて類似語展開し、入力したカタカナ文字列と同
義の単語をカタカナ文字列として出力する。類似語抽出
した後のカタカナ文字列は、カナ漢字変換を行ない漢字
文字列へ、カナ外来語変換を行ないアルファベット表現
の外国語に、カナローマ字変換を施してローマ字文字列
へ変換する。このようにして、類似語抽出の結果であるカタカナ文字
列を、漢字、ローマ字、カタカナ、外国語の各表現に変
換して、それぞれ異表記展開する。また、第］−図のこうした従来の文字列検索装置１０１
においては、文字列検索装置ｉ　１０３−の構成要素で
ある文字列記憶手段１０６として大規模なデータの記憶
ができる磁気ディスク装置が必要となる。一般の磁気デ
ィスク装置はデータの入出力が高速にできない問題があ
り、また、データの入出力が高速にできるマルチヘッド
型の磁気ディスク装置は非常に高価であるという問題が
あった。そこで、安価な一般の小型磁気ディスク複数台接続して
データの入出力の速度を高速化する集合型の磁気ディス
ク装置が考えられてきた。そのひとつとして特開昭６０
−１１．７３２６号公報記載の「画像データ分割記憶装
置」がある。この装置は複数台の磁気ディスク装置を有し、磁気ディ
スク装置と同数の磁気ディスクコントローラ、入出力バ
ッファと外部装置との間のデータ輸送を制御するマスタ
コンｌ−ローラによって構成し、外部装置から入力した
データをマスクコントローラにおいて、入出力バッファ
の容量以下に分割し、その分割したデータを各磁気ディ
スクコン１−〇−ラに順次転送し、該磁気ディスクコン
トロ−ラは対応する磁気ディスク装置に書き込む。マス
タコン１−ローラは書き込みを行なっていない磁気ディ
スク装置の磁気ディスクコントローラに対し、シーク動
作を行なわせることによって、データを格納する複数の
磁気ディスク装置の２台目以降の、シーク時間を見掛は
上なくし、データの書き込み、読み出し時間を短縮しよ
うとするものである。〔発明が解決しようとする課題〕ところで、第１図に示した様な従来例の検索システムに
おいて大容量のテキス１−データベース検索しようとす
ると、下記のような幾つかの問題が発生してくる。先ず第一に、検索時間の問題である。例えば、−文献当
り２０ＫＢの容量を持つ文献２万件を対象にしてフルテ
キストサーチを行おうとすると、４００ＭＢのデータを
スキャンしなければならないことになる。この４００ＭＢのテキストデータを文字列記憶手段に格
納し、これを平均約Ｉ　Ｍ　Ｂ　／　ｓの実効速度で読
み出し、文字列照合手段においてこれと同等の速度で照
合処理を行ったとしても、検索を終了するには約７分を
要してしまう。すなわち、殻内な磁気ディスク装置を用
いたのではテキストデータの読み出しに時間が掛ってし
まい実用に耐えないという問題がある。すなわち、テキ
ストデータを納める文字列記憶手段の読み出し速度を文
字列照合手段の処理速度と同程度にまで高めるこ１７　
’４必要となる。本発明が解決しようとする第一の課題
がここにある。しかし、文字列記憶手段の読み出し速度を文字列照合手
段と同程度にまで高めたとしても、すなわち例えばＩＯ
ＭＢ／ｓまで高速化したとしても、４、ＯＯＭＢのテキ
ストデータをスキャンし終えるには、未だ４０秒を要し
てしまう。これを実用上許容し得る数秒台に納めること
が、本発明の第二の課題である。このスキャン処理の高速化という技術に関して、ＪＰ−
Ａ　−６２−２４１０２６ｒ文字列検索方式」が出願さ
れている。本「文字列検索方式」ては、テキストデータ
ーペース（ファイルと呼んでいる）の中に指定文字列が
あるかどうかを検索する処理を高速化するために、あら
かじめテキスト（データと呼んでいる）の内容を見てど
ういった文字がどの程度の頻度で用いられているかを調
べ「使用文字頻度分布テーブル」を作成しておく。そして、検索時にはこの「使用文字頻度分布テーブル」
を参照して、ユーザが指定したキーワードの中の最も使
用頻度の低い文字を手掛かりにして最初テキス１−をサ
ーチし、これに照合するものがあれば、次にその前後の
文字についても照合を行う方式を提案している。また、上記ＪＰ　−Ａ　−６２−２４１０２６では、キ
ーワードの最も頻度の低い文字の「使用文字頻度分布テ
ーブル」中での頻度が零の場合には、テキストをサーチ
することなく検索を終えることができるとしている。したがって、ＪＰ−Ａ　−６２−２４１０２６によれば
、無駄な文字照合回数を削減することができるため、検
索処理速度を上げる効果が得られることになる。しかし、本方式は、テータヘース（ファイル）全体にお
ける「使用文字頻度分布テーブル」を作成し、これに基
づいてこの中のテキストファイル（データ）を検索する
ものである（図参照）。したがって、データベース全体
の中で、−度も現れない文字に関するキーワードを検索
する場合にはサーチ処理の効率化という点で効果が得ら
れるが、−殻内にデータベースの規模が大きくなると、
データベース全体で一度も現れないという文字はほとん
どなくなるため、本方式によるサーチ処理の効果はほと
んどなくなるという問題がある。こうした問題を解決し、効率的なサーチ処理を実現し、
延いては等価的に高速なフルテキス１〜サーチを可能と
することが本発明の第二の課題となる。一方、自由語を用いたフルテキス１〜サーチにおいては
、しばしば検索者が指定したキーワードと、テキス１−
本文中に記述されている言葉の間に、同じ意味を表して
いても表現に食い違いがあることがある。このような場
合には、異なる表現形態を持つ文献が検索漏れとなり、
目的の文書が検索されないことが生じてくる。このよう
な言葉の例として、同義語や異形語（異表記語あるいは
単に異表記とも呼ぶ）などがある。同義語の例としては
、「計算機」に対して「電子計算機」やｒ電算機」。ｒＣｏｍｐｕｔｅｒ　Ｊなどが挙げられる。また、異表
記の例としては、「コンピュータ」に対して「コンピュ
ーター」や「コンピュータ」、「コンピューター」、「
コン上０ニーター」、「コン上０ユータ」。「コン上０ニーター」、「コンピュータ」、「コンピュ
ーター」や「コンピュータ」、「コンピューター」、「
コンピュータ」、「コン上０ニーター」、「コン上０ユ
ータ」、「コン上０ニーター」が、ｒｃｏｍｐｕｔｅｒ
　Ｊに対してｒｃｏｍｐｕｔｅｒＪ　。ｒｃＯＭＰＵＴＥＲＪなどが挙げられる。検索者が指定
するキーワードと文書の内容に記述されている言葉との
表記上の食い違いの問題に対処するためには、検索者が
これらの同義語や異表記をすべて指定して検索を行う必
要がある。しかし、異表記などは場合によって数百にも
及ぶ形態を取り得るため、検索者が−々指定するのは事
実上困難である。こうした問題を解決するのが、本発明
の第三の課題である。すなわち、上記従来例では、表記を標準化する際に、元
の文字列が持つ情報を変えてしまうため、期待する展開
結果が得られないことがあった。このことを、カタカナ表記の標準化用の部分文字列の変
換ルール「“ホオ”→″ホウ」を例にして説明する。この変換ルールを適用すると文字
列 “ジョウホオ” を ″ジヨウホウ”　（情報）と正しく標準化される。しかにの同じ変換ルールを用い
ても ″ジョウオホン”　（定保温）が入力された場合には ″ジョウホウン” と誤った文字列へ標準化してしまう。このことは、標準
化処理の後の同義語展開処理、更にその後に続く異表記
展開処理に影響をおよぼし、期待する展開結果が得られ
ないことになる。本発明の課題の一つは上記の標準化を行なわずに、常に
期待する展開結果を得ることにある。また上記引例では、同義語辞書によって″計算機″から
″コンピュータ”にキーワードを同義語展開するときに
、ユーザが入力する検索キーワードを、−旦すべてカタ
カナ表現に変換してから同義語展開し、そのあとでカナ
漢字変換、カナローマ字変換及びカナ外国語変換をする
構成となっている。そのため、同義語辞書は必ずカタカ
ナ文字列からカタカナ文字列へ展開するようなものでな
ければならなかった。すなわち、見出し語二″コンピュータ” 同義語Ｊ：″ケイサンキ″ 同義語２：“ジョウホウショリソウチ”などと、単語間
の同義関係を常にカタカナ文字列で記述しなければなら
なかった。このことは、同義語展開後のカナ漢字変換辞
書及びカナ外来語変換辞書でも、必ずこれらに対応する
表現の文字列を出力するよう登録しておかなければなら
ないために、辞書が大きくなるという問題がある。また
、日本語には同じ読みを持っていても、意味の異なる同
音異義語が多く存在し、これが同義語展開時に弊害を生
じる。例えば“ケンサク”という文字列は″検索″とも
解釈できるし″研削″とも解釈できるので、カタカナ表
現のみによる同義語辞書では両者を区別できないという
問題がある。さらに、同義語展開後のカタカナ漢字変換
において、同音異義語を選択をユーザが対話的に行わな
ければならないという問題があった。また、検索キーワードをカタカナ表現に変換するための
外国語カナ変換辞書や、同義語展開した後のカナ漢字変
換辞書及びカナ外国語変換辞書が必要であり、多種類の
大規模な辞書を使うためにその作成と保守が大変となる
という問題もある。すなわち、本発明の第三の課題は上記のカナ漢字変換、
カナ外国語変換時における同音異義語の問題と、これら
の変換に用いる大規模な辞書の作戊、保守の問題を解決
することにある。また、こうした数百にも及ぶ同義語や異表記を含めてキ
ーワードとして検索を行おうとすると、どうしてもこれ
らを−括して照合する文字列照合手段が必要となってく
る。さもなければ、同義語や異表記を含めて検索すると
、検索時間が数百倍掛ってしまい、とても実用に耐えら
れなくなってしまう。このように−千語に近い語数のキ
ーワードが指定されても、照合速度が低下することなく
検索処理を行い得る文字列照合手段を提供することが、
本発明の第四の課題である。また、従来のオートマトンを用いた検索方式では、異表
記の場合、異表記を含むキーワードを全て列挙し、キー
ワードに展開する。さらに、これらに基づいたオートマ
トンを作成する。ここで作成されるオートマトンは本状
に記述されるため非常に多くのオートマトンの状態が必
要となる。また、ｄｏｎ″ｔ　ｃａｒｅ文字指定検索を行なう場合
も、ｄｏｎ’ｔ　ｃａｒｅ文字の部分が許容する文字コ
ードの全ての組合せを列挙し、キーワードに展開する。これらに基づきオートマトンを作成するため、異表記と
同様に、非常に多くのオートマトンの状態が必要となる
。このようにオートマ１〜ンの状態数の増加は、オートマ
トン作成時間の増加や、更にはオーＩ・マトンを格納す
るための状態遷移テーブルの容量が増加、すなわちハー
ドウェアの増大という問題を発生する。本発明はオートマトンを用いた検索方式において、異表
記やｄｏｎ’ｔ　ｃａｒｅ文字が指定された検索を行な
う場合もオートマ１〜ンの遷移を網状にまとめて記述す
ることにより、状態数を従来より低減し、オー１へマト
ンの作成時間の短縮をはかると共に、状態遷移テーブル
の容量が小さくて済むためコンパクトなハードウェアで
実現可能な検索方式を提供することを目的とする。さらに、テキストデータベースに文書データが逐次登録
されて行くと、ある時点て文字列記憶手段を構成する磁
気ディスク装置の容量が満杯に達してしまう場合がでて
くる。こうした時にも、それ迄蓄積したデータを損なう
ことなくシステムの蓄積容量を拡大できることが必要と
なる。また、被検索テキストデータベースの容量が例え
ば１０万件、すなわち４ＧＢにも達する程に大規模化し
てきた場合、唯単に磁気ディスク装置の格納容量を拡張
するだけでは処理時間が増加し、当初の目的が達っせな
くなってしまう。検索時間を低下させることなく、蓄積
容量の大規模化に応えられなければならない。こうした要求に応え得るアーキテクチャを持つ検索装置
を提供することが、本発明の第五の課題である。文字列検索装置の文字列記憶手段で重要となる要素は、
記憶容量が大きいこと、ファイルのサイズにかかわらず
、複数のファイルを連続的に高速で入出力できること、
安価であることの３点であり、これらの要素を満足する
集合型磁気ディスク装置が必要とされている。従来技術では、ただシーク時間のアクセス時間を見掛は
上なくすことはより、データの書き込み。読み出し時間を短縮しようとするもので、外部機器の要
求するデータ転送速度に対して何台の磁気ディスク装置
を用いて構成すれば良いかについて配慮されておらずコ
ストパフォーマンスの点で問題があった。また、従来技術は画像データのようにデータサイズの大
きなファイルが複数の磁気ディスク装置にまたがるよう
な場合にはアクセス時間を削減できる効果があるが、複
数の磁気ディスク装置にまたがらないデータサイズの小
さなファイルの書き込み、読み出しを行なう場合には、
シーク時間を隠すことができす、土台の磁気ディスク装
置と同じアクセス時間となってしまう問題力Ｓあった。また、従来技術は複数のファイルの連続的な書き込み、
読み出しを行なう点に配慮がされておらず、上位機器か
らの書き込み、読み出し命令を１件のファイルについて
のみ処理可能で、複数のファイルをアクセスする場合に
は、１件の処理を繰返し行なう必要があり、それに要す
るオーバヘッド時間が長くなってしまう問題があった。また、オーバヘッド時間のひとつとして、上位機器から
アクセス対象となるファイルを指定するためのファイル
識別コードから磁気ディスク装置の格納位置情報を検索
する処理がある。従来の一般的な磁気ディスク装置では、ファイル識別コ
ードとしてＡＳＣＩＩコード等の文字コード列で構成さ
れるファイル名称で表現されており、このファイル名称
により、磁気ディスク装置のファイル管理情報エリアに
格納されているファイル管理情報を検索して物理的な格
納位置を求めなければならず、それに要する処理時間が
大きい問題があった。本発明の目的は、記憶容量が大きい、ファイルのサイズ
にかかわらず複数のファイルを連続的に高速に入出力で
きる、安価な集合型磁気ディスク装置を提供するもので
ある。一方、文書情報はテキス１−データだけで構成されてい
る訳ではなく、図面や写真などもその構成要素として含
まれている。したがって、検索された文献の印刷イメー
ジでの閲読の要求にも応えることが必要になる。これに
応え得るアーキテクチャを持つ検索装置を提供すること
が本発明の第六の課題である。さらに、テキストデータベースは複数のユーザによって
共有されるべきものであり、例えばＬＡＮ　（ローカル
　エリア　ネットワーク）を介して検索対話用のワーク
ステーションからアクセスできなければならない。した
がって、検索装置はＬＡＮに接続され、他の複数のワー
クステーションからの検索要求に応えられる機能を持た
なければならない。こうした機能を備えた全文検索装置
を提供することが、本発明の第七の課題である。以上述べた各課題に応え得るフルテキストサーチシステ
ムを提供することが本発明の最終的な目的である。〔課題が解決するための手段〕これらの課題を解決するために、本発明が提供するテキ
ストサーチシステムでは以下の手段を用いる。すなわち、先ず第一は、テキス１−、データを納める文
字列記憶手段の読み出し速度を文字列照合手段の処理速
度と同程度にまで高めるために、複数台の磁気ディスク
装置で構成する文字列記憶手段を用いることである。す
なわち、これらの磁気ディスク装置を並列に並べて同時
に開動し、その出力をマルチプレクシングすることによ
って、高い読み出し速度を得ようとするものである。この発明では、集合型磁気ディスク装置を、磁気ディス
ク装置を有する複数台のデータ記憶装置と、データ記憶
装置へ入出力するデータを一時格納する入出力バッファ
と、データ記憶装置と入出力バッフアの制御を行なうマ
ルチディスクコントローラとによって構成している。さらに、データ記憶装置を、磁気ディスクコントローラ
を有する１台の磁気ディスク装置によって構成するか、
または、磁気ディスクコントローラを有する複数台の磁
気ディスク装置と、磁気ディスク装置を選択するマルチ
プレクサとによって構成している。さらに、入出力バッファは、上記データ記憶装５装置１台につき、磁気ディスク装置の少なくとも１シリン
ダ分の容量を持ち、１面、また、２面の半導体メモリに
よって構成する。なお、メモリは半導体記憶素子以外の光メモリ等の高速
記憶素子を用いて実現することもできる。データ記憶装置と入出力バッファの制御を行うマルチデ
ィスクコントローラは、上位機器からの要求を格納する
半導体記憶素子を用いた通信メモリと、データ転送の制
御を行なうマルチプレクスコントローラと、磁気ディス
ク装置内の物理的格納位置を検索するための半導体記憶
素子を用いた物理情報テーブルと、それらを制御するマ
スクコントローラとによって構成している。なお、通信
メモリ、物理情報テーブルは半導体記憶素子以外の光メ
モリ等の高速記憶素子を用いて実現することもできる。なお、マスタコントローラは、マイクロコンピュータを
使用し、各構成要素を制御するものである。さらにマルチディスクコン１−〇−ラに、ファイル識別
子として、階層的なグループに分類する論理分類を行な
ったファイルの該論理分類固有の識別コードである論理
分類識別子（ＩＤとも称する）と、該論理分類内の固有
の番号とによって構成するファイルＩＤを用いるように
したものである。また、マルチディスクコントローラでは、ファイルＩＤ
内の論理分類ＩＤに従い、ファイルの磁気ディスク装置
への物理的格納位置を決定する管理情報を格納した構造
定義テーブルをマスクコントローラのメモリ内に持つよ
うにすることも可能である。上位機器と入出力バッファ間のデータ転送の制御を行な
うマルチプレクスコントローラは、入出力バッフアのデ
ータバスを選択するマルチプレクサと、マスクコントロ
ーラの介在なしにデータ転送を行なうＤＭＡコントロー
ラと、データ転送が必要な範囲の入出力バッファの先頭
アドレスを格納する先頭アドレス登録テーブルと、終了
アドレスを格納する終了アドレス登録テーブルとによっ
て構成したものである。データ記憶装置がｎ台、データ記憶装置内の上記磁気デ
ィスク装置の転送データが１−ラック間にまたがらずシ
ーク動作を行なわないときの磁気ディスク装置から入出
力バッフアへのデータ転送速度をｔ　［Ｂｙｔｅ／ｓｅ
ｅ］　、ディスク装置のニジリンダ分の容量をＭ　［Ｂ
ｙｔｅ］　、磁気ディスク装置の最小シーク時間をｓ［
ｓｅｃ］、磁気ディスク装置の回転速度をＲ［ｒｐｓ］
　、出力バッファの容量を上記磁気ディスク装置の１シ
リンダ分の容量Ｍ　［Ｂｙｔｅ］と同一とした場合に、
集合型磁気ディスク装置から上位機器へのデータ転送速
度Ｔ［Ｂｙｔｅ／ｓｅｅ］は以下の条件を満足する必要
かある。磁気ディスク装置の最小シーク時間Ｓ［ＳｅＣ］が１つ
の上記入出力バッファのＭ　［Ｂｙｔｅ］のデータを上
位機器に転送する時間（Ｍ　／　Ｔ　）　　［ｓｅｃ］
より大きい場合、データ記憶装置から出力バッファへの
データ転送時間は、磁気ディスク装置の最小シーク時間
ｓ　［ｓｅｃ］と、磁気ディスク装置の最大回転待ち時
間（１／Ｒ）　　［ｓｅｃ］と、データ記憶装置から入
出力バッフアへの転送時間（Ｍ／ｔ　）　［ｓｅｃ］の
台別時間で、これが、全ての入出力バッファのデータを
上位機器に転送する時間（ｎ　Ｍ　／　Ｔ　）　［ｓｅ
ｃ］以内で動作すればよい。これを数式で表すとＲｔ　　　　　　　Ｔのようになり、データ記憶装置の台数ｎは次式のように
書き表すことができる。また、磁気ディスク装置の最小シーク時間Ｓ［ｓｅｃ］
が１つの入出力バッファのＭｌ：Ｂｙｔｅ］のデータを
上位機器に転送する時間（Ｍ／Ｔ）　［５ｅｃ１以下の
場合には、磁気ディスク装置がシーク動作を終了しても
磁気ディスク装置からデータ転送を行なおうとする入出
力バッファが、上記機器へのデータ転送を行っているた
めにデータ記憶装置から入出力バッファへのデータ転送
ができない。そのため、入出力バッファから上位機器へ
のデータ転送が終了するまで待つ必要がある。そこで、
ブタ記憶装置から入出力ハノファへのデータ転送時間は
、］一つの入出カバソファから上位機器へのデータ転送
時間（Ｍ　／　Ｔ　）　［ｓｅｃ］と、磁気ディスク装
置の最大回転待ち時間（１／　Ｒ）　［ｓｅｃ］とデー
タ記憶装置から入出力バッファへのデータ転送時間（Ｍ
　／　ｔ　）　［ｓｅｃ］の合計時間が、全ての入出力
バッファのデータを上位機器に転送する時間（ｎ　Ｍ　
／　Ｔ　）　［ｓｅｃ］以内で動作すればよい。これを
数式で表すとＴＲｔ　　　　　　　Ｔのようになり、データ記憶装置の台数ｎは次式のように
書き表すことができる。ｔ　　　　　ＲＭこれらの条件式を満足する最小台数のデータ記憶装置で
集合型磁気ディスク装置を構成することで、上位機器の
要求するデータ転送速度を満足するコストパフォーマン
スの良い磁気ディスク装置を提供することができる。データ記憶装置は、データファイルの記憶を行なう。デ
ータ記憶装置を磁気ディスクコントローラを有する磁気
ディスク装置で構成することによって、磁気ディスクへ
のデータの書き込み、読み出し制御を該磁気ディスクコ
ンＩ・ローラが行ない、マルチディスクコン１−ローラ
の処理が軽減される。また、データ記憶装置を複数台の磁気ディスク装置と、
磁気ディスク装置のデータバスを上記入出力バッファの
データバスに選択して接続するマルチプレクサにより構
成することにより、記憶容量を大きくすることができる
。入出力バッファはデータ記憶装置に入出力するデータの
一時格納を行なう。書き込みの場合、データ記憶装置内の磁気ディスク装置
の書き込み速度より早い速度で、上位機器から入出力バ
ッファに次々とデータの転送を行ない、データ転送が終
了した入出力バッファは磁気ディスク装置へ磁気ディス
ク装置の書き込み速度でデータの書き込みを行なう。読
み出しの場合、それぞれの磁気ディスク装置は磁気ディ
スク装置の読み出し速度で入出力バッファへのデータの
読み出しを行ない、読み出しが終了した入出力バッファ
は、磁気ディスク装置の読み出し速度よりも早い速度で
、上位機器へのデータの転送を行なう。これにより、上位機器へのデータの入出力を磁気ディス
ク装置の書き込み、読み出し速度よりも早い速度で行な
うことができる。さらに入出カバソファをデータ記憶装置上台につき２面
持つことにより、第上面の入出力バッファが上位機器と
データ転送している間に、第２面の入出力バッファがデ
ータ記憶装置との書き込み。読み出しを行なえる。これにより」三位機器とのデータ
転送が終了するまで磁気ディスク装置がデータの転送動
作を持つ時間を削減でき、書き込み。読み出しが短時間に行なえる。このときの」三位機器の
要求するデータ転送速度を満足するコストパフォーマン
スの良い磁気ディスク装置を提供する条件式は、第（１
）式で表現される。マルチディスクコン１−〇−ラは上位機器からのデータ
ファイルの書き込み、読み出し要求に対し、データ記憶
装置と入出力バッファの制御を行なうものである。書き
込み、読み出しの対象となるファイルのファイルＩＤを
複数件格納できる半導体記憶素子を用いた通信メモリは
、上位機器からの命令の受理、処理の終了報告処理にお
けるオーバヘッド時間が削減され、データファイルの連
続書き込み、読み出しが短時間に行なえる。短時間にアクセス可能な半導体記憶素子を用いた物理情
報テーブルは、論理的なファイルＩＤから磁気ディスク
装置の物理的格納位置を短時間に求めることができ、こ
のため、データファイルの読み出しにかかるオーバヘッ
ド時間が短時間になる。また、磁気ディスク装置に格納するファイルの識別を行
なうものは、従来、可変長の文字コード列で構成される
ファイル名称であったのに対し、固定長の数値コードで
構成されるファイルＩＤは、小さなサイズのコードで表
現が可能で、書き込み。読み出しを行なうデータファイルの指定や物理的格納位
置の検索処理が単純化され、それに要するオーバヘット
時間も短縮できる。さらに、データファイルを格納する場合にも、論理的に
関係するファイルの物理的格納位置を近接させることに
より、シーク時間を短くすることができアクセス時間を
短縮できる。マルチプレクスコントローラ内のマルチプレクサは、上
記入出力バッファのデータバスを選択する。先頭アドレ
ス登録テーブルと終了アドレス登録テーブルは、入出力
バッファに格納されているデータ内、必要なデータが格
納されている範囲を指定する先頭アドレスと終了アドレ
スをいくつか格納する。ＤＭＡコントローラは、先頭７
１−レス登録テーブルと終了アドレス登録テーブルで指
定した範囲の入出力バッファのデータを上位機器にマス
クコントローラの介在なしで高速に転送する。磁気ディスク装置の同一シリンダ上に読み出すファイル
が複数件ある場合に、読み出すファイルのサイズをｆ　
１　［Ｂｙｔｅｌ、　ｆ　２　［Ｂｙｔｅｌ、その間の
読み出し不要のファイルのサイズをに　［Ｂｙｔｅｌ　
、磁気ディスク装置の読み出し速度をｔ　［Ｂｙｔｅ／
５ｅｃｔ、磁気ディスク装置の回転速度をＲ［ｒｐｓ］
　、磁気ディスク装置の平均シーク時間をＳ　［ｓｅｃ
］とするとき、平均回転待ち時間は（１／　２　Ｒ）　
［ｓｅｃ］であり、−度に読み出す時間が一つづつ読み
出す時間よりも短かくなる条件は、のように表すことができる。この数式は容易に次式のよ
うに書き表すことができる。この条件式を満足する時、マルチプレクスコントローラ
は、読み出し不要のファイルも一旦入出力バッファに読
み出し、」二値機器に転送する際に不要なファイルの部
分を除いて必要部分のみを転送する。これにより、磁気
ディスクが一度の読み出し処理で複数のファイルを読み
出すことができ、読み出し処理で発生するアクセス時間
を短くすることができる。第二は、有限オートマトン方式に基づく文字列照合用の
専用ハードウェア（サーチエンジンと呼ぶ）を搭載した
文字列照合手段を用いることである。この文字照合専用
ハードウェアは、約−千語のキーワードを一括して、照
合速度を低下させることなく検索することを可能にする
ものである。上記目的を達成するために、まず、異表記検索用オート
マトンにおいてキーワード中の異表記が存在する部分文
字列の先頭でオートマトンの遷移を分岐し、末尾で分岐
した遷移を集合させることにより状態数の低減を図った
。ｄｏｎ’ｔ　ｃａｒｅ文字指定検索用オートマトンに
おいても異表記検索と同様にｄｏｎ’ｔ　ｃａｒｅ文字
が許容する文字群を異表記と見なし、ｄｏｎ″ｔ　ｃａ
ｒｅ文字でオートマトンの遷移を分岐し、それらの遷移
を１ケ所の状態に集合させることにより状態数の低減を
図る。これらによりオートマトンの作成時間が短く済み、状態
遷移テーブルの許容が小さくできるコンパクトな検索装
置を実現した。オートマトンの状態数増加という課題を解決する手段と
して採用したオートマトンの作成方法について説明する
。本方法は従来方法２と以下の点で異なる。すなわち、
従来方法２では「フェイル処理」を用いるため、フェイ
ル先状態を計算する必要性から本状に状態遷移を分岐し
たオートマトンを作成しなければならないため、状態数
が多くなるのに対して、本方法では「フェイル処理」が
不要で、状態遷移の分岐を抑え、状態遷移をまとめて遷
移先状態を共有することができるため、状態数の増加が
抑えられている（以後、本方法を用いて作成したオート
７１〜ンを集合遷移許容オートマトンと呼ぶ）。以下、状態遷移をまとめる方法について説明する。第４６図は本方法を用いて作成したオートマトンの状態
遷移である。同図のオートマトンは第５図に示したオートマトンと同
様に、′インタフェース”と、その異表記である“イン
ターフェース”、″インタフェイス”インターフェイス
ｎ、ｎインターフェイス”　１′インタフエース”、′
インターフェース”″インタフニス” ″インタフェース″ を含めた９語のキーワードについて検索するためのもので
ある。これらを、これらを、第９図下の複合語表現文字列（式１）％式％ ″フェー″の異表記である。まず、発音異表記により ″フエー”が″フェイ″ に置き換えられるので、次に″フェー″の長音が長音異表記で″がきる。られる。ここでは以後、置き換え可能の文字列の関係を等価と呼
ぶことにする。更に、これらの遷移の遷移先状態を状態５とし、遷移に
まとめる。本方式を用いることによりオートノ１−ンの状態数を第
５図のオートマトンに比べ約３分の王に減らすことがで
きる。第三は、スキャン型のフルテキストサーチを加速する方
法として、２段階のプリサーチを行う手段を設けること
である。その第一段階目のプリサーチとしては、第１６
図及び第１７図に示す様に、後述する凝縮本文中に表わ
される文字をエビットの情報で表示する文字成分表を用
いて、指定されたキーワードを構成する文字を含む文書
だけを抽出する文字成分表サーチ手段を用いる。第二段
目のプリサーチとしては、予めテキスト本文の中から助
詞や接続詞などの付属語を削除すると共に、繰り返し表
れる単語を排除したデータファイル（凝縮本文と呼ぶ）
をスキャンし、指定したキーワードが記述されている文
書だけを抽出する（凝縮本文サーチと呼ぶ）手段を用い
る。したがって、この２段階のプリサーチの結果絞り込
まれた文書についてのみ、テキスト本文を磁気ディスク
装置から読み出してスキャンする（本文サーチと呼ぶ）
ことになるため、等価的に非常に高速なフルテキストサ
ーチが実現されることになる。以下、文字成分表サーチ
に続き、凝縮本部サーチを行い、次々と絞り込みながら
行う検定のことを階層型プリサーチと呼ぶ。第四は、フルテキストサーチ特有の木目細かな検索を可
能にするために、論理条件のみならず近傍条件や文脈条
件をも組み合わせた検索を可能とする複合条件判定手段
を設けることである。第五は、上記複数の磁気ディスク装置から構成される文
字列記憶手段と文字列照合手段、プリサーチ手段、複合
条件判定手段をまとめて一つのユニットとし、このユニ
ットを複数個並列に並べ、この」１位にこれらを制御す
るコントローラ手段を設け、これらをまとめて−台のフ
ルテキストサーチ装置（この−台をサーチマシンと呼ぶ
）に構成することである。このような構成にすることに
よって、大容量テキストデータベースに対処すると共に
、データベースの増加に際してはマシン内のユニットの
増設によって対処することが可能となる。第六は、複数のユーザに対してサービスを提供できると
共に、大規模なテキストデータベースの構築に耐え得る
ように、このテキストサーチマシンにＬＡＮに接続でき
るＬＡＮ接続手段を設けることである。このような構成
にすることによって、大規模テキストデータベースに対
してはＬＡＮを介して複数台のサーチマシンを接続する
ことによって対処でき、データベース容量の増加に際し
てもＬＡＮ内のマシン数の増設によって対処することが
可能となる。第七は、同義語や異表記などの問題に対処するために、
テキストサーチマシンの内部に自動的に同義語及び異表
記の展開処理を行う同義語展開手段及び異表記展開手段
を設けることである。そして、これらの展開語党すべて
をキーワードとして全文検索を行うことによって、漏れ
なく所望の文書が検索できることになる。上記課題を解決するために、第２６図のようにキーボー
ドから入力した文字列を一旦異表記展開し、異表記展開
された各々の文字列に対し、同義語辞書を参照して同義
語展開をし、更に同義語展開で得た各々の文字列に対し
て異表記展開する構成とする。この異表記及び同義語展開処理の概略を第２７図に示す
。ユーザが指定したキーワード（文字列とも呼ぶ）２７
０１は一旦異表記展開し、その展開した文字列群２７０
２に対して、次に同義語辞書２７１０を用いて同義語展
開する。その後、この同義語展開で得られた文字列２７
０３に対して、さらに異表記展開し、最終の展開結果と
して文字列群２７０４を得る。このように同義語展開の前に異表記展開するこ−か− とにより、表記の標準化によって情報を変更することな
く展開処理が可能となる。同義語辞書中の文字列の表現
や表記に配慮することなく辞書が構成できるため、辞書
の作成や編集が容易になる。また、同義語展開した文字列についても異表記展開をす
ることにより、同義語展開で新しく得られた文字列につ
いても異表記を得ることができる。次に本発明における重要な手段の一つである異表記展開
について説明する。異表記展開では、まず最初に入力文
字列を文字種毎に分割し、漢字及びひらがな文字列、カ
タカナ文字列、アルファベット文字列の３種類の部分文
字列へ分割する。次に分割した部分文字列毎に変換ルー
ルテーブルを用いて文字列の置き換え処理を行い、漢字
、カタカナの各文字種の異表記展開をしていく。アルフ
ァベット文字種については変換ルールテーブルは用いず
に、入力文字列中のアルファベット文字を大文字から小
文字、小文字から大文字へコード変換する。ここで変換ルールテーブルとは人力文字列中の該当文字
列を文字列のリストへ置き換えることを指示した変換ル
ールを複数個蓄えたものである。変換ルールは、例えば文字列″イウ″を″イウ″と″ユ
ウ″とに展開する場合には、〔″イウ″→（″イウ′″、″ユウ″）〕と記述する。また部分文字列を文字列リスｌ〜へ変換することを、こ
こでは′置き換えゝと呼ぶことにする。漢字、カタカナの各文字種の異表記展開用の変換ルール
には例えば次のようなものが考えられる。（１）漢字及びひらがな文字列の場合（ａ）漢字の新字体と旧字体の表記による展開に関する
変換ルール例：〔″斉″→（″斉ＩＩ　、　Ｎ斎ＩＩ　、　ＩＩ齋
ＩＩ　、　ＩＩ齋″）〕（ｂ）漢字の送りがな表記の違
う展開に関する変換ルール例：〔″読み取り′″→（″読み取りｎ、ｕ読取″）〕
（２）カタカナの場合類似音節の様々な表記に展開する変換ルール例：〔゛′ピア″→（″ピアｎ、ｕビヤ′″）〕このよ
うに、漢字ひらがな文字種、カタカナ文字種については
、変換ルールテーブルを用いて異表記展開する。次にローマ字の異表記展開について説明する。ローマ字の異表記としては、ヘボン式表記法と訓令式表
記法あるいはこれらの表記法の混在したものが考えられ
る。従って、ここでは変換ルールとしてヘボン式表記法
と訓令式表記法の音節表記を併記したルールを作るもの
とする。例えばヘボン式表記法の ”　Ｓ　ＨＩ” を訓令式表記法及びヘボン式表記法の音節表記の“ＳＩ
”と”　Ｓ　ＨＩ　” という２つの部分文字列のリストに置き換える変換ルー
ル〔“Ｓ　ＨＩ　”→（”ＳＩ”、”ＳＨＩ”）〕を作る
ことによりローマ字の異表記展開を実現する。あるいは
、別な方法としてローマ字の全文字列を一旦カタカナ表
記に変換し、カタカナ文字列＝７５中の各音節をヘボン式表記法と訓令式表記法の両方で置
き換える方法もある。例えば、ローマ字文字列の ”ＳＩＳＨＡＭ○″ を−旦カタカナ文字列の１１シシヤモ” に変換し、次に［ＬＬシＩＩ　　、　　（ＩＩｓ　　ＩＩＩ　　、　　
　ｌｌ５Ｉ（Ｔ１１　　）　　）などの変換ルールでロ
ーマ字化する方法もある。以上の文字種毎の展開の後、最初に文字種によって分割
した文字列の順序に従って展開した文字列を組み合せて
、異表記展開の最終出力とする。以上異表記展開処理をまとめると、（１）漢字及びひらがな文字列に関する異表記展開（送
りがな、新旧字体）、（２）カタカナ文字列に関する異表記展開、（３）ロー
マ字文字列に関する異表記展開（ヘボン式、副側式表記
）、（４）アルファベット文字に関する異表記展開（大小文
字）がある。しかし、常時これらの異表記展開をする必要が
ない場合もある。この場−合、使用する変換ルールテー
ブルの種類をユーザが選択できる手段を合わせ持つこと
によって、むだな展開処理を省き、かつユーザの望む検
索処理が可能となる。次に本発明におけるもう一つの重要な手段である同義語
展開について説明する。同義語展開では、入力文字列を
同義語辞書を用いて次の４種類の展開を行う。（１）同位語展開概念的に同位の諸量への展開例：“計算機”から“コンピュータ”、′情報処理装置
″に展開する。（２）上位語展開上位の意味を持つ諸量への展開例：″計算機″から“電子機器″に展開する。（３）下位語展開下位の意味を持つ語禦への展開例：″計算機″から″電子卓上計算機″に展開する。（４）関連語展開関連した意味を持つ語禦への展開例：″計算機′″から″オフィスオーＩ・メイション”
に展開する。また、同義語展開でも異表記展開と同様に」１記４種類
の請負への展開を選択する手段を持つことによって、よ
り柔軟なユーザの望み通りの検索が可能となる。以上の手段によってユーザの入力する検索文字列をまず
最初に異表記展開し、異表記展開した文字列群の中の各
々の文字列を一つずつ同義語展開し、さらに同義語展開
して得られた新しい文字列に対して異表記展開を行う。このように異表記展開を同義語展開の前で行なうことに
より、表記の標準化による情報の欠落を避け、常に期待
する展開結果を得ることができる。また、同義語辞書内での表記も統一化する必要がなく、
辞書の作成と保守を簡易化できる。また、同義語展開の
後でも異表記展開を行うために、同義語辞書に表記のバ
リエーションを色々と記述しておく必要がなく辞書を小
さくすることができる。〔作用〕以上述へた様にこの発明によれば先ず第一に、テキスト
データを納める文字列記憶手段を並列に並べた複数台の
磁気ディスク装置で構成し、これらを同時に原動しその
出力データを統合することによって、高い読み出し速度
を得ることが可能となる。第二に、文字列照合手段に有限オートマトン方式に基づ
く文字列照合用の専用ハードウェアを搭載することによ
って、照合速度を低下させることなく約−千語のキーワ
ードを一括して検索することが可能となる。このことは
、同義語及び異表記を含めても、テキストデータベース
を唯一回スキャンするだけで検索を終えることができる
ということである。第三に、スキャン型のフルテキス１−サーチを加速する
方法として、２段階のプリサーチを行う手段を設けるこ
とによって、磁気ディスクに格納されたテキスト本文を
参照しに行く件数を減らすこＱ４とが可能になる。すなわち、検索処理時間に占める割合
が高い本文検索処理量を減らすことによって、全体の検
索処理時間を短縮することが可能となる。この階層型プリサーチを行うためには、検索に先立って
、「凝縮本文」と「文字成分表」という補助ファイルを
準備する必要がある。この「凝縮本文」とｒ文字成分表
」の作成は、文書の登録時に自動的に行われる。この処
理内容を、第１６図に示す。本図で、登録すべき文書が入力されると、まずそのまま
「本文」として時期ディスク装置に格納する。次に、この「本文」から「凝縮本文ｊを作成する。「凝
縮本文」は、「本文」の中から検索には使用されない付
属語を取り去るとともに、繰り返し表れる言葉の重複を
排除して作成される。本文が「あいまい検索のための検
索技術・・・」という文書１の場合には、「のための」
が付属語として、また「検索」が重複語として切り捨て
られ、「あいまい」と「検索技術」が「凝縮本文」とし
て残ることになる。最後に、この「凝縮本文］から「文字成分表Ｊを作成す
る。ここでは、「凝縮本文」に現れる文字を１ビットの
情報で表す。文書１０例では、「あ」と「い」があるの
でそれぞれ１１′を、また「う」ではないのでＩ　Ｏ＋
　を設定する。「検」と「索」も同様にそれぞれ′１′
を設定する。以下同様にして、文字成分表の該当文字部
分に、「凝縮本文」にその文字がある場合には′１′を
、存在しない場合にはＩ　Ｏ＋　を設定する。このようにして、文書の登録時に「凝縮本文」と「文字
成分表」を自動的に作成し、階層型プリサーチの準備を
しておく。検索時には、第１７図に示すように、登録の逆の順序で
これらの補助ファイルを参照する。例えば、″検索〔４
Ｃ〕理解”という条件式が人力されたとする。この条件
式は、″検索″と″理解″が４文字以内に近接して現わ
れる文書を検索することを表す。まず、第１ステツプとして文字成分表をサーチする。こ
こでは、指定されたキーワードを構成する文字をすへて
含む文書だけを抽出する。本図の例では、まず″検索″
に着目し、パ検索″を構Ｉ戊する２文字、すなわち′検
′と′素′が同時に現われる文書を探し出す。処理の仕
方としては、文字成分表の′検′と′索′の縦の列のビ
ットごとの理論積（ＡＮＤ）を取る。その結果、ｌ　Ｊ
、　ｌ　として残ったものが、　′検′と′索′の両方
の文字を含む文書を表すことになる。したがって、′○
′となった文書は′検′か′索′、あるいはその両方の
文字がない文書となるので、以降の検索処理の対象から
除外することが可能となる。この文字成分表は文字の存在がｌビットの情報（ビット
リストと呼ぶ）で表されているため、サーチするデータ
容量を極めて小さくすることができ、その結果検索時間
も短時間に納めることが可能となる。さらに、キーワー
ドを構成する文字毎のピノ１ヘリストの論理積を取るこ
とによって、キーワードの関連のない文書を大幅に切捨
て、以降の対象文書を格段に絞り込むことが可能となる
。次に、この文字成分表サーチの結果絞り込まれた文書の
凝縮本文をサーチする。ここでは、指定されたキーワー
ドが単語として現われる文書だけを抽出する本図の例で
は、′検′と′索′の２文字が″検索′″と連続して現
れる文書のみを抽出する。すなわち、文書３のように、
′検′と′素″が含まれていても、″検出”と“検索”
というように、別の単語として現われるようなものはこ
こで切り捨ててしまう。 ″理解″についても、文字成分表サーチ及び凝縮本文サ
ーチで同様の処理を行い、最後に残った文書についての
みその本文をサーチし、検索条件式に指定された複合条
件への適合を調べる。本図の例では、検索条件式に近傍
条件として設定されたｕ　（４ｃ）　Ｉ＋を満足する文
書を探索することになる。その結果、この例では″検索
″とパ理解″が４文字前れている文書４が検索されてく
ることになる。このように、「階層型プリサーチ方式」では、「文字成
分表」と「凝縮本文」という２段階のブリサーチを事前
に行い、それぞれ「文字レベル」と「単語レベル」のふ
るいに掛け、最も時間を要する本文サーチの対象となる
文書数をあらかしめ最小に絞り込んでおくことによって
、等価的な非常に高速なフルテキストサーチが実現でき
ることになる。第四に、本文検索の際、サーチエンジンの出力結果から
検索式に記述された論理条件及び近傍条件や文脈条件に
合致するものだけを抽出する複合条件判別手段を設ける
ことにより、フルテキストサーチ特有の木目細かな検索
が可能となる。論理条件としては、論理和や論理積、論
理否定などの検索演算を実現する。近傍条件としては、
日本語の場合にはキーワードとキーワー１〜の間に存在
する文字数に上記あるいは下限を指定した字間距離条件
検索を、英語の場合にはキーワード間の語数に上限ある
いは下限を指定した語間距離条件検索などを実現する。近傍条件としては、日本語対応の「字間距離条件」と英
語対応のＦ語間距離条件」がある。まず、字間距離条件
の例としては、以下のようなものがある。 ″文書〔８ｃ〕検索″・・・・・・・・・・・・・・（
１）″文書［１０ｃ）検索″・・・・・・・・・・・・
（２）“文書［８ｃ、１０ｃ］検索″・・・・・・（３
）″文書＜１０　ｃ＞検索″・・・・・・・・・・・・
（４）（１）式の″文書〔８Ｃ〕検索″という条件式は
、″文書”と″検索″という２つの言葉がこの順序で現
われ、かつこの２つの言葉の間に８文字以内の文字が挾
まっている文書を探し出すということを表す。したがっ
て、第１４図に示した例文の中では、■と■が検索され
てくることになる。（２）式の″文書〔１０Ｃ〕検索″という条件式は、″
文書″と″検索″という２つの言葉が、その順序を問わ
ずに、すなわち１１文書″が″検索″の前に現われる場
合でも、あるいは１′検索″が″文書″の前に現われる
場合でもどちらであっても、これらの言葉が１０文字以
内に近接して現われる文書を探し出すということを表す
。したがって、第Ｉ４図に示した例文の中では、■と■
と■が探索されてくることになる。（３）式の“文書［８ｃ、１０ｃｌ検索”という条件式
は、″文書゛″と″検索″という２つの言葉がその出＠
順序を問わず、８文字以上離れていて、かつ１０文字以
内に近接して現われる文書を探し出すということを表す
。したがって、第Ｉ４図に示した例文の中では、■と■
が検索されてくることになる。（４）式の″文書（１０ｃ＞検索″という条件式は、″
文書″と″検索′″という２つの言葉がその出現順序を
問わず、］−〇文字以」二離れて現われる文書を探し出
すということを表す。したがって、第１４図に示した例
文の中では、■と■が検索されてくることになる。次に、語間距離条件の例としては、以下のようなものが
ある。 “ｔｅｘｔ　（８Ｗ）　ｒｅｔｒｉｅｖａｌ”・・・・
・・・・・・（５）“ｔｅｘｔ　（１０Ｗ）　ｒｅｔｒ
ｉｅｖａｌ”　・＝＝・・・（６）“ｔｅｘｔ　〔８Ｗ
、　１．０　Ｗｌ　ｒｅｔｒｊ、ｅｖａｌ”−（７）“
ｔｅｘｔ　（１０Ｗ）　ｒｅｔｒｊｅｖａｌ”　・・＝
　＝　・・（８）（５）式の”ｔｅｘｔ　〔８Ｗ）　ｒ
ｅｔｒｉｅｖａｌ、”という条件式は、”ｔｅｘｔ”と
”　ｒｅｔｒｉｅｖａ　］　”という２つの単語がこの
順序で現われ、かつこの２つの単語の間に８語以内の数
の単語が挾まっている文書を探し出すということを表す
。（６）式の”ｔｅｘｔ　〔１０Ｗ）　ｒｅｔｒｉｅｖａ
ｌ”という条件式は、ＩＩ　ｔ　ｅｘｔ　ＩＩと”ｒｅ
ｔｒｊｅｖａｌ　”という２つの単語が、その順序を問
わずに、すなわち“ｔｅｘｔ”が“ｒｅｔｒｉｅｖａｌ
”の前に現われる場合でも、あるいは“ｒｅｔｒｉｅｖ
ａｌ、”が“ｔｅｘｔ”の前に現われる場合でもどちら
であっても、これらの単語が工○語以内に近接して現わ
れる文書を探し出すということを表す。（７）式の”ｔｅｘｔ　［８Ｗ　、　１０　Ｗ　］　ｒ
ｅｔｒｉｅｖａｌ”という条件式は、“ｔｅｘｔ”と“
ｒｅｔｒｉｅｖａｌ”という２つの単語が、その出現順
序を問わず、８語以上前れていて、かつ１０語以内に近
接して現われる文書を探し出すということを表す。（８）式の“ｔｅｘｔ　（１０Ｗ）　ｒｅｔｒｉｅｖａ
ｌ”という条件式は、”ｔｅｘｔ”と１１ｒｅｔｒｉｅ
ｖａｌ”という２つの単語がその出現順序を問わす、］
−〇語以」二離れて現われる文書を探し出すということ
を表す。文脈条件としては、キーワードとキーワードが同一の交
円に共起するものを検索したり、あるいは同一の段落に
表れるものを検索したりする検索機能を実現する。文脈条件検索としては、日本語及び英語とも次のような
ものがある。 ″文書〔Ｐ〕検索″・・・・・・・・・・・・・・・・
（９）″文書〔ｐ〕検索″・・・・・・・・・・・・・
・・・（１０）″文書［Ｓ］検索″・・・・・・・・・
・・・・・・・（１１）″文書〔ｓ〕検索″・・・・・
・・・・・・・・・・・（１２）″文書（ＰＨ）検索″
・・・・・・・・・・・・・・・・（１３）″文書〔ｐ
ｈ〕検索″・・・・・・・・・・・・・・・・（１４）
（９）式の″文書（Ｐ）検索″という条件式は、″文書
″と″検索″という２つの言葉がこの順序で、同一の段
落（パラグラフ）に現われる文書を探し出すということ
を表す。（１０）式の″文書〔ｐ〕検索″という条件式は、″文
書”と″検索″という２つの言葉が出現＝８８順序を問わずに、同一の段落に現われる文書を探し出す
ということを表す。（↑ｌ）式の゛′文書〔Ｓ〕検索″という条件式は、“
文書”と“検索”という２つの言葉がこの順序で、同一
の文（センテンス）に現われる文書を探し出すというこ
とを表す。（１２）式の″文書〔ｓ〕検索″という条件式は、″文
書″と″検索″という２つの言葉が出現順序を問わずに
、同一の文（センテンス）に現われる文書を探し出すと
いうことを表す。（１３）式の″文書（ＰＨ）検索″という条件式は、６
文書”と″検索″という２つの言葉がこの順序で、同一
の句（フレーズ）に現われる文書を探し出すということ
を表す。句とは、　、″及び″で区切られた文章を言う
。英語の場合は、”と“、′で区切られた文章というこ
とになる。（１４）式の″文書（ｐｈ）検索″という条件式は、″
文書″と″検索″という２つの言葉が出現順序を問わず
に、同一の句（フレーズ）に現われる文書を探し出すと
いうことを表す。論理条件検索としては、日本語及び英語とも次のような
ものがある。 “文書（ＡＮＤ）検索”　（あるいは、　ａｎｄ（文書
、検索）とも表す・・・・・・・・・・・・・・（１５
）″文書［ＯＲ：ｌ検索″（あるいは、　ｏｒ（文書、
検索）とも表す・・・・・・・・・・・・・・（１６）
“文書［Ｎ０Ｔ）検索″（あるいは、”ｎｏｔ（文書、
検索）とも表す・・・・・・・・・・・・・・（ＩＩ）
（１５）式の“文書（ＡＮＤ）検索”という条件式は、
″文書″と″検索″という２つの言葉が現われる文書を
探し出すということを表す。（１６）式の″文書〔ＯＲ〕検素″という条件式は、″
文書″′あるいは″検索″という言葉が現われる文書を
探し出すということを表す。（１７）式の″文書（ＮＯＴＩ検素″という条件式は、
″文書”という言葉が現われて、かつ″検索″という言
葉が現われない文書を探し出すということを表す。第五に、複数の磁気ディスク装置から横取される文字列
記憶手段２文字列照合手段、プリサーチ手段、及び複合
条件判別手段をまとめて一つのユニットとし、このユニ
ットを複数個並列に並べ、この上位にこれらを制御する
コントロール手段を設け、これらをまとめて−台のサー
チマシンに構成することによって、大容量テキストデー
タベースに対処すると共に、データベースの増加に際し
てはマシン内のユニットの増設によって対処することが
可能となる。第六に、このテキストサーチマシンにＬＡＮに接続でき
るＬＡＮ接続手段を設けることによって、複数のユーザ
に対してサービスが提供できると共に、大規模なテキス
トデータベースの構築に応えることも可能になる。すな
わち、大規模テキストデータベースに対してはＬＡＮを
介して複数台のサーチマシンを接続することによって対
処でき、データベース容量の増加に際してもＬＡＮ内の
マシン数の増設によって対処することが可能となる。第七に、テキストサーチマシンの内部に同義語及び異表
記の展開処理を行う同義語展開手段及び異表記展開手段
を設けることによって、ユーザがこれらの問題を意識し
なくとも自動的に同義語や異表記などの展開語８すべて
をキーワーＩくとして全文検索を行うことができ、表現
及び表記の違いに起因する漏れを生ずることなく所望の
文書が検索できることになる。〔実施例〕以下、本発明の第一の実施例を、第１０図を用いて説明
する。本実施例は、キーボード１１０１、サーチマシン制御用
コンピュータ（ＣＰＵ、）１１５０、デイスプレィ１１
２０、オートマトン生成用コンピュータ（ＣＰＵ、）　
１１０５　ａ、ビットサーチ用コンピュータ（ＣＰＵ３
）　１１０７　ａ、ストリングサーチエンジン１１０６
、複合条件判定用コンピュータ（ＣＰＵ２）　１１４５
　ａ、検索結果格納メモリ１１４６、及びテキス１ヘデ
ータファイル１１１０から構成される。また、サーチマ
シン制御用コンピュータ（ＣＰＵｏ）１　］−５０では
、検索式解析プログラム１１０２、同義語異表記展開＝
９２プログラム１１０３ａ、複合条件解析プログラム１１４
、１．　ａ、検索実行制御プログラム１１０８、及び検
索結果表示プログラム１工４７が実行され、オートマト
ン生成用コンピュータ（ＣＰＵ□）１１０５ａではオー
トマトン生成プログラム１１０５が、ビットサーチ用コ
ンピュータ（ＣＰＵ３）　１１０７　ａではビットサー
チプログラム１１０７が、複合条件判定用コンピュータ
（ＣＰＵ２）１１４−５ａでは複合条件判定プロゲラＡ
、　１１４．５が実行される。先ず、キーボード１．１０↓から入力された検索条件式
はサーチマシン制御用コンピュータ（ＣＰＵｏ）１１５
０Ｊ二の検索式解析プログラム１１０２により解析され
る。すなわち、検索式解析プログラム１．１０２では検
索条件式を構成するキーワード部分とそれらの包含条件
及び配置条件を記述した複合条件記述部に分離される。包含条件は論理条件として記述され、配置条件は近傍条
件や文脈条件として記述されたものである。分離抽出後
、キーワード部分は同じ＜ＣＰＵ。１１５０１の同義語異表記展開プログラム１１０３ａに
渡され、複合条件記述部は複合条件解析プログラム↓１
４１ａに渡される。同義語異表記展開プログラム１３．０３　ａでは、ここ
に内蔵された同義語辞書を参照して入力されたキーワー
ドの同義語が、また変換ルールによって異表記が求めら
れる。例えば、″計算機″というキーワードが入力され
ると、同義語としては″計算機″のほかに１電算機”や
″コンピュータ″などが生成され、異表記としては″コ
ンピュータ″から″コンピューター”などが生成される
。同義語としては、上記の例のような同位語のほかに、上
位語や下位語、関連語などがあり、これらも含めて同義
語として展開される。この場合の」二位語の例としては
″電子機器″などがあり、下位語としては“電卓”など
、関連語としては１′オフイスオートメーシヨン”など
がある。また、異表記展開としては、カタカナ展開のほか、漢字
ひらがな展開、アルファベット展開がある。図示されて
いるのはこの中のカタカナ展開の則例である。漢字ひらがな展開としては、新旧字体の変換
と送りがな展開がある。新旧字体変換の例としては、′
斉”から“齋”、斉”への変換などがある。また、送り
がな展開としては、“読取”から″読取り″、″読み取
り″への展開などがある。アルファベツＩ〜展開として
は、ローマ字のヘボン式展開、ローマ字の訓令式展開及
びアルファベットの大文字小文字展開がある。ローマ字
のヘボン式展開の例としては″チシキ”から”Ｔｌ５Ｉ
ＫＩ”への展開が、ローマ字の訓令式展開の例としては
“ＣＨＩＳＨＩＫＩ”への展開があり、アルファベット
の大文字小文字展開例としては“Ｔｌ５ＩＫＩ”から“
ｔｉｓｊｋｉ”への展開などがある。以」二説明した同義語展開並びに異表記展開の展開種類
については、ユーザの指定によって組み合わせ選択でき
るようにすることも可能である。英語の同義語の例としてはｌｏｏｋｉｎｇ　ｇｌａｓｓ→ｍ　ｊ、ｒ　ｒ　ｏ　ｒ
ｐｉｎｇｐｏｎｇ　　　　→ｔａｂｌｅ　ｔｅｎｎ］ｓ
→　Ｇｏｄ →　ｃｙｃ］、ｏｎｅ　　　　　　　→　ｈｕｒｒｉｃ
ａｎｅ→　Ｈｉｔａｃｈｉ　　Ａｍｅｒｊｃａ　　Ｌｊ
ｍｊｔｅｄ→　ｗｏｒｋ　　５ｔａｔｉｏｎ英語の異表記の例としては →　ｃｅｎｔｒｅ →　１ｉｔｒｅ →ｂｒｉａｒ →ｈｕｍｏｕｒ −＋　　ｍｏｄｅｌｌｅｒ →　Ｃｈｉｌｉ →ｏｒａｎｇｏｕｔａｎ　　→ｏｒａｎｇｏｕｔａｎｇ
−＋　ＭｃＤｏｎａｌｄツ語の同義語の例としては →　５ｃｈｒｅｉｂｅｎ →Ｍｏ５ｔｒｉｃｈ →　Ｍｏｔｏｒドイツ語の異表記の例としては →Ｐｈｏｔ。ｔｈｅ　　ＬｏｒｄｔｙｐｈｏｏｎＡＬＡＳ等があり、ｅｎｔｅｒ１ｔｅｒｒｉｅｒｕｍｏｒｍｏｄｅｌｅｒｈｊｌｅｏｒａｎｇｕｔａｎＭａｃＤｏｎａｌｄ等の例がある。さらに、トイｒｉｅｆＭｏｓｔｅｒｔ阿ａｓｃｈｉｎｅ等があり、Ｆｏｔ。一％Ｃｏｄａ　　　　　　　　　　−＋　　ＫｏｄａＣｏｄ
ｅ　　　　　　　　　　→　ＫｏｄｅＢｕｆｆｅｔ　　
　　　　　　→　ＢｕｆｆｅｔＦｒｉｂｕｒｇ　　　　
　　−＋　　Ｆｒｉｂｏｕｒｇ等が挙げられる。こうして同義語及び異表記展開されたキーワード群は１
次にオートマトン生成用コンピュータ（ＣＰＵ１）　１
１０５　ａ上のオー１〜マトン生成プログラム１１０５
に送られる。オー１マトン生成プログラム１１０５では、同義語異表
記展開プログラム１１０３ａから送られてきたキーワー
ド群に対して、これらを−括照合するオートマトンを作
成する。同義語及び異表記展開を施すと、初期入力され
たキーワードの数によっては、数百にも及ぶ展開結果が
得られることになる。これらのキーワードを一つずつ入力テキストデータから
探索していたので、高速な検索を実現することが不可能
である。すなわち、これらのキーワードをまとめて、テ
キストデータをただ一回走ノ査するだけで探索する必要がある。このように複数のキ
ーワードを一括して照合する（多重照合とも呼ぶ）方法
としてオートマトンを用いた照合方法が知られている。その中で、このオートマトンをハードウェアで実行する
方式として「特開昭６３−３１．１５３０Ｊを提案して
いる。サーチエンジン１１０６はこの方式をさらに発展
させて実現した高速多重文字列照合回路である。したが
って、本オートマトン生成プログラム１１０５では、こ
のサーチエンジン１１０６に設定する状態遷移テーブル
と照合すべきキーワードの識別コード情報を生成し、こ
れらをサーチエンジン１１０６へ転送することになる。また、同義語異表記展開プログラム１１０３　ａで同義
語及び異表記展開されたキーワード群は、該当キーワー
ド識別コード（キーワード識別子ども呼ぶ）と共に、ビ
ットサーチ用コンピュータ（ＣＰ　Ｕ３　）　１１．０
７　ａ上のビットサーチプログラム１１０７へ渡される
。一方、検索式解析プログラム１１０２から入力検索条件
式中の複合条件記述部を受け取ったサーチマシン制御用
コンピュータ（ＣＰＵｏ）１１５０上の複合条件解析プ
ログラム１１４１では、近傍条件や文脈条件、並びに論
理条件などを解析し、各条件を判定するための制御情報
として、指定されたキーワードの識別コードとその間の
指定距離情報や指定文脈コード情報及び指定論理条件コ
ード情報に変換され、複合条件判定用コンピュータ（Ｃ
ＰＵ２）　１．１４５　ａ上の複合条件判定プログラム
１１４５に渡される。さて、上述した検索式解析処理、同義語異表記展開処理
、オートマトン生成処理、複合条件解析処理が終わり、
ビットサーチ用コンピュータ（ＣＰＵ３）　１１０７　
ａ上のビットサーチプログラムエ１０７、サーチエンジ
ン１１０６、及び複合条件判定用コンピュータ（ＣＰＵ
２）１１４５ａ上の複合条件判定プログラム１工４５に
それぞれ制御情報が渡し終わると、検索処理が始めらる
。検索処理は、サーチマシン制御用コンピュータ（ＣＰＵ
ｏ）　１　］−５０上の検索実行制御プログラム１↓０
８により制御される。すなわち、検索実行制御プログラ
ム１１０８では、ピッ１〜サーチプログラム１１０７、
サーチエンジン１１０６、及び複合条件判定プログラム
］１４５に苅して８動を掛け、テキストデータファイル
］］１０から被検索テキストデータを読み込み、階層型
プリサーチと本文サーチを実行する。まず、テキス１−
データファイル１１１０からビットサーチプログラム１
１０７へ文字成分表を読み出して文字成分表サーチを行
う。文字成分表サーチ結果は、該当文書識別子として検
索結果格納メモリ１１４６に書き出される。次に、該文
書識別子で指定される文書の凝縮本文をテキストデータ
ファイル１］−ｌ○からストリングサーチエンジン１１
．０６へ読み込み凝縮本文サーチを行う。ストリングサ
ーチエンジン１１０６では、あらかじめ設定された状態
遷移テーブル情報にしたがって指定されたキーワード群
を入力凝縮本文データの中から探し出す。そして、キー
ワードのどれかでも見つかると、そのテキストファイル
の識別子と該当キーワードの識別コード並びに検出され
た位置情報を、複合条件判定用コンピュータ（ＣＰＵ２
）　１１４５　ａ上の複合条件判定プログラム１１４５
に送出する。サーチエンジンの出力情報として付加される位置情報と
は、そのキーワードが見つかった文書中の位置を表す情
報のことであり、具体的にはその文書の先頭から数えて
何文字目に当るのかを文字数でカウントした値である。・第１１図に具体例で照合位置情報を示した。本図は、
文書の内容が、「あいまい検索のための知的検索技術を
開発した。・・・・・・」という場合、これを″知的検索″という
キーワードで検索した場合を想定したものである。ここ
では、″知的検索技術″の中の″知的検索”の部分がキ
ーワードと一致することになるので、この部分が検出さ
れることになる。照合位置情報としては、″知的検索″
の末尾文字索″の文書先頭からの文字位置が採られる。この例では、工３が照合位置情報となる。この照合位置情報を付加したサーチエンジンの出力情報
は、第１５図に示した構成を取る。すなわち、本実施例
では３２ビツト長のキーワード識別子と、同じく３２ビ
ツト長のキーワード照合位置情報で構成される。また、
各文書毎にキーワード識別子の出力に先立って文書識別
子が出力され、照合出力情報がどの文書に対応するもの
かが分かるようにしである。凝縮本文サーチ結果は、該当文書識別子と照合キーワー
ド識別子及びキーワード照合位置情報が組み合わされた
照合情報として、複合条件判定用コンピュータ（ＣＰＵ
２）　１１４５　ａ上の複合条件判定プログラム１１４
５に渡される。複合条件判定プログラム↓１４５では、
先に設定された複合条件判定制御情報に基づいて、指定
条件に合致する文書を判定し、その文書識別子を検索結
果格納メモリ↓１４６に書き出す。検索実行制御プログ
ラム１工０８は、複合条件中に近傍条件あるいは文脈条
件が設定されているかを判定し、もし設定されている場
合には最後の本文サーチを行う。すなわち、凝縮本文サーチの結果得られた該当文書識別
子に対応する本文データをテキストデータファイル１１
１０からストリングサーチエンジン上１０６へ読み込み
本文サーチを行うことになる。ストリングサーチエンジン上る照合情報は複合条件判定プログラム１１４５に渡され
、ここで指定された近傍条件及び文脈条件に合致するか
否かの判定処理が行われる。この判定処理結果は、最終
的な検索結果情報として、該当文書識別子という形で検
索結果格納メモリ１工４６に出力される。凝縮本文サーチあるいは本文サーチが済み、最終的に検
索処理が終わると、サーチマシン制御用コンピュータ（
ＣＰＵｏ）　１１５０上の検索結果表示プログラム１工
４７が検索結果格納メモリ１１４６上の該当文書識別子
に基づいて、検索結果件数、あるいはヒツトした文書の
書誌情報である文書名や著者などの書誌事項をテキスト
データファイル１１１０から読み出してデイスプレィ１
１２０へ一覧表示したり、あるいはユーザの指定に応じ
てヒツトした文書の本文データをテキストデ−タファイ
ル１１１０から読み出して表示したりする。以上が本発明により提供されるフルテキストサーチ装置
の第一の実施例についての説明である。次に、本発明の第二の実施例について、第２５図を用い
て説明する。本実施例は、キーボード２５０　］、　、サーチマシン
制御用コンピュータ（ＣＰＵｏ）２５２０、デイスプレ
ィ２５２０、オー１−マトン生成用コンピュータ（ＣＰ
Ｕ□）　２５０５　ａ、ピッ１〜サーチ用コンピユータ
（ＣＰＵ３）　２５０７　ａ、ストリングサーチエンジ
ン上ピュータ（ＣＰＵ２）２５４−５ａ、検索結果格納メモ
リ２５４６、半導体メモリ装置２５１０ａ、ＲＡＭディ
スク装Ｗ２５↓Ｏｂ、集合型磁気ディスク装置２５１０
ｃ、及びイメージデータファイル２５３０から構成され
る。また、サーチマシン制御用コンピュータ（ＣＩ）Ｕ
ｏ）２５５０では、検索式解析プログラム２５０２、同
義語展開プログラム２５０３、異表記展開プログラム２
５０４、複合条件解析プログラム２５４１、近傍条件解
析プログラム２５４２、文脈条件解析プログラム２５４
３、論理条件解析プログラム２５４４、検索実行制御プ
ログラム２５０８、及び検索結果表示プログラム２５４
７が実行され、オートマトン生成用コンピュータ（ＣＰ
Ｕ１）　２５０５　ａではオー１へマトン生成プログラ
ム２５０５が、ビットサーチ用コンピュータ（ＣＰＵ３
）２５０７ａではビットサーチプログラム２５０７が、
複合条件判定用コンピュータ（ＣＰＵ２）２５４５ａで
は複合条件判定プログラム２５４５が実行される。また、集合型磁気ディスク装置２５１０ｃは、集合型磁
気ディスク制御装置２５１０ｃｌと磁気ディスク装置２
５１０ｅ、〜２５工Ｏｅ、２から構成される。本図において、先ずキーボード２５０１から入力された
検索条件式はサーチマシン制御用コンピュータ（ＣＰＵ
ｏ）２５５０Ｊ二の検索式解析プログラム２５０２によ
り解析される。すなわち、検索式解析プログラム２５０
２ては検索条件式を構成するキーワード部分とそれらの
包含条件及び配置条件を記述した複合条件記述部に分離
する。包含条件は論理条件として記述され、配置条件は
近傍条件や文脈条件として記述されたものである。分離抽出後、キーワード部分は同じくＣＰＵ。２５５０上の同義語展開プログラム２５０３に渡され、
複合条件記述部は複合条件解析プログラム２５４１に渡
される。同義語展開プログラム２５０３では、ここに内蔵された
同義語辞書を参照して、入力されたキーワードの同義語
が求められる。そして、ここで同義語展開されたキーワ
ード群は異表記展開プログラム２５０４へ渡される。本
図の例の場合、′計算機”から、″電算機″、″コンピ
ュータ”“Ｃ０ＭＰｔ１ＴＥＲ”などが生成される。異表記展開プログラム２５０４では、ここに入力されて
きたキーツー１−群に対して異表記展開処理が施される
。本図の例の場合、″コンピュータ”から“コンピュー
ター”が、また“ＣＯＭＰＵＴＥＲ”から”Ｃｏｍｐｕ
ｔｅｒ”などが生成される。こうして同義語及び異表記展開されたキーワード群は、
次にオー１−７１〜ン生成用コンピユータ（ＣＰ　Ｕ　
１）　２５０５　ａ上のオートマトン生成プログラム２
５０５に送られる。オートマトン生成プログラム２５０５では、異表記展開
プログラム２５０４から送られてきたキーワード群に対
して、これらを−括照合するオートマトンを生成し、状
態遷移テーブルと照合すべきキーワードの識別コード情
報として、サーチエンジン２５０６に設定する。サーチ
エンジン２５０６は有限オートマトン方式に基づく高速
多重文字列照合回路である。また、異表記展開プログラム２５０４で異表記展開され
たキーワード群は、該当キーワード識別コードと共に、
ビットサーチ用コンピュータ（ＣＰ　Ｕ３）　２５０７
　ａ上のビットサーチプログラム２５０７へ渡される。一方、検索式解析プログラム２５０２から入力検索条件
式中の複合条件記述部を受け取ったサーチマシン制御用
コンピュータ（ＣＰＵ、）２５５０上の複合条件解析プ
ログラム２５４１では、これを解析して近傍条件記述部
と文脈条件記述部並びに論理条件記述部に分離する。そ
して、各条件記述部をそれぞれ近傍条件解析プログラム
２５４２、文脈条件解析プログラム２５４３及び論理条
件解析プログラム２５４４へ渡す。近傍条件解析プログラム２５４２では、字間距離条件や
語間距離条件が抽出される。ここで抽出された各条件は
、指定されたキーワードの識別コードとその間の距離情
報に変換され、複合条件判定用コンピュータ（ＣＰＵ２
）２５４５ａ上の複合条件判定プログラム２５４５に渡
される。文脈条件解析プログラム２５４３では、同−交円共起条
件や同−段落的共起条件、同−筒内共起条件、同−意向
共起条件などの各種の共起条件が抽出される。ここで抽
出された各条件は、指定されたキーワードの識別コード
と指定文脈コード情報に変換され、複合条件判定用コン
ピュータ（ＣＰＵ２）２５４５ａ上の複合条件判定プロ
グラム２５４５に渡される。論理条件解析プログラム２５４４では、検索条件式中に
指定された論理条件が抽出され、論理条件コード情報に
変換され、複合条件判定用コンピュータ（ＣＰＵ２）２
５４５ａ上の複合条件判定プログラム２５４５に渡され
る。さて、上述した検索式解析処理、同義語及び異表記展開
処理、オートマトン生成処理、複合条件解析処理、近傍
条件解析処理、文脈条件解析処理、及び論理条件解析処
理が終わり、ビットサーチ用コンピュータ（ＣＰ　Ｕ　
３　）　２５０７　ａ上のビットサーチプログラム２５
０７、サーチエンジン２５０６、及び複合条件判定用コ
ンピュータ（ＣＰ　Ｕ　２　）　２５４５　ａ上の複合
条件判定プログラム２５４５にそれぞれ制御情報が渡し
終わると、検索処理が始められる。検索処理は、サーチマシン制御用コンピュータ（ＣＰＵ
、）２５５０上の検索実行制御プログラム２５０８によ
り制御される。すなわち、検索実行制御プログラム２５
０８では、まずビットサーチプログラム２５０７に起動
を掛け、半導体メモが＋ｎ。す装置２５１０ａから文字成分表を読み出して文字成分
表サーチを行う。文字成分表サーチ結果は、該当文書識
別子として検索結果格納メモリ２５４６に書き出される
。次に、ストリングサーチエンジン２５０６、複合条件判
定プロクラム２５４５及びＲＡＭディスク装置２５１０
ｂに起動を掛けて、検索結果格納メモリ２５４６に書き
出された文書識別子で指定される文書の凝縮本文をＲＡ
Ｍディスク装置２５１０ｂからストリングサーチエンジ
ン２５０６へ読み込み凝縮本文サーチを行う。凝縮本文
サーチ結果は、該当文書識別子と照合キーワード識別子
及びキーワード照合位置情報が組み合わされた照合情報
として、複合条件判定用コンピュータ（ＣＰ　Ｕ２）　
２５４５　ａ上の複合条件判定プログラム２５４５に渡
される。複合条件判定プログラム２５４５では、先に設
定された複合条件判定制御情報に基づいて、指定条件に
合致する文書を判定し、その文書識別子を検索結果格納
メモリ２５４６に書き出す。そして、検索実行制御プログラム２５０８は、複合条件
中に近傍条件あるいは文脈条件が設定されているかを判
定し、もし設定されている場合には最後の本文サーチを
行う。すなわち、ストリングサーチエンジン２５０６、
複合条件判定プログラム２５４５及び集合型磁気ディス
ク装置２５↓Ｏｃに起動を掛けて、凝縮本文サーチの結
果得られた検索結果格納メモリ２５４６中の該当文書識
別子に対応する本文データを集合型磁気ディスク装置２
５１０ｃからストリングサーチエンジン２５０６へ読み
込み本文サーチを行うことになる。集合型磁気ディスク装置２５１０ｃは複数台の磁気ディ
スク装置２５１０ｅ□〜２５１０ｅ□２から構成され、
文字成分表、凝縮本文、本文、及び書誌事項などの各種
テキストデータがこれらの磁気ディスク装置２５１０ｅ
、〜２５１０ｅ工２に分散して格納される。そして、こ
れらの磁気ディスク装置２５１０ｅ、〜２５１０ｅ１□
は集合磁気ディスク制御装置２５１０ｄの制御のもとに
、平行して独立にテキストデータを読み出す。読み出さ
れたそれぞれのテキストデータは、集合磁気ディスク制
御装置２５１０ｄで統合され、すなわちマルチプレクシ
ングされて高速にストリングサーチエンジン２５０６へ
送り出される。工２台の磁気ディスク装置を同時に動作
させた場合、−台だけの場合に比較して釣上０倍の読み
出し速度が得られることになる。ストリングサーチエンジン２５０６から出力される集合
情報は、複合条件判定プログラム２５４５に渡され、こ
こで指定された近傍条件及び文脈条件に合致するか否か
の判定処理が行われる。この判定処理結果は、最終的な
検索結果情報として、該当文書識別子という形で検索結
果格納メモリ２５４６に出力される。凝縮本文サーチあるいは本文サーチが済み、最終的に検
索処理が終わると、サーチマシン制御用コンピュータ（
ＣＰＵ、）２５５０上の検索結果表示プログラム２５４
７が、検索結果格納メモリ２５４６上の該当文書識別子
に基づいて、検索結果件数、あるいはヒツトした文書の
書誌情報である文書名や著者などの書誌事項を集合型磁
気ディスク装置２５］、○Ｃから読み出してデイスプレ
ィ２５２０へ一覧表示したり、あるいはユーザの指定に
応じてヒツトした文書の本文データを集合磁気ディスク
装置２５１０ｃから読み出して表示したりする。更に、
ユーザがヒツトした文献の図面や画像情報の閲覧を指定
した場合には、イメージデータファイル２５３０から該
当するイメージデータを読み出しデイスプレィ２５２０
へ表示する。以」二が本発明により提供されるフルテキストサーチ装
置の第二の実施例についての説明である。また、本実施例ではテキストデータを格納するテキスト
データファイル１工○（第工図）として集合磁気ディス
ク制御装置１１０ｄ　（第２０図）を用いているが、テ
キストデータファイル１．１０の容量を拡大するために
集合型の光ディスク装置を用いることも可能である。す
なわち、磁気ディスク装置１．１０ｅ１〜１１０ｅ□２
の代わりに、光ディスク装置を用いることも可能である
。ただし、磁気ディスク装置を用いる場合に比較して、
アクセス速度が落ちるため、本文サーチ速度がその９低
下することになる。さらに、この場合、光ディスク装置
として、テキストデータの修正がない場合には追記型の
光ディスク装置が使え、テキストデータの修正が生じる
場合には書替え型の光ディスク装置を用いることになる
。次に、上述した第二の実施例におけるＲＡＭディスク装
置２５１０ｂの具体的実施例について、第７５図を用い
て説明する。本図において、ＲＡＭディスク装置２５１０ｂは、凝縮
本文を納める半導体メモリ７１００（ＲＡＭ）と、この
半導体メモリ７１００上の凝縮本文の読み出しを制御す
るＲＡＭディスクコントローラ７２００から構成される
。ＲＡＭディスクコン１−〇−ラフ２００は、ダイレクト
メモリアクセスコンＩ−ローラ７２１０（ＤＭＡＣ）、
アドレスコントローラ７２２０、アドレスメモリ７２３
０から構成される。アドレスメモリ７２３０には、半導
体メモリ７１００内のどこからどこまで読みだすのかを
、それぞれ開始アドレス５ＴＡＲＴｎと終了アドレスＥ
ＮＤｎの対データとして、複数組設定できるようにして
いる。この開始アドレス７３６０と終了アドレス７３７
０は、検索実行制御プログラム２５０８　ニより、検索
結果格納メモリ２５４６内に書き込まれた読み出し対象
とすべき凝縮本文の識別子情報をもとに、検索実行制御
プログラム２５ｏ８内で管理される凝縮本文格納情報を
参照して与えられる。アドレスコントローラ７２２０は、検索実行制御プログ
ラム２５０８から与えられる起動信号に基づいて、アド
レスメモリ７２３０内の読み出し領域アドレス情報、す
なわち開始アドレス５ＴＡＲＴ１と終了アドレスＥＮＤ
□を読み出し、これから読み出すべき領域の先頭アドレ
ス７３１０と読み出すべきワード数７３２０を求めて、
これをダイレクトメモリアクセスコントローラ７２１０
に設定され、これに起動を掛ける。ダイレクトメモリア
クセスコントローラ７２↓０は、指定されたアドレス７
３　］−０とワード数７３２０に基づき、該当領域のデ
ータを半導体メモリ７３−００から読み出し出力する。ダイレフ１〜メモリアクセスコントローラ７２１０は、
読み出しが終了したら終了信号７３７０をアドレスコン
トローラ７２２０へ送出する。アドレスコントローラ７
２２ｏはこれを受けて、次の転送アドレス情報、すなわ
ち開始アドレス５ＴＡＲＴ２と終了アドレスＥＮＤ２を
読め出し、同様にしてこれから読み出す八き領域の先頭
ア１〜レス７３１０と読み出すべきツー１〜数７３２０
を求めて、これをダイレクトメモリアクセスコントロー
ラ７２１０に設定し、起動を掛ける。これを受けてダイ
レクトメモリアクセスコントローラ７２１ｏは指定され
たアｌ〜レス７３１゜とワード数７３２０に基づき、該
当領域のデータを半導体メモリ７１００から読み出し出
力する。以下同様の処理をくりかえして、アドレスメモリ７２３
０内に設定された転送情報に対応する半導体メモリ７１
００内のデータを読み出すことに−１，、Ｌもなる。以上が、ＲＡ、　Ｍディスク装置２５１０ｂの実施例の
説明である。次に、上記第二の実施例における複合条件解析プログラ
ム２５４１　（第２５図）の更に詳細な実施例について
第１３図を用いて説明する。本実施例では、複合条件解析プログラム１１４１が、近
傍条件判定プログラム３３０、文脈条件判定プログラム
３４０、及び論理条件判定プロゲラｔ、、　ａ　５０に
よりパイプライン的に構成されている。また、検索実行制御段階としては、本文サーチを行う場
合を例にしている。すなわち、入力テキストデータとし
ては、集合型磁気ディスク装置１１、１０　ｃから本文
データを入力し、このなかからサーチエンジン１１０６
でキーワードの探索照合を行う場合である。探索条件式としては、論理条件、近傍条件及び文脈条件
を含む複合条件式３０１が入力されるものとする。複合条件式３０１：Ｑ＝ａｎｄ（文書〔４Ｃ〕理解、文
書（Ｓ）検索）この複合条件式３０１は、「文書」と「理解」がこの順
序で現れ、かつ４３ｒ字以内の距離に近接し、さらに「
文書」と「検索」が同一文中に共起するものを検索する
ことを意味している。すなわち、″文書〔４Ｃ〕理解″
が、「文書」と「理解」がこの順序で現れ、かつ４文字
以内の距離に近接するという近傍条件を示し、″文書［
Ｓ’ｌ検索″が、「文書」と「理解」が同一文中に共起
する文脈条件を、　　ａｎｄ　　（・・・、・・・）″
が、これら両者が同時に起こるという論理条件を示して
いる。このような複合条件検索式３０土が指定されると、第二
の実施例（第２５図）で説明したように、先ずこの検索
条件式が検索式解析プログラム１１０２で解析され、こ
れに含まれるキーワー１〜、すなわち単語「文書」、「
理解」及び「検索」が抽出される。そして、これらにそ
れぞれＴ□、Ｔ２及びＴ３という識別子が付与され、同
義語展開プログラム１１０３、さらには異表記展開プロ
グラム１」０４へ渡される。ここでは、説明を簡単にす
るために、同義語及び異表記展開される言葉がなかった
ものとして説明する。したがって、同義語及び異表記展
開された結果は、入力キーワードと変わらず、「文書」
、「理解」及び「検索」の３単語ということになる。こ
れらは、オー１−７１〜ン生戊プログラム１１０７に渡
され、ここで各文字列を照合するオートマトンが作成さ
れ、その状態遷移テーブルがサーチエンジン１１０６に
設定されることになる。一方、検索条件式中の複合条件については、複合条件解
析プログラム１１４１にて、それぞれ近傍条件″文書〔
４Ｃ〕理解″、文脈条件″文書〔Ｓ〕検索″、及び論理
条件”ａｎｄ　（・・・・・・、・・）に分解される。この時、各条件式中のキーワードは、先にオートマトン
生成に際して付与されたキーワード識別子（ターム識別
子ども呼ぶ）で置き換えられる。したがって、近傍条件
はｒｒＴ□［４Ｃ３Ｔ２”と、文脈条件は”Ｔ、　ｌ：
ｓ’ｌ　Ｔ３’″という形式で表される。また、これら
の条件式にｊ１９− もそれぞれ項識別子■□及び１．が付与される。し。たがって、論理条件式は”ａ　ｎ　ｄ　（Ｉｘ＋　Ｉ２
）”と表されることになる。以」二の処理は、それぞれ
近傍条件解析プログラム２５４．２（図２５）、文脈条
件解析プログラム２５４３　（図２５）及び論理条件解
析プログラム（図２５）２５４４にて行われる。このよ
うにしてターム識別子及び項識別子で表現された各条件
は、複合条件判定プログラム２５４５　（図２５）の各
条件判定処理プログラムに送られる。こうしてサーチエンジン１１０６に各検索ターム照合用
のオートマトン状態遷移テーブル及び検索ターム識別子
情報が設定され、近傍条件判定プログラム３３０、文脈
条件判定−プログラム３４．　Ｏ５及び論理条件判定プ
ログラム３５０にそれぞれ検索ターム識別子及び項識別
子で記述された各条件式が設定されると、検索実行制御
プログラム１１０８により集合型磁気ディスク装置１↓
１０Ｃ、サーチエンジン１１０６、複合条件解析プログ
ラム１１４５、近傍条件判定プログラム３３０、文脈条
件判定プログラム３４０、及び論理条件判定プログラム
３５０に起動が掛けられる。そうすると、集合型磁気ディスク装置１１１０Ｃからはテキストデータが読み出されサーチエ
ンジン１１０．６へ送られる。サーチエンジン１１０６
では、指定された検索ターム「文書」、「理解」及び「
検索」のどれかが見つかると、その検索ターム識別子Ｔ
、、Ｔ２及びＴ３力天見つかったテキスト内の位置情報
と一緒に近傍条件判定プログラム３３０へ送られる。ま
た、支間の区切り記号となる「。」についても、とくに
ユーザからの指定かなくともサーチエンジン１１０６で
検出にれに対応する句点識別子Ｔ。並びに位置情報を近
傍条件判定プログラム３３０に送り出す。近傍条件判定プログラム３３０では、サーチエンジン１
１０６から送られてくる検索ターム識別子をその位置情
報も加味して指定された近傍条件と照らし合わせる。も
し指定近傍条件″Ｔ□（４Ｃ）　Ｔ２”　、すなわち″
文書〔４Ｃ〕理解″に合致するものがあれば、その照合
結果として該・へ光条件に対応した項識別子■□を、サーチエンジン１１
０６から入力した句点識別子Ｔ。、検索ターム識別子Ｔ
□、Ｔ２及びＩ３に加えて文脈条件判定プログラム３４
０へ送り出す。文脈条件判定プログラム３４０では、上記近傍条件判定
プログラム３３０から入力した句点識別子Ｔｏ及び検索
ターム識別子Ｔ□、Ｔ３並びにその位置情報を基に、指
定文脈条件をチエツクする。文脈条件ｒｒＴ□［：５）Ｉ３”は、上記句点識別子Ｔ
ｏと、Ｔよ及びＩ３の並びから判定する。すなわち、Ｔ
１とＩ３がこの順序でその前後を二つのＴ。で挾まれていれば文脈条件”Ｔ１［５）Ｉ３”が成立し
たものと判断する。もにの文脈条件″文書〔Ｓ〕検索″
に合致するものが見つかれば、その照合結果として該当
条件に対応した項識別子■２を、近傍条件判定プログラ
ム３３０から入力した句点識別子Ｔ。、及び検索ターム
識別子Ｔ１．　Ｉ３並びに項識別子工、に加えて論理条
件判定プログラム３５０に送り出す。論理条件判定プログラム３５０では、文脈条件判定プロ
グラム３４０から送られてくる句点識別子Ｔ。及び検索
ターム識別子Ｔ１．Ｔ３並びに項識別子１１．　Ｉ２の
中から指定論理条件”　ａ　ｎ　ｄ（１１，Ｉ２）　”
に合致する識別子１１．　Ｉ、があるかどうか調べる。すなわち、項識別子■□と工、の両者が見つかれば火元
の複合条件検索式Ｑが戊り立ったことになり、そのテキ
ス１−（文書）は検索式Ｑで検索されたことになる。該
当テキストの例としては、同図に示したテキスｌ−３０
２のようなものが検索されることになる。一方、上記集合型磁気ディスク装置１１１０ｃから、サ
ーチエンジン１１０６、近傍条件判定プログラム３３０
、文脈条件判定プログラム３４０及び論理条件判定プロ
グラム３５０へ流れる照合情報の中にはこれまで説明し
なかったテキストデータの識別子も含まれている。すな
わち、論理条件判定プログラム３５０では検索式Ｑが成
立したテキストデータについては、その文書識別子を次
段の検索結果表示プログラムへ送られ、ここでヒツト件
数が表示されたり、あるいはこの文書識別１Ｌ）３子をもとに集合型磁気ディスク装置１１１０ｃから該当
文書の書誌事項が読み出され、これがデイスプレィ１１
２０へ表示されることになる。以上が、第二の実施例における複合条件判定プログラム
２５４５（第２５図面の簡単な説明である。以」二が、第一の実施例におけるテキストデータファイ
ル１１↓Ｏ（第１０図）と、複合条件解析部１１４１　
（第１０図面の簡単な説明である。次に、本発明が提供するフルテキストサーチ方式につい
て具体的に説明する。本発明においては、スキャン型のフルテキストサーチを
加速する方法として、２段階のプリサーチ、すなわち第
１５図に示す文字成分表サーチ４０２と凝縮本文サーチ
４０３を行っている。すなわち、本文サーチ４０３を行
う前に上記２段階のプレサーチを行うことによって、磁
気ディスクに格納されたテキスト本文を参照しに行く件
数を予め絞り込んでおく。こうすることによって、検索
処理時間に占める割合が高い本文検索処理量を減らすこ
とができ、全体の検索処理時間を短縮することか可能と
なる。これらは全て検索実行制御プログラムによって制御され
る。先ず、第１段階目のプリサーチである文字成分表サ
ーチの実施例について説明する。本文字成分表サーチでは、第二６図の登録処理全体の流
れ及び第１８図に詳細に示したハツシュコード化手順に
示すように、後述する凝縮本文中のすべての文字コード
に対してその文字コードをテキスト中に含む文書のリス
トを作成しておく。すなわち、各文字コードの文書毎の有無をエビットの情
報（ビットリストと呼ぶ）で表し、更にこれをハツシュ
化したものを文字成分表５００として持つ。例えば、「検索」というキーワードが指定された場合に
は、第１８図に示すように「検」と「索」のそれぞれの
文字毎にハツシュ関数５１０を介して文字成分表５００
のエントリアドレスを求める。そして、それぞれの文字コードのハツシュ値から求めら
れたピッ１〜リスト５０３および５０６のピッ１−間の
論理積を取ることによって、「検」と「索」の両文字を
含む文献のビットリスト５２０が求められる。以上の文字成分表サーチの処理手順は、第２３図に示し
たとおりである。すなわち、指定された検索条件式中に
含まれるキーワード数分だけ文字成分表サーチを繰返し
、各キーワードの文字成分表サーチでは、このキーワー
ドを構成する文字数分、それぞれの文字の存在を示した
ビットリストの論理積ＡＮＤをとることになる。この結
果、各キーワード毎に、これを含む可能性を持った文書
候補がビットリストの形で求まることになる。最後に、
こうして求まったビットリストを文書識別子へ変換する
。この文書識別子はシステム内部でユニークに定められ
た文書番号であり、ビットリストの先頭からビット位置
に対応して付与されている。また、文字成分表サーチにおいて、指定された検索条件
式中に論理積条件（ＡＮＤ）が設定されている場合には
、文字成分表サーチ処理の中で論理積条件の処理も行い
、これ以降の検索処理対象文書件数を絞り込んでおくこ
とによって、全体の検索処理時間を短縮することが可能
となる。例えば、 ”Ｑ＝ａｎｄ（文書、検索）″ という検索条件式が入力された場合について説明する。この検索条件式は、″文書″と″検索″が両方共裏われ
る文書を検索する意味を表す。この場合、まずキーワー
ド″文書″にいて文字成分表サーチを行い、次にパ検索
”というキーワードについて文字成分表サーチを行う。その後、この両者の検索結果のビットリスト間の相互の
ビット毎の論理積ＡＮＤをとり、文字成分表サーチの最
終的な検索結果とする。この処理手順を第２４図に示す
。本図では、検索条件式中に含まれるキーワード、すな
わちキーワード数分文字成分表サーチを繰返すことにな
る。そして、この各キーワード毎の文字成分表サーチにおい
ては、このキーワードを構成する文字数分、それぞれの
文字の存在を示したビットリストの論理積ＡＮＤをとる
。この処理を、全キーワード数分行った後、各キーワー
ドの文字成分表サーチ結果のビットリス１〜間の論理積
ＡＮＤをとる。こうして得られた最終ビットリストは、検索条件式中の
論理積条件で指定されたキーワードを同時に含みうる文
書候補を表すことになる。以」二の処理のように、指定された検索条件式中に論理
積条件（ＡＮＤ）が設定されている場合には、文字成分
表サーチ処理の中で論理積条件の処理も行い、これ以降
の検索処理対象文書件数を絞り込むことによって、全体
の検索処理時間を短縮することが可能となる。この文字成分表５００は、各文字コードの文献毎の有無
をｌビットの情報で表すと共に、更にこれをハツシュ化
しているため、テーブル容量は原テキストデータの数十
分の＋になり、サーチすべきデータ容量も極めて小さく
なり、検索の高速化に大きく寄与することになる。ただ
し、この文字成分表サーチだけではノイズが生じてしま
う。すなわち、検索処理手順を示す第エフ図の文書３の
様に「検」と「索」がばらばらに表れるテキストも検索
されてしまうことになる。このノイズを消去するのが第
二のプレサーチ、すなわち、凝縮本文サーチである。第二のプリサーチである凝縮本文サーチでは、凝縮本文
を対象に検索を行う。凝縮本文は、予めテキスト本文の
中から助詞や接続詞などの付属語を削除すると共に繰り
返し現れる単語の重複を排除したものである。第１９図
にこの凝縮本文の作成方法を示す。ここでは、「あいまい検索のための知的検索技術」６０
１というテキスＩ・文字列を例にとる。先ず最初に文字
種分割処理６１０において、入力文字列を異なる文字種
の間で分割する。この例では、「あいまい」、「検索」
、「のための」および「知的検索技術」の４つの文字列
６０２に分解される。次に付属語解析処理６２０において、文字種分割された
文字列６０２のうち、ひらがな文字列「あいまい」と「
のための」に対して［、↑属語解析を加え、付属語と解
釈できるものは検索には用いられない言葉として取り除
く。すなわち、助詞や接続詞とみなせるものについては
捨ててしまう。このような言葉は、もし検索のキーワードとして用いた
としても、はとんど全ての文書に現れるため、はぼ全件
がヒツトしてしまうことになり、検索という意味をなさ
ないことになる。この例では、ひらがな文字列「のため
の」６０３が助詞「の」と、接続詞「ため」及び助詞「
の」と、すべての部分文字列が不要語と解釈できるので
、検索には使われ得ない文字列とみなして除去する。一
方、「あいまい」は付属語と解釈することができないの
で、そのまま凝縮本文として残す。この場合、「あいま
い」を名詞として認識して残しているのではない。した
がって、どのような新語が文書に現れようとも、必す凝
縮本文に登録されることになる。最後に、重複登録排除処理６３０において、不要語とし
て除去された残りの文字列群６０２の中に、同じ言葉が
ないかどうかを調へる。もし、同じものがあれば二重登
録しないように次のものを捨ててしまう。まったく同じ
でなくとも、どちらかの文字列がもう一方の文字列に含
まれていれば、その含まれる文字列は不要であるので捨
ててしまう。本図の例では、「検索」が「知的検索技術
」に含まれるため、重複登録排除ということで切り落と
される。その結果、凝縮本文として最終的に、「あいま
い」、「検索」及び「技術」が残ることになる。このよ
うに、凝縮本文は単語単位で原文書を情報圧縮したこと
になるため、この凝縮本文をサーチすることによって、
例えば「検索」と連続した文字列、すなわち単語として
キーワードが現れる文書のみを拾い出すことが可能にな
る。このようにして作成された凝縮本文は、原テキストと比
較しその約２０〜２５％に容量が減じられる。したがっ
て、フルテキストサーチを等価的に約５倍高速化できる
ことになる。さらに、この凝縮本文を半導体メモリなど
の高速アクセスが可能なメモリ上に置くことによって、
さらに等価スキャン速度を高めることが可能となる。また、本凝縮本文の作成方式は、キーワード辞書などを
用いて検索に必要とする単語を切り出してくる方法と異
なり、辞書を用いず文法的に解析し得る不要語だけを除
去する方法を用いているために、必要な単語を切り落し
てしまう危険性がなく、検索漏れが生じにくい特徴があ
る。従来の検索方式ではキーワード辞書に登録されてい
ない新語などが採取できないことにより検索漏れが生じ
たりするが、本方式では新語であっても凝縮本文から落
ちることがないため、新語ということによる検索漏れが
生しることはない。また、この凝縮本文検索は、サーチエンジン１１０６　
（第１０図）を用いて行われ、この後この凝縮本文検索
の結果絞り込まれた文書について、該当する本文データ
をサーチし最後の複合条件による検索を行うことになる
。すなわち、本文サチではテキスト本体をスキャンしな
ければ判定ができない近傍条件と文脈条件の判定処理を
行いながら検索をすることになる。通常、文字成分表と凝縮本文は１本文データと共に集合
型磁気ディスク装置１１］、Ｏｃ（第３図）に格納され
ていて、検索システムの立ち上げ時にそれぞれ半導体メ
モリ装置１１１０ａ及びＲＡＭディスク装置１１１０ｂ
ヘローデインされる。検索時には、それぞれ半導体メモ
リ装置１１１０ａ及びＲＡ、　Ｍディスク装置１］−１
０ｂから読み出されることになる。また、本文データは
格納元の集合型磁気ディスク装置１１１０ｃ　（第Ｉ３
図）から直接読み出されて、検索されることになる。以上説明したように、事前に「文字成分表サーチ」と「
凝縮本文サーチＪという２段階のブリサーチを行い、最
も時間を要する「本文サーチ」の対象となる文書数を予
め最小に絞り込んでおくことによって、等価的に高速な
フルテキストサーチが実現できるようになる。本文検索では、テキス１〜データをスキャンしなければ
判別ができない近傍条件と文脈条件の判別処理を加えて
検索を行うことになる。通常、文字成分表及び凝縮本文
は集合磁気ディスクに格納されているが、システムの立
上時にＲＡＭディスクにロードされ、検索時にはＲＡＭ
ディスクから読み出される。テキスト本文は集合磁気デ
ィスク装置２５１０　（第２５図）から読み出されるこ
とになる。このように、事前に２段階のプリサーチを行い、最も時
間を要する本文検索の対象となる文献数を予め最小に絞
り込んでおくことによって、等価的に高速なフルテキス
トサーチが実現できることになる。この３段階検索では、近傍条件検索と文脈条件検索が指
定されなかった場合には、本文をサーチする必要がない
ので、文字成分表サーチと凝縮本文サーチだけで検索を
終了することができる。すなわち、第２上図に示すよう
に、指定検索条件式中に近傍条件あるいは文脈条件が含
まれない場合には、キーワードが単語として存在するか
否かだけを探索すればよいことになるため、文字成分表
サーチで指定キーワー１−を構成する文字を含む文書を
抽出し、その結果求められた文書の凝縮本文をサーチし
てキーワードが単語として含まれるもののみを抽出し、
検索を終えることができる。この結果、サーチ時間が掛
かる不要な本文サーチを省略できるため、検索時間を全
体として短縮することが可能となる。また、この３段階の階層検索において、最初の文字成分
表サーチ結果がゼロ件で該当文書がなかった場合には、
ここで検索を打ち切ることが可能である。すなわち、第
２２図に示すように、近傍条件あるいは文脈条件が設定
されていたとしても、次段の凝縮本文サーチとその後の
本文サーチを省略することができる。同様に、凝縮本文
サーチ結果件数がゼロ件の場合には、たとえ近傍条件あ
るいは文脈条件が設定されていたとしても、次段の本文
サーチを省略することが可能である。この結果、入力さ
れた検索条件式に応じて最小の時間で検索処理を済ませ
ることが可能となる。以上説明した階層型のプリサーチでは、半導体メモリ上
に置いた文字成分表と凝縮本文で絞り込みを行い、最後
に本文を集合磁気ディスク装置から読み出して検索を行
う方式としている。このように凝縮本文を半導体メモリ
に置く方式では、半導体メモリを用いる分検索装置のコ
ストが高くなる。したがって、凝縮本文を磁気ディスク
装置」ニに置いて検索を行うことにより、半導体メモリ
を不要とすることができ、装置のコストを低く抑えるこ
とが可能となる。ただし、文字成分表サーチで絞り込んだ結果で凝縮本文
サーチを行う場合、凝縮本文を集合磁気ディスク装置上
から選択的に読み出すことになる。この場合、比較的小容量の多数のデータをアクセスする
ことになるため、集合磁気ディスク装置からの実効的な
読み出し速度、すなわちスループッ１〜は、データの読
み出し時間よりも、むしろシーク時間に大きく影響され
ることになる。したがって、文字成分表サーチの結果件
数が多い場合には、アクセス時間が極めて短い半導体メ
モリ上に凝縮本文を置いた場合に比較して、凝縮本文サ
ーチ時間が極めて大きくなることになる。このような場
合には、凝縮本文を選択的に拾い読みするより、全件を
１フアイルとしてまとめ読みする方がシーク回数を減少
させることができるため、はるかに短時間で読み出しを
行うことが可能となる。したがって、検索装置のコストを低減するために、凝縮
本文を半導体メモリではなく磁気ディスク装置」二に置
いたまま検索する場合、第２０Ａ図に示すような手順で
検索を行うことによって、検索速度を大きく落すとこな
く検索を行うことが可能となる。すなわち、文字成分表
サーチの結果件数が所定件数よりも多い場合には、この
文字成分表サーチの検索結果を無視して、新たに凝縮本
文を全件集合磁気ディスク装置から読み出して指定キー
ワードの存在を検索する。もし、文字成分表サーチの結
果件数が所定件数よりも少ない場合には、集合磁気ディ
スク装置」二の該当凝縮本文を選択的に読み出して凝縮
本文サーチを行う。この場合の所定件数とは、凝縮本文をこの所定性数分選
択的に読み出す時間と、凝縮本文を全件−つのファイル
として連続的に読み出す時間が等しくなるような読み出
し件数のことである。また、この場合も当然凝縮本文サ
ーチ結果件数がゼロ件の場合には、近傍条件及び文脈条
件の設定の有無にかかわらず、ここで検索処理を打ち切
ることが可能である。また、本文データの容量が小さい場合には、殻内に冗長
な文章が少ないため、凝縮本文の大きな圧縮率は望めな
い。したがって、ファイルの読み出し時間においてディ
スクのシーク時間と回転待ち時間が支配的なことを考慮
すれば、凝縮本文の読み出し時間と本文の読み出し時間
に大きな差が生しなくなることになる。すなわち、文字
成分表サーチの結果件数が所定件数よりも少ない場合に
は、第２２Ｂ図に示すように集合型磁気ディスク装置上
の該当本文データを選択的に読み出して本文サーチを行
う方が効率的になる。つまり、最初の文字成分表サーチ
の結果件数が所定件数よりも多い場合には、この文字成
分表サーチの検索結果を無視して、新たに凝縮本文を全
件集合型磁気ディスク装置から読み出して指定キーワー
ドの存在を検索する。この場合、当該凝縮本文サーチ結
果件数がゼロ件の場合には、近傍条件及び文脈条件の設
定の有無にかかわらず、ここで検索処理を打ち切る。ゼ
ロ件でない場合には、条件式中に近傍条件あるいは文脈
条件が設定されているかを見て、もし設定されていると
きには本文サーチを行うことになる。一方、文字成分表
サーチの結果件数が所定件数よりも少ない場合には、集
合型磁気ディスク装置上の該当本文を選択的に読み出し
て近傍条件及び文脈条件を含めて本文サーチを行うこと
になる。このような検索手順を踏むことによって、文書
データの平均容量が小さい場合には、さらに効率的な検
索が行えるようになる。このように、文字成分表サーチの結果件数に応して凝縮
本文の読み出し方法を変えることによって、凝縮本文を
集合磁気ディスク装置上に置いても、検索時間を大幅に
増やすことなく検索処理ができるようになるため、低価
格で高性能な全文検索装置の提供が可能となる。次に本発明による同義語展開及び異表記展開の変形例に
ついて説明する。第２８図は本発明の実施例の構成を示すブロック図であ
る。本実施例は、コンソール２８００、対話制御部２８
０１、異表記展開処理部２８０２及び２８０５、同義語
展開処理部２８０３、同義語辞書ファイル２８０４．　
、文字列統合列部２８０６、文字列検索処理部２８０７
、テキス１〜データベース２８０８から構成されている
。コンソール２８００から入力された検索文字列４０は
、対話制御部２８０１を介して異表記展開処理部２８０
２へ送られる。異表記展開処理部２８０２で展開した文
字列群４土は、同義語展開処理部２８０３へ送られると
共に、文字列統合処理部２８０６へも送られる。同義語
展開処理部２８０３では、同義語辞書２８０４を参照し
送られてきた文字列群４１の各文字列と辞書の見出しと
のマツチングをとり、−１した文字列が存在すれば、同
義語展開モート制御信号２８１０に従い、辞書に記載し
である見出しに対応する言葉を出力し、異表記展開処理
部２８０５へ文字列群４２を送る。異表記展開処理部２
８０５では、同義語展開された文字列４２に対し、異表
記展開処理部２８０３と全く同じ処理方法で異表記展開
して、文字列群４３を文字列統合処理部２８０６へ出力
する。文字列統合処理部２８０６は、異表記展開処理部
２８０２と２８０５から受け取った文字列群４１と文字
列群４３を、一つの文字列群４４にまとめて文字列検索
部２８０７へ出力する。文字列検索部２８０７は、受け
取った文字列群４４のうちのいずれかの文字列が存在す
るものをテキストＤＢから検索して、ヒツトした文書の
識別子情報などを、対話制御部２８０１へ検索結果４５
として出力する。対話制御部２８０１は、この検索結果
４５を受けて、検索結果件数４６や、テキスト情報４６
を適宜コンソール２８００へ出力する。異表記展開処理部２８０２と２８０５は、全く同一のも
のである。文字列検索部２８０７は公知の技術で、例え
ば特開昭６３−３１↑５３０を用いて実現できる。テキ
スＩ−Ｄ　Ｂ　４．０８は、文字コード情報であれば、
新聞記事データでも、ワープロで作成した文書のデータ
でも、電子ファイリングシステムの書誌事項データでも
構わない。以下、異表記展開処理部２８０２．２８０５と同義語展
開処理部２８０３の構成作用について詳細に説明する。＼まず、異表記展開処理の概要を第２９図を用いて説明す
る。ここでは、最初に入力文字列２９０１を異なる字種
の間で切断し、部分文字列へ分割する。例えば、入力文字列２９０１ “卓上型インクフォーン” の場合には、漢字文字列２９０２ ″卓上型” と、カタカナ文字列２９０３ “インクフォーン” 八女字種に従って分割する。次に、分割した文字列毎に
異表記展開を行ない、漢字異表記文字列リスト２９０４
、カタカナ異表記文字列リスト２９０５を得る。その後
、漢字異表記文字列リスト２９０４及びカタカナ異表記
文字列リスト２９０５をそれぞれ展開し、２つの文字種
で別々に展開した文字列群を１つに組み合せて最終結果
２９０６として出力する。次に、第３０図を用いて異表記展開の処理内容を詳細に
説明する。第３０図は本発明における異表記展開手段の
実施例を示すブロック図である。本実施例の構成は、文字種分割・選別部３００１、ロー
マ字判別部３００２、ローマ字カナ変換部３００３、漢
字異表記展開部３００４、カタカナ異表記展開部３００
５、アルファベット異表記展開部３００Ｆ３、カナロー
マ字変換部３００７、分割文字列統合部３０１０よりな
る。異表記展開処理部２８０２あるいは２８０５への入力文
字列３０２０は、まず文字種分割・選別部３００工へ送
られる。文字種分割・選別部３００１では入力文字列３
０２０を、上述したように漢字及びひらがな文字列３０
３工、カタカナ文字列３０３２、アルファベット文字列
３０３３、それ以外の文字列３０３０の４種類の部分文
字列に分割する。分割した部分文字列をそれぞれの文字
種に従って分類し、別々の展開処理を施す。以下文字種
別に、その展開処理の概要を示す。（１）漢字・ひらがな・カタカナ・アルファベット以外
の文字列この文字種には数字、記号、特殊文字あるいは′ゝ＼外字コー１く等が当たる。本実施例ではこれらの文字種
を、展開せずに入力した文字列３０３０をそのまま分割
文字列統合部３０１０へ出力している。しかし数字に関して英数字を漢数字に変換したり、英記
号に関して記号″・″を−′″や／”に展開することな
ども考えられる。（２）漢字・ひらがな文字列これらの文字種に関しては、文字列３０３１を漢字異表
記展開部３００４にて、漢字の新旧字体及び送りがなに
ついての異表記展開をする。漢字異表記展開部３００４
の出力文字列３０４１は、分割文字列統合部３０１０へ
送られる。（３）カタカナ文字列この文字種に関しては、文字列３０３２をカタカナ異表
記展開部３００５にて、類似音節の表記について異表記
展開を行う。展開した文字列３０４２は、分割文字列統
合部３０１０へ送られる。また、同時にカナローマ字変
換部３００７へも送られる。カナローマ字変換部３００
７でローマ字へ変換された文字列３０５３は、アルファ
ベ＼ット異表記展開部３００６にて、アルファベットの大小
文字に関する異表記展開が行なわれ、文字列３０４３と
して分割文字列統合部３０１０へ送られる。（４）アルファベラ１〜文字列この文字種に関しては、日本語のローマ字表現の場合と
、外国語の原語の場合の２つの場合がある。ここでは、まずローマ字判別部３００２で、文字列３０
３３がローマ字か外国語かの判定をする。この判定基準には、ローマ字の表記法を用いている。す
なわち、アルファベット文字の並びがローマ字の表記法
に合っていればローマ字と判定し、ローマ字として解釈
不能の場合は外国語と判定する。この判定は、ローマ字
カナ変換部３００３で兼ねることもできる。すなわち、
ローマ字カナ変換ができれば、ローマ字と判定し、そう
でない場合に外国語と判定する。また、この判定には本
実施例の方法以外にも、外国語辞書を使うといった方法
も用いることが可能である。＝１４５０一マ字判別部３００２でローマ字と判定した文字列３
０５１は、ローマ字カナ変換部３００３に送られ、ここ
でカタカナ文字列３０５２に変換され、これを更にカタ
カナ異表記展開部３００５で、類似音節に関する異表記
展開を行い文字列群３０４２を得る。文字列群３０４２
に対するこの後の処理は、（３）のカタカナ文字列の処
理と同じである。すなわち、カタカナ異表記展開された
文字列群３０４２は、分割文字列統合部３０　］、　Ｑ
へ送られると共に、カナローマ字変換部３００７へも送
り出される。カタカナ文字列群３０４２は、カナローマ
字変換部３００７で各々ローマ字へ変換され、ローマ字
文字列群３０５３としてアルファベット異表記展開部３
００６に送られる。該ローマ字文字列群３０５３は、ア
ルファベット異表記展開部３００６でアルファベットの
大小文字に関する異表記展開を施された後、分割文字列
統合部３０１０へ送られる。一方、ローマ字判別部３００２で外国語と判定された文
字列３０３４は、ローマ字カナ変換せずに、アルファベ
ット異表記展開部３００６へ送られ、その出力文字列３
０４３は分割文字列統合部３０１０へ送られる。以上、異表記展開処理の流れについて説明した。続いて、この異表記展開処理における各処理ブロックの
詳細について説明する。まず始めにカタカナ異表記展開部３００５の処理につい
て説明する。第３１図は異表記展開部における処理をカ
タカナ文字列を例にして説明した図である。ここでは、 “インタフォーン” という入力文字列を例としている。異表記展開処理は、
変換ルールを参照して行う。また、その変換処理は、入
力文字列中の部分文字列として変換対象となり得るもの
があれば、該変換ルールを参照して他の表記に置き換え
るものである。この変換ルールのテーブル形式も本図に
示されている。この変換ルールテーブルは、見出し部と展開部文字列リ
スト部から構成されている。入力文字列中に、変換ルー
ルテーブルの見出し部分に相当するものが存在すれば、
該当部分を展開文字列リスト部に記述された異表記文字
列群で順次置き換えていく。この見出し文字列の探索は、入力文字列の先頭から最長
−教法により行なう。すなわち本図に示したように、入
力文字列中の ″フォーという部分文字列と “フォ″ という部分文字列の両方が見出しにある場合には、より
長い見出しの “フォーのほうの変換ルールを適用する。第３１図の例を用いて、この見出し文字列探索及び展開
文字列リストへの置き換え処理を説明する。見出し文字
列探索において、入力文字列中の部分文字列と見出し文
字列との照合のため、探索ポインタを設定する。入力文
字列と見出し文字列の照合時には、探索ポインタの位置
を動かしながら、入力文字列中の探索ポインタを先頭と
する文７ゝ＼字列と、見出し文字列との照合を行なっていく。まず探索ポインろを入力文字列の先頭文字にセットする
。従って、この例では文字“イ”から見出し文字列の探
索を開始すると、゛・になる。該当する見出し　存在し
ないので、探索ポインタを１文字移動して″ン″を先頭
とする文字列からもう一度見出し文字列を探索する。ま
た該当する見出しが存在しないので、もう工文字探索ポ
インタを移動して″夕″の文字から見出し文字列を探索
する。今後は “り” の見出し文字列が見つかるので、夕” の部分を展開文字列リスト部に記述された“り″と１１
ターに置き換える。そして探索ポインタを見出し″夕″ の文字数分、すなわち１文字分移動する。次に″フ゛′
の文字から見出し文字列探索し、該当する見、！ｔ　ｌ
−ｙ “フォー”と“フォ” を得る。今度は２つの見出し文字列が照合するが、この
ように複数個の照合した見出し文字列がある場合、最長
−教法に従い、最も長い見出し文字列のある変換ルール
を採用する。この例では、見出し ″フォーのほうが “フォ” より長いので、 “フォーを展開用変換ルールとして採用し、入力文字列内の部分
文字列 “フォーを展開文字列リスト部に記述された “フォー　、″フォ”、″ホー″及び″ホ″に置き換え
る。そして探索ポインタを見出し“フォーの文字数分、すなわち３文字分移動する。最後に入力文
字列中の最終文字、″ン″から見出し探索１５〇− を行なうことになるが、該当する見出しがないので文字
ン′″は、展開処理が施されずそのままとなる。こうし
て探索ポインタが入力文字列の最終位置に来たので処理
を終了する。以上の処理の結果として生成された展開リストを含む文
字列 ″イン（夕、ター）（フォー、フォ、ホー、ホ）ン″ の展開リストを組み合せることによって最終的な異表記
展開文字列が得られる。この例では、パ夕″の部分で２
通り、 ″フォー”の部分で４通りに展開するので展開結果は２×４の８通りの文字列、す
なわち１）“インクフォーン” ２）“インタフオン″ ３）“インタホーン” ４）“インタホン” ５）″インターフォーン” ６）″インターフオン” ７）″インターホーン″ ８）“インターホン” となる。以上の見出し文字列探索と展開文字列リス１へへの置き
換え処理を第３２図に示すＰＡＤ図で説明する。まず探
索ポインタを入力文字列の先頭にセットする。次に現在
の探索ポインタを先頭とする文字列で、変換ルールの見
出し文字列があるかどうかを探索する。もしもマツチン
グする見出しがなければ、探索ポインタを１文字後方に
移動してから、再び探索ポインタを先頭とする文字列で
マツチングする見出し文字列を探索する。マツチングす
る見出しが存在する場合には、マツチングした見出しの
うち最も長い見出しを採用して、該当部分を展開文字列
リストで置き換える。置き換えがすんだら探索ポインタ
をマツチングした見出し文字列の文字数分後方に移動す
る。そして、探索ポインタが入力文字列の最終位置に来
るまで、上記の見出し文字列探索と展開リストへの置き
換え処理を繰り返す。いままで説明してきた異表記展開における見出し文字列
の探索方法に関するもう一つの実施例について第３３図
を用いて説明する。本実施例では、見出し文字列の探索
にオートマトンを用いている。以下、その手順について述べる。まず変換ルールにより
、図に示すようなオートマトンを生成する。異表記展開処理は、このオートマトンに入力文字列を１
文字ずつ入力して、そのオートマトンの動作出力から第
３工図で説明した展開文字列リストを含む文字列を得る
。以下、具体的にその動作内容について説明する。本図において記号ａは入力文字を、丸はオートマトンを
構成する各状態を、丸の中の数字はその状態番号を示す
。線上の文字は、その文字が入力されたとき、矢印の方
向へ状態を遷移することを示す。記号′−′は、その後
に続く文字以外の文字を表す。また、記号′→′は、以
下に続く文字列を出力することを示す。このオートマト
ンは、その動作を制御するための状態遷移テーブルと、
各状態の出力を記述する出力子−プルからなる。状態遷
移テーブルは、第３４図に示すものとなる。ここでは、各状態における入力文字とその文字が入力さ
れたときに遷移する遷移先の状態番号が対として記述さ
れている。但し状態Ｏへ遷移する場合は記述を省略しで
ある。すなわち、各状態において状態遷移テーブルに記
述されていない文字が入力した場合には、状態Ｏへ遷移
するものとしている。出力テーブルには第３５図に示す
ように、オートマトンの各状態において、出力する文字
列リストが記述されている。オートマトンが動作する場
合、状態Ｏ以外の状態から状態０へ遷移する場合のみ、
この出力テーブルを参照して該当する展開文字列を出力
する。そして出力がすんだら、もう−度状態ＯＡの遷移
を引き起こした文字をオートマトンへ入力し、状態遷移
テーブルを参照してオートマンを再遷移させる。状態Ｏ
から状態Ｏへ戻る場合には、入力文字をそのまま出力す
る。以上、オートマトン方式における状態遷移の制御及び出
力について説明した。次に、具体例をもとに、この動作
を詳細に説明する。以下、第３３図の入力例゛′インタ
フォーン″の文字列が１文字入力される毎の動作につい
て記述する。最初、オートマトンの状態は、状態Ｏにあ
る。（１）文字′イ″が入力されると状態遷移テーブルに状態Ｏからの遷移先が登録されてい
ないので、そのまま “イ” が出力された状態は○のままとなる。（２）文字ン″が入力されると状態遷移テーブルに状態Ｏからの遷移先が登録されてい
ないので、そのまま “ン″ が出力され状態はＯのままとなる。（３）文字夕”が入力されると状態遷移テーブルを参照し、現在の状態Ｏから遷移先と
して状態番号６が読み出され、状態は６に移る。（４）文字“フ”が入力されると状態遷移テーブルからは状態６から″フ″で遷移する遷
移先が得られない。かつ現在の状態は０でないので、出
力テーブルが参照され状態６での出力文字列夕”と″ターが出力される。その後、状態はＯに移動する。さらに、
この新しい状態Ｏでもう一度入力文字の゛′フ″をオー
トマトンに入力する。その結果、状態遷移テーブルの内
容に従って状態○から状態１に状態が移動する。（５）文字オ″が入力されると状態遷移テーブルの内容から、状態工より状態２へ状態
が移動する。（６）文字ｒｒ　　ｔｒが入力されると状態遷移テーブ
ルの内容から、状態２より状態３へ状態が移動する。（７）文字ン″が入力されると状態遷移テーブルからは状態３から“ン”で遷移する遷
移先状態番号が得られない。かつ現在の状態は状態Ｏで
ないので、出力テーブルが参照され、状態３での出力文
字列 “フォー　、′フォ”、″ホー″及び“ホ″が出力され
る。その後、状態がＯに移り、もう−度入力文字の″ン
″がオートマトンに入力される。ここでは、状態遷移テーブルから遷移先が得られないの
で入力文字の “ン″ がそのまま出力される。（８）入力文字列の最終文字まで来たので、処理を終了
する。こうして展開リストを含む文字列″イン（夕、タ
ー）（フォー、フォ、ホー、ホ）ン″ が得られる。次に、この見出し文字列探索用オートマトンの生成方式
を第３６図を用いて説明する。このオートマトン生成は
、実際に入力文字列が送られてくる前に一度作っておけ
ば良い。本図は探索オートマトンの生成方法、すなわち
状態遷移テーブル及び出力テーブルの作成方式をＰＡＤ
図で表したもので、以下この内容について説明する。ま
ず状態遷移テーブル及び出力テーブルを初期化する。次
に、一つずつルールを取り出しながら変換ルールの終わ
りまで以下の処理を繰り返す。（１）状態番号を○にセット（２）見出し文字列の終わりまで］文字ずつ文字を取り
出しながら状態遷移テーブルを作っていく。すなわち状態遷移テーブルを参照し、取り出した文字に
よる遷移先が登録されていれば遷移先状態に移動する。遷移先が登録されていなければ、新しい状態番号を生成
し、状態遷移テーブルに追加登録する。そして、今の状
態を新しい状態に移動する。さらに出力テーブルに状態
Ｏから今の状態へ遷移させてきた文字列を登録する。（３）見出し文字列の全文字について（２）の処理が終
了した後、出力テーブルの現在の状態番号と、変換ルー
ルの展開文字列リストを登録する。具体的な処理の流れを２つの変換ルール〔″フォー”→ （″フォー　、″フォア７％ホー　、゛ホ″）〕と〔″フォ″→ （″フォー　、パフォｒｒ、ｕホー　、″ホ″）〕を使
って説明する。まず工番目の変換ルールの見出し文字列“フォーについて処理する。（１）文字フ″の入力状態遷移テーブルは最初初期化されているため、遷移先
状態番号は一つも登録されていない。従って新しい状態
番号１を生成し、状態を１に移動する。そして、出力テ
ーブルに状態Ｏから状態１への遷移を引き起こす文字列 “フ” を状態番号１の出力として登録する。（２）文字オ″の入力状態遷移テーブルに今の状態１からの遷移先は定義され
ていない。従って新しい状態番号２を生成し、状態を２
に移動する。そして出力テーブルに状態Ｏから状態２に
至るまでの文字列“フォ” を状態番号２の出力として登録する。（３）文字ｒｒ　　ｒｒの入力状態遷移テーブルに今の状態２からの遷移先は定義され
ていない。従って新しい状態番号３を生成し、状態を３
に移動する。そして出力テーブルに状態Ｏから状態３に
至るまての文字列“フォーを状態番号３の出力として登録する。また、これで見出
し文字列の最終文字であるので、変換ルールの展開文字
列リスト（“フォー　、ａフォ″、Ｕホー　、ａホ″）を、先に
登録した出力文字列 ″フォーを入れ替える形で、状態３の出力として出力テーブルに
登録する。次に２番目の変換ルールの見出し文字列１１フオ″ について処理を実行する。処理に先立ち、状態はＯに戻
る。（４）文字“フ′″の入力先に登録した状態遷移テーブルを参照して、遷移先の状
態番号１を得、状態を１に移動する。（５）文字オ″の入力状態遷移テーブルを参照して、遷移先の状態番号２を得
、状態を２へ移動する。出力テーブルに状態２の出力は
既に登録されているが、見出し文字列の最終であるので
、出力テーブルに状態２の出力として既に登録されてい
る。 ″フォ” を、変換ルールの展開文字列リスト（″フォー　、″フォ′″、″ホー　、″ホ″）に書き
換える。以」二の処理により、上記二つの変換ルールを探索する
オートマトンを作成することができる。具体例で示した
２つの変換ルール以外についても、これと全く同様の手
順でオートマトンにすることができる。以上、例で説明してきたカタカナ異表記展開用の変換ル
ールテーブルの詳細を第３７図に示す。この他、変換ルールテーブルの作成には、カタカナ文字
列の類似音節表記に関してその表記の原則を定めたｒ昭
和２９年国語審議会報告　外来語の表記」を利用するこ
とができる。すなわち上記報告書ではカタカナ文字列の
異表記が示され、その表記を統一化するための原則が述
べられているが、これを逆に利用して変換ルールを作成
することができる。今までカタカナ文字列の異表記展開について例をあげて
説明したきたが、漢字文字列の異表記展開についても、
漢字文字列用の変換ルールテーブルを用いるだけで全く
同じ処理で実現できる。漢字の新旧字体に関する異表記
展開用の変換ルールテーブルの例を第３８図に示し、送
りがなに関する異表記展開ルールの例を第３９図に示す
。また、第３７図から第３９図に示した異表記展開ルール
テーブルは、必要に応じて追加修正が可能であり、従っ
てユーザの望む異表記展開が可能となる。以上が漢字異表記展開部３００４、カタカナ異表記展開
部３００５の処理の詳細である。次にローマ字の異表記展開に関する説明をする。本実施例では、ローマ字の異表記展開をするのに、ロー
マ字で入力された文字列を一旦カタカナ文字列へ変換し
た後、これをカタカナ異表記展開し、もう−度カナロー
マ字変換によりローマ字に戻すという方法を採っている
。従って、ローマ字の異表記展開に関する部分は、第３
０図のローマ字カナ変換部３００３とカナローマ字変換
部３００７の２つとなる。まずローマ字カナ変換部の処理内容について説明する。アルファベット文字列が入力されると、まずローマ字カ
ナ変換が行われる。ローマ字カナ変換部３００３では、
第４０図に示すようなローマ字とカタカナの対応表を用
いて、ローマ字カナ変換が行われる。同図において、例
えば１番目のレコードではローマ字の”Ａ”がカタカナの“ア” に対応することを示している。ローマ字の項目中に複数
個の文字列が並んでいるレコードに関しては、複数個並
んでいる全ての文字列がカタカナの項目に対応している
ことを示している。例えば、ローマ字の “ＳＹＡ”及び”　Ｓ　ＨＡ　” が、カタカナの “シャ” に対応する。これらは、それぞれローマ字の訓令式表記
法と、ヘボン式表記法に対応している。従って、このロ
ーマ字カナ変換部３００３では訓令式でもヘボン式でも
あるいはこれらの混合したような表記法に文字列でもカ
タカナへ変換されることになる。変換方法は、前述した
漢字異表記展開、カタカナ異表記展開と同様である。す
なわち、入力文字列と対応表のローマ字文字列を最長一
致で探索して、順次対応するカタカナ文字列に置き換え
ていく。もし、対応するローマ字文字列が対応表に見つ
からないときには、入力文字列はローマ字でないと判断
し、カタカナ文字列の出力を行なわない。次にカナローマ字変換部３００７の説明をする。ここでも第４０図の対応表をそのまま用いる。こんどは
逆に入力文字列と対応表のカタカナ文字列とを最長一致
でマツチングを取りながら順次ロー−ｌｂ。マ字へ入力文字列を置き換えていく。前述の“シャ″ の例のように対応するローマ字表記が複数個存在すると
きには、該当部分を部分文字列のリストとして置き換え
ていく。すなわち、カタカナの入力文字列に対し、異表
記展開の処理と同様に展開リストを含む文字列に展開し
、その展開リストの部分を組み合せることによってロー
マ字異表記展開の結果を得ることができる。これを “シシャモ” というカタカナ文字列が入力された場合を例にして説明
する。この時、入力文字列 “シシャモ″ に対してカタカナローマ字対応表とのマツチング処理に
より、 “（ＳＩ、５ＨＩ）（ＳＹＡ、ＳＨＡ）ＭＯ”という展
開リストを含む文字列が得られる。従って、展開リスト
の組み合せにより、１）“ＳＩＳＹＡＭＯ” ２）“Ｓ工ＳＲＡＭ０” 且Ａ− ３）　“ＳＨＩＳＹＡＭ○” ４）　“ＳＨＩＳＨＡＭＯ” という４種類のローマ字異表記文字列が得られることに
なる。以上が異表記展開方式の処理に関する説明である。これまで、説明してきた異表記展開の実施例においては
、漢字ひらがな文字列、カタカナ文字列、ローマ字文字
列、及びアルファベット文字列の全てについて展開処理
を行っているが、これらの処理を選択的に行うことも可
能である。すなわち、異表記展開後の出力文字列の種類
を、１）漢字ひらがな文字列２）カタカナ文字列３）ローマ字文字列４）アルファベット文字列のいずれかもしくは、これらの混合した文字列を異表記
展開結果として出力するように制御することができる。こうして、異表記展開を文字種毎に選択可能にすること
により、むだな展開処理を省き、かつユーザの要求に応
じた検索処理が可能となる。以下、この異表記展開結果の文字種制御方法について説
明する。この出力文字種の制御は第４工図に示すように、第３０
図の実施例の構成に更にアルファベラ］・文字列３０３
４の出力制御を行うスイッチａ　３００８、及びカタカ
ナ文字列群３０４２の出力制御を行うスイッチｂ３００
９を設けることで実現する。また、漢字異表記展開部３
００４、カタカナ異表記展開部３００５、カナローマ字
変換部３００７、スイッチ８３０００８．及びスイッチ
ｂ３００９の出力を制御する制御信号線３０６１．３０
６２．３０６３．６０３４．３０６５をそれぞれ設番づ
る。そして、ユーザが設定する異表記展開結果出力文字種の
指定モードにより該制御信号をＯＮ。ＯＦＦすることでモードに応した異表記展開を実現する
。例えば、ローマ字異表記展開が不要な場合にはカナロ
ーマ字変換部３００７の制御信号３０６３をＯＦＦして
出力を止める。このような二）１６７展開モーＩくによる各変換部、展開部、スイッチの制御
信号の組み合せを第４２図に示す。図において、展開モ
ードはそれぞれＣ：漢字及びひらがな異表記展開に：カタカナ異表記展開ｒ：ローマ字異表記展開ａ：アルファベット異表記展開を実施し、出力することを示している。複数文字では複
数の異表記の出力指定を表す。例えば展開モー１く ’ｃｋａ’ は漢字ひらがな、カタカナ及びアルファベットの各異表
記を異表記展開結果として出力するモードであることを
表す。また、表中の○は該当モジュールが文字列を出力
することを示す。逆にＯがついていないところは、文字
列を出力しない。例えば、 ’Ｑ　　ｋ　　ａ’ という文字列展開モードでは、ローマ字カナ変換部３０
０３、漢字異表記展開部３００４、カタカす異表記展開
部３００５が展開文字列を出力し、スイッチａ３００８
、及びスイッチｂ３００９が入力文字列を通すが、カナ
ローマ字変換部３００７は文字列を出力しないことを示
す。最後に同義語展開処理について説明する。同義語展開処理部２８０３は、第４３図に示すような同
義語辞書を持つ。図において、レコード番号とは、辞書
中の各見出し文字列に付与されている一連番号である。各見出し文字列には、それぞれ同位語、上位語、下位語
、関連語が定義されている。同図の同位語、上位語、下
位語、関連語の項目に記述されている番号は全て同辞書
のレコード番号を示す。例えば見出し ″計算機” は、同位語としてレコード番号２および３、すなわち “コンピュータ″′とパ情報処理装置″を持っているこ
とを表している。同義語展開では辞書中のどの項目を用
いて展開するか、第２８図の同義語展開モード制御信号
２８１０によりニーザがモードを設定できるようにして
いる。設定可能なモードは次の通りである。すなわち、
Ｕ：同位語を使った展開ｂ：上位語を使った展開ｎ：下位語を使った展開ｒ：関連語を使った展開およびｕ、ｂ、ｎ、ｒの各モードを組み合せた展開がで
きるようにしている。同義語展開の処理は、同義語展開部への入力文字列中に
存在する辞書の見出し文字列を探索することによって行
う。すなわち、異表記展開処理における変換ルールの見
出し文字列の探索の場合と同様に、入力文字列の先頭か
ら最長一致により見出し文字列を探索する。そして、同
位語展開の場合には入力文字列において照合された部分
文字列を、順次同位語文字列のリス１へで置き換えてい
く。この際、照合した見出し文字列をも加えて書き替えを行
う。上位語展開、下位語展開、関連語展開の場合には、
入力文字列と見出し文字列が完全に一致した時に限って
、上述の置き換え出力を行う。３／７０すなわち、入力文字列中で部分的に一致しただけでは、
展開を行わない。これは、」二位詔展開、下位語展開、
関連語展開において部分的な文字列の置き換えは意味の
ない単語を作ってしまうためである。同位語展開の処理を例を用いて説明する。入力文字列がパ大型計算機″ とすると、同義語辞書の見出し文字列探索を行うことに
より、入力文字列の３文字目から見出し文字列 ″計算機″ が照合する。同義語辞書のレコード番号１の″計算機″ から、同位語としてレコード番号２の１′コンピユータ″ とレコード番号３の゛′情報処理装置” が同位語リス１〜（″計算機ＩＩ％Ｌコンピュータｎ、ｕ情報処理て１＞装置″）として得られる。入力文字列の該当部分をこのリストで
置き換えることにより、異表記展開処理の場合と同様に
、展開リス１へを含む文字列″大型（計算機、コンピュ
ータ、情報処理装置）″が得られる。この展開リス１へ
を組み合せて（この場合は一つしかりス１−がないが（１）”大型計算機″ （２）”大型コンピュータ″ （３）”大型情報処理装置″ の３つの同位語文字列が得られることになる。次に上位語展開が処理について例をあげて説明する。入力文字列がパ計算機″ の場合、同義語辞書の見出し文字列探索で入力文字列と
見出し文字列パ計算機″ が完全一致する。そこで、上位語としてレコード番号４
の ″電子機器″ が出力される。この場合には上位品、カーつしかないが
、もちろん複数個あってもよい。複数個の上位語が存在
する場合には、前述のようにリストとして出力する。下位語、関連語についても上位語展開と全く同じ処理と
する。なお、同義語展開において辞書中に該当する文字
列が存在しないときは同義語展開処理部２８０３から、
何も文字列が出力されない。以上同義語展開の処理方式の実施例について説明した。ところで同義語展開では、辞書を使用するために辞書ま
レコード数が多くなると見出し文字列探索に時間が掛か
ることがある。この問題の解決として、辞書の見出し文
字列をインデクステーブルを用いて探索する方法がある
。第４４図にこの方式の概要を示す。同義語辞書は、予
めその見出し文字列にてアルファベット順に並べておく
。そして、同義語辞書とは別に見出し文字列の第一番目の
文字だけを集め、その文字から始まる見出しが辞書のど
の部分から始まるかを登録したイン１１７

【デクステーブルを持つ。例えば文字ＬＬ　Ａ　Ｉ＋で始
まる姑出１．以レコード番号ｌから存在していることべ
示している。見出し文字列探索をするときには、まずこ
のインデクステーブルを参照し、レコード番号を求め、
次にこれに基づいて同義語辞書にアクセスする。こうす
ることにより、同義語辞書の全見出し文字列をスキャン
する必要がなくなるため、処理時間が短縮できる。例え
ば、文字１′計″で始まる文字列を探索しようとした場
合、インデクステーブルにより、″計″で始まる文字列
が辞書のレコード番号５０１から存在することがわかる
。従って、それ以前の無、駄な文字列探索を省くことが
でる。さらに、見出し文字列をアルファベット順に並べ
ることにより、見出し文字列の探索中に先頭文字の異な
る見出しまで探索したら後の探索は省略できる。例えば
１１計″で始まる見出し文字列を探索していれば、″計
″以外の文字で始まる見出し ″情報処理装置″ まで探索すれば後の不要な探索をおこなわなくとも済む
。また、インデクステーブル及び辞書中の同位語などの記
述にレコード番号を用いたが、これを辞書中の位置を特
定するアドレスで記述することにより、辞書へのアクセ
スを更に高速化できる。アドレスとは、辞書の該当する
見出し文字列が存在する最初の位置を示すもので１例え
ば辞書の先頭からのバイト数がある。こうすることによ
り、辞書へのアクセスが直に特定できるため、レコード
番号を指定するよりも更に高速化が可能となる。ここで、第４５図から第５５図の開示にしたがって、本
発明のオートマトンの実施例について説明する。異表記検索用のオートマトンについては第４６図の集合
許容形オートマンの状態遷移図を用いた場合の作用につ
いて説明する。以後、集合許容形オートマトンをオート
マトンと略して説明を行なう。同図のオートマトンは第
５図に示したオートマトンと同様に″インタフェース″
の異表記である″インターフェース”、′インタフェイ
ス”“インターフェイス＋＋、ｕインターフェイス″１
′インタフェース”、″インターフェース″“インター
フェース”、“インターフェース″を含む９語の検索タ
ームを検索するためのものである。これらを、第４６図下の複合語表現文字列（式１）で表
すことができる。″フエー″の異表記でと記述すること
ができる。次に″フェー″の長音が長音異表記でＩＩ　　ｕが″に
置き換えられるため（ＬＬＩＩ）と記述できる。が得られる。この複合語表現文字列を用いれば。（）内の部分文字列は等価なので部分文字列の＼末尾文字による遷移を同一遷移先状態にまとめることが
可能である。ただし、他の部分文字列の遷移の中に含まれて場合は、
次の遷移文字の゛′フ″の遷移の遷移元状態が″夕″の
遷移先状態である状態３と″ターおよび″ター″の遷移
先状態である状態４であるので、これらの２ケ所を遷移
元状態とする遷移を記述し、遷移先状態を状態５とする
。このように遷移をまとめることにより、第５図のオート
マトンと比べ状態数を約３分の１と大幅に減らすことが
できている。ここで用いたオートマトンの作成方法は引用文献（ニー
、ブイ、エーホ　アンド　エム、ジェオ。コラッシック：“エフインェン１〜　ストリングマツチ
ング、コミュニケーションズニー　シーエム、第１８巻
、第６号、１９７５年、　Ａ、　Ｖ。Ａｈｏ　ａｎｄ　Ｌ　Ｊ、　Ｃｏｒａｓｉｃｋ　：“Ｅ
ｆｆ４ｃｊｅｎｔ　ＳｔｒｉｎｇＭａｔｃｈｊｎｇ　、
　ＣＡＣＭ、　ＶＯＬ、　１８．　Ｎａ６．１９７５）
に開示されている。このオートマトンは上記のコンカレ
）１゜７ントステートオートマトン方式により制御される。以下、その内容を具体的に説明する。次に、オートマトンの状態遷移制御方法について説明す
る。本方法は「フェイル処理」を用いずに状態遷移を制
御しようとするものである。すなわち、「フェイル処理
」を行なう代わりに、複数のトークンを用いることよっ
てオートマトンの状態遷移を表わそうとするものである
。これまで述へてきたオートマトン方式では、オートマト
ンの状態遷移図は、初期状態を除いてアクティブな状態
、すなわち、照合途中を示す遷移状態（トークンが置か
れた状態）が唯１個だけという条件のもとに作成された
ものである。その結果、照合途中で入力文字との不一致
が生じた場合には、Ｉ・−クンの動きが不連続になるた
め「フェイル処理Ｊを行なわなければならなくなる。本方法においては、アクティブな状態が発生する度に１
ヘークンを生成し、照合途中で不一致が生じた場合には
１〜−クンを消滅させるという方法を採ることにより、
フェイル処理を不要にしている。】７８従って、入力文字列によっては、状態遷移図」二に複数
のトークンが同時に存在することにもなる。その意味で、本方法をコンカレントステートオートマト
ン方式と呼ぶことにする。本方法によれば、「フェイル処理」を用いずに済むため
、オートマトン作成時においてもフェイル先状態の計算
が不要な文字列検索装置を実現することができる。まず、始点状態におけるトークン生成方法について説明
する。始点状態では入力文字が入る度に照合を行なう。遷移文字と照合した場合、新たなトークンを生成し、こ
のトークンを始点状態から遷移先状態へ移動させる。た
だし、始点状態から始点状態への状態遷移の場合には、
トークンを生成しない。したがって、始点状態から始点
状態への遷移は無効となるため、この遷移を省略するこ
とも可能である。次に、例えば“インタフェイス”という文字列が１文字
づつ入力された場合についてオートマトンの動作を説明
する。まず、イ”が入力されると、始点状態での照合が一致し
トークンＴ１が生成され、状態エヘ移動する。トークン
Ｔ１が状態１にきたところでン”が入力されると、トー
クンＴｌは状態２に移動する。また、これと同時に始点
状態でも″ン″による照合が行なわれるが不一致なので
新たなトークンは生成されない。更に状態２では入力文
字１′夕″が入力されると、トークンＴ１は状態３に移
動する。また、同時に始点状態での照合が不一致なので
新たなトークンは生成されない。次に、続けて“フエ”
が入ってきた場合１ヘークンＴ↓は状態４→状態５→状
態６と移動する。またこの間、始点状態での照合が不一
致なので新たなトークンは生成されない。次に、イ”が
入力されるとトークンＴ１は状態６から状態７へ移動す
る。また、始点状態での照合は一致するので新たにトー
クンＴ２が生成され、状態１へ移動する。次に、″ス″
が入ってきた場合トークンＴｌは状態７から状態８へ移
動する。トークンＴ２は状態１での照合が不一致なため
にここで消滅する。また、始点状態での照合が不一致な
ので新たなトークンは生成されない。この時、トークン
Ｔｌが状態８に達すると、″インタフェイス″という文
字列を検索したことになる。このように複数のトークンを用いて状態遷移を制御する
ことにより、オートマトンの状態数が約３の１と少なく
て済む異表記許容検索を実現することができる。固定長ｄｏｎ’ｔ　　ｃａｒｅ文字を検索タームに指定
した固定長ｄｏｎ’ｔ　　ｃａｒｅ文字指定検索の処理
方法について説明する。オートマトンは第４７図のものを用いる。本図は第７図
と同様に“Ａ？Ｂ”を検索する場合のオートマトンであ
り、集合遷移を採用した上記方法を用いることにより状
態数を第７図に比べて約１５０分の−と少なく実現でき
ている。本オー１−マトン作成方法は前述の異表記のオートマ１
ヘン作成方法と同様である。例えば、“ＡＸＢ”という文字列が入力された場合の本
方法の動作について説明する。１８］まず、”Ａ”が入力されると始点状態で照合が一致する
ためトークンＴ１が新たに生成され、状態工へと移動す
る。次に１１　Ｘ　＃が入力されると、トークンＴ１は
状態１から状態２に移動する。また、始点状態での照合
が不一致なので新たなトークンＴ１は状態２から状態３
に移動する。同時に、始点状態での照合が不一致なので
新たなトークンは生成されない。次に“Ｂ”が入力され
ると、トークンは生成されない。状態３は２重円で記さ
れており、ここでは“Ａ？Ｂ”が検索されたことになる
。このように複数のトークンを用いて状態遷移を制御する
ことにより、異表記許容検索と同様に、オートマトンの
状態数が約１５０分の１と少なくて済む固定長ｄｏｎ″
ｔ　　ｃａｒｅ文字指定検索を実現することができる。上限距離、下限距離や上下限距離などの文字距離を指定
した距離指定検索のオートマトン方式による処理方法に
ついて述べる。まず、上限指定の距離指定の実現方法を以下に−１８２
−、。説明する。ここではＬＬＡ”とＩＩ　Ｂ　ＩＩの距離が
４文字以内の距離という上限距離指定がされている場合
を例にする。上限距離指定は固定長ｄｏｎ’ｔｃａｒｅ
文字で表すことができ、この例は“Ａ”とＩＩ　Ｂ　Ｉ
Ｉの距離が４文字以内の距離という上限距離指定の場合
は、”ＡＢ”、”Ａ？Ｂ”　　”Ａ？？Ｂ”、”Ａ？？
？Ｂ”、”Ａ？　？　？　？Ｂ”　、の５つのキーワー
ドで表すことができる。これらのキーワードからのオートマトン作成方法を以下
に説明する。まず、′／　Ａ　Ｂ　ｊ′のオートマトン
を作成する。ここで、状態Ｏ２状態１．および状態７が
作成される。次に、”Ａ？Ｂ”のオートマトンを作成す
る。第２文字目の？”は１文字の全ての文字を表すため
、遷移文字Ｉｆ　Ｂ　＋１による状態１から状態７への
遷移以外の遷移文字による遷移先を新たに作成する必要
がある。すなわち、遷移文字−（”Ｂ”）による状態１
から状態２への遷移が作成される。さらに第３文字目の
遷移文字“Ｂ”による遷移として第２文字目の“？”の
遷移先である状態２及び状態７から状態８への遷移が作
成される。同様に”Ａ？？Ｂ” ”Ａ？　？　？Ｂ”　、”Ａ？　？　？　？Ｂ”につい
て作成することにより第４８図のオートマトンが得られ
る。本オートマトン作成方法は前述の固定長ｄｏｎ’ｔ
　　ｃａｒｅ文字のオートマトン作成方法と同様である
。次に、例えば”ＡＢＣＢＢＢＣ”という文字列が１文字
づつ入力された場合についてオートマトンの動作を説明
する。まず、＃　Ａ　Ｔｒが入力されると、始点状態で
の照合が一致しトークンが生成され状態ｌへ移動する。 “Ｂ”が入力されるとトークンは状態７へ移動し、“Ａ
”と“Ｂ　ＩＩが隣接している”ＡＢ”を照合する。さ
らに、′Ｃ”が入力されるとトークンは状態３へ移動す
る。次に、ＬＬＢ”が入力されるトークンは状態９へ移
動し、”Ａ”とＬＬ　Ｂ　ＩＩが２文字の距離にある”
　Ａ　Ｂ　ＣＢ”を照合する。次に、“Ｂ”が入力されると１ヘークンは状態１０へ移
動し、”Ａ″′とＬＬ　Ｂ　ＩＩが３文字以内の距離に
ある“ＡＢＣＢＢ”を照合する。次に、ＬＬ　Ｂ　ＩＩ
が入力されるとトークンは状態６へ移動し、′Ａ”とＩ
ＩＢ”が４文字の距離にある”　Ａ　Ｂ　ＣＢ　Ｂ　Ｂ
　”を照合する。さらに、ＩＩ　ＣＩＩが入力されると
状態６においてトークンの遷移先がないためトークンは
消滅する。以」二のことから、”ＡＢＣＢＢＣ”から“Ａ”とＩＩ
　Ｂ　ＩＩが４文字以内の距離にある検索タームである
“ＡＢ”、”ＡＢＣＢ”、”ＡＢＣＢＢ”および”ＡＢ
ＣＢＢ”が照合されていることが分かる。すなわち、”
ＡＢ”　、”Ａ？　？Ｂ”、”Ａ？Ｑ　？Ｂ　＃、およ
び”Ａ？？？？Ｂ”が探索できていることが示されてい
る。このオートマトンの場合も固定長ｄｏｎ’ｔＱａ　ｒｅ
文字の場合と同様にトークンを制御することにより、上
限指定の距離指定検索を実現することができる。次に、下限指定の距離指定の実現方法を以下に説明する
。ここではＩｔ　Ａ　ＩＩとＬＬ　Ｂ　ＩＩの距離が２
文字以上の距離という下限距離指定がされた場合を例に
する。下限距離指定では上限距離が無限大となるためｄ
ｏｎ’ｔ　　ｃａｒｅ文字で表わすことができない。つ
まり、′Ａ″とＩＩ　Ｂ　ＩＩの距離が２文字以上の距
離という下限距離指定の場合は、固定長ｄｏｎ’ｔ　　
ｃａｒｅ文字で表わすと“Ａ？？Ｂ”Ａ？？？Ｂ”、Ｉ
ＩＡ？　？　？　？Ｂ”　、　　・・となりキーワード
数が無限大になるためである。この問題を解決する方法を第４９図のオートマトンで説
明する。まず、下限距離を固定長ｄｏｎ’ｔ　　ｃａｒｅ文字で
表したキーワードでオートマトンを作成する。このオー
トマトンの作成方法は固定長ｄｏｎ’ｔ　　ｃａｒｅ文
字の場合と同様である。ここでは下限距離は２なので、ＩＩ　Ａ　９　Ｑ　Ｂ”
を検索タームとしてオートマトンを作成する。次に、下
限距離だけ遷移した状態（この例では状態３）を仮の始
点とし、この始点状態以降につながる状態についてオー
トマトンを作成する。このオートマトンは、全ての入力
文字に対して遷移を記述する従来方式Ｊを用いて作成で
きる。このようにして、上限距離が無限大の場合でもオ
ートマトンを′ｉ＼作成することができることになる。オートマトンの作成方法は前述した上限距離指定のオー
トマトンの場合と同様である。次に、例えば“Ａ　ＣＤ　Ｅ　Ｆ　Ｂ　”という文字列
が１文字づつ入力された場合のオートマトンの動作につ
いて説明する。まず、′Ａ”が入力されると、始点状態
での照合が一致しトークンが生成され状態１へ移動する
。 “Ｃ”が入力されるとトークンは状態２へ移動する。さ
らに、′Ｄ”が入力されるとＩＩＢ”以外の文字という
ことでトークンは状態３へ移動する。次に、ＩＩＥ”が入力されるとトークンは状態３でルー
プする。次に、／＃　Ｆ　ＩＩが入力されると同様にトークンは
再度状態３でループする。さらにｒｒ　Ｂ　ｎが入力さ
れるとトークンは状＠４へ移動する。状態４は、２重丸
の状態なので、ｒｒ　Ａ　ＩＩとＬＬ　Ｂ　ＩＩが２文
字以上離れた距離にある文字列が照合されたことを示し
ている。すなわち、”　Ａ　ＣＤ　Ｅ　Ｆ　Ｂ　”を“Ａ　ＩＩ
と“Ｂ　ＩＩ−凧７が２文字以上、すなわち４文字離れた距離にある文字列
として探索できていることが分かる。次に、下限距離指定を用いたキーワー１〜に可変長ｄｏ
ｎ’ｔ　　ｃａｒｅ文字“宰”を指定した検索の方法に
ついて説明する。可変長ｄｏｎ’ｔ　　ｃａｒｅ文字“零″は、下限距離
にＯを指定した場合の距離指定を用いて実現することが
できる。すなわち、”ＡＢ”＊　ＣＤ＋＋は“ＡＢ″′
と“ＣＤ”の距離がＯ文字以上の距離という下限距離指
定に置き換えることができる。この場合のオートマトンは第５０図のようになる。このように可変長ｄｏｎ’ｔ　　ｃａｒｅ文字を指定し
た検索も下限距離指定と同様に実現することができる。オートマトンの作成方法および動作は前述した下限距離
指定のオートマトンの場合と同様である。最後に、上下限指定の距離指定の実現方法を以下に説明
する。ここでは“Ａ”と“Ｂ　ＩＩの距離が２文字以上
で、かつ、４文字以下の距離という」二下限距離指定を
例にする。上下限距離指定は固定５］８１長ｄｏｎ’ｔ　　ｃａｒｅ文字で表すことができ、この
例の“Ａ　”とＩｆ　Ｂ　＋＋の距離が２文字以上、４
文字以内の距離という場合には、′−Ａ　９　Ｂ　＋＋
”Ａ？？Ｂ”Ａ？？？Ｂ”、　　“ＡＯ’／’／’７Ｂ
”の４つのキーワードで表すことができ、これらから固
定長ｄｏｎ’ｔ　　ｃａｒｅ文字の場合と同様に第５１
図に示すオートマトンを作成することができる。オートマトンの作成方法および動作は前述した下限ａｍ
指定のオートマトンの場合と同様である。１文字誤りを許容した検索である１文字誤り許容検索の
処理方法について説明する。キーワードに”　Ａ　Ｂ　ＣＤ　”を指定した場合の例
について説明する。この例ではキーワードとしては誤り
なしの場合として“ＡＢＣＤ”について、１文字削除と
して”ＡＢＣ”、”ＡＢＤ”。 ”　Ａ　ＣＤ”　　”　Ｂ　ＣＤ”について、１文字相
違として“Ａ、　？　ＣＤ”、′ＡＢ？Ｄ”　　（（Ａ
　Ｂ　ＣＯ１７について、１文字押入として”Ａ？ＢＣ
Ｄ”。 “ＡＢ？ＣＤ”　ＡＢＣ？Ｄ”、”ＡＢＣＩ）’？”汐についてオートマトンを作成する。これらを複合語表現
文字列にするとと表すことができる。これに基づいて固定長ｄｏｎ’ｔ
　　ｃａｒｅ文字の場合と同様に第５２図に示すオート
マトンを作成することができる。オートマトンの作成方法および動作は前述したノ上下限距離指定のオートマトンの場合と同様である。工文字入れ替わりを許容した検索である１文字入れ替わ
り許容検索の処理方法について説明する。キーワードに”　Ａ　Ｂ　ＣＤ　”を指定した場合の例
について説明する。この例ではキーワードとしては誤り
なしの場合としてＡＢＣＤ”について、」文字入れ替わ
りとして“ＢＡＣＤ”　、”ＡＣＢＤ”。 “ＡＢＣＤ”についてオートマトンを作成する。これらを複合語表現文字列にすると、と表すことができる。これに基づいて固定長ｄｏｎ’ｔ
　　ｃａｒｅ文字の場合と同様に第５３図に示すオート
マトンを作成することができる。オート７１〜ンの作成方法および動作は前述した一文字
誤り許容のオートマトンの場合と同様である。以上のように本発明によれば、少ない状態数で異表記検
索、固定長ｄｏｎ″ｔ　　ｃａｒｅ文字指定検索、文字
距離指定検索、可変長ｄｏｎ’ｔａａｒｅ文字指定検索
、１文字誤り許容検索、王文字入れ替わり許容検索など
の検索機能を実現するオートマトンを作成することがで
きる。したがって、オートマトンの作成時間も短縮でき
、状態遷移テーブルもコンパクトにできるためハードウ
ェア量の少ない文字列検索装置を実現することが可能と
なる。以下、上記文字列検索方法を用いた第１０図のサーチエ
ンジン１］０６に相当する文字列検索装置の実施例につ
いて述べる。本実施例の構成を第４５図に示す。本実施例の構成は、
文字コードと状態番号を入力することにより次状態番号
を出力する状態遷移テーブル２２０と、状態番号を入力
することにより照合したか否かの照合結果ＩＤを出力す
る照合結果チープル２６０、トークンの消滅を制御する
セレクタ２６２、トークンの消滅制御情報として移動先
の状態がないトークンか否かを判定を行うコンパレータ
２５２、初期状態番号を格納するレジスタ２５１および
、現状態番号や次状態番号を格納するバッファ２８０と
バッファ２８１などから成っている。本実施例を用いたオートマトンの状態遷移動作を下記に
説明する。第４５図において所定の文字列記憶手段から
読み出された文字列３０１は１文字づつレジスタ２１１
に格納される。レジスタ２１１から出力される文字コー
ド３０２は、本発明によるオートマトンの遷移表が格納
されている状態遷移テーブル２２０にアドレス情報とし
て入力される。状態遷移テーブル２２０では現在の状態
番号３０５と文字コード３０２から次に遷移すべき遷移
先状態番号３０３を出力する。次状態番号が初期状態番
号であるとき、オート７トン移が記述されていないこと
を表している。このため次状態番号が初期状態番号であ
るとき、１・−クンを消滅させる必要がある。次状態番
号３０３ばレジスタ２５０に格納された後、セレクタ２
６２及びマルチプレクサ２６０を経由しバッファ２８０
またはバッファ２８１のいずれか選択されている方に格
納される。このとき、セレクタ２６２ではトークンを消
滅させるか否かを制御している。このトークンを消滅さ
せるか否かの判定は次状態番号３０３がレジスタ２５１
に格納されている初期次状態番号（この例では、状態番
号Ｏ）と異なるか否かをコンパレータ２５２で調べるこ
とにより実現している。すなわち、次状態番号３０３が初期状態番号である場合
はトークンが移動す八き状態がないことを示しているた
め、セレクタ２６２ては次状態番号３０３を選択しない
。このため次状態番号３０３はマルチプレクサ２６０に
は送られず、トークンは消滅することになる。逆に次状態番号３０３が初期状態番号でない場合、トー
クンが移動すべき状態があることを示しているため、セ
レクタ２６２では次状態番号１則３０３を選択してマルチプレクサ２６０に送られ、１〜
−クンは消滅されない。このように、次状態番号３０３が初期状態番号の場合は
トークンを消滅させることによって、初期状態番号のト
ークンがバッファ２８０およびバッファ２８１に溜り、
冗長なトークンがバッファ２８０およびバッファ２８１
に溜り、冗長なトークンがバッファ２８０およびバッフ
ァ２８１内に存在し、オーバーフローするという問題を
解決できることになる。バッファ２８０とバッファ２８１は、それぞれデータの
読取り用と書込み用の２面バッファとして用い、高速処
理を実現している。この２つのバッファは１つにまとめ
回路規模を小さくすることも可能である。ただし、処理
速度は低下することになる。バッファ２８０及びバッフ
ァ２８１には初期値として始点次状態番号を先頭アドレ
スに設定しておく。バッファ２８０及びバッファ２８１
に送られてきた次状態番号３０３は始点状態の次のアド
レスから格納する。現状態番号３０５はセレクタ２６１
で選択されているバッファ２８０及びバッファ２８１の
いずれかから逐次読み出され、全て読み出したときに読
出し終了信号３０７を発生する。マルチプレクサ２６０
とセレクタ２６］は同期しており１選択動作については
マルチプレクサ２６０がバッファ２８０を選択している
ときはセレクタ２６↓はバッファ２８１を選択している
。また、マルチプレクサ２６０かバッファ２８］を選択
しているときはセレクタ２６１はバッファ２８０を選択
する。バッファ２８０及びバッファ２８１の選択の切り
替えは、セレクタ２６１が選択したバッファ２８０また
は２８１のいずれかの読出し終了信号３０７の発生のタ
イミングで行われる。状態遷移テーブル２２０には第５
５図に示した状態遷移表を格納する。これは第４６図の
オートマトンに対応したものである。レジスタ２１１は
通常は、レジスタ２５０と同期して文字列データを取り
込むが、読出し終了信号が発生するまで文字列データを
保持し、現状態番号が全て読み出されるまで次の入力を
待つことにな１９ｅ′ る。検索結果テーブル２６０には文字列の終点となる終
点状態に対応して各検索タームを識別するための所定の
コードが格納されている。第４６図のオートマトンに対
応した検索結果テーブル２６０の内容を第５５図に示す
。検索ターム番号が○以外の内容のとき有効な検索ター
ム番号を表している。すなわち、状態番号に対応した検
索ターム番号がＯ以外のとき照合結果として第１０図の
複合条件判定手段１１４５へ送られる。以」二の動作が
第４６図に示したオートマトンを実行する形で、入力文
字列を構成する各文字ごとに繰返し行われることにより
検索処理が実現される。入力文字列が入力された場合、例えば、″インタフェイ
ス″という文字列が入力された場合の本方式の照合動作
について説明する。まず初期設定として、以下の処理を行なう。状態遷移テーブル２２０には第５４図に示した状態遷移
表を、また、検索結果テーブル２６０には第５５図の検
索結果表を格納する。これらのテーブルは、第４６図の
オートマトンに対応したも＝１９７のである。バッファ２８０及びバッファ２８１には初期値として始
点状態番号であるＯを先頭アドレスに格納する。レジス
タ２５０、レジスタ２５］には初期状態番号であるＯを
格納する。マルチプレクサ２６０はバッファ２８１を選
択し、セレクタ２６］はバッファ２８０を選択する。し
たがって、次状態番号３０３は始点状態番号であるＯと
なる。次に、これらの初期設定に基づいた照合動作について説
明する。まず、１文字目の“イ″がレジスタ２１１に格納される
。すると、文字コード３０２と現状態番号３０５をアド
レスとして状態遷移テーブル２２０より次状態番号１が
読み出され、レジスタ２５０に格納される。このとき現
状態番号３０５は○となっている。コンパレータ２５２はレジスタ２５１に格納されている
初期状態番号であるＯとレジスタ２５０に格納されてい
る次状態番号３０３であるｌを比較する。等しくないの
でセレクタ２６２は次状態番号３０３を選択する。この
ことば、状態Ｏから状態工に遷移文字イ”による遷移が
記述されていることを示している。状態ｌにおける検索結果テーブル２６０の検索ターム番
号はＯであるので照合結果３０６は出力されない。この
ことは、状態１に照合結果が格納されていないことを示
している。マルチプレクサ２６０では、バッファ２８］が選択され
ているので、バッファ２８１に次状態番号である１が、
始点状態番号に続く２つめの次状態番号として格納され
る。バッファ２８０から全ての現状態番号が読み取られ
たので、終了信号３０７が発生する。これによりマルチプレクサ２６０はバッファ２８０を選
択し、セレクタ２６１はバッファ２８１を選択すること
になる。すなわち、バッファ内の２つの次状態番号が現
状態番号として、次の文字に対する遷移に用いられるこ
とになる。これらの動作をオートマトンの状態遷移としてみると、
まずバッファ２８０に格納されている現状態番号である
状態Ｏにおいて遷移文字イ″が記述されているかの照合
が行なわれている。次に、遷移が記述されてなければ次
の現状態番号の処理が行なわれ、遷移が記述されている
場合、バッファ２８１に次状態番号が格納され、同時に
照合結果が格納されているか、照合結果テーブルの次状
態番号で示されるアドレスに有効なタームＩＤが格納さ
れているかチエツクすることにより調べられている。こ
の場合では遷移が記述されているので、次状態番号であ
る状態コ−がバッファ２８１に格納されており、照合結
果テーブルを調べたところ結果は格納されていないため
照合結果は出力されない。次に２文字目の１′ン″がレジスタ２１．１に読み込ま
れる。すると、文字コード３０２と現状態番号３０５を
アドレスとする状態遷移テーブル２２０より次状態番号
であるＯが出力され、レジスタ２５０に格納される。コンパレータ２５２はレジスタ２５１に格納されている
初期状態番号であるＯとレジスタ２５０に格納されてい
る次状態番号であるＯを比較する。等しいのでセレクタ２６２では次状態番号３０３は選択
されない。このため次状態番号３０３は、バッファ２８
０に格納されない。このことは、状態Ｏには遷移文字“
ン”による遷移が記述されていないことを示している。本方式ではこのように制御することにより、始点状態か
ら始点状態への遷移における１〜−クンの生成を防いで
いる。次に、バッファ２８１より第２の次状態番号上が読み出
され、文字コード３０２と次状態番号である王をアドレ
スとして状態遷移テーブル２２０より次状態番号２が出
力され、レジスタ２５０に格納される。コンパレータ２
５２はレジスタ２５」、に格納されている初期状態番号
であるＯとレジスタ２５０に格納されている次状態番号
３０３である２を比較する。等しくないのでセレクタ２
６２は次状態番号３０３を選択することになる。このこ
とは、状態１から状態２に遷移文字“ン”による遷移が
記述されていることを示している。状態２における検索結果テーブル２６０の検索ターム番
号はＯであるので照合結果３０６は出力されない。この
ことは、状態２に照合結果が格納されていないことを示
している。また、マルチプレクサ２６０では、バッファ２８０を選
択しているので、バッファ２８０に次状態番号３０３で
ある２が始点状態番号に続く２つめの次状態番号として
格納される。バッファ２８１からは全ての現状態番号を読み取られた
ので、終了信号３０７が発生する。これによりマルチプレクサ２６０はバッファ２８１を選
択し、セレクタ２６１はバッファ２８０を選択すること
になる。すなわち、バッファ２８０内の２つの次状態番
号が２つの現状態番号として、次の文字に対する遷移に
用いられることになる。これらの動作をオートマトンの状態遷移としてみると、
まずバッファ２８１に格納されている現状態番号である
状態Ｏにおいて遷移文字ン″が記述されているかの照合
を行なっている。この場合記述されてないので次の現状
態番号である状態１について同様に照合を行う。状態２
への遷移が記述されているので、状態２は次状態番号と
してバッファ２８０に格納される。また、状態２には照
合結果が格納されてないので、照合結果は出力されてい
ない。次に３文字目の゛′夕″も２文字目と同様の照合処理と
なるので説明を簡略する。まず、バッファ２８０に登録
されている、現状態番号である状態０における照合動作
を行なうこの場合記述されていないので次の現状態番号
である状態２について同様に照合を行なう。状態３への
遷移が記述されているので、状態３が次状態番号として
バッファ２８０に格納される。また、状態３には照合結
果が格納されてないので、照合結果は出力されない。次に４文字目の″フ″も３文字目と同様の照合処理とな
るので説明を簡略する。ます、バッファ２８１に登録さ
れている、現状態番号である状態Ｏにおける照合動作を
行なう。この場合記述されていないので次の現状態番号
である状態３について同様に照合を行なう。状態４への
遷移か記述されているので、状態４が次状態番号として
バッファ２８０に格納される。また、状態４には照合結
果が格納されてないので、照合結果は出力されない。次に５文字目の″工″も４文字目と同様の照合処理とな
るので説明を簡略する。まず、バッファ２８０に登録さ
れている。現状態番号である状態○における照合動作を
行なう。この場合記述されてないので次の現状態番号で
ある状態４について同様に照合を行なう。状態５への遷
移が記述されているので、状態５が次状態番号としてバ
ッファ２８１に格納される。また、状態５には照合結果
が格納されてないので、照合結果は出力されない。次に６文字目の″イ′″がレジスタ２１］に読み込まれ
る。このステップではトークンが２つから３つに増加し
ているので詳細に説明する。文字コー８３０２と次状態番号である０をアドレスとす
る状態遷移テーブル２２０より次状態番＝２０４号としてｌが出力され、レジスタ２５０に格納される。コンパレータ２５２はレジスタ２５１に格納されている
初期状態番号であるＯとレジスタ２５０に格納されてい
る次状態番号である１を比較する。この場合、等しくな
いのでセレクタ２６２は次状態番号３０３を選択する。状Ｍ１における検索結果テーブルのキーワード番号は○
であるので照合結果３０６は出力されない。マルチプレ
クサ２６０では、バッファ２８０が選択されているので
、バッファ２８０に次状態番号である１が始点状態番号
に続く２つめの次状態番号として格納される。次に、バッファ２８１より第２の次状態番号６が読み出
され、文字コード３０２と次状態番号である６を７トレ
スとする状態遷移テーブル２２０より次状態番号として
７が出力され、レジスタ２５０に格納される。コンパレ
ータ２５２はレジスタ２５１に格納されている初期状態
番号である０とレジスタ２５０に格納されている次状態
番号である７を比較する。この場合、等しくないのでセ
レクタ２６２は次状態番号を選択する。状態７における
検索結果テーブルのキーワード番号はＯであるので照合
結果３０６は出力されない。マルチプレクサ２６０では
、バッファ２８０が選択されているので、バッファ２８
０に次状態番号である７が３つめの次状態番号として格
納される。バッファ２８土からは全ての現状態番号が読
み取られたので、終了信号３０７が発生する。これによりマルチプレクサ２６０はバッファ２８１を選
択し、セレクタ２６１はバッファ２８０を選択すること
になる。すなわち、バッファ２８０内の３つの次状態番
号が３つの現状態番号として、次の文字に対する遷移に
用いられることになる。次に７文字目の“ス″の照合処理に入るがレジスタ２１
１に読み込まれる。すると、文字コード３０２と次状態
番号であるＯを７１−レスとする状態遷移テーブル２２
０より次状態番号としてＯが出力され、レジスタ２５０
に格納される。コンパレータ２５２はレジスタ２Ｓ土に
格納されている初期状態番号であるＯとレジスタ２５０
に格納されている次状態番号である０を比較する。この
場合、等しいのでセレクタ２６２では次状態番号３０３
か選択されない。このため次状態番号は、バッファ２８
１に格納されないことになる。次に、バッファ２８１より第２の次状態番号である１が
読み出され、文字コード３０２と次状態番号である○を
アドレスとする状態遷移テーブル２２０より次状態番号
としてＯが出力され、レジスタ２５０に格納される。コ
ンパレータ２５２はレジスタ２５１に格納されている初
期状態番号であるＯとレジスタ２５０に格納されている
次状態番号であるＯを比較する。この場合、等しいので
セレクタ２６２では次状態番号が選択されない。このため次状態番号は、バッファ２８１に格納されない
ことになる。本実施例では、このように制御することによりトークン
の消滅を実現している。さらにバッファ２８１より第３の次状態番号である７が
読み出され、文字コード３０２と次状態番号である７を
アドレスとする状態遷移テーブル２２０より次状態番号
として８が出力され、レジスタ２５０に格納される。コ
ンパレータ２５２はレジスタ２５　、＋−に格納されて
いる初期状態番号であるＯとレジスタ２５０に格納され
ている次状態番号である８を比較する。この場合、等し
くないのでセレクタ２６２では次状態番号３０３が選択
される。状態８における検索結果テーブル２６０のキーワード番
号は１であるのでキーワード番号として］が照合結果３
０６とし出力される。マルチプレクサ２６０では、バッ
ファ２８１が選択されているので、バッファ２８１に次
状態番号であるの８が始点状態番号に続く２つめの次状
態番号として格納される。バッファ２８０からは全ての現状態番号が読み取られた
ので、終了信号３０７が発生する。これによりマルチプレクサ２６０はバッファ２８０を選
択し、セレクタ２６１はバッファ２８１を選択する。す
なわち、２つの次状態番号１１Ｒが２つの現状態番号として、次の文字に対する遷移に用
いられることを示している。以上のように、トークンを制御することにより″インタ
フェイス″という文字列の検索を実現している。本実施例によれば、このように複数のトークンを制御す
ることにより、「フェイル」という概念を必要としない
文字列検索方式を実現できる。このため、オーマトン作
成時間を短くするこ２ができ、状態数を少なくできるた
め状態遷移テーブルをコンパクトにできるという利点が
ある。次に、第５６図から第７０図の開示に基づいて、本発明
を実現するのに用いられる磁気ディスク装置の実施例を
説明する。第５７図は集合型磁気ディスク装置の構成を示すもので
、磁気ディスク装置ｊを有するｎ台のデータ記憶装置１
５と、データ記憶装置１５それぞれに接続する磁気ディ
スク装置１の１シリンダ分の容量を持つ入出力バッファ
３と、データ記憶装置１５と入出力バッファ３の制御を
行なうマルチディスクコントローラ４によって構成して
いる。ここではデータ記憶装置１５は土台の磁気ディスク装置
］で構成し、入出力バッファ３は上記磁気ディスク装置
１の」シリンダの容量を持つメモリ１面て構成している
。マルチディスクコントローラ４は、アクセスの対象とな
るファイルのファイルＩＤを上位機器７から直接設定で
きる通信メモリ５と高速データバス１０の制御を行なう
マルチプレクズコン１〜ローラ８とファイルＩＤから磁
気ディスク装置の格納先物理情報を求めるため変換テー
ブルである物理情報テーブル６および、それらを制御す
るマスタコンｉ・ローラ９によって構成している。上位機器７は集合型磁気ディスク装置に命令を与えるホ
ストコン１−ローラと入力されるデータの中から指定し
た文字列を検出し、その検出情報を出力する文字列検索
装置により構成している。本集合型磁気ディスク装置にデータファイルを構成する
データベースの構築を行なう前には、データベースの構
造定義処理を行なう。本集合型磁気ディスク装置では論理的に関連するファイ
ルを物理的格納位置が近接するように配置する手段とし
て、最初に物理シリンダを階層構造を持つ論理分類ＩＤ
に従い割り振っている。複数件のファイルを一度にアク
セスする場合、理論的に関連するファイルを対象にする
ことが多い。そこで、格納位置を近接させることにより、磁気ディス
ク装置のシリンダ間を磁気ヘッドが移動する距離を短く
シ、アクセス時間の一部であるシーク時間を短縮させる
。階層構造を持つ論理類ＩＤに従って物理シリンダの割り
振りは、上位機器７が論理分類ＩＤと該ファイル分類が
必要とする記憶容量の組が集まって構成されるデータベ
ース構造定義情報を通信メモリ５に格納した後、マルチ
ディスクコントローラ４に対しデータベースの構造定義
命令を発行する。構造定義命令を受けたマルチディスク
コントローラ４内のマスクコントローラ９は、通信メモ
リ５にセットされたデータベースの構造定義情報に基づ
いて、論理分類に物理位置がどう対応する−　２１．１
− かをマスクコントローラ９内のメモリ上に第５８Ａ、５
８Ｂ図で示すような構造の構造定義テーブルを作成する
。第５８Ａ、５８Ｂ図は２階層でそれぞれの階層で２つ
の分類を持つ例で、磁気ディスク装置全体を一台の磁気
ディスク装置としてまとめて、各分類ごとの格納位置を
シリンダの位置で、記憶容量をシリンダ数で示したもの
である。また、データベースの構造定義処理では、マルチディス
クコントローラ４内のマスタコン）−ローラ９は論理分
類毎に、書き込みファイルの格納先の物理位置を保持す
るために、マスクコントローラ９内のメモリ上に第５８
Ａ図に示すような、書き込みファイルの格納先の物理位
置を差し示す格納位置ポインタテーブルを作成する。構
造定義が終了した時点では、格納位置ポインタテーブル
は構造定義で設定した各論理分類の先頭シリンダ、先頭
トラック、先頭セクタ、セクタ内先頭位置を示すことに
なる。第５９Ａ、Ｂ、Ｃ，Ｄ図では第５８Ａ図で示した
例の分類でファイルを格納した場合の格納位置ポインタ
情報を格納している。次にデータベースの構築について説明する。本集合型磁
気ディスク装置ではアクセスの対盆となるファイルをフ
ァイルＩＤ（論理分類ＩＤと論理分類内の個有の番号で
構成）により指定する手段として、ファイルＩＤを用い
た管理情報を作成している。上位機７は通信メモリ５に書込み対象となるファイルの
ファイルＩＤとファイルサイズの組が複数件分集まって
構成されるファイル情報を格納した後、マルチディスク
コントローラ４に対し書き込み命令を発行する。書き込
み命令を受けたマルチディスクコントローラ４は、第６
１図に示すフローで処理を実行する。マルチディスクコ
ントローラ４内のマスクコントローラ９は、通信メモリ
５からファイル情報の中のファイルＩＤを読み出し、該
ファイルＩＤが示すファイルを格納する格納位置を格納
位置ポインタテーブルから読み出す格納位置が求まると
その物理シリンダに書き込める残り容量が求まる。その
残り容量よりもファイル情報のファイルサイズで与えら
れるファイルのサイズが小さげかば第６０Ａ１１に示す
ようなファイルＩＤをエントリとする物理情報テーブル
６にその格納位置（ディスク番号、シリンダ番号。トラック番号、セクタ番号、１＝クタ内位置）、ファイ
ルサイズ、ディスクまたがり数を書き込む。ディスクまたがり数は、ファイルが何台の磁気ディスク
装置ｌにまたがっているかを表わすもので、処理対象と
なっているファイルが、１台の磁気ディスク装置の１つ
のシリンダに書き切れなかった場合はファイルを分割し
て書き残したファイルを次のディスクに書き込むことに
なる。このファイル分割した書き残しファイルであれば
、この値をカウントアツプする。物理情報テーブル６の
エントリはファイル情報で与えられるファイルＩＤで示
される。物理情報テーブルへの書込みの後、格納位置ポインタを
ファイルサイズ９進める。ファイルサイズと残り容量が等しい場合は、１台の磁気
ディスク装置」のシリンダがいっばいになった時で、そ
の磁気ディスク装置１への書き込み処理を行なう。残り容量よりもファイルサイズが大きい場合には、残り
容量と分割基準サイズを比べる。分割基準サイズは構造
定義処理で設定する値で、シリンダの残り容量が非常に
小さいにもかかわらずファイルを磁気ディスク装置」の
間にまたがるように格納すると、そのファイルを読み出
すためには２台の磁気ディスク装置ｌを制御しなければ
ならず、その処理分オーバヘッドが大きくなる。そこで
、ある基準を設定してその基準値よりも残り容量が小さ
い場合には次の磁気ディスク装置ｌのシリンダの先頭か
ら書き込むようにするものである。残り容量が分割基準サイズ以上の場合には、物理情報テ
ーブル６に格納位置、ファイルサイズを格納した後、残
り容量に書き込める分のファイルと書き残した分の書き
残しファイルとに分割する。物理情報テーブル６には格納物理位置とファイルサイズ
を書込む。１シリンダがいっばいとなる物理情を作成した磁気ディ
スク装置１は書き込み処理を行なう。書き残しファイル
はループを戻り、次の処理対象ファイルとなる。残り容量が分割基準サイズよりも小さい場合には、格納
位置ポインタテーブルを次のシリンダの先頭に進めた後
、処理対象ファイルをそのまま次の処理対象ファイルと
してループを戻り処理を続ける。この時、１シリンダが
いっばいとなる物理情報を作成した磁気ディスク装置は
書き込み処理を行なう。書き込み処理は、マスクコントローラ９がシーク命令を
磁気ディスク装置１に発行し、シーク動作を開始する。次に、上位機器７にファイルの転送要求を発行し、マス
クコントローラ９は上位機器７にファイルの転送を要求
するとともに、マルチディクコントローラ８を制御して
データバスを切り換え、転送されてくるファイルを物理
情報で指定する入出力バッファ３へのファイルの転送を
行なう。シーク動作が終了し、ファイルの転送が終了す
るとマスクコントローラ９は書込み命令を磁気ディスク
装置１に発行し、該磁気ディスク装置１は書き込み動作
を実行する。上記の動作を繰返しデータベースの構築を行なう。第６２図は書き込み処理の時間的な関係を示すもので、
上位機器７から図に示すようにｒｉｌ　　１１１　１１
２　１１１．・・・：、　、　　１１ｎＩ　ＩＩ“１−
２”２−２”、・・・・・と次々と転送されてくるデー
タは、マルチディスクコントローラ４内のマルチプレク
スコントロラー８により、入出力バッファ３−１．３−
２．・・・・・、３−ｎ、３−１．３−２．・・・・・
・に格納される。このとき、例えば磁気データベース装
置１−１は、データ″１−↓″の転送を開始する直前に
マスタコントローラ９の指令によりシークを開始してい
る。データＩＩ　１．　　Ｉ　ＩＩの転送が終了した時
点で、マスクコントローラ９は磁気ディスク装置１−１
に書き込み命令を発行する。磁気ディスク装置１−１は
指定の書き込み位置に達するまで回転待ちを行なった後
、入出力バッファ３−１のデータ″↓−１″を所定のシ
リンダ、トラック、セクタへ書き込み始める。この間、他の磁気ディスク装置も図に示すように同様の
処理を行なうことになる。第６２図とこれに関する以上の説明から明らかなように
、各磁気ディスク装置はそれぞれ並行して、連続でファ
イルの書き込みができ、短時間でデータベースの構築が
できる。次に、ファイルの読み出し処理について説明する。また
、同一磁気ディスク装置の同一シリンダ」二に読み出す
ファイルが複数件有る場合に、読み出すファイルの間に
ある読み出し不要のファイルも入出力バッファに一旦読
み出し、上位機器に転送する際に読み出し不要のファイ
ルを削除する手段について説明する。上位機器７は読み出すファイルのファイルＩＤが複数件
分集まって構成するファイル情報を通信メモリ５に格納
した後、マルチディスクコントローラ４に対して読み出
し命令を発行する。読み出し命令を受けたマルチディスクコン１へ口−ラ４
は、第６３図に示すフローで処理を実行する。マルチディスクコントローラ４内のマスクコントローラ
９は、通信メモリ５から最初に読み出すべきファイルの
ファイルＩＤを読み出し、該ファイルＩＤから該ファイ
ルが格納されている物理情を物理情報テーブル６により
検索する。このファイルを先ファイル、物理情報を先フ
ァイルの物理情報とする。次に１通信メモリ５から次に
読み出すべきファイルのファイルＩＤを読み出し、該フ
ァイルＩＤから該ファイルが格納されている物理情報を
物理情報テーブル６により検索する。このファイルを後
ファイル、物理情報を後ファイルの物理情報とする。求めた物理情報から先ファイルと後ファイルが同一シリ
ンダに存在するかを調べ、同一シリンダに存在すれば先
ファイルと後ファイルの間に、指定していない読み出し
不要のファイル群があるか調べ、あれば、そのファイル
群の総サイズを求める。読み出し不要のファイルのサイ
ズが小さい場合には、先ファイルと後ファイルを一度の
読み出し命令で読出せるように、物理情報を合成する。次に合成した物理情報を先ファイルの物理情報としてル
ープを戻り、通信メモリ５から次のファイルＩＤを読み
出し、そのファイルを後ファイルとして同様な処理を行
なう。先ファイルと後ファイルが同一シリンダに存在しない場
合と読み出し不要ファイルのサイズが大きい場合には、
先ファイルの磁気ディスク装置から読み出し処理を実行
する。後ファイルの物理情報は先ファイルの物理情報と
してループを戻り、通信メモリ５から次のファイルＩＤ
を読出し、それを後ファイルとし同様な処理を行なう。このような動作を指定したファイルすべてを読み出すま
で繰り返す。先ファイルの磁気ディスク装置からの読み出し処理は、
まず、マスクコントローラ９は先ファイルの物理情報が
示す磁気ディスク装置１−１の磁気ディスクコントロー
ラ２−ｉに物理情報が示す物理位置へ磁気ヘッドを移動
させるシーク命令を発行し、磁気ディスク装置１−ｉは
シーク動作を開始する。シーク動作が終了すると、入出
力バツファ３−１がデータを書き込んでも良い状態であ
れば、マスクコントローラ９は読み出し命令を磁気ディ
スクコントローラ２−ｉに発行し、入出力バッファ３−
１に磁気ディスク装置１−ｉから読み出したファイルの
格納を開始する。格納が終了すると、マスクコン１〜ロ
ーラ９はマルチブレクスコントローラ８を制御して入出
力バッファ３−ｉから」二値機器７へのデータの転送を
開始させる。マルチプレクスコントローラ８は第６４図に示すように
、上位機器７のデータバスに入出力バツファ３−１から
３−ｎのデータバスを選択して接続するマルチプレクサ
２０１と選択したｉ番目の入出力バッファ３−ｉから上
位機器７にマスクコントローラ９の介在なしにデータを
出力するＤＭＡコン１ヘローラ２０２と該ＤＭＡコント
ローラ２０２に入出力バッファ３−ｊの転送範部を指定
するための先頭アドレスと終了アドレスを格納する先頭
アドレス登録テーブル２０３と終了アドレス登録テーブ
ル２０４により構成している。マスクコントローラ９は入出力バツファ３−ｉの転送す
べきファイルが存在する先頭アドレスを先頭アドレス登
録テーブル２０３に、終了アドレスを終了アドレス登録
テーブル２０４に設定した後位の入出力バッファ３から
」二値機器７へのデータの転送が行なわれていなければ
ＤＭＡコントローラ２０２に起動命令を発行する。ＤＭ
Ａコントローラ２０２は先頭アドレスｙ［テーブル２０
３と終了アドレス登録テーブル２０４を参照しながら指
定した範囲のデータのみ」二値機器７の要求する転送速
度でマスクコントローラ９の介在なしに転送を行なう。先ファイルと後ファイルを一度の読出し命令で読み出せ
るように、物理情報を合成する処理を行ない入出力バツ
ファ３−ｉに読み出した場合には、先頭アドレス登録テ
ーブル２０３と終了アドレス登録テーブル２０４に必要
なファイルすへてか転送されるようにアドレスを複数件
分設定し、同様な処理を行なう。先ファイルと後ファイルを一度の読出し命令で読み出せ
るように、物理情報を合成する処理は次の条件を満足す
る場合に行なう。先ファイルのサイズをｆ　１　［Ｂｙｔｅ］、後ファイ
ルのサイズをｆ　２　［Ｂｙｔｅ］　、読み出し不要の
ファイル群の総サイズをに　［Ｂｙｔｅ］　、磁気ディ
スク装ｆｔＷ１から入出力バッファ３へのシーク動作を
含まない実効的な転送速度をｔ　［Ｂｙｔｅ／ｓｅｃ］
、回転速度をＲ［ｒｐｓ］　、平均シーク時間をＳ　［
ＳｅＣコとするとき、平均回転待ち時間は（１，／　２
　Ｒ）であり、−度に読み出す時間が−づずつ読み出す
時間よりも短くなる条件は、のようになり、第３式で示すように書き表すことができ
る。ファイルの読み出し処理の時間的な関係は、」三位機器
７が要求する転送速度をＴ　［Ｂｙｔｅ／ｓＣｃ］、各
磁気ディスク装置１の１シリンダ分の容量がＭ［Ｂｙｔ
ｅ］、各磁気ディスク装置」から入出力バッファ３への
転送速度をｔ　［Ｂｙｔｅ／ｓｅｅ］　、各磁気ディス
ク装置１の最少シーク時間をｓ　［ｓｅｃ］　、回転速
度をＲ［ｒρｓ］とすると、最少シーク時間ｓ　［ｓｅ
ｃ］が１番目の入出力バッファ３−ｊ」−のファイルを
」−位機器７に転送する時間（Ｍ／Ｔ）より大きい場合
には、第６５図に示すようになる。」三位機器７の要求
する転送速度を満足するには、ｊ台目の磁気ディスク装
置１−１が入出力バッファ３−ｊにファイルを読み出す
時間（ｓ　＋　１　／　Ｒ＋　Ｍ　／　ｔ　）が、全て
の入出力バッファ３」−のファイルを上位機器７に転送
する時間（ｎ　Ｍ　／　Ｔ　）以内であれば良いことに
なる。ここでは、連続したシリンダを読み出すためシー
ク時間を最少シーク時間とした。また、磁気ディスク装置１に読み出し命令を発行した時
点の磁気ヘッドの位置がいかなる場合でも、上位機器７
の要求する転送速度を満足するように、回転待ちの時間
を最大値である（１／Ｒ）とした。この関係を数式で表わすとｔ　　　　　　　　Ｔのようになり、第１式で示すように書き表わすことがで
きる。また、最少シーク時間ｓ　［ｓｅｃ］がｉ番目の入出力
バッファ３−ｊ上のファイルを」三位機器７に転送する
時間（Ｍ／Ｔ）以下の場合のファイルの読み出し処理の
時間的な関係は、第６６図に示すようになる。この場合
は、シーク動作が終了しても入出力バッファ３−ｉはフ
ァイルを上位機器７に転送中であるため、読み出し命令
をｉ台目の磁気ディスク装置１−ｊに発行することがで
きない。そこで、入出力バッファ３−ｉのファイルが上位機器７
に転送が終了した時点に読み出し命令を」合口の磁気デ
ィスク装置１−ｉに発行することになる。従って、上位
機器７の要求する転送速度を満足するには、ｉ台目の磁
気ディスク装置↓−１が入出力バッファ３−ｉにファイ
ルを読み出す時間（Ｍ／Ｔ＋１／Ｒ＋Ｍ／ｌ）が、全て
の入出力バッファ３上のファイルを上位機器７に転送す
る時間（ｎ　Ｍ　／　Ｔ　）以内であれば良いことにな
る。この関係を数式で表わすとＴＲｔ　　　　　　　　　　ゴのようになり、第２式で示すように書き表わすことがで
きる。ｔ；　　　　　　　　ＭＲこれらの条件式より、」三位機器７が要求する転送速度
を満足するには磁気ディスク装置１を何台組み合わせれ
ばよいかを求めることができ、第１式を満足する最少の
台数の磁気ディスク装置］で集合型磁気ティスフ装置を
構成すれば最もコストパフォーマンスの良いものとなる
。例えば、１１〜ラツクの容量が２０ｋ（キロ）［Ｂｙｔ
ｅ］の６１〜ラツクからなる、］シリンダ分の容量が１
２０ｋ　［Ｂｙｔｅ］の磁気ディスク装置工により構成
し、上位機器７が要求する転送速度２Ｍ（メガ）　　［
Ｂｙｔｅ／ｓｅｅ］　、各磁気ディスク装置１から入出
力バッファ３へのシーク動作を含まない実効的な転送速
度をＩ　Ｍ　［Ｂｙｔｅ／５ｅｃｌ　、各磁気ディスク
装置１の最少シーク時間１０ｍ（ミリ）［ｓｅｃ］、回
転速度５０　［ｒｐｓｌとすると、第↓式％式％この式を満足する最少のｎは４となる。第６７図に３台の磁気ディスク装置↓で構成した集合型
磁気ディスク装置の読み出し中の時間関係で、第６８図
に４台の磁気ディスク装置１で構成した集合型磁気ディ
スク装置の読み出し中の時間関係、第１９図に５台の磁
気ディスク装置１で構成した集合型磁気ディスク装置の
読み出し中の時間関係を示す。第６７図の３台の磁気ディスク装置工で構威した場合に
は、図からもわかるように磁気ディスク装置］−から入
出力バッファ３にデータを読み出す時間が入出力バッフ
ァ３から上位機器７への転送時間に間に合す、入出力バ
ッファ３から上位機器７にデータの転送ができない時間
ａが発生し、入出力バッファ３から上位機器７への転送
速度が約１　、６　Ｍ　［Ｂｙｔｅ／ｓｅｅ］となり上
位機器が要求する転送速度を満足できない。また、第６９図の５台の磁気ティスフ装置上で構成した
場合には、上位機器７が要求する転送速度を満足はする
ものの、第６８図の４台の磁気ディスク装置］−で構成
した場合に比へ、１台の磁気ディスク装置１が処理をし
ない時間すが長く磁気ディスク装置の使用効率が悪い。従って、第１式を満足する最少のｎに一致する４台の磁
気ディスク装置１で構成した場合が、最もコストパフォ
ーマンスの良い集合型磁気ディスク装置と言える。本発明を文字列検索装置に適用したもう１つの実施例に
ついて第５６図を用いて説明する。第５７図で説明した集合型磁気ディスク装置は、指定し
たファイルのみを読み出す場合、指定したファイルが磁
気ディスク装置ニー１から１−ｎに平均して存在すれば
、実施例１で述べたような動作を実施して、上位機器７
へのデータ転送速度を高めることができる。しかし、１
台の磁気ディスク装ｆｉｔ　１−　ｉにだけ指定したフ
ァイルが存在する場合、上台の磁気ディスク装置１−１
の読み出しが連続して行われることになる。この場合、
上位機器７へのデータ転送は、−旦磁気ディスク装置１
−ｉから入出力バッファ３−ｉに読み出した後、入出力
バッファ３−ｊから上位機器７へ転送する２段読み出し
を行なわねばならないため、データ転送が低下してしま
うという状況が発生する。このように、指定したファイ
ルが偏って磁気ディスク装置１に存在すると上位機器７
へのデータ転送速度を効果的に高めることができない状
況が発生し得る。そこで、実施例２は、ファイルが偏っ
て格納されないようにすることで、常に全磁気ディスク
装置１を読み出し動作させ、」二値機器７へのデータ転
送速度を高めるものである。また、本実施例では記憶容量をさらに高めるために、磁
気ディスク装置の台数を増やしている。第５６図は本発明を用いた集合型磁気ディスク装置の構
成を示すもので、第５７図と相違点は磁気ディスク装置
１の１シリンダ分と同じ容量の入出力バッファ３を２面
待ち、第１面の入出力バッファ３ａのデータを上位機器
７に転送している間に、第２面の入出力バッファ３ｂに
磁気ディスク装置１からの読み出したフィルムを格納す
ることができることである。また、一つのデータ記憶装置上５をｍ台の磁気ディスク
装置↓−１−１〜１−ｊ−ｍとマルチプレクサ１４によ
って構威し、集合型磁気ディスク装置の総記憶容量を上
台の磁気ディスク装置の記憶容量の（ｎＸｍ）倍にして
いる。動作を説明すると、まず、第５７図の構成と同様にデー
タベースの構造定義処理を行なうが、入出力バッファ３
にマルチプレクサ１４を介して接続するｍ台の磁気ディ
スク装置ｊを識別する情報を構造定義情報に追加する。データベースの構築は第５７図の構成と同様に行なうが
、いくつかの相違点がある。第５７図の構成との相違点
は、ファイル情報で与えられるファイルを構成する磁気
ディスク装置の台数分に分割して、全磁気ディスク装置
に分散して格納することである。また、入出力バッファ
３のデータを格納物理情報で与えられるｍ台の内の王台
の磁気ディスク装置１−ｉ−ｊにマルチプレクサ１４を
制御して格納することである。ファイルの分割方法としては、ファイルサイズを台数で
割った分割サイズを求め、ファイルの先頭から分割サイ
ズごとにｔ命日の磁気ディスク装置１−１−ｊから１−
２−、ｊ、１−３−、ｊと順番に格納していくものと、
ファイルの先頭からｌバイトずつと言ったように、決め
られたサイズごとに１台目の磁気ディスク装置１−１−
ｊから上−２−ｊ、１−３−ｊと順番に格納していくも
のがある。ファイルサイズが磁気ディスク装置の台数で割り切れな
い場合は、ファイルサイズが磁気ディスクの倍数となる
ように無効データを末尾に付加して、常に１台目の磁気
ディスク装置ｈ−１−Ｊにファイルの先頭がくるように
格納する。次にファイルの読出しについて説明する。これも第５７
図の例と同様に行なうが、本構成では入出力バッファ３
を２面（３ａ及び３ｂ）持っているため、それぞれの磁
気ディスク装置１から入出力バッファ３に読出したファ
イルを格納した時点で、次のファイルの読出しの処理を
開始することができる。ファイルの読み出し処理の時間的な関係は第７０図のよ
うになり、第５７図の例に比べると入出力バッファ３に
データを書き込んでも良い状態になるまでの待ち時間が
なくなり、より高速の転送が可能になる。第５７図の例
と同じ条件で上位機器７の要求する転送速度を満足する
関係は、を台の磁気ディスク装置１−ｉ−ｊから２面あ
る入出力バッファ３−ｉの一方の入出力バッファ３ａ−
ｊにファイルを読み出す時間（ｓ＋１／Ｒ＋Ｍ／１）が
、もう一方の全ての入出力バッファ３ｂ１から３ｂ−ｎ
までのファイルを上位機器７に転送する時間（ｎ　Ｍ　
／　Ｔ　）以内であればよく、これを数式で表すとＲｔ　　　　　　　　Ｔのようになり、この数式は容易に次式のように書き表す
ことができる。この条件により、実施例工と同様に上位機器が要求する
転送速度を満足するためのデータ記憶装置］−５の台数
を求めることができる。また、大きな記憶容量が求められる場合には、データ記
憶装Ｍ１５をｍ台の磁気ディスク装置ｌとマルチプレク
サ１４によって構成し、記憶容量をｍ倍化することがで
きる。これらのことから決定される最少台数の磁気ディスク装
置工で集合型磁気ディスク装置を構成すれば、最もコス
トパフォーマンスの良いものどなる。第７０図の実施例では各磁気ディスク装置のシーク動作
の起動を上位機器への入出力バッファ３−１〜３−ｒ）
のデータ転送が終了した時点で行なっているが、それぞ
れ読み出しが終了した時点で行なっても良いことは明ら
かである。以上の２つの実施例では磁気ディスク装置を用いた場合
について説明したが、磁気ディスク装置以外の光ディス
ク装置等の記憶媒体が回転する記憶装置についても同様
なことは明確である。次に、第７１図から第７４図の開示に基づいて、本発明
の文書情報検索装置をＬＡＮ等を通して外部と接続可能
にする実施例について説明する。第７１図における文書情報検索装置（サーチマシンと呼
ぶ）３０００では、サーチマシン制御用コンピュータに
１１５０ＬＡＮなどの通信回線１０００に接続できるよ
うなＴ、　Ａ　Ｎ接続制御機能を備えている。サーチマ
シン３０００はサーチマシン制御用コンピュータ１］５
０とサーチユニット３」Ｏ○から構成されている。サー
チマシン制御用コンピュータ１１５０では５サーチマシ
ン制御プログラム１１００が実行される。このサーチマ
シン制御プログラム１１００は、本発明の第一の実施例
（第１０図）で説明した、検索式解析ブロクラム１１０
２、同義語異表記展開プロクラム１１０３ａ、複合条件
解析プログラム１１４↓ａ、及び検索実行制御プログラ
ム１１ｏ８が実行される。サーチプログ１〜３１００は、オー１〜で１−ン生成用
コンピュータ（ＣＰＵ、）　　１１．０５　ａ　、ビッ
トサーチ用コンピュータ（ＣＰＵ、）　１．１０７　ａ
、ストリングサーチエンジンエ１０６、複合条件判定用
コンピュータ（ＣＰ　Ｕ　２　）　１１４５　ａ、半導
体メモリ装置１１１０ａ、ＲＡＭディスク装置１１１０
ｂ、集合型磁気ディスク装置１１１０ｃから構成される
。オー１−マトン生成用コンピュータ（ＣＰＵ□）１１０
５ａではオートマトン生成プログラム］」０５が、ビッ
トサーチ用コンピュータ（ＣＰＵ３）　ｌ　１０７　ａ
ではピッ１−サーチプログラム１１０７が、複合条件判
定用コンピュータ（ＣＰＵ２）　１１−４５　ａでは複
合条件判定プログラム１１４５が実行される。また、集合型磁気ディスク装置１　］、　１０　ｃは集
合型磁気ディスク制御装置１１１−　Ｏｄと磁気ディス
ク装Ｆｉ１．１１０　ｅ、−１１，ｉ、　Ｏｅ、□から
構成される。また、集合型磁気ティスフ制御装置１１１
、　Ｏｄはマルチディスクコン１ヘローラ１、１１０　
ｆと、同期制御バッファ１１１０ｇ１〜１１１０　ｇ□
、から構成される。同期制御バッファ］−↓１０ｇ□〜
１１．１０　ｇ＋、は、それぞれ独立に動作する磁気デ
ィスク装ｆＷ　］、　１　］、　Ｏｅ工〜１１１０ｅ１
２の出力を整合し、同期を取ってス１−リングサーチエ
ンジン１１０６へ送出するためのものである。すなわち
、例えば、磁気ディスク装置１．１１０　ｅ□内の本文
データを磁気ディスク装置］、１１０ｅ２内の本文デー
タより先に送りださなければならないときに、もし磁気
ディスク装置１１１０ｅ２内の本文データが先に読み出
されてしまった場合でも、このデータを同期制御バッフ
７１１１０ｇ２内に保持しておき、磁気ディスク装置１
．１１０ｅ１内の本文データが同期制御バッファ、＋−
ｉ１ｏｇ１に読み出され、ここからマルチディスクコン
１ヘローラ１１１０　ｆを介してス１〜リングサーチエ
ンジン１１０６へ読み出した後、同期制御バッファ１１
１０　ｇ、内のデータをス１−リングサーチエンジン１
１０６へ読み出すことによって、当初の順番通りにデー
タをス１〜リングサーチエンジン１１０６へ読み出すこ
とが可能になる。このように、同期制御バッファ１．１１０　ｇ工〜１１
１０ｇｘ２は、磁気ディスク装置１１１０　ｅ。〜１１１０　ｅ、。の読み出し順序が各磁気ディスク装
置のシーク時間及び回転待ち時間のバラツキによりどう
変化したとしても、正しい所定の順番で外部に送り出す
ことが可能となる。マルチディスクコントローラ１１１
０ｆは、サーチマシン制御プログラム１　］、　ＯＯ内
の検索実行制御プログラム１１０８の制御のもとに、同
期制御バッファ１１１０ｇ、〜１　］、　１０　ｇユ２
の出力を選択するマルチプレクサの機能を果たす。ＲＡＭディスク装置１１１０ｂは、ＲＡＭディスクコン
トローラ４．２００と半導体メモリポート４１００　ａ
　、　４１００　ｂ　、　４　］、　００　ｃ　。４１００ｄから構成される。半導体メモリボード４１、
ＯＯａ、、４１００ｂ、４１００ｃ。４、１００　ｄは、同一バスに接続され、ＲＡＭディス
クコン１−口−ラ４．２００制御により、ここに格納さ
れた接縮本文がランダムにアクセスされる。そして、読み出されたデータはス１−リングサーチエン
ジン］１０６へと送出される。サーチマシン制御プログラム」１５０は、ＬＡＮ１００
Ｏを介して送られてくる検索指令に応して、先ず第一に
検索条件の解析、同義語展開、異表記展開、複合条件解
析、近傍条件解析、文脈条件解析、論理条件解析を行い
、ここで作成された各制御情報をピッＩ・サーチプログ
ラム１１０７、オートマトン生成プログラム土１０５、
及び複合条件判定プログラム１１４５へ渡す。オートマ
トン生成プログラム上工０５で作成されたキーワード照
合用の状態遷移テーブルデータは、ストリンサーチエン
ジン１１０６へ書き込まれる。第二に、検索制御情報の設定が終了したら、検索の実行
に入る。最初、半導体メモリ１１　］、　Ｏａ上の文字
成分表が読み出され、ビットサーチプログラム１１０７
により文字成分表サーチが行なわれる。この文字或表サ
ーチの結果は、サーチマシン制御用コンピュータ１１５
０の主メモリ」二に格納される。次に、文字成分表サー
チにより絞り込まれた文書集合に対して、凝縮本文サー
チを実行する。すなわち、サーチマシン制御用コンピュ
ータ１１５０の主メモリ上に格納された文字成分表サー
チの結果情報としての該当文書識別子を読み出し、これ
に対応する凝縮本文をＲＡＭデイ・スフ装置］１１０ｂ
から読み出し、ストリングサーチエンジン１↓０６で指
定キーワードの照合処理を行う。このストリングサーチ
エンジン１１０６の照合情報は、複合条件判定プログラ
ムエ１４５に渡され、ここで指定された複合条件に合致
するか否かの判定が行われる。この接縮本文サーチ結果
は、同様にしてサーチマシン制御用コンピュータ圭１５
０の主メモリ上に格納される。この後、もし複合条件に
近傍条件あるいは文脈条件が設定されていたなら、本文
サーチへ入る。本文サーチでは、サーチマシン制御用コ
ンピュータｉ　］、　５０の主メモリ上に格納された凝
縮本文サーチの結果情報としての該当文書識別子を読み
出し、これに対応する本文を集合型磁気ディスク装置１
１土Ｏｃから読み出し、ストリングサーチエンジン１１
０６で指定キーワードの照合処理を行う。このストリン
グサーチエンジン１１０６の照合情報は、複合条件判定
プログラム１１４５に渡され、ここで指定された複合条
件、すなわち近傍条件と文脈条件に合致するか否かの判
定が行われる。この本文サーチ結果は、同様にしてサー
チマシン制御用コンピュータ１１５０の主メモリ」二に
格納される。これらの検索手順の制御は、す八でサーチマシン制御プ
ログラム］−１００内の検索実行制御プログラム１１０
８によって行われる。第三に、」二連した一連の検索処理が終了したら、サー
チマシン制御用コンピュータ：１．１５０の主メモリ上
に書き込まれた検索結果を、サーチマシン制御プログラ
ム」、１００の制御によりＬＡＮ１００○を介して要求
元であるワークステーション等の検索対話端末に返送す
る。以上説明した本発明の変形例によれば、文書情報検索装
置をＬＡＮ内のサーバとして、同じＬＡＮに接続された
複数の検索対話用端末から検索を行うことが可能となり
、共有資源としての有効活用ができるようになる。次に、本発明のもう一つ別の実施例について第７２図を
用いて説明する。本実施例における文書情報検索装Ｍ（サーチマシンと呼
ぶ）３０００はＬＡＮなどの通信回線１０００に接続で
きるようＬＡＮ接続制御アダプタ２．１．　ＯＯを備え
ている。サーチマシン３０００は上記ＬＡＮ接続制御ア
ダプタ２１００のほか、サーチマシン制御用コンピュー
タ２２００と複数のサーチユニット３００１．．３００
２．・・・・・から構成されている。サーチマシン制御用コンピュータ１１５０では、サーチ
マシン制御プログラム１１００が実行される。このサー
チマシン制御プログラム１１００は、本発明の第一実施
例（第１０図）で説明した、検索式解析プログラム１１
０２、同義語異表記展開プログラム１１０３ａ、複合条
件解析プログラム↓１４↓ａ、及び検索実行制御プログ
ラム１１０８で構成される。サーチマシン１〜３００１は、オー］・７トン生成用コ
ンピュータ（ＣＰＵ、）　　ｉ　ｉ　Ｏ５ａ、ピッ１〜
サーチ用コンピユータ（ＣＰ　Ｕ３）　１−１０７　ａ
、ストリングサーチエンジン１１．０６、複合条件判定
用コンピュータ（ＣＰ　Ｕ２）　１１４５　ａ、半導体
メモリ装置１１１０ａ、ＲＡＭディスク装置１１１０ｂ
、集合型磁気ディスク装置１１．１０Ｃ５検索結果格納
メモリ１１４６、及びセレクタ３６１０．３６２０から
構成される。オートマトン生成用コンピュータ（ＣＰＵ、）工」−〇
５ａではオートマトン生成プログラム１１０５が、ピッ
１〜サーチ用コンピュータ（ＣＰＵ、）　１１０７　ａ
ではピッ１ヘサーチプログラム１１０７が、複合条件判
定用コンピュータ（ＣＰＵ２）　１１４５　ａでは複合
条判定プログラムエ１４５が実行される。また、集合型磁気ディスク装置１１１０ｃは集合型磁気
ディスク装置１１１０ｄと磁気ディスク装ｆｉｌ！１１
１０　ｅ１〜１１１０　ｅｌ）ｌから構成される。これらの磁気ディスク装置１１１０ｅ１〜１１１０　ｅ
ｘＮには１本文データ、接縮本文データ、文字成分表及
び書誌事項などが分散して格納されている。本文サーチ
の際には、ここから本文データがストリングサーチエン
ジン１１０６へ読み込まれる。半導体メモリ装置１１１０ａには、システムの立ち上げ
時に磁気ディスク装置１１１０　ｅ、〜１１１０ｅ、Ｎ
から文字成分表がロードされ、検索時に文字成分表サー
チの対象データとしてビットサーチプログラム１１０５
によりアクセスさせる。同様にＲＡＭディスク装置１１１０ｂには、システムの
立ち上げ時に磁気ディスク装置１１１０ｅ、〜１１１０
ｅ、ｓから接縮本文がロードされ、検索時に凝縮本文サ
ーチの対象データとしてストリングサーチエンジン１１
０６番こよりアクセスされる。ストリンクサーチエンジン１１０６は、凝縮本文サーチ
及び本文サーチ時に、それぞれ接縮本文をＲＡＭディス
ク装置１．１１０　ｂから、本文を集合型磁気ディスク
装置１１１０ｃから読み出し、指定キーワードの探索照
合処理を行う。セレクタ３６１０は、ストリングサーチ
エンジン１１０６へに入力をＲＡＭディスク装置１１１
０ｂと集合型磁気ディスク装置１上王Ｏｃとで切り替え
る働きをする。また、セレクタ３６２０は、検索結果格
納メモリ１１４６へ文字成分表サーチ結果を書き込む際
と、型線本文サーチ結果及び本文サーチ結果を書き込む
際の入力を切り替える働きをする。サーチマシン制御プログラム１１５０は、ＬＡ、Ｎ１０
００を介して送られてくる検索指令に応じて、先ず第一
に検索条件の解析、同義語展開、異表記展開、複合条件
解析、近傍条件解析、文脈条件解析、論理条件解析を行
い、ここで作成された各制御情報を各サーチユニット３
００１゜３００２、　　・・・・のビットサーチプログ
ラム１１０７、オートマトン生成プログラムエ１０５、
及び複合条件判定プログラム１１４５ヘブロードキヤス
トする。各サーチユニット３００１゜３００２、・・・
・・では、それぞれオートマ１ン生戒プログラム１１０
５で作成されたキーワード照合用の状態遷移テーブルデ
ータが、ストリングサーチエンジン１１０６へ書き込ま
れる。第二に、検索制御情報の設定が終了したら、検索の実行
に入る。ここでは、サーチマシン制御用コンピュータ１
１５０上の検索実行制御プログラム１１０８が各サーチ
ユニット３００１゜３００２、・・・・・・へ検索起動
情報をブロードキャストすることになる。各サーチユニット３００１，３００２．・・・・・・で
は、最初、半導体メモリ１１１０ａ上の文字成分表が読
み出され、ビットサーチプログラム１１０７により文字
成分表サーチが行われる。この文字成分表サーチの結果
は、検索結果格納メモリ１１４６に書き込まれる。この
「゛、３６２０はビットサーチプログラム１１０７から
の書込みを選択すべく、検索実行制御プログラム１１０
８により切り替えられている。次に、り字成分表サーチにより絞り込まれた文書集合に
対して、凝縮本文サーチを実行する。すなわち、検索結
果格納メモリ１１４６上に格納された文字成分表サーチ
の結果情報としての該当文書識別子を検索実行制御プロ
グラム］１０８が内蔵する接縮本文格納情報を参照して
、該当接縮本文のＲＡＭディスク装置１１　］、　Ｏｂ
上の格納領域情報をＲＡＭディスクコントローラ７２０
０　（第２２図）に設定する。その後、該当接縮本文を
ＲＡＭディスク装置１１１０ｂから読み出し、ストリン
グサーチエンジン１１０６で指定キーワードの照合処理
＝　行う。このストリングサーチエンジン１１０６の照
合情報は、複合条件判定プログラム１工４５に渡され、
ことで指定された複合条件に合致するか否かの判定が行
われる。この擬縮本文サーチ結果は、同様にして検索結
果格納メモリエ］４６に書き込まれる。当然、セレクタ
３６２０は複合条件判定プログラム１工４５からの書込
みを選択すべく、検索実行制御プログラム１１０８によ
り切り替えられている。この後、もし複合条件に近傍条件あるいは文脈条件が設
定されていたなら、本文サーチへ入る。本文サーチでは、検索結果格納メモリ１１４６上に格納
された凝縮本文サーチの結果情報としての該当文書識別
子を検索実行制御プログラム１１０８が内蔵する本文格
情報を参照して、該当本文の集合型磁気ディスク装置１
１１０ｃ上の格納領域情報を集合型磁気ディスク制御装
置１１１０ｄ　（第２０図）に設定する。その後、これ
に対応する本文を集合型磁気ディスク装置１１１０　ｃ
から読み出し、ストリングサーチエンジン１１０６で指
定キーワードの照合処理を行う。このストリングサーチエンジン１１０６の照合情報は、
複合条件判定プログラム１１４５に渡され、ここで指定
された複合条件、すなわち近傍条件と文脈条件に合致す
るか否かの判定が行われる。この本文サーチ結果は、検
索結果格納メモリ］−１４６に書き込まれる。この時、
セレクタ３６１０は集合型磁気ディスク装置１　」−１
０ｃから読み込みを選択すべく、またセレクタ３６２０
は複合条件判定プログラム１１４５からの書込みを選択
すべく、検索実行制御プログラム１１０８により切り替
えられている。以上説明した検索手順の制御は、すべて検索実行制御プ
ログラム１１０８により、各サーチユニット３００１，
３００２．　　・・・・・ヘブロードキャストすること
により行われる。第三に、上述した一連の検索処理が全サーチユニット３
００１，３００２．　　・・・・で終了したら、各検索
結果格納メモリ１１４６上に書き込まれた検索結果を、
検索実行制御プログラム１１０８が全ユニット３００１
，３００２．　　・・・から収集にれを統合してサーチ
マシン制御プログラム↓１００の制御によりＬＡＮｌ０
○Ｏを介して要求元へ返送する。また、サーチマシン制御用コンピュータ１１５０には磁
気ディスク装置２４００が付設されており、ここには本
サーチマシン３０００の構成情報、すなわちサーチユニ
ット数などが格納されている。さらに、この磁気ディス
ク装置２４００は、ＬＡＮを介して複数のユーザから検
索要求が来る場合、サーチユニットの動作状況に応じこ
れらの要求を一時的に格納したり、あるいは返送すべき
検索結果情報を一時的に格納するのにも用いられる。さらに、サーチマシン制御用コンピュータ１１５０に付
随したコンソール２３００には、本サーチマシンの動作
状況が適宜表示されたり、あるいはここから保守動作の
指示を行うことができるようになっている。この実施例の構成に示されているように、本発明によれ
ば、集合型磁気ディスク装置内の磁気ディスク装置の台
数及びサーチユニットのユニット数をユーザの要求仕様
、すなわち要求テキストデータ蓄積容量、検索時間など
に応して極めて容易に情報検索装置を構成できることに
なる。第７３図は、本発明の更に別の実施例を示したものであ
る。これまで説明してきた実施例では、集合型磁気ディ
スク装置１１１．　Ｏｃ、ピッ１ヘサーチ用コンピユー
タ１１０７ａあるいはストリングサーチエンジン１１０
６、複合条件判定用コンピュータ１１４５ａ及び検索結
果格納メモリ１１４６をカスケードに接続し、パイプラ
イン動作させることによって処理速度の向上を図ってい
る。これに対して、本実施例では、上記各部分をバス８
０００で結合することによって、ハードウェアの構成を
簡単化し、引いては装置規模を抑えた構成にしたもので
ある。また、集合型磁気ディスク装置１１１０ｃ、ＲＡ
Ｍディスク装置１１１０ｂ、及び半導体メモリ装置１１
１０ａの制御コンピュータ１１５０ａを、またビットサ
ーチ用コンピュータ１１０７ａ、ストリングサーチエン
ジン１１０６、及び複合条件判定用コンピュータ１１４
．５　ａの制御にコンピュータ１１５０ｂをそれぞれ一
台ずつ配することによって、サーチマシン制御用コンピ
ュータ１１５０のロードを軽減し、全体として負荷分散
を図ることにより、検索処理にかかわるオーバヘッドの
低減を可能とするものである。最後に、本発明の文書情報検索装置をネットワークシス
テムにおいて使用する場合の実施例について、第７４図
を用いて説明する。同図において１０００がＬＡＮなどのネットワークであ
り、これにサーチマシン３０００がサーチマシン制御用
ワークステーション２２００を介して、通信制御手段２
１００により接続されている。また５２００は光ディスク装置５５１０゜５５２０、・
・・・・・５５３０を統括制御するイメージサーバであ
る。該イメージサーバ５２００も同じく、通信制御手段
５１００によりネットワーク１０００に接続されている
。５４００は光ディスク装置５５１０，５５２０．　　
・・・・５５３０における文書に対応するイメージデー
タの所在を管理する管理情報を格納する磁気ディスク装
置である。１２００はデータを表示できる検索対話用のワークステ
ーションであり、これもまた通信制御手段］。１００に
よってネットワーク」、　ＯＯＯに接続されている。本
ワークステーションにはこのほかイメージプリンタｉ　
４．　ＯＯ、イメージスキャナ１５００、磁気ディスク
装置」−６００、光ディスク装置１７００が接続されて
いる。６２００も検索対話用のワークステーションであり、こ
れも通信制御手段６１００により同じネットワークに接
続されている。これは、検索ならびに閲読専用のワーク
ステーションである。ワークステーション１２００から
は、サーチマシン３０００からの検索結果に応して、イ
メージサーバ５２００へ該当文書に対応するイメージデ
ータを要求し、これをネット−ワーク経由で受け取りコ
ンソール１３００に表示し、図面などをも含めて閲読す
ることが可能である。このイメージデータはイメージプ
リンタ１４．　ＯＯにハードコピーをとることもてきる
。また、このイメージデータを本ワークステーション上
で編集し、個人専用のブライポー１〜フアイルとして光
ディスク装置１、７００に格納することも可能である。この編集に際しては、イメージスキャナ１５００から入
力したイメージを用いることもできる。したがって、サーチマシンあるいはイメージサーバのデ
ータベースに格納されているパブリックなデータには手
を加えることなく編集部分のみを磁気ディスク装置１６
００及び光ディスク装置１７００に格納し、その対応情
報を磁気ディスク装置１．６００に持つことも可能であ
る。〔発明の効果〕以上の各実施例によれば、先ず第一にテキストデータを
納める文字列記憶手段を並列に並へた複数台の磁気ディ
スク装置で構成し、これらを同時に駆動しその出力デー
タを統合することによって、高い読み出し速度を得るこ
とができるため、テキストデータを対象にした本文検索
が高速に行えるようになり、検索時間の大幅な短縮が可
能となる。第二に、文字列照合手段に有限オートマトン方式に基づ
く文字列照合用の専用ハードウェアを搭載することによ
って、照合速度を低下させることなく約−千語のキーワ
ードを一括して検索することが可能となる。したがって
、同義語及異表記を含めて、テキストデータベースを蛸
ニー回スキャンするだけで検索を終えることができるよ
うになるため、異なる表現及び表記を許容した」二で高
速な検索処理を実現することが可能になる。第三に、スキャン型のフルテキス１へサーチを加速する
方法として、２段階のプリサーチを行うことによって、
磁気ディスクに格納されたテキス１−本文を参照しに行
く件数を減らすことができるようになるため、検索処理
時間に占める割合が高い本文検索処理量を減らすことか
可能になり、その結果全体の検索処理時間を短縮するこ
とが可能となる。具体的には、第一段階目のプリサーチ方法として、予め
すべての文字コードについて文書毎にその文字の有無を
１ビツトの情報を表したビットリストをハツシュ化した
テーブルとして持ち、指定されたキーワードを構成する
文字単位にこのチープルを検索して該当する文書のピッ
１へリストを求め、その後これらのビットリストの相互
の論理積を取ることによって、指定された文字をすへて
含む文献のみを抽出することができ、以降の検索対象と
する文書数を必要最小限に絞り込むことが可能になるた
め、全体の検索処理時間を短縮することが可能となる。さらに、第二段目のプリサーチ方法として、予めテキス
１〜本文の中から助詞や接続詞などの附属語を削除する
と共に、繰り返し表れる単語の重複を排除した接縮本文
を用意し、第一段目のプリサーチて絞り込みれた文書の
接縮本文をスキャンすることによって、指定されたキー
ワードが単語単位で記述されている文書だけを抽出する
ことができ、以降の本文検索の対象となる文書数を必要
最小限に絞り込むことが可能になるため、全体の検索処
理時間をさらに短縮することが可能となる。したがって、この２段階のプリサーチの結果絞り込まれ
た文書についてのみ、テキス１−本文を磁気ディスク装
置から読み出してスキャンし、最後の複合条件による本
文検索を行うことになるため、等価的に非常に高速なフ
ルテキスＩ−サーチが実現できることになる。第四に、本文検索の際、サーチエンジンの出力結果から
検索式に記述された論理条件及び近傍条件や文脈条件に
合致するものだけを抽出する複合条件判定手段を設ける
ことにより、フルテキス１〜サーチ特有の木目細かな検
索が可能となる。すなわち、論理条件判定手段により論
理和や論理積、論理否定なとの検索演算機能が実現でき
ることになり、近傍条件判定手段により日本語の場合に
はキーワードとキーワードの間に存在する文字数に上限
あるいは下限を指定した字間距離条件検索が、英語の場
合にはキーワード間の語数に上限あるいは下限を指定し
た語間距離条件検索などの機能が実現できることになり
、文脈条件判定手段により。キーワードとキーワードが同一の交円に共起するものを
検索したり、あるいは同一の段落に現れる文書を検索し
たりする検索機能が実現できることになる。また、複合条件判定手段を構成する近傍条件判定手段、
文脈条件判定手段及び論理条件判定手段をこの順序で結
合し、パイプライン的に実行することによって、高速な
複合条件処理を実現することが可能となる。第五に、複数の磁気ディスク装置から構成される文字列
記憶手段、文字列照合手段、プリサーチ手段、及び複合
条件判定手段をまとめて一つのユニッＩ・とじ、このユ
ニットを複数個並列に並べ、この」三位にこれらを制御
するコントロール手段を設け、さらにこれらをまとめて
−台のサーチマシンとする構成を採ることによって、大
容量テキストデータベースに対しては複数のサーチマシ
ンを並列に設置することで対処すると共に、データベー
スの蓄積に伴う容量の増加に対しては既存のテキストデ
ータベースに手を加えることなくマシン内のユニットの
増設、あるいはシステム内のサーチマシン増設によって
対処することが可能となる。第六に、このテキスｌ−サーチマシンにＬ　Ａ、　Ｈに
対する接続手段を設けることによって、サーチマシンを
ＬＡＮに接続して使用できるようになる仁め、複数のユ
ーザに対してのサービスが提供できると共に、大規模な
テキスＩ〜データベースのＬＡＮを介した構築に応える
ことも可能なる。すなわち、大規模テキストデータベー
スに対してはＬ　Ａ　Ｎを介して複数台のサーチマシン
を接続することによって対処でき、データベース容量の
増加に際してもＬＡＮ内のマシン数の増設によって対処
することが可能となる。第七に、テキストサーチマシンの内部に同義語及び異表
記の展開処理を行う同義語展開手段及び異表記展開手段
を設けることによって、ユーザがこれらの問題を意識し
なくとも自動的に同義語や異表記などの展開諸費すへて
をキーワードとして全文検索を行うことができ、表現及
び表記の違いに起因する漏れを生ずることなく所望の文
書が検索できることになる。以上のように、本発明に係る階層プリサーチ式文書検索
方法及びこの装置に用いられる磁気ディスク装置によれ
ば文書の登録及び、この登録された文書の自由語による
フルテキストサーチ手段として有用であり、特に大規模
データベースを使ってのサーチ等の効率を要求される文
書検索に好適である。

【図面の簡単な説明】

第１図は従来の検索システムを示すブロック構成図、第
２図、第３図、第５図及び第７図は従来の有限オートマ
トンによる文字列検索原理を表した説明図、第４図、第
６図及び第８図は、上記従来例に対応するフェイルテー
ブルの説明図、第９図は異表記展開の従来構成を示した
ブロック図、第１０図は、この発明の第１の実施例の概
要を示すブロック構成図、第１１図は照合位置情報の一
例を示す図、第１２図は照合位置情報を付したサーチエ
ンジンの出力情報何回、第１３図は複合条件判定部の詳
細を示す図、第１４図は２つのキーワードを使った検索
何回、第１５図は、この発明の特徴の一つである、フル
テキストサーチを加速する手段を示す構成図、第１６図
はテキストの登録処理の手順を示す図、第エフ図は、上
記第１６図で登録、生成された文字成分表から、検索処
理を行う手段を示した図、第工８図は文字成分表の構成
とこれを用いたサーチの具体例を示すした図、第１９図
は接縮本文の作成を示す図、第２ＯＡ。２０Ｂ図、第２１図、第２２図、第２３図及び第２４図
は文字成分表サーチの手順を示したＰＡＤ図、第２５図
は第１０図に示した実施例の変形例を示す構成図、第２
６図はこの発明の一つの特徴部分である同義語・異表記
の展開の処理を行う実施例のブロック構成図、第２７図
は上記２６図に示した実施例での処理概略を説明した図
、第２８図は同じ〈実施例の構成ブロック図、第２９図
は、異表記展開処理の過程を例示する図、第３０図は、
異表記展開手段のブロック図、第３１図は異表記展開処
理部における変換ルールの適用処理をカタカナ文字の列
で説明した図、第３２図は異表記展開処理を示すＰＡＤ
図、第３３図は見出し文字列検索をオートラ１−ンを用
いて実行する実施例を説明する図、第３４図はオートマ
トンの状態遷移テーブル図、第３５図はオートラ１−ン
の出力テープル図、第３６図は検索オートマトンの状態
遷移テーブル及び出力テーブルの作成方法を表したＰＡ
Ｄ図、第３７図はカタカナ異表記変換ルールテーブル、
第３８図は漢字の新旧字体に関する異表記変換ルールテ
ーブル、第３９図は漢字の送り仮名に関する異表記変換
ルールテーブル、第４０図はローマ字とカタカナの対応
表の例、第４１図は実施例の異表記展開手段の展開モー
ドを設定可能とするブロック図、第４２図は異表記展開
における各変換部、展開部及びスイッチの出力の制御状
態を示す図、第４３図は同義語辞書を示す図、第４４図
は同義語辞書の見出し文字列をインデックステーブルを
用いて探索する方式の概要を示す図、第４５図はこの発
明の実施例である有限オートマトンを用いた文字検索回
路の構成ブロック図、第４６図、第４７図、第４８図、
第４９図、第５０図、第５工図、第５２図、第５３図は
この実施例の有限オートマトンによる文字列検索方法の
原理を示した説明図、第５４図はこの実施例の状態遷移
テーブルの説明図、第５５図は検索結果テロ１一プルの説明図、第５６図はこの発明の実施例である集
合型磁気ディスク装置の構成何回、第５７図は、他の実
施例を示す構成図、第５８Ａ図及び第５８Ｂ図は構造定
義テーブルの構造を示す図、第５９Ａ図、第５９Ｂ図、
第５９Ｃ図及び第５９Ｄ図は格納位置ポインタテーブル
の構造を示す図、第６０Ａ図、第６０Ｂ図、第６０Ｃ図
及び第６０Ｄ図は物理情報テーブルの構造を示す図、第
６１図は第５７図に示した実施例のファイルの書き込み
のフローチャート、第６２図は同じく第５７図の集合型
磁気ディスク装置におけるファルの書き込み処理のタイ
ムチャー１へ、第６３図は第５７図の実施例におけるフ
ァイルの読み出し処理のフローチャート、第６４図はマ
ルチプレクスコントローラの構成を示す図、第６５図は
第５７図の実施例における集合型磁気ディスク装置にお
けるファイルの読み出し処理のタイムチャート、第６６
図は、同じく第５７図の実施例における集合型磁気ディ
スク装置におけるファイルの読み出し処理のタイムチャ
ート、第６７図は、第５７図の実施例において３台の磁
気ディスク装置で構成した集合型磁気ディスク装置にお
けるファイルの読み出し処理のタイムチャート、第６８
図は、上第５７図の実施例において４台の磁気ディスク
装置で構成した集合型磁気ディスク装置におけるファイ
ルの読み出し処理のタイムチャート、第６９図は第５７
図の実施例において５台の磁気ディスク装置で構成した
集合型磁気ディスク装置におけるファイルの読み出し処
理のタイムチャー１・、第７０図は、第５６図の実施例
において、２台の集合型磁気ディスク装置におけるファ
イルの読み出し処理のタイムチャート、第７１図はこの
発明をＬＡＮに接続した実施例を示す構成ブロック図、
第７２図は、第７１図に示した実施例の変形例を示すブ
ロック図、第７３図は同じく第７１図に示した実施例の
変形例図、第７４図は同じく第７１図の変形例の構成を
示す構成ブロック図である。第７５図は、ＲＡＭディスク装置の具体例を示す図。

Claims

【特許請求の範囲】１、予め格納された文書のテキストデータ群から任意の
検索対象キーワードを含む特定のテキストデータを検索
する文書検索方法において、予め前記テキストデータ群
に含まれる全ての文字コードについて前記文書毎におけ
る当該文字コードの有無を記述した文字成分表を生成し
、任意に指定された検索対象キーワードを構成する全て
の文字コードで前記文字成分表をサーチし、前記検索対象キーワードを構成する全ての文字コードを
含む全ての文書を抽出する第１のプリサーチを行うこと
、を特徴とする文書情報検索方法。２、請求の範囲第１項において、さらに、前記文書毎に予めテキストデータ中に含まれる
付属語及び繰り返し記述される単語の重複を排除した凝
縮テキストデータを生成し、前記第１のプリサーチで抽
出された文書中から前記検索対象キーワードを単語単位
で含む文書を抽出する第２のプリサーチを行うこと、を
特徴とする文書情報検索方法。３、請求の範囲第２項において、さらに、前記第２のプリサーチにより抽出された文書中
から検索対象キーワードの所定の探索条件に基づくサー
チを行って該当文書を抽出すること、を特徴とする文書情報検索方法。４、請求の範囲第２項において、前記第１のプリサーチにおいて抽出された該当文書件数
が、当該件数の文書を前記凝縮テキストデータから選択
的に読み出すのに要する時間に対して、前記凝縮テキス
トデータ全体を読み出すのに要する時間よりも多くの時
間を要する場合には、前記凝縮テキストデータの全体に
前記第２のプリサーチを行うことを特徴とする、文書情
報検索方法。５、請求の範囲第１項において、前記第１のプリサーチにおいて、前記文字成分表中に前
記任意に指定された検索対象キーワードを構成する全て
の文字コードに該当するものが無い場合には、当該検索
対象キーワードに基づく文書の検索を中断することを特
徴とする、文書情報検索方法。６、請求の範囲第２項において、前記第２のプリサーチにおいて、前記凝縮テキストデー
タ中に、前記検索対象キーワードが単語単位で含まれる
文書が無い場合には、当該検索対象キーワードによる文
書の検索を中断すること、を特徴とする文書情報検索方法。７、請求の範囲第３項において、前記検索対象キーワードの所定の検索条件が与えられて
いない場合には、前記第２のプリサーチでの探索結果を
前記所定の検索対象キーワードによる探索結果とするこ
とを特徴とする、文書情報検索方法。８、請求の範囲第３項において、前記所定の検索対象キーワードに与えられる検索条件に
は、少なくとも近傍条件及び文脈条件の何れか一つを含
むことを特徴とする、文書情報検索方法。９、文書のテキストデータ群を格納する少なくとも一台
のテキストデータ格納手段と、これを検索するためのキ
ーワードとこれらの間の位置関係と論理関係すなわち複
合条件を指定した検索条件式を入力する検索式入力手段
と、入力された検索条件式を解析し検索対象キーワード
と複合条件記述部を抽出する検索式解析手段と、該検索
式解析手段から出力される検索対象キーワードを基にこ
の同義語を発生する同義語展開手段と、これらの同義語
を含めてその異形語を発生する異表記展開手段と、前記
検索式解析手段から出力された複合条件記述部を解析し
前記位置関係条件と論理関係条件に展開する複合条件解
析手段と、前記テキストデータ格納手段からそれぞれテ
キストデータを読み出し前記異表記展開手段から与えら
れたキーワード群を一括して照合する少なくとも一台の
文字列照合手段と該文字列照合手段からそれぞれ出力さ
れる照合結果を基に前記複合条件解析手段によって指定
した条件に適合するものを検出し該当文書識別子を出力
する少なくとも一台の複合条件判別手段と、該複合条件
判別手段の出力結果に基づいて検索条件式に適合した文
書の識別子情報を出力する検索結果出力手段を有するこ
とを特徴とする文書情報検索装置。１０、請求の範囲第九項記載の文書情報検索装置におい
て、文書のテキストデータ群を格納するテキストデータ
格納手段として、複数の記憶装置を用い、これらを並列
に動作させそれらの出力を統合して文字列照合手段へ供
給することを特徴とする文書情報検索装置。１１、請求の範囲第十項記載の文書情報検索装置におい
て、テキストデータ格納手段を構成する記憶装置として
、磁気ディスク装置を用いたことを特徴とする文書情報
検索装置。１２、特許請求の範囲第十項記載の文書情報検索装置に
おいて、テキストデータ格納手段を構成する記憶装置と
して、光ディスク装置を用いたことを特徴とする文書情
報検索装置。１３、特許請求の範囲第九項記載の文書情報検索装置に
おいて、予めすべての文字コードについて文書毎の有無
を記述したテーブルデータを用意すると共に、指定され
た検索条件式中のキーワードを構成するすべての文字を
含む文書を抽出する第一のプリサーチ手段を有し、該第
一のプリサーチ手段によって絞り込まれた文書集合につ
いてテキストデータをテキストデータ格納手段から読み
出し、文字列照合手段並びに複合条件判別手段によって
検索を行うことを特徴とする文書情報検索装置。１４、請求の範囲第十三項記載の文書情報検索装置にお
いて、すべての文字コードについて文書毎の有無を記述
したテーブルデータを半導体メモリ上に格納したことを
特徴とする文書情報検索装置。１５、請求の範囲第十三項記載の文書情報検索装置にお
いて、すべての文字コードについて文書毎の有無を記述
したテーブルデータをテキストデータ格納手段上にテキ
ストデータと共に格納したことを特徴とする文書情報検
索装置。１６、請求の範囲第九項記載の文書情報検索装置におい
て、予め文書毎にテキストデータの中から付属語及び繰
り返し記述される単語の重複を排除した凝縮テキストデ
ータを用意すると共に、指定された検索条件式中のキー
ワードが単語単位で含まれる文書を抽出する第二のプリ
サーチ手段を有し、該第二のプリサーチ手段によって絞
り込まれた文書集合についてテキストデータをテキスト
データ格納手段から読み出し、文字列照合手段並びに複
合条件判別手段によって検索を行うことを特徴とする文
書情報検索装置。１７、請求の範囲第十六項記載の文書情報検索装置にお
いて、第二のプリサーチ手段に文字列照合手段を併用し
たことを特徴とする文書情報検索装置。１８、請求の範囲第十六項記載の文書情報検索装置にお
いて、テキストデータの中から付属語及び繰り返し記述
される単語の重復を排除した凝縮テキストデータを半導
体メモリ上に格納したことを特徴とする文書情報検索装
置。１９、請求の範囲第十六項記載の文書情報検索装置にお
いて、テキストデータの中から付属語及び繰り返し記述
される単語の重複を排除した凝縮テキストデータをテキ
ストデータ格納手段上にテキストデータと共に格納した
ことを特徴とする文書情報検索装置。２０、請求の範囲第九項記載の文書情報検索装置におい
て、予めすべての文字コードについて文書毎の有無を記
述したテーブルデータを用意すると共に、指定された検
索条件式中のキーワードを構成するすべての文字を含む
文書を抽出する第一のプリサーチ手段と、予め文書毎に
テキストデーターの中から付属語及び繰り返し記述され
る単語を削除した凝縮テキストデータを用意すると共に
、指定された検索条件式中のキーワードが単語単位で含
まれる文書を抽出する第二のプリサーチ手段を有し、先
ず該第一のプリサーチ手段を用いて検索対象文書集合を
絞り込み、次にその絞り込み結果に対して該第二のプリ
サーチ手段を作用させ、最後に該絞り込み結果の文書集
合についてテキストデータをテキストデータ格納手段か
ら読み出し、文字列照合手段並びに複合条件判別手段に
よって検索を行うことを特徴とする文書情報検索装置。２１、請求の範囲第二十項記載の文書情報検索装置にお
いて、すべての文字コードについて文書毎の有無を記述
したテーブルデータとテキストデータの中から付属語及
び繰り返し記述される単語を削除した凝縮テキストデー
タを半導体メモリ上に格納したことを特徴とする文書情
報検索装置。２２、請求の範囲第二十項記載の文書情報検索装置にお
いて、すべての文字コードについて文書毎の有無を記述
したテーブルデータを半導体メモリ上に格納し、テキス
トデータの中から付属語及び繰り返し記述される単語の
重複を排除した凝縮テキストデータをテキストデータ格
納手段上にテキストデータと共に格納したことを特徴と
する文書情報検索装置。２３、請求の範囲第九項記載の文書情報検索装置におい
て、検索結果出力手段として、検索条件式に適合した文
書の識別子情報から該文書の書誌情報及びテキストデー
タを出力することを特徴とする文書情報検索装置。２４、請求の範囲第九項記載の文書情報検索装置におい
て、格納文書情報に関連する画像情報を格納したイメー
ジデータ格納手段を備え、検索結果出力手段から出力さ
れる検索条件適合文書識別子を基に、該文書に関連する
画像情報を上記イメージデータ格納手段から読み出して
書誌情報やテキストデータなどと共に出力することを特
徴とする文書情報検索装置。２５、請求の範囲第九項記載の文書情報検索装置におい
て、ＬＡＮ（ローカルエリアネットワーク）などの通信回線に接続するための通信手段を備え
、該通信手段により受け取った検索条件式を検索式入力
手段に入力すると共に、検索結果出力手段から出力され
る検索結果を上記通信手段を用いて該検索結果に対応す
る検索要求送信元の検索対話端末に返送することを特徴
とする文書情報検索装置。２６、請求の範囲第二十四項記載の文書情報検索装置に
おいて、ＬＡＮなどの通信回線に接続するための通信手
段を備え、該通信手段により受け取った検索条件式を検
索式入力手段に入力すると共に、検索結果出力手段から
出力される検索結果を上記通信手段を用いて該検索結果
に対応する検索要求送信元の検索対話端末に返送するこ
とを特徴とする文書情報検索装置。２７、文書情報などの検索システムにおいて、請求の範
囲第二十五項記載の文書情報検索装置をＬＡＮに複数台
接続し、該ＬＡＮに接続された複数の検索端末装置から
検索条件を放送して上記文書情報検索装置を並列動作さ
せると共に、該文書情報検索装置から送られてくる検索
結果を該検索端末装置で収集して表示することを特徴と
する文書情報検索システム。２８、文書情報などの検索システムにおいて、請求の範
囲第二十六項記載の文書情報検索装置をＬＡＮに複数台
接続し、該ＬＡＮに接続された複数の検索端末装置から
検索条件を放送して上記文書情報検索装置を並列動作さ
せると共に、該文書情報検索装置から送られてくる検索
結果を該検索端末装置で収集して表示することを特徴と
する文書情報検索システム。２９、請求の範囲第二十七項記載の文書情報検索システ
ムにおいて、ＬＡＮに文書情報検索装置に格納した文書
情報に関連する画像情報を格納した少なくとも一台のイ
メージデータ格納装置をＬＡＮに接続し、検索端末装置
が検索結果として受け取った検索条件適合文書識別子を
上記イメージデータ格納装置に指令して、該文書の関連
画像情報を受け取り表示することを特徴とする文書情報
検索システム。３０、請求の範囲第二十四項記載の文書情報検索装置に
おいて、イメージデータ格納手段に光ディスク装置を用
いたことを特徴とする文書情報検索装置。３１、請求の範囲第二十九項記載の文書情報検索装置に
おいて、イメージデータ格納手段に光ディスク装置を用
いたことを特徴とする文書情報検索装置。３２、請求の範囲第十七項に記載の異表記展開手段は、
一文字以上の文字列からなる見出し文字列と、見出し文
字列に対応する少なくとも一つの他の文字列を格納した
変換ルールテーブルを持ち、入力した文字列の中で該変
換ルールテーブルの見出し文字列に合致する部分を全て
、見出し文字列と見出し文字列に対応した他の文字列か
らなる文字列リストに変換し、次に文字列リストを組合
せて入力した文字列から他の文字列群へ展開することを
特徴とした文書情報検索装置。３３、請求の範囲第三十二項において、文字列展開に用
いる変換ルールとして、漢字の新旧字体あるいは送りが
な、外来語のカタカナ表記、ローマ字のヘボン式あるい
は訓令式表記のうち、少なくとも一つの表記法に基づい
た変換ルールテーブルを用いて展開することを特徴とす
る文書情報検索装置。３４、請求の範囲第三十二項において、変換ルールテー
ブルを用いた展開の他に、アルファベット文字列を入力
した場合には、一個の入力文字列に対しすべてが大文字
で構成される文字列、最初の一文字が大文字で残りが小
文字の文字列、及びすべてが小文字の文字列の３種の文
字列の少なくとも一種に展開することを特徴とする文書
情報検索装置。３５、請求の範囲第三十二項において、入力文字列中の
部分文字列を他の文字列へ置き換える指示を記述した変
換ルールテーブルは、ユーザも再定義可能であることを
特徴とする文書情報検索装置。３６、請求の範囲第九項において前記同義語展開手段と
異表記展開手段は、入力した文字列から部分文字列の変
換ルールを利用して音節表記など表記法の異なる他の文
字列に展開する第１の異表記展開手段と、異表記展開さ
れた各々の文字列に対し、同義語辞書を参照して同義関
係を持つ他の文字列へ展開する第２の同義語展開手段と
、同義語展開で得た各々の文字列に対して、第１の異表
記展開手段と同様に変換ルールを利用して他の文字列へ
展開する第３の異表記展開手段からなることを特徴とす
る文書情報検索装置。３７、請求の範囲第三十六項において、第１及び第３の
異表記展開手段では、漢字の新旧字体あるいは送りがな
、外来語のカタカナ表記、ローマ字のヘボン式あるいは
訓令式表記、アルファベット文字の大小文字の表記法の
うち少なくとも一つの表記法について展開し、第２の同
義語展開手段では、同義語文字列として同位語、上位語
、下位語、関連語の少なくとも一つの語彙群へ展開する
ことを特徴とする文書情報検索装置。３８、請求の範囲第三十七項において、異表記展開手段
で漢字の新旧字体及び送りがな、外来語のカタカナ表記
、ローマ字のヘボン式及び訓令式表記、アルファベット
文字の大小文字の表記のうちどれとどの展開を行なうか
を、さらに同義語展開手段で同位語、上位語、下位語、
関連語のうち、どれとどの語彙群へ展開するのかを、ユ
ーザが設定可能なモードにより選択することを特徴とす
る文書情報検索装置。３９、請求の範囲第三十六項において、同義語展開に用
いる辞書として、見出し文字列と見出し文字列に対応す
る同位語、下位語、上位語、関連語を併記した形式の辞
書を用いることを特徴とする文書情報検索装置。４０、テキストデータを文献単位などのデータ単位で格
納する手段と、検索文字列を入力する手段と、格納され
たテキストデータの中から該検索文字列を検索する手段
を持つ文書情報検索装置において、入力文字列から音節
表記など表記法のバリエーションを持つ文字列群に展開
する異表記展開手段と、同義語辞書を持ち入力文字列か
ら該同義語辞書を参照して、同義語文字列群に展開する
同義語展開手段と、上記二つの文字列展開手段により得
られる文字列群を統合する統合手段を持ち、ユーザの入
力する検索文字列から一旦前記異表記展開手段により表
記の異なる文字列群Ａに展開し、該文字列群Ａの各々の
文字列に対し前記同義語展開手段により同義語の文字列
群Ｂに展開し、該文字列群Ｂの各々の文字列についてさ
らに前記異表記展開手段を用いて表記の異なる文字列群
Ｃに展開し、前記統合手段により文字列群Ａと文字列群
Ｃとを統合して文字列群Ｄを求め、該文字列群Ｄのうち
のいずれかの文字列が存在するテキストデータ中のデー
タ単位を検索することを特徴とする文書情報検索装置。４１、請求の範囲第九項において、文字列照合手段はコ
ード表現された文字で構成される被検索文字列中に複数
の検索対象文字列が存在するか否かを一括して判定する
有限オートマトンを用い、複数状態からの遷移を同一の
状態に遷移させることにより状態数を減らすことを特徴
とする文書情報検索装置。４２、請求の範囲第九項において、文字列照合手段はコ
ード表現された文字で構成される被検索文字列中に複数
の検索対象文字列が存在するか否かを一括して判定する
有限オートマトンを、被検索対象文字と検索対象文字と
の照合時に、オートマトンのどの状態で該照合を行なう
べき状態かを示すトークンを設け、始点状態では常に該
照合が一致したかを監視し、該照合の結果が一致した場
合には、新たなトークンを生成すると共に、該トークン
をオートマトンに従い遷移先状態に移動し、始点以外の
該トークンが置かれている状態では該照合の結果が一致
した場合にオートマトンに従い該トークンを遷移先状態
に移動し、該照合が一致しない場合は該トークンを消滅
させるオートマトン状態遷移制御方法を用いたことを特
徴とする文書情報検索装置。４３、請求の範囲第九項において、文字列照合手段は異
表記文字列群を検索するための有限オートマトンを用い
、検索対象文字列から異表記を複合語表現形式Ａで作成
し、最も内側の括弧の中の部分文字列群において、先頭
文字から順に、同一の遷移状態を始点にしてオートマト
ンを作成し、同じ文字なら同じ状態を遷移先状態として
生成し、異なる場合は新たな遷移先状態を生成し、該部
分文字列群の末尾文字で遷移先状態を同一状態にまとめ
、網形式にオートマトンの遷移を記述することを特徴と
する文書情報検索装置。４４、磁気ディスク装置を有する複数台のデータ記憶装
置と、該データ記憶装置へ入出力するデータを一時格納
する入出力バッファと、該データ記憶装置と該入出力バ
ッファの制御を行なうマルチディスクコントローラから
なる集合型磁気ディスク装置と、該マルチディスクコン
トローラ制御命令を発行する上位機器とを有する磁気デ
ィスクシステムにおいて、前記上位機器の要求する転送
速度がＴ［Ｂｙｔｅ／ｓｅｃ］、該磁気ディスク装置の
１シリンダ分の容量がＭ［Ｂｙｔｅ］、上記データ記憶
装置から上記入出力バッフアへのデータ転送速度をを［
Ｂｙｔｅ／ｓｅｃ］、上記磁気ディスク装置の最小シー
ク時間をｓ［ｓｅｃ］、上記磁気ディスク装置の回転速
度をＲ［ｒｐｓ］、上記入出力バッファの容量を上記磁
気ディスク装置の該シリンダ分の容量Ｍ［Ｂｙｔｅ］と
同一またはそれ以上とするとき、上記磁気ディスク装置
の最小シーク時間ｓ［ｓｅｃ］が上記入出力バッファの
データＭ［Ｂｙｔｅ］を上記上位機器に転送する時間（
Ｍ／Ｔ）［ｓｅｃ］より長いときｎ≧Ｔ｛１／ｔ＋１／
Ｍ（ｓ＋１／Ｒ）｝また、上記磁気ディスク装置の最小シーク時間ｓ［ｓｅ
ｃ］が上記入出力バッファのデータＭ［Ｂｙｔｅ］を上
記上位機器に転送する時間（Ｍ／Ｔ）［ｓｅｃ］以下の
ときｎ≧１＋Ｔ（１／ｔ＋１／ＭＲ）｝を満足するｎ台のデータ記憶装置によって構成すること
を特徴とする集合型磁気ディスク装置。４５、請求の範囲第四十四項記載の集合型磁気ディスク
装置において、上記データ記憶装置として、磁気ディス
クコントローラを有する複数台の磁気ディスク装置と、
複数台の上記磁気ディスク装置の内の１台の上記磁気デ
ィスク装置を選択するマルチプレクサによって構成する
ことを特徴とする集合型磁気ディスク装置。４６、請求の範囲第四十四項記載の集合型磁気ディスク
装置において、上記入出力バッファを上記データ記憶装
置１台につき２面持ち、第１面の入出力バッファのデー
タを上記上位機器に転送している間に、第２面の入出力
バッファに上記データ記憶装置からの読み出したデータ
を格納し、上記磁気ディスク装置の最小シーク時間ｓ［
ｓｅｃ］が上記入出力バッファのデータＭ［Ｂｙｔｅ］
を上記上位機器に転送する時間以下のときにｎ≧Ｔ｛１／ｔ＋１／Ｍ（ｓ＋１／Ｋ）｝を満足するｎを有することを特徴とした集合型磁気ディ
スク装置。４７、請求の範囲第四十四項記載の集合型磁気ディスク
装置において、上記上位機器とマルチディスクコントロ
ーラを接続する通信メモリ手段をマルチディスクコント
ローラ内に有することを特徴とする集合型磁気ディスク
装置。４８、請求の範囲第四十七項記載の集合型磁気ディスク
装置において、上記通信メモリ手段として半導体記憶素
子を有することを特徴とする集合型磁気ディスク装置。４９、請求の範囲第四十四項記載の集合型磁気ディスク
装置において、上位機器から転送される論理分類の固有
の識別コードである論理分類識別子と、該論理分類内の
ファイル固有の番号とからなる、ファイル識別子を解釈
し、上記磁気ディスク装置の物理位置に対応させる物理
情報テーブル手段を上記マルチディスクコントローラ内
に有することを特徴とする集合型磁気ディスク装置。５０、請求の範囲第四十九項記載の集合型磁気ディスク
装置において、上記物理情報テーブル手段として半導体
記憶素子を有することを特徴とする集合型磁気ディスク
装置。５１、請求の範囲第四十四項記載の集合型磁気ディスク
装置において、上記磁気ディスク装置の同一シリンダ上
に読み出すファイルが複数件ある場合に、先に読み出す
ファイルと次に読み出すファイルとの間の読み出さない
ファイル群の総容量をに［Ｂｙｔｅ］、上記データ記憶
装置から上記入出力バッフアへの転送速度をを［Ｂｙｔ
ｅ／ｓｅｃ］、上記磁気ディスク装置の回転速度をＲ［
ｒｐｓ］とするときｋ≦ｔ／２Ｒを満足するに［Ｂｙｔｅ］の場合には、先に読み出すフ
ァイルと次に読み出すファイルとの間の、読み出す必要
のないファイル群も上記入出力バッファに一旦読み出し
、上記入出力バッファから上記上位機器への転送の際に
、不要なファイル群の部分を除いて転送する手段を持つ
マルチディスクコントローラを有することを特徴とした
集合型磁気ディスク装置。