JPH0752450B2

JPH0752450B2 - 辞書デ−タ検索装置

Info

Publication number: JPH0752450B2
Application number: JP61179946A
Authority: JP
Inventors: 保伊藤; 崇竹内; 敏裕松永
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1986-08-01
Filing date: 1986-08-01
Publication date: 1995-06-05
Anticipated expiration: 2010-06-05
Also published as: JPS6337425A

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、カナ漢字変換辞書，言語翻訳辞書などから与
えられたキーワードに応じた見出し語および対応するデ
ータを検索する辞書データ検索装置に係り、特に、キー
ワード中に不定の文字がある場合の大容量特許データを
検索するのに好適な辞書データ検索装置に関する。

〔従来の技術〕

従来から辞書データファイルを検索する装置としては、
例えば特開昭55-83962号，特開昭56-38661号に記載され
ている装置がある。これらの装置は、見出し語の１文字
目もしくは２文字目までを第１次検索対象として検索
し、得られたアドレス情報より３文字目以降が格納され
ている辞書本体を第２次検索する。

〔発明が解決しようとする問題点〕

しかしながら、上記従来技術は、大容量辞書データファ
イルを接続した場合の辞書データ検索について配慮がな
されておらず、見出し語の２文字目までが一致しても、
３文字目以降が異なる大量の辞書データを検索するため
に、検索時間の増大を招くという問題があった。またキ
ーワード中に不定の文字がある場合の辞書データの検索
に関しては、何ら配慮がなされていないという問題もあ
った。

本発明の目的は、不定の文字を含んだキーワードに対し
て、該当する見出し語および該当するデータを、大容量
辞書データファイルの中から高速に検索でき、しかも上
記事項を小形および小容量のバッファメモリで実現でき
る辞書データ検索装置を提供することにある。

〔問題点を解決するための手段〕

上記目的を達成するため、本発明は、大容量辞書データ
ファイルが格納されている記憶手段の物理的最少アクセ
ス単位であるセクタもしくは該セクタの整数倍を１ブロ
ックとし、辞書データファイルの各ブロックの先頭の見
出し語のみを集めた正順のサブインデックスファイル，
正順のサブインデックスファイルの各ブロックの先頭見
出し語のみを集めた１ブロックの正順のマスタインデッ
クスファイル，辞書データファイルの各見出し語文字列
の前後順を入れ換えた逆順見出し語とこの逆順見出し語
に対応する辞書データファイルのアドレスを示すポイン
タとが格納された逆順のポインタインデックスファイ
ル，逆順のポインタインデックスファイルの各ブロック
の先頭見出し語のみを集めた逆順のサブインデックスフ
ァイル，逆順のサブインデックスファイルの各ブロック
の先頭見出し語のみを集めた１ブロックの逆順のマスタ
インデックスファイル、をそれぞれ作成して、不定の文
字を含むキーワードに対する大容量辞書データファイル
を検索できるようにした。

その際、必要とするバッファメモリ（バッファ領域）の
大きさは、１ブロックである正順および逆順のマスタイ
ンデックスファイルを読み込む場合、１ブロック，その
正順および逆順のマスタインデックスファイルより、正
順および逆順のサブインデックスファイルの該当ブロッ
ク（１ブロック）を読み込む場合、１ブロック、さらに
その正順のサブインデックスファイルにより、大容量辞
書データファイルの該当する見出し語の格納されている
ブロックを読み込む場合、１ブロック，逆順のサブイン
デックスファイルにより逆順のポインタインデックスフ
ァイルの該当する見出し語の格納されているブロックを
読み込む場合、１ブロック，となり、１ブロックの大き
さのバッファメモリを用意するだけで、大容量辞書デー
タファイルを検索することができる。

〔作用〕

本発明の動作について、以下説明する。

不定の文字を含んだキーワードに対する辞書データ検索
は、キーワードの先頭文字から不定の文字直前の文字列
Ａと不定の文字直後からキーワードの最後尾までの文字
列Ｂに分離する。文字列Ａについては、正順のインデッ
クスファイルを利用して検索し、文字列Ｂについては逆
順のインデックスファイルを利用して検索する。

文字列Ａの検索は、以下の通りである。正順のマスタイ
ンデックスファイルを読み出し、文字列Ａが、正順のマ
スタインデックスファイルの見出し語列のｎ番目と一致
もしくは、ｎ番目と（ｎ＋１）番目の間にあることを検
索（第１次）する。次に、正順のサブインデックスファ
イルのｎ番目のブロックを読み出す。文字列Ａが、読み
出した正順のサブインデックスファイル（１ブロック）
の見出し語列のｍ番目と一致もしくは、ｍ番目と（ｍ＋
１）番目の間にあることを検索（第２次）する。次に、
正順のサブインデックスファイルの各ブロックごとに設
定されている辞書データファイルに対するオフセット値
Ｐを用いて、辞書データファイルの（Ｐ＋ｍ）番目のブ
ロックを読み出す。読み出した辞書データファイルの見
出し語と文字列Ａとを比較し、一致する見出し語を検索
（第３次）する。

文字列Ｂの検索は、以下の通りである。文字列Ｂの前後
順を入れ換えた文字列Ｂを作成する。この文字列Ｂにつ
いて、文字列Ａを検索したのと同様な手法で逆順のマス
タインデックスファイル，逆順のサブインデックスファ
イルを用いて、逆順のポインタインデックスファイルの
該当ブロックを読み出し、このポインタインデックスの
見出し語と文字列Ｂ′とを比較し、一致する見出し語を
検索（第３次）する。

そして、逆順のポインタインデックスファイルの文字列
Ｂ′で始まるすべての見出し語と、辞書データファイル
の文字列Ａで始まるすべての見出し語との論理積を取
る。これにより求める見出し語が得られる。

なお、上記以外の否定の文字を含んだキーワードに対す
る辞書データ検索としては、上述したようにして、逆順
のポインタインデックスファイルから文字列Ｂ′で始ま
るすべての見出し語を検索した後、これら見出し語列
を、文字列Ａの前後順を入れ換えた文字列Ａ′により再
検索したり、また、上述したようにして読み出した辞書
データファイルの中から、文字列Ａと一致する見出し語
を検索した後、これら見出し語列を、文字列Ｂにより再
検索したりするようにしても上記と同様の結果が得られ
る。

また、不定の文字が、キーワードの先頭にある場合は、
逆順のマスタインデックスファイル，逆順のサブインデ
ックスファイルおよび逆順のポインタインデックスファ
イルを用い、不定の文字が、キーワードの最後尾にある
場合は、正順のマスタインデックスファイルおよび正順
のサブインデックスファイルを用いて求める見出し語を
得るようにする。

また、不定の文字を含まないキーワードに対する辞書デ
ータ検索に関しては、検索すべき文字列がどのようなも
のでも、正順のマスタインデックスファイル，正順のサ
ブインデックスファイル，辞書データファイルを用いて
目的とする見出し語を検索することができ、この結果、
高速に大容量辞書データファイルを検索することができ
る。

また、これらの検索の際に必要とするバッファメモリの
大きさは、マスタインデックスファイル（１ブロッ
ク），サブインデックスファイル（該当すべき１ブロッ
ク），辞書データファイル（該当すべき１ブロック）等
を読み出すのに各１ブロック分必要であるが、その都度
バッファメモリの内容を書き換えて共通に使用すること
により、１ブロック分のみでバッファメモリサイズで充
分である。

〔実施例〕

以下、本発明を図面を用いて説明する。第１図は本発明
の辞書データ検索装置一実施例を示すブロック図、第２
図は第１図の外部記憶装置14に格納された辞書の構造を
示す図である。

辞書データ検索装置（以下、単に装置という）10は、辞
書検索に用いるキーワードを入力し、辞書検索の結果得
たデータを出力する入出力装置19と、第２図に示す辞書
１及びその他のデータを記憶する外部記憶装置（第１の
記憶装置）14と、CPU（中央処理装置）11の発する指令
に従って外部記憶装置14を制御する制御回路１と、CPU1
1から直接読み書きされる内部メモリ（第２の記憶装
置）13と、内部メモリ13のプログラム領域15に格納され
たプログラムに従い入出力装置19および制御回路12を制
御し、内部メモリ13のバッファ領域17および作業領域16
を用いて辞書検索を遂行するCPU11とから構成される。

以下、装置10の動作を説明する。

入出力装置19から入力されたキーワードはCPU11にとり
こまれ、作業領域16に格納される。CPU11は該キーワー
ドをもとに制御回路12を介して辞書１の一部をバッファ
領域17に読み込み、比較．一致等の処理を行う辞書検索
を実行する。辞書検索の結果得た情報は、CPU11によっ
て入出力装置19に出力され、一連の動作を終了する。

ここで、本実施例の主要部分である辞書１について更に
説明を加える。辞書１は第２図に示されるように、正順
のマスタインデックス（正順のマスタインデックスファ
イル）100、逆順のマスタインデックス（逆順のマスタ
インデックスファイル）600、正順のサブインデックス
（正順のサブインデックスファイル）200、逆順のサブ
インデックス（逆順のサブインデックスファイル）70
0、正順のポインタインデックス（正順のポインタイン
デックスファイル）500、逆順のポインタインデックス
（逆順のポインタインデックスファイル）800および辞
書内容（辞書データファイル）300から構成されてい
る。

以上の辞書１の構成要素において、辞書内容300は辞書
検索の目的とする情報を集めたものであり、その他はキ
ーワードをもとに目的の情報を導くインデックスを集め
たものである。辞書内容300に含まれる情報としては文
字コード、画像情報、音声情報などの形態がある。各情
報に対して見出し語がわりあてられ、辞書検索はキーワ
ードと該見出し語の比較一致処理から行われる。以下に
英和辞書の検索を例にとり説明する。この場合、見出し
語は英単語であり、目的とする情報は単語の意味内容を
表わす文章、すなわち文字コードの集合である。

第３図は辞書内容300と正順のポインタインデックス500
及び逆順のポインタインデックス800の関係を示してい
る。辞書内容300は、特定の長さによって区切られるか
或いは特定の区切りコードによって区切られる文字コー
ドの集合301,302,303等から構成される。各文字コード
の集合301,302,303には見し語501,502,503が対応し、見
出し語501,502,503の語順を逆さにした逆順の見出し語8
01,802,803も文字コードの集合301,302,303に対応す
る。

各見出し語は、対応する文字コードの集合が記録されて
いる外部記憶装置14上のアドレス情報と共に各々特定の
語長で区切られるか或いは特定の区切りコードで区切ら
れてアルファベット順に並び、見出し語501,502,503等
から正順のポインタインデックス500、見出し語801,80
2,803等から逆順のポインタインデックス800が形成され
る。

ここにおいて、辞書内容300の外部記憶装置14上への配
置は任意である。即ち、正順のポインタインデックス50
0及び逆順のポインタインデックス800にそれぞれ含まれ
る見出し語には該見出し語に対応する文字コードの集合
が外部記憶装置14上のどこに配されているかを示すアド
レス情報が付加されているため、辞書内容300がどこに
配置されていても確実に検索することができる。従って
外部記憶装置14上に記録，再生ができない欠陥箇所があ
っても、その部分を避けて辞書内容300を配置すること
ができる。

第４図は正順のポインタインデックス500と正順のサブ
インデックス200の関係を表わしている。正順のポイン
タインデックス500をある特定の大きさのブロック、例
えば外部記憶装置14上及び制御回路12で取扱う最小単位
であるセクタサイズに分割する。このときポインタイン
デックス500に含まれる見出し語とアドレス情報の対が
異なるブロックにまたがることのないように、ブロック
の末尾には見出し語に使用されないコードを充填する。
正順のサブインデックス200は正順のポインタインデッ
クス500の各ブロック510,520等の先頭の見出し語501,52
1,…531等を集め、各々特定の長さで区切るか或いは特
定の区切りコードによって区切り、アルファベット順に
並べたものである。

従って、正順のサブインデックス200のｎ番目の見出し
語は正順のポインタインデックスのｎ番目のブロックの
先頭の見出し語であり、また、正順のポインタインデッ
クス500のｎ番目のブロックの最後の見出し語は正順の
サブインデックス200のｎ＋１番目の見出し語よりもア
ルファベットの順が先行している。但し、正順のポイン
タインデックス500のｎ番目のブロックの最後の見出し
語の後順でありかつｎ＋１番目のブロックの先頭の見出
し語すなわち正順のサブインデックス200のｎ＋１番目
の見出し語の先順となる見出し語は存在しない。

ここにおいて、正順のポインタインデックス500の外部
記憶装置14上への配置は、正順のサブインデックス200
の見出し語の順番から一意に求まる位置に該見出し語に
対応するブロックを配置する。但し、正順のポインタイ
ンデックス500中のあるブロックが配置されるべき外部
記憶装置14上の一部分に欠陥箇所があった場合、該ブロ
ックに対応する正順のサブインデックス200中の見出し
語の前に特定の欠陥ブロックコードを挿入する。

すなわち、正順のサブインデックス200中のＫ番目の見
出し語に対応する正順のポインタインデックス500のＫ
番目のブロックを配置すべき外部記憶装置14上の位置に
欠陥があった場合、正順のサブインデックス200のＫ番
目の見出し語のかわりにある特定の欠陥ブロックコード
を置き、該Ｋ番目の見出し語はＫ＋１番目の見出し語の
位置に置き、Ｋ＋１番目の見出し語はＫ＋２番目の見出
し語の位置におく。以下順次見出し語の順を送ること
で、対応する正順のポインタインデックス500の各ブロ
ックの外部記憶装置14上への配置される位置を変更す
る。変更の結果、再度他の欠陥箇所へ配置された場合
は、正順サブインデックス200のＫ＋１番目の見出し語
のかわりに欠陥ブロックコードを置き同様の手順によっ
て正順のポインタインデックス500中の各ブロックが配
置される位置を変更する。外部記憶装置14上の欠陥箇所
を以上の手続きにより避けて正順のポインタインデック
ス500を配置する。

尚、逆順のサブインデックス700の生成方法及び逆順の
ポインタインデックス800の外部記憶装置14上への配置
方法並びに両者の関係は以上に述べた正順のサブインデ
ックス200の生成方法及び正順のポインタインデックス5
00の配置方法並びに両者の関係と同様であるので説明を
省略する。

第５図は、正順のマスタインデックス100と正順のサブ
インデックス200との関係を示している。正順のマスタ
インデックス100の生成方法及び正順のサブインデック
ス200の配置方法は、既に述べた正順のポインタインデ
ックス500及び正順のサブインデックス200の生成方法及
び配置方法と同様の手続をとる。すなわち、見出し語を
分断することなく正順のサブインデックス200をある特
定の大きさのブロックに分割し、分割された該ブロック
の各々先頭の見出し語を集めて正順のマスタインデック
ス100を生成する。但し、正順のサブインデックス200の
各ブロックには、該ブロックより先順の全てのブロック
の見出し語の数を合計したデータが含まれている。

正順のサブインデックス200の各ブロックの外部記憶装
置14上への配置は正順のポインタインデックス500のブ
ロック配置と同じ手順で外部記憶装置14上の欠陥箇所を
避けて配置され、従って正順のマスタインデックス100
は欠陥ブロックコードを含んだ形となる。

逆順のマスタインデックス600の生成と逆順のサブイン
デックス700の配置も、正順のマスタインデックス100の
生成、正順のサブインデックス200の配置と同一の手続
きで行われる。

以上の操作で生成された正順のマスタインデックス100
及び逆順のマスタインデックス600が大きなものであれ
ば更に上位のインデックスを正順のサブインデックス20
0から正順のマスタインデックス100を生成した場合と同
じ手順で求め、この作業をくり返すことによって最上位
のマスタインデックスを充分に小さなものとすることが
できる。本実施例においては、先に示したマスタインデ
ックスの段階までとする。正順のマスタインデックス10
0及び逆順のマスタインデックス600は、外部記憶装置14
上の欠陥のない任意の位置におけばよい。

ブロックサイズを2048バイト、見出し語の平均長を５バ
イトとすると、マスタインデックス１ブロックは410の
サブインデックスのブロックから成り、410のサブイン
デックスのブロックは410×410＝168100のポインタイン
デックスのブロックからなり、168100のポインタインデ
ックスには見出し語の平均長５バイト、アドレス情報
（ポインタデータ）３バイトとすると合計168100×256
＝43033600の見出し語が含まれることになる。

さて、以上の手続きによって構成された辞書１を、ある
キーワードＷで検索し、その結果として文字コードの集
合Ｓを求める手順を以下に説明する。本発明において、
キーワードＷは求める文字コードの集合Ｓの見出し語Ｉ
と完全に一致していなくてもよい。完全なキーワードW₀
＝見出し語Ｉが“bird"であった場合、不定の文字列を
表すコード“＊”を用いてキーワードW₁＝“bir＊”、
キーワードW₂＝“ｂ＊rd"、キーワードW₃＝“＊ird"の
いずれでも検索が可能である。

まずCPU11は、入出力装置19より入力されたキーワード
を内部メモリ13の作業領域に格納する。CPU11はキーワ
ードを検査して不定の文字（列）を表わすコード“＊”
の有無及び位置を確認する。“＊”がない場合、すなわ
ち完全なキーワードW₀の場合は以下の手順で目的の文字
コードの集合を得る。

（１） CPU11は、制御回路12を介して正順のマスタイ
ンデックス100を内部メモリ13内のバッファ領域17に読
み込む。

（２） CPU11は、キーワードW₀とマスタインデックス1
00の見出し語を順次比較する処理をキーワードW₀より後
順になる見出し語を発見するまで、見送った見出し語の
数をカウントしつつ繰り返す。該当する見出し語が発見
できなかった場合は、見送った見出し語数に１を減算し
て終了する。第５図に示された例であれば、まず第１の
見出し語101“abacus"と比較、キーワードW₀“bird"の
先順であるため次なる見出し語102“kid"と比較、後順
であるので処理を終える。この間見送った見出し語の数
は１である。

（３）見送った見出し語数をｍとした場合に、CPU11
は外部記憶装置14より正順のサブインデックス200の第
ｍ番目のブロックをバッファ領域17に読み込む。該第ｍ
番目のブロックの外部記憶装置14上の位置は、前述のよ
うにｍをもとに一意にもとめられる。本実施例ではｍ＝
１であるため、正順のサブインデックス200の第１のブ
ロック210がバッファ領域17に読み込まれる。

（４） CPU11は、サブインデックス200の第１のブロッ
ク210の見出し語に対し、キーワードW₀にもとづき前記
（２）と同様の検索を行う。このとき見送った見出し語
の数をｌとする。本実施例では、見出し語211“abacus"
及び見出し語212“army"が見送られ、次の見出し語213
“bit"で検索を終える。従ってｌ＝２である。

（５） CPU11は、正順のサブインデックス200の第ｍ番
目のブロックに予め記されている第１番目のブロックか
ら第ｍ−１番目のブロックまでに格納されている見出し
語の総数Ｐを読み込み、前記（４）で求めた見送った見
出し語数ｌと加算して外部記憶装置14から正順のポイン
タインデックス500の第Ｐ＋ｌ番目のブロックをバッフ
ァ領域17に読み込む。本実施例においては、ｍ＝１であ
るためＰ＝０で、該当する正順のポインタインデックス
500のＰ＋ｌ＝２番目のブロック520がバッファ領域17に
読み込まれる。

（６） CPU11は、読み込まれた正順のポインタインデ
ックス500の第Ｐ＋ｌ番目のブロックの見出し語とキー
ワードW₀を逐次比較する処理を一致する見出し語を検出
するまで繰り返す。但し、第Ｐ＋ｌ番目のブロックに該
当する見出し語が存在しなければ、入出力装置19にエラ
ーの検出を表示するなどして、辞書検索処理を異常終了
する。本実施例では、第４図に示すように、Ｐ＋ｌ＝２
番目のブロック520中に見出し語503“bird"を発見す
る。

（７） CPU11は正順のポインタインデックス500中に発
見したキーワードW₀と一致する見出し語Ｉに付随するア
ドレス情報をもとに外部記憶装置14より辞書内容300の
中の文字コードの集合303を読み込む。

（８） CPU11は、前記（７）で読み込んだ文字コード
の集合303を入出力装置19に出力し、辞書検索処理を正
常に終了する。

次に、キーワードの末尾に不定の文字（列）を示すコー
ド“＊”を持つキーワードW₁を用いた検索の手順につい
て説明する。

（１） CPU11は、キーワードW₁の不定の文字（列）の
手前の文字列をキーワードＷ′₁とする。本実施例にお
いては、Ｗ′₁＝“bir"である。

（２）前述のW₀を用いた辞書検索と同様の手順で正順
のマスタインデックス100、正順のサブインデックス200
を検索し、正順のポインタインデックス500のある１ブ
ロックをバッファ領域17に読み込む。

（３）キーワードＷ′₁をもとに正順のポインタイン
デックス500を検索する。この場合、比較するのはキー
ワードＷ′₁に含まれている文字数のみである。見出し
語がＷ′₁より長い場合は先頭からキーワードＷ′₁の文
字数分のみ比較、一致を取る。本実施例ではＷ′₁＝“b
ir"であるから見出し語の語頭部３文字のみを比較の対
象とする。

（４）一致する見出し語が検出されたら、入出力装置
19へ出力する。この場合、該当する見出し語Ｉが複数あ
った場合、全てを出力する。本実施例ではＩ＝“bird"
の他に“birdy"、“birth"他が候補として出力される。

（５）正順のポインタインデックス500内の該ブロッ
ク中に該当する見出し語が検出されなかった場合は、異
常終了する。又、該ブロックの最後の見出し語も該当し
た場合は続くブロックを読み込み、該当しない見出し語
が検出されるまでくり返す。

以上の手順により、不定の文字（列）を示すコードを語
尾に持つキーワードW₁による検索を行う。

続いて、先頭に不定の文字（列）を含むキーワードW₃に
よる検索について説明する。

（１） CPU11はキーワードW₃を語尾から検査し、文字
の順を逆順にしながら不定の文字（列）を示すコードの
手順までの文字列から成るキーワードＷ′₃を生成す
る。本実施例においてはW₃＝“＊ird"であるからＷ′₃
＝“dri"となる。

（２） CPU11は、逆順のマスタインデックス600及び逆
順のサブインデックス700を前述のキーワードW₀による
検索と同様の手順で検索し、逆順のポインタインデック
ス800中のあるブロックをバッファ領域17に読み込む。

（３）前述のキーワードＷ′₁をもとに正順のポイン
タインデックス500を検索し、該Ｗ′₁に対応する見出し
語を出力したと同様の手順によって、逆順のポインタイ
ンデックス800中の前記ブロックをキーワードＷ′₃によ
って検索し、これに対応する見出し語を出力する。但
し、見出し語を出力する際は文字列の順を逆にして正順
に直した後出力する。なお、本実施例では“drib"→“b
ird"、“driht"→“third"等が検索されるので、それら
の見出し語に付加されたアドレス情報をもとに、文字コ
ードの集合を得ることができる。

更に、キーワードの文字列中に不定の文字（列）を示す
コードが含まれている、キーワードW₂による検索につい
て説明する。本実施例においてはW₂＝“ｂ＊rd"であ
る。

（１） CPU11は、キーワードW₂を語の先頭及び末尾か
ら検査してそれぞれ不定の文字（列）を示すコードの手
前までを切り出しＷ′₂,W″₂とする。但しＷ′₂は正
順、Ｗ″₂は逆順になっている。本実施例においては
Ｗ′₂＝“b",W″₂＝“dr"である。

（２）Ｗ″₂により逆順のマスタインデックス600,逆
順のサブインデックス700,逆順のポインタインデックス
800をW₁，W₃と同様の手順で検索し、逆順のポインタイ
ンデックス800の該当する見出し語に付加されたアドレ
ス情報を作業領域16に記憶する。

（３）Ｗ′₂により、正順のマスタインデックス100,
正順のサブインデックス200,正順のポインタインデック
ス500を検索する。ここで、正順のポインタインデック
ス500中の該当する見出し語に付加されたアドレス情報
と、上記（２）において作業領域16に記憶されたアドレ
ス情報を比較し、一致するものがあった場合のみ、入出
力装置19へ検索結果として出力する。すなわち、キーワ
ードＷ′₂に該当するものとキーワードＷ″₂に該当する
ものの論理積をとって検索の結果とする。

なお、このキーワードの文字列中に不定の文字（列）を
示すコードが含まれている、キーワードW₂による検索に
ついては、上記の検索以外にも次のような検索が可能で
ある。すなわち、逆順のポインタインデックス800から
文字列Ｗ″₂で始まるすべての見出し語を検索した後、
これら見出し語列を、文字列Ｗ′₂の前後順を入れ換え
た文字列Ｗ₂により再検索したり、また正順のポイン
タインデックスの中から文字列Ｗ′₂と一致する見出し
語を検索した後、これら見出し語列を、文字列Ｗ″₂を
正順に直した文字列で再検索したりしても上記と同様の
検索結果を得ることができる。

以上の説明から明らかなように、本実施例によれば、キ
ーワードの不定の文字（列）を示すコードが含まれてい
る場合、含まれていない場合、また含まれている場合で
あればそれが語頭部、語中、語尾のいずれであっても検
索が可能となる。

また本実施例によれば、前記１ブロックサイズのバッフ
ァ領域で大容量の辞書を検索できるので、省メモリ化の
効果がある。

また本実施例によれば、マスタインデックス→サブイン
デックス→ポインタインデックス→辞書内容というよう
に検索を行なっているので、検索処理の高速化を実現で
きる効果がある。

さらに本実施例によれば、不定の文字（列）を示すコー
ドが使用できるので、語尾検索や語幹検索など辞書機能
拡張の効果がある。

加えて本実施例によれば、前述したように、１ブロック
の大きさを2048バイトとし、平均見出し語長を５バイト
とすると、１ブロックのマスタインデックスファイル
で、410ブロックのサブインデックスファイルを管理す
ることができ、さらに、サブインデックスファイルの各
ブロックがそれぞれポインタインデックスファイルの41
0ブロック分を管理することができる。すなわち、１ブ
ロックのマスタインデックスファイルで、168100ブロッ
ク（344×ガバイト）の大容量ポインタインデックスフ
ァイルを管理することができる。仮に２ブロック分のバ
ッファメモリを用意したとすると、同様な計算により67
1000ブロック（２、７ギガバイト）もの大容量ポインタ
インデックスファイルを管理することができるなどの効
果がある。

以上の実施例では、辞書内容300の各見出し語からなる
正順のポインタインデックスを作成し、これを用いて検
索を行なった場合であったが、辞書内容300を、一定の
順序（本実施例ではABC順）に並べられた見出し語と該
見出し語に対応するデータから構成するようにすれば、
前記正順のポインタインデックス500は不要となる。

また、以上の実施例では、正順のマスタインデックス10
0および逆順のマスタインデックス600を検索処理時にバ
ッファ領域17にロードして使用する場合であったが、本
発明では、検索処理時に使用頻度の高いこれらマスタイ
ンデックス100および600を、内部メモリ13内にマスタイ
ンデックス領域（図示せず）を設けて、該領域に常駐ま
たは電源オン時にあらかじめロードしておくようにして
もよい。

〔発明の効果〕

本発明によれば、ブロックサイズとして限られたメモリ
量で、大容量の辞書データファイルを検索できるので、
メモリ利用効率の向上に効果がある。

また、本発明によれば、辞書データファイルが大容量で
あっても検索に使用する内部メモリを小さくできるの
で、小メモリの小型電子計算機でも充分に高速な検索が
可能であり、したがって大容量の辞書データ検索装置の
価格低減に効果がある。

更に本発明によれば、多数の見出し語を集めてブロック
分離し、各々のブロックの先頭の見出し語を集めて上位
のサブインデックスファイルおよびマスタインデックス
ファイルを形成するため、上位のサブインデックスファ
イルもしくはマスタインデックスウファイルに並ぶ見出
し語は隣合った見出し語同志であっても文字の重なりが
少なくなり、したがって、検索の際に比較する文字数が
少なくてもよいので、検索時間を短縮できる効果があ
る。

加えて、順序関係もしくは大小関係の規定されたデータ
であれば、その見出し語を本発明の各インデックスファ
イルの見出し語として用いることができ、したがって、
本発明は、例えばカタカナ見出し語（アイウエオ順）、
英語見出し語（ABC順）、数字見出し語（123順）などを
用いた辞書データファイルの検索に利用することができ
る。

また、不定の文字もしくは不定の文字列が、キーワード
のどのような位置に存在しても、辞書データファイル中
の見出し語を検索することができる。

不定の文字を含まないキーワードに対する辞書データ検
索に関しては、検索すべき文字列がどのようなもので
も、正順のマスタインデックスファイル、正順のサブイ
ンデックスファイル、辞書データファイルを用いて目的
とする見出し語を検索でき、この結果、高速に大容量辞
書データファイルを検索することができる。

なお、不定の文字（列）を含むキーワードに応じた辞書
データ検索に関しては、逆順のポインタインデックスフ
ァイルをアクセスする必要のある場合がある。

【図面の簡単な説明】

第１図は本発明の辞書データ検索装置の一実施例を示す
ブロック図、第２図は第１図の外部記憶装置に格納され
た辞書の構造を示す図、第３図は辞書内容と正順のポイ
ンタインデックス及び逆順のポインタインデックスの関
係を示す図、第４図は正順のポインタインデックスと正
順のサブインデックスの関係を示す図、第５図は正順の
マスタインデックスと正順のサブインデックスの関係を
示す図である。１……辞書、11……CPU、12……制御回路、13……内部
メモリ、14……外部記憶装置、15……プログラム領域、
16……作業領域、17……バッファ領域、19……入出力装
置、100……正順のマスタインデックス、200……正順の
サブインデックス、500……正順のポインタインデック
ス、600……逆順のマスタインデックス、700……逆順の
サブインデックス、800……逆順のポインタインデック
ス、300……辞書内容。

フロントページの続き (56)参考文献特開昭61−282964（ＪＰ，Ａ) 特開昭60−262263（ＪＰ，Ａ) 特開昭55−83962（ＪＰ，Ａ) Ｉ．フローリズ著，久保寛彦訳「データ管理」（1972−８−10）Ｐ．135−138 上條史彦著「データ・ベース・システム」（昭53−10−15）Ｐ．127−134

Claims

【特許請求の範囲】

【請求項１】辞書データファイルを記録した第１の記憶
手段と、見出し語を入力し、該見出し語に対する検索結
果を表示するための入出力装置と、前記第１の記憶手段
および前記入出力装置を制御する中央処理部と、前記中
央処理部の動作を決定するプログラムや前記入出力装置
および前記第１の記憶手段からのデータを一時格納する
ための第２の記憶手段からなる辞書データ検索装置にお
いて、前記第１の記憶手段における物理的最小アクセス単位
（セクタ）もしくはその整数倍の長さのブロック単位で
前記辞書データファイルを構成し、該辞書データファイルの前記各ブロックの先頭見出し語
を集めた正順のサブインデックスファイルと、該正順の
サブインデックスファイルの前記各ブロック毎の先頭見
出し語を集めた正順のマスタインデックスファイルと、
前記辞書データファイルの各見出し語文字列の前後順を
入れ換えた逆順見出し語とこの逆順見出し語に対応する
辞書データファイルのアドレスを示すポインタとが格納
された逆順のポインタインデックスファイルと、該逆順
のポインタインデックスファイルの前記各ブロック毎の
先頭見出し語を集めた逆順のサブインデックスファイル
と、該逆順のサブインデックスファイルの前記各ブロッ
ク毎の先頭見出し語を集めた逆順のマスタインデックス
ファイルとを有し、前記正順のマスタインデックスファイル、正順のサブイ
ンデックスファイル、あるいは、前記逆順のマスタイン
デックスファイル、逆順のサブインデックスファイル、
逆順のポインタインデックスファイルを前記第２の記憶
手段に一時格納して、前記見出し語に対する前記第１の
記憶手段の前記辞書データファイルを検索することを特
徴とする辞書データ検索装置。
【請求項２】前記正順のマスタインデックスファイルお
よび前記逆順のマスタインデックスファイルを前記第２
の記憶手段に常駐したことを特徴とする特許請求の範囲
第１項記載の辞書データ検索装置。
【請求項３】前記正順のサブインデックスファイルおよ
び逆順のサブインデックスファイルは、正順のサブイン
デックスファイルの各ブロックの先頭見出し語のみを集
めた第２の正順のサブインデックスファイル、逆順のサ
ブインデックスファイルの各ブロックの先頭見出し語の
みを集めた第２の逆順のサブインデックスファイル、さ
らに同様な手法で生成した複数個の正順のサブインデッ
クスファイルおよび複数個の逆順のサブインデックスフ
ァイルから構成されたことを特徴とする特許請求の範囲
第１項記載の辞書データ検索装置。
【請求項４】前記各インデックスファイルを前記第１の
記憶手段に記憶したことを特徴とする特許請求の範囲第
１項記載の辞書データ検索装置。
【請求項５】前記辞書データファイルの各見出し語が格
納された正順のポインタインデックスファイルを作成
し、前記正順のポインタインデックスファイルの各ブロ
ックの先頭見出し語を集めたものを前記正順のサブイン
デックスファイルとしたことを特徴とする特許請求の範
囲第１項記載の辞書データ検索装置。