JP3152868B2

JP3152868B2 - 検索装置および辞書／テキスト検索方法

Info

Publication number: JP3152868B2
Application number: JP23084395A
Authority: JP
Inventors: 功難波
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1994-11-16
Filing date: 1995-09-08
Publication date: 2001-04-03
Anticipated expiration: 2015-09-08
Also published as: US5721899A; JPH08194719A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は検索装置および辞書
／テヰスト検索方法、特に高速かつ記憶容量の小さい検
索装置およびそれを用いた辞書検索方法、テキスト検索
方法に関する。

【０００２】機械翻訳、自然言語解析または音声認識等
に用いる各種の辞書や、データベースをテキストのキー
ワードで検索する装置では、検索速度が高速で、かつイ
ンデックスサイズが小さいことが要求されている。

【０００３】

【従来の技術】従来の検索装置としては、ハッシュ法、
Ｂ−Ｔｒｅｅ法、トライ（ＴＲＩＥ：tree retrieval）
法などに基づく検索方式が提案され、利用されている。

【０００４】従来のトライ法を用いた検索装置の基本概
念について説明する。図２１は、従来のトライ辞書検索
装置の例を示している。図２１において、７０はトライ
ノード選択機構、７１はトライノード格納装置を表す。

【０００５】例えば英文字見出しを持つ辞書検索では、
１つのトライノードは終了記号（例えば♯）を含めた
（２６＋１）個のトライノード要素からなり、辞書検索
装置はこれらを格納するトライノード格納装置７１と、
トライノード選択機構７０とからなる。

【０００６】図２１のトライノード格納装置７１では、
ａ♯、ａｂｌｅ♯、ａｇｒｅｅ♯（♯はキーの終了記
号）をキーとするトライノードの構成例を示している。
最初のトライノードＮｌは、１文字目のキー情報を表し
ており、文字“ａ”が有効で、その位置に次のトライノ
ードＮ２へのポインタが格納されている。２段目のトラ
イノードＮ２では、２文字目の“♯”と“ｂ”と“ｇ”
の文字が有効であり、“♯”の位置から検索目的のデー
タまたはそのデータヘのアクセス情報がポイントされて
いる。そして、トライノードＮ２の“ｂ”の位置から次
のトライノードＮ３を、“ｇ”の位置からトライノード
Ｎ６をポイントする。以下同様に、有効な文字について
のトライノードの連鎖が続く。

【０００７】トライノード選択機構７０は、入カキーに
対して１文字ずつ取り出し、トライノード格納装置７１
における最初のトライノードＮｌから順番に、該当する
文字位置が有効なポインタ情報を保持しているかを確認
し、トライノードの連鎖をたどって目的とするデータへ
のアクセス情報を得る。

【０００８】トライ法では、以上のようにキーの検索を
先頭から１単位ずつトライノードと比較して行う。トラ
イノード要素と文字との照合は、トライノードの文字番
目の照合で行うことができるため、検索速度が高速であ
る。

【０００９】

【発明が解決しようとする課題】従来の検索装置で用い
られているハッシュ法には、キーの衝突が多く生じるよ
うな場合には制御が煩雑であり、オーバーヘッドが生じ
て検索速度が遅くなるか、またはキーの衝突を回避する
ために予め十分な大きさの記憶領域を用意しなければな
らないという、キーの衝突と記憶容量の問題があった。

【００１０】また、Ｂ−Ｔｒｅｅ法では、記憶容量の問
題はないが、検索速度の高速性に欠けるという問題があ
った。一方、従来のトライ法は、検索速度は高速である
が、多くのトライノードが必要になるとともにトライノ
ード内に無駄な領域が多いため、多大な記憶容量を必要
とするという問題があり、キー数が多い場合などにはす
べてのキーに対してトライ法で辞書を構成することは実
際上不可態であるという問題があった。

【００１１】本発明は上記問題点の解決を図り、トライ
法を用いる検索装置において検索の高速性を保ったまま
で、記憶容量の削減を可能とすることを目的とする。

【００１２】

【課題を解決するための手段】図１は本発明の構成例を
示す。図１において、１０は検索処理を実行するＣＰＵ
やメモリなどからなる処理装置、１１は検索キーを入力
するキー入力部、１２は入力キーの単位コードをトライ
の内部コードに変換するコード変換処理部、１３はトラ
イノードを選択して検索を進めるノード選択処理部、１
４はあらかじめ入力キーの単位コードとトライの内部コ
ードとの対応情報を記憶するコード変換テーブル、２０
は検索キーとデータとの対応情報を管理するインデック
ス格納装置、２１は圧縮されたトライのノードを格納す
るノード格納部、２２は圧縮されたトライのノードの照
合の際に検索対象となる単位コードがノードに含まれる
か否かを判定するためのトライのノードに対するラベル
を格納するノード要素の確認用ラベル格納部、２３はト
ライ中のキー固有のコード列を格納する固有コード列格
納部、３０は検索目的のデータを格納するデータ本体格
納装置を表す。

【００１３】キー入力部１１は、検索対象となるキーを
受理し、その入力キーをコード変換処理部１２に渡す。
コード変換処理部１２は、入力キーを１単位コードずつ
取り出し、所定の計算により、またはコード変換テーブ
ル１４を用いることにより、各単位コードをトライの内
部コードに変換し、ノード選択処理部１３に渡す。

【００１４】ノード格納部２１には、従来のトライノー
ドを重ね合わせるようにして圧縮したトライのノードが
格納されている。また、確認用ラベル格納部２２には、
現在検索している単位コードがノード格納部２１のノー
ド上にあるかどうかの確認用ラベルが格納されている。
また、固有コード列格納部２３には、トライ中のキー固
有のコード列が格納されている。ノード選択処理部１
３は、ノード格納部２１および確認用ラベル格納部２２
を参照し、現在入力されている単位コードがトライノー
ド中にあるかどうかを判断し、単位コードがあれば次の
トライノードに移り、コード変換処理部１２から次の単
位コードを受け取る。トライノード中に単位コードがな
ければ入力キーがデータ中にないと判断する。また、着
目しているトライノードに固有コード列格納部２３にお
けるキーの固有コード列へのポインタが格納されている
場合には、入力キーの残りのコード列またはその内部コ
ード列を固有コード列格納部２３内のキーの固有コード
列と照合する。コード列が一致してキーの照合ができれ
ば、入力キーに対応するデータ本体格納装置３０中のデ
ータへのアクセス情報を得る。そうでなければ入力キー
に対応するデータは、データ本体格納装置３０中に存在
しないと判断する。

【００１５】本発明では、従来の個々のトライノードを
有効な要素が重複しないように重ね合わせて、圧縮した
トライノードを構成する。これに伴い、現在検索してい
る単位コードがノード上にあるかどうかを確認できるよ
うに、各ノード要素に対応して確認用のラベルを格納す
る。また、入力キーにおけるそのキーに固有の部分は、
その部分だけを取り出し、ノード格納部２１とは別に設
けた固有コード列格納部２３に格納する。

【００１６】こうすることにより、検索速度は従来とほ
ぼ同様に維持したまま記憶容量を削減することができ
る。図１に示す検索装置と自然言語の単語とを組み合わ
せることにより圧縮したトライを構成し、辞書の見出し
を管理することによって、検索速度が高速でインデック
スサイズが小さい仮名漢字変換辞書、形態素解析装置、
構文解析装置などを実現することができる。

【００１７】また、図１に示す検索装置と自然言語の音
声データとを組み合わせることにより圧縮したトライを
構成し、音声データに対応する認識カテゴリを管理する
ことによって、検索速度が高速でインデックスサイズが
小さい音声認識用の辞書を実現することができる。

【００１８】さらにまた、図１に示す検索装置とテキス
トデータとを組み合わせることにより圧縮したトライを
構成し、データベースヘのインデックスとすることによ
って、検索速度が高速でインデックスサイズが小きいデ
ータベースのテキスト検索装置を実現することができ
る。

【００１９】

【発明の実施の形態】図２は本発明の実施形態における
コード変換テーブルとインデックス格納装置の構成例を
示す図である。

【００２０】例えば英文字見出しを持つ辞書検索装置の
場合、図２（Ａ）に示すように、キーの終了を示す記号
♯と英文字ａ〜ｚの文字コードとを、１〜２７のトライ
の内部コードに変換するための情報を持つコード変換テ
ーブル１４を用意する。なお、コード変換処理部１２で
は、コード変換テーブル１４を用いないで、文字コード
を２進数の数値とみた算術演算により、入力キーの単位
コードをトライの内部コードに変換するようにしてもよ
い。

【００２１】図２（Ｂ）は、キーとして“ａ♯”、“ａ
ｂｎｏｍａｌ♯”、“ａｇｒｅｅ♯”、“ｂａｃｈｅｌ
ｏｒ♯”、“ｂｃｓ♯”の５個のキーが存在する場合の
ノード格納部２１（ＴＲＩＥと表す）と、確認用ラベル
格納部２２（ＣＨＥＣＫと表す）における格納状態を示
している。

【００２２】“ａ♯”、“ａｂｎｏｍａｌ♯”、“ａｇ
ｒｅｅ♯”、“ｂａｃｈｅｌｏｒ♯”、“ｂｃｓ♯”の
各キーの中で他のキーとの区別に影響のない部分につい
ては、その部分を該当するキーの固有コード列として抽
出し、図２（Ｃ）に示すように、固有コード列格納部２
３に格納する。

【００２３】図２に示す辞書の作成方法について、図３
に従って説明する。上述のようにキーとしては、図３
（Ａ）に示す５個のキーがあるものとする。説明を簡単
にするために、これらのキーの各文字を図３（Ｂ）に示
すように木構造に展開した場合を想定する。この木構造
で、各キーの技分かれのない文字列部分を抽出すること
により、図３（Ｃ）に示すような固有コード列格納部２
３に格納すべきキーの固有コード列が得られる。なお、
固有コード列格納部２３における各コード列は、入力キ
ーの元の文字コード列であっても、それをトライの内部
コードに変換した後の内部コード列であっても、どちら
でもよい。

【００２４】ノード格納部２１と確認用ラベル格納部２
２は、次のように作成する。まず、図３（Ｂ）に示す木
構造における従来のトライノードに相当するトライノー
ドＮ１、Ｎ２、Ｎ３の部分に着目する。ノード要素の無
効な部分を“０”で表し、有効な部分をその文字記号で
表すと、図３（Ｄ）に示すようなトライノードＮ１〜Ｎ
３になる。これらを有効な部分が重複しないようにずら
して、１本のトライノードに重ね合わせる。これをもと
に、図３（Ｄ）に示すノード格納部２１を作成する。な
お、このノード格納部２１のトライノードにおける先頭
には処理の便宜上、“１”のインデックス値を持つノー
ド要素を付加する。

【００２５】例えばノード格納部２１の３番目のエント
リ（最初の“ａ”の部分）には、次のトライノードＮ２
に相当するノード列が、トライノードＮｌの４番目（ノ
ード格納部２１の５番目）のエントリから始まるので、
インデックス値として“４”を格納する。また、ノード
格納部２１の４番目のエントリ（“ｂ”の部分）には、
次のトライノードＮ３に相当するノード列が、トライノ
ードＮ１の６番目（ノード格納部２１の７番目）のエン
トリから始まるので、インデックス値として“６”を格
納する。

【００２６】また、ノード格納部２１における各ノード
要素に対応する単位コードの後に続くコードが、固有コ
ード列のみからなるとき、そのノード要素に固有コード
列格納部２３における固有ノード列へのポインタＫｌ〜
Ｋ５を格納する。なお、ノード要素がトライノードヘの
ポインタであるか固有コード列へのポインタであるか
は、例えば先頭ビットをフラグとして用いて区別するこ
とができる。より具体的には、トライノードへのポイン
タとして正の値を用い、固有ノード列へのポインタとし
て負の値を用いることが考えられる。

【００２７】確認用ラベル格納部２２の各エントリに
は、ノード格納部２１における各ノード要素に対応する
キーの文字コードまたは内部コードを確認用ラベルとし
て格納する。ノード格納部２１および確認用ラベル格納
部２２における無効のエントリにはその旨を示すｎｕｌ
ｌコード（“０”）などを設定する。

【００２８】以上のようにすることによって、図２
（Ｂ）、（Ｃ）に示すようなＴＲＩＥ、ＣＨＥＣＫおよ
び固有コード列を持つインデックス格納装置２０を作成
することができる。なお、ここではＴＲＩＥは、圧縮し
たトライのノードを格納した整数配列であり、ＣＨＥＣ
Ｋは、文字がトライのノードに含まれるか否かを確認す
るための文字ラベルを格納した要素確認用の各１バイト
の文字配列である。

【００２９】従来のトライで構成すると、トライノード
の領域として１２８×２２要素の領域が必要であるのに
対し、本実施形態では、図２から明らかなように１２要
素＋１２文字＋２２文字分の領域で済んでいる。

【００３０】図４は、本発明の実施形態による検索処理
のフローチャートである。まず、ステップＳ１では、入
力装置または検索要求プログラム等から検索のキーを入
力する。ステップＳ２では、トライ検索のためのポイン
タをノード格納部２１および確認用ラベル格納部２２に
おける最初のノードにセットし、以下、ステップＳ３以
降を実行する。

【００３１】ステップＳ３では、入力キーを比較するた
めに先頭から１単位コードずつ要素を取り出す。例えば
入力キーが文字列で構成される場合には、文字コードを
１文字ずつ取り出すことになる。ステップＳ４では、取
り出した単位コードをコード変換テーブル１４を用い
て、または算術演算もしくはビット操作により、トライ
の内部コードに変換する。

【００３２】次にステップＳ５により、トライ検索のた
めのポインタを内部コード分進める。そして、ステップ
Ｓ６により、確認用ラベル格納部２２を参照し、ポイン
タの指す確認用のラベルが現在のコードと一致するかど
うかを判定する。一致しない場合には、ステップＳ９に
より検索失敗として検索要求元へ通知する。

【００３３】確認用のラベルが現在のコードと等しい場
合、ステップＳ７によってノード格納部２１におけるポ
インタの示す要素が辞書中のキーの固有コード列格納部
２３を指しているかどうかを判定する。固有コード列格
納部２３を指していない場合、ステップＳ８によって、
ノード格納部２１のノード要素から得た値をポインタの
値として、次のトライのノードにポインタを進める。そ
の後、ステップＳ３に戻り、次の単位コードについて同
様に処理を繰り返す。

【００３４】ステップＳ７において、ポインタの先が辞
書中の固有コード列格納部２３を指していると判定され
た場合には、ステップＳｌ０へ進み、キーの残りとポイ
ントされた固有コード列とを照合する。キーの残りと固
有コード列とが等しい場合、ステップＳ１１によって検
索成功とし、入力キーに対するデータヘのアクセス情報
を得て、検索要求元へ通知する。一方、キーの残りと固
有コード列とが等しくない場合、ステップＳ１２により
検索失敗として検索要求元へ通知する。

【００３５】次に、図４に示す処理の流れに従って、図
２に示すインデックス格納装置を用いた場合の具体的な
検索例について説明する。〔キー“ａ♯”の検索要求があった場合（検索の成功
例）〕（１）キー“ａ♯”を入力する（図４のＳ１）。（２）ポインタの値を最初のノードを示すように“１”
とする（Ｓ２）。（３）入力キー“ａ♯”から文字コード“ａ”を取り出
す（Ｓ３）。（４）文字コード“ａ”をトライの内部コード“２”に
変換する（Ｓ４）。（５）ポインタ“１”に内部コード“２”を加算し、ポ
インタの値を“３”に進める（Ｓ５）。（６）ポインタの値が“３”であることから、ＣＨＥＣ
Ｋの第３要素に格納されている確認用ラベル“ａ”と現
在のコード“ａ”とが等しいかどうかを判定する（Ｓ
６）。（７）ここでは等しいので、次にＴＲＩＥの第３要素が
固有コード列を指しているかどうかを判定する（Ｓ
７）。（８）ＴＲＩＥの第３要素は“４”であり、固有コード
列を指していないので、ポインタの値を“４”にする
（Ｓ８）。（９）入力キー“ａ♯”から次の文字コード“♯”を取
り出す（Ｓ３）。（１０）文字コード“♯”をトライの内部コード“１”
に変換する（Ｓ４）。（１１）ポインタ“４”に内部コード“１”を加算し、
ポインタの値を“５”に進める（Ｓ５）。（１２）ポインタの値が“５”であることから、ＣＨＥ
ＣＫの第５要素に格納された確認用ラベル“♯”と現在
のコード“♯”とが等しいかどうかを判定する（Ｓ
６）。（１３）ここでは等しいので、次にＴＲＩＥの第５要素
が固有コード列を指しているかどうかを判定する（Ｓ
７）。（１４）ＴＲＩＥの第５要素は固有コード列格納部２３
の“Ｋ１”を指しているので、キーの残りと“Ｋ１”の
固有コード列の内容とが等しいかを判定する（Ｓ１
０）。（１５）キーの残りはなく、また“Ｋ１”の固有コード
列の内容も空（φ）であるので、等しいと判定され、検
索成功となる（Ｓ１１）。

【００３６】〔キー“ａｃ♯”の検索要求があった場合
（検索の失敗例）〕（１）キー“ａｃ♯”を入力する（図４のＳ１）。（２）ポインタの値を最初のノードを示すように“１”
とする（Ｓ２）。

【００３７】以下、（３）から（８）までの処理は上述
のキー“ａ♯”の検索と同様である。（９）入力キー“ａｃ♯”から次の文字コード“ｃ”を
取り出す（Ｓ３）。（１０）文字コード“ｃ”をトライの内部コード“４”
に変換する（Ｓ４）。（１１）ポインタ“４”に内部コード“４”を加算し、
ポインタの値を“８”に進める（Ｓ５）。（１２）ポインタの値が“８”であることから、ＣＨＥ
ＣＫの第８要素に格納された確認用ラベル“ａ”と現在
のコード“ｃ”とが等しいかどうかを判定する（Ｓ
６）。（１３）確認用ラベル“ａ”と現在のコード“ｃ”とは
等しくないので、キー“ａｃ♯”はないことが分かり、
検索失敗となる（Ｓ９）。

【００３８】図５は、本発明の実施形態による日本語の
単語をキーとする辞書検索装置のコード変換テーブルと
インデックス格納装置の構成例を示す図である。図５の
例では、“あ♯”、“あさがお♯”、“いろ♯”、“居
る♯”、“居住♯”、“嘘♯”、“嘘つき♯”の日本語
文字列をキーとする辞書を構成している。

【００３９】コード変換テーブル１４は、図５（Ａ）に
示すように構成され、ノード格納部２１および確認用ラ
ベル格納部２２は、図５（Ｂ）に示すように構成され、
固有コード列格納部２３は、図５（Ｃ）に示すように構
成される。これを従来のトライで構成すると約６０００
×１３要素の領域が必要であるのに対し、本実施形態で
は１５要素＋１５文字＋１１文字分の領域で済んでい
る。

【００４０】図６は、図５に示す辞書の作成方法を示し
ている。図６（Ａ）は、上述の７つの日本語のキーを示
している。これらのキーは、図７（Ｂ）に示すような木
構造に展開される。図７（Ｂ）の木構造において、トラ
イノードＮ１、Ｎ２、Ｎ３、Ｎ４に含まれない文字列部
分を抽出することにより、図７（Ｃ）に示すような固有
コード列が得られる。

【００４１】以下に、この辞書の検索例を説明する。〔キー“あさがお♯”の検索要求があった場合（検索の
成功例）〕（１）キー“あさがお♯”を入力する（図４のＳ１）。（２）ポインタの値を最初のノードを示すように“１”
とする（Ｓ２）。（３）入力キー“あさがお♯”から文字コード“あ”を
取り出す（Ｓ３）。（４）文字コード“あ”をトライの内部コード“２”に
変換する（Ｓ４）。（５）ポインタ“１”に内部コード“２”を加算し、ポ
インタの値を“３”に進める（Ｓ５）。（６）ポインタの値が“３”であることから、ＣＨＥＣ
Ｋの第３要素に格納された確認用ラベル“あ”と現在の
コード“あ”とが等しいかどうかを判定する（Ｓ６）。（７）ここでは等しいので、次にＴＲＩＥの第３要素が
固有コード列を指しているかどうかを判定する（Ｓ
７）。（８）ＴＲＩＥの第３要素は“４”であり、固有コード
列を指していないので、ポインタの値を“４”にする
（Ｓ８）。（９）入力キーの“あさがお♯”から次の文字コード
“さ”を取り出す（Ｓ３）。（１０）文字コード“さ”をトライの内部コード“４”
に変換する（Ｓ４）。（１１）ポインタ“４”に内部コード“４”を加算し、
ポインタの値を“８”に進める（Ｓ５）。（１２）ポインタの値が“８”であることから、ＣＨＥ
ＣＫの第８要素に格納された確認用ラベル“さ”と現在
のコード“さ”とが等しいかどうかを判定する（Ｓ
６）。（１３）ここでは等しいので、次にＴＲＩＥの第８要素
が固有コード列を指しているかどうかを判定する（Ｓ
７）。（１４）ＴＲＩＥの第８要素は固有コード列格納部２３
の“Ｋ３”を指しているので、キーの残りと“Ｋ３”の
固有コード列の内容とが等しいかを判定する（Ｓ１
０）。（１５）キーの残りは“がお♯”であり、また“Ｋ３”
の位置の固有コード列も“がお♯”であるので、等しい
と判定され、検索成功となる（Ｓ１１）。

【００４２】〔キー“あさ♯”の検索要求があった場合
（検索の失敗例）〕（１）キー“あさ♯”を入力する（図４のＳ１）。（２）ポインタの値を最初のノードを示すように“１”
とする（Ｓ２）。

【００４３】以下、（３）から（１３）までの処理は上
述のキー“あさがお♯”の検索と同様である。（１４）ＴＲＩＥの第８要素は固有コード列格納部２３
の“Ｋ３”を指しているので、キーの残りとその固有コ
ード列“Ｋ３”とが等しいかを判定する（Ｓ１０）。（１５）キーの残りは“♯”であり、また“Ｋ３”の位
置の固有コード列は“がお♯”であるので、等しくない
と判定され、検索失敗となる（Ｓ１２）。

【００４４】次に、本発明の圧縮されたトライの作成方
法について詳細に説明する。図７は、トライノードを圧
縮して配列ＴＲＩＥとＣＨＥＣＫを生成するトライ圧縮
処理のフローを示している。

【００４５】まず、ステップＳ２１では、処理装置１０
はトライの作成対象となるキー集合をソートする。次
に、ステップＳ２２で、キー集合を構成する文字をカウ
ントし、各文字に対して頻度の大きいものから順に、
１，２，３，．．．，ｎという数字を内部コードとして
割り振り、コード変換テーブル１４を作成する。そし
て、ステップＳ２３で、ソートされたキー集合の２進木
を作成する。このとき、最小接辞部分から構成され、圧
縮されたトライのノードへのポインタを持った２進木を
作成する。

【００４６】図３（Ａ）に示すようなキー集合からは、
例えば図８のような２進木が作成される。図８の最小接
辞・データ領域には、図３（Ｃ）の固有コード列に対応
する最小接辞部またはデータが格納されている。また、
このときのコード変換テーブル１４は図２（Ａ）のよう
になる。

【００４７】次に、ステップＳ２４以降の処理により、
２進木を圧縮されたトライへ変換する。ステップＳ２４
では、配列ＴＲＩＥとＣＨＥＣＫを初期化し、ステップ
Ｓ２５で、２進木内の位置を示すポインタの初期状態と
して、それを２進木のルートノードにセットする。ま
た、ステップＳ２６で、２進木のルートノードが挿入さ
れる配列内の位置を、ｉｎｄｅｘ＝１の位置に設定す
る。

【００４８】ここでは、配列ＴＲＩＥとＣＨＥＣＫの初
期状態は図９のようになる。次に、ステップＳ２７で、
現在のポインタが指す２進木のノード（ポインタノー
ド）を先頭とするノード列（ノードリスト）が挿入可能
な、ＴＲＩＥとＣＨＥＣＫ内の位置を求める。挿入しよ
うとしているノードリスト中の各要素の位置に対応する
配列の領域が使用されていなければ、そのときのノード
リストの先頭に対応する位置が挿入可能位置となる。こ
の挿入可能位置は、配列の先頭から最後尾に向かって順
に捜していき、最初に見つかった位置とする。

【００４９】次に、ステップＳ２８で、ＴＲＩＥ内の２
進木挿入位置に、ステップＳ２７で求めた挿入可能位置
のｉｎｄｅｘ値を設定する。例えば、２進木のポインタ
ノードが図８のルートノードを指す場合は、ルートノー
ドが挿入される位置はステップＳ２６でｉｎｄｅｘ＝１
に決まっている。このときステップＳ２８で、ｉｎｄｅ
ｘ＝１の位置に、挿入するリストの開始位置の値を入れ
る必要があるが、ルートノードの場合には初期化処理に
より既に設定されているので、Ｓ２８の処理は省略され
る。

【００５０】次に、ステップＳ２９で、２進木のポイン
タノードより始まるリストに連なる各ノードのラベル
を、ＣＨＥＣＫ内の対応する部分に書き込む。ここで
は、リストに繋がっているラベルはａとｂであり、それ
らのトライの内部コードはそれぞれ２と３である。ま
た、ノードの挿入可能位置はｉｎｄｅｘ＝１の位置であ
るので、ａの書込み位置は１＋２＝３となり、ｂの書込
み位置は１＋３＝４となる。したがって、ステップＳ２
９の処理の結果は図１０のようになる。

【００５１】また、ステップＳ３０で、２進木のポイン
タノードより始まるリストに連なる各ノードに、ステッ
プＳ２９でセットしたＣＨＥＣＫに対応するＴＲＩＥへ
のポインタをセットする。そして、これらのポインタが
指すＴＲＩＥ内の位置を２進木挿入位置とする。

【００５２】ここでは、ラベルａ、ｂに対応して、２進
木のノードａ、ｂからＴＲＩＥへポインタが張られる。
これらをそれぞれ＠１ａ、＠１ｂと表すと、ステップＳ
３０の処理の結果は図１１のようになる。

【００５３】次に、ステップＳ３１で、２進木のポイン
タノードがデータを持っているかどうかを確認する。そ
れがデータを持っていなければ、ステップＳ３２で、２
進木のポインタに現在のノードの子ノードをセットし
て、ステップＳ２７以降の処理を再帰的に繰り返す。

【００５４】ステップＳ３１の条件判定で、２進木のポ
インタノード（ａ→ｂ→ＮＵＬＬのうちのａのノード）
はデータを持っていないので、処理はステップＳ３２に
移る。ステップＳ３２では、ポインタノードの子ノード
を２進木のポインタノードとしてセットする。この結
果、ポインタノードは♯→ｂ→ｇ→ＮＵＬＬのうちの♯
のノードとなる。このステップＳ３２からの処理は再帰
処埋となり、その終了後はステップＳ３４から処理が始
まる。

【００５５】ステップＳ２７では、２進木の挿入可能位
置を次のようにして求める。ポインタノードより始まる
２進木のリスト♯→ｂ→ｇ→ＮＵＬＬの各ノードのラベ
ルを、図２（Ａ）のコード変換テーブル１４を用いてト
ライの内部コードに対応させると、図１２のようにな
る。求める挿入可能位置は、上のラベルがＣＨＥＣＫ内
のラベルと重複せず、かつ、トライのノードの先頭位置
となっていない位置である。ここで、トライのノードの
先頭位置とは、ｉｎｄｅｘ＝１のようにそこから始まる
ノードリストが存在する位置である。

【００５６】挿入可能位置を探索するには、原理的に
は、ｉｎｄｅｘの値が１の位置から順にラベルの重複が
ないかどうかをチェックし、候補となる位置がノードの
先頭位置となっていないかどうかををチェックし、これ
らの条件に合う位置のｉｎｄｅｘの値を返せばよい。こ
の方法による探索は、要素がまだ挿入されていない位置
に到達した時点で必ず停止するので、その終了は保証さ
れている。

【００５７】しかし、実際には計算時間が（ｉｎｄｅｘ
サイズ×挿入するノードの数）に比例し、ｉｎｄｅｘの
数が大きくなるにつれ現実的な時間ではなくなる。そこ
で、配列がｉｎｄｅｘの値の小さい方から詰められ、か
つ１度挿入されたノードの移動、削除がないことを利用
して、配列ＴＲＩＥ、ＣＨＥＣＫの使用率をモニターし
ながら、探索を開始する位置を調整すればよい。言い換
えれば、探索開始位置のｉｎｄｅｘの値を段々大きくし
ていけばよい。これにより、実際の探索範囲を小さく
し、実用に供することができる。

【００５８】こうして、ここでは図１３のように、リス
ト♯→ｂ→ｇ→ＮＵＬＬの挿入可能位置が求められる。
図１３より、ラベル♯の直前の位置が挿入可能位置とな
り、そのｉｎｄｅｘの値は４となる。

【００５９】ステップＳ２８では、ポインタ＠１ａが指
す２進木挿入位置へステップＳ２７で得られた挿入可能
位置のｉｎｄｅｘの値４を入れる。この結果、図１４の
ようになる。

【００６０】ステップＳ２９では、ステップＳ２７で得
られた挿入可能位置から２進木のポインタノードより始
まるリストのラベルをＣＨＥＣＫに書き込む。リストに
繋がっているラベルは♯、ｂ、ｇであり、それらのトラ
イの内部コードはそれぞれ１、３、８である。また、ノ
ードの挿入可能位置はｉｎｄｅｘ＝４であるので、ステ
ップＳ２９の結果は図１５のようになる。

【００６１】ステップＳ３０では、２進木から配列ＣＨ
ＥＣＫに対応する配列ＴＲＩＥの位置ヘポインタを張
る。これらを＠２♯、＠２ｂ、＠２ｇと表すと、ステッ
プＳ３０の結果は図１６のようになる。

【００６２】ステップＳ３１の条件判定で、２進木のポ
インタノード（♯→ｂ→ｇ→ＮＵＬＬの♯のノード）は
データを持っているので、処理はステップＳ３３に移
る。ステップＳ３３では、２進木のポインタノードが指
すデータへのポインタを、ステップＳ３０でセットした
ポインタが指すＴＲＩＥの要素にセットする。

【００６３】ここでは、２進木の♯のノードから最小接
辞部へのポインタを、対応するＴＲＩＥの要素にセット
する。この場合、最小接辞部の要素は空である。最小接
辞・データ領域内の要素（データもしくは最小接辞部）
へのポインタをＫ１と表すと、ステップＳ３３の結果は
図１７のようになる。図１７では、Ｋ１＝空である。

【００６４】次に、ステップＳ３４では、２進木のポイ
ンタノードを同じリスト内で１つ進め、次の要素にセッ
トする。ここでは、ポインタノードはリスト♯→ｂ→ｇ
→ＮＵＬＬのうちのｂのノードとなる。次に、ステッ
プＳ３５で、２進木のポインタノードがデータを持って
いるかどうかをチェックする。データがあれば処理はス
テップＳ３３に移り、なければステップＳ３６に移る。
ステップＳ３６では、ポインタがＮＵＬＬかどうかをチ
ェックし、ＮＵＬＬであれば処理を終了し、ＮＵＬＬで
なければ処理はステップＳ３７に移る。

【００６５】ステップＳ３７では、２進木のポインタに
現在のノードの子ノードをセットして、ステップＳ２７
以降の処理を再帰的に繰り返す。ステップＳ３５の条件
判定で、２進木のポインタノード（♯→ｂ→ｇ→ＮＵＬ
Ｌのｂのうちのノード）はデータを持っているので、処
理はステップＳ３３に移る。以下、ｇのノードまで同様
の処理が続く。その結果、図１８に示すように、Ｋ１＝
空へのポインタ、Ｋ２＝ｎｏｒｍａｌ♯へのポインタ、
Ｋ３＝ｒｅｅ♯へのポインタがそれぞれＴＲＩＥに格納
される。ここで、２進木ポインタがＮＵＬＬとなり処理
は一旦終了するが、再帰処理なので呼び出し元にもど
り、ステップＳ３４から処理が再び始まる。この場合に
は、２進木のポインタノードはａ→ｂ→ＮＵＬＬのうち
のｂのノードとなる。

【００６６】その後、ステップＳ３５、Ｓ３６の処理が
行われ、ｂのノードの子ノードに対してステップＳ２７
からの一連の再帰処理が行われる。その結果、配列ＴＲ
ＩＥ、ＣＨＥＣＫは図１９のようになる。図１９におい
て、Ｋ１＝空へのポインタ、Ｋ２＝ｎｏｒｍａｌ♯への
ポインタ、Ｋ３＝ｒｅｅ♯へのポインタ、Ｋ４＝ｃｈｅ
ｌｏｒ♯へのポインタ、Ｋ５＝ｓ♯へのポインタを表
す。

【００６７】この処理が終った段階で、２進木のポイン
タノードはａ→ｂ→ＮＵＬＬのＮＵＬＬのノードとな
り、ステップＳ３６でポインタが空の条件に適合するた
め、処理は終了する。この場合には、対応する再帰処理
の呼び出し元がないので、全処理が完了することにな
る。こうして生成された図１９のＴＲＩＥ、ＣＨＥＣＫ
は、図２（Ｂ）のＴＲＩＥ、ＣＨＥＣＫと一致してい
る。

【００６８】このように、処理装置１０は２進木のルー
トから処理を開始して、２進木のルートの圧縮トライ配
列への挿入場所の確保、２進木の各ノードから圧縮トラ
イ配列へのポインタのセットの順に処理を進める。そし
て、ノードにデータがなければ、現在のポインタノード
の子ノードを新たにポインタノードとして、再帰的に処
理を行う。それ以外の場合には、２進木の各ノードから
圧縮トライ配列へのポインタに対して、データへのポイ
ンタをセットし、ポインタノードをリスト上で次のノー
ドに進める。２進木のリストの終端ノードは空であるた
め、２進木のルートノードからのリストの最後の処理が
終了した時点で、トライ圧縮処理は終了する。

【００６９】図２０は、本発明の適用例を示す図であ
る。図２０（Ａ）の例では、自然言語の単語４０を入力
キーとし、本発明を用いた辞書検索装置４１により、辞
書４２の検索を行うようにしている。例えば、ワードプ
ロセッサの仮名漢字変換辞書、自然言語解析装置や機械
翻訳装置における形態素解析または構文解析に用いる辞
書への応用が可能である。

【００７０】図２０（Ｂ）の例では、マイクロフォンな
どからの音声入力５０の信号をＡ／Ｄ変換装置５１によ
りアナログ／ディジタル変換し、それからデータ抽出装
置５２によって抽出した音声特徴パラメータなどの音声
データを入力キーとして、本発明を用いた辞書検索装置
５３により辞書５４の検索を行うようにしている。本発
明の技術と音声データとを組み合わせることにより圧縮
したトライを構成し、効率的な音声認識等のための辞書
の検索を実現することができる。

【００７１】図２０（Ｃ）の例では、入力キーとしてテ
キスト６０を入力し、本発明を用いたテキスト検索装置
６１によりデータベース６２を検索できるようにしてい
る。これにより、テキストをキーとする日本語文書など
のデータベース６２の検索を、効率的に行うことが可能
になる。

【００７２】

【発明の効果】以上説明したように、本発明によれば、
日本語文字でも、英語文字でも、速度および記憶容量の
両側面において電子化辞書の検索を効率よく行うことが
できるようになる。また、このような辞書システムを用
いることにより、ワードプロセッサの仮名漢字変換辞
書、形態素解析装置、構文解析装置などの基本機能を、
より効率化することが可能となる。

【図面の簡単な説明】

【図１】本発明の構成例を示す図である。

【図２】本発明の実施形態におけるコード変換テーブル
とインデックス格納装置の構成例を示す図である。

【図３】図２に示す辞書の作成方法説明図である。

【図４】本発明の実施形態による検索処理のフローチャ
ートである。

【図５】本発明の実施形態による日本語の単語をキーと
する辞書検索装置のコード変換テーブルとインデックス
格納装置の構成例を示す図である。

【図６】図５に示す辞書の作成方法説明図である。

【図７】トライ圧縮処理のフローチャートである。

【図８】英語の２進木の例を示す図である。

【図９】トライノード圧縮時の配列データの例を示す図
（その１）である。

【図１０】トライノード圧縮時の配列データの例を示す
図（その２）である。

【図１１】トライノード圧縮時の配列データの例を示す
図（その３）である。

【図１２】ラベルから内部コードへの変換例を示す図で
ある。

【図１３】トライノード圧縮時の配列データの例を示す
図（その４）である。

【図１４】トライノード圧縮時の配列データの例を示す
図（その５）である。

【図１５】トライノード圧縮時の配列データの例を示す
図（その６）である。

【図１６】トライノード圧縮時の配列データの例を示す
図（その７）である。

【図１７】トライノード圧縮時の配列データの例を示す
図（その８）である。

【図１８】トライノード圧縮時の配列データの例を示す
図（その９）である。

【図１９】トライノード圧縮時の配列データの例を示す
図（その１０）である。

【図２０】本発明の適用例を示す図である。

【図２１】従来のトライ辞書検索装置の例を示す図であ
る。

【符号の説明】

１０処理装置１１キー入力部１２コード変換処理部１３ノード選択処理部１４コード変換テーブル２０インデックス格納装置２１ノード格納部２２確認用ラベル格納部２３固有コード列格納部３０データ本体格納装置

フロントページの続き (56)参考文献特開平７−200622（ＪＰ，Ａ) 特開平６−251070（ＪＰ，Ａ) 特開平６−168270（ＪＰ，Ａ) 特開平４−77967（ＪＰ，Ａ) 特開平２−139665（ＪＰ，Ａ) 特開平１−36329（ＪＰ，Ａ) 特開昭59−47669（ＪＰ，Ａ) 青江順一，安留誠吾，「行置換による動的スパース行列の縮小アルゴリズム」，電子情報通信学会論文誌Ｖｏｌ. Ｊ71−Ｄ，Ｎｏ．12（昭和63年12月25 日），ｐｐ．2508−2516 青江順一，「トライとその応用」, 情報処理Ｖｏｌ．34，Ｎｏ．２（平成５年２月15日），ｐｐ．244−251 森本勝士，入口浩一、青江順一, 「二つのトライを用いた辞書検索アルゴリズム」，電子情報通信学会論文誌Ｖｏｌ．Ｊ76−Ｄ−▲ＩＩ▼，Ｎｏ．11 （平成５年11月25日），ｐｐ．2374− 2383 ＴｉｔｕｓＤ．Ｍ．Ｐｕｒｄｉｎ，”ＣｏｍｐｒｅｓｓｉｎｇＴｒｉｅｓｆｏｒＳｔｏｒｉｎｇＤｉｃｔｉｏｎａｒｉｅｓ”，ＡｐｐｌｉｅｄＣｏｍｐｕｔｉｎｇ，1990．（５−６Ａｐｒｉｌ 1990），ｐｐ．336− 340，ＩＥＥＥＴｏｓｈｉｙｕｋｉＭａｓｕｉ，" ＫｅｙｗｏｒｄＤｉｃｔｉｏｎａｒｙＣｏｍｐｒｅｓｓｉｏｎＵｓｉｎｇＥｆｆｉｃｉｅｎｔＴｒｉｅＩｍｐｌｅｍｅｎｔａｔｉｏｎ”，ＤａｔａＣｏｍｐｒｅｓｓｉｏｎＣｏｎｆｅｒｅｎｃｅ，1991，ＤＣＣ 791．（８ −11 Ａｐｒｉｌ 1991），ｐ438，ＩＥＥＥＫｕｒｔＭａｌｙ，”ＣｏｍｐｒｅｓｓｅｄＴｒｉｅｓ”，ＣｏｍｍｕｎｉｃａｔｉｏｎｏｆｔｈｅＡＣＭ，Ｖｏｌ．19，Ｎｏ．７（Ｊｕｌｙ 1976），ｐｐ．409−415 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/30 170 G06F 17/30 230 G06F 17/30 415 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】キーを入力し、キーに対応するデータを
トライ法により検索する検索装置において、圧縮されたトライのノードを格納するノード格納部と、圧縮されたトライのノードの照合の際に検索対象となる
単位コードがノードに含まれるか否かを判定するための
トライのノードに対するラベルを格納するノード要素の
確認用ラベル格納部と、トライ中のキー固有のコード列を格納する固有コード列
格納部と、入カキーを１単位コードずつ取り出し、各単位コードを
トライの内部コードに変換するコード変換処理部と、単位コードがノードに含まれるか否かを前記ノード要素
の確認用ラベル格納部を用いて確認し、単位コードがノ
ードに含まれることを確認した場合に、前記ノード格納
部から次のトライのノード情報または前記固有コード列
格納部へのポインタ情報を得て、次の単位コードに対す
る照合処理に進むノード選択処理部とを備えたことを特
徴とする検索装置。
【請求項２】請求項１記載の検索装置において、前記ノード格納部の各トライのノードには、次のトライ
のノードの起点となるポインタまたは前記固有コード列
格納部内のキーの固有コード列へのポインタが格納さ
れ、前記ノード選択処理部は、着目するトライのノードに次
のトライのノードの起点となるポインタが格納されてい
る場合には、その起点となるポインタと次の単位コード
から得られた内部コードとによって定まるノードに前進
し、着目するトライのノードに前記固有コード列格納部
内のキーの固有コード列へのポインタが格納されている
場合には、次の単位コード以降をポインタで示されるキ
ーの固有コード列と照合するように構成されていること
を特徴とする検索装置。
【請求項３】請求項２記載の検索装置において、前記ノード選択処理手段は、前記起点となるポインタの
値に前記次の単位コードから得られた内部コードの値を
加算して、次に着目すべきノードの位置を求め、該着目
すべきノードに前記次の単位コードが対応するか否かを
判定するように構成されることを特徴とする検索装置。
【請求項４】請求項１記載の検索装置において、入力キーとして使用される頻度の高い単位コードから順
に並べたコード変換テーブルを格納するコード変換テー
ブル格納手段をさらに備え、前記コード変換処理手段は、前記コード変換テーブルを
用いて、使用頻度の高い単位コードほど順位の高い内部
コードに変換するように構成され、前記ノード格納手段
は、内部コードが表す順位に従って、対応するトライの
ノードを格納するように構成されることを特徴とする検
索装置。
【請求項５】請求項１記載の検索装置において、前記確認用ラベル格納手段は、２進木を構成する複数の
ノード列のラベルを互いに重複しないように格納したラ
ベル配列を格納するように構成され、前記ノード格納手
段は、該ラベル配列に対応して前記次のトライの情報ま
たは前記固有コード列格納手段へのポインタ情報を格納
するように構成されることを特徴とする検索装置。
【請求項６】請求項１または請求項２記載の検索装置
を用いた辞書検索方法であって、自然言語の単語をキーとして圧縮されたトライを構成
し、自然言語の単語に対応するデータを、圧縮されたトライ
を用いて検索することを特徴とする辞書検索方法。
【請求項７】請求項１または請求項２記載の検索装置
を用いた辞書検索方法であって、自然言語の音声データをキーとして圧縮されたトライを
構成し、自然言語の音声データに対応するデータを、圧縮された
トライを用いて検索することを特徴とする辞書検索方
法。
【請求項８】請求項１または請求項２記載の検索装置
を用いたテキスト検索方法であって、テキストデータをキーとして圧縮されたトライを構成
し、テキストデータに対応するデータベースのテキストを、
圧縮されたトライを用いて検索することを特徴とするテ
キスト検索方法。
【請求項９】キーを入力し、キーに対応するデータを
トライ法により検索する方法において、検索対象となる単位コードがノードに含まれるか否かを
判定するためのラベルを含む圧縮されたトライのノード
を作成し、トライ中のキー固有のコード列を表す固有コード列を作
成し、入力キーを１単位コードずつ取り出し、各単位コードを
トライの内部コードに変換し、単位コードがノードに含まれるか否かを前記ラベルを用
いて確認し、単位コードがノードに含まれることを確認した場合に、
前記トライのノードから次のトライのノード情報と前記
固有コード列へのポインタ情報のうちの１つを得て、次
の単位コードに対する照合処理に進むことを特徴とする
検索方法。
【請求項１０】請求項９記載の検索方法において、複数のキーの集合を表す２進木を作成し、該２進木を構成する複数のノード列のラベルを、互いに
重複しないようにラベル配列に格納し、該ラベル配列に対応して、前記次のトライの情報と前記
固有コード列へのポインタ情報のうちの１つをトライ配
列に格納し、前記ラベル配列とトライ配列から前記圧縮されたトライ
のノードを作成することを特徴とする検索方法。
【請求項１１】請求項１０記載の検索方法において、前記ラベル配列内の第１の位置に前記２進木の第１のノ
ード列のラベルを格納し、前記圧縮されたトライのノード内で前記２進木の第２の
ノード列が挿入可能な第２の位置を求め、該第２の位置に該第２のノード列を挿入し、前記トライ配列内の前記第１の位置に、前記第２の位置
を指す位置情報を格納することを特徴とする検索方法。