JP3526748B2

JP3526748B2 - 文字列探索装置および方法

Info

Publication number: JP3526748B2
Application number: JP17364898A
Authority: JP
Inventors: 裕紀矢作
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1998-06-19
Filing date: 1998-06-19
Publication date: 2004-05-17
Anticipated expiration: 2018-06-19
Also published as: JP2000010990A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文字列検索に係
り、漢字等の複数の文字列をあらかじめ配列に登録して
おき、与えられた文字列が登録されているかどうかを探
索する文字列探索装置およびその方法に関する。

【０００２】

【従来の技術】近年、コンピュータネットワークと電子
メール等の普及に伴い、個人の持つ電子化された文書の
量は飛躍的に増加してきた。例えば、１日に数百〜１０
００通近くの電子メールを受け取り、それらを処理する
人も多い。また、１日に１ＭＢ（メガバイト）、１年間
で数百ＭＢ〜１ＧＢ（ギガバイト）の文書データが蓄積
されることも、珍しくない。

【０００３】このように、大量のデータを扱うときは、
データの中の冗長な部分を省いてデータ量を圧縮するこ
とで、必要な記憶容量を減らしたり、データをより速く
伝送したりできるようになる。上述した近年の傾向か
ら、データの圧縮技術は必要不可欠となってきており、
様々なデータを１つの方式で圧縮することができる方法
として、例えば、ユニバーサル符号化が提案されてい
る。

【０００４】ところが、電子化された日本語、中国語等
の文書データを単語単位で圧縮しようとする場合、ま
ず、文書から入力された文字列が、辞書にあらかじめ登
録された単語であるかどうかを高速に判断する必要があ
る。さらに、これらの言語では辞書に登録される単語が
多いため、なるべく無駄な記憶領域が生じないように辞
書を編成しなければならない。よく知られたトライ（TR
IE）法では、キー（鍵）となる複数の単語を木構造のト
ライ辞書に格納しておき、入力された文字列を１文字ず
つ各ノード（節点）と照合して、文字列に含まれる単語
を探索する。

【０００５】以下では、情報理論で用いられている呼称
を踏襲し、１ワード（word）単位のデータを記号（symb
ol）あるいは文字と呼び、それが任意の数だけつながっ
たデータを記号列（string）あるいは文字列と呼ぶこと
にする。

【０００６】言語コードの圧縮においては、単語等の文
字列をなるべく記憶容量の小さいデータ構造として格納
し、これを高速に探索するアルゴリズムを開発すること
が重要となる。特に、単語を格納する辞書の場合は、登
録されるキーの集合があらかじめ分かっており、後で適
宜キーを追加して辞書を拡充することも多い。したがっ
て、キーの追加が簡単に行えることも重要な要素とな
る。

【０００７】青江は、複数のキーを高速にパターン整合
するためのデータ構造として、ダブル配列を提案した
（青江順一：ダブル配列による高速ディジタル探索アル
ゴリズム，電子情報通信学会論文誌Ｄ，Vol.J71-D, No.
9, pp.1592-1600, 1988.）。

【０００８】図２７は、ダブル配列の例を示している。
このダブル配列は、ＢＡＳＥおよびＣＨＥＣＫの２つの
１次元配列からなり、これらの配列が保持するデータ
は、図２８のトライ構造に対応している。図２８のトラ
イは、ｂａｂｙ＃、ｂａｃｈｅｌｏｒ＃、ｂａｄｇｅｒ
＃、ｂａｄｇｅ＃、およびｊａｒ＃の５つの英単語を表
しており、各ノードの指標は、図２７の配列ＢＡＳＥ、
ＣＨＥＣＫの添字に対応する。また、ＢＡＳＥおよびＣ
ＨＥＣＫの登録値がともに０の位置は、ノードが未登録
の空き位置に対応する。

【０００９】このトライは、図２９に示すようなノード
の親子関係の繰り返しを含み、親ノードの指標ｎはＢＡ
ＳＥの添字に対応し、子ノードの指標ｍはＣＨＥＣＫの
添字に対応する。言い換えれば、この親子関係は一種の
状態遷移を表しており、親ノードｎの状態において、文
字ａが入力したとき、子ノードｍの状態への遷移が行わ
れる。

【００１０】ダブル配列を用いて親ノードｎに連なる文
字ａに対応する子ノードの指標を探索する際、まず、図
３０に示すように、ＢＡＳＥ上の添字ｎに対応する箇所
を参照し、その内容ｄを得る。この値ｄは、ＣＨＥＣＫ
の添字に対する一種の原点移動量（変位量）を表してい
る。

【００１１】次に、ＣＨＥＣＫ上で添字ｄの箇所を始点
として、文字ａの内部表現値の分だけ移動した先の添字
をｍ（＝ｄ＋文字ａの内部表現値）とする。ＣＨＥＣＫ
上の添字ｍに対応する箇所の内容が、親ノードの指標ｎ
に一致すれば、そのノードｎの下に文字ａが登録されて
おり、対応する子ノードの指標はｍであることが分か
る。次に、その子ノードを親ノードとして探索を続ける
場合は、ＢＡＳＥ上の添字ｍに対応する箇所を参照し、
次の変位量を取得して、同様の処理を行う。

【００１２】一般に、１つの親ノードには１つ以上の子
ノードが連なっており、通常のトライ構造では、同じ親
ノードに連なる兄弟ノードの数に応じて、子ノードの探
索速度が遅くなる。これに対して、ダブル配列のトライ
構造では、兄弟ノードの数の如何を問わず、高速な探索
が可能である。

【００１３】

【発明が解決しようとする課題】しかしながら、上述し
た従来の文字列探索には、次のような問題がある。日本
語や中国語等の漢字辞書にダブル配列を利用しようとす
る場合、漢字熟語の多様性のために、英語等のアルファ
ベット辞書と比べて、１つの親ノードに連なる子ノード
の数が多くなる傾向がある。

【００１４】図３１は、文字“電”で始まる５つの漢字
熟語“電圧”、“電気”、“電車”、“電脳”、および
“電話”をダブル配列に登録する場合を示している。こ
の場合、“電”に連なる各文字“圧”、“気”、
“車”、“脳”、“話”には、それぞれの漢字コード値
が対応しており、コード値に応じてＣＨＥＣＫ上での相
対的な位置関係が一定に保たれる。一方、ＣＨＥＣＫ上
では、○印の付いた箇所が既に他の漢字が登録されて埋
まっており、“電”に連なる各文字を同時に空き位置に
対応させることは、必ずしも可能とは限らない。

【００１５】そこで、これらの各文字を、相対的な位置
関係を保ったままＣＨＥＣＫ上に登録するために、図３
２に示すように、ＢＡＳＥとＣＨＥＣＫの両配列を拡大
する。このとき、これらの文字がすべて収まるような最
小の変位量（平行移動量）ｄを算出し、ＢＡＳＥ上の
“電”のコード値ｎの位置に、この値ｄを書き込む。次
に、この変位量ｄに“電”に連なる各文字の内部表現値
を加算して得られた値を、新たな配列の添字ｐ、ｑ、
ｒ、ｓ、ｔとする。そして、ＣＨＥＣＫ上のｐ、ｑ、
ｒ、ｓ、ｔの位置に、親ノードである“電”のノードの
指標ｎを書き込む。

【００１６】これをトライの木構造で表すと、図３３の
ようになる。図３３においては、ルートノードの下に
“電”が登録され、そのノードｎの下に、“圧”、
“気”、“車”、“脳”、“話”がそれぞれノードｐ、
ｑ、ｒ、ｓ、ｔに対応して登録されている。

【００１７】ここで、問題となるのは、アルファベット
の場合と異なり、漢字の場合は１つの文字に連なる文字
が多く、それらの文字を、相対的な位置関係を保ったま
までＣＨＥＣＫに登録しようとすると、大抵の場合、配
列を拡大せざるを得ない点である。配列を拡大すると、
既に登録されている文字の間の隙間が埋められずに空い
たままとなり、配列の拡大を繰り返すと、このような隙
間がますます増加することになる。したがって、小さな
記憶容量で多数の漢字熟語を格納することは極めて困難
である。

【００１８】本発明の課題は、探索の高速性を失うこと
なく、辞書の無駄な空き領域を削減し、圧縮された辞書
を用いて文字列を探索する文字列探索装置およびその方
法を提供することである。

【００１９】

【課題を解決するための手段】図１は、本発明の文字列
探索装置の原理図である。図１の文字列探索装置は、第
１の配列手段１、第２の配列手段２、第３の配列手段
３、および探索手段４を備え、登録文字列の中から与え
られた文字列を探索する。

【００２０】配列手段１は、複数の文字が連なる語頭の
指標を添字として、その語頭に対応する追番を登録す
る。配列手段２は、上記語頭に対応する追番を添字とし
て、その語頭に連なる複数の文字を分類して得られる複
数の部類（グループ）の各々に対応する変位量を登録す
る。

【００２１】配列手段３は、上記変位量と上記語頭に連
なる文字の値の和を添字として、その語頭の指標を登録
する。探索手段４は、配列手段１、２、３を用いて、与
えられた文字列を探索する。

【００２２】語頭とは、文字列の先頭部分を表し、一般
に、１つ以上の文字からなる。例えば、図３１の漢字
“電”は語頭に対応し、それには複数の漢字“圧”、
“気”、“車”、“脳”、“話”が連なっている。ま
た、語頭の指標は、例えば、トライにおけるノードの指
標に対応する。配列手段１は、例えば、上述のＢＡＳＥ
に対応し、配列手段２の追番を、語頭の指標に対応する
登録値として格納する。

【００２３】語頭に連なる複数の文字は所定の分類方法
で分類され、配列手段２は、部類毎の変位量を、配列手
段１に登録された追番に対応する登録値として格納す
る。また、配列手段３は、例えば、上述のＣＨＥＣＫに
対応し、語頭の指標を、各変位量と各文字の値の和に対
応する登録値として格納する。ここで、文字の値として
は、内部表現値が用いられる。文字の内部表現値は、文
字コードの値またはそれに基づいて算出された適当な数
値に対応する。

【００２４】与えられた文字列が上記語頭を含み、それ
に続いて次の文字が入力されたとき、探索手段４は、配
列手段１に登録された追番を用いて、次の文字が属する
部類に対応する変位量を配列手段２から取り出す。そし
て、配列手段３内で、取り出された変位量と次の文字の
値の和を添字とする位置に、上記語頭の指標が登録され
ているかどうかを調べる。

【００２５】そして、対応する語頭の指標が登録されて
いれば、次の文字を語頭に連なる文字として認識し、そ
うでなければ、次の文字は語頭に繋がらないものと判断
する。こうして、与えられた文字列が配列手段１、２、
３に登録されているかどうかを調べることができる。

【００２６】このような文字列探索装置によれば、語頭
に連なる文字が複数の部類に分類されて、部類毎に変位
量が割り当てられる。各部類に含まれる文字の個数は、
語頭に連なる文字の総個数より少なくなるため、すべて
の文字を一度に登録する場合に比べて、配列手段３内の
空き位置を利用しやすくなる。したがって、より小さな
変位量で文字を登録することが可能になり、配列手段３
の拡大が抑えられる。

【００２７】また、語頭に連なる文字を分類しないで登
録する場合、配列手段１は、語頭の指標を添字として、
すべての文字に共通する変位量を登録し、配列手段３
は、その変位量と各文字の値の和を添字として、語頭の
指標を登録する。探索手段４は、配列手段１に登録され
た値が追番と変位量のいずれであるかを識別して、それ
が追番であれば、配列手段２から変位量を取得して配列
手段３をアクセスし、それが変位量であれば、直接配列
手段３をアクセスする。

【００２８】このように、分類登録されていない文字を
探索する場合は、処理のステップ数はダブル配列を用い
た探索と同様であり、分類登録された文字を探索する場
合は、配列手段２へのアクセスステップが追加されるだ
けである。したがって、探索の高速性はほとんど損なわ
れない。

【００２９】また、本発明の他の原理によれば、文字列
探索装置は、登録手段と探索手段を備え、登録文字列の
中から与えられた文字列を探索する。登録手段は、語頭
に連なる複数の文字を複数の部類に分類して登録し、探
索手段は、登録手段を用いて、与えられた文字列を探索
する。

【００３０】このような文字列探索装置によれば、図１
の文字列探索装置と同様に、登録手段内の空き領域を効
率よく利用することができ、探索の高速性を保ったまま
で、登録文字列のデータ構造を圧縮することができる。

【００３１】例えば、図１の配列手段１、配列手段２、
配列手段３は、それぞれ、後述する図１３のＢＡＳＥ５
２、ＢＡＳＥ′５５、ＣＨＥＣＫ６２に対応し、図１の
探索手段４は、図２３の文書入力部７１、判定部７２、
照合部７３等に対応する。

【００３２】

【発明の実施の形態】以下、図面を参照しながら、本発
明の実施の形態を詳細に説明する。日本語でも中国語で
も、漢字コードとして登録されている漢字は、第１水準
および第２水準合わせて７，０００字弱である。それら
の中で、熟語の生成に用いられるものは数が限られてい
る。例えば、中国語においてさえ、１０種類以上の熟語
を生み出している頻出漢字は、約５００字以下に過ぎな
い。

【００３３】しかし、これらの頻出漢字を辞書に登録す
るとき、トライ上である漢字に連なる漢字が多いほど、
すべての漢字をＣＨＥＣＫ上の既存の空き位置に同時に
登録することは困難となり、どうしてもＣＨＥＣＫを拡
大せざるを得なくなる。

【００３４】そこで、本発明では、高速、低容量の辞書
の１つである従来のダブル配列をさらに発展させ、頻出
漢字についてはダブル配列と異なる方法で登録／探索す
る。具体的には、トライ上である漢字に連なる漢字が多
いとき、それらの漢字の間の相対的な位置関係を保った
まま辞書登録するのではなく、高速性を維持するという
意味からも、それらの漢字を２つ以上の部類（グルー
プ）に分類し、各部類毎に登録する。

【００３５】この場合、１つの部類に含まれる漢字の間
の相対的な位置関係は保たれるが、異なる部類間での位
置関係は必ずしも保たれず、探索の際に入力された漢字
がどの部類に属するかを識別するために、少量の付加情
報が必要となる。しかし、多数の漢字をそのまま１つの
部類として登録する場合より、ＣＨＥＣＫ上の既存の空
き位置を利用できる可能性が高くなり、記憶領域の利用
効率が向上する。したがって、配列の拡大が抑えられ、
辞書のデータ構造が圧縮される。また、探索処理のステ
ップ数はほとんど増加せず、その高速性が保たれる。

【００３６】次に、本実施形態における漢字の分類方法
について説明する。図２および図３は、日本語または中
国語等の２バイト文字のコード空間における文字符号
（コード）の領域を示している。このコード空間は、２
バイト文字の第１バイトが表す数０〜２５５を第１の座
標とし、第２バイトが表す数０〜２５５を第２の座標と
する２次元空間に対応する。

【００３７】図２は、日本語のＪＩＳ（日本工業規格）
コードや中国語のＧＢコード（７ビットコード）のよう
に、１バイトを７ビットで表すコードの領域１１を示し
ており、図３は、日本語のＥＵＣ（extended UNIX cod
e）コードや中国語のＧＢコード（８ビットコード）の
ように、１バイトを８ビットで表すコードの領域１２を
示している。これらのコードのベースとして用いられる
区点コードでは、９４区×９４点の範囲に漢字コードが
制定されており、最大８，８３６字の文字を表現するこ
とができる。

【００３８】図４から図７までは、図２に示した７ビッ
トコードの領域１１をいくつかの領域に分割して、２バ
イト文字を分類する方法を示している。これらの図にお
いて、□印は、ある漢字に連なる複数の漢字の位置を表
し、文字の第１バイトおよび第２バイトの第１ビットの
値は、ともに“０”である。

【００３９】図４の分類方法Ａによれば、第１バイトの
第２ビットと第３ビットの値に応じて、領域１１が３つ
の領域２１、２２、２３に分割され、□印の漢字が対応
する３つの部類に分類される。ここでは、第２ビットと
第３ビットが“０１”の文字は領域２１に属し、それら
が“１０”の文字は領域２２に属し、それらが“１１”
の文字は領域２３に属する。

【００４０】また、図５の分類方法Ｂによれば、第２バ
イトの第２ビットと第３ビットの値に応じて、領域１１
が３つの領域２４、２５、２６に分割され、□印の漢字
が対応する３つの部類に分類される。ここでは、第２ビ
ットと第３ビットが“０１”の文字は領域２４に属し、
それらが“１０”の文字は領域２５に属し、それらが
“１１”の文字は領域２６に属する。

【００４１】また、図６の分類方法Ｃによれば、第１バ
イトおよび第２バイトの第２ビットの値に応じて、領域
１１が４つの領域２７、２８、２９、３０に分割され、
□印の漢字が対応する４つの部類に分類される。ここで
は、第１バイトの第２ビットと第２バイトの第２ビット
がともに“０”の文字は領域２７に属し、第１バイトの
第２ビットが“０”で第２バイトの第２ビットが“１”
の文字は領域２８に属し、第１バイトの第２ビットが
“１”で第２バイトの第２ビットが“０”の文字は領域
２９に属し、それらがともに“１”の文字は領域３０に
属する。

【００４２】また、図７の分類方法Ｄによれば、第１バ
イトおよび第２バイトの第２ビットと第３ビットの値に
応じて、領域１１が４つの領域３１、３２、３３、３４
に分割され、□印の漢字が対応する４つの部類に分類さ
れる。

【００４３】ここでは、第１バイトの第２ビットと第３
ビットが“０１”または“１０”の文字のうち、第２バ
イトの第２ビットと第３ビットも“０１”または“１
０”の文字は領域３１に属し、第２バイトの第２ビット
と第３ビットが“１１”の文字は領域３２に属する。ま
た、第１バイトの第２ビットと第３ビットが“１１”の
文字のうち、第２バイトの第２ビットと第３ビットが
“０１”または“１０”の文字は領域３３に属し、第２
バイトの第２ビットと第３ビットも“１１”の文字は領
域３４に属する。

【００４４】また、図８から図１１までは、図３に示し
た８ビットコードの領域１２をいくつかの領域に分割し
て、２バイト文字を分類する方法を示している。これら
の図において、□印は、ある漢字に連なる複数の漢字の
位置を表し、文字の第１バイトおよび第２バイトの第１
ビットの値は、ともに“１”である。

【００４５】図８の分類方法Ｅによれば、図４の分類方
法Ａと同様に、第１バイトの第２ビットと第３ビットの
値に応じて、領域１２が３つの領域３５、３６、３７に
分割され、□印の漢字が対応する３つの部類に分類され
る。

【００４６】また、図９の分類方法Ｆによれば、図５の
分類方法Ｂと同様に、第２バイトの第２ビットと第３ビ
ットの値に応じて、領域１２が３つの領域３８、３９、
４０に分割され、□印の漢字が対応する３つの部類に分
類される。

【００４７】また、図１０の分類方法Ｇによれば、図６
の分類方法Ｃと同様に、第１バイトおよび第２バイトの
第２ビットの値に応じて、領域１２が４つの領域４１、
４２、４３、４４に分割され、□印の漢字が対応する４
つの部類に分類される。

【００４８】また、図１１の分類方法Ｈによれば、図７
の分類方法Ｄと同様に、第１バイトおよび第２バイトの
第２ビットと第３ビットの値に応じて、領域１２が４つ
の領域４５、４６、４７、４８に分割され、□印の漢字
が対応する４つの部類に分類される。

【００４９】このように、文字コード中の適当なビット
の値を用いて、２バイト文字をいくつかの部類に分類す
ることができる。上述した分類方法のいずれを採用する
かは任意であるが、□印の漢字ができるだけ均等に分割
されるような分類方法を用いるのが望ましい。以下の実
施形態では、語頭に連なる文字を、その文字コードの第
２、第３ビットの値によって、いずれかの分類方法で分
類し、得られた部類毎に変位量を算出する。ここで、語
頭とは、単語の先頭部分を表し、一般に、１つ以上の文
字からなる。

【００５０】このとき、各部類に属する文字の個数の偏
り（ばらつき）が少なければ、ほぼ均等に分類できたこ
とになる。また、部類毎に変位量を算出する際にも、文
字の個数が極端に多い部類がない方が、それだけ容易
に、適切な移動先を見つけることができる。例えば、図
３１に示した５つの漢字を追加する場合、これらを分類
して登録することで、ＣＨＥＣＫ上の空き位置を利用で
きる可能性が高くなり、配列の拡大を抑えることができ
る。

【００５１】さらに、連なる文字の数がそれほど多くな
くても、それらの文字の内部表現値の範囲が所定のいき
値以上となるものについては、同様に分類して登録した
方が、適切な移動先が見つけやすい。ここで、文字の内
部表現値は、文字コードの値またはそれに基づいて算出
された適当な数値に対応し、コード空間における文字間
の相対的な位置関係を表現する。例えば、図２の領域１
１または図３の領域１２内に基準点を設け、その基準点
から文字に対応する位置までの距離を内部表現値として
用いることができる。

【００５２】図１２は、このような熟語の例を示してい
る。ここでは、“爛漫”と“爛熟”という２つの熟語を
登録する際、“爛”に連なる文字“漫”と“熟”の内部
表現値の差（幅）がかなり大きく、ＣＨＥＣＫ上の空き
位置にうまく収まらないものとする。この場合、従来の
登録方法では、ＣＨＥＣＫを拡大して登録することにな
るが、本発明の登録方法では、“漫”と“熟”をそれぞ
れ異なる部類として登録することにより、ＣＨＥＣＫ上
の空き位置を利用することが可能になる。

【００５３】しかし、連なる文字が少なく、かつ、連な
る文字の内部表現値の差の最大値がいき値より小さい場
合は、このような分類は行わず、従来通りに登録しても
構わない。

【００５４】次に、トライ辞書に文字を登録する際の構
成および処理について説明する。図１３は、文字列探索
装置の登録時の構成を示している。図１３の文字列探索
装置は、頻出漢字一覧表５１、ＢＡＳＥ配列５２、語頭
登録部５３、語頭選択部５４、ＢＡＳＥ′配列５５、熟
語辞書５６、分類部５７、分類結果格納部５８、変位量
計算部５９、変位量格納部６０、登録位置計算部６１、
およびＣＨＥＣＫ配列６２を備える。

【００５５】このうち、頻出漢字一覧表５１、ＢＡＳＥ
配列５２、語頭登録部５３、ＢＡＳＥ′配列５５、熟語
辞書５６、分類結果格納部５８、変位量格納部６０、お
よびＣＨＥＣＫ配列６２は、コンピュータの記憶装置の
特定の記憶領域またはそこに格納されたデジタルデータ
に対応する。また、語頭選択部５４、分類部５７、変位
量計算部５９、および登録位置計算部６１は、それらの
データを処理するプログラムにより記述されたソフトウ
ェアコンポーネントに対応し、コンピュータの記憶装置
の特定のプログラムコードセグメントに格納される。

【００５６】頻出漢字一覧表５１は、熟語によく用いら
れる漢字の一覧表を表し、語頭選択部５４は、頻出漢字
一覧表５１の漢字からなる１文字以上の語頭を、一定の
上限値以内の数だけ選択する。また、語頭選択部５４
は、頻出漢字以外に、図１２に示したように、連なる文
字間の幅が大きいような語頭も、処理対象として選択し
ておく。

【００５７】分類部５７は、処理対象の熟語を登録した
熟語辞書５６を参照しながら、選択された各語頭に連な
る漢字の分類方法を語頭毎に決定する。そして、その分
類方法に従って漢字を分類し、分類結果を分類結果格納
部５８に格納する。

【００５８】文字列探索装置は、語頭選択部５４により
選択された語頭の指標（index ）を語頭登録部５３に登
録する際、登録位置の追番の値の範囲に意味を持たせ
て、各語頭に連なる漢字の分類に用いた分類方法を表現
する。つまり、分類方法に応じて、異なる値の範囲の追
番を用いるようにする。

【００５９】図１４は、語頭登録部５３の登録内容の例
を示している。ここでは、追番１、２の位置は図４の分
類方法Ａに対応し、それぞれ語頭Ｗ１、Ｗ２の指標が格
納されている。したがって、それらの語頭に連なる漢字
は、分類方法Ａで分類されたことが分かる。

【００６０】また、追番３、４の位置は図５の分類方法
Ｂに対応し、それぞれ語頭“大”、Ｗ３の指標が格納さ
れている。したがって、それらの語頭に連なる漢字は、
分類方法Ｂで分類されたことが分かる。また、追番５の
位置は図６の分類方法Ｃに対応し、語頭Ｗ４の指標が格
納されている。したがって、その語頭に連なる漢字は、
分類方法Ｃで分類されたことが分かる。

【００６１】ここで、ＪＩＳコードの第１バイトをｘと
し、第２バイトをｙとすると、ｘ、ｙは、区点コードを
用いて次式のように表される。ｘ＝（区コード）＋３２（１）ｙ＝（点コード）＋３２（２）例えば、“大”の区点コードは（３４，７１）であるか
ら、そのＪＩＳコードは（ｘ，ｙ）＝（６６，１０３）
となる。また、ＪＩＳコードに対応する内部表現値ｚを
次式のように定義する。

【００６２】ｚ＝（（区コード）−１）＊９４＋（（点コード）−１）（３）このとき、“大”の内部表現値は３，１７２となる。こ
こで、トライにおける語頭は、ルートノードの次の０次
文脈に対応し、０次文脈の指標は内部表現値に一致する
ため、語頭登録部５３に登録される“大”の指標は３，
１７２となる。

【００６３】文字列探索装置は、語頭を語頭登録部５３
に登録した後、ＢＡＳＥ５２上で語頭の指標を添字とす
る位置に、語頭登録部５３の追番またはそれに対応する
値を格納する。これにより、各語頭と語頭登録部５３の
追番の対応関係、言い換えれば、各語頭と分類方法の対
応関係がＢＡＳＥ５２に登録される。

【００６４】図１５は、ＢＡＳＥ５２の例を示してい
る。ＢＡＳＥ５２には、語頭に応じて２種類の数値が格
納される。語頭に連なる文字が少なく、かつ、連なる文
字の内部表現値の差の最大値がいき値より小さい場合
は、分類登録を行わずに、従来通りの変位量が格納され
る。

【００６５】一方、それ以外の語頭については、語頭登
録部５３の追番に対応するＢＡＳＥ′５５の追番が格納
される。ここでは、語頭“大”の指標３，１７２に対応
する位置に、ＢＡＳＥ′５５の追番Ｉ₁が格納され、別
の語頭“不”の指標３，８１１に対応する位置に、ＢＡ
ＳＥ′５５の追番Ｉ₂が格納されている。

【００６６】例えば、ＢＡＳＥ′５５の追番としては、
ＢＡＳＥ５２の大きさに語頭登録部５３の追番を加算し
た値が用いられ、語頭“大”の場合は、Ｉ₁＝ＢＡＳＥ
５２の大きさ＋３となる。したがって、ＢＡＳＥ５２が
１〜６４，０００ワードの範囲に設定された場合、Ｉ₁
＝６４，００３となる。

【００６７】今、“大”を語頭とする９つの２文字熟語
“大王”、“大概”、“大円”、“大家”、“大河”、
“大火”、“大学”、“大会”、および“大器”が熟語
辞書５６に登録されているものとする。このとき、
“大”に連なる漢字“王”、“概”、“円”、“家”、
“河”、“火”、“学”、“会”、および“器”は、図
５の分類方法Ｂにより、図１６、１７、１８に示す３つ
の部類に分類される。

【００６８】分類方法Ｂでは、第２バイトの第２ビット
と第３ビットの値に応じて漢字が分類されるが、図１６
の漢字“王”および“概”の第２ビットと第３ビットは
“０１”であり、これらは部類αに分類される。また、
図１７の漢字“円”、“家”、“河”、“火”、および
“学”の第２ビットと第３ビットは“１０”であり、こ
れらは部類βに分類され、図１８の“会”および“器”
の第２ビットと第３ビットは“１１”であり、これらは
部類γに分類される。

【００６９】これらの部類α、β、γは、図５の領域２
４、２５、２６にそれぞれ対応しており、分類結果とし
て分類結果格納部５８に格納される。また、図１６、１
７、１８において、各漢字の下方に記された数字は、
（１）、（２）式のＪＩＳコード（ｘ，ｙ）と、（３）
式の内部表現値ｚを表している。例えば、図１６の漢字
“王”のＪＩＳコードは（５０，３８）であり、その内
部表現値は１，６０３である。

【００７０】変位量計算部５９は、分類結果を参照し
て、各部類毎にＣＨＥＣＫ６２上の最適な変位量を計算
し、変位量格納部６０に格納する。そして、登録位置計
算部６１は、変位量を用いて各部類に属する漢字の登録
位置を計算し、文字列探索装置は、ＣＨＥＣＫ６２上の
得られた登録位置に、語頭の指標を登録する。

【００７１】図１９は、図１６、１７、１８に示した各
部類毎に、変位量を算出する過程を示している。ここで
は、部類α、β、γの順に変位量が算出される。変位量
計算部５９は、まず、ＣＨＥＣＫ６２上で、部類αに属
する２つの漢字“王”および“概”を平行移動して、そ
れらを登録できる位置を探し、対応する変位量ｄ₁を求
める。そして、登録位置計算部６１は、ｄ₁に各漢字の
内部表現値を加算して、登録位置の添字を求める。

【００７２】次に、変位量計算部５９は、ＣＨＥＣＫ６
２上で、部類βに属する５つの漢字“円”、“家”、
“河”、“火”、および“学”を平行移動して、それら
を登録できる位置を探し、対応する変位量ｄ₂を求め
る。そして、登録位置計算部６１は、ｄ₂に各漢字の内
部表現値を加算して、登録位置の添字を求める。

【００７３】次に、変位量計算部５９は、ＣＨＥＣＫ６
２上で、部類γに属する２つの漢字“会”および“器”
を平行移動して、それらを登録できる位置を探し、対応
する変位量ｄ₃を求める。そして、登録位置計算部６１
は、ｄ₃に各漢字の内部表現値を加算して、登録位置の
添字を求める。

【００７４】そして、文字列探索装置は、部類α、β、
γに属するすべての漢字の登録位置に、語頭“大”の指
標３，１７２を登録する。また、分類登録を行わない語
頭については、変位量計算部５９は、すべての連なる漢
字に共通する変位量を計算し、登録位置計算部６１は、
その変位量に各漢字の内部表現値を加算して、登録位置
を求める。このような処理をすべての語頭について繰り
返すことで、必要な漢字がＣＨＥＣＫ６２に登録され
る。

【００７５】また、文字列探索装置は、ＢＡＳＥ′５５
上で、ＢＡＳＥ５２に格納された追番を添字とする位置
に、対応する語頭の各部類の変位量を格納する。また、
分類登録を行わない語頭については、ＢＡＳＥ５２上で
語頭の指標に対応する位置に、変位量を格納する。

【００７６】図２０は、ＢＡＳＥ′５５の例を示してい
る。図２０のＢＡＳＥ′５５は、図１４の語頭登録部５
３と同様に、添字の値の範囲により分類方法を表してお
り、分類された各部類毎に独自の変位量を格納してい
る。例えば、図１５の語頭“大”の追番Ｉ₁に対応する
位置には、上述の部類α、β、γの変位量ｄ₁、ｄ₂、
ｄ₃が格納されており、これらの部類が分類方法Ｂによ
り得られたことを表している。

【００７７】このように、図１３の構成によれば、語頭
に連なる漢字を複数の部類に分類することができ、配列
の添字の値の範囲により、語頭に対応する分類方法が識
別できる。そして、各部類に応じて独自の変位量を与え
ることにより、それらの部類が互いに重なるようにし
て、各漢字に空いた登録位置を与えることが可能にな
る。したがって、語頭に連なるすべての漢字に一定の変
位量を与える場合に比べて、ＣＨＥＣＫ６２の拡大が抑
えられる。

【００７８】図２１は、図１３の文字列探索装置による
登録処理のフローチャートである。まず、語頭選択部５
４は、ユーザからの指示に従って、１つ以上の語頭Ｗを
選択する（ステップＳ１）。

【００７９】頻出漢字一覧表５１には、例えば、１０種
類以上の熟語に使用される約５００種類の漢字が登録さ
れており、語頭選択部５４は、これらの中から処理対象
とすべき漢字を選択する。また、２文字以上の語頭で、
多数の３文字以上の熟語に用いられるものも選択する。
例えば、“自由競争”、“自由主義”、“自由時間”等
のような熟語においては、“自由”が語頭として選択さ
れる。さらに、必要に応じて、図１２に示したように、
連なる文字間の幅が大きいような語頭も選択する。そし
て、これらの語頭Ｗの指標（内部表現値）を語頭登録部
５３に格納する。

【００８０】次に、文字列探索装置は、トライ辞書に登
録すべき漢字熟語を含む熟語辞書５６から熟語の文字列
を入力し（ステップＳ２）、語頭登録部５３を参照し
て、入力文字列中の注目している語頭が、選択された語
頭Ｗであるか否かを判定する（ステップＳ３）。

【００８１】選択された語頭Ｗでなければ、変位量計算
部５９は、その語頭に連なるすべての漢字に共通する変
位量を計算し（ステップＳ４）、文字列探索装置は、そ
れをＢＡＳＥ５２上の語頭の指標に対応する位置に格納
する（ステップＳ５）。そして、登録位置計算部６１
は、変位量に各漢字の内部表現値を加算して、ＣＨＥＣ
Ｋ６２上の登録位置を求め、文字列探索装置は、語頭の
指標をその登録位置に登録して（ステップＳ６）、処理
を終了する。

【００８２】また、ステップＳ３において、入力文字列
から語頭Ｗが検出されると、文字列探索装置は、まず、
入力文字列をすべての語頭Ｗと比較したかどうかを判定
する（ステップＳ７）。そして、すべての語頭Ｗについ
て処理が終了していなければ、分類部５７は、熟語辞書
５６を参照して、検出された語頭Ｗに連なる漢字をそれ
らのコード値に従って分類する（ステップＳ８）。この
とき、文字列探索装置は、採用された分類方法に対応す
る追番を決定し、それに従って語頭Ｗの指標を語頭登録
部５３に格納し直す。

【００８３】次に、文字列探索装置は、ＢＡＳＥ５２上
の語頭Ｗの指標に対応する位置に、語頭Ｗに割り当てら
れたＢＡＳＥ′５５の追番を格納する（ステップＳ
９）。そして、変位量計算部５９は、分類により得られ
た部類毎に最適な変位量を計算し（ステップＳ１０）、
文字列探索装置は、ＢＡＳＥ′５５上で、ＢＡＳＥ５２
に格納された追番に対応する位置に、得られた変位量を
格納する（ステップＳ１１）。

【００８４】このとき、変位量計算部５９は、１つの部
類に属する各漢字の内部表現値に任意の加算値を加算
し、得られた各加算結果に対応するＣＨＥＣＫ６２上の
位置を調べる。そして、すべての加算結果がＣＨＥＣＫ
６２上の空き位置に対応し、その部類の各漢字がすべて
空き領域に収まるような加算値のうち最小のものを、最
適な変位量として算出する。

【００８５】次に、文字列探索装置は、ステップＳ７以
降の処理を繰り返し、入力文字列をすべての語頭Ｗと比
較し終えると、登録位置計算部６１は、各部類の変位量
に各漢字の内部表現値を加算して、ＣＨＥＣＫ６２上の
登録位置を求める（ステップＳ６）。そして、文字列探
索装置は、語頭の指標をその登録位置に登録して、処理
を終了する。

【００８６】このような処理を、熟語辞書５６に登録さ
れたすべての熟語について繰り返すことで、それらの熟
語が、ＢＡＳＥ５２、ＢＡＳＥ′５５、およびＣＨＥＣ
Ｋ６２を含むトライ辞書に登録される。このとき、ステ
ップＳ６で得られた登録位置は、ステップＳ５、Ｓ９に
おいて次の語頭の指標として用いられる。

【００８７】図２２は、図２１のステップＳ８で行われ
る分類処理の例を示すフローチャートである。ここで
は、与えられた文字の集合に、図４、５、６、７または
図８、９、１０、１１に示した４通りの分類方法を適用
して、得られた各部類に属する文字の個数を算出し、そ
のばらつきが最も小さくなるような分類方法を選択す
る。

【００８８】分類部５７は、まず、語頭Ｗに連なる文字
の個数を所定のいき値と比較し（ステップＳ２１）、そ
の個数がいき値以上であれば、次に、それらの文字を分
類する。ここでは、まず、４通りの分類がすべて終了し
たかどうかを判定し（ステップＳ２２）、それが終了し
ていなければ、各文字の第１バイトおよび第２バイトの
第２ビットと第３ビットの値を調べ、特定の分類方法に
従って文字を分類する（ステップＳ２３）。

【００８９】次に、得られた各部類に属する文字の個数
を算出し（ステップＳ２４）、そのばらつきを評価する
（ステップＳ２５）。ばらつきの評価には、文字の個数
の分散や標準偏差等に基づく統計処理が用いられる。

【００９０】このような処理を各分類方法について繰り
返し、４通りの分類がすべて終了すると、次に、ばらつ
きが最小となる分類方法を選定する（ステップＳ２
６）。そして、その分類方法に応じて語頭登録部５３の
追番を決定し（ステップＳ２７）、その分類方法により
得られた各部類を出力し（ステップＳ２８）、語頭登録
部５３の追番を出力して（ステップＳ２９）、処理を終
了する。

【００９１】また、ステップＳ２１において、語頭Ｗに
連なる文字の個数がいき値より小さい場合は、次に、そ
れらの文字の内部表現値の差の最大値を所定のいき値と
比較する（ステップＳ３０）。その最大値がいき値以上
であれば、ステップＳ２２以降の処理を行ってそれらの
文字を分類し、最大値がいき値より小さければ、分類を
行わずに処理を終了する。

【００９２】ステップＳ２９において出力された語頭登
録部５３の追番は、採用された分類方法を表しており、
図２１のステップＳ９において、ＢＡＳＥ′５５の追番
に変換されてＢＡＳＥ５２に格納される。こうして、採
用された分類方法の情報は、ＢＡＳＥ５２に登録され、
未知の入力文字列をトライ辞書内で探索する際に利用さ
れる。

【００９３】ここでは、図４から図１１までに示した分
類方法を用いているが、一般には、これら以外の任意の
分類方法を用いることができ、ばらつきの評価対象とな
る分類方法は４通りには限られない。また、採用する分
類方法を、語頭毎にユーザが指定することも可能であ
る。

【００９４】次に、上述のようにして作成されたトライ
辞書を用いて文字列を探索する際の構成および処理につ
いて説明する。図２３は、文字列探索装置の探索時の構
成を示している。図２３の文字列探索装置は、図１３に
示したＢＡＳＥ配列５２、ＢＡＳＥ′配列５５、分類部
５７、変位量格納部６０、登録位置計算部６１、および
ＣＨＥＣＫ配列６２と、文書入力部７１、判定部７２、
および照合部７３を備える。

【００９５】文書入力部７１、判定部７２、および照合
部７３は、プログラムにより記述されたソフトウェアコ
ンポーネントに対応し、コンピュータの記憶装置の特定
のプログラムコードセグメントに格納される。

【００９６】文書入力部７１は、与えられた文書から文
字を１文字ずつ入力し、判定部７２は、ＢＡＳＥ５２を
参照して、処理対象の語頭の指標に対応する登録値を取
り出し、それが追番と変位量のいずれを表しているかを
判定する。処理対象の語頭に連なる文字が分類登録され
ていれば、登録値は追番に対応し、それらが分類登録さ
れていなければ、登録値は変位量に対応する。

【００９７】登録値が追番であれば、分類部５７は、そ
れに対応する分類方法に従って入力文字のコード値を分
類し、文字列探索装置は、追番に基づいて、ＢＡＳＥ′
５５から入力文字の部類に対応する変位量を取り出し、
変位量格納部６０に格納する。また、登録値が変位量で
あれば、それを変位量格納部６０に格納する。

【００９８】次に、登録位置計算部６１は、変位量格納
部６０から変位量を取り出し、それに入力文字の内部表
現値を加算して、ＣＨＥＣＫ６２上の登録位置を求め
る。そして、照合部７３は、その位置に登録された数値
を語頭の指標と照合し、照合結果に応じて、新たな語頭
を設定する。

【００９９】このような処理を繰り返すことで、文書中
の文字が１文字ずつトライ辞書の文字と照合されてい
き、辞書に登録された単語が順に切り出されていく。こ
のとき、ＢＡＳＥ５２の登録値を参照することで、分類
登録の有無と分類方法が識別され、ＢＡＳＥ′５５を参
照することで、各部類の変位量が取得できる。

【０１００】図２４は、図２３の文字列探索装置による
探索処理のフローチャートである。まず、文字列探索装
置は、語頭Ｗとしてトライのルートノードに対応する
“＃”を設定し（ステップＳ３１）、文書入力部７１
は、ユーザから与えられた文書から処理対象の文字を入
力する（ステップＳ３２）。

【０１０１】次に、判定部７２は、ＢＡＳＥ５２上の語
頭Ｗの指標に対応する位置から数値を取り出し（ステッ
プＳ３３）、それが追番と変位量のいずれを表している
かを判定する（ステップＳ３４）。ここでは、ＢＡＳＥ
５２から取り出された数値がＢＡＳＥ５２の大きさ以内
であるとき、それを変位量とみなし、数値がＢＡＳＥ５
２の大きさを越えているとき、それを追番とみなす。

【０１０２】数値が追番であれば、分類部５７は、その
値から分類方法を識別し、対応する分類方法に従って入
力文字のコード値を分類して、入力文字が属する部類を
求める（ステップＳ３５）。そして、文字列探索装置
は、ＢＡＳＥ′５５上で、語頭Ｗの追番と入力文字の部
類に対応する位置から変位量を取り出し、変位量格納部
６０に格納する（ステップＳ３６）。

【０１０３】次に、登録位置計算部６１は、得られた変
位量に入力文字の内部表現値を加算して、ＣＨＥＣＫ６
２上の登録位置を求め、文字列探索装置は、その位置か
ら数値を取り出す（ステップＳ３７）。また、ステップ
Ｓ３４において、数値が変位量であれば、それをそのま
ま変位量格納部６０に格納し（ステップＳ３８）、ステ
ップＳ３７の処理を行う。

【０１０４】次に、照合部７３は、ＣＨＥＣＫ６２から
取り出された数値をキーとして、それを語頭Ｗの指標と
照合する（ステップＳ３９）。そして、それらが一致す
れば、語頭Ｗと入力文字を合わせた文字列がトライ辞書
に登録されているものとみなし、文字列がどこまで登録
されているかを調べるために、その文字列を改めて語頭
Ｗに設定する（ステップＳ４０）。

【０１０５】また、ＣＨＥＣＫ６２の数値が語頭Ｗの指
標と一致しなければ、語頭Ｗと入力文字を合わせた文字
列がトライ辞書に登録されていないものとみなし、入力
文字のみを改めて語頭Ｗに設定する（ステップＳ４
１）。これにより、入力文字は、次の単語の先頭文字と
なる。

【０１０６】次に、文書入力部７１は、入力文字が終了
したかどうかを判定し（ステップＳ４２）、次の入力文
字があれば、ステップＳ３２以降の処理を繰り返す。そ
して、次の入力文字がなくなれば、処理を終了する。

【０１０７】ステップＳ３２において最初の文字が入力
されたときは、語頭Ｗは“＃”であり、自動的にステッ
プＳ４０において入力文字が語頭Ｗに設定されて、次の
文字が入力される。また、語頭Ｗが１文字の漢字で、入
力文字も漢字である場合は、それらが２文字熟語を生成
する可能性がある。

【０１０８】例えば、語頭Ｗが“大”であるときに漢字
“王”が入力されたとすると、判定部７２は、図１５の
ＢＡＳＥ５２上で、“大”の指標３，１７２に対応する
位置から登録値Ｉ₁を取り出す（ステップＳ３３）。こ
こでは、Ｉ₁はＢＡＳＥ５２の大きさより大きく、図２
０のＢＡＳＥ′５５の追番を表していることが分かる。

【０１０９】さらに、Ｉ₁は分類方法Ｂに対応している
ことが分かるため、分類部５７は、入力漢字“王”の第
２バイトの第２ビットと第３ビットを調べ、分類方法Ｂ
に従って分類する（ステップＳ３５）。その結果、この
漢字は、図１６の部類αに属することが分かる。

【０１１０】そこで、文字列探索装置は、図２０のＢＡ
ＳＥ′５５上で、追番Ｉ₁と部類αに対応する位置から
変位量ｄ₁を取り出し（ステップＳ３６）、登録位置計
算部６１は、変位量ｄ₁に入力漢字“王”の内部表現値
１，６０３を加算して、図１９のＣＨＥＣＫ６２上の登
録位置を求める（ステップＳ３７）。そして、照合部７
３は、その位置に登録された数値を“大”の指標３，１
７２と比較する（ステップＳ３９）。

【０１１１】ここでは、入力漢字“王”に対応する登録
位置に、“大”の指標３，１７２が登録されているた
め、熟語“大王”がトライ辞書に登録されていることが
分かる。そこで、“大王”を新たな語頭Ｗとして設定し
（ステップＳ４０）、より長い文字列が登録されている
かどうかを調べる。

【０１１２】語頭“大”に続いて他の漢字“概”、
“円”、“家”、“河”、“火”、“学”、“会”、お
よび“器”が入力された場合も、同様にして２文字熟語
が認定され、それが新たな語頭Ｗとして設定される。ま
た、語頭Ｗが２文字以上の漢字である場合も、同様にし
て文字列探索が行われる。

【０１１３】ここで、ＢＡＳＥとＣＨＥＣＫの大きさを
それぞれ６４，０００ワードとし、ＢＡＳＥ′の追番の
個数を５００とし、部類の最大数を４とした場合を考え
る。このとき、ＢＡＳＥ′に格納する各変位量を１ワー
ドとすると、ＢＡＳＥ′として必要な記憶容量は２，０
００ワードとなり、これはＢＡＳＥとＣＨＥＣＫを合わ
せた記憶容量の１／６４に過ぎない。一方、従来の登録
方法でＢＡＳＥとＣＨＥＣＫを拡大した場合、必要とな
る記憶容量の増分ははるかに大きいと推定される。

【０１１４】しかし、本発明の分類登録を用いることに
より、従来の登録方法では埋められなかった配列の空き
領域を効率よく埋めることが可能になり、ダブル配列の
記憶容量の増大が適度に抑えられる。しかも、探索時に
は、分類登録された文字の場合に限ってＢＡＳＥ′を参
照するステップが１つ増えるだけであり、全体の処理ス
テップ数はほぼ同じである。したがって、ダブル配列を
用いた探索の高速性は、ほとんど損なわれない。

【０１１５】以上説明した実施形態においては、２文字
以上の漢字熟語を分類登録の対象としているが、同様に
して、平仮名、片仮名、英数字等を含む任意の文字列を
分類登録することが可能である。さらに、文字列の言語
としては、日本語と中国語に限られず、韓国語等の他の
アジア諸国語や、英語、独語、仏語等の欧米諸国語を含
む任意の言語を用いることができ、文字コードとして
は、任意のコードを用いることができる。

【０１１６】ところで、図１３および図２３の文字列探
索装置は、図２５に示すような情報処理装置（コンピュ
ータ）を用いて構成することができる。図２５の情報処
理装置は、ＣＰＵ（中央処理装置）８１、メモリ８２、
入力装置８３、出力装置８４、外部記憶装置８５、媒体
駆動装置８６、およびネットワーク接続装置８７を備
え、それらはバス８８により互いに接続されている。

【０１１７】メモリ８２は、例えば、ＲＯＭ（read onl
y memory）、ＲＡＭ（random access memory）等を含
み、処理に用いられるプログラムとデータを格納する。
ＣＰＵ８１は、メモリ８２を利用してプログラムを実行
することにより、必要な処理を行う。

【０１１８】入力装置８３は、例えば、キーボード、ポ
インティングデバイス、タッチパネル等であり、ユーザ
からの指示や情報の入力に用いられる。出力装置８４
は、例えば、ディスプレイやプリンタ等であり、ユーザ
への問い合わせ、処理結果等の出力に用いられる。

【０１１９】外部記憶装置８５は、例えば、磁気ディス
ク装置、光ディスク装置、光磁気ディスク（magneto-op
tical disk）装置等である。この外部記憶装置８５に、
上述のプログラムとデータを保存しておき、必要に応じ
て、それらをメモリ８２にロードして使用することもで
きる。

【０１２０】媒体駆動装置８６は、可搬記録媒体８９を
駆動し、その記録内容にアクセスする。可搬記録媒体８
９としては、メモリカード、フロッピーディスク、ＣＤ
−ＲＯＭ（compact disk read only memory ）、光ディ
スク、光磁気ディスク等、任意のコンピュータ読み取り
可能な記録媒体が用いられる。この可搬記録媒体８９に
上述のプログラムとデータを格納しておき、必要に応じ
て、それらをメモリ８２にロードして使用することもで
きる。

【０１２１】ネットワーク接続装置８７は、ＬＡＮ（lo
cal area network）等の任意のネットワーク（回線）を
介して外部の装置と通信し、通信に伴うデータ変換を行
う。また、必要に応じて、上述のプログラムとデータを
外部の装置から受け取り、それらをメモリ８２にロード
して使用することもできる。

【０１２２】図２６は、図２５の情報処理装置にプログ
ラムとデータを供給することのできるコンピュータ読み
取り可能な記録媒体を示している。可搬記録媒体８９や
外部のデータベース９０に保存されたプログラムとデー
タは、メモリ８２にロードされる。そして、ＣＰＵ８１
は、そのデータを用いてそのプログラムを実行し、必要
な処理を行う。

【０１２３】

【発明の効果】本発明によれば、トライ辞書の空き領域
を利用して、漢字熟語等の文字列を効率よく登録するこ
とができ、辞書のデータ構造が圧縮される。また、ダブ
ル配列のトライ辞書を利用した探索の高速性を損なうこ
となく、辞書の記憶容量を削減することができる。

【図面の簡単な説明】

【図１】本発明の文字列探索装置の原理図である。

【図２】７ビットコードの領域を示す図である。

【図３】８ビットコードの領域を示す図である。

【図４】分類方法Ａを示す図である。

【図５】分類方法Ｂを示す図である。

【図６】分類方法Ｃを示す図である。

【図７】分類方法Ｄを示す図である。

【図８】分類方法Ｅを示す図である。

【図９】分類方法Ｆを示す図である。

【図１０】分類方法Ｇを示す図である。

【図１１】分類方法Ｈを示す図である。

【図１２】文字間の幅が大きい場合を示す図である。

【図１３】登録時の構成を示す図である。

【図１４】語頭登録部の登録内容を示す図である。

【図１５】ＢＡＳＥを示す図である。

【図１６】部類αを示す図である。

【図１７】部類βを示す図である。

【図１８】部類γを示す図である。

【図１９】部類毎の変位量の算出を示す図である。

【図２０】ＢＡＳＥ′を示す図である。

【図２１】登録処理のフローチャートである。

【図２２】分類処理のフローチャートである。

【図２３】探索時の構成を示す図である。

【図２４】探索処理のフローチャートである。

【図２５】情報処理装置の構成図である。

【図２６】記録媒体を示す図である。

【図２７】ダブル配列を示す図である。

【図２８】ダブル配列に対応するトライを示す図であ
る。

【図２９】トライにおける親子関係を示す図である。

【図３０】ダブル配列による探索を示す図である。

【図３１】漢字の追加登録を示す図である。

【図３２】ダブル配列の拡大を示す図である。

【図３３】トライの拡大を示す図である。

【符号の説明】

１第１の配列手段２第２の配列手段３第３の配列手段４探索手段１１、１２、２１、２２、２３、２４、２５、２６、２
７、２８、２９、３０、３１、３２、３３、３４、３
５、３６、３７、３８、３９、４０、４１、４２、４
３、４４、４５、４６、４７、４８領域５１頻出漢字一覧表５２ＢＡＳＥ配列５３語頭登録部５４語頭選択部５５ＢＡＳＥ′配列５６熟語辞書５７分類部５８分類結果格納部５９変位量計算部６０変位量格納部６１登録位置計算部６２ＣＨＥＣＫ配列７１文書入力部７２判定部７３照合部８１ＣＰＵ８２メモリ８３入力装置８４出力装置８５外部記憶装置８６媒体駆動装置８７ネットワーク接続装置８８バス８９可搬記録媒体９０データベース

───────────────────────────────────────────────────── フロントページの続き (56)参考文献青江順一，ダブル配列による高速ディジタル検索アルゴリズム，電子情報通信学会論文誌Ｄ，日本，社団法人電子情報通信学会，1988年９月25日，ＶＯＬ．Ｊ71−ＤＮｏ．９，第1592頁乃至第1600頁新版情報ハンドブック，日本，株式会社オーム社，1995年11月25日，第１版，第1572頁乃至第1574頁増井俊之，効率の良いトライ／状態遷移機械の構成方式，情報処理学会研究報告，日本，社団法人情報処理学会，1994 年１月21日，第94巻第７号，第73頁乃至第80頁 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/30 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】登録文字列の中から与えられた文字列を
探索する文字列探索装置であって、複数の文字が連なる語頭の指標を添字として、該語頭に
対応する追番を登録する第１の配列手段と、前記語頭に対応する追番を添字として、該語頭に連なる
複数の文字を分類して得られる複数の部類の各々に対応
する変位量を登録する第２の配列手段と、前記変位量と前記語頭に連なる文字の値の和を添字とし
て、該語頭の指標を登録する第３の配列手段と、前記第１、第２、および第３の配列手段を用いて、前記
与えられた文字列を探索する探索手段とを備え、語頭に連なる１つ以上の文字を分類しないで登録する場
合、前記第１の配列手段は、該１つ以上の文字が連なる
語頭の指標を添字として、該１つ以上の文字に共通する
変位量を登録し、前記第３の配列手段は、該１つ以上の
文字に共通する変位量と該１つ以上の文字の値の和を添
字として、該１つ以上の文字が連なる語頭の指標を登録
し、前記探索手段は、該第１の配列手段に登録された値
が追番と変位量のいずれであるかを識別する識別手段を
含むことを特徴とする文字列探索装置。
【請求項２】前記第１の配列手段は、前記語頭に連な
る複数の文字の数が所定値以上のとき、前記語頭に対応
する追番を登録することを特徴とする請求項１記載の文
字列探索装置。
【請求項３】前記第１の配列手段は、前記語頭に連な
る複数の文字の値の範囲が所定値以上のとき、前記語頭
に対応する追番を登録することを特徴とする請求項１記
載の文字列探索装置。
【請求項４】前記第２の配列手段の添字に対応する追
番を添字として、前記語頭を登録する語頭登録手段をさ
らに備えることを特徴とする請求項１記載の文字列探索
装置。
【請求項５】前記変位量と前記語頭に連なる文字の値
を加算する計算手段をさらに備え、前記第１の配列手段
は、該変位量と該語頭に連なる文字の値の和を次の語頭
の指標として用いることを特徴とする請求項１記載の文
字列探索装置。
【請求項６】前記語頭に連なる複数の文字を分類し
て、前記複数の部類を求める分類手段をさらに備えるこ
とを特徴とする請求項１記載の文字列探索装置。
【請求項７】前記与えられた文字列が前記語頭を含
み、該語頭に続いて次の文字が入力されたとき、前記分
類手段は、該次の文字に対応する部類を求め、前記探索
手段は、前記第１の配列手段に登録された追番を用い
て、該次の文字の部類に対応する変位量を前記第２の配
列手段から取り出し、前記第３の配列手段内で、取り出
された変位量と該次の文字の値の和を添字とする位置
に、前記語頭の指標が登録されているかどうかを調べる
ことを特徴とする請求項６記載の文字列探索装置。
【請求項８】前記分類手段は、前記語頭に連なる複数
の文字のコードに含まれる１つ以上のビットの値によっ
て、該複数の文字を分類することを特徴とする請求項６
記載の文字列探索装置。
【請求項９】前記分類手段は、２つ以上の分類方法の
中から、得られた各部類に含まれる文字の個数の偏りが
最も小さい分類方法を採用することを特徴とする請求項
６記載の文字列探索装置。
【請求項１０】前記第１の配列手段は、前記分類手段
が採用した分類方法に対応する追番を、前記語頭に対応
する追番として登録することを特徴とする請求項９記載
の文字列探索装置。
【請求項１１】前記複数の部類の各々に対応して、各
部類に含まれる１つ以上の文字を前記第１および第３の
配列手段に登録するための変位量を計算する計算手段を
さらに備えることを特徴とする請求項１記載の文字列探
索装置。
【請求項１２】前記計算手段は、各部類に含まれる前
記１つ以上の文字の値に任意の加算値をそれぞれ加算
し、得られた１つ以上の和のすべてが前記第３の配列手
段内の空き位置に対応するような加算値を求め、得られ
た加算値のうち最小の加算値を前記変位量として求める
ことを特徴とする請求項１１記載の文字列探索装置。
【請求項１３】登録文字列の中から与えられた文字列
を探索するコンピュータのためのプログラムを記録した
記録媒体であって、前記与えられた文字列の語頭に続いて次の文字が入力さ
れたとき、該語頭の指標を添字として、第１の配列を参
照するステップと、前記第１の配列手段に登録された値が、前記語頭に対応
する追番と前記語頭に連なる１つ以上の文字に共通する
変位量のいずれであるかを識別するステップと、前記登録された値が追番である場合、前記語頭に連なる
複数の文字を分類して得られる複数の部類のうち該次の
文字に対応する部類を求め、該追番を添字として、該複
数の部類の各々に対応する変位量を登録した第２の配列
を参照し、該次の文字の部類に対応する変位量を求め、
第３の配列を参照し、得られた変位量と該次の文字の値
の和を添字とする位置に前記語頭の指標が登録されてい
るかどうかを調べるステップと、前記登録された値が変位量である場合、前記第３の配列
を参照し、該変位量と前記次の文字の値の和を添字とす
る位置に前記語頭の指標が登録されているかどうかを調
べるステップとを含む処理を前記コンピュータに実行さ
せるためのプログラムを記録したコンピュータ読み取り
可能な記録媒体。
【請求項１４】登録文字列のデータを記録した記録媒
体であって、複数の文字が連なる語頭の指標を添字として、該語頭に
対応する追番を登録した第１の配列データと、前記語頭に対応する追番を添字として、該語頭に連なる
複数の文字を分類して得られる複数の部類の各々に対応
する変位量を登録した第２の配列データと、前記変位量と前記語頭に連なる文字の値の和を添字とし
て、該語頭の指標を登録した第３の配列データとを含
み、語頭に連なる１つ以上の文字を分類しないで登録する場
合、前記第１の配列データは、該１つ以上の文字が連な
る語頭の指標を添字として、該１つ以上の文字に共通す
る変位量を登録し、前記第３の配列データは、該１つ以
上の文字に共通する変位量と該１つ以上の文字の値の和
を添字として、該１つ以上の文字が連なる語頭の指標を
登録し、前記登録文字列の中から与えられた文字列を探
索する際に該与えられた文字列の語頭に続いて次の文字
が入力されたとき、該語頭の指標を添字として該第１の
配列データを参照して、該第１の配列データに登録され
た値が追番と変位量のいずれであるかが識別され、該登
録された値が追番である場合、前記複数の部類のうち該
次の文字に対応する部類が求められ、該追番を添字とし
て前記第２の配列データを参照して、該次の文字の部類
に対応する変位量が求められ、該第３の配列データを参
照して、得られた変位量と該次の文字の値の和を添字と
する位置に該語頭の指標が登録されているかどうかが調
べられるような、前記登録文字列のデータを記録したコ
ンピュータ読み取り可能な記録媒体。
【請求項１５】登録文字列の中から与えられた文字列
を探索する文字列探索方法であって、複数の文字が連なる語頭の指標を添字として、該語頭に
対応する追番を第１の配列に登録し、前記語頭に対応する追番を添字として、該語頭に連なる
複数の文字を分類して得られる複数の部類の各々に対応
する変位量を第２の配列に登録し、前記変位量と前記語頭に連なる文字の値の和を添字とし
て、該語頭の指標を第３の配列に登録し、語頭に連なる１つ以上の文字を分類しないで登録する場
合、該１つ以上の文字が連なる語頭の指標を添字とし
て、該１つ以上の文字に共通する変位量を前記第１の配
列手段に登録し、該１つ以上の文字に共通する変位量と
該１つ以上の文字の値の和を添字として、該１つ以上の
文字が連なる語頭の指標を前記第３の配列手段に登録
し、前記与えられた文字列の語頭に続いて次の文字が入力さ
れたとき、該語頭の指標を添字として、前記第１の配列
を参照し、前記第１の配列手段に登録された値が、前記語頭に対応
する追番と前記１つ以上の文字に共通する変位量のいず
れであるかを識別し、前記登録された値が追番である場合、前記複数の部類の
うち該次の文字に対応する部類を求め、該追番を添字と
して前記第２の配列を参照し、該次の文字の部類に対応
する変位量を求め、前記第３の配列を参照し、得られた
変位量と該次の文字の値の和を添字とする位置に前記語
頭の指標が登録されているかどうかを調べ、前記登録された値が変位量である場合、前記第３の配列
を参照し、該変位量と前記次の文字の値の和を添字とす
る位置に前記語頭の指標が登録されているかどうかを調
べることを特徴とする文字列探索方法。