JP2683870B2

JP2683870B2 - 文字列検索システム及び方法

Info

Publication number: JP2683870B2
Application number: JP6108186A
Authority: JP
Inventors: 伸泰伊東
Original assignee: IBM Japan Ltd
Current assignee: IBM Japan Ltd
Priority date: 1994-05-23
Filing date: 1994-05-23
Publication date: 1997-12-03
Anticipated expiration: 2012-12-03
Also published as: US5655129A; JPH07319900A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、トライ（ＴＲＩＥ）と
呼ばれる木構造の辞書を検索する手法に関わり、特にあ
いまいさを含む文字列を入力とした同構造の辞書検索に
関する。

【０００２】

【従来の技術】従来より、ある文字列に対して、それに
関する情報を辞書から検索するという作業はデータ処
理、特にテキスト処理、言い換えれば綴り訂正、かな漢
字変換、キーワード検索などで非常に多く行われる。そ
れだけに辞書のデータ構造および検索の手法はそれらの
処理における速度を決定するもっとも大きな要因とな
る。従って、高速な検索が実現でき、かつ空間的なコス
トが受け入れ可能な程度に低い構造・手法が望まれる。

【０００３】このために提案された手法の中できわめて
よく用いられるデータ構造にトライと呼ばれるものがあ
る。これは木構造の１種で辞書引きに要する時間がほと
んど入力文字列長のみにしか依存せず、かつデータ圧縮
率も比較的よいことが知られている。この構造に関して
はＫｎｕｔｈＤ．Ｅ．著、" ＴｈｅＡｒｔｏｆＣ
ｏｍｐｕｔｅｒＰｒｏｇｒａｍｍｉｎｇ，Ｖｏｌ．
３，ＳｏｒｔｉｎｇａｎｄＳｅａｒｃｈｉｎｇ，Ｃｈ
ａｐｔｅｒ６，Ａｄｄｉｓｏｎ−Ｗｅｓｌｅｙ，１９
７３" に開示されている。

【０００４】図１にカナ姓名を例としたトライ構造辞書
の概略を示す。先頭が'マ'である姓名（仮にマツシタ、
マツキ、マツダ、マスダ、およびマツシマという５個の
姓名からなるとしている）に相当する部分を示した例が
図１（Ａ）である。

【０００５】先頭からみた左部分列が一致する単語は１
つにまとめられ、１文字が１ノードに対応する木構造で
表現される。１つの部分列に後続し得る文字集合は親ノ
ード（当該左部分列の末尾文字に対応するノード）から
子リンクにより結ばれ、文字集合の各要素は兄弟リンク
により結ばれる。この図の例ではまずルートノード１０
の子リンクを介して単語の先頭となり得る文字集合が兄
弟リンクで結ばれ、リストを構成している。次に先頭文
字「マ」に後続し得る文字集合（ここでは「ス」および
「ツ」）に対応して「マ」の子リンク１０の先にノード
１３、１４が兄弟リンク１２を介して存在する。これは
言い換えれば左部分列「マ」をもつ単語の先頭２文字が
ノード１１を親、１３、１４を子とする木構造にまとめ
られていることになる。ノード１４の子リンク１５の先
には左部分列「マツ」に後続し得る文字集合である
「キ」「シ」「ダ」の３文字に対応するノードが存在し
兄弟リンク１６および１７により結ばれている。このよ
うにトライとは単語集合を文字に対応したノードとその
間を結合する子・兄弟リンクにより表現したものであ
る。

【０００６】検索は最初に入力文字列の先頭文字を取り
出し、辞書のルートノードから子リンクで結ばれている
文字集合に一致するものを探索する作業から始まる。つ
まり兄弟リンクを順にたどりながら入力文字と辞書のノ
ード（に対応する文字）との比較を行い、一致すればそ
のノードの子リンクをたどって次の入力文字と後続文字
文字集合との比較に移る。一致しない場合はさらに兄弟
リンクをたどって一致する文字を探索するということに
なる。非常に大きなトライでは兄弟リンクが長くなり、
その探索に時間を要することがあるが、その場合は先頭
何文字かによるハッシュと併用することが多い。また１
つの先頭文字またはハッシュ値に対応する単語集合（部
分木）を連続した領域に格納すればトライが外部記憶に
存在してもランダムアクセスの回数は比較的少なく高速
性を大きく損なうことはない。したがって兄弟リンクが
極端に長くならない限り、単語長が明らかでない場合で
も、すべての長さの単語を高速に検索できる。

【０００７】尚、以下では、検索文字列を、場合によっ
て文字候補ラティスと称することにする。その意味は、
例えば、[マアラカク]ツ[シミ][ア-コ]というような正
規表現を例にとることによって説明される。すなわち、
[マアラカク]ツ[シミ][ア-コ]というような正規表現に
おいて、個別且つ順次的に一致する文字をあらわす[マ
アラカク]、ツ、[シミ]、[ア-コ]の各々はカラムと呼ば
れるが、明らかに個々のカラムは、単一の文字のみなら
ず、複数の文字を指定し得る。そこで、カラムにおいて
一致し得る文字を縦方向に延ばし、カラムの並びを横方
向に延ばすと、２次元的な広がりが得られる。これが、
ラティス（格子）と呼ばれる理由である。

【０００８】ところで、上記の説明は確定した文字列の
検索についてであったが、上記で定義した文字候補ラテ
ィスを用いて、１つのカラムに複数文字の可能性がある
か不明、言い換えれば任意の文字にマッチするワイルド
カード文字であるなど、入力文字列にあいまい性がある
場合を考えてみる。文字認識の結果やユーザーが綴りを
正確に覚えておらずあいまい検索をしたい場合など実際
のアプリケーションではこのような入力に対する検索要
求は非常に多い。これらは一般に正規表現で表す事がで
きる。例えば１文字目が「マ」か「ヤ」で二文字目が不
明、その後に「シタ」が続く正規表現は「[マヤ]？シ
タ」となる。トライで表現された辞書検索でこのような
入力を受付けるには・複数の可能性がある場合にはそのそれぞれについて、
兄弟リンクをたどり、存在した場合子リンクをたどって
次カラムの文字比較を並列して行う。・すべての文字にマッチするワイルドカードの場合は当
該文字集合のすべてについて子リンクをたどり次カラム
の文字比較を行う。という作業を行うことになる。

【０００９】いま仮にあるカラム iで入力文字にn[i]個
の可能性があり、辞書でカラム iに対応するネストにお
いて１ノードあたりN[i]個の文字が存在するとすると、
カラムiでの作業量T[i]は

【数１】T[i] = F[i-1] × n[i] × E(N[i]) (入力文字が'？'ではない場合) = F[i-1] × E(N[i]).........(1) (入力文字が'？'の場合) に比例した値となる。

【００１０】ただしF[i-1]はi-1カラムからiカラムに移
動するときの分岐数つまりたどった子リンクの数、E(x)
はxの期待値である。さらにiカラムにおける分岐数F[i]
は文字比較を行った中でどの程度一致してその先に進む
かという数なので厳密には各文字のカラム別頻度に依存
する。仮にその頻度がほぼ一定であるとすると直前の分
岐数(F[i-1])と入力文字列において当該カラムに相当す
る文字数(n[i])、それに辞書中現ノードに接続する文字
数の期待値を全文字カテゴリー数（Nc）で割ったもの
（一致率）の積に比例すると考えられるので次のように
表現できる。

【数２】 F[i] = n[i]/Nc × E(N[i]) × F[i-1].........(2)
ただし F[0] = 1

【００１１】これらの式から明らかなように作業量T[i]
は分岐数の順次的な積、F[0]×F[1]×・・・×F[i-1]に
比例し、従って、トータルな作業量はこの分岐数F[i]を
いかに削減できるかに依存する。尚、式(2)において、n
[i]は、検索文字列ラティスのみに依存する値であり、
一方、E(N[i])は、トライ構造のみに依存し、検索文字
列ラティスとは独立な値であることに留意されたい。

【００１２】

【発明が解決しようとする課題】上記考察から明らかな
ように、トライ構造の辞書を検索しようとすると、入力
文字列の接頭部でワイルドカードであったり、多くの可
能性がある場合分岐数(F[i])が大きく、そのすべてを探
索しなければならないため結果として極めて大きな作業
量となる。つまり「マツシ？」から「マツシタ」、「マ
ツシマ」を検索することは比較的高速に行えるが、逆に
「？[ツマ]シタ」から「マツシタ」、「ヤマシタ」とい
った単語を検索するには極めてコストがかかってしま
う。これはハッシュ方式を併用しても（その計算式がそ
の接頭部に依存している限り）まったく同じであり、や
はりすべての可能性（ハッシュ値）に対応する部分木の
すべてを探索しなければならない。

【００１３】従って、この発明の目的は、入力文字列の
接頭部にワイルドカードまたは多くの候補文字を有する
ような検索文字列に対しても高速の検索を可能ならしめ
るトライ構造の辞書、及びその検索方法を提供すること
にある。

【００１４】

【課題を解決するための手段】上記問題点を解決する単
純な手段は、ワイルドカード（「？」）も１つのシンボ
ルとして、元の表記を「？」に置き換えた文字列を単語
としてあらかじめ登録しておくことである。たとえば
「マツシタ」という単語に対して「？ツシタ」や「マ？
シタ」という文字列も登録し、その単語に対応するトラ
イの先に単語属性と同時にワイルドカードが代表してい
る文字集合をリストで保持しておけば、当該入力の検索
を十分高速に行うことが可能となる。ところがこの方式
では１つの単語についてあらゆる入力の可能性を考えた
派生パターンをあらかじめ登録しておかねばならず、空
間的コストが無視できない。実際、長さ L文字の単語か
ら任意個の文字をワイルドカードに置き換えた派生パタ
ーンは、

【数３】 (C[L,r]はL個からr個とる組み合わせの数)個となり、 L
が十分小さい単語のみからなる辞書でない限り許容でき
ない。またこの手法では接頭部がワイルドカードではな
く、きわめて多くの可能性がある入力（例「[マアイウ
エ...]ツシタ」)に対してなんら改善にならない。

【００１５】式（２）からわかるように、分岐数F[i]は
辞書における各ノードの分岐、つまり兄弟リンクで結ば
れた後続文字の期待値E(i)に依存するがこの値は＜通常
の辞書の場合最初大きく、階層数すなわちiが大きくな
るにつれ極めて早い速度で減少する。たとえば片仮名表
記した約２９０００語からなる日本人の姓辞書をトライ
構造で作成したところ、表１のような結果が得られた。

【表１】

【００１６】従って、トライ構造の辞書では入力の分岐
数n[i]と辞書側の分岐数 E(N[i])がともに大きくならな
いような構造と検索手法を考える必要がある。

【００１７】本発明は、上記の点に鑑みなされたもので
あり、単語文字列（長さＬ）の先頭から、Ｍ個の文字を
取り出した部分列を用いてその末尾をルートノードとす
る逆方向トライを作成しておき、入力文字が少数に確定
している部分列から接頭部を確定し、あらためて本来の
トライを探索することにより、必要な空間的コスト（辞
書サイズ）と探索コスト（検索時間）のバランスをとる
ことを意図するものである。

【００１８】

【実施例】本発明の実施例を、図１乃至図４を用いて説
明する。図３は本発明の候補文字ラティス辞書検索装置
の全体的な機能構成とデータの流れを示したものであ
る。

【００１９】さて、まず入力である候補文字ラティス
は、例えばＰＳ／５５（ＩＢＭの商標）であるパーソナ
ル・コンピュータに接続されたキーボード（図示しな
い）、磁気ディスク装置などの入力装置３０７から入力
された後、コンピュータの主記憶上に在駐する制御プロ
グラムである入力手段３０１の制御によって、例えばコ
ンピュータの主記憶上にある制御ルーチンである候補文
字ラティス記憶手段３０２により、コンピュータの主記
憶上の所定の領域に、候補文字ラティス３０８として記
憶される。候補文字ラティス記憶手段３０２はこの後、
必要に応じて候補文字ラティス３０８を参照に供する
か、または転送する。図３に示されているように、入力
手段３０１は、必要に応じて、磁気ディスクなどの持久
的記憶手段（図示しない）に接続された入力装置３０７
を介して、磁気ディスク中に記憶されているファイルの
特定の内容を、候補文字ラティス記憶３０８に格納す
る、という制御も行う。やはりコンピュータの主記憶上
にある制御ルーチンである検索作業量推定手段３０３
は、候補文字ラティスとトライ辞書作成時に得られ、磁
気ディスクなどの持久的記憶手段（図示しない）などに
保持されている平均分岐数のデータ３０９から辞書検索
の作業量が小さくなることが期待できる検索開始位置を
算出する。

【００２０】この検索作業量推定手段３０３と平均分岐
数の概念が本発明の骨子をなすものであり、後に詳しく
説明する。コンピュータの主記憶上にある制御ルーチン
であるトライ辞書選択手段３０４が、算出された開始位
置に対応したトライ辞書を選択すると、コンピュータの
主記憶上にある制御ルーチンであるトライ辞書検索手段
３０５により当該トライ辞書３１０乃至３１１が検索さ
れ、その検索結果３１２が、主記憶の所定の領域または
磁気ディスクなどの持久的記憶手段（図示しない）に書
き込まれる。やはりコンピュータの主記憶上にある制御
ルーチンである検索結果出力手段３０６は、その検索結
果３１２を、コンピュータに接続されたＣＲＴ装置など
の出力装置３１３に送り、ユーザーに対し表示すること
になる。

【００２１】ここで「？ツシタ」という入力を考えてみ
る。前記表１によれば、この入力では１文字目で４４の
分岐がありそのすべてについて２文字目の探索、つまり
子リンクをたどって文字比較を行う必要がある。しかし
逆方向に「タシツ？」と検索を行えば分岐は大きく減少
することが期待できる。これはもっとも極端な例ではあ
るが、トライ構造の辞書を高速に検索するためには入力
側の文字数と辞書側における分岐数期待値の積（E(N
[i])× n[i]）が小さくなるような順序を選べばよいこ
とは明らかである。任意の順序とはいってもそのすべて
に対応したトライ構造辞書を作成すると辞書サイズが大
きくなり過ぎるので図１（Ｂ）に示すように単語の先頭
Ｍ文字を取り出した部分列の末尾から逆方向のトライを
作成することにする。

【００２２】［順方向トライ辞書の作成］図２を参照し
て、トライ構造作成の過程を説明する。いま図１（Ａ）
に示すトライ構造が作成されていたとして、そこに辞書
に存在しない「マスモト」という単語を追加登録するこ
とを考える。まずルートノードの子リンク２０につなが
る先頭文字集合２１の兄弟リンクを順にたどって追加す
べき単語の先頭文字である「マ」を探索する。「マ」は
ノード２２で見つかるのでその子リンク２３をたどっ
て、次の文字である「ス」を探索する。つまり単語を追
加する過程は追加すべき単語の先頭部分列に一致する各
ノードが存在する限りは辞書を検索する過程と同一であ
る。この場合２文字目の「ス」もノード２４に存在し、
その子リンクをたどって次の文字集合と３文字目の
「モ」を比較することになる。ところが「ス」の子リン
ク２５につながる文字集合には「ダ」しか存在せず探索
が失敗する。辞書検索ならば該当する単語が存在しない
ことがわかった時点で終了することになるが単語追加の
場合は検索が失敗した文字集合に兄弟リンク２６を追加
し、その先に存在しなかった文字「モ」に対応するノー
ド２７を作成する。そして同ノードから子リンク２８を
延ばし後続文字「ト」に対応するノード２９を作成する
ことになる。もし単語の文字がさらに続いているなら
ば、それが終了するまで１文字づつ取り出し、子リンク
の延長とノード作成を繰り返せばよい。

【００２３】同構造辞書は与えられた単語集合のそれぞ
れについてこのような追加登録を繰り返すことによって
得られる。つまり最初の段階ではルートノードのみが存
在する辞書に単語を登録し、得られたトライ構造辞書に
次の単語を追加するという作業を単語の数だけ繰り返す
のである。トライ構造は登録されるたびにノードを増や
すことによって、すべての登録単語に対応できることに
なる。このようにして作成され、また必要に応じて単語
の追加が行われる順方向トライ辞書３１０は、コンピュ
ータに接続された、磁気ディスク記憶装置（ＤＡＳＤ）
（図示しない）または光磁気ディスク装置（図示しな
い）などの読み書き可能な記憶媒体に、持久的且つ書き
換え可能に記憶され、図３に示すように、実際の検索時
に、トライ辞書選択手段３０４によってアクセスされ
る。

【００２４】［逆方向トライ辞書の作成］逆方向トライ
辞書の作成過程は、順方向トライ辞書の作成過程と原理
的には同一であるが、逆方向トライ辞書の作成ではまず
各単語について、すべての左部分列の逆順文字列を得る
必要がある。「マツシタ」という単語ならば左部分列、
およびその逆順の文字列として、以下の表２が得られ
る。

【表２】 --------------------------------- 長さ左部分列逆順文字列 --------------------------------- 2 マツツマ 3 マツシシツマ 4 マツシタタシツマ ---------------------------------

【００２５】すべての単語についてこのような逆順部分
文字列を作成し、同一長のものから逆方向トライ辞書を
作成する。図１（Ｂ）では（Ａ）で示した部分木（単語
集合）に対応する３文字逆方向トライ辞書のみを示して
いるが、実際には「タケシタ」から取り出した３文字逆
順部分列「シケタ」などすべての姓単語から取り出した
当該長さの逆順部分文字列から構成されている。このよ
うに本来のトライ辞書に加え上述の逆方向トライ辞書を
1,...,M文字左部分列それぞれについて作成し、各トラ
イ辞書の平均分岐数−順方向（E(N[i]): iは先頭文字か
ら数えたカラム数）と逆方向（E(Nb[j]): jは逆順文字
列の先頭、つまり左部分列の末尾から数えたカラム数）
−を、磁気ディスク、光磁気ディスクなどの持久記録媒
体に、平均分岐数データ３０９（図３）として記録す
る。検索実行時にはこの値が全体としての作業量を推定
するデータとなる。正確にはE(Nb[j])はもとになった先
頭部分列により異なると考えられるが、簡単のためには
それらの平均をとればよい。

【００２６】平均分岐数について説明を補足すると、ル
ート・ノードから例えば１００本の枝が延びていたとす
ると、階層１での平均分岐数は、１００／１＝１００で
ある。階層２での平均分岐数を求めるためには、１００
本の枝の各々において、何本の分岐が生じているかを調
べ、それらの分岐数を全て総和し、その総和値を１００
で割る、という処理が行われる。このようにして、トラ
イ構造が許す任意の階層まで、平均分岐数を計算するこ
とが可能である。尚、このとき、平均分岐数は、構成し
たトライ構造のみによって確定される値であることに留
意されたい。

【００２７】このようにして作成され、また必要に応じ
て単語の追加が行われる逆方向トライ辞書３１１は、コ
ンピュータに接続された、磁気ディスク記憶装置（ＤＡ
ＳＤ）（図示しない）または光磁気ディスク装置（図示
しない）などの読み書き可能な記憶媒体に、持久的且つ
書き換え可能に記憶され、図３に示すように、実際の検
索時に、トライ辞書選択手段３０４によって選択的にア
クセスされる。このとき、逆方向トライ辞書３１１は、
順方向トライ辞書３１０とは異なり複数存在し、その各
々は、検索される文字のＭ文字目（Ｍ＝１，２・・・）
の部分列毎に個別に作成され、追加されることに留意さ
れたい。

【００２８】［検索］本節では前節のように作成された
辞書の検索について述べる。検索の第一段階は予想され
る分岐F[i]が小さい部分を探すことである。単語長がま
ったく不定の場合は後に説明するが、最初 M文字以上と
仮定すると、（ａ）式（２）により i=1,...,Mのそれぞれについて分
岐の推定値F[i]を求め、順方向トライを通常の方式で検
索した場合の作業量w[1]を次の式で推定する。

【数４】

【００２９】（ｂ）k=2,...,Mについて、まずkカラム目
から逆方向トライ辞書を探索して接頭部を絞りこみ、接
頭部をそれらで置き換えた後、順方向トライの検索を行
う場合の作業量（w[k]）を次の式で推定する。

【数５】

【００３０】ただし、Fb[i]は式（２）のN[i]をNb[i]で
置き換えた式により計算する。またF[k]を計算する場合
のF[k-1]は Fb[1]を用いる。さらに置き換えた接頭部に
関する分岐は、逆方向トライ辞書をたどった結果絞りこ
まれたものなので少なくともFb[1]よりは小さい。そこ
で上限として当該分岐を Fb[1]で評価している。さら
に、式（３）が引用する式（２）において、E(N[i])及
びE(Nb[i])として、それぞれ、順方向トライ構造及び逆
方向トライ構造が構成された時点で計算されディスクに
記録されている平均分岐数のデータ３０９（図３）が使
用されることに留意されたい。さらに述べるなら、E(N
[i])及びE(Nb[i])は、それぞれ、i番目の階層の平均分
岐数である。

【００３１】（ｃ）w[i] (i=1,...,M)の中で最小のもの
を求め、そのときの iをimとする。

【００３２】（ｄ）カラムimより逆方向トライを探索
し、その後必要ならば順方向トライを探索して辞書検索
を行う。

【００３３】つまり、最初に第iカラム目から始めた場
合の作業量を、各時点に於ける分岐数の和により評価
し、それが最小となるカラムから探索を始めるのが本発
明の技法のキーポイントである。例をあげると [マアラ
カク]ツ[シミ][ア-コ]という文字ラティスの場合、候補
数は前から５，１，２，１０であり、式（３）にしたが
ってw[i]（i=1,...,4）を計算すると順に８．５，７．
８，５．０，２２．２となりw[i]はｉ＝３で最小値をと
る。したがって３文字目から逆方向トライを検索し、そ
の結果確定した部分列のそれぞれについて順方向（つま
り通常の）トライ検索を実施することになる。マ？[シ
ミ][タラ]の場合は２文字目がワイルドカード「？」の
ため候補数は、清音のみの片仮名と仮定すると５０とな
り、同様に計算すると３８．８, １１０．０, ７６．
８, ２２．８で末尾文字から逆方向トライを検索すれば
最大の効率が期待できる。逆方向トライが検索される
と、入力の左im個をとった部分ラティスのうち、検索成
功の可能性がある候補のみからなるものが得られる。言
い換えれば接頭部を検査するだけで、もはや辞書に存在
しないと判明したものが排除されることになる。そして
残った部分ラティスについて、改めて順方向トライを検
索しその結果を得る。もちろんim=1の場合は最初から順
方向トライが検索されるので、重複して順方向トライ辞
書を検索する必要がないことは言うまでもない。以上の
過程をフロー・チャートで示したのが図４である。

【００３４】すなわち、図４のステップ４０１で、本発
明に係る文字検索処理に入り、ステップ４０２では、ユ
ーザーのキーボード操作などによって、ワイルドカー
ド、正規表現を含み得る検索文字列が入力される。

【００３５】ステップ４０３では、制御用の変数imに１
が格納され、別の変数minwには、kを１以上の任意、整
数として、通常、w[k]がとり得ると考えられる値よりも
十分に大きい任意の値（図４では、Largeとして示され
ている）が格納される。

【００３６】ステップ４１０は、本発明における最も重
要な処理を担うものであり、ステップ４１０において、
入来検索文字列の個別のカラム（例えば、[マアラカク]
ツ[シミ][ア-コ]のような検索文字列の場合、[マアラカ
ク]、ツ、[シミ]、及び[ア-コ]が個別のカラムである）
について、処理ステップ４１１、４１２及び４１３が実
行される。

【００３７】すなわち、最初にｋ＝１について、ステッ
プ４１１で、第１カラムにおける順方向トライ辞書の平
均分岐数、及び第１カラムにおける候補文字ラティスの
候補数に基づき、上記式（３）に基づき、作業量w[1]が
計算される。

【００３８】次に、ステップ４１２では、このようにし
て計算されたw[1]と、ステップ４０３で定義されたminw
が比較され、定義により、minwは十分大きく選ばれてい
るので、ｋ＝１に対しては、ステップ４１２での判断は
必ず肯定的になり、従って、ステップ４１３で、minwに
はw[1]が格納されるとともに、imに１が格納される。

【００３９】次に、ｋ＝２についても同様の処理が行わ
れるが、minwには既にw[1]が格納されているので、w[2]
＜ w[1] であるときのみ、ステップ４１３が実行され
る。このようにして、ｋ＝１．．．Ｍについて処理が完
了したとき、imには、最小のw[k]をもつkの値が格納さ
れていることになる。

【００４０】そこで、ステップ４２０では、ステップ４
１０で求められたimに対応する順方向トライ辞書３１０
または逆方向トライ辞書３１１が、トライ辞書選択手段
３０４（図３）により選択され、ステップ４２１ではim
の値に応じて選択された逆トライ辞書が検索されて、そ
の結果、検索が成功した長さimの文字列（集合）がＳに
格納される。

【００４１】ステップ４２２では、imが１かどうかが判
断される。imが１である、ということは、順方向トライ
辞書３１０が選択されて通常のトライ辞書検索が行われ
たことを意味するので、ステップ４２４で直ちに検索結
果を表示し、ステップ４２５で終了する。

【００４２】ステップ４２２での判断が否定的であっ
て、すなわち、imが２以上なら、そのimの長さに対応す
る逆方向トライ辞書３１１が選択されているので、まだ
文字列は部分的にしか検索されておらず、従って、検索
ステップ４２３でＳとしてリストされた長さimの各文字
列毎に、第１カラム目から順方向トライ辞書３１０の検
索が行われる。

【００４３】こうしてステップ４２３で順方向トライ辞
書３１０が検索されて、検索が完了すると、ステップ４
２４で検索結果が表示され、ステップ４２５で処理が完
了される。

【００４４】尚、ここでわれわれは(単語長≦ M)と仮定
しており、カラムimから検索した場合、単語長がimより
小さい単語は明らかに検索から漏れてしまう。したがっ
て長さが Mよりも短い単語は Mを順次小さい値にして、
同様の操作を繰り返すかまたは通常の方式で検索する必
要があることに留意されたい。

【００４５】

【発明の効果】最初に検索時間について、評価してみよ
う。通常の方式で１カラム目から検索した場合の作業量
T_orgは式（１）、（２）より

【数６】となる（f[0]=1でLは平均単語長）。

【００４６】たとえば入力「？ＸＸＸ」（Ｘはワイルド
カードではない文字を表す）に対するこの式の値を、表
１の分岐数と文字カテゴリー数（ここでは清音カナで5
0）から計算すると表３のようになる。

【表３】入力「？ＸＸＸ」(例:「？ツシタ」)に対する作業量 ------------------------------------------------ 分岐f[i-1] 作業量T[i] 分岐f[i] ------------------------------------------------ i=1 1 1 × 44 44 i=2 44 44 × 31.5 0.63 × 44 i=3 27.72 27.72 × 7.9 27.72 × 0.158 i=4 4.38 4.38 × 1.6 ------------------------------------------------ 計約1577

【００４７】一方本手法でカラム kから検索を開始した
場合の作業量T_improvedはL以上の長さをもつ単語の検索
時間（逆方向トライと必要な場合は順方向トライをたど
る作業量）と Lより短い単語を先頭、または末尾から順
次検索する作業量の和であり、簡単のためE(N[i]) = E
(Nb[i])とすれば

【数７】

【００４８】となる。ただし F'[i]は逆方向トライによ
り絞りこまれた後の分岐数、min(x,y)は x,yのより小さ
い方の値を示す。入力「？ＸＸＸ」について表２と同様
の条件でについて計算すると、この場合は明らかにすべ
て最後尾から検索することがもっとも有利であり、 26
9.4が得られる。この場合は1577/269.4 = 5.85となり約
6倍の高速化となることがわかる。一般にE(N[i])の値が
iの増加に対してより急激に減少するほど本手法の効果
が大きくなるので、漢字辞書等においてはより大きい効
果が期待できる。

【００４９】次に本手法で必要とする空間的空間的コス
トを評価する。本手法では本来の辞書である順方向トラ
イに加え、n=2,...,Mのそれぞれに対して逆方向トライ
をもつ必要がある。トライに必要な空間的コストは平均
分岐数E(N[i])を用いて、

【数８】で推定できるので、逆方向トライ辞書に必要な容量は

【数９】となる。M=4としたときこの値は約29900となり、本来の
トライに必要な17520と比較して((29900+17520)/17520=
)約2.7倍であり、十分受け入れ可能なコストである。

【００５０】尚、実施例では逆方向トライ辞書をもっと
も標準的なデータ構造である２分木、言い換えれば子リ
ンクと兄弟リンクにより構成したが、ダブル配列など等
価な情報をもつ別のデータ構造を用いて実現してもよ
い。ダブル配列については青江: ダブル配列による高速
ディジタル検索アルゴリズム，電子通信学会論文誌，Ｊ
７１−Ｄ，９，ｐｐ．１５９２−１６００（１９８
７）に記載がある。

【００５１】また、上記数式（3)は、定数項に関して任
意性があり、例えば数式（3)においてFb[1]の項を省い
ても構わない。

【図面の簡単な説明】

【図１】順方向と逆方向のトライ構造辞書を説明する
図である。

【図２】トライ構造辞書を作成する過程を説明する図
である。

【図３】本発明の候補ラティス文字列辞書検索システ
ムの機能構成を示す図である。

【図４】候補ラティス文字列に対するトライ辞書検索
のアルゴリズムを示すフロー・チャートの図である。

Claims

(57)【特許請求の範囲】

【請求項１】コンピュータの処理に基づきトライ構造辞
書を検索する方法であって、(a) 複数の文字列から順方
向トライ構造辞書を構成し、コンピュータによってアク
セス可能に格納する段階と、(b) 上記トライ構造辞書を
構成する複数の文字列の部分文字列につき、該部分文字
列の最後の文字から始まり該部分文字列の最初の文字で
終わる逆方向トライ構造辞書を、部分文字列の長さ毎に
個別に構成する段階と、(c) 候補文字ラティスを入力す
る段階と、(d) 上記候補文字ラティスがＭ個のカラムか
らなるとしたとき、ｋ＝１・・Ｍについて、第ｋカラム
から逆方向トライ構造の検索を行った場合の作業量を計
算することによって、最小の作業量を示すカラム数ｋを
決定する段階と、(e) 上記段階(d)でカラム数ｋが決定
されたことに応答して、上記候補文字ラティスのカラム
ｋまでの部分列を以て、上記段階(b)で作成された長さ
ｋの逆方向トライ辞書を検索し、その検索結果を保存す
る段階と、(f) 上記段階(e)の検索結果に基づき、上記
順方向トライ構造辞書を検索し、検索結果を表示または
格納する段階を有する、文字列検索方法。
【請求項２】上記段階(a)で構成された順方向トライ辞
書に基づき各々の階層における平均分岐数を予め計算
し、その結果を、コンピュータによってアクセス可能に
格納する段階を有し、上記段階(d)では、各カラムにお
ける分岐数及び該平均分岐数の積の和の値に基づき作業
量を計算することを特徴とする請求項１に記載の文字列
検索方法。
【請求項３】上記候補文字ラティスは、固定文字長の正
規表現によってあらわされている、請求項１に記載の文
字列検索方法。
【請求項４】コンピュータの処理に基づき検索されるト
ライ構造辞書を構成する方法であって、(a) 複数の文字
列から順方向トライ構造辞書を構成し、コンピュータに
よってアクセス可能に格納する段階と、(b) 上記構成さ
れた順方向トライ構造辞書の各階層毎に平均分岐数を計
算してその値を、コンピュータによってアクセス可能に
格納する段階と、(d) 上記トライ構造辞書を構成する複
数の文字列の部分文字列につき、該部分文字列の最後の
文字から始まり該部分文字列の最初の文字で終わる逆方
向トライ構造辞書を、部分文字列の長さ毎に構成する段
階と、(e) 上記構成された逆方向トライ構造辞書の各階
層毎に平均分岐数を計算してその値を、コンピュータに
よってアクセス可能に格納する段階を有する、トライ辞書の構成方法。
【請求項５】コンピュータの処理に基づきトライ構造辞
書を検索するシステムであって、(a) 複数の文字列から
構成され、コンピュータによってアクセス可能に格納さ
れた順方向トライ構造辞書と、(b) 上記トライ構造辞書
を構成する複数の文字列の部分文字列につき、該部分文
字列の最後の文字から始まり該部分文字列の最初の文字
で終わるように、該部分文字列の長さ毎に個別に構成さ
れた逆方向トライ構造辞書と、(c) 候補文字ラティスを
入力する手段と、(d) 上記候補文字ラティスがＭ個のカ
ラムからなるとしたとき、ｋ＝１・・Ｍについて、第ｋ
カラムから逆方向トライ構造の検索を行った場合の作業
量を計算することによって、最小の作業量を示すカラム
数ｋを決定する手段と、(e) 上記最小の作業量を示すカ
ラム数ｋが決定されたことに応答して、上記候補文字ラ
ティスのカラムｋまでの部分列を以て、長さｋの上記逆
方向トライ辞書を検索し、その検索結果を保存する手段
と、(f) 上記保存された検索結果に基づき、上記順方向
トライ構造辞書を検索し、検索結果を表示または記憶手
段に格納する手段を有する、文字列検索システム。
【請求項６】上記順方向トライ辞書の構成に応じて、上
記順方向トライ辞書の各々の階層における平均分岐数を
計算し、その結果を、コンピュータによってアクセス可
能に格納する手段をさらに有し、上記最小の作業量を示
すカラム数ｋを決定する手段は、各カラムにおける分岐
数及び各カラムに対応して予め計算された該平均分岐数
の積の和の値に基づき作業量を計算することを特徴とす
る請求項５に記載の文字列検索システム。
【請求項７】上記候補文字ラティスは、固定文字長の正
規表現によってあらわされている、請求項５に記載の文
字列検索システム。