JPH0793372A

JPH0793372A - 自然言語処理システムおよびｂツリー作成方法

Info

Publication number: JPH0793372A
Application number: JP6055345A
Authority: JP
Inventors: Sherman Richard; リチャード・シャーマン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1993-04-21
Filing date: 1994-03-25
Publication date: 1995-04-07
Also published as: GB9308240D0; GB2277387A; EP0625758A1

Abstract

(57)【要約】【目的】ハッシングとＢツリーのどちらの標準手法で
も、記憶スペースをそれほど非効率的に使用することな
く、計算機に記憶された自然言語に十分な速度でアクセ
スすること。【構成】Ｂツリー２１を使用して、自然言語データを、
たとえば音声認識システムまたは音声合成システムの一
部として記憶する。Ｂツリーは階層として配列され、各
ノードはその下のレベルの２つのノードを指示する。各
ノードはテスト値（単語）と、そのテスト値に関係する
データ（またはデータが維持されている記憶位置への参
照）を含む。データには、ツリーの最上位から開始し、
所望の単語をそのノード用のテスト値と比較することに
よってアクセスする。所望の単語とテスト値の相対アル
ファベット順に応じて、そのノードからの適切なブラン
チをたどる。所望の単語に対応するテスト値が見つかる
まで、ツリーを下降してこのプロセスを続ける。Ｂツリ
ーは、ツリーを下降するにつれて、自然言語におけるテ
スト値の発生頻度がほぼ単調に減少するように配列され
る。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、Ｂツリー構造を含む自
然言語処理システムに関する。

【０００２】

【従来の技術】自動処理のために何らかの形式の単語辞
書を記憶しなければならないアプリケーションが多数あ
る。たとえば、音声応答システムでは、各単語をディジ
タル録音したものをその単語の項目とすることができ
る。したがって、このシステムを使用してテキストの一
節を音声化する場合、テキスト中で各単語が出てくるた
びに辞書が参照され、正しい発音が取り出される。

【０００３】自動音声認識システムでもこれに相当する
状況が発生する。そのようなシステムの第１段で、入力
音声が単語に変換される。しかし、十分明確に発音され
ていないか、あるいは同音異義語に近い語または完全な
同音異義語が存在する（たとえば"too"と"two"、"guess
ed"と"guest"）ために、単語を正確に識別できない場合
が多い。そのような状況では、辞書に保持された追加の
情報を使用する必要がある。たとえば、先行する単語ま
たは何らかの文法モデルに基づいて、候補の単語または
その文脈の相対頻度をテストする。したがって、この例
では、各辞書項目は、他の単語と比較したその単語の頻
度に関する情報を保持することができ、おそらく、通常
のテキストでその項目に通常先行する種類の単語に関す
る情報も保持することができる。たとえば、スペル・チ
ェッカや自動翻訳システムなどで、そのような辞書がや
はり重要となるアプリケーションが他にも多数存在す
る。

【０００４】自然言語（すなわち、通常の意思疎通に使
用される言語）では、単語の数はゆうに数１０万語に及
ぶ（"walk"、"walks"、"walked"、"walking"などの語は
すべて個別の項目が必要である）。このため、計算機に
辞書をどのように記憶するかという技術的問題が発生す
る。前述のアプリケーションの多くは実時間で動作する
必要があるので、特に、個々の辞書項目へのアクセス時
間を最短にする必要がある。

【０００５】データベース記憶に関してはかなりの数の
文献がある。たとえば、Ｃ．Ｊ．デート（Date）著"An
Introduction to Database Systems: Vol 1"、Addison
Wesley、１９９０年（第５版）、Ｈ．Ｆ．コルト（Kort
h）およびＡ．ジルバーシャルツ（Silberschartz）著"D
atabase System Concepts"、McGraw-Hill、１９９１年
（第２版）、Ｎ．ワース（Wirth）著"Algorithms + Dat
a Structures = Programs"、Prentice Hall、１９７６
年が挙げられる。最も一般的に使用されている２つのア
クセス方式は、（ｉ）ハッシング技術および（ii）Ｂツ
リーである。ハッシングでは、レコード（本明細書で
は、レコードは辞書中の項目に対応する）の記憶位置
が、あるキー値の代数的または算術的マッピングによっ
て決定される。この手法は、キー値が仮想キー・スペー
ス中に均等に分布しているときに最も効果的である。た
とえば、従業員番号に基づいて記憶されている１組の従
業員レコードを考えてみる。最大割当て従業員番号まで
の未使用従業員番号が比較的少ない場合、従業員番号を
ハッシュすることによって決定されるメモリ位置に各従
業員レコードを記憶するのが簡単である。そうすれば、
データへのアクセスは極めて高速になる。これは、所与
の従業員番号について、対応する従業員レコードの記憶
位置が、使用しているハッシング技術に基づいてただち
に決定され、それに従ってデータがアクセスされるから
である。

【０００６】しかし、ハッシング法は、可能な単語の利
用可能なスペース内での単語の分布が非常に密集するの
で、言語辞書に適用するのは困難である。たとえば、
（英語では）文字"ｘ"で始まる単語よりも文字"ｓ"で始
まる単語の方がはるかに多いが、標準のハッシング手法
では、両方の頭文字に同数のメモリ位置が割り当てられ
る可能性がある。このため、空メモリ位置または潜在的
衝突あるいはその両方が発生し、記憶スペースの使用が
非常に非効率的になることは明らかである。そのような
状況でハッシング手法を改善する技術が幾つかあるが、
修正は複雑であり、柔軟性をかなり犠牲にしないかぎり
記憶スペースは節約されない。

【０００７】第２の手法は、階層データ構造（「ツリ
ー」）であるＢツリーを使用するものである。階層の最
上位は「ルート・ノード」であり、第１のテスト値を含
む。所望の識別子がテスト値より（たとえば数値で）上
にある場合は、階層の第１ブランチをたどるが、所望の
識別子がテスト値よりも下にある場合は、第２のブラン
チをたどる。これら２つのブランチは、階層内の１つ下
レベルの１対のノードに至る。これらのノードはやはり
それぞれテスト値を含む。このレベルでは各ノードから
１対のブランチが下に延び、したがってツリー全体は４
つのブランチに分かれる。このプロセスはさらに、階層
の最下位まで続く。Ｂツリーのノードを使用して情報自
体を記憶し、またはそのノードに関連データベースへの
ポインタを含め（この場合、Ｂツリーはインデックスと
して効果的に機能する）、あるいはその両方を行うこと
ができる。階層の最下層（「リーフ・ノード」）だけに
そのような情報またはポインタを含むＢツリーもある
が、各ノードに特定のテスト値に適した情報またはポイ
ンタを記憶しているＢツリーもある。

【０００８】図１に、自然言語辞書に関連するＢツリー
１の例を示す。ツリーの最上位にあるルート・ノード２
は"MERINGUE"である。見つけようとする単語が、アルフ
ァベットで"MERINGUE"の前にある場合は、ノード４（"E
NTITY"）へのブランチをたどり、"MERINGUE"の前にない
場合は、ノード６（"SESSIONS"）へのブランチをたど
る。見つけようとする単語が実際には"MERINGUE"自体で
ある場合、ノード２は必要な辞書項目、または該項目が
記憶されている場所を指すポインタを含み、それ以上階
層にアクセスする必要はない。したがって、各ノード
は、そのノードが含むテスト値の情報またはポインタ
（あるいはその両方）を記憶する。図１では階層の多数
の中間層を省略してあるが、１つのブランチについて階
層の下位の２つの層を示してある。ノード１４および１
６（それぞれ"FORMATIVE"および"FORMATIVENESS"）は、
ツリーの最下位にあり、それより下にはブランチはな
い。

【０００９】Ｂツリーの重要な特性は、平衡をとる必要
があることである（実際に、「Ｂツリー」は「平衡ツリ
ー（balanced tree）」の省略形とみなされることが多
い）。すなわち、階層内の各ノードについて、２つの従
属ブランチはほぼ等しい数の下位レベル・ノードを表
す。したがって、図１では、ノード２の"MERINGUE"の前
に辞書項目の半分が存在し、この単語の後に残りの半分
が存在する。同様に、"ENTITY"および"SESSIONS"はそれ
ぞれ、辞書の４分の１の点および４分の３の点を表す。
これによって、ツリーは、ルート・ノードから階層の最
下位にあるノードまでの距離の点で一様な深さを有し、
Ｂツリー内で任意の単語を見つけるために行う必要があ
る比較の平均数を減らすのに役立つ。ツリーにノードを
追加し、ツリーからノード削除する際にＢツリーを平衡
状態に維持するために利用可能な標準アルゴリズムがあ
る（前記文献を参照）。

【００１０】前述のＢツリーは、各ノードが２つのブラ
ンチの間の選択肢を表す単一のテスト値を含むので２進
式であるが、他の形式のＢツリーも可能である。たとえ
ば、３進Ｂツリーでは、各ノードが、（階層の次のレベ
ルで３つの異なるノードに至る）３つの可能なブランチ
の間の選択肢を表す２つのテスト値を含む。そのような
３進Ｂツリーでも、所与のノードからの各ブランチが、
同数の下位レベル・ノードを表すようにすることによっ
て平衡が保たれる。より高いベースに移行すると、Ｂツ
リーの深さが減少し、各ノードにおける処理要件が増大
する。

【００１１】しかし、従来のＢツリーを使用して自然言
語辞書にアクセスする際には、Ｂツリー内の異なる単語
のアクセス頻度が大きく変化するので問題が生じる。頻
繁にアクセスする必要がある"THE"などの非常に一般的
な単語は、おそらく全単語リスト内のその位置に応じて
階層の最下位に配置することができる。これに対し、め
ったに使用されない単語（たとえば、図１の"MERINGU
E"）は、階層の上位にあれば迅速にアクセスされる。

【００１２】他の形式のＢツリーを使用して自然言語テ
キストの一節中の単語の頻度を数える方法は、カーニガ
ン（Kernighan）およびリッチー（Ritchie）著"The C P
rogramming Language"、Prentice Hall、１９８８年
（第２版）、ｐｐ．１３９−１４０に記載されている。
この例では、Ｂツリー構造が、テキスト中で単語に出会
う順序によって決定される。この著者等が認識している
ように、そのような単純な方法では、ツリーの平衡が大
きく崩れる恐れがある。提案されているアルゴリズム
は、大部分のテキストには適していない。

【００１３】

【発明が解決しようとする課題】したがって、本発明の
目的は、ハッシングとＢツリーのどちらの標準手法で
も、記憶スペースをそれほど非効率的に使用せずには、
計算機に記憶された自然言語に十分な速度でアクセスす
ることはできないので、技術的な問題があり、これを解
決することにある。

【００１４】

【課題を解決するための手段】本発明は、各ノードが少
なくとも１つのテスト語を含み、テスト語に関連するデ
ータを記憶または参照し、かつ（階層の最下位のものを
除く）各ノードが、階層の１つ下のレベルにある複数の
ノードを参照する、ノードの階層から形成されたＢツリ
ーを含み、Ｂツリーのブランチを下降する際に、ノード
内のテスト語の自然言語における発生頻度がほぼ単調に
減少するように、ノードが配列されることを特徴とす
る、自然言語処理システムを提供する。

【００１５】そのようなＢツリーは、従来の平衡ツリー
よりも平均アクセス時間がはるかに短いことが分かっ
た。これは、"the"などの極めて一般的な単語が、ツリ
ーの最上位に配置され、したがって非常に迅速にアクセ
スできるからである。従来の平衡ツリーに比べて、ツリ
ー中のレベルの数は一部のブランチでは増加するが、こ
れらのブランチの最下位にある単語は非常にまれにしか
発生しないので、それらが平均アクセス時間に与える影
響は比較的小さい。

【００１６】好ましい実施例では、Ｂツリーは２進構造
をもち、各ノードが単一のテスト値を含む。２進Ｂツリ
ーは最大数の層をもつので、複数の層にアクセスする必
要性を減らす見込みが最も大きい。それにもかかわら
ず、同じ原則をより高いベースに使用できないという理
由はない。たとえば、ルート・ノードが２つの最も一般
的な単語を含み、３つのブランチが階層の次の層へと下
降する、３進Ｂツリーを生成することができる。

【００１７】また、第１のノードが、階層の１つ下のレ
ベルにある第２のノードを参照する、自然言語での発生
頻度がほぼ等しい第１のノードと第２のノードの対で
は、第１のノードと第２のノードの相対位置をツリーの
平衡化が最適になるように配列することが好ましい。そ
のような従来のＢツリー平衡化は、頻度順を崩さない場
合にかぎり使用される。

【００１８】そのようなアプリケーションでは、ノード
中の各テスト語が二次Ｂツリーを参照し、二次Ｂツリー
も頻度順に並べると共に、前記テスト語を含むバイグラ
ムの自然言語における発生頻度に関する情報を記憶する
と好都合である。そのようなアプリケーションの典型的
な例は、音声認識である。音声認識では、バイグラムの
相対頻度を使用して、異なる個々の単語のそれぞれの確
率を区別することができる。一次ツリーと二次ツリーを
使用する方法は、非常に大規模な二次元マトリクス配列
にこの情報を記憶するよりも、スペースの点でははるか
に効率的である。さらに、二次Ｂツリーも頻度順に並べ
られるので、高速アクセスの利益が得られる。システム
は、二次Ｂツリー中の各ノードがさらに別のＢツリーを
参照する場合、トリグラムや、さらに上位の組合せさえ
も含むように容易に拡張することができる（実際、音声
認識では、トリグラム・ベースのシステムが最適である
ことが立証されている）。

【００１９】二次Ｂツリーを含むシステムでは、二次Ｂ
ツリーが、各テスト語を、同じテスト語を含む一次Ｂツ
リー中のノードへの参照の形で記憶することが好まし
い。これによって、長い単語を２回記憶する必要がなく
なり、さらに、単語のシーケンス全体について確率を連
鎖することも可能になる。

【００２０】本発明はまた、各ノードがテスト語を含
み、そのテスト語に関連するデータを記憶または参照す
ると共に、（階層中のそのブランチの最下位のものを除
く）各ノードが、１つ下のレベルにある複数のノードを
参照する、ノードの階層を備えたＢツリーを、自然言語
処理システムで使用するために作成する方法であって、
Ｂツリー内で探索語を見つけ、そのテスト語が探索語と
一致するノードが見つかった場合は、そのノード用のデ
ータを修正し、探索語が見つからない場合は、Ｂツリー
の最下位に、そのテスト語用の探索語を有する新しいノ
ードを追加するステップと、一度に１レベルずつ上昇す
ることによって、ツリー中の一致したノードまたは新た
に追加されたノードから戻り、各レベルで、所定の基準
に従って現ノードを上昇元のノードと比較し、所定の基
準が満たされる場合、前記現ノードを含むツリーのブラ
ンチを再配列するステップとを備え、前記所定の基準
が、現ノードのテスト語の自然言語における発生頻度が
上昇元のノードのテスト語の該発生頻度よりも低いか否
かを含むことを特徴とする方法を提供する。

【００２１】したがって、Ｂツリーを構築するためのこ
の方法は、Ｂツリーの標準の形成方法に似ているが、ノ
ードは、従来と異なり、平衡に留意して配列するのでは
なく、頻度基準に従って配列される。その結果、自然言
語データの確率分布のために、ノードへの平均アクセス
時間が大幅に短縮される。構築中の任意の所与の時間
に、Ｂツリーはそれまでの入力テキスト中の単語の頻度
を反映する。すなわち、この構築プロセス中にＢツリー
に新しい単語が追加されるときでさえ、高速アクセスの
利益が得られる。

【００２２】このような方法は、頻度順Ｂツリーを作成
する唯一の方法ではないことに留意されたい。従来のＢ
ツリーを使用して単語の発生を数えることも可能であ
り、相対頻度が決定された後に、これらの頻度を反映す
るツリー配列が確立される。しかし、そのような代替方
法では、前述のツリー形成時に高速アクセスの利益が得
られない。

【００２３】現ノードのテスト語と上昇元ノードのテス
ト語の自然言語における発生頻度がほぼ等しい場合、前
記所定の基準はさらに、現ノードから派生する異なるブ
ランチの相対深さの違いを含むことが好ましい。これ
は、前述のような従来の意味での平衡化に対応し、ツリ
ーの頻度順が損なわれない場合に実行される。

【００２４】

【実施例】図１の従来の平衡Ｂツリーは、データ項目に
ランダムにアクセスする場合に最適な構造である。しか
し、この条件は自然言語データにはあてはまらない。な
ぜなら、自然言語データでは、分布が極めてゆがんでお
り、少数の単語は非常に頻繁にアクセスされるが、多数
の単語はめったにアクセスされない。自然言語データの
頻度分布を図２に示す。この分布は、Ｐ（ｗ_i）＝０.１
／ｉ（「Zipfの法則」として知られる）という式で近似
することができる。前式で、iは、頻度による単語ｗ_iの
ランクを表し、ｐ（ｗ_i）は単語ｗ_iの確率である（この
式は、約１２０００語より後は合計が１を越えるので、
近似としてしか扱えない。これよりも正確な式がMandel
brotによって提供されている）。そのようなゆがんだデ
ータに対する従来のＢツリー構造の性能はもはや最適で
はない。

【００２５】そのような状況で、Ｂツリーの構造を大幅
に修正すると、全アクセス時間または予想アクセス時間
を最短にできることが分かった。新しい配列を図３に示
す。この図は、それぞれ１つの単語を表す１組のノード
を示している。階層中のノードの位置は、従来の平衡化
基準ではなく、相対頻度に基づいて決定される。

【００２６】すなわち、図３でルート・ノードは"THE"
である。"THE"は英語では最も頻繁に発生する単語であ
る。ただし、アルファベット順で中間に位置するわけで
はないことは明らかである。"THE"より下位のレベル
に、アルファベット順で"THE"より前にある最も一般的
な単語"OF"と、"THE"より後にある最も一般的な単語"T
O"がある。この構造は、階層をさらに下降していき、最
もまれにしか使用されない単語が最も下位に配置される
（図示せず）。それぞれのブランチの深さが均一ではな
いことに留意されたい。これは、ツリーを平衡化しない
ことの直接的な結果である。また、頻度順が任意の所与
のブランチ内でしか通用しないので、ブランチ間の比較
ができない点にも留意されたい。たとえば、"AND"は、
実際には"TO"よりも一般的であるが、アルファベット順
でツリーの異なるブランチに配置されているので、階層
中のより下位のレベルに位置している。

【００２７】図４は、図３に示したＢツリーの形成を示
すフローチャートである。このプロセスを実施するため
のＣ言語プログラムを付録Ａに掲げる。図４の方法で
は、テキストの一節中の各単語のカウントを示すＢツリ
ーが作成される。これは、前述の書"The C Programming
Language"の例で実行されているのと同じタスクである
が、結果として得られるＢツリーの構造は著しく異な
る。

【００２８】図４を詳細に参照すると、テキストまたは
その他の単語ソースが走査されるとき、新しい単語がプ
ロセスに順次提示される（ステップ１０２）。付録Ａの
コードでは、これは関数"1x_add"の呼出しを表す。この
関数の引数は、ノードを有効に表し、初期にはツリーの
最上位のルート・ノードにセットされる構造である"p"
と、見つけようとする単語文字列"word"と、"word"の頻
度を増分する量"frq"である（通常、"frq"は１に等しく
なるが、２つの頻度リストをマージするなどの状況が容
易に考えられる。この場合、一般性を付加すると好都合
である）。残りの引数"wordptr"については後で論じ
る。

【００２９】lx_addの第１のステップ（１０４）は、ツ
リーの終わりに達したかどうか検査する（すなわち、"p
=null"をテストする）ことである。終わりに達している
場合、単語および頻度に関する適切な情報を含む新しい
ノードを作成する必要がある（ステップ１０６）。1x_a
ddでは、これは、関数lx_new（リストせず）を呼び出
し、続いて、新たに追加したノードに対応するpの値を
返すことによって表される。

【００３０】ツリーの終わりに達していない場合、"wor
d"を現探索ノードのテスト値と比較する（ステップ１０
７）。lx_addでは、これは、"cmp"の値を取り出すこと
に対応する。"cmp"は、"word"が、pで表されるノードの
テスト値よりもアルファベット順で前にある場合は正で
あり、"word"がこのテスト値よりもアルファベット順で
後にある場合は負であり、"word"がこのテスト値と正確
に一致する場合はゼロである（cmpの計算については後
で詳しく論じる）。一致（cmp=0）する場合（ステップ
１０８）、そのノード用の頻度カウンタ（すなわちp->f
req）が、追加の単語発生数であるfrqだけ増分される
（ステップ１１２）。この場合も、更新されたノードを
表すpの値が返される。

【００３１】一致が見つからない場合、探索は、lx_add
を繰り返し呼び出すことによって、ツリーの次のレベル
に下降する（ステップ１１０）。ルーチンは、そのノー
ドのテスト値に対する、追加される単語の相対的アルフ
ァベット順に従って、どのブランチを選択するか（"p->
left"または"p->right"）を決定する。すなわち、cmpが
正である場合は左のブランチが選択され、cmpが負の場
合は右のブランチが選択される。pからの従属ノードを
表す構成要素p->leftおよびp->right自体は、ノードを
表す構造である。次の繰返し（1x_addの新たな反復）で
p->leftまたはp->rightのうち選択された方がpの新しい
値になり、新しい現ノードを表す。（ステップ１１０か
らの繰返しループに対応する）lx_addの反復呼出しは、
いずれかのノードが一致するか、あるいはツリーの最下
位に達し、新しいノードが追加されるまで継続する。

【００３２】ここまで、lx_addは基本的に、たとえば、
カーニガンおよびリッチーの参考文献に記載の技法や、
従来の平衡Ｂツリーに使用されている技法などの従来技
術に従って、ツリー中の現位置を見つけ、それに応じて
ノードを増分または作成していることに留意されたい。
このプロセスが周知の方法と異なるのは、増分または作
成されたコードから戻る際である。リターン処理の際
に、lx_addを反復するたびにツリーのより上位のレベル
に戻り（ステップ１２２）、それがルート・ノードに達
するまで繰り返される。ツリーを上昇する各ステップご
とに、現ノードの頻度（p->freq）と、戻り元のノード
の頻度（p->left->freqまたはp->right->freqのどちら
か該当する方）を比較することによって、頻度順のテス
トが行われる（ステップ１１４）。現ノードのカウント
がすぐ下のレベルの戻り元のノードよりも低い場合、こ
れらのノードは再配列する必要がある（ステップ１１
６）。

【００３３】再配列プロセスを図５に示す。これらの図
は、ツリーのノード形成部分を示している（ツリーは、
図に示したノードから上位または下位あるいはその両方
に伸びることができる）。各ノード２１０は、テスト値
２１２（"WORD1"など）および関連する頻度２１４と、
すぐ下のレベルのブランチ・ノードへのポインタを含む
（これらのポインタは、異なるノードを接続する線によ
って図示してある）。テスト値"WORD1"、"WORD2"など
は、アルファベット順に従って番号が付けてある。図５
のａ）で、ツリーのWORD2を含む部分が頻度順に従って
いないことは明らかである。WORD2は、それが最初の繰
返しである場合は、増分されたばかりの単語であるため
に、その頻度が変化している可能性があり、また、先行
する繰返しでのWORD1またはWORD3に関する頻度順序変更
の結果、頻度が変化している可能性もある。lx_addにつ
いては、pは現在WORD1およびp->leftを指しており、qは
WORD2を指している。

【００３４】ノードの再配列は、図５のｂ）に２本の線
で示したリンクを削除し、点線で示した２つのリンクを
追加するだけで、比較的簡単に行われる。すなわち、WO
RD2からの右ブランチはWORD3からWORD4に移動し、WORD4
からの左ブランチはWORD2からWORD3に移動する。その結
果得られる構造を図５のｃ）に示す。これは、次の繰返
しに戻されるWORD2(q)に対応する構造である。この順序
変更の実施に使用される機構は、実際には、従来のＢツ
リー平衡化で使用される機構によく似ている。重要な違
いは、順序変更自体を実際にどう実行するかではなく、
いつ順序変更するかを決定するのに使用する基準であ
る。

【００３５】図４の方法は、各ノード更新ごとにＢツリ
ーへのアクセスが必要なので、作成されるＢツリーが頻
度順になるという利益がある。この状況での頻度順Ｂツ
リーの利点を示すものとして、ワークステーション上で
図４の方法を実施したところ、５０００万語を走査し、
最終的に５０万語の語彙を含むＢツリーを作成するのに
１０分かかったが、同じハードウェア上で従来技術を使
用すると、１０時間かかった。頻度順Ｂツリーを使用し
た他の場合にも、これにひけを取らない時間の節約が達
成できる。

【００３６】図４の方法の他の特徴は、２つのノードの
頻度が等しい場合、その相対位置が従来の平衡基準に基
づいて決定される（ステップ１１８、１２０）ことであ
る。これはツリーの下位レベルで発生することが多い。
というのは、そこには、めったに発生しない（たとえ
ば、通常、入力テキストで１回または２回しか発生しな
い）単語が多数あるからである。これに対し、ツリーの
最上位での頻度は、Zipfの法則に従って比較的間隔が離
れている。したがって、この確率分布の結果は、実際に
は、Ｂツリーの各ブランチごとに、それより上位では平
衡化が行われず、それより下位ではブランチがほぼ完全
に平衡化される（言うまでもなく、ブランチ全体は頻度
順になっている）レベルが存在する傾向がある。

【００３７】頻度が等しい場合の従来の平衡化を図６に
示す。この図は、WORD1、WORD2などを含むツリーのブラ
ンチの最下位を示している（この場合も、番号はアルフ
ァベット順に対応している）。各ノードは、テスト値２
１２および頻度FREQ２１４のみならず、深さ値DEPTH２
１６も記憶している。この場合、深さは、ツリーの最上
位からではなく、ツリーの最下位から測定されることに
留意されたい。ノードの深さは常に、そのノードより下
位のノードの最大深さより１つ大きい（すなわち、WORD
4の深さは、WORD6ではなく、WORD2より１つ大きい）。

【００３８】頻度が等しいノードで平衡化を実行するコ
ードは、lx_addの終わりにある。コードのこの部分は、
関係するノードがすでに頻度順である場合にしか関係し
ない（そうでない場合は、再配列が実行され、リターン
が発生する）。関数"lx_set_depth"が呼び出され、単
に、左従属ノードと右従属ノードの深さの違いを返す。
図６のａ）のブランチの場合、この関数は、WORD7の深
さからWORD4の深さを差し引き、"balance"に値２を返
す。これは１より大きいので、左のブランチは深すぎる
（深さの違いが１しかない場合、再平衡化で利益が得ら
れないことに留意されたい。深さが大きいブランチがス
ワップされるだけだからである）。再平衡化は、ツリー
が依然として頻度順である場合にだけ実行される。これ
には、WORD4とWORD6が等しい頻度をもつことが必要とさ
れる。図６のａ）、ｂ）およびｃ）の場合がそうであ
り、再平衡化動作が図６のｂ）およびｃ）に示すように
従来の方法で実行される（ステップは、図５のステップ
に類似している）。

【００３９】頻度順であれ平衡化であれ、ノードを再配
列するたびに、当該ノードの深さ情報を更新する必要が
あることは明らかである。この更新はルーチンlx_set_d
epthによって実行される。このルーチンは、（新しい配
列での）そのツリーの１つ下のレベルのノードの深さを
照合し、それに従って当該ノードの深さを設定する（こ
の例のlx_set_depthの戻り値は無視することができ
る）。ツリーの最下位に新しいノードを追加する場合、
定義によりその深さは１となる。

【００４０】図４の方法は、自然言語データ用の頻度順
Ｂツリーを作成する。次に、Ｂツリー構造を複製し、ノ
ードを使用して情報を直接記憶するか、あるいは他の情
報（たとえば、電子発音ライブラリ）への参照を含める
ことができる。希望する用途に応じて、Ｂツリー中のノ
ードの実際の頻度を記憶する必要がなくなる（記憶する
ことが好ましいのは、Ｂツリー構造を追加の頻度情報で
更新することを予定している場合だけである）。

【００４１】頻度順Ｂツリーを自然言語データの記憶に
使用する特定の例に音声認識システムがある。冒頭で述
べたように、同音異義語、または音声学的に明確に定義
されていないその他の単語を区別する１つの方法は、複
数の候補の相対頻度を検討することである。すなわ
ち、"to"、"too"、または"two"に対応する音声が検出さ
れた場合、"to"は、３つのうちで最も一般的な単語なの
で、最も可能性の高い解釈となる。そのようなアプリケ
ーションでは、Ｂツリーに複数の単語の相対頻度に関す
る情報を記憶する必要がある（言うまでもなく、図４の
方法によってそのようなＢツリーが直接作成される）。

【００４２】単一の単語の確率を調べるよりも精巧な方
法は、単語のグループ、通常は単語の対または３つ組
（「バイグラム」または「トリグラム」として知られ
る）の相対頻度を考慮するものである。すなわち、音
声"to"、"two"、または"too"の次に単語"the"が続く場
合、"to"との識別が実際上確認され、後続の単語が"muc
h"である場合は、"too"が可能性の高い候補になる。た
だし、"to"の可能性も残る（この場合も、"two"は実際
上除去される）。このような単語の組合せの条件付き確
率に対応する単語の組合せの頻度に関する情報を記憶す
るには、多次元Ｂツリーが必要である。

【００４３】そのような多次元Ｂツリーを提供する１つ
の方法を図７に示す。主頻度順Ｂツリーまたは一次頻度
順Ｂツリー中の各ノード２１０は、別のＢツリー２５０
を参照する追加の項目SUCPTRを含む。追加項目SUCPTR
は、ノード２１０で表される単語であるWORD1に続く単
語の発生を記憶するために使用される。この二次Ｂツリ
ー２５０も頻度順にすることができる。ただし、その分
布は、WORD1が先行単語であることを条件とするので、
その配列は主Ｂツリーの配列とは異なる。たとえば、WO
RD1が"too"である場合、"much"や"little"などの単語
は、主Ｂツリーに比べてＢツリー２５０では相対的に上
位にくるが、"the"はずっと下位にくる。

【００４４】Ｂツリー２５０中のノードが、単語自体の
実際の値を含む必要はない。その代わりに、これらのノ
ードに、主Ｂツリー中の単語の位置を指すポインタを含
めることができる。これを図８に示す。図８では、ノー
ド３１０は、それによって表される単語を含む主Ｂツリ
ー中のノードを指すポインタWORDPTR３１２を含む。ノ
ード３１０中に実際のWORD1を記憶するためのフィール
ド３１８はもはや必要でなくなり、希望なら省略するこ
とができる。そのような配列は、必要とされる記憶スペ
ースが少なくてすむという利点があり、さらに、項目を
互いに有効に連鎖するので、毎回主Ｂツリーの経路ノー
ドを介する必要なしに、単語のシーケンスの条件付き確
率を得ることができる。

【００４５】前述の方式を、トリグラムを処理するよう
に拡張することができる。その場合、Ｂツリー２５０中
の各項目は、２つの指定された単語で始まるトリグラム
中の３番目の単語の分布を含む、さらに別のＢツリーを
参照する。この方式は、さらに高い次元に拡張すること
ができる。ただし、そのような高い次元構造の言語学的
効用は急激に減少する。このような方式には多数の明ら
かな変形がある。たとえば、Ｂツリー２５０に後続の単
語ではなく先行の単語を含め、あるいは主Ｂツリーに２
つの従属Ｂツリー、すなわち先行の単語から成る従属Ｂ
ツリーと後続の単語から成る従属Ｂツリーを設けること
もできる。

【００４６】従属ツリーへの項目の追加は、関連する主
Ｂツリー・ノードを作成または増分した直後（すなわ
ち、図４のステップ１０６または１１２）に、あるいは
主Ｂツリーへの更新を完了した後に、別個のプロセス
で、必要なノード再配列と共に実行することができる。
lx_addのコードおよび図４に示した方法は、多次元Ｂツ
リーを直接作成しない。ただし、lx_addは、"wordptr"
引数を用いて、Ｂツリーに文字列ではなく（図８のWORD
PTRに等しい）ポインタを追加する手段を含んでいる。
さらに、cmpについてのテストに関して、Ｂツリーは、"
data"が（図８のフィールド３１６に対応する）実際の
単語値を含むノード構造中の構成要素となり、"name"が
（図８のフィールド３１２に対応する）ポインタとなる
ように作成される。主Ｂツリーで、"name"は単にそれ自
体（さらに正確には、それを含むノードの始め）を指す
が、二次Ｂツリーでは、"name"は、そのノード用の文字
列を実際に含む主Ｂツリー中の対応する項目を指す。そ
のような特徴により、lx_addは容易に、二次Ｂツリーま
たは他の従属Ｂツリーと共に使用できるようになる。

【００４７】lx_addを使用すると、厳格な頻度順による
Ｂツリーが作成される。状況によっては、ツリーが過度
に不平衡になる恐れがある場合、そのような順序付けを
わずかにずらすと、効率がわずかに向上する可能性があ
る。したがって、従来の平衡化を採用するか否かについ
てのテストを、たとえば、当該ノードの頻度の相対的な
違いが非常に小さな割合であることに基づくものにする
ことができる。しかし、実際には、自然言語データの実
際の確率分布が与えられているものとすると、厳格な頻
度順（すなわち、ツリーを下降する際に頻度がまったく
増加しない）に基づいて極めて満足のいく結果が得られ
ている。そして、そのような方法は明らかに、最も実施
が容易である。

【００４８】上述のＢツリーは、各ノードが単一のテス
ト値だけを含むので、すべて２進式であったが、より高
いベースのＢツリーを頻度順にしていけない理由はな
い。すなわち、たとえば、３進Ｂツリーでは、最上位ノ
ードがテスト値"of"および"the"を含み、３つの従属ノ
ードがそれぞれ、"and"と"in"、"on"と"that"、ならび
に"to"と"this"を含むことができる。この場合の頻度順
は、２進Ｂツリーの場合と同じ高速アクセスの利点をも
つ。同様に、ここに示した例はすべて英語のＢツリーに
関係するものであるが、この方法を、単語が同様にゆが
んだ確率分布をもつ（これは、すべての自然言語に当て
はまる）他の言語にも適用できることは明らかである。
また、特定の専門領域（たとえば、医学）の単語の頻度
を反映するようにＢツリーをカスタマイズすることも可
能である。

【００４９】以上は以下の（１）〜（７）の記載とな
る。（１）各ノードが少なくとも１つのテスト語を含み、テ
スト語に関連するデータを記憶または参照し、かつ（階
層の最下位のものを除く）各ノードが、階層の１つ下の
レベルにある複数のノードを参照する、ノード（２２、
２４、２６）の階層から形成されたＢツリー（２１）を
含み、ノードが、Ｂツリーのブランチを下降する際に、
ノード中のテスト語の自然言語における発生頻度がほぼ
単調に減少するようにノードが配列されることを特徴と
する、自然言語処理システム。（２）Ｂツリーが２進構造を有し、各ノードが単一のテ
スト値を含むことを特徴とする、（１）に記載の自然言
語処理システム。（３）第１のノードが階層の１つ下のレベルにある第２
のノードを参照する、自然言語における発生頻度がほぼ
等しい第１および第２のノードの対について、第１ノー
ドと第２ノードの相対位置が、ツリーの平衡化が最適に
なるように配列されることを特徴とする、（１）または
（２）に記載の自然言語処理システム。（４）ノード中の各テスト語について、二次Ｂツリー
（２５０）が参照され、二次Ｂツリーも頻度順であり、
前記テスト語を含むバイグラムの自然言語における発生
頻度に関する情報を記憶することを特徴とする、（１）
〜（４）に記載の自然言語処理システム。（５）二次Ｂツリーが、各テスト語を、同じテスト語を
含む一次Ｂツリー中のノードへのバック参照の形で記憶
することを特徴とする、（４）に記載の自然言語処理シ
ステム。（６）各ノードが１つのテスト語を含み、そのテスト語
に関連するデータを記憶または参照し、かつ（階層にお
けるそのブランチの最下位のものを除く）各ノードが１
つ下のレベルにある複数のノードを参照する、ノードの
階層を備えたＢツリーを、自然言語処理システムで使用
するために作成する方法であって、Ｂツリー中で探索語
を見つけ、そのテスト語が探索語と一致するノードが見
つかった場合は、そのノード用のデータを修正し、探索
語が見つからない場合は、テスト語用の探索語を有する
新しいノードをＢツリーの最下位に追加するステップ
と、一度に１レベルずつ上昇することによって、ツリー
中の一致したノードまたは新たに追加されたノードから
戻り、各レベルで、所定の基準に従って現ノードを上昇
元ノードと比較し、所定の基準が満たされる場合、前記
現ノードを含むツリーのブランチを再配列するステップ
とを備え、前記所定の基準が、現ノードのテスト語の自
然言語における発生頻度が上昇元ノードのテスト語の該
発生頻度よりも低いか否かを含むことを特徴とする方
法。（７）現ノードのテスト語と上昇元のノードのテスト語
の自然言語における発生頻度がほぼ等しい場合に、前記
所定の基準がさらに、現ノードから派生する異なるブラ
ンチの相対深さの違いを含むことを特徴とする、（６）
に記載の方法。

【００５０】付録Ａ struct lx_item * lx_add(p,word,wordptr,frq) struct lx_item * p; char * word; struct lx_item * wordptr; long frq; { /********************************************************************/ /* 辞書に新しい項目を追加する。 */ /********************************************************************/ int cmp; long balance; struct lx_item *q, *q1; /*------------------------------------------------------------------*/ /* ツリーの終わりに達したかどうか検査する。達した場合は新しいリーフ */ /* を追加する。*/ /*------------------------------------------------------------------*/ if (p==NULL) { p = lx_new(word,wordptr,frq); return(p); } /*------------------------------------------------------------------*/ /* 探索項目とツリーの現ノードとの基本比較 */ /*------------------------------------------------------------------*/ if (p != p->name) /* 迂回法を使用する */ { cmp = strcmp(p->name->data,word); /* printf("%s:%s %d＼n",word,p->data,cmp); */ } else /* フルノードが利用可能 */ { cmp = strcmp(p->data,word); /* printf("%s:%s %d＼n",word,p->data,cmp); */ } /*------------------------------------------------------------------*/ /* 下向き経路：単語を探す。存在しない場合は挿入する。*/ /* 上向き経路：高頻度ノードが上位にくるようにノードをリセットする。*/ /*------------------------------------------------------------------*/ if (cmp == 0) /* 単語が見つかった。 */ { p->freq += frq; return(p); } /*------------------------------------------------------------------*/ /* 単語を現単語の左側に移動する必要があるか否かを検査する。*/ /*------------------------------------------------------------------*/ if (cmp > 0) /* データ＞単語 */ { p->left = lx_add(p->left,word,wordptr,frq); q = p->left; if (p->freq < q-freq) /* 単語が頻度順から外れる */ { p->left = q->rite; q->rite = p; lx_set_depth(p); lx_set_depth(q); return(q); } } /*------------------------------------------------------------------*/ /* 単語を現単語の右側に移動する必要があるか否かを検査する。*/ /*------------------------------------------------------------------*/ else /* データ＜単語 */ { p->rite = lx_add(p->rite,word,wordptr,frq); q = p->rite; if (p->freq < p->rite->freq) /* 単語が頻度順から外れる */ { p->rite = q->left; q->left = p; lx_set_depth(p); lx_set_depth(q); return(q); } } /*------------------------------------------------------------------*/ /* ツリーは平衡化されているか。 */ /*------------------------------------------------------------------*/ balance = lx_set_depth(p); if (balance < -1) /* 不平衡：右が深すぎる。*/ { q = p->rite; if (p->freq = q->freq) /* ツリーの頻度順をそのままにしておく。*/ { p->rite = q->left; q->left = p; lx_set_depth(p); lx_set_depth(q); return(q); } } if (balance > 1) /* 不平衡：左が深すぎる。*/ { q = p->left; if (p->freq <= q-freq) { p->left = q->rite; q->rite = p; lx_set_depth(p); lx_set_depth(q); return(q); } } /*------------------------------------------------------------------*/ /* ノードを呼出し側に戻す。 */ /*------------------------------------------------------------------*/ return(p); }

【図面の簡単な説明】

【図１】自然言語データを記憶するための従来技術の平
衡化Ｂツリーを示す図である。

【図２】自然言語データにおける単語の頻度分布を示す
グラフである。

【図３】本発明による頻度順Ｂツリーの概略図である。

【図４】図３のＢツリーを作成するためのプログラムの
フローチャートである。

【図５】頻度順を維持するための、図３のＢツリーの再
配列を示す図である。

【図６】平衡化動作を実行するための、従来のＢツリー
再配列を示す図である。

【図７】二（またはそれより高い）次元Ｂツリーを使用
している場合のノード・エントリを示す図である。

【図８】二次元Ｂツリーで使用するのに適した修正ノー
ド・エントリを示す図である。

Claims

【特許請求の範囲】

【請求項１】各ノードが少なくとも１つのテスト語を含
み、テスト語に関連するデータを記憶または参照し、か
つ（階層の最下位のものを除く）各ノードが、階層の１
つ下のレベルにある複数のノードを参照する、ノード
（２２、２４、２６）の階層から形成されたＢツリー
（２１）を含み、ノードが、Ｂツリーのブランチを下降する際に、ノード
中のテスト語の自然言語における発生頻度がほぼ単調に
減少するようにノードが配列されることを特徴とする、
自然言語処理システム。
【請求項２】Ｂツリーが２進構造を有し、各ノードが単
一のテスト値を含むことを特徴とする、請求項１に記載
の自然言語処理システム。
【請求項３】第１のノードが階層の１つ下のレベルにあ
る第２のノードを参照する、自然言語における発生頻度
がほぼ等しい第１および第２のノードの対について、第
１ノードと第２ノードの相対位置が、ツリーの平衡化が
最適になるように配列されることを特徴とする、請求項
１または２に記載の自然言語処理システム。
【請求項４】ノード中の各テスト語について、二次Ｂツ
リー（２５０）が参照され、二次Ｂツリーも頻度順であ
り、前記テスト語を含むバイグラムの自然言語における
発生頻度に関する情報を記憶することを特徴とする、前
記いずれかの請求項に記載の自然言語処理システム。
【請求項５】二次Ｂツリーが、各テスト語を、同じテス
ト語を含む一次Ｂツリー中のノードへのバック参照の形
で記憶することを特徴とする、請求項４に記載の自然言
語処理システム。
【請求項６】各ノードが１つのテスト語を含み、そのテ
スト語に関連するデータを記憶または参照し、かつ（階
層におけるそのブランチの最下位のものを除く）各ノー
ドが１つ下のレベルにある複数のノードを参照する、ノ
ードの階層を備えたＢツリーを、自然言語処理システム
で使用するために作成する方法であって、Ｂツリー中で探索語を見つけ、そのテスト語が探索語と
一致するノードが見つかった場合は、そのノード用のデ
ータを修正し、探索語が見つからない場合は、テスト語
用の探索語を有する新しいノードをＢツリーの最下位に
追加するステップと、一度に１レベルずつ上昇することによって、ツリー中の
一致したノードまたは新たに追加されたノードから戻
り、各レベルで、所定の基準に従って現ノードを上昇元
ノードと比較し、所定の基準が満たされる場合、前記現
ノードを含むツリーのブランチを再配列するステップと
を備え、前記所定の基準が、現ノードのテスト語の自然言語にお
ける発生頻度が上昇元ノードのテスト語の該発生頻度よ
りも低いか否かを含むことを特徴とする方法。
【請求項７】現ノードのテスト語と上昇元のノードのテ
スト語の自然言語における発生頻度がほぼ等しい場合
に、前記所定の基準がさらに、現ノードから派生する異
なるブランチの相対深さの違いを含むことを特徴とす
る、請求項６に記載の方法。