JP2002082689A

JP2002082689A - 語彙ツリーを用いた認識システム

Info

Publication number: JP2002082689A
Application number: JP2001232574A
Authority: JP
Inventors: Luca Rigazio; ルカ・リガジオ; Patrick Nguyen; パトリック・ニュイエン
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2000-07-31
Filing date: 2001-07-31
Publication date: 2002-03-22
Also published as: DE60109999D1; US7035802B1; TW533403B; DE60109999T2; EP1178466A2; CN1349211A; EP1178466B1; ATE293275T1; CN1156820C; EP1178466A3; ES2238394T3

Abstract

(57)【要約】【課題】処理能力が制約されている場合のアプリケー
ションにおいて有用な語彙ツリーを用いた認識システム
を提供する。【解決手段】動的プログラミング技術は、隣接したメ
モリ位置を各々の世代のノードが占有する平坦な表示と
してコンピュータメモリ内で符号化される語彙ツリーを
用いる。前記横断アルゴリズムは、一式の横断規則を用
い、これにより、所定の世代のノードは、該所定の世代
の親ノードが処理される前に処理される。最も深い子の
世代は最初に処理され、かつ、各々の世代のノード間の
横断は同じトポロジー方向に進行する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識システム
に関する。より詳細には、本発明は、単独の単語および
連続的な音声の認識アプリケーションにおける動的プロ
グラミングパターンシーケンス認識技術に関する。

【０００２】

【従来の技術】今日では、動的プログラミング技術は、
通常は、単独の／連続的な音声の認識の両方におけるタ
イムワーピング（time-warping）問題のために、およ
び、連続的な音声（連結された単語）の認識における最
適な単語シーケンス検索問題のために用いられている。
隠れマルコフモデル（Hidden Markov Model：ＨＭＭ）
の場合に用いることができる公知のタイプの動的プログ
ラミング認識は、ビタビ（Viterbi）アルゴリズムであ
る。動的プログラミング技術については、さらに、ＨＭ
Ｍの他にも、例えばニューラルネットワークモデルのよ
うな他の種々のタイプの音声モデルとともに用いること
もできる。

【０００３】典型的なビタビアルゴリズムは、帰納的
（inductive）アルゴリズムであり、この場合には、各
々の瞬間（フレーム）において該アルゴリズムは、ｎ個
の状態の各々に対して考えられ得る最適な状態シーケン
スを、所望の観測シーケンス（observation sequence）
Ｏに関する中間状態として記憶する。こうして、アルゴ
リズムは、ｎ個の状態の各々に対する最適な経路を、所
望の観測シーケンスに関する最後の状態として最終的に
見出す。これらの中から、アルゴリズムは、最も高い確
率（probability）を有するものを選択する。典型的な
ビタビアルゴリズムは、フレーム毎に進行し、口頭での
発語（utterance）と以前に訓練されたモデルとの間の
最適なマッチングを見出そうとする。

【０００４】隠れマルコフモデル認識装置（recognize
r）の場合を例として取り上げると、モデル（ＨＭＭ）
により生じている観測シーケンス（テスト話者の発語）
の確率は、全ての考えられ得る観測シーケンスを通して
の、各々の考えられ得る経路に関する確率の合計であ
る。各々の経路の確率は計算され、かつ、最も適切なも
のが識別される。ビタビアルゴリズムは、最も適切な経
路を計算し、かつ、自らが通過する状態を記憶にとどめ
る。

【０００５】前記典型的なビタビアルゴリズムは、算定
上高価である。このアルゴリズムは、全ての有効な仮定
（hypotheses）のリストまたはトークン（token）を維
持するための広範囲の連結リスト（linked list）また
はハッシュテーブルを保持する。多量の計算エネルギー
が、これらのリストまたはテーブルからの項目を記憶し
かつ調べるという簿記工程において費やされる。

【０００６】前記典型的なビタビアルゴリズムは算定上
高価であるので、音声認識装置の見かけ上の速度を顕著
に減速させることがある。このことは、迅速な応答時間
が必要とされるリアルタイムシステムにおいて特に問題
である。現時点での解決法は、単に、より強力なプロセ
ッサを用いることであるが、これは費用のかかる解決法
であって、セルラー電話および家庭用娯楽装備のような
幾つかの埋め込みシステム（embedded systems）および
小型の顧客製品においては望ましくないことであり得
る。

【０００７】

【発明が解決しようとする課題および課題を解決するた
めの手段】本発明は、典型的なビタビアルゴリズムを改
良しようとするものであり、かつこれにより、処理能力
が制約されている場合のアプリケーションにおいて有用
である。実験においては、新たな技術が少なくとも３つ
の要因により認識速度を向上させることが示されてい
る。本発明は、大いに性能を向上させる関連検索アルゴ
リズムを備えた独自の語彙ツリー（lexical tree）構造
を用いる。このシステムは埋め込みアプリケーションお
よび顧客製品に適している一方で、該システムについて
は、性能をさらにいっそう向上させるために、大規模な
高速システム内に配置することもできる。前記アルゴリ
ズムについては、単独の単語の認識のために用いること
ができ、または、連続的な音声の認識のためのファース
トパスファストマッチ（first pass fast match）とし
て用いることができる。前記アルゴリズムについては、
さらに、クロスワード（cross-word）モデリングに拡張
することもできる。

【０００８】本発明に関するより完全な理解のために、
その目的および利点については、以下の記載および添付
図面を参照する。

【０００９】

【発明の実施の形態】＜背景＞図１は、例示的な音声認
識システムを示している。このシステムは、訓練段階お
よび認識段階という２つの段階において動作する。前記
訓練段階中に、システムは、アプリケーションの語彙を
構成する様々な音声（語句、単語、単音）を示す基準パ
ターンを学習し、かつ、前記認識段階中に、一式の基準
を考慮することにより、未知の入力パターンが識別され
る。前記訓練段階中に、各々の基準は、口頭での例によ
り学習され、かつ、ある通常の方法により得られるテン
プレートの形式で（テンプレートマッチングシステムの
形で）、または、統計的なパターン特性を特徴づけるモ
デルの形式で（確率論的システムのような形で）、のい
ずれかで記憶される。最も一般的な確率論的システムの
１つは、隠れマルコフモデル（ＨＭＭ）を用いた統計的
モデリングの取り組みを利用する。

【００１０】図１に示されるように、例示的な音声認識
装置は、認識プロセスを３つの段階において実行する。
参照番号１０に示されるように、最初に、音声の分析お
よび特徴の抽出が、入力された音声に基づいて実行され
る。この段階は、信号の分析により得られた一式のパラ
メータを抽出することに焦点を当てている。参照番号１
２により示される次の段階は、パターンの分類を伴うも
のである。典型的なビタビアルゴリズムが実行されるの
は、この段階においてである。この段階の間に、入力さ
れた音声と各々の基準パターンとの間における類似性の
測定値が計算される。このプロセスは、特徴ベクトル間
の近接さの局所的な測定を定義し、かつさらに、話す際
の音長および速度が異なる２つの音声パターンを整列さ
せる方法を伴う。パターンの分類段階は、前記訓練段階
中に発生した情報を有するテンプレートまたはモデルデ
ィレクトリ１４を用いる。最終的な段階は、決定段階１
６である。この段階中に、未知のパターンには、“最も
近接した”基準パターンのラベルが割り当てられる。通
常は、この決定は、類似性の測定結果を考慮に入れる規
則に基づいている。

【００１１】今日一般的に用いられている多くの認識装
置は隠れマルコフモデルを音声モデルとして用いている
ので、隠れマルコフモデルの簡素な表示が図１の参照番
号２０に示されている。しかしながら、本発明の本質が
隠れマルコフモデルを用いた認識装置に制約されるもの
ではないことが認識される。ｓ₁，ｓ₂，ｓ₃として示さ
れる３つの状態を有する隠れマルコフモデルが、図１に
示されている。もちろん、作業上の実施においては様々
な数の状態を用いることができ、かつ、ここに選択され
た状態の数は例示目的のためのものに過ぎない。本発明
はＬＲ（left-to-right）ＨＭＭに制約されるものでは
ないが、前記アルゴリズムは、このクラスのモデルには
最良の結果をもたらす。したがって、図１に示されたＨ
ＭＭは、状態遷移（state transition）が状態を飛び越
すことなく左から右方向へのみ進行するＬＲＨＭＭで
ある。

【００１２】前記隠れマルコフモデルは確率の集合を伴
い、該確率の中には、状態自体に関連するものもあれ
ば、ある状態から他の状態へまたはその状態自体へ遷移
することに関連するものもある。図１において、状態の
遷移が矢印により示されている。矢印の中には、ある状
態から異なる状態への遷移を示すものもあり、その一方
で、ある状態からその状態自体への遷移を示すものもあ
ることを特筆しておく。

【００１３】音声モデルにより示すべき各々の語句、単
語、または単音は、それ自体のモデルを有しており、該
モデルは、各々の遷移に関連しかつ各々の状態に関連し
た確率値からなっている。これにより、各々の自己ルー
プ（self-loop）は、参照番号２２により示される関連
遷移確率を有しており、他の状態に対する各々のループ
は、その関連遷移確率２４を有している。さらに、各々
の状態は、自らに関連した確率情報を有している。

【００１４】各々の状態に関連した確率値は、単一の値
が示すよりも複雑であり得るので、システムの中には、
ガウス分布によって、各々の状態に関連した確率を示す
ものもある。ときには、ガウス混合密度（Gaussian mix
ture density）データを具備するために、多数の分布の
混合が混合的な方法で用いられる。このようなデータ
は、参照番号２６において図式的に示されており、か
つ、混合指数ポインタ（mixture index pointer）２８
により参照される。これにより、混合指数ポインタは各
々の状態に関連し、この結果、該混合指数ポインタは、
該状態のためのガウス混合密度情報を識別する。もちろ
ん、図１に示された音声認識装置および隠れマルコフモ
デルの構造は、本発明を利用できる１つのタイプの認識
装置の例に過ぎないものであるように意図されているこ
とが繰り返し留意される。概して、本発明については、
パターン分類において動的プログラミングを実行する任
意のシステムとともに利用することができる。前述した
ように、最適なＨＭＭは、ＬＲＨＭＭとともに得られ
る。これにより、本発明については、例えば、典型的な
ビタビアルゴリズムの代わりに用いることができる。

【００１５】音声認識システムおよび隠れマルコフモデ
リングの基本的構造に関するさらなる情報については、
Junqua, Jean-Claude and Haton, Jean-Paul, Robustne
ss in Automatic Speech Recognition, Fundamental an
d Applications, Kluwer Academic Publishers, 1996
を参照のこと。

【００１６】＜好ましいデータ構造＞本発明について
は、パターン分類段階１２が実行される方法を大いに改
良するために用いることができる。本発明は、独自のア
ルゴリズムと結合してテンプレートまたはモデルディレ
クトリ１４を示すための独自のデータ構造を用いる。こ
の独自のアルゴリズムは、このデータ構造を横断（trav
erse）して最適にマッチングする仮定を見出す。このセ
クションでは、好ましいデータ構造について説明し、次
のセクションでは、好ましいアルゴリズムについて説明
する。好ましいデータ構造は、テンプレートまたはモデ
ルディレクトリ１４を、連結リストに対して平坦化され
た（flattened）語彙ツリーとして示す。図２は、この
トポロジーを示している。より明確には、図２は、文字
からなる個々の単語を記憶する語彙ツリー３０の例を示
している。後述するアルゴリズムは、この語彙ツリーを
時間同期（time-synchronous）様式で横断し、かつ、各
々のアクティブノードにおいて動的プログラミング式を
適用する。これにより、アルゴリズムは、ノードからノ
ードへツリーを横断し、特徴抽出段階１０（図１）にお
いて識別された文字と各々のノードにおける文字がマッ
チングするかどうかをテストする。

【００１７】図２に示される例示的な語彙ツリーを考慮
すると、これらの単語を綴る文字からなる単語を用いる
例は、ここでは、単に教示目的のために選択されている
ことを認識すべきである。音声認識システムにおいて、
段階１０における音声分析中に抽出された特徴は、音
素、音節などのような特徴またはこれらの特徴に相当す
る音声の単位（unit）であり得る。すなわち、本発明
は、個々の文字が各々のノードにおいてテストされてこ
れらの文字が綴る単語を識別するアプリケーションのみ
に制約されるものではない。むしろ、任意の適切な単位
を各々のノードにおいて用いることができる。例えば、
連続的な音声の認識において、システムは、各々のノー
ドにおいて単語全体を示すことができ、かつ、語彙ツリ
ーは、これらの単語からなる語句全体または文に対する
ポインターを有する。

【００１８】図２を参照すると、平坦化された連結リス
ト３２として語彙ツリー３０が示されており、該平坦化
された連結リスト３２は、該リストのトポロジーだけで
なく、対応するツリーの横断（traversal）をミラーリ
ングするために該リストが横断される道筋をも識別する
ための特定の特徴を多数有していることを特筆してお
く。より明確には、リストは、ツリー内の同じ降下レベ
ルにおける全てのノードが該リスト内における隣接した
エントリーとして示されるように構成されている。これ
により、連結リストは、ツリーのルートノードを示すた
めの第１構成またはノードによって始まる。ルートノー
ド構造の下方には、この例では、ツリーのノードｋ，ｈ
に対応する次の中間の子ノード（child nodes）のため
の構造が存在する。連結リストによって進行すると、こ
の例では、次の２つのノードは、第２階層（tier）の子
を、すなわち、ツリーのノードａａ，ａａを示す。次の
３つのノードは、第３階層の孫（ノードｒ，ｒ，ｌ）を
示す。最後の４つのノードは、ツリーの最終的な階層
を、すなわち、ノードｄ，ｄ，ｔ，ｔを示す。

【００１９】連結リスト内のノードは、ツリー内の各々
のノードに対応する文字または音声単位だけではなく、
それ以上のものを記憶する。さらに、各々のノードは、
少なくとも１つの順方向ポインターを、ツリーが横断さ
れることがあれば横断される次のノードに対して有して
いる。これにより、最終的にＣＡＲＤという単語に対応
する音声単位を綴る場合に、第１子ノードｋは、ノード
ｋからノードａａへどのようにツリーを横断するのかを
示すために、孫ノードａａに対するポインターを有して
る。さらに、各々のノードの構成は、右隅の小さなボッ
クスとして図２に示されたフラグを有している。このフ
ラグは、そのノードが親の最後の子を示しているかどう
かを識別するために設定される。この情報は、ツリーの
トポロジーが平坦化された連結リストの形で表される際
に、該ツリーのトポロジーをさらに記述するために用い
られる。

【００２０】連結リストの実際の表示は、図３に示され
るデータ構造の形をとる。図３の構造は、平坦化された
連結リストのノードを、隠れマルコフモデルを用いる認
識装置のために構成できる方法を示している。これらの
ノードについては、他のタイプのパラメータをも記憶す
るように容易に構成することができる。したがって、図
３の例示は、本発明の範囲を制約するものとして理解さ
れるべきではない。前記構造については、隠れマルコフ
モデル認識装置以外の認識装置に対応するパラメータお
よび／またはテンプレート情報を記憶するために用いる
ことができる。

【００２１】図３を参照すると、各々のノードは、以下
のようなツリーのトポロジー構造を記憶する。各々のノ
ードは、そのノードから次の子ノードへのポインターが
記憶されるデータ要素５０を有する。これらのポインタ
ーは、図２に示されているポインターに対応しており、
かつ、ツリーを横断するときに用いられる。さらに、ノ
ードデータ構造は、そのノードが親の最後の子であるか
どうかを示すために設定されるかまたは設定されないブ
ールフラグ（Boolean flag）５２を有する。この情報
は、図２において、塗りつぶされていないか（ＦＡＬＳ
Ｅ）または塗りつぶされている（ＴＲＵＥ）小さなボッ
クスにより図式的に示されている。

【００２２】示されている例は隠れマルコフモデルを示
すように構成されているので、ノードデータ構造は、自
己ループに関連した遷移確率と、そのノードに関連した
子に対するループ（loop to child）に関連した遷移確
率とを有するデータ要素５４を有する。通常の認識装置
において、これらは、図１の参照番号２２，２４に示さ
れる確率に相当する浮動小数点値となる。ノードデータ
構造は、さらに、そのノードの対応ガウス混合密度を識
別するために指数またはポインターが記憶されるデータ
要素５６を有する。混合指数ポインターは、図１の参照
番号２８に示されている。この結果、混合指数ポインタ
ーは、ガウス混合密度２６を示すデータの集合を、また
は、所定のノードが所定の音声単位を発する確率を示す
ために認識装置により用いられる他の確率値を示すデー
タの集合を指している。

【００２３】前記ノードデータ構造における残りのデー
タ要素は、どの横断が最適な経路または最適なマッチン
グを示すのかを確認するアルゴリズムにより用いられ
る。データ要素５８は、アルゴリズムがその分析プロセ
スを実行する際にそのノードに関連する累積確率スコア
を記憶する。データ要素６０は、次のアクティブノード
として認識されるツリー内の他のノードへのポインター
を記憶する。アルゴリズムは、どのようにツリーを進行
するのかを決定するために、次のアクティブノードを用
いる。アルゴリズムとこれらの要素が作用する方法とに
関する詳細について、次に説明する。

【００２４】＜アルゴリズム＞好ましいアルゴリズム
は、前述したように、時間同期様式でデータ構造を横断
する。すなわち、アルゴリズムは、特徴抽出プロセス
（図１の段階１０）が進行する際に展開される観測デー
タと同期してノードを横断する。通常の認識装置におい
て、入力音声は、一時的に、フレームの形にセグメント
化されるかまたは再分割される。これにより、好ましい
アルゴリズムは、これらのフレームと同期して動作す
る。

【００２５】ノードからノードへの横断は、ツリーのト
ポロジー構造により、さらに、「アクティブノードエン
ベロープ（active node envelope）」と称される第２構
造により指示される。アクティブノードは、最も適切に
マッチングする仮定を現時点で示しているノードであ
る。アクティブノードエンベロープは、これらの現在ア
クティブ状態であるノードの連結リストである。アクテ
ィブノードエンベロープは、動的構造を示している。ノ
ードは、アルゴリズムが進行するにつれて、アクティブ
ノードリストに加わるかまたは該リストから出ていく。
ノードは、自分の確率スコアがビーム検索閾値よりも高
ければアクティブリストに加えられ、かつ、以前のアク
ティブノードは、自分のスコアがこの閾値よりも低けれ
ばアクティブリストから切り捨てられる。アクティブノ
ードの確率スコアを計算するために、アルゴリズムは、
以下の動的プログラミング式を各々のアクティブノード
に適用する。ｓ_k（ｔ）＝ｍａｘ｛ｓ_φ（ｔ−１）＋ａ_φ,k｝＋ｄ
_k（ｔ）ここで、ｓ_k（ｔ）は時刻ｔにおけるスコアであり、φ
はノードの親である。

【００２６】アルゴリズムがどのように語彙ツリーを横
断するのかを理解するために、幾つかの定義を行うべき
である。語彙ツリーを参照すると、ノードの「深さ」
は、そのノードの左側にある状態番号として定義され
る。図４ａを参照のこと。番号が大きくなるほど、ノー
ドの深さが増す。語彙ツリーの「列」は、同じ深さの一
式のノードとして定義される。各々の列に対して、ノー
ドに関する任意の順位関係が定義される。「アクティブ
エンベロープ」または「アクティブノードリスト」は、
アクティブ状態であるノードのリストであり、これらの
ノードは、ノードｎが親ｎ^*を持つノードでありかつノ
ードｋが親ｋ^*を持つノードであればｋ^*＜ｎ^*がｋ＜ｎ
を包含する、というような関係が与えられている場合に
順序づけられる。語彙ツリー内における所定の深さの全
てのノードをほぼ任意の順序で処理できるので、メモリ
キャッシュの性能を最大にする横断シーケンスが選択さ
れる。すなわち、プロセッサが所定のアドレスをメモリ
からロードすると、その内蔵キャッシュ機構は、さら
に、メモリからロードされているアドレスのすぐ後に続
く隣接アドレスのブロックをロードする。その後、これ
らの後続アドレスのいずれかにアクセスする必要があれ
ば、プロセッサは、メモリからの代わりにそのキャッシ
ュからこれらにアクセスし、これにより、関連するメモ
リアクセス時間を消去する。本発明では、キャッシュの
この特徴を利用するように、語彙ツリーを横断する。語
彙ツリーは、キャッシュに記憶された情報を利用する方
向にアルゴリズムがツリーを横断するように符号化され
る。

【００２７】さらに例示を行うために、図２のノード
を、メモリ内における隣接した配列の形で順序づけるこ
とにする。これにより、好ましい実施形態は、メモリヒ
ープの昇順（increasing ordr）でノードを横断する。
好ましい横断経路は、図４ｂに示されている。横断は最
も深いアクティブノードにおいてスタートし、かつ次
に、所定の列内において昇順で進行する。いったん、列
内の全てのアクティブノードが横断されると、経路は以
前の列へ進行する。

【００２８】当該の好ましいアルゴリズムは、以下の段
階によって進行する：１．語彙ツリーにおける最も深いアクティブノードから
スタートする。２．Ｂを、子の列のアクティブリストにおける最も小さ
な等級のノードとする。３．アクティブリストを昇順で横断する。４．現在のノードｋの各々の子をｃとする。５．Ｂ＜ｃならば、この条件が偽となるまでＢをインク
リメントする。６．Ｂ＝ｃならば、動的プログラミング式を適用する。７．Ｂ＞ｃならば、単にｃをｎの前にリンクする。８．深さをデクリメントし、かつ、親の列を処理する。

【００２９】前述のアルゴリズムは、音声分析モジュー
ルの後続の出力を、その語彙ツリー内のエントリーと比
較し、各々のノードにおいて、どのエントリーが入力音
声の発語とマッチングする最も高い確率を有しているか
を決定する。ツリーの各々のノードを網羅的に分析する
ことが可能であるが、この闇雲な力ずくでの取り組み
は、非常に時間を浪費して非効率的である。好ましいア
ルゴリズムは、入力された発語とマッチングする最も高
い確率を現時点で有しているノードを識別することによ
り、該アルゴリズムの検索空間を、各々の連続的なイテ
レーションにおいて動的に低下させる。アルゴリズム
は、これらのノードを次のアクティブノードとして識別
する。アルゴリズムは、これらのノードを、および、こ
れらのノードのみを、その後続のイテレーションにおい
て用いる。

【００３０】前記アルゴリズムは、各々のノードを訪れ
る際に、そのノードの確率スコアを計算する。ループ確
率および入力確率がｌ_k＝ａ_k,k，ｉ_k＝ａ_k*,k（ここ
で、“ｋ＊”は“ｋ^*”を表すものとする）として定義
されれば、時刻ｔ＋１におけるスコアｓ_k（・）について
は、ｓ_k(ｔ＋１) ＝ｍａｘ{ｓ_k(ｔ)＋ｌ_k，ｓ_k*(ｔ)＋ｉ_k}
＋ｄ_k(ｔ) （ここで、“ｋ＊”は“ｋ^*”を表すものとする）とし
て計算することができる。

【００３１】前記アルゴリズムは、ｔ，ｔ−１の代わり
にｔ，ｔ＋１を用いて、「逆方向」の反復（recursio
n）の代わりに「順方向」の反復を表すことを特筆して
おく。最終的な目的は、バックポインター（すなわち、
親ノードに関する情報）の使用を回避するために、子ノ
ードのみに関する（すなわち、ｋからではなくｋ^*から
の）情報に基づいて、スコアを計算することである。

【００３２】前記アルゴリズムは、「トポロジースコ
ア」ｒ_k（ｔ）＝ｓ_k（ｔ）−ｄ_k（ｔ）と、「部分的ト
ポロジースコア」ｒ^∧（ｔ）＝ｓ_k（ｔ）＋１とを定義
する。ｋ^*がアクティブリストに属していない場合に、
部分的トポロジースコアはトポロジースコアに等しいこ
とを特筆しておく。アルゴリズムは、以下の工程を実行
することにより、アクティブエンベロープ内のセルを横
断する。１．スコアｓ_k←ｒ_k＋ｄ_k（音響的マッチング）を計算
する。２．継承（bequeathal）：各々の子ｃに対して、ｒ_c←
ｍａｘ{ｓ_k＋ｉ_c，ｒ_c}。前記子のスコアフィールド
は、部分的スコアｒ^∧を保持すると仮定される。３．自己アクティブ化（self-activation）：ｒ_k←ｒ^∧
_k＝ｒ_k＋ｌ_k。スコアフィールドは、現在、部分的トポ
ロジースコアを保持している。何のスコア継承も発生し
なければ、これは、さらに、ｔ＋１に対するトポロジー
スコアとなる。

【００３３】前述の段階により示されるように、各々の
セルｋは、各々のフレームにおけるそれ自身のトポロジ
ースコアと音響的スコアとを計算する。この特性は、
「自己アクティブ化」と称される。各々のセルは、自分
自身をアクティブ状態にし、次に、その全ての子をアク
ティブ状態にする。子が既にアクティブ状態にされてい
れば、親セルのスコアはその子に継承される。前記アル
ゴリズムがｓ_kと次のアクティブノードとを変数に保っ
ていれば、継承と自己アクティブ化とを逆転させること
もできる。このような場合に、ノードからのデータにつ
いては、自己アクティブ化後にメモリキャッシュから直
ちに廃棄することができる。継承プロセス中にノードは
その子に対して直接的なアクセスを有することを特筆し
ておく。このことは、前述したようなアクティブエンベ
ロープが構成される方法により保証される。

【００３４】＜アルゴリズムの動的性質およびアクティ
ブノードエンベロープの伝搬＞前述したように、アクテ
ィブノードエンベロープは動的構造である。アクティブ
ノードは、アルゴリズムが進行する際に変化する。アク
ティブノードエンベロープが語彙ツリー上に重ね合わせ
られるときに、アクティブノードエンベロープは、アル
ゴリズムが時間とともに動作する際に伝搬する（propag
ate）と思われる。この概念は、図４ａに図式的に示さ
れている。

【００３５】図４ａは、各々のノードにおいて、文字の
代わりに単語が示されている場合の例を示している。前
述の例では、個々の単語認識装置が示されていた。ツリ
ーの各々のノードは、辞書の単語を具備する文字または
音声単位を示していた。しかしながら、本発明の技術
を、個々の単語の認識装置および連続的な音声の認識装
置の両方において利用できることが想起される。これに
より、図４ａは、ツリー構造が連続的な音声の認識装置
内でどのように見えるのかを示しており、この場合に、
個々の単語は各々のノードにおいて示され、かつ、その
出力は文または語句となる。図４ａのツリー７０を検査
することにより、例えば、“the quick brown fox”と
いう語句が、適切なツリーの横断によりどのように構成
されるのかが分かる。

【００３６】図４ａは、アクティブノードエンベロープ
が時間とともにどのように伝搬するのかを示している。
タイムライン７２は、例示的なツリーに関する次のアク
ティブノードエンベロープが、最初の時刻ａと後の時刻
ｂとにおいて、どのように現れるのかを示している。時
刻ａは、“the”という単語が音声認識段階１０（図
１）において分析された直後の“the quick brown fo
x”という発語内におけるポイントに対応している。時
刻ｂは、“brown”という単語が処理されたポイントに
対応している。時刻ａにおいて、アクティブエンベロー
プは、参照番号７４において示されており、このポイン
トにおいて部分的に分析された発語とマッチングする可
能性が高いアクティブエンベロープに対応する。後の時
刻ｂにおいて、アクティブエンベロープは、参照番号７
６に示されるように外側に伝搬している。参照番号７
４，７６におけるアクティブノードエンベロープは、２
つの異なる時刻（時刻ａおよび時刻ｂ）のポイントにお
けるアクティブノードを示している。アルゴリズムは、
これらのアクティブノードに基づいて動作し、次の連続
するイテレーションのために語彙ツリー内へのエントリ
ーポイントを定義するために現在アクティブ状態のノー
ドを用いる。

【００３７】この例により示されるように、次のアクテ
ィブノードは、ルートノードにおいて石が水たまりに落
とされた場合に波面（wavefront）が伝搬するように展
開または伝搬し、これにより、波が時間の経過とともに
外側へ伝搬する。単一単語の認識装置において、次のア
クティブノードの波面は、実際に、このような外側への
波状様式で伝搬する。これは、個々の各ノードを一度だ
け用いる必要があるためである。しかしながら、連続的
な音声の認識装置のような、より一般的な場合には、ノ
ードを再度訪れることができ、かつこれにより、次のア
クティブノード波面は、必ずしもルートノードから離れ
ていく方向には伝搬しない。この理由を理解するため
に、連続的な音声の認識装置においては、話し手は単語
を二度以上発することができることを理解すべきであ
る。これにより、“the quick brownquick brown fox”
という発語によって、次のアクティブノード波面が、ル
ートノードに向かって瞬時に伝搬する。

【００３８】図５は、当該の好ましい検索アルゴリズム
の動的性質を示している。明確には、図５は、時刻＝
０、時刻＝１．．．時刻＝４という異なる時刻における
語彙ツリーのサブセットを示している。フレーム型（fr
ame-based）認識装置において、これらの異なる時刻
は、連続するフレームに対応している。アルゴリズム
は、アクティブエントリーポイント矢印により示される
ように、時刻＝０のルートノードにおいて始まる。時刻
＝０において、ルートノードは、唯一のアクティブノー
ドである。アルゴリズムは、次に、ルートノードの子ノ
ードを識別するために進行し、かつ、これらの子ノード
もまた、時刻＝１においてアクティブノードとなる。ア
ルゴリズムは、アクティブエンベロープ横断経路を用い
て、あるアクティブノードから次のアクティブノードを
訪ねる。この経路は、常に、最も深いノード（すなわ
ち、ルートノードから最も遠いノード）において始ま
る。

【００３９】時刻＝１において、アクティブノードエン
トリーポイントは、参照番号１００を付された矢印によ
り指定される。アクティブノード横断経路は、次に、矢
印１０２，１０４により示されるように進行する。例示
目的のために、どのように個々のノードがアクティブ状
態になり、かつ次に、ビーム検索プロセスにより消去さ
れるのかを示す例示的な確率スコアが用いられる。時刻
＝１において、ルートノードが１００の確率スコアを有
していると仮定する（全てのスコアは、図５の括弧内に
示されている）。さらに、他の２つのアクティブノード
が、６０およ８０の確率スコアをそれぞれ有していると
仮定する。アルゴリズムは、所定の時間フレームにおけ
る最適スコアからの最大偏差として定義される「ビーム
サイズ」を用いるビーム検索技術を用いる。この例のた
めに、ビームサイズが３０であると仮定する。ビーム検
索アルゴリズムは、ノードの確率スコアが、最も高い確
率のノードのスコアよりも、ビームサイズ分よりも大き
な差を有して低ければ、そのノードがさらなる処理から
消去されることを条件指定する。すなわち、ノードの確
率スコアが最大スコア−３０よりも低ければ、そのノー
ドは後続の処理においてスキップされる。

【００４０】時刻＝０において、最大確率スコアは、ル
ートノードと関連したスコア、すなわち、１００の確率
である。ビームは１００−３０、すなわち７０である。
６０のスコアを有するノードはビームよりも低く、これ
により、ビーム検索アルゴリズムにより切り捨てられ易
いことを特筆しておく。したがって、時刻＝２において
は、ルートノード、および、アクティブノードエントリ
ー矢印１００により指されるノードという、２つのアク
ティブノードのみが存在する。確率スコアは各々の時間
間隔において再計算されるので、各々のアクティブノー
ドに対する新たな値が計算される。ルートノードが１６
０の確率スコアを有しており、かつ、もう一方のアクテ
ィブノードが１２０の確率スコアを有していると仮定す
る。さらに、時刻＝２において、アクティブノード横断
経路が矢印１００において入り、かつ、矢印１０２によ
り示されるように進行することを特筆しておく。

【００４１】時刻＝２においてビームを計算することに
より、アルゴリズムは、ビームが１６０−３０＝１３０
であると決定する。１２０の確率スコアを有するノード
はビーム値よりも低いので、さらなる処理から切り捨て
られる。これにより、ルートノードノードのみが、ビー
ムの切り捨てから生き残る。

【００４２】時刻＝３において、ルートノードはアクテ
ィブ状態のままであり、これにより、その子ノードもま
たアクティブ状態である。この場合には、時刻＝２にお
いてビーム検索により切り捨てられた最も高い子ノード
は、アクティブ状態のルートノードの子であるために、
時刻＝３において再アクティブ化されていることを特筆
しておく。さらに、アクティブノードエントリーポイン
ト１００は最も深いノードを識別し、かつ、残りのアク
ティブノード矢印１０２，１０４はアクティブノード経
路がどのように接続されかつ定義されるのかを示すこと
を特筆しておく。この例において、図３に示されるよう
に、ルートノードが２００の確率スコアを有しており、
エントリーポイントノードが２２０の確率スコアを有し
ており、かつ、残りのノードが２４０の確率スコアを有
していると仮定する。ビーム計算２４０−３０＝２１０
は、今度はルートノードがさらなる処理から切り捨てら
れるという結果となる。その理由は、ルートノードの確
率スコアがビーム値よりも低いためである。これによ
り、時刻＝４において、ルートノードは、もはやアクテ
ィブ状態ではない。しかしながら、今度は最も低いノー
ドに関連する子ノードがアクティブ状態にされる。エン
トリーポイント１００は最も深いノードへ移動する。該
ノードは、偶然に、以前の最も深いノードからの子ノー
ドの１つである。矢印１０２，１０４，１０６は、アク
ティブノード経路がどのように横断されるのかを示す。
前述の場合のように、エントリーポイントは常に最も深
いノードに存在し、かつ、横断は、最も深いノードが最
初に横断されかつ横断経路が該最も深いノードの親ノー
ドとともに終了するように進行する。

【００４３】留意されている前述の例とともに、以下
に、図６のフローチャートと、付録Ｉにおいて現れる詳
細な疑似コードリストとを参照して、当該の好ましいア
ルゴリズムについて説明する。図６を参照すると、好ま
しいアルゴリズムは、段階２００において、現在のアク
ティブノードリストの親ノードを、ビームスコアよりも
低いスコアを有しているためにさらなる考察から除去す
る（すなわち、ビームアウト（beam out）する）必要が
あるかどうかを調べることにより始まる。次に、アクテ
ィブノードリストは、段階２０２に示されるように横断
される。段階２０４において、音響的マッチングが計算
され、かつ、ビームが更新される。次に、段階２０６に
おいて、アルゴリズムは親から子へ動的プログラムマッ
チングを実行し、かつ、段階２０８において、次のアク
ティブノードリストを時刻ｔ＋１の間に横断できるよう
に接続が更新される。次に、この手順は、段階２００へ
戻ることによって反復される。

【００４４】図６のフローチャートに対応する段階は、
下記の付録Ｉに示される疑似コードにおける見出しリス
トとして挿入されている。付録IIは、語彙ツリーを発生
させるために用いられるアルゴリズムのための疑似コー
ドリストを与える。

【００４５】連続的な音声の認識装置において、プロセ
ッサは、音響的マッチングと、検索アルゴリズムそれ自
体と、言語のモデリングとの計算に時間を費やす必要が
ある。言語モデルペナルティの遅れた適用に起因して、
検索空間を吐き出す（spit）必要がある。したがって、
語彙ツリーに埋め込まれた仮定を記憶することはもはや
不可能である。しかしながら、ワードインターナル文脈
依存モデル（word-internal context-dependent model
s）が用いられれば、静的語彙ツリーに関する１つの例
が必要であるのみである。さらに、ユニグラム（unigra
m）言語モデル（ＬＭ）を前因子とする（pre-factor）
ことができる。これらのモデルは、ユニグラムまたはバ
イグラム（bigram）言語モデルのルックアヘッド（look
ahead）のために有用である。さらに、語彙ツリー内に
おける膨大な数のノードは、同じＬＭルックアヘッドス
コアを共有する。

【００４６】

【表１】

【表２】

【００４７】前述のことから、本発明が、音声認識シス
テムにおける動的プログラミングマッチングを実行する
ために、非常に小型の効率的なデータ構造およびアルゴ
リズムを提供することが分かる。このアルゴリズムおよ
びデータ構造については、種々の動的プログラミングお
よび認識のアプリケーションにおいて、典型的なビタビ
アルゴリズムの代わりに用いることができる。語彙ツリ
ー構造およびアクティブノード横断技術は、メモリおよ
び／または処理速度に制約を与えている認識システムに
おいて非常に有利に用いることができる、メモリに関し
て非常に効率的なプロセスという結果となる。したがっ
て、本発明は、埋め込みシステム、顧客製品、および、
大容量メモリや高速プロセッサを利用できない場合の他
の認識アプリケーションにおいて有用である。

【００４８】本発明について、その好ましい実施形態の
形で説明してきたが、その一方で、本発明については、
添付の請求項に示された本発明の真意から逸脱すること
なく変更がなされ得ることが理解される。

【図面の簡単な説明】

【図１】本発明によって構成された復号器を、モデル
ベースの認識装置を実施するために用いることができる
方法を示す音声認識装置のブロック図である。

【図２】本発明において用いられる語彙ツリーに関す
る、当該の好ましいデータ構造を示す図である。

【図３】語彙ツリーの各々のノードを示すために用い
られるデータ構造図である。

【図４ａ】実行される基本的なタスクを示すタイムラ
イン図である。

【図４ｂ】アクティブ状態のエンベロープが横断され
る方法を示すツリー図である。

【図５】アルゴリズムの動的性質を理解するために有
用な一連のツリー図である。

【図６】アルゴリズムのフローチャートである。

【符号の説明】

１０音声分析および特徴抽出段階１２パターン分類段階１４テンプレートまたはモデルディレクトリ１６決定段階２０隠れマルコフモデル２２自己ループ遷移確率２４他の状態への各々のループの遷移確率２６ガウス混合密度２８混合指数ポインタ３０語彙ツリー３２平坦化された連結リスト７０ツリー７２タイムライン７４，７６アクティブノードエンベロープ

───────────────────────────────────────────────────── フロントページの続き (72)発明者パトリック・ニュイエンアメリカ合衆国・93103・カリフォルニア・サンタバーバラ・イー・コタ・ストリート・1117・ナンバーエーＦターム(参考） 5D015 HH05 HH08 HH23

Claims

【特許請求の範囲】

【請求項１】プロセッサによりアクセス可能であり
かつコンピュータにより読み取り可能なメモリにおいて
実施されるツリーデータ構造と、前記プロセッサにより実施される横断アルゴリズムとを
具備し、前記ツリーデータ構造は、ルートノードと、該ルートノ
ードからトポロジー的に最も遠くにある最も深い子の世
代を包含する複数の親−子世代とをトポロジー的に定義
する複数のノードを有し、前記横断アルゴリズムは、一式の横断規則に基づいて前
記ノードを横断し、これにより、所定の世代のノード
は、該所定の世代の親ノードが処理される前に処理さ
れ、最も深い子の世代は最初に処理され、かつ、各々の
世代のノード間の横断は同じトポロジー方向に進行する
ことを特徴とする改良された動的プログラミングシステ
ム。
【請求項２】前記ツリーデータ構造は、隣接したメ
モリ位置を各々の世代のノードが占有する平坦な表示と
して、前記メモリ内で符号化されることを特徴とする請
求項１に記載の改良された動的プログラミングシステ
ム。
【請求項３】前記ツリーデータ構造は、連結リスト
によって示されている親−子世代によって、前記メモリ
内で符号化されることを特徴とする請求項１に記載の改
良された動的プログラミングシステム。
【請求項４】前記ツリーデータ構造は、隣接したメ
モリ位置を各々の世代のノードが占有し、かつ、同じ親
の子の間におけるトポロジー的な境界を指定する証印を
該各々の世代のノードが有する平坦な表示として、前記
メモリ内で符号化されることを特徴とする請求項１に記
載の改良された動的プログラミングシステム。
【請求項５】前記ノードのうちの選択されたものを
アクティブノードとして指定するための機構をさらに具
備することを特徴とする請求項１に記載の改良された動
的プログラミングシステム。
【請求項６】前記ノードのうちの選択されたものを
アクティブノードとして指定するための機構は、前記ツ
リーデータ構造に関連したアクティブエンベロープデー
タ構造を具備することを特徴とする請求項５に記載の改
良された動的プログラミングシステム。
【請求項７】前記ノードのうちの選択されたものを
アクティブノードとして指定するための機構をさらに具
備し、前記横断アルゴリズムは、アクティブノードのみが処理
される横断規則を有することを特徴とする請求項１に記
載の改良された動的プログラミングシステム。
【請求項８】前記ツリーデータ構造は、語彙目録を
示す語彙ツリーであることを特徴とする請求項１に記載
の改良された動的プログラミングシステム。
【請求項９】前記ツリーデータ構造は、音声認識装
置の語彙目録を示す語彙ツリーであることを特徴とする
請求項１に記載の改良された動的プログラミングシステ
ム。
【請求項１０】プロセッサによりアクセス可能であ
りかつコンピュータにより読み取り可能なメモリにおい
て実施されるツリーデータ構造と、ノードのうちの選択されたものをアクティブノードとし
て指定するための機構と、前記プロセッサにより実施される横断アルゴリズムとを
具備し、前記ツリーデータ構造は、複数のノードを有し、前記横断アルゴリズムは、前記アクティブノードのみが
処理される一式の横断規則に基づいて前記ノードを横断
することを特徴とする改良された動的プログラミングシ
ステム。
【請求項１１】前記ノードのうちの選択されたもの
をアクティブノードとして指定するための機構は、前記
ツリーデータ構造に関連したアクティブエンベロープデ
ータ構造を具備することを特徴とする請求項１０に記載
の改良された動的プログラミングシステム。
【請求項１２】前記横断アルゴリズムは、横断され
るノードに尤度スコアを割り当てる動的プログラミング
プロセスを有することを特徴とする請求項１０に記載の
改良された動的プログラミングシステム。
【請求項１３】前記ノードのうちの選択されたもの
をアクティブノードとして指定するための機構は、前記
アクティブノードを指定するために、前記尤度スコアを
用いることを特徴とする請求項１２に記載の改良された
動的プログラミングシステム。
【請求項１４】前記横断アルゴリズムは、横断され
るノードに尤度スコアを割り当てる動的プログラミング
プロセスを有し、前記ノードは、該ノードの尤度スコアが所定の閾値より
も高ければアクティブノードとして指定されることを特
徴とする請求項１０に記載の改良された動的プログラミ
ングシステム。
【請求項１５】前記所定の閾値は、最も高い尤度ス
コアに基づいて計算されることを特徴とする請求項１４
に記載の改良された動的プログラミングシステム。
【請求項１６】前記ノードのうちの選択されたもの
をアクティブノードとして指定するための機構は、アク
ティブエンベロープを定義し、かつ、所定の閾値よりも
低い尤度スコアを有するノードを除去することにより、
該アクティブエンベロープを伝搬するための一式の規則
を用いることを特徴とする請求項１０に記載の改良され
た動的プログラミングシステム。
【請求項１７】前記ノードのうちの選択されたもの
をアクティブノードとして指定するための機構は、アク
ティブエンベロープを定義し、かつ、所定の閾値よりも
高い尤度スコアを有するノードを挿入することにより、
該アクティブエンベロープを伝搬するための一式の規則
を用いることを特徴とする請求項１０に記載の改良され
た動的プログラミングシステム。
【請求項１８】ノードを挿入するための前記一式の
規則は、前記アクティブエンベロープ内のノードが該ノ
ードのトポロジー指数により分類されることを保証する
ことを特徴とする請求項１７に記載の改良された動的プ
ログラミングシステム。
【請求項１９】前記プロセッサはキャッシュを用
い、前記ツリーデータ構造は、該ツリーの横断が前記キャッ
シュ内に進行するように、前記メモリ内で符号化される
ことを特徴とする請求項１に記載の改良された動的プロ
グラミングシステム。
【請求項２０】前記プロセッサはキャッシュを用
い、前記ツリーデータ構造は、該ツリーの横断が前記キャッ
シュ内に進行するように、前記メモリ内で符号化される
ことを特徴とする請求項１０に記載の改良された動的プ
ログラミングシステム。