JPH11242495A

JPH11242495A - 音声認識のための隠れマルコフ・モデルの適合技術

Info

Publication number: JPH11242495A
Application number: JP10344998A
Authority: JP
Inventors: Chin-Hui Lee; リーチン−フイ; Shinoda Koichi; コーイチシノダ
Original assignee: Lucent Technologies Inc
Current assignee: Nokia of America Corp
Priority date: 1997-12-05
Filing date: 1998-12-04
Publication date: 1999-09-07
Anticipated expiration: 2018-12-04
Also published as: US6151574A; EP0921519A3; DE69827586D1; EP0921519A2; EP0921519B1; JP3742236B2; DE69827586T2

Abstract

(57)【要約】【課題】音声認識システムはユーザによる音声の特徴
を学習段階中に学習し、その成績を改善する。【解決手段】ユーザの音声から導出される適合データ
およびその認識結果は、その学習段階中に修正される。
音声認識システム中で使用される隠れマルコフ・モデル
（ＨＭＭ）を特徴付けるパラメータは、この適合データ
に基づいて修正される。このために、ＨＭＭパラメータ
空間中に階層構造が定義される。この構造は、複数の層
をもつ木構造の形式で、各層には一つまたは複数のノー
ドを含むと推定できる。各層上の各ノードは別の層上の
少なくとも一つのノードと連結される。木構造中の各ノ
ードはＨＭＭパラメータのサブセットを表し、適合デー
タから導出される確率尺度と関連する。とくに、各リー
フ・ノードは一つずつの異なるＨＭＭパラメータを表す
が、これはそのリーフ・ノードに関連する確率尺度に源
を求めることができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識システム
および方法に関し、特に音声認識の学習段階における音
響入力に適合される隠れマルコフ・モデル（ＨＭＭ）を
基盤とした音声認識のためのシステムおよび方法に関す
る。

【０００２】

【従来の技術、及び、発明が解決しようとする課題】通
信、データ処理および類似のシステムにおいては、ユー
ザがそれらのシステムの一つを操作しながら肉体的にあ
る活動（例えば、自動車の運転）に携わることが予想さ
れる場合、音響設備を用いたユーザ・インターフェース
に有利性が認められる。このようなシステムにおいて一
定の作業を実施するために人間の音声を認識する技術が
開発されている。

【０００３】そのような技術の一つによれば、入力音声
は個々の単語を構成する音素に対応する特徴ベクトルに
よって表される信号フレーム中で分析される。音素は隠
れマルコフ・モデル（ＨＭＭ）を特徴とし、未知の発声
に対応するそれぞれの音素の連接に最尤法的に最も適し
たＨＭＭの数列を特定するためにビタビ・アルゴリズム
が使用される。

【０００４】各ＨＭＭが、例えば、ガウスの分布を特徴
とする混合構成部分のようなモデル・パラメータで構成
されることはよく知られている。音声認識システムにお
ける学習段階では、ユーザの特定の音声特性に適合させ
るためにＨＭＭをユーザの入力音声に適合させ、こうし
て音声認識の精度を高める。従来の技術では、ＨＭＭの
適合のための二つの周知の方法、すなわちベイズ適合方
法および変換をベースとする方法とが採用されてきた。

【０００５】ベイズ適合方法によれば、従来の分布がＨ
ＭＭにおけるモデル・パラメータとみなされ、モデル・
パラメータの最大事後（ＭＡＰ）推定値が計算される。
この方法の詳細については、Ｃ．Ｌｅｅ他、”Ａｓ
ｔｕｄｙｏｎＳｐｅａｋｅｒＡｄａｐｔａｔｉｏ
ｎｏｆｔｈｅＰａｒａｍｅｔｅｒｓｏｆＣｏ
ｎｔｉｎｕｏｕｓＤｅｎｓｉｔｙＨｉｄｄｅｎＭ
ａｒｋｏｖＭｏｄｅｌｓ，” ＩＥＥＥＴｒａｎｓ
ａｃｔｉｏｎｓｏｎＳｉｇｎａｌＰｒｏｃｅｓｓ
ｉｎｇ，Ｖｏｌ．３９，Ｎｏ．４，１９９１
年４月、ｐｐ．８０６−８１４；およびＪ．Ｇａｕｖ
ａｉｎ他、”ＭａｘｉｍｕｍａＰｏｓｔｅｒｉｏｒ
ｉＥｓｔｉｍａｔｉｏｎｆｏｒＭｕｌｔｉｖａｒ
ｉａｔｅＧａｕｓｓｉａｎＭｉｘｔｕｒｅＯｂｓ
ｅｒｖａｔｉｏｎｓｏｆＭａｒｋｏｖＣｈａｉｎ
ｓ，” ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＳ
ｐｅａｃｈａｎｄＡｕｄｉｏＰｒｏｃｅｓｓｉｎ
ｇ，Ｖｏｌ．２，Ｎｏ．２、１９９４年、２９１〜
２９８ページを参照のこと。ベイズ適合方法は、従来の
分布の知識を基礎としたＭＡＰ推定値を利用するため、
そのような知識に依拠しない。例えば、最尤（ＭＬ）推
定値を利用するものと比べて、適合のための入力音声デ
ータ所要量が少ない。

【０００６】しかし、適合データが不足する場合は、ベ
イズ適合方法よりも変換をベースとする方法の方がＨＭ
Ｍの適合効率が高いだろう。変換をベースとする方法に
よれば、別々のＨＭＭの間の相関関係を調査するため
に、例えば、推移または疑似変換などの変換が、音響特
性空間、別名「ＨＭＭパラメータ空間」中に定義され、
その相関関係が、適合データの不足にも関わらずＨＭＭ
の適合を支援する。その変換を特徴付けるパラメータ
は、その適合データを使用して推定される。変換をベー
スとする方法の実施に際しては、音響特性空間を複数の
副空間に分け、各副空間について変換パラメータを推定
することが望ましい。しかし、この方法で使用される変
数変換パラメータの数が少なく改善が制約されるので、
変換をベースとする方法を使用する音声認識の成績は適
合データの量の増加にともなっての顕著な改善は見られ
ない。

【０００７】ベイズ適合方法を変換をベースとする方法
と組み合わせて音声認識成績を改善する試みがなされて
いる。この試みについては、Ｃｈｉｅｎ他、”Ｉｍｐｒ
ｏｖｅｄＢａｙｅｓｉａｎＬｅａｒｎｉｎｇｏｆ
ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌｓｆｏｒ
ＳｐｅａｋｅｒＡｄａｐｔａｔｉｏｎ，” ＩＣＡ
ＳＳＰ−９７、１９９７、１０２７〜１０３９ページに
記されている。しかし、このような試みの成功は、音響
特性空間中の副空間の数をさまざまな量の適合データに
合わせて最適化する、という通常では非現実的な要件に
依存する。

【０００８】このため、利用可能な適合データの量に関
わらず実現可能な方法でベイズ適合方法を変換をベース
とする方法と組み合わせて音声認識成績を改善するとい
う需要が存在する。

【０００９】

【課題を解決するための手段】本発明によれば、音声認
識システムにおけるＨＭＭは「構造的最大事後（ＳＭＡ
Ｐ）」方法を用いて学習段階中に適合される。本発明の
方法によれば、木構造などの複数のレベルをもつ階層構
造がＨＭＭパラメータ空間中に構築される。このような
構造は、その構造のそれぞれのレベルに関連した変換パ
ラメータを特徴とする。あるレベルに関連する変換パラ
メータは、「階層上の前段階」と称される、その下のレ
ベルに関連する変換パラメータについての従来の知識を
表す。構造の各レベルに関連する変換パラメータは、適
合データおよびその上のレベルからの階層上の前段階に
基づいて推定される。ＨＭＭパラメータはその構造の最
下層レベルに関連する変換パラメータに基づいて更新さ
れ、したがって、これらは、少なくとも最下層レベル以
外のレベルに関連する変換パラメータの関数である。

【００１０】利用できる適合データの量を所与とする
と、本発明のＳＭＡＰ方法は、前述の階層上の前段階の
使用を特徴とするベイズ適合方法を前述の階層構造の使
用を特徴とする変換をベースとする方法と効果的に組み
合わせ、協同してＨＭＭ適合の効果を発揮するので有利
である。

【００１１】

【発明の実施の形態】図１は、本発明の原理を具体化し
た音声認識システム１００を示す。図１に示すとおり、
システム１００はアナログ・デジタル（Ａ／Ｄ）変換器
１０３、特徴抽出器１０５、エンドポイント検知器１１
３、音声認識装置１１７、単語モデル・プロセッサ１２
５、スイッチ１３９、および遅延要素１４１を含む複数
の機能ブロックを含む。システム１００の各ブロックの
機能がそれぞれ別のプロセッサによって発揮されること
も、あるいは数個またはすべてのブロックの機能性が同
一のプロセッサによって発揮されることも可能である。
しかも、各段階に複数の処理要素を含めることもでき
る。それらの段階はパイプラインで結ばれ、それらの操
作は同期をとって実施される。

【００１２】特に、一連の発声された言葉を含む入力音
声は、マイクロホン（図示せず）を通ってシステム１０
０のＡ／Ｄ変換器１０３へ送られる。変換器１０３は従
来の方法で入力音声のサンプルをとる。そのデジタル・
サンプルは、次に特徴抽出器１０５へ送られる。

【００１３】そのデジタル・サンプルを受け取ると、特
徴抽出器１０５は受け取ったサンプルを約２０ｍｓの長
さの音声フレームに整理し、各フレームについてそのフ
レーム中のエネルギー量と一組の短スペクトル・ベクト
ル、例えば、線形予測コーディング（ＬＰＣ）パラメー
タを測定する。このとき、ＬＰＣパラメータは、音声サ
ンプルのフレームが蓄積される一定の時間にその信号ス
ペクトルにもっともよく適合する全極モデルのスペクト
ルを指定する。ＬＰＣパラメータに基づき抽出器１０５
はフレームごとの特徴ベクトルを作成するが、それは、
例えば、１２個のケプストラム特性、１２個のデルタ・
ケプストラム特性、および１個の定差エネルギー特性を
備える。周知の方法では、これらのケプストラムおよび
デルタ・ケプストラム特性は、その音声フレームのスペ
クトルおよびその時間変化を特徴付ける。定差エネルギ
ー特性は、その音声フレームにおけるその前のフレーム
からのエネルギーの変化量を示す。

【００１４】従来の設計におけるエンドポイント検知器
１１３は、特徴抽出器１０５によるエネルギー測定と合
わせて定差エネルギー特性を音声信号の始点と終点を判
断するために使用する。これは次に、２５の特性をそれ
ぞれの特徴ベクトルに含んだデータ信号を、エンドポイ
ントの判断とともに従来の設計の音声認識装置１１７へ
渡す。このようなデータ信号および本発明による単語モ
デル・プロセッサ１２５から供給された単語モデルに基
づき、認識装置１１７が発声された言葉が何であるかを
判断する。

【００１５】なかでもプロセッサ１２５は、例えば、こ
の時点での連続密度（ＣＤ）ＨＭＭなどの隠れマルコフ
・モデル（ＨＭＭ）をさまざまな発声された言葉につい
て供給する。ビタビ・アルゴリズムに基づき、認識装置
１１７は未知の発声に対応するそれぞれの音素の連接に
最尤法的に最も適したＣＤＨＭＭの数列を特定する。こ
のような特定プロセスは、従来の方法での動的計画法に
よって実現される。

【００１６】ここで、システム１００は二つのモード、
すなわち学習モードおよび通常操作モードで動くことに
留意されたい。現在のモードである通常操作モードで
は、スイッチ１３９は一連の認識された言葉を認識装置
１１７からシステム１００の出力へとリレーするために
第１ポジションにセットされている。

【００１７】システム１００の製造中には、プロセッサ
１２５中のＣＤＨＭＭのすべてのモデル・パラメータ
は、多数の話者による音声のサンプルに現われた練習デ
ータをつかって従来の方法であらかじめ定義されてい
る。しかし、ユーザがシステム１００を音声認識のため
にはじめて使用するとき、システム１００は、ユーザの
特殊な音声特徴に合わせて調整するためにＣＤＨＭＭが
ユーザの入力音声に適合され、こうしてシステム１００
の認識の正確性を一層高める学習モードを経験する。

【００１８】この時点での無監督学習を実施する際に、
スイッチ１３９は学習モードの第２ポジションにセット
され、一連の認識された言葉を認識装置１１７からプロ
セッサ１２５へ戻す。無監督学習によれば、入力音声は
管理されず、ユーザは監督学習の場合のように一定の言
葉だけを話すように制限されることはない。学習モード
では、遅延要素１４１が入力音声を表す認識装置１１７
への入力に対して適当な量の遅延を与え、それが対応す
る認識された言葉と同期するようにする。プロセッサ１
２５は認識装置１１７への入力および対応する認識され
た言葉を、その中でＣＤＨＭＭを適合させるための「適
合データ」として使用する。

【００１９】本発明によれば、音声認識システムにおけ
るＨＭＭ、例えば、システム１００は、「構造的最大事
後（ＳＭＡＰ）」方法を用いて学習段階中に適合され
る。本発明の方法によれば、木構造などの複数のレベル
をもつ階層構造が、ＨＭＭパラメータ空間、別名「音響
特性空間」中に構築される。このような構造は、その構
造のそれぞれのレベルに関連した変換パラメータを特徴
とする。あるレベルに関連する変換パラメータは、その
レベルの下の、またはそのレベルに従属するレベルに関
連する、変換パラメータについての「階層上の前段階」
と称される従来の知識を表す。構造の各レベルに関連す
る変換パラメータは、適合データおよびその上のレベル
からの階層上の前段階の総体に基づいて推定される。そ
の構造の最下層レベルに関連する推定変換パラメータ
は、学習段階におけるＨＭＭパラメータの更新に使用さ
れる。その結果、これら更新されたＨＭＭパラメータ
は、その構造に関連するそれぞれのレベルに応じて加重
構造と連結されたすべての変換パラメータの組み合わせ
の関数である。各レベルの比重は、使用される適合デー
タの量によって変わる。更新されたＨＭＭパラメータは
システム１００中のプロセッサ１２５で使用され、前述
の音声認識用通常操作モードの間、ＨＭＭ、とくにＣＤ
ＨＭＭを供給する。

【００２０】本発明によるＨＭＭの適合を十分に受け入
れるために、ここではその適合を単純化する規格化技術
を説明する。Ｇ＝｛ｇ_m；ｍ＝１，．．．，Ｍ｝で、Ｇ
はプロセッサ１２５中のＣＤＨＭＭのすべての混合構成
部分のセットとし、ここで、Ｍはプロセッサ１２５内に
あるすべての状態のすべてのＣＤＨＭＭの混合構成部分
の総数を表し、ｇ_mは混合構成部分ｍについての通常濃
度関数を表す。この通常濃度関数はＮ（Ｘ｜μ_m，Ｓ_m）
で示され、ここで、μ_mは期待値ベクトルを表し、Ｓ_mは
共分散マトリックスを表す。

【００２１】Ｘ＝｛ｘ₁，．．．，ｘ_t．．．，ｘ_T｝
で、Ｔの所与の見かけのベクトルのセットを示すものと
し、これが適合データを表す。規格化においては、各サ
ンプル・ベクトルｘ_tは各混合構成部分ｍについて次の
ようにしてベクトルУ_mtへ変換される：

【数１】但し、ｔ＝１，．．．，Ｔ、およびｍ＝１，．．．，Ｍ
である。

【００２２】前述のとおり、ここでのＣＤＨＭＭパラメ
ータはすべて、システム１００の製造中に多数の話者か
ら採取した音声サンプルから導出される訓練データを使
って、従来の方法であらかじめ定義されている。訓練デ
ータと適合データの間に不整合がない場合は、Ｙ_m＝
｛У_m1，．．．，У_mt．．．，У_mT｝についての確立密
度関数（ｐｄｆ）が標準正規分布Ｎ（Ｙ｜Ｏ，Ｉ）で表
される可能性があることは明らかである。ここで、Ｏ
は、構成要素の値がゼロであるベクトルを表し、Ｉは一
致マトリックスを表す。訓練データと適合データとが不
整合の場合の別の方法では、Ｙ_mについてのｐｄｆは一
般的にＮ（Ｙ｜υ，η）で表すことができ、このとき、
υ≠Ｏかつη≠Ｉである。訓練データによって示される
音響特性と適合データによって示されるものとの差を表
すために、「不整合ｐｄｆ」は下記のように定義され
る。音の差をモデル化するために必要な不整合ｐｄｆの
数はＨＭＭの混合構成部分についてのｐｄｆの数より小
さいことがわかる。

【００２３】このため、必要なｐｄｆの数を減らすため
に、混合構成部分のセットＧを２個以上のサブセットＧ
_p、１≦ｐ≦Ｐに分ける。ここで、Ｐは、混合構成部分
の総数より少ないサブセットの総数、すなわちＭであ
る。共通の不整合ｐｄｆであるｈ_p＝Ｎ（Ｙ｜υ_p，
η_p）は、各サブセットＧ_p内のすべての混合構成部分に
よって共有される。

【００２４】以下の議論では、サブセットＧ_p中の各混
合構成部分ｇはｇ₁ ^(p)，．．．，ｇ_m ^(p)．．．，ｇ_Mp
^(p)としてあらためて番号が付され、このときＭ_pはサブ
セットＧ_p中の混合構成部分の数を表す。見かけのベク
トル数列Ｘ＝｛ｘ₁，．．．，ｘ_T｝は、混合構成部分ｇ
_m ^(p)についてＸ＝｛У_m1 ^(p)，．．．，У_mT ^(p)｝と一般
化される。

【００２５】不整合ｐｄｆ用のパラメータは、周知の推
定最大（ＥＭ）アルゴリズムを用いて推定される。遷移
確率と混合構成部分の重量係数が特定されるとき、ＨＭ
Ｍパラメータについての補助関数Ωは以下のようにして
求められる：

【数２】但し、Θ＝｛μ_m ^(p)，Ｓ_m ^(p)；ｍ＝１，．．．，Ｍ_pお
よびｐ＝１，．．．，Ｐ｝は現在のＨＭＭパラメータの
セットを表し；Θ＾＝｛μ_m＾^(p)，＿_m ^(p)；ｍ＝
１，．．．，Ｍ_pおよびｐ＝１，．．．，Ｐ｝は推定さ
れるＨＭＭパラメータのセットを表し；γ_mt ^(p)は時間
ｔの点で混合構成部分ｇ_m ^(p)を使用した事後確率を表
す。ＨＭＭパラメータと不整合ｐｄｆパラメータとの関
係は、次のように規定される：

【数３】但し、Ｊ_m ^(p)＝（Ｓ_m ^(p)）^1/2は［１］で表された一般
化のためのヤコビアン・マトリックスを表す。［３］の
式に基づき、この補助関数は次のように修正できる：

【数４】微分関数［４］によって、不整合ｐｄｆパラメータの最
尤（ＭＬ）推定値は次のように定義できる。

【数５】ここで、（У_mt ^(p)−υ〜_p）ｔは（У_mt ^(p)−υ〜_p）の
移項を表す。これらの不整合ｐｄｆパラメータを使用し
て、対応するＨＭＭパラメータは次のように変更でき
る：

【数６】ここで、μ＾_m ^(p)および＿_m ^(p)はそれぞれ変更された期
待値と共分散を表す。

【００２６】もとになった対応するＨＭＭについての不
整合ｐｄｆの最適数は、利用可能な適合データの量によ
って変わる。不整合ｐｄｆパラメータを前述の階層構造
の構築用変換パラメータとして利用する手法があり、こ
れは、与えられた適合データの量に関わらずその全体構
造およびサブ構造がともに良好な音声認識成績を達成す
るのに適しているという利点をもっている。このため
に、セットＧについての木構造を本発明にしたがって具
体化する。

【００２７】図２は、このような木構造の一つを２００
として示す。図２に示すとおり、木構造２００にはＨ個
のレベルがあり、ここで、Ｈはゼロより大きい整数であ
る。構造２００の第１のレベルは、ＣＤＨＭＭのＭ個の
混合構成部分をすべて含むセットＧを表す親ノード２０
３を含む。構造２００の第Ｈ番目のレベルは、それぞれ
ＣＤＨＭＭのＭ個の混合構成部分を表すＭ個のリーフ・
ノードを含む。第１レベルから第Ｈレベルまでの間の各
中間ノードもしくは非終点ノードは、その中間ノードに
従属する第Ｈレベル上のそれらのＭ_pリーフ・ノードま
たは終点ノードで表されるそれぞれＭ_pの混合構成部分
を含むＧのサブセット、すなわちＧ_pを表す。リーフ・
ノードがその中間ノードから「発散」される場合に、あ
るいは言葉を変えると、その発生源をたどると介在する
経路を通ってその中間ノードへ戻る場合に、リーフ・ノ
ードが中間ノードに従属する、という。例えば、構造２
００では、中間ノード２２２に従属するリーフ・ノード
は、それぞれ経路２２４、２２６および２２８を通って
ノード２２２と接続されているリーフ・ノード２３１、
２３３および２３５である。同様に、中間ノード２１１
に従属するリーフ・ノードは、リーフ・ノード２３１、
２３３、２３５、２３７、２３９、２４１、２４３、２
４５および２４７である。もちろん、親ノード２０３に
は第Ｈレベル上の各リーフ・ノードが従属している。構
造２００を構築する手法は、以下に詳細に記す。

【００２８】木構造２００中の各ノードＮについて、そ
のノードで表されるＧ_p中の混合構成部分によって共有
される不整合ｐｄｆが割り当てられる。とくに各ノード
Ｎについて、その不整合ｐｄｆパラメータのＭＬ推定値
υ〜_pおよびη〜_pは、式［５］および［６］に基づく適
合データを用いて決定される。

【００２９】Ｇ中の各混合構成部分ｍについてのパラメ
ータのセットΘ_m＝（μ_m，Ｓ_m）を、一般性を損なわず
に推定しよう。便宜上、以下の議論では混合構成部分ｍ
に関連する各変数の添字「ｍ」は、その添字がないと混
乱のおそれがある場合を除いて省略する。木構造２００
中で、親ノード２０３およびリーフ・ノードを含む各レ
ベルから一つづつのノードをつないだ各連結ノードの順
序は、そのリーフ・ノードで表される混合構成部分に対
応する。混合構成部分ｍに対応する連結ノードの数列を
｛Ｎ₁，．．．，Ｎ_k，．．．，Ｎ_H｝と表す。ここで、
Ｎ₁は親ノード２０３を示し；Ｎ_kはその数列中の中間ノ
ードの一つを示し；Ｎ_Hは混合構成部分ｍを表すリーフ
・ノードを示す。

【００３０】λ_k＝（υ_k，η_k）とし、ノードＮ_kに関す
るｐｄｆ不整合パラメータのセットを表すものとする。
このパラメータのセットλ_kは、特徴ベクトルの数列Ｙ
を所与として、以下に説明する事後確率を最大化するこ
とによって決定される。一度λ_kが決定されるとＨＭＭ
パラメータ・セットΘは上記の式［７］および［８］を
用いて容易に求められることに留意されたい。

【００３１】本発明のＳＭＡＰ方法によれば、λ_Hにつ
いての前述の「階層上の前段階」として、｛λ₀，
λ₁，．．．λ_k．．．，λ_H-1｝のセットが使用され
る。但し、λ₀＝（Ｏ，Ｉ）である。不整合ｐｄｆパラ
メータのセットλ₀は親ノード２０３に関わるパラメー
タ・セットλ₁にとっての前段階であると仮定され、ノ
ードＮ_kに関わるパラメータ・セットλ_kはその直接の従
属ノードあるいは子ノードであるＮ_k+1に関わるパラメ
ータ・セットλ_k+1にとっての前段階として使用され
る。

【００３２】λ_kの事後分布は、次の式で表される：

【数７】但し、

【数８】但し、ｋ＝Ｈ，．．．，１である。［９］の事後分布の
評価を単純化するために、２つの概数が使用されてい
る。最大事後（ＭＡＰ）推定によって求められる確率を
用いる第１の概数は、次の式で表される：

【数９】但し、

【数１０】第２の概数は、次の式で表される：

【数１１】これらの概数を使うことで、各ノードＮ_kについての不
整合ｐｄｆパラメータのＭＡＰ推定値が次のように決定
できる：

【数１２】ここで、Ｇ_kは、ノードＮ_kで表されるＧのサブセットで
ある；（υ〜_k，η〜_k）は（υ_k，η_k）についてのＭＬ
推定値を表す。パラメータΨ＞０、およびξ＞１は、標
準的なコントロール・パラメータである。親ノードＮ₁
からリーフ・ノードＮ_Hまでノードの順序にしたがって
式［１８］および［１９］を連続してあてはめていく
と、リーフ・ノードＮ_Hについての期待値υＨおよび分
散ηＨが得られる。これらのυＨおよびηＨは、本発明
のＳＭＡＰ方法により、式［７］および［８］中で混合
構成部分を変更するためにそれぞれυ_pおよびη_pとして
使用される。

【００３３】リーフ・ノードＮ_Hについて、式［１８］
は次のように書き換えることができることに留意された
い：

【数１３】ここで、

【数１４】式［２１］から、ＳＭＡＰ方法による推定期待値υＨは
木構造２００の異なるレベルにおけるＭＬ推定値υ〜_k
の加重合計として想像することができる。ノードＮ_kで
は利用できる適合データが多ければ多いほどΓ_kが大き
くなり、またｗ_kも同様であることにも留意されたい。
さらに、ノードＮ_kにおけるυ〜_kについての加重ｗ
_kは、ｋの値に対して指数的に減少する。こうして、利
用できる適合データの量が相対的に少ない場合は、木構
造２００の上位レベルに対応するＭＬ推定値υ〜_kが
［２１］の推定期待値において支配的となる。他方、利
用できる適合データの量が相対的に多い場合は、下位レ
ベルに対応するＭＬ推定値υ〜_kがその推定期待値にお
いて支配的となる。

【００３４】今度は木構造２００の構築手法を説明す
る。音響特性空間にはめ込まれた構造についての先見的
な知識が、すべての混合構成部分のセットＧについての
木構造２００の構築に使用されるべきである。この木構
造の構築は、例えば、Ｔ．Ｗａｔａｎａｂｅ他、”Ｓ
ｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎＵｓｉｎｇＴ
ｒｅｅ−ＳｔｒｕｃｔｕｒｅｄＰｒｏｂａｂｉｌｉｔ
ｙＤｅｎｓｉｔｙＦｕｎｃｔｉｏｎ，” Ｐｒｏ
ｃ．，ｏｆＩＣＳＬＰ−９４，１９９４，ｐｐ．
２２３−２２６に記載された手法に基づく。

【００３５】この木構造の構築においては、混合構成部
分の間の距離の尺度として、混合構成部分のｐｄｆ間の
有名なクルバック発散が使用される。これによれば、２
つの混合構成部分、たとえばｇ_mとｇ_nとの間の距離ｄ
（ｍ，ｎ）は、次のように決定される：

【数１５】ここで、σ_m（ｉ）は、共分散Ｓ_mの第ｉ番目の対角線要
素を表す。ノードｐｄｆが、木構造２００の各ノードに
割り当てられる。混合構成部分ｇ_m ^(k)＝Ｎ（Ｘ｜
μ_m ^(k)，Ｓ_m ^(k)）、ｍ＝１，．．．，Ｍ_k、が属するノ
ードＮ_kのｐｄｆパラメータは、次のようにして求めら
れる：

【数１６】

【００３６】図３は、混合構成部分のクラスター化のた
めの従来のｋ型クラスター化アルゴリズム３００を示
す。このアルゴリズムによれば、各ノードからの分岐の
数および木構造２００のレベルの数はあらかじめ決まっ
ており、クラスター化は回帰的に実行される。とくに、
ステップ３０５で示すように、最初に親ノード２０３が
ノードｎになるように設定される。ステップ３０８で、
ノードｎに子ノードがあるかどうかが判断される。ノー
ドｎに子ノードがなければ、アルゴリズム３００は終了
する。

【００３７】他方、ノードｎに一つまたは複数の子ノー
ドがある場合、ステップ３１１に示すように初期ｐｄｆ
は有名なミニマックス法を用いてその子ノードそれぞれ
に割り当てられる。ステップ３１５では、式［２３］を
用いてその子ノードｐｄｆとその混合構成部分との間の
距離を計算することによって、ノードｎで表される混合
構成部分のセットが子ノードの間で分割される。各混合
構成部分は、その混合構成部分にｐｄｆがもっとも近い
子ノードに割り当てられる。次にｐｄｆは、式［２４］
および［２５］に基づいて、ノードｎの各子ノードにつ
いてステップ３１８で計算される。各子ノードについ
て、子ノードｐｄｆからその子ノードで表される混合構
成部分までの距離の合計が計算される。ノードｎのすべ
ての子ノードについての距離の合計を加算して、総合計
を算出する。次に、ステップ３２１に示すように、その
総合計が収斂するかどうかを判断する。その総合計が収
斂しない場合は、アルゴリズム３００はステップ３１５
に戻る。逆にこれが収斂する場合は、ステップ３２２に
示すように各子ノードがノードｎに設定される。それぞ
れの新しいノードｎについて、アルゴリズム３００はス
テップ３０８に戻る。

【００３８】上記のことがらは、単に本発明の原則を示
すものである。この分野に精通した人物なら、本文中に
明示的に表示されあるいは記述されてはいないが本発明
の原則を具体化し、したがって本発明の核心と範囲に含
まれる多数のシステムを考案することができることを理
解されたい。

【００３９】例えば、ここに開示した実施形態では、音
声認識システム１００による学習は監督を受けていな
い。つまり、ユーザが学習用に供給する音声は管理され
ていない。しかし、このような学習は監督を受けて行
い、その中でユーザは一定のあらかじめ選ばれた学習用
の単語だけを話すようにすることも可能であることを理
解されたい。

【図面の簡単な説明】

【図１】本発明による音声認識システムのブロック図で
ある。

【図２】それによって図１のシステム中のＨＭＭがその
学習段階中に適合される階層構造を示す。

【図３】図２の階層構造を構築するためのアルゴリズム
を示すフローチャートである。

Claims

【特許請求の範囲】

【請求項１】音響モデルに基づき音声を認識するため
の装置であって、少なくとも音響モデルを修正するための音声のサンプル
を表すデータに応じたプロセッサと、複数のレベルを含む構造を定義する機構であって、各レ
ベルが少なくとも前記データに基づいて決定される一つ
または複数の確率尺度と関連し、選ばれたレベルに関連
する前記確率尺度が少なくとも第二のレベルと関連する
確率尺度の関数であり、前記音響モデルが少なくとも前
記選ばれたレベルと関連する確率尺度に基づいて修正さ
れる機構とを備える装置。
【請求項２】請求項１に記載の装置において、前記音
響モデルが隠れマルコフ・モデル（ＨＭＭ）による装
置。
【請求項３】請求項２に記載の装置において、前記Ｈ
ＭＭが連続密度ＨＭＭ（ＣＤＨＭＭ）を含む装置。
【請求項４】請求項１に記載の装置において、前記確
率尺度が少なくとも第二の音声のサンプルを表す第二の
データにも基づいて決定される装置。
【請求項５】請求項４に記載の装置において、前記確
率尺度が前記第一の音声のサンプルと前記少なくとも第
二の音声のサンプルとの差から導出され、前記差が前記
第一および第二のデータの関数である装置。
【請求項６】請求項１に記載の装置において、前記音
響モデルが前記音声のサンプルの認識されたものにも応
じて修正される装置。
【請求項７】請求項１に記載の装置において、前記構
造中のレベルが一方向に順番に配置され、各レベルが一
つまたは複数のノードを含み、レベルがさらにより多数
のノードを含む方向へ配置され、各レベルの少なくとも
一つのノードが別のレベルの少なくとも一つのノードに
連結され、各レベルに関連する前記確率尺度がそのうえ
のノードの一つにそれぞれ割り当てられる装置。
【請求項８】請求項７に記載の装置において、前記音
響モデルが複数のパラメータを特徴とし、各ノードが一
つまたは複数の前記パラメータを含むセットを表す装
置。
【請求項９】請求項８に記載の装置において、前記選
ばれたレベルがさらにすべてのレベルの方向に配置さ
れ、前記選ばれたレベル上の各ノードが前記複数のパラ
メータのうちの別の一つを含むセットを表す装置。
【請求項１０】請求項９に記載の装置において、前記
選ばれたレベル上の各ノードに割り当てられた前記確率
尺度が前記ノードで表される前記セット中の前記パラメ
ータの修正に使用される装置。
【請求項１１】請求項９に記載の装置において、前記
選ばれたレベル以外のレベル上の各ノードで表されるセ
ットが前記ノードに連結された前記選ばれたレベル上の
前記ノードで表されるセットを含む装置。
【請求項１２】複数のパラメータを特徴とし、音響モ
デルに基づいて音声を認識するシステムであって、音声のサンプルを表すデータを供給する機器と、複数のレベルを含む構造を定義するプロセッサであっ
て、各レベルが一つまたは複数のノードを含み、各ノー
ドがそれぞれの少なくとも前記データから導出される確
率尺度に関連するプロセッサと、異なるレベルからのノードの少なくとも一つの数列を識
別するための機構であって、前記数列中の選ばれたノー
ドに関連する前記確率尺度が少なくとも前記数列中の第
二のノードに関連する第二の確率尺度の関数である機構
と、少なくとも前記選ばれたノードに関連する確率尺度に基
づく前記パラメータのうち少なくとも一つを修正するた
めのアダプタとを備えるシステム。
【請求項１３】請求項１２に記載のシステムにおい
て、前記構造中のレベルが一方向に順番に配置され、レ
ベルがさらにより多数のノードを含む方向へ配置され、
前記選ばれたノードがさらにすべてのレベルの方向に配
置されたレベルから発しているシステム。
【請求項１４】請求項１２に記載のシステムにおい
て、前記選ばれたノードに関連する前記確率尺度が前記
第二の確率尺度を計るためのウエイトの関数でもあり、
前記構造中の他のレベルの位置に応じて前記ウエイトが
前記第二のノードが発している前記レベルの位置によっ
て変化するシステム。
【請求項１５】請求項１４に記載のシステムにおい
て、前記ウエイトがデータの量にも応じて変化するシス
テム。
【請求項１６】請求項１２に記載のシステムにおい
て、前記音響モデルがＨＭＭによるシステム。
【請求項１７】請求項１２に記載のシステムにおい
て、前記ＨＭＭがＣＤＨＭＭを含むシステム。
【請求項１８】請求項１２に記載のシステムにおい
て、それぞれの確率尺度が少なくとも第二の音声のサン
プルを表す第二のデータからも導出されるシステム。
【請求項１９】請求項１８に記載のシステムにおい
て、それぞれの確率尺度が第一の音声のサンプルと少な
くとも第二の音声のサンプルとの差に基づいて決定さ
れ、前記差が前記第一および第二のデータの関数である
システム。
【請求項２０】請求項１２に記載のシステムにおい
て、前記音響モデルが前記音声のサンプルの認識された
ものにも応じて修正されるシステム。
【請求項２１】音声モデルに基づく音声認識のための
装置中で使用する方法であって、少なくとも前記音声のサンプルを表すデータに対応して
前記音響モデルを修正し、複数のレベルを含む構造を定義し、各レベルが少なくと
も前記データに基づいて決定される一つまたは複数の確
率尺度と関連し、選ばれたレベルに関連する前記確率尺
度が少なくとも第二のレベルと関連する確率尺度の関数
であり、前記音響モデルが少なくとも前記選ばれたレベ
ルと関連する確率尺度に基づいて修正される方法。
【請求項２２】請求項２１に記載の方法において、前
記音響モデルがＨＭＭによる方法。
【請求項２３】請求項２２に記載の方法において、前
記ＨＭＭが連続密度ＣＤＨＭＭを含む方法。
【請求項２４】請求項２１に記載の方法において、前
記確率尺度が少なくとも第二の音声のサンプルを表す第
二のデータにも基づいて決定される方法。
【請求項２５】請求項２４に記載の方法において、前
記確率尺度が前記第一の音声のサンプルと前記少なくと
も第二の音声のサンプルとの差から導出され、前記差が
前記第一および第二のデータの関数である方法。
【請求項２６】請求項２１に記載の方法において、前
記音響モデルが前記音声のサンプルの認識されたものに
も応じて修正される方法。
【請求項２７】請求項２１に記載の方法において、前
記構造中のレベルが一方向に順番に配置され、各レベル
が一つまたは複数のノードを含み、レベルがさらにより
多数のノードを含む方向へ配置され、各レベルの少なく
とも一つのノードが別のレベルの少なくとも一つのノー
ドに連結され、各レベルに関連する前記確率尺度がその
うえのノードの一つにそれぞれ割り当てられる方法。
【請求項２８】請求項２７に記載の方法において、前
記音響モデルが複数のパラメータを特徴とし、各ノード
が一つまたは複数の前記パラメータを含むセットを表す
方法。
【請求項２９】請求項２８に記載の方法において、前
記選ばれたレベルがさらにすべてのレベルの方向に配置
され、前記選ばれたレベル上の各ノードが前記複数のパ
ラメータのうちの別の一つを含むセットを表す方法。
【請求項３０】請求項２９に記載の方法において、前
記選ばれたレベル上の各ノードに割り当てられた前記確
率尺度が前記ノードで表される前記セット中の前記パラ
メータの修正に使用される方法。
【請求項３１】請求項２９に記載の方法において、前
記選ばれたレベル以外のレベル上の各ノードで表される
セットが前記ノードに連結された前記選ばれたレベル上
の前記ノードで表されるセットを含む方法。
【請求項３２】複数のパラメータを特徴とし、音響モ
デルに基づいて音声を認識するシステム中で使用する方
法であって、音声のサンプルを表すデータを供給し、複数のレベルを含む構造を定義し、各レベルが一つまた
は複数のノードを含み、各ノードがそれぞれの少なくと
も前記データから導出される確率尺度に関連し、異なるレベルからのノードの少なくとも一つの数列を識
別し、前記数列中の選ばれたノードに関連する前記確率
尺度が少なくとも前記数列中の第二のノードに関連する
第二の確率尺度の関数であり、少なくとも前記選ばれたノードに関連する確率尺度に基
づく前記パラメータのうち少なくとも一つを修正する方
法。
【請求項３３】請求項３２に記載の方法において、前
記構造中のレベルが一方向に順番に配置され、レベルが
さらにより多数のノードを含む方向へ配置され、前記選
ばれたノードがさらにすべてのレベルの方向に配置され
たレベルから発している方法。
【請求項３４】請求項３２に記載の方法において、前
記選ばれたノードに関連する前記確率尺度が前記第二の
確率尺度を計るためのウエイトの関数でもあり、前記構
造中の他のレベルの位置に応じて前記ウエイトが前記第
二のノードが発している前記レベルの位置によって変化
する方法。
【請求項３５】請求項３４に記載の方法において、前
記ウエイトがデータの量にも応じて変化する方法。
【請求項３６】請求項３２に記載の方法において、前
記音響モデルがＨＭＭによる方法。
【請求項３７】請求項３２に記載の方法において、前
記ＨＭＭがＣＤＨＭＭを含む方法。
【請求項３８】請求項３２に記載の方法において、そ
れぞれの確率尺度が少なくとも第二の音声のサンプルを
表す第二のデータからも導出される方法。
【請求項３９】請求項３８に記載の方法において、そ
れぞれの確率尺度が第一の音声のサンプルと少なくとも
第二の音声のサンプルとの差に基づいて決定され、前記
差が前記第一および第二のデータの関数である方法。
【請求項４０】請求項３２に記載の方法において、前
記音響モデルが前記音声のサンプルの認識されたものに
も応じて修正される方法。