JP3092491B2

JP3092491B2 - 記述長最小基準を用いたパターン適応化方式

Info

Publication number: JP3092491B2
Application number: JP07221740A
Authority: JP
Inventors: 浩一篠田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1995-08-30
Filing date: 1995-08-30
Publication date: 2000-09-25
Anticipated expiration: 2015-08-30
Also published as: DE69613293T2; US5956676A; EP0762383A3; DE69613293D1; EP0762383A2; JPH0962291A; EP0762383B1

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はパターン認識におけ
るパターン適応化方式に関し、特に標準パターンを用い
た音声認識システム並びに混合連続分布モデル型ＨＭＭ
による音声認識システムにおける話者適応化方式に関す
る。

【０００２】

【従来の技術】近年、音声パターンの機械による認識に
関する研究が行なわれ、数々の手法が提案されている。
この中で、よく使われる代表的なものに、ＤＰ（ダイナ
ミックプログラミング）マッチングと呼ばれる方法、並
びに、隠れマルコフモデル（ＨＭＭ）を用いた方法があ
る。

【０００３】ＤＰマッチングやＨＭＭなどの音声認識手
法を用いた音声認識システムとして、誰の声でも認識で
きることを目的とした不特定話者の認識システムが盛ん
に研究・開発されている。

【０００４】以下、ＨＭＭを例にとり、音声認識システ
ムについて図１を用いて説明する。

【０００５】音声認識装置に入力された話者の発声は、
入力パターン作成部１０２に入力され、ＡＤ変換、音声
分析などの過程を経て、ある時間長をもつフレームと呼
ばれる単位ごとの特徴ベクトルの時系列に変換される。
この特徴ベクトルの時系列を、ここでは入力パターンと
呼ぶ。フレームの長さは通常１０ｍｓから１００ｍｓ程
度である。特徴ベクトルはその時刻における音声スペク
トルの特徴量を抽出したもので、通常１０次元から１０
０次元である。

【０００６】標準パターン記憶部１０１にはＨＭＭが記
憶されている。ＨＭＭは音声の情報源のモデルの１つで
あり、話者の音声を用いてそのパラメータを学習するこ
とができる。ＨＭＭについては認識部１０３の説明で詳
しく述べる。ＨＭＭは通常各認識単位ごとに用意され
る。ここでは、認識単位として音素を例にとる。不特定
話者認識システムでは、標準パターン記憶部１０１のＨ
ＭＭとして、予め多くの話者の発声を用いて学習した不
特定話者ＨＭＭが用いられる。

【０００７】今、１０００単語を認識対象とする場合を
想定する。つまり１０００単語の認識候補から１単語の
正解を求める。単語を認識する場合には、各音素のＨＭ
Ｍを連結して、認識候補単語のＨＭＭを作成する。１０
００単語認識の場合には１０００単語分の単語ＨＭＭを
作成する。

【０００８】認識部１０３では、単語ＨＭＭを用いて入
力パターンの認識を行なう。ＨＭＭは、音声の情報源の
モデルであり、音声パターンの様々な揺らぎに対処する
ため、標準パターンの記述に統計的な考えが導入されて
いる。ＨＭＭの詳細な説明は、中川聖一著「確率モデル
による音声認識」、電子情報通信学会編（昭和６３）
（以下、文献１）の、４０〜４６頁、５５〜６０頁、６
９〜７４頁にかかれている。各音素のＨＭＭは、それぞ
れ、通常１から１０個の状態とその間の状態遷移から構
成される。通常は始状態と終状態が定義されており、単
位時間ごとに、各状態からシンボルが出力され、状態遷
移が行なわれる。各音素の音声は、始状態から終状態ま
での状態遷移の間にＨＭＭから出力されるシンボルの時
系列として表される。各状態にはシンボルの出現確率
が、状態間の各遷移には遷移確率が、定義されている。
遷移確率パラメータは音声パターンの時間的な揺らぎを
表現するためのパラメータである。出力確率パラメータ
は、音声パターンの声色の揺らぎを表現するものであ
る。始状態の確率をある値に定め、状態遷移ごとに出現
確率、遷移確率を掛けていくことにより、発声がそのモ
デルから発生する確率を求めることができる。逆に、発
声を観測した場合、それが、あるＨＭＭから発生したと
仮定するとその発生確率が計算できることになる。ＨＭ
Ｍによる音声認識では、各認識候補に対してＨＭＭを用
意し、発声が入力されると、各々のＨＭＭにおいて、発
声確率を求め、最大となるＨＭＭを発生源と決定し、そ
のＨＭＭに対応する認識候補をもって認識結果とする。

【０００９】出力確率パラメータには、離散確率分布表
現と連続確率分布表現があるが、ここでは連続確率表現
を例にとる。連続確率分布表現では、混合連続分布、す
なわち、複数のガウス分布を重みつきで加算した分布が
使われる。出力確率パラメータ、遷移確率パラメータ、
複数のガウス分布の重みなどのパラメータは、モデルに
対応する学習音声を与えてバウム−ウェルチアルゴリズ
ムと呼ばれるアルゴリズムにより予め学習されている。
バウム−ウェルチアルゴリズムについては文献１に詳し
い。以下の例では出力確率は混合連続確率分布とする。

【００１０】以下に単語認識時の処理を数式で説明す
る。特徴ベクトルの時系列として表現された入力パター
ンＸをＸ＝ｘ₁，ｘ₂，．．．，ｘ_t，・・・，ｘ_T （１）とする。ここでＴは入力パターンの総フレーム数であ
る。認識候補単語Ｗ₁，Ｗ₂，．．．，Ｗ_Nとする。Ｎ
は認識候補単語数である。各々の単語Ｗ_nの単語ＨＭＭ
と入力パターンＸとの間のマッチングは以下のように行
なわれる。以下必要のない限り添字ｎを省略する。ま
ず、単語ＨＭＭにおいて、状態ｊから状態ｉへの遷移確
率をａ_ji、出力確率分布の混合重みをλ_im、各要素ガウ
ス分布（フレーム分布と呼ぶ）の平均ベクトルをμ_im、
共分散行列をΣ_imとする。ここで、ｔは入力時刻、ｉ，
ｊはＨＭＭの状態、ｍは混合要素番号を表す。前向き確
率α（ｉ，ｔ）に関する次の漸化式計算を行なう。

【００１１】

【数１】

【００１２】ここで、π_iは初期状態がｉである確率で
あり、ｂ_i（ｘ）、Ｎ（ｘ；μ_im，Σ_im）は、次式で定
義される。

【００１３】

【数２】

【００１４】単語Ｗ_nに対する入力パターンに対する尤
度はＰⁿ（Ｘ）＝α（Ｉ，Ｔ）（６）により求められる。Ｉは最終状態である。この処理を各
単語モデルについて行ない、入力パターンＸに対する。
認識結果単語

【００１５】

【外１】

【００１６】は

【００１７】

【数３】

【００１８】で与えられる。認識結果単語は、認識結果
出力部１０４に送られる。

【００１９】認識結果出力部１０５は、認識結果を画面
上に出力する、あるいは、認識結果に対応した制御命令
を別の装置に送るなどの処理を行なう。

【００２０】以上、ＨＭＭを例にとり音声認識装置につ
いて説明した。

【００２１】不特定話者認識システムは、使用者を特定
した特定話者システムと違い、事前に使用者が発声を登
録する必要がないという利点がある。しかしながら、近
年、次のような問題点が指摘された。まず、ほとんどの
話者において認識性能が特定話者システムより劣る。さ
らに、認識性能が大幅に悪い話者（特異話者）が存在す
る。このような問題点を解決するために、従来、特定話
者システムにおいて用いられてきた、話者適応化の技術
を不特定話者システムにも適用しようという研究が最近
始まっている。

【００２２】話者適応化とは、学習に用いるよりも少量
の適応化用データを用いて、認識システムを新しい使用
者（未知話者）に適応化させる方式を指す。話者適応化
では、標準パターン記憶部の標準パターンを未知話者に
対する性能が向上するよう修正する（図１点線部）。話
者適応化方式の詳細については、「音声認識における話
者適応化技術」、古井貞煕著、テレビジョン学会誌、Ｖ
ｏｌ．４３、Ｎｏ．９、１９８９、ｐｐ．９２９−９３
４に解説されている。話者適応化は大きく分けて２つの
手法に分けられる。１つは教師あり話者適応化、もう１
つは教師なし話者適応化である。ここでの教師とは入力
発声の発声内容を表す音韻表記列を指す。教師あり適応
化とは、入力発声に対する音韻表記列が既知の場合の適
応化手法であり、適応化の際、未知話者に対し発声語彙
を事前に指示する必要がある。一方、教師なし適応化と
は、入力発声に対する音韻表記列が未知の場合の適応化
手法であり、未知話者に対し入力発声の発声内容を限定
しない。すなわち、未知話者に対し発声内容を指示をす
る必要がない。実際に音声認識を使用中の入力音声を用
いて、未知話者に意識させずに、適応化を行なえる。一
般に教師なし適応化は教師あり適応化に比べ、適応化後
の認識性能が低い。現在は教師あり適応化がよく使われ
ている。

【００２３】

【発明が解決しようとする課題】話者適応化は、音声認
識装置使用時の話者の発声を用いて学習を行なうことに
より、標準パターンを話者に適応させ、高い認識性能を
得る技術である。しかしながら、話者の発声数が極めて
少ない場合、データの不足のため、パラメータ推定の精
度が悪く、標準パターンの適応の効果があがらない場合
がある。

【００２４】

【課題を解決するための手段】第１の発明による記述長
最小基準を用いたパターン適応化方式は、複数のカテゴ
リから構成される標準パターンを入力サンプルの集合と
しての入力パターンを用いて学習するパターン適応化方
式において、入力パターンを作成する入力パターン作成
手段と、複数の標準パターンを記憶する候補標準パター
ン記憶手段と、標準パターンのカテゴリと入力パターン
の入力サンプルとの対応付けを行なうパターンマッチン
グ手段と、パターンマッチングに基づき、標準パターン
を修正する標準パターン修正手段と、入力パターンに対
する各修正標準パターンの記述長を計算する記述長計算
手段と、記述長を用いて修正標準パターンを選択する修
正標準パターン選択手段と、修正標準パターンを保存す
る認識用標準パターン記憶手段と、から構成されること
を特徴とするパターン適応化方式である。

【００２５】第２の発明による記述長最小基準を用いた
パターン適応化方式は、複数のカテゴリから構成される
標準パターンを入力サンプルの集合としての入力パター
ンを用いて学習するパターン適応化方式において、入力
パターンを作成する入力パターン作成手段と、カテゴリ
の包含関係をあらわす木構造と木構造の各ノードでのパ
ラメータ集合から構成される標準パターンを記憶する木
構造標準パターン記憶手段と、木構造標準パターンのカ
テゴリと入力パターンの入力サンプルとの対応付けを行
なうパターンマッチング手段と、パターンマッチングに
基づき、木構造標準パターンを修正する木構造標準パタ
ーン修正手段と、木構造パターンにおける複数のノード
集合に対し記述長を計算し、記述長を用いてノード集合
を選択するノード集合選択手段と、選択されたノード集
合のパラメータ集合を用いて修正標準パターンを作成す
る、修正標準パターン作成手段と、修正標準パターンを
保存する認識用標準パターン記憶手段と、から構成され
ることを特徴とするパターン適応化方式である。

【００２６】第３の発明による記述長最小基準を用いた
パターン適応化方式は、第１または第２の発明による記
述長最小基準を用いたパターン適応化方式において、入
力パターンとして、音声を分析したフレームベクトルの
時系列を用いることを特徴とするパターン適応化方式で
ある。

【００２７】第４の発明による記述長最小基準を用いた
パターン適応化方式は、第３の発明による記述長最小基
準を用いたパターン適応化方式において、標準パターン
として、出力確率分布が混合ガウス分布である隠れマル
コフモデルを用いることを特徴とするパターン適応化方
式である。

【００２８】第５の発明による記述長最小基準を用いた
パターン適応化方式は、第４の発明による記述長最小基
準を用いたパターン適応化方式において、隠れマルコフ
モデルの各状態のガウス分布を用いて作成した木構造を
木構造標準パターンとして用いることを特徴とするパタ
ーン適応化方式である。

【００２９】

【発明の実施の形態】図２は、本発明の一実施例を示す
ブロック図である。入力パターン作成部２０１は入力パ
ターンを保持する。パターンマッチング部２０３では木
構造標準パターン記憶部２０２の標準パターンを用いて
パターンマッチングを行ない、入力データとカテゴリの
対応付けを行ない、ワークバッファの更新を行なう。木
構造標準パターン修正部２０４では、ワークバッファの
値をもとに、木構造標準パターンの修正を行なう。ノー
ド集合選択部２０５では、ワークバッファの値をもと
に、記述長最小基準を用いてノードの集合を選択する。
修正標準パターン作成部２０６では、ノード選択部の結
果をもとに、ノード集合の各ノードのパラメータを用い
て標準パターンを修正する。修正された標準パターン
は、認識用標準パターン記憶部２０７に保存される。

【００３０】次に、本発明によるパターン適応化方式の
動作について図２を用いて詳細に説明する。ここでは、
発声する単語あるいは文を予め使用者に指示して、単語
表記と入力音声を用いてＨＭＭのパラメータの更新を行
なう。予め発声に対する正解単語がわかっているという
意味で教師あり適応化と呼ばれカテゴリに属する。話者
適応化においては、話者の負担を軽減するため、適応化
に必要な入力発声の量をなるべく少なくする必要があ
る。しかし、ＨＭＭは一般にパラメータ数が多く、少量
の適応化用発声で全パラメータを適応化しようとする
と、データ不足のためパラメータの推定精度が悪く、認
識性能が向上しない可能性がある。そこで、この例で
は、ＨＭＭのパラメータのうち、出力確率分布の平均ベ
クトルを適応化する。平均ベクトルを選んだのは、これ
が、ＨＭＭのパラメータの中でもっとも認識性能に影響
があると考えられるからである。

【００３１】まず、初期ＨＭＭを用意する。初期ＨＭＭ
としては、例えば、多くの話者の発声で予め作成された
不特定話者の音素ＨＭＭを用いる。そして、この初期Ｈ
ＭＭを元に、木構造標準パターンを作成する。ここで
は、初期ＨＭＭの状態のガウス分布の全状態にわたる集
合を考え、そのガウス分布のＮ段の木構造を作成する。
ガウス分布の木構造の作成の方法については、特開平６
−３４８２９２号公報「音声認識システム」（以後、文
献２）に詳しく記載されている。木構造の例を図３に示
す。この例では、総分布数は１５００で、Ｎ＝５の木構
造となっている。ここで、最下段（第Ｎ段）のノード
は、ＨＭＭの各状態の分布に１対１に対応する。今、木
構造の各ノードを（ｎ，ｍ）と表すこととする。ここ
で、ｎは木構造における階層（第ｎ番目）を表し、ｍ
は、その第ｎ段における分布の番号を示す。差ベクトル
Δ（ｎ，ｍ）を、ノード（ｎ，ｍ）における、適応前の
平均ベクトルμとデータから推定される平均ベクトル

【００３２】

【外２】

【００３３】の差分として定義する。また差ベクトルの
分散σ（ｎ，ｍ）を定義する。これら２つの量は各ノー
ドにおけるパラメータである。初期ＨＭＭ、木構造、お
よび各ノードに付随したパラメータは木構造標準パター
ン記憶部２０２に格納する。次に、木構造の各ノードご
とに、特徴ベクトルの次元を持ったバッファＡ（ｎ，
ｍ）、Ｂ（ｎ，ｍ）と、１次元のバッファＣ（ｎ，ｍ）
を用意する。Ａはノードの差ベクトルを計算するための
情報を格納するワークバッファ、Ｂはノードの差ベクト
ルの分散を計算するための情報を格納するワークバッフ
ァ、Ｃはノードに対応するデータサンプルの個数を加算
するためのワークバッファである。これらのバッファ
も、木構造標準パターン記憶部２０２で確保する。

【００３４】以上の準備ののち、入力発声ごとに以下の
処理を行なう。

【００３５】まず、認識時と同時に、入力パターン作成
部２０１において、入力音声から入力パターンを作成す
る。

【００３６】パターンマッチング部２０３においては、
入力パターンに対し、パターンマッチングを行ないワー
クバッファの更新を行なう。最初に、正解単語表記を用
いて入力パターンに対応する単語ＨＭＭを音素毎の初期
ＨＭＭを連結することにより作成する。そして、入力パ
ターンと単語ＨＭＭの間でパターンマッチングを行な
う。式（２）、（３）、（６）の代わりに、

【００３７】

【数４】

【００３８】の漸化式を用いる。この漸化式を用いる手
法は、ビタービアルゴリズムと呼ばれる。ここで、Ｍは
各状態における分布数、ｂ_im（ｘ_t）は状態ｉにおける
ｍ番目のリーフ分布の出現確率Ｎ（ｘ_i；μ_im，Σ_im）
である。なお、分布番号は全状態にわたって重複しない
ようにつけられる。そして、式（９）と並行して、 Ψ₁（ｉ，ｔ）＝ａｒｇｍａｘ_jΦ（ｊ，ｔ−１）ａ_j,iｂ_i（ｘ_t）ｉ＝１，．．．，Ｉ；ｔ＝１，．．．，Ｔ（１２） Ψ₂（ｉ，ｔ）＝ａｒｇｍａｘ_mλ_mｂ_im（ｘ_t）ｉ＝１，．．．，Ｉ；ｔ＝１，．．．，Ｔ（１３）の計算を行ない、各時刻の各状態における前時刻の状態
を配列Ψ₁に、最大の出現確率を与える分布番号を配列
Ψ₂に記憶しておく。式（１１）での最終フレームＴの
計算が終わったのち、Ψ₁およびΨ₂を用いて、最終フ
レームから最初のフレームまで順番に、各フレームに対
応する分布が求まる。すなわち、フレームｔに対応する
状態番号をＳ（ｔ）、リーフ分布の番号をＲ（ｔ）と表
すと、Ｓ（Ｔ）＝１（１４）Ｓ（ｔ）＝Ψ₁（Ｓ（ｔ＋１），ｔ＋１）ｔ＝１，．．．，Ｔ−１（１５）Ｒ（ｔ）＝Ψ₂（Ｒ（ｔ），ｔ）ｔ＝１，．．．，Ｔ−１（１６）である。この処理をバックトラックと呼ぶ。この処理に
より、各時刻の特徴ベクトルに対応する分布が求められ
る。

【００３９】次に各時刻の特徴ベクトルｘ_tごとに、Ａ（Ｎ，Ｒ（ｔ））＝Ａ（Ｎ，Ｒ（ｔ））＋（ｘ_t−μ_m ^N）（１７）Ｂ（Ｎ，Ｒ（ｔ））＝Ｂ（Ｎ，Ｒ（ｔ））＋（ｘ_t−μ_m ^N）² （１８）Ｃ（Ｎ，Ｒ（ｔ））＝Ｃ（Ｎ，Ｒ（ｔ））＋１（１９）の処理を行ない、リーフノードのＡ、Ｂ、Ｃバッファの
加算を行なう。ここで、μ_m ⁿは第ｎ段のｍ番目の分布
の平均ベクトルである。また、同様に、リーフノードＲ
（ｔ）を子ノードとして持つノードについてもＡ、Ｂ、
Ｃバッファの加算を行なう。Ａ（ｎ，ｍ）＝Ａ（ｎ，ｍ）＋δ（ｍ，ｊ_n（Ｒ（ｔ）））（ｘ_t−μ_m ⁿ）ｎ＝１，．．．，Ｎ−１（２０）Ｂ（ｎ，ｍ）＝Ｂ（ｎ，ｍ）＋δ（ｍ，ｊ_n（Ｒ（ｔ）））（ｘ_t−μ_m ⁿ）² ｎ＝１，．．．，Ｎ−１（２１）Ｂ（ｎ，ｍ）＝Ｂ（ｎ，ｍ）＋δ（ｍ，ｊ_n（Ｒ（ｔ）））１ｎ＝１，．．．，Ｎ−１（２２）ここで、ｊ_n（ｍ）はリーフ分布ｍを子ノードとしても
つ第ｎ段のノード分布の番号を示し、 δ（ｉ，ｊ）＝１ｉｆｉ＝ｊ（２３）＝０ｉｆｉ≠ｊ（２４）この処理を適応化用の発声単語数分だけ繰り返す。以上
の処理はパターンマッチング部２０３に対応する。

【００４０】すべての適応化用入力発声が終了した時点
で、木構造標準パターン修正部２０４においてワークバ
ッファの値を用いてパラメータを推定し、木構造標準パ
ターンの修正を行なう。木構造のすべてのノードについ
て、差ベクトルΔおよびその分散σを求める。これら
は、

【００４１】

【数５】

【００４２】と計算される。

【００４３】次に、ノード集合選択部２０５は、木構造
標準パターンの各ノードのうちＨＭＭの平均ベクトルの
修正に用いるノードを選択するために、各リーフノード
に対し、そのリーフノード自身およびその親ノードの中
から１つのノードを選択する。このように選択されるノ
ードの集合をノード集合と呼ぶ。ノードの選択には記述
長最小基準が用いられる。

【００４４】まず、記述長は以下のように定義される。

【００４５】

【数６】

【００４６】ここで、ｘⁿ＝ｘ₁，．．．，ｘ_nは入力
時系列データ、

【００４７】

【外３】

【００４８】はデータｘⁿに対するパラメータθの最尤
推定量、ｋはモデルの次数、Ｍは情報源の個数である。
この記述長の導出については、例えば、ハン・テスン、
小林欣吾著、「情報と符号化の数理」岩波書店（１９９
４年）ｐｐ．２１１−２６５に詳細に説明がある。この
記述長を最小にするように、モデルを選択する。式２６
の第１項は、データに対する尤度を符号反転させたもの
で、第２項は、モデルの複雑度に相当する量である。モ
デルが複雑になるほど、第１項は小さくなり、第２項は
大きくなる。このように、両者の間にはトレードオフが
あり、ある適当な複雑さをもったモデルを最適なモデル
として選択する。

【００４９】木構造化された標準パターンにおけるノー
ド集合の選択に記述長最小基準を適用する。すなわち、
木構造の各ノードにおける差ベクトルの分布として正規
分布を仮定し、入力パターンに対しｌ_Rが最小になるノ
ード集合を選択する。（１）式において、第３項は一定
なので無視して、あるノード集合Ｔを選択した時、その
ノード集合に対する記述長は、

【００５０】

【数７】

【００５１】ここで、Ｎは全入力パターンにわたる特徴
ベクトルの総数、ｋはノード集合Ｔにおけるノードの数
である。

【００５２】さて、ノード集合の選択の際、木構造にお
けるすべてのノードの組合せを探索することは、計算時
間の上で現実的ではない。そこで、次のような近似アル
ゴリズムを用いる。１．ルートノードをｔｈｅｎｏｄｅとする。２．ｔｈｅｎｏｄｅのｌ_R（ｌ_R ^P）を計算する。３．ｔｈｅｎｏｄｅの子ノードの集合を使用するとした
場合のｌ_R（ｌ_R ^C）を計算する。４．ｌ_R ^P＞ｌ_R ^Cのとき、子ノードをｔｈｅｎｏｄｅ
とし、各々の子ノードについて、２以下の処理を行な
う。５．ｌ_R ^P＜ｌ_R ^Cのとき、ｔｈｅｎｏｄｅを使用ノー
ドとして選択する。

【００５３】このように再帰的な処理を行なうことによ
り、木構造におけるノードの集合を選択することができ
る。修正標準パターン作成部２０６においては、ノード
集合中の各々のノードの差分ベクトルを用いて、リーフ
ノードの平均ベクトルを以下の式で計算する。

【００５４】

【数８】

【００５５】ここで、Δ（ｎ′，ｍ′）は当該リーフノ
ードの親ノードのうち、ノード集合選択部２０５で選択
されたノード集合に含まれるノードにおける差ベクトル
である。このように修正された平均ベクトルは修正標準
パターンとして認識用標準パターン記憶部２０７に記憶
される。

【００５６】以上、本発明の記述長最小原理を用いたパ
ターン適応化方式について説明した。

【００５７】今回、適応化の対象となるパラメータとし
て、ガウス分布の平均ベクトルの差ベクトルを用いた。
これ以外にも、ガウス分布の平均ベクトル、分散、状態
における重み係数、およびそれらの差分などを適応化に
パラメータとして同様の方式で適応化を行なうことが可
能である。また、それらのパラメータを組合わせて同時
に適応化することも可能である。

【００５８】また、木構造の作成の仕方も今回は文献２
に示されている方法を用いたが、木構造の作成の方法は
任意である。例えば、音韻論における音韻間の類似度を
用いて木構造を作成することも可能である。また文献２
では、木構造を使った認識について記述されている。認
識手段として文献２の手法を用いる場合、そこで用いら
れている木構造と適応化の際に用いる木構造を同一のも
のとすることにより、木構造を用いた認識における性能
の向上をはかることが可能である。

【００５９】ここでは、すべての入力発声が終了したの
ち、標準パターンを更新する方法を述べたが、一つ一つ
の発声ごとに、上で述べた処理を行ない、標準パターン
を更新すること（逐次適応化）も容易に可能である。

【００６０】

【発明の効果】記述長最小基準を用いることにより、デ
ータ量の変化に応じて適応化の対象となる自由パラメー
タ数を変化させることを自動的に行なうことができる。
適応化用の音声データが少ないときには、より上位の階
層のノードが選択され、自由パラメータ数は少ない。逆
に多いときには、より下位の階層のノードが選択され、
自由パラメータ数は大きくなる。このため、データ量が
少ないときには、データの不足による推定精度の悪化が
起こらない。また、データ量が十分ある時には、データ
量に見合った十分な数の自由パラメータを推定するた
め、認識性能をより高めることができる。このように、
適応化に用いるデータ量の多少に関わらず、性能の高い
適応化を行なうことが可能である。

【図面の簡単な説明】

【図１】従来の音声認識システム。

【図２】本発明の一実施例を示すブロック図。

【図３】木構造標準パターン。

【符号の説明】

１０１標準パターン記憶部１０２入力パターン作成部１０３認識部１０４認識結果出力部１０５話者適応化部２０１入力パターン作成部２０２木構造標準パターン記憶部２０３パターンマッチング部２０４木構造標準パターン修正部２０５ノード集合選択部２０６修正標準パターン作成部２０７認識用標準パターン記憶部

フロントページの続き (56)参考文献特開平７−114394（ＪＰ，Ａ) 特開平７−230295（ＪＰ，Ａ) ＳｈｉｎｏｄａａｎｄＷａｔａｎａｂｅ，”ＳｐｅａｋｅｒＡｄａｐｔａｔｉｏｎｗｉｔｈａｕｔｏｎｏｍｏｕｓｍｏｄｅｌｃｏｍｐｌｅｘｉｔｙｃｏｎｔｒｏｌｂｙＭＤＬｐｒｉｎｃｉｐｌｅ”，ＩＥＥＥＩＣＡＳＳＰ96，Ｖｏｌ２，ｐｐ．717−720 （1996) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G01L 11/00 - 21/06 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】複数のカテゴリから構成される標準パター
ンを入力サンプルの集合としての入力パターンを用いて
学習するパターン適応化方式において、入力パターンを作成する入力パターン作成手段と、複数の標準パターンを記憶する候補標準パターン記憶手
段と、標準パターンのカテゴリと入力パターンの入力サンプル
との対応付けを行なうパターンマッチング手段と、パターンマッチングに基づき、標準パターンを修正する
標準パターン修正手段と、入力パターンに対する各修正標準パターンの記述長を計
算する記述長計算手段と、記述長を用いて修正標準パターンを選択する修正標準パ
ターン選択手段と、修正標準パターンを保存する認識用標準パターン記憶手
段と、から構成されることを特徴とする記述長最小基準
を用いたパターン適応化方式。
【請求項２】複数のカテゴリから構成される標準パター
ンを入力サンプルの集合としての入力パターンを用いて
学習するパターン適応化方式において、入力パターンを作成する入力パターン作成手段と、カテゴリの包含関係をあらわす木構造と木構造の各ノー
ドでのパラメータ集合から構成される標準パターンを記
憶する木構造標準パターン記憶手段と、木構造標準パターンのカテゴリと入力パターンの入力サ
ンプルとの対応付けを行なうパターンマッチング手段
と、パターンマッチングに基づき、木構造標準パターンを修
正する木構造標準パターン修正手段と、木構造パターンにおける複数のノード集合に対し記述長
を計算し、記述長を用いてノード集合を選択するノード
集合選択手段と、選択されたノード集合のパラメータ集合を用いて修正標
準パターンを作成する、修正標準パターン作成手段と、修正標準パターンを保存する認識用標準パターン記憶手
段と、から構成されることを特徴とする記述長最小基準
を用いたパターン適応化方式。
【請求項３】前記入力パターンとして、音声を分析した
フレームベクトルの時系列を用いることを特徴とする請
求項１又は２記載の記述長最小基準を用いたパターン適
応化方式。
【請求項４】前記標準パターンとして、出力確率分布が
混合ガウス分布である隠れマルコフモデルを用いること
を特徴とする請求項３記載の記述長最小基準を用いたパ
ターン適応化方式。
【請求項５】隠れマルコフモデルの各状態のガウス分布
を用いて作成した木構造を木構造標準パターンとして用
いることを特徴とする請求項４記載の記述長最小基準を
用いたパターン適応化方式。