JP3406672B2

JP3406672B2 - 話者適応化装置

Info

Publication number: JP3406672B2
Application number: JP02116794A
Authority: JP
Inventors: 亨今井; 彰男安藤; 栄一宮坂
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 1994-02-18
Filing date: 1994-02-18
Publication date: 2003-05-12
Anticipated expiration: 2018-05-12
Also published as: JPH07230300A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、任意の内容の発声デー
タにより音声認識モデルを新しい話者へ適応化する話者
適応化装置のうち、特にベクトル量子化を用いた場合
の、コードブックの教師無し話者適応化装置に関する。

【０００２】

【従来の技術】音声認識のための、従来のコードブック
の教師無し話者適応化方法には、例えば次の(i), (ii)
のような方法が提案されている。すなわち、 (i) 部分空間における量子化誤差を利用する話者適応
方法（山下泰樹、松本弘「単語音声認識におけるベクト
ル量子化誤差を利用した話者適応」電子情報通信学会技
術研究報告ＳＰ８７−１１８参照）。この方法では、あ
らかじめ設定してある部分空間の代表点と、適応化用学
習データとの誤差ベクトルを、部分空間ごとに求める。
標準話者コードブックのコードベクトルに対し、各部分
空間での誤差ベクトルをその距離に応じて重み付けして
加え、適応話者コードブックを作成するものである。 (ii) ファジークラスタリングによる話者適応化方法
（中村哲「ファジークラスタリングによる教師なし話者
適応化」音響学会平成３年春季大会講演論文集１−５−
２０参照）。この方法では、適応化用学習データを標準
話者コードブックでベクトル量子化し、同一クラスタに
入る適応化用学習データのセントロイドを求め、標準話
者コードブックのコードベクトルとセントロイドの差
を、各クラスタにおける誤差ベクトルとする。一方、標
準話者コードブックのコードベクトルに対し、各クラス
タでの誤差ベクトルを、コードベクトル間のファジー級
関数で重み付けして加え、適応話者コードブックを作成
するものである。

【０００３】

【発明が解決しようとする課題】上述した従来の方法
(i) では、部分空間を用いているため、部分空間の設計
に話者適応化の効果が左右されるにもかかわらず、これ
について詳細な検討はなされていない。また、標準話者
コードブックのコードベクトルと部分空間の絶対的な距
離を考慮せず、相対的な距離のみを考慮して修正を行
う。したがって、コードベクトルがどの部分空間からも
遠い時でも、コードベクトルは部分空間から修正を受け
てしまうので、距離の遠い適応化用学習データで標準話
者コードブックを話者適応化することになってしまうと
いう欠点がある。

【０００４】また従来の方法(ii)では、あるクラスタの
コードベクトルを修正するのに他のクラスタにおける誤
差ベクトルを用い、コードベクトル間のファジー級関数
で重み付けしているので、この場合もコードベクトル間
の絶対的な距離を考慮せずに相対的な距離のみ考慮して
修正することになる。すなわちこの方法においても、あ
るコードベクトルが他のどのコードベクトルからも遠い
時でも、このコードベクトルは他のコードベクトルから
修正を受けてしまうので、距離の遠い適応化用学習デー
タで標準話者コードブックを話者適応化することになっ
てしまうという欠点がある。

【０００５】本発明の目的は、上記欠点を伴うことなく
標準話者コードブックを話者適応化して適応話者コード
ブックを作成することにある。

【０００６】

【課題を解決するための手段】上記目的を達成するため
に、本発明話者適応化装置は、ベクトル量子化を用いた
音声認識のためのコードブックの教師無し話者適応化装
置であって、標準話者コードブックの各コードベクトル
Ｃ_iとすべての適応化用学習データの特徴ベクトルＶ_j
との差を誤差ベクトルとして計算する手段、標準話者コ
ードブックの各コードベクトルＣ_iとすべての適応化用
学習データの特徴ベクトルＶ_jとの位置関係から重み係
数を計算する手段、前記誤差ベクトルを計算する手段に
よって計算した誤差ベクトルに、前記重み係数を計算す
る手段によって計算した重み係数を用いて重み付けする
手段、および該手段によって重み付けされた誤差ベクト
ルを前記標準話者コードブックの各コードベクトルＣ_i
に加算する手段を少なくとも具えてなる話者適応化装置
において、前記重み係数は、前記すべての適応化用学習
データの特徴ベクトルＶ_jと前記標準話者コードブック
の各コードベクトルＣ_iとのユークリッド距離に逆比例
する値を、前記標準話者コードブックの各コードベクト
ルＣ_i に関して総和が1 になるように正規化したもので
あることを特徴とするものである。また、本発明話者適
応化装置は、前記重み付けされた誤差ベクトルによる前
記標準話者コードブックの各コードベクトルＣ_iの修正
を繰り返し行うように構成したことを特徴とするもので
ある。

【０００７】

【実施例】以下に添付図面を参照し実施例により本発明
を詳細に説明する。図１は、標準話者コードブックの各
コードベクトルと、すべての適応化用学習データとの差
を誤差ベクトルとし、これにコードベクトルと学習デー
タの位置関係を考慮して重み付けを行うことにより、コ
ードベクトルの修正を行う本発明による話者適応化装置
の一実施例についての動作を示すフローチャートであ
る。

【０００８】図示のように、本発明の一実施例において
は標準話者コードブック１と、適応化用学習データ２
と、ファジー級関数を計算するブロック３と、誤差ベク
トルを計算するブロック４と、標準話者コードブックの
コードベクトルを修正するブロック５と、修正されたコ
ードブック６と、コードブック修正の繰り返しを判断す
るブロック７と、最終的に得られる適応話者コードブッ
ク８とを含む。

【０００９】まず、標準話者コードブック１は、標準話
者とみなされる一人あるいは複数の話者の音声データか
ら、例えばＬＢＧ（Linde-Buzo-Gray)アルゴリズムなど
により作成される。コードブック内のコードベクトル
は、例えばＬＰＣ（Linear-Predictive-Coding) ケプス
トラム係数、ＬＰＣケプストラム計数の線形１次回帰係
数、対数パワーの線形１次回帰係数など、音声認識で使
われるすべての音響特徴パラメータをとり得る。ここで
はｉ（１≦ｉ≦Ｋ）番目のコードベクトルをＣｉと記述
する。Ｋはコードブックサイズである。

【００１０】次に適応化用学習データ２は、適応化した
い話者の任意の５０単語程度の音声であり、音響分析に
より、標準話者のコードベクトルに使われたのと同じ種
類の特徴ベクトルに変換しておく。ここでは全適応化用
学習データ中のｊ（１≦ｊ≦Ｎ）番目の特徴ベクトルを
Ｖｊと記述する。Ｎは適応化用学習データの特徴ベクト
ルの総数である。

【００１１】ファジー級関数を計算するブロック３で
は、標準話者のコードベクトルＣｉと適応化用学習デー
タの特徴ベクトルＶｊを用いて、次の(1) 式を計算す
る。

【数１】ここでＦはファジネス（Ｆ＞１）、ｄはベクトル間のユ
ークリッド距離である。また、Ｗ_ijはＣ_iとＶ_j間の重
み係数であり、適応化用学習データの特徴ベクトルから
標準話者のコードベクトルへのファジー級関数になって
いる。すなわち(1) 式は、拘束条件である

【数２】のもとで、次の(3) 式で定義される目的関数Ｊを最小化
することにより求められたものである。

【数３】ただし(1) 式の計算においては、計算量削減のために、
Ｗ_ijは全てのコードベクトル（Ｋ個）に対して求めるこ
とをせず、Ｖ_jの最近傍にあるｈ個のコードベクトルに
対してのみ求め、それ以外は０とすることも可能であ
る。

【００１２】また、ファジネスＦは各コードベクトルへ
の重みのかけ方を制御するパラメータであり、Ｆが１に
近いほどＶ_jに最も近いコードベクトルの重みが増し、
Ｆが大きくなるほど重みが分散する。複数の特徴パラメ
ータに対してそれぞれ独立したコードブックを用いる場
合、重みＷ_ijの最大値の平均ｗが各コードブックでほぼ
等しくなるよう、Ｆをコードブック毎に独立に設定する
ことも可能である。

【００１３】誤差ベクトルを計算するブロック４では、
標準話者のコードベクトルＣ_iと適応化用学習データの
特徴ベクトルＶ_jの誤差ベクトル、すなわち、標準話者
コードブックの各コードベクトルＣ_iとすべての適応化
用学習データＶ_jの差

【数４】Ｖ_j−Ｃ_i（１≦ｉ≦Ｋ，１≦ｊ≦Ｎ） …(4) を求める。ただしこの場合においても、Ｗ_ijの計算を最
近傍ｈ個のコードベクトルに対してのみ行う場合には、
ここでも計算量削減のため、Ｗ_ij≠０となるような
（ｉ，ｊ）に対してのみ計算を行うことが可能である。

【００１４】コードベクトルを修正するブロック５で
は、標準話者コードブック１からコードベクトルＣ_i、
ファジー級関数を計算するブロック３から重み係数Ｗ_ij
および誤差ベクトルを計算するブロック4 から誤差ベク
トルＶ_j−Ｃ_iを受けて、つぎの(5) 式により、標準話
者のコードベクトルＣ_iに修正を施し、修正されたコー
ドベクトルＣ′_iを作成する。

【数５】ここで、Ｎ′はＷ_ij≠０となるＶ_jの個数である。修正
されたコードブック６は、ブロック５で作られたコード
ベクトルＣ′_iの集合である。

【００１５】ブロック７では、修正されたコードブック
６で適応化用学習データ２をベクトル量子化した時の量
子化誤差の減少の程度などを調べ、コードブックを再び
修正するかどうかを判断する。もし修正が必要ならば、
標準話者コードブック１を修正されたコードブック６で
更新し、再びファジー級関数の計算３（（１）式）、誤
差ベクトルの計算４（（４）式）、コードベクトルの修
正５（（５）式）を行う。もしさらに修正が必要でない
なら、修正されたコードブック６を適応話者コードブッ
ク８とし、話者適応化の処理を終了する。

【００１６】以上においては、重み係数Ｗ_ijに適応化用
学習データの特徴ベクトルから標準話者のコードベクト
ルへのファジー級関数を用いたが、これはもちろん、コ
ードベクトルと学習データの位置関係を考慮した重み係
数であれば、どのような重み係数を用いることも可能で
ある。例えば、ファジー級関数のほかに、適応化用学習
データの特徴ベクトルと標準話者コードベクトルのユー
クリッド距離に逆比例する値を、前記標準話者コードベ
クトルに関して総和が１になるよう正規化して用いても
よい。

【００１７】上述した本発明の一実施例で得られる適応
話者コードブック８（図１参照）は、標準話者コードブ
ックを用いた場合よりも少ない量子化誤差で、適応化用
学習データをベクトル量子化することが可能である。し
たがって話者適応化されたコードブックは、同じ適応話
者の未知の学習データに対しても少ない量子化誤差でベ
クトル量子化を行い、音声認識率を向上させることが可
能である。

【００１８】また、本発明によれば従来技術の項で説明
した話者適応化方法（ｉ），（ii）が有しているような
欠点がないため、これを用いて音声認識を行えばより高
い認識率が得られるものと期待できる。そこで、本発明
の適用例として、図２に示す手順に従って離散分布ＨＭ
Ｍ（隠れマルコフモデル）による日本語音素認識を行う
場合について述べる。図２において、６名の標準話者の
音声から作成したコードブック１１と離散分布ＨＭＭ１
７とを、標準話者とは異なる１名の適応話者の５０単語
の学習データ１２で話者適応化し、適応話者の音声から
切り出した日本語２３音素の音声データ２２を認識する
ことで、本発明話者適応化装置の有効性の検証を行う。

【００１９】ここで、標準話者コードブック１１とし
て、市販の日本語データベースの男性話者６名の音声デ
ータ（重要５２４０単語）を用い、ＬＢＧアルゴリズム
により作成したものを使用し、適応化用学習データ１２
は標準話者とは異なる男性の適応話者１名が発声した任
意の５０単語であり、ここでは上記の日本語データベー
スの音素バランス２１６単語の先頭からの５０単語を用
いた。

【００２０】これらの音声は、標本化周波数１５ｋＨ
ｚ、フレーム長２０msec、フレーム周期５msecのハミン
グ窓、高域強調（１−0.95ｚ^-1）の分析条件で１８次線
形予測分析が行われ、ＬＰＣケプストラム係数（１８
次）、ＬＰＣケプストラム係数の線形１次回帰係数（１
８次）、対数パワーの線形１次回帰係数（１次）の３つ
の特徴パラメータに変換される。コードブックは３つの
特徴パラメータに対して独立に作成し、コードブックサ
イズはそれぞれ２５６，２５６，６４とする。上述の本
発明にかかわる話者適応化装置１３により、標準話者コ
ードブック１１は話者適応化され、適応話者コードブッ
ク１４が作成される。ここでは更新（図１のブロック
７）を５回繰り返し、３つの特徴パラメータ、ＬＰＣケ
プストラム係数、ＬＰＣケプストラム係数の線形１次回
帰係数、対数パワーの線形１次回帰係数に対して、ｗ＝
0.4 とし、ファジネスＦの組を（1.22，1.13，2.00）と
した。

【００２１】標準話者ＨＭＭ１７は日本語３３音素毎に
用意し、標準話者コードブックを作成したのと同じ学習
データ（１音素につき最大２４０サンプル）で、最尤推
定学習により求める。離散分布ＨＭＭの構造はleft-to-
right 型で、子音に対しては４状態、母音に対しては２
状態、同じ遷移元の出力確率は共通のものを用いる。

【００２２】次に、ＨＭＭの話者適応化を行うために、
適応化用学習データ１２を適応話者コードブック１４で
ベクトル量子化（１５）し、標準話者ＨＭＭ１７による
Viterbi アルゴリズムで、単語単位の音声データ１２を
音素単位に分割（１６）する。適応化用音声１２の発声
内容は任意であるが、その発音記号列２０を音素分割の
際に利用するのでＨＭＭの適応化は発声内容の教師あり
学習となる。音素に分割された適応化用学習データ２１
により、標準話者ＨＭＭ１７をΛ（ラムダ）学習（１
８）（例えば、T.Imai, et al.: ”An HMM Learning Al
gorithm for Minimizing an Error Function on All Tr
aining Data," J.Acoust. Soc. Jpn. (E)13, 6, pp.369
−378 ，1992）し、適応話者ＨＭＭ１９を作成する。Λ
（ラムダ）学習における摂動の繰り返しは２万回とし、
その５千回毎にViterbi アルゴリズムによる学習データ
の音素への分割を再実行した。以上でＨＭＭの話者適応
化が完了する。

【００２３】以上の手順で作成された適応話者コードブ
ック１４と適応話者ＨＭＭ１９とにより、適応話者の認
識データ２２（重要５２４０単語から切り出された２３
音素で、１音素につき最大２００サンプル）を音声認識
（２３）する実験を行った。認識結果２４は、図３に示
すように、話者適応化を行う前は70.0％の認識率であっ
たが、本発明によるコードブックの話者適応化１３およ
びＨＭＭの適応化１８により、認識率は73.3％に向上し
た。さらに詳しく調べると、話者適応化されたコードブ
ックと適応化前の標準話者のＨＭＭを用いた場合でも、
認識率は70.8％に改善されている。

【００２４】参考のため、本発明によるコードブックの
話者適応化１３を行わずにＨＭＭの話者適応化１８のみ
を行った場合は、認識率は72.3％であり、上述のコード
ブックの話者適応化を行った場合の73.3％から、本発明
によるコードブックの話者適応化の効果があることがわ
かる。また、従来の方法（ｉ），（ii）によるコードブ
ックの話者適応化を同じ実験条件で試みたところ、認識
率は（ｉ）による方法で71.4％、（ii）による方法で6
9.4％となり、本発明の方が優位であることが判明し
た。

【００２５】最後に、標準話者コードブック１を修正さ
れたコードブック６で更新する（符号はそれぞれ図１に
対応）本発明による話者適応化を繰り返し行ったときの
効果を、ＬＰＣケプストラム係数のコードブックについ
て図４に示す。これによれば、コードベクトル適応化の
更新を繰り返すことにより量子化誤差は次第に減少して
いき、５回の繰り返し学習で量子化誤差が２１％減少し
ている。また、認識に用いた音声データに対しては、話
者適応化前に比べて、量子化誤差は８％減少した。

【００２６】

【発明の効果】以上説明したように本発明によれば、標
準話者コードブックの各コードベクトルと全適応化用学
習データの差を誤差ベクトルとし、学習データからコー
ドベクトルへのファジー級関数を重み付けすることによ
り、各学習データが影響を及ぼすべきコードベクトルに
対してのみ修正を行うことができ、そのため、周囲に学
習データの無いコードベクトルはそのままで、周囲に学
習データの多いコードベクトルが精密に修正されること
になる。従って、本発明による話者適応化装置によって
話者適応化されたコードブックは、同じ適応話者の未知
の学習データに対しても少ない量子化誤差でベクトル量
子化を行い、音声認識率を向上させることが可能であ
る。

【００２７】また、本発明は適応化の対象として、話者
適応化のほかに異なる発声環境にコードブックを適応化
することにも応用が可能である。例えば、雑音の無い環
境で収録した音声でコードブックを作成し、これを雑音
下で収録した音声で適応化すること、などが考えられ
る。すなわち前述の本発明による一実施例において、図
１における標準話者コードブック１を無雑音下のコード
ブックとし、適応化用学習データ２に雑音のある音声を
用い、適応話者コードブックを雑音下のコードブックと
すれば、本発明の適応化装置でコードブックの発声環境
の適応化が可能となる。

【図面の簡単な説明】

【図１】本発明による話者適応化装置の一実施例につ
いての動作を示すフローチャートである。

【図２】本発明の適応例として、日本語音素認識を行
う手順を示すフローチャートである。

【図３】本発明による話者適応化装置の効果を、他の
方法との比較において実験結果によって示すグラフであ
る。

【図４】本発明による話者適応化装置によるコードベ
クトル適応化の更新を繰り返し行ったときの量子化誤差
の減少を示すグラフである。

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平３−186899（ＪＰ，Ａ) 特開平１−237600（ＪＰ，Ａ) 特開平５−53599（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/06 G10L 15/10

Claims

(57)【特許請求の範囲】

【請求項１】ベクトル量子化を用いた音声認識のため
のコードブックの教師無し話者適応化装置であって、標準話者コードブックの各コードベクトルＣ_iとすべて
の適応化用学習データの特徴ベクトルＶ_jとの差を誤差
ベクトルとして計算する手段、標準話者コードブックの各コードベクトルＣ_iとすべて
の適応化用学習データの特徴ベクトルＶ_jとの位置関係
から重み係数を計算する手段、前記誤差ベクトルを計算する手段によって計算した誤差
ベクトルに、前記重み係数を計算する手段によって計算
した重み係数を用いて重み付けする手段、および該手段
によって重み付けされた誤差ベクトルを前記標準話者コ
ードブックの各コードベクトルＣ_iに加算する手段を少
なくとも具えてなる話者適応化装置において、前記重み係数は、前記すべての適応化用学習データの特
徴ベクトルＶ_jと前記標準話者コードブックの各コード
ベクトルＣ_iとのユークリッド距離に逆比例する値を、
前記標準話者コードブックの各コードベクトルＣ_i に関
して総和が１になるように正規化したものであることを
特徴とする話者適応化装置。
【請求項２】請求項１記載の話者適応化装置において、
前記重み付けされた誤差ベクトルによる前記標準話者コ
ードブックの各コードベクトルＣ_iの修正を繰り返し行
うように構成したことを特徴とする話者適応化装置。