JP3406672B2 - 話者適応化装置 - Google Patents

話者適応化装置

Info

Publication number
JP3406672B2
JP3406672B2 JP02116794A JP2116794A JP3406672B2 JP 3406672 B2 JP3406672 B2 JP 3406672B2 JP 02116794 A JP02116794 A JP 02116794A JP 2116794 A JP2116794 A JP 2116794A JP 3406672 B2 JP3406672 B2 JP 3406672B2
Authority
JP
Japan
Prior art keywords
speaker
vector
codebook
adaptation
learning data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP02116794A
Other languages
English (en)
Other versions
JPH07230300A (ja
Inventor
亨 今井
彰男 安藤
栄一 宮坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP02116794A priority Critical patent/JP3406672B2/ja
Publication of JPH07230300A publication Critical patent/JPH07230300A/ja
Application granted granted Critical
Publication of JP3406672B2 publication Critical patent/JP3406672B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、任意の内容の発声デー
タにより音声認識モデルを新しい話者へ適応化する話者
適応化装置のうち、特にベクトル量子化を用いた場合
の、コードブックの教師無し話者適応化装置に関する。
【0002】
【従来の技術】音声認識のための、従来のコードブック
の教師無し話者適応化方法には、例えば次の(i), (ii)
のような方法が提案されている。すなわち、 (i) 部分空間における量子化誤差を利用する話者適応
方法(山下泰樹、松本弘「単語音声認識におけるベクト
ル量子化誤差を利用した話者適応」電子情報通信学会技
術研究報告SP87−118参照)。この方法では、あ
らかじめ設定してある部分空間の代表点と、適応化用学
習データとの誤差ベクトルを、部分空間ごとに求める。
標準話者コードブックのコードベクトルに対し、各部分
空間での誤差ベクトルをその距離に応じて重み付けして
加え、適応話者コードブックを作成するものである。 (ii) ファジークラスタリングによる話者適応化方法
(中村哲「ファジークラスタリングによる教師なし話者
適応化」音響学会平成3年春季大会講演論文集1−5−
20参照)。この方法では、適応化用学習データを標準
話者コードブックでベクトル量子化し、同一クラスタに
入る適応化用学習データのセントロイドを求め、標準話
者コードブックのコードベクトルとセントロイドの差
を、各クラスタにおける誤差ベクトルとする。一方、標
準話者コードブックのコードベクトルに対し、各クラス
タでの誤差ベクトルを、コードベクトル間のファジー級
関数で重み付けして加え、適応話者コードブックを作成
するものである。
【0003】
【発明が解決しようとする課題】上述した従来の方法
(i) では、部分空間を用いているため、部分空間の設計
に話者適応化の効果が左右されるにもかかわらず、これ
について詳細な検討はなされていない。また、標準話者
コードブックのコードベクトルと部分空間の絶対的な距
離を考慮せず、相対的な距離のみを考慮して修正を行
う。したがって、コードベクトルがどの部分空間からも
遠い時でも、コードベクトルは部分空間から修正を受け
てしまうので、距離の遠い適応化用学習データで標準話
者コードブックを話者適応化することになってしまうと
いう欠点がある。
【0004】また従来の方法(ii)では、あるクラスタの
コードベクトルを修正するのに他のクラスタにおける誤
差ベクトルを用い、コードベクトル間のファジー級関数
で重み付けしているので、この場合もコードベクトル間
の絶対的な距離を考慮せずに相対的な距離のみ考慮して
修正することになる。すなわちこの方法においても、あ
るコードベクトルが他のどのコードベクトルからも遠い
時でも、このコードベクトルは他のコードベクトルから
修正を受けてしまうので、距離の遠い適応化用学習デー
タで標準話者コードブックを話者適応化することになっ
てしまうという欠点がある。
【0005】本発明の目的は、上記欠点を伴うことなく
標準話者コードブックを話者適応化して適応話者コード
ブックを作成することにある。
【0006】
【課題を解決するための手段】上記目的を達成するため
に、本発明話者適応化装置は、ベクトル量子化を用いた
音声認識のためのコードブックの教師無し話者適応化装
置であって、標準話者コードブックの各コードベクトル
i とすべての適応化用学習データの特徴ベクトルVj
との差を誤差ベクトルとして計算する手段、標準話者コ
ードブックの各コードベクトルCi とすべての適応化用
学習データの特徴ベクトルVj との位置関係から重み係
数を計算する手段、前記誤差ベクトルを計算する手段に
よって計算した誤差ベクトルに、前記重み係数を計算す
る手段によって計算した重み係数を用いて重み付けする
手段、および該手段によって重み付けされた誤差ベクト
ルを前記標準話者コードブックの各コードベクトルCi
に加算する手段を少なくとも具えてなる話者適応化装置
において、前記重み係数は、前記すべての適応化用学習
データの特徴ベクトルVj と前記標準話者コードブック
の各コードベクトルCi とのユークリッド距離に逆比例
する値を、前記標準話者コードブックの各コードベクト
ルCi に関して総和が1 になるように正規化したもので
あることを特徴とするものである。また、本発明話者適
応化装置は、前記重み付けされた誤差ベクトルによる前
記標準話者コードブックの各コードベクトルCi の修正
を繰り返し行うように構成したことを特徴とするもので
ある。
【0007】
【実施例】以下に添付図面を参照し実施例により本発明
を詳細に説明する。図1は、標準話者コードブックの各
コードベクトルと、すべての適応化用学習データとの差
を誤差ベクトルとし、これにコードベクトルと学習デー
タの位置関係を考慮して重み付けを行うことにより、コ
ードベクトルの修正を行う本発明による話者適応化装置
の一実施例についての動作を示すフローチャートであ
る。
【0008】図示のように、本発明の一実施例において
は標準話者コードブック1と、適応化用学習データ2
と、ファジー級関数を計算するブロック3と、誤差ベク
トルを計算するブロック4と、標準話者コードブックの
コードベクトルを修正するブロック5と、修正されたコ
ードブック6と、コードブック修正の繰り返しを判断す
るブロック7と、最終的に得られる適応話者コードブッ
ク8とを含む。
【0009】まず、標準話者コードブック1は、標準話
者とみなされる一人あるいは複数の話者の音声データか
ら、例えばLBG(Linde-Buzo-Gray)アルゴリズムなど
により作成される。コードブック内のコードベクトル
は、例えばLPC(Linear-Predictive-Coding) ケプス
トラム係数、LPCケプストラム計数の線形1次回帰係
数、対数パワーの線形1次回帰係数など、音声認識で使
われるすべての音響特徴パラメータをとり得る。ここで
はi(1≦i≦K)番目のコードベクトルをCiと記述
する。Kはコードブックサイズである。
【0010】次に適応化用学習データ2は、適応化した
い話者の任意の50単語程度の音声であり、音響分析に
より、標準話者のコードベクトルに使われたのと同じ種
類の特徴ベクトルに変換しておく。ここでは全適応化用
学習データ中のj(1≦j≦N)番目の特徴ベクトルを
Vjと記述する。Nは適応化用学習データの特徴ベクト
ルの総数である。
【0011】ファジー級関数を計算するブロック3で
は、標準話者のコードベクトルCiと適応化用学習デー
タの特徴ベクトルVjを用いて、次の(1) 式を計算す
る。
【数1】 ここでFはファジネス(F>1)、dはベクトル間のユ
ークリッド距離である。また、WijはCi とVj 間の重
み係数であり、適応化用学習データの特徴ベクトルから
標準話者のコードベクトルへのファジー級関数になって
いる。すなわち(1) 式は、拘束条件である
【数2】 のもとで、次の(3) 式で定義される目的関数Jを最小化
することにより求められたものである。
【数3】 ただし(1) 式の計算においては、計算量削減のために、
ijは全てのコードベクトル(K個)に対して求めるこ
とをせず、Vj の最近傍にあるh個のコードベクトルに
対してのみ求め、それ以外は0とすることも可能であ
る。
【0012】また、ファジネスFは各コードベクトルへ
の重みのかけ方を制御するパラメータであり、Fが1に
近いほどVj に最も近いコードベクトルの重みが増し、
Fが大きくなるほど重みが分散する。複数の特徴パラメ
ータに対してそれぞれ独立したコードブックを用いる場
合、重みWijの最大値の平均wが各コードブックでほぼ
等しくなるよう、Fをコードブック毎に独立に設定する
ことも可能である。
【0013】誤差ベクトルを計算するブロック4では、
標準話者のコードベクトルCi と適応化用学習データの
特徴ベクトルVj の誤差ベクトル、すなわち、標準話者
コードブックの各コードベクトルCi とすべての適応化
用学習データVj の差
【数4】 Vj −Ci (1≦i≦K,1≦j≦N) …(4) を求める。ただしこの場合においても、Wijの計算を最
近傍h個のコードベクトルに対してのみ行う場合には、
ここでも計算量削減のため、Wij≠0となるような
(i,j)に対してのみ計算を行うことが可能である。
【0014】コードベクトルを修正するブロック5で
は、標準話者コードブック1からコードベクトルCi
ファジー級関数を計算するブロック3から重み係数Wij
および誤差ベクトルを計算するブロック4 から誤差ベク
トルVj −Ci を受けて、つぎの(5) 式により、標準話
者のコードベクトルCi に修正を施し、修正されたコー
ドベクトルC′i を作成する。
【数5】 ここで、N′はWij≠0となるVj の個数である。修正
されたコードブック6は、ブロック5で作られたコード
ベクトルC′i の集合である。
【0015】ブロック7では、修正されたコードブック
6で適応化用学習データ2をベクトル量子化した時の量
子化誤差の減少の程度などを調べ、コードブックを再び
修正するかどうかを判断する。もし修正が必要ならば、
標準話者コードブック1を修正されたコードブック6で
更新し、再びファジー級関数の計算3((1)式)、誤
差ベクトルの計算4((4)式)、コードベクトルの修
正5((5)式)を行う。もしさらに修正が必要でない
なら、修正されたコードブック6を適応話者コードブッ
ク8とし、話者適応化の処理を終了する。
【0016】以上においては、重み係数Wijに適応化用
学習データの特徴ベクトルから標準話者のコードベクト
ルへのファジー級関数を用いたが、これはもちろん、コ
ードベクトルと学習データの位置関係を考慮した重み係
数であれば、どのような重み係数を用いることも可能で
ある。例えば、ファジー級関数のほかに、適応化用学習
データの特徴ベクトルと標準話者コードベクトルのユー
クリッド距離に逆比例する値を、前記標準話者コードベ
クトルに関して総和が1になるよう正規化して用いても
よい。
【0017】上述した本発明の一実施例で得られる適応
話者コードブック8(図1参照)は、標準話者コードブ
ックを用いた場合よりも少ない量子化誤差で、適応化用
学習データをベクトル量子化することが可能である。し
たがって話者適応化されたコードブックは、同じ適応話
者の未知の学習データに対しても少ない量子化誤差でベ
クトル量子化を行い、音声認識率を向上させることが可
能である。
【0018】また、本発明によれば従来技術の項で説明
した話者適応化方法(i),(ii)が有しているような
欠点がないため、これを用いて音声認識を行えばより高
い認識率が得られるものと期待できる。そこで、本発明
の適用例として、図2に示す手順に従って離散分布HM
M(隠れマルコフモデル)による日本語音素認識を行う
場合について述べる。図2において、6名の標準話者の
音声から作成したコードブック11と離散分布HMM1
7とを、標準話者とは異なる1名の適応話者の50単語
の学習データ12で話者適応化し、適応話者の音声から
切り出した日本語23音素の音声データ22を認識する
ことで、本発明話者適応化装置の有効性の検証を行う。
【0019】ここで、標準話者コードブック11とし
て、市販の日本語データベースの男性話者6名の音声デ
ータ(重要5240単語)を用い、LBGアルゴリズム
により作成したものを使用し、適応化用学習データ12
は標準話者とは異なる男性の適応話者1名が発声した任
意の50単語であり、ここでは上記の日本語データベー
スの音素バランス216単語の先頭からの50単語を用
いた。
【0020】これらの音声は、標本化周波数15kH
z、フレーム長20msec、フレーム周期5msecのハミン
グ窓、高域強調(1−0.95z-1)の分析条件で18次線
形予測分析が行われ、LPCケプストラム係数(18
次)、LPCケプストラム係数の線形1次回帰係数(1
8次)、対数パワーの線形1次回帰係数(1次)の3つ
の特徴パラメータに変換される。コードブックは3つの
特徴パラメータに対して独立に作成し、コードブックサ
イズはそれぞれ256,256,64とする。上述の本
発明にかかわる話者適応化装置13により、標準話者コ
ードブック11は話者適応化され、適応話者コードブッ
ク14が作成される。ここでは更新(図1のブロック
7)を5回繰り返し、3つの特徴パラメータ、LPCケ
プストラム係数、LPCケプストラム係数の線形1次回
帰係数、対数パワーの線形1次回帰係数に対して、w=
0.4 とし、ファジネスFの組を(1.22,1.13,2.00)と
した。
【0021】標準話者HMM17は日本語33音素毎に
用意し、標準話者コードブックを作成したのと同じ学習
データ(1音素につき最大240サンプル)で、最尤推
定学習により求める。離散分布HMMの構造はleft-to-
right 型で、子音に対しては4状態、母音に対しては2
状態、同じ遷移元の出力確率は共通のものを用いる。
【0022】次に、HMMの話者適応化を行うために、
適応化用学習データ12を適応話者コードブック14で
ベクトル量子化(15)し、標準話者HMM17による
Viterbi アルゴリズムで、単語単位の音声データ12を
音素単位に分割(16)する。適応化用音声12の発声
内容は任意であるが、その発音記号列20を音素分割の
際に利用するのでHMMの適応化は発声内容の教師あり
学習となる。音素に分割された適応化用学習データ21
により、標準話者HMM17をΛ(ラムダ)学習(1
8)(例えば、T.Imai, et al.: ”An HMM Learning Al
gorithm for Minimizing an Error Function on All Tr
aining Data," J.Acoust. Soc. Jpn. (E)13, 6, pp.369
−378 ,1992)し、適応話者HMM19を作成する。Λ
(ラムダ)学習における摂動の繰り返しは2万回とし、
その5千回毎にViterbi アルゴリズムによる学習データ
の音素への分割を再実行した。以上でHMMの話者適応
化が完了する。
【0023】以上の手順で作成された適応話者コードブ
ック14と適応話者HMM19とにより、適応話者の認
識データ22(重要5240単語から切り出された23
音素で、1音素につき最大200サンプル)を音声認識
(23)する実験を行った。認識結果24は、図3に示
すように、話者適応化を行う前は70.0%の認識率であっ
たが、本発明によるコードブックの話者適応化13およ
びHMMの適応化18により、認識率は73.3%に向上し
た。さらに詳しく調べると、話者適応化されたコードブ
ックと適応化前の標準話者のHMMを用いた場合でも、
認識率は70.8%に改善されている。
【0024】参考のため、本発明によるコードブックの
話者適応化13を行わずにHMMの話者適応化18のみ
を行った場合は、認識率は72.3%であり、上述のコード
ブックの話者適応化を行った場合の73.3%から、本発明
によるコードブックの話者適応化の効果があることがわ
かる。また、従来の方法(i),(ii)によるコードブ
ックの話者適応化を同じ実験条件で試みたところ、認識
率は(i)による方法で71.4%、(ii)による方法で6
9.4%となり、本発明の方が優位であることが判明し
た。
【0025】最後に、標準話者コードブック1を修正さ
れたコードブック6で更新する(符号はそれぞれ図1に
対応)本発明による話者適応化を繰り返し行ったときの
効果を、LPCケプストラム係数のコードブックについ
て図4に示す。これによれば、コードベクトル適応化の
更新を繰り返すことにより量子化誤差は次第に減少して
いき、5回の繰り返し学習で量子化誤差が21%減少し
ている。また、認識に用いた音声データに対しては、話
者適応化前に比べて、量子化誤差は8%減少した。
【0026】
【発明の効果】以上説明したように本発明によれば、標
準話者コードブックの各コードベクトルと全適応化用学
習データの差を誤差ベクトルとし、学習データからコー
ドベクトルへのファジー級関数を重み付けすることによ
り、各学習データが影響を及ぼすべきコードベクトルに
対してのみ修正を行うことができ、そのため、周囲に学
習データの無いコードベクトルはそのままで、周囲に学
習データの多いコードベクトルが精密に修正されること
になる。従って、本発明による話者適応化装置によって
話者適応化されたコードブックは、同じ適応話者の未知
の学習データに対しても少ない量子化誤差でベクトル量
子化を行い、音声認識率を向上させることが可能であ
る。
【0027】また、本発明は適応化の対象として、話者
適応化のほかに異なる発声環境にコードブックを適応化
することにも応用が可能である。例えば、雑音の無い環
境で収録した音声でコードブックを作成し、これを雑音
下で収録した音声で適応化すること、などが考えられ
る。すなわち前述の本発明による一実施例において、図
1における標準話者コードブック1を無雑音下のコード
ブックとし、適応化用学習データ2に雑音のある音声を
用い、適応話者コードブックを雑音下のコードブックと
すれば、本発明の適応化装置でコードブックの発声環境
の適応化が可能となる。
【図面の簡単な説明】
【図1】 本発明による話者適応化装置の一実施例につ
いての動作を示すフローチャートである。
【図2】 本発明の適応例として、日本語音素認識を行
う手順を示すフローチャートである。
【図3】 本発明による話者適応化装置の効果を、他の
方法との比較において実験結果によって示すグラフであ
る。
【図4】 本発明による話者適応化装置によるコードベ
クトル適応化の更新を繰り返し行ったときの量子化誤差
の減少を示すグラフである。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平3−186899(JP,A) 特開 平1−237600(JP,A) 特開 平5−53599(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 15/06 G10L 15/10

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 ベクトル量子化を用いた音声認識のため
    のコードブックの教師無し話者適応化装置であって、 標準話者コードブックの各コードベクトルCi とすべて
    の適応化用学習データの特徴ベクトルVj との差を誤差
    ベクトルとして計算する手段、 標準話者コードブックの各コードベクトルCi とすべて
    の適応化用学習データの特徴ベクトルVj との位置関係
    から重み係数を計算する手段、 前記誤差ベクトルを計算する手段によって計算した誤差
    ベクトルに、前記重み係数を計算する手段によって計算
    した重み係数を用いて重み付けする手段、および該手段
    によって重み付けされた誤差ベクトルを前記標準話者コ
    ードブックの各コードベクトルCi に加算する手段を少
    なくとも具えてなる話者適応化装置において、 前記重み係数は、前記すべての適応化用学習データの特
    徴ベクトルVj と前記標準話者コードブックの各コード
    ベクトルCi とのユークリッド距離に逆比例する値を、
    前記標準話者コードブックの各コードベクトルCi に関
    して総和が1になるように正規化したものであることを
    特徴とする話者適応化装置。
  2. 【請求項2】請求項1記載の話者適応化装置において、
    前記重み付けされた誤差ベクトルによる前記標準話者コ
    ードブックの各コードベクトルCi の修正を繰り返し行
    うように構成したことを特徴とする話者適応化装置。
JP02116794A 1994-02-18 1994-02-18 話者適応化装置 Expired - Fee Related JP3406672B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP02116794A JP3406672B2 (ja) 1994-02-18 1994-02-18 話者適応化装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP02116794A JP3406672B2 (ja) 1994-02-18 1994-02-18 話者適応化装置

Publications (2)

Publication Number Publication Date
JPH07230300A JPH07230300A (ja) 1995-08-29
JP3406672B2 true JP3406672B2 (ja) 2003-05-12

Family

ID=12047366

Family Applications (1)

Application Number Title Priority Date Filing Date
JP02116794A Expired - Fee Related JP3406672B2 (ja) 1994-02-18 1994-02-18 話者適応化装置

Country Status (1)

Country Link
JP (1) JP3406672B2 (ja)

Also Published As

Publication number Publication date
JPH07230300A (ja) 1995-08-29

Similar Documents

Publication Publication Date Title
JP2733955B2 (ja) 適応型音声認識装置
US6260013B1 (en) Speech recognition system employing discriminatively trained models
JP3672595B2 (ja) 結合されたストリングモデルの最小誤認率訓練
Juang et al. Hidden Markov models for speech recognition
JP4218982B2 (ja) 音声処理
US5793891A (en) Adaptive training method for pattern recognition
US5664059A (en) Self-learning speaker adaptation based on spectral variation source decomposition
US6076057A (en) Unsupervised HMM adaptation based on speech-silence discrimination
US5794192A (en) Self-learning speaker adaptation based on spectral bias source decomposition, using very short calibration speech
US5459815A (en) Speech recognition method using time-frequency masking mechanism
WO1998040876A9 (en) Speech recognition system employing discriminatively trained models
EP1465154B1 (en) Method of speech recognition using variational inference with switching state space models
McDermott et al. Prototype-based minimum classification error/generalized probabilistic descent training for various speech units
JP2006215564A (ja) 自動音声認識システムにおける単語精度予測方法、及び装置
Ney et al. The RWTH large vocabulary continuous speech recognition system
US6301561B1 (en) Automatic speech recognition using multi-dimensional curve-linear representations
JP4818556B2 (ja) 確率論的ロバスト音声処理
JP2000099087A (ja) 言語音声モデルを適応させる方法及び音声認識システム
JP3088357B2 (ja) 不特定話者音響モデル生成装置及び音声認識装置
Roucos et al. A stochastic segment model for phoneme-based continuous speech recognition
Rabiner et al. Hidden Markov models for speech recognition—strengths and limitations
JP4461557B2 (ja) 音声認識方法および音声認識装置
JP2003330484A (ja) 音声認識装置及び音声認識方法
JP3406672B2 (ja) 話者適応化装置
JP2886118B2 (ja) 隠れマルコフモデルの学習装置及び音声認識装置

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees