JP3044741B2 - 標準パターン学習方法 - Google Patents
標準パターン学習方法Info
- Publication number
- JP3044741B2 JP3044741B2 JP2104030A JP10403090A JP3044741B2 JP 3044741 B2 JP3044741 B2 JP 3044741B2 JP 2104030 A JP2104030 A JP 2104030A JP 10403090 A JP10403090 A JP 10403090A JP 3044741 B2 JP3044741 B2 JP 3044741B2
- Authority
- JP
- Japan
- Prior art keywords
- standard pattern
- vector
- learning method
- adaptation
- evaluation function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Image Analysis (AREA)
Description
【発明の詳細な説明】 (産業上の利用分野) 本発明は標準パターンとのパターンマッチングに基づ
くパターン認識に用いられ、少量の学習用発声データか
ら標準パターンを学習する音声認識などにおける標準パ
ターン学習方法に関する。
くパターン認識に用いられ、少量の学習用発声データか
ら標準パターンを学習する音声認識などにおける標準パ
ターン学習方法に関する。
(従来の技術) 現在、音声認識手法として隠れマルコフモデル(Hidd
en Markov Model、以下HMMとする)が広く使われてい
る。HMMの詳細については、例えば「確率モデルによる
音声認識」中川聖一著、1988年、電子情報通信学会(以
下文献1とする)に詳しく解説されている。HMMでは、
いくつかの状態を用意し、その状態と、各々の状態の遷
移確率、および各々の状態でのシンボルの出現確率を標
準パターンとして蓄える。入力パターンと標準パターン
との整合性を表す尤度値は、標準パターンであるHMMが
入力パターンのシンボル列を生成する確率で与えられ
る。
en Markov Model、以下HMMとする)が広く使われてい
る。HMMの詳細については、例えば「確率モデルによる
音声認識」中川聖一著、1988年、電子情報通信学会(以
下文献1とする)に詳しく解説されている。HMMでは、
いくつかの状態を用意し、その状態と、各々の状態の遷
移確率、および各々の状態でのシンボルの出現確率を標
準パターンとして蓄える。入力パターンと標準パターン
との整合性を表す尤度値は、標準パターンであるHMMが
入力パターンのシンボル列を生成する確率で与えられ
る。
このHMMを用いる手法においては、各状態間の遷移確
率および各状態でのシンボルの出現確率を、学習用デー
タから推測する学習アルゴリズム(バウム−ウェルチの
アルゴリズム)が存在する。HMMを用いる音声認識にお
いては、話者が予め発声した学習用データを用いて、こ
の学習アルゴリズムにより標準パターンを作成する。
率および各状態でのシンボルの出現確率を、学習用デー
タから推測する学習アルゴリズム(バウム−ウェルチの
アルゴリズム)が存在する。HMMを用いる音声認識にお
いては、話者が予め発声した学習用データを用いて、こ
の学習アルゴリズムにより標準パターンを作成する。
このHMMを用いる音声認識では、高い認識率を得るた
めには多くの学習用データで学習することが必要であ
り、話者の発声の負担が大きくなる。この話者の負担を
軽減するために、少ない学習用データを用いて、予め登
録されている標準話者の標準パターンを未知話者に適応
させる話者適応化方式がこれまでにいくつか考案されて
きた。話者適応化方式の詳細については「音声認識にお
ける話者適応化技術」、古井貞煕著、テレビジョン学会
誌、Vol.43、NO.9、1989、pp.929-934(以下文献2とす
る)に解説されている。
めには多くの学習用データで学習することが必要であ
り、話者の発声の負担が大きくなる。この話者の負担を
軽減するために、少ない学習用データを用いて、予め登
録されている標準話者の標準パターンを未知話者に適応
させる話者適応化方式がこれまでにいくつか考案されて
きた。話者適応化方式の詳細については「音声認識にお
ける話者適応化技術」、古井貞煕著、テレビジョン学会
誌、Vol.43、NO.9、1989、pp.929-934(以下文献2とす
る)に解説されている。
音声認識における話者適応化方式には、例えば「マル
チテンプレートと話者適応化による音声認識」、古井貞
煕、日本音響学会平成元年度春季研究発表会講演論文
集、第2巻、6-10号にあげられているようなベクトル量
子化を用いたものがある。この話者適応化方式は予め登
録されている符号帳と新しい話者の符号帳の要素間の対
応関係(マッピング)を学習用データを用いて求め、話
者に適応した符号帳に置き換えている。
チテンプレートと話者適応化による音声認識」、古井貞
煕、日本音響学会平成元年度春季研究発表会講演論文
集、第2巻、6-10号にあげられているようなベクトル量
子化を用いたものがある。この話者適応化方式は予め登
録されている符号帳と新しい話者の符号帳の要素間の対
応関係(マッピング)を学習用データを用いて求め、話
者に適応した符号帳に置き換えている。
また、ベクトル量子化を用いない話者適応化方式であ
って、対応する学習用データが存在しない標準パターン
をも適応化する重回帰解析を用いる話者適応化方式が、
アイ・イー・イー・イー トランザクションズ オン
アコースティクス、スピーチ、アンド シグナル プロ
セシング(IEEE Transactions on Acoustics,Speech,an
d Signal Processing)、S.Furui、アメリカ合衆国、第
28巻、第2号、129ページ、(以下文献3とする)の中
に「A Training Procedure for Isolated Word Recog
nition Systems」と題して示されている。この話者適応
化方式では、予め多数の話者の標準パターンの発声デー
タを用いて標準パターン間の対応関係を求めておき、こ
の対応関係を用いて学習データが存在しない標準パター
ンを適応化している。
って、対応する学習用データが存在しない標準パターン
をも適応化する重回帰解析を用いる話者適応化方式が、
アイ・イー・イー・イー トランザクションズ オン
アコースティクス、スピーチ、アンド シグナル プロ
セシング(IEEE Transactions on Acoustics,Speech,an
d Signal Processing)、S.Furui、アメリカ合衆国、第
28巻、第2号、129ページ、(以下文献3とする)の中
に「A Training Procedure for Isolated Word Recog
nition Systems」と題して示されている。この話者適応
化方式では、予め多数の話者の標準パターンの発声デー
タを用いて標準パターン間の対応関係を求めておき、こ
の対応関係を用いて学習データが存在しない標準パター
ンを適応化している。
(発明が解決しようとする課題) ベクトル量子化を用いた話者適応化では、ベクトル量
子化に付随する量子化誤差が存在するため高い認識性能
が得にくいという欠点がある。
子化に付随する量子化誤差が存在するため高い認識性能
が得にくいという欠点がある。
また、ベクトル量子化を用いない音声認識における話
者適応化方式としては文献3にあげた方法があるが、こ
の方法には、標準パターン間の対応関係を求める際に多
くの話者の大量の発声データが必要になるという欠点が
ある。
者適応化方式としては文献3にあげた方法があるが、こ
の方法には、標準パターン間の対応関係を求める際に多
くの話者の大量の発声データが必要になるという欠点が
ある。
そこで本発明の目的は、予め多くの話者による多量の
発声データを用意することなく、高精度な話者適応化方
式を実現するための標準パターン学習方法を提供するこ
とにある。
発声データを用意することなく、高精度な話者適応化方
式を実現するための標準パターン学習方法を提供するこ
とにある。
(課題を解決するための手段) 本発明に係る第1の標準パターン学習方法は、出力確
率密度分布関数をガウス分布とした連続HMMである、標
準パターンとのパターンマッチングに基づくパターン認
識に用いられ、複数の学習用データを用いて標準パター
ンを修正することにより各カテゴリの標準パターンを特
徴づける新しい連続HMMにおける平均ベクトルμの集合
である、第1のパラメータ集合を決定する標準パターン
学習方法であって、前記第1のパラメータ集合と学習用
データ(w=1,2,…,W)を表す第2のパラメータ集合と
の間の整合性を表す第1の評価関数L1と、前記連続HMM
における適応化後の平均ベクトルと平均ベクトルの初期
値との差分ベクトル間である、第1のパラメータ集合内
の各第1のパラメータの修正量間の距離に関する関数V1
を平均ベクトル間の距離を変数とした単調減少な関数ρ
の出力値である、第1のパラメータ間の整合性を表す値
により重みづけたものの和からなる第2の評価関数L2と
の2つの評価関数からつくられる評価関数の値を最適に
するように前記第1のパラメータ集合を決定することを
特徴とする。
率密度分布関数をガウス分布とした連続HMMである、標
準パターンとのパターンマッチングに基づくパターン認
識に用いられ、複数の学習用データを用いて標準パター
ンを修正することにより各カテゴリの標準パターンを特
徴づける新しい連続HMMにおける平均ベクトルμの集合
である、第1のパラメータ集合を決定する標準パターン
学習方法であって、前記第1のパラメータ集合と学習用
データ(w=1,2,…,W)を表す第2のパラメータ集合と
の間の整合性を表す第1の評価関数L1と、前記連続HMM
における適応化後の平均ベクトルと平均ベクトルの初期
値との差分ベクトル間である、第1のパラメータ集合内
の各第1のパラメータの修正量間の距離に関する関数V1
を平均ベクトル間の距離を変数とした単調減少な関数ρ
の出力値である、第1のパラメータ間の整合性を表す値
により重みづけたものの和からなる第2の評価関数L2と
の2つの評価関数からつくられる評価関数の値を最適に
するように前記第1のパラメータ集合を決定することを
特徴とする。
本発明に係る第2の標準パターン学習方法は、前述し
た第1の標準パターン学習方法であって、前記第2の評
価関数L2は、第1のパラメータ集合内の各第1パラメー
タの修正量間の内積に関する関数V2を第1のパラメータ
集合間の整合性を表す値により重みづけたものの和から
なる評価関数であることを特徴とする。
た第1の標準パターン学習方法であって、前記第2の評
価関数L2は、第1のパラメータ集合内の各第1パラメー
タの修正量間の内積に関する関数V2を第1のパラメータ
集合間の整合性を表す値により重みづけたものの和から
なる評価関数であることを特徴とする。
本発明に係る第3の標準パターン学習方法は、請求項
1に記載の標準パターン学習方法であって、前記第2の
評価関数L2は、前記第1のパラメータ集合内の各第1パ
ラメータの修正量間の距離に関する関数V1の和からなる
評価関数であることを特徴とする。
1に記載の標準パターン学習方法であって、前記第2の
評価関数L2は、前記第1のパラメータ集合内の各第1パ
ラメータの修正量間の距離に関する関数V1の和からなる
評価関数であることを特徴とする。
本発明に係る第4の標準パターン学習方法は、請求項
1に記載の標準パターン学習方法であって、前記第2の
評価関数L2は、前記第1のパラメータ集合内の各第1パ
ラメータの修正量間の内積に関する関数V2の和からなる
評価関数であることを特徴とする。
1に記載の標準パターン学習方法であって、前記第2の
評価関数L2は、前記第1のパラメータ集合内の各第1パ
ラメータの修正量間の内積に関する関数V2の和からなる
評価関数であることを特徴とする。
(作用) 以下に本発明に係る第1の標準パターン学習方法の作
用について説明する。ここでは文献1の69ページの(3.
3.2)節にあげてあるようなHMMを具体例としてあげ、こ
れに従って説明する。以下の説明での用語の記号、意味
は文献1と同一である。HMMとしては状態のベクトル出
力確率密度分布関数を単一ガウス分布関数としたものを
考える。標準パターンを特徴づけるパラメータとして
は、HMMの各状態si(i=1…N:Nは状態の総数)のガウ
ス分布の平均ベクトルμi、ガウス分布の分散▲σ
2 i▼、各状態si,sj間の遷移確率aijがある。
用について説明する。ここでは文献1の69ページの(3.
3.2)節にあげてあるようなHMMを具体例としてあげ、こ
れに従って説明する。以下の説明での用語の記号、意味
は文献1と同一である。HMMとしては状態のベクトル出
力確率密度分布関数を単一ガウス分布関数としたものを
考える。標準パターンを特徴づけるパラメータとして
は、HMMの各状態si(i=1…N:Nは状態の総数)のガウ
ス分布の平均ベクトルμi、ガウス分布の分散▲σ
2 i▼、各状態si,sj間の遷移確率aijがある。
それぞれの平均ベクトル(μi)の話者適応後と話者
適応前の差のパラメータ(これを適応化ベクトルζiと
名付ける)を定義する。すなわち、話者適応後の平均ベ
クトル を、話者適応前の平均ベクトルμ1と適応化ベクトルζ
1との和のベクトル で表す。
適応前の差のパラメータ(これを適応化ベクトルζiと
名付ける)を定義する。すなわち、話者適応後の平均ベ
クトル を、話者適応前の平均ベクトルμ1と適応化ベクトルζ
1との和のベクトル で表す。
学習用データの数をWとし、1つ1つの学習用データ
をw(w=1,…,W)で表す。それぞれのwは、w=▲O
(w) 1▼,…,▲O(w) T▼と表される。ここに、▲O(w) t▼
(t=1,…,T)は学習用データwの第t番目のフレーム
の特徴ベクトルである。
をw(w=1,…,W)で表す。それぞれのwは、w=▲O
(w) 1▼,…,▲O(w) T▼と表される。ここに、▲O(w) t▼
(t=1,…,T)は学習用データwの第t番目のフレーム
の特徴ベクトルである。
この学習用データを用いて適応化する場合、次のよう
な評価関数Lを考え、この値が最大になるように適応化
ベクトルζ1を選ぶ。
な評価関数Lを考え、この値が最大になるように適応化
ベクトルζ1を選ぶ。
式(1)の第1項(L1)は各HMMの標準パターンが学習
用データwを発声する確率Pの対数値(尤度)の総和で
ある。この第1項は学習用データに対する尤度を大きく
するように適応化ベクトル{ζ}を選ぶ項である。この
第1項は標準パターンのうち、対応する学習用データが
存在するものに対してのみ有効にはたらく。
用データwを発声する確率Pの対数値(尤度)の総和で
ある。この第1項は学習用データに対する尤度を大きく
するように適応化ベクトル{ζ}を選ぶ項である。この
第1項は標準パターンのうち、対応する学習用データが
存在するものに対してのみ有効にはたらく。
また、第2項(L2)は各標準パターンの特徴ベクトル間
の距離による重みづけの項(ρ)と、適応化ベクトル間
の類似度に関する項(V)とからなる。ここでλは予め
定められた定数である。Rijは特徴ベクトルμi,μj
間の物理的距離を表す項であり、ρはRijに関する単調
減少関数である。V(ζi,ζi)は適応化ベクトル、
ζi,ζj間の類似度を表す。この第2項は学習用デー
タに含まれない標準パターンにも標準パターン間の距離
に応じて話者適応の効果が及ぶようにした項である。す
なわち、距離の近い標準パターンの適応化ベクトル同士
が同じ向き、同じ大きさに近づけば近づくほどL2の値は
大きくなる。これにより、学習用データが存在しない標
準パターンに対しても学習することが可能になる。
の距離による重みづけの項(ρ)と、適応化ベクトル間
の類似度に関する項(V)とからなる。ここでλは予め
定められた定数である。Rijは特徴ベクトルμi,μj
間の物理的距離を表す項であり、ρはRijに関する単調
減少関数である。V(ζi,ζi)は適応化ベクトル、
ζi,ζj間の類似度を表す。この第2項は学習用デー
タに含まれない標準パターンにも標準パターン間の距離
に応じて話者適応の効果が及ぶようにした項である。す
なわち、距離の近い標準パターンの適応化ベクトル同士
が同じ向き、同じ大きさに近づけば近づくほどL2の値は
大きくなる。これにより、学習用データが存在しない標
準パターンに対しても学習することが可能になる。
以下に、最急降下法に基づき評価関数を極大化する手
順を説明する。L2における距離Rijを以下のように定義
する。
順を説明する。L2における距離Rijを以下のように定義
する。
ここで、▲σ2 i,k▼(k=1,…,M;Mは次元数)は状態i
のガウス分布の第kパラメータの分散である。
のガウス分布の第kパラメータの分散である。
ポテンシャルρはRijに対して単調減少な関数であ
り、様々な形の関数を用いることができる。例えば、 ρ(Rij)=exp(-c1Rij) …(4) というような指数関数があげられる。ここで、C1は適当
な定数である。
り、様々な形の関数を用いることができる。例えば、 ρ(Rij)=exp(-c1Rij) …(4) というような指数関数があげられる。ここで、C1は適当
な定数である。
次のように適応化ベクトル間の距離rijを定義する。
そして、Vは、適応化ベクトル間の距離rijのみの関数
とし、rijについて単調減少な関数V1をとる。これもρ
と同様、様々な形のものが考えられる。例えば、 V(ζi,ζj)=V1(rij) =exp(-c2rij) …(6) という形があげられる。ここで、c2は適当な定数であ
る。また、式(6)の代わりに次式、 という形も考えられる(c3は適当な定数)。
とし、rijについて単調減少な関数V1をとる。これもρ
と同様、様々な形のものが考えられる。例えば、 V(ζi,ζj)=V1(rij) =exp(-c2rij) …(6) という形があげられる。ここで、c2は適当な定数であ
る。また、式(6)の代わりに次式、 という形も考えられる(c3は適当な定数)。
以下、最急降下法を行うために、評価関数Lのζiに
よる導関数∂L/∂ζiを求める。まず、第1項L1は、 となる。確率Pは次のように表せる。
よる導関数∂L/∂ζiを求める。まず、第1項L1は、 となる。確率Pは次のように表せる。
ここで、αt(i)はtフレーム目の状態iでの前向き
確率、βt+1(j)は(t+1)フレーム目の状態jで
の後向き確率、bj(Ot+1)は状態jにおいて(t+1)フ
レーム目の学習用データのベクトル▲O(w) t+1▼が出現
する確率(出現確率)である。(ここでは文献1での出
現確率bij(O)は遷移元の状態iにのみ依存するものとし
ている。すなわち、bij(O)=bi(O),(j=1,…,
N)。)また、これ以後▲O(w) t▼の(w)の添え字は省
略する。式(9)をζiで微分すると、 となる。式(9)、(10)を式(8)に代入すると、 となる。<>BWはバウム・ウェルチのアルゴリズムにお
ける期待値を表す。
確率、βt+1(j)は(t+1)フレーム目の状態jで
の後向き確率、bj(Ot+1)は状態jにおいて(t+1)フ
レーム目の学習用データのベクトル▲O(w) t+1▼が出現
する確率(出現確率)である。(ここでは文献1での出
現確率bij(O)は遷移元の状態iにのみ依存するものとし
ている。すなわち、bij(O)=bi(O),(j=1,…,
N)。)また、これ以後▲O(w) t▼の(w)の添え字は省
略する。式(9)をζiで微分すると、 となる。式(9)、(10)を式(8)に代入すると、 となる。<>BWはバウム・ウェルチのアルゴリズムにお
ける期待値を表す。
次に、第2項L2は、 となる。結局、式(11),(14)より、 となる。以上により、∂L/∂ζiが求められた。
いま、ζをδζだけ変化させると、 となるように、δζiを決めれば、Lを増加させること
ができる。そして、次にζiをζi+δζiに置き換え
て、再度上の式(15),(16),(17)の計算を実行す
る。この手続きを繰り返すことにより、Lを極大値に収
束させることができる。
ができる。そして、次にζiをζi+δζiに置き換え
て、再度上の式(15),(16),(17)の計算を実行す
る。この手続きを繰り返すことにより、Lを極大値に収
束させることができる。
以上が本発明に係る第1の標準パターン学習方法に関
する説明である。この発明においては、式(14)を見る
とわかるように、適応化ベクトルζj,ζiの差のベク
トルにかかっている係数の値がζi,ζj間の距離の値
rijの単調減少関数である。従って、適応化ベクトル間
の向きと大きさが同じであるほど係数の値が大きくな
り、∂L2/∂ζiへの寄与が大きくなる。つまり、ζi
の変化量は適応化ベクトルの空間において距離の近い適
応化ベクトルの影響を強く受ける。また、(ζj−
ζi)の係数は、それぞれの対応する平均ベクトル
μi,μj間の距離Rijの単調減少関数でもある。従っ
て、対応する平均ベクトル同士の距離が近いほど、係数
の値が大きくなり、∂L2/∂ζiへの寄与が大きくな
る。つまり、ζiの変化量は平均ベクトルの空間におい
て平均ベクトル同士の距離が近い適応化ベクトルの影響
を強く受ける。以上から本発明の第1の標準パターン学
習方法においては、適応化ベクトル、平均ベクトルそれ
ぞれの空間の局所的な構造に対応して、適応化ベクトル
が定まることがわかる。
する説明である。この発明においては、式(14)を見る
とわかるように、適応化ベクトルζj,ζiの差のベク
トルにかかっている係数の値がζi,ζj間の距離の値
rijの単調減少関数である。従って、適応化ベクトル間
の向きと大きさが同じであるほど係数の値が大きくな
り、∂L2/∂ζiへの寄与が大きくなる。つまり、ζi
の変化量は適応化ベクトルの空間において距離の近い適
応化ベクトルの影響を強く受ける。また、(ζj−
ζi)の係数は、それぞれの対応する平均ベクトル
μi,μj間の距離Rijの単調減少関数でもある。従っ
て、対応する平均ベクトル同士の距離が近いほど、係数
の値が大きくなり、∂L2/∂ζiへの寄与が大きくな
る。つまり、ζiの変化量は平均ベクトルの空間におい
て平均ベクトル同士の距離が近い適応化ベクトルの影響
を強く受ける。以上から本発明の第1の標準パターン学
習方法においては、適応化ベクトル、平均ベクトルそれ
ぞれの空間の局所的な構造に対応して、適応化ベクトル
が定まることがわかる。
本発明に係る第2の標準パターン学習方法ではVとし
て、式(6),(7)のように適応化ベクトル間の距離
の関数を用いる代わりに、次のように適応化ベクトル間
の内積の関数を用いる。
て、式(6),(7)のように適応化ベクトル間の距離
の関数を用いる代わりに、次のように適応化ベクトル間
の内積の関数を用いる。
このとき、このV2(ζi,ζj)を式(13)に代入する
ことにより∂L2/∂ζiがもとまり、 となる。このようにVとして適応化ベクトル間の内積を
とると、式(6)におけるc1のような距離のスケールを
表す定数がなくなる。
ことにより∂L2/∂ζiがもとまり、 となる。このようにVとして適応化ベクトル間の内積を
とると、式(6)におけるc1のような距離のスケールを
表す定数がなくなる。
この本発明の第2の標準パターン学習方法において
は、適応化ベクトルζ1,ζjの差のベクトル(ζj−
ζi)にかかっている係数は適応ベクトル間の距離rij
の関数ではない。すなわち、適応化ベクトル間の向き、
大きさが全く違っていても、∂L2/∂ζiへの寄与の程
度は変わらない。つまり、ζiの変化量は適応化ベクト
ルの空間において全体の適応化ベクトルからの影響を均
一に受ける。以上から本発明の第2の標準パターン学習
方法においては、適応化ベクトルの空間の全体的な構
造、平均ベクトルの空間の局所的な構造に対応して、適
応化ベクトルが定まることがわかる。
は、適応化ベクトルζ1,ζjの差のベクトル(ζj−
ζi)にかかっている係数は適応ベクトル間の距離rij
の関数ではない。すなわち、適応化ベクトル間の向き、
大きさが全く違っていても、∂L2/∂ζiへの寄与の程
度は変わらない。つまり、ζiの変化量は適応化ベクト
ルの空間において全体の適応化ベクトルからの影響を均
一に受ける。以上から本発明の第2の標準パターン学習
方法においては、適応化ベクトルの空間の全体的な構
造、平均ベクトルの空間の局所的な構造に対応して、適
応化ベクトルが定まることがわかる。
なお、式(19)を式(14)の代わりに用いることによ
り、第1の標準パターン学習方法と同様に最急降下法で
評価関数を極大化することができる。
り、第1の標準パターン学習方法と同様に最急降下法で
評価関数を極大化することができる。
本発明に係る第3の標準パターン学習方法では、第1
の標準パターン学習方法における関数ρを定数(ρ=
1)とする。すなわち、 となる。この第3の標準パターン学習方法では適応化ベ
クトルζj,ζiの差のベクトル(ζj−ζi)に係る
係数は、値がζi,ζj間の距離の値rijの単調減少関
数である。従って、適応化ベクトルの向き、大きさが同
じであるほど、係数の値が大きくなり∂L2/∂ζiへの
寄与が大きくなる。つまり、ζiの変化量は適応化ベク
トルの空間において距離の近い適応化ベクトルの影響を
強く受ける。また、(ζj−ζi)に係る係数は、それ
ぞれの対応する平均ベクトルμi,μj間の距離Rijに
は関係なく定まる。従って、対応する平均ベクトル同士
の距離に関係なく、∂L2/∂ζiへの寄与が定まる。つ
まり、ζiの変化量は平均ベクトルの空間において全体
から均一に、対応する適応化ベクトルの影響を強く受け
る。以上からこの第3の標準パターン学習方法において
は、適応化ベクトルの空間における局所的な構造と、平
均ベクトルの空間の全体的な構造に対応して、適応化ベ
クトルが定まることがわかる。
の標準パターン学習方法における関数ρを定数(ρ=
1)とする。すなわち、 となる。この第3の標準パターン学習方法では適応化ベ
クトルζj,ζiの差のベクトル(ζj−ζi)に係る
係数は、値がζi,ζj間の距離の値rijの単調減少関
数である。従って、適応化ベクトルの向き、大きさが同
じであるほど、係数の値が大きくなり∂L2/∂ζiへの
寄与が大きくなる。つまり、ζiの変化量は適応化ベク
トルの空間において距離の近い適応化ベクトルの影響を
強く受ける。また、(ζj−ζi)に係る係数は、それ
ぞれの対応する平均ベクトルμi,μj間の距離Rijに
は関係なく定まる。従って、対応する平均ベクトル同士
の距離に関係なく、∂L2/∂ζiへの寄与が定まる。つ
まり、ζiの変化量は平均ベクトルの空間において全体
から均一に、対応する適応化ベクトルの影響を強く受け
る。以上からこの第3の標準パターン学習方法において
は、適応化ベクトルの空間における局所的な構造と、平
均ベクトルの空間の全体的な構造に対応して、適応化ベ
クトルが定まることがわかる。
本発明に係る第4の標準パターン学習方法では、第2
の標準パターン学習方法における関数ρを定数としてい
る。すなわち、L2は、 となる。この場合、 となる。この第4の標準パターン学習方法においては適
応化ベクトルζj,ζiの差のベクトル(ζj−ζi)
には定数がかかっているのみであり、適応化ベクトルの
変化量は適応化ベクトル間の距離によらない。すなわ
ち、適応化ベクトル間の向き、大きさが全く違っていて
も、∂L2/∂ζiへの寄与の程度は変わらない。つま
り、ζiの変化量は適応化ベクトルの空間において全体
の適応化ベクトルからの影響は均一に受ける。また、
(ζj−ζi)に係る係数は、それぞれの対応する平均
ベクトルμi,μj間の距離Rijには関係なく定まる。
従って、対応する平均ベクトル同士の距離に関係なく、
∂L2/∂ζiへの寄与が定まる。つまり、ζiの変化量
は平均ベクトルの空間において全体から均一に、対応す
る適応化ベクトルの影響を強く受ける。以上からこの第
4の標準パターン学習方法においては、適応化ベクトル
の空間、におよび平均ベクトルの空間のそれぞれにおけ
る全体的な構造に対応して、適応化ベクトルが定まるこ
とがわかる。
の標準パターン学習方法における関数ρを定数としてい
る。すなわち、L2は、 となる。この場合、 となる。この第4の標準パターン学習方法においては適
応化ベクトルζj,ζiの差のベクトル(ζj−ζi)
には定数がかかっているのみであり、適応化ベクトルの
変化量は適応化ベクトル間の距離によらない。すなわ
ち、適応化ベクトル間の向き、大きさが全く違っていて
も、∂L2/∂ζiへの寄与の程度は変わらない。つま
り、ζiの変化量は適応化ベクトルの空間において全体
の適応化ベクトルからの影響は均一に受ける。また、
(ζj−ζi)に係る係数は、それぞれの対応する平均
ベクトルμi,μj間の距離Rijには関係なく定まる。
従って、対応する平均ベクトル同士の距離に関係なく、
∂L2/∂ζiへの寄与が定まる。つまり、ζiの変化量
は平均ベクトルの空間において全体から均一に、対応す
る適応化ベクトルの影響を強く受ける。以上からこの第
4の標準パターン学習方法においては、適応化ベクトル
の空間、におよび平均ベクトルの空間のそれぞれにおけ
る全体的な構造に対応して、適応化ベクトルが定まるこ
とがわかる。
以上、認識方式としてHMMを具体的な例としてあげ本
発明の作用の説明を行った。上の説明から容易にわかる
ように、本発明においては、ベクトル量子化を用いてい
ない。また文献3にあげられた話者適応化方式と違い、
多数話者の大量の発声データを必要とするということは
ない。
発明の作用の説明を行った。上の説明から容易にわかる
ように、本発明においては、ベクトル量子化を用いてい
ない。また文献3にあげられた話者適応化方式と違い、
多数話者の大量の発声データを必要とするということは
ない。
なお、本発明は標準パターンとのパターンマッチング
に基づく様々なパターン認識に対しても全く同様に適用
することができる。
に基づく様々なパターン認識に対しても全く同様に適用
することができる。
(実施例) 以下、本発明について図面を参照して説明する。
第1図は本発明に係る第1の標準パターン学習方式の
一実施例を示すフローチャートである。本実施例では認
識方式として文献1に述べているような単一ガウス分布
HMMを用いている。ここではμi,σi,aijで表される
ある話者のHMMを適応化させて を求めることとする。これは作用の項で説明した計算例
に対応しており、変数などの標記は作用の項で与えられ
たものと同一のものを用いることとする。以下、第1図
に示すフローチャートの処理の流れに沿って説明する。
一実施例を示すフローチャートである。本実施例では認
識方式として文献1に述べているような単一ガウス分布
HMMを用いている。ここではμi,σi,aijで表される
ある話者のHMMを適応化させて を求めることとする。これは作用の項で説明した計算例
に対応しており、変数などの標記は作用の項で与えられ
たものと同一のものを用いることとする。以下、第1図
に示すフローチャートの処理の流れに沿って説明する。
ステップ101では、入力として標準話者のHMMおよび未
知話者の学習用データを読み込む。
知話者の学習用データを読み込む。
ステップ102は必要なパラメータの初期設定を行う。
設定されるパラメータはλ,ε,Σij,Rij,ρijであ
る。
設定されるパラメータはλ,ε,Σij,Rij,ρijであ
る。
ステップ103では、全ての状態の適応化ベクトルζi
の初期値を0に設定する。
の初期値を0に設定する。
ステップ104,105はカウンタn,iの初期設定をそれぞれ
行う。
行う。
ステップ106は式(11)に従って、∂L1/∂ζiを算
出する。 ステップ107から109では、∂L2/∂ζiを算
出する。学習回数nのloop数が0ならば全適応化ベクト
ルは0であるから、ステップ108で∂L2/∂ζiの値を
すべて0に設定する。それ以外の場合は、ステップ109
において式(14)に従って、∂L2/∂ζiを算出する。
出する。 ステップ107から109では、∂L2/∂ζiを算
出する。学習回数nのloop数が0ならば全適応化ベクト
ルは0であるから、ステップ108で∂L2/∂ζiの値を
すべて0に設定する。それ以外の場合は、ステップ109
において式(14)に従って、∂L2/∂ζiを算出する。
ステップ110は式(17)に従って適応化ベクトルの修
正量を計算し、その修正量を用いて適応化ベクトルの更
新を行う。
正量を計算し、その修正量を用いて適応化ベクトルの更
新を行う。
ステップ111ではカウンタiを1増やし、ベクトルパ
ラメータの最大数Nまでステップ106からステップ111ま
での計算を行う。
ラメータの最大数Nまでステップ106からステップ111ま
での計算を行う。
ステップ114ではベクトルパラメータの最急降下法に
よる逐次修正の収束性の判定して、収束していなければ
ステップ104に戻って、修正量の計算を続ける。収束性
の判定条件としては、逐次修正の回数nがある一定値を
越えたかどうかを調べて判定する条件や、評価関数Lの
改善量がある一定値を下回ったかどうかを調べて判定す
る条件や、それらの組合せなどの条件が用いられる。
よる逐次修正の収束性の判定して、収束していなければ
ステップ104に戻って、修正量の計算を続ける。収束性
の判定条件としては、逐次修正の回数nがある一定値を
越えたかどうかを調べて判定する条件や、評価関数Lの
改善量がある一定値を下回ったかどうかを調べて判定す
る条件や、それらの組合せなどの条件が用いられる。
ステップ115では、最終的に求められた適応化ベクト
ルζiを用いて未知話者に適応化した平均ベクトル を算出し、ステップ116で適応化されたHMMを出力する。
ルζiを用いて未知話者に適応化した平均ベクトル を算出し、ステップ116で適応化されたHMMを出力する。
本発明に係る第2、第3および第4の標準パターン学
習方法においては、第1図のステップ109の∂L2/∂ζ
iを求める式をそれぞれ式(19),(21),および(2
3)とすれば、後の部分は上述した第1図のフローチャ
ートに示した処理と全く同様の処理を用いることで実現
できる。
習方法においては、第1図のステップ109の∂L2/∂ζ
iを求める式をそれぞれ式(19),(21),および(2
3)とすれば、後の部分は上述した第1図のフローチャ
ートに示した処理と全く同様の処理を用いることで実現
できる。
(発明の効果) 以上述べたように本発明によれば、未知話者が発声し
た少ない学習用データにより学習データに含まれない標
準パターンの話者適応化が可能であり、ベクトル量子化
を用いていないから量子化誤差の混入がなく、これら2
点により精度の高い標準パターンを作成することが可能
になり、多数の話者の大量の発声データを必要とするこ
となく高い認識性能を者するパターン認識を実現するこ
とができる。
た少ない学習用データにより学習データに含まれない標
準パターンの話者適応化が可能であり、ベクトル量子化
を用いていないから量子化誤差の混入がなく、これら2
点により精度の高い標準パターンを作成することが可能
になり、多数の話者の大量の発声データを必要とするこ
となく高い認識性能を者するパターン認識を実現するこ
とができる。
第1図は本発明に係る第1の標準パターン学習方法のフ
ローチャートを示す図である。
ローチャートを示す図である。
フロントページの続き (56)参考文献 電子情報通信学会技術研究報告[音声 ]Vol.88,No.329,SP88− 106,「ベクトル量子化話者適応アルゴ リズムのHMM音韻認識による評価」 p.1−8(1988年12月16日発行) 電子情報通信学会技術研究報告[音声 ]Vol.89,No.341,SP89−90, 「話者重畳型HMMによる文節認識」 p.31−38(1989年12月15日発行) Proceedings of 1988 IEEE Internationa l Conference on Ac oustics,Speech and Signal Processin g,”S5.7 Speaker Ad aptation Method fo r HMM−based Speech Recognition”p.207− 210 Proceedings of 1989 IEEE Internationa l Conference on Ac oustics,Speech and Signal Processin g,”S6.13 Enhancing the Discrimination of Speaker Indepe ndent Hidden Marko v Model with Corre ctive Training”p. 302−305 日本音響学会誌 Vol.42,No. 12,「Hidden Markov M odel に基づいた音声認識」p. 936−941(昭和61年12月1日発行) 日本音響学会誌 Vol.45,No. 12,「ベクトル量子化話者適応のHMM 音韻認識への適用」p.942−949(平成 元年12月1日発行) 日本音響学会誌 Vol.45,No. 2,「ファジィベクトル量子化を用いた スペクトログラムの正規化」p.107− 114(平成元年2月1日発行) 日本音響学会昭和63年度春季研究発表 会講演論文集▲I▼ 2−2−14「ベ クトル量子化誤差に基づくスペクトルの 話者適応化 −単語認識への適用−」 p.79−80(昭和63年3月発行) 電子情報通信学会技術研究報告[音声 ]Vol.90,No.111,SP90−16, 「連続出力分布型HMMにおける話者適 応化の日本語音韻認識による評価」p. 57−64(1990年6月28日発行) (58)調査した分野(Int.Cl.7,DB名) G10L 15/14 G10L 15/06 JICSTファイル(JOIS)
Claims (4)
- 【請求項1】出力確率密度分布関数をガウス分布とした
連続HMMである、標準パターンとのパターンマッチング
に基づくパターン認識に用いられ、複数の学習用データ
を用いて標準パターンを修正することにより各カテゴリ
の標準パターンを特徴づける新しい連続HMMにおける平
均ベクトルμの集合である、第1のパラメータ集合を決
定する標準パターン学習方法であって、前記第1のパラ
メータ集合と学習用データ(w=1,2,…,W)を表す第2
のパラメータ集合との間の整合性を表す第1の評価関数
L1と、前記連続HMMにおける適応化後の平均ベクトルと
平均ベクトルの初期値との差分ベクトル間である、第1
のパラメータ集合内の各第1のパラメータの修正量間の
距離に関する関数V1を平均ベクトル間の距離を変数とし
た単調減少な関数ρの出力値である、第1のパラメータ
間の整合性を表す値により重みづけたものの和からなる
第2の評価関数L2との2つの評価関数からつくられる評
価関数の値を最適にするように前記第1のパラメータ集
合を決定することを特徴とする標準パターン学習方法。 - 【請求項2】請求項1に記載の標準パターン学習方法に
おいて、前記第2の評価関数L2は、第1のパラメータ集
合内の各第1パラメータの修正量間の内積に関する関数
V2を第1のパラメータ集合間の整合性を表す値により重
みづけたものの和からなる評価関数であることを特徴と
する標準パターン学習方法。 - 【請求項3】請求項1に記載の標準パターン学習方法に
おいて、前記第2の評価関数L2は、前記第1のパラメー
タ集合内の各第1パラメータの修正量間の距離に関する
関数V1の和からなる評価関数であることを特徴とする標
準パターン学習方法。 - 【請求項4】請求項1に記載の標準パターン学習方法に
おいて、前記第2の評価関数L2は、前記第1のパラメー
タ集合内の各第1パラメータの修正量間の内積に関する
関数V2の和からなる評価関数であることを特徴とする標
準パターン学習方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2104030A JP3044741B2 (ja) | 1990-04-19 | 1990-04-19 | 標準パターン学習方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2104030A JP3044741B2 (ja) | 1990-04-19 | 1990-04-19 | 標準パターン学習方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH043098A JPH043098A (ja) | 1992-01-08 |
JP3044741B2 true JP3044741B2 (ja) | 2000-05-22 |
Family
ID=14369847
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2104030A Expired - Fee Related JP3044741B2 (ja) | 1990-04-19 | 1990-04-19 | 標準パターン学習方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3044741B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3077943B2 (ja) * | 1990-11-29 | 2000-08-21 | シャープ株式会社 | 信号符号化装置 |
JP3722836B2 (ja) * | 1993-12-27 | 2005-11-30 | 東陶機器株式会社 | 便器載置板の支持構造 |
-
1990
- 1990-04-19 JP JP2104030A patent/JP3044741B2/ja not_active Expired - Fee Related
Non-Patent Citations (9)
Title |
---|
Proceedings of 1988 IEEE International Conference on Acoustics,Speech and Signal Processing,"S5.7 Speaker Adaptation Method for HMM−based Speech Recognition"p.207−210 |
Proceedings of 1989 IEEE International Conference on Acoustics,Speech and Signal Processing,"S6.13 Enhancing the Discrimination of Speaker Independent Hidden Markov Model with Corrective Training"p.302−305 |
日本音響学会昭和63年度春季研究発表会講演論文集▲I▼ 2−2−14「ベクトル量子化誤差に基づくスペクトルの話者適応化 −単語認識への適用−」p.79−80(昭和63年3月発行) |
日本音響学会誌 Vol.42,No.12,「Hidden Markov Model に基づいた音声認識」p.936−941(昭和61年12月1日発行) |
日本音響学会誌 Vol.45,No.12,「ベクトル量子化話者適応のHMM音韻認識への適用」p.942−949(平成元年12月1日発行) |
日本音響学会誌 Vol.45,No.2,「ファジィベクトル量子化を用いたスペクトログラムの正規化」p.107−114(平成元年2月1日発行) |
電子情報通信学会技術研究報告[音声]Vol.88,No.329,SP88−106,「ベクトル量子化話者適応アルゴリズムのHMM音韻認識による評価」p.1−8(1988年12月16日発行) |
電子情報通信学会技術研究報告[音声]Vol.89,No.341,SP89−90,「話者重畳型HMMによる文節認識」p.31−38(1989年12月15日発行) |
電子情報通信学会技術研究報告[音声]Vol.90,No.111,SP90−16,「連続出力分布型HMMにおける話者適応化の日本語音韻認識による評価」p.57−64(1990年6月28日発行) |
Also Published As
Publication number | Publication date |
---|---|
JPH043098A (ja) | 1992-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5345536A (en) | Method of speech recognition | |
US5440662A (en) | Keyword/non-keyword classification in isolated word speech recognition | |
US6151574A (en) | Technique for adaptation of hidden markov models for speech recognition | |
Anastasakos et al. | Speaker adaptive training: A maximum likelihood approach to speaker normalization | |
JP4218982B2 (ja) | 音声処理 | |
US6260013B1 (en) | Speech recognition system employing discriminatively trained models | |
US5377301A (en) | Technique for modifying reference vector quantized speech feature signals | |
US8346551B2 (en) | Method for adapting a codebook for speech recognition | |
JP4531166B2 (ja) | 信頼性尺度の評価を用いる音声認識方法 | |
US6490555B1 (en) | Discriminatively trained mixture models in continuous speech recognition | |
JPH05257492A (ja) | 音声認識方式 | |
WO2002091357A1 (en) | Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (lvcsr) system | |
US20050015251A1 (en) | High-order entropy error functions for neural classifiers | |
Digalakis et al. | Rapid speech recognizer adaptation to new speakers | |
JP2004004906A (ja) | 固有声に基づいた最尤法を含む話者と環境の適合化方法 | |
JP3088357B2 (ja) | 不特定話者音響モデル生成装置及び音声認識装置 | |
McDermott et al. | Prototype-based discriminative training for various speech units | |
JP2852298B2 (ja) | 標準パターン適応化方式 | |
JP3044741B2 (ja) | 標準パターン学習方法 | |
JP2938866B1 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
JP2570448B2 (ja) | 標準パターン学習方法 | |
JPH0895592A (ja) | パターン認識方法 | |
JP2983364B2 (ja) | 隠れマルコフモデルと音声信号との類似度計算方法 | |
Takahashi et al. | Tied-structure HMM based on parameter correlation for efficient model training | |
JPH0822296A (ja) | パターン認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080317 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090317 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090317 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100317 Year of fee payment: 10 |
|
LAPS | Cancellation because of no payment of annual fees |