JP4796460B2 - 音声認識装置及び音声認識プログラム - Google Patents

音声認識装置及び音声認識プログラム Download PDF

Info

Publication number
JP4796460B2
JP4796460B2 JP2006239747A JP2006239747A JP4796460B2 JP 4796460 B2 JP4796460 B2 JP 4796460B2 JP 2006239747 A JP2006239747 A JP 2006239747A JP 2006239747 A JP2006239747 A JP 2006239747A JP 4796460 B2 JP4796460 B2 JP 4796460B2
Authority
JP
Japan
Prior art keywords
search
acoustic
score
entropy
calculated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006239747A
Other languages
English (en)
Other versions
JP2008064815A (ja
Inventor
庄衛 佐藤
亨 今井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2006239747A priority Critical patent/JP4796460B2/ja
Publication of JP2008064815A publication Critical patent/JP2008064815A/ja
Application granted granted Critical
Publication of JP4796460B2 publication Critical patent/JP4796460B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、入力音声を認識する音声認識装置及び音声認識プログラムに関する。
従来、入力音声を認識する音声認識方法や音声認識装置において、各音素の特徴量の確率密度分布を用いた音響モデルと、単語の接続確率の統計を用いた言語モデルとにより、当該音響モデルから音響スコア及び当該言語モデルから言語スコアを算出して、算出したスコアに従って、音声認識した結果を出力するものが一般的である。
すなわち、このような音声認識方法や音声認識装置では、入力音声に対し、最も高い音響スコア(音響モデル尤度)及び言語スコア(単語接続確率)が得られる単語列を認識結果として出力している。
従来の音声認識方法や音声認識装置は、入力音声から、認識結果に達するまでの仮説である探索仮説を、繰り返し評価する際に、音響スコアと言語スコアとの重みを一定にして行っている。音響スコアと言語スコアとの重みを一定にすることは、音響モデルを作成するのに用いた学習音声と、現在入力されている入力音声とに整合性がある場合には、妥当であると言える。
しかし、入力音声に背景雑音が重畳されていたり、不明瞭な自由発話が含まれていたりした場合、音響モデルを作成するのに用いた学習音声と、現在入力されている入力音声との整合性の度合いが時々刻々と変化する場合がある。このように学習音声と入力音声との整合性の度合いが変化する時間(以下、背景雑音重畳区間または不整合区間という)には、音響モデルを用いて算出される音響スコアが妥当であると言えないことが生じる。
そこで、音響モデルを用いて算出された音響スコアがどれだけ妥当であるか否かを判定する基準となる何らかの基準値(信頼度)を算出し、この音響スコアの信頼度に応じて、音響スコアと言語スコアとの重みを動的に(逐次)変更することが望ましいとされている。つまり、音響スコアの信頼度が低い場合には、音響スコアの重みを低くし、相対的に言語スコアが高くなることで、探索仮説を評価する際に、音響的制約よりも、より強く言語的制約をかけることが可能になると共に、音響スコアと言語スコアとの和であるスコアの総和が小さくなるので、スコアの総和が小さいものから大きいものまで探索仮説を探索することとなり、探索仮説を探索する探索幅を広くとることができる(より多くの探索仮説を探索ビーム内に残せる)。
このように、音響スコアと言語スコアとの重みに着目し、背景雑音重畳区間において、音響スコアの重みを動的に変更しながら、探索仮説を探索する方法もいくつか提案されており、2つほど例示する。一つには、音響モデルとして用意した雑音モデル及び音声モデルの尤度比を、音響スコアの信頼度とするもので、この信頼度に基づいて、音響スコアの重みを変化させる方法(以下、従来法1)が挙げられる(特許文献1参照)。もう一つには、入力音声の入力パワーの変動量から当該入力音声のS/Nを推定し、このS/Nを音響スコアの信頼度として用いる方法(以下、従来法2)が挙げられる(非特許文献1参照)。
また、最尤仮説(最も尤度が高い探索仮説)の音響スコアの事後確率、若しくは、事後確率の対数値を信頼度として、探索仮説を探索する深さを動的に変える方法(以下、従来法3)も提案さている(非特許文献2参照)。この従来法3では、認識結果に達するまでに取り除かれる(枝刈りされる)探索仮説を少なくできることにより、音響スコアの重みを変化させることと同様の効果が得られると共に、入力音声に背景雑音が重畳されたり、入力音声が発声変形してしまったりしても、認識精度が低下することはない。
さらに、探索仮説間の尤度分布を考慮し、当該探索仮説を識別する識別カテゴリ間における特徴量の次元間にも動的に重みを付与する方法(以下、従来法4)も提案されている(非特許文献3参照)。この従来法4では、当該方法で行われた実験において、識別カテゴリが13と非常に少ないため、全ての識別カテゴリを用いて探索仮説の尤度分布を考慮することが可能であり、特徴量の各次元の独立性を仮定した上で、各識別カテゴリの出力確率に混合正規分布を用いている。
特開2005−091518号公報 Eurospeech 2003 pp.2169-2172,"A Noise-Robst ASR Back-end Technique Based on Weighted Viterbi Recognition" Interspeech 2005 pp.585-588,"A Confidence-Guided Dynamic Pruning Approach" ICASSP 2006 I-41,"Entropy-Based Feature Parameter Weighting For Robst Speech Recognition"
しかしながら、従来法1及び2では、入力音声に背景雑音が重畳された場合に音響スコアの重みを変更することに特化した方法であり、自由発話中の音素の脱落や訛り等の発声変形のような、背景雑音以外の要因による信頼度の低下に対応することができないという問題がある。
また、従来法3では、事後確率を算出する際に、全ての音響スコアの尤度、若しくは、全ての音響スコアの近似が必要になるのに加え、認識結果に達するまでの探索途中で単一の探索仮説のみに着目してしまうので、探索仮説間の尤度分布が考慮されていないという問題がある。
さらに、従来法4では、トライフォンモデル等の大規模な音響モデルを用いる一般的な大語彙連続音声認識においては、全ての識別カテゴリの尤度分布を全ての時刻において考慮することが困難であるという問題がある。また、従来法4では、混合分布モデルにおいて、特徴量の次元間の独立性を仮定したために生じる誤認識が増加してしまう(認識精度が低下してしまう)という問題がある。
そこで、本発明では、前記した問題を解決し、背景雑音以外の要因による信頼度の低下に対応することができ、探索仮説間の尤度分布を考慮し、音声認識する際の認識精度を維持することができる音声認識装置及び音声認識プログラムを提供することを目的とする。
前記課題を解決するため、請求項1に記載の音声認識装置は、入力された入力音声を、予め蓄積した音響モデルと言語モデルとを用いて音声認識する音声認識装置において、音響特徴量算出手段と、探索繰り返し実行手段と、エントロピー算出手段と、信頼度算出手段と、音響スコア重み付け変更手段と、を備える構成とした。
かかる構成によれば、音声認識装置は、音響特徴量算出手段によって、入力音声を音声認識する候補となる音素の音素列に対して、音素列の各音素を探索する探索経路となる各時刻の探索仮説において、当該探索仮説中の音素をモデル化した音素モデルの各状態に対応付けられる入力音声の音響特徴量を算出する。また、音声認識装置は、探索繰り返し実行手段によって、言語モデルを用いて算出した言語スコアにより探索仮説の候補を伸張し、音響特徴量および音響モデルを用いて、伸張された探索仮説の候補の音響スコアを算出し、言語スコアおよび音響スコアの累積が最大となる探索仮説を認識結果として出力する。続いて、音声認識装置は、エントロピー算出手段によって、音響特徴量算出手段で算出された音響特徴量から求められる探索仮説中の音素モデルの各状態の事後確率と、事後確率の自然対数とを乗算した積の総和によって、探索仮説の各状態における各時刻のエントロピーを算出する。そして、音声認識装置は、信頼度算出手段によって、エントロピー算出手段で算出したエントロピーにエントロピーの評価する幅を示す定数を乗算し、指数化することで、エントロピーが増大した場合には音響スコアの重み付けを変更する基準となる信頼度が小さくなるように算出する。そして、音声認識装置は、音響スコア重み付け変更手段によって、信頼度算出手段で算出された信頼度に基づいて、音響スコアの重み付けを変更する。そして、音声認識装置は、探索繰り返し実行手段によって、言語スコアと、音響スコア重み付け変更手段によって重み付けが変更された音響スコアとの累積が最大となる探索仮説を認識結果として出力する。
請求項2に記載の音声認識装置は、入力された入力音声を、予め蓄積した音響モデルと言語モデルとを用いて音声認識する音声認識装置において、音響特徴量算出手段と、探索繰り返し実行手段と、エントロピー算出手段と、信頼度算出手段と、音響スコア重み付け変更手段と、を備える構成とした。
かかる構成によれば、音声認識装置は、音響特徴量算出手段によって、入力音声を音声認識する候補となる音素の音素列に対して、音素列の各音素を探索する探索経路となる各時刻の探索仮説において、当該探索仮説中の音素をモデル化した音素モデルの各状態に対応付けられる入力音声の音響特徴量を算出する。また、音声認識装置は、探索繰り返し実行手段によって、言語モデルを用いて算出した言語スコアにより探索仮説の候補を伸張し、音響特徴量および音響モデルを用いて、伸張された探索仮説の候補の音響スコアを算出し、言語スコアおよび音響スコアの累積が最大となる探索仮説を認識結果として出力する。続いて、音声認識装置は、エントロピー算出手段によって、音響特徴量算出手段で算出された音響特徴量から求められる探索仮説中の音素モデルの各状態の事後確率と、事後確率の自然対数とを乗算した積の総和によって、探索仮説の各状態における各時刻のエントロピーを算出する。そして、音声認識装置は、信頼度算出手段によって、エントロピー算出手段で算出したエントロピーにエントロピーの評価する幅を示す定数を乗算し、1から減算することで、エントロピーが増大した場合には音響スコアの重み付けを変更する基準となる信頼度が小さくなるように算出する。そして、音声認識装置は、音響スコア重み付け変更手段によって、信頼度算出手段で算出された信頼度に基づいて、音響スコアの重み付けを変更する。そして、音声認識装置は、探索繰り返し実行手段によって、言語スコアと、音響スコア重み付け変更手段によって重み付けが変更された音響スコアとの累積が最大となる探索仮説を認識結果として出力する。
請求項3に記載の音声認識装置は、入力された入力音声を、予め蓄積した音響モデルと言語モデルとを用いて音声認識する音声認識装置において、音響特徴量算出手段と、探索繰り返し実行手段と、エントロピー算出手段と、信頼度算出手段と、音響スコア重み付け変更手段と、を備える構成とした。
かかる構成によれば、音声認識装置は、音響特徴量算出手段によって、入力音声を音声認識する候補となる音素の音素列に対して、音素列の各音素を探索する探索経路となる各時刻の探索仮説において、当該探索仮説中の音素をモデル化した音素モデルの各状態に対応付けられる入力音声の音響特徴量を算出する。また、音声認識装置は、探索繰り返し実行手段によって、言語モデルを用いて算出した言語スコアにより探索仮説の候補を伸張し、音響特徴量および音響モデルを用いて、伸張された探索仮説の候補の音響スコアを算出し、言語スコアおよび音響スコアの累積が最大となる探索仮説を認識結果として出力する。続いて、音声認識装置は、エントロピー算出手段によって、探索繰り返し実行手段で算出された音響スコアおよび言語スコアを累積した探索スコアより求められる探索仮説の事後確率と、事後確率の自然対数とを乗算した積の総和によって、探索仮説の各状態におけるある時刻のエントロピーと、時刻から所定時間前のエントロピーとの差分を算出する。そして、音声認識装置は、信頼度算出手段によって、エントロピー算出手段で算出したエントロピーにエントロピーの評価する幅を示す定数を乗算し、指数化することで、エントロピーが増大した場合には音響スコアの重み付けを変更する基準となる信頼度が小さくなるように算出する。そして、音声認識装置は、音響スコア重み付け変更手段によって、この信頼度算出手段で算出された信頼度に基づいて、音響スコアの重み付けを変更する。そして、音声認識装置は、探索繰り返し実行手段によって、言語スコアと、音響スコア重み付け変更手段によって重み付けが変更された音響スコアとの累積が最大となる探索仮説を認識結果として出力する。
請求項4に記載の音声認識装置は、入力された入力音声を、予め蓄積した音響モデルと言語モデルとを用いて音声認識する音声認識装置において、音響特徴量算出手段と、探索繰り返し実行手段と、エントロピー算出手段と、信頼度算出手段と、音響スコア重み付け変更手段と、を備える構成とした。
かかる構成によれば、音声認識装置は、音響特徴量算出手段によって、入力音声を音声認識する候補となる音素の音素列に対して、音素列の各音素を探索する探索経路となる各時刻の探索仮説において、当該探索仮説中の音素をモデル化した音素モデルの各状態に対応付けられる入力音声の音響特徴量を算出する。また、音声認識装置は、探索繰り返し実行手段によって、言語モデルを用いて算出した言語スコアにより探索仮説の候補を伸張し、音響特徴量および音響モデルを用いて、伸張された探索仮説の候補の音響スコアを算出し、言語スコアおよび音響スコアの累積が最大となる探索仮説を認識結果として出力する。続いて、音声認識装置は、エントロピー算出手段によって、探索繰り返し実行手段で算出された音響スコアおよび言語スコアを累積した探索スコアより求められる探索仮説の事後確率と、事後確率の自然対数とを乗算した積の総和によって、探索仮説の各状態におけるある時刻のエントロピーと、時刻から所定時間前のエントロピーとの差分を算出する。そして、音声認識装置は、信頼度算出手段によって、エントロピー算出手段で算出したエントロピーにエントロピーの評価する幅を示す定数を乗算し、1から減算することで、エントロピーが増大した場合には音響スコアの重み付けを変更する基準となる信頼度が小さくなるように算出する。そして、音声認識装置は、音響スコア重み付け変更手段によって、この信頼度算出手段で算出された信頼度に基づいて、音響スコアの重み付けを変更する。そして、音声認識装置は、探索繰り返し実行手段によって、言語スコアと、音響スコア重み付け変更手段によって重み付けが変更された音響スコアとの累積が最大となる探索仮説を認識結果として出力する。
請求項5に記載の音声認識装置は、入力された入力音声を、予め蓄積した蓄積音声の音響特徴量の出力確率分布を混合正規分布モデルで表現した音響モデルと言語モデルとを用いて音声認識する音声認識装置において、音響特徴量算出手段と、探索繰り返し実行手段、エントロピー算出手段と、信頼度算出手段と、重み付け変更手段と、を備える構成とした。
かかる構成によれば、音声認識装置は、音響特徴量算出手段によって、入力音声を音声認識する候補となる音素の音素列に対して、音素列の各音素を探索する探索経路となる各時刻の探索仮説において、当該探索仮説中の音素をモデル化した音素モデルの各状態に対応付けられる入力音声の音響特徴量を算出する。また、音声認識装置は、探索繰り返し実行手段によって、言語モデルを用いて算出した言語スコアにより探索仮説の候補を伸張し、音響特徴量および音響モデルを用いて、伸張された探索仮説の候補の音響スコアを算出し、言語スコアおよび音響スコアの累積が最大となる探索仮説を認識結果として出力する。続いて、音声認識装置は、エントロピー算出手段によって、探索繰り返し実行手段で算出された音響スコアおよび言語スコアを累積した探索スコアより求められる探索仮説の事後確率と、事後確率の自然対数とを乗算した積の総和によって、探索仮説の各状態におけるある時刻のエントロピーと、時刻から所定時間前のエントロピーとの差分を算出する。そして、音声認識装置は、信頼度算出手段によって、このエントロピー算出手段で算出したエントロピーにエントロピーの評価する幅を示す定数を乗算し、指数化することで、エントロピーが増大した場合には各時刻における音響特徴量の次元ごとの重み付けを変更する基準となる信頼度が小さくなるように算出する。そして、音声認識装置は、重み付け変更手段によって、信頼度算出手段で算出された信頼度に基づいて、音響特徴量の次元ごとの重み付けを変更する。そして、音声認識装置は、探索仮説評価手段によって、重み付け変更手段によって重み付けが変更された音響特徴量と、音響モデルとを用いて、伸張された探索仮説の候補の音響スコアを算出する。
請求項6に記載の音声認識装置は、請求項1から5のいずれか一項に記載の音声認識装置において、エントロピー算出手段が、クラスタリング手段と、エントロピー代表点算出手段と、を備える構成とした。
かかる構成によれば、音声認識装置は、クラスタリング手段によって、探索仮説における各状態をクラスタリングし、エントロピー代表点算出手段によって、クラスタリング手段でクラスタリングしたクラスタの代表点におけるエントロピーを算出する。
請求項7に記載の音声認識装置プログラムは、入力された入力音声を、予め蓄積した音響モデルと言語モデルとを用いて音声認識するために、コンピュータを、音響特徴量算出手段、探索繰り返し実行手段、エントロピー算出手段、信頼度算出手段、音響スコア重み付け変更手段、として機能させる構成とした。
かかる構成によれば、音声認識プログラムは、音響特徴量算出手段によって、入力音声を音声認識する候補となる音素の音素列に対して、音素列の各音素を探索する探索経路となる各時刻の探索仮説において、当該探索仮説中の音素をモデル化した音素モデルの各状態に対応付けられる入力音声の音響特徴量を算出し、探索繰り返し実行手段によって、言語モデルを用いて算出した言語スコアにより探索仮説の候補を伸張し、音響特徴量および音響モデルを用いて、伸張された探索仮説の候補の音響スコアを算出し、言語スコアおよび音響スコアの累積が最大となる探索仮説を認識結果として出力し、エントロピー算出手段によって、音響特徴量算出手段で算出された音響特徴量から求められる探索仮説中の音素モデルの各状態の事後確率と、事後確率の自然対数とを乗算した積の総和によって、探索仮説の各状態における各時刻のエントロピーを算出する。そして、音声認識プログラムは、信頼度算出手段によって、エントロピー算出手段で算出したエントロピーにエントロピーの評価する幅を示す定数を乗算し、指数化することで、エントロピーが増大した場合には音響スコアの重み付けを変更する基準となる信頼度が小さくなるように算出し、音響スコア重み付け変更手段によって、信頼度算出手段で算出された信頼度に基づいて、音響スコアの重み付けを変更する。そして、音声認識プログラムは、探索繰り返し実行手段によって、言語スコアと、音響スコア重み付け変更手段によって重み付けが変更された音響スコアとの累積が最大となる探索仮説を認識結果として出力する。
請求項1、2、7に記載の発明によれば、算出したエントロピーに基づいて、音響スコアの重み付けを変更しているので、自由発話中の音素の脱落や訛り等の発声変形等の背景雑音以外の要因による信頼度の低下に対応することができ、探索仮説間の尤度分布を考慮し、音声認識する際の認識精度を維持することができる。
請求項3、4に記載の発明によれば、ある時刻のエントロピーと所定時間前のエントロピーとの差分に基づいて、音響スコアの重み付けを変更しているので、発声変形等の背景雑音以外の要因による信頼度の低下に対応することができ、探索仮説間の尤度分布を考慮し、音声認識する際の認識精度を維持することができる。
請求項に記載の発明によれば、音響特徴量の次元ごとの、ある時刻におけるエントロピーと所定時間前におけるエントロピーとの差分に基づいて、音響特徴量の各次元の重み付けを変更しているので、発声変形等の背景雑音以外の要因による信頼度の低下に対応することができ、探索仮説間の尤度分布を考慮し、音声認識する際の認識精度を維持することができる。
請求項に記載の発明によれば、クラスタリングすることで、似通った探索仮説の中で弁別する重要性の低いものについて、クラスタリングしたクラスタの代表点におけるエントロピーを算出することで、似通った探索仮説が多数存在することに起因する音響スコアの重みの低下を防止することができ、音声認識する際の認識精度を維持することができる。
次に、本発明の実施形態について、適宜、図面を参照しながら詳細に説明する。
(音声認識装置(第一実施形態)の構成)
図1は、音声認識装置(第一実施形態)のブロック図である。この図1に示すように、音声認識装置1は、入力音声に、背景雑音が重畳されたり、自由発話等が含まれたりした場合であっても、当該入力音声の音声認識を行って、認識精度を維持した認識結果を出力するもので、特徴ベクトル算出手段(音響特徴量算出手段)3と、音響モデル蓄積手段5と、言語モデル蓄積手段7と、探索繰り返し実行手段9と、エントロピー算出手段11と、信頼度算出手段13と、音響スコア重み付け変更手段15とを備えている。
この音声認識装置1に入力される入力音声は、任意時間の長さを持つもので、実時間で発声されたものであってもよいし、予め蓄積(録音)されたものであってもよい。なお、入力音声が連続して入力されている限り、当該装置1は入力音声の音声認識の処理を実行し、所定時間以上(例えば、10秒以上)入力がなかった場合(途切れた場合)、音声認識の処理を終了し、認識結果を出力する。
特徴ベクトル算出手段3は、入力音声の各時刻(t)において、当該入力音声を音声認識する際の候補(音素、単語)となる探索仮説における各状態(ノード)に対応付けられる入力音声の音響特徴量を算出し、算出した音響特徴量を、特徴ベクトルとして出力するものである。
探索仮説は、最終的な認識結果を導き出すための認識仮説とも言え、具体的には、音素をモデル化した複数の音素モデルによって構成されている。
また、各状態は、探索仮説の候補を指し、ある時刻において、探索仮説の候補の中で不適当な候補が削除された後(枝刈り後)、適当な候補が生き残った状態を指している。
音響特徴量は、入力音声の音響的な特徴量、例えば、周波数、音圧等を指している。
特徴ベクトルは、音響特徴量をベクトルの成分とする共に、当該特徴量の個数を次元数とした、複数次元のベクトルである。
音響モデル蓄積手段5は、複数の話者が発声した参照音声を用いて作成した音響モデルを蓄積するものであって、一般的なハードディスクやメモリ等によって構成されている。
言語モデル蓄積手段7は、単語の接続確率の統計量を用いた言語モデルを蓄積するものであって、一般的なハードディスクやメモリ等によって構成されている。
探索繰り返し実行手段9は、音響モデル蓄積手段5に蓄積されている音響モデルと、言語モデル蓄積手段7に蓄積されている言語モデルとを用い、探索アルゴリズムに従って、探索仮説の候補の伸張と評価とを繰り返し実行するもので、探索仮説伸張手段9aと、探索仮説評価手段9bとを備えている。この探索繰り返し実行手段9では、探索仮説伸張手段9a及び探索仮説評価手段9bが探索仮説の伸張と評価とを実行した後、最終的に言語スコアと音響スコアとを累積した探索スコアが最大となるものを、認識結果として出力する。
探索仮説伸張手段9aは、言語モデル蓄積手段7に蓄積されている言語モデルを用いて、探索仮説の候補を伸張するもの、すなわち、上位ノードから複数の下位ノードに分岐する際に、どの下位ノードに探索仮説の候補を移行させるのかを、決定するものである。つまり、この探索仮説伸張手段9aは、ある時刻(時刻t)における探索仮説の候補(アクティブな探索仮説)から、所定時間後の次の探索仮説の候補まで、入力音声の入力がなくなるまで、逐次、探索仮説を伸張していくものである。
探索仮説評価手段9bは、探索仮説伸張手段9aで伸張された探索仮説の候補を、特徴ベクトル算出手段3で算出された特徴ベクトルと、音響モデル蓄積手段5に蓄積されている音響モデルとを用いて、評価するものである。この探索仮説評価手段9bによる評価は、音響スコアを基準にして行われる。なお、これら探索仮説伸張手段9a及び探索仮説評価手段9bの具体的な動作は、音響スコアの重み付けを変更する一連の流れの中で説明する。
エントロピー算出手段11は、探索仮説評価手段9bで評価された探索仮説の候補のノードに対応付けられる音響特徴量(特徴ベクトル)の出力確率である音響スコアから、各ノードにおける各時刻(時刻t)のエントロピーを算出するもので、クラスタリング手段11aを備えている。この場合、エントロピー算出手段11は、後記するように(後記する数式(2))、ある時刻における音響スコアと、この音響スコアの自然対数とを乗算した積の総和によって、エントロピーを算出している。
また、このエントロピー算出手段11は、探索仮説評価手段9bで評価された探索仮説の候補のノードに対応付けられる音響特徴量(特徴ベクトル)の出力確率である音響スコアと言語モデルを用いて得られた言語スコアとを累積した探索仮説の探索スコア(累積スコア)から、ある時刻におけるエントロピーと、この時刻から所定時間前のエントロピーとの差分を算出することも可能である。この場合、エントロピー算出手段11は、後記するように(後記する数式(6))、ある時刻における累積スコアと、この累積スコアの自然対数とを乗算した積の総和によって、エントロピーを算出している。
クラスタリング手段11aは、探索繰り返し実行手段9で伸張された探索仮説の候補をクラスタリングするものである。このクラスタリングは、似通った探索仮説の候補、例えば、当該探索仮説の候補がleft−to−rightの3状態HMMで表現された音素HMMの各状態であり、これらを弁別する重要性が低い場合に行われる。そして、この場合、エントロピー算出手段11は、クラスタリングしたクラスタの代表点におけるエントロピーを算出する。
信頼度算出手段13は、エントロピー算出手段11で算出されたエントロピーから、音響スコアの重み付けを変更する基準となる信頼度を算出するものである。この音響スコアの重み付けは、音響モデルを用いて求められる音響スコアと言語モデルを用いて求められる言語スコアとの相対関係を示すものである。この音響スコアの重み付けは、具体的には1.0程度の値を取り、この値が高いほど、時刻tにおける音響スコアは正確である(認識精度の向上に寄与できる)こととなる。また、音響スコアの重み付けが高くなると言うことは、入力音声に背景雑音や発声変形が含まれていないことを示すことにもなる。ちなみに、一般的な音声認識では、言語スコアに重み付けを行うことが多く、この重み付けの値は、自然対数を用いた場合8〜14である。
この信頼度算出手段13は、後記するように(後記する数式(8))、エントロピー算出手段11で算出されたエントロピーに、当該エントロピーを評価する幅(信頼度が取り得る幅A)を設定した定数を乗算し、指数化することで信頼度を算出している。このエントロピーを評価する幅(信頼度が取り得る幅A)は、ある時刻におけるエントロピーに対し、エントロピーが大きいのであれば、入力音声によって得られる情報量が小さい(背景雑音等の余分な音声が含まれている)区間であるとして、この区間の信頼度が小さくなるように設定されたものである。逆に、このエントロピーを評価する幅は、エントロピーが小さいのであれば、入力音声によって得られる情報量が大きい(背景雑音等の余分な音声が含まれていない)区間であるとして、この区間の信頼度が大きくなるように設定されたものである。
また、この信頼度算出手段13は、ある時刻におけるエントロピーと、この時刻から所定時間前のエントロピーとの差分から、音響スコアの重み付けを変更する基準となる信頼度を算出することも可能である。
信頼度算出手段13は、後記するように(後記する数式(9)及び数式(10))、エントロピー算出手段11で算出されたエントロピーに、当該エントロピーを評価する幅(信頼度が取り得る幅A)を設定した定数を乗算し、基準となる“1”から減算すること(数式(9)参照)で信頼度を算出している。そして、ある時刻におけるエントロピーと、この時刻から所定時間前のエントロピーとの差分をI(数式(10)参照)で定義している。
音響スコア重み付け変更手段15は、信頼度算出手段13で算出された信頼度に基づいて、探索仮説評価手段9bで求められた音響スコアの重み付けを変更するものである。この音響スコアの重み付けは、信頼度を、音響スコアを算出する際の出力確率の指数として用いることで行われる。
なお、これら信頼度算出手段13による信頼度の算出と、算出した信頼度を、音響スコア重み付け変更手段15により音響スコアの重み付けに用いることとの具体的な説明は、後記する「音響スコアの重み付けを変更する一連の流れ」の中で行うこととする。
この音声認識装置1によれば、入力音声に含まれる背景雑音や発声変形等に起因して、算出される音響スコアが正確でなくなる場合に、音響スコア重み付け変更手段15によって、当該音響スコアの重み付けを減少させて、相対的に言語スコアを増加させることで、音声認識する際の認識精度を維持することができる。
また、この音声認識装置1によれば、音響スコア重み付け変更手段15によって、ある時刻のエントロピーと所定時間前のエントロピーとの差分に基づいて、音響スコアの重み付けを変更しているので、発声変形等の背景雑音以外の要因による信頼度の低下に対応することができ、探索仮説間の尤度分布を考慮し、音声認識する際の認識精度を維持することができる。
さらに、この音声認識装置1によれば、エントロピー算出手段11によって、探索仮説の候補をクラスタリングすることで、似通った探索仮説の候補の中で弁別する重要性の低いものについて、クラスタリングしたクラスタの代表点におけるエントロピーを算出することで、似通った探索仮説が多数存在することに起因する音響スコアの重みの低下を防止することができ、音声認識する際の認識精度を維持することができる。
(音響スコアの重み付けを変更する一連の流れ)
これより、音声認識装置1によって、音響スコアの重み付けを変更する一連の流れを、数式を交えて説明する。
音声認識装置1は、入力音声が入力されると、特徴ベクトル算出手段3で特徴ベクトルを算出する。続いて、音声認識装置1は、探索繰り返し実行手段9の探索仮説伸張手段9a及び探索仮説評価手段9bによって、探索アルゴリズムを実行し、当該アルゴリズムに従って、探索仮説の候補を伸張して、伸張された探索仮説の候補と特徴ベクトル算出手段3で算出された特徴ベクトルとにより、探索仮説の候補の音響スコアを算出する。ここまでは、一般的な音声認識の手法と同じであり、一般的な音声認識においては、時刻tにおける探索仮説中の状態kの累積スコア(ビタビスコア)α(t)は次に示す数式(1)から求められる。なお、このα(t)は、この累積スコアは、言語スコアと音響スコアとの合計のスコアである。
Figure 0004796460
この数式(1)において、Λ(t−1)は、時刻t−1において評価され、探索アルゴリズムによる適当な枝刈り後(探索仮説の候補の中で不適当なものが削除された後)に生き残った状態の集合であり、aikは状態iから状態kへの遷移確率(言語モデルによるもの)、λは状態kにおける特徴ベクトルxの観測モデルであり、P(x|λ)は観測モデルλでの特徴ベクトルxの観測確率(出力確率、すなわち、音響スコア)である。ここまでは、一般的な音声認識における探索仮説による候補の探索と同様の手順である。
そして、音声認識装置1では、エントロピー算出手段11、信頼度算出手段13及び音響スコア重み付け変更手段15によって、P(x|λ)(λ∈Λ(t)、Λ(t)は時刻tに評価すべき探索仮説における状態)に重み付けを変更しながら、探索繰り返し実行手段9によって、探索を行う。
ここで、エントロピー算出手段11では、特徴ベクトル算出手段3で特徴ベクトル(音響特徴量)が算出された際のエントロピー(H)を算出している。ここで、Hの算出方法として、第一のエントロピーH (λ)と第二のエントロピーH (α)の2通りの算出方法について説明する。第一のエントロピーH (λ)は、λからの出力確率に基づいて、次に示す数式(2)から求められる。
Figure 0004796460
この数式(2)において、P(λ )は特徴ベクトルxtが得られたときのλk∈Λ(t)の事後確率であり、次に示す数式(3)から求められる。
Figure 0004796460
ただし、この事後確率の計算においては、数式(4)及び数式(5)であることを仮定している。
Figure 0004796460
Figure 0004796460
なお、数式(5)において、Nは探索仮説集合Λ(t)中のλの総数である。
また、第二のエントロピーH (α)は、探索仮説の累積スコアα(t)=P(λ|x,・・・,x)から算出し、次に示す数式(6)から求められる。
Figure 0004796460
この数式(6)において、P(λ|x,・・・,x)は、累積スコアα(t)の事後確率であり、次に示す数式(7)から求められる。
Figure 0004796460
そして、音声認識装置1は、信頼度算出手段13によって、数式(2)及び数式(6)によって求められるエントロピーHに基づいて、音響スコアの信頼度を定義し、音響スコア重み付け変更手段15によって、定義した信頼度をそのまま、音響スコアの重みとして用いる。
音響スコアの信頼度は、エントロピーHが増大した場合に、得られる情報量が小さくなるので、これに伴って小さくする必要がある。このため、得られる情報量が小さくなる部分(時間区間)では当該信頼度γを小さくするように、当該信頼度γが次に示す数式(8)又は数式(9)から求められる。
Figure 0004796460
Figure 0004796460
なお、数式(8)において、Aは信頼度の取り得る幅を決定した定数であり、この数式(8)により、信頼度γは、エントロピーHが減少した部分、すなわち、特定の状態において顕著な尤度が得られる部分(音響スコアが正確であるといえる時間区間)では、“1”に近づき、エントロピーHが増大した部分(音響スコアが正確であるといえない時間区間)では、“0”に近づく。
また、数式(9)において、Aも同様に信頼度が取り得る幅を決定した定数であり、Iは、次に示す数式(10)から求められる。
Figure 0004796460
また、信頼度は、信頼度算出手段13により、特徴ベクトルxが得られる前後のエントロピーの差分である情報量で定義される。ここで、数式(10)におけるH0tは、特徴ベクトルxを観測する前のエントロピーであり、H (γ)を用いた場合には、数式(4)で仮定した条件から、次に示す数式(11)及び数式(12)から求められる。
Figure 0004796460
Figure 0004796460
さらに、第二のエントロピーH (α)を用いた場合には、数式(1)で仮定した条件から、次に示す数式(13)、数式(14)及び数式(15)から求められる。
Figure 0004796460
Figure 0004796460
Figure 0004796460
そして、音声認識装置1は、音響スコア重み付け変更手段15によって、I(t)を用いた音響スコアの重み付けを行って、数式(1)に示した探索仮説の評価式を、次に示す数式(16)を用いて再評価する。
Figure 0004796460
その後、音声認識装置1は、探索繰り返し実行手段9によって、再度探索アルゴリズムによる探索仮説の枝刈りと探索仮説の伸張を行った後、特徴ベクトルxt+1での探索仮説の評価を同様に行っていく。
なお、音声認識装置1では、信頼度算出手段13によって、数式(8)又は数式(9)を用いて、信頼度、すなわち、音響スコアの重みを得ており、この音響スコアの重みは、特定の状態の事後確率が際立って大きい場合に大きな重みと言えることとなる。そして、この音響スコアの重みは、探索仮説における末端の全ての状態を対象として得られたものであり、全ての状態間の弁別の重要性を考慮したものではない。
このため、この音声認識装置1では、似通った特徴ベクトルの統計量を学習した状態が探索仮説中に多数存在すること(同じような探索仮説が多数存在すること)に起因して、音響スコアの重みが低下してしまう場合が生じる。例えば、前記したleft−to−rightの3状態HMMで表現された音素HMMの各状態が挙げられる。
音声認識装置1において、認識精度を向上させるために、これら3状態HMMで表現された音素HMMの3状態を弁別する重要性は低い。つまり、特徴ベクトルの変化が小さい定常的な音素では、これらの3状態を表現する特徴ベクトルが非常に似通ったものである場合がある。また、前後の音素環境を考慮したトライフォンHMMでは、中心音素ごとに音響モデルの類似度が高くなる場合が想定される。
そこで、この音声認識装置1では、エントロピー算出手段11のクラスタリング手段11aによって、HMMの内部状態、若しくは、中心音素等を基準に、クラスタリングしたθ{λ(θ,0),・・・,λ(θ,s)}を定義している。そして、このθを用いて、数式(2)及び数式(6)を拡張する。
ここでは、この音声認識装置1が、エントロピー算出手段11のクラスタリング手段11aによって、音素HMM中に含まれる状態をクラスタとし、探索仮説中で、アクティブなHMM{θ∈M}(現時点で評価されている探索仮説中の候補)におけるエントロピーを算出する場合を例として説明を行う。
各音素HMMθの事後確率p (θ)は、次に示す数式(17)及び数式(18)から求められる。
Figure 0004796460
Figure 0004796460
この数式(18)のλ (θ)は、各音素HMMθの状態λ(θ,s)のうち最大の尤度が得られる状態である。この場合、数式(2)で求められるエントロピーは、次に示す数式(19)から求められる。
Figure 0004796460
(音声認識装置の動作)
次に、図2に示すフローチャートを参照して、音声認識装置1の動作を説明する(適宜、図1参照)。
まず、音声認識装置1は、入力音声が入力されると、初期仮説(無音モデルをアクティブ)を設定する(ステップS1)。続いて、音声認識装置1は、特徴ベクトル算出手段3によって、入力音声の特徴ベクトル(音響特徴量)を算出する(ステップS2)。
そして、音声認識装置1は、探索繰り返し実行手段9によって、音響モデル蓄積手段5で蓄積されている音響モデルを用いて音響スコアを算出する(ステップS3)。そして、音声認識装置1は、エントロピー算出手段11によって、エントロピーを算出する(ステップS4)。
そして、音声認識装置1は、信頼度算出手段13によって、エントロピー算出手段11で算出したエントロピーに基づいて、信頼度を算出する(ステップS5)。さらに、音声認識装置1は、音響スコア重み付け変更手段15によって、信頼度算出手段13で算出した信頼度を音響スコアの指数として用いることで、当該音響スコアの重み付けを変更する(ステップS6)。
そして、音声認識装置1は、入力音声があるか否かを判定し(ステップS7)、入力音声があると判定した場合(ステップS7、Yes)には、探索繰り返し実行手段9の探索仮説評価手段9bによって、重み付けが変更された音響スコアを用いて、探索仮説の候補を評価し直し、探索繰り返し実行手段9の探索仮説伸張手段9aによって、言語モデル蓄積手段7で蓄積されている言語モデルを用いて算出した言語スコアにより、探索仮説の候補を伸張して(ステップS8)、ステップS2に戻る。
また、音声認識装置1は、入力音声があると判定しなかった場合(ステップS7、No)には、探索繰り返し実行手段9の中で、音響スコアと言語スコアとを累積した探索スコアが最大となるものを、認識結果として出力する(ステップS9)。
(音声認識装置(第二実施形態)の構成)
図3は、音声認識装置(第二実施形態)のブロック図である。この図3に示すように、音声認識装置1Aは、入力音声に、背景雑音が重畳されたり、自由発話等が含まれたりした場合であっても、当該入力音声の音声認識を行って、認識精度を維持した認識結果を出力するもので、特徴ベクトル算出手段3と、音響モデル蓄積手段5と、言語モデル蓄積手段7と、探索繰り返し実行手段9と、エントロピー算出手段11Aと、信頼度算出手段13Aと、音響特徴量重み付け変更手段(重み付け変更手段)15Aとを備えている。なお、図1に示した音声認識装置1と同様の構成については、同一の符号を付して、その説明を省略する。
エントロピー算出手段11Aは、混合正規分布モデルの重み付き混合和から求められる出力確率を最大値近似することによって、特徴ベクトル算出手段3で算出した音響特徴量の次元ごとの各時刻におけるエントロピーを算出するもので、クラスタリング手段11aを備えている。なお、このエントロピー算出手段11Aによる混合正規分布モデルの重み付き混合和から求められる出力確率を最大値近似とは、混合分布(後記する混合要素)を、最大値が得られる単一分布で近似することである。この場合、エントロピー算出手段11Aは、後記するように(後記する数式(24))、ある時刻における混合要素の事後確率と、この混合要素の事後確率の自然対数とを乗算した積の総和によって、エントロピーを算出している。
また、このエントロピー算出手段11Aは、探索仮説評価手段9bで評価された探索仮説の候補のノードに対応付けられる音響特徴量(特徴ベクトル)の出力確率である音響スコアと言語モデルを用いて得られた言語スコアとを累積した探索仮説の探索スコア(累積スコア)から、ある時刻におけるエントロピーと、この時刻から所定時間前のエントロピーとの差分を算出することも可能である。なお、ここでは、このエントロピー算出手段11Aでは、エントロピー算出手段11で探索スコアを算出する場合と同じように、算出している。
信頼度算出手段13Aは、エントロピー算出手段11Aで算出されたエントロピーから、音響特徴量の重み付けを変更する基準となる信頼度を算出するものである。この音響特徴量の重み付けは、音響特徴量の各次元間の相対関係を示すものである。この音響特徴量の重み付けは、各次元で重み付けを行わない場合には、1.0を取り、各次元で重み付けを行う場合には、この1.0を基準とした値を取る。そして、この値が高いほど、時刻tにおける音響特徴量の各次元の中で重要な次元である(認識精度の向上に寄与できる)こととなる。
この信頼度算出手段13Aは、後記するように(後記する数式(25))、エントロピー算出手段11Aで算出されたエントロピーに、当該エントロピーを評価する幅(信頼度が取り得る幅B)を設定した定数を乗算し、指数化することで信頼度を算出している。このエントロピーを評価する幅(信頼度が取り得る幅B)は、ある時刻におけるエントロピーに対し、エントロピーが大きいのであれば、入力音声によって得られる情報量が小さい(背景雑音等の余分な音声が含まれている)区間であるとして、この区間の信頼度が小さくなるように設定されたものである。逆に、このエントロピーを評価する幅は、エントロピーが小さいのであれば、入力音声によって得られる情報量が大きい(背景雑音等の余分な音声が含まれていない)区間であるとして、この区間の信頼度が大きくなるように設定されたものである。
また、この信頼度算出手段13Aは、ある時刻におけるエントロピーと、この時刻から所定時間前のエントロピーとの差分から、音響特徴量の重み付けを変更する基準となる信頼度を算出することも可能である。
信頼度算出手段13Aは、後記するように(後記する数式(26))、エントロピー算出手段11Aで算出されたエントロピーに、当該エントロピーを評価する幅(信頼度が取り得る幅B)を設定した定数を乗算し、基準となる“1”から減算すること(数式(26)参照)で信頼度を算出している。
音響特徴量重み付け変更手段15Aは、信頼度算出手段13Aで算出された信頼度に基づいて、特徴ベクトル算出手段3で求められた音響特徴量の各次元の重み付けを変更するものである。
この音声認識装置1Aによれば、音響特徴量重み付け変更手段15Aによって、音響特徴量の次元ごとの各時刻におけるエントロピーに基づいて、音響特徴量の各次元の重み付けを変更しているので、発声変形等の背景雑音以外の要因による信頼度の低下に対応することができ、探索仮説間の尤度分布を考慮し、音声認識する際の認識精度を維持することができる。
また、音声認識装置1Aによれば、音響特徴量の次元ごとの、ある時刻におけるエントロピーと所定時間前におけるエントロピーとの差分に基づいて、音響特徴量の各次元の重み付けを変更しているので、発声変形等の背景雑音以外の要因による信頼度の低下に対応することができ、探索仮説間の尤度分布を考慮し、音声認識する際の認識精度を維持することができる。
(音響特徴量の重み付けを変更する一連の流れ)
これより、音声認識装置1Aによって、音響特徴量の各次元の重み付けを変更する一連の流れを、数式を交えて説明する。
まず、音声認識装置1Aは、特徴ベクトル算出手段3によって算出した特徴ベクトル、つまり、ある時刻tにおける音響特徴量xのd次元目の特徴量をx としたとき、探索仮説中のアクティブな各状態{λ∈S}の次元dごとの事後確率p (λ,d)を次に示す数式(20)及び数式(21)から求められる。
Figure 0004796460
Figure 0004796460
この数式(21)において、ρ(λ,m)は、状態(混合正規分布)λのm番目の混合要素(正規分布)であり、ωρ(λi,m)は、ρ(λ,m)の混合重みであり、ρ (λ)はλ中の最大の尤度が得られる混合要素ρ(λ,m)である。そして、このときのρ (λ)の混合重みはωρ^t(λi)=ωρ(λi,m^)である。この音声認識装置1Aでは、以上のように混合重みを求めている。
ここで、この音声認識装置1Aによる混合重みの求め方と、従来法(ICASSP2006)による混合重みの求め方との違いを明確にするために、この従来法について説明する。
従来法(ICASSP2006)では、混合重みは次に示す数式(22)及び数式(23)から求められる。
Figure 0004796460
Figure 0004796460
音声認識装置1Aでは、従来法の混合要素の尤度和演算を最大値近似している点が異なっている。音声認識装置1Aでは、この最大値近似により、音響特徴量の各次元において、次元ごとに独立に算出した尤度を用いて重み付け尤度を得る際に、次元間の独立性が保たれるため、算出された尤度の精度が向上することとなる。
次に、数式(20)によって得られた事後確率p (λ,d)を用いて、数式(2)に対応するd次のエントロピーH (λ)(d)を次に示す数式(24)から求める。
Figure 0004796460
さらに、ここで、数式(6)に対応するd次のエントロピーH (α)(d)も同様にρ (λ)を用いて算出可能であり、音響特徴量を観測することにより得られる情報量I(d)も同様に算出可能である。
さらに、音声認識装置1Aでは、信頼度算出手段13Aによって、次元ごとの信頼度ψ(d)も次に示す数式(25)及び数式(26)から求められる。
Figure 0004796460
Figure 0004796460
なお、数式(25)において、Be及びBsは、信頼度が取り得る幅を決めるための定数である。そして、音声認識装置1Aでは、この信頼度を用いて、状態λiのD次元の音響特徴量の次元重み付き音響スコアを次に示す数式(27)から求める。
Figure 0004796460
なお、この音声認識装置1Aでは、入力音声全体で求めた音響スコアの重み付けの平均値であるγが従来法(γ=1.0)と異なるため、言語スコアのおもみである言語重みや、探索仮説の候補を探索する際の探索範囲である探索ビーム等の探索パラメータの最適化が必要になる場合が生じる。このような場合、音声認識装置1Aでは、入力音声全体で求めた音響スコアの重み付けの平均値であるγを用いて、音響スコアの重み付けを、次に示す数式(28)及び数式(29)から求める。
Figure 0004796460
Figure 0004796460
この数式(29)により、平均値が1.0になるように補正したγ´ を用いて重み付けを行うことで、従来通りの探索パラメータで音声認識することができる。
(音声認識装置の動作)
次に、図4に示すフローチャートを参照して、音声認識装置1Aの動作を説明する(適宜、図3参照)。
まず、音声認識装置1Aは、入力音声が入力されると、初期仮説(無音モデルをアクティブ)を設定する(ステップS11)。続いて、音声認識装置1Aは、特徴ベクトル算出手段3によって、入力音声の特徴ベクトル(音響特徴量)を算出する(ステップS12)。
そして、音声認識装置1Aは、探索繰り返し実行手段9によって、音響モデル蓄積手段5で蓄積されている音響モデルを用いて音響スコアを算出する(ステップS13)。そして、音声認識装置1Aは、エントロピー算出手段11Aによって、エントロピーを算出する(ステップS14)。
そして、音声認識装置1Aは、信頼度算出手段13Aによって、エントロピー算出手段11Aで算出したエントロピーに基づいて、信頼度を算出する(ステップS15)。さらに、音声認識装置1Aは、音響特徴量重み付け変更手段15Aによって、信頼度算出手段13Aで算出した信頼度を音響特徴量の指数として用いることで、当該音響特徴量の次元ごとの重み付けを変更する(ステップS16)。
そして、音声認識装置1Aは、入力音声があるか否かを判定し(ステップS17)、入力音声があると判定した場合(ステップS17、Yes)には、探索繰り返し実行手段9の探索仮説評価手段9bによって、重み付けが変更された音響特徴量を用いて、探索仮説の候補を評価し直し、探索繰り返し実行手段9の探索仮説伸張手段9aによって、言語モデル蓄積手段7で蓄積されている言語モデルを用いて算出した言語スコアにより、探索仮説の候補を伸張して(ステップS18)、ステップS12に戻る。
また、音声認識装置1Aは、入力音声があると判定しなかった場合(ステップS17、No)には、探索繰り返し実行手段9の中で、音響スコアと言語スコアとを累積した探索スコアが最大となるものを、認識結果として出力する(ステップS19)。
以上、本発明の実施形態について説明したが、本発明は前記実施形態には限定されない。例えば、本実施形態では、音声認識装置1及び音声認識装置1Aとして説明したが、当該装置1及び当該装置1Aの各構成の処理を、汎用的また特殊なコンピュータ言語で記述した音声認識プログラムとして構成することも可能である。この場合、同様の効果が得られる。
また、音声認識装置1及び音声認識装置1Aで用いた数式のバリエーションとして、数式(1)及び数式(13)で示したP(x|λ)を、P(λ|x)に置き換えることも可能である。この置き換えたものを次の数式(30)及び数式(31)に示す。
Figure 0004796460
Figure 0004796460
つまり、このP(λ|x)は特徴ベクトルxが得られた際の観測モデルλの観測確率である。そして、このP(λ|x)は、前記した数式(3)から求めることが可能である。
本発明の実施形態に係る音声認識装置(第一実施形態)のブロック図である。 図1に示した音声認識装置(第一実施形態)の動作を示したフローチャートである。 本発明の実施形態に係る音声認識装置(第二実施形態)のブロック図である。 図3に示した音声認識装置(第二実施形態)の動作を示したフローチャートである。
符号の説明
1、1A 音声認識装置
3 特徴ベクトル算出手段
5 音響モデル蓄積手段
7 言語モデル蓄積手段
9 探索繰り返し実行手段
9a 探索仮説伸張手段
9b 探索仮説評価手段
11、11A エントロピー算出手段
11a クラスタリング手段
13、13A 信頼度算出手段
15 音響スコア重み付け変更手段
15A 音響特徴量重み付け変更手段

Claims (7)

  1. 入力された入力音声を、予め蓄積した音響モデルと言語モデルとを用いて音声認識する音声認識装置において、
    前記入力音声を音声認識する候補となる音素の音素列に対して、前記音素列の各音素を探索する探索経路となる各時刻の探索仮説において、当該探索仮説中の前記音素をモデル化した音素モデルの各状態に対応付けられる入力音声の音響特徴量を算出する音響特徴量算出手段と、
    前記言語モデルを用いて算出した言語スコアにより前記探索仮説の候補を伸張し、前記音響特徴量および前記音響モデルを用いて、前記伸張された前記探索仮説の候補の音響スコアを算出し、前記言語スコアおよび前記音響スコアの累積が最大となる前記探索仮説を認識結果として出力する探索繰り返し実行手段と、
    前記音響特徴量算出手段で算出された音響特徴量から求められる探索仮説中の音素モデルの各状態の事後確率と、当該事後確率の自然対数とを乗算した積の総和によって、前記探索仮説の各状態における各時刻のエントロピーを算出するエントロピー算出手段と、
    このエントロピー算出手段で算出したエントロピーに当該エントロピーの評価する幅を示す定数を乗算し、指数化することで、当該エントロピーが増大した場合には前記音響スコアの重み付けを変更する基準となる信頼度が小さくなるように算出する信頼度算出手段と、
    この信頼度算出手段で算出された信頼度に基づいて、前記音響スコアの重み付けを変更する音響スコア重み付け変更手段と、
    を備え
    前記探索繰り返し実行手段は、前記言語スコアと、前記音響スコア重み付け変更手段によって重み付けが変更された前記音響スコアとの累積が最大となる前記探索仮説を前記認識結果として出力することを特徴とする音声認識装置。
  2. 入力された入力音声を、予め蓄積した音響モデルと言語モデルとを用いて音声認識する音声認識装置において、
    前記入力音声を音声認識する候補となる音素の音素列に対して、前記音素列の各音素を探索する探索経路となる各時刻の探索仮説において、当該探索仮説中の前記音素をモデル化した音素モデルの各状態に対応付けられる入力音声の音響特徴量を算出する音響特徴量算出手段と、
    前記言語モデルを用いて算出した言語スコアにより前記探索仮説の候補を伸張し、前記音響特徴量および前記音響モデルを用いて、前記伸張された前記探索仮説の候補の音響スコアを算出し、前記言語スコアおよび前記音響スコアの累積が最大となる前記探索仮説を認識結果として出力する探索繰り返し実行手段と、
    前記音響特徴量算出手段で算出された音響特徴量から求められる探索仮説中の音素モデルの各状態の事後確率と、当該事後確率の自然対数とを乗算した積の総和によって、前記探索仮説の各状態における各時刻のエントロピーを算出するエントロピー算出手段と、
    このエントロピー算出手段で算出したエントロピーに当該エントロピーの評価する幅を示す定数を乗算し、1から減算することで、当該エントロピーが増大した場合には前記音響スコアの重み付けを変更する基準となる信頼度が小さくなるように算出する信頼度算出手段と、
    この信頼度算出手段で算出された信頼度に基づいて、前記音響スコアの重み付けを変更する音響スコア重み付け変更手段と、
    を備え
    前記探索繰り返し実行手段は、前記言語スコアと、前記音響スコア重み付け変更手段によって重み付けが変更された前記音響スコアとの累積が最大となる前記探索仮説を前記認識結果として出力することを特徴とする音声認識装置。
  3. 入力された入力音声を、予め蓄積した音響モデルと言語モデルとを用いて音声認識する音声認識装置において、
    前記入力音声を音声認識する候補となる音素の音素列に対して、前記音素列の各音素を探索する探索経路となる各時刻の探索仮説において、当該探索仮説中の前記音素をモデル化した音素モデルの各状態に対応付けられる入力音声の音響特徴量を算出する音響特徴量算出手段と、
    前記言語モデルを用いて算出した言語スコアにより前記探索仮説の候補を伸張し、前記音響特徴量および前記音響モデルを用いて、前記伸張された前記探索仮説の候補の音響スコアを算出し、前記言語スコアおよび前記音響スコアの累積が最大となる前記探索仮説を認識結果として出力する探索繰り返し実行手段と、
    前記探索繰り返し実行手段で算出された音響スコアおよび言語スコアを累積した探索スコアより求められる探索仮説の事後確率と、当該事後確率の自然対数とを乗算した積の総和によって、前記探索仮説の各状態におけるある時刻のエントロピーと、前記時刻から所定時間前のエントロピーとの差分を算出するエントロピー算出手段と、
    このエントロピー算出手段で算出したエントロピーに当該エントロピーの評価する幅を示す定数を乗算し、指数化することで、当該エントロピーが増大した場合には各時刻における前記音響特徴量の次元ごとの重み付けを変更する基準となる信頼度が小さくなるように算出する信頼度算出手段と、
    この信頼度算出手段で算出された信頼度に基づいて、前記音響スコアの重み付けを変更する音響スコア重み付け変更手段と、
    を備え
    前記探索繰り返し実行手段は、前記言語スコアと、前記音響スコア重み付け変更手段によって重み付けが変更された前記音響スコアとの累積が最大となる前記探索仮説を認識結果として出力することを特徴とする音声認識装置。
  4. 入力された入力音声を、予め蓄積した音響モデルと言語モデルとを用いて音声認識する音声認識装置において、
    前記入力音声を音声認識する候補となる音素の音素列に対して、前記音素列の各音素を探索する探索経路となる各時刻の探索仮説において、当該探索仮説中の前記音素をモデル化した音素モデルの各状態に対応付けられる入力音声の音響特徴量を算出する音響特徴量算出手段と、
    前記言語モデルを用いて算出した言語スコアにより前記探索仮説の候補を伸張し、前記音響特徴量および前記音響モデルを用いて、前記伸張された前記探索仮説の候補の音響スコアを算出し、前記言語スコアおよび前記音響スコアの累積が最大となる前記探索仮説を認識結果として出力する探索繰り返し実行手段と、
    前記探索繰り返し実行手段で算出された音響スコアおよび言語スコアを累積した探索スコアより求められる探索仮説の事後確率と、当該事後確率の自然対数とを乗算した積の総和によって、前記探索仮説の各状態におけるある時刻のエントロピーと、前記時刻から所定時間前のエントロピーとの差分を算出するエントロピー算出手段と、
    このエントロピー算出手段で算出したエントロピーに当該エントロピーの評価する幅を示す定数を乗算し、1から減算することで、当該エントロピーが増大した場合には前記音響スコアの重み付けを変更する基準となる信頼度が小さくなるように算出する信頼度算出手段と、
    この信頼度算出手段で算出された信頼度に基づいて、前記音響スコアの重み付けを変更する音響スコア重み付け変更手段と、
    を備え、
    前記探索繰り返し実行手段は、前記言語スコアと、前記音響スコア重み付け変更手段によって重み付けが変更された前記音響スコアとの累積が最大となる前記探索仮説を認識結果として出力することを特徴とする音声認識装置。
  5. 入力された入力音声を、予め蓄積した蓄積音声の音響特徴量の出力確率分布を混合正規分布モデルで表現した音響モデルと言語モデルとを用いて音声認識する音声認識装置において、
    前記入力音声を音声認識する候補となる音素の音素列に対して、前記音素列の各音素を探索する探索経路となる各時刻の探索仮説において、当該探索仮説中の前記音素をモデル化した音素モデルの各状態に対応付けられる入力音声の音響特徴量を算出する音響特徴量算出手段と、
    前記言語モデルを用いて算出した言語スコアにより前記探索仮説の候補を伸張し、前記音響特徴量および前記音響モデルを用いて、前記伸張された前記探索仮説の候補の音響スコアを算出し、前記言語スコアおよび前記音響スコアの累積が最大となる前記探索仮説を認識結果として出力する探索繰り返し実行手段と、
    前記探索繰り返し実行手段で算出された音響スコアおよび言語スコアを累積した探索スコアより求められる探索仮説事後確率と、当該事後確率の自然対数とを乗算した積の総和によって、前記探索仮説の各状態におけるある時刻のエントロピーと、前記時刻から所定時間前のエントロピーとの差分を算出するエントロピー算出手段と、
    このエントロピー算出手段で算出したエントロピーに当該エントロピーの評価する幅を示す定数を乗算し、指数化することで、当該エントロピーが増大した場合には各時刻における前記音響特徴量の次元ごとの重み付けを変更する基準となる信頼度が小さくなるように算出する信頼度算出手段と、
    この信頼度算出手段で算出された信頼度に基づいて、前記音響特徴量の次元ごとの重み付けを変更する重み付け変更手段と、
    を備え
    前記探索仮説評価手段は、前記重み付け変更手段によって重み付けが変更された音響特徴量と、前記音響モデルとを用いて、前記伸張された探索仮説の候補の音響スコアを算出することを特徴とする音声認識装置。
  6. 前記エントロピー算出手段は、前記探索仮説における各状態をクラスタリングするクラスタリング手段と、
    このクラスタリング手段でクラスタリングしたクラスタの代表点におけるエントロピーを算出するエントロピー代表点算出手段と、
    を備えることを特徴とする請求項1からのいずれか一項に記載の音声認識装置。
  7. 入力された入力音声を、予め蓄積した音響モデルと言語モデルとを用いて音声認識するために、コンピュータを、
    前記入力音声を音声認識する候補となる音素の音素列に対して、前記音素列の各音素を探索する探索経路となる各時刻の探索仮説において、当該探索仮説中の前記音素をモデル化した音素モデルの各状態に対応付けられる入力音声の音響特徴量を算出する音響特徴量算出手段、
    前記言語モデルを用いて算出した言語スコアにより前記探索仮説の候補を伸張し、前記音響特徴量および前記音響モデルを用いて、前記伸張された前記探索仮説の候補の音響スコアを算出し、前記言語スコアおよび前記音響スコアの累積が最大となる前記探索仮説を認識結果として出力する探索繰り返し実行手段、
    前記音響特徴量算出手段で算出された音響特徴量から求められる探索仮説中の音素モデルの各状態の事後確率と、当該事後確率の自然対数とを乗算した積の総和によって、前記探索仮説の各状態における各時刻のエントロピーを算出するエントロピー算出手段、
    このエントロピー算出手段で算出したエントロピーに当該エントロピーの評価する幅を示す定数を乗算し、指数化することで、当該エントロピーが増大した場合には前記音響スコアの重み付けを変更する基準となる信頼度が小さくなるように算出する信頼度算出手段、
    この信頼度算出手段で算出された信頼度に基づいて、前記音響スコアの重み付けを変更する音響スコア重み付け変更手段、
    として機能させ
    前記探索繰り返し実行手段は、前記言語スコアと、前記音響スコア重み付け変更手段によって重み付けが変更された前記音響スコアとの累積が最大となる前記探索仮説を認識結果として出力することを特徴とする音声認識プログラム。
JP2006239747A 2006-09-05 2006-09-05 音声認識装置及び音声認識プログラム Expired - Fee Related JP4796460B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006239747A JP4796460B2 (ja) 2006-09-05 2006-09-05 音声認識装置及び音声認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006239747A JP4796460B2 (ja) 2006-09-05 2006-09-05 音声認識装置及び音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2008064815A JP2008064815A (ja) 2008-03-21
JP4796460B2 true JP4796460B2 (ja) 2011-10-19

Family

ID=39287615

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006239747A Expired - Fee Related JP4796460B2 (ja) 2006-09-05 2006-09-05 音声認識装置及び音声認識プログラム

Country Status (1)

Country Link
JP (1) JP4796460B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013125203A1 (ja) * 2012-02-21 2013-08-29 日本電気株式会社 音声認識装置、音声認識方法およびコンピュータプログラム
JP6026224B2 (ja) * 2012-10-29 2016-11-16 Kddi株式会社 パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体
JP6325770B2 (ja) * 2013-02-04 2018-05-16 日本放送協会 音声認識誤り修正装置及びそのプログラム
KR101465316B1 (ko) * 2013-02-26 2014-11-26 주식회사 엘지유플러스 소리-시각 변환 장치 및 그 제어방법
JP6276516B2 (ja) * 2013-05-08 2018-02-07 日本放送協会 辞書作成装置、及び辞書作成プログラム
KR102380833B1 (ko) * 2014-12-02 2022-03-31 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4362054B2 (ja) * 2003-09-12 2009-11-11 日本放送協会 音声認識装置及び音声認識プログラム

Also Published As

Publication number Publication date
JP2008064815A (ja) 2008-03-21

Similar Documents

Publication Publication Date Title
US8290773B2 (en) Information processing apparatus, method and recording medium for generating acoustic model
JP5229216B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
US8532991B2 (en) Speech models generated using competitive training, asymmetric training, and data boosting
JP5218052B2 (ja) 言語モデル生成システム、言語モデル生成方法および言語モデル生成用プログラム
KR100612840B1 (ko) 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
US9058811B2 (en) Speech synthesis with fuzzy heteronym prediction using decision trees
JP5229478B2 (ja) 統計モデル学習装置、統計モデル学習方法、およびプログラム
JP5752060B2 (ja) 情報処理装置、大語彙連続音声認識方法及びプログラム
CN105654940B (zh) 一种语音合成方法和装置
JP5692493B2 (ja) 隠れマルコフモデル作成プログラム、情報記憶媒体、隠れマルコフモデル作成システム、音声認識システム及び音声認識方法
US11837236B2 (en) Speaker recognition based on signal segments weighted by quality
JP4796460B2 (ja) 音声認識装置及び音声認識プログラム
WO2010100853A1 (ja) 言語モデル適応装置、音声認識装置、言語モデル適応方法、及びコンピュータ読み取り可能な記録媒体
JPWO2007105409A1 (ja) 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム
US20080140399A1 (en) Method and system for high-speed speech recognition
EP3309778A1 (en) Method for real-time keyword spotting for speech analytics
KR100915638B1 (ko) 고속 음성 인식 방법 및 시스템
JP2004117503A (ja) 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置
CN102237082A (zh) 语音识别系统的自适应方法
JP2000075886A (ja) 統計的言語モデル生成装置及び音声認識装置
JP7159655B2 (ja) 感情推定システムおよびプログラム
JP5104732B2 (ja) 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム
JP5161174B2 (ja) 経路探索装置、音声認識装置、これらの方法及びプログラム
JP5344396B2 (ja) 言語学習装置、言語学習プログラム及び言語学習方法
JP6274015B2 (ja) 音響モデル調整装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081029

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110317

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110705

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110729

R150 Certificate of patent or registration of utility model

Ref document number: 4796460

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140805

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees