JP4796460B2

JP4796460B2 - 音声認識装置及び音声認識プログラム

Info

Publication number: JP4796460B2
Application number: JP2006239747A
Authority: JP
Inventors: 庄衛佐藤; 亨今井
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2006-09-05
Filing date: 2006-09-05
Publication date: 2011-10-19
Anticipated expiration: 2026-09-05
Also published as: JP2008064815A

Description

本発明は、入力音声を認識する音声認識装置及び音声認識プログラムに関する。

従来、入力音声を認識する音声認識方法や音声認識装置において、各音素の特徴量の確率密度分布を用いた音響モデルと、単語の接続確率の統計を用いた言語モデルとにより、当該音響モデルから音響スコア及び当該言語モデルから言語スコアを算出して、算出したスコアに従って、音声認識した結果を出力するものが一般的である。
すなわち、このような音声認識方法や音声認識装置では、入力音声に対し、最も高い音響スコア（音響モデル尤度）及び言語スコア（単語接続確率）が得られる単語列を認識結果として出力している。

従来の音声認識方法や音声認識装置は、入力音声から、認識結果に達するまでの仮説である探索仮説を、繰り返し評価する際に、音響スコアと言語スコアとの重みを一定にして行っている。音響スコアと言語スコアとの重みを一定にすることは、音響モデルを作成するのに用いた学習音声と、現在入力されている入力音声とに整合性がある場合には、妥当であると言える。

しかし、入力音声に背景雑音が重畳されていたり、不明瞭な自由発話が含まれていたりした場合、音響モデルを作成するのに用いた学習音声と、現在入力されている入力音声との整合性の度合いが時々刻々と変化する場合がある。このように学習音声と入力音声との整合性の度合いが変化する時間（以下、背景雑音重畳区間または不整合区間という）には、音響モデルを用いて算出される音響スコアが妥当であると言えないことが生じる。

そこで、音響モデルを用いて算出された音響スコアがどれだけ妥当であるか否かを判定する基準となる何らかの基準値（信頼度）を算出し、この音響スコアの信頼度に応じて、音響スコアと言語スコアとの重みを動的に（逐次）変更することが望ましいとされている。つまり、音響スコアの信頼度が低い場合には、音響スコアの重みを低くし、相対的に言語スコアが高くなることで、探索仮説を評価する際に、音響的制約よりも、より強く言語的制約をかけることが可能になると共に、音響スコアと言語スコアとの和であるスコアの総和が小さくなるので、スコアの総和が小さいものから大きいものまで探索仮説を探索することとなり、探索仮説を探索する探索幅を広くとることができる（より多くの探索仮説を探索ビーム内に残せる）。

このように、音響スコアと言語スコアとの重みに着目し、背景雑音重畳区間において、音響スコアの重みを動的に変更しながら、探索仮説を探索する方法もいくつか提案されており、２つほど例示する。一つには、音響モデルとして用意した雑音モデル及び音声モデルの尤度比を、音響スコアの信頼度とするもので、この信頼度に基づいて、音響スコアの重みを変化させる方法（以下、従来法１）が挙げられる（特許文献１参照）。もう一つには、入力音声の入力パワーの変動量から当該入力音声のＳ／Ｎを推定し、このＳ／Ｎを音響スコアの信頼度として用いる方法（以下、従来法２）が挙げられる（非特許文献１参照）。

また、最尤仮説（最も尤度が高い探索仮説）の音響スコアの事後確率、若しくは、事後確率の対数値を信頼度として、探索仮説を探索する深さを動的に変える方法（以下、従来法３）も提案さている（非特許文献２参照）。この従来法３では、認識結果に達するまでに取り除かれる（枝刈りされる）探索仮説を少なくできることにより、音響スコアの重みを変化させることと同様の効果が得られると共に、入力音声に背景雑音が重畳されたり、入力音声が発声変形してしまったりしても、認識精度が低下することはない。

さらに、探索仮説間の尤度分布を考慮し、当該探索仮説を識別する識別カテゴリ間における特徴量の次元間にも動的に重みを付与する方法（以下、従来法４）も提案されている（非特許文献３参照）。この従来法４では、当該方法で行われた実験において、識別カテゴリが１３と非常に少ないため、全ての識別カテゴリを用いて探索仮説の尤度分布を考慮することが可能であり、特徴量の各次元の独立性を仮定した上で、各識別カテゴリの出力確率に混合正規分布を用いている。
特開２００５−０９１５１８号公報 Eurospeech 2003 pp.2169-2172,"A Noise-Robst ASR Back-end Technique Based on Weighted Viterbi Recognition" Interspeech 2005 pp.585-588,"A Confidence-Guided Dynamic Pruning Approach" ICASSP 2006 I-41,"Entropy-Based Feature Parameter Weighting For Robst Speech Recognition"

しかしながら、従来法１及び２では、入力音声に背景雑音が重畳された場合に音響スコアの重みを変更することに特化した方法であり、自由発話中の音素の脱落や訛り等の発声変形のような、背景雑音以外の要因による信頼度の低下に対応することができないという問題がある。

また、従来法３では、事後確率を算出する際に、全ての音響スコアの尤度、若しくは、全ての音響スコアの近似が必要になるのに加え、認識結果に達するまでの探索途中で単一の探索仮説のみに着目してしまうので、探索仮説間の尤度分布が考慮されていないという問題がある。

さらに、従来法４では、トライフォンモデル等の大規模な音響モデルを用いる一般的な大語彙連続音声認識においては、全ての識別カテゴリの尤度分布を全ての時刻において考慮することが困難であるという問題がある。また、従来法４では、混合分布モデルにおいて、特徴量の次元間の独立性を仮定したために生じる誤認識が増加してしまう（認識精度が低下してしまう）という問題がある。

そこで、本発明では、前記した問題を解決し、背景雑音以外の要因による信頼度の低下に対応することができ、探索仮説間の尤度分布を考慮し、音声認識する際の認識精度を維持することができる音声認識装置及び音声認識プログラムを提供することを目的とする。

前記課題を解決するため、請求項１に記載の音声認識装置は、入力された入力音声を、予め蓄積した音響モデルと言語モデルとを用いて音声認識する音声認識装置において、音響特徴量算出手段と、探索繰り返し実行手段と、エントロピー算出手段と、信頼度算出手段と、音響スコア重み付け変更手段と、を備える構成とした。

かかる構成によれば、音声認識装置は、音響特徴量算出手段によって、入力音声を音声認識する候補となる音素の音素列に対して、音素列の各音素を探索する探索経路となる各時刻の探索仮説において、当該探索仮説中の音素をモデル化した音素モデルの各状態に対応付けられる入力音声の音響特徴量を算出する。また、音声認識装置は、探索繰り返し実行手段によって、言語モデルを用いて算出した言語スコアにより探索仮説の候補を伸張し、音響特徴量および音響モデルを用いて、伸張された探索仮説の候補の音響スコアを算出し、言語スコアおよび音響スコアの累積が最大となる探索仮説を認識結果として出力する。続いて、音声認識装置は、エントロピー算出手段によって、音響特徴量算出手段で算出された音響特徴量から求められる探索仮説中の音素モデルの各状態の事後確率と、事後確率の自然対数とを乗算した積の総和によって、探索仮説の各状態における各時刻のエントロピーを算出する。そして、音声認識装置は、信頼度算出手段によって、エントロピー算出手段で算出したエントロピーにエントロピーの評価する幅を示す定数を乗算し、指数化することで、エントロピーが増大した場合には音響スコアの重み付けを変更する基準となる信頼度が小さくなるように算出する。そして、音声認識装置は、音響スコア重み付け変更手段によって、信頼度算出手段で算出された信頼度に基づいて、音響スコアの重み付けを変更する。そして、音声認識装置は、探索繰り返し実行手段によって、言語スコアと、音響スコア重み付け変更手段によって重み付けが変更された音響スコアとの累積が最大となる探索仮説を認識結果として出力する。

請求項２に記載の音声認識装置は、入力された入力音声を、予め蓄積した音響モデルと言語モデルとを用いて音声認識する音声認識装置において、音響特徴量算出手段と、探索繰り返し実行手段と、エントロピー算出手段と、信頼度算出手段と、音響スコア重み付け変更手段と、を備える構成とした。

かかる構成によれば、音声認識装置は、音響特徴量算出手段によって、入力音声を音声認識する候補となる音素の音素列に対して、音素列の各音素を探索する探索経路となる各時刻の探索仮説において、当該探索仮説中の音素をモデル化した音素モデルの各状態に対応付けられる入力音声の音響特徴量を算出する。また、音声認識装置は、探索繰り返し実行手段によって、言語モデルを用いて算出した言語スコアにより探索仮説の候補を伸張し、音響特徴量および音響モデルを用いて、伸張された探索仮説の候補の音響スコアを算出し、言語スコアおよび音響スコアの累積が最大となる探索仮説を認識結果として出力する。続いて、音声認識装置は、エントロピー算出手段によって、音響特徴量算出手段で算出された音響特徴量から求められる探索仮説中の音素モデルの各状態の事後確率と、事後確率の自然対数とを乗算した積の総和によって、探索仮説の各状態における各時刻のエントロピーを算出する。そして、音声認識装置は、信頼度算出手段によって、エントロピー算出手段で算出したエントロピーにエントロピーの評価する幅を示す定数を乗算し、１から減算することで、エントロピーが増大した場合には音響スコアの重み付けを変更する基準となる信頼度が小さくなるように算出する。そして、音声認識装置は、音響スコア重み付け変更手段によって、信頼度算出手段で算出された信頼度に基づいて、音響スコアの重み付けを変更する。そして、音声認識装置は、探索繰り返し実行手段によって、言語スコアと、音響スコア重み付け変更手段によって重み付けが変更された音響スコアとの累積が最大となる探索仮説を認識結果として出力する。

請求項３に記載の音声認識装置は、入力された入力音声を、予め蓄積した音響モデルと言語モデルとを用いて音声認識する音声認識装置において、音響特徴量算出手段と、探索繰り返し実行手段と、エントロピー算出手段と、信頼度算出手段と、音響スコア重み付け変更手段と、を備える構成とした。

かかる構成によれば、音声認識装置は、音響特徴量算出手段によって、入力音声を音声認識する候補となる音素の音素列に対して、音素列の各音素を探索する探索経路となる各時刻の探索仮説において、当該探索仮説中の音素をモデル化した音素モデルの各状態に対応付けられる入力音声の音響特徴量を算出する。また、音声認識装置は、探索繰り返し実行手段によって、言語モデルを用いて算出した言語スコアにより探索仮説の候補を伸張し、音響特徴量および音響モデルを用いて、伸張された探索仮説の候補の音響スコアを算出し、言語スコアおよび音響スコアの累積が最大となる探索仮説を認識結果として出力する。続いて、音声認識装置は、エントロピー算出手段によって、探索繰り返し実行手段で算出された音響スコアおよび言語スコアを累積した探索スコアより求められる探索仮説の事後確率と、事後確率の自然対数とを乗算した積の総和によって、探索仮説の各状態におけるある時刻のエントロピーと、時刻から所定時間前のエントロピーとの差分を算出する。そして、音声認識装置は、信頼度算出手段によって、エントロピー算出手段で算出したエントロピーにエントロピーの評価する幅を示す定数を乗算し、指数化することで、エントロピーが増大した場合には音響スコアの重み付けを変更する基準となる信頼度が小さくなるように算出する。そして、音声認識装置は、音響スコア重み付け変更手段によって、この信頼度算出手段で算出された信頼度に基づいて、音響スコアの重み付けを変更する。そして、音声認識装置は、探索繰り返し実行手段によって、言語スコアと、音響スコア重み付け変更手段によって重み付けが変更された音響スコアとの累積が最大となる探索仮説を認識結果として出力する。

請求項４に記載の音声認識装置は、入力された入力音声を、予め蓄積した音響モデルと言語モデルとを用いて音声認識する音声認識装置において、音響特徴量算出手段と、探索繰り返し実行手段と、エントロピー算出手段と、信頼度算出手段と、音響スコア重み付け変更手段と、を備える構成とした。

かかる構成によれば、音声認識装置は、音響特徴量算出手段によって、入力音声を音声認識する候補となる音素の音素列に対して、音素列の各音素を探索する探索経路となる各時刻の探索仮説において、当該探索仮説中の音素をモデル化した音素モデルの各状態に対応付けられる入力音声の音響特徴量を算出する。また、音声認識装置は、探索繰り返し実行手段によって、言語モデルを用いて算出した言語スコアにより探索仮説の候補を伸張し、音響特徴量および音響モデルを用いて、伸張された探索仮説の候補の音響スコアを算出し、言語スコアおよび音響スコアの累積が最大となる探索仮説を認識結果として出力する。続いて、音声認識装置は、エントロピー算出手段によって、探索繰り返し実行手段で算出された音響スコアおよび言語スコアを累積した探索スコアより求められる探索仮説の事後確率と、事後確率の自然対数とを乗算した積の総和によって、探索仮説の各状態におけるある時刻のエントロピーと、時刻から所定時間前のエントロピーとの差分を算出する。そして、音声認識装置は、信頼度算出手段によって、エントロピー算出手段で算出したエントロピーにエントロピーの評価する幅を示す定数を乗算し、１から減算することで、エントロピーが増大した場合には音響スコアの重み付けを変更する基準となる信頼度が小さくなるように算出する。そして、音声認識装置は、音響スコア重み付け変更手段によって、この信頼度算出手段で算出された信頼度に基づいて、音響スコアの重み付けを変更する。そして、音声認識装置は、探索繰り返し実行手段によって、言語スコアと、音響スコア重み付け変更手段によって重み付けが変更された音響スコアとの累積が最大となる探索仮説を認識結果として出力する。

請求項５に記載の音声認識装置は、入力された入力音声を、予め蓄積した蓄積音声の音響特徴量の出力確率分布を混合正規分布モデルで表現した音響モデルと言語モデルとを用いて音声認識する音声認識装置において、音響特徴量算出手段と、探索繰り返し実行手段、エントロピー算出手段と、信頼度算出手段と、重み付け変更手段と、を備える構成とした。

かかる構成によれば、音声認識装置は、音響特徴量算出手段によって、入力音声を音声認識する候補となる音素の音素列に対して、音素列の各音素を探索する探索経路となる各時刻の探索仮説において、当該探索仮説中の音素をモデル化した音素モデルの各状態に対応付けられる入力音声の音響特徴量を算出する。また、音声認識装置は、探索繰り返し実行手段によって、言語モデルを用いて算出した言語スコアにより探索仮説の候補を伸張し、音響特徴量および音響モデルを用いて、伸張された探索仮説の候補の音響スコアを算出し、言語スコアおよび音響スコアの累積が最大となる探索仮説を認識結果として出力する。続いて、音声認識装置は、エントロピー算出手段によって、探索繰り返し実行手段で算出された音響スコアおよび言語スコアを累積した探索スコアより求められる探索仮説の事後確率と、事後確率の自然対数とを乗算した積の総和によって、探索仮説の各状態におけるある時刻のエントロピーと、時刻から所定時間前のエントロピーとの差分を算出する。そして、音声認識装置は、信頼度算出手段によって、このエントロピー算出手段で算出したエントロピーにエントロピーの評価する幅を示す定数を乗算し、指数化することで、エントロピーが増大した場合には各時刻における音響特徴量の次元ごとの重み付けを変更する基準となる信頼度が小さくなるように算出する。そして、音声認識装置は、重み付け変更手段によって、信頼度算出手段で算出された信頼度に基づいて、音響特徴量の次元ごとの重み付けを変更する。そして、音声認識装置は、探索仮説評価手段によって、重み付け変更手段によって重み付けが変更された音響特徴量と、音響モデルとを用いて、伸張された探索仮説の候補の音響スコアを算出する。

請求項６に記載の音声認識装置は、請求項１から５のいずれか一項に記載の音声認識装置において、エントロピー算出手段が、クラスタリング手段と、エントロピー代表点算出手段と、を備える構成とした。

かかる構成によれば、音声認識装置は、クラスタリング手段によって、探索仮説における各状態をクラスタリングし、エントロピー代表点算出手段によって、クラスタリング手段でクラスタリングしたクラスタの代表点におけるエントロピーを算出する。

請求項７に記載の音声認識装置プログラムは、入力された入力音声を、予め蓄積した音響モデルと言語モデルとを用いて音声認識するために、コンピュータを、音響特徴量算出手段、探索繰り返し実行手段、エントロピー算出手段、信頼度算出手段、音響スコア重み付け変更手段、として機能させる構成とした。

かかる構成によれば、音声認識プログラムは、音響特徴量算出手段によって、入力音声を音声認識する候補となる音素の音素列に対して、音素列の各音素を探索する探索経路となる各時刻の探索仮説において、当該探索仮説中の音素をモデル化した音素モデルの各状態に対応付けられる入力音声の音響特徴量を算出し、探索繰り返し実行手段によって、言語モデルを用いて算出した言語スコアにより探索仮説の候補を伸張し、音響特徴量および音響モデルを用いて、伸張された探索仮説の候補の音響スコアを算出し、言語スコアおよび音響スコアの累積が最大となる探索仮説を認識結果として出力し、エントロピー算出手段によって、音響特徴量算出手段で算出された音響特徴量から求められる探索仮説中の音素モデルの各状態の事後確率と、事後確率の自然対数とを乗算した積の総和によって、探索仮説の各状態における各時刻のエントロピーを算出する。そして、音声認識プログラムは、信頼度算出手段によって、エントロピー算出手段で算出したエントロピーにエントロピーの評価する幅を示す定数を乗算し、指数化することで、エントロピーが増大した場合には音響スコアの重み付けを変更する基準となる信頼度が小さくなるように算出し、音響スコア重み付け変更手段によって、信頼度算出手段で算出された信頼度に基づいて、音響スコアの重み付けを変更する。そして、音声認識プログラムは、探索繰り返し実行手段によって、言語スコアと、音響スコア重み付け変更手段によって重み付けが変更された音響スコアとの累積が最大となる探索仮説を認識結果として出力する。

請求項１、２、７に記載の発明によれば、算出したエントロピーに基づいて、音響スコアの重み付けを変更しているので、自由発話中の音素の脱落や訛り等の発声変形等の背景雑音以外の要因による信頼度の低下に対応することができ、探索仮説間の尤度分布を考慮し、音声認識する際の認識精度を維持することができる。

請求項３、４に記載の発明によれば、ある時刻のエントロピーと所定時間前のエントロピーとの差分に基づいて、音響スコアの重み付けを変更しているので、発声変形等の背景雑音以外の要因による信頼度の低下に対応することができ、探索仮説間の尤度分布を考慮し、音声認識する際の認識精度を維持することができる。

請求項５に記載の発明によれば、音響特徴量の次元ごとの、ある時刻におけるエントロピーと所定時間前におけるエントロピーとの差分に基づいて、音響特徴量の各次元の重み付けを変更しているので、発声変形等の背景雑音以外の要因による信頼度の低下に対応することができ、探索仮説間の尤度分布を考慮し、音声認識する際の認識精度を維持することができる。

請求項６に記載の発明によれば、クラスタリングすることで、似通った探索仮説の中で弁別する重要性の低いものについて、クラスタリングしたクラスタの代表点におけるエントロピーを算出することで、似通った探索仮説が多数存在することに起因する音響スコアの重みの低下を防止することができ、音声認識する際の認識精度を維持することができる。

次に、本発明の実施形態について、適宜、図面を参照しながら詳細に説明する。
（音声認識装置（第一実施形態）の構成）
図１は、音声認識装置（第一実施形態）のブロック図である。この図１に示すように、音声認識装置１は、入力音声に、背景雑音が重畳されたり、自由発話等が含まれたりした場合であっても、当該入力音声の音声認識を行って、認識精度を維持した認識結果を出力するもので、特徴ベクトル算出手段（音響特徴量算出手段）３と、音響モデル蓄積手段５と、言語モデル蓄積手段７と、探索繰り返し実行手段９と、エントロピー算出手段１１と、信頼度算出手段１３と、音響スコア重み付け変更手段１５とを備えている。

この音声認識装置１に入力される入力音声は、任意時間の長さを持つもので、実時間で発声されたものであってもよいし、予め蓄積（録音）されたものであってもよい。なお、入力音声が連続して入力されている限り、当該装置１は入力音声の音声認識の処理を実行し、所定時間以上（例えば、１０秒以上）入力がなかった場合（途切れた場合）、音声認識の処理を終了し、認識結果を出力する。

特徴ベクトル算出手段３は、入力音声の各時刻（ｔ）において、当該入力音声を音声認識する際の候補（音素、単語）となる探索仮説における各状態（ノード）に対応付けられる入力音声の音響特徴量を算出し、算出した音響特徴量を、特徴ベクトルとして出力するものである。

探索仮説は、最終的な認識結果を導き出すための認識仮説とも言え、具体的には、音素をモデル化した複数の音素モデルによって構成されている。
また、各状態は、探索仮説の候補を指し、ある時刻において、探索仮説の候補の中で不適当な候補が削除された後（枝刈り後）、適当な候補が生き残った状態を指している。

音響特徴量は、入力音声の音響的な特徴量、例えば、周波数、音圧等を指している。
特徴ベクトルは、音響特徴量をベクトルの成分とする共に、当該特徴量の個数を次元数とした、複数次元のベクトルである。

音響モデル蓄積手段５は、複数の話者が発声した参照音声を用いて作成した音響モデルを蓄積するものであって、一般的なハードディスクやメモリ等によって構成されている。
言語モデル蓄積手段７は、単語の接続確率の統計量を用いた言語モデルを蓄積するものであって、一般的なハードディスクやメモリ等によって構成されている。

探索繰り返し実行手段９は、音響モデル蓄積手段５に蓄積されている音響モデルと、言語モデル蓄積手段７に蓄積されている言語モデルとを用い、探索アルゴリズムに従って、探索仮説の候補の伸張と評価とを繰り返し実行するもので、探索仮説伸張手段９ａと、探索仮説評価手段９ｂとを備えている。この探索繰り返し実行手段９では、探索仮説伸張手段９ａ及び探索仮説評価手段９ｂが探索仮説の伸張と評価とを実行した後、最終的に言語スコアと音響スコアとを累積した探索スコアが最大となるものを、認識結果として出力する。

探索仮説伸張手段９ａは、言語モデル蓄積手段７に蓄積されている言語モデルを用いて、探索仮説の候補を伸張するもの、すなわち、上位ノードから複数の下位ノードに分岐する際に、どの下位ノードに探索仮説の候補を移行させるのかを、決定するものである。つまり、この探索仮説伸張手段９ａは、ある時刻（時刻ｔ）における探索仮説の候補（アクティブな探索仮説）から、所定時間後の次の探索仮説の候補まで、入力音声の入力がなくなるまで、逐次、探索仮説を伸張していくものである。

探索仮説評価手段９ｂは、探索仮説伸張手段９ａで伸張された探索仮説の候補を、特徴ベクトル算出手段３で算出された特徴ベクトルと、音響モデル蓄積手段５に蓄積されている音響モデルとを用いて、評価するものである。この探索仮説評価手段９ｂによる評価は、音響スコアを基準にして行われる。なお、これら探索仮説伸張手段９ａ及び探索仮説評価手段９ｂの具体的な動作は、音響スコアの重み付けを変更する一連の流れの中で説明する。

エントロピー算出手段１１は、探索仮説評価手段９ｂで評価された探索仮説の候補のノードに対応付けられる音響特徴量（特徴ベクトル）の出力確率である音響スコアから、各ノードにおける各時刻（時刻ｔ）のエントロピーを算出するもので、クラスタリング手段１１ａを備えている。この場合、エントロピー算出手段１１は、後記するように（後記する数式（２））、ある時刻における音響スコアと、この音響スコアの自然対数とを乗算した積の総和によって、エントロピーを算出している。

また、このエントロピー算出手段１１は、探索仮説評価手段９ｂで評価された探索仮説の候補のノードに対応付けられる音響特徴量（特徴ベクトル）の出力確率である音響スコアと言語モデルを用いて得られた言語スコアとを累積した探索仮説の探索スコア（累積スコア）から、ある時刻におけるエントロピーと、この時刻から所定時間前のエントロピーとの差分を算出することも可能である。この場合、エントロピー算出手段１１は、後記するように（後記する数式（６））、ある時刻における累積スコアと、この累積スコアの自然対数とを乗算した積の総和によって、エントロピーを算出している。

クラスタリング手段１１ａは、探索繰り返し実行手段９で伸張された探索仮説の候補をクラスタリングするものである。このクラスタリングは、似通った探索仮説の候補、例えば、当該探索仮説の候補がｌｅｆｔ−ｔｏ−ｒｉｇｈｔの３状態ＨＭＭで表現された音素ＨＭＭの各状態であり、これらを弁別する重要性が低い場合に行われる。そして、この場合、エントロピー算出手段１１は、クラスタリングしたクラスタの代表点におけるエントロピーを算出する。

信頼度算出手段１３は、エントロピー算出手段１１で算出されたエントロピーから、音響スコアの重み付けを変更する基準となる信頼度を算出するものである。この音響スコアの重み付けは、音響モデルを用いて求められる音響スコアと言語モデルを用いて求められる言語スコアとの相対関係を示すものである。この音響スコアの重み付けは、具体的には１．０程度の値を取り、この値が高いほど、時刻ｔにおける音響スコアは正確である（認識精度の向上に寄与できる）こととなる。また、音響スコアの重み付けが高くなると言うことは、入力音声に背景雑音や発声変形が含まれていないことを示すことにもなる。ちなみに、一般的な音声認識では、言語スコアに重み付けを行うことが多く、この重み付けの値は、自然対数を用いた場合８〜１４である。

この信頼度算出手段１３は、後記するように（後記する数式（８））、エントロピー算出手段１１で算出されたエントロピーに、当該エントロピーを評価する幅（信頼度が取り得る幅Ａ_ｅ）を設定した定数を乗算し、指数化することで信頼度を算出している。このエントロピーを評価する幅（信頼度が取り得る幅Ａ_ｅ）は、ある時刻におけるエントロピーに対し、エントロピーが大きいのであれば、入力音声によって得られる情報量が小さい（背景雑音等の余分な音声が含まれている）区間であるとして、この区間の信頼度が小さくなるように設定されたものである。逆に、このエントロピーを評価する幅は、エントロピーが小さいのであれば、入力音声によって得られる情報量が大きい（背景雑音等の余分な音声が含まれていない）区間であるとして、この区間の信頼度が大きくなるように設定されたものである。

また、この信頼度算出手段１３は、ある時刻におけるエントロピーと、この時刻から所定時間前のエントロピーとの差分から、音響スコアの重み付けを変更する基準となる信頼度を算出することも可能である。

信頼度算出手段１３は、後記するように（後記する数式（９）及び数式（１０））、エントロピー算出手段１１で算出されたエントロピーに、当該エントロピーを評価する幅（信頼度が取り得る幅Ａ_ｓ）を設定した定数を乗算し、基準となる“１”から減算すること（数式（９）参照）で信頼度を算出している。そして、ある時刻におけるエントロピーと、この時刻から所定時間前のエントロピーとの差分をＩ_ｔ（数式（１０）参照）で定義している。

音響スコア重み付け変更手段１５は、信頼度算出手段１３で算出された信頼度に基づいて、探索仮説評価手段９ｂで求められた音響スコアの重み付けを変更するものである。この音響スコアの重み付けは、信頼度を、音響スコアを算出する際の出力確率の指数として用いることで行われる。

なお、これら信頼度算出手段１３による信頼度の算出と、算出した信頼度を、音響スコア重み付け変更手段１５により音響スコアの重み付けに用いることとの具体的な説明は、後記する「音響スコアの重み付けを変更する一連の流れ」の中で行うこととする。

この音声認識装置１によれば、入力音声に含まれる背景雑音や発声変形等に起因して、算出される音響スコアが正確でなくなる場合に、音響スコア重み付け変更手段１５によって、当該音響スコアの重み付けを減少させて、相対的に言語スコアを増加させることで、音声認識する際の認識精度を維持することができる。

また、この音声認識装置１によれば、音響スコア重み付け変更手段１５によって、ある時刻のエントロピーと所定時間前のエントロピーとの差分に基づいて、音響スコアの重み付けを変更しているので、発声変形等の背景雑音以外の要因による信頼度の低下に対応することができ、探索仮説間の尤度分布を考慮し、音声認識する際の認識精度を維持することができる。

さらに、この音声認識装置１によれば、エントロピー算出手段１１によって、探索仮説の候補をクラスタリングすることで、似通った探索仮説の候補の中で弁別する重要性の低いものについて、クラスタリングしたクラスタの代表点におけるエントロピーを算出することで、似通った探索仮説が多数存在することに起因する音響スコアの重みの低下を防止することができ、音声認識する際の認識精度を維持することができる。

（音響スコアの重み付けを変更する一連の流れ）
これより、音声認識装置１によって、音響スコアの重み付けを変更する一連の流れを、数式を交えて説明する。
音声認識装置１は、入力音声が入力されると、特徴ベクトル算出手段３で特徴ベクトルを算出する。続いて、音声認識装置１は、探索繰り返し実行手段９の探索仮説伸張手段９ａ及び探索仮説評価手段９ｂによって、探索アルゴリズムを実行し、当該アルゴリズムに従って、探索仮説の候補を伸張して、伸張された探索仮説の候補と特徴ベクトル算出手段３で算出された特徴ベクトルとにより、探索仮説の候補の音響スコアを算出する。ここまでは、一般的な音声認識の手法と同じであり、一般的な音声認識においては、時刻ｔにおける探索仮説中の状態ｋの累積スコア（ビタビスコア）α_ｋ（ｔ）は次に示す数式（１）から求められる。なお、このα_ｋ（ｔ）は、この累積スコアは、言語スコアと音響スコアとの合計のスコアである。

この数式（１）において、Λ（ｔ−１）は、時刻ｔ−１において評価され、探索アルゴリズムによる適当な枝刈り後（探索仮説の候補の中で不適当なものが削除された後）に生き残った状態の集合であり、ａ_ｉｋは状態ｉから状態ｋへの遷移確率（言語モデルによるもの）、λ_ｋは状態ｋにおける特徴ベクトルｘ_ｔの観測モデルであり、Ｐ（ｘ_ｔ｜λ_ｋ）は観測モデルλ_ｋでの特徴ベクトルｘ_ｔの観測確率（出力確率、すなわち、音響スコア）である。ここまでは、一般的な音声認識における探索仮説による候補の探索と同様の手順である。

そして、音声認識装置１では、エントロピー算出手段１１、信頼度算出手段１３及び音響スコア重み付け変更手段１５によって、Ｐ（ｘ_ｔ｜λ_ｋ）（λ_ｋ∈Λ（ｔ）、Λ（ｔ）は時刻ｔに評価すべき探索仮説における状態）に重み付けを変更しながら、探索繰り返し実行手段９によって、探索を行う。

ここで、エントロピー算出手段１１では、特徴ベクトル算出手段３で特徴ベクトル（音響特徴量）が算出された際のエントロピー（Ｈ_ｔ）を算出している。ここで、Ｈ_ｔの算出方法として、第一のエントロピーＨ_ｔ ^（λ）と第二のエントロピーＨ_ｔ ^（α）の２通りの算出方法について説明する。第一のエントロピーＨ_ｔ ^（λ）は、λ_ｋからの出力確率に基づいて、次に示す数式（２）から求められる。

この数式（２）において、Ｐ（λ _ｋ｜ｘ _ｔ）は特徴ベクトルｘｔが得られたときのλｋ∈Λ（ｔ）の事後確率であり、次に示す数式（３）から求められる。

ただし、この事後確率の計算においては、数式（４）及び数式（５）であることを仮定している。

なお、数式（５）において、Ｎ_ｔは探索仮説集合Λ（ｔ）中のλ_ｋの総数である。
また、第二のエントロピーＨ_ｔ ^（α）は、探索仮説の累積スコアα_ｋ（ｔ）＝Ｐ（λ_ｋ｜ｘ_１，・・・，ｘ_ｔ）から算出し、次に示す数式（６）から求められる。

この数式（６）において、Ｐ（λ_ｋ｜ｘ_１，・・・，ｘ_ｔ）は、累積スコアα_ｋ（ｔ）の事後確率であり、次に示す数式（７）から求められる。

そして、音声認識装置１は、信頼度算出手段１３によって、数式（２）及び数式（６）によって求められるエントロピーＨ_ｔに基づいて、音響スコアの信頼度を定義し、音響スコア重み付け変更手段１５によって、定義した信頼度をそのまま、音響スコアの重みとして用いる。

音響スコアの信頼度は、エントロピーＨ_ｔが増大した場合に、得られる情報量が小さくなるので、これに伴って小さくする必要がある。このため、得られる情報量が小さくなる部分（時間区間）では当該信頼度γ_ｔを小さくするように、当該信頼度γ_ｔが次に示す数式（８）又は数式（９）から求められる。

なお、数式（８）において、Ａ_ｅは信頼度の取り得る幅を決定した定数であり、この数式（８）により、信頼度γ_ｔは、エントロピーＨ_ｔが減少した部分、すなわち、特定の状態において顕著な尤度が得られる部分（音響スコアが正確であるといえる時間区間）では、“１”に近づき、エントロピーＨ_ｔが増大した部分（音響スコアが正確であるといえない時間区間）では、“０”に近づく。

また、数式（９）において、Ａ_ｓも同様に信頼度が取り得る幅を決定した定数であり、Ｉ_ｔは、次に示す数式（１０）から求められる。

また、信頼度は、信頼度算出手段１３により、特徴ベクトルｘ_ｔが得られる前後のエントロピーの差分である情報量で定義される。ここで、数式（１０）におけるＨ_０ｔは、特徴ベクトルｘ_ｔを観測する前のエントロピーであり、Ｈ_ｔ ^（γ）を用いた場合には、数式（４）で仮定した条件から、次に示す数式（１１）及び数式（１２）から求められる。

さらに、第二のエントロピーＨ_ｔ ^（α）を用いた場合には、数式（１）で仮定した条件から、次に示す数式（１３）、数式（１４）及び数式（１５）から求められる。

そして、音声認識装置１は、音響スコア重み付け変更手段１５によって、Ｉ（ｔ）を用いた音響スコアの重み付けを行って、数式（１）に示した探索仮説の評価式を、次に示す数式（１６）を用いて再評価する。

その後、音声認識装置１は、探索繰り返し実行手段９によって、再度探索アルゴリズムによる探索仮説の枝刈りと探索仮説の伸張を行った後、特徴ベクトルｘ_ｔ＋１での探索仮説の評価を同様に行っていく。

なお、音声認識装置１では、信頼度算出手段１３によって、数式（８）又は数式（９）を用いて、信頼度、すなわち、音響スコアの重みを得ており、この音響スコアの重みは、特定の状態の事後確率が際立って大きい場合に大きな重みと言えることとなる。そして、この音響スコアの重みは、探索仮説における末端の全ての状態を対象として得られたものであり、全ての状態間の弁別の重要性を考慮したものではない。

このため、この音声認識装置１では、似通った特徴ベクトルの統計量を学習した状態が探索仮説中に多数存在すること（同じような探索仮説が多数存在すること）に起因して、音響スコアの重みが低下してしまう場合が生じる。例えば、前記したｌｅｆｔ−ｔｏ−ｒｉｇｈｔの３状態ＨＭＭで表現された音素ＨＭＭの各状態が挙げられる。

音声認識装置１において、認識精度を向上させるために、これら３状態ＨＭＭで表現された音素ＨＭＭの３状態を弁別する重要性は低い。つまり、特徴ベクトルの変化が小さい定常的な音素では、これらの３状態を表現する特徴ベクトルが非常に似通ったものである場合がある。また、前後の音素環境を考慮したトライフォンＨＭＭでは、中心音素ごとに音響モデルの類似度が高くなる場合が想定される。

そこで、この音声認識装置１では、エントロピー算出手段１１のクラスタリング手段１１ａによって、ＨＭＭの内部状態、若しくは、中心音素等を基準に、クラスタリングしたθ_ｉ｛λ（θ_ｉ，０），・・・，λ（θ_ｉ，ｓ）｝を定義している。そして、このθ_ｉを用いて、数式（２）及び数式（６）を拡張する。

ここでは、この音声認識装置１が、エントロピー算出手段１１のクラスタリング手段１１ａによって、音素ＨＭＭ中に含まれる状態をクラスタとし、探索仮説中で、アクティブなＨＭＭ｛θ_ｉ∈Ｍ_ｔ｝（現時点で評価されている探索仮説中の候補）におけるエントロピーを算出する場合を例として説明を行う。

各音素ＨＭＭθ_ｉの事後確率ｐ⁻ _ｔ（θ_ｉ）は、次に示す数式（１７）及び数式（１８）から求められる。

この数式（１８）のλ^＾ _ｔ（θ_ｔ）は、各音素ＨＭＭθ_ｉの状態λ（θ_ｉ，ｓ）のうち最大の尤度が得られる状態である。この場合、数式（２）で求められるエントロピーは、次に示す数式（１９）から求められる。

（音声認識装置の動作）
次に、図２に示すフローチャートを参照して、音声認識装置１の動作を説明する（適宜、図１参照）。
まず、音声認識装置１は、入力音声が入力されると、初期仮説（無音モデルをアクティブ）を設定する（ステップＳ１）。続いて、音声認識装置１は、特徴ベクトル算出手段３によって、入力音声の特徴ベクトル（音響特徴量）を算出する（ステップＳ２）。

そして、音声認識装置１は、探索繰り返し実行手段９によって、音響モデル蓄積手段５で蓄積されている音響モデルを用いて音響スコアを算出する（ステップＳ３）。そして、音声認識装置１は、エントロピー算出手段１１によって、エントロピーを算出する（ステップＳ４）。

そして、音声認識装置１は、信頼度算出手段１３によって、エントロピー算出手段１１で算出したエントロピーに基づいて、信頼度を算出する（ステップＳ５）。さらに、音声認識装置１は、音響スコア重み付け変更手段１５によって、信頼度算出手段１３で算出した信頼度を音響スコアの指数として用いることで、当該音響スコアの重み付けを変更する（ステップＳ６）。

そして、音声認識装置１は、入力音声があるか否かを判定し（ステップＳ７）、入力音声があると判定した場合（ステップＳ７、Ｙｅｓ）には、探索繰り返し実行手段９の探索仮説評価手段９ｂによって、重み付けが変更された音響スコアを用いて、探索仮説の候補を評価し直し、探索繰り返し実行手段９の探索仮説伸張手段９ａによって、言語モデル蓄積手段７で蓄積されている言語モデルを用いて算出した言語スコアにより、探索仮説の候補を伸張して（ステップＳ８）、ステップＳ２に戻る。

また、音声認識装置１は、入力音声があると判定しなかった場合（ステップＳ７、Ｎｏ）には、探索繰り返し実行手段９の中で、音響スコアと言語スコアとを累積した探索スコアが最大となるものを、認識結果として出力する（ステップＳ９）。

（音声認識装置（第二実施形態）の構成）
図３は、音声認識装置（第二実施形態）のブロック図である。この図３に示すように、音声認識装置１Ａは、入力音声に、背景雑音が重畳されたり、自由発話等が含まれたりした場合であっても、当該入力音声の音声認識を行って、認識精度を維持した認識結果を出力するもので、特徴ベクトル算出手段３と、音響モデル蓄積手段５と、言語モデル蓄積手段７と、探索繰り返し実行手段９と、エントロピー算出手段１１Ａと、信頼度算出手段１３Ａと、音響特徴量重み付け変更手段（重み付け変更手段）１５Ａとを備えている。なお、図１に示した音声認識装置１と同様の構成については、同一の符号を付して、その説明を省略する。

エントロピー算出手段１１Ａは、混合正規分布モデルの重み付き混合和から求められる出力確率を最大値近似することによって、特徴ベクトル算出手段３で算出した音響特徴量の次元ごとの各時刻におけるエントロピーを算出するもので、クラスタリング手段１１ａを備えている。なお、このエントロピー算出手段１１Ａによる混合正規分布モデルの重み付き混合和から求められる出力確率を最大値近似とは、混合分布（後記する混合要素）を、最大値が得られる単一分布で近似することである。この場合、エントロピー算出手段１１Ａは、後記するように（後記する数式（２４））、ある時刻における混合要素の事後確率と、この混合要素の事後確率の自然対数とを乗算した積の総和によって、エントロピーを算出している。

また、このエントロピー算出手段１１Ａは、探索仮説評価手段９ｂで評価された探索仮説の候補のノードに対応付けられる音響特徴量（特徴ベクトル）の出力確率である音響スコアと言語モデルを用いて得られた言語スコアとを累積した探索仮説の探索スコア（累積スコア）から、ある時刻におけるエントロピーと、この時刻から所定時間前のエントロピーとの差分を算出することも可能である。なお、ここでは、このエントロピー算出手段１１Ａでは、エントロピー算出手段１１で探索スコアを算出する場合と同じように、算出している。

信頼度算出手段１３Ａは、エントロピー算出手段１１Ａで算出されたエントロピーから、音響特徴量の重み付けを変更する基準となる信頼度を算出するものである。この音響特徴量の重み付けは、音響特徴量の各次元間の相対関係を示すものである。この音響特徴量の重み付けは、各次元で重み付けを行わない場合には、１．０を取り、各次元で重み付けを行う場合には、この１．０を基準とした値を取る。そして、この値が高いほど、時刻ｔにおける音響特徴量の各次元の中で重要な次元である（認識精度の向上に寄与できる）こととなる。

この信頼度算出手段１３Ａは、後記するように（後記する数式（２５））、エントロピー算出手段１１Ａで算出されたエントロピーに、当該エントロピーを評価する幅（信頼度が取り得る幅Ｂ_ｅ）を設定した定数を乗算し、指数化することで信頼度を算出している。このエントロピーを評価する幅（信頼度が取り得る幅Ｂ_ｅ）は、ある時刻におけるエントロピーに対し、エントロピーが大きいのであれば、入力音声によって得られる情報量が小さい（背景雑音等の余分な音声が含まれている）区間であるとして、この区間の信頼度が小さくなるように設定されたものである。逆に、このエントロピーを評価する幅は、エントロピーが小さいのであれば、入力音声によって得られる情報量が大きい（背景雑音等の余分な音声が含まれていない）区間であるとして、この区間の信頼度が大きくなるように設定されたものである。

また、この信頼度算出手段１３Ａは、ある時刻におけるエントロピーと、この時刻から所定時間前のエントロピーとの差分から、音響特徴量の重み付けを変更する基準となる信頼度を算出することも可能である。

信頼度算出手段１３Ａは、後記するように（後記する数式（２６））、エントロピー算出手段１１Ａで算出されたエントロピーに、当該エントロピーを評価する幅（信頼度が取り得る幅Ｂ_ｓ）を設定した定数を乗算し、基準となる“１”から減算すること（数式（２６）参照）で信頼度を算出している。

音響特徴量重み付け変更手段１５Ａは、信頼度算出手段１３Ａで算出された信頼度に基づいて、特徴ベクトル算出手段３で求められた音響特徴量の各次元の重み付けを変更するものである。

この音声認識装置１Ａによれば、音響特徴量重み付け変更手段１５Ａによって、音響特徴量の次元ごとの各時刻におけるエントロピーに基づいて、音響特徴量の各次元の重み付けを変更しているので、発声変形等の背景雑音以外の要因による信頼度の低下に対応することができ、探索仮説間の尤度分布を考慮し、音声認識する際の認識精度を維持することができる。

また、音声認識装置１Ａによれば、音響特徴量の次元ごとの、ある時刻におけるエントロピーと所定時間前におけるエントロピーとの差分に基づいて、音響特徴量の各次元の重み付けを変更しているので、発声変形等の背景雑音以外の要因による信頼度の低下に対応することができ、探索仮説間の尤度分布を考慮し、音声認識する際の認識精度を維持することができる。

（音響特徴量の重み付けを変更する一連の流れ）
これより、音声認識装置１Ａによって、音響特徴量の各次元の重み付けを変更する一連の流れを、数式を交えて説明する。
まず、音声認識装置１Ａは、特徴ベクトル算出手段３によって算出した特徴ベクトル、つまり、ある時刻ｔにおける音響特徴量ｘ_ｔのｄ次元目の特徴量をｘ_ｔ ^ｄとしたとき、探索仮説中のアクティブな各状態｛λ_ｉ∈Ｓ_ｔ｝の次元ｄごとの事後確率ｐ⁻ _ｔ（λ_ｉ，ｄ）を次に示す数式（２０）及び数式（２１）から求められる。

この数式（２１）において、ρ（λ_ｉ，ｍ）は、状態（混合正規分布）λ_ｉのｍ番目の混合要素（正規分布）であり、ω_{ρ（λｉ，ｍ）}は、ρ（λ_ｉ，ｍ）の混合重みであり、ρ^＾ _ｔ（λ_ｉ）はλ_ｉ中の最大の尤度が得られる混合要素ρ（λ_ｉ，ｍ^＾）である。そして、このときのρ^＾ _ｔ（λ_ｉ）の混合重みはω_{ρ＾ｔ（λｉ）}＝ω_{ρ（λｉ，ｍ＾）}である。この音声認識装置１Ａでは、以上のように混合重みを求めている。

ここで、この音声認識装置１Ａによる混合重みの求め方と、従来法（ＩＣＡＳＳＰ２００６）による混合重みの求め方との違いを明確にするために、この従来法について説明する。

従来法（ＩＣＡＳＳＰ２００６）では、混合重みは次に示す数式（２２）及び数式（２３）から求められる。

音声認識装置１Ａでは、従来法の混合要素の尤度和演算を最大値近似している点が異なっている。音声認識装置１Ａでは、この最大値近似により、音響特徴量の各次元において、次元ごとに独立に算出した尤度を用いて重み付け尤度を得る際に、次元間の独立性が保たれるため、算出された尤度の精度が向上することとなる。

次に、数式（２０）によって得られた事後確率ｐ⁻ _ｔ（λ_ｉ，ｄ）を用いて、数式（２）に対応するｄ次のエントロピーＨ_ｔ ^（λ）（ｄ）を次に示す数式（２４）から求める。

さらに、ここで、数式（６）に対応するｄ次のエントロピーＨ_ｔ ^（α）（ｄ）も同様にρ^＾ _ｔ（λ_ｉ）を用いて算出可能であり、音響特徴量を観測することにより得られる情報量Ｉ_ｔ（ｄ）も同様に算出可能である。

さらに、音声認識装置１Ａでは、信頼度算出手段１３Ａによって、次元ごとの信頼度ψ_ｔ（ｄ）も次に示す数式（２５）及び数式（２６）から求められる。

なお、数式（２５）において、Ｂｅ及びＢｓは、信頼度が取り得る幅を決めるための定数である。そして、音声認識装置１Ａでは、この信頼度を用いて、状態λｉのＤ次元の音響特徴量の次元重み付き音響スコアを次に示す数式（２７）から求める。

なお、この音声認識装置１Ａでは、入力音声全体で求めた音響スコアの重み付けの平均値であるγ⁻が従来法（γ⁻＝１．０）と異なるため、言語スコアのおもみである言語重みや、探索仮説の候補を探索する際の探索範囲である探索ビーム等の探索パラメータの最適化が必要になる場合が生じる。このような場合、音声認識装置１Ａでは、入力音声全体で求めた音響スコアの重み付けの平均値であるγ⁻を用いて、音響スコアの重み付けを、次に示す数式（２８）及び数式（２９）から求める。

この数式（２９）により、平均値が１．０になるように補正したγ^´ _ｔを用いて重み付けを行うことで、従来通りの探索パラメータで音声認識することができる。

（音声認識装置の動作）
次に、図４に示すフローチャートを参照して、音声認識装置１Ａの動作を説明する（適宜、図３参照）。
まず、音声認識装置１Ａは、入力音声が入力されると、初期仮説（無音モデルをアクティブ）を設定する（ステップＳ１１）。続いて、音声認識装置１Ａは、特徴ベクトル算出手段３によって、入力音声の特徴ベクトル（音響特徴量）を算出する（ステップＳ１２）。

そして、音声認識装置１Ａは、探索繰り返し実行手段９によって、音響モデル蓄積手段５で蓄積されている音響モデルを用いて音響スコアを算出する（ステップＳ１３）。そして、音声認識装置１Ａは、エントロピー算出手段１１Ａによって、エントロピーを算出する（ステップＳ１４）。

そして、音声認識装置１Ａは、信頼度算出手段１３Ａによって、エントロピー算出手段１１Ａで算出したエントロピーに基づいて、信頼度を算出する（ステップＳ１５）。さらに、音声認識装置１Ａは、音響特徴量重み付け変更手段１５Ａによって、信頼度算出手段１３Ａで算出した信頼度を音響特徴量の指数として用いることで、当該音響特徴量の次元ごとの重み付けを変更する（ステップＳ１６）。

そして、音声認識装置１Ａは、入力音声があるか否かを判定し（ステップＳ１７）、入力音声があると判定した場合（ステップＳ１７、Ｙｅｓ）には、探索繰り返し実行手段９の探索仮説評価手段９ｂによって、重み付けが変更された音響特徴量を用いて、探索仮説の候補を評価し直し、探索繰り返し実行手段９の探索仮説伸張手段９ａによって、言語モデル蓄積手段７で蓄積されている言語モデルを用いて算出した言語スコアにより、探索仮説の候補を伸張して（ステップＳ１８）、ステップＳ１２に戻る。

また、音声認識装置１Ａは、入力音声があると判定しなかった場合（ステップＳ１７、Ｎｏ）には、探索繰り返し実行手段９の中で、音響スコアと言語スコアとを累積した探索スコアが最大となるものを、認識結果として出力する（ステップＳ１９）。

以上、本発明の実施形態について説明したが、本発明は前記実施形態には限定されない。例えば、本実施形態では、音声認識装置１及び音声認識装置１Ａとして説明したが、当該装置１及び当該装置１Ａの各構成の処理を、汎用的また特殊なコンピュータ言語で記述した音声認識プログラムとして構成することも可能である。この場合、同様の効果が得られる。

また、音声認識装置１及び音声認識装置１Ａで用いた数式のバリエーションとして、数式（１）及び数式（１３）で示したＰ（ｘ_ｔ｜λ_ｋ）を、Ｐ（λ_ｋ｜ｘ_ｔ）に置き換えることも可能である。この置き換えたものを次の数式（３０）及び数式（３１）に示す。

つまり、このＰ（λ_ｋ｜ｘ_ｔ）は特徴ベクトルｘ_ｔが得られた際の観測モデルλ_ｋの観測確率である。そして、このＰ（λ_ｋ｜ｘ_ｔ）は、前記した数式（３）から求めることが可能である。

本発明の実施形態に係る音声認識装置（第一実施形態）のブロック図である。図１に示した音声認識装置（第一実施形態）の動作を示したフローチャートである。本発明の実施形態に係る音声認識装置（第二実施形態）のブロック図である。図３に示した音声認識装置（第二実施形態）の動作を示したフローチャートである。

符号の説明

１、１Ａ音声認識装置
３特徴ベクトル算出手段
５音響モデル蓄積手段
７言語モデル蓄積手段
９探索繰り返し実行手段
９ａ探索仮説伸張手段
９ｂ探索仮説評価手段
１１、１１Ａエントロピー算出手段
１１ａクラスタリング手段
１３、１３Ａ信頼度算出手段
１５音響スコア重み付け変更手段
１５Ａ音響特徴量重み付け変更手段

Claims

入力された入力音声を、予め蓄積した音響モデルと言語モデルとを用いて音声認識する音声認識装置において、
前記入力音声を音声認識する候補となる音素の音素列に対して、前記音素列の各音素を探索する探索経路となる各時刻の探索仮説において、当該探索仮説中の前記音素をモデル化した音素モデルの各状態に対応付けられる入力音声の音響特徴量を算出する音響特徴量算出手段と、
前記言語モデルを用いて算出した言語スコアにより前記探索仮説の候補を伸張し、前記音響特徴量および前記音響モデルを用いて、前記伸張された前記探索仮説の候補の音響スコアを算出し、前記言語スコアおよび前記音響スコアの累積が最大となる前記探索仮説を認識結果として出力する探索繰り返し実行手段と、
前記音響特徴量算出手段で算出された音響特徴量から求められる探索仮説中の音素モデルの各状態の事後確率と、当該事後確率の自然対数とを乗算した積の総和によって、前記探索仮説の各状態における各時刻のエントロピーを算出するエントロピー算出手段と、
このエントロピー算出手段で算出したエントロピーに当該エントロピーの評価する幅を示す定数を乗算し、指数化することで、当該エントロピーが増大した場合には前記音響スコアの重み付けを変更する基準となる信頼度が小さくなるように算出する信頼度算出手段と、
この信頼度算出手段で算出された信頼度に基づいて、前記音響スコアの重み付けを変更する音響スコア重み付け変更手段と、
を備え、
前記探索繰り返し実行手段は、前記言語スコアと、前記音響スコア重み付け変更手段によって重み付けが変更された前記音響スコアとの累積が最大となる前記探索仮説を前記認識結果として出力することを特徴とする音声認識装置。
入力された入力音声を、予め蓄積した音響モデルと言語モデルとを用いて音声認識する音声認識装置において、
前記入力音声を音声認識する候補となる音素の音素列に対して、前記音素列の各音素を探索する探索経路となる各時刻の探索仮説において、当該探索仮説中の前記音素をモデル化した音素モデルの各状態に対応付けられる入力音声の音響特徴量を算出する音響特徴量算出手段と、
前記言語モデルを用いて算出した言語スコアにより前記探索仮説の候補を伸張し、前記音響特徴量および前記音響モデルを用いて、前記伸張された前記探索仮説の候補の音響スコアを算出し、前記言語スコアおよび前記音響スコアの累積が最大となる前記探索仮説を認識結果として出力する探索繰り返し実行手段と、
前記音響特徴量算出手段で算出された音響特徴量から求められる探索仮説中の音素モデルの各状態の事後確率と、当該事後確率の自然対数とを乗算した積の総和によって、前記探索仮説の各状態における各時刻のエントロピーを算出するエントロピー算出手段と、
このエントロピー算出手段で算出したエントロピーに当該エントロピーの評価する幅を示す定数を乗算し、１から減算することで、当該エントロピーが増大した場合には前記音響スコアの重み付けを変更する基準となる信頼度が小さくなるように算出する信頼度算出手段と、
この信頼度算出手段で算出された信頼度に基づいて、前記音響スコアの重み付けを変更する音響スコア重み付け変更手段と、
を備え、
前記探索繰り返し実行手段は、前記言語スコアと、前記音響スコア重み付け変更手段によって重み付けが変更された前記音響スコアとの累積が最大となる前記探索仮説を前記認識結果として出力することを特徴とする音声認識装置。
入力された入力音声を、予め蓄積した音響モデルと言語モデルとを用いて音声認識する音声認識装置において、
前記入力音声を音声認識する候補となる音素の音素列に対して、前記音素列の各音素を探索する探索経路となる各時刻の探索仮説において、当該探索仮説中の前記音素をモデル化した音素モデルの各状態に対応付けられる入力音声の音響特徴量を算出する音響特徴量算出手段と、
前記言語モデルを用いて算出した言語スコアにより前記探索仮説の候補を伸張し、前記音響特徴量および前記音響モデルを用いて、前記伸張された前記探索仮説の候補の音響スコアを算出し、前記言語スコアおよび前記音響スコアの累積が最大となる前記探索仮説を認識結果として出力する探索繰り返し実行手段と、
前記探索繰り返し実行手段で算出された音響スコアおよび言語スコアを累積した探索スコアより求められる探索仮説の事後確率と、当該事後確率の自然対数とを乗算した積の総和によって、前記探索仮説の各状態におけるある時刻のエントロピーと、前記時刻から所定時間前のエントロピーとの差分を算出するエントロピー算出手段と、
このエントロピー算出手段で算出したエントロピーに当該エントロピーの評価する幅を示す定数を乗算し、指数化することで、当該エントロピーが増大した場合には各時刻における前記音響特徴量の次元ごとの重み付けを変更する基準となる信頼度が小さくなるように算出する信頼度算出手段と、
この信頼度算出手段で算出された信頼度に基づいて、前記音響スコアの重み付けを変更する音響スコア重み付け変更手段と、
を備え、
前記探索繰り返し実行手段は、前記言語スコアと、前記音響スコア重み付け変更手段によって重み付けが変更された前記音響スコアとの累積が最大となる前記探索仮説を認識結果として出力することを特徴とする音声認識装置。
入力された入力音声を、予め蓄積した音響モデルと言語モデルとを用いて音声認識する音声認識装置において、
前記入力音声を音声認識する候補となる音素の音素列に対して、前記音素列の各音素を探索する探索経路となる各時刻の探索仮説において、当該探索仮説中の前記音素をモデル化した音素モデルの各状態に対応付けられる入力音声の音響特徴量を算出する音響特徴量算出手段と、
前記言語モデルを用いて算出した言語スコアにより前記探索仮説の候補を伸張し、前記音響特徴量および前記音響モデルを用いて、前記伸張された前記探索仮説の候補の音響スコアを算出し、前記言語スコアおよび前記音響スコアの累積が最大となる前記探索仮説を認識結果として出力する探索繰り返し実行手段と、
前記探索繰り返し実行手段で算出された音響スコアおよび言語スコアを累積した探索スコアより求められる探索仮説の事後確率と、当該事後確率の自然対数とを乗算した積の総和によって、前記探索仮説の各状態におけるある時刻のエントロピーと、前記時刻から所定時間前のエントロピーとの差分を算出するエントロピー算出手段と、
このエントロピー算出手段で算出したエントロピーに当該エントロピーの評価する幅を示す定数を乗算し、１から減算することで、当該エントロピーが増大した場合には前記音響スコアの重み付けを変更する基準となる信頼度が小さくなるように算出する信頼度算出手段と、
この信頼度算出手段で算出された信頼度に基づいて、前記音響スコアの重み付けを変更する音響スコア重み付け変更手段と、
を備え、
前記探索繰り返し実行手段は、前記言語スコアと、前記音響スコア重み付け変更手段によって重み付けが変更された前記音響スコアとの累積が最大となる前記探索仮説を認識結果として出力することを特徴とする音声認識装置。
入力された入力音声を、予め蓄積した蓄積音声の音響特徴量の出力確率分布を混合正規分布モデルで表現した音響モデルと言語モデルとを用いて音声認識する音声認識装置において、
前記入力音声を音声認識する候補となる音素の音素列に対して、前記音素列の各音素を探索する探索経路となる各時刻の探索仮説において、当該探索仮説中の前記音素をモデル化した音素モデルの各状態に対応付けられる入力音声の音響特徴量を算出する音響特徴量算出手段と、
前記言語モデルを用いて算出した言語スコアにより前記探索仮説の候補を伸張し、前記音響特徴量および前記音響モデルを用いて、前記伸張された前記探索仮説の候補の音響スコアを算出し、前記言語スコアおよび前記音響スコアの累積が最大となる前記探索仮説を認識結果として出力する探索繰り返し実行手段と、
前記探索繰り返し実行手段で算出された音響スコアおよび言語スコアを累積した探索スコアより求められる探索仮説の事後確率と、当該事後確率の自然対数とを乗算した積の総和によって、前記探索仮説の各状態におけるある時刻のエントロピーと、前記時刻から所定時間前のエントロピーとの差分を算出するエントロピー算出手段と、
このエントロピー算出手段で算出したエントロピーに当該エントロピーの評価する幅を示す定数を乗算し、指数化することで、当該エントロピーが増大した場合には各時刻における前記音響特徴量の次元ごとの重み付けを変更する基準となる信頼度が小さくなるように算出する信頼度算出手段と、
この信頼度算出手段で算出された信頼度に基づいて、前記音響特徴量の次元ごとの重み付けを変更する重み付け変更手段と、
を備え、
前記探索仮説評価手段は、前記重み付け変更手段によって重み付けが変更された音響特徴量と、前記音響モデルとを用いて、前記伸張された探索仮説の候補の音響スコアを算出することを特徴とする音声認識装置。
前記エントロピー算出手段は、前記探索仮説における各状態をクラスタリングするクラスタリング手段と、
このクラスタリング手段でクラスタリングしたクラスタの代表点におけるエントロピーを算出するエントロピー代表点算出手段と、
を備えることを特徴とする請求項１から５のいずれか一項に記載の音声認識装置。
入力された入力音声を、予め蓄積した音響モデルと言語モデルとを用いて音声認識するために、コンピュータを、
前記入力音声を音声認識する候補となる音素の音素列に対して、前記音素列の各音素を探索する探索経路となる各時刻の探索仮説において、当該探索仮説中の前記音素をモデル化した音素モデルの各状態に対応付けられる入力音声の音響特徴量を算出する音響特徴量算出手段、
前記言語モデルを用いて算出した言語スコアにより前記探索仮説の候補を伸張し、前記音響特徴量および前記音響モデルを用いて、前記伸張された前記探索仮説の候補の音響スコアを算出し、前記言語スコアおよび前記音響スコアの累積が最大となる前記探索仮説を認識結果として出力する探索繰り返し実行手段、
前記音響特徴量算出手段で算出された音響特徴量から求められる探索仮説中の音素モデルの各状態の事後確率と、当該事後確率の自然対数とを乗算した積の総和によって、前記探索仮説の各状態における各時刻のエントロピーを算出するエントロピー算出手段、
このエントロピー算出手段で算出したエントロピーに当該エントロピーの評価する幅を示す定数を乗算し、指数化することで、当該エントロピーが増大した場合には前記音響スコアの重み付けを変更する基準となる信頼度が小さくなるように算出する信頼度算出手段、
この信頼度算出手段で算出された信頼度に基づいて、前記音響スコアの重み付けを変更する音響スコア重み付け変更手段、
として機能させ、
前記探索繰り返し実行手段は、前記言語スコアと、前記音響スコア重み付け変更手段によって重み付けが変更された前記音響スコアとの累積が最大となる前記探索仮説を認識結果として出力することを特徴とする音声認識プログラム。