JP2005234214A - 音声認識用音響モデル生成方法及び装置、音声認識用音響モデル生成プログラムを記録した記録媒体 - Google Patents
音声認識用音響モデル生成方法及び装置、音声認識用音響モデル生成プログラムを記録した記録媒体 Download PDFInfo
- Publication number
- JP2005234214A JP2005234214A JP2004043048A JP2004043048A JP2005234214A JP 2005234214 A JP2005234214 A JP 2005234214A JP 2004043048 A JP2004043048 A JP 2004043048A JP 2004043048 A JP2004043048 A JP 2004043048A JP 2005234214 A JP2005234214 A JP 2005234214A
- Authority
- JP
- Japan
- Prior art keywords
- acoustic model
- evaluation function
- speech recognition
- clustering
- model generation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】学習音声信号を変換した時系列特徴ベクトルをもとに、(s1)音素決定木を用いてクラスタリングを行い、(s2)クラスタリングにより得られた音響モデルであって、(s3)1状態あたり異なる混合数を有する複数の音響モデルからベイズ基準評価関数が最大であるモデル構造を選択し、(s1)のクラスタリングの際に音素環境状態クラスタリングを混合ガウス分布を用いる。
【選択図】図8
Description
音声認識装置は、フレームごとに学習音声信号データと時系列特徴ベクトルに変換する特徴量変換部と、モデルパラメータ学習及び適切なモデル構造決定を行う音響モデル生成部と、得られた音響モデルを用いて未知入力音声の時系列特徴量ベクトルに対しスコアを算出し、これに発音辞書や言語モデル等に対するスコアを考慮して認識結果を与える認識部とから構成される。
現在音響モデルで主流となっているのは図2(状態数3、混合数3)にあるように、1音素の特徴量時系列を隠れマルコフモデル(HMM)で表現し、HMM状態の出力分布として混合ガウス分布を用いる手法である。
HMMは音声の区分定常的な性質を、定常的確率過程と状態遷移の組み合わせで表現することができる。また、混合ガウス分布を用いることにより、様々な要因により作られる音声の揺らぎを統計的に表現することができる。
状態系列集合をS={s0,s1,・・・,sT}とし、混合ガウス成分系列をV={v0,v1,・・・,vT}とし、D次元時系列特徴量ベクトルO={OT∈RD|t=1,・・・,T}とすると、O,S,Vからなる完全データを出力とするHMM出力分布は各音素カテゴリー毎に次のように表現される。
トライフォンの総数は膨大であり、全てのトライフォンを十分に学習できるほどのデータを容易するのは困難である。そのため、音響的に性質の似ているトライフォンをHMM状態単位でクラスタリングし、1つの音素カテゴリーとみなすことにより、データ不足により生じる過学習を回避する手法がとられる(図3 参照)。このような状態クラスタリングの仕方や総状態数の決定を音響モデルにおけるモデル構造の選択と呼ぶ(音素環境状態クラスタリング)。モデル構造選択には状態あたりの混合数の設定も含まれる(混合数決定)。
経験則による従来型の音響モデル構築について説明する(図4:s11〜s18 参照)。
(s11)学習データに対して、学習データ量や学習データの性質(時系列特徴量ベクトル
)をもとに、経験からクラスタリング状態の総数(状態数)と混合数を設定する。その後、(s12)音素決定木法や逐次状態分割法などの状態クラスタリングを、あらかじめ定めた総状態数に達するまで行い、状態クラスタリング構造を設定する(図4 参照)。ここで、従来法においてはクラスタリングの基準として尤度や平均ベクトルの距離といった分布の近さをあらわす評価関数が用いられる(図5 参照)。しかし、これらの評価関数は総状態数などのモデル構造の良し悪しとは無関係なため、学習データから得られる経験則による総状態数の設定が必要となる。また状態クラスタリングにおいて、1)状態を表現する出力分布は混合数1の単一ガウス分布である、2)状態に割り当てられた学習データは固定、と仮定することにより隠れ変数を取り払っている。1)に関して、本来は様々な要因により作られる音声の揺らぎを表現する混合ガウス分布を用いたクラスタリングが妥当であるが、混合ガウス分布とした場合、評価関数計算において、学習データの各フレームごとに隠れ変数の事後確率値を評価関数が収束するまで繰り返し計算を行う期待値最大化法が必要となり、それを状態の組み合わせ各々に対して計算する必要があるため計算量が膨大である。一方、混合数1の単一ガウス分布とした場合、状態j=1と状態j=2を共有化させた状態J={1+2}の統計量(フレーム数ζ1+2、平均ベクトルμ1+2、対角共分散行列σ1+2)は、状態1と状態2の統計量(フレーム数ζ1,ζ2、平均ベクトルμ1,μ2、対角共分散行列σ1,σ2)を用いて次のように求められる(s12-1)。
MDL(最小記述長)、BIC(ベイズ的情報基準)、AIC(赤池情報基準)の漸近情報量基準(漸近:学習データが十分多い領域でのみ機能する)や変分ベイズ基準評価関数を用いた音響モデル構造決定は、評価関数によりモデルの良し悪しを決めることができるため、経験則による総状態数の設定や認識率算出(モデル構造の良し悪しを評価に用いる)をする必要がない[特許文献1,非特許文献1,2 参照]。これらは、混合数決定においても評価関数を用いることにより同様の利点を持つ[非特許文献3 参照]。しかし、[非特許文献1,2]は評価関数にMDL,BIC,AICを用いており、学習データが少ない領域ではその構造決定が十分に機能しない。また音響モデルは隠れ変数を含んでおり、そのような場合においてもMDL,BIC,AICはモデル構造を正確に決定することができない。変分ベイズ評価関数は学習データの量に依存せず、また隠れ変数が存在しかつ複雑に構造化された音響モデルにおいても、その構造を評価関数に正確に反映できる。しかし、実際の音響モデルは音素環境クラスタリング、混合数決定の組み合わせで表現され、それらの最適な音響モデルをしらみつぶしに探していくのは変分ベイズ評価関数を用いた場合でも大変時間がかかる。
このように、従来の2段階法は局所最適モデル探索であるため、最適音響モデルの自動構築が機能的に不可能である。
本発明は、音素環境状態クラスタリング、混合数決定を同時に最適化することにより、最適音響モデルを構築する。
第1の方法は多大なコストを要するという問題を有する。その原因は人手の介在、、又は経験則に頼ることにある。すなわち、実際の音声認識の応用においては、事前に学習に用いられたデータとは異なる環境での用途が必ず出てくるため、日々得られる異環境音声データをもとに音響モデルを再構築することが頻繁に起こる。このような場合、その都度経験則が必要となり、そのコストが膨大となる。
第2の方法は、多大な計算量を要するという問題を有する、この問題は音響モデル構造決定の計算量が膨大であるという事実に起因する、これは次の2つに起因する。すなわち、最適モデル構造を探索する際の膨大な探索空間と個々の構造を評価する際の多大な評価関数計算量とである。
表1は、実際に、経験則を用いた手法(経験則法)と2段階法、及び本発明で紹介した音響モデル作成法(混合ガウス分布を用いた音素環境状態クラスタリング法および実施例の最後に示した評価関数近似法の併用)に対して計算時間及び認識性能を比較したものである。発明法は経験則法に対して認識性能がほぼ同程度であると共に計算時間の短縮された最適音響モデルを経験則を用いず自動で構築できる。また、従来型の自動構築法である2段階法と比べて、計算時間がほぼ同程度で、かつ最適音響モデルを構築できたため認識性能は自動構築法を上回った。このように本発明は最適音響モデル構造を実用的計算時間で自動構築することを可能とした。
音素環境状態クラスタリング、混合数決定を同時に最適化する音響モデルを構築するための手段として、混合ガウス分布を用いた決定木の構築を提案する。決定木の構築法としては音素質問を利用して節の併合・分割により効率よくクラスタリングを行う音素決定木法を用いる。時系列状態方向の構造決定を考慮した逐次状態分割法でも同様の議論が可能である。これらのクラスタリングによって得られる、状態あたりの混合数が異なる複数の音響モデルの中から最もベイズ基準評価関数の高いモデルをもって最適モデル構造とする(図8(s1) 参照)。
初めに、学習データが状態だけでなく各混合成分においても割り当てが固定であると仮定する。このとき、隠れ変数によるベイズ基準評価関数への寄与は−Σkwjklogwjk と近似できるため、状態jの評価関数は次のように近似的に表現することができる。
このように、本発明は図8と図6の違いからわかるように、混合ガウス分布を用いた状態クラスタリングを行うことにより、従来法(2段階法)では機能的に不可能であった最適音響モデルの自動構築を実現可能とする。そのとき、式(5)と式(7)を利用して混合ガウス分布統計量を近似的に求めてベイズ評価関数を計算することにより、混合ガウス分布を用いた状態クラスタリングを実用的計算時間で行うことを可能とする。
次に、混合数を変えて繰り返し評価関数を計算して(s2)、最も評価関数の高い音響モデルを選ぶ(s3)。
なお、図8において、音響モデル構築部を構成するモデル作成部は(s1),(s2)の処理、音響モデル選択部は(s3)の処理を行う。
Claims (12)
- 学習音声信号を時系列特徴量に変換するステップと、
時系列特徴量をもとに音素決定木法を用いてクラスタリングを行い、このクラスタリングの際に音素環境状態クラスタリングを混合ガウス分布を用いて行うステップと、
クラスタリングにより得られた音響モデルであって、1状態当たり異なる混合数を有する音響モデルを生成し、ベイズ基準評価関数を計算するステップと、
ベイズ基準評価関数値が最大である音響モデル構造を選択するステップと、
を有することを特徴とする音声認識用音響モデル生成方法。 - 請求項1に記載の音声認識用音響モデル生成方法において、
音素環境状態クラスタリングに逐次状態分割法を用いることを特徴とする音声認識用音響モデル生成方法。 - 請求項1に記載の音声認識用音響モデル生成方法において、
ベイズ基準におけるモデル構造評価関数の計算は、変分ベイズ法による評価関数計算法を用いて、学習データの各フレームごとに隠れ変数の事後確率値を評価関数が収束するまで繰り返し計算するすることにより、評価関数を求めることを特徴とする音声認識用音響モデル生成方法。 - 請求項1に記載の音声認識用音響モデル生成方法において、
ベイズ基準におけるモデル構造評価関数の計算は、混合ガウス分布の統計量を事前知識を用いて近似し、学習データの各フレームごとに隠れ変数の事後確率値を評価関数が収束するまで繰り返し計算することなく評価関数を求めることを特徴とする音声認識用音響モデル生成方法。 - 学習音声信号を時系列特徴量に変換する手段と、
時系列特徴量をもとに音素決定木法を用いてクラスタリングを行い、このクラスタリングの際に音素環境状態クラスタリングを混合ガウス分布を用いて行う手段と、
クラスタリングにより得られた音響モデルであって、1状態当たり異なる混合数を有する音響モデルを生成し、ベイズ基準評価関数を計算する手段と、
ベイズ基準評価関数値が最大である音響モデル構造を選択する手段と、
を備えたことを特徴とする音声認識用音響モデル生成装置。 - 請求項5に記載の音声認識用音響モデル生成装置において、
音素環境状態クラスタリングに逐次状態分割法を用いることを特徴とする音声認識用音響モデル生成装置。 - 請求項5に記載の音声認識用音響モデル生成装置において、
ベイズ基準におけるモデル構造評価関数の計算は、変分ベイズ法による評価関数計算法を用いて、学習データの各フレームごとに隠れ変数の事後確率値を評価関数が収束するまで繰り返し計算するすることにより、評価関数を求めることを特徴とする音声認識用音響モデル生成装置。 - 請求項5に記載の音声認識用音響モデル生成装置において、
ベイズ基準におけるモデル構造評価関数の計算は、混合ガウス分布の統計量を事前知識を用いて近似し、学習データの各フレームごとに隠れ変数の事後確率値を評価関数が収束するまで繰り返し計算することなく評価関数を求めることを特徴とする音声認識用音響モデル生成装置。 - 学習音声信号を時系列特徴量に変換する処理と、
時系列特徴量をもとに音素決定木法を用いてクラスタリングを行い、このクラスタリングの際に音素環境状態クラスタリングを混合ガウス分布を用いて行う処理と、
クラスタリングにより得られた音響モデルであって、1状態当たり異なる混合数を有する音響モデルを生成し、ベイズ基準評価関数を計算する処理と、
ベイズ基準評価関数値が最大である音響モデル構造を選択する処理と、
をコンピュータに実行させる音声認識用音響モデル生成プログラムを記録した記録媒体。 - 請求項9に記載の音声認識用音響モデル生成プログラムを記録した記録媒体において、
音素環境状態クラスタリングに逐次状態分割法を用いる音声認識用音響モデル生成プログラムを記録した記録媒体。 - 請求項9に記載の音声認識用音響モデル生成プログラムを記録した記録媒体において、
ベイズ基準におけるモデル構造評価関数の計算は、変分ベイズ法による評価関数計算法を用いて、学習データの各フレームごとに隠れ変数の事後確率値を評価関数が収束するまで繰り返し計算するすることにより、評価関数を求める音声認識用音響モデル生成プログラムを記録した記録媒体。 - 請求項9に記載の音声認識用音響モデル生成プログラムを記録した記録媒体において、
ベイズ基準におけるモデル構造評価関数の計算は、混合ガウス分布の統計量を事前知識を用いて近似し、学習データの各フレームごとに隠れ変数の事後確率値を評価関数が収束するまで繰り返し計算することなく評価関数を求めることを特徴とする音声認識用音響モデル生成プログラムを記録した記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004043048A JP4394972B2 (ja) | 2004-02-19 | 2004-02-19 | 音声認識用音響モデル生成方法及び装置、音声認識用音響モデル生成プログラムを記録した記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004043048A JP4394972B2 (ja) | 2004-02-19 | 2004-02-19 | 音声認識用音響モデル生成方法及び装置、音声認識用音響モデル生成プログラムを記録した記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005234214A true JP2005234214A (ja) | 2005-09-02 |
JP4394972B2 JP4394972B2 (ja) | 2010-01-06 |
Family
ID=35017237
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004043048A Expired - Fee Related JP4394972B2 (ja) | 2004-02-19 | 2004-02-19 | 音声認識用音響モデル生成方法及び装置、音声認識用音響モデル生成プログラムを記録した記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4394972B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006098425A (ja) * | 2004-09-28 | 2006-04-13 | Advanced Telecommunication Research Institute International | 混合分布モデル作成装置、音声認識装置、及び混合分布モデル作成プログラム |
KR100755678B1 (ko) | 2005-10-28 | 2007-09-05 | 삼성전자주식회사 | 개체명 검출 장치 및 방법 |
JP2007249051A (ja) * | 2006-03-17 | 2007-09-27 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル作成装置、音響モデル作成方法、そのプログラムおよびその記録媒体 |
WO2008108232A1 (ja) * | 2007-02-28 | 2008-09-12 | Nec Corporation | 音声認識装置、音声認識方法及び音声認識プログラム |
WO2011108632A1 (ja) * | 2010-03-03 | 2011-09-09 | 日本電気株式会社 | モデル選択装置、モデル選択方法及びモデル選択プログラム |
US8107735B2 (en) | 2007-04-10 | 2012-01-31 | Denso Corporation | Three dimensional shape reconstitution device and estimation device |
-
2004
- 2004-02-19 JP JP2004043048A patent/JP4394972B2/ja not_active Expired - Fee Related
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006098425A (ja) * | 2004-09-28 | 2006-04-13 | Advanced Telecommunication Research Institute International | 混合分布モデル作成装置、音声認識装置、及び混合分布モデル作成プログラム |
KR100755678B1 (ko) | 2005-10-28 | 2007-09-05 | 삼성전자주식회사 | 개체명 검출 장치 및 방법 |
US8655646B2 (en) | 2005-10-28 | 2014-02-18 | Samsung Electronics Co., Ltd. | Apparatus and method for detecting named entity |
JP2007249051A (ja) * | 2006-03-17 | 2007-09-27 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル作成装置、音響モデル作成方法、そのプログラムおよびその記録媒体 |
JP4571922B2 (ja) * | 2006-03-17 | 2010-10-27 | 日本電信電話株式会社 | 音響モデル作成装置、音響モデル作成方法、そのプログラムおよびその記録媒体 |
WO2008108232A1 (ja) * | 2007-02-28 | 2008-09-12 | Nec Corporation | 音声認識装置、音声認識方法及び音声認識プログラム |
JP5229216B2 (ja) * | 2007-02-28 | 2013-07-03 | 日本電気株式会社 | 音声認識装置、音声認識方法及び音声認識プログラム |
US8612225B2 (en) | 2007-02-28 | 2013-12-17 | Nec Corporation | Voice recognition device, voice recognition method, and voice recognition program |
US8107735B2 (en) | 2007-04-10 | 2012-01-31 | Denso Corporation | Three dimensional shape reconstitution device and estimation device |
WO2011108632A1 (ja) * | 2010-03-03 | 2011-09-09 | 日本電気株式会社 | モデル選択装置、モデル選択方法及びモデル選択プログラム |
US9208436B2 (en) | 2010-03-03 | 2015-12-08 | Nec Corporation | Model selection device, model selection method and model selection program |
Also Published As
Publication number | Publication date |
---|---|
JP4394972B2 (ja) | 2010-01-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bourlard et al. | Connectionist speech recognition: a hybrid approach | |
US10643602B2 (en) | Adversarial teacher-student learning for unsupervised domain adaptation | |
Jiang et al. | Large margin hidden Markov models for speech recognition | |
CN112069310B (zh) | 基于主动学习策略的文本分类方法及系统 | |
KR100612840B1 (ko) | 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치 | |
US5812975A (en) | State transition model design method and voice recognition method and apparatus using same | |
US8010357B2 (en) | Combining active and semi-supervised learning for spoken language understanding | |
US7437288B2 (en) | Speech recognition apparatus | |
JPH0782348B2 (ja) | 音声認識用サブワードモデル生成方法 | |
Ault et al. | On speech recognition algorithms | |
JP2013148697A (ja) | 情報処理装置、大語彙連続音声認識方法及びプログラム | |
Soliman et al. | Isolated word speech recognition using convolutional neural network | |
Rao et al. | Deterministically annealed design of hidden Markov model speech recognizers | |
JP4394972B2 (ja) | 音声認識用音響モデル生成方法及び装置、音声認識用音響モデル生成プログラムを記録した記録媒体 | |
Walker et al. | Semi-supervised model training for unbounded conversational speech recognition | |
JP3920749B2 (ja) | 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置 | |
KR101727306B1 (ko) | 언어모델 군집화 기반 음성인식 장치 및 방법 | |
Huda et al. | Hybrid metaheuristic approaches to the expectation maximization for estimation of the hidden Markov model for signal modeling | |
Huo et al. | Online adaptive learning of continuous-density hidden Markov models based on multiple-stream prior evolution and posterior pooling | |
Bhuriyakorn et al. | A genetic algorithm-aided hidden markov model topology estimation for phoneme recognition of thai continuous speech | |
Banjara et al. | Nepali speech recognition using cnn and sequence models | |
Huda et al. | A constraint-based evolutionary learning approach to the expectation maximization for optimal estimation of the hidden Markov model for speech signal modeling | |
JP2009237336A (ja) | 音声認識装置及び音声認識プログラム | |
JP2982689B2 (ja) | 情報量基準を用いた標準パターン作成方式 | |
Nankaku et al. | Acoustic modeling with contextual additive structure for HMM-based speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060406 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20060406 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090526 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090616 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090814 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091006 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091016 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121023 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121023 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131023 Year of fee payment: 4 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |