JP4729078B2

JP4729078B2 - 音声認識装置とその方法と、プログラムとその記録媒体

Info

Publication number: JP4729078B2
Application number: JP2008154933A
Authority: JP
Inventors: 哲小橋川; 太一浅見; 浩和政瀧; 敏高橋
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2008-06-13
Filing date: 2008-06-13
Publication date: 2011-07-20
Anticipated expiration: 2028-06-13
Also published as: JP2009300716A

Description

この発明は、発声内容が不明の音声を与えて話者適応するいわゆる教師なし音響モデル適応化技術を用いた音声認識装置と、その方法とプログラムと記録媒体に関する。

音声認識装置は、入力される音声信号を分析して得られる音響的特徴量ベクトルの系列と、音声をモデル化した音響モデルとの間の尤度を算出し、認識すべき語彙、単語間の接続のし易さ、規則を表わす言語モデルなどの言語的制約の中において、尤度の最も高い単語列を認識結果として出力するものである。音響モデルの数が多ければ多いほど音声の認識率は向上する。しかし、メモリ資源の関係から音響モデルの数は自ずと制限される。したがって、音声認識装置には、実際に使用される場面における話者や環境によって変わる音響的特徴に、限られた音響モデルを適応させる音響モデル適応化技術が用いられる。

音響モデル適応化技術には、発声内容を教えて話者適応を行う教師あり話者適応と、発声内容が不明な音声を与える教師なし話者適応の二つがある。人手で書き起こした発話内容が事前に得られない場合には、必然的に教師なし話者適応となる。
図７に不特定話者の音声認識結果を用いて教師なし話者適応を行う従来の音声認識装置７００の機能構成例を示してその動作を説明する。音声認識装置７００は、Ａ/Ｄ変換部７０と、特徴量算出部７１と、言語モデルパラメータメモリ７２と、音響モデルパラメータメモリ７３と、音声認識部７４と、認識結果ラベル付与部７５と、音響モデル適応処理部７６とを備える。

Ａ/Ｄ変換部７０は、入力されるアナログ信号の音声を、例えばサンプリング周波数１６ｋＨｚで離散的なディジタル信号に変換する。特徴量算出部７１は、離散値化された音声信号を例えば３２０個を１フレーム（２０ｍｓ）としてフレーム毎に音響特徴量を算出する。音響特徴量は、例えばメル周波数ケプストラム係数（ＭＦＣＣ）分析によって算出される。音声認識部７４は尤度計算部７４１を含み、音響特徴量と、言語モデルパラメータメモリ７２と音響モデルパラメータメモリ７３とからの言語モデルと音響モデルとを入力として、音響モデル内の状態尤度と、言語尤度の総和が最も高い音声認識結果候補を音声認識結果として出力する。認識結果ラベル付与部７５は、その音声認識結果にラベルを付す。音響モデル適応処理部７６は、統計量蓄積部７６１と音響モデル更新部７６２とから成り、ラベルを付した音声認識結果を教師信号として適応処理を行う。統計量蓄積部７６１は、ラベルに対応する音響モデル内の状態ｊのｋ番目の混合要素に存在する事後確率γ_ｔ（ｊ，ｋ）を求めて各分布の統計量を蓄積する。

ここで音響モデルを構成する音素モデルについて図８と図９を用いて説明する。音素モデルは、図８に示す状態によって構築される。各状態ｊは、混合正規分布Ｍとして表現される。混合正規分布Ｍは、例えば３つの正規分布、Ｎ（μ_ｊ１，Ｕ_ｊ１），Ｎ（μ_ｊ２，Ｕ_ｊ２），Ｎ（μ_ｊ３，Ｕ_ｊ３）で構成される。ここでμ_ｊｋは状態ｊ分布ｋの平均ベクトル、Ｕ_ｊｋは状態ｊ分布ｋの共分散行列を示す。
この状態ｊが、数個〜十数個程度の確率連鎖によって音素モデルが構築される。図９に３状態で構成される音素モデルの概念図を一例として示す。図９に示す例は、left−ｔｏ−ｒｉｇｈｔ型ＨＭＭ（Hidden Markov Model）と呼ばれるもので、３つの状態ｊ_１（第１状態）、ｊ_２（第２状態）、ｊ_３（第３状態）を並べたものであり、状態の確率連鎖（状態遷移）としては、自己遷移ａ_１１、ａ_２２、ａ_３３と、次状態へのａ_１２、ａ_２３、ａ_３４からなる。この状態遷移系列の中で最も尤度の高い音素モデルの組み合わせが、音声認識結果として出力される。

ある状態ｊに所属する分布ｋに着目してその分布に音響特徴量ｏ_ｔが当てはまる確率は、式（１）に示す事後確率γ_ｔ（ｊ，ｋ）で求められる。

ここで、α_ｔ（ｊ）は時刻ｔにおける状態ｊの前向き確率、β_ｔ（ｊ）は後ろ向き確率である。ｃ_ｊｋ又はｃ_ｊｍは重み係数、ｏ_ｔは時刻ｔの音響特徴量である。μ_ｊｋは状態ｊ分布ｋの平均ベクトル、Ｕ_ｊｋは状態ｊ分布ｋの共分散行列を示す。式の表記の都合からｋとｍと表記しているが、ｋ，ｍのどちらも、ある状態の混合正規分布の内の一つの正規分布を意味する。
例えば、最尤推定に基づく音響モデル適応方法は、事後確率γ_ｔ（ｊ，ｋ）から各混合正規分布の平均ベクトルμ_ｊｋと共分散行列Ｕ_ｊｋを、式（２）と式（３）で求めることで行う。ここで＊は転置を意味する。

音響モデル更新部７６２は、音響モデルパラメータメモリ７３の音響モデルを、蓄積した十分統計量から求めた平均ベクトルμ_ｊｋと共分散行列Ｕ_ｊｋに更新する。十分統計量とは、統計データの分布の平均値と分散値を求めるのに十分な量の統計量のことである。音響モデルが統計量で更新されることで話者適応される。話者適応の方法は、最尤推定に基づく方法の他、最大事後確率や回帰行列に基づく方法などが用いられる。
以上述べたような音響モデル教師なし適応化技術を用いた音声認識装置７００は、例えば特許文献１と２に開示されている。また、回帰行列を用いた適応方法については、例えば特許文献３と非特許文献１に示されている。
特開平９−１１４４８２号公報特開平９−２５８７７０号公報特開２００７−２４８７４２号公報 C.J.Leggetter and P.C.Woodland,"Speaker Adaptation of HMMs using Linear Regression",CUED/F-INFENG/TR.181,1994.

従来の音声認識装置は、一度音声認識を行った上で、その認識結果を教師信号として用いて十分統計量を蓄積し、その結果で音響モデルの適応処理を行うため、処理時間を必要とする問題点があった。式（１）から明らかなように音響モデル適応に必要な分布に関する事後確率γ_ｔ（ｊ，ｋ）を算出するためには、前向き確率と後ろ向き確率を必要とするため、発話終端まで待たないと計算できない。よって待ち時間が必要であり応答性が悪い。また、単語単位若しくは文章単位の全ての状態系列を保存する必要があることから多くのメモリを消費してしまう問題点もあった。

この発明は、このような点に鑑みてなされたものであり、高速・省メモリ化できる音声認識装置とその方法と、プログラムとその記録媒体を提供することを目的とする。

この発明の音声認識装置は、特徴量算出部と、音響モデルパラメータメモリと、言語モデルパラメータメモリと、音声認識部と、フレーム内統計量蓄積部と、音響モデル更新部とを具備する。特徴量算出部は、所定時間長のフレーム毎に離散値化された音声信号の音響特徴量を算出する。音声認識部は、音響特徴量に対して音響モデル内の状態毎の尤度である状態尤度を計算する尤度計算部を含み、状態尤度と言語モデルに基づく言語尤度の総和が最も高い音声認識結果候補を音声認識結果として出力する。フレーム内統計量蓄積部は、音響特徴量と状態尤度と音響モデルを入力としてフレーム毎に最尤状態の統計量を蓄積する。音響モデル更新部は、音響モデルに含まれる平均ベクトル、または平均ベクトルと共分散行列を、フレーム毎に蓄積された最尤状態の統計量から求めたものに更新する。

この発明の音声認識装置は、フレーム毎にフレーム内の最大尤度になる状態の統計量を蓄積する。そして、音響モデル更新部が、蓄積されたフレーム毎の統計量が所定値を超えた場合に音響モデルを更新する。したがって、メモリ量が少なくて済む。また、フレーム毎に統計量蓄積動作が行われるので、単語単位や文章単位で統計量蓄積動作を行う従来の音声認識装置よりも処理速度が速い。これにより音響モデル更新前の待ち時間が少なく、高い応答性を持つ。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

図１にこの発明の音声認識装置１００の機能構成例を示す。図２にその動作フローを示す。音声認識装置１００は、Ａ/Ｄ変換部７０と、特徴量算出部７１と、言語モデルパラメータメモリ７２と、音響モデルパラメータメモリ７３と、音声認識部７４と、フレーム内統計量蓄積部１０と、音響モデル更新部１１と、制御部１２とを備える。Ａ/Ｄ変換部７０と、特徴量算出部７１と、言語モデルパラメータメモリ７２と、音響モデルパラメータメモリ７３と、音声認識部７４とは、図７の従来の音声認識装置７０と同じものである。音声認識装置１００は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

音声認識装置７０と同じ構成については、図２の動作フローを参照した簡単な説明とする。特徴量算出部７１は、フレーム毎に音声信号の音響特徴量を、例えばＭＦＣＣ分析を行うことで算出する（ステップＳ７１）。音響特徴量としては、一般的に、ＭＦＣＣ１２次元、ΔＭＦＣＣ１２次元、Δパワー、パワーなどが音声認識に用いられる。音声認識部７４内の尤度計算部７４１は、音響特徴量に対して、音響モデルパラメータメモリ７３に記録された音響モデル内の状態毎の尤度である状態尤度を計算する（ステップＳ７４１）。

音声認識部７４は、尤度計算部７４１で計算した状態尤度と、言語モデルパラメータメモリ７２に記録された言語モデルに基づく言語尤度の総和が最も高い音声認識結果候補を音声認識結果として出力する（ステップＳ７４）。音声認識部７４は公知の音声認識技術によって実現されるものである。
この発明の音声認識装置１００の新しい部分は、ステップＳ７４の音声認識過程と並行してフレーム内統計量蓄積部１０と音響モデル更新部１１とが動作する点である。フレーム内統計量蓄積部１０は、音響特徴量と状態尤度と音響モデルを入力としてフレーム毎に最尤状態の統計量を蓄積して学習する（ステップＳ１０）。音響モデル更新部１１は、音響モデルパラメータメモリ７３に記録された音響モデルを、フレーム毎に蓄積された最尤状態の統計量を用いて求めた適応音響モデルμ_{ｊｋ,ａｄａｐｔ}，Ｕ_{ｊｋ,ａｄａｐｔ}に更新する（ステップＳ１１）。学習データ量（蓄積量）が少ない場合は、ステップＳ１１はスキップされる（ステップ１０からステップ１２への破線）。適応音響モデルμ_{ｊｋ,ａｄａｐｔ}，Ｕ_{ｊｋ,ａｄａｐｔ}は、例えば回帰行列Ｗを用いて求めることが可能である。詳しくは後述する。

制御部１２は、音声認識装置１００の各部の動作を制御すると共に、図示しない外部からの動作停止を指示する制御信号の入力により音声認識装置１００の動作を停止させる（ステップＳ１２のＹ）。動作停止の制御信号が入力されるまでは、上記したステップＳ７１〜ステップＳ１１の動作を繰り返す（ステップＳ１２のＮ）。
以上述べたように、この発明の音声認識装置１００のフレーム内統計量蓄積部１０は、フレーム毎に統計量蓄積動作を行う。音響モデル更新部１１が、その統計量から更新する音響モデルμ_{ｊｋ,ａｄａｐｔ}，Ｕ_{ｊｋ,ａｄａｐｔ}を生成して音響モデルパラメータメモリ７３内の音響モデルを更新する。

次に、図３にフレーム内統計量蓄積部１０のより具体的な機能構成例を示して更に詳しく説明する。図４にその動作フローを示す。フレーム内統計量蓄積部１０は、フレーム内最尤状態探索部１０１と、近似事後確率計算部１０２と、フレーム内最尤状態統計量蓄積部１０３と、統計蓄積量判定部１０４とを備える。
フレーム内最尤状態探索部１０１は、尤度計算部７４１が計算した状態尤度のうち、最も高い状態尤度を持つ状態を最尤状態として求める（ステップＳ１０１、図４）。近似事後確率計算部１０２は、フレーム内最尤状態探索部１０１が求めた最尤状態ｊ（図８と図９を参照）に属する分布ｋに対する尤度と、尤度計算部７４１が計算した状態尤度の総和から式（４）に示す近似事後確率γ_ｔ´（ｊ，ｋ）を計算する（ステップＳ１０２）。

ここで、右辺の分子はフレーム内の最高尤度の状態ｊの分布ｋの尤度に重み係数ｃ_ｊｋを
乗じた値であり、分母はフレーム内の状態尤度の総和である。これを図５に模式的に表
す。図５の横軸は時間経過でありフレーム番号で表す。縦軸は、各フレームの状態である。
各状態は図８に示したように混合正規分布からなる。式（４）の分母は、図５に破線で示
すように１フレーム内の全状態の状態尤度の総和である。分子は、図５に●で示すフレー
ム内の最高尤度の状態ｊの各分布である。

従来の事後確率は、式（１）に示したように全フレームに渡る全状態の尤度の和に対し
てその状態ｊを通る尤度を事後確率計算に用いていた。それに対してこの実施例は、全状
態フレーム内最高尤度と、そのフレーム内の状態尤度の総和の比に基づいて事後確率を近
似的に求める点で異なる。
フレーム内最尤状態統計量蓄積部１０３は、フレーム毎に近似事後確率計算部１０２が求めた近似事後確率γ_ｔ´（ｊ，ｋ）と、特徴量算出部７１が算出した特徴量ｏ_ｔを入力として、適応に必要な統計量を最尤状態ｊに属する分布ｋに対応させて蓄積する（ステップＳ１０３）。ここで、適応に必要な統計量とは、例えば式（５）、式（６）、式（７）に示すものである。

ここでｔはフレーム番号であり、Ｔはそれまでに処理を行ったフレーム数である。
統計蓄積量判定部１０４は、フレーム内最尤状態統計量蓄積部１０３が蓄積した適応に必要な統計量を用いて式（８）に示す統計量の学習データ量の期待値Ｎ_ｅｘｐを計算する。

ここでＪは音響モデル中の全状態数、Ｋ_ｊは状態ｊに属する分布数である。そして、統計蓄積量判定部１０４は、統計量の学習データ量の期待値Ｎ_ｅｘｐが、予め設定した音響モデルを更新するための学習データ量の閾値Ｎ_ｍｉｎ(例えば、５００フレーム＝０．５秒)より大きい場合（Ｎ_ｅｘｐ＞Ｎ_ｍｉｎ）に、音響モデルを更新するための更新指示を出力する（ステップＳ１０４）。
ここで回帰行列Ｗを用いた適応音響モデルを求める例について説明する。式（９）に回帰行列Ｗを用いた分布ｋの平均ベクトルの適応音響モデルμ_{ｊｋ,ａｄａｐｔ}を示す。

ここで、μ_ｊｋ＾＝（ｂ，μ_{ｊｋ，ｂａｓｅ}）^＊＝（ｂ，μ_ｊｋ，１，μ_ｊｋ，２，…，μ_ｊｋ，ｎ）であり、ｂはオフセット項、μ_{ｊｋ，ｂａｓｅ}は適応前の分布ｋの平均ベクトルである。＾は式（９）の表記が正しい。この回帰行列Ｗを求めることで適応が可能である。回帰行列Ｗは、例えば式（１０）に示すようにオフセット項と対角共分散行列から構成される。

回帰行列Ｗの要素は式（１１）と式（１２）を用いて求められる。

ここでγ_ｔは状態ｊの分布ｋにおける事後確率、ｏ_ｔは時刻ｔにおける特徴量ベクトル、Ｄ_ｊｋは状態ｊの分布ｋにおける平均ベクトルから得られる式（１３）に示す行列、Ｕ_ｊｋは状態ｊの分布ｋにおける共分散行列である。

式（１２）から明らかなように、回帰行列Ｗはフレーム内最尤状態統計量蓄積部１０３に蓄積した統計量から求めることが可能である。ここで、ｂの値はｂ＝１として良い。ここでは、回帰行列Ｗをオフセット項と対角分散行列で構成されるものを用いて説明したが、この実施例はこの例に限定したものではなく、対角成分以外の要素が０でないものも含む。なお、回帰行列に基づく適応方法は、特許文献３、非特許文献１が詳しい。適応方法に関しては、回帰行列に基づく方法に限らず、事後確率を用いる適応方法であれば利用することが可能である。

実施例２の音声認識装置２００は、尤度選択部２０を備える。実施例１を説明した図１中に尤度選択部２０を破線で示す。その動作フローを図２に示す。尤度選択部２０は、尤度計算部７４１が計算した状態尤度のうち、モノフォンに対応する状態尤度のみを選択してフレーム内最尤状態探索部１０１と近似事後確率計算部１０２に出力する（ステップＳ２０、図２）。この場合、フレーム内最尤状態統計量蓄積部１０３と、統計蓄積量判定部１０４もモノフォンのみについて処理を行う。
モノフォンのみについて処理を行うことで、更に計算量を削減することができる。実施例１の場合では、前後の音素環境を考慮した環境独立音素（トライフォン）や片側依存音素（バイフォン）を用いるために状態数は、例えば２０００状態である。音素数を３０とした場合のトライフォンの音素数は３０×３０×３０であり、バイフォンの音素数は２×３０×３０であるので最終的な音素数は２８８００個になる。各音素の状態数を３とするとこの音素数に３を乗じた値が総状態数となる。しかし、存在しない音素や共有化することでおよそ２０００状態に縮退させることができる。処理する状態をモノフォンのみに絞ることで、その２０００状態が音素数３０×状態数３＝９０状態になる。したがって、計算量は、およそ９０/２０００×１００＝４．５％の計算量で済む。よって処理を高速化できる。

また、更に、計算量を削減する方法として、音声ＧＭＭとモノフォンのポーズ（無音モデル）に対応する尤度を用いたフレーム内最尤状態探索部１０１と近似事後確率計算部１０２にしても良い。通常、音声ＧＭＭは状態数１で表現されることが多く、またモノフォンのポーズを３状態とすると合わせて４状態となり、モノフォンを用いた９０状態から統計量を蓄積する方法に比べて更に計算量を削減することが可能である。
また、フレーム内最尤状態統計量蓄積部１０３で蓄積する統計量の種類を減らすことで、更に計算量を削減することが可能である。実施例１の説明では、式（５）、式（６）、式（７）に示したように分散に関する統計量も（式（７））計算する例を説明したが、平均値のみの統計量を用いた適応の場合は、式（７）の計算を削減することができるので、更に処理を高速化できる。

音声認識する音声の音量が未知の場合のパワーは、音響モデルの構築に用いた学習データのパワーと整合性が取れない。よってパワーを尤度計算に用いない方が良い。しかし、一度適応した後は、パワーの値が正規化できるのでパワーを尤度計算に用いた方が適応の精度を向上させることが期待できる。そこで、音響モデル更新部が、最初に音響モデルを更新するまでの尤度計算過程（ステップＳ７４１）にはパワーを用いず、音響モデル更新後にパワーを用いる方法が考えられる。
その考えを図６に模式的に示す。図６に示す考えに基づく音声認識装置の機能構成は、実施例１，２と同じ構成で実現できる。音声信号は、横方向に音声区間と非音声区間とを繰り返している。音声区間Ｔ１における音声認識は、一度も音響モデルが更新されていない状態で行われる。この時の音響モデルをベースライン音響モデルと称する。音声区間Ｔ１では、そのベースライン音響モデルを用いた尤度計算が行われ統計量が蓄積される。非音声区間Ｔ２において音響モデルが更新されるが、この例では学習データ量が不十分なため非音声区間Ｔ２において期待値Ｎ_ｅｘｐが、音響モデルを更新するための学習データ量の閾値Ｎ_ｍｉｎよりも小さい（Ｎ_ｅｘｐ＜Ｎ_ｍｉｎ）ため更新されない。よって、引き続き音声区間Ｔ３においてもベースライン音響モデルで尤度計算が行われる。

音声区間Ｔ３において学習データ量の期待値Ｎ_ｅｘｐが、閾値Ｎ_ｍｉｎよりも大きく（Ｎ_ｅｘｐ＞Ｎ_ｍｉｎ）なると、非音声区間Ｔ４において音響モデルが更新され、音響モデルは適応済音響モデルになる。その後の音声区間Ｔ５以降の尤度計算には、パワーを用いることで適応動作の精度を向上させることができる。
〔シミュレーション結果〕
この発明の音声認識方法の有効性を確認する目的でシミュレーションを行った。シミュ
レーション条件は、サンプリング周波数を１６ｋＨｚ、ウインドウタイプはハミング窓、
フレーム長を２０ｍｓ、フレームシフトを１０ｍｓとした。語彙数は５９,３９０個、発話者は女性、録音時間を４８．９６分とした。

この発明の方法による音声認識率と、音声認識精度と、処理時間比とを比較した結果を
表１に示す。ベースラインとは教師なし適応処理を行わない手法である。実施例１，２は、共に、音響モデル更新後の尤度計算にパワーを用いる音声認識方法である。

実施例２のモノフォンに対応する状態尤度のみを選択する手法の場合、処理時間比をベースラインの９３％にすることができた。また、音声認識率と音声認識精度もベースラインよりも良い結果が得られた。実施例１のトライフォンやバイフォンを用いた場合でも、処理時間比をベースラインの９７．３％と処理時間を２．７％削減できた。この場合は扱う状態数が増えるので、音声認識率と音声認識精度の両方もモノフォンに比べて良い結果が得られた。

このようにこの発明の音声認識装置によれば、フレーム毎に統計量蓄積動作が行われるが、適応による音声認識精度の向上から探索精度が上がり、処理速度を速くすることが出来る。また、フレーム毎にフレーム内の最大尤度になる状態の統計量のみを蓄積するのでメモリ資源を節約できる。また、表１に示したように音声認識率も向上する結果が得られた。
この発明の技術思想に基づく音声認識装置とその方法は、上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。上記した装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。例えば、上記した実施例は、回帰行列Ｗを用いて適応音響モデルを求める例を示したが、従来技術で説明したように分布ｋの個々の正規分布の平均ベクトルや共分散行列を、式（２）と式（３）から求めても良く、回帰行列に基づく方法に限らず、事後確率を用いる適応方法であれば何れも利用することが可能である。

また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ-ＲＡＭ（Random Access Memory）、ＣＤ-ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ-Ｒ（Recordable）/ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto Optical disc）等を、半導体メモリとしてフラッシュメモリー等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

この発明の音声認識装置１００，２００の機能構成例を示す図。音声認識装置１００，２００の動作フローを示す図。フレーム内統計量蓄積部１０の機能構成例を示す図。フレーム内統計量蓄積部１０の動作フローを含む音声認識装置の動作フローを示す図。フレームと状態ｊとの関係を模式的に示す図。この発明の実施例３の考えを模式的に示す図。従来の音声認識装置７００の機能構成例を示す図。音素モデルを構成する１状態を模式的に示す図。音素モデルの一例を示す図。

Claims

所定の時間長のフレーム毎に離散値化された音声信号の音響特徴量を算出する特徴量算出部と、
音響モデルを記録した音響モデルパラメータメモリと、
言語モデルを記録した言語モデルパラメータメモリと、
上記音響特徴量に対して上記音響モデル内の状態毎の尤度である状態尤度を計算する尤度計算部を含み、上記状態尤度と上記言語モデルに基づく言語尤度の総和が最も高い音声認識結果候補を音声認識結果として出力する音声認識部と、
上記音響特徴量と上記状態尤度と上記音響モデルとを入力として上記フレーム毎に最尤状態の統計量を蓄積するフレーム内統計量蓄積部と、
上記音響モデルに含まれる平均ベクトル、または平均ベクトルと共分散行列を、上記フレーム毎に蓄積された最尤状態の統計量から求めたものに更新する音響モデル更新部と、
を具備する音声認識装置。
請求項１に記載の音声認識装置において、
上記フレーム内統計量蓄積部は、
上記状態尤度の最も高い最尤状態を求めるフレーム内最尤状態探索部と、
上記最尤状態に属する分布に対する尤度と上記状態尤度の総和から近似事後確率を求める近似事後確率計算部と、
上記近似事後確率と上記音響特徴量とを入力として適応に必要な統計量を最尤状態に属する分布に対応させて蓄積して保存するフレーム内最尤状態統計量蓄積部と、
上記蓄積された統計量が所定値より大きい場合に上記音響モデルの更新を指示する統計蓄積量判定部と、
を備える音声認識装置。
請求項１又は２に記載した音声認識装置において、
上記状態尤度の内、モノフォン又は音声ＧＭＭに対応する状態尤度のみを選択して上記フレーム内統計量蓄積部に入力する尤度選択部を備えたことを特徴とする音声認識装置。
特徴量算出部が、所定の時間長のフレーム毎に離散値化された音声信号の音響特徴量を算出する特徴量算出過程と、
音声認識部内の尤度計算部が、特徴量に対して音響モデルの状態毎の尤度である状態尤度を計算する尤度計算過程と、
音声認識部が、上記状態尤度と言語モデルに基づく言語尤度の総和が最も高い音声認識結果候補を音声認識結果として出力する音声認識過程と、
フレーム内統計量蓄積部が、上記音響特徴量と上記状態尤度と上記音響モデルとを入力として上記フレーム毎に上記フレーム内の最尤状態の統計量を蓄積するフレーム内統計量蓄積過程と、
音響モデル更新部が、上記音響モデルに含まれる平均ベクトル、または平均ベクトルと共分散行列を、上記フレーム毎に蓄積された最尤状態の統計量から求めたものに更新する音響モデル更新過程と、
を含む音声認識方法。
請求項４に記載した音声認識方法において、
上記フレーム内統計量蓄積過程は、
フレーム内最尤状態探索部が、上記状態尤度の最も高い最尤状態を求めるフレーム内最尤状態探索ステップと、
近似事後確率計算部が、上記最尤状態に属する分布に対する尤度と上記状態尤度の総和から近似事後確率を求める近似事後確率計算ステップと、
フレーム内最尤状態統計量蓄積部が、上記近似事後確率と上記音響特徴量を入力として適応に必要な統計量を最尤状態に属する分布に対応させて蓄積して保存するフレーム内最尤状態統計量蓄積ステップと、
統計蓄積量判定部が、上記蓄積された統計量が所定値より大きい場合に上記音響モデルの更新を指示する統計蓄積量判定ステップと、
を含む音声認識方法。
請求項４又は５に記載した音声認識方法において、
尤度選択部が、上記状態尤度の内、モノフォン又は音声ＧＭＭに対応する状態尤度のみを選択して上記フレーム内統計量蓄積過程に入力する尤度選択ステップを含むことを特徴とする音声認識方法。
請求項１乃至３の何れかに記載した音声認識装置としてコンピュータを機能させるためのプログラム。
請求項７に記載した何れかのプログラムを記録したコンピュータで読み取り可能な記録媒体。