JP4901657B2 - 音声認識装置、その方法、そのプログラム、その記録媒体 - Google Patents

音声認識装置、その方法、そのプログラム、その記録媒体 Download PDF

Info

Publication number
JP4901657B2
JP4901657B2 JP2007230795A JP2007230795A JP4901657B2 JP 4901657 B2 JP4901657 B2 JP 4901657B2 JP 2007230795 A JP2007230795 A JP 2007230795A JP 2007230795 A JP2007230795 A JP 2007230795A JP 4901657 B2 JP4901657 B2 JP 4901657B2
Authority
JP
Japan
Prior art keywords
likelihood
trajectory
function
likelihood function
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007230795A
Other languages
English (en)
Other versions
JP2009063773A (ja
Inventor
泰浩 南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007230795A priority Critical patent/JP4901657B2/ja
Publication of JP2009063773A publication Critical patent/JP2009063773A/ja
Application granted granted Critical
Publication of JP4901657B2 publication Critical patent/JP4901657B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、例えば、隠れマルコフモデルを利用した音声認識装置、その方法、そのプログラム、その記録媒体に関する。
音響モデルを用いた音声認識技術は多数存在する。そして、音響モデルとは例えば、HMM(Hidden Markov Model)である。従来のHMMを用いた音声認識では、尤度を計算する際に基準となるトラジェクトリ(HMMの平均値の時系列)がHMMの状態遷移部分で滑らかではなくなり、認識精度の劣化を引き起こしていた。非特許文献1(従来技術1)、非特許文献2(従来技術2)、非特許文献3(従来技術3)の手法では、入力音声の静的特徴量と動的特徴量の関係を利用し、滑らかなトラジェクトリを合成し、音声認識精度の向上を図っていた。しかし、これらの手法は、HMMの各状態に1つのガウス分布しか持たないと仮定していたため、複数のガウス分布をもつ混合ガウス分布型のHMMへの拡張が困難であった。そこで、混合ガウス分布型のHMMを扱う非特許文献4(従来技術4)がある。非特許文献4の手法は、HMMを使ったビタービアルゴリズムにより入力音声に対するHMMの尤度が最大となる状態系列と分布系列を求め、当該状態系列と分布系列に対してトラジェクトリを合成し、入力音声とトラジェクトリとの間の尤度を計算する手法である。この手法では、1つの分布系列のトラジェクトリしか求めていないため、混合ガウス分布の分布数が増加した場合に、認識精度が劣化するという問題があった。そこで、混合ガウス分布型のHMMに対して、トラジェクトリの合成を実現するために、スイッチング線形動的システムを使った手法が特許文献1(従来技術5)に記載されている。以下に、特許文献1に記載されている音声特徴学習装置、音声認識装置、を簡単に説明する。
図1に従来技術5の音声特徴学習装置5の機能構成例を示し、図2に従来技術5の音声認識装置11の機能構成例を示し、図3に音声特徴学習装置5と音声認識装置11の構成を統合したものを示す。まず、図1、図3を用いて、音声特徴学習装置5による学習モードについて説明する。なお、図3中の各構成部間の矢印において、破線の矢印は、学習モード時の情報の移動を示し、実践の矢印は、認識モード時の情報の移動を示す。
まず、特徴量抽出部2が学習用音声から静的特徴量および動的特徴量を抽出する。ここで、動的特徴量とは、例えば、静的特徴量(y)の一次微分成分(Δ成分)と二次微分成分(ΔΔ成分)のような、静的特徴量の時間変化を表すパラメータ(Δy、ΔΔy)である。音響モデル学習部4は、静的特徴量と動的特徴量とから、音響モデルを学習する。具体的には、音響モデル学習部4は、例えば、特徴パターンとして静的特徴量の平均値および分散を求め、動的特徴量として静的特徴量の微分係数の平均値ΔuSKおよび分散値ΔσSK と、静的特徴量の2次微分係数の平均値ΔΔuSKおよび分散値ΔΔσSK とを計算する。この保存の際に、HMMの状態数と混合ガウス分布数(各状態での混合ガウス分布がいくつのガウス分布の和として表現されるのか)も決まる。HMMデータベース6には、HMMの各状態の各ガウス分布に対する平均値MSK=[uSK,ΔuSK,ΔΔuSK]と分散[σSK ,ΔσSK ,ΔΔσSK ]が保存される。ここで、SはHMMの状態番号、Kはガウス分布の番号を表している。
モデル変換部8は、静的特徴量と動的特徴量との関係を使って、音響モデルをスイッチング線形動的システムに変換する。静的特徴量と動的特徴量との関係は、特徴量間関係式データベース10に保存されている。ここで、線形動的システムとは、以下のような状態方程式、観測方程式である。
SK=CX+WSK
t+1=AX+N (1)
上述のように、SはHMMの状態番号、Kはガウス分布の番号を表している。Xは、トラジェクトリ時系列を5フレーム分まとめたものであり、X=[xt+2t+1t−1t―2と表すことができる。xは時刻tの時のトラジェクトリを示し、「」は転置を表す。また、行列C、A、M、Nについては、「発明を実施するための最良の形態」で詳細に説明する。式(1)からも理解できるように、1つの状態がS個の状態からなる混合ガウス分布において、1つずつの混合ガウス分布を状態方程式、観測方程式に変換し、S個の線形動的システムを作成する。また、スイッチング線形動的システムとは、複数の状態方程式と観測方程式とが時間とともに、線形動的システムが切り替わるモデルである。トラジェクトリ合成部14は、スイッチング線形動的システムデータベース12に保存されたスイッチング線形動的システムと特徴量抽出部2よりの静的特徴量と動的特徴量から、スイッチングカルマンフィルタを用いてトラジェクトリを求める。この処理では、まずスイッチングカルマンフィルタがスイッチング線形動的システムデータベース中の式(1)に示す状態方程式と観測方程式を使って、個々にカルマンフィルタを動作させる。
この様子を図4に示す。図4の例では、スイッチング線形動的システムのKの最大値が2、すなわち2つの状態方程式と観測方程式のセットを持っている場合を示している。tを時刻とする。図4では、あらかじめ時刻t−1までのトラジェクトリの混合ガウス分布が求まっているものとする。このときのトラジェクトリの分布は2つのガウス分布の和となっている。この2つのガウス分布の平均値と分散を(平均値、分散)=(x t−1|t−1,V t−1|t−1)、(x t−1|t−1,V t−1|t−1)と表す。前向き処理では、この個々のt−1のガウス分布からtのトラジェクトリの分布を計算する。これは、t−1の個々のガウス分布にK=1およびK=2の状態方程式と観測方程式をそれぞれ用いてカルマンフィルタ1051、1052を動作させることで実現できる。このような操作を行うと、図4のように2つのトラジェクトリから4つのトラジェクトリを計算することになる。しかし、このような処理を時刻T分だけ行うと、最終的には、2個のトラジェクトリを求めることになる。これを防ぐためにスイッチングフィルタでは、4つのトラジェクトリを統合器1053、1054により、統合して2つのトラジェクトリに減らす。この操作を順次行っていくことにより、学習用音声に近いトラジェクトリを得る。また、最後に後ろ向きの処理を行い、トラジェクトリをなめらかにする。具体的には、HMMの各状態各分布の平均値uij,Δuij,ΔΔuijと分散Σij,ΔΣij,ΔΔΣijとから計算される学習用音声y,Δy,ΔΔyに対する尤度が高くなるような重みを設定し、この重みをかける。これによって、最終的に学習用音声に近いトラジェクトリを得ることができる。トラジェクトリの導入に伴って新しい分散の計算が必要になるが、分散計算部20は、EMアルゴリズムにより分散を計算し、分散データベース22に保存する。
次に、図2、図3を用いて、従来技術5の認識モードを説明する。特徴量抽出部100は、入力音声の静的特徴量(y)および動的特徴量(Δy,ΔΔy)を抽出する。トラジェクトリ合成部14は、スイッチング線形動的システムデータベース105に保存されているスイッチング線形動的システムを参照することで、辞書に保存されている音素、単語、あるいは文章の候補からトラジェクトリを生成する。このようなスイッチングカルマンフィルタの前向き処理と後ろ向き処理で、複数のトラジェクトリが合成される。必要に応じて、モデル変換部8は、HMMデータベース6の音響モデルを、スイッチング線形動的システムに変換する。既に、線形動的システムが得られている場合は、HMMデータベース6、モデル変換部8は無くても良い。
尤度計算部18は、分散データベース22に保存された分散値を参照して、トラジェクトリができるごとにトラジェクトリと入力音声との間の尤度を求める。この尤度が最も大きな音素系列を音声認識の結果とする。このように、従来技術5は、今までのトラジェクトリを用いる手法で使っていた尤度最大化によるトラジェクトリ合成手法の定式化に替えて、混合ガウス分布への拡張を考え、スイッチング線形動的システムによる定式化を行っている。
Y.Minami,E,McDermott,A Nakamura,and S,Katagiri,"A recognition method using synthesis-scoring that incorporates direct relations between static and dynamic feature vector time series "Workshop for Consistent & Reliable Acoustic Cues for Sound Analysis 2001. Y.Minami,E,McDermott, A Nakamura,and S,Katagiri,"A recognition method with parametric trajectory synthesized using direct relations between static and dynamic feature vector time eries,"Proc.ICASSP,pp.957-960,2002. Y.Minami,E,McDermott, A Nakamura,and S,Katagiri,"A Theoretical Analysis of Speech Recognition based on Feature Trajectory Models," in Proc ICSLP,vol.I,2004. Y.Minami,E,McDermott, A Nakamura,and S,Katagiri,"A recognition method with parametric generated from mixture distoribution HMMs,"Proc.ICASSP,pp.124-127 2003. 特開2006−171020号
従来技術5で示したトラジェクトリ合成部14の処理において、図4に示すように、統合器1053、1054によりトラジェクトリが統合され、トラジェクトリが平均化されるため、認識精度が劣化するという問題があった。また、従来技術4は上述のように、1つの分布系列のトラジェクトリしか求めていないため、混合ガウス分布の分布数が増加した場合に、認識精度が劣化するという問題があった。そこで、本発明は、従来技術4の問題点を解決するためのものである。つまり、本発明は、混合ガウス分布の分布数が増加した場合でも、認識精度が劣化することがない音声認識装置、その方法、そのプログラム、およびその記録媒体を提供することを目的とする。
声特徴学習装置は、特徴量抽出部と、音響モデル学習部と、HMMデータベースと、モデル変換部と、線形動的システムデータベースと、尤度最大計算部と、トラジェクトリ合成部と、尤度関数最大化部と、最大化関数データベースと、を備える。特徴量抽出部は、学習用音声から静的特徴量と動的特徴量を抽出する。音響モデル学習部は、静的特徴量と動的特徴量とから、音響モデルを学習する。HMMデータベースは、音響モデルを記憶する。モデル変換部は、静的特徴量と動的特徴量との関係を使って、音響モデルを線形動的システムに変換する。線形動的システムデータベースは、線形動的システムを記憶する。尤度最大計算部は、HMMデータベースに記憶されている音響モデルを用いて、当該音響モデルに対する学習用音声の尤度が最大になるよう音響モデルの状態系列と分布系列を求める。トラジェクトリ合成部は、線形動的システムと状態系列と分布系列とを用いてトラジェクトリを合成する。尤度関数最大化部は、静的特徴量と動的特徴量と、トラジェクトリと、状態系列と分布系列とによる分散と、からなる尤度関数を最大化する最大化関数を求める。最大化関数データベースは、最大化関数を記憶する。
の発明の音声認識装置は、特徴量抽出部と、HMMデータベースと、線形動的システムデータベースと、トラジェクトリ合成部と、尤度関数生成部と、尤度計算部と、を備える。また、尤度関数計算部は、尤度を補正するための補正手段を備える。特徴量抽出部は、入力音声から静的特徴量と動的特徴量を抽出する。HMMデータベースは、音響モデルを記録する。線形動的システムデータベースは、線形動的システムを記憶する。トラジェクトリ合成部は、線形動的システムデータベースに記憶されている線形動的システムと、辞書データベースに記憶されている辞書データとを用いて、トラジェクトリを合成する。尤度関数生成部は、最大化関数データベースに記憶されている最大化関数に前記トラジェクトリを代入して、前記トラジェクトリの入力に対する入力音声の確率密度である尤度関数、もしくは前記トラジェクトリの入力に対する尤度の最大値をとる尤度関数を生成する。尤度計算部は、尤度関数に静的特徴量と動的特徴量とを代入して、尤度を計算する。
上記の構成により、混合ガウス分布の分布数が増加した場合でも、HMMの状態遷移部分でも滑らかなトラジェクトリの生成を確保できながら、認識精度を向上できる。
以下に、発明を実施するための最良の形態を示す。なお、同じ機能を持つ構成部や同じ処理を行う過程には同じ番号を付し、重複説明を省略する。図5に音声特徴学習装置200の機能構成例を示し、図6に音声認識装置300の機能構成例を示し、図7に音声特徴学習装置200の構成と音声認識装置300の構成を統合したものを示し、図8に音声特徴学習装置200の主な処理の流れを示し、図9に音声認識装置300の主な処理の流れを示す。まず、図5と図7と図8を用いて、音声特徴学習装置200による学習モードについて説明する。
[学習モード]
まず、学習用音声が入力されると、特徴量抽出部2は、静的特徴量、動的特徴量、を抽出する(ステップS102)。ここで、動的特徴量とは、例えば、静的特徴量(y)の一次微分成分(Δ成分)と二次微分成分(ΔΔ成分)のような、静的特徴量の時間変化を表すパラメータ(Δy、ΔΔy)である。
音響モデル学習部4は、静的特徴量と動的特徴量とから、音響モデルを学習する(ステップS104)。具体的には、音響モデル学習部4は、例えば、特徴パターンとして静的特徴量の平均値および分散を求め、動的特徴量として静的特徴量の微分係数の平均値ΔuSKおよび分散値ΔσSK と、静的特徴量の2次微分係数の平均値ΔΔuSKおよび分散値ΔΔσSK とを計算する。HMMデータベース6には、HMMの各状態の各ガウス分布に対する平均値MSK=[uSK,ΔuSK,ΔΔuSK]と分散[σSK ,ΔσSK ,ΔΔσSK ]が保存される(ステップS106)。この保存の際に、HMMの状態数と混合ガウス分布数(各状態での混合ガウス分布がいくつのガウス分布の和として表現されるのか)も決まる。ここで、SはHMMの状態番号、Kはガウス分布の番号を表している。
モデル変換部8は、静的特徴量と動的特徴量との関係を使って、音響モデルを線形動的システムに変換する(ステップS108)。静的特徴量と動的特徴量との関係は予め特徴量間関係式データベース10に記憶されている。線形動的システムの一例を説明する。
音響モデルの各状態、各分布に関して、以下のような状態方程式、観測方程式に変換することが好ましい。以下で説明するトラジェクトリ合成部104によるトラジェクトリの合成演算量が削減されるからである。この状態方程式、観測方程式は上記式(1)と同様である。
SK=CX+WSK
t+1=AX+N (1)
ただし、tは時間を表し、Xは、トラジェクトリ時系列を5フレーム分まとめたものであり、X=[xt+2t+1t−1t―2と表すことができる。xは時刻tの時のトラジェクトリを示し、「」は転置を表す。そして、行列AとCに関して、ここでは、以下のような行列を用いる。
Figure 0004901657
ここで、θは正の大きな値である。
SKは、平均が[0 0 0]で、
分散がΣSK=diag[σSK ΔσSK ΔΔσSK ]であるガウス分布に従う確率変数である。ここで、diagは[]内を対角要素にもつ対角行列を作成する関数である。MSKには次のようにHMMの平均値が代入される。
SK=[uSK ΔuSK ΔΔuSK
また、行列Aはxt+2=xt+2t+1=xt+1=xt−1=xt−1を示しており、この演算では、雑音による影響以外の変化が無いことを示している。行列Aはこれに限られるものではない。行列Cは、一次微分と二次微分を近似的に実現する行列であれば、どんな行列でも用いることができる。行列Cについては、列の数は、Xで定義したフレーム数であり、行数の数は、動的特徴量の微分次数+1(この例では、2+1)と同数であればよい。行列Cの第1行目は静的特徴量を求める計算、第2行目はΔ特徴量を求める計算、第3行目はΔΔ特徴量を求める計算となる。
尤度最大計算部106は、HMMデータベース6に記憶されている音響モデルを用いて、当該音響モデルに対する前記学習用音声の尤度が最大になるよう音響モデルの状態系列と分布系列を求める(ステップS110)。例えば、この最大化処理には、ビタービアルゴリズムを用いれば良い。
トラジェクトリ合成部104は、線形動的システムデータベース102よりの線形動的システム(状態方程式と観測方程式)と、尤度最大計算部106よりの状態系列と分布系列を用いて、トラジェクトリxを合成する(ステップS112)。具体的には尤度最大計算部106よりの状態系列と分布系列を、状態方程式と観測方程式に代入して、代入された状態方程式と観測方程式のxについて解く事で、xを求める。
そして、尤度関数最大化部110は、静的特徴量と動的特徴量と、トラジェクトリと、状態系列と分布系列とによる分散と、からなる尤度関数を最大化する最大化関数を求める(ステップS114)。以下、詳細に説明すると、トラジェクトリxに関して、時刻tでの尤度関数P(y)は以下の式(2)で表すことができる。
Figure 0004901657
この尤度関数P(y)は、トラジェクトリxが音響モデルの状態と分布の値がSである線形動的モデルから生成されたときに使われる。トラジェクトリがどの線形動的モデルから生成されたかによって、尤度関数を切り替え、以上の尤度関数の時刻tでの積が最大になる最大化関数を学習する。ここで、この関数を学習するEMアルゴリズムを計算するのは大変なので、近似計算を用いる。これには、尤度最大計算部106よりの状態系列と分布系列を利用する。この状態系列と分布系列から全ての学習データのトラジェクトリを計算し、尤度関数P(y)を最大化するような最大化関数を求める。そして、最大化関数は、最大化関数データベース112に記憶される(ステップS116)。最大化関数は、y、x、Δy、Δx、ΔΔy、ΔΔxが変数になっており、
Figure 0004901657
が、定数になっている。
[認識モード]
次に、図6と図7と図9を用いて、音声認識装置300による認識モードについて説明する。特徴量抽出部2は、入力音声の静的特徴量yと動的特徴量(Δy、ΔΔy)を抽出する(ステップS202)。トラジェクトリ合成部104は、線形動的システムデータベース102よりの線形動的システムを参照することで、辞書データベース16に保存されている音素、単語、あるいは文章の候補から可能な全てのトラジェクトリを合成する(ステップS204)。また、必要に応じて、モデル変換部8が、HMMデータベース6に記憶されている音響モデルを線形動的システムに変換して、線形動的システムデータベースに記憶させてもよい。線形動的システムデータベース102が既に得られている場合は、モデル変換部8はなくてもよい。
尤度関数生成部108は、最大化関数データベース112に記憶されている最大化関数にトラジェクトリ合成部104よりのトラジェクトリを代入して、トラジェクトリの入力に対する入力音声の確率密度である尤度関数P(Y1:T)、もしくはトラジェクトリの入力に対する尤度の最大値をとる尤度関数P(Y1:T)を生成する(ステップS206)。P(Y1:T)、P(Y1:T)は例えば、以下のように定義できる。
Figure 0004901657
ここで、maxAはAの最大値を取ることを示し、P(A│B)はBである場合にAである条件付確率であり、1:Tは1,...,Tを示し、S1:TはHMMの状態系列を示し、K1:TはHMMの分布系列を示し、X1:T(S1:T,K1:T)はこの状態系列と分布系列から合成されるトラジェクトリ系列を示し、P(S1:T,K1:T)は状態の遷移確率と分布を選ぶ確率を状態と分布の系列に対して求めたものであり、HMMで利用している値と同じ値を用いる。また、「^」が使用されている記号は、トラジェクトリに対しての値であり、「^」が使用されていない記号は、HMMに対しての値である。また、イメージで記載された式中では「^」は記号の真上に付され、テキストで記載された式中では「^」は記号の右斜上に付されているが、これらの値は同値である。YとY1:Tは以下の式により定義される。
=[y、Δy、ΔΔy
1:T=Y,Y,...,Y
以下の説明では、P(Y1:T)、P(Y1:T)をまとめて、P(Y1:T)という。HMMの状態数が少ない場合(例えば、状態数が1)には、尤度計算部114は、式(3)もしくは(3’)に示す尤度関数に、特徴量抽出部2よりの静的特徴量、動的特徴量を代入して、尤度を計算する。そして、尤度を最大にするモデルを最終的な認識結果とする。
[変形例1]
次に音声認識装置300の変形例1である音声認識装置300−1について説明する。HMMの状態数が多い場合には、式(3)において、可能な全てのトラジェクトリを生成し、入力音声と比較しなければならないので、実現できない。
そこで、音声認識装置300−1は尤度計算部114に尤度関数を近似するための近似手段1164を保持する。尤度関数P(Y1:T)は尤度近似手段1164に入力され、尤度関数P(Y1:T)は近似され、近似尤度関数P’(Y1:T)が求められる(ステップS207)。尤度関数P(Y1:T)の近似の手法について説明する。まず、あらかじめ音響モデルのビタービアルゴリズムで音響モデルの尤度が最大になる状態系列S^1:Tと分布系列K^1:Tを求める。状態系列S^1:Tと分布系列K^1:Tの求めかたは以下の式(4)で表すことができる。
Figure 0004901657
式(5)のトラジェクトリx^1:Tは線形動的モデルを用いて、上記式(1)による状態方程式と観測方程式によるカルマンフィルタを実現することにより求めることが好ましい。計算量が削減されるからである。このトラジェクトリx^1:Tを使って、得られる尤度は以下の式(6)のように、近似尤度関数P’(Y1:T)を求めることができる。
Figure 0004901657
そして、尤度計算部114は、近似尤度関数P’(Y1:T)に特徴量抽出部2よりの静的特徴量、動的特徴量を代入して、尤度を計算する。そして、尤度を最大にするモデルを最終的な認識結果とする。
この近似尤度関数P’(Y1:T)は非特許文献4で述べているものとほぼ等しいが、上記式(5)によるトラジェクトリを求める際に、状態方程式と観測方程式によるカルマンフィルタを実現させている所が従来技術4とは異なる。
[変形例2]
次に音声認識装置300の変形例2である音声認識装置300−2について説明する。近似尤度関数P’(Y1:T)では、以下に示すHMMによる最大状態系列と分布系列以外のトラジェクトリの尤度を無視していることになり、高精度な認識をできない。そこで、尤度関数計算114は、更に、補正手段116を持たせる。補正手段116などの機能構成例を図10に示す。補正手段116は誤差近似手段1168と加算手段1170とで構成されている。誤差近似手段1168は、近似尤度関数P’(Y1:T)と尤度関数P(Y1:T)との誤差eをHMMの尤度を用いて近似することで、近似誤差e’を生成する。まず、誤差eは以下の式(7)で表すことができる。誤差eはe=│P(Y1:T)−P’(Y1:T)│で表すことができる。
Figure 0004901657
しかし、誤差eを直接求めることはできない。従って、誤差近似手段1166は、HMMの尤度を利用して、誤差eを近似して、近似誤差e’を生成する。近似誤差e’は以下の式(8)になる。
Figure 0004901657
この式(8)の2行目の式は例えば、HMMのビタービアルゴリズムを用いて得られる。
加算手段1170は、尤度近似手段1164よりの近似尤度関数P’(Y1:T)と、近似誤差e’とを加算することで、補正尤度関数P’’(Y1:T)を求める(ステップS208)。つまり、以下の式(9)が演算される。
Figure 0004901657
加算手段1170から補正尤度関数P’’(Y1:T)が出力される。そして、尤度計算部114は、特徴量抽出部2よりの静的特徴量と動的特徴量を用いて、式(9)の補正尤度関数P’’(Y1:T)の関数値である尤度を求め(ステップS210)、尤度を最大にするモデルを最終的な認識結果とする。
このようにして、尤度関数P(Y1:T)を補正手段116により補正することで、補正尤度関数P’’(Y1:T)を求める。その結果、HMMによる最大状態系列と分布系列以外のトラジェクトリの尤度も考慮していることになる。従って、この実施例の音声認識装置300は、混合ガウス分布の分布数が増加した場合であっても、従来技術4、5よりも、認識精度を向上させることが出来る。
[実験結果]
次に、本発明の音声認識装置と、従来技術4の音声認識装置と、HMMを用いた音声認識装置と、を比較した実験結果を説明する。実験では、話者独立、タスク独立の認識を行った。サンプリングレートを16kHzとし、フレームシフトを10msとし、各状態のガウス分布数が2もしくは3である環境依存HMMを学習した。学習データとして、JNASデータの全ての男性話者を用いた。利用したデータは20078文章である。評価データとして、学習データと同条件で分析した男性75人による100都市発声を用いた。相発声数は、7198である。認識実験においては、ひとつの条件下では、誤差によって偶然性能が良くなるという可能性がある。この点を排除するために、作成する状態数を変化させて、複数の実験を行った。図11に混合ガウス分布数が2の場合の単語誤認識率の結果を示し、図12に混合ガウス分布数が3の場合の単語誤認識率の結果を示す。また、混合ガウス分布数が2の場合は、作成HMMの状態数を2589、1992、1611の3種類を用い、混合ガウス分布数が3の場合は、作成HMMの状態数を1992の1種類を用いた。図11、図12より、作成HMMの状態数がどの場合であっても、本発明の音声認識装置が、従来技術4の音声認識装置やHMMを用いた音声認識装置よりも認識精度が向上していることが分かる。
従来の音声特徴学習装置の機能構成例を示す図。 従来の音声認識装置の機能構成例を示す図。 従来の音声特徴学習装置と音声認識装置とをまとめたものを示す図。 従来のトラジェクトリを求める流れを示した図。 実施例の音声特徴学習装置の機能構成例を示す図。 実施例の音声認識装置の機能構成例を示す図。 実施例の音声特徴学習装置と音声認識装置とをまとめたものを示す図。 実施例の音声特徴学習装置の主な処理の流れを示す図。 実施例の音声認識装置の主な処理の流れを示す図。 補正手段116の機能構成例を示す図。 混合ガウス分布が2の場合の実験結果を示す図。 混合ガウス分布が3の場合の実験結果を示す図。

Claims (6)

  1. 入力音声から静的特徴量と動的特徴量を抽出する特徴量抽出部と、
    音響モデルを記憶するHMMデータベースと、
    前記線形動的システムを記憶する線形動的システムデータベースと、
    線形動的システムデータベースに記憶されている線形動的システムと、辞書データベースに記憶されている辞書データと、を用いて、トラジェクトリを合成するトラジェクトリ合成部と、
    最大化関数データベースに記憶されている最大化関数に前記トラジェクトリを代入して、前記トラジェクトリの入力に対する入力音声の確率密度である尤度関数、もしくは前記トラジェクトリの入力に対する尤度の最大値をとる尤度関数を生成する尤度関数生成部と
    前記音響モデルの尤度を用いて、前記尤度関数を近似して近似尤度関数を生成する近似手段と、前記近似尤度関数と前記尤度関数との誤差を前記音響モデルの尤度を用いて近似することで近似誤差を生成し、前記近似尤度関数と前記近似誤差とを加算することで前記尤度関数を補正し補正尤度関数を生成する補正手段とを備え、当該補正尤度関数に前記静的特徴量と前記動的特徴量とを代入して、尤度を計算する尤度計算部と
    えることを特徴とする音声認識装置。
  2. 請求項に記載の音声認識装置において、
    前記トラジェクトリ合成部は、状態方程式と観測方程式を用いて、前記トラジェクトリを合成するものであることを特徴とする音声認識装置。
  3. 請求項1又は2に記載の音声認識装置において、
    前記トラジェクトリ合成部は、カルマンフィルタを用いて前記トラジェクトリを合成するものであることを特徴とする音声認識装置。
  4. 入力音声から静的特徴量と動的特徴量を抽出する特徴量抽出過程と、
    線形動的システムデータベースに記憶されている線形動的システムと、辞書データベースに記憶されている辞書データと、を用いて、トラジェクトリを合成するトラジェクトリ合成過程と、
    最大化関数データベースに記憶されている最大化関数に前記トラジェクトリを代入して、前記トラジェクトリの入力に対する入力音声の確率密度である尤度関数、もしくは前記トラジェクトリの入力に対する尤度の最大値をとる尤度関数を生成する尤度関数生成過程と
    前記音響モデルの尤度を用いて、前記尤度関数を近似して近似尤度関数を生成する近似ステップと、前記近似尤度関数と前記尤度関数との誤差を前記音響モデルの尤度を用いて近似することで近似誤差を生成し、前記近似尤度関数と前記近似誤差とを加算することで前記尤度関数を補正し補正尤度関数を生成する補正ステップとを含み、当該補正尤度関数に前記静的特徴量と前記動的特徴量とを代入して、尤度を計算する尤度計算過程と
    ることを特徴とする音声認識方法。
  5. 請求項1〜に記載の音声認識装置の各処理をコンピュータに実行させるための音声認識プログラム。
  6. 請求項記載の音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2007230795A 2007-09-05 2007-09-05 音声認識装置、その方法、そのプログラム、その記録媒体 Active JP4901657B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007230795A JP4901657B2 (ja) 2007-09-05 2007-09-05 音声認識装置、その方法、そのプログラム、その記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007230795A JP4901657B2 (ja) 2007-09-05 2007-09-05 音声認識装置、その方法、そのプログラム、その記録媒体

Publications (2)

Publication Number Publication Date
JP2009063773A JP2009063773A (ja) 2009-03-26
JP4901657B2 true JP4901657B2 (ja) 2012-03-21

Family

ID=40558401

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007230795A Active JP4901657B2 (ja) 2007-09-05 2007-09-05 音声認識装置、その方法、そのプログラム、その記録媒体

Country Status (1)

Country Link
JP (1) JP4901657B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010204391A (ja) * 2009-03-03 2010-09-16 Nippon Telegr & Teleph Corp <Ntt> 音声信号モデル化方法、信号認識装置及び方法、パラメータ学習装置及び方法、特徴量生成装置及び方法並びにプログラム
CN102483916B (zh) * 2009-08-28 2014-08-06 国际商业机器公司 声音特征量提取装置和声音特征量提取方法
CN109545229B (zh) * 2019-01-11 2023-04-21 华南理工大学 一种基于语音样本特征空间轨迹的说话人识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271185A (ja) * 2002-03-15 2003-09-25 Nippon Telegr & Teleph Corp <Ntt> 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体
JP2006171020A (ja) * 2004-12-10 2006-06-29 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法、音声特徴学習方法、それらの方法を用いた装置、プログラムおよびプログラムを記録した記録媒体

Also Published As

Publication number Publication date
JP2009063773A (ja) 2009-03-26

Similar Documents

Publication Publication Date Title
JP4548646B2 (ja) 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム
JP4245617B2 (ja) 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
JP5418223B2 (ja) 音声分類装置、音声分類方法、および音声分類用プログラム
US8515758B2 (en) Speech recognition including removal of irrelevant information
Huang et al. An investigation of augmenting speaker representations to improve speaker normalisation for dnn-based speech recognition
US7587321B2 (en) Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (LVCSR) system
JP5242782B2 (ja) 音声認識方法
JP2007279444A (ja) 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
JP2008203469A (ja) 音声認識装置及び方法
Diakoloukas et al. Maximum-likelihood stochastic-transformation adaptation of hidden Markov models
EP1457968A1 (en) Noise adaptation system of speech model, noise adaptation method, and noise adaptation program for speech recognition
JP4512848B2 (ja) 雑音抑圧装置及び音声認識システム
JP2010078650A (ja) 音声認識装置及びその方法
JP4901657B2 (ja) 音声認識装置、その方法、そのプログラム、その記録媒体
Saheer et al. VTLN adaptation for statistical speech synthesis
Lu et al. Joint uncertainty decoding for noise robust subspace Gaussian mixture models
Zhang et al. Minimum phoneme error based heteroscedastic linear discriminant analysis for speech recognition
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
US20120330664A1 (en) Method and apparatus for computing gaussian likelihoods
JP4233831B2 (ja) 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム
JP5738216B2 (ja) 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム
JP5457999B2 (ja) 雑音抑圧装置とその方法とプログラム
Miao et al. Learning discriminative basis coefficients for eigenspace MLLR unsupervised adaptation
Han et al. Switching linear dynamic transducer for stereo data based speech feature mapping
JP5694976B2 (ja) 分散補正パラメータ推定装置、音声認識システム、分散補正パラメータ推定方法、音声認識方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090729

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110425

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110509

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110809

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110812

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110926

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111220

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111227

R150 Certificate of patent or registration of utility model

Ref document number: 4901657

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150113

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350