JP2004117530A - 音声認識システム - Google Patents
音声認識システム Download PDFInfo
- Publication number
- JP2004117530A JP2004117530A JP2002277541A JP2002277541A JP2004117530A JP 2004117530 A JP2004117530 A JP 2004117530A JP 2002277541 A JP2002277541 A JP 2002277541A JP 2002277541 A JP2002277541 A JP 2002277541A JP 2004117530 A JP2004117530 A JP 2004117530A
- Authority
- JP
- Japan
- Prior art keywords
- vector
- hmm
- model
- state
- latent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】音声認識システムにおいて隠れマルコフモデルの各々は、隠れ状態に依存するmt番目の混合ガウス分布により観測ベクトルの出力確率を与える手段と、隠れ状態に独立した第1の潜在ベクトルztを生成する手段と、隠れ状態と第1の潜在ベクトルztとに依存して第2の潜在ベクトルxtを導出し、第2の潜在ベクトルxtに応じて観測ベクトルytの出力確率を与える手段とを含む。
【選択図】 図2
Description
【発明の属する技術分野】
本発明は、音声認識を行なうための音声認識システムの構成に関する。
【0002】
【従来の技術】
近年の音声認識技術は、統計的手法の導入と、大規模なデータベースの構築により、不特定話者連続音声認識においても、飛躍的に認識率が向上している。
【0003】
このような音声認識システムへの統計的手法の導入においては、いわゆる、「隠れマルコフモデル(以下、HMMと呼ぶ)」が採用されている。すなわち、HMMとは、一般的なマルコフモデルの確率的な自由度をより拡大したモデルといえる。
【0004】
このHMMでは、状態(内部状態)と出力シンボルの2過程を考え、状態が確率的に遷移するとともに、それに応じてシンボルを確率的に出力すると考える。そのとき、外部からは状態の遷移は直接的には観測できず、出力シンボルのみが観測可能である。この意味で、このようなモデルが「HMM(”隠れ”マルコフモデル)」と呼ばれる。
【0005】
図5は、このようなHMMを図解的に示す概念図である。
図5においては、状態数はn個であり、各状態間の遷移に対応して遷移確率aijが定義され、かつ各遷移にはシンボル出力確率が対応している。図5においては、遷移確率a11の状態1から状態1への自己遷移に対応する出力確率のみを例示的に示している。
【0006】
ここでHMMは、次の諸量を規定することによって定義される。
1) 状態の集合:S={si}
2) 出力シンボルの集合:Y={yi}
3) 初期状態とその正規確率
4) 状態遷移確率の集合A={aij}
状態siから状態sjに遷移する確率。マトリックス[aij]で表わす。
【0007】
5) 各状態におけるシンボル出力確率の集合B={bj(y)}
状態siから状態sjに遷移して、シンボルyを出力する確率である。
【0008】
6) 終端状態の集合Q={qj}
以下、HMMによる音声認識についてさらに詳しく説明する。
【0009】
(1) 音声情報の離散シンボル化
マルコフモデルを利用するためには、観測シンボルに対して、音声情報を(有限個の)シンボル集合からのシンボル系列で表現しなければならない。
【0010】
しかも、そのシンボルの総数があまり多くては処理が複雑化して実用的ではなくなる。このような音声情報を離散化する1つの方法としては、いわゆるケプストラム分析が用いられる。このケプストラム分析においては、まず波形を所定の時間間隔のフレームで切出した後、各フレーム毎にフーリエ変換および所定の演算処理を行なうことで、音声情報を有限個のケプストラム係数等の諸係数の集合として表現する。さらに、このようなケプストラム係数等に対して、ベクトル量子化が行なわれる。
【0011】
たとえば、このようなケプストラム分析によって、音声情報は、13次元のケプストラム係数と13次元のΔケプストラム係数と13次元のΔΔケプストラム係数との合計39次元の係数によって表現される。
【0012】
図5において、出力確率の横軸は、このような39次元の係数のうちの1つを表わし、縦軸は、そのような係数の値が出力される連続的な確率を表現している。
【0013】
図5に示した例では、たとえば、2つのピークを有する連続的な確率分布となっている。
【0014】
(2) 認識の原理
HMMを用いた音声認識では、以下のような手続が行なわれる。
【0015】
a) 認識すべき各音声(たとえば単語)に対応して、HMMが作られているとする。
【0016】
b) 入力未知音声を分析し、音声シンボル系列を得る。
c) 観測された音声シンボル系列が、各単語モデルに従って得られる事後確率を計算する。
【0017】
d) 事後確率を相互に比較して、最大の事後確率を与えるモデルに対応する単語を認識の結果とする。
【0018】
したがって、音声情報をどのような離散化された係数で表現するかは、HMMを用いた音声認識の計算量に直結する。
【0019】
図6は、上述したようなケプストラム係数等のうち、第1のケプストラム係数C1および第2のケプストラム係数C2との相関関係を示す図である。
【0020】
図6において、点線で示す分布が母集団分布であるものとする。このような母集団分布を近似するためのモデル分布を実線で示す。
【0021】
上述したような39次元の係数のすべての組合せについて、モデル分布を表現しようとする場合、各係数相互間でのすべての共分散のパラメータを用いることとすると、たとえば392個のパラメータが必要となる。
【0022】
これだけのすべての共分散を用いてモデルを構築することとすると、上述したような、音声認識を行なう際の計算量が膨大となってしまう。
【0023】
そこで、一般には、このような39個の係数要素に対して、対角共分散のみを考慮し、複数のガウス分布の混合分布としてシンボル出力確率を近似することが行なわれる。
【0024】
図7は、このようにして、混合分布を採用した場合のモデル分布の構成を示す図である。
【0025】
なお図7においては、4つのガウス分布によって、母集団分布が近似されている。より一般的には、N個(N:自然数)のガウス分布によって、母集団分布が近似されているものとする。
【0026】
この場合、各ガウス分布を表現するためには、その各々の平均と分散との2つのパラメータが必要となるため、39個の要素に対して、必要となるパラメータの個数は、たとえば、(39×2×N)個となる。これにより、前述したような対角も非対角もすべての共分散を用いる場合の392個のパラメータを用いる場合に比べて、著しくパラメータ数を低減することが可能となる。
【0027】
図8は、実測されるケプストラム係数間の共分散を示す図である。
図8において、X軸およびY軸はケプストラムの次元を表わし、Z軸は、共分散の値を示す。したがって、X軸とY軸の対角方向は、自己相関の大きさを示している。上述したような各出力確率を複数のガウス分布の混合分布として近似する場合には、共分散のうち、図8における対角方向の成分のみを考慮していることに相当する。
【0028】
図8を参照すればわかるように、確かに対角方向の共分散の値が大きな値を有するものの、非対角な共分散の成分も実際には存在しており、より正確な音声認識を行なうためには、このような非対角の共分散成分も考慮したモデル化が必要であることがわかる。
【0029】
しかしながら、単純に共分散の対角成分も考慮することとしてしまうと、上述したとおり、計算量が増大してしまい、実用的でない。
【0030】
一方で、近年、観測ベクトルに対する連続値を有する潜在的な表現が、パターン認識のために役立つことが見出されている。なぜならば、それらは観測ベクトル間の相関をコンパクトに表現することができるからである。
【0031】
たとえば、このような潜在的表現は、プリンシプルコンポーネント分析(PCA)(たとえば、非特許文献1を参照)および要因分析(FA)(たとえば、非特許文献2)によって実行されている。これらの潜在的表現は、イメージプロセッシングや、特に音声認識(たとえば、非特許文献3)における因子分析HMM(Facter Analysis HMM:FA−HMM)法などさまざまな応用が見出されている。
【0032】
【非特許文献1】
I. T. Jolliffe, Principle Component Analysis, Springer−Verlag, 1986.
【0033】
【非特許文献2】
D. Rubin and D. Thayer, “EM algorithms for ML factor analysis,” Psychometrika, vol. 47, no.1, pp. 69−76, 1982.
【0034】
【非特許文献3】
L. K. Saul and M. G. Rahim, “Maximum likelihood and minimum classification error factor analysis for automatic speech recognition,” IEEE Trans. on SAP, vol. 8, no.2, pp. 115−125, March 2000.
【0035】
【発明が解決しようとする課題】
上述したような従来の潜在表現の方法においては、導入された潜在的な空間におけるベクトルは、その空間をXで表わすとすると、ガウス分布N(・;0,I)分布するものとしている。すなわち、平均値0であって、単位共分散を有するガウス分布であるものとされている。
【0036】
しかしながら、このような潜在表現(潜在ベクトル)を音声認識に用いた場合に、シンボル出現確率を表現するための確率分布のパラメータ数を抑制しつつ、認識精度を向上させる構成をいかにするべきかについては、必ずしもあきらかでない。
【0037】
本発明は、上記のような上記のような問題点を解決するためになされたものであって、その目的は、モデルを表現するためのパラメータ数を抑制しつつ、認識精度を向上させることが可能な音声認識システムを提供することである。
【0038】
【課題を解決するための手段】
上記のような課題を解決するために本発明に係る音声認識システムは、発話に対応する音声に基づいて、音声を測定するフレームごとに特徴情報を抽出するための特徴抽出手段と、予め学習された複数の隠れマルコフモデルを格納するための記憶手段とを備え、隠れマルコフモデルの各々は、隠れ状態に依存する混合ガウス分布により観測ベクトルの出力確率を与える第1の出力確率導出手段と、隠れ状態に独立した第1の潜在ベクトルを生成するための潜在ベクトル生成手段と、隠れ状態と第1の潜在ベクトルとに依存して第2の潜在ベクトルを導出して、第2の潜在ベクトルに応じて観測ベクトルの出力確率を与える第2の出力確率導出手段とを含み、特徴抽出部の出力を受けて、隠れマルコフモデルに基づく音響モデルとのマッチングをとりつつ探索を行うことで音声認識を行う探索手段とを備える。
【0039】
好ましくは、第1の潜在ベクトルの次元は、第2の潜在ベクトルの次元よりも小さい。
【0040】
【発明の実施の形態】
[システムの構成]
図1は、本発明の実施の形態1の音声認識システム100の構成を示す概略ブロック図である。
【0041】
図1を参照して、音声認識システム100は、話者(システム利用者)2からの音声を受け取るためのマイクロフォン102と、マイクロフォン102からの音声入力を受けて音声認識を行うための認識処理部110と、認識処理部110からの認識結果を表示するための表示出力部(たとえば、ディスプレイ)120とを備える。
【0042】
認識処理部110は、認識処理部110と外部とのデータの授受を制御するためのデータ入出力部70と、音声入力を受けて、デジタル信号に変換するためのA/D変換器10と、A/D変換器10の出力を受けて、フィルタリング等の信号処理を行なうための信号処理部20と、信号処理部20の出力を受けて、ケプストラム係数等の特徴ベクトルを抽出するための特徴ベクトル抽出部30と、予め学習等により生成されるHMMによる音韻モデルデータを格納しておくための音響モデルデータベース40と、認識するべき単語の事前確率に対応する統計データを格納している言語モデルデータベース50と、特徴ベクトル抽出部30からの出力を受けて、音響モデルデータベース40中のデータおよび言語モデルデータベース50中のデータとに基づいて、入力された特徴ベクトルに対応する認識すべき各音声(たとえば単語)を探索するための探索部60とを備える。探索部60は、データ入出力部70を介して、音声認識の結果を表示出力部120出力する。
【0043】
なお、以下に説明するような音声認識システム100の処理は、特徴ベクトル抽出部30や探索部60が行う処理を記述するためのプログラムと音響モデルデータベース40と言語モデルデータベース50とに保持されるべき初期データとを格納した記録媒体から、音声入力機能を有するコンピュータにこれらのプログラムおよびデータをインストールすることによっても実現可能である。このような記録媒体としては、特に限定されないが、たとえば、CD−ROMやDVD−ROM等を用いることができる。あるいは、これらのプログラムやデータは、インターネット等の通信回線を介して、音声入力機能を有するコンピュータにダウンロードすることも可能である。
【0044】
[音響モデルデータベース40中の音響モデル]
以下、音響モデルデータベース40に格納される本発明の音響モデルデータについてさらに詳しく説明する。
【0045】
[一般的な因子分析HMM]
以下に説明するように、本発明におけるアプローチの重要な点は、観測ベクトルyt∈RNについての音響単位(音素)従属な潜在表現ベクトルxt∈RLを導入することと、さらに、潜在ベクトルxtについての音響単位独立な潜在表現ベクトルzt∈RKを導入することである。潜在表現ベクトルztは、音響単位独立であるために、音響単位従属負荷マトリックスによって、音響単位従属な潜在ベクトルxtを生成するためのソースと考えることができる。以下このような潜在ベクトルを2段階に用いて、HMMを表現する本発明のモデルを「一般的な因子分析HMM」と呼ぶ。
【0046】
図2は、一般化された因子分析HMMの図形的なモデルを示す図である。
図2において、丸い円と四角とは、それぞれ連続数値および離散数値のノードを示している。ハッチングされたノードは、観測シンボルyt(時刻t)およびyt+1(時刻t+1)を示している。また、qtは、HMMにおける内部状態{1,…,S}のうち、時刻tにおける離散的な状態を示している。Q(t)=(q1,…,qt,qt+1,…,qT)は、状態pから状態qへの一次の状態遷移確率apqによる離散状態系列を示している。この状態系列は、音声における意味論的な系列を示すものである。
【0047】
2つの連続値変数xtおよびytは、離散的な状態系列に従属するものであるのに対し、連続変数ztは、離散的な状態系列とは独立なものである。
【0048】
状態qtにおいて、混合ガウス分布のうちmtで表わされるガウス分布(平均μqm,対角分散Σqm)で表わされる分布確率と後に説明するようにベクトルxtおよびΛqに依存して、観測ベクトルytが出力される。
【0049】
連続値のノードであるyt、xtおよびztは、階層的な構造を有している。最も高い階層においては、ベクトルxtは、状態qにおける次元L×Kの状態依存負荷マトリックスCqによって、以下に示す式(1)〜(2)にしたがって、因子分析によりベクトルztから生成される。
【0050】
【数1】
【0051】
ここで、ベクトルζqtは、潜在空間Xにおけるノイズを表わしている。添え字qは状態を示し、添え字tは時刻を示す。このノイズは、混合ガウス分布によってモデル化される。この混合ガウス分布は以下の式で表わされる。
【0052】
【数2】
【0053】
ここで、この混合ガウス分布においては、各ガウス分布は係数cqjの重みを有している。また、このガウス分布において、Vqjは対角共分散である。さらに、Mq xは、潜在空間Xにおいて、状態qに対する混合状態要素の数を示している。
【0054】
対角共分散Vqjにおける要素は、同一の値を有するようには制限されているわけではないので、上述した関数は、状態qにおける各要素j∈{1,…,Mq x}における潜在ベクトルxtについての因子分析である。観測値ytは、以下のモデルによって潜在ベクトルxtと関連している。
【0055】
【数3】
【0056】
この式(3)では、潜在ベクトルxtは、FA−HMMのモデルとして表現されることを示す。ここで、観測ノイズvqtは、以下の混合ガウス分布に従って分布しているものとする。
【0057】
【数4】
【0058】
ここで、各ガウス分布は係数πqmの重みを有しているものとする。また、Mq yは、Y空間における状態qの混合要素の数を表わしている。さらに、Σqmは、要素(n,n)に対するσ2 qmnを有する対角要素である。
【0059】
σ2 qmnの値は、n∈(1,…,N)に対してすべて同一の値をとるように制限されているわけではない。Λqは、次元N×Lの状態依存の負荷マトリックスである。
【0060】
図2において見られるように、潜在ベクトルxtから観測値ytへのリンクおよびΛqのリンクが存在しない場合は、このモデルは一般的なHMMとなる。
【0061】
図3は、このような一般的なHMMの例を示す図である。
従来のHMMにおいては、状態qtにおいて、混合ガウス分布のうちmtで表わされるガウス分布(平均μqm,分散Σqm)で表わされる分布確率で、観測ベクトルytが出力される。
【0062】
さらに、図2において、ベクトルztからytへの確率的なリンクを付加し、かつベクトルxtから観測値ytへのリンクを消去すると、これは、上述した非特許文献3に示される因子分析HMM(FA−HMM)が得られる。
【0063】
図4は、このような従来のFA−HMMの構成を示す図である。
図2と図4とを比べると、図4では、潜在ベクトルxtと観測ベクトルytとは同一の次元である必要があるのに対し、図2では、潜在ベクトルztの導入により、より少ない次元のベクトルztから潜在ベクトルxtが生成されるので、より少ないパラメータで、非対角の共分散の効果を表す潜在ベクトルxtを表現することができる。
【0064】
すなわち、上述した関数(1)および(2)は潜在ベクトルxtの簡潔な表現である。ベクトルztは、意味論的には独立である(すなわち音響的に独立である)。状態に依存するCqは、いわゆる「ボーカルトラクトフィルタ(Vocal Tract Filter)」として動作するので、意味論的に従属したベクトルxtが生成され得る。このようなわけで、上述したようなモデルを「一般化された因子分析HMM」と呼ぶ。
【0065】
[一般化された因子分析HMM(GFA−HMM)における最尤パラメータ評価]
系列Q(T)、X(T)、Z(T)、M(T)およびJ(T)は、隠れ状態であるため、モデルパラメータΘの最尤評価を反復的ないわゆるEM(Expectation−Maximization)アルゴリズムによって実行することができる。EMアルゴリズムにおいては、以前のモデルパラメータΘから計算された隠れ状態系列の事後確率について、現在のモデルパラメータΘハット(Θの上部に“^”がつけられたもの、以下他の変数でも“^”がつけられたものをハットと呼ぶ)で計算された結合ログ尤度の平均として補助関数Qが定義される。
【0066】
すなわち以下のとおりの定義が行なわれる。
【0067】
【数5】
【0068】
つまり、モデルパラメータΘの初期値を設定したのち、補助関数Qを最大とするΘハットを最尤推定し、モデルパラメータΘの値をΘハットに設定して、所定の収束条件が満たされるまで、補助関数QによるΘハットの最尤推定を繰り返すという手続きをとる。
【0069】
ここで、δqmj(t)は、以前のステップで得られているモデルパラメータΘから計算されるものである。
【0070】
各要素は、それぞれ、{aqpハット,πqmハット}、{Cqハット,cqjハット,ξqjハット,Vqjハット}および{μqmハット,Σqmハット}のそれぞれの関数であるので、パラメータ評価は、これらに対して各々別々に実施することができる。補助関数を解くことは、それらの事後統計が必要となる。
【0071】
(事後統計の計算)
時刻tにおける、状態qにおける尤度、空間Yにおける混合要素m、空間Xにおける混合要素jの値が以下のとおり与えられる。
【0072】
【数6】
【0073】
ここで、上付き添え字のTは転置を意味している。マージナライズをすることによって、確率p(yt|q,m)と確率p(yt|q)とを得ることができる。
【0074】
以前のモデルパラメータΘ、状態qにいる事後確率、空間Yにおける混合要素mと空間Xにおける混合要素jの時刻tにおける値とが与えられているものとすると、γqmj(t)=p(qmj|Y(T); Θ)は、上述した尤度を用いたフォワードバックウォードアルゴリズムによって以下のように得ることができる。
【0075】
【数7】
【0076】
上述した事後確率をマージナライズすることで、状態qと混合要素mにおける事後確率γqm(t)、状態qにおける事後確率γq(t)とを得ることができる。
【0077】
連続値の隠れ系列X(T)の事後分布に関しては、ベイズの規則に従えば、以下のとおり与えられる。
【0078】
【数8】
【0079】
上述した関数の各要素は、ガウス分布であるので、事後分布は、またガウス分布である。事後分布p(xt|yt,q,m,j;Θ)は、ガウス分布N(xt;φxqmj(t),Ψxqmj)として与えられる。
【0080】
ここで、以下の式が成り立つ。
【0081】
【数9】
【0082】
さらに、関数Φxqmj(t)を以下のとおり定義する。
【0083】
【数10】
【0084】
式(9)と式(10)を組合せることとすると、事後平均φx qm(t)と、事後分散Ψx qm(t)とは以下のとおり表わされる。
【0085】
【数11】
【0086】
同様に、φx q(t)とΦx q(t)も表わすことができる。
ここで、p(zt)〜N(zt;0,I)とp(xt|zt,q,m,j;Θ)はガウス分布であるので、潜在ベクトルztの事後分布もまたガウス分布N(zt;φzqmj(t),Ψzqmj(t))である。
【0087】
このようにして、第1および第2のオーダの統計のみが必要となるだけである。
【0088】
潜在ベクトルztに対する事後統計の計算をこのようにして簡略化することができる。なぜならば、xtの事後平均ベクトルであるφx qmj(t)は、関数(1)および(2)に対して変数xtの観測ベクトルとして得られるからである。
【0089】
このようなわけで同様にして式(9)および(10)において、変数ztの事後統計は、以下の式で与えられる。
【0090】
【数12】
【0091】
ここでも、関数Φzqmj(t)を以下のとおり定義する。
【0092】
【数13】
【0093】
ここで、モデルパラメータΘハットを更新するためのEMアルゴリズムは、上述した事後統計の積算を含んでいる。このようなパラメータ評価のためのEMアルゴリズムの手続きは次のとおりである。
【0094】
(パラメータ評価のためのEMアルゴリズム)
再評価のための式は以下の式(13)〜(15)として与えられる。
【0095】
【数14】
【0096】
負荷行列Λqハットは、行ごとに評価される。新たな負荷行列Λqハットの第n番目の行ベクトルλqnハットは、以下の式(16)で表現される。
【0097】
【数15】
【0098】
ここで、L×L行列のGqnとL次元のベクトルkqnは、以下のとおり定義される。
【0099】
【数16】
【0100】
ここで、ytnとμqmnとは、それぞれ、現在の観測ベクトルと観測ノイズの平均ベクトルのn番目の要素である。
【0101】
空間Xにおける「観測ベクトル」をφxqmj(t)とすると{Cqハット,ξqjハット,Vqjハット}の再評価式も上記の式と同様にして導き出される。このような再評価式は以下のとおりである。
【0102】
【数17】
【0103】
式(13)におけるのと同様に、負荷行列Cqハットも、行ごとに計算される。混合分布の重みについての最大化の補助関数(5)は、最終的に以下のような更新式(22)〜(23)になる。
【0104】
【数18】
【0105】
以上のような手続きにより、モデルを表現するためのパラメータ数を抑制しつつ、認識精度を向上させることが可能となる。
【0106】
[実験結果]
(実験条件)
上述したような一般化された因子分析HMM(GFA−HMM)を、通常のHMMと比較した結果を以下説明する。
【0107】
このような比較は、オーロラ2データベースに対して行なわれた。このようなオーロラ2データベースについては、文献:D. Pearce, “Aurora project: Experimental framework for the performance evaluation of distributed speechrecognition front−ends,” in ISCA ITRW ASR2000, Sep. 2000.に開示されている。
【0108】
認識のための特徴は、39次元の、ケプストラム係数およびその第1および第2次の係数であった。データベースにおける雑音のないトレーニングセット中の1000個の発声がトレーニングのための音響モデルとして用いられた。
【0109】
すべてのシステムにおける音響モデルは6回の反復を有するEMアルゴリズムによって訓練された。すべての音響モデルにおいて、状態の数は数字に対しては10個であり、無音状態に対しては3個であった。
【0110】
従来のHMMは、単に、混合要素の数My qの数を適合させることができるのみである。したがって、モデルに対するパラメータの自由度(NoFP)は、S×(2N)×My qである。
【0111】
GFA−HMMの構成はよりフレキシブルである。空間Xにおける混合要素の数、Mx qおよび空間Xの次元Lとを変化させた。空間Zの次元は一次元としている。また、混合要素の数My qも1とされている。潜在的なパラメータ{Λq,ηqj,Vqj,Cq}は、各音響モデルに対する状態間で共有されている。GFA−HMMの単語モデルに対しては、パラメータの自由度NoFPは、S×(2N)+(n+1)×L+(2×L)×Mx qである。
【0112】
(実験結果)
表1は、混合モデルに対するパラメータの自由度と単語の認識精度を従来のHMMのテストによって得られたものである。表1においては、これらの値が空間Yにおける混合要素の数My qの関数として示されている。
【0113】
【表1】
【0114】
表1では、混合要素の数My qを4と設定することにより、最高の認識精度88.93%が得られている。そのような場合においてパラメータの自由度NoFPは、単語モデルに対して2496となっている。
【0115】
一方、表2は、GFA−HMMにおける結果である。
【0116】
【表2】
【0117】
GFA−HMMにおいては、同数のトレーニングデータに対して、従来のHMMを越えるより高い認識精度が達成されている。たとえば、L=1を維持したまま、空間Xにおける混合要素を増やしていくことによって、認識精度は向上していく。最高の単語認識精度は、L=1およびMx q=4と設定した場合において90.93%である。さらに、従来のHMMによるものに比べてずっと少ないパラメータの自由度でよい。たとえば、この場合においては、パラメータの自由度NoFPは672である。
【0118】
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
【0119】
【発明の効果】
以上説明したとおり、本発明に係る音声認識システムにおいては、モデルを表現するためのパラメータ数を抑制しつつ、認識精度を向上させることが可能である。
【図面の簡単な説明】
【図1】本発明の実施の形態1の音声認識システム100の構成を示す概略ブロック図である。
【図2】一般化された因子分析HMMの図形的なモデルを示す図である。
【図3】一般的なHMMの例を示す図である。
【図4】従来のFA−HMMの構成を示す図である。
【図5】HMMを図解的に示す概念図である。
【図6】第1のケプストラム係数C1および第2のケプストラム係数C2との相関関係を示す図である。
【図7】混合分布を採用した場合のモデル分布の構成を示す図である。
【図8】実測されるケプストラム係数間の共分散を示す図である。
【符号の説明】
2 話者、10 A/D変換器、20 信号処理部、30 特徴ベクトル抽出部、40 音響モデルデータベース、50 言語モデルデータベース、60 探索部、70 データ入出力部、100 音声認識システム、102 マイクロフォン、110 認識処理部、120 表示出力部。
Claims (2)
- 音声認識システムであって、
発話に対応する音声に基づいて、前記音声を測定するフレームごとに特徴情報を抽出するための特徴抽出手段と、
予め学習された複数の隠れマルコフモデルを格納するための記憶手段とを備え、
前記隠れマルコフモデルの各々は、
隠れ状態に依存する混合ガウス分布により観測ベクトルの出力確率を与える第1の出力確率導出手段と、
前記隠れ状態に独立した第1の潜在ベクトルを生成するための潜在ベクトル生成手段と、
前記隠れ状態と前記第1の潜在ベクトルとに依存して第2の潜在ベクトルを導出して、前記第2の潜在ベクトルに応じて前記観測ベクトルの出力確率を与える第2の出力確率導出手段とを含み、
前記特徴抽出部の出力を受けて、前記隠れマルコフモデルに基づく音響モデルとのマッチングをとりつつ探索を行うことで音声認識を行う探索手段とを備える、音声認識システム。 - 前記第1の潜在ベクトルの次元は、前記第2の潜在ベクトルの次元よりも小さい、請求項1記載の音声認識システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002277541A JP4004368B2 (ja) | 2002-09-24 | 2002-09-24 | 音声認識システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002277541A JP4004368B2 (ja) | 2002-09-24 | 2002-09-24 | 音声認識システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004117530A true JP2004117530A (ja) | 2004-04-15 |
JP4004368B2 JP4004368B2 (ja) | 2007-11-07 |
Family
ID=32273108
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002277541A Expired - Lifetime JP4004368B2 (ja) | 2002-09-24 | 2002-09-24 | 音声認識システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4004368B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006227030A (ja) * | 2005-01-20 | 2006-08-31 | Advanced Telecommunication Research Institute International | 発音評定装置、およびプログラム |
JP2009139769A (ja) * | 2007-12-07 | 2009-06-25 | Sony Corp | 信号処理装置、信号処理方法及びプログラム |
CN116092056A (zh) * | 2023-03-06 | 2023-05-09 | 安徽蔚来智驾科技有限公司 | 目标识别方法、车辆控制方法、设备、介质及车辆 |
-
2002
- 2002-09-24 JP JP2002277541A patent/JP4004368B2/ja not_active Expired - Lifetime
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006227030A (ja) * | 2005-01-20 | 2006-08-31 | Advanced Telecommunication Research Institute International | 発音評定装置、およびプログラム |
JP2009139769A (ja) * | 2007-12-07 | 2009-06-25 | Sony Corp | 信号処理装置、信号処理方法及びプログラム |
US7863512B2 (en) | 2007-12-07 | 2011-01-04 | Sony Corporation | Signal processing device, signal processing method, and program |
JP4640407B2 (ja) * | 2007-12-07 | 2011-03-02 | ソニー株式会社 | 信号処理装置、信号処理方法及びプログラム |
CN116092056A (zh) * | 2023-03-06 | 2023-05-09 | 安徽蔚来智驾科技有限公司 | 目标识别方法、车辆控制方法、设备、介质及车辆 |
Also Published As
Publication number | Publication date |
---|---|
JP4004368B2 (ja) | 2007-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5423670B2 (ja) | 音響モデル学習装置および音声認識装置 | |
JP3933750B2 (ja) | 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置 | |
EP1515305B1 (en) | Noise adaption for speech recognition | |
JP2996926B2 (ja) | 音素シンボルの事後確率演算装置及び音声認識装置 | |
US8918318B2 (en) | Extended recognition dictionary learning device and speech recognition system | |
WO2016190077A1 (ja) | 音声認識装置及びコンピュータプログラム | |
JP2015102806A (ja) | 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム | |
JP5249967B2 (ja) | 音声認識装置、重みベクトル学習装置、音声認識方法、重みベクトル学習方法、プログラム | |
Du et al. | A feature compensation approach using high-order vector Taylor series approximation of an explicit distortion model for noisy speech recognition | |
JP4512848B2 (ja) | 雑音抑圧装置及び音声認識システム | |
JP6499095B2 (ja) | 信号処理方法、信号処理装置及び信号処理プログラム | |
Ketabdar et al. | Enhanced phone posteriors for improving speech recognition systems | |
JP4950600B2 (ja) | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 | |
JP4964194B2 (ja) | 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体 | |
Yu et al. | Hidden Markov models and the variants | |
JP2018013722A (ja) | 音響モデル最適化装置及びそのためのコンピュータプログラム | |
JP4891806B2 (ja) | 適応モデル学習方法とその装置、それを用いた音声認識用音響モデル作成方法とその装置、及び音響モデルを用いた音声認識方法とその装置、及びそれら装置のプログラムと、それらプログラムの記憶媒体 | |
JP4004368B2 (ja) | 音声認識システム | |
Zhang et al. | Sparse inverse covariance matrices for low resource speech recognition | |
JP2007078943A (ja) | 音響スコア計算プログラム | |
Ma et al. | Efficient decoding strategies for conversational speech recognition using a constrained nonlinear state-space model | |
Liu et al. | Temporally varying weight regression: A semi-parametric trajectory model for automatic speech recognition | |
JP2006201265A (ja) | 音声認識装置 | |
Bilmes | Graphical models and automatic speech recognition | |
Benmachiche et al. | Evolutionary learning of HMM with Gaussian mixture densities for Automatic speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040617 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060926 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061017 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061218 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070807 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070821 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4004368 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100831 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100831 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110831 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120831 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120831 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130831 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |