JP2004117530A - 音声認識システム - Google Patents

音声認識システム Download PDF

Info

Publication number
JP2004117530A
JP2004117530A JP2002277541A JP2002277541A JP2004117530A JP 2004117530 A JP2004117530 A JP 2004117530A JP 2002277541 A JP2002277541 A JP 2002277541A JP 2002277541 A JP2002277541 A JP 2002277541A JP 2004117530 A JP2004117530 A JP 2004117530A
Authority
JP
Japan
Prior art keywords
vector
hmm
model
state
latent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002277541A
Other languages
English (en)
Other versions
JP4004368B2 (ja
Inventor
Kaishen Yao
ヤオ・カイシェン
Satoru Nakamura
中村 哲
Tatsutake To
党 建武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2002277541A priority Critical patent/JP4004368B2/ja
Publication of JP2004117530A publication Critical patent/JP2004117530A/ja
Application granted granted Critical
Publication of JP4004368B2 publication Critical patent/JP4004368B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Abstract

【課題】モデルを表現するためのパラメータ数を抑制しつつ、認識精度を向上させることが可能な音声認識システムを提供する。
【解決手段】音声認識システムにおいて隠れマルコフモデルの各々は、隠れ状態に依存するmt番目の混合ガウス分布により観測ベクトルの出力確率を与える手段と、隠れ状態に独立した第1の潜在ベクトルzを生成する手段と、隠れ状態と第1の潜在ベクトルzとに依存して第2の潜在ベクトルxを導出し、第2の潜在ベクトルxに応じて観測ベクトルyの出力確率を与える手段とを含む。
【選択図】    図2

Description

【0001】
【発明の属する技術分野】
本発明は、音声認識を行なうための音声認識システムの構成に関する。
【0002】
【従来の技術】
近年の音声認識技術は、統計的手法の導入と、大規模なデータベースの構築により、不特定話者連続音声認識においても、飛躍的に認識率が向上している。
【0003】
このような音声認識システムへの統計的手法の導入においては、いわゆる、「隠れマルコフモデル(以下、HMMと呼ぶ)」が採用されている。すなわち、HMMとは、一般的なマルコフモデルの確率的な自由度をより拡大したモデルといえる。
【0004】
このHMMでは、状態(内部状態)と出力シンボルの2過程を考え、状態が確率的に遷移するとともに、それに応じてシンボルを確率的に出力すると考える。そのとき、外部からは状態の遷移は直接的には観測できず、出力シンボルのみが観測可能である。この意味で、このようなモデルが「HMM(”隠れ”マルコフモデル)」と呼ばれる。
【0005】
図5は、このようなHMMを図解的に示す概念図である。
図5においては、状態数はn個であり、各状態間の遷移に対応して遷移確率aijが定義され、かつ各遷移にはシンボル出力確率が対応している。図5においては、遷移確率a11の状態1から状態1への自己遷移に対応する出力確率のみを例示的に示している。
【0006】
ここでHMMは、次の諸量を規定することによって定義される。
1) 状態の集合:S={s
2) 出力シンボルの集合:Y={y
3) 初期状態とその正規確率
4) 状態遷移確率の集合A={aij
状態sから状態sに遷移する確率。マトリックス[aij]で表わす。
【0007】
5) 各状態におけるシンボル出力確率の集合B={b(y)}
状態sから状態sに遷移して、シンボルyを出力する確率である。
【0008】
6) 終端状態の集合Q={q
以下、HMMによる音声認識についてさらに詳しく説明する。
【0009】
(1) 音声情報の離散シンボル化
マルコフモデルを利用するためには、観測シンボルに対して、音声情報を(有限個の)シンボル集合からのシンボル系列で表現しなければならない。
【0010】
しかも、そのシンボルの総数があまり多くては処理が複雑化して実用的ではなくなる。このような音声情報を離散化する1つの方法としては、いわゆるケプストラム分析が用いられる。このケプストラム分析においては、まず波形を所定の時間間隔のフレームで切出した後、各フレーム毎にフーリエ変換および所定の演算処理を行なうことで、音声情報を有限個のケプストラム係数等の諸係数の集合として表現する。さらに、このようなケプストラム係数等に対して、ベクトル量子化が行なわれる。
【0011】
たとえば、このようなケプストラム分析によって、音声情報は、13次元のケプストラム係数と13次元のΔケプストラム係数と13次元のΔΔケプストラム係数との合計39次元の係数によって表現される。
【0012】
図5において、出力確率の横軸は、このような39次元の係数のうちの1つを表わし、縦軸は、そのような係数の値が出力される連続的な確率を表現している。
【0013】
図5に示した例では、たとえば、2つのピークを有する連続的な確率分布となっている。
【0014】
(2) 認識の原理
HMMを用いた音声認識では、以下のような手続が行なわれる。
【0015】
a) 認識すべき各音声(たとえば単語)に対応して、HMMが作られているとする。
【0016】
b) 入力未知音声を分析し、音声シンボル系列を得る。
c) 観測された音声シンボル系列が、各単語モデルに従って得られる事後確率を計算する。
【0017】
d) 事後確率を相互に比較して、最大の事後確率を与えるモデルに対応する単語を認識の結果とする。
【0018】
したがって、音声情報をどのような離散化された係数で表現するかは、HMMを用いた音声認識の計算量に直結する。
【0019】
図6は、上述したようなケプストラム係数等のうち、第1のケプストラム係数C1および第2のケプストラム係数C2との相関関係を示す図である。
【0020】
図6において、点線で示す分布が母集団分布であるものとする。このような母集団分布を近似するためのモデル分布を実線で示す。
【0021】
上述したような39次元の係数のすべての組合せについて、モデル分布を表現しようとする場合、各係数相互間でのすべての共分散のパラメータを用いることとすると、たとえば39個のパラメータが必要となる。
【0022】
これだけのすべての共分散を用いてモデルを構築することとすると、上述したような、音声認識を行なう際の計算量が膨大となってしまう。
【0023】
そこで、一般には、このような39個の係数要素に対して、対角共分散のみを考慮し、複数のガウス分布の混合分布としてシンボル出力確率を近似することが行なわれる。
【0024】
図7は、このようにして、混合分布を採用した場合のモデル分布の構成を示す図である。
【0025】
なお図7においては、4つのガウス分布によって、母集団分布が近似されている。より一般的には、N個(N:自然数)のガウス分布によって、母集団分布が近似されているものとする。
【0026】
この場合、各ガウス分布を表現するためには、その各々の平均と分散との2つのパラメータが必要となるため、39個の要素に対して、必要となるパラメータの個数は、たとえば、(39×2×N)個となる。これにより、前述したような対角も非対角もすべての共分散を用いる場合の39個のパラメータを用いる場合に比べて、著しくパラメータ数を低減することが可能となる。
【0027】
図8は、実測されるケプストラム係数間の共分散を示す図である。
図8において、X軸およびY軸はケプストラムの次元を表わし、Z軸は、共分散の値を示す。したがって、X軸とY軸の対角方向は、自己相関の大きさを示している。上述したような各出力確率を複数のガウス分布の混合分布として近似する場合には、共分散のうち、図8における対角方向の成分のみを考慮していることに相当する。
【0028】
図8を参照すればわかるように、確かに対角方向の共分散の値が大きな値を有するものの、非対角な共分散の成分も実際には存在しており、より正確な音声認識を行なうためには、このような非対角の共分散成分も考慮したモデル化が必要であることがわかる。
【0029】
しかしながら、単純に共分散の対角成分も考慮することとしてしまうと、上述したとおり、計算量が増大してしまい、実用的でない。
【0030】
一方で、近年、観測ベクトルに対する連続値を有する潜在的な表現が、パターン認識のために役立つことが見出されている。なぜならば、それらは観測ベクトル間の相関をコンパクトに表現することができるからである。
【0031】
たとえば、このような潜在的表現は、プリンシプルコンポーネント分析(PCA)(たとえば、非特許文献1を参照)および要因分析(FA)(たとえば、非特許文献2)によって実行されている。これらの潜在的表現は、イメージプロセッシングや、特に音声認識(たとえば、非特許文献3)における因子分析HMM(Facter Analysis  HMM:FA−HMM)法などさまざまな応用が見出されている。
【0032】
【非特許文献1】
I. T. Jolliffe, Principle Component Analysis, Springer−Verlag, 1986.
【0033】
【非特許文献2】
D. Rubin and D. Thayer, “EM algorithms for ML factor analysis,” Psychometrika, vol. 47, no.1, pp. 69−76, 1982.
【0034】
【非特許文献3】
L. K. Saul and M. G. Rahim, “Maximum likelihood and minimum classification error factor analysis for automatic speech recognition,” IEEE Trans. on SAP, vol. 8, no.2, pp. 115−125, March 2000.
【0035】
【発明が解決しようとする課題】
上述したような従来の潜在表現の方法においては、導入された潜在的な空間におけるベクトルは、その空間をXで表わすとすると、ガウス分布N(・;0,I)分布するものとしている。すなわち、平均値0であって、単位共分散を有するガウス分布であるものとされている。
【0036】
しかしながら、このような潜在表現(潜在ベクトル)を音声認識に用いた場合に、シンボル出現確率を表現するための確率分布のパラメータ数を抑制しつつ、認識精度を向上させる構成をいかにするべきかについては、必ずしもあきらかでない。
【0037】
本発明は、上記のような上記のような問題点を解決するためになされたものであって、その目的は、モデルを表現するためのパラメータ数を抑制しつつ、認識精度を向上させることが可能な音声認識システムを提供することである。
【0038】
【課題を解決するための手段】
上記のような課題を解決するために本発明に係る音声認識システムは、発話に対応する音声に基づいて、音声を測定するフレームごとに特徴情報を抽出するための特徴抽出手段と、予め学習された複数の隠れマルコフモデルを格納するための記憶手段とを備え、隠れマルコフモデルの各々は、隠れ状態に依存する混合ガウス分布により観測ベクトルの出力確率を与える第1の出力確率導出手段と、隠れ状態に独立した第1の潜在ベクトルを生成するための潜在ベクトル生成手段と、隠れ状態と第1の潜在ベクトルとに依存して第2の潜在ベクトルを導出して、第2の潜在ベクトルに応じて観測ベクトルの出力確率を与える第2の出力確率導出手段とを含み、特徴抽出部の出力を受けて、隠れマルコフモデルに基づく音響モデルとのマッチングをとりつつ探索を行うことで音声認識を行う探索手段とを備える。
【0039】
好ましくは、第1の潜在ベクトルの次元は、第2の潜在ベクトルの次元よりも小さい。
【0040】
【発明の実施の形態】
[システムの構成]
図1は、本発明の実施の形態1の音声認識システム100の構成を示す概略ブロック図である。
【0041】
図1を参照して、音声認識システム100は、話者(システム利用者)2からの音声を受け取るためのマイクロフォン102と、マイクロフォン102からの音声入力を受けて音声認識を行うための認識処理部110と、認識処理部110からの認識結果を表示するための表示出力部(たとえば、ディスプレイ)120とを備える。
【0042】
認識処理部110は、認識処理部110と外部とのデータの授受を制御するためのデータ入出力部70と、音声入力を受けて、デジタル信号に変換するためのA/D変換器10と、A/D変換器10の出力を受けて、フィルタリング等の信号処理を行なうための信号処理部20と、信号処理部20の出力を受けて、ケプストラム係数等の特徴ベクトルを抽出するための特徴ベクトル抽出部30と、予め学習等により生成されるHMMによる音韻モデルデータを格納しておくための音響モデルデータベース40と、認識するべき単語の事前確率に対応する統計データを格納している言語モデルデータベース50と、特徴ベクトル抽出部30からの出力を受けて、音響モデルデータベース40中のデータおよび言語モデルデータベース50中のデータとに基づいて、入力された特徴ベクトルに対応する認識すべき各音声(たとえば単語)を探索するための探索部60とを備える。探索部60は、データ入出力部70を介して、音声認識の結果を表示出力部120出力する。
【0043】
なお、以下に説明するような音声認識システム100の処理は、特徴ベクトル抽出部30や探索部60が行う処理を記述するためのプログラムと音響モデルデータベース40と言語モデルデータベース50とに保持されるべき初期データとを格納した記録媒体から、音声入力機能を有するコンピュータにこれらのプログラムおよびデータをインストールすることによっても実現可能である。このような記録媒体としては、特に限定されないが、たとえば、CD−ROMやDVD−ROM等を用いることができる。あるいは、これらのプログラムやデータは、インターネット等の通信回線を介して、音声入力機能を有するコンピュータにダウンロードすることも可能である。
【0044】
[音響モデルデータベース40中の音響モデル]
以下、音響モデルデータベース40に格納される本発明の音響モデルデータについてさらに詳しく説明する。
【0045】
[一般的な因子分析HMM]
以下に説明するように、本発明におけるアプローチの重要な点は、観測ベクトルy∈Rについての音響単位(音素)従属な潜在表現ベクトルx∈Rを導入することと、さらに、潜在ベクトルxについての音響単位独立な潜在表現ベクトルz∈Rを導入することである。潜在表現ベクトルzは、音響単位独立であるために、音響単位従属負荷マトリックスによって、音響単位従属な潜在ベクトルxを生成するためのソースと考えることができる。以下このような潜在ベクトルを2段階に用いて、HMMを表現する本発明のモデルを「一般的な因子分析HMM」と呼ぶ。
【0046】
図2は、一般化された因子分析HMMの図形的なモデルを示す図である。
図2において、丸い円と四角とは、それぞれ連続数値および離散数値のノードを示している。ハッチングされたノードは、観測シンボルy(時刻t)およびyt+1(時刻t+1)を示している。また、qtは、HMMにおける内部状態{1,…,S}のうち、時刻tにおける離散的な状態を示している。Q(t)=(q1,…,qt,qt+1,…,q)は、状態pから状態qへの一次の状態遷移確率apqによる離散状態系列を示している。この状態系列は、音声における意味論的な系列を示すものである。
【0047】
2つの連続値変数xおよびyは、離散的な状態系列に従属するものであるのに対し、連続変数zは、離散的な状態系列とは独立なものである。
【0048】
状態qtにおいて、混合ガウス分布のうちmtで表わされるガウス分布(平均μqm,対角分散Σqm)で表わされる分布確率と後に説明するようにベクトルxおよびΛqに依存して、観測ベクトルyが出力される。
【0049】
連続値のノードであるy、xおよびzは、階層的な構造を有している。最も高い階層においては、ベクトルxは、状態qにおける次元L×Kの状態依存負荷マトリックスCによって、以下に示す式(1)〜(2)にしたがって、因子分析によりベクトルzから生成される。
【0050】
【数1】
Figure 2004117530
【0051】
ここで、ベクトルζqtは、潜在空間Xにおけるノイズを表わしている。添え字qは状態を示し、添え字tは時刻を示す。このノイズは、混合ガウス分布によってモデル化される。この混合ガウス分布は以下の式で表わされる。
【0052】
【数2】
Figure 2004117530
【0053】
ここで、この混合ガウス分布においては、各ガウス分布は係数cqjの重みを有している。また、このガウス分布において、Vqjは対角共分散である。さらに、M は、潜在空間Xにおいて、状態qに対する混合状態要素の数を示している。
【0054】
対角共分散Vqjにおける要素は、同一の値を有するようには制限されているわけではないので、上述した関数は、状態qにおける各要素j∈{1,…,M }における潜在ベクトルxについての因子分析である。観測値yは、以下のモデルによって潜在ベクトルxと関連している。
【0055】
【数3】
Figure 2004117530
【0056】
この式(3)では、潜在ベクトルxは、FA−HMMのモデルとして表現されることを示す。ここで、観測ノイズvqtは、以下の混合ガウス分布に従って分布しているものとする。
【0057】
【数4】
Figure 2004117530
【0058】
ここで、各ガウス分布は係数πqmの重みを有しているものとする。また、M は、Y空間における状態qの混合要素の数を表わしている。さらに、Σqmは、要素(n,n)に対するσ qmnを有する対角要素である。
【0059】
σ qmnの値は、n∈(1,…,N)に対してすべて同一の値をとるように制限されているわけではない。Λは、次元N×Lの状態依存の負荷マトリックスである。
【0060】
図2において見られるように、潜在ベクトルxから観測値yへのリンクおよびΛのリンクが存在しない場合は、このモデルは一般的なHMMとなる。
【0061】
図3は、このような一般的なHMMの例を示す図である。
従来のHMMにおいては、状態qtにおいて、混合ガウス分布のうちmtで表わされるガウス分布(平均μqm,分散Σqm)で表わされる分布確率で、観測ベクトルyが出力される。
【0062】
さらに、図2において、ベクトルzからyへの確率的なリンクを付加し、かつベクトルxから観測値yへのリンクを消去すると、これは、上述した非特許文献3に示される因子分析HMM(FA−HMM)が得られる。
【0063】
図4は、このような従来のFA−HMMの構成を示す図である。
図2と図4とを比べると、図4では、潜在ベクトルxと観測ベクトルyとは同一の次元である必要があるのに対し、図2では、潜在ベクトルzの導入により、より少ない次元のベクトルzから潜在ベクトルxが生成されるので、より少ないパラメータで、非対角の共分散の効果を表す潜在ベクトルxを表現することができる。
【0064】
すなわち、上述した関数(1)および(2)は潜在ベクトルxの簡潔な表現である。ベクトルztは、意味論的には独立である(すなわち音響的に独立である)。状態に依存するCは、いわゆる「ボーカルトラクトフィルタ(Vocal Tract Filter)」として動作するので、意味論的に従属したベクトルxが生成され得る。このようなわけで、上述したようなモデルを「一般化された因子分析HMM」と呼ぶ。
【0065】
[一般化された因子分析HMM(GFA−HMM)における最尤パラメータ評価]
系列Q(T)、X(T)、Z(T)、M(T)およびJ(T)は、隠れ状態であるため、モデルパラメータΘの最尤評価を反復的ないわゆるEM(Expectation−Maximization)アルゴリズムによって実行することができる。EMアルゴリズムにおいては、以前のモデルパラメータΘから計算された隠れ状態系列の事後確率について、現在のモデルパラメータΘハット(Θの上部に“^”がつけられたもの、以下他の変数でも“^”がつけられたものをハットと呼ぶ)で計算された結合ログ尤度の平均として補助関数Qが定義される。
【0066】
すなわち以下のとおりの定義が行なわれる。
【0067】
【数5】
Figure 2004117530
【0068】
つまり、モデルパラメータΘの初期値を設定したのち、補助関数Qを最大とするΘハットを最尤推定し、モデルパラメータΘの値をΘハットに設定して、所定の収束条件が満たされるまで、補助関数QによるΘハットの最尤推定を繰り返すという手続きをとる。
【0069】
ここで、δqmj(t)は、以前のステップで得られているモデルパラメータΘから計算されるものである。
【0070】
各要素は、それぞれ、{aqpハット,πqmハット}、{Cハット,cqjハット,ξqjハット,Vqjハット}および{μqmハット,Σqmハット}のそれぞれの関数であるので、パラメータ評価は、これらに対して各々別々に実施することができる。補助関数を解くことは、それらの事後統計が必要となる。
【0071】
(事後統計の計算)
時刻tにおける、状態qにおける尤度、空間Yにおける混合要素m、空間Xにおける混合要素jの値が以下のとおり与えられる。
【0072】
【数6】
Figure 2004117530
【0073】
ここで、上付き添え字のTは転置を意味している。マージナライズをすることによって、確率p(y|q,m)と確率p(y|q)とを得ることができる。
【0074】
以前のモデルパラメータΘ、状態qにいる事後確率、空間Yにおける混合要素mと空間Xにおける混合要素jの時刻tにおける値とが与えられているものとすると、γqmj(t)=p(qmj|Y(T); Θ)は、上述した尤度を用いたフォワードバックウォードアルゴリズムによって以下のように得ることができる。
【0075】
【数7】
Figure 2004117530
【0076】
上述した事後確率をマージナライズすることで、状態qと混合要素mにおける事後確率γqm(t)、状態qにおける事後確率γ(t)とを得ることができる。
【0077】
連続値の隠れ系列X(T)の事後分布に関しては、ベイズの規則に従えば、以下のとおり与えられる。
【0078】
【数8】
Figure 2004117530
【0079】
上述した関数の各要素は、ガウス分布であるので、事後分布は、またガウス分布である。事後分布p(x|y,q,m,j;Θ)は、ガウス分布N(x;φqmj(t),Ψqmj)として与えられる。
【0080】
ここで、以下の式が成り立つ。
【0081】
【数9】
Figure 2004117530
【0082】
さらに、関数Φqmj(t)を以下のとおり定義する。
【0083】
【数10】
Figure 2004117530
【0084】
式(9)と式(10)を組合せることとすると、事後平均φ qm(t)と、事後分散Ψ qm(t)とは以下のとおり表わされる。
【0085】
【数11】
Figure 2004117530
【0086】
同様に、φ (t)とΦ (t)も表わすことができる。
ここで、p(z)〜N(z;0,I)とp(x|z,q,m,j;Θ)はガウス分布であるので、潜在ベクトルzの事後分布もまたガウス分布N(z;φqmj(t),Ψqmj(t))である。
【0087】
このようにして、第1および第2のオーダの統計のみが必要となるだけである。
【0088】
潜在ベクトルzに対する事後統計の計算をこのようにして簡略化することができる。なぜならば、xの事後平均ベクトルであるφ qmj(t)は、関数(1)および(2)に対して変数xの観測ベクトルとして得られるからである。
【0089】
このようなわけで同様にして式(9)および(10)において、変数zの事後統計は、以下の式で与えられる。
【0090】
【数12】
Figure 2004117530
【0091】
ここでも、関数Φqmj(t)を以下のとおり定義する。
【0092】
【数13】
Figure 2004117530
【0093】
ここで、モデルパラメータΘハットを更新するためのEMアルゴリズムは、上述した事後統計の積算を含んでいる。このようなパラメータ評価のためのEMアルゴリズムの手続きは次のとおりである。
【0094】
(パラメータ評価のためのEMアルゴリズム)
再評価のための式は以下の式(13)〜(15)として与えられる。
【0095】
【数14】
Figure 2004117530
【0096】
負荷行列Λハットは、行ごとに評価される。新たな負荷行列Λハットの第n番目の行ベクトルλqnハットは、以下の式(16)で表現される。
【0097】
【数15】
Figure 2004117530
【0098】
ここで、L×L行列のGqnとL次元のベクトルkqnは、以下のとおり定義される。
【0099】
【数16】
Figure 2004117530
【0100】
ここで、ytnとμqmnとは、それぞれ、現在の観測ベクトルと観測ノイズの平均ベクトルのn番目の要素である。
【0101】
空間Xにおける「観測ベクトル」をφqmj(t)とすると{Cハット,ξqjハット,Vqjハット}の再評価式も上記の式と同様にして導き出される。このような再評価式は以下のとおりである。
【0102】
【数17】
Figure 2004117530
【0103】
式(13)におけるのと同様に、負荷行列Cハットも、行ごとに計算される。混合分布の重みについての最大化の補助関数(5)は、最終的に以下のような更新式(22)〜(23)になる。
【0104】
【数18】
Figure 2004117530
【0105】
以上のような手続きにより、モデルを表現するためのパラメータ数を抑制しつつ、認識精度を向上させることが可能となる。
【0106】
[実験結果]
(実験条件)
上述したような一般化された因子分析HMM(GFA−HMM)を、通常のHMMと比較した結果を以下説明する。
【0107】
このような比較は、オーロラ2データベースに対して行なわれた。このようなオーロラ2データベースについては、文献:D. Pearce, “Aurora project: Experimental framework for the performance evaluation of distributed speechrecognition front−ends,” in ISCA ITRW ASR2000, Sep. 2000.に開示されている。
【0108】
認識のための特徴は、39次元の、ケプストラム係数およびその第1および第2次の係数であった。データベースにおける雑音のないトレーニングセット中の1000個の発声がトレーニングのための音響モデルとして用いられた。
【0109】
すべてのシステムにおける音響モデルは6回の反復を有するEMアルゴリズムによって訓練された。すべての音響モデルにおいて、状態の数は数字に対しては10個であり、無音状態に対しては3個であった。
【0110】
従来のHMMは、単に、混合要素の数M の数を適合させることができるのみである。したがって、モデルに対するパラメータの自由度(NoFP)は、S×(2N)×M である。
【0111】
GFA−HMMの構成はよりフレキシブルである。空間Xにおける混合要素の数、M および空間Xの次元Lとを変化させた。空間Zの次元は一次元としている。また、混合要素の数M も1とされている。潜在的なパラメータ{Λ,ηqj,Vqj,C}は、各音響モデルに対する状態間で共有されている。GFA−HMMの単語モデルに対しては、パラメータの自由度NoFPは、S×(2N)+(n+1)×L+(2×L)×M である。
【0112】
(実験結果)
表1は、混合モデルに対するパラメータの自由度と単語の認識精度を従来のHMMのテストによって得られたものである。表1においては、これらの値が空間Yにおける混合要素の数M の関数として示されている。
【0113】
【表1】
Figure 2004117530
【0114】
表1では、混合要素の数M を4と設定することにより、最高の認識精度88.93%が得られている。そのような場合においてパラメータの自由度NoFPは、単語モデルに対して2496となっている。
【0115】
一方、表2は、GFA−HMMにおける結果である。
【0116】
【表2】
Figure 2004117530
【0117】
GFA−HMMにおいては、同数のトレーニングデータに対して、従来のHMMを越えるより高い認識精度が達成されている。たとえば、L=1を維持したまま、空間Xにおける混合要素を増やしていくことによって、認識精度は向上していく。最高の単語認識精度は、L=1およびM =4と設定した場合において90.93%である。さらに、従来のHMMによるものに比べてずっと少ないパラメータの自由度でよい。たとえば、この場合においては、パラメータの自由度NoFPは672である。
【0118】
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
【0119】
【発明の効果】
以上説明したとおり、本発明に係る音声認識システムにおいては、モデルを表現するためのパラメータ数を抑制しつつ、認識精度を向上させることが可能である。
【図面の簡単な説明】
【図1】本発明の実施の形態1の音声認識システム100の構成を示す概略ブロック図である。
【図2】一般化された因子分析HMMの図形的なモデルを示す図である。
【図3】一般的なHMMの例を示す図である。
【図4】従来のFA−HMMの構成を示す図である。
【図5】HMMを図解的に示す概念図である。
【図6】第1のケプストラム係数C1および第2のケプストラム係数C2との相関関係を示す図である。
【図7】混合分布を採用した場合のモデル分布の構成を示す図である。
【図8】実測されるケプストラム係数間の共分散を示す図である。
【符号の説明】
2 話者、10 A/D変換器、20 信号処理部、30 特徴ベクトル抽出部、40 音響モデルデータベース、50 言語モデルデータベース、60 探索部、70 データ入出力部、100 音声認識システム、102 マイクロフォン、110 認識処理部、120 表示出力部。

Claims (2)

  1. 音声認識システムであって、
    発話に対応する音声に基づいて、前記音声を測定するフレームごとに特徴情報を抽出するための特徴抽出手段と、
    予め学習された複数の隠れマルコフモデルを格納するための記憶手段とを備え、
    前記隠れマルコフモデルの各々は、
    隠れ状態に依存する混合ガウス分布により観測ベクトルの出力確率を与える第1の出力確率導出手段と、
    前記隠れ状態に独立した第1の潜在ベクトルを生成するための潜在ベクトル生成手段と、
    前記隠れ状態と前記第1の潜在ベクトルとに依存して第2の潜在ベクトルを導出して、前記第2の潜在ベクトルに応じて前記観測ベクトルの出力確率を与える第2の出力確率導出手段とを含み、
    前記特徴抽出部の出力を受けて、前記隠れマルコフモデルに基づく音響モデルとのマッチングをとりつつ探索を行うことで音声認識を行う探索手段とを備える、音声認識システム。
  2. 前記第1の潜在ベクトルの次元は、前記第2の潜在ベクトルの次元よりも小さい、請求項1記載の音声認識システム。
JP2002277541A 2002-09-24 2002-09-24 音声認識システム Expired - Lifetime JP4004368B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002277541A JP4004368B2 (ja) 2002-09-24 2002-09-24 音声認識システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002277541A JP4004368B2 (ja) 2002-09-24 2002-09-24 音声認識システム

Publications (2)

Publication Number Publication Date
JP2004117530A true JP2004117530A (ja) 2004-04-15
JP4004368B2 JP4004368B2 (ja) 2007-11-07

Family

ID=32273108

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002277541A Expired - Lifetime JP4004368B2 (ja) 2002-09-24 2002-09-24 音声認識システム

Country Status (1)

Country Link
JP (1) JP4004368B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006227030A (ja) * 2005-01-20 2006-08-31 Advanced Telecommunication Research Institute International 発音評定装置、およびプログラム
JP2009139769A (ja) * 2007-12-07 2009-06-25 Sony Corp 信号処理装置、信号処理方法及びプログラム
CN116092056A (zh) * 2023-03-06 2023-05-09 安徽蔚来智驾科技有限公司 目标识别方法、车辆控制方法、设备、介质及车辆

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006227030A (ja) * 2005-01-20 2006-08-31 Advanced Telecommunication Research Institute International 発音評定装置、およびプログラム
JP2009139769A (ja) * 2007-12-07 2009-06-25 Sony Corp 信号処理装置、信号処理方法及びプログラム
US7863512B2 (en) 2007-12-07 2011-01-04 Sony Corporation Signal processing device, signal processing method, and program
JP4640407B2 (ja) * 2007-12-07 2011-03-02 ソニー株式会社 信号処理装置、信号処理方法及びプログラム
CN116092056A (zh) * 2023-03-06 2023-05-09 安徽蔚来智驾科技有限公司 目标识别方法、车辆控制方法、设备、介质及车辆

Also Published As

Publication number Publication date
JP4004368B2 (ja) 2007-11-07

Similar Documents

Publication Publication Date Title
JP5423670B2 (ja) 音響モデル学習装置および音声認識装置
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
EP1515305B1 (en) Noise adaption for speech recognition
JP2996926B2 (ja) 音素シンボルの事後確率演算装置及び音声認識装置
US8918318B2 (en) Extended recognition dictionary learning device and speech recognition system
WO2016190077A1 (ja) 音声認識装置及びコンピュータプログラム
JP2015102806A (ja) 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム
JP5249967B2 (ja) 音声認識装置、重みベクトル学習装置、音声認識方法、重みベクトル学習方法、プログラム
Du et al. A feature compensation approach using high-order vector Taylor series approximation of an explicit distortion model for noisy speech recognition
JP4512848B2 (ja) 雑音抑圧装置及び音声認識システム
JP6499095B2 (ja) 信号処理方法、信号処理装置及び信号処理プログラム
Ketabdar et al. Enhanced phone posteriors for improving speech recognition systems
JP4950600B2 (ja) 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
JP4964194B2 (ja) 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体
Yu et al. Hidden Markov models and the variants
JP2018013722A (ja) 音響モデル最適化装置及びそのためのコンピュータプログラム
JP4891806B2 (ja) 適応モデル学習方法とその装置、それを用いた音声認識用音響モデル作成方法とその装置、及び音響モデルを用いた音声認識方法とその装置、及びそれら装置のプログラムと、それらプログラムの記憶媒体
JP4004368B2 (ja) 音声認識システム
Zhang et al. Sparse inverse covariance matrices for low resource speech recognition
JP2007078943A (ja) 音響スコア計算プログラム
Ma et al. Efficient decoding strategies for conversational speech recognition using a constrained nonlinear state-space model
Liu et al. Temporally varying weight regression: A semi-parametric trajectory model for automatic speech recognition
JP2006201265A (ja) 音声認識装置
Bilmes Graphical models and automatic speech recognition
Benmachiche et al. Evolutionary learning of HMM with Gaussian mixture densities for Automatic speech recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040617

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060926

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061017

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061218

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070807

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070821

R150 Certificate of patent or registration of utility model

Ref document number: 4004368

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100831

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100831

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110831

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120831

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120831

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130831

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term