JP4560899B2

JP4560899B2 - 音声認識装置、及び音声認識方法

Info

Publication number: JP4560899B2
Application number: JP2000176894A
Authority: JP
Inventors: 紳一松井
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2000-06-13
Filing date: 2000-06-13
Publication date: 2010-10-13
Anticipated expiration: 2020-06-13
Also published as: JP2001356795A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識装置、及び音声認識方法に係り、詳細には雑音環境下での音声認識に好適な音声認識装置、及び音声認識方法に関する。
【０００２】
【従来の技術】
近年、音声認識の研究が盛んに行われ、部分的には実用されている。その基本的手法はＨＭＭ（Hidden Markov Model；隠れマルコフモデル）を利用した統計手法によるものである。図７を参照してＨＭＭによる音声認識の一般的な手法を説明する。まず、マイクから入力された音声はＡ／Ｄ変換部１０１で量子化された後、フレーム化部１０２によってフレーム（例えばフレーム周波数１０ｍｓ程度の所定処理単位長のタイムスライス）に区切られ、特徴量検出部１０３によってフレーム毎に特徴量が計算される。この特徴量は、多くの場合、ＭＦＣＣ（Mel-Frequency Cepstrum Coefficients；メル周波数ケプストラム係数）と呼ばれる３０次程度のベクトルが使用される。
【０００３】
一方、単語毎にＨＭＭモデル１０５１〜１０５ｎがトレーニング等によって予め与えられている。ＨＭＭモデルとは各単語を音素程度の比較的少ない複数の状態で表し、単語毎に状態の遷移確率と、各状態から入力されたベクトル（特徴量）を出力する確率と、をパラメータとして与えたものである。単語ＨＭＭモデル１０５１〜１０５ｎは音素毎にトレーニングされたＨＭＭモデルをその単語を音素に分解するときの順に結合することによっても得ることができる。
【０００４】
単語ＨＭＭモデル１０５１〜１０５ｎと、入力された音声から計算された特徴量である特徴ベクトル列とが比較部１０４に入力される。比較部１０４ではどのＨＭＭモデルが最も高い確率で与えられた特徴ベクトル列を出力するかを確率計算によって求める。例えば“やま”のＨＭＭモデルHMM（yama）で、入力音声の特徴ベクトル列ｘ（ｉ）を評価する場合は、「モデルHMM（yama）からその特徴ベクトル列ｘ（ｉ）が出力される確率；シンボル（特徴ベクトル）発生確率」を計算する。比較部１０４は各単語ＨＭＭモデルについてシンボル（特徴ベクトル）発生確率を計算し、その確率を最大とするＨＭＭモデルに対応する単語を音声認識結果として出力する。
【０００５】
【発明が解決しようとする課題】
しかしながら、実際に音声認識が行われる環境では雑音による影響が避けられない。雑音環境下における音声認識率を維持するための方法としてＳＳ（Spectrum Subtraction；スペクトラムサブトラクション）や、雑音を加味したＨＭＭモデル等がある。ＳＳとは認識する音声区間に先行する非音声区間の複数フレームの平均スペクトルを雑音スペクトルとし、これを音声スペクトルから減算することでスペクトル中の雑音成分を除去する方法である。ＳＳは有効であるがそれのみでは非定常な雑音には対応できず、雑音を加味したＨＭＭモデルと合わせて使用する必要がある。また、雑音を加味したＨＭＭモデルは雑音の種類や大きさによって多くのモデルを用意しなくてはならなかった。
【０００６】
本発明の課題は、雑音に適応したモデルを特別に用意しなくとも雑音に適応した音声認識を可能とする音声認識装置、及び音声認識方法を提供することである。
【０００７】
【課題を解決するための手段】
以上の課題を解決するため、請求項１記載の発明の音声認識装置は、
隠れマルコフモデルに基づく確率計算を行うことにより入力音声を認識する音声認識装置であって、
入力音声に含まれる雑音量を検出する雑音量検出手段（例えば、図１に示す雑音量検出部２）と、
入力音声の特徴量を検出する特徴量検出手段（例えば、図１に示す特徴量検出部１３）と、
前記雑音量検出手段によって検出した雑音量に基づいて、この雑音量を加味した隠れマルコフモデルの分散を推定し、この推定された分散に応じて、前記特徴量検出手段によって検出された特徴量を調整する特徴量調整手段（例えば、図１に示す特徴ベクトル成分調整部４）と、
この特徴量調整手段によって調整された特徴量を用いて、雑音を加味しない隠れマルコフモデル（例えば、図１に示すＨＭＭモデル１５１〜１５ｎ）に基づいて、前記入力音声を認識する認識手段（例えば、図１に示す比較部１４）と、
を備えることを特徴としている。
【０００８】
また、請求項３記載の発明の音声認識方法は、
隠れマルコフモデルに基づく確率計算を行うことにより入力音声を認識する音声認識方法であって、
入力音声に含まれる雑音量を検出する雑音量検出工程と、
入力音声の特徴量を検出する特徴量検出工程と、
前記雑音量検出工程において検出した雑音量に基づいて、この雑音量を加味した隠れマルコフモデルの分散を推定し、この推定された分散に応じて、前記特徴量検出工程において検出された特徴量を調整する特徴量調整工程と、
この特徴量調整工程において調整された特徴量を用いて、雑音を加味しない隠れマルコフモデルに基づいて、前記入力音声を認識する認識工程と、
を備えることを特徴としている。
【０００９】
この請求項１及び請求項３記載の発明によれば、入力音声に含まれる雑音量に基づいて、この雑音量を加味した隠れマルコフモデルの分散を推定し、この推定された分散に応じて、前記入力音声の特徴量を調整し、この調整された特徴量を用いて、雑音を加味しない隠れマルコフモデルに基づいて、前記入力音声を認識するので、各種雑音に適した隠れマルコフモデルを持たなくとも雑音に適応した音声認識を行うことが可能となり、多様な雑音が発生する環境下での音声認識率を向上することができる。
【００１０】
また、請求項２記載の発明のように、請求項１記載の音声認識装置において、前記特徴量調整手段は、前記雑音量に比例するように前記特徴量を調整することが有効である。
【００１１】
この請求項２記載の発明によれば、雑音の大きさから比例計算によって特徴量を調整できるので、様々な雑音に適応化することができる。
【００１２】
【発明の実施の形態】
以下、図１〜図６を参照して本発明に係る音声認識装置１の実施の形態を詳細に説明する。
【００１３】
まず構成を説明する。
図１は音声認識装置１の構成を示すブロック図である。
図１に示すように、音声認識装置１は、Ａ／Ｄ変換部１１、フレーム化部１２、特徴量検出部１３、比較部１４、複数の単語ＨＭＭモデル１５１，１５２，・・・１５ｎを備える他、雑音量検出部２、雑音量調整部３、及び特徴ベクトル成分調整部４（特徴量調整手段）を備える。
【００１４】
Ａ／Ｄ変換部１１は、マイクから入力されたアナログ音声信号をＡ／Ｄ変換し、量子化音声信号としてフレーム化部１２及び雑音量検出部２に出力する。
フレーム化部１２は、Ａ／Ｄ変換部１１から入力された量子化音声信号を例えば８〜１６ｍｓ程度のシフト間隔（フレーム周期）で所定の処理単位長（フレーム長；例えば、２０〜４０ｍｓ）に区切る。この区切られた各音声区間をフレームと呼ぶ。フレームは一部重複させるようにして切り出すのが望ましい。
特徴量検出部１３はフレーム毎に特徴量を検出する。特徴量は、例えばＭＦＣＣ（Mel-Frequency Cepstrum Coefficients；メル周波数ケプストラム係数）と呼ばれる３０次程度の特徴ベクトル列を用いる。
【００１５】
ここで、図２を参照してＭＦＣＣの検出工程を説明する。
まず、入力された音声信号について平均値を計算し、エンファシス（高域強調）を施してスペクトルの傾斜を平坦化する。そして、フレーム化部１２においてフレームを切り出す際、元の音声信号に時間窓を乗じて重み付けする。例えば、時間窓としてハミング窓を乗じることによってフレームの両端に急激な変化が起こらないようにしている。その後、特徴量検出部１３はフレーム単位に以下の処理を実行する。人間の聴覚特性に適した特徴量を抽出するため、音の周波数の高さに対して、対数的な特性（メル尺度）を示すような重みがかかるように、ＦＦＴ（高速フーリエ変換；Fast Fourier Transform）を計算して周波数軸に変換し（ステップＳ１）、メル尺度に変換する（ステップＳ２）。更に、対数変換して（ステップＳ３）、重み付けし（ステップＳ４）、ＦＦＴ（ＣＯＳ変換）した後（ステップＳ５）、正規化する（ステップＳ６）。この正規化処理では、各特徴量の平均値がおよそ０になるように正規化される。以上の過程で求められたＭＦＣＣの出力ディメンションはエネルギー（≧０）の対数である。これはＭＦＣＣに限らず、ほぼ全ての特徴量に共通といえる。以下、特徴量検出部１３から出力される特徴量のディメンションはエネルギーの対数であるとして説明する。特徴量検出部１３において検出された特徴量（特徴ベクトル列）は、後述する特徴ベクトル成分調整部４に出力される。なお、特徴量はＭＦＣＣに限定されるものではなくその他のものでもよい。また、特徴ベクトル列の次元も任意である。ここではｎ次元とする。
【００１６】
雑音量検出部２は、Ａ／Ｄ変換部１１で量子化された入力音声信号から雑音量の大きさを検出する。雑音量は、例えば非音声区間においてサンプリングされた音声信号のエネルギー値の二乗和を計算することにより求められる。非音声区間は、例えば認識開始ボタンを押下した瞬間から所定サンプル数とすればよい。なお、雑音量は二乗和で計算したものに限定されるものではなく、他の計算方法によって算出されるものとしてもよい。
【００１７】
雑音量調整部３は、雑音量検出部２において検出された雑音量を、特徴ベクトル成分調整部４における分散推定の際の演算「（分散）＊（雑音量）＝定数」（詳細は後述する）に使用できるように適当なディメンションに変換する。例えば、上述のようにエネルギーの二乗和を雑音量とした場合は、雑音量の平方根をとるようにすればよい。また極端に大きい雑音量を除去するため、リミッタを設けるようにしてもよい。
【００１８】
ここで、ＨＭＭモデル１５１〜１５ｎ及びＨＭＭモデル１５１〜１５ｎを用いた音声認識について図３〜図５を参照して説明する。図３は音声“ｙａｍａ”の状態遷移の様子を模式的に示す図であり、図４は図３の一部を示す図である。また、図５は、シンボル（特徴ベクトル）発生確率分布を表す図である。
【００１９】
図３に示すように、音声“ｙａｍａ”には１２個の状態があると仮定する。図中の円はそれぞれ状態を示し、矢印は状態が遷移する方向を示している。そして図４に示すように、各状態Ａ，Ｂ，Ｃにおいて、状態Ａ→状態Ａ、状態Ｂ→状態Ｂ、状態Ｃ→状態Ｃのように現在の状態を維持する（状態内遷移）確率をそれぞれｐ（ａ）、ｐ（ｂ）、ｐ（ｃ）とし、状態Ａ→状態Ｂ、状態Ｂ→状態Ｃ、状態Ｃ→状態Ｘのように異なる状態へ遷移する（状態間遷移）確率をそれぞれｑ（ａ）、ｑ（ｂ）、ｑ（ｃ）とする。ここで、
ｑ（ａ）＝１−ｐ（ａ）
ｑ（ｂ）＝１−ｐ（ｂ）
ｑ（ｃ）＝１−ｐ（ｃ）
であり、ｐ（ａ）、ｐ（ｂ）、ｐ（ｃ）、ｑ（ａ）、ｑ（ｂ）、ｑ（ｃ）はそれぞれトレーニングによって与えられている。
【００２０】
また、各状態Ａ，Ｂ，Ｃから特徴ベクトルＸを発生する確率はprob(ａ，Ｘ)、prob(ｂ，Ｘ)、prob(ｃ，Ｘ)で表され、それぞれトレーニングによって与えられている。ここでは、確率prob(ａ，Ｘ)は状態内遷移（状態Ａ→状態Ａ）と状態間遷移（状態Ａ→状態Ｂ）とで同一であるとする。prob(ｂ，Ｘ)、prob(ｃ，Ｘ)についても同様とする。
【００２１】
各状態Ａ，Ｂ，Ｃで、特徴ベクトルＸを発生する確率、すなわちシンボル発生確率の分布は図５に示すように混合ガウス分布で表される。図５では簡単のためにベクトルを２次元としている。また、各次元は実際は複数のガウス分布の混合であるが、図５では次式（１）に示す１個のガウス分布を表すこととする。
【００２２】
prob(v0，v1)＝1/（2π*|V｜^1/2）*exp｛−(v0，v1)V^-1(v0，v1)V^t｝・・・(1)
V：共分散行列
【００２３】
一般に、ある状態から与えられた特徴ベクトルの発生確率はprob(状態，特徴ベクトル)で表される。ここで、probは状態毎に与えられたｎ次元混合分布の確率密度である。
【００２４】
ＨＭＭモデルに基づいて音声認識を行う場合は、与えられている各ＨＭＭモデルについて、その各状態から入力音声の特徴ベクトルがいくつ発生するかを確率（シンボル（特徴ベクトル）発生確率）計算によって求められる。シンボル（特徴ベクトル）発生確率を求めるためには、例えば、入力音声の特徴ベクトルがＶ１〜Ｖ２０の２０個のベクトルである場合は、「２０個のベクトルがどの状態でいくつ発生するか」を求めればよい。一例を挙げると、図４において、「Ｖ１、Ｖ２は状態Ａで発生して、Ｖ３は状態Ａから状態Ｂへの遷移中に発生し、Ｖ４〜Ｖ１０は状態Ｂで発生して、Ｖ１１は状態Ｂから状態Ｃへの遷移中に発生し、Ｖ１２〜Ｖ２０は状態Ｃで発生する」とした場合に求められる確率Ｐ１は、次式（２）で表される。
【００２５】
P1=prob(a,V1)*prob(a,V2)*prob(a,V3)*prob(b,V4)*・・・*prob(b,V11)*prob(c,V12)*・・・*prob(c,V20)*(p(a)^2)*(1-p(a))*(p(b)^7)*(1-p(b))*(p(c)^9) ・・・ (2)
【００２６】
同様に「２０個のベクトルがどの状態でいくつ発生するか」の全ての場合について確率Ｐ１，Ｐ２，・・・，Ｐｍを計算する。それらの和ΣＰｍが「ＨＭＭモデルが与えられた（入力された）特徴ベクトル列を発生する確率」となる。以上の確率計算は後述する比較部１４において行われる。
【００２７】
次に、ＨＭＭモデルと雑音の関係を説明する。各シンボル（特徴ベクトル）の発生確率は、前述したように、多次元（混合）ガウス分布で表現される（図５参照）。また、ガウス分布は、Ｇ（μi，σi）で表され（ここで、μ；平均値，σ；共分散値）、入力系（特徴ベクトル）の平均値μi及び共分散行列σiが定まると決定される。以下、雑音が加わった場合の特徴量の平均値及び共分散行列の変化について説明する。
【００２８】
平均値μは特徴量検出部１３において、およそ０になるように正規化されて出力されるため、雑音の有無の影響はない。一方、共分散行列σは計算量低減のため各次元が無相関と仮定する。このためシンボル（特徴ベクトル）発生確率の雑音による影響は分散に反映されると考えればよい。
【００２９】
入力音声と雑音が無相関と仮定すれば、入力音声のエネルギーはノイズエネルギーによって全体的に大きくなる。ＨＭＭモデルの分散は、特徴ベクトルの各成分の分散に対応しているが、これらの分散は雑音によるエネルギーの全体的な増大によって原則的に小さくなる。
【００３０】
すなわち、雑音がないとき、特徴量検出部１３において入力音声の対数を計算する直前のデータの平均値を「２」とし、「±１」の変動がある場合には、その分散ｂ１は次式（３）で表される。
【００３１】
ｂ１＝((Log(3)−Log(2))^2＋(Log(1)−Log(2))^2)/2 ・・・(3)
【００３２】
一方、雑音が加わることにより平均値が例えば「１００」増大した場合、同様の仮定（データに「±１」の変動がある）で分散ｂ２を計算すると、次式（４）となる。
【００３３】
ｂ２＝((Log(103)−Log(102))^2＋(Log(101)−Log(102))^2)/2 ・・・(4)
【００３４】
従って、式（３）及び式（４）より、明らかにｂ１＞ｂ２となる。
以上のことから、雑音が加わった音声でトレーニングしたＨＭＭモデルは、雑音がない音声でトレーニングしたＨＭＭモデルより一般に分散が小さくなるといえる。つまり、雑音が加わると分布全体の分散が小さくなるが、平均値は正規化により不変（０）である。
【００３５】
そこで、本実施の形態の音声認識装置１は、この現象を利用して特徴ベクトル成分調整部４により雑音量に応じて雑音を加味したモデルの分散を推定し、この推定した分散に応じて入力音声の特徴ベクトルの各成分を調整する。そして、比較部１４は、各成分が調整された特徴ベクトルについてのシンボル（特徴ベクトル）発生確率を雑音を加味しないＨＭＭモデル１５１〜１５ｎを用いて求める。
【００３６】
上述の説明の通り、トレーニングする際の雑音量が大きいほどＨＭＭモデルの分散が小さくなるので、雑音を加味したモデルの分散は、検出した雑音量に反比例させて算出する。すなわち、「（分散）＊（雑音量）＝定数」となるように決定する。但し、雑音量は、雑音量調整部３において適当なディメンションに変換されている。また、シンボル（特徴ベクトル）発生確率分布の平均値は０であるから、特徴ベクトルの各成分は推定した分散に反比例するように調整すればよい。つまり、特徴ベクトルの各成分は雑音の大きさから比例計算によって調整すればよい。
【００３７】
図６を参照して特徴ベクトルの各成分の調整の概念を説明する。図６に示すグラフはそれぞれあるＨＭＭモデルに基づくシンボル（特徴ベクトル）発生確率分布を表しており、簡単のために１次元のグラフとしている。これらのグラフにおいて横軸は確率変数である特徴量、縦軸は確率である。また、これらの分布は平均値が０になるように正規化されている。
【００３８】
図６（Ａ）は雑音を含む入力音声を雑音を加味しないＨＭＭモデルで評価した場合のシンボル（特徴ベクトル）発生確率分布を示し、図６（Ｂ）は雑音を加味したＨＭＭモデルで雑音を含む入力音声を評価した場合の確率分布を示している。これらのグラフにおいて図６（Ａ）における観測点Ｐ１（入力音声）は図６（Ｂ）における観測点Ｐ２（入力音声）に対応している。図６（Ｂ）に示すように雑音を加味したＨＭＭモデルを用いて雑音を含む入力音声を評価すれば正しい結果（確率）を得ることができるが、雑音を加味したＨＭＭモデルを雑音毎、単語毎にそれぞれ用意するのは非常に困難である。そこで、本発明では図６（Ｃ）に示すように、特徴ベクトルの各成分を雑音量に応じて調整し、雑音を加味しないＨＭＭモデル（図６（Ａ）のＨＭＭモデル）を用いてシンボル（特徴ベクトル）発生確率を求める。
【００３９】
例えば、図６（Ｂ）に示すように、雑音を加味したモデルでの分散が、雑音を加味しないＨＭＭモデル（図６（Ａ））の１／２倍となる場合は、シンボル（特徴ベクトル）発生確率分布の平均値が０に正規化されていることから、入力音声の特徴ベクトルの各成分を２倍に調整し、雑音を加味していないＨＭＭモデル（図６（Ａ）の分布）で評価することに等しいといえる。
つまり、雑音量が大きい場合のＨＭＭモデルの分散は小さくなるので、雑音量に反比例するように雑音を加味したＨＭＭモデルの分散を推定すればよく、更に、推定した分散に反比例するように特徴ベクトルの各成分を調整して雑音を加味しないモデルで評価すれば、雑音を加味したモデルで評価した場合（図６（Ｂ））と同一の結果（確率）を得ることができる。つまり、特徴ベクトル成分調整部４では、検出した雑音量に比例するように特徴ベクトルの各成分を調整すればよいこととなる。
【００４０】
比較部１４は特徴ベクトル成分調整部４において調整された特徴量に基づいて雑音を加味していない各ＨＭＭモデル１５１〜１５ｎからのシンボル（特徴ベクトル）発生確率を計算し、その確率が最も大きいＨＭＭモデルを音声認識結果として出力する。
【００４１】
次に動作を説明する。
マイクから入力されたアナログ音声信号はＡ／Ｄ変換部１１において量子化音声信号に変換され、フレーム化部１２に入力されるとともに雑音量検出部２に入力される。フレーム化部１２に入力された量子化音声信号は、複数のフレームに区切られ、次に特徴量検出部１３に入力されて、ＭＦＣＣ等の特徴量（特徴ベクトル列）が検出される。一方、雑音量検出部２では入力されたディジタル音声信号から雑音量を検出し、雑音量調整部３において、検出した雑音量を適当なディメンションに変換したり、リミッタによって極端な雑音を除去する。
【００４２】
そして、特徴ベクトル成分調整部４において、雑音量検出部２及び前記雑音量調整部３において検出、調整された雑音量に基づいて前記特徴量検出部１３において検出された特徴ベクトルの各成分を調整する。すなわち、雑音を加味したＨＭＭモデルの分散を推定し（図６（Ｂ）参照）、この推定された分散に応じて特徴ベクトルの大きさを調整する（図６（Ｃ）参照）。雑音を加味したＨＭＭモデルの分散は雑音の大きさに反比例するように決定される。また、雑音を加味したモデルでのシンボル（特徴ベクトル）発生確率の分散を１／ｘ倍にすることは、雑音を加味していないＨＭＭモデルでの確率変数、すなわち、特徴ベクトルの各成分をｘ倍にすることに等しいので、推定された分散に反比例するように特徴ベクトルの各成分を調整する。
【００４３】
つまり、特徴ベクトル成分調整部４は雑音量に比例するように特徴ベクトルの各成分を調整すればよい（図６（Ａ）→図６（Ｃ））。その後、比較部１４では成分が調整された特徴ベクトルについて、雑音を加味していない全てのＨＭＭモデル１５１〜１５ｎでのシンボル（特徴ベクトル）発生確率を計算し、その中で最も確率の高いＨＭＭモデル（単語）を音声認識結果として出力する。
【００４４】
以上説明したように、本実施の形態の音声認識装置１は雑音の大きさによってＨＭＭモデルの分散が変化することを利用して、検出した雑音量から、この雑音を加味したＨＭＭモデルの分散を推定し、推定した分散に応じて特徴量を調整し、調整後の特徴量について雑音を加味していない各ＨＭＭモデル１５１〜１５ｎからのシンボル（特徴ベクトル）発生確率を計算し、その確率が最大となるＨＭＭモデルを音声認識結果とする。
【００４５】
従って、雑音を加味したＨＭＭモデルを特別に持たなくとも、雑音に適応した音声認識を行うことが可能となり、多様な雑音が発生する環境下での音声認識率を向上することができる。
【００４６】
なお、本実施の形態において、検出した雑音量からの分散の推定及び特徴量の調整は計算によって行うものとしたが、例えば、テーブルによって雑音に応じた特徴量の調整を行うようにしてもよい。この場合、テーブルには上述のＨＭＭモデルと雑音との関係を利用して、特徴量の調整量が雑音の大きさに比例するように設定されているものとする。このようにテーブルを用いて特徴量を調整するようにすれば、ある程度予測できる雑音に対しては、分散の推定等の計算を省いて少ない演算量で雑音に適応させることができる。
【００４７】
【発明の効果】
請求項１及び請求項３記載の発明によれば、検出した入力音声に含まれる雑音量に基づいて、この雑音量を加味した隠れマルコフモデルの分散を推定し、この推定された分散に応じて、前記入力音声の特徴量を調整し、この調整された特徴量を用いて、雑音を加味しない隠れマルコフモデルに基づいて、前記入力音声を認識するので、各種雑音に適した隠れマルコフモデルを持たなくとも雑音に適応した音声認識を行うことが可能となり、多様な雑音が発生する環境下での音声認識率を向上することができる。
【００４８】
請求項２記載の発明によれば、雑音の大きさから比例計算によって特徴量を調整できるので、様々な雑音に適応化することができる。
【図面の簡単な説明】
【図１】音声認識装置１の構成を示すブロック図である。
【図２】特徴量（ＭＦＣＣ）の検出工程を示す図である。
【図３】音声“ｙａｍａ”の状態遷移の様子を模式的に示す図である。
【図４】図３の一部を示す図である。
【図５】特徴ベクトルの発生確率分布を示すグラフである。
【図６】特徴量の調整の概念を説明する図である。
【図７】ＨＭＭによる音声認識の従来の手法を説明する図である。
【符号の説明】
１音声認識装置
２雑音量検出部
３雑音量調整部
４特徴ベクトル成分調整部
１１Ａ／Ｄ変換部
１２フレーム化部
１３特徴量検出部
１４比較部
１５１〜１５ｎ単語ＨＭＭ

Claims

隠れマルコフモデルに基づく確率計算を行うことにより入力音声を認識する音声認識装置であって、
入力音声に含まれる雑音量を検出する雑音量検出手段と、
入力音声の特徴量を検出する特徴量検出手段と、
前記雑音量検出手段によって検出した雑音量に基づいて、この雑音量を加味した隠れマルコフモデルの分散を推定し、この推定された分散に応じて、前記特徴量検出手段によって検出された特徴量を調整する特徴量調整手段と、
この特徴量調整手段によって調整された特徴量を用いて、雑音を加味しない隠れマルコフモデルに基づいて、前記入力音声を認識する認識手段と、
を備えることを特徴とする音声認識装置。
前記特徴量調整手段は、前記雑音量に比例するように前記特徴量を調整することを特徴とする請求項１記載の音声認識装置。
隠れマルコフモデルに基づく確率計算を行うことにより入力音声を認識する音声認識方法であって、
入力音声に含まれる雑音量を検出する雑音量検出工程と、
入力音声の特徴量を検出する特徴量検出工程と、
前記雑音量検出工程において検出した雑音量に基づいて、この雑音量を加味した隠れマルコフモデルの分散を推定し、この推定された分散に応じて、前記特徴量検出工程において検出された特徴量を調整する特徴量調整工程と、
この特徴量調整工程において調整された特徴量を用いて、雑音を加味しない隠れマルコフモデルに基づいて、前記入力音声を認識する認識工程と、
を備えることを特徴とする音声認識方法。