JP2001356795A

JP2001356795A - 音声認識装置、及び音声認識方法

Info

Publication number: JP2001356795A
Application number: JP2000176894A
Authority: JP
Inventors: Shinichi Matsui; 紳一松井
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2000-06-13
Filing date: 2000-06-13
Publication date: 2001-12-26
Anticipated expiration: 2020-06-13
Also published as: JP4560899B2

Abstract

(57)【要約】【課題】本発明の課題は、雑音に適応したモデルを特
別に用意しなくとも雑音に適応した音声認識を可能とす
る音声認識装置、及び音声認識方法を提供することであ
る。【解決手段】特徴ベクトル成分調整部４は、入力音声
に含まれる雑音量に基づいて、この雑音量を加味した隠
れマルコフモデルの分散を推定し、この推定された分散
に応じて、前記入力音声の特徴量を調整する。比較部１
４は、この調整された特徴量を用いて、雑音を加味しな
い隠れマルコフモデル１５１〜１５ｎに基づいて、前記
入力音声を認識する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識装置、及
び音声認識方法に係り、詳細には雑音環境下での音声認
識に好適な音声認識装置、及び音声認識方法に関する。

【０００２】

【従来の技術】近年、音声認識の研究が盛んに行われ、
部分的には実用されている。その基本的手法はＨＭＭ
（Hidden Markov Model；隠れマルコフモデル）を利用
した統計手法によるものである。図７を参照してＨＭＭ
による音声認識の一般的な手法を説明する。まず、マイ
クから入力された音声はＡ／Ｄ変換部１０１で量子化さ
れた後、フレーム化部１０２によってフレーム（例えば
フレーム周波数１０ｍｓ程度の所定処理単位長のタイム
スライス）に区切られ、特徴量検出部１０３によってフ
レーム毎に特徴量が計算される。この特徴量は、多くの
場合、ＭＦＣＣ（Mel-Frequency Cepstrum Coefficient
s；メル周波数ケプストラム係数）と呼ばれる３０次程
度のベクトルが使用される。

【０００３】一方、単語毎にＨＭＭモデル１０５１〜１
０５ｎがトレーニング等によって予め与えられている。
ＨＭＭモデルとは各単語を音素程度の比較的少ない複数
の状態で表し、単語毎に状態の遷移確率と、各状態から
入力されたベクトル（特徴量）を出力する確率と、をパ
ラメータとして与えたものである。単語ＨＭＭモデル１
０５１〜１０５ｎは音素毎にトレーニングされたＨＭＭ
モデルをその単語を音素に分解するときの順に結合する
ことによっても得ることができる。

【０００４】単語ＨＭＭモデル１０５１〜１０５ｎと、
入力された音声から計算された特徴量である特徴ベクト
ル列とが比較部１０４に入力される。比較部１０４では
どのＨＭＭモデルが最も高い確率で与えられた特徴ベク
トル列を出力するかを確率計算によって求める。例えば
“やま”のＨＭＭモデルHMM（yama）で、入力音声の特
徴ベクトル列ｘ（ｉ）を評価する場合は、「モデルHMM
（yama）からその特徴ベクトル列ｘ（ｉ）が出力される
確率；シンボル（特徴ベクトル）発生確率」を計算す
る。比較部１０４は各単語ＨＭＭモデルについてシンボ
ル（特徴ベクトル）発生確率を計算し、その確率を最大
とするＨＭＭモデルに対応する単語を音声認識結果とし
て出力する。

【０００５】

【発明が解決しようとする課題】しかしながら、実際に
音声認識が行われる環境では雑音による影響が避けられ
ない。雑音環境下における音声認識率を維持するための
方法としてＳＳ（Spectrum Subtraction；スペクトラム
サブトラクション）や、雑音を加味したＨＭＭモデル等
がある。ＳＳとは認識する音声区間に先行する非音声区
間の複数フレームの平均スペクトルを雑音スペクトルと
し、これを音声スペクトルから減算することでスペクト
ル中の雑音成分を除去する方法である。ＳＳは有効であ
るがそれのみでは非定常な雑音には対応できず、雑音を
加味したＨＭＭモデルと合わせて使用する必要がある。
また、雑音を加味したＨＭＭモデルは雑音の種類や大き
さによって多くのモデルを用意しなくてはならなかっ
た。

【０００６】本発明の課題は、雑音に適応したモデルを
特別に用意しなくとも雑音に適応した音声認識を可能と
する音声認識装置、及び音声認識方法を提供することで
ある。

【０００７】

【課題を解決するための手段】以上の課題を解決するた
め、請求項１記載の発明の音声認識装置は、隠れマルコ
フモデルに基づく確率計算を行うことにより入力音声を
認識する音声認識装置であって、入力音声に含まれる雑
音量を検出する雑音量検出手段（例えば、図１に示す雑
音量検出部２）と、入力音声の特徴量を検出する特徴量
検出手段（例えば、図１に示す特徴量検出部１３）と、
前記雑音量検出手段によって検出した雑音量に基づい
て、この雑音量を加味した隠れマルコフモデルの分散を
推定し、この推定された分散に応じて、前記特徴量検出
手段によって検出された特徴量を調整する特徴量調整手
段（例えば、図１に示す特徴ベクトル成分調整部４）
と、この特徴量調整手段によって調整された特徴量を用
いて、雑音を加味しない隠れマルコフモデル（例えば、
図１に示すＨＭＭモデル１５１〜１５ｎ）に基づいて、
前記入力音声を認識する認識手段（例えば、図１に示す
比較部１４）と、を備えることを特徴としている。

【０００８】また、請求項３記載の発明の音声認識方法
は、隠れマルコフモデルに基づく確率計算を行うことに
より入力音声を認識する音声認識方法であって、入力音
声に含まれる雑音量を検出する雑音量検出工程と、入力
音声の特徴量を検出する特徴量検出工程と、前記雑音量
検出工程において検出した雑音量に基づいて、この雑音
量を加味した隠れマルコフモデルの分散を推定し、この
推定された分散に応じて、前記特徴量検出工程において
検出された特徴量を調整する特徴量調整工程と、この特
徴量調整工程において調整された特徴量を用いて、雑音
を加味しない隠れマルコフモデルに基づいて、前記入力
音声を認識する認識工程と、を備えることを特徴として
いる。

【０００９】この請求項１及び請求項３記載の発明によ
れば、入力音声に含まれる雑音量に基づいて、この雑音
量を加味した隠れマルコフモデルの分散を推定し、この
推定された分散に応じて、前記入力音声の特徴量を調整
し、この調整された特徴量を用いて、雑音を加味しない
隠れマルコフモデルに基づいて、前記入力音声を認識す
るので、各種雑音に適した隠れマルコフモデルを持たな
くとも雑音に適応した音声認識を行うことが可能とな
り、多様な雑音が発生する環境下での音声認識率を向上
することができる。

【００１０】また、請求項２記載の発明のように、請求
項１記載の音声認識装置において、前記特徴量調整手段
は、前記雑音量に比例するように前記特徴量を調整する
ことが有効である。

【００１１】この請求項２記載の発明によれば、雑音の
大きさから比例計算によって特徴量を調整できるので、
様々な雑音に適応化することができる。

【００１２】

【発明の実施の形態】以下、図１〜図６を参照して本発
明に係る音声認識装置１の実施の形態を詳細に説明す
る。

【００１３】まず構成を説明する。図１は音声認識装置
１の構成を示すブロック図である。図１に示すように、
音声認識装置１は、Ａ／Ｄ変換部１１、フレーム化部１
２、特徴量検出部１３、比較部１４、複数の単語ＨＭＭ
モデル１５１，１５２，・・・１５ｎを備える他、雑音量
検出部２、雑音量調整部３、及び特徴ベクトル成分調整
部４（特徴量調整手段）を備える。

【００１４】Ａ／Ｄ変換部１１は、マイクから入力され
たアナログ音声信号をＡ／Ｄ変換し、量子化音声信号と
してフレーム化部１２及び雑音量検出部２に出力する。
フレーム化部１２は、Ａ／Ｄ変換部１１から入力された
量子化音声信号を例えば８〜１６ｍｓ程度のシフト間隔
（フレーム周期）で所定の処理単位長（フレーム長；例
えば、２０〜４０ｍｓ）に区切る。この区切られた各音
声区間をフレームと呼ぶ。フレームは一部重複させるよ
うにして切り出すのが望ましい。特徴量検出部１３はフ
レーム毎に特徴量を検出する。特徴量は、例えばＭＦＣ
Ｃ（Mel-Frequency Cepstrum Coefficients；メル周波
数ケプストラム係数）と呼ばれる３０次程度の特徴ベク
トル列を用いる。

【００１５】ここで、図２を参照してＭＦＣＣの検出工
程を説明する。まず、入力された音声信号について平均
値を計算し、エンファシス（高域強調）を施してスペク
トルの傾斜を平坦化する。そして、フレーム化部１２に
おいてフレームを切り出す際、元の音声信号に時間窓を
乗じて重み付けする。例えば、時間窓としてハミング窓
を乗じることによってフレームの両端に急激な変化が起
こらないようにしている。その後、特徴量検出部１３は
フレーム単位に以下の処理を実行する。人間の聴覚特性
に適した特徴量を抽出するため、音の周波数の高さに対
して、対数的な特性（メル尺度）を示すような重みがか
かるように、ＦＦＴ（高速フーリエ変換；Fast Fourier
Transform）を計算して周波数軸に変換し（ステップＳ
１）、メル尺度に変換する（ステップＳ２）。更に、対
数変換して（ステップＳ３）、重み付けし（ステップＳ
４）、ＦＦＴ（ＣＯＳ変換）した後（ステップＳ５）、
正規化する（ステップＳ６）。この正規化処理では、各
特徴量の平均値がおよそ０になるように正規化される。
以上の過程で求められたＭＦＣＣの出力ディメンション
はエネルギー（≧０）の対数である。これはＭＦＣＣに
限らず、ほぼ全ての特徴量に共通といえる。以下、特徴
量検出部１３から出力される特徴量のディメンションは
エネルギーの対数であるとして説明する。特徴量検出部
１３において検出された特徴量（特徴ベクトル列）は、
後述する特徴ベクトル成分調整部４に出力される。な
お、特徴量はＭＦＣＣに限定されるものではなくその他
のものでもよい。また、特徴ベクトル列の次元も任意で
ある。ここではｎ次元とする。

【００１６】雑音量検出部２は、Ａ／Ｄ変換部１１で量
子化された入力音声信号から雑音量の大きさを検出す
る。雑音量は、例えば非音声区間においてサンプリング
された音声信号のエネルギー値の二乗和を計算すること
により求められる。非音声区間は、例えば認識開始ボタ
ンを押下した瞬間から所定サンプル数とすればよい。な
お、雑音量は二乗和で計算したものに限定されるもので
はなく、他の計算方法によって算出されるものとしても
よい。

【００１７】雑音量調整部３は、雑音量検出部２におい
て検出された雑音量を、特徴ベクトル成分調整部４にお
ける分散推定の際の演算「（分散）＊（雑音量）＝定
数」（詳細は後述する）に使用できるように適当なディ
メンションに変換する。例えば、上述のようにエネルギ
ーの二乗和を雑音量とした場合は、雑音量の平方根をと
るようにすればよい。また極端に大きい雑音量を除去す
るため、リミッタを設けるようにしてもよい。

【００１８】ここで、ＨＭＭモデル１５１〜１５ｎ及び
ＨＭＭモデル１５１〜１５ｎを用いた音声認識について
図３〜図５を参照して説明する。図３は音声“ｙａｍ
ａ”の状態遷移の様子を模式的に示す図であり、図４は
図３の一部を示す図である。また、図５は、シンボル
（特徴ベクトル）発生確率分布を表す図である。

【００１９】図３に示すように、音声“ｙａｍａ”には
１２個の状態があると仮定する。図中の円はそれぞれ状
態を示し、矢印は状態が遷移する方向を示している。そ
して図４に示すように、各状態Ａ，Ｂ，Ｃにおいて、状
態Ａ→状態Ａ、状態Ｂ→状態Ｂ、状態Ｃ→状態Ｃのよう
に現在の状態を維持する（状態内遷移）確率をそれぞれ
ｐ（ａ）、ｐ（ｂ）、ｐ（ｃ）とし、状態Ａ→状態Ｂ、
状態Ｂ→状態Ｃ、状態Ｃ→状態Ｘのように異なる状態へ
遷移する（状態間遷移）確率をそれぞれｑ（ａ）、ｑ
（ｂ）、ｑ（ｃ）とする。ここで、ｑ（ａ）＝１−ｐ（ａ）ｑ（ｂ）＝１−ｐ（ｂ）ｑ（ｃ）＝１−ｐ（ｃ）であり、ｐ（ａ）、ｐ（ｂ）、ｐ（ｃ）、ｑ（ａ）、ｑ
（ｂ）、ｑ（ｃ）はそれぞれトレーニングによって与え
られている。

【００２０】また、各状態Ａ，Ｂ，Ｃから特徴ベクトル
Ｘを発生する確率はprob(ａ，Ｘ)、prob(ｂ，Ｘ)、prob
(ｃ，Ｘ)で表され、それぞれトレーニングによって与え
られている。ここでは、確率prob(ａ，Ｘ)は状態内遷移
（状態Ａ→状態Ａ）と状態間遷移（状態Ａ→状態Ｂ）と
で同一であるとする。prob(ｂ，Ｘ)、prob(ｃ，Ｘ)につ
いても同様とする。

【００２１】各状態Ａ，Ｂ，Ｃで、特徴ベクトルＸを発
生する確率、すなわちシンボル発生確率の分布は図５に
示すように混合ガウス分布で表される。図５では簡単の
ためにベクトルを２次元としている。また、各次元は実
際は複数のガウス分布の混合であるが、図５では次式
（１）に示す１個のガウス分布を表すこととする。

【００２２】 prob(v0，v1)＝1/（2π*|V｜^1/2）*exp｛−(v0，v1)V^-1(v0，v1)V^t｝・・・(1) V：共分散行列

【００２３】一般に、ある状態から与えられた特徴ベク
トルの発生確率はprob(状態，特徴ベクトル)で表され
る。ここで、probは状態毎に与えられたｎ次元混合分布
の確率密度である。

【００２４】ＨＭＭモデルに基づいて音声認識を行う場
合は、与えられている各ＨＭＭモデルについて、その各
状態から入力音声の特徴ベクトルがいくつ発生するかを
確率（シンボル（特徴ベクトル）発生確率）計算によっ
て求められる。シンボル（特徴ベクトル）発生確率を求
めるためには、例えば、入力音声の特徴ベクトルがＶ１
〜Ｖ２０の２０個のベクトルである場合は、「２０個の
ベクトルがどの状態でいくつ発生するか」を求めればよ
い。一例を挙げると、図４において、「Ｖ１、Ｖ２は状
態Ａで発生して、Ｖ３は状態Ａから状態Ｂへの遷移中に
発生し、Ｖ４〜Ｖ１０は状態Ｂで発生して、Ｖ１１は状
態Ｂから状態Ｃへの遷移中に発生し、Ｖ１２〜Ｖ２０は
状態Ｃで発生する」とした場合に求められる確率Ｐ１
は、次式（２）で表される。

【００２５】 P1=prob(a,V1)*prob(a,V2)*prob(a,V3)*prob(b,V4)*・・・*prob(b,V11)*prob(c, V12)*・・・*prob(c,V20)*(p(a)^2)*(1-p(a))*(p(b)^7)*(1-p(b))*(p(c)^9) ・・・ (2)

【００２６】同様に「２０個のベクトルがどの状態でい
くつ発生するか」の全ての場合について確率Ｐ１，Ｐ
２，・・・，Ｐｍを計算する。それらの和ΣＰｍが「ＨＭ
Ｍモデルが与えられた（入力された）特徴ベクトル列を
発生する確率」となる。以上の確率計算は後述する比較
部１４において行われる。

【００２７】次に、ＨＭＭモデルと雑音の関係を説明す
る。各シンボル（特徴ベクトル）の発生確率は、前述し
たように、多次元（混合）ガウス分布で表現される（図
５参照）。また、ガウス分布は、Ｇ（μi，σi）で表さ
れ（ここで、μ；平均値，σ；共分散値）、入力系（特
徴ベクトル）の平均値μi及び共分散行列σiが定まると
決定される。以下、雑音が加わった場合の特徴量の平均
値及び共分散行列の変化について説明する。

【００２８】平均値μは特徴量検出部１３において、お
よそ０になるように正規化されて出力されるため、雑音
の有無の影響はない。一方、共分散行列σは計算量低減
のため各次元が無相関と仮定する。このためシンボル
（特徴ベクトル）発生確率の雑音による影響は分散に反
映されると考えればよい。

【００２９】入力音声と雑音が無相関と仮定すれば、入
力音声のエネルギーはノイズエネルギーによって全体的
に大きくなる。ＨＭＭモデルの分散は、特徴ベクトルの
各成分の分散に対応しているが、これらの分散は雑音に
よるエネルギーの全体的な増大によって原則的に小さく
なる。

【００３０】すなわち、雑音がないとき、特徴量検出部
１３において入力音声の対数を計算する直前のデータの
平均値を「２」とし、「±１」の変動がある場合には、
その分散ｂ１は次式（３）で表される。

【００３１】ｂ１＝((Log(3)−Log(2))^2＋(Log(1)−Log(2))^2)/2 ・・・(3)

【００３２】一方、雑音が加わることにより平均値が例
えば「１００」増大した場合、同様の仮定（データに
「±１」の変動がある）で分散ｂ２を計算すると、次式
（４）となる。

【００３３】ｂ２＝((Log(103)−Log(102))^2＋(Log(101)−Log(102))^2)/2 ・・・(4)

【００３４】従って、式（３）及び式（４）より、明ら
かにｂ１＞ｂ２となる。以上のことから、雑音が加わっ
た音声でトレーニングしたＨＭＭモデルは、雑音がない
音声でトレーニングしたＨＭＭモデルより一般に分散が
小さくなるといえる。つまり、雑音が加わると分布全体
の分散が小さくなるが、平均値は正規化により不変
（０）である。

【００３５】そこで、本実施の形態の音声認識装置１
は、この現象を利用して特徴ベクトル成分調整部４によ
り雑音量に応じて雑音を加味したモデルの分散を推定
し、この推定した分散に応じて入力音声の特徴ベクトル
の各成分を調整する。そして、比較部１４は、各成分が
調整された特徴ベクトルについてのシンボル（特徴ベク
トル）発生確率を雑音を加味しないＨＭＭモデル１５１
〜１５ｎを用いて求める。

【００３６】上述の説明の通り、トレーニングする際の
雑音量が大きいほどＨＭＭモデルの分散が小さくなるの
で、雑音を加味したモデルの分散は、検出した雑音量に
反比例させて算出する。すなわち、「（分散）＊（雑音
量）＝定数」となるように決定する。但し、雑音量は、
雑音量調整部３において適当なディメンションに変換さ
れている。また、シンボル（特徴ベクトル）発生確率分
布の平均値は０であるから、特徴ベクトルの各成分は推
定した分散に反比例するように調整すればよい。つま
り、特徴ベクトルの各成分は雑音の大きさから比例計算
によって調整すればよい。

【００３７】図６を参照して特徴ベクトルの各成分の調
整の概念を説明する。図６に示すグラフはそれぞれある
ＨＭＭモデルに基づくシンボル（特徴ベクトル）発生確
率分布を表しており、簡単のために１次元のグラフとし
ている。これらのグラフにおいて横軸は確率変数である
特徴量、縦軸は確率である。また、これらの分布は平均
値が０になるように正規化されている。

【００３８】図６（Ａ）は雑音を含む入力音声を雑音を
加味しないＨＭＭモデルで評価した場合のシンボル（特
徴ベクトル）発生確率分布を示し、図６（Ｂ）は雑音を
加味したＨＭＭモデルで雑音を含む入力音声を評価した
場合の確率分布を示している。これらのグラフにおいて
図６（Ａ）における観測点Ｐ１（入力音声）は図６
（Ｂ）における観測点Ｐ２（入力音声）に対応してい
る。図６（Ｂ）に示すように雑音を加味したＨＭＭモデ
ルを用いて雑音を含む入力音声を評価すれば正しい結果
（確率）を得ることができるが、雑音を加味したＨＭＭ
モデルを雑音毎、単語毎にそれぞれ用意するのは非常に
困難である。そこで、本発明では図６（Ｃ）に示すよう
に、特徴ベクトルの各成分を雑音量に応じて調整し、雑
音を加味しないＨＭＭモデル（図６（Ａ）のＨＭＭモデ
ル）を用いてシンボル（特徴ベクトル）発生確率を求め
る。

【００３９】例えば、図６（Ｂ）に示すように、雑音を
加味したモデルでの分散が、雑音を加味しないＨＭＭモ
デル（図６（Ａ））の１／２倍となる場合は、シンボル
（特徴ベクトル）発生確率分布の平均値が０に正規化さ
れていることから、入力音声の特徴ベクトルの各成分を
２倍に調整し、雑音を加味していないＨＭＭモデル（図
６（Ａ）の分布）で評価することに等しいといえる。つ
まり、雑音量が大きい場合のＨＭＭモデルの分散は小さ
くなるので、雑音量に反比例するように雑音を加味した
ＨＭＭモデルの分散を推定すればよく、更に、推定した
分散に反比例するように特徴ベクトルの各成分を調整し
て雑音を加味しないモデルで評価すれば、雑音を加味し
たモデルで評価した場合（図６（Ｂ））と同一の結果
（確率）を得ることができる。つまり、特徴ベクトル成
分調整部４では、検出した雑音量に比例するように特徴
ベクトルの各成分を調整すればよいこととなる。

【００４０】比較部１４は特徴ベクトル成分調整部４に
おいて調整された特徴量に基づいて雑音を加味していな
い各ＨＭＭモデル１５１〜１５ｎからのシンボル（特徴
ベクトル）発生確率を計算し、その確率が最も大きいＨ
ＭＭモデルを音声認識結果として出力する。

【００４１】次に動作を説明する。マイクから入力され
たアナログ音声信号はＡ／Ｄ変換部１１において量子化
音声信号に変換され、フレーム化部１２に入力されると
ともに雑音量検出部２に入力される。フレーム化部１２
に入力された量子化音声信号は、複数のフレームに区切
られ、次に特徴量検出部１３に入力されて、ＭＦＣＣ等
の特徴量（特徴ベクトル列）が検出される。一方、雑音
量検出部２では入力されたディジタル音声信号から雑音
量を検出し、雑音量調整部３において、検出した雑音量
を適当なディメンションに変換したり、リミッタによっ
て極端な雑音を除去する。

【００４２】そして、特徴ベクトル成分調整部４におい
て、雑音量検出部２及び前記雑音量調整部３において検
出、調整された雑音量に基づいて前記特徴量検出部１３
において検出された特徴ベクトルの各成分を調整する。
すなわち、雑音を加味したＨＭＭモデルの分散を推定し
（図６（Ｂ）参照）、この推定された分散に応じて特徴
ベクトルの大きさを調整する（図６（Ｃ）参照）。雑音
を加味したＨＭＭモデルの分散は雑音の大きさに反比例
するように決定される。また、雑音を加味したモデルで
のシンボル（特徴ベクトル）発生確率の分散を１／ｘ倍
にすることは、雑音を加味していないＨＭＭモデルでの
確率変数、すなわち、特徴ベクトルの各成分をｘ倍にす
ることに等しいので、推定された分散に反比例するよう
に特徴ベクトルの各成分を調整する。

【００４３】つまり、特徴ベクトル成分調整部４は雑音
量に比例するように特徴ベクトルの各成分を調整すれば
よい（図６（Ａ）→図６（Ｃ））。その後、比較部１４
では成分が調整された特徴ベクトルについて、雑音を加
味していない全てのＨＭＭモデル１５１〜１５ｎでのシ
ンボル（特徴ベクトル）発生確率を計算し、その中で最
も確率の高いＨＭＭモデル（単語）を音声認識結果とし
て出力する。

【００４４】以上説明したように、本実施の形態の音声
認識装置１は雑音の大きさによってＨＭＭモデルの分散
が変化することを利用して、検出した雑音量から、この
雑音を加味したＨＭＭモデルの分散を推定し、推定した
分散に応じて特徴量を調整し、調整後の特徴量について
雑音を加味していない各ＨＭＭモデル１５１〜１５ｎか
らのシンボル（特徴ベクトル）発生確率を計算し、その
確率が最大となるＨＭＭモデルを音声認識結果とする。

【００４５】従って、雑音を加味したＨＭＭモデルを特
別に持たなくとも、雑音に適応した音声認識を行うこと
が可能となり、多様な雑音が発生する環境下での音声認
識率を向上することができる。

【００４６】なお、本実施の形態において、検出した雑
音量からの分散の推定及び特徴量の調整は計算によって
行うものとしたが、例えば、テーブルによって雑音に応
じた特徴量の調整を行うようにしてもよい。この場合、
テーブルには上述のＨＭＭモデルと雑音との関係を利用
して、特徴量の調整量が雑音の大きさに比例するように
設定されているものとする。このようにテーブルを用い
て特徴量を調整するようにすれば、ある程度予測できる
雑音に対しては、分散の推定等の計算を省いて少ない演
算量で雑音に適応させることができる。

【００４７】

【発明の効果】請求項１及び請求項３記載の発明によれ
ば、検出した入力音声に含まれる雑音量に基づいて、こ
の雑音量を加味した隠れマルコフモデルの分散を推定
し、この推定された分散に応じて、前記入力音声の特徴
量を調整し、この調整された特徴量を用いて、雑音を加
味しない隠れマルコフモデルに基づいて、前記入力音声
を認識するので、各種雑音に適した隠れマルコフモデル
を持たなくとも雑音に適応した音声認識を行うことが可
能となり、多様な雑音が発生する環境下での音声認識率
を向上することができる。

【００４８】請求項２記載の発明によれば、雑音の大き
さから比例計算によって特徴量を調整できるので、様々
な雑音に適応化することができる。

【図面の簡単な説明】

【図１】音声認識装置１の構成を示すブロック図であ
る。

【図２】特徴量（ＭＦＣＣ）の検出工程を示す図であ
る。

【図３】音声“ｙａｍａ”の状態遷移の様子を模式的に
示す図である。

【図４】図３の一部を示す図である。

【図５】特徴ベクトルの発生確率分布を示すグラフであ
る。

【図６】特徴量の調整の概念を説明する図である。

【図７】ＨＭＭによる音声認識の従来の手法を説明する
図である。

【符号の説明】

１音声認識装置２雑音量検出部３雑音量調整部４特徴ベクトル成分調整部１１Ａ／Ｄ変換部１２フレーム化部１３特徴量検出部１４比較部１５１〜１５ｎ単語ＨＭＭ

Claims

【特許請求の範囲】

【請求項１】隠れマルコフモデルに基づく確率計算を行
うことにより入力音声を認識する音声認識装置であっ
て、入力音声に含まれる雑音量を検出する雑音量検出手段
と、入力音声の特徴量を検出する特徴量検出手段と、前記雑音量検出手段によって検出した雑音量に基づい
て、この雑音量を加味した隠れマルコフモデルの分散を
推定し、この推定された分散に応じて、前記特徴量検出
手段によって検出された特徴量を調整する特徴量調整手
段と、この特徴量調整手段によって調整された特徴量を用い
て、雑音を加味しない隠れマルコフモデルに基づいて、
前記入力音声を認識する認識手段と、を備えることを特徴とする音声認識装置。
【請求項２】前記特徴量調整手段は、前記雑音量に比例
するように前記特徴量を調整することを特徴とする請求
項１記載の音声認識装置。
【請求項３】隠れマルコフモデルに基づく確率計算を行
うことにより入力音声を認識する音声認識方法であっ
て、入力音声に含まれる雑音量を検出する雑音量検出工程
と、入力音声の特徴量を検出する特徴量検出工程と、前記雑音量検出工程において検出した雑音量に基づい
て、この雑音量を加味した隠れマルコフモデルの分散を
推定し、この推定された分散に応じて、前記特徴量検出
工程において検出された特徴量を調整する特徴量調整工
程と、この特徴量調整工程において調整された特徴量を用い
て、雑音を加味しない隠れマルコフモデルに基づいて、
前記入力音声を認識する認識工程と、を備えることを特徴とする音声認識方法。