JP2001356795A - 音声認識装置、及び音声認識方法 - Google Patents

音声認識装置、及び音声認識方法

Info

Publication number
JP2001356795A
JP2001356795A JP2000176894A JP2000176894A JP2001356795A JP 2001356795 A JP2001356795 A JP 2001356795A JP 2000176894 A JP2000176894 A JP 2000176894A JP 2000176894 A JP2000176894 A JP 2000176894A JP 2001356795 A JP2001356795 A JP 2001356795A
Authority
JP
Japan
Prior art keywords
noise
amount
feature
feature vector
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000176894A
Other languages
English (en)
Other versions
JP4560899B2 (ja
Inventor
Shinichi Matsui
紳一 松井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2000176894A priority Critical patent/JP4560899B2/ja
Publication of JP2001356795A publication Critical patent/JP2001356795A/ja
Application granted granted Critical
Publication of JP4560899B2 publication Critical patent/JP4560899B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 本発明の課題は、雑音に適応したモデルを特
別に用意しなくとも雑音に適応した音声認識を可能とす
る音声認識装置、及び音声認識方法を提供することであ
る。 【解決手段】 特徴ベクトル成分調整部4は、入力音声
に含まれる雑音量に基づいて、この雑音量を加味した隠
れマルコフモデルの分散を推定し、この推定された分散
に応じて、前記入力音声の特徴量を調整する。比較部1
4は、この調整された特徴量を用いて、雑音を加味しな
い隠れマルコフモデル151〜15nに基づいて、前記
入力音声を認識する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識装置、及
び音声認識方法に係り、詳細には雑音環境下での音声認
識に好適な音声認識装置、及び音声認識方法に関する。
【0002】
【従来の技術】近年、音声認識の研究が盛んに行われ、
部分的には実用されている。その基本的手法はHMM
(Hidden Markov Model;隠れマルコフモデル)を利用
した統計手法によるものである。図7を参照してHMM
による音声認識の一般的な手法を説明する。まず、マイ
クから入力された音声はA/D変換部101で量子化さ
れた後、フレーム化部102によってフレーム(例えば
フレーム周波数10ms程度の所定処理単位長のタイム
スライス)に区切られ、特徴量検出部103によってフ
レーム毎に特徴量が計算される。この特徴量は、多くの
場合、MFCC(Mel-Frequency Cepstrum Coefficient
s;メル周波数ケプストラム係数)と呼ばれる30次程
度のベクトルが使用される。
【0003】一方、単語毎にHMMモデル1051〜1
05nがトレーニング等によって予め与えられている。
HMMモデルとは各単語を音素程度の比較的少ない複数
の状態で表し、単語毎に状態の遷移確率と、各状態から
入力されたベクトル(特徴量)を出力する確率と、をパ
ラメータとして与えたものである。単語HMMモデル1
051〜105nは音素毎にトレーニングされたHMM
モデルをその単語を音素に分解するときの順に結合する
ことによっても得ることができる。
【0004】単語HMMモデル1051〜105nと、
入力された音声から計算された特徴量である特徴ベクト
ル列とが比較部104に入力される。比較部104では
どのHMMモデルが最も高い確率で与えられた特徴ベク
トル列を出力するかを確率計算によって求める。例えば
“やま”のHMMモデルHMM(yama)で、入力音声の特
徴ベクトル列x(i)を評価する場合は、「モデルHMM
(yama)からその特徴ベクトル列x(i)が出力される
確率;シンボル(特徴ベクトル)発生確率」を計算す
る。比較部104は各単語HMMモデルについてシンボ
ル(特徴ベクトル)発生確率を計算し、その確率を最大
とするHMMモデルに対応する単語を音声認識結果とし
て出力する。
【0005】
【発明が解決しようとする課題】しかしながら、実際に
音声認識が行われる環境では雑音による影響が避けられ
ない。雑音環境下における音声認識率を維持するための
方法としてSS(Spectrum Subtraction;スペクトラム
サブトラクション)や、雑音を加味したHMMモデル等
がある。SSとは認識する音声区間に先行する非音声区
間の複数フレームの平均スペクトルを雑音スペクトルと
し、これを音声スペクトルから減算することでスペクト
ル中の雑音成分を除去する方法である。SSは有効であ
るがそれのみでは非定常な雑音には対応できず、雑音を
加味したHMMモデルと合わせて使用する必要がある。
また、雑音を加味したHMMモデルは雑音の種類や大き
さによって多くのモデルを用意しなくてはならなかっ
た。
【0006】本発明の課題は、雑音に適応したモデルを
特別に用意しなくとも雑音に適応した音声認識を可能と
する音声認識装置、及び音声認識方法を提供することで
ある。
【0007】
【課題を解決するための手段】以上の課題を解決するた
め、請求項1記載の発明の音声認識装置は、隠れマルコ
フモデルに基づく確率計算を行うことにより入力音声を
認識する音声認識装置であって、入力音声に含まれる雑
音量を検出する雑音量検出手段(例えば、図1に示す雑
音量検出部2)と、入力音声の特徴量を検出する特徴量
検出手段(例えば、図1に示す特徴量検出部13)と、
前記雑音量検出手段によって検出した雑音量に基づい
て、この雑音量を加味した隠れマルコフモデルの分散を
推定し、この推定された分散に応じて、前記特徴量検出
手段によって検出された特徴量を調整する特徴量調整手
段(例えば、図1に示す特徴ベクトル成分調整部4)
と、この特徴量調整手段によって調整された特徴量を用
いて、雑音を加味しない隠れマルコフモデル(例えば、
図1に示すHMMモデル151〜15n)に基づいて、
前記入力音声を認識する認識手段(例えば、図1に示す
比較部14)と、を備えることを特徴としている。
【0008】また、請求項3記載の発明の音声認識方法
は、隠れマルコフモデルに基づく確率計算を行うことに
より入力音声を認識する音声認識方法であって、入力音
声に含まれる雑音量を検出する雑音量検出工程と、入力
音声の特徴量を検出する特徴量検出工程と、前記雑音量
検出工程において検出した雑音量に基づいて、この雑音
量を加味した隠れマルコフモデルの分散を推定し、この
推定された分散に応じて、前記特徴量検出工程において
検出された特徴量を調整する特徴量調整工程と、この特
徴量調整工程において調整された特徴量を用いて、雑音
を加味しない隠れマルコフモデルに基づいて、前記入力
音声を認識する認識工程と、を備えることを特徴として
いる。
【0009】この請求項1及び請求項3記載の発明によ
れば、入力音声に含まれる雑音量に基づいて、この雑音
量を加味した隠れマルコフモデルの分散を推定し、この
推定された分散に応じて、前記入力音声の特徴量を調整
し、この調整された特徴量を用いて、雑音を加味しない
隠れマルコフモデルに基づいて、前記入力音声を認識す
るので、各種雑音に適した隠れマルコフモデルを持たな
くとも雑音に適応した音声認識を行うことが可能とな
り、多様な雑音が発生する環境下での音声認識率を向上
することができる。
【0010】また、請求項2記載の発明のように、請求
項1記載の音声認識装置において、前記特徴量調整手段
は、前記雑音量に比例するように前記特徴量を調整する
ことが有効である。
【0011】この請求項2記載の発明によれば、雑音の
大きさから比例計算によって特徴量を調整できるので、
様々な雑音に適応化することができる。
【0012】
【発明の実施の形態】以下、図1〜図6を参照して本発
明に係る音声認識装置1の実施の形態を詳細に説明す
る。
【0013】まず構成を説明する。図1は音声認識装置
1の構成を示すブロック図である。図1に示すように、
音声認識装置1は、A/D変換部11、フレーム化部1
2、特徴量検出部13、比較部14、複数の単語HMM
モデル151,152,・・・15nを備える他、雑音量
検出部2、雑音量調整部3、及び特徴ベクトル成分調整
部4(特徴量調整手段)を備える。
【0014】A/D変換部11は、マイクから入力され
たアナログ音声信号をA/D変換し、量子化音声信号と
してフレーム化部12及び雑音量検出部2に出力する。
フレーム化部12は、A/D変換部11から入力された
量子化音声信号を例えば8〜16ms程度のシフト間隔
(フレーム周期)で所定の処理単位長(フレーム長;例
えば、20〜40ms)に区切る。この区切られた各音
声区間をフレームと呼ぶ。フレームは一部重複させるよ
うにして切り出すのが望ましい。特徴量検出部13はフ
レーム毎に特徴量を検出する。特徴量は、例えばMFC
C(Mel-Frequency Cepstrum Coefficients;メル周波
数ケプストラム係数)と呼ばれる30次程度の特徴ベク
トル列を用いる。
【0015】ここで、図2を参照してMFCCの検出工
程を説明する。まず、入力された音声信号について平均
値を計算し、エンファシス(高域強調)を施してスペク
トルの傾斜を平坦化する。そして、フレーム化部12に
おいてフレームを切り出す際、元の音声信号に時間窓を
乗じて重み付けする。例えば、時間窓としてハミング窓
を乗じることによってフレームの両端に急激な変化が起
こらないようにしている。その後、特徴量検出部13は
フレーム単位に以下の処理を実行する。人間の聴覚特性
に適した特徴量を抽出するため、音の周波数の高さに対
して、対数的な特性(メル尺度)を示すような重みがか
かるように、FFT(高速フーリエ変換;Fast Fourier
Transform)を計算して周波数軸に変換し(ステップS
1)、メル尺度に変換する(ステップS2)。更に、対
数変換して(ステップS3)、重み付けし(ステップS
4)、FFT(COS変換)した後(ステップS5)、
正規化する(ステップS6)。この正規化処理では、各
特徴量の平均値がおよそ0になるように正規化される。
以上の過程で求められたMFCCの出力ディメンション
はエネルギー(≧0)の対数である。これはMFCCに
限らず、ほぼ全ての特徴量に共通といえる。以下、特徴
量検出部13から出力される特徴量のディメンションは
エネルギーの対数であるとして説明する。特徴量検出部
13において検出された特徴量(特徴ベクトル列)は、
後述する特徴ベクトル成分調整部4に出力される。な
お、特徴量はMFCCに限定されるものではなくその他
のものでもよい。また、特徴ベクトル列の次元も任意で
ある。ここではn次元とする。
【0016】雑音量検出部2は、A/D変換部11で量
子化された入力音声信号から雑音量の大きさを検出す
る。雑音量は、例えば非音声区間においてサンプリング
された音声信号のエネルギー値の二乗和を計算すること
により求められる。非音声区間は、例えば認識開始ボタ
ンを押下した瞬間から所定サンプル数とすればよい。な
お、雑音量は二乗和で計算したものに限定されるもので
はなく、他の計算方法によって算出されるものとしても
よい。
【0017】雑音量調整部3は、雑音量検出部2におい
て検出された雑音量を、特徴ベクトル成分調整部4にお
ける分散推定の際の演算「(分散)*(雑音量)=定
数」(詳細は後述する)に使用できるように適当なディ
メンションに変換する。例えば、上述のようにエネルギ
ーの二乗和を雑音量とした場合は、雑音量の平方根をと
るようにすればよい。また極端に大きい雑音量を除去す
るため、リミッタを設けるようにしてもよい。
【0018】ここで、HMMモデル151〜15n及び
HMMモデル151〜15nを用いた音声認識について
図3〜図5を参照して説明する。図3は音声“yam
a”の状態遷移の様子を模式的に示す図であり、図4は
図3の一部を示す図である。また、図5は、シンボル
(特徴ベクトル)発生確率分布を表す図である。
【0019】図3に示すように、音声“yama”には
12個の状態があると仮定する。図中の円はそれぞれ状
態を示し、矢印は状態が遷移する方向を示している。そ
して図4に示すように、各状態A,B,Cにおいて、状
態A→状態A、状態B→状態B、状態C→状態Cのよう
に現在の状態を維持する(状態内遷移)確率をそれぞれ
p(a)、p(b)、p(c)とし、状態A→状態B、
状態B→状態C、状態C→状態Xのように異なる状態へ
遷移する(状態間遷移)確率をそれぞれq(a)、q
(b)、q(c)とする。ここで、 q(a)=1−p(a) q(b)=1−p(b) q(c)=1−p(c) であり、p(a)、p(b)、p(c)、q(a)、q
(b)、q(c)はそれぞれトレーニングによって与え
られている。
【0020】また、各状態A,B,Cから特徴ベクトル
Xを発生する確率はprob(a,X)、prob(b,X)、prob
(c,X)で表され、それぞれトレーニングによって与え
られている。ここでは、確率prob(a,X)は状態内遷移
(状態A→状態A)と状態間遷移(状態A→状態B)と
で同一であるとする。prob(b,X)、prob(c,X)につ
いても同様とする。
【0021】各状態A,B,Cで、特徴ベクトルXを発
生する確率、すなわちシンボル発生確率の分布は図5に
示すように混合ガウス分布で表される。図5では簡単の
ためにベクトルを2次元としている。また、各次元は実
際は複数のガウス分布の混合であるが、図5では次式
(1)に示す1個のガウス分布を表すこととする。
【0022】 prob(v0,v1)=1/(2π*|V|1/2)*exp{−(v0,v1)V-1(v0,v1)Vt}・・・(1) V:共分散行列
【0023】一般に、ある状態から与えられた特徴ベク
トルの発生確率はprob(状態,特徴ベクトル)で表され
る。ここで、probは状態毎に与えられたn次元混合分布
の確率密度である。
【0024】HMMモデルに基づいて音声認識を行う場
合は、与えられている各HMMモデルについて、その各
状態から入力音声の特徴ベクトルがいくつ発生するかを
確率(シンボル(特徴ベクトル)発生確率)計算によっ
て求められる。シンボル(特徴ベクトル)発生確率を求
めるためには、例えば、入力音声の特徴ベクトルがV1
〜V20の20個のベクトルである場合は、「20個の
ベクトルがどの状態でいくつ発生するか」を求めればよ
い。一例を挙げると、図4において、「V1、V2は状
態Aで発生して、V3は状態Aから状態Bへの遷移中に
発生し、V4〜V10は状態Bで発生して、V11は状
態Bから状態Cへの遷移中に発生し、V12〜V20は
状態Cで発生する」とした場合に求められる確率P1
は、次式(2)で表される。
【0025】 P1=prob(a,V1)*prob(a,V2)*prob(a,V3)*prob(b,V4)*・・・*prob(b,V11)*prob(c, V12)*・・・*prob(c,V20)*(p(a)^2)*(1-p(a))*(p(b)^7)*(1-p(b))*(p(c)^9) ・・ ・ (2)
【0026】同様に「20個のベクトルがどの状態でい
くつ発生するか」の全ての場合について確率P1,P
2,・・・,Pmを計算する。それらの和ΣPmが「HM
Mモデルが与えられた(入力された)特徴ベクトル列を
発生する確率」となる。以上の確率計算は後述する比較
部14において行われる。
【0027】次に、HMMモデルと雑音の関係を説明す
る。各シンボル(特徴ベクトル)の発生確率は、前述し
たように、多次元(混合)ガウス分布で表現される(図
5参照)。また、ガウス分布は、G(μi,σi)で表さ
れ(ここで、μ;平均値,σ;共分散値)、入力系(特
徴ベクトル)の平均値μi及び共分散行列σiが定まると
決定される。以下、雑音が加わった場合の特徴量の平均
値及び共分散行列の変化について説明する。
【0028】平均値μは特徴量検出部13において、お
よそ0になるように正規化されて出力されるため、雑音
の有無の影響はない。一方、共分散行列σは計算量低減
のため各次元が無相関と仮定する。このためシンボル
(特徴ベクトル)発生確率の雑音による影響は分散に反
映されると考えればよい。
【0029】入力音声と雑音が無相関と仮定すれば、入
力音声のエネルギーはノイズエネルギーによって全体的
に大きくなる。HMMモデルの分散は、特徴ベクトルの
各成分の分散に対応しているが、これらの分散は雑音に
よるエネルギーの全体的な増大によって原則的に小さく
なる。
【0030】すなわち、雑音がないとき、特徴量検出部
13において入力音声の対数を計算する直前のデータの
平均値を「2」とし、「±1」の変動がある場合には、
その分散b1は次式(3)で表される。
【0031】 b1=((Log(3)−Log(2))^2+(Log(1)−Log(2))^2)/2 ・・・(3)
【0032】一方、雑音が加わることにより平均値が例
えば「100」増大した場合、同様の仮定(データに
「±1」の変動がある)で分散b2を計算すると、次式
(4)となる。
【0033】 b2=((Log(103)−Log(102))^2+(Log(101)−Log(102))^2)/2 ・・・(4)
【0034】従って、式(3)及び式(4)より、明ら
かにb1>b2となる。以上のことから、雑音が加わっ
た音声でトレーニングしたHMMモデルは、雑音がない
音声でトレーニングしたHMMモデルより一般に分散が
小さくなるといえる。つまり、雑音が加わると分布全体
の分散が小さくなるが、平均値は正規化により不変
(0)である。
【0035】そこで、本実施の形態の音声認識装置1
は、この現象を利用して特徴ベクトル成分調整部4によ
り雑音量に応じて雑音を加味したモデルの分散を推定
し、この推定した分散に応じて入力音声の特徴ベクトル
の各成分を調整する。そして、比較部14は、各成分が
調整された特徴ベクトルについてのシンボル(特徴ベク
トル)発生確率を雑音を加味しないHMMモデル151
〜15nを用いて求める。
【0036】上述の説明の通り、トレーニングする際の
雑音量が大きいほどHMMモデルの分散が小さくなるの
で、雑音を加味したモデルの分散は、検出した雑音量に
反比例させて算出する。すなわち、「(分散)*(雑音
量)=定数」となるように決定する。但し、雑音量は、
雑音量調整部3において適当なディメンションに変換さ
れている。また、シンボル(特徴ベクトル)発生確率分
布の平均値は0であるから、特徴ベクトルの各成分は推
定した分散に反比例するように調整すればよい。つま
り、特徴ベクトルの各成分は雑音の大きさから比例計算
によって調整すればよい。
【0037】図6を参照して特徴ベクトルの各成分の調
整の概念を説明する。図6に示すグラフはそれぞれある
HMMモデルに基づくシンボル(特徴ベクトル)発生確
率分布を表しており、簡単のために1次元のグラフとし
ている。これらのグラフにおいて横軸は確率変数である
特徴量、縦軸は確率である。また、これらの分布は平均
値が0になるように正規化されている。
【0038】図6(A)は雑音を含む入力音声を雑音を
加味しないHMMモデルで評価した場合のシンボル(特
徴ベクトル)発生確率分布を示し、図6(B)は雑音を
加味したHMMモデルで雑音を含む入力音声を評価した
場合の確率分布を示している。これらのグラフにおいて
図6(A)における観測点P1(入力音声)は図6
(B)における観測点P2(入力音声)に対応してい
る。図6(B)に示すように雑音を加味したHMMモデ
ルを用いて雑音を含む入力音声を評価すれば正しい結果
(確率)を得ることができるが、雑音を加味したHMM
モデルを雑音毎、単語毎にそれぞれ用意するのは非常に
困難である。そこで、本発明では図6(C)に示すよう
に、特徴ベクトルの各成分を雑音量に応じて調整し、雑
音を加味しないHMMモデル(図6(A)のHMMモデ
ル)を用いてシンボル(特徴ベクトル)発生確率を求め
る。
【0039】例えば、図6(B)に示すように、雑音を
加味したモデルでの分散が、雑音を加味しないHMMモ
デル(図6(A))の1/2倍となる場合は、シンボル
(特徴ベクトル)発生確率分布の平均値が0に正規化さ
れていることから、入力音声の特徴ベクトルの各成分を
2倍に調整し、雑音を加味していないHMMモデル(図
6(A)の分布)で評価することに等しいといえる。つ
まり、雑音量が大きい場合のHMMモデルの分散は小さ
くなるので、雑音量に反比例するように雑音を加味した
HMMモデルの分散を推定すればよく、更に、推定した
分散に反比例するように特徴ベクトルの各成分を調整し
て雑音を加味しないモデルで評価すれば、雑音を加味し
たモデルで評価した場合(図6(B))と同一の結果
(確率)を得ることができる。つまり、特徴ベクトル成
分調整部4では、検出した雑音量に比例するように特徴
ベクトルの各成分を調整すればよいこととなる。
【0040】比較部14は特徴ベクトル成分調整部4に
おいて調整された特徴量に基づいて雑音を加味していな
い各HMMモデル151〜15nからのシンボル(特徴
ベクトル)発生確率を計算し、その確率が最も大きいH
MMモデルを音声認識結果として出力する。
【0041】次に動作を説明する。マイクから入力され
たアナログ音声信号はA/D変換部11において量子化
音声信号に変換され、フレーム化部12に入力されると
ともに雑音量検出部2に入力される。フレーム化部12
に入力された量子化音声信号は、複数のフレームに区切
られ、次に特徴量検出部13に入力されて、MFCC等
の特徴量(特徴ベクトル列)が検出される。一方、雑音
量検出部2では入力されたディジタル音声信号から雑音
量を検出し、雑音量調整部3において、検出した雑音量
を適当なディメンションに変換したり、リミッタによっ
て極端な雑音を除去する。
【0042】そして、特徴ベクトル成分調整部4におい
て、雑音量検出部2及び前記雑音量調整部3において検
出、調整された雑音量に基づいて前記特徴量検出部13
において検出された特徴ベクトルの各成分を調整する。
すなわち、雑音を加味したHMMモデルの分散を推定し
(図6(B)参照)、この推定された分散に応じて特徴
ベクトルの大きさを調整する(図6(C)参照)。雑音
を加味したHMMモデルの分散は雑音の大きさに反比例
するように決定される。また、雑音を加味したモデルで
のシンボル(特徴ベクトル)発生確率の分散を1/x倍
にすることは、雑音を加味していないHMMモデルでの
確率変数、すなわち、特徴ベクトルの各成分をx倍にす
ることに等しいので、推定された分散に反比例するよう
に特徴ベクトルの各成分を調整する。
【0043】つまり、特徴ベクトル成分調整部4は雑音
量に比例するように特徴ベクトルの各成分を調整すれば
よい(図6(A)→図6(C))。その後、比較部14
では成分が調整された特徴ベクトルについて、雑音を加
味していない全てのHMMモデル151〜15nでのシ
ンボル(特徴ベクトル)発生確率を計算し、その中で最
も確率の高いHMMモデル(単語)を音声認識結果とし
て出力する。
【0044】以上説明したように、本実施の形態の音声
認識装置1は雑音の大きさによってHMMモデルの分散
が変化することを利用して、検出した雑音量から、この
雑音を加味したHMMモデルの分散を推定し、推定した
分散に応じて特徴量を調整し、調整後の特徴量について
雑音を加味していない各HMMモデル151〜15nか
らのシンボル(特徴ベクトル)発生確率を計算し、その
確率が最大となるHMMモデルを音声認識結果とする。
【0045】従って、雑音を加味したHMMモデルを特
別に持たなくとも、雑音に適応した音声認識を行うこと
が可能となり、多様な雑音が発生する環境下での音声認
識率を向上することができる。
【0046】なお、本実施の形態において、検出した雑
音量からの分散の推定及び特徴量の調整は計算によって
行うものとしたが、例えば、テーブルによって雑音に応
じた特徴量の調整を行うようにしてもよい。この場合、
テーブルには上述のHMMモデルと雑音との関係を利用
して、特徴量の調整量が雑音の大きさに比例するように
設定されているものとする。このようにテーブルを用い
て特徴量を調整するようにすれば、ある程度予測できる
雑音に対しては、分散の推定等の計算を省いて少ない演
算量で雑音に適応させることができる。
【0047】
【発明の効果】請求項1及び請求項3記載の発明によれ
ば、検出した入力音声に含まれる雑音量に基づいて、こ
の雑音量を加味した隠れマルコフモデルの分散を推定
し、この推定された分散に応じて、前記入力音声の特徴
量を調整し、この調整された特徴量を用いて、雑音を加
味しない隠れマルコフモデルに基づいて、前記入力音声
を認識するので、各種雑音に適した隠れマルコフモデル
を持たなくとも雑音に適応した音声認識を行うことが可
能となり、多様な雑音が発生する環境下での音声認識率
を向上することができる。
【0048】請求項2記載の発明によれば、雑音の大き
さから比例計算によって特徴量を調整できるので、様々
な雑音に適応化することができる。
【図面の簡単な説明】
【図1】音声認識装置1の構成を示すブロック図であ
る。
【図2】特徴量(MFCC)の検出工程を示す図であ
る。
【図3】音声“yama”の状態遷移の様子を模式的に
示す図である。
【図4】図3の一部を示す図である。
【図5】特徴ベクトルの発生確率分布を示すグラフであ
る。
【図6】特徴量の調整の概念を説明する図である。
【図7】HMMによる音声認識の従来の手法を説明する
図である。
【符号の説明】
1 音声認識装置 2 雑音量検出部 3 雑音量調整部 4 特徴ベクトル成分調整部 11 A/D変換部 12 フレーム化部 13 特徴量検出部 14 比較部 151〜15n 単語HMM

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】隠れマルコフモデルに基づく確率計算を行
    うことにより入力音声を認識する音声認識装置であっ
    て、 入力音声に含まれる雑音量を検出する雑音量検出手段
    と、 入力音声の特徴量を検出する特徴量検出手段と、 前記雑音量検出手段によって検出した雑音量に基づい
    て、この雑音量を加味した隠れマルコフモデルの分散を
    推定し、この推定された分散に応じて、前記特徴量検出
    手段によって検出された特徴量を調整する特徴量調整手
    段と、 この特徴量調整手段によって調整された特徴量を用い
    て、雑音を加味しない隠れマルコフモデルに基づいて、
    前記入力音声を認識する認識手段と、 を備えることを特徴とする音声認識装置。
  2. 【請求項2】前記特徴量調整手段は、前記雑音量に比例
    するように前記特徴量を調整することを特徴とする請求
    項1記載の音声認識装置。
  3. 【請求項3】隠れマルコフモデルに基づく確率計算を行
    うことにより入力音声を認識する音声認識方法であっ
    て、 入力音声に含まれる雑音量を検出する雑音量検出工程
    と、 入力音声の特徴量を検出する特徴量検出工程と、 前記雑音量検出工程において検出した雑音量に基づい
    て、この雑音量を加味した隠れマルコフモデルの分散を
    推定し、この推定された分散に応じて、前記特徴量検出
    工程において検出された特徴量を調整する特徴量調整工
    程と、 この特徴量調整工程において調整された特徴量を用い
    て、雑音を加味しない隠れマルコフモデルに基づいて、
    前記入力音声を認識する認識工程と、 を備えることを特徴とする音声認識方法。
JP2000176894A 2000-06-13 2000-06-13 音声認識装置、及び音声認識方法 Expired - Fee Related JP4560899B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000176894A JP4560899B2 (ja) 2000-06-13 2000-06-13 音声認識装置、及び音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000176894A JP4560899B2 (ja) 2000-06-13 2000-06-13 音声認識装置、及び音声認識方法

Publications (2)

Publication Number Publication Date
JP2001356795A true JP2001356795A (ja) 2001-12-26
JP4560899B2 JP4560899B2 (ja) 2010-10-13

Family

ID=18678558

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000176894A Expired - Fee Related JP4560899B2 (ja) 2000-06-13 2000-06-13 音声認識装置、及び音声認識方法

Country Status (1)

Country Link
JP (1) JP4560899B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210123554A (ko) * 2020-04-03 2021-10-14 서울시립대학교 산학협력단 선택적으로 원거리 발화를 보상하는 심층 신경망 기반 화자 특징 강화를 위한 장치 및 이를 위한 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11265198A (ja) * 1997-11-21 1999-09-28 Sextant Avionique ヴィーナーフィルタを用いた信号中のノイズ抑制のための周波数フィルタ方法
JP2001005486A (ja) * 1999-04-23 2001-01-12 Canon Inc 音声処理装置及び方法
JP2002140096A (ja) * 2000-06-02 2002-05-17 Canon Inc 信号処理システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11265198A (ja) * 1997-11-21 1999-09-28 Sextant Avionique ヴィーナーフィルタを用いた信号中のノイズ抑制のための周波数フィルタ方法
JP2001005486A (ja) * 1999-04-23 2001-01-12 Canon Inc 音声処理装置及び方法
JP2002140096A (ja) * 2000-06-02 2002-05-17 Canon Inc 信号処理システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210123554A (ko) * 2020-04-03 2021-10-14 서울시립대학교 산학협력단 선택적으로 원거리 발화를 보상하는 심층 신경망 기반 화자 특징 강화를 위한 장치 및 이를 위한 방법
KR102340359B1 (ko) 2020-04-03 2021-12-15 서울시립대학교 산학협력단 선택적으로 원거리 발화를 보상하는 심층 신경망 기반 화자 특징 강화를 위한 장치 및 이를 위한 방법

Also Published As

Publication number Publication date
JP4560899B2 (ja) 2010-10-13

Similar Documents

Publication Publication Date Title
US11395061B2 (en) Signal processing apparatus and signal processing method
US11423904B2 (en) Method and system of audio false keyphrase rejection using speaker recognition
US9542937B2 (en) Sound processing device and sound processing method
US9142221B2 (en) Noise reduction
JP4520732B2 (ja) 雑音低減装置、および低減方法
US9384760B2 (en) Sound processing device and sound processing method
US20090254341A1 (en) Apparatus, method, and computer program product for judging speech/non-speech
US20060253285A1 (en) Method and apparatus using spectral addition for speaker recognition
WO2014153800A1 (zh) 语音识别系统
US7797157B2 (en) Automatic speech recognition channel normalization based on measured statistics from initial portions of speech utterances
US8401844B2 (en) Gain control system, gain control method, and gain control program
US20080114593A1 (en) Noise suppressor for speech recognition
Tu et al. A hybrid approach to combining conventional and deep learning techniques for single-channel speech enhancement and recognition
US20070150263A1 (en) Speech modeling and enhancement based on magnitude-normalized spectra
US8423360B2 (en) Speech recognition apparatus, method and computer program product
US7120580B2 (en) Method and apparatus for recognizing speech in a noisy environment
JP4858663B2 (ja) 音声認識方法及び音声認識装置
KR100784456B1 (ko) Gmm을 이용한 음질향상 시스템
TW200926141A (en) Speech recognition system and method with cepstral noise subtraction
JP4517457B2 (ja) 音声認識装置、及び音声認識方法
JP4560899B2 (ja) 音声認識装置、及び音声認識方法
JP3046029B2 (ja) 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法
US20230095174A1 (en) Noise supression for speech enhancement
Singh et al. Sigmoid based Adaptive Noise Estimation Method for Speech Intelligibility Improvement
Shabani et al. Missing feature mask generation in BSS outputs using pitch frequency

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070405

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100427

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100706

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100719

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130806

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees