JP2005326673A - 音声認識方法、その装置およびプログラム、その記録媒体 - Google Patents

音声認識方法、その装置およびプログラム、その記録媒体 Download PDF

Info

Publication number
JP2005326673A
JP2005326673A JP2004145345A JP2004145345A JP2005326673A JP 2005326673 A JP2005326673 A JP 2005326673A JP 2004145345 A JP2004145345 A JP 2004145345A JP 2004145345 A JP2004145345 A JP 2004145345A JP 2005326673 A JP2005326673 A JP 2005326673A
Authority
JP
Japan
Prior art keywords
noise
signal
speech
recognition
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004145345A
Other languages
English (en)
Inventor
Satoru Kobashigawa
哲 小橋川
Satoshi Takahashi
敏 高橋
Yoshikazu Yamaguchi
義和 山口
Atsunori Ogawa
厚徳 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004145345A priority Critical patent/JP2005326673A/ja
Publication of JP2005326673A publication Critical patent/JP2005326673A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 各種S/N条件の入力音声信号に対して認識率を向上させる。
【解決手段】 入力音声信号の雑音区間から雑音成分を求め(23)、その雑音成分で雑音区間信号を抑圧し(32)、その残り雑音と、音声区間信号に対して雑音抑圧した信号(34の出力)とからS/Nを推定する(33)。雑音抑圧された音声信号の特徴パワースペクトルを抽出し(13)、メモリ36内の複数S/N条件の学習信号から作成したモデルV,…,Vを用いて、認識処理を並列に行う(35)。メモリ36内の各モデルと対応したS/N,…,S/N中の推定S/Nと最も近いものを求め(37)これと対応したモデルによる認識結果を最終結果として出力する(38)。
【選択図】 図4

Description

この発明は、入力音声信号の特徴パラメータ系列に対して、各認識結果候補の特徴パラメータからモデル化した確率モデルの尤度を求めて、入力音声信号の認識を行う音声認識方法、その装置およびプログラム、その記録媒体に関する。
従来の音声認識において、認識結果候補を構成する音素、音節、単語などの音声単位のカテゴリ毎に隠れマルコフモデル(Hidden Markov Model、以下ではHMMと記す。)などの確率モデルを用いてモデル化する手法は、認識性能が高く、現在の音声認識技術の主流となっている。従来のHMMを用いた音声認識装置を図1を参照して簡単に説明する。入力端子11から入力された音声信号は、A/D変換部12においてディジタル信号に変換される。そのディジタル信号から特徴パラメータ抽出部13において音声特徴パラメータを抽出する。予め、ある音声単位毎に作成したHMMをモデルメモリ14から読み出し、尤度計算部15において、抽出された音声特徴パラメータに対する各モデルの照合尤度を計算する。最も大きな照合尤度を示すモデルが表現する音声単位を認識結果とし出力部16より出力する。特徴パラメータ抽出部13、尤度計算部15及び出力部16は認識処理部17を構成している。なおこの明細書及び図面中で対応する部分は同一参照番号を付けて重複説明は省略する。
背景雑音などの加法性雑音が重畳した音声の従来の認識方法を以下に4つ説明する。1つ目は入力音声信号における背景雑音の種類が既知と仮定し、雑音重畳音声データから学習された雑音重畳音声モデルを用いる方法である。
2つ目は、HMMの合成による雑音重畳音声の認識手法(例えば非特許文献1参照)について説明する。雑音重畳音声に対しては、前述のように、雑音重畳音声から学習した雑音重畳音声モデルを用いて認識すれば認識性能は向上する。しかし、HMMを作成するために必要な学習データ量は膨大であり、モデル作成のための計算時間も膨大である。そこで、雑音のない大量の音声データをもとに予めクリーン音声HMMを作成しておく。認識時には観測した背景雑音から作成した雑音HMMと、クリーン音声HMMを合成する。この合成した雑音重畳音声HMMは、認識時の背景雑音を含む音声モデルの近似であり、これを用いて認識する。
3つ目は、入力音声に重畳した雑音を抑圧した後に認識する方法である。雑音抑圧方法はいろいろと提案されているが、ここではスペクトルサブトラクション法(以下、SS法と記す)について説明する(例えば非特許文献2参照)。時間領域で加法性の2つの信号は、線形パワースペクトル上でも加法性であることから、SS法では、雑音重畳音声信号から、推定雑音成分を線形パワースペクトル上で減算して音声成分を抽出する。
SS法を用いた音声認識装置を図2を参照して簡単に説明する。ディジタル信号とされた入力音声信号は、雑音であるか、雑音重畳音声であるかを音声/雑音判定部21で判定される。この判定部21は、その判定が雑音であるならば、音声/雑音スイッチ22を雑音端子22a側に接続してA/D変換部12の出力側を平均雑音パワースペクトル計算部23に接続して入力音声信号中の雑音区間における平均パワースペクトルを計算する。判定部21で認識対象である雑音重畳音声区間であると判定された場合は、音声/雑音スイッチ22を音声端子22b側に接続して、A/D変換部12の出力側を雑音重畳音声パワースペクトル計算部24に接続し、入力音声信号中の雑音重畳音声のパワースペクトルを計算する。抑圧処理部25において、各時刻の雑音重畳音声のパワースペクトルから、平均雑音パワースペクトルを減算する。時刻tのパワースペクトルの周波数fの雑音抑圧後のパワースペクトルY(t,f)は、以下のように計算される。
D(Y(t,f))=Y(t,f)−αN^(f)
(t,f)=D(Y(t,f)) : D(Y(t,f))>βY(t,f)の場合
(t,f)=βY(t,f) その他の場合 (1)
ここで、Y(t,f)は、入力雑音重畳音声の時刻t、周波数fのパワースペクトル、
N^(f)は推定された周波数fの時間平均雑音パワースペクトル、
αはサブストラクション係数であり、通常1より大きい。
βはフロアリング係数であり、1より小さい。
抑圧処理部25から出力されるパワースペクトルから、音声認識の特徴パラメータ(例えば、12次元のメルフレクエンシイケプストラム係数(Mel-Frequency Cepstrum Coefficient:MFCC))を特徴パラメータ抽出部13で計算する。これ以後の処理は、図1で説明した通りである。
さらに、別の雑音抑圧手法としてウィナー・フィルタ法(以下、WF法と略す)に基づく雑音抑圧法について図3を参照して説明する(例えば非特許文献3参照)。計算部23で平均雑音パワースペクトルを求め、計算部24で雑音重畳音声パワースペクトルを求めることは、図3に示したSS法と同様であり、これらを用いて音声/雑音スイッチ22の端子22b側からの雑音重畳音声信号に対し、雑音抑圧処理部26で雑音抑圧処理が行われる。まず雑音重畳音声パワースペクトル計算部24からのパワースペクトルは平均雑音重畳音声パワースペクトル計算部26aで平均雑音重畳音声パワースペクトルが計算され、ゲイン関数計算部26bでWF法のゲイン関数Gが式(2)により計算される。
G=E[|S|]/(E[|S|]+E[|N|]) (2)
ただし、E[|S|]とE[|N|]はそれぞれ音声信号と雑音信号の各集合平均を表す。
つまり式(2)は音声信号のパワーレベル/雑音重畳音声信号のパワーレベルを意味しており、計算部26aから出力される式(2)の分母E[|S|]+E[|N|]と対応する値から、計算部23から出力されるE[|N|]と対応する値を引算して式(2)の分子E[|S|]と対応する値を求め、式(2)を計算する。
次にウィナーフィルタ処理部26cにおいて、端子22bから入力された雑音抑圧前の信号Zに対してゲイン関数Gを乗算し、WF法による雑音抑圧処理された信号S^=GZ
が求められる。
このようにWF法による雑音抑圧法は、フレーム毎のS/Nを考慮して雑音抑圧を行っているため、雑音抑圧による音声の歪みを抑えながら高い雑音抑圧性能を実現できる。
しかし、このウィナーフィルタ処理された音声信号は歪が比較的大きい。この点からウィナーフィルタ処理部26cで雑音抑圧処理された信号に対し、更に処理して歪を改善することが非特許文献4に示されている。つまりウィナーフィルタ処理部26cの出力に対し、原音付加部26dで式(3)を計算する。
S’=(1−δ)Z+δS^ (3)
非特許文献4によれば、原音付加率(1−δ)を0.2とすると、原雑音重畳信号に対し、理論上の最大雑音抑圧量は約14dBとなることが記載されている。
F.Martin他:"Recognition of Noisy Speech by Composition of Hidden Markov Models,"電子情報通信学会技術研究報告SP92−96,pp.9−16,1992 Steven F.Boll:"Suppression of Acoustic Noise in Speech Using Spectral Subtraction,"IEEE Transactions on Acoustics,Speech and Signal Processing, Vol.ASSP-27,No.2,pp.113-120,April 1979 J.S. Lim and A. V. Oppenheim, "Enbancement and Bandwidth compression of noisy speech," Proc. IEEE, vol.67, no.12, pp. 1586-1604, Dec. 1979. S. Sakauchi, A. Nakagawa, Y. Haneda, A. Kataoka, "Implementing and Evaluating of an Audio Teleconferencing Terminal with Noise and Echo Reduction," Proc. International Workshop on Acoustic Echo and Noise Control (IWAENC2003), pp. 191-194, Kyoto, Sep. 2003.
このような点から同一入力音声信号に対して、複数のS/N条件で学習された雑音重畳音声モデルを用いて認識処理を行い、これら複数の認識結果からその照合尤度が最も高いものを認識結果とすることが考えられる。しかし異なるS/N条件で作成された雑音重畳音声モデルを用いた音声認識結果の照合尤度の分布は例えばS/Nが25dB程度であれば音声に近い分布となるがS/Nが5dB程度であれば雑音の分布に近いものとなり、その照合尤度のモデル毎に異なるため照合尤度が最も高い認識結果は必ずしも最適なS/N条件の雑音重畳音声モデルを用いた認識結果が最終結果として出力されるとは限らない。このためたまたま高い照合尤度を出力した観測信号とS/N条件の異なる雑音重畳音声モデルから出力された認識結果を選択することになり、誤認識の要因となる。
また照合する雑音重畳音声モデルを作成する際のS/N条件は有限であり、離散的なものとなる。従って入力音声信号のS/N条件と雑音重畳音声モデルのS/N条件とは完全に一致するとは限らない。このため正解の認識結果候補の照合尤度は他の候補の照合尤度と比べて高くなるとは限らず、誤認識の要因となる。
この発明は2つの態様があり、いずれも入力音声中の音声区間の信号と雑音区間の信号とを判別し、その音声区間の信号と雑音区間の信号とから入力音声信号のS/Nを推定する。
第1態様では入力音声信号に対して、複数のS/N条件で作成された雑音重畳音声モデルを用いて認識処理を並列に行い前記複数のS/N条件中の前記推定したS/Nと最も近いものを近接S/N条件とし、この近接S/N条件と対応するモデルを用いた認識処理結果を選択して最終結果出力とする。
第2態様では前記雑音区間の信号から特徴パラメータを抽出して雑音モデルを学習作成し、雑音のない音声信号から予め作成されたクリーン音声モデルと前記雑音モデルとを前記推定したS/Nの条件にあわせて合成し雑音重畳音声モデルとしてこれを用いて前記入力音声信号に対し認識処理を行う。
第1態様によれば入力音声信号のS/Nを推定しこれに近いS/N条件の雑音重畳音声モデルを用いた認識結果を最終結果としているため、つまり認識結果の照合尤度が最大のものから選択するものではなく常にS/N条件が近い雑音重畳音声モデルによる認識結果が得られ認識率が向上する。しかも並列に認識処理を行っており、S/Nが決定した時点で最終的な雑音重畳音声モデルを選択するため短時間で最終認識結果が得られる。
第2態様によれば入力音声信号の推定したS/N条件にあわせて、入力音声信号中の雑音から作った雑音モデルとクリーン音声モデルを合成しているため入力音声信号に対して最も適切なモデルを使って認識処理をすることになり認識率が向上する。しかも複数の雑音重畳音声モデルを用いて並列に認識処理を行う必要がないから大きな計算処理能力を必要としない。
以下この発明の実施形態を図面を参照して説明するが、この明細書及び図面において対応する部分には同一参照符号を付けて重複説明を省略する。
[第1実施形態]
第1実施形態では複数のS/N条件で作成された雑音重畳音声モデルを用いて入力音声信号を並列的に認識処理を行うとともに入力音声信号のS/Nを推定しこのS/Nと最も近接しているS/N条件の雑音重畳音声モデルによる認識結果を最終結果とする。つまりこの発明の第1態様の実施形態である。この発明装置の第1実施形態の機能構成例を図4に、この発明方法の第1実施形態の処理手順を図5に示す。
入力音声信号はこの例ではその雑音成分が抑圧処理され、その抑圧処理された入力音声信号について処理するようにした場合である。例えば入力端子11よりの入力音声信号はディジタル信号に変換され更にパワースペクトルがパワースペクトル計算部31により計算される(ステップS1)。このパワースペクトル信号に基づいて音声/雑音判定部21により判定された雑音区間の信号(ステップS2)は音声/雑音スイッチ22を通じて平均雑音パワースペクトル計算部23へ供給され、これにより平均雑音パワースペクトルが計算され、つまり入力音声信号中の雑音成分が推定される(ステップS3)。この平均雑音パワースペクトルにより雑音区間のパワースペクトルが雑音用抑圧部32で抑圧処理される(ステップS4)。この抑圧処理は例えば背景技術の項で述べたSS法の式(1)による。
抑圧処理された雑音区間のパワースペクトル、つまり雑音区間の信号から推定雑音成分を除去した残りの雑音信号がS/N推定部33に供給される。一方入力音声信号中の音声区間の信号この例ではパワースペクトルは音声用抑圧部34へ入力され平均雑音パワースペクトルにより抑圧処理される(ステップS5)。この抑圧処理は雑音用抑圧部32における抑圧処理と同様に行われる。この抑圧処理された音声区間のパワースペクトルはS/N推定部33及び並列認識処理部35内の特徴パラメータ抽出部13へ供給される。
S/N推定部33では入力された雑音区間信号と音声区間信号とから音声と雑音のパワー比、S/Nが計算推定される。つまり入力された消し残り雑音パワースペクトルから雑音用レベル計算部33aで雑音パワーレベルが計算され(ステップS6)、また入力された雑音抑圧音声区間信号から音声用レベル計算部33bでパワーレベルが計算され、このパワーレベルから雑音用レベル計算部33aよりの雑音パワーレベルが引き算部33cで引き算されて音声パワーレベルが推定される(ステップS7)。この推定音声パワーレベルが雑音パワーレベルにより除算部33dで割り算されて入力音声信号のS/Nが推定される(ステップS8)。このS/N推定を正確に行うために入力音声信号全体にわたって行うことが好ましい。
一方特徴パラメータ抽出部13に入力された抑圧処理音声区間信号は特徴パラメータが分析抽出される(ステップS7)。特徴パラメータの抽出と音声レベルの推定はいずれを先に行ってもよい。抽出された特徴パラメータに対する認識用モデルメモリ36からの雑音重畳音声モデルの照合尤度が尤度計算部15で計算され(ステップS9)、その最大照合尤度のモデルが表現する音声単位、つまり認識結果が最大決定部16により決定される(ステップS10)。認識用モデルメモリ36にはその音声部(モデル部)36aに複数のS/N条件の学習雑音重畳音声信号に基いて作成された雑音重畳音声モデルV(m=1,2,…,M)が格納され、またこれらモデルVと対応するS/N条件S/NがS/N部36bに格納されてある。抽出された特徴パラメータの、前記複数の雑音重畳音声モデルVに対する照合尤度が並列認識処理部35内の尤度計算部15で並列に計算される。
認識用モデル36に格納されている複数のS/N条件中の、S/N推定部33で推定されたS/Nに最も近いものが、近接S/Nとして近接S/N決定部37により決定される(ステップS11)。例えば各S/N条件と推定S/Nとの差が最小のS/N条件を近接S/Nとする。並列認識処理され、モデルごとに得られている認識結果単位中の近接S/Nと対応する雑音重畳音声モデルに基づくものが、選択出力部38により選択され、最終認識結果として出力される(ステップS12)。
この第1実施形態の音声認識装置を動作させるには、認識用モデルメモリ36に前述したように複数の雑音重畳音声モデルVおよびその対応S/N条件S/Nを格納しておき、図5に示すようにまず入力音声信号のパワースペクトルを計算し、入力音声信号中に音声が重畳されるまではステップS2で音声区間と判定されず、背景雑音の平均雑音パワースペクトルが計算され、背景雑音パワースペクトルに対する雑音抑圧処理が行われる。ステップS2で音声区間と判定されると、ステップS5でその雑音音声区間のパワースペクトルに対する雑音抑圧処理が行われる。この雑音抑圧処理は例えばSS法の式(1)による。
つまり雑音重畳音声信号の時刻t、周波数fのパワースペクトルY(t,f)から周波数fの時間平均雑音パワースペクトルN^(f)をα倍した値を減算してD(Y(t,f))を求め(ステップS5a)、D(Y(t,f))がβ(Y(t,f))より大きいかを判定し、大であれば雑音抑圧後のパワースペクトルY(t,f)としてD(Y(t,f))を出力し(ステップS5c)、D(Y(t,f))>βY(t,f)でなければβY(t,f)をY(t,f)として出力する(ステップS5d)。なおこの抑圧処理は音声に歪みをなるべく与えないようにαは小さめに例えば1.0±0.5程度、βは大きめに例えば0.5±0.1程度として雑音抑圧量が小さくなるようにする。このSS法の処理に代えて時間的変動する抑圧処理、つまり背景雑音だけではなく各隣接音声区間の間の各雑音区間について平均雑音パワースペクトルを求め、D(Y(t,f))=Y(t,f)−αN^(f)を雑音抑圧後のパワースペクトルとしてもよい。この場合はN^(f)が時間的に変化する。ステップS4の雑音区間の雑音抑圧処理も音声区間の信号の雑音抑圧処理と同様に行う。
入力音声信号のS/N推定は一般に長い時間を掛けた方が正しいものとなり、例えば発話後の応答を重視する場合には、1回の発話における入力音声信号の全体についてS/N推定を行うとよい。この場合、ステップS6及びS7の次にステップS13で入力音声信号が終了したか否かの判断が終了判断部39(図4)で行われ、終了していなければ、ステップS9に移る。つまり入力音声信号が終了するまでは入力音声信号について複数の雑音重畳音声モデルを用いて並列に認識処理が行われ、またこれと並列に各隣接雑音区間と音声区間ごとにS/N推定が行われ、又は雑音レベルの計算及びその累積と音声レベルの推定及びその累積とが行われる。
ステップS13で入力音声信号が終了したと判断されると、ステップS8でS/N推定が行われ、それまでに推定されたS/Nの平均を推定S/Nとして用い、又は累積音声レベルを累積雑音レベルで割り算して推定S/Nとする。
この第1実施形態によれば[発明の効果]の項で第1態様について述べた効果が得られることは容易に理解できよう。更にこの第1実施形態の場合は、入力音声信号に対し雑音抑圧処理を行っているため、音声認識率を向上させることができるが、その雑音抑圧処理により音声信号に歪が生じる。このため音声モデルとの不適合性から、複数のS/N条件で作成された雑音重畳音声モデルを用いて並列に認識処理し、最終的に照合尤度が最大のモデルの認識結果を採用すると、得られる照合尤度が全体的に低めになってしまい、S/N条件毎の照合尤度の差が小さく、照合尤度が最大となるモデルが入力音声信号(評価対象)のS/N条件に必ずしも適合したものが選ばれるとは限らない。しかしこの第1実施形態では雑音抑圧処理後の入力音声信号に対して、S/Nを推定し、これに最も近いS/N条件で作成された雑音重畳音声モデルの認識結果を最終的な認識結果とすることで、この雑音抑圧処理後の照合尤度の不安定性に対処することができる。
[第2実施形態]
この第2実施形態はまずS/N推定を行い、またその推定S/N処理の際に求めた雑音区間の信号に基づき雑音モデルを作り、この雑音モデルとクリーン音声モデルとを推定S/Nに合せて合成して雑音重畳音声モデルを作り、このモデルを用いて入力音声信号に対し音声認識を行う、つまりこの発明の第2態様の実施形態である。
またこの第2実施形態では入力音声信号に対し雑音抑圧処理をした場合であり、図6にその機能構成例を、図7に処理手順の例を示す。
この第2実施形態においても、入力音声信号のパワースペクトルが計算され(ステップS1)、その音声区間と雑音区間が判定され(ステップS2)、その雑音区間の信号の平均雑音パワースペクトルが計算され(ステップS3)、雑音区間の信号及び音声区間の信号がそれぞれ雑音抑圧処理され(ステップS4及びS5)、これらよりS/Nが推定される(S8)。
この第2実施形態では雑音抑圧処理された残り雑音信号、つまり雑音用抑圧部32よりの残り雑音パワースペクトルから雑音モデル作成部41で雑音モデルが作成される(ステップS21)。つまり残り雑音パワースペクトルから特徴パラメータが分析抽出され、この特徴パラメータに基づき雑音モデルが学習作成される。一方雑音がない多数の学習音声信号から作成されたクリーン音声モデルと、その音声区間の平均パワーレベルLCSがクリーン音声モデルメモリ42内に格納されてあり、このクリーン音声モデルと前記雑音モデルとが、推定されたS/Nに合せて合成される。このモデル合成は例えば非特許文献1に示す方法による。
つまり多くの音響モデルのパラメータは、ケプストラム係数を基本としたものであり、合成した雑音重畳音声の音響モデルのパラメータとしてのケプストラム係数cS+Nは式(5)をもとに計算される。
S+N=F−1(log[exp{F(c)}]+klog[exp{F(c)}]) (5)
はクリーン音声のケプストラム係数、cは雑音のケプストラム係数、Fはフーリエ変換、F−1は逆フーリエ変換を表す。ゲインkはS/Nに依存した値であり、クリーン音響モデル作成時の学習データの音声パワーレベルLCSと、雑音モデルの作成に用いた観測した雑音信号の平均パワーレベルLを用いて計算される。例えば、所望のS/NをS/Nとすると、kは以下の式(6)で表される。
k=LCS/L÷S/N (6)
このkが調整パラメータ計算部44で調整パラメータとして計算される(ステップS24)。この調整パラメータkと、雑音モデルとクリーン音声モデルとがモデル合成部43に入力されて、式(5)が計算され、雑音重畳音声信号モデルが作成される(ステップS25)。このモデルが尤度計算部15へ供給されて、入力音声信号に対する認識処理が行われる。
この第2実施形態の処理手順においては、ステップS4の後、雑音モデルが作らされたか否かにより処理が判断され(ステップS22)、作られていなければ、ステップS21で残り雑音パワースペクトルから雑音区間の平均パワーレベルが計算され、また雑音モデルの作成処理が行われる。ステップS22で雑音モデルが作られてると判断されると、雑音区間の平均パワーレベルの計算のみが行われる(ステップS6)。またステップS5の後、音声区間の平均パワーレベルの計算が行われる(ステップS23)。
ステップS23、ステップS6及びステップS21のいずれの後にも、ステップS13で、入力音声信号が終ったか否かの判断が行われ、終ってなければステップS2に戻り、終っていればステップS8でS/Nの推定計算が行われる。その後、調整パラメータが計算され(ステップS24)、その調整パラメータに基づき、雑音モデルとクリーン音声モデルとが合成されて雑音重畳音声モデルが作成され(ステップS25)、このモデルを用いて、入力音声信号、この例では音声区間の雑音抑圧処理されたパワースペクトルに対する音声認識処理が行われる(ステップS26)。
この第2実施形態によれば[発明の効果]の項で第2態様について述べた効果が得られることは理解されよう。第1実施形態ではメモリ36に格納されているS/N条件は離散的な値であるから、近接S/Nであっても推定したS/Nとある程度異なっており、このためS/N条件の違いに基づく誤認識が生じるおそれがあるが、この第2実施形態ではその問題が解決される。
しかも入力音声信号の推定S/Nに合せてクリーン音声モデルと雑音モデルと合成して雑音重畳音声モデルを作成しているから第1実施形態よりもより適切なS/N条件の雑音重畳音声モデルとなり、しかも入力音声信号に対し雑音抑圧処理を行って認識処理を行っているため、認識率がより向上する。
[変形形態]
抑圧処理
第1及び第2実施形態のいずれにおいても、入力音声信号に対し、まず雑音抑圧処理を行ってもよい。第1実施形態において、例えば図8に機能構成の一部を、図9に処理手順の一部をそれぞれ示すようにディジタル変換された入力音声信号の雑音成分が雑音推定部46で推定される(ステップS31)。この推定は例えば入力音声信号中の時間的にほぼ一定なパワーレベルが雑音成分として推定される。この推定雑音成分により入力音声信号に対し、雑音抑圧部47で抑圧処理される(ステップS32)。この抑圧処理は第1実施形態での抑圧処理と同様に行うことができる。その抑圧処理された入力音声信号のパワースペクトルが計算され(ステップS1)、このパワースペクトルにより音声/雑音区間が音声/雑音判定部21により判定され(ステップS2)、その判定結果により、音声/雑音スイッチ22を通じて入力音声信号のパワースペクトルがS/N推定部33から並列認識処理部35に供給される。つまりステップS2の判定が音声区間でなければ、ステップS6で雑音区間の雑音平均パワーレベルが計算され、判定が音声区間であれば、ステップS7で音声区間の平均パワーレベルが推定され、また特徴パラメータが抽出される。その他の機能構成及び処理手順は先に述べた第1実施形態と同一である。
第2実施形態においてはその機能構成の一部を図10に、処理手順の一部を図11に示すように、第1実施形態で雑音抑圧処理をまず行う場合と同様に背景雑音成分が推定され、これにより入力音声信号に対し雑音抑圧処理が行われて更にパワースペクトルが計算され、雑音区間の残り雑音パワースペクトルはS/N推定部33及び雑音モデル学習部41へ供給され、音声区間の雑音抑圧パワースペクトルは認識処理部17へ供給される。ステップS2の音声/雑音判定部21による判定が音声区間でなければステップS22で雑音モデルが作成されたと判断され、音声区間であれば、ステップS23で音声区間の平均パワーレベルが推定される。
S/N短時間推定
先に述べたように、S/N推定は発話区間の終了を待ってから行った方が正確であるが、そのようにすると、認識結果の応答が遅れてしまう場合がある。その場合は例えば入力音声信号中に音声が重畳し始めてから1秒間などの要求される認識結果の応答に遅れない範囲でなるべく長く決めた時間が経過するとS/N推定を行う。このようにしても、第1実施形態では近接S/N条件を可成り正しく決定することができ、第2実施形態においても入力音声信号における実際のS/Nと可成り近いものとなり、作成された雑音重畳音声モデルは入力音声信号の認識に適するものになる。
第1実施形態においては、図4中の終了判断部39は括弧書きで示すように、時間経過判断部39とされ、予め決めた時間が経過したかが判断される。また図5中においてステップS13が省略され、破線51で示すように、ステップS6及びS7の次にステップS35で認識処理の開始から予め決めた時間が経過したか否かの判断が行われ、経過していなければステップS9へ移って照合尤度計算を行い、時間が経過していればステップS36で近接S/Nが決定されたか否かが判断され決定されていなければ、ステップS8に移り、それまでのデータでS/N推定を行い、近接S/Nが決定されていればステップS12へ移り、それまでに得られたまだ最終認識結果として出力されていない認識結果から近接S/Nと対応するものを最終結果として出力する。その後、ステップS37で入力音声信号が終ったか否かが判断され、終っていなければステップS5に戻り、終っていれば処理を終了する。
第2実施形態においては、図6において終了判断部39が時間経過判断部39とされ、図7においてステップS13が省略され、替りに破線52で示すように、このステップS35が挿入され予め決めた時間が経過したか否かが判断され、経過していなければステップS2に移り、経過していればステップS8に移る。
このように入力音声信号が終らないうちにS/Nを推定することは先に述べた入力音声信号に対し、まず雑音抑圧処理する場合の各例にも適用できる。
雑音抑圧なし
これまでに述べた各実施形態では入力音声信号に対し、雑音抑圧処理を行ったが、これを省略してもよい。第1実施形態において例えば図4において平均雑音パワースペクトル計算部23、雑音用抑圧部32及び音声用抑圧部34が省略され、破線53で示すように音声/雑音スイッチ22の雑音側端子22aはS/N推定部35に直接接続され、音声側端子22bは破線54で示すようにS/N推定部33及び特徴パラメータ抽出部13と直接接続される。
図5においてはステップS3,S4及びS5が省略され、ステップS2で音声区間でないと判定されると、破線55で示すように直ちにステップS6へ移り、音声区間であると判断されると、破線56で示すようにステップS7に直ちに移る。
第2実施形態においても第1実施形態と同様である。つまり図6において、図4と同様に破線53及び54の接続となり、雑音抑圧処理部分が省略され、図7において図5と同様に破線55及び56に示す手順となり、雑音抑圧処理が省略されることになる。
図8及び図10においては雑音推定部46及び雑音抑圧部47が省略され、破線57で示すように、A/D変換部12の出力側がパワースペクトル計算部31に直接接続される。図9及び図11においてはステップS31及びS32が省略され、破線58で示すようにステップ31のパワースペクトル計算から始めることになる。
抑圧処理の他の具体例
更に、図4及び図6、図8、図10中の抑圧部32,34,47、図5及び図7、図9、図11中のステップS4,S5,S32の抑圧処理として、背景技術の項で図3を参照して説明した雑音抑圧処理を適用してもよい。例えば、図4中の音声用抑圧部34の機能構成は図12に示すようになる。端子22bからの音声区間のパワースペクトルは平均雑音重畳音声パワースペクトル計算部26aにより平均雑音重畳音声パワースペクトルが計算され、この計算結果から平均雑音パワースペクトル計算部23よりの平均雑音パワースペクトルが減算部26b1で引算され、その残りが平均雑音重畳音声パワースペクトルにより除算部26b2で割算されて、式(2)のゲイン関数Gが求められる。そのゲイン関数Gが端子22bよりの雑音重畳音声信号Zに対してウィナーフィルタ処理部26cで乗算されフィルタ処理結果S^が得られる。
原音付加部26dにおいて、端子22bからの雑音重畳音声信号Zに対し、原音付加率(1−δ)が乗算部26d1で乗算され、またウィナーフィルタ処理部26cの出力S^
に対しδが乗算部26d2で乗算され、両乗算部26d1及び26d2の各出力が加算部26d3で加算されて、抑圧処理された雑音重畳音声パワースペクトルが得られる。雑音区間における雑音用抑圧部32も同様に構成されるが、平均雑音パワースペクトルE[|N|]は例えば1秒間程度の雑音パワースペクトルの平均であり、E[|S|]+E[|N|]に対応する値は、各フレーム、例えば30ミリ秒間の雑音パワースペクトルの平均E[|O|]であり、式(2)のゲインGは(E[|O|]−E[|N|])/E[|O|]となり、小さな値となる。よって、雑音用抑圧部32の出力は(1−δ)Zに近い値になる。
このような雑音抑圧処理を適用した場合は、原音付加率(1−δ)は例えば0.3〜0.2程度とされる。
図4、図6、図8及び図10に示した装置をコンピュータにより機能させてもよい。この場合は図5、図7、図9及び図11中の対応するものに示した処理手順の各過程をコンピュータに実行させるための音声認識プログラムを、コンピュータにCD−ROM、磁気ディスク装置、半導体記憶装置などの記録媒体からインストールし、あるいは通信回線を介してダウンロードして、このプログラムをコンピュータに実行させればよい。
[実験例]
第1実施形態に基づく雑音環境下音声認識の実験例について述べ、第1実施形態の効果を明らかにする。音響モデルは、音素環境独立音素数30、3状態、4混合分布モデルを用いた。学習データには、男性話者1名による503文章の発声信号を用いた。特徴パラメータは、12次元のMFCC、ΔMFCC、Δパワーである。サンプリング周波数は、16kHzである。評価用音声データ(入力音声信号)は前記の学習データと同一の男性話者1名が発声した216単語発声信号である。これに、ノート形パーソナルコンピュータの内蔵マイクロホンで収音したパーソナルコンピュータの冷却用ファン雑音信号を電子計算機上で重畳した。重畳音声信号のS/Nが、5dB、10dB、15dBとなるように評価データの音声信号のパワーレベルを調整して雑音信号を重畳した。雑音抑圧のための平均雑音パワースペクトルは、3秒の雑音区間から計算した。SS法の係数は、α=1.0、β=0.5とした。
図13にS/N比を変えた時の、各手法の認識率を示す。雑音重畳音声信号をクリーン音声HMMで認識した場合結果は「クリーン音声HMM」(変形のプロット点)となり、S/Nの判定処理を用い雑音抑圧処理後の入力音声信号を、複数のS/N条件で合成した複数のS/Nの雑音重畳音声モデルで認識し、照合尤度比較により認識結果を得る場合の結果は「尤度選択SS+HMM法」(正方形のプロット点)となり、第1実施形態による手法による結果は「S/N判定付きSS+HMM法」(三角のプロット点)となった。この第1実施形態による手法の性能が、全てのS/Nで最も良い手法であることが示された。
従来のHMMを用いた音声認識装置の機能構成を示すブロック図。 スペクトルサブトラクション法を用いた従来の音声認識装置の機能構成を示すブロック図。 ウィナー・フィルタ法を用いた従来の雑音抑圧を示す機能構成図。 この発明装置の第1実施形態の機能構成例を示すブロック図。 この発明の方法の第1実施形態の処理手順の例を示すフローチャート。 この発明装置の第2実施形態の機能構成例を示すブロック図。 この発明方法の第2実施形態の処理手順の例を示すフローチャート。 雑音抑圧を先ず行う第1実施形態の機能構成例の一部を示すブロック図。 図8の処理手順の一部を示すフローチャート。 雑音抑圧を先ず行う第2実施形態の機能構成例の一部を示すブロック図。 図10の処理手順の一部を示すフローチャート。 実施形態中の音声用抑圧部34にWF法を適用した機能構成例を示すブロック図。 各種手法による音声認識の実験結果を示すグラフ。

Claims (9)

  1. 入力音声信号から計算した特徴パラメータ系列に対して、各認識結果候補の特徴を表現した確率モデルを用いて計算した類似の尤度から認識結果を出力する音声認識方法において、
    前記入力音声信号中の音声区間の信号と雑音区間の信号とを判別する区間判別過程と、
    前記音声区間の信号と前記雑音区間の信号から前記入力音声信号の信号対雑音比(以下S/Nと書く)を推定するS/N推定過程と、
    前記入力音声信号に対し、複数のS/N条件で作成された雑音重畳音声モデルを用いて認識処理を行う並列認識処理過程と、
    前記複数のS/N条件中の前記推定されたS/Nと最も近いものを近接S/N条件として決定する近接S/N決定過程と、
    前記近接S/N条件と対応するモデルを用いた認識処理された結果を出力する選択過程と
    を含むことを特徴とする音声認識方法。
  2. 予め決めた時間が経過したかを判定する判定過程と、
    前記判定が経過してないであれば前記並列認識処理過程及び前記S/N推定過程を実行し、前記判定が経過したであれば前記近接S/N決定過程及び前記選択過程を実行し、その後は前記近接S/N条件と対応するモデルのみを用い前記入力音声信号中の残りの信号に対して認識処理を行う過程とを含むことを特徴とする請求項1記載の音声認識方法。
  3. 入力音声信号から計算した特徴パラメータ系列に対して、各認識結果候補の特徴を表現した確率モデルを用いて計算した類似の尤度から認識結果を出力する音声認識方法において、
    前記入力音声信号中の音声区間の信号と雑音区間の信号とを判別する区間判別過程と、
    前記音声区間の信号と前記雑音区間の信号から前記入力音声信号の信号対雑音比(以下S/Nと書く)を推定するS/N推定過程と、
    前記雑音区間の信号から特徴パラメータを抽出して、雑音モデルを作成する雑音モデル作成過程と、
    雑音のない音声信号から予め作成されたクリーン音声モデルと前記雑音モデルとを前記推定されたS/N条件に合せて合成して雑音重畳音声モデルを作成する認識用モデル作成過程と、
    前記雑音重畳音声モデルを用いて前記入力音声信号に対し認識処理を行う認識処理過程と
    を含むことを特徴とする音声認識方法。
  4. 予め決めた時間が経過したかを判定する判定過程と、
    前記判定が経過してないであれば前記S/N推定過程を実行し、前記判定が経過したであれば前記S/N推定過程のそれまでに得られたデータに基づきS/Nを近似推定し、その近似推定S/Nを用いて前記認識用モデル作成過程及び前記認識処理過程を実行する過程とを含むことを特徴とする請求項3記載の音声認識方法。
  5. 前記入力音声信号に対し雑音抑圧処理する過程を含み、
    前記S/N推定過程は前記雑音抑圧処理された入力音声信号に対して実行する過程であることを特徴とする請求項1〜4のいずれかに記載の音声認識方法。
  6. 入力音声信号から計算した特徴パラメータ系列に対して、各認識結果候補の特徴を表現した確率モデルを用いて計算した類似の尤度から認識結果を出力する音声認識装置において、
    前記入力音声信号が入力され、その音声区間の信号と雑音区間の信号とを判別する音声/雑音判定部と、
    前記判別された音声区間の信号と前記雑音区間の信号が入力され、前記入力音声信号の信号対雑音比(以下S/Nと書く)を推定するS/N推定部と、
    複数のS/N条件で作成された雑音重畳音声モデルと前記複数のS/N条件が格納されている認識用モデルメモリと、
    前記入力音声信号に対し、前記複数の雑音重畳音声モデルを用いて認識処理を並列に実行する並列認識処理部と、
    前記複数のS/N条件及び前記推定されたS/Nが入力され推定S/Nと最も近いS/N条件を近接S/N条件として決定する近接S/N決定部と、
    前記近接S/N条件と対応するモデルを用いて認識処理された結果を、前記並列認識処理部から選出する選択部と
    を具備することを特徴とする音声認識装置。
  7. 入力音声信号から計算した特徴パラメータ系列に対して、各認識結果候補の特徴を表現した確率モデルを用いて計算した類似の尤度から認識結果を出力する音声認識装置において、
    前記入力音声信号が入力され、その音声区間の信号と雑音区間の信号とを判別する音声/雑音判定部と、
    前記判別された音声区間の信号と前記雑音区間の信号が入力され、前記入力音声信号の信号対雑音比(以下S/Nと書く)を推定するS/N推定部と、
    前記雑音区間の信号が入力され、これらから特徴パラメータを抽出して、雑音モデルを作成する雑音モデル作成部と、
    雑音のない音声信号から予め作成されたクリーン音声モデルが格納されたクリーン音声モデルメモリと、
    前記雑音モデルと前記クリーン音声モデルとを前記推定されたS/N条件に合せて合成して雑音重畳音声モデルを作成する認識用モデル作成部と、
    前記作成された雑音重畳音声モデルを用いて前記入力音声信号に対し認識処理を行う認識処理部と
    を具備することを特徴とする音声認識装置。
  8. 請求項1〜5のいずれかに記載した音声認識方法の各過程をコンピュータに実行させるための音声認識プログラム。
  9. 請求項8に記載した音声認識プログラムが記録されたコンピュータ読み取り可能な記録媒体。
JP2004145345A 2004-05-14 2004-05-14 音声認識方法、その装置およびプログラム、その記録媒体 Pending JP2005326673A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004145345A JP2005326673A (ja) 2004-05-14 2004-05-14 音声認識方法、その装置およびプログラム、その記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004145345A JP2005326673A (ja) 2004-05-14 2004-05-14 音声認識方法、その装置およびプログラム、その記録媒体

Publications (1)

Publication Number Publication Date
JP2005326673A true JP2005326673A (ja) 2005-11-24

Family

ID=35473067

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004145345A Pending JP2005326673A (ja) 2004-05-14 2004-05-14 音声認識方法、その装置およびプログラム、その記録媒体

Country Status (1)

Country Link
JP (1) JP2005326673A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101300327B1 (ko) 2005-12-05 2013-08-28 텔레폰악티에볼라겟엘엠에릭슨(펍) 에코 검출
US9245524B2 (en) 2010-11-11 2016-01-26 Nec Corporation Speech recognition device, speech recognition method, and computer readable medium

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101300327B1 (ko) 2005-12-05 2013-08-28 텔레폰악티에볼라겟엘엠에릭슨(펍) 에코 검출
US9245524B2 (en) 2010-11-11 2016-01-26 Nec Corporation Speech recognition device, speech recognition method, and computer readable medium
JP5949553B2 (ja) * 2010-11-11 2016-07-06 日本電気株式会社 音声認識装置、音声認識方法、および音声認識プログラム

Similar Documents

Publication Publication Date Title
CN112447191B (zh) 信号处理装置以及信号处理方法
JP6077957B2 (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
JP6169910B2 (ja) 音声処理装置
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
EP1457968B1 (en) Noise adaptation system of speech model, noise adaptation method, and noise adaptation program for speech recognition
JP4728791B2 (ja) 音声認識装置、音声認識方法、そのプログラムおよびその記録媒体
JP2007065204A (ja) 残響除去装置、残響除去方法、残響除去プログラム及びその記録媒体
US8423360B2 (en) Speech recognition apparatus, method and computer program product
JP2009003008A (ja) 雑音抑圧装置、音声認識装置、雑音抑圧方法、及びプログラム
JP4791857B2 (ja) 発話区間検出装置及び発話区間検出プログラム
JP4858663B2 (ja) 音声認識方法及び音声認識装置
JP5301037B2 (ja) 音声認識装置
JP4464797B2 (ja) 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
JP4313728B2 (ja) 音声認識方法、その装置およびプログラム、その記録媒体
JP5200080B2 (ja) 音声認識装置、音声認識方法、およびそのプログラム
JP3510458B2 (ja) 音声認識システムおよび音声認識制御プログラムを記録した記録媒体
JP5961530B2 (ja) 音響モデル生成装置とその方法とプログラム
JP2005326673A (ja) 音声認識方法、その装置およびプログラム、その記録媒体
JP2005321539A (ja) 音声認識方法、その装置およびプログラム、その記録媒体
JP2011118290A (ja) 音声認識装置
JP4242320B2 (ja) 音声認識方法、その装置およびプログラム、その記録媒体
JP5166195B2 (ja) 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体
CN111226278B (zh) 低复杂度的浊音语音检测和基音估计
JP5496945B2 (ja) 話者分類装置、話者分類方法、プログラム
Lipeika Optimization of formant feature based speech recognition