JP4242320B2 - 音声認識方法、その装置およびプログラム、その記録媒体 - Google Patents

音声認識方法、その装置およびプログラム、その記録媒体 Download PDF

Info

Publication number
JP4242320B2
JP4242320B2 JP2004145334A JP2004145334A JP4242320B2 JP 4242320 B2 JP4242320 B2 JP 4242320B2 JP 2004145334 A JP2004145334 A JP 2004145334A JP 2004145334 A JP2004145334 A JP 2004145334A JP 4242320 B2 JP4242320 B2 JP 4242320B2
Authority
JP
Japan
Prior art keywords
noise
signal
speech
model
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004145334A
Other languages
English (en)
Other versions
JP2005326672A (ja
Inventor
哲 小橋川
敏 高橋
義和 山口
明弘 今村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004145334A priority Critical patent/JP4242320B2/ja
Publication of JP2005326672A publication Critical patent/JP2005326672A/ja
Application granted granted Critical
Publication of JP4242320B2 publication Critical patent/JP4242320B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

この発明は、入力音声信号の特徴パラメータ系列に対して、各認識結果候補の特徴パラメータからモデル化した確率モデルの尤度を求めて、入力音声信号の認識を行う音声認識方法、その装置およびプログラム、その記録媒体に関する。
従来の音声認識において、認識結果候補を構成する音素、音節、単語などの音声単位のカテゴリ毎に隠れマルコフモデル(Hidden Markov Model、以下ではHMMと記す。)などの確率モデルを用いてモデル化する手法は、認識性能が高く、現在の音声認識技術の主流となっている。従来のHMMを用いた音声認識装置を図1を参照して簡単に説明する。入力端子11から入力された音声信号は、A/D変換部12においてディジタル信号に変換される。そのディジタル信号から特徴パラメータ抽出部13において音声特徴パラメータを抽出する。予め、ある音声単位毎に作成したHMMをモデルメモリ14から読み出し、尤度計算部15において、抽出された音声特徴パラメータに対する各モデルの照合尤度を計算する。最も大きな照合尤度を示すモデルが表現する音声単位を認識結果とし出力部16より出力する。特徴パラメータ抽出部13、尤度計算部15及び出力部16は認識処理部17を構成している。なおこの明細書及び図面中で対応する部分は同一参照番号を付けて重複説明は省略する。
背景雑音などの加法性雑音が重畳した音声の従来の認識方法を以下に5つ説明する。1つ目は入力音声信号における背景雑音の種類が既知と仮定し、雑音重畳音声データから学習された雑音重畳音声モデルを用いる方法である。
2つ目は、HMMの合成による雑音重畳音声の認識手法(例えば非特許文献1参照)について説明する。雑音重畳音声に対しては、前述のように、雑音重畳音声から学習した雑音重畳音声モデルを用いて認識すれば認識性能は向上する。しかし、HMMを作成するために必要な学習データ量は膨大であり、モデル作成のための計算時間も膨大である。そこで、雑音のない大量の音声データをもとに予めクリーン音声HMMを作成しておく。認識時には観測した背景雑音から作成した雑音HMMと、クリーン音声HMMを合成する。この合成した雑音重畳音声HMMは、認識時の背景雑音を含む音声モデルの近似であり、これを用いて認識する。
3つ目はテイラー(Taylor)展開による音響モデルの適応(ヤコビアン適応法)による雑音重畳音声の認識手法(例えば、非特許文献2参照)について説明する。前述のHMM合成法で行っているモデルパラメータの非線形変換を、Taylor展開の1次項を用いて線形近似することで、観測した背景雑音に適応させることが可能になる。HMM合成法に比べ、音声モデルの処理時間も少なく、高速に雑音適応ができ、雑音の変化に追従できる。
4つ目は、入力音声に重畳した雑音を抑圧した後に認識する方法である。雑音抑圧方法はいろいろと提案されているが、ここではスペクトルサブトラクション法(以下、SS法と記す)について説明する(例えば非特許文献3参照)。時間領域で加法性の2つの信号は、線形パワースペクトル上でも加法性であることから、SS法では、雑音重畳音声信号から、推定雑音成分を線形パワースペクトル上で減算して音声成分を抽出する。
SS法を用いた音声認識装置を図2を参照して簡単に説明する。ディジタル信号とされた入力音声信号は、雑音であるか、雑音重畳音声であるかを音声/雑音判定部21で判定される。この判定部21は、その判定が雑音であるならば、音声/雑音スイッチ22を雑音端子22a側に接続してA/D変換部12の出力側を平均雑音パワースペクトル計算部23に接続して入力音声信号中の雑音区間における平均パワースペクトルを計算する。判定部21で認識対象である雑音重畳音声区間であると判定された場合は、音声/雑音スイッチ22を音声端子22b側に接続して、A/D変換部12の出力側を雑音重畳音声パワースペクトル計算部24に接続し、入力音声信号中の雑音重畳音声のパワースペクトルを計算する。抑圧処理部25において、各時刻の雑音重畳音声のパワースペクトルから、平均雑音パワースペクトルを減算する。時刻tのパワースペクトルの周波数fの雑音抑圧後のパワースペクトルY(t,f)は、以下のように計算される。
D(Y(t,f))=Y(t,f)−αN^(f)
(t,f)=D(Y(t,f)) : D(Y(t,f))>βY(t,f)の場合
(t,f)=βY(t,f) その他の場合 (1)
ここで、Y(t,f)は、入力雑音重畳音声の時刻t、周波数fのパワースペクトル、
N^(f)は推定された周波数fの時間平均雑音パワースペクトル、
αはサブストラクション係数であり、通常1より大きい。
βはフロアリング係数であり、1より小さい。
抑圧処理部25から出力されるパワースペクトルから、音声認識の特徴パラメータ(例えば、12次元のメルフレクエンシイケプストラム係数(Mel-Frequency Cepstrum Coefficient:MFCC))を特徴パラメータ抽出部13で計算する。これ以後の処理は、図1で説明した通りである。
さらに、別の雑音抑圧手法としてウィナー・フィルタ法(以下、WF法と略す)に基づく雑音抑圧法について図3を参照して説明する(例えば非特許文献4参照)。計算部23で平均雑音パワースペクトルを求め、計算部24で雑音重畳音声パワースペクトルを求めることは、図3に示したSS法と同様であり、これらを用いて音声/雑音スイッチ22の端子22b側からの雑音重畳音声信号に対し、雑音抑圧処理部26で雑音抑圧処理が行われる。まず雑音重畳音声パワースペクトル計算部24からのパワースペクトルは平均雑音重畳音声パワースペクトル計算部26aで平均雑音重畳音声パワースペクトルが計算され、ゲイン関数計算部26bでWF法のゲイン関数Gが式(2)により計算される。
G=E[|S|]/(E[|S|]+E[|N|]) (2)
ただし、E[|S|]とE[|N|]はそれぞれ音声信号と雑音信号の各集合平均を表す。
つまり式(2)は音声信号のパワーレベル/雑音重畳音声信号のパワーレベルを意味しており、計算部26aから出力される式(2)の分母E[|S|]+E[|N|]と対応する値から、計算部23から出力されるE[|N|]と対応する値を引算して式(2)の分子E[|S|]と対応する値を求め、式(2)を計算する。
次にウィナーフィルタ処理部26cにおいて、端子22bから入力された雑音抑圧前の信号Zに対してゲイン関数Gを乗算し、WF法による雑音抑圧処理された信号S^=GZ
が求められる。
このようにWF法による雑音抑圧法は、フレーム毎のS/Nを考慮して雑音抑圧を行っているため、雑音抑圧による音声の歪みを抑えながら高い雑音抑圧性能を実現できる。
しかし、このウィナーフィルタ処理された音声信号は歪が比較的大きい。この点からウィナーフィルタ処理部26cで雑音抑圧処理された信号に対し、更に処理して歪を改善することが非特許文献5に示されている。つまりウィナーフィルタ処理部26cの出力に対し、原音付加部26dで式(3)を計算する。
S’=(1−δ)Z+δS^ (3)
非特許文献5によれば、原音付加率(1−δ)を0.2とすると、原雑音重畳信号に対し、理論上の最大雑音抑圧量は約14dBとなることが記載されている。
F.Martin他:"Recognition of Noisy Speech by Composition of Hidden Markov Models,"電子情報通信学会技術研究報告SP92−96,pp.9−16,1992 山口 義和、高橋 淳一、高橋 敏、嵯峨山 茂樹:"Taylor展開による音響モデルの適応"電子情報通信学会技術研究報告SP96−78,pp.1−8,1996 Steven F.Boll:"Suppression of Acoustic Noise in Speech Using Spectral Subtraction,"IEEE Transactions on Acoustics,Speech and Signal Processing, Vol.ASSP-27,No.2,pp.113-120,April 1979 J.S. Lim and A. V. Oppenheim, "Enbancement and Bandwidth compression of noisy speech," Proc. IEEE, vol.67, no.12, pp. 1586-1604, Dec. 1979. S. Sakauchi, A. Nakagawa, Y. Haneda, A. Kataoka, "Implementing and Evaluating of an Audio Teleconferencing Terminal with Noise and Echo Reduction," Proc. International Workshop on Acoustic Echo and Noise Control (IWAENC2003), pp. 191-194, Kyoto, Sep. 2003.
一般に、雑音の無い環境下に比べ、雑音環境下では音声の認識性能は劣化する。さらに、雑音の種類が多く、予め用意してある雑音重畳音声モデルとの不整合を起こし、認識性能が劣化する。実際の利用環境を考えると、雑音の種類は刻々と変化する場合も多く、利用環境に依存した雑音環境に適応した雑音重畳音声モデルを事前に作成しておくのは困難である。
そこで、周囲の雑音環境やS/N条件が事前に用意した雑音重畳音声モデルと近い環境であればそのモデルを用いて認識し、周囲の環境が事前に想定した環境と異なる場合には新たに環境に適応して認識を行うというように、利用環境における雑音条件の変化に自律的に適応していくような音声認識方法が必要となる。
この発明の目的は、事前に用意してある雑音重畳音声モデルの学習時の環境と、認識時の環境が異なっていても、比較的容易に新たに環境に適応した雑音重畳音声モデルを作成することができる音声認識方法、その装置及びプログラム、その記録媒体を提供することにある。
入力音声信号に対して、雑音信号であるか、雑音重畳音声信号であるかを判定し、判定結果が雑音である場合に、少くとも一つの事前に作成しておいた雑音重畳音声モデルの学習時に重畳した雑音信号と前記判定した雑音信号との類似度を少くとも推定し、類似度が所定値以上のモデルがあれば、そのうちの類似度が最も高いもののモデルを認識モデルとして音声認識を行い、前記類似度が所定値以上のものがなければ、事前に作成しておいた音声モデルと前記判定雑音信号とを用いて前記判定雑音信号に適応した雑音重畳音声モデルを作成し、この雑音重畳音声モデルを用いて前記入力音声信号に対して音声認識を行う。
この構成によれば、まず入力音声信号中の雑音信号を検出して、これより音声認識に適する雑音重畳音声モデルが予め用意した雑音重畳音声モデル中にあるかを調べ、あればその音声モデルを用いなければ、その検出した雑音信号と予め用意した音声モデルとを用いてその検出した雑音信号に適合した雑音重畳音声モデルを作成して、認識を行うため、環境雑音に比較的影響されずかつ比較的短時間に高い認識率の認識を行うことができる。
以下にこの発明の実施形態を説明するが、この明細書及び図面において、対応する部分には同一参照番号を付けて重複説明を省略する。
[第1実施形態]
この発明の第1実施形態は入力音声信号中の雑音信号と、格納されている雑音重畳音声モデルの作成の際に用いた学習音声信号中の雑音信号との類似度に基づき、認識に格納されているモデルを用いるか、適合したモデルを作成して用いるかを判断する。第1実施形態の機能構成例を図4にその処理手順を図5にそれぞれ示す。
入力された入力音声信号はA/D変換部21でディジタル入力音声信号に変換され、そのディジタル入力音声信号のパワースペクトルがパワースペクトル計算部31により計算される(ステップS1)。このパワースペクトルに基づき入力音声信号が音声区間であるか雑音区間であるかの判定が音声/雑音判定部21により判定される(ステップS2)。この実施形態では類似度の計算に用いる。入力音声信号中の雑音信号として、抑圧された雑音信号を用いている。つまり入力音声信号中の雑音区間平均雑音パワースペクトルが雑音平均パワースペクトル計算部23により計算されて入力音声信号中の雑音成分が推定され(ステップS3)、パワースペクトル計算部31からの入力部信号のパワースペクトル中の音声/雑音スイッチ22の雑音側端子22aよりのパワースペクトルが、この平均雑音パワースペクトルにより雑音用抑圧部32により抑圧処理されて抑圧処理された雑音区間信号と対応する信号のパワースペクトル(抑圧処理後パワースペクトル)が得られる(ステップS4)。この抑圧処理は例えば背景技術の項で述べたSS法の式(1)により行なう。
一方、雑音重畳音声モデルメモリ33には、利用環境において想定される雑音信号の平均パワースペクトルを減算した抑圧雑音信号から作成された雑音モデルが、雑音重畳音声モデルメモリ33内の雑音部N(n=1,…,N)が少くとも1つ格納してあり、またその雑音モデルとクリーン音声モデルを合成した雑音重畳音声モデルが音声部(モデル部)Mに格納してある。
ステップS4で抑圧処理された雑音パワースペクトルは類似度計算判定部34の雑音部34aにおいて雑音重畳音声モデルメモリ33に格納してある雑音モデルと雑音類似度が計算される(ステップS5)。この類似度が判定部34bで所定値以上か否かの判定が行われる(ステップS6)。メモリ33内に格納してある雑音重畳音声モデルが複数の場合はその各雑音モデルとの類似度が計算される。判定部34bで所定値以上のものが複数あればその類似度の最も高いものと対応する雑音重畳音声モデルが読み出されて認識処理部17中の尤度計算部15へ供給される(ステップS7)。つまり図4で類似度計算判定部34の出力により切り替えスイッチ35が端子35a側に切り替えられてメモリ33に接続され、前記モデルが読み出されて尤度計算部15に供給される。前記尤度の計算は例えば前記抑圧処理された雑音パワースペクトルから特徴パラメータを抽出してこれを雑音モデルに代入演算して確率値として求めればよい。
ステップS6で所定値以上のものがなければステップS8に移り、つまり図4において類似度計算判定部34の出力によりスイッチ36がオンにされて雑音用抑圧部32よりの抑圧処理された雑音パワースペクトルがモデル作成部37に供給される。この抑圧処理された雑音パワースペクトルと、予め格納してある音声モデルとから雑音重畳音声モデルが作成される。この実施形態では雑音のない学習音声信号から作成されたクリーン音声モデルがクリーン音声モデルメモリ37aに予め格納してある。抑圧処理された雑音パワースペクトルは雑音モデル学習部37bで学習されて雑音モデルが生成され(ステップS8a)、つまり抑圧処理された雑音パワースペクトルから特徴量が抽出されこれより雑音モデルが学習生成される。この雑音モデルとメモリ37a内のクリーン音声モデルとが合成部37cで合成されて(ステップS8b)、雑音重畳音声モデルとしてスイッチ35の端子35bを通じて尤度計算部15へ供給される。スイッチ35はスイッチ36がオンになる時に端子35b側に同期して切り替えられる。合成部37cでの合成は例えば非特許文献1に示す方法により行う。
一方ステップS2で音声区間であると判定されるとパワースペクトル計算部31よりのパワースペクトルは音声用抑圧部38に供給され平均雑音パワースペクトル計算部23よりの平均雑音パワースペクトルにより雑音抑圧される(ステップS9)。この雑音抑圧処理も例えば前記SS法の式(1)による。つまり雑音重畳音声信号の時刻t、周波数fのパワースペクトルY(t,f)から周波数fの時間平均雑音パワースペクトルN^(f)をα倍した値を減算してD(Y(t,f))を求め(ステップS9a)、D(Y(t,f))がβ(Y(t,f))より大きいかを判定し、大であれば雑音抑圧後のパワースペクトルY(t,f)としてD(Y(t,f))を出力し(ステップS9c)、D(Y(t,f))>βY(t,f)でなければβY(t,f)をY(t,f)として出力する(ステップS9d)。なおこの抑圧処理は音声に歪みをなるべく与えないようにαは小さめに例えば1.0±0.5程度、βは大きめに例えば0.5±0.1程度として雑音抑圧量が小さくなるようにする。このSS法の処理に代えて時間的変動する抑圧処理、つまり背景雑音だけではなく各隣接音声区間の間の各雑音区間について平均雑音パワースペクトルを求め、D(Y(t,f))=Y(t,f)−αN^(f)を雑音抑圧後のパワースペクトルとしてもよい。この場合はN^(f)が時間的に変化する。
この雑音抑圧処理された音声区間のパワースペクトルは認識処理部17において認識処理される(ステップS10)。つまり雑音抑圧された音声区間パワースペクトルは特徴パラメータが抽出され(ステップS10a)、その特徴パラメータについて尤度計算部15でこれに入力された雑音重畳音声モデルに対する尤度が計算され(ステップS10b)、その最も高い尤度と対応する認識音声単位が出力される(ステップS10c)。この音声認識装置を使用する場合には雑音重畳音声モデルメモリ33に予め想定される少なくとも一つの雑音重畳音声モデルを格納しておき、またクリーン音声モデルをメモリ37aに格納しておき、音声認識に先立ち入力された入力音声信号、つまり音声信号が重畳されていない背景(環境)雑音信号について前述したような処理により抑圧処理された雑音パワースペクトルとメモリ33内の雑音モデルとの類似度を求めてメモリ33に格納してある雑音重畳音声モデルを使用するか、モデル作成部37で作成された雑音重畳音声モデルを使用するかが決定される。その後音声が重畳されている入力信号中の音声区間の信号に対する認識処理が行われる。
従ってステップS5で計算された雑音類似度が高ければ、検出された背景雑音と、メモリ33内の雑音重畳音声モデルの作成の際に重畳した雑音信号とがよく類似しておりこの雑音重畳音声モデルを用いて認識することにより高い認識率が得られる。前記計算した類似度が低ければ前述したように検出された背景雑音と格納してあるクリーン音声モデルとから雑音重畳音声モデルが作成されこれが認識に用いられるため同様に高い認識率が得られ、しかもこのモデルの作成は学習雑音重畳音声信号から音声モデルを作成するのではなく、これに比べ比較的短時間で作ることができる。
またこの実施形態においては検出した背景雑音に対してその雑音成分がこの例では平均雑音パワースペクトルとして検出されこれにより検出された背景雑音が抑圧処理され、同様にメモリ33内の雑音モデルも抑圧された雑音から生成されており、これら抑圧処理された雑音は抑圧処理されない雑音よりもその変化状態の態様が少ないため、つまり雑音のバリエーションが減っているため雑音類似度の演算量が少なくしかもかなり正確に類似性を判断することができる。また音声区間信号に対しても雑音抑圧処理を行っているためそれだけ高い認識率が得られる。
なお、判定部34bにおけるしきい値としての所定値は種々の場合により異なるため、例えば適当ないくつかの値をそれぞれ所定値として、予め既知の入力音声信号に対して認識処理を行い、それぞれの認識率を求め好ましい所定値を実験により決定しておくことになる。
[第2実施形態]
音声認識においてはその入力音声信号の信号対雑音比(S/N)が、認識に用いる雑音重畳音声モデル作成に用いたS/Nと類似していないと認識率が低下する。つまり入力音声信号のS/N条件も認識率に影響を与える。この第2実施形態では入力音声信号と格納してある雑音重畳音声モデルの作成時に用いた学習音声信号との類似度を考慮して格納してあるモデルを用いるかモデルを作成して用いるかの判断をする。
このS/Nの類似度も考慮するために必要な機能構成を図4中に、処理手順を図5に破線で付け加えて示す。以下に第1実施例と異なる点について説明する。
図4において雑音区間と判定されるとパワースペクトル計算部31で計算されたパワースペクトルがS/N計算部41の雑音部41aに入力されて雑音区間のパワーレベルが計算される。音声区間と判定されるとパワースペクトル計算部31からのパワースペクトルがS/N計算部41の信号部41bに入力されて音声区間のパワーレベルが計算される。計算部41cで、この音声区間のパワーレベルから雑音区間のパワーレベルが差し引かれ、これにより得られた推定音声信号パワーレベルが雑音区間のパワーレベルで割算部41dで割算され、S/Nが得られる。このS/Nは、類似度計算判定部34のS/N部34cにおいて、メモリ33内のS/N部33cに格納してあるモデル対応のS/Nとの類似度が計算されこのS/N類似度と雑音部34aで得られた雑音類似度とを総合した類似度が総合部34dで計算され、この総合類似度が判定部34bへ供給される。
モデルメモリ33内の各雑音重畳モデルはそれぞれが多数の各種学習データから作られており、これ等の学習データはそれぞれS/Nが異なっており、つまり各モデルごとに異なるS/Nの分布を持っている。この分布がモデルメモリ33内のS/N部33cにモデル対応で格納されてある。S/N計算部41で計算されたS/Nの、メモリ33内の各S/N部33cに格納されたS/N分布に対する類似度を確率値として求めることができる。従って総合部34dにおいてこのS/Nの類似度確率値と雑音部34aで得られた雑音類似度確率値との積を求めることによって総合類似度を求めることが出来る。この総合類似度について第1実施形態と同様に判定部34bで判定する。
認識処理に当っては図5に示すようにステップS2で音声区間と判定されるとステップS11でモデル作成部37による雑音重畳音声モデルが作成されたかが判断され、作成されていなければステップS12において先に入力された背景雑音信号の、つまり雑音区間のパワーレベルが計算され又音声区間の信号のパワーレベルが計算される。これらパワーレベルからステップS13でS/Nが計算される。次にステップS14で、第1実施形態で述べたように雑音類似度が計算され、また先に述べたようにS/N類似度が計算され更にステップS15で総合類似度が計算されこの総合類似度がステップS6で所定値以上かの判定がされることになる。一方ステップS11でモデルが出来ていると判定されるとステップS9に移り、その後の処理は第1実施形態と同様である。
このようにこの第2実施形態では格納してある雑音重畳音声モデルの作成環境と入力音声信号の環境との比較に雑音の種類だけではなくS/N条件も用いているのでより最適なモデルの選択が可能になる。
[第3実施形態]
第1及び第2実施形態においては雑音成分の推定を雑音区間の信号に対しつまり平均雑音パワースペクトル計算部23で求めた。この第3実施形態においては図6に機能構成を、図7に処理手順を示すように入力音声信号のディジタル信号から雑音推定部45で入力音声信号中の雑音成分、例えばほぼ時間的に一定な低レベル成分を雑音成分として推定し(ステップS21)、この成分を雑音抑圧部46でA/D変換部12からの入力音声信号から差し引いて雑音抑圧処理を行う(ステップS22)。この雑音抑圧処理された信号に対しパワースペクトルを計算して第1又は第2実施形態と同様の処理を行う。
この場合は雑音抑圧された信号に基づき音声区間か雑音区間かの判定処理を行っているので第1及び第2実施形態における区間判定よりも正確に各区間を判定することができ、それだけ高い認識率が得られる。
[変形例]
上述では雑音抑圧処理を行ったが、いずれの実施形態においても、雑音抑圧処理を行わなくてもよい。この場合は図4において平均雑音パワースペクトル23及び雑音用抑圧部32が省略され、音声/雑音スイッチ22の端子22aが直接類似度計算判定部34とスイッチ36に接続されまた音声用抑圧部38が省略され音声/雑音スイッチ22の端子22bが直接認識処理部17に接続される。更に雑音重畳音声モデルメモリ33内の雑音部33bに格納される雑音モデルは抑圧されない雑音信号から作られたものとなる。
図5においては、このステップS3及びS4が省略されステップS2で音声区間でないと判定されると直ちにステップS5に移り、またステップS9が省略されステップS2で音声区間と判定されると直ちにステップS10に移る。
図6においては雑音推定部45と雑音抑圧部46が省略されA/D変換部12の出力側がパワースペクトル計算部31に直接接続されることになる。雑音重畳音声モデルメモリ33に格納される雑音モデルも図4について述べたと同様に変更される。図7においてはステップS21及びS22が省略されステップS1から始まることになる。
上述においてモデル作成部37で作成するモデル、つまりステップS8のモデル作成処理で作成するモデルは、入力音声信号中の雑音信号から作った雑音モデルとクリーン音声モデルとを合成して入力音声信号中の雑音信号に適応させた雑音重畳音声モデルとした。いずれの実施形態においても、この雑音信号に適応させた雑音重畳音声モデルの作成は、メモリ33内に格納されているモデルを入力音声信号中の雑音信号により適応させて作成してもよい。この適応修正処理によるモデルの作成は例えば非特許文献2に示す方法による。例えば図4中のモデル作成部37内に破線で示すように、類似度計算判定部34で計算された類似度中の最大のものと対応するメモリ33内の雑音重畳音声モデルが、適応修正部37dに入力され、またスイッチ36を通じて抑圧処理された雑音パワースペクトルも適応修正部37dに入力され、その雑音重畳音声モデルが前記入力された雑音パワースペクトルに適応させられて、つまりモデル適応処理がなされ(図5、ステップS8c)雑音重畳音声モデルとして尤度計算部15へ出力される。このようにすることにより先に述べたモデル合成により場合によりは、適応性が多少悪いが短時間で雑音重畳音声モデルを作成することができる。
またモデル作成部37における入力音声信号から抽出された環境雑音信号に適応した雑音重畳音声モデルの作成は再学習によってもよい。つまり例えば図4中に示すように再学習部37eにおいて雑音がない学習クリーン音声信号に雑音区間の信号(抑圧処理された信号の場合もある)を重畳し、この雑音重畳音声信号を学習して雑音重畳音声モデルを作成してもよい(図5、ステップS8d)。この変形も第1乃至第3実施形態のいずれに適用してもよい。
またいずれの実施形態においても、例えば図4中に示すようにモデル作成部37で作成した雑音重畳音声モデルを格納部42によりメモリ33の音声部33aに格納し(図5、ステップS16)、次の入力音声信号に対する認識処理に用いてもよい。この場合、その音声モデルと対応する雑音モデル学習部37bで作成された雑音モデル(抑圧処理されたものの場合もある)、必要に応じてS/N計算部41で計算されたS/Nもメモリ33に格納される。このように作成したモデルをメモリ33に格納するようにすると、メモリ33内のモデルが入力音声信号の環境雑音に自律的に適応し、認識率が向上するようになる。なお必要に応じて、類似度が小さいモデルはメモリ33から削除し、なるべく無駄な処理をしないようにしてもよい。
類似度計算判定部34で判定した類似度が所定値以下で雑音重畳音声モデルを作成する場合に、次の入力音声信号の認識までの時間を考慮してその作成方法を選択し、この選択した方法により作成したモデルを用いて現在の入力音声信号に対し認識処理を行うと共に、その作成したモデルを雑音重畳音声モデルメモリ33に格納して、この新たに作成したモデルも次の入力音声信号の認識処理の際に利用してもよい。そのための機能構成を示す図8及び処理手順を示す図9を参照して以下に説明する。
モデル作成部37には作成法選択部37f、適応修正部37d、合成部37g、再学習部37eが設けられ、再学習部37eは雑音がないクリーン音声信号に尤度計算判定部34での尤度計算に用いた入力音声信号中の雑音信号を重畳した信号について音声モデルを学習するものであり、その学習に必要とするおおよその時間T1はわかる。合成部37gは図4中のモデル作成部37内に示したものと同様のものであり、前記尤度計算に用いた入力音声信号中の雑音信号の雑音モデルを学習生成し、これとクリーン音声モデルとを合成するものであり、このモデル作成に必要なおおよその時間T2はわかる。適応修正部37dは図5中のモデル作成部37内に示した適応修正部37dと同様のものであり、この適応修正に必要なおおよその時間T3はわかる。
作成法選択部37fには前記T1,T2及びT3がそれぞれ予めレジスタに格納され、又この例では予め決めた所定類似度Psも格納されている。この作成法選択部には次の入力音声信号の認識までの時間Tdが入力され又類似度計算判定部34から所定値以下と判定された類似度中の最高の値Pdも入力され、これらに基づきいずれの作成法を用いるかが決められる(ステップS17)。
例えば図9に示すようにステップS17aで入力された最高類似度Pdが所定値Ps以下か否か判定され、所定値以下であればステップS17bで入力された時間Tdが第一基準時間T1以下か否か判定され、以下でなければ再学習部37eにより再学習処理されて雑音重畳音声モデルが作成される(ステップS8d)。ステップS17bでT1以下であればステップS17cでTdが第二基準時間T2以下か否かが判定され、以下でなければ合成部37gで合成処理による雑音重畳音声モデルが作成される(ステップS8b)。
ステップS17cでT2以下であればステップS17dでTdが第三基準時間T3以下か否かが判定され、以下でなければ適応修正部37dで適応修正処理が行われて雑音重畳音声モデルが生成される(ステップS8c)。ステップS17dでT3以下であればメモリ33への格納は行わず、現にメモリ33に格納されている雑音重畳音声モデルを用いて認識処理を行う。ステップS17aで入力された類似度Pdが所定値Ps以下でなければステップS17c又はS17dに移ることにより現在認識しようとしている入力音声信号に対する処理を早くするようにしてもよい。
このようにすることにより入力音声信号中の環境雑音がメモリ33に格納されている雑音とあまりにもかけ離れている場合には前述したようにまずTdが十分大きければ時間がかかるけれども再学習処理によりその環境雑音に最も適応した雑音重畳音声メモリを作る。しかし時間Tdが短くなるにつれて環境雑音への適応が劣るが合成処理によるモデル作成更にTdが短ければ適応修正処理によるモデル作成を行うことができる。なおこの作成法選択処理において計算に用いた類似度Pdは省略してもよい。これら図8及び図9に示したことは第1乃至第3実施形態のいずれにも適用することができる。
更に、図4及び図6中の抑圧部32,38,46、図5及び図7中のステップS4,S9,S22の抑圧処理として、背景技術の項で図3を参照して説明した雑音抑圧処理を適用してもよい。例えば、図4中の音声用抑圧部38の機能構成は図10に示すようになる。端子22bからの音声区間のパワースペクトルは平均雑音重畳音声パワースペクトル計算部26aにより平均雑音重畳音声パワースペクトルが計算され、この計算結果から平均雑音パワースペクトル計算部23よりの平均雑音パワースペクトルが減算部26b1で引算され、その残りが平均雑音重畳音声パワースペクトルにより除算部26b2で割算されて、式(2)のゲイン関数Gが求められる。そのゲイン関数Gが端子22bよりの雑音重畳音声信号Zに対してウィナーフィルタ処理部26cで乗算されフィルタ処理結果S^が得られる。
原音付加部26dにおいて、端子22bからの雑音重畳音声信号Zに対し、原音付加率(1−δ)が乗算部26d1で乗算され、またウィナーフィルタ処理部26cの出力S^
に対しδが乗算部26d2で乗算され、両乗算部26d1及び26d2の各出力が加算部26d3で加算されて、抑圧処理された雑音重畳音声パワースペクトルが得られる。雑音区間における雑音用抑圧部32も同様に構成されるが、平均雑音パワースペクトルE[|N|]は例えば1秒間程度の雑音パワースペクトルの平均であり、E[|S|]+E[|N|]に対応する値は、各フレーム、例えば30ミリ秒間の雑音パワースペクトルの平均E[|O|]であり、式(2)のゲインGは(E[|O|]−E[|N|])/E[|O|]となり、小さな値となる。よって、雑音用抑圧部32の出力は(1−δ)Zに近い値になる。
このような雑音抑圧処理を適用した場合は、原音付加率(1−δ)は例えば0.3〜0.2程度とされる。
図4及び図6に示した装置をコンピュータにより機能させてもよい。この場合は図5又は図7に示した処理手順の各過程をコンピュータに実行させるための音声認識プログラムを、コンピュータにCD−ROM、磁気ディスク装置、半導体記憶装置などの記録媒体からインストールし、あるいは通信回線を介してダウンロードして、このプログラムをコンピュータに実行させればよい。
従来のHMMを用いた音声認識装置の機能構成を示すブロック図。 スペクトルサブトラクション法を用いた従来の音声認識装置の機能構成を示すブロック図。 ウィナー・フィルタ法を用いた従来の雑音抑圧を示す機能構成図。 この発明装置の第1及び第2実施形態の機能構成例を示すブロック図。 この発明の方法の第1及び第2実施形態の処理手順の例を示すフローチャート。 この発明装置の第3実施形態の機能構成例を示すブロック図。 この発明方法の第3実施形態の処理手順の例を示すフローチャート。 モデル作成方法を選択してメモリに格納するための機能構成例を示す図。 図8に示した機能構成の処理手段の例を示すフローチャート。 実施形態中の音声用抑圧部38にWF法を適用した機能構成例を示すブロック図。

Claims (12)

  1. 入力音声信号から計算した特徴パラメータ系列に対して、各認識結果候補の特徴を表現した確率モデルを用いて計算した類似の尤度から認識結果を出力する音声認識方法において、
    前記入力音声信号が音声区間であるか雑音区間であるかを判定する区間判定過程と、
    前記入力音声信号中の前記雑音区間の信号と、少くとも一つの予め格納してある雑音重畳音声モデルを作成する際に重畳した雑音信号との類似度(雑音類似度という)を少くとも計算する類似度計算過程と、
    前記類似度が所定値以上のものがあるか否かを判断する判断過程と、
    前記判断過程の判断があるであれば前記所定値以上のもので最も高い類似度のものと対応する前記格納してある雑音重畳音声モデルを前記確率モデルとする過程と、
    前記判断過程の判断が否であれば予め格納してある音声モデルと前記入力音声信号中の雑音区間の信号とから前記入力音声信号中の雑音信号に適応した雑音重畳音声モデルを作成して前記確率モデルとするモデル作成過程と
    を有する音声認識方法。
  2. 前記雑音類似度は、
    前記雑音区間の信号から雑音成分を推定し、
    前記推定された雑音成分を少くとも前記雑音区間の信号に対し抑圧処理し、
    前記抑圧処理後の信号と、前記重畳雑音信号に対し抑圧処理した後の信号との類似度であり、
    前記入力音声信号中の前記音声区間の信号に対し雑音成分抑圧処理を特徴とする請求項1記載の音声認識方法。
  3. 前記区間判定過程は前記入力音声信号に対し、前記推定雑音成分を抑圧処理し、
    その抑圧処理後の信号に対して前記音声区間であるか前記雑音区間であるかの判定を行う過程であり、
    前記抑圧処理後の信号中の前記音声区間の信号から特徴パラメータ系列を計算し、
    この計算した特徴パラメータ系列を前記類似尤度値計に用いることを特徴とする請求項2記載の音声認識方法。
  4. 前記類似度計算過程は、
    前記音声区間の信号と前記雑音区間の信号とに基づき信号対雑音比S/Nを計算する過程と、
    前記格納してある雑音重畳音声モデル作成時の学習データのS/Nの分布から前記計算したS/Nの類似度(S/N類似度という)を計算し、
    このS/N類似度と対応する前記雑音類似度から前記判断過程に用いる類似度を求める過程であることを特徴とする請求項1〜3のいずれかに記載の音声認識方法。
  5. 前記モデル作成過程で作成された雑音重畳音声モデルを前記格納してある雑音重畳音声モデルが格納されたメモリに格納してあるモデルとして格納する過程を含むことを特徴とする請求項1〜4のいずれかに記載の音声認識方法。
  6. 前記モデル作成過程は、
    前記類似度の計算に用いた雑音信号から雑音モデルを作成し、
    この雑音モデルと予め格納されている雑音の無い学習音声信号から作られたクリーン音声モデルとを合成して前記確率モデルとする過程であることを特徴とする請求項1〜5のいずれかに記載の音声認識方法。
  7. 前記モデル作成過程は、
    前記格納してある雑音重畳音声モデルを、前記類似度の計算に用いた雑音信号に適応させる前記確率モデルとする過程であることを特徴とする請求項1〜5のいずれかに記載の音声認識方法。
  8. 前記モデル作成過程は、
    前記類似度の計算に用いた雑音信号を、雑音がないクリーン音声信号に重畳し、この雑音重畳音声信号を学習して前記確立モデルを作成する過程であることを特徴とする請求項1〜5のいずれかに記載の音声認識方法。
  9. 前記モデル作成過程は、
    少なくとも次の入力音声信号に対する認識処理までの時間に基づきモデル作成法を選択する過程と、
    クリーン音声信号に前記類似度の計算に用いた雑音信号を重畳し、この重畳した音声信号から新たに雑音重畳音声モデルを再学習する過程、クリーン音声モデルと、前記類似度の計算に用いた雑音信号から学習した雑音モデルとを合成して雑音重畳音声モデルを作成する過程及び前記格納してある雑音重畳音声モデルを前記類似度の計算に用いた雑音信号に適応修正する過程のいずれかを前記選択したモデル作成法に基づき選択して、これを実行して前記確率モデルを作成する過程とを有し、
    前記作成された確立モデルを前記格納してある雑音重畳音声モデルが格納されたメモリに格納する過程とを含むことを特徴とする請求項1〜4のいずれかに記載の音声認識方法。
  10. 入力音声信号から計算した特徴パラメータ系列に対して、各認識結果候補の特徴を表現した確率モデルを用いて計算した類似の尤度から認識結果を出力する音声認識装置において、少なくとも一つの雑音重畳音声モデルおよびその雑音重畳音声モデル学習時の雑音重畳音声信号中の重畳雑音信号が格納された雑音重畳音声モデルメモリと、
    前記入力音声信号が音声区間であるか雑音区間であるかを判定する音声/雑音判定部と、
    前記入力音声信号中の前記雑音区間の信号と、前記雑音重畳音声モデルメモリ中の各重畳雑音信号との類似度を少くとも計算し、前記類似度が所定値以上のものがあるか否かを判断する類似度計算判定部と、
    予め格納してある音声モデルと前記入力音声信号中の雑音区間の信号とから前記入力音声信号中の雑音信号に適応した雑音重畳音声モデルを作成するモデル作成部と、
    前記類似度計算判定部による判断が所定値以上であれば最も高い類似度のものと対応する前記メモリ内の雑音重畳音声モデルが入力され、前記判断が所定値以上のものがなければ、前記モデル作成部で作成された雑音重畳音声モデルが入力され、この入力された雑音重畳音声モデルを用いて前記入力音声信号中の前記音声区間の信号を認識処理する認識処理部とを具備することを特徴とする音声認識装置。
  11. 請求項1〜8のいずれかに記載した音声認識方法の各過程をコンピュータに実行させるための音声認識プログラム。
  12. 請求項11記載の音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2004145334A 2004-05-14 2004-05-14 音声認識方法、その装置およびプログラム、その記録媒体 Expired - Fee Related JP4242320B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004145334A JP4242320B2 (ja) 2004-05-14 2004-05-14 音声認識方法、その装置およびプログラム、その記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004145334A JP4242320B2 (ja) 2004-05-14 2004-05-14 音声認識方法、その装置およびプログラム、その記録媒体

Publications (2)

Publication Number Publication Date
JP2005326672A JP2005326672A (ja) 2005-11-24
JP4242320B2 true JP4242320B2 (ja) 2009-03-25

Family

ID=35473066

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004145334A Expired - Fee Related JP4242320B2 (ja) 2004-05-14 2004-05-14 音声認識方法、その装置およびプログラム、その記録媒体

Country Status (1)

Country Link
JP (1) JP4242320B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5966689B2 (ja) * 2012-07-04 2016-08-10 日本電気株式会社 音響モデル適応装置、音響モデル適応方法および音響モデル適応プログラム
JP2018031828A (ja) * 2016-08-23 2018-03-01 Kddi株式会社 学習者の口述音声から自動的に採点するプログラム、装置及び方法
US11621015B2 (en) * 2018-03-12 2023-04-04 Nippon Telegraph And Telephone Corporation Learning speech data generating apparatus, learning speech data generating method, and program

Also Published As

Publication number Publication date
JP2005326672A (ja) 2005-11-24

Similar Documents

Publication Publication Date Title
Deng et al. Recursive estimation of nonstationary noise using iterative stochastic approximation for robust speech recognition
CN112447191A (zh) 信号处理装置以及信号处理方法
JP5842056B2 (ja) 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体
JP5634959B2 (ja) 雑音/残響除去装置とその方法とプログラム
EP1457968B1 (en) Noise adaptation system of speech model, noise adaptation method, and noise adaptation program for speech recognition
JP2007279444A (ja) 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
JP2007279349A (ja) 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
WO2005117517A2 (en) Neuroevolution-based artificial bandwidth expansion of telephone band speech
JP6464005B2 (ja) 雑音抑圧音声認識装置およびそのプログラム
CN101432799B (zh) 基于高斯混合模型的变换中的软校准
JP2003303000A (ja) 特殊領域におけるチャンネル雑音および加法性雑音の合同補償に関する方法および装置
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
JP2004325897A (ja) 音声認識装置及び音声認識方法
JP2019008206A (ja) 音声帯域拡張装置、音声帯域拡張統計モデル学習装置およびそれらのプログラム
JP5351856B2 (ja) 音源パラメータ推定装置と音源分離装置とそれらの方法と、プログラムと記憶媒体
US20050010406A1 (en) Speech recognition apparatus, method and computer program product
JP5670298B2 (ja) 雑音抑圧装置、方法及びプログラム
JP4858663B2 (ja) 音声認識方法及び音声認識装置
JP4242320B2 (ja) 音声認識方法、その装置およびプログラム、その記録媒体
JP2009145499A (ja) 音声パラメータ学習装置とその方法、それらを用いた音声認識装置と音声認識方法、それらのプログラムと記録媒体
JP4464797B2 (ja) 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
JP5740362B2 (ja) 雑音抑圧装置、方法、及びプログラム
JP2005321539A (ja) 音声認識方法、その装置およびプログラム、その記録媒体
JP4313728B2 (ja) 音声認識方法、その装置およびプログラム、その記録媒体
JP5885686B2 (ja) 音響モデル適応化装置、音響モデル適応化方法、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060725

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060725

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081216

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081224

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120109

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4242320

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130109

Year of fee payment: 4

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees