JP2005321539A - 音声認識方法、その装置およびプログラム、その記録媒体 - Google Patents
音声認識方法、その装置およびプログラム、その記録媒体 Download PDFInfo
- Publication number
- JP2005321539A JP2005321539A JP2004138808A JP2004138808A JP2005321539A JP 2005321539 A JP2005321539 A JP 2005321539A JP 2004138808 A JP2004138808 A JP 2004138808A JP 2004138808 A JP2004138808 A JP 2004138808A JP 2005321539 A JP2005321539 A JP 2005321539A
- Authority
- JP
- Japan
- Prior art keywords
- noise
- speech
- model
- signal
- suppression processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】 音声区間を精度よく検出し、かつ環境雑音に影響され難くする。
【解決手段】 入力信号のパワースペクトルを計算し(31)、その雑音区間の平均パワーを求め(32)、前記パワースペクトルに対し、平均パワーに基づき、雑音を大きく抑圧し(34)、その抑圧されたパワースペクトルから音声/雑音区間を検出する(35)。前記パワースペクトルに対し平均パワーを用いて雑音を小さく抑圧し(42)、この低抑圧パワースペクトル中の雑音区間のものを用いて抑圧し残した雑音のモデルを作り(36)、この雑音モデルをクリーン音声モデルに合成する(38)。低抑圧パワースペクトル中の音声区間のものについて合成モデルを用いて認識処理する(17)。
【選択図】 図1
【解決手段】 入力信号のパワースペクトルを計算し(31)、その雑音区間の平均パワーを求め(32)、前記パワースペクトルに対し、平均パワーに基づき、雑音を大きく抑圧し(34)、その抑圧されたパワースペクトルから音声/雑音区間を検出する(35)。前記パワースペクトルに対し平均パワーを用いて雑音を小さく抑圧し(42)、この低抑圧パワースペクトル中の雑音区間のものを用いて抑圧し残した雑音のモデルを作り(36)、この雑音モデルをクリーン音声モデルに合成する(38)。低抑圧パワースペクトル中の音声区間のものについて合成モデルを用いて認識処理する(17)。
【選択図】 図1
Description
この発明は、入力音声信号の特徴パラメータ系列に対して、各認識結果候補の特徴パラメータからモデル化した確率モデルの尤度を求めて、入力音声信号の認識を行う音声認識方法、その装置およびプログラム、その記録媒体に関する。
従来の音声認識において、認識結果候補を構成する音素、音節、単語などの音声単位のカテゴリ毎に隠れマルコフモデル(Hidden Markov Model、以下ではHMMと記す。)などの確率モデルを用いてモデル化する手法は、認識性能が高く、現在の音声認識技術の主流となっている。従来のHMMを用いた音声認識装置を図1を参照して簡単に説明する。入力端子11から入力された音声信号は、A/D変換部12においてディジタル信号に変換される。そのディジタル信号から特徴パラメータ抽出部13において音声特徴パラメータを抽出する。予め、ある音声単位毎に作成したHMMをモデルメモリ14から読み出し、尤度計算部15において、抽出された音声特徴パラメータに対する各モデルの照合尤度を計算する。最も大きな照合尤度を示すモデルが表現する音声単位を認識結果とし出力部16より出力する。特徴パラメータ抽出部13、尤度計算部15及び出力部16は認識処理部17を構成している。なおこの明細書及び図面中で対応する部分は同一参照番号を付けて重複説明は省略する。
背景雑音などの加法性雑音が重畳した音声の認識方法として、入力音声に重畳した雑音を抑圧した後に認識する方法である。雑音抑圧方法はいろいろと提案されているが、ここではスペクトルサブトラクション法(以下、SS法と記す)について説明する(例えば非特許文献1参照)。時間領域で加法性の2つの信号は、線形パワースペクトル上でも加法性であることから、SS法では、雑音重畳音声信号から、推定雑音成分を線形パワースペクトル上で減算して音声成分を抽出する。
背景雑音などの加法性雑音が重畳した音声の認識方法として、入力音声に重畳した雑音を抑圧した後に認識する方法である。雑音抑圧方法はいろいろと提案されているが、ここではスペクトルサブトラクション法(以下、SS法と記す)について説明する(例えば非特許文献1参照)。時間領域で加法性の2つの信号は、線形パワースペクトル上でも加法性であることから、SS法では、雑音重畳音声信号から、推定雑音成分を線形パワースペクトル上で減算して音声成分を抽出する。
SS法を用いた音声認識装置を図2を参照して簡単に説明する。ディジタル信号とされた入力音声信号は、雑音であるか、雑音重畳音声であるかを音声/雑音判定部21で判定される。この判定部21は、その判定が雑音であるならば、音声/雑音スイッチ22を雑音端子22a側に接続してA/D変換部12の出力側を平均雑音パワースペクトル計算部23に接続して入力音声信号中の雑音区間における平均パワースペクトルを計算する。判定部21で認識対象である雑音重畳音声区間であると判定された場合は、音声/雑音スイッチ22を音声端子22b側に切り替えて、A/D変換部12の出力側を雑音重畳音声パワースペクトル計算部24に接続し、入力音声信号中の雑音重畳音声のパワースペクトルを計算する。抑圧処理部25において、各時刻の雑音重畳音声のパワースペクトルから、平均雑音パワースペクトルを減算する。時刻tのパワースペクトルの周波数fの雑音抑圧後のパワースペクトルYD(t,f)は、以下のように計算される。
D(Y(t,f))=Y(t,f)−αN^(f)
YD(t,f)=D(Y(t,f)) : D(Y(t,f))>βY(t,f)の場合
YD(t,f)=βY(t,f) その他の場合 (1)
ここで、Y(t,f)は、入力雑音重畳音声の時刻t、周波数fのパワースペクトル、
N^(f)は推定された周波数fの時間平均雑音パワースペクトル、
αはサブストラクション係数であり、通常1より大きい。
βはフロアリング係数であり、1より小さい。
D(Y(t,f))=Y(t,f)−αN^(f)
YD(t,f)=D(Y(t,f)) : D(Y(t,f))>βY(t,f)の場合
YD(t,f)=βY(t,f) その他の場合 (1)
ここで、Y(t,f)は、入力雑音重畳音声の時刻t、周波数fのパワースペクトル、
N^(f)は推定された周波数fの時間平均雑音パワースペクトル、
αはサブストラクション係数であり、通常1より大きい。
βはフロアリング係数であり、1より小さい。
抑圧処理部25から出力されるパワースペクトルから、音声認識の特徴パラメータ(例えば、12次元のメル周波数ケプストラム係数(Mel-Frequency Cepstrum Coefficient:MFCC))を特徴パラメータ抽出部13で計算する。これ以後の処理は、図1で説明した通りである。
さらに、別の雑音抑圧手法としてウィナー・フィルタ法(以下、WF法と略す)に基づく雑音抑圧法について図3を参照して説明する(例えば非特許文献2参照)。計算部23で平均雑音パワースペクトルを求め、計算部24で雑音重畳音声パワースペクトルを求めることは、図3に示したSS法と同様であり、これらを用いて音声/雑音スイッチ22の端子22b側からの雑音重畳音声信号に対し、雑音抑圧処理部26で雑音抑圧処理が行われる。まず雑音重畳音声パワースペクトル計算部24からのパワースペクトルは平均雑音重畳音声パワースペクトル計算部26aで平均雑音重畳音声パワースペクトルが計算され、ゲイン関数計算部26bでWF法のゲイン関数Gが式(2)により計算される。
G=E[|S|2]/(E[|S|2]+E[|N|2]) (2)
ただし、E[|S|2]とE[|N|2]はそれぞれ音声信号と雑音信号の各集合平均を表す。
さらに、別の雑音抑圧手法としてウィナー・フィルタ法(以下、WF法と略す)に基づく雑音抑圧法について図3を参照して説明する(例えば非特許文献2参照)。計算部23で平均雑音パワースペクトルを求め、計算部24で雑音重畳音声パワースペクトルを求めることは、図3に示したSS法と同様であり、これらを用いて音声/雑音スイッチ22の端子22b側からの雑音重畳音声信号に対し、雑音抑圧処理部26で雑音抑圧処理が行われる。まず雑音重畳音声パワースペクトル計算部24からのパワースペクトルは平均雑音重畳音声パワースペクトル計算部26aで平均雑音重畳音声パワースペクトルが計算され、ゲイン関数計算部26bでWF法のゲイン関数Gが式(2)により計算される。
G=E[|S|2]/(E[|S|2]+E[|N|2]) (2)
ただし、E[|S|2]とE[|N|2]はそれぞれ音声信号と雑音信号の各集合平均を表す。
つまり式(2)は音声信号のパワーレベル/雑音重畳音声信号のパワーレベルを意味しており、計算部26aから出力される式(2)の分母E[|S|2]+E[|N|2]と対応する値から、計算部23から出力されるE[|N|2]と対応する値を計算して式(2)の分子E[|S|2]と対応する値を求め、式(2)を計算する。
次にウィナーフィルタ処理部26cにおいて、端子22bから入力された雑音抑圧前の信号Zに対してゲイン関数Gを乗算し、WF法による雑音抑圧処理された信号S^=GZが求められる。
このようにWF法による雑音抑圧法は、フレーム毎のS/Nを考慮して雑音抑圧を行っているため、雑音抑圧による音声の歪みを抑えながら高い雑音抑圧性能を実現できる。
次にウィナーフィルタ処理部26cにおいて、端子22bから入力された雑音抑圧前の信号Zに対してゲイン関数Gを乗算し、WF法による雑音抑圧処理された信号S^=GZが求められる。
このようにWF法による雑音抑圧法は、フレーム毎のS/Nを考慮して雑音抑圧を行っているため、雑音抑圧による音声の歪みを抑えながら高い雑音抑圧性能を実現できる。
しかし、このウィナーフィルタ処理された音声信号は歪が比較的大きい。この点からウィナーフィルタ処理部26cで雑音抑圧処理された信号に対し、更に処理して歪を改善することが非特許文献3に示されている。つまりウィナーフィルタ処理部26cの出力に対し、原音付加部26dで式(3)を計算する。
S’=(1−δ)Z+δS^ (3)
非特許文献3によれば、原音付加率(1−δ)を0.2とすると、原雑音重畳信号に対し、理論上の最大雑音抑圧量は約14dBとなることが記載されている。
S’=(1−δ)Z+δS^ (3)
非特許文献3によれば、原音付加率(1−δ)を0.2とすると、原雑音重畳信号に対し、理論上の最大雑音抑圧量は約14dBとなることが記載されている。
雑音のない大量の音声データをもとに予めクリーン音声HMMを作成しておき、認識時に観測した背景雑音から雑音HMMを作成し、この雑音HMMはクリーン音声HMMを合成して雑音重畳音声HMMを作り、このHMMを用いて認識処理を行うことが例えば非特許文献4に記載されている。
Steven F.Boll:"Suppression of Acoustic Noise in Speech Using Spectral Subtraction,"IEEE Transactions on Acoustics,Speech and Signal Processing,Vol.ASSP-27,No.2,pp.113-120,April 1979 J.S. Lim and A. V. Oppenheim, "Enbancement and Bandwidth compression of noisy speech," Proc. IEEE, vol.67, no.12, pp. 1586-1604, Dec. 1979. S. Sakauchi, A. Nakagawa, Y. Haneda, A. Kataoka, "Implementing and Evaluating of an Audio Teleconferencing Terminal with Noise and Echo Reduction," Proc. International Workshop on Acoustic Echo and Noise Control (IWAENC2003), pp. 191-194, Kyoto, Sep. 2003. F.Martin他, "Recognition of Nosiy Speech by Composition of Hidden Markov Models"電子情報通信学会技術研究報告SP92-96,pp.9-16,1992.
Steven F.Boll:"Suppression of Acoustic Noise in Speech Using Spectral Subtraction,"IEEE Transactions on Acoustics,Speech and Signal Processing,Vol.ASSP-27,No.2,pp.113-120,April 1979 J.S. Lim and A. V. Oppenheim, "Enbancement and Bandwidth compression of noisy speech," Proc. IEEE, vol.67, no.12, pp. 1586-1604, Dec. 1979. S. Sakauchi, A. Nakagawa, Y. Haneda, A. Kataoka, "Implementing and Evaluating of an Audio Teleconferencing Terminal with Noise and Echo Reduction," Proc. International Workshop on Acoustic Echo and Noise Control (IWAENC2003), pp. 191-194, Kyoto, Sep. 2003. F.Martin他, "Recognition of Nosiy Speech by Composition of Hidden Markov Models"電子情報通信学会技術研究報告SP92-96,pp.9-16,1992.
一般に、音声区間の抽出誤りは音声認識性能の劣化をもたらす。雑音環境下において高精度に音声区間を検出することは難しい。雑音環境下での音声区間誤りを低減する方法として、雑音抑圧手法を用いて音声区間を強調することが考えられる。しかしながら、雑音抑圧によって起こる音声の歪みも音声認識の性能を劣化させる要因になる。音声認識性能を向上させるためには、音声区間検出性能を高精度に保ったまま、認識時の音声の歪み量を抑える必要がある。
この発明の目的は、雑音環境下での音声区間検出誤りを抑え、高い認識性能を保つことができる音声認識方法、その装置およびプログラム、その記録媒体を提供することである。
この発明の目的は、雑音環境下での音声区間検出誤りを抑え、高い認識性能を保つことができる音声認識方法、その装置およびプログラム、その記録媒体を提供することである。
この発明によれば入力音声信号に対して、高い抑圧量又は時間的に一定の高雑音抑圧処理を行い、この高雑音抑圧処理された信号から音声/雑音区間の時間情報を抽出し、一方で、入力音声信号に対して、低抑圧量又は時間的に変化する低雑音抑圧処理を行い、前記低雑音抑圧処理された信号中の前記音声区間の時間情報と対応した信号に対して確率モデルを用いて認識処理を行う。
入力音声信号に対して、高雑音抑圧処理を行って、音声/雑音区間の時間情報を抽出しているため、高い精度で音声/雑音区間を検出できる。その一方で、入力音声信号に対して、低雑音抑圧処理を行った信号中の音声区間の信号に対して認識処理を行うため、対象認識音声信号は歪みが少ない。これらのため高い認識率が得られる。
以下、図面を用いてこの発明の実施の形態について説明する。
[第1実施形態]
図4にこの発明装置の一実施形態の機能構成例を、図5にこの発明方法の実施形態の処理手順を示す。
入力端子11から入力される音声信号はA/D変換部12によりディジタル入力音声信号に変換され、そのディジタル信号のパワースペクトルがパワースペクトル計算部31で計算される(ステップS1)。ディジタル入力音声信号は音声/雑音判定部21により雑音であるか雑音重畳音声であるかが判定され(ステップS2)、その判定が雑音であれば音声/雑音スイッチ22が切り替えられてディジタル入力音声信号は平均雑音パワースペクトル計算部32に入力されて雑音区間の平均パワースペクトルが計算される(ステップS3)。パワースペクトル計算部31で計算された雑音パワースペクトルから前記平均雑音パワースペクトルが雑音用低抑圧処理部33で減算される(ステップS4)。
[第1実施形態]
図4にこの発明装置の一実施形態の機能構成例を、図5にこの発明方法の実施形態の処理手順を示す。
入力端子11から入力される音声信号はA/D変換部12によりディジタル入力音声信号に変換され、そのディジタル信号のパワースペクトルがパワースペクトル計算部31で計算される(ステップS1)。ディジタル入力音声信号は音声/雑音判定部21により雑音であるか雑音重畳音声であるかが判定され(ステップS2)、その判定が雑音であれば音声/雑音スイッチ22が切り替えられてディジタル入力音声信号は平均雑音パワースペクトル計算部32に入力されて雑音区間の平均パワースペクトルが計算される(ステップS3)。パワースペクトル計算部31で計算された雑音パワースペクトルから前記平均雑音パワースペクトルが雑音用低抑圧処理部33で減算される(ステップS4)。
パワースペクトル計算部31で計算されたパワースペクトルから前記平均雑音パワースペクトルが高抑圧処理部34で減算され(ステップS5)、この高抑圧処理されたパワースペクトルに対して音声/雑音区間の時間情報が区間時間情報抽出部35で抽出される(ステップS6)。雑音用低抑圧処理部33の出力と区間情報抽出部35から得られた低抑圧処理されたパワースペクトル中の雑音区間の時間情報と対応するパワースペクトルを用いて雑音モデルが作成される(ステップS7)。つまり入力音声信号中に実際に音声信号が重畳される前の例えば1〜3秒程度の背景雑音信号の平均雑音パワースペクトルが計算され、この平均雑音パワースペクトルが背景雑音パワースペクトルから減算され、消し残された雑音パワースペクトルが得られる。この消し残り雑音パワースペクトルが雑音モデル学習部36に入力される。この雑音モデルの学習は通常の音声HMMの学習と同様に消し残り雑音パワースペクトルから対数パラメータを抽出して行われる。
予め雑音の無い音声データを基に認識する音声単位のHMMを作成し、クリーン音声HMMとして予めクリーン音声モデルメモリ37に記憶されてある。雑音モデル学習部36で作成した雑音HMMと前記クリーン音声HMMとがモデル合成部38で合成されて雑音重畳音声モデルが作成される(ステップS8)。その後処理はステップS2に戻る。
音声/雑音判定部21でディジタル入力音声信号が雑音重畳音声に対するものと判定されると、音声/雑音スイッチ22が音声用低抑圧処理部39側に切り替えられて、音声用低抑圧処理部39で前記パワースペクトルから前記平均雑音パワースペクトルが減算される(ステップS9)。つまり雑音重畳音声信号から背景雑音が除去された信号のパワースペクトルが得られる。
音声/雑音判定部21でディジタル入力音声信号が雑音重畳音声に対するものと判定されると、音声/雑音スイッチ22が音声用低抑圧処理部39側に切り替えられて、音声用低抑圧処理部39で前記パワースペクトルから前記平均雑音パワースペクトルが減算される(ステップS9)。つまり雑音重畳音声信号から背景雑音が除去された信号のパワースペクトルが得られる。
この音声用低抑圧処理されたパワースペクトルと区間時間情報抽出部35で抽出された音声区間の時間情報が特徴パラメータ抽出部41に入力され、音声用低抑圧処理されたパワースペクトル中の音声区間の時間情報により決められた音声区間のパワースペクトルから音声の特徴パラメータが抽出される(ステップS10)。
この抽出された特徴パラメータに対する、モデル合成部38よりの各モデルの照合尤度が尤度計算部15で計算され(ステップS11)、この計算された尤度中の最も高いものと対応するモデルが認識結果として出力部16から出力される(ステップS15)。モデル合成部38での合成は例えば非特許文献2に示す方法で行う。
この抽出された特徴パラメータに対する、モデル合成部38よりの各モデルの照合尤度が尤度計算部15で計算され(ステップS11)、この計算された尤度中の最も高いものと対応するモデルが認識結果として出力部16から出力される(ステップS15)。モデル合成部38での合成は例えば非特許文献2に示す方法で行う。
音声用低抑圧処理部39における、ステップS9での音声用低抑圧処理は「背景技術」の項で述べたSS法の式(1)による。つまり雑音重畳音声信号の時刻t、周波数fのパワースペクトルY(t,f)から周波数fの時間平均雑音パワースペクトルN^(f)をα倍した値を減算してD(Y(t,f))を求め(ステップS9a)、D(Y(t,f))がβ(Y(t,f))より大きいかを判定し、大であれば雑音抑圧後のパワースペクトルYD(t,f)としてD(Y(t,f))を出力し(ステップS9c)、D(Y(t,f))>βY(t,f)でなければβY(t,f)をYD(t,f)として出力する(ステップS9d)。雑音用低抑圧処理部33におけるステップS4の雑音用低抑圧処理も同様に行われ、更に高抑圧処理部34におけるステップS5の高抑圧処理も同様に行われる。
ここで大事なことは低抑圧処理部33及び39に用いるα(=αL)は小さめに例えば1.0±0.5程度、β(=βL)は大きめ、例えば0.5±0.1程度として雑音抑圧量が小さくなるようにし、高抑圧処理部34に用いるα(=αH)は大きめ、例えば2.0±0.5程度、β(=βH)は小さめ、例えば0.3±0.1程度として雑音抑圧量が低抑圧処理部33及び39よりも大きくなるようにする。またαL<αH、βL>βHとなるようにする。前述したようにαは一般に1.0以上であるが、1.0より小さくてもよく、βは1.0より小さい。
このように高抑圧処理部34では入力音声信号に対し、雑音抑圧を大きく行っているため、音声区間を精度よく検出できる。音声用低抑圧処理部39で雑音抑圧量が小さいため、抑圧に伴う音声信号の歪みが小さくなる。従って認識処理部17ではこの精度よく検出された音声区間の雑音重畳音声信号に対し、小さい抑圧量で雑音抑圧され、この雑音抑圧された信号に対し認識処理することになり、認識率が向上する。
音声用低抑圧処理部39における雑音抑圧処理量が小さいため、抑圧できなかった雑音が重畳されたものとなる。しかしこの実施形態では雑音モデル学習部36により消し残り雑音のモデルを作成し、この雑音モデルをクリーン音声モデルと合成し、この合成モデルを用いて認識処理を行っており、つまり前記抑圧できなかった重畳雑音を加味した雑音重畳音声モデルを用いて認識処理を行っているため、より高い認識率が得られる。この場合は認識処理に先立って背景雑音を検出し、この背景雑音を用いて前述したようにして雑音モデルを作成し、更に雑音重畳音声モデルを作成し、その後認識処理を行うことになる。
音声用低抑圧処理部39における雑音抑圧処理量が小さいため、抑圧できなかった雑音が重畳されたものとなる。しかしこの実施形態では雑音モデル学習部36により消し残り雑音のモデルを作成し、この雑音モデルをクリーン音声モデルと合成し、この合成モデルを用いて認識処理を行っており、つまり前記抑圧できなかった重畳雑音を加味した雑音重畳音声モデルを用いて認識処理を行っているため、より高い認識率が得られる。この場合は認識処理に先立って背景雑音を検出し、この背景雑音を用いて前述したようにして雑音モデルを作成し、更に雑音重畳音声モデルを作成し、その後認識処理を行うことになる。
[第2実施形態]
話者から発声された音声はマイクロホンに到達するまで話者の口とマイクロホンとの間の伝達特性の影響を受け、話者が発声した音声に対し前記伝達特性を乗算した状態になる。つまり音声は乗法性歪みを受けたことと云える。雑音環境下では雑音の影響があり、高精度で乗法性歪みの影響を低減することは難しい。この第2実施形態では雑音の影響を抑えつつ乗法性歪みの影響による低減をするものである。
この第2実施形態の装置の機能構成例を図6に、方法の処理手順を図7にそれぞれ示す。第1実施形態と異なる部分について説明する。
高抑圧処理部34で高抑圧処理されたパワースペクトルが特徴パラメータ抽出部43に入力される。
話者から発声された音声はマイクロホンに到達するまで話者の口とマイクロホンとの間の伝達特性の影響を受け、話者が発声した音声に対し前記伝達特性を乗算した状態になる。つまり音声は乗法性歪みを受けたことと云える。雑音環境下では雑音の影響があり、高精度で乗法性歪みの影響を低減することは難しい。この第2実施形態では雑音の影響を抑えつつ乗法性歪みの影響による低減をするものである。
この第2実施形態の装置の機能構成例を図6に、方法の処理手順を図7にそれぞれ示す。第1実施形態と異なる部分について説明する。
高抑圧処理部34で高抑圧処理されたパワースペクトルが特徴パラメータ抽出部43に入力される。
区間時間情報抽出部35からの音声区間時間情報に基づき音声区間の高抑圧パワースペクトルから特徴パラメータが抽出される(ステップS20)。この特徴パラメータ抽出部43で抽出された特徴パラメータの、クリーン音声モデル37に予め記憶された、クリーン音声モデルの作成に用いたクリーン音声特徴パラメータの長時間平均に対する平均推移量が平均推移量計算部45で計算され(ステップS21)、この平均推移量に基づいて、雑音や乗法性歪みのない音声から作られたクリーン音声モデルメモリ37のクリーン音声モデルがモデル推定部46で推移される(ステップS22)。この推移された音声モデルが尤度計算部15に入力される。
平均推移量計算を具体的に述べれば例えば特徴パラメータ抽出部43で対数スペクトル上の特徴パラメータが抽出され、この特徴パラメータの長時間平均が長時間平均部45aにより計算され(ステップS21a)、クリーン音声モデルメモリ37の記憶部37aに予め記憶されたクリーン音声の対数パワースペクトル上の特徴パラメータの長時間平均との差分が差分計算部45bで計算されて平均推移量が求められる(ステップS1b)。
平均推移量計算を具体的に述べれば例えば特徴パラメータ抽出部43で対数スペクトル上の特徴パラメータが抽出され、この特徴パラメータの長時間平均が長時間平均部45aにより計算され(ステップS21a)、クリーン音声モデルメモリ37の記憶部37aに予め記憶されたクリーン音声の対数パワースペクトル上の特徴パラメータの長時間平均との差分が差分計算部45bで計算されて平均推移量が求められる(ステップS1b)。
処理手順において図7でステップS6から直ちにステップS2に戻る。ステップS2で音声区間であると判断されると、尤度計算に用いられる確率モデルがモデル作成部47で作成されたか否かがステップS23において判定され、確率モデルが作成されていなければステップS20に移って、ステップS5で高抑圧処理されたパワースペクトルから特徴パラメータが抽出される。ステップS23で確率モデルが作成されていれば、ステップS10に移り、その作成されたモデルに対し、ステップS10で抽出された特徴パラメータ系列の類似尤度が計算される。
このようにして音声/雑音区間が精度よく検出され、かつ認識音声対象は低抑圧であって歪みが少なく、しかも平均推移量を求め、これと対応して音声モデルを推移させているため入力音声信号中の乗法性歪み成分を加味した、つまりその音声信号が受けた伝達特性に適応した音声モデルに対する類似尤度が計算され、認識率を向上させることができる。
このようにして音声/雑音区間が精度よく検出され、かつ認識音声対象は低抑圧であって歪みが少なく、しかも平均推移量を求め、これと対応して音声モデルを推移させているため入力音声信号中の乗法性歪み成分を加味した、つまりその音声信号が受けた伝達特性に適応した音声モデルに対する類似尤度が計算され、認識率を向上させることができる。
更に第1実施形態と同様、低抑圧処理部33で低抑圧処理したパワースペクトル中から雑音区間の時間情報に基づき低抑圧雑音パワースペクトル、つまり消し残し雑音パワースペクトルを抽出し、これより雑音モデルを学習作成し、この雑音モデルをモデル合成部38でモデル推移部46からの推移された音声モデルと合成して雑音重畳音声モデルとし、このモデルに対する類似尤度を計算するようにしてもよい。このようにすれば、更に認識率が向上することが理解できよう。
上述において低抑圧処理及び高抑圧処理を前記式(1)に基づいて行い、つまりα,βを異ならせて低雑音抑圧されたパワースペクトルと高雑音抑圧されたパワースペクトルとを求めた。これらに替えて低抑圧処理として時間的変動する抑圧処理、つまり背景雑音だけではなく各隣接音声区間の間の各雑音区間について平均雑音パワースペクトルを求め、D(Y(t,f))=Y(t,f)−αN^(f)を雑音抑圧後のパワースペクトルとしてもよい。この場合はN^(f)が時間的に変化する。また高抑圧処理として時間的に一定な抑圧処理、つまり初めに求めた背景雑音を用いD(Y(t,f))=Y(t,f)−N^(f)を雑音抑圧後のパワースペクトルとしてもよい。この場合はN^(f)は背景雑音のそれが常に用いられ、αN^(f)は認識終了まで一定である。
更に、図4及び図6中の低抑圧処理部33,39,42、高抑圧処理部34、図5及び図7中のステップS4,S9,S10の低抑圧処理、ステップS5の高抑圧処理として、背景技術の項で図3を参照して説明した雑音抑圧処理を適用してもよい。例えば、図4中の音声用低抑圧処理部39の機能構成は図8に示すようになる。端子22bからの音声区間のパワースペクトルは平均雑音重畳音声パワースペクトル計算部26aにより平均雑音重畳音声パワースペクトルが計算され、この計算結果から平均雑音パワースペクトル計算部32よりの平均雑音パワースペクトルが減算部26b1で引算され、その残りが平均雑音重畳音声パワースペクトルにより除残部26b2で割算されて、式(2)のゲイン関数Gが求められる。そのゲイン関数Gが端子22bよりの雑音重畳音声信号Zに対してウィナーフィルタ処理部26cで乗算されフィルタ処理結果S^が得られる。
原音付加部26dにおいて、端子22bからの雑音重畳音声信号Zに対し、原音付加率(1−δ)が乗算部26d1で乗算され、またウィナーフィルタ処理部26cの出力S^に対しδが乗算部26d2で乗算され、両乗算部26d1及び26d2の各出力が加算部26d3で加算されて、抑圧処理された雑音重畳音声パワースペクトルが得られる。雑音区間における雑音用低抑圧処理部33も同様に構成されるが、平均雑音パワースペクトルE[|N2|]は例えば1秒間程度の雑音パワースペクトルの平均であり、E[|S2|]+E[|N2|]に対応する値は、各フレーム、例えば30ミリ秒間の雑音パワースペクトルの平均E[|O2|]であり、式(2)のゲインGは(E[|O2|]−E[|N2|])/E[|O2|]となり、小さな値となる。よって、雑音用抑圧処理部33の出力は(1−δ)Zに近い値になる。
このような雑音抑圧処理を適用した場合は、低抑圧処理では原音付加率(1−δ)は例えば0.3〜0.2程度とされ、高抑圧処理では(1−δ)は0.1程度とされる。
図4及び図6に示した装置をコンピュータにより機能させてもよい。この場合は図5又は図7に示した処理手順の各過程をコンピュータに実行させるための音声認識プログラムを、コンピュータにCD−ROM、磁気ディスク装置、半導体記憶装置などの記録媒体からインストールし、あるいは通信回線を介してダウンロードして、このプログラムをコンピュータに実行させればよい。
図4及び図6に示した装置をコンピュータにより機能させてもよい。この場合は図5又は図7に示した処理手順の各過程をコンピュータに実行させるための音声認識プログラムを、コンピュータにCD−ROM、磁気ディスク装置、半導体記憶装置などの記録媒体からインストールし、あるいは通信回線を介してダウンロードして、このプログラムをコンピュータに実行させればよい。
Claims (10)
- 入力音声信号から計算した特徴パラメータ系列に対して、各認識結果候補の特徴を表現した確率モデルを用いて計算した類似の尤度から認識結果を出力する音声認識方法において、
前記入力音声信号に対して、高抑圧量または時間的に一定の抑圧量の高雑音抑圧処理を行い、
その高雑音抑圧処理された入力信号から音声区間/雑音区間の時間情報を抽出し、
入力音声信号に対し、低抑圧量または時間的に変化する低雑音抑圧処理を行い、
前記低雑音抑圧処理された信号中の前記音声区間の時間情報と対応する信号の特徴パラメータ系列を抽出し、
この抽出した特徴パラメータ系列を前記類似尤度の計算に用いる特徴パラメータ系列とすることを特徴とする音声認識方法。 - 請求項1記載の方法において、
前記低雑音抑圧処理された信号中の前記雑音区間の時間情報と対応する信号から雑音モデルを作成し、
雑音の無い音声データから予め作成したクリーン音声モデルと前記雑音モデルとの合成を行って雑音重畳音声モデルを作り、
前記雑音重畳音声モデルを前記確率モデルとすることを特徴とする音声認識方法。 - 請求項1記載の方法において、
前記高雑音抑圧処理された信号中の前記音声区間の時間情報と対応する信号から特徴パラメータ系列を求め、
雑音の無い音声信号から予め求めた特徴パラメータに対する前記求めた特徴パラメータの平均推移量を計算し、
その平均推移量と対応させて、前記予め求めた特徴パラメータから予め作成したクリーン音声モデルを推移させ、
この推移された音声モデルを前記確率モデルとすることを特徴とする音声認識方法。 - 請求項3記載の方法において、
前記入力音声信号に対し、低抑圧量または時間的に変化する低雑音抑圧処理を行い、
前記低雑音処理された信号中の前記雑音区間の時間情報と対応する信号から雑音モデルを作り、
前記雑音モデルと前記推移された音声モデルとを合成して雑音重畳音声モデルを作り、
この雑音重畳音声モデルを前記確率モデルとすることを特徴とする音声認識方法。 - 請求項3又は4記載の方法において、
前記平均推移量の計算は、
前記高雑音抑圧処理された信号中の前記音声区間の時間情報と対応する信号の対数スペクトル上の特徴パラメータの長時間平均を求め、
前記雑音の無い音声信号から予め求めた対数スペクトル上の特徴パラメータの長時間平均と前記長時間平均との差分を前記平均推移量として求めることを特徴とする音声認識方法。 - 入力音声信号から計算した特徴パラメータ系列に対して、各認識結果候補の特徴を表現した確率モデルを用いて計算した類似の尤度から認識結果を出力する音声認識装置において、
前記入力音声信号に対して、高抑圧量または抑圧量が時間的に一定の雑音抑圧処理を行う高抑圧処理部と、
前記高抑圧処理部の出力信号から音声区間/雑音区間の時間情報を抽出する区間時間情報抽出部と、
前記入力音声信号に対して低抑圧量、または抑圧量が時間的に変化する雑音抑圧処理を行う低抑圧処理部と、
前記雑音区間の時間情報と前記低抑圧処理部の出力信号が入力され、その出力信号中の雑音区間の信号から雑音モデルを作成する雑音モデル学習部と、
雑音の無い音声データから作成されたクリーン音声モデルが記憶されているクリーン音声モデルメモリと、
前記雑音モデルと前記クリーン音声モデルとを合成して雑音重畳音声モデルを作るモデル合成部と、
前記音声区間の時間情報と前記低抑圧処理部の出力信号が入力され、その出力信号中の音声区間の時間情報と対応する信号に対して、前記雑音重畳音声モデルを認識する認識部と
を備えることを特徴とする音声認識装置。 - 入力音声信号から計算した特徴パラメータ系列に対して、各認識結果候補の特徴を表現した確率モデルを用いて計算した類似の尤度から認識結果を出力する音声認識装置において、
前記入力音声信号に対して、高抑圧量または抑圧量が時間的に一定の雑音抑圧処理を行う高抑圧処理部と、
前記高抑圧処理部の出力信号から音声区間/雑音区間の時間情報を抽出する区間時間情報抽出部と、
前記高抑圧処理部の出力信号と前記音声区間の時間情報とが入力され、その出力信号中の前記音声区間の時間情報と対応する信号の特徴パラメータを求める特徴パラメータ抽出部と、
前記クリーン音声モデルの作成に用いた特徴パラメータに対する前記求めた特徴パラメータの平均推移量を求める平均推移量計算部と、
前記平均推移量と対応させて前記クリーン音声モデルを推移させて前記確率モデルとするモデル推移部と、
前記音声区間の時間情報と前記高抑圧処理部の出力信号が入力され、その出力信号中の前記音声区間の信号に対して、前記確率モデルを認識する認識処理部と
を備えることを特徴とする音声認識装置。 - 請求項7記載の装置において、
前記入力音声信号に対して低抑圧量、または抑圧量が時間的に変化する雑音抑圧処理を行う低抑圧処理部と、
前記雑音区間の時間情報と前記低抑圧処理部の出力信号が入力され、その出力信号中の雑音区間の信号から雑音モデルを作成する雑音モデル学習部と、
前記推移されたクリーン音声モデルと前記雑音モデルを合成して前記確率モデルとするモデル合成部と、
を備える音声認識装置。 - 請求項1〜5のいずれかに記載した音声認識方法の各過程をコンピュータに実行させるための音声認識プログラム。
- 請求項9に記載した音声認識プログラムが記録されたコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004138808A JP2005321539A (ja) | 2004-05-07 | 2004-05-07 | 音声認識方法、その装置およびプログラム、その記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004138808A JP2005321539A (ja) | 2004-05-07 | 2004-05-07 | 音声認識方法、その装置およびプログラム、その記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005321539A true JP2005321539A (ja) | 2005-11-17 |
Family
ID=35468891
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004138808A Pending JP2005321539A (ja) | 2004-05-07 | 2004-05-07 | 音声認識方法、その装置およびプログラム、その記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005321539A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006330389A (ja) * | 2005-05-26 | 2006-12-07 | Matsushita Electric Works Ltd | 音声認識装置 |
JP2007156364A (ja) * | 2005-12-08 | 2007-06-21 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置、音声認識方法、そのプログラムおよびその記録媒体 |
JP2011191682A (ja) * | 2010-03-16 | 2011-09-29 | Nec Corp | 音声認識装置、音声認識方法および音声認識プログラム |
JP2012103428A (ja) * | 2010-11-09 | 2012-05-31 | Murata Mach Ltd | 受音装置、音声認識システム、及び作業指示システム |
JP2013228459A (ja) * | 2012-04-24 | 2013-11-07 | Nippon Telegr & Teleph Corp <Ntt> | 音声聴取装置とその方法とプログラム |
US9245524B2 (en) | 2010-11-11 | 2016-01-26 | Nec Corporation | Speech recognition device, speech recognition method, and computer readable medium |
-
2004
- 2004-05-07 JP JP2004138808A patent/JP2005321539A/ja active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006330389A (ja) * | 2005-05-26 | 2006-12-07 | Matsushita Electric Works Ltd | 音声認識装置 |
JP4682700B2 (ja) * | 2005-05-26 | 2011-05-11 | パナソニック電工株式会社 | 音声認識装置 |
JP2007156364A (ja) * | 2005-12-08 | 2007-06-21 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置、音声認識方法、そのプログラムおよびその記録媒体 |
JP4728791B2 (ja) * | 2005-12-08 | 2011-07-20 | 日本電信電話株式会社 | 音声認識装置、音声認識方法、そのプログラムおよびその記録媒体 |
JP2011191682A (ja) * | 2010-03-16 | 2011-09-29 | Nec Corp | 音声認識装置、音声認識方法および音声認識プログラム |
JP2012103428A (ja) * | 2010-11-09 | 2012-05-31 | Murata Mach Ltd | 受音装置、音声認識システム、及び作業指示システム |
US9245524B2 (en) | 2010-11-11 | 2016-01-26 | Nec Corporation | Speech recognition device, speech recognition method, and computer readable medium |
JP2013228459A (ja) * | 2012-04-24 | 2013-11-07 | Nippon Telegr & Teleph Corp <Ntt> | 音声聴取装置とその方法とプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5666444B2 (ja) | 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法 | |
US10614827B1 (en) | System and method for speech enhancement using dynamic noise profile estimation | |
JP4855661B2 (ja) | クリーン信号確率変数の推定値を識別する方法 | |
JP2006215568A (ja) | 音声向上装置、音声向上方法及び音声向上プログラムを記録したコンピュータで読み取り可能な媒体 | |
JP6004792B2 (ja) | 音響処理装置、音響処理方法、及び音響処理プログラム | |
JP6464005B2 (ja) | 雑音抑圧音声認識装置およびそのプログラム | |
JP4705414B2 (ja) | 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 | |
US8423360B2 (en) | Speech recognition apparatus, method and computer program product | |
JP6374120B2 (ja) | 発話の復元のためのシステムおよび方法 | |
JP4728791B2 (ja) | 音声認識装置、音声認識方法、そのプログラムおよびその記録媒体 | |
JP2007065204A (ja) | 残響除去装置、残響除去方法、残響除去プログラム及びその記録媒体 | |
JP2003532162A (ja) | 雑音に影響された音声の認識のためのロバストなパラメータ | |
JP4858663B2 (ja) | 音声認識方法及び音声認識装置 | |
JP2005321539A (ja) | 音声認識方法、その装置およびプログラム、その記録媒体 | |
JP2019020678A (ja) | ノイズ低減装置および音声認識装置 | |
JP4464797B2 (ja) | 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 | |
JP3510458B2 (ja) | 音声認識システムおよび音声認識制御プログラムを記録した記録媒体 | |
JP5200080B2 (ja) | 音声認識装置、音声認識方法、およびそのプログラム | |
JP4313728B2 (ja) | 音声認識方法、その装置およびプログラム、その記録媒体 | |
JP4242320B2 (ja) | 音声認識方法、その装置およびプログラム、その記録媒体 | |
JP2014029407A (ja) | 雑音抑圧装置、方法、及びプログラム | |
CN111226278B (zh) | 低复杂度的浊音语音检测和基音估计 | |
WO2015093025A1 (ja) | 音声処理装置、音声処理方法、及び、記録媒体 | |
Kim et al. | Advanced parallel combined Gaussian mixture model based feature compensation integrated with iterative channel estimation | |
JP2005326673A (ja) | 音声認識方法、その装置およびプログラム、その記録媒体 |