JP2006084732A - 多項式近似に基づく雑音下音声認識のためのモデル適応法 - Google Patents
多項式近似に基づく雑音下音声認識のためのモデル適応法 Download PDFInfo
- Publication number
- JP2006084732A JP2006084732A JP2004268926A JP2004268926A JP2006084732A JP 2006084732 A JP2006084732 A JP 2006084732A JP 2004268926 A JP2004268926 A JP 2004268926A JP 2004268926 A JP2004268926 A JP 2004268926A JP 2006084732 A JP2006084732 A JP 2006084732A
- Authority
- JP
- Japan
- Prior art keywords
- polynomial
- value
- noise
- distribution
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Complex Calculations (AREA)
Abstract
【課題】
簡単な手法でありながら、ロバストかつ正確な音声認識を可能とする雑音下音声認識のためのモデル適応手法を提供する。
【解決手段】
各周波数における音声のスペクトル密度値の対数値xの分布パラメータと、加法性雑音のスペクトル密度値の対数値nの分布パラメータ及び/或いは乗法性雑音のスペクトル密度値の対数値hの分布パラメータから、これらの雑音が重畳した音声のスペクトル密度値の対数値yの分布パラメータを推定することによるモデル適応法において、x, n, h, y の間の非線形の関係を多項式で近似することで、y の分布パラメータを推定する。
【選択図】
図2
簡単な手法でありながら、ロバストかつ正確な音声認識を可能とする雑音下音声認識のためのモデル適応手法を提供する。
【解決手段】
各周波数における音声のスペクトル密度値の対数値xの分布パラメータと、加法性雑音のスペクトル密度値の対数値nの分布パラメータ及び/或いは乗法性雑音のスペクトル密度値の対数値hの分布パラメータから、これらの雑音が重畳した音声のスペクトル密度値の対数値yの分布パラメータを推定することによるモデル適応法において、x, n, h, y の間の非線形の関係を多項式で近似することで、y の分布パラメータを推定する。
【選択図】
図2
Description
本発明は、雑音下音声認識のためのモデル適応に係り、詳しくは、与えられたクリーン音声モデル及び雑音モデルから雑音重畳音声モデルのパラメータを推定する手法に関するものである。
実環境では、クリーン音声によってトレーニングされた音声認識のパフォーマンスは、トレーニング条件と認識時の収音環境とのミスマッチによって低下する。ロバストな音声認識を行う手法として、PMCが知られている。PMCは、クリーン音声HMMと雑音HMMとを合成することで雑音を含むモデルを推定し、前記ミスマッチを低減させる(非特許文献1,2)。しかしながら、モデルパラメータの正確な推定には数値統合を必要とし、多くの計算を必要とする。Data-driven PMC(非特許文献3)は数値統合に比べると正確であるものの、依然として計算に時間を要する。PMC Log−normal近似,PMC Log−add近似,PMC Log−max近似のような手法(非特許文献4)も提案されており、計算上は効率的であるが、正確さに欠ける。
また、音声と雑音の間の非線形関係をベクトルテイラー級数で近似するVTS法(非特許文献5,6)も提案されている。
しかしながら、いずれも手法も環境変動にロバストな認識技術という観点からは、依然として十分なものとは言えない。
Gales, M. J. F. and Young, S. J., "Robust Continuous SpeechRecognition using Parallel Model Combination," in IEEE Trans. on Speech andAudio Processing, vol. 4, no. 5, pp. 352-359, 1996. Gales, M. J. F., "Model-Based Technologies for Noise Robust SpeechRecognition," Ph.D. Thesis, Cambridge University, 1995. Gales, M. J. F. and Young, S. J., "A Fast and FlexibleImplementation of Parallel Model Combination," in Proc. ICASSP95, pp.133-136.1995. Gong, Y., "A Comparative Study of Approximations for Parallel ModelCombination of Static and Dynamic Parameters," in Proc. ICSLP02, pp. 1029-1032,2002. Acero, A et al., "HMM Adaptation using Vector Taylor Series forNoisy Speech Recognition," in Proc. ICSLP00, vol.3, pp.869-873, 2000 Moreno, P.J., Raj, B., and Stern, R. M., "A Vector Taylor SeriesApproach for Environment Independence Speech Recognition," in Proc. ICASSP96,pp. 733-736, 1996
Gales, M. J. F. and Young, S. J., "Robust Continuous SpeechRecognition using Parallel Model Combination," in IEEE Trans. on Speech andAudio Processing, vol. 4, no. 5, pp. 352-359, 1996. Gales, M. J. F., "Model-Based Technologies for Noise Robust SpeechRecognition," Ph.D. Thesis, Cambridge University, 1995. Gales, M. J. F. and Young, S. J., "A Fast and FlexibleImplementation of Parallel Model Combination," in Proc. ICASSP95, pp.133-136.1995. Gong, Y., "A Comparative Study of Approximations for Parallel ModelCombination of Static and Dynamic Parameters," in Proc. ICSLP02, pp. 1029-1032,2002. Acero, A et al., "HMM Adaptation using Vector Taylor Series forNoisy Speech Recognition," in Proc. ICSLP00, vol.3, pp.869-873, 2000 Moreno, P.J., Raj, B., and Stern, R. M., "A Vector Taylor SeriesApproach for Environment Independence Speech Recognition," in Proc. ICASSP96,pp. 733-736, 1996
本発明は、簡単な手法でありながら、ロバストかつ正確な音声認識を可能とする雑音下音声認識のためのモデル適応手法を提供することを目的とするものである。
かかる課題を解決するために本発明が採用した技術手段は、各周波数における音声のスペクトル密度値の対数値xの分布パラメータと、加法性雑音のスペクトル密度値の対数値nの分布パラメータ及び/或いは乗法性雑音のスペクトル密度値の対数値hの分布パラメータから、これらの雑音が重畳した音声のスペクトル密度値の対数値yの分布パラメータを推定することによるモデル適応法において、x, n, h, y の間の非線形の関係を多項式で近似することで、y の分布パラメータを推定することを特徴とする雑音下音声認識のためのモデル適応法である。また、本発明は他の態様では、コンピュータを、各周波数における音声のスペクトル密度値の対数値xの分布パラメータと、加法性雑音のスペクトル密度値の対数値nの分布パラメータ及び/或いは乗法性雑音のスペクトル密度値の対数値hの分布パラメータから、これらの雑音が重畳した音声のスペクトル密度値の対数値yの分布パラメータを推定するにあたり、x, n, h, y の間の非線形の関係を多項式で近似することで、y の分布パラメータを推定するように実行させることを特徴とする雑音下音声認識のためのコンピュータプログラムとして提供される。
一つの好ましい態様では、x,n,hそれぞれの分布の平均値をμx,μn,μh同じく分散をσx 2,σn 2,σh 2 とするとき、変数z=n-x-hの分布の平均値をμz =μn-μx-μh、分散をσz=σn 2+σx 2+σh 2により求め、非線形関数g(z)=ln(1+ez)を多項式az2+bz+cで近似することにより、雑音重畳音声の特徴量yの分布の平均値を、E[g(x)]=a(σz 2+μz 2)+bμz+c の形式(但し、a, b, c は定数)で求める。
本発明に用いることができる多項式の種類は限定されないが、一つの好ましい態様では、前記多項式はラグランジェ多項式である。また、前記多項式はチェビシェフーラグランジェ多項式でもよい。多項式の次数は限定されず1次以上であればよいが、一つの好ましい態様では、多項式は2次多項式である。多項式の変数は一つの態様では1変数であるが、多変数であってもよい。また、近似多項式は g(z) に対する重みつき最小二乗近似多項式によって求めるものでもよい。また、パラメータは静的パラメータのみならず、動的パラメータであってもよい。
本発明は、雑音重畳音声のパラメータを正確かつ効率的に推定することができ、ロバストかつ正確な音声認識を可能とするものである。
[A]音響環境モデル
図1に、クリーン音声信号x[m]に対する加法性雑音n[m]および乗法性雑音(チャネルフィルタリング、すなわちチャネル歪)h[m]の影響を示す音響モデルを示す。劣化された音声(クリーン音声に対して、加法性雑音及びチャネル歪が重畳ないし混合された音声)は、式(1)によって与えられる。
ここで、mはサンプル数である。さらに、パワースペクトル領域において、フィルタバンクエネルギーは次のように与えられる。
ここで、式(4)は対数スペクトル領域であり、各項は対数スペクトルエネルギー(スペクトル密度値の対数値)を表し、具体的には、x:クリーン音声、n:加法性雑音、h:乗法性雑音(チャネル歪)、y:劣化された音声信号である。
図1に、クリーン音声信号x[m]に対する加法性雑音n[m]および乗法性雑音(チャネルフィルタリング、すなわちチャネル歪)h[m]の影響を示す音響モデルを示す。劣化された音声(クリーン音声に対して、加法性雑音及びチャネル歪が重畳ないし混合された音声)は、式(1)によって与えられる。
クリーン音声と雑音の関係は、式(4)で与えられるような非線形関係となる。実験によると、雑音及びクリーン音声のパラメータがガウス分布(対数領域において)を有していても、劣化された音声パラメータはガウス分布を有するものではない。しかしながら、これらのパラメータが低い分散を有しており、複数のガウス分布がこれらの分布をモデル化することに用いられる場合には、パラメータの分布をガウス分布とみなすことができ、ガウス分布のために最適化されたデコーダを用いることができる。
[B]多項式近似
本発明の一つの目的は、雑音パラメータのn,hの分布、クリーン音声パラメータxの分布が与えられた時の雑音を含む音声パラメータyの分布(平均と分散)を求めることにある。ここで、yの平均、すなわち、期待値は、次の式で表すことができる。
各パラメータx,n,hがガウス分布を有すると仮定すると、E[g(x,n,h)]はクローズドフォームの数式を有しない。したがって、E[g(x,n,h)]の値を求めるために、先ず、関数g(x,n,h)を、与えられた範囲内で、可能な限り低い次数で近似できる多項式に展開する。多項式近似は、
とおいて、関数g(x,n,h)を1変数に減らすことで行う。
本発明の一つの目的は、雑音パラメータのn,hの分布、クリーン音声パラメータxの分布が与えられた時の雑音を含む音声パラメータyの分布(平均と分散)を求めることにある。ここで、yの平均、すなわち、期待値は、次の式で表すことができる。
点z0,z1,z2は、1点がz=μz、他の2点が必要とされる範囲における誤差を最小化するように選択することで、適宜特定される。あるいは、これらの点を特定するのに、チェビシェフーラグランジェ多項式(Chebyshev-Lagrange polynomial)を用いても良く、その場合、与えられた範囲内で点を自身で特定する。
図4は、μz=0における関数g(z)=ln(1+ez)を近似するのに用いる異なる多項式を示す。図4(a)において、ラグランジェ多項式展開のために選択された点は、z0=μz,z1=z0−5,z2=z0+5である。図に示すように、ラグランジェ多項式は、2次テイラー級数に比べてより広い範囲でより正確に関数を近似することができる。zの分散が小さい場合には、z1点、z2点をz0点に近づけることができる。しかしながら、zが大きい分散を有する場合には、z1点、z2点はz0点からより離れることになる。しかしながら、z1点、z2点がz0点からより離れることになると、多くのデータが生じるであろうz=z0=μzの近傍領域の近似において不正確さが生じることになる。したがって、zの分散に応じて、z1点、z2点を最適な値に配置する必要がある。
式(5)に対してE[g(z)]の予測値を用いることで、劣化された音声ベクトルの平均を計算する。平均の正確な値は分散の正確な値よりも重要なので、クリーン音声の共分散行列が用いられる。しかしながら、上記近似から対角分散を適用するための式を導くことができ、zのより高次のモーメント(4次モーメントまで)として対角分散を適用することもできる。
図2,図3に劣化された音声のモデルパラメータを予測する方法を示す。近似を対数スペクトル領域で行うため、ケプストラム領域のクリーン音声及び雑音のHMMパラメータを逆DCTによって対数スペクトル領域に変換する。ケプストラム領域からスペクトル領域へのパラメータの変換はC0の知識を必要とする。与えられたモデルパラメータがC0を含んでいない場合には、線形スペクトル領域のメルバンドのエネルギーの総和は全体のフレームエネルギーと同じであることを用いて、算出することができる。これについては、Crafa, S., Fissore, L., and Vair, C., “Data-Driven PMC and Bayesian
Learning Integration for Fast Model Adaptation in Noisy Environment,” in Proc.
ICSLP98, vol.2, pp.471-474, 1998を参照することができる。
Learning Integration for Fast Model Adaptation in Noisy Environment,” in Proc.
ICSLP98, vol.2, pp.471-474, 1998を参照することができる。
チャネル歪を説明する統計は、期待スコアを最大化するEM手法を用いることで得ることができる。チャネル歪の統計を推定するためにはいくつかの適応データが必要とされる。これについては、Minami, Y. and Furui, S., “A Maximum Likelihood Procedure for a
Universal Adaptation Method Based on HMM Composition, ”in Proc. ICASSP95,
vol.1, pp.129-132, 1995を参照することができる。
Universal Adaptation Method Based on HMM Composition, ”in Proc. ICASSP95,
vol.1, pp.129-132, 1995を参照することができる。
全ての場合において、アルゴリズムの複雑さを避け、計算量を低減するために、音声HMM及び雑音HMMの共分散行列の対角要素のみが考慮される。
[C]ラグランジェ多項式近似(LPA)の分析
本発明に係る多項式近似の正確性を分析し、他の手法と比較するために、モンテカルロシミュレーションによって音声パラメータとして一次ベクトルを生成した。音声ベクトルに対して、異なるSNRにおいて雑音を付加した。雑音ベクトルもモンテカルロシミュレーションによって生成した。異なる手法によって推定された劣化された音声の平均を図6に示す。ラグランジェ多項式近似(LPA)がVTS−1及びLog−max近似に比べてより正確であることがわかる。ラグランジェ多項式近似によって与えられた平均推定はモンテカルロシミュレーションによって与えられたものと略同じであるだけでなく、計算コストも大幅に削減することができる。
本発明に係る多項式近似の正確性を分析し、他の手法と比較するために、モンテカルロシミュレーションによって音声パラメータとして一次ベクトルを生成した。音声ベクトルに対して、異なるSNRにおいて雑音を付加した。雑音ベクトルもモンテカルロシミュレーションによって生成した。異なる手法によって推定された劣化された音声の平均を図6に示す。ラグランジェ多項式近似(LPA)がVTS−1及びLog−max近似に比べてより正確であることがわかる。ラグランジェ多項式近似によって与えられた平均推定はモンテカルロシミュレーションによって与えられたものと略同じであるだけでなく、計算コストも大幅に削減することができる。
[D]実験結果
ラグランジェ多項式近似による手法を評価するために、実験を行った。ATR音声データベースA−Setから取り出した同じ話者の2620語でトレーニングした孤立単語音声認識タスクに基づいてテストを行った。テストセットは、同データベースから取り出した同じ話者の655語を含む。ベースラインシステムは、41のcontext-independent continuous-density phone HMM、全体として126状態、単一混合、26次元音声ベクトル(13-dim MFCC(C0を伴う)及びデルタ)から構成される。デコーダとしてJulian3.4を用いた。クリーン音声のベースライン単語音声認識正確さは93.8%である。JEITAデータベースからの雑音(exhibition hall noise)を0dB,5dB,10dB,20dB,40dBのSNRでテストデータに加えた。クリーン音声HMMでの認識において、0dBのSNR単語音声認識正確さは2.8%に減少する。
ラグランジェ多項式近似による手法を評価するために、実験を行った。ATR音声データベースA−Setから取り出した同じ話者の2620語でトレーニングした孤立単語音声認識タスクに基づいてテストを行った。テストセットは、同データベースから取り出した同じ話者の655語を含む。ベースラインシステムは、41のcontext-independent continuous-density phone HMM、全体として126状態、単一混合、26次元音声ベクトル(13-dim MFCC(C0を伴う)及びデルタ)から構成される。デコーダとしてJulian3.4を用いた。クリーン音声のベースライン単語音声認識正確さは93.8%である。JEITAデータベースからの雑音(exhibition hall noise)を0dB,5dB,10dB,20dB,40dBのSNRでテストデータに加えた。クリーン音声HMMでの認識において、0dBのSNR単語音声認識正確さは2.8%に減少する。
ラグランジェ多項式近似により適応化されたモデルによって認識を実行した。モデルは、静的平均パラメータにのみ適応化されている。図5は、幾つかのモデルにより取得された異なるSNRにおける単語認識正確さを示す。与えられたSNRの雑音によって劣化されたトレーニングデータからHMMをトレーニングすることでマッチトモデルを確立した。PMC Log−normal近似の場合、静的パラメータの平均及び分散が適応される。図5に示すように、高いSNRにおいて、ラグランジェ多項式近似(LPA)に基づくモデル適応化により得られたパフォーマンスは、マッチトモデルによって得られたものと近似しており、低いSNRにおいては、PMC Log−normal近似に比べて格段に改良されている。
図6は、μn>>μxあるいはμn<<μxの場合には、他の手法でも、十分な正確さでμyを推定することができることを示している。しかしながら、μnとμxが同じか近い場合には、ラグランジェ多項式近似(LPA)が極めて良好に機能するのに対して、他の手法は正確な推定を行うことができない。したがって、合成時に雑音及び音声のHMMパラメータが互いに近い場合には、ラグランジェ多項式近似(LPA)の有利性が強調される。
図7はクリーン音声及び雑音の平均パラメータ(対数スペクトル領域)のヒストグラムである。図7(a)の場合は図7(b)の場合に比べて、音声平均及び雑音平均が互いに近似している(影領域)。ラグランジェ多項式による近似(LPA)は、他の手法に比べて、図7(a)のような場合に特に有利である。
本発明は音声認識の分野に利用可能である。
Claims (10)
- 各周波数における音声のスペクトル密度値の対数値xの分布パラメータと、加法性雑音のスペクトル密度値の対数値nの分布パラメータ及び/或いは乗法性雑音のスペクトル密度値の対数値hの分布パラメータから、これらの雑音が重畳した音声のスペクトル密度値の対数値yの分布パラメータを推定することによるモデル適応法において、
x, n, h, y の間の非線形の関係を多項式で近似することで、y の分布パラメータを推定することを特徴とする雑音下音声認識のためのモデル適応法。 - 前記近似多項式はラグランジュ多項式であることを特徴とする請求項1,2いずれかに記載のモデル適応法。
- 前記近似多項式はチェビシェフ−ラグランジェ多項式であることを特徴とする請求項1,2いずれかに記載のモデル適応法。
- 前記近似多項式は重みつき最小二乗近似多項式であることを特徴とする請求項1,2いずれかに記載のモデル適応法。
- コンピュータを、各周波数における音声のスペクトル密度値の対数値xの分布パラメータと、加法性雑音のスペクトル密度値の対数値nの分布パラメータ及び/或いは乗法性雑音のスペクトル密度値の対数値hの分布パラメータから、これらの雑音が重畳した音声のスペクトル密度値の対数値yの分布パラメータを推定するにあたり、x, n, h, y の間の非線形の関係を多項式で近似することで、y の分布パラメータを推定するように実行させることを特徴とする雑音下音声認識のためのコンピュータプログラム。
- 前記近似多項式はラグランジュ多項式であることを特徴とする請求項6,7いずれかに記載のコンピュータプログラム。
- 前記近似多項式はチェビシェフ−ラグランジェ多項式であることを特徴とする請求項6,7いずれかに記載のコンピュータプログラム。
- 前記近似多項式は重みつき最小二乗近似多項式であることを特徴とする請求項6,7いずれかに記載のコンピュータプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004268926A JP2006084732A (ja) | 2004-09-15 | 2004-09-15 | 多項式近似に基づく雑音下音声認識のためのモデル適応法 |
PCT/JP2005/004531 WO2006030551A1 (ja) | 2004-09-15 | 2005-03-15 | 多項式近似に基づく雑音下音声認識のためのモデル適応法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004268926A JP2006084732A (ja) | 2004-09-15 | 2004-09-15 | 多項式近似に基づく雑音下音声認識のためのモデル適応法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006084732A true JP2006084732A (ja) | 2006-03-30 |
Family
ID=36059815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004268926A Pending JP2006084732A (ja) | 2004-09-15 | 2004-09-15 | 多項式近似に基づく雑音下音声認識のためのモデル適応法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2006084732A (ja) |
WO (1) | WO2006030551A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010035892A1 (en) * | 2008-09-29 | 2010-04-01 | Kabushiki Kaisha Toshiba | Speech recognition method |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2471875B (en) * | 2009-07-15 | 2011-08-10 | Toshiba Res Europ Ltd | A speech recognition system and method |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002183111A (ja) * | 2000-12-13 | 2002-06-28 | Yamatake Corp | 曲面モデルの同定方法及びプログラム |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3587966B2 (ja) * | 1996-09-20 | 2004-11-10 | 日本電信電話株式会社 | 音声認識方法、装置そよびその記憶媒体 |
JPH1195786A (ja) * | 1997-09-16 | 1999-04-09 | Nippon Telegr & Teleph Corp <Ntt> | パターン認識方法および装置とパターン認識プログラムを格納した記録媒体 |
JP2000075890A (ja) * | 1998-09-01 | 2000-03-14 | Oki Electric Ind Co Ltd | ヒドン・マルコフ・モデルの学習方法及び音声認識システム |
JP2002091478A (ja) * | 2000-09-18 | 2002-03-27 | Pioneer Electronic Corp | 音声認識システム |
US7062433B2 (en) * | 2001-03-14 | 2006-06-13 | Texas Instruments Incorporated | Method of speech recognition with compensation for both channel distortion and background noise |
JP4858663B2 (ja) * | 2001-06-08 | 2012-01-18 | 日本電気株式会社 | 音声認識方法及び音声認識装置 |
JP2004294916A (ja) * | 2003-03-27 | 2004-10-21 | Matsushita Electric Ind Co Ltd | 標準モデル作成装置および標準モデル作成方法 |
-
2004
- 2004-09-15 JP JP2004268926A patent/JP2006084732A/ja active Pending
-
2005
- 2005-03-15 WO PCT/JP2005/004531 patent/WO2006030551A1/ja active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002183111A (ja) * | 2000-12-13 | 2002-06-28 | Yamatake Corp | 曲面モデルの同定方法及びプログラム |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010035892A1 (en) * | 2008-09-29 | 2010-04-01 | Kabushiki Kaisha Toshiba | Speech recognition method |
JP2012504250A (ja) * | 2008-09-29 | 2012-02-16 | 株式会社東芝 | 音声認識方法 |
US8417522B2 (en) | 2008-09-29 | 2013-04-09 | Kabushiki Kaisha Toshiba | Speech recognition method |
Also Published As
Publication number | Publication date |
---|---|
WO2006030551A1 (ja) | 2006-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7707029B2 (en) | Training wideband acoustic models in the cepstral domain using mixed-bandwidth training data for speech recognition | |
US7571095B2 (en) | Method and apparatus for recognizing speech in a noisy environment | |
US20090043570A1 (en) | Method for processing speech signal data | |
US9520138B2 (en) | Adaptive modulation filtering for spectral feature enhancement | |
JP4856662B2 (ja) | 雑音除去装置、その方法、そのプログラム及び記録媒体 | |
Yu et al. | Speech enhancement using a DNN-augmented colored-noise Kalman filter | |
JP6748304B2 (ja) | ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム | |
JP4705414B2 (ja) | 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 | |
JP5713818B2 (ja) | 雑音抑圧装置、方法及びプログラム | |
Saito et al. | Unsupervised vocal dereverberation with diffusion-based generative models | |
JP5670298B2 (ja) | 雑音抑圧装置、方法及びプログラム | |
Kavalekalam et al. | Online parametric NMF for speech enhancement | |
JP5997114B2 (ja) | 雑音抑圧装置、雑音抑圧方法、およびプログラム | |
Elshamy et al. | An iterative speech model-based a priori SNR estimator | |
Hershey et al. | Factorial models for noise robust speech recognition | |
Han et al. | Reverberation and noise robust feature compensation based on IMM | |
Auvinen et al. | Automatic glottal inverse filtering with the Markov chain Monte Carlo method | |
JP2006084732A (ja) | 多項式近似に基づく雑音下音声認識のためのモデル適応法 | |
Nisa et al. | The speech signal enhancement approach with multiple sub-frames analysis for complex magnitude and phase spectrum recompense | |
JP5457999B2 (ja) | 雑音抑圧装置とその方法とプログラム | |
Sehr et al. | Model-based dereverberation in the Logmelspec domain for robust distant-talking speech recognition | |
Techini et al. | Robust Front-End Based on MVA and HEQ Post-processing for Arabic Speech Recognition Using Hidden Markov Model Toolkit (HTK) | |
Raut et al. | Model composition by lagrange polynomial approximation for robust speech recognition in noisy environment. | |
JP6000094B2 (ja) | 話者適応化装置、話者適応化方法、プログラム | |
JP2013037177A (ja) | 音声強調装置とその方法とプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070611 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100506 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20101001 |