JPH1115491A - 環境的に補償されたスピーチ処理方法 - Google Patents
環境的に補償されたスピーチ処理方法Info
- Publication number
- JPH1115491A JPH1115491A JP10163354A JP16335498A JPH1115491A JP H1115491 A JPH1115491 A JP H1115491A JP 10163354 A JP10163354 A JP 10163354A JP 16335498 A JP16335498 A JP 16335498A JP H1115491 A JPH1115491 A JP H1115491A
- Authority
- JP
- Japan
- Prior art keywords
- vector
- speech
- dirty
- speech signal
- clean
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 75
- 238000012545 processing Methods 0.000 title claims description 28
- 239000013598 vector Substances 0.000 claims abstract description 146
- 230000007613 environmental effect Effects 0.000 claims abstract description 18
- 230000008569 process Effects 0.000 description 29
- 230000000694 effects Effects 0.000 description 11
- 238000009826 distribution Methods 0.000 description 10
- 238000001228 spectrum Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 8
- 238000012937 correction Methods 0.000 description 6
- 238000007476 Maximum Likelihood Methods 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 241001014642 Rasta Species 0.000 description 2
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001447 compensatory effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Machine Translation (AREA)
Abstract
境から導出したデータでデジタルスピーチ信号を補償す
る方法を提供する。 【解決手段】 スピーチ信号を処理するコンピュータ化
された方法において、クリーンスピーチ信号を表す第1
ベクトルがベクトルコードブックに記憶される。第2ベ
クトルは、ダーティスピーチ信号から決定される。第2
ベクトルからノイズ及び歪パラメータが推定される。第
3ベクトルは、その推定されたノイズ及び歪パラメータ
に基づいて予想される。第3ベクトルを用いて、第1ベ
クトルが修正される。次いで、第3ベクトルを第2ベク
トルに適用し、修正されたベクトルを発生することがで
きる。修正されたベクトルと第1ベクトルとを比較し、
修正されたベクトルに類似する第1ベクトルを識別する
ことができる。
Description
処理に係り、より詳細には、スピーチ信号が発生されて
伝達される音響環境から導出したデータでデジタル化さ
れたスピーチ信号を補償することに係る。
タシステムと対話するための最も使用される入力方式の
1つになることが予想される。キーストローク、マウス
クリック及び目に見える身体の身振りに加えて、スピー
チは、ユーザがコンピュータ化システムと対話する方法
を改善することができる。処理されたスピーチは、我々
が何と言ったかを聞き分けそして我々が誰であるかも見
出すように認識することができる。スピーチ信号は、コ
ンピュータシステムへのアクセスを得そして音声コマン
ド及び情報を用いてシステムを動作するように益々利用
される。
響的に素朴な環境で発生される場合には、良好な結果を
生じるための信号の処理作業は、比較的単純である。し
かしながら、我々は、システムと対話するための種々様
々な異なる環境、例えば、オフィスや、家庭や、道路際
の電話や、或いはこれについてはセルラー電話を携帯で
きるどこの場所でも、スピーチを使用するので、効率的
で健全なスピーチ処理を与えるためには、これらの環境
における音響的な相違を補償することが重要な問題とな
る。
ーチを「ダーティ」にさせる。第1の作用は、スピーチ
信号自体の歪である。音響環境は、数えきれないほどの
多数の仕方で音声信号を歪ませる。信号は、予想不能に
遅延され、進まされ、複製されて、エコーを発生し、周
波数及び振幅を変化し、等々である。更に、異なる形式
の電話、マイクロホン及び通信ラインは、更に別の異な
る歪を導入し得る。
ズは、元々のスピーチの部分ではない付加的な信号がス
ピーチ周波数スペクトルに生じることによるものであ
る。ノイズは、背後で話をしている他の人、オフィスの
装置、自動車、飛行機、風等により導入され得る。通信
チャンネルにおける熱的なノイズもスピーチ信号に付加
され得る。「ダーティ」スピーチを処理する問題は、歪
及びノイズが時間と共に動的に変化することにより更に
複雑になる。
は、次の段階を含む。第1段階では、デジタル化された
スピーチ信号が時間整列された部分(フレーム)に仕切
られ、この場合、直線的予想係数(LPC)「特徴」ベ
クトルにより音響的特徴を一般に表すことができる。第
2段階では、環境的音響データを使用して、ベクトルを
クリーンアップすることができる。即ち、ダーティスピ
ーチ信号を表すベクトルに処理を適用し、相当量のノイ
ズ及び歪が除去される。クリーンアップされたベクトル
は、統計学的な比較方法を使用して、クリーンな環境で
発生された同様にスピーチに厳密に類持される。次い
で、第3段階では、クリーンな状態にされた特徴ベクト
ルは、スピーチがいかに使用されようとしているかを決
定するスピーチ処理エンジンに送られる。典型的に、こ
の処理は、統計学的モデル又はニューラルネットワーク
を用いてスピーチ信号パターンを分析及び識別すること
に依存する。
ーティのままにされる。むしろ、スピーチを処理するの
に使用される予め記憶された統計学的モデル又はネット
ワークは、ダーティスピーチの特徴ベクトルの特性に類
似するように変更される。このように、クリーンスピー
チとダーティスピーチとの間、又はそれらの代表的な特
徴ベクトルの間の不一致を減少することができる。
セス(又はスピーチ処理エンジン)それ自体に補償を適
用することにより、最大化がスピーチ信号及び環境パラ
メータの両方に及ぶような一般化された最大見込みの問
題を解決するためのスピーチ分析を構成することができ
る。このような一般化されたプロセスは性能を改善する
が、計算という点で甚だしいものになる傾向がある。従
って、「ダーティ」スピーチ信号のリアルタイム処理を
必要とする公知の用途は、プロセスではなくて信号をコ
ンディショニングする傾向が強く、満足な結果をほとん
ど生じない。
なってきている。初期の処理の幾つかは、ケプストラム
平均正規化(CMN)及び相対的スペクトル(RAST
A)方法を使用している。これら方法は、同じ平均減算
方法の2つの変形をである。従って、その考え方は、到
来するスピーチフレームから、測定されたスピーチの推
定値を減算することである。古典的なCMNは、測定さ
れた全てのスピーチを表す平均値を各スピーチフレーム
から減算するが、RASTAは、平均値の「遅れ」推定
値を各フレームから減算する。CMN及びRASTAの
両方の方法は、チャンネル特性の相違を直接的に補償
し、改善された性能を生じる。両方の方法は、比較的簡
単な実施手段を使用するので、多くのスピーチ処理シス
テムに頻繁に使用される。
オ記録に依存している。一方の記録は、スピーチ処理シ
ステムが既にトレーニングされたところの高性能マイク
ロホンで行われ、他方の記録は、システムに適応される
べきターゲットマイクロホンで行われる。この解決策
は、再トレーニングのためのスピーチ統計情報のブート
ストラップ推定値を与えるように使用できる。クリーン
及びダーティの両スピーチの同時記録をベースとするス
テレオ対方法は、この問題に対して非常に有用である。
は、ベクトルコードブック(VQ)が使用される。VQ
は、コードワード依存の多次元横断フィルタに組み合わ
されたクリーンスピーチのメル周波数ケプストラム係数
(MFCC)の分布を示す。このフィルタの目的は、時
間的にずらされたスピーチのフレーム間の時間的相関を
得ることである。POFは、予想されるスピーチと測定
されたスピーチとの間の最小平方エラー基準の最小化を
使用して各フレーム依存VQフィルタ(マトリクス)及
び各環境のパラメータを「学習」する。
固定コードワード依存ケプストラム正規化(FCDC
N)も、クリーンスピーチのケプストラムベクトルの分
布に対するVQ表示を使用する。この方法は、同時に記
録されたスピーチに基づいてコードワード依存修正ベク
トルを計算する。この方法は、その効果として、クリー
ンスピーチからダーティスピーチへの変換のモデリング
を必要としない。しかしながら、この効果を得るため
に、ステレオ記録が必要とされる。一般に、これらのス
ピーチ補償方法は、ケプストラムベクトルに対する環境
の作用がステレオ記録を用いて直接的にモデリングされ
るので、環境について何らの仮定も行わない。
トラム正規化(CDCN)では、クリーンスピーチ信号
のケプストラムは、各ガウスをその平均及び共変量で表
すことのできるガウス分布の混合体を用いてモデリング
される。CDCN方法は、クリーンスピーチケプストラ
ムの分布に対する環境の作用を分析的にモデリングす
る。この方法の第1段階では、観察されるダーティケプ
ストラムベクトルの見込みを最大にするための環境パラ
メータ(ノイズ及び歪)の値が推定される。第2段階で
は、ダーティスピーチのケプストラムベクトルが与えら
れたときに、クリーンスピーチの観察されないケプスト
ラムベクトルを発見するために、最小平均平方推定(M
MSE)が適用される。
バッチベースで機能し、それ故、環境パラメータを推定
するのに非常に長いスピーチサンプル(例えば、2、3
秒)を必要とする。バッチ処理により待ち時間が導入さ
れるので、この方法は、連続的なスピーチ信号のリアル
タイム処理にはあまり適していない。並列組合せ方法
(PMC)は、CDCN方法に使用されたものと同じ環
境モデルを仮定する。ノイズ及びチャンネル歪ベクトル
が完全に分かっていると仮定すれば、この方法は、隠れ
たマルコフモデル(HHM)の音響分布の平均ベクトル
及び共変量マトリクスを変換して、HHMをダーティス
ピーチのケプストラムの理想的な分布に類似させるよう
に試みる。
するための多数の種々の技術が知られている。しかしな
がら、PMCのこれら全ての変形は、ノイズ及びチャン
ネル歪ベクトルを前もって知ることが必要である。推定
は、一般に、異なる近似を用いて前もって行われる。通
常、分離されたノイズのサンプルは、PMCのパラメー
タを充分に推定することが必要とされる。これらの方法
は、チャンネルの歪が測定されたスピーチ統計情報の平
均に影響し、そして特定の周波数における有効なSNR
が測定されるスピーチの共変量を制御することを示して
いる。
数(VST)方法を用いると、このことを利用して、ク
リーンスピーチの統計情報が与えられたときにダーティ
スピーチの統計情報を推定することができる。VTS方
法の精度は、テイラー級数近似の上位項のサイズに依存
する。上位項は、スピーチ統計情報の共変量のサイズに
より制御される。VTSでは、スピーチは、ガウス分布
の混合体を用いてモデリングされる。スピーチを混合体
としてモデリングすることにより、各個々のガウスの共
変量は、スピーチ全体の共変量より小さくなる。VTS
が機能するためには、最大化段階を解決するために混合
体のモデルが必要であると示すことができる。これは、
パラメータ推定のための充分な潤沢さの概念に関連して
いる。
良の補償方法は、ガウス分布の混合体におけるクリーン
スピーチ特徴ベクトルの確率密度関数p(x)について
のそれらの表示をベースとする。これらの方法は、バッ
チモードで機能し、即ち処理を行う前に実質的な量の信
号を「聞く」必要がある。これらの方法は、通常、環境
パラメータが決定論的であり、それ故、確率密度関数で
は表されないと仮定する。最後に、これらの方法は、ノ
イズの共変量を推定するための容易な仕方を与えるもの
ではない。これは、常に収斂することが保証されない発
見的な方法により共変量を学習しなければならないこと
を意味する。
すことのできるスピーチ処理システムを提供することが
要望される。更に、このシステムは、連続的なスピーチ
を、それが受け取られたときに、不当な遅延を伴うこと
なく処理できるように、フィルタとして機能しなければ
ならない。更に、このフィルタは、クリーンスピーチを
ターンさせる環境パラメータが時間と共にダーティ変化
するときにそれ自身を適応させねばならない。
において、請求項1に記載するように、歪のないクリー
ンなスピーチ信号を基準として使用することにより、歪
のあるスピーチ信号を処理するためのコンピュータ化さ
れた方法に係る。環境ノイズ及び歪パラメータQ、H及
びΣn の推定値を使用して連続的なダーティスピーチ信
号を補償するためのコンピュータ化された方法が提供さ
れる。この方法において、クリーンスピーチ信号を表す
第1の特徴ベクトルがベクトルコードブックに記憶され
る。Q、H及びΣn によりパラメータ化されたノイズ及
び歪を含むダーティスピーチ信号に対して第2のベクト
ルが決定される。
から推定される。推定されたパラメータを使用して、第
3のベクトルが推定される。第3のベクトルは、第2ベ
クトルに適用されて、修正されたベクトルを形成し、こ
の修正されたベクトルを第1ベクトルと統計学的に比較
して、その修正されたベクトルに最も類似する第1ベク
トルを識別することができる。好ましくは、第3のベク
トルは、ベクトルコードブックに記憶することができ
る。比較の間に、特定の修正されたベクトルと、それに
対応する第1ベクトルとの間の距離を決定することがで
きる。この距離は、第1ベクトルが上記修正されたベク
トルに類似する見込みを表す。更に、特定の修正された
ベクトルがそれに対応する第1ベクトルに類似する見込
みが最大にされる。
れたベクトルを使用して、ダーティスピーチの発音内容
を決定し、スピーチ認識を行うことができる。話し手識
別システムにおいては、修正されたベクトルを使用し
て、ダーティスピーチ信号を発する未知の話し手の認識
を決定することができる。本発明の実施形態において
は、ノイズ及び歪パラメータが時間と共にダーティスピ
ーチを変化させるときに、第3ベクトルが動的に適応さ
れる。
の好ましい実施形態を詳細に説明する。図1は、本発明
の好ましい実施形態による適応補償型スピーチ処理シス
テム100の概要を示す。トレーニング段階中に、クリ
ーンスピーチ信号101がマイクロホン(図示せず)に
より測定される。以下、クリーンスピーチとは、ノイズ
及び歪のないスピーチを意味する。
れ(102)、測定され(103)そして統計学的にモ
デリングされる(104)。クリーンスピーチ101を
表すモデリング統計情報p(x)105は、スピーチ処
理エンジン110により使用するためにベクトルコード
ブック(VQ)106のエントリーとしてメモリに記憶
される。トレーニング後に、システム100は、ダーテ
ィスピーチ信号を処理するのに使用できる。
1は、上記トレーニング段階中に使用されたマイクロホ
ンに対して電力スペクトルQ(・)122を有するマイ
クロホンを用いて測定される。実際の使用中に存在する
環境条件により、スピーチx(t)121は、未知の加
算的な静的ノイズ及び未知の直線的なフィルタ作用、例
えば、歪n(t)123によりダーティ状態にされる。
これらの加算的な信号は、電力スペクトルH(ω)12
4をもつフィルタを通過するホワイトノイズとしてモデ
リングすることができる。
ること、又は信号x(t)125がマイクロホンで測定
される前に加算されることは、構造的に同等であること
に注意されたい。いずれの場合にも、実世界の環境条件
は、ダーティスピーチ信号z(t)126を生じさせ
る。ダーティスピーチ信号126は、デジタル信号プロ
セッサ(DSP)200により処理される。
P200は、ダーティ信号z(t)126の時間整列さ
れた部分を選択し(210)、そしてその部分に良く知
られた窓関数、例えば、ハミング窓を乗算する。段階2
30において、窓処理された部分220に高速フーリエ
変換(FFT)が適用され、「フレーム」231が形成
される。好ましい実施形態では、選択されたデジタル化
部分は、410個のサンプルを含み、これに410ポイ
ントのハミング窓が適用されて、512ポイントのFF
Tフレーム231が形成される。
の平方の大きさを得ることにより、フレーム231に対
する周波数電力スペクトル統計情報が決定される。FF
T項の半分は、冗長なものであるから、落とすことがで
き、256ポイントの電力スペクトル推定値が残され
る。段階250において、スペクトル推定値は、これに
メル周波数の回転マトリクスを乗算することによりメル
周波数ドメインへと回転される。段階260は、回転さ
れた推定値の対数をとり、各フレーム231に対する特
徴ベクトル表示261が得られる。
メル周波数の対数スペクトルに離散的コサイン変換(D
CT)を適用してメルケプストラムを決定することを含
む。メル周波数変換は任意であり、これを伴わないDC
Tの結果は、単にケプストラムと称する。処理中に、窓
関数は、測定されたダーティ信号z(t)126に沿っ
て移動する。DSPの段階200は、ハミング窓の各新
たな位置において信号に適用される。その正味の結果
は、特徴ベクトルz(ω、T)128のシーケンスであ
る。このベクトル128は、図1のエンジン110によ
り処理することができる。このベクトル128は、VQ
107のエントリーと統計学的に比較され、結果199
が得られる。
8に次のように作用することが示される。 z(ω、T)=log (exp(Q(ω)+x(ω、T))+ exp(H(ω)+n(ω、T)) 式1 但し、x(ω、T)は、ノイズ及びチャンネル歪を伴わ
ずに測定された基礎となるクリーンベクトルであり、そ
してn(ω、T)は、ノイズ及び歪のみが存在した場合
の統計情報である。
スペクトルQ(ω)122が、測定信号x(t)121
に直線的な歪を発生する。ノイズn(t)123は、電
力スペクトルドメインにおいて直線的に歪まされるが、
対数スペクトルドメインでは非直線的である。更に、エ
ンジン110は、x(ω、T)の統計学的表示、例え
ば、VQ107にアクセスすることに注意されたい。本
発明は、この情報を用いて、ノイズ及び歪を推定する。
作用は、次の一次テイラー級数拡張 E〔z〕=Q+E〔x〕+ log(1+1/b) を用いて、クリーンスピーチベクトルの平均値に対して
式1を拡張し、 Σz =diag(b/b+1))Σx diag(b/b+1))+diag(1/b+1)) ΣN diag(1/b+1)) 式2 を発生することにより、決定することができる。ここ
で、周波数及び時間に対する項の依存性は明瞭化のため
に落としてある。これは、歪の作用が信号対雑音比に依
存し、これは、次のように表すことができる。 b= exp(Q+E〔x〕−H−E〔n〕) 式3
統計学的情報の平均を直線的にシフトし、信号対雑音比
を減少し、そしてノイズの共変量がスピーチの共変量よ
り小さいので測定されたスピーチの共変量を減少するこ
とを示している。この分析に基づき、本発明は、上記し
たVTS及びPMCの公知方法を独特に結合して、ダー
ティスピーチの動的に変化する環境パラメータに適応す
る補償型スピーチ処理方法を可能にする。
償の目的でベクトルp(x)としてそれ自体で自然に表
すことができるという考え方を使用する。従って、全て
のスピーチは、トレーニングスピーチベクトルコードブ
ック(VQ)107により表される。加えて、クリーン
なトレーニングスピーチと、実際のダーティスピーチと
の間の差は、予想最大化(EM)プロセスを用いて決定
される。以下に述べるEMプロセスでは、予想段階と最
大化段階が繰り返し実行されて、勾配上昇中に最適な結
果に向かって収斂させる。記憶されたトレーニングスピ
ーチp(x)105は、数1のように表すことができ
る。
スピーチベクトルに対するコードブックを表し、そして
Pi は、対応するベクトルによりスピーチが発生された
以前の確率である。
に大きなものでない限り、スピーチの認識には適当でな
いが、健全なパラメータの推定及び補償のための優れた
表示である。これが真である理由は、健全なスピーチ処
理システムは、EMプロセスを用いて分布から推定でき
るある全体的なパラメータ的統計情報を推定するだけで
よいからである。
は、3つの主たる段階を含む。EMプロセスを用いる第
1段階310において、ノイズ及び(チャンネル)歪の
パラメータが決定され、これらパラメータがベクトルコ
ードブック107に送られたときに、コードブックは、
変換されたコードブックがダーティスピーチを最良に表
す見込みを最大にする。EMプロセスが収斂した後の第
2段階320において、推定された環境パラメータが与
えられると、コードブックベクトル107の変換を予想
する。この変換は、1組の修正ベクトルとして表すこと
ができる。
ルが、到来するダーティスピーチの特徴ベクトル128
に付与され、それらを、最小平均平方エラー(MMS
E)という意味で、VQ107に記憶されたクリーンベ
クトルに類似させる。1つの効果として、本発明の補償
プロセス300は、処理エンジン110とは独立してお
り、即ち補償プロセスは、ダーティ特徴ベクトルに対し
て動作して、ベクトルを修正し、環境におけるノイズ及
び歪により汚染されていないクリーンスピーチから導出
されたベクトルにそれらが密接に類似するようにする。
に示すように、EM段階は、環境を特定する3つのパラ
メータ{Q、H、Σn }を繰り返し決定する。第1段階
410は、予想段階である。{Q、H、Σn }の現在値
は、コードブック107の各ベクトルを、各々式1を用
いて予想された修正ベクトルV’i へとマップするのに
使用される。 V’i ← log (exp(Q+Vi )+ exp(H)) 式4 ここで、値E〔n〕は、Hの値に吸収されている。ノイ
ズに対するこの関係の第1導関数は、数2の通りであ
る。
である。
は、次いで、数3のように変換される以前のものにより
拡張される(420)。
により増大される(430)。このように、増大された
ダーティベクトルと、増大されたV’i コードワードを
直接比較することができる。完全に拡張されたベクトル
V’i は、数4で表される。
5の式を有する。
ベクトルは、次いで、ベクトルコードブックVQに記憶
することができる(440)。例えば、コードブックの
各エントリーは、音響環境の現在状態を反映する現在関
連する拡張された修正ベクトルを有することができる。
この拡張された修正ベクトルは、コードブックベクトル
と、対応するダーティスピーチベクトル128との間の
距離の−1/2倍を、ダーティベクトルzt がコードワ
ードベクトルvi で表される見込みとして使用できると
いう特性を有する。
の段階中に、到来するダーティベクトル128の1つ
と、(修正された)コードブックベクトルとの間の最良
の一致が決定され、そして最大化段階に必要な統計情報
が累積される。プロセスは、段階501において、変数
L、N、n、Q、A及びBを0に初期化することにより
始まる。図5に示すように、各到来ダーティベクトル1
28について、次の段階が実行される。先ず、段階50
2において、変換されたベクトルに最も類似する新たな
ベクトルコードブックのエントリーVQ(ze )を決定
する。クリーンベクトルに関連したコードブックの初期
修正ベクトルは、0にすることもできるし、推定するこ
ともできる点に注意されたい。このエントリーへのイン
デックスは、次のように表される。
(ze k )、〔z’t 、0〕|2
するベクトルとの間の平方距離(d(z’i ))は、段
階503において戻される。この距離、即ち選択された
コードブックベクトルとダーティベクトルとの間の統計
学的な差は、測定されたベクトルの見込みを次のように
決定するのに使用される。 l(zi ) ← 1/2 d(z’i ) 上記のように、これにより得られる見込みは、測定され
たダーティベクトルが実際にコードブックベクトルによ
り表されるその後の確率であることに注意されたい。次
いで、見込みl(zi )は、L=L+l(zi )のよう
に累積され(504)、残留するvi が段階505にお
いて決定される。段階506では、その残留物がガウス
分布でホワイト化される。
関数との積α←F(j(i))vを計算する(50
7)。この演算は、F(j(i))が対角マトリクスで
あるのでポイントごとの乗算を用いて行うことができ
る。これに続いて、平均の比を決定する(508)。但
し、ri =n/(n+1)及びr2 =1/(n+1)で
ある。ここで、nは、繰り返し中にそれまで使用された
測定されたベクトルの全数である。段階507で決定さ
れた積は、段階509で累積される。段階509の積と
残留物との間の差は、段階510において、次のように
累積される。 Qs ← ri Qs+r2 (V* i −・) 次いで、段階511において、ノイズの共変量が推定し
直される。最後に、段階512において、変数Aが次の
ように累積される。
Σn -1 F1 (j(i))) そして変数Bは、次のようにされる。 B ← r1 B+r2 Σn -1 F1 (j(i))
いで、最大化段階に使用される。この最大化は、数6の
線型方程式の組を解くことを含む。
タに指定された以前の共変量を表す。これにより得られ
た値は、次いで、環境パラメータの現在の推定値に加え
られる。EMプロセスが収斂した後に(これは見込みを
監視することにより決定できる)、所望のスピーチ処理
用途に基づいて最終的な2つの段階を行うことができ
る。第1段階は、EMプロセスからの環境の推定パラメ
ータが与えられたときにダーティスピーチの統計学的情
報を予想する。これは、EMプロセスの予想段階と同等
である。第2段階は、その予想された統計学的情報を使
用して、MMSE修正ファクタを推定する。
できる第1の用途は、スピーチ認識エンジンである。こ
こでは、何が言われたかを決定することが所望される。
この用途は、平易な古い電話サービス(POTS)の場
合よりもノイズ及び歪が大きくなる傾向のあるセルラー
電話ネットワークにわたって収集されたスピーチを認識
するのに有用である。又、この用途は、多数の異なる形
式のハードウェアシステム及び通信ラインを用いて全世
界中の環境においてスピーチを発生することのできるワ
ールドワイドウェブにわたって収集されたスピーチに使
用することもできる。
601は、デジタル化処理され(610)、ダーティ特
徴ベクトルの時間的シーケンス602を発生する。各ベ
クトルは、連続スピーチ信号のセグメントに見られる1
組の音響特徴を統計学的に表す。段階620において、
ダーティベクトルは、上記のようにクリーンな状態にさ
れ、「クリーン」ベクトル603を発生する。即ち、本
発明を使用し、環境がダーティベクトルに及ぼす影響を
取り去る。ここで処理されるべきスピーチ信号は、連続
的であることに注意されたい。スピーチの短いバースト
に対して動作するバッチ式のスピーチ処理とは異なり、
ここでは、補償プロセスは、フィルタとして振る舞う必
要がある。
素605を表す一連の考えられる統計学的パラメータに
対しクリーンなベクトル603を一致させる。この一致
は、音素シーケンスの多数の考えられる仮説を探査する
ビタビデコーダのような最適なサーチアルゴリズムを用
いて効率的に行うことができる。観察されたベクトルの
シーケンスに統計学的な意味で最も近い音素の仮説シー
ケンスが、発音されたスピーチとして選択される。
ここに述べる補償を使用すると、音声分類作業として背
景ノイズに対する健全さが高められる。図7において、
y軸701は、正しいスピーチと仮説するときの精度%
を示し、x軸702は、相対的なノイズレベル(SN
R)を示す。破線の曲線710は、補償されないスピー
チ認識の場合であり、そして実線の曲線720は、補償
されたスピーチ認識の場合である。明らかなように、オ
フィス環境について典型的である約25dBより低い全
てのSNRにおいて著しい改善が得られる。
て、話し手が誰であるかを決定することが望まれる。こ
こでは、未知の話し手のダーティスピーチ信号801が
処理されて、ベクトル810が抽出される。このベクト
ル810は、補償されて(820)、クリーンなベクト
ル803を発生する。このベクトル803は、既知の話
し手のモデル805に対して比較され、識別(ID)8
04が発生される。モデル805は、トレーニングセッ
ションの間に収集できる。
で推定された環境パラメータの値が与えられたときに、
ノイズのあるスピーチの統計学的情報が最初に予想され
る。次いで、その予想された統計学的情報が最終的な統
計学的情報へとマップされ、スピーチに対して必要な処
理が行われる。多数の考えられる技術を使用することが
できる。1つの技術においては、予想される統計学的情
報に対して平均値及び共変量が決定される。次いで、特
定の話し手により任意の発音が発せられた見込みを、演
算高調波球状度(AHS)又は最大見込み(ML)距離
として測定することができる。
り決定された見込みを使用する。この場合には、EMプ
ロセスの収斂後に、それ以上の計算は不要である。図9
に示すように、EMプロセスは、ML距離を使用するよ
りも良好な結果を与えることが実験により示唆される。
図9において、y軸901は、話し手を正しく識別する
精度%であり、そしてx軸は、SNRの異なるレベルを
示す。曲線910は、クリーンスピーチでトレーニング
されたモデルと、ML距離計測とを使用する補償されな
いスピーチの場合である。曲線920は、所与の測定さ
れたSNRにおける補償されたスピーチの場合である。
家庭やオフィスにおいて通常見られるSNRが25dB
未満の環境では、著しい改善が得られる。
明した。しかしながら、上記実施形態を変更しても、本
発明の効果の幾つか又は全部が達成され得ることは当業
者に明らかであろう。従って、このような変更は、全
て、本発明の範囲内の包含されるものとする。
の流れ線図である。
するプロセスを示す流れ線図である。
る。
る。
る。
である。
Claims (5)
- 【請求項1】 歪のある「ダーティ」信号と称するスピ
ーチ信号を処理するためのコンピュータ化された方法で
あって、歪のないスピーチ信号は、「クリーン」スピー
チ信号と称し、上記方法は、 クリーンスピーチ信号を表す第1ベクトルをベクトルコ
ードブックに記憶し、 ダーティスピーチ信号から第2ベクトルを決定し、 第2ベクトルから環境パラメータを推定し、 第1ベクトルを修正するために上記推定された環境パラ
メータに基づいて第3ベクトルを予想し、 第3ベクトルを第2ベクトルに適用して、修正されたベ
クトルを発生し、そして上記修正されたベクトルと第1
ベクトルとを比較して、上記修正されたベクトルに類似
した第1ベクトルを識別する、という段階を備えたこと
を特徴とする方法。 - 【請求項2】 特定の修正されたベクトルと、それに対
応する第1ベクトルとの間の距離を決定し、この距離
は、第1ベクトルが上記修正されたベクトルに類似する
見込みを表し、更に、特定の修正されたベクトルがそれ
に対応する第1ベクトルに類似する見込みを最大にする
段階を含む請求項1に記載の方法。 - 【請求項3】 上記比較段階は、統計学的な比較を使用
し、この統計学的な比較は、最小平均平方エラーに基づ
く請求項1に記載の方法。 - 【請求項4】 上記第1ベクトルは、クリーンスピーチ
の音素を表し、上記比較段階は、スピーチ認識を行うた
めにダーティスピーチの内容を決定する請求項1に記載
の方法。 - 【請求項5】 上記第1ベクトルは、既知の話し手のク
リーンスピーチのモデルを表し、上記比較段階は、ダー
ティスピーチ信号を発生する未知の話し手の認識を決定
する請求項1に記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/876,601 US5924065A (en) | 1997-06-16 | 1997-06-16 | Environmently compensated speech processing |
US08/876601 | 1997-06-16 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH1115491A true JPH1115491A (ja) | 1999-01-22 |
Family
ID=25368118
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10163354A Pending JPH1115491A (ja) | 1997-06-16 | 1998-06-11 | 環境的に補償されたスピーチ処理方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US5924065A (ja) |
EP (1) | EP0886263B1 (ja) |
JP (1) | JPH1115491A (ja) |
CA (1) | CA2239357A1 (ja) |
DE (1) | DE69831288T2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004302470A (ja) * | 2003-03-31 | 2004-10-28 | Microsoft Corp | 漸進的ベイズ学習を使用する雑音推定の方法 |
JP2005244968A (ja) * | 2004-02-24 | 2005-09-08 | Microsoft Corp | モバイル・デバイス上のマルチセンサによるスピーチ改良のための方法および装置 |
JP2009501940A (ja) * | 2005-06-28 | 2009-01-22 | マイクロソフト コーポレーション | 音声状態モデルを使用したマルチセンサ音声高品質化 |
JP2011022555A (ja) * | 2009-07-15 | 2011-02-03 | Toshiba Corp | 音声認識システム、方法及びプログラム |
Families Citing this family (54)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6038528A (en) * | 1996-07-17 | 2000-03-14 | T-Netix, Inc. | Robust speech processing with affine transform replicated data |
US6633842B1 (en) * | 1999-10-22 | 2003-10-14 | Texas Instruments Incorporated | Speech recognition front-end feature extraction for noisy speech |
JPH11126090A (ja) * | 1997-10-23 | 1999-05-11 | Pioneer Electron Corp | 音声認識方法及び音声認識装置並びに音声認識装置を動作させるためのプログラムが記録された記録媒体 |
US6466894B2 (en) * | 1998-06-18 | 2002-10-15 | Nec Corporation | Device, method, and medium for predicting a probability of an occurrence of a data |
JP2000259198A (ja) * | 1999-03-04 | 2000-09-22 | Sony Corp | パターン認識装置および方法、並びに提供媒体 |
US6658385B1 (en) * | 1999-03-12 | 2003-12-02 | Texas Instruments Incorporated | Method for transforming HMMs for speaker-independent recognition in a noisy environment |
DE10041456A1 (de) * | 2000-08-23 | 2002-03-07 | Philips Corp Intellectual Pty | Verfahren zum Steuern von Geräten mittels Sprachsignalen, insbesondere bei Kraftfahrzeugen |
JP3670217B2 (ja) * | 2000-09-06 | 2005-07-13 | 国立大学法人名古屋大学 | 雑音符号化装置、雑音復号装置、雑音符号化方法および雑音復号方法 |
JP3979562B2 (ja) | 2000-09-22 | 2007-09-19 | パイオニア株式会社 | 光ピックアップ装置 |
JP4169921B2 (ja) * | 2000-09-29 | 2008-10-22 | パイオニア株式会社 | 音声認識システム |
US7003455B1 (en) * | 2000-10-16 | 2006-02-21 | Microsoft Corporation | Method of noise reduction using correction and scaling vectors with partitioning of the acoustic space in the domain of noisy speech |
US6633839B2 (en) * | 2001-02-02 | 2003-10-14 | Motorola, Inc. | Method and apparatus for speech reconstruction in a distributed speech recognition system |
US7062433B2 (en) * | 2001-03-14 | 2006-06-13 | Texas Instruments Incorporated | Method of speech recognition with compensation for both channel distortion and background noise |
US7319954B2 (en) * | 2001-03-14 | 2008-01-15 | International Business Machines Corporation | Multi-channel codebook dependent compensation |
US6985858B2 (en) * | 2001-03-20 | 2006-01-10 | Microsoft Corporation | Method and apparatus for removing noise from feature vectors |
US6912497B2 (en) * | 2001-03-28 | 2005-06-28 | Texas Instruments Incorporated | Calibration of speech data acquisition path |
US7103547B2 (en) * | 2001-05-07 | 2006-09-05 | Texas Instruments Incorporated | Implementing a high accuracy continuous speech recognizer on a fixed-point processor |
US20030033143A1 (en) * | 2001-08-13 | 2003-02-13 | Hagai Aronowitz | Decreasing noise sensitivity in speech processing under adverse conditions |
US6959276B2 (en) * | 2001-09-27 | 2005-10-25 | Microsoft Corporation | Including the category of environmental noise when processing speech signals |
US7165028B2 (en) * | 2001-12-12 | 2007-01-16 | Texas Instruments Incorporated | Method of speech recognition resistant to convolutive distortion and additive distortion |
US7003458B2 (en) * | 2002-01-15 | 2006-02-21 | General Motors Corporation | Automated voice pattern filter |
KR100435441B1 (ko) * | 2002-03-18 | 2004-06-10 | 정희석 | 사용자 이동성을 고려한 화자 인식에서의 채널 불일치보상 장치 및 그 방법 |
US7346510B2 (en) * | 2002-03-19 | 2008-03-18 | Microsoft Corporation | Method of speech recognition using variables representing dynamic aspects of speech |
US7117148B2 (en) | 2002-04-05 | 2006-10-03 | Microsoft Corporation | Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization |
US7139703B2 (en) * | 2002-04-05 | 2006-11-21 | Microsoft Corporation | Method of iterative noise estimation in a recursive framework |
US7107210B2 (en) * | 2002-05-20 | 2006-09-12 | Microsoft Corporation | Method of noise reduction based on dynamic aspects of speech |
US7103540B2 (en) * | 2002-05-20 | 2006-09-05 | Microsoft Corporation | Method of pattern recognition using noise reduction uncertainty |
US7174292B2 (en) * | 2002-05-20 | 2007-02-06 | Microsoft Corporation | Method of determining uncertainty associated with acoustic distortion-based noise reduction |
JP3885002B2 (ja) * | 2002-06-28 | 2007-02-21 | キヤノン株式会社 | 情報処理装置およびその方法 |
USH2172H1 (en) * | 2002-07-02 | 2006-09-05 | The United States Of America As Represented By The Secretary Of The Air Force | Pitch-synchronous speech processing |
US7047047B2 (en) * | 2002-09-06 | 2006-05-16 | Microsoft Corporation | Non-linear observation model for removing noise from corrupted signals |
US6772119B2 (en) * | 2002-12-10 | 2004-08-03 | International Business Machines Corporation | Computationally efficient method and apparatus for speaker recognition |
US7769580B2 (en) * | 2002-12-23 | 2010-08-03 | Loquendo S.P.A. | Method of optimising the execution of a neural network in a speech recognition system through conditionally skipping a variable number of frames |
TWI223792B (en) * | 2003-04-04 | 2004-11-11 | Penpower Technology Ltd | Speech model training method applied in speech recognition |
US7596494B2 (en) * | 2003-11-26 | 2009-09-29 | Microsoft Corporation | Method and apparatus for high resolution speech reconstruction |
US7725314B2 (en) * | 2004-02-16 | 2010-05-25 | Microsoft Corporation | Method and apparatus for constructing a speech filter using estimates of clean speech and noise |
US20050256714A1 (en) * | 2004-03-29 | 2005-11-17 | Xiaodong Cui | Sequential variance adaptation for reducing signal mismatching |
DE102004017486A1 (de) * | 2004-04-08 | 2005-10-27 | Siemens Ag | Verfahren zur Geräuschreduktion bei einem Sprach-Eingangssignal |
US7454333B2 (en) * | 2004-09-13 | 2008-11-18 | Mitsubishi Electric Research Lab, Inc. | Separating multiple audio signals recorded as a single mixed signal |
EP1854095A1 (en) * | 2005-02-15 | 2007-11-14 | BBN Technologies Corp. | Speech analyzing system with adaptive noise codebook |
US8219391B2 (en) * | 2005-02-15 | 2012-07-10 | Raytheon Bbn Technologies Corp. | Speech analyzing system with speech codebook |
US20070129941A1 (en) * | 2005-12-01 | 2007-06-07 | Hitachi, Ltd. | Preprocessing system and method for reducing FRR in speaking recognition |
US20070129945A1 (en) * | 2005-12-06 | 2007-06-07 | Ma Changxue C | Voice quality control for high quality speech reconstruction |
JP4316583B2 (ja) | 2006-04-07 | 2009-08-19 | 株式会社東芝 | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム |
EP1926087A1 (de) * | 2006-11-27 | 2008-05-28 | Siemens Audiologische Technik GmbH | Anpassung einer Hörvorrichtung an ein Sprachsignal |
US8214215B2 (en) * | 2008-09-24 | 2012-07-03 | Microsoft Corporation | Phase sensitive model adaptation for noisy speech recognition |
US8600037B2 (en) * | 2011-06-03 | 2013-12-03 | Apple Inc. | Audio quality and double talk preservation in echo control for voice communications |
DE102012206313A1 (de) * | 2012-04-17 | 2013-10-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Konzept zum Erkennen eines akustischen Ereignisses in einer Audiosequenz |
US9466310B2 (en) * | 2013-12-20 | 2016-10-11 | Lenovo Enterprise Solutions (Singapore) Pte. Ltd. | Compensating for identifiable background content in a speech recognition device |
US10149047B2 (en) * | 2014-06-18 | 2018-12-04 | Cirrus Logic Inc. | Multi-aural MMSE analysis techniques for clarifying audio signals |
US9361899B2 (en) * | 2014-07-02 | 2016-06-07 | Nuance Communications, Inc. | System and method for compressed domain estimation of the signal to noise ratio of a coded speech signal |
WO2017111634A1 (en) * | 2015-12-22 | 2017-06-29 | Intel Corporation | Automatic tuning of speech recognition parameters |
US10720165B2 (en) * | 2017-01-23 | 2020-07-21 | Qualcomm Incorporated | Keyword voice authentication |
CN110297616B (zh) * | 2019-05-31 | 2023-06-02 | 百度在线网络技术(北京)有限公司 | 话术的生成方法、装置、设备以及存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3779351D1 (ja) * | 1986-03-28 | 1992-07-02 | American Telephone And Telegraph Co., New York, N.Y., Us | |
US5008941A (en) * | 1989-03-31 | 1991-04-16 | Kurzweil Applied Intelligence, Inc. | Method and apparatus for automatically updating estimates of undesirable components of the speech signal in a speech recognition system |
US5148489A (en) * | 1990-02-28 | 1992-09-15 | Sri International | Method for spectral estimation to improve noise robustness for speech recognition |
FR2696036B1 (fr) * | 1992-09-24 | 1994-10-14 | France Telecom | Procédé de mesure de ressemblance entre échantillons sonores et dispositif de mise en Óoeuvre de ce procédé. |
US5727124A (en) * | 1994-06-21 | 1998-03-10 | Lucent Technologies, Inc. | Method of and apparatus for signal recognition that compensates for mismatching |
US5598505A (en) * | 1994-09-30 | 1997-01-28 | Apple Computer, Inc. | Cepstral correction vector quantizer for speech recognition |
US5768474A (en) * | 1995-12-29 | 1998-06-16 | International Business Machines Corporation | Method and system for noise-robust speech processing with cochlea filters in an auditory model |
US5745872A (en) * | 1996-05-07 | 1998-04-28 | Texas Instruments Incorporated | Method and system for compensating speech signals using vector quantization codebook adaptation |
-
1997
- 1997-06-16 US US08/876,601 patent/US5924065A/en not_active Expired - Lifetime
-
1998
- 1998-06-02 CA CA002239357A patent/CA2239357A1/en not_active Abandoned
- 1998-06-05 EP EP98110330A patent/EP0886263B1/en not_active Expired - Lifetime
- 1998-06-05 DE DE69831288T patent/DE69831288T2/de not_active Expired - Lifetime
- 1998-06-11 JP JP10163354A patent/JPH1115491A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004302470A (ja) * | 2003-03-31 | 2004-10-28 | Microsoft Corp | 漸進的ベイズ学習を使用する雑音推定の方法 |
JP2005244968A (ja) * | 2004-02-24 | 2005-09-08 | Microsoft Corp | モバイル・デバイス上のマルチセンサによるスピーチ改良のための方法および装置 |
JP2009501940A (ja) * | 2005-06-28 | 2009-01-22 | マイクロソフト コーポレーション | 音声状態モデルを使用したマルチセンサ音声高品質化 |
JP2011022555A (ja) * | 2009-07-15 | 2011-02-03 | Toshiba Corp | 音声認識システム、方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
DE69831288D1 (de) | 2005-09-29 |
EP0886263A2 (en) | 1998-12-23 |
EP0886263B1 (en) | 2005-08-24 |
US5924065A (en) | 1999-07-13 |
CA2239357A1 (en) | 1998-12-16 |
DE69831288T2 (de) | 2006-06-08 |
EP0886263A3 (en) | 1999-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5924065A (en) | Environmently compensated speech processing | |
EP1993320B1 (en) | Reverberation removal device, reverberation removal method, reverberation removal program, and recording medium | |
Acero et al. | Robust speech recognition by normalization of the acoustic space. | |
EP0831461B1 (en) | Scheme for model adaptation in pattern recognition based on taylor expansion | |
JP3457431B2 (ja) | 信号識別方法 | |
Cui et al. | Noise robust speech recognition using feature compensation based on polynomial regression of utterance SNR | |
JP4586577B2 (ja) | 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム | |
US7571095B2 (en) | Method and apparatus for recognizing speech in a noisy environment | |
Stern et al. | Signal processing for robust speech recognition | |
JP2006087082A (ja) | 多感覚音声強調のための方法および装置 | |
EP1457968B1 (en) | Noise adaptation system of speech model, noise adaptation method, and noise adaptation program for speech recognition | |
JP2005249816A (ja) | 信号強調装置、方法及びプログラム、並びに音声認識装置、方法及びプログラム | |
Chowdhury et al. | Bayesian on-line spectral change point detection: a soft computing approach for on-line ASR | |
EP1794746A2 (en) | Method of training a robust speaker-independent speech recognition system with speaker-dependent expressions and robust speaker-dependent speech recognition system | |
JP4705414B2 (ja) | 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 | |
US7120580B2 (en) | Method and apparatus for recognizing speech in a noisy environment | |
GB2422237A (en) | Dynamic coefficients determined from temporally adjacent speech frames | |
JP2009276365A (ja) | 処理装置、音声認識装置、音声認識システム、音声認識方法 | |
Han et al. | Reverberation and noise robust feature compensation based on IMM | |
Hirsch | HMM adaptation for applications in telecommunication | |
US9875755B2 (en) | Voice enhancement device and voice enhancement method | |
Tashev et al. | Unified framework for single channel speech enhancement | |
JP4464797B2 (ja) | 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 | |
Vanajakshi et al. | Modified Wiener filter based speech restoration with autocorrelation of isolated Kannada word speech recognition | |
JP2003076393A (ja) | 騒音環境下における音声推定方法および音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050606 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050606 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070910 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20071210 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20071210 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20071220 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080707 |