JPH1115491A - 環境的に補償されたスピーチ処理方法 - Google Patents

環境的に補償されたスピーチ処理方法

Info

Publication number
JPH1115491A
JPH1115491A JP10163354A JP16335498A JPH1115491A JP H1115491 A JPH1115491 A JP H1115491A JP 10163354 A JP10163354 A JP 10163354A JP 16335498 A JP16335498 A JP 16335498A JP H1115491 A JPH1115491 A JP H1115491A
Authority
JP
Japan
Prior art keywords
vector
speech
dirty
speech signal
clean
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10163354A
Other languages
English (en)
Inventor
Brian S Eberman
エス エイバーマン ブライアン
Pedro J Moreno
ジェイ モレノー ペドロ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Digital Equipment Corp
Original Assignee
Digital Equipment Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital Equipment Corp filed Critical Digital Equipment Corp
Publication of JPH1115491A publication Critical patent/JPH1115491A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 スピーチ信号が発生されて伝達される音響環
境から導出したデータでデジタルスピーチ信号を補償す
る方法を提供する。 【解決手段】 スピーチ信号を処理するコンピュータ化
された方法において、クリーンスピーチ信号を表す第1
ベクトルがベクトルコードブックに記憶される。第2ベ
クトルは、ダーティスピーチ信号から決定される。第2
ベクトルからノイズ及び歪パラメータが推定される。第
3ベクトルは、その推定されたノイズ及び歪パラメータ
に基づいて予想される。第3ベクトルを用いて、第1ベ
クトルが修正される。次いで、第3ベクトルを第2ベク
トルに適用し、修正されたベクトルを発生することがで
きる。修正されたベクトルと第1ベクトルとを比較し、
修正されたベクトルに類似する第1ベクトルを識別する
ことができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、一般に、スピーチ
処理に係り、より詳細には、スピーチ信号が発生されて
伝達される音響環境から導出したデータでデジタル化さ
れたスピーチ信号を補償することに係る。
【0002】
【従来の技術】来る数年間に、スピーチは、コンピュー
タシステムと対話するための最も使用される入力方式の
1つになることが予想される。キーストローク、マウス
クリック及び目に見える身体の身振りに加えて、スピー
チは、ユーザがコンピュータ化システムと対話する方法
を改善することができる。処理されたスピーチは、我々
が何と言ったかを聞き分けそして我々が誰であるかも見
出すように認識することができる。スピーチ信号は、コ
ンピュータシステムへのアクセスを得そして音声コマン
ド及び情報を用いてシステムを動作するように益々利用
される。
【0003】スピーチ信号が「クリーン」であって、音
響的に素朴な環境で発生される場合には、良好な結果を
生じるための信号の処理作業は、比較的単純である。し
かしながら、我々は、システムと対話するための種々様
々な異なる環境、例えば、オフィスや、家庭や、道路際
の電話や、或いはこれについてはセルラー電話を携帯で
きるどこの場所でも、スピーチを使用するので、効率的
で健全なスピーチ処理を与えるためには、これらの環境
における音響的な相違を補償することが重要な問題とな
る。
【0004】一般に、2つの形式の作用がクリーンスピ
ーチを「ダーティ」にさせる。第1の作用は、スピーチ
信号自体の歪である。音響環境は、数えきれないほどの
多数の仕方で音声信号を歪ませる。信号は、予想不能に
遅延され、進まされ、複製されて、エコーを発生し、周
波数及び振幅を変化し、等々である。更に、異なる形式
の電話、マイクロホン及び通信ラインは、更に別の異な
る歪を導入し得る。
【0005】第2の汚染作用は「ノイズ」である。ノイ
ズは、元々のスピーチの部分ではない付加的な信号がス
ピーチ周波数スペクトルに生じることによるものであ
る。ノイズは、背後で話をしている他の人、オフィスの
装置、自動車、飛行機、風等により導入され得る。通信
チャンネルにおける熱的なノイズもスピーチ信号に付加
され得る。「ダーティ」スピーチを処理する問題は、歪
及びノイズが時間と共に動的に変化することにより更に
複雑になる。
【0006】一般に、効率的又は健全なスピーチ処理
は、次の段階を含む。第1段階では、デジタル化された
スピーチ信号が時間整列された部分(フレーム)に仕切
られ、この場合、直線的予想係数(LPC)「特徴」ベ
クトルにより音響的特徴を一般に表すことができる。第
2段階では、環境的音響データを使用して、ベクトルを
クリーンアップすることができる。即ち、ダーティスピ
ーチ信号を表すベクトルに処理を適用し、相当量のノイ
ズ及び歪が除去される。クリーンアップされたベクトル
は、統計学的な比較方法を使用して、クリーンな環境で
発生された同様にスピーチに厳密に類持される。次い
で、第3段階では、クリーンな状態にされた特徴ベクト
ルは、スピーチがいかに使用されようとしているかを決
定するスピーチ処理エンジンに送られる。典型的に、こ
の処理は、統計学的モデル又はニューラルネットワーク
を用いてスピーチ信号パターンを分析及び識別すること
に依存する。
【0007】別の解決策においては、特徴ベクトルがダ
ーティのままにされる。むしろ、スピーチを処理するの
に使用される予め記憶された統計学的モデル又はネット
ワークは、ダーティスピーチの特徴ベクトルの特性に類
似するように変更される。このように、クリーンスピー
チとダーティスピーチとの間、又はそれらの代表的な特
徴ベクトルの間の不一致を減少することができる。
【0008】データ、即ち特徴ベクトルではなく、プロ
セス(又はスピーチ処理エンジン)それ自体に補償を適
用することにより、最大化がスピーチ信号及び環境パラ
メータの両方に及ぶような一般化された最大見込みの問
題を解決するためのスピーチ分析を構成することができ
る。このような一般化されたプロセスは性能を改善する
が、計算という点で甚だしいものになる傾向がある。従
って、「ダーティ」スピーチ信号のリアルタイム処理を
必要とする公知の用途は、プロセスではなくて信号をコ
ンディショニングする傾向が強く、満足な結果をほとん
ど生じない。
【0009】補償型のスピーチ処理は、近年益々精巧に
なってきている。初期の処理の幾つかは、ケプストラム
平均正規化(CMN)及び相対的スペクトル(RAST
A)方法を使用している。これら方法は、同じ平均減算
方法の2つの変形をである。従って、その考え方は、到
来するスピーチフレームから、測定されたスピーチの推
定値を減算することである。古典的なCMNは、測定さ
れた全てのスピーチを表す平均値を各スピーチフレーム
から減算するが、RASTAは、平均値の「遅れ」推定
値を各フレームから減算する。CMN及びRASTAの
両方の方法は、チャンネル特性の相違を直接的に補償
し、改善された性能を生じる。両方の方法は、比較的簡
単な実施手段を使用するので、多くのスピーチ処理シス
テムに頻繁に使用される。
【0010】第2の種類の効率的な補償方法は、ステレ
オ記録に依存している。一方の記録は、スピーチ処理シ
ステムが既にトレーニングされたところの高性能マイク
ロホンで行われ、他方の記録は、システムに適応される
べきターゲットマイクロホンで行われる。この解決策
は、再トレーニングのためのスピーチ統計情報のブート
ストラップ推定値を与えるように使用できる。クリーン
及びダーティの両スピーチの同時記録をベースとするス
テレオ対方法は、この問題に対して非常に有用である。
【0011】確率的に最適なフィルタ(POF)方法で
は、ベクトルコードブック(VQ)が使用される。VQ
は、コードワード依存の多次元横断フィルタに組み合わ
されたクリーンスピーチのメル周波数ケプストラム係数
(MFCC)の分布を示す。このフィルタの目的は、時
間的にずらされたスピーチのフレーム間の時間的相関を
得ることである。POFは、予想されるスピーチと測定
されたスピーチとの間の最小平方エラー基準の最小化を
使用して各フレーム依存VQフィルタ(マトリクス)及
び各環境のパラメータを「学習」する。
【0012】POF方法と同様の別の既知の方法である
固定コードワード依存ケプストラム正規化(FCDC
N)も、クリーンスピーチのケプストラムベクトルの分
布に対するVQ表示を使用する。この方法は、同時に記
録されたスピーチに基づいてコードワード依存修正ベク
トルを計算する。この方法は、その効果として、クリー
ンスピーチからダーティスピーチへの変換のモデリング
を必要としない。しかしながら、この効果を得るため
に、ステレオ記録が必要とされる。一般に、これらのス
ピーチ補償方法は、ケプストラムベクトルに対する環境
の作用がステレオ記録を用いて直接的にモデリングされ
るので、環境について何らの仮定も行わない。
【0013】1つの方法であるコードワード依存ケプス
トラム正規化(CDCN)では、クリーンスピーチ信号
のケプストラムは、各ガウスをその平均及び共変量で表
すことのできるガウス分布の混合体を用いてモデリング
される。CDCN方法は、クリーンスピーチケプストラ
ムの分布に対する環境の作用を分析的にモデリングす
る。この方法の第1段階では、観察されるダーティケプ
ストラムベクトルの見込みを最大にするための環境パラ
メータ(ノイズ及び歪)の値が推定される。第2段階で
は、ダーティスピーチのケプストラムベクトルが与えら
れたときに、クリーンスピーチの観察されないケプスト
ラムベクトルを発見するために、最小平均平方推定(M
MSE)が適用される。
【0014】この方法は、通常、センテンスごとに即ち
バッチベースで機能し、それ故、環境パラメータを推定
するのに非常に長いスピーチサンプル(例えば、2、3
秒)を必要とする。バッチ処理により待ち時間が導入さ
れるので、この方法は、連続的なスピーチ信号のリアル
タイム処理にはあまり適していない。並列組合せ方法
(PMC)は、CDCN方法に使用されたものと同じ環
境モデルを仮定する。ノイズ及びチャンネル歪ベクトル
が完全に分かっていると仮定すれば、この方法は、隠れ
たマルコフモデル(HHM)の音響分布の平均ベクトル
及び共変量マトリクスを変換して、HHMをダーティス
ピーチのケプストラムの理想的な分布に類似させるよう
に試みる。
【0015】平均ベクトル及び共変量マトリクスを変換
するための多数の種々の技術が知られている。しかしな
がら、PMCのこれら全ての変形は、ノイズ及びチャン
ネル歪ベクトルを前もって知ることが必要である。推定
は、一般に、異なる近似を用いて前もって行われる。通
常、分離されたノイズのサンプルは、PMCのパラメー
タを充分に推定することが必要とされる。これらの方法
は、チャンネルの歪が測定されたスピーチ統計情報の平
均に影響し、そして特定の周波数における有効なSNR
が測定されるスピーチの共変量を制御することを示して
いる。
【0016】スピーチ補償のためのベクトルテイラー級
数(VST)方法を用いると、このことを利用して、ク
リーンスピーチの統計情報が与えられたときにダーティ
スピーチの統計情報を推定することができる。VTS方
法の精度は、テイラー級数近似の上位項のサイズに依存
する。上位項は、スピーチ統計情報の共変量のサイズに
より制御される。VTSでは、スピーチは、ガウス分布
の混合体を用いてモデリングされる。スピーチを混合体
としてモデリングすることにより、各個々のガウスの共
変量は、スピーチ全体の共変量より小さくなる。VTS
が機能するためには、最大化段階を解決するために混合
体のモデルが必要であると示すことができる。これは、
パラメータ推定のための充分な潤沢さの概念に関連して
いる。
【0017】
【発明が解決しようとする課題】要約すれば、既知の最
良の補償方法は、ガウス分布の混合体におけるクリーン
スピーチ特徴ベクトルの確率密度関数p(x)について
のそれらの表示をベースとする。これらの方法は、バッ
チモードで機能し、即ち処理を行う前に実質的な量の信
号を「聞く」必要がある。これらの方法は、通常、環境
パラメータが決定論的であり、それ故、確率密度関数で
は表されないと仮定する。最後に、これらの方法は、ノ
イズの共変量を推定するための容易な仕方を与えるもの
ではない。これは、常に収斂することが保証されない発
見的な方法により共変量を学習しなければならないこと
を意味する。
【0018】そこで、クリーンスピーチ信号を自然に表
すことのできるスピーチ処理システムを提供することが
要望される。更に、このシステムは、連続的なスピーチ
を、それが受け取られたときに、不当な遅延を伴うこと
なく処理できるように、フィルタとして機能しなければ
ならない。更に、このフィルタは、クリーンスピーチを
ターンさせる環境パラメータが時間と共にダーティ変化
するときにそれ自身を適応させねばならない。
【0019】
【課題を解決するための手段】本発明は、その広い形態
において、請求項1に記載するように、歪のないクリー
ンなスピーチ信号を基準として使用することにより、歪
のあるスピーチ信号を処理するためのコンピュータ化さ
れた方法に係る。環境ノイズ及び歪パラメータQ、H及
びΣn の推定値を使用して連続的なダーティスピーチ信
号を補償するためのコンピュータ化された方法が提供さ
れる。この方法において、クリーンスピーチ信号を表す
第1の特徴ベクトルがベクトルコードブックに記憶され
る。Q、H及びΣn によりパラメータ化されたノイズ及
び歪を含むダーティスピーチ信号に対して第2のベクト
ルが決定される。
【0020】ノイズ及び歪パラメータは、第2ベクトル
から推定される。推定されたパラメータを使用して、第
3のベクトルが推定される。第3のベクトルは、第2ベ
クトルに適用されて、修正されたベクトルを形成し、こ
の修正されたベクトルを第1ベクトルと統計学的に比較
して、その修正されたベクトルに最も類似する第1ベク
トルを識別することができる。好ましくは、第3のベク
トルは、ベクトルコードブックに記憶することができ
る。比較の間に、特定の修正されたベクトルと、それに
対応する第1ベクトルとの間の距離を決定することがで
きる。この距離は、第1ベクトルが上記修正されたベク
トルに類似する見込みを表す。更に、特定の修正された
ベクトルがそれに対応する第1ベクトルに類似する見込
みが最大にされる。
【0021】スピーチ認識システムにおいては、修正さ
れたベクトルを使用して、ダーティスピーチの発音内容
を決定し、スピーチ認識を行うことができる。話し手識
別システムにおいては、修正されたベクトルを使用し
て、ダーティスピーチ信号を発する未知の話し手の認識
を決定することができる。本発明の実施形態において
は、ノイズ及び歪パラメータが時間と共にダーティスピ
ーチを変化させるときに、第3ベクトルが動的に適応さ
れる。
【0022】
【発明の実施の形態】以下、添付図面を参照し、本発明
の好ましい実施形態を詳細に説明する。図1は、本発明
の好ましい実施形態による適応補償型スピーチ処理シス
テム100の概要を示す。トレーニング段階中に、クリ
ーンスピーチ信号101がマイクロホン(図示せず)に
より測定される。以下、クリーンスピーチとは、ノイズ
及び歪のないスピーチを意味する。
【0023】クリーンスピーチ101は、デジタル化さ
れ(102)、測定され(103)そして統計学的にモ
デリングされる(104)。クリーンスピーチ101を
表すモデリング統計情報p(x)105は、スピーチ処
理エンジン110により使用するためにベクトルコード
ブック(VQ)106のエントリーとしてメモリに記憶
される。トレーニング後に、システム100は、ダーテ
ィスピーチ信号を処理するのに使用できる。
【0024】この段階中に、スピーチ信号x(t)12
1は、上記トレーニング段階中に使用されたマイクロホ
ンに対して電力スペクトルQ(・)122を有するマイ
クロホンを用いて測定される。実際の使用中に存在する
環境条件により、スピーチx(t)121は、未知の加
算的な静的ノイズ及び未知の直線的なフィルタ作用、例
えば、歪n(t)123によりダーティ状態にされる。
これらの加算的な信号は、電力スペクトルH(ω)12
4をもつフィルタを通過するホワイトノイズとしてモデ
リングすることができる。
【0025】ノイズ及び歪がここで(125)加算され
ること、又は信号x(t)125がマイクロホンで測定
される前に加算されることは、構造的に同等であること
に注意されたい。いずれの場合にも、実世界の環境条件
は、ダーティスピーチ信号z(t)126を生じさせ
る。ダーティスピーチ信号126は、デジタル信号プロ
セッサ(DSP)200により処理される。
【0026】図2は、DSP200を詳細に示す。DS
P200は、ダーティ信号z(t)126の時間整列さ
れた部分を選択し(210)、そしてその部分に良く知
られた窓関数、例えば、ハミング窓を乗算する。段階2
30において、窓処理された部分220に高速フーリエ
変換(FFT)が適用され、「フレーム」231が形成
される。好ましい実施形態では、選択されたデジタル化
部分は、410個のサンプルを含み、これに410ポイ
ントのハミング窓が適用されて、512ポイントのFF
Tフレーム231が形成される。
【0027】次いで、段階240において、FFT結果
の平方の大きさを得ることにより、フレーム231に対
する周波数電力スペクトル統計情報が決定される。FF
T項の半分は、冗長なものであるから、落とすことがで
き、256ポイントの電力スペクトル推定値が残され
る。段階250において、スペクトル推定値は、これに
メル周波数の回転マトリクスを乗算することによりメル
周波数ドメインへと回転される。段階260は、回転さ
れた推定値の対数をとり、各フレーム231に対する特
徴ベクトル表示261が得られる。
【0028】段階270の更に別の考えられる処理は、
メル周波数の対数スペクトルに離散的コサイン変換(D
CT)を適用してメルケプストラムを決定することを含
む。メル周波数変換は任意であり、これを伴わないDC
Tの結果は、単にケプストラムと称する。処理中に、窓
関数は、測定されたダーティ信号z(t)126に沿っ
て移動する。DSPの段階200は、ハミング窓の各新
たな位置において信号に適用される。その正味の結果
は、特徴ベクトルz(ω、T)128のシーケンスであ
る。このベクトル128は、図1のエンジン110によ
り処理することができる。このベクトル128は、VQ
107のエントリーと統計学的に比較され、結果199
が得られる。
【0029】ノイズ及びチャンネル歪は、ベクトル12
8に次のように作用することが示される。 z(ω、T)=log (exp(Q(ω)+x(ω、T))+ exp(H(ω)+n(ω、T)) 式1 但し、x(ω、T)は、ノイズ及びチャンネル歪を伴わ
ずに測定された基礎となるクリーンベクトルであり、そ
してn(ω、T)は、ノイズ及び歪のみが存在した場合
の統計情報である。
【0030】ノイズのない状態では、チャンネルの電力
スペクトルQ(ω)122が、測定信号x(t)121
に直線的な歪を発生する。ノイズn(t)123は、電
力スペクトルドメインにおいて直線的に歪まされるが、
対数スペクトルドメインでは非直線的である。更に、エ
ンジン110は、x(ω、T)の統計学的表示、例え
ば、VQ107にアクセスすることに注意されたい。本
発明は、この情報を用いて、ノイズ及び歪を推定する。
【0031】スピーチ統計情報に対するノイズ及び歪の
作用は、次の一次テイラー級数拡張 E〔z〕=Q+E〔x〕+ log(1+1/b) を用いて、クリーンスピーチベクトルの平均値に対して
式1を拡張し、 Σz =diag(b/b+1))Σx diag(b/b+1))+diag(1/b+1)) ΣN diag(1/b+1)) 式2 を発生することにより、決定することができる。ここ
で、周波数及び時間に対する項の依存性は明瞭化のため
に落としてある。これは、歪の作用が信号対雑音比に依
存し、これは、次のように表すことができる。 b= exp(Q+E〔x〕−H−E〔n〕) 式3
【0032】式2及び3は、チャンネルが、測定された
統計学的情報の平均を直線的にシフトし、信号対雑音比
を減少し、そしてノイズの共変量がスピーチの共変量よ
り小さいので測定されたスピーチの共変量を減少するこ
とを示している。この分析に基づき、本発明は、上記し
たVTS及びPMCの公知方法を独特に結合して、ダー
ティスピーチの動的に変化する環境パラメータに適応す
る補償型スピーチ処理方法を可能にする。
【0033】本発明は、トレーニングスピーチを環境補
償の目的でベクトルp(x)としてそれ自体で自然に表
すことができるという考え方を使用する。従って、全て
のスピーチは、トレーニングスピーチベクトルコードブ
ック(VQ)107により表される。加えて、クリーン
なトレーニングスピーチと、実際のダーティスピーチと
の間の差は、予想最大化(EM)プロセスを用いて決定
される。以下に述べるEMプロセスでは、予想段階と最
大化段階が繰り返し実行されて、勾配上昇中に最適な結
果に向かって収斂させる。記憶されたトレーニングスピ
ーチp(x)105は、数1のように表すことができ
る。
【0034】
【数1】
【0035】但し、集合{Vi }は、全ての考えられる
スピーチベクトルに対するコードブックを表し、そして
i は、対応するベクトルによりスピーチが発生された
以前の確率である。
【0036】この表示は、コードブックのサイズが非常
に大きなものでない限り、スピーチの認識には適当でな
いが、健全なパラメータの推定及び補償のための優れた
表示である。これが真である理由は、健全なスピーチ処
理システムは、EMプロセスを用いて分布から推定でき
るある全体的なパラメータ的統計情報を推定するだけで
よいからである。
【0037】図3に示すように、補償プロセス300
は、3つの主たる段階を含む。EMプロセスを用いる第
1段階310において、ノイズ及び(チャンネル)歪の
パラメータが決定され、これらパラメータがベクトルコ
ードブック107に送られたときに、コードブックは、
変換されたコードブックがダーティスピーチを最良に表
す見込みを最大にする。EMプロセスが収斂した後の第
2段階320において、推定された環境パラメータが与
えられると、コードブックベクトル107の変換を予想
する。この変換は、1組の修正ベクトルとして表すこと
ができる。
【0038】第3段階330の間に、修正されたベクト
ルが、到来するダーティスピーチの特徴ベクトル128
に付与され、それらを、最小平均平方エラー(MMS
E)という意味で、VQ107に記憶されたクリーンベ
クトルに類似させる。1つの効果として、本発明の補償
プロセス300は、処理エンジン110とは独立してお
り、即ち補償プロセスは、ダーティ特徴ベクトルに対し
て動作して、ベクトルを修正し、環境におけるノイズ及
び歪により汚染されていないクリーンスピーチから導出
されたベクトルにそれらが密接に類似するようにする。
【0039】これら段階の細部を詳細に説明する。図4
に示すように、EM段階は、環境を特定する3つのパラ
メータ{Q、H、Σn }を繰り返し決定する。第1段階
410は、予想段階である。{Q、H、Σn }の現在値
は、コードブック107の各ベクトルを、各々式1を用
いて予想された修正ベクトルV’i へとマップするのに
使用される。 V’i ← log (exp(Q+Vi )+ exp(H)) 式4 ここで、値E〔n〕は、Hの値に吸収されている。ノイ
ズに対するこの関係の第1導関数は、数2の通りであ
る。
【0040】
【数2】
【0041】但し、δ(i−j)は、クロンカーデルタ
である。
【0042】各予想されたコードワードベクトルV’i
は、次いで、数3のように変換される以前のものにより
拡張される(420)。
【0043】
【数3】
【0044】又、各ダーティスピーチベクトルは、ゼロ
により増大される(430)。このように、増大された
ダーティベクトルと、増大されたV’i コードワードを
直接比較することができる。完全に拡張されたベクトル
V’i は、数4で表される。
【0045】
【数4】
【0046】そして増大されたダーティベクトルは、数
5の式を有する。
【0047】
【数5】
【0048】これにより得られる1組の拡張された修正
ベクトルは、次いで、ベクトルコードブックVQに記憶
することができる(440)。例えば、コードブックの
各エントリーは、音響環境の現在状態を反映する現在関
連する拡張された修正ベクトルを有することができる。
この拡張された修正ベクトルは、コードブックベクトル
と、対応するダーティスピーチベクトル128との間の
距離の−1/2倍を、ダーティベクトルzt がコードワ
ードベクトルvi で表される見込みとして使用できると
いう特性を有する。
【0049】図5は、予想段階500を詳細に示す。こ
の段階中に、到来するダーティベクトル128の1つ
と、(修正された)コードブックベクトルとの間の最良
の一致が決定され、そして最大化段階に必要な統計情報
が累積される。プロセスは、段階501において、変数
L、N、n、Q、A及びBを0に初期化することにより
始まる。図5に示すように、各到来ダーティベクトル1
28について、次の段階が実行される。先ず、段階50
2において、変換されたベクトルに最も類似する新たな
ベクトルコードブックのエントリーVQ(ze )を決定
する。クリーンベクトルに関連したコードブックの初期
修正ベクトルは、0にすることもできるし、推定するこ
ともできる点に注意されたい。このエントリーへのイン
デックスは、次のように表される。
【0050】j(i)− arg min〔k〕|VQ
(ze k )、〔z’t 、0〕|2
【0051】更に、最良のコードブックベクトルと到来
するベクトルとの間の平方距離(d(z’i ))は、段
階503において戻される。この距離、即ち選択された
コードブックベクトルとダーティベクトルとの間の統計
学的な差は、測定されたベクトルの見込みを次のように
決定するのに使用される。 l(zi ) ← 1/2 d(z’i ) 上記のように、これにより得られる見込みは、測定され
たダーティベクトルが実際にコードブックベクトルによ
り表されるその後の確率であることに注意されたい。次
いで、見込みl(zi )は、L=L+l(zi )のよう
に累積され(504)、残留するvi が段階505にお
いて決定される。段階506では、その残留物がガウス
分布でホワイト化される。
【0052】次いで、残留物と、ノイズに対する第1導
関数との積α←F(j(i))vを計算する(50
7)。この演算は、F(j(i))が対角マトリクスで
あるのでポイントごとの乗算を用いて行うことができ
る。これに続いて、平均の比を決定する(508)。但
し、ri =n/(n+1)及びr2 =1/(n+1)で
ある。ここで、nは、繰り返し中にそれまで使用された
測定されたベクトルの全数である。段階507で決定さ
れた積は、段階509で累積される。段階509の積と
残留物との間の差は、段階510において、次のように
累積される。 Qs ← ri Qs+r2 (V* i −・) 次いで、段階511において、ノイズの共変量が推定し
直される。最後に、段階512において、変数Aが次の
ように累積される。
【0053】A ← r1 A+r2 (F1 (j(i) T
Σn -11 (j(i))) そして変数Bは、次のようにされる。 B ← r1 B+r2 Σn -11 (j(i))
【0054】現在推定繰り返しの累積された変数は、次
いで、最大化段階に使用される。この最大化は、数6の
線型方程式の組を解くことを含む。
【0055】
【数6】
【0056】但し、ΣQ 及びΣN は、Q及びNパラメー
タに指定された以前の共変量を表す。これにより得られ
た値は、次いで、環境パラメータの現在の推定値に加え
られる。EMプロセスが収斂した後に(これは見込みを
監視することにより決定できる)、所望のスピーチ処理
用途に基づいて最終的な2つの段階を行うことができ
る。第1段階は、EMプロセスからの環境の推定パラメ
ータが与えられたときにダーティスピーチの統計学的情
報を予想する。これは、EMプロセスの予想段階と同等
である。第2段階は、その予想された統計学的情報を使
用して、MMSE修正ファクタを推定する。
【0057】スピーチ認識 図6に示すように、環境的に補償されたスピーチを使用
できる第1の用途は、スピーチ認識エンジンである。こ
こでは、何が言われたかを決定することが所望される。
この用途は、平易な古い電話サービス(POTS)の場
合よりもノイズ及び歪が大きくなる傾向のあるセルラー
電話ネットワークにわたって収集されたスピーチを認識
するのに有用である。又、この用途は、多数の異なる形
式のハードウェアシステム及び通信ラインを用いて全世
界中の環境においてスピーチを発生することのできるワ
ールドワイドウェブにわたって収集されたスピーチに使
用することもできる。
【0058】図6に示すように、ダーティスピーチ信号
601は、デジタル化処理され(610)、ダーティ特
徴ベクトルの時間的シーケンス602を発生する。各ベ
クトルは、連続スピーチ信号のセグメントに見られる1
組の音響特徴を統計学的に表す。段階620において、
ダーティベクトルは、上記のようにクリーンな状態にさ
れ、「クリーン」ベクトル603を発生する。即ち、本
発明を使用し、環境がダーティベクトルに及ぼす影響を
取り去る。ここで処理されるべきスピーチ信号は、連続
的であることに注意されたい。スピーチの短いバースト
に対して動作するバッチ式のスピーチ処理とは異なり、
ここでは、補償プロセスは、フィルタとして振る舞う必
要がある。
【0059】スピーチ認識エンジン630は、既知の音
素605を表す一連の考えられる統計学的パラメータに
対しクリーンなベクトル603を一致させる。この一致
は、音素シーケンスの多数の考えられる仮説を探査する
ビタビデコーダのような最適なサーチアルゴリズムを用
いて効率的に行うことができる。観察されたベクトルの
シーケンスに統計学的な意味で最も近い音素の仮説シー
ケンスが、発音されたスピーチとして選択される。
【0060】図7に示すように、スピーチ認識について
ここに述べる補償を使用すると、音声分類作業として背
景ノイズに対する健全さが高められる。図7において、
y軸701は、正しいスピーチと仮説するときの精度%
を示し、x軸702は、相対的なノイズレベル(SN
R)を示す。破線の曲線710は、補償されないスピー
チ認識の場合であり、そして実線の曲線720は、補償
されたスピーチ認識の場合である。明らかなように、オ
フィス環境について典型的である約25dBより低い全
てのSNRにおいて著しい改善が得られる。
【0061】話し手の確認 図8に示す用途では、話し手が何を話すかとは独立し
て、話し手が誰であるかを決定することが望まれる。こ
こでは、未知の話し手のダーティスピーチ信号801が
処理されて、ベクトル810が抽出される。このベクト
ル810は、補償されて(820)、クリーンなベクト
ル803を発生する。このベクトル803は、既知の話
し手のモデル805に対して比較され、識別(ID)8
04が発生される。モデル805は、トレーニングセッ
ションの間に収集できる。
【0062】ここでも、上記と同様に、予想最大化段階
で推定された環境パラメータの値が与えられたときに、
ノイズのあるスピーチの統計学的情報が最初に予想され
る。次いで、その予想された統計学的情報が最終的な統
計学的情報へとマップされ、スピーチに対して必要な処
理が行われる。多数の考えられる技術を使用することが
できる。1つの技術においては、予想される統計学的情
報に対して平均値及び共変量が決定される。次いで、特
定の話し手により任意の発音が発せられた見込みを、演
算高調波球状度(AHS)又は最大見込み(ML)距離
として測定することができる。
【0063】別の考えられる技術は、EMプロセスによ
り決定された見込みを使用する。この場合には、EMプ
ロセスの収斂後に、それ以上の計算は不要である。図9
に示すように、EMプロセスは、ML距離を使用するよ
りも良好な結果を与えることが実験により示唆される。
図9において、y軸901は、話し手を正しく識別する
精度%であり、そしてx軸は、SNRの異なるレベルを
示す。曲線910は、クリーンスピーチでトレーニング
されたモデルと、ML距離計測とを使用する補償されな
いスピーチの場合である。曲線920は、所与の測定さ
れたSNRにおける補償されたスピーチの場合である。
家庭やオフィスにおいて通常見られるSNRが25dB
未満の環境では、著しい改善が得られる。
【0064】以上、本発明の特定の実施形態を詳細に説
明した。しかしながら、上記実施形態を変更しても、本
発明の効果の幾つか又は全部が達成され得ることは当業
者に明らかであろう。従って、このような変更は、全
て、本発明の範囲内の包含されるものとする。
【図面の簡単な説明】
【図1】本発明の実施形態によるスピーチ処理システム
の流れ線図である。
【図2】連続的なスピーチ信号から特徴ベクトルを抽出
するプロセスを示す流れ線図である。
【図3】推定値最大化プロセスの流れ線図である。
【図4】ベクトルを予想するための流れ線図である。
【図5】ベクトル間の差を決定するための流れ線図であ
る。
【図6】スピーチを認識するプロセスの流れ線図であ
る。
【図7】スピーチ認識方法の精度を比較するグラフであ
る。
【図8】話し手を確認するプロセスの流れ線図である。
【図9】話し手を確認する方法の精度を比較するグラフ
である。
【符号の説明】
100 適応補償型スピーチ処理システム 101 クリーンスピーチ 102 デジタル化 103 測定 104 モデリング 106 ベクトルコードブック 110 スピーチ処理エンジン 121 スピーチ信号 122 電力スペクトル 123 歪 124 電力スペクトル 126 ダーティスピーチ信号 200 デジタル信号プロセッサ 231 フレーム
フロントページの続き (72)発明者 ペドロ ジェイ モレノー アメリカ合衆国 マサチューセッツ州 02139ケンブリッジ フランクリン スト リート 345−505

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 歪のある「ダーティ」信号と称するスピ
    ーチ信号を処理するためのコンピュータ化された方法で
    あって、歪のないスピーチ信号は、「クリーン」スピー
    チ信号と称し、上記方法は、 クリーンスピーチ信号を表す第1ベクトルをベクトルコ
    ードブックに記憶し、 ダーティスピーチ信号から第2ベクトルを決定し、 第2ベクトルから環境パラメータを推定し、 第1ベクトルを修正するために上記推定された環境パラ
    メータに基づいて第3ベクトルを予想し、 第3ベクトルを第2ベクトルに適用して、修正されたベ
    クトルを発生し、そして上記修正されたベクトルと第1
    ベクトルとを比較して、上記修正されたベクトルに類似
    した第1ベクトルを識別する、という段階を備えたこと
    を特徴とする方法。
  2. 【請求項2】 特定の修正されたベクトルと、それに対
    応する第1ベクトルとの間の距離を決定し、この距離
    は、第1ベクトルが上記修正されたベクトルに類似する
    見込みを表し、更に、特定の修正されたベクトルがそれ
    に対応する第1ベクトルに類似する見込みを最大にする
    段階を含む請求項1に記載の方法。
  3. 【請求項3】 上記比較段階は、統計学的な比較を使用
    し、この統計学的な比較は、最小平均平方エラーに基づ
    く請求項1に記載の方法。
  4. 【請求項4】 上記第1ベクトルは、クリーンスピーチ
    の音素を表し、上記比較段階は、スピーチ認識を行うた
    めにダーティスピーチの内容を決定する請求項1に記載
    の方法。
  5. 【請求項5】 上記第1ベクトルは、既知の話し手のク
    リーンスピーチのモデルを表し、上記比較段階は、ダー
    ティスピーチ信号を発生する未知の話し手の認識を決定
    する請求項1に記載の方法。
JP10163354A 1997-06-16 1998-06-11 環境的に補償されたスピーチ処理方法 Pending JPH1115491A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/876,601 US5924065A (en) 1997-06-16 1997-06-16 Environmently compensated speech processing
US08/876601 1997-06-16

Publications (1)

Publication Number Publication Date
JPH1115491A true JPH1115491A (ja) 1999-01-22

Family

ID=25368118

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10163354A Pending JPH1115491A (ja) 1997-06-16 1998-06-11 環境的に補償されたスピーチ処理方法

Country Status (5)

Country Link
US (1) US5924065A (ja)
EP (1) EP0886263B1 (ja)
JP (1) JPH1115491A (ja)
CA (1) CA2239357A1 (ja)
DE (1) DE69831288T2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004302470A (ja) * 2003-03-31 2004-10-28 Microsoft Corp 漸進的ベイズ学習を使用する雑音推定の方法
JP2005244968A (ja) * 2004-02-24 2005-09-08 Microsoft Corp モバイル・デバイス上のマルチセンサによるスピーチ改良のための方法および装置
JP2009501940A (ja) * 2005-06-28 2009-01-22 マイクロソフト コーポレーション 音声状態モデルを使用したマルチセンサ音声高品質化
JP2011022555A (ja) * 2009-07-15 2011-02-03 Toshiba Corp 音声認識システム、方法及びプログラム

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6038528A (en) * 1996-07-17 2000-03-14 T-Netix, Inc. Robust speech processing with affine transform replicated data
US6633842B1 (en) * 1999-10-22 2003-10-14 Texas Instruments Incorporated Speech recognition front-end feature extraction for noisy speech
JPH11126090A (ja) * 1997-10-23 1999-05-11 Pioneer Electron Corp 音声認識方法及び音声認識装置並びに音声認識装置を動作させるためのプログラムが記録された記録媒体
US6466894B2 (en) * 1998-06-18 2002-10-15 Nec Corporation Device, method, and medium for predicting a probability of an occurrence of a data
JP2000259198A (ja) * 1999-03-04 2000-09-22 Sony Corp パターン認識装置および方法、並びに提供媒体
US6658385B1 (en) * 1999-03-12 2003-12-02 Texas Instruments Incorporated Method for transforming HMMs for speaker-independent recognition in a noisy environment
DE10041456A1 (de) * 2000-08-23 2002-03-07 Philips Corp Intellectual Pty Verfahren zum Steuern von Geräten mittels Sprachsignalen, insbesondere bei Kraftfahrzeugen
JP3670217B2 (ja) * 2000-09-06 2005-07-13 国立大学法人名古屋大学 雑音符号化装置、雑音復号装置、雑音符号化方法および雑音復号方法
JP3979562B2 (ja) 2000-09-22 2007-09-19 パイオニア株式会社 光ピックアップ装置
JP4169921B2 (ja) * 2000-09-29 2008-10-22 パイオニア株式会社 音声認識システム
US7003455B1 (en) * 2000-10-16 2006-02-21 Microsoft Corporation Method of noise reduction using correction and scaling vectors with partitioning of the acoustic space in the domain of noisy speech
US6633839B2 (en) * 2001-02-02 2003-10-14 Motorola, Inc. Method and apparatus for speech reconstruction in a distributed speech recognition system
US7062433B2 (en) * 2001-03-14 2006-06-13 Texas Instruments Incorporated Method of speech recognition with compensation for both channel distortion and background noise
US7319954B2 (en) * 2001-03-14 2008-01-15 International Business Machines Corporation Multi-channel codebook dependent compensation
US6985858B2 (en) * 2001-03-20 2006-01-10 Microsoft Corporation Method and apparatus for removing noise from feature vectors
US6912497B2 (en) * 2001-03-28 2005-06-28 Texas Instruments Incorporated Calibration of speech data acquisition path
US7103547B2 (en) * 2001-05-07 2006-09-05 Texas Instruments Incorporated Implementing a high accuracy continuous speech recognizer on a fixed-point processor
US20030033143A1 (en) * 2001-08-13 2003-02-13 Hagai Aronowitz Decreasing noise sensitivity in speech processing under adverse conditions
US6959276B2 (en) * 2001-09-27 2005-10-25 Microsoft Corporation Including the category of environmental noise when processing speech signals
US7165028B2 (en) * 2001-12-12 2007-01-16 Texas Instruments Incorporated Method of speech recognition resistant to convolutive distortion and additive distortion
US7003458B2 (en) * 2002-01-15 2006-02-21 General Motors Corporation Automated voice pattern filter
KR100435441B1 (ko) * 2002-03-18 2004-06-10 정희석 사용자 이동성을 고려한 화자 인식에서의 채널 불일치보상 장치 및 그 방법
US7346510B2 (en) * 2002-03-19 2008-03-18 Microsoft Corporation Method of speech recognition using variables representing dynamic aspects of speech
US7117148B2 (en) 2002-04-05 2006-10-03 Microsoft Corporation Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization
US7139703B2 (en) * 2002-04-05 2006-11-21 Microsoft Corporation Method of iterative noise estimation in a recursive framework
US7107210B2 (en) * 2002-05-20 2006-09-12 Microsoft Corporation Method of noise reduction based on dynamic aspects of speech
US7103540B2 (en) * 2002-05-20 2006-09-05 Microsoft Corporation Method of pattern recognition using noise reduction uncertainty
US7174292B2 (en) * 2002-05-20 2007-02-06 Microsoft Corporation Method of determining uncertainty associated with acoustic distortion-based noise reduction
JP3885002B2 (ja) * 2002-06-28 2007-02-21 キヤノン株式会社 情報処理装置およびその方法
USH2172H1 (en) * 2002-07-02 2006-09-05 The United States Of America As Represented By The Secretary Of The Air Force Pitch-synchronous speech processing
US7047047B2 (en) * 2002-09-06 2006-05-16 Microsoft Corporation Non-linear observation model for removing noise from corrupted signals
US6772119B2 (en) * 2002-12-10 2004-08-03 International Business Machines Corporation Computationally efficient method and apparatus for speaker recognition
US7769580B2 (en) * 2002-12-23 2010-08-03 Loquendo S.P.A. Method of optimising the execution of a neural network in a speech recognition system through conditionally skipping a variable number of frames
TWI223792B (en) * 2003-04-04 2004-11-11 Penpower Technology Ltd Speech model training method applied in speech recognition
US7596494B2 (en) * 2003-11-26 2009-09-29 Microsoft Corporation Method and apparatus for high resolution speech reconstruction
US7725314B2 (en) * 2004-02-16 2010-05-25 Microsoft Corporation Method and apparatus for constructing a speech filter using estimates of clean speech and noise
US20050256714A1 (en) * 2004-03-29 2005-11-17 Xiaodong Cui Sequential variance adaptation for reducing signal mismatching
DE102004017486A1 (de) * 2004-04-08 2005-10-27 Siemens Ag Verfahren zur Geräuschreduktion bei einem Sprach-Eingangssignal
US7454333B2 (en) * 2004-09-13 2008-11-18 Mitsubishi Electric Research Lab, Inc. Separating multiple audio signals recorded as a single mixed signal
EP1854095A1 (en) * 2005-02-15 2007-11-14 BBN Technologies Corp. Speech analyzing system with adaptive noise codebook
US8219391B2 (en) * 2005-02-15 2012-07-10 Raytheon Bbn Technologies Corp. Speech analyzing system with speech codebook
US20070129941A1 (en) * 2005-12-01 2007-06-07 Hitachi, Ltd. Preprocessing system and method for reducing FRR in speaking recognition
US20070129945A1 (en) * 2005-12-06 2007-06-07 Ma Changxue C Voice quality control for high quality speech reconstruction
JP4316583B2 (ja) 2006-04-07 2009-08-19 株式会社東芝 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
EP1926087A1 (de) * 2006-11-27 2008-05-28 Siemens Audiologische Technik GmbH Anpassung einer Hörvorrichtung an ein Sprachsignal
US8214215B2 (en) * 2008-09-24 2012-07-03 Microsoft Corporation Phase sensitive model adaptation for noisy speech recognition
US8600037B2 (en) * 2011-06-03 2013-12-03 Apple Inc. Audio quality and double talk preservation in echo control for voice communications
DE102012206313A1 (de) * 2012-04-17 2013-10-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Konzept zum Erkennen eines akustischen Ereignisses in einer Audiosequenz
US9466310B2 (en) * 2013-12-20 2016-10-11 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Compensating for identifiable background content in a speech recognition device
US10149047B2 (en) * 2014-06-18 2018-12-04 Cirrus Logic Inc. Multi-aural MMSE analysis techniques for clarifying audio signals
US9361899B2 (en) * 2014-07-02 2016-06-07 Nuance Communications, Inc. System and method for compressed domain estimation of the signal to noise ratio of a coded speech signal
WO2017111634A1 (en) * 2015-12-22 2017-06-29 Intel Corporation Automatic tuning of speech recognition parameters
US10720165B2 (en) * 2017-01-23 2020-07-21 Qualcomm Incorporated Keyword voice authentication
CN110297616B (zh) * 2019-05-31 2023-06-02 百度在线网络技术(北京)有限公司 话术的生成方法、装置、设备以及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3779351D1 (ja) * 1986-03-28 1992-07-02 American Telephone And Telegraph Co., New York, N.Y., Us
US5008941A (en) * 1989-03-31 1991-04-16 Kurzweil Applied Intelligence, Inc. Method and apparatus for automatically updating estimates of undesirable components of the speech signal in a speech recognition system
US5148489A (en) * 1990-02-28 1992-09-15 Sri International Method for spectral estimation to improve noise robustness for speech recognition
FR2696036B1 (fr) * 1992-09-24 1994-10-14 France Telecom Procédé de mesure de ressemblance entre échantillons sonores et dispositif de mise en Óoeuvre de ce procédé.
US5727124A (en) * 1994-06-21 1998-03-10 Lucent Technologies, Inc. Method of and apparatus for signal recognition that compensates for mismatching
US5598505A (en) * 1994-09-30 1997-01-28 Apple Computer, Inc. Cepstral correction vector quantizer for speech recognition
US5768474A (en) * 1995-12-29 1998-06-16 International Business Machines Corporation Method and system for noise-robust speech processing with cochlea filters in an auditory model
US5745872A (en) * 1996-05-07 1998-04-28 Texas Instruments Incorporated Method and system for compensating speech signals using vector quantization codebook adaptation

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004302470A (ja) * 2003-03-31 2004-10-28 Microsoft Corp 漸進的ベイズ学習を使用する雑音推定の方法
JP2005244968A (ja) * 2004-02-24 2005-09-08 Microsoft Corp モバイル・デバイス上のマルチセンサによるスピーチ改良のための方法および装置
JP2009501940A (ja) * 2005-06-28 2009-01-22 マイクロソフト コーポレーション 音声状態モデルを使用したマルチセンサ音声高品質化
JP2011022555A (ja) * 2009-07-15 2011-02-03 Toshiba Corp 音声認識システム、方法及びプログラム

Also Published As

Publication number Publication date
DE69831288D1 (de) 2005-09-29
EP0886263A2 (en) 1998-12-23
EP0886263B1 (en) 2005-08-24
US5924065A (en) 1999-07-13
CA2239357A1 (en) 1998-12-16
DE69831288T2 (de) 2006-06-08
EP0886263A3 (en) 1999-08-11

Similar Documents

Publication Publication Date Title
US5924065A (en) Environmently compensated speech processing
EP1993320B1 (en) Reverberation removal device, reverberation removal method, reverberation removal program, and recording medium
Acero et al. Robust speech recognition by normalization of the acoustic space.
EP0831461B1 (en) Scheme for model adaptation in pattern recognition based on taylor expansion
JP3457431B2 (ja) 信号識別方法
Cui et al. Noise robust speech recognition using feature compensation based on polynomial regression of utterance SNR
JP4586577B2 (ja) 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム
US7571095B2 (en) Method and apparatus for recognizing speech in a noisy environment
Stern et al. Signal processing for robust speech recognition
JP2006087082A (ja) 多感覚音声強調のための方法および装置
EP1457968B1 (en) Noise adaptation system of speech model, noise adaptation method, and noise adaptation program for speech recognition
JP2005249816A (ja) 信号強調装置、方法及びプログラム、並びに音声認識装置、方法及びプログラム
Chowdhury et al. Bayesian on-line spectral change point detection: a soft computing approach for on-line ASR
EP1794746A2 (en) Method of training a robust speaker-independent speech recognition system with speaker-dependent expressions and robust speaker-dependent speech recognition system
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
US7120580B2 (en) Method and apparatus for recognizing speech in a noisy environment
GB2422237A (en) Dynamic coefficients determined from temporally adjacent speech frames
JP2009276365A (ja) 処理装置、音声認識装置、音声認識システム、音声認識方法
Han et al. Reverberation and noise robust feature compensation based on IMM
Hirsch HMM adaptation for applications in telecommunication
US9875755B2 (en) Voice enhancement device and voice enhancement method
Tashev et al. Unified framework for single channel speech enhancement
JP4464797B2 (ja) 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
Vanajakshi et al. Modified Wiener filter based speech restoration with autocorrelation of isolated Kannada word speech recognition
JP2003076393A (ja) 騒音環境下における音声推定方法および音声認識方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050606

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050606

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070910

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20071210

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20071210

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20071220

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080707