JP4682154B2 - 自動音声認識チャンネルの正規化 - Google Patents

自動音声認識チャンネルの正規化 Download PDF

Info

Publication number
JP4682154B2
JP4682154B2 JP2006549503A JP2006549503A JP4682154B2 JP 4682154 B2 JP4682154 B2 JP 4682154B2 JP 2006549503 A JP2006549503 A JP 2006549503A JP 2006549503 A JP2006549503 A JP 2006549503A JP 4682154 B2 JP4682154 B2 JP 4682154B2
Authority
JP
Japan
Prior art keywords
utterance
speech
voice
utterances
statistical value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006549503A
Other languages
English (en)
Other versions
JP2007536562A (ja
Inventor
イゴール ズロカルニク
ローレンス エス. ギリック
ジョーダン コーエン
Original Assignee
ヴォイス シグナル テクノロジーズ インコーポレーティッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヴォイス シグナル テクノロジーズ インコーポレーティッド filed Critical ヴォイス シグナル テクノロジーズ インコーポレーティッド
Publication of JP2007536562A publication Critical patent/JP2007536562A/ja
Application granted granted Critical
Publication of JP4682154B2 publication Critical patent/JP4682154B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Machine Translation (AREA)
  • Stereophonic System (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Time-Division Multiplex Systems (AREA)

Description

本願は、2004年1月12日に出願された米国仮出願第60/535,863号の優先権を主張する。
本発明は自動音声認識チャンネルの正規化に関する。
自動音声認識システムの認識性能(例えば、精度)は通信チャンネルの変動によって悪影響を受ける場合がある。通信チャンネルの変動の原因は、話者(例えば、声道構造、声門音の励振)、伝送チャンネル(例えば、マイクロホンに対する位置と方向、室内音響、周囲騒音)、及び使用されるマイクロホンの様々な特性等による。
通信チャンネルの認識性能に与える影響を抑えるために、多くの案が提案されている。そのようなテクニックの1つは、時間tに関して、各特性配列feature[i]が、そのゼロ平均で単位分散となるように、ケプストラム(cepstral)係数の認識特性ベクトルを正規化することである。一般的に、このテクニックは、非正規化された認識特性を計算するために、K個のケプストラム(cepstral)係数(又は、メル周波数ケプストラム(cepstral)係数)、及びそれらの1次導関数と2次導関数(Δcepstrum[i]及びΔΔcepstrum[i])を利用する。
feature[i]=(cep[i]−μ[i])/σ[i] (0≦i<3K)であり、ここで、
cep[i]=cepstrum[i]
cep[i+K]=Δcepstrum[i]
cep[i+K]=ΔΔcepstrum[i]
(0≦i<K)である。
ここで、μ[i]は時間tにおけるcep[i]の平均値、そしてσ[i]は時間tにおけるcep[i]の分散値である。
ケプストラム(cepstral)平均正規化(すなわち、μ[i]の減算)によって未知関数ではあるが、定常関数及び直線関数であるチャンネル転送関数を除外する。ケプストラム(cepstral)分散の正規化(すなわち、σ[i]で除算)は、付加される雑音によるケプストラム(cepstral)係数の分散の減少を補完する。
チャンネル特性を推定する上で基礎となる時間量は、音声認識装置の性能に影響を与える。時間ウィンドウが長すぎる場合は、チャンネルは不変であるとみなすことができず、時間ウィンドウが短すぎる場合は、スピーチセグメントの音声内容がチャンネル特性の推定にバイアスをかけることがある。妥協策として、多くの認識システムが発話の完全な発声に基づいてチャンネルを推定している。認識システムの処理速度によるが、発声が終わるまで発声の処理が開始しないので、発声に基づいた正規化は望ましくないシステムの処理遅延を生じさせる。一般的に、時刻同期(又は、オンライン処理)法は、ある種のチャンネルの正規化を再帰的に実現する手法を利用する。この手法においては、ケプストラム(cepstral)機能(係数)の平均と分散の時間予測値は、時間tにおいてτ=10〜20ミリ秒毎に増加するように更新される。
μ[i,t]=αμ[i,t−τ]+(1+α)cep[i,t]
σ[i,t]=ασ[i,t]+(1−α)(cep[i,t]−μ[i,t])
非スピーチセグメントは、チャンネル推定における別の複雑な要素である。伝送チャンネルはマイクロホンと発話者を分離するので、伝送チャンネルの効果は、スピーチセグメントにおいてのみ聴覚的に明らかである。その結果、非スピーチセグメントとスピーチセグメントの可変比は、チャンネル特性の推定に大きく影響する。しかしながら、スピーチセグメントと非スピーチセグメントの違いが不明確であるため、固定比の使用が制限される。
1つの側面において、本発明の特徴は、概して、(音声)データを処理する方法、その方法を実装するソフトウェア(プログラム)、及びそれらを含むシステムである。前記方法は、音声発話の開始部の統計値を取得するステップであって、前記開始部が前記発話にて発声される最初の母音の発生に基づいて決定される複数のスピーチフレームを含むステップと、前記統計値に基づいた特性正規化パラメータ、及び前記統計値と該正規化パラメータに関連して統計的に導かれる複数のマッピング情報の中から選択して使用するようマッピング情報を推定するステップと、を含む。
本発明の側面は以下の特徴の1つ以上を含む。
取得された統計値には、音声発話部分のエネルギー標準を含む。
エネルギー標準はエネルギー極値を含む。
また、前記方法は、対応する前記各特性正規化パラメータに関連する複数の発声を受け付けるステップを含む。複数の各音声発話から統計値を取得し、統計的に導かれるマッピング(情報)は、前記統計値及び前記複数の音声発話に対応する前記特性正規化パラメータに基づいて形成される。前記複数の音声発話は、各音声発話の開始部や全体部を含む。
統計的に導かれるマッピング(情報)の形成とは、統計(線形)回帰を使用して形成を含む。
複数の各音声発話に対応する前記特性正規化パラメータは、前記複数の発声時間における平均値と分散値を含む。
本発明の側面は以下の利点の1つ以上を含む。
通信チャンネル特性の確実な推定に使用される発話量が減少するので、チャンネル推定と正規化の処理に関連するシステムの遅延は減少する。スピーチセグメントと非スピーチセグメントの明白な識別をせず、雑音の多い発話に対して自動音声認識の信頼性を改善する。
本発明の上記に記述した以外の特徴、及び利点は以下の説明、及び本願請求項から明らかとなる。
自動音声認識チャンネルを正規化する処理システム(ソフトウェアプログラム)は、正規化パラメータを生成するオフライン処理とオンライン処理を含む。システムは、通信チャンネル特性の観測を利用するために構成される。例えば、発話者、及び室内、マイクロホン、及び環境騒音を含む通信チャンネル(特性)において以下の観測をすることができる。
長時間の発話者のスペクトルは、主に2つのパラメータで特徴付けることができる。それらは全体的なラウドネス、及び全体的なスペクトルのスロープを示すスペクトルの傾きである。スペクトルの傾きとは、各ピッチ周期において、声門が開かれている時間と声門が閉じている時間の比率である。この比率は異なる発話者と発話者の声の出し方(正常、絶叫)の関係でわずかに変化するが、スペクトルの傾きは一般的に−12dB/オクターブである。ケプストラム(cepstral)領域では、全体的なラウドネスは0次ケプストラム(cepstral)係数により取得され、スペクトルの傾きは1次ケプストラム(cepstral)係数より取得される。高次のケプストラム(cepstral)係数は、長時間のスペクトルにおいてはゼロ近傍であり、それは長時間のスペクトルが周波数領域において滑らかな形を示すためである。
室内の伝達関数はリバーブとエコーのため強いピークとノッチを示す。ケプストラム(cepstral)領域において、これらの周波数間の変化は主に、音声認識システムで使用されるケプストラム(cepstral)係数より高次のケプストラム(cepstral)係数に影響する。これらの変化分は別として、発話者とマイクロホンの間の距離と方向によって、主に全体的なラウドネスが減衰し、第0次のケプストラム(cepstral)係数に影響する。
マイクロホンと音声回路からオーディオ信号上の帯域濾波の様々な種類の特性が得られる。一般に、対応する周波数特性は全ての次数のケプストラム(cepstral)係数に影響する。
スピーチセグメントにおいて、環境雑音は全次数のケプストラム(cepstral)係数分散を減少させる。この減少は、信号対ノイズ比の減少によって強まる。
処理システム(ソフトウェアプログラム)の多くの特性は以下の観測に基づく。
μ[0]の信頼性のある推定は、少なくとも複数のスピーチセグメント(例えば、スピーチフレームであり、ここで“フレーム”は有限の時間ウィンドウにおいて取得される発話信号V[t]に由来する時刻tにおけるケプストラム(cepstral)係数cep[i,t]の値)を含む。それは、発話者のラウドネス、及び発話者及び/又はマイクロホンの位置に依存しているからである。チャンネル平均μの高次係数は主にマイクロホンと音声回路に依存し、その結果、必ずしもスピーチフレームである必要のないフレームから推定される。チャンネル分散はSN比に依存する。非スピーチフレームから雑音レベルを単独で推定することができるが、信号レベルの推定は少なくとも複数のスピーチフレームによって行なわれる。
図1を参照すると、自動音声認識チャンネルを正規化する処理システム(ソフトウェアプログラム)10は、通信チャンネル12のケプストラム(cepstral)の平均値と分散値を、いくつかのスピーチフレームに基づいて高速に集める初期処理モジュール14からのデータを入力パラメータとする機能マップを使用し、マッピングモジュール20によって推定する。特に、以下の線形マップは明らかに発話開始の時間を検出する必要性を排除しながら、発話開始に高速に応じる。
μ[i,t]=a(S[t]−N[t])+b+N[t] (i=0)
μ[i,t]=CEP[i,t] (0<i<K)
μ[i,t]=0 (K≦i<3K)
σ[i,t]=ai+1(S[t]−N[t])+bi+1 (0≦i<3K)
ここで、a及びbは機能マップの重み付け係数である。S[t]及びN[t]は、それぞれ信号レベルと雑音レベルの推定値である。ケプストラム(cepstral)係数CEP[i,t]はケプストラム(cepstral)係数の全体の時間におけるcep[i,t]の平均値である。
初期処理モジュール14は、全体の時間におけるフレームエネルギーcep[0]の極値を探して、オンラインで信号レベルと雑音レベルを推定する。
S[t]=max{cep[0,τ]} (0≦τ≦tの範囲)
N[t]=min{cep[0,τ]} (0≦τ≦tの範囲)
また、SとNの推定には、cep[0,τ]の百分位数(例えば、cep[0,τ]の第80分位数及び第20分位数の各々)を用いた他の方法を使用することができる。
初期処理モジュール14は、ケプストラム(cepstral)係数cep[i,t]の平均値を、得られた全フレーム値を平均することで、オンラインで推定する。
CEP[i,t]=Σcep[i,τ]/(t+1) (0≦τ≦t)
あるいは、再帰法を使用してもよい。
線形重み付け係数a及びbは、先のオフライン処理の間、様々な音響装置で記録された、様々な音響環境における多数の発話者の発声V[t]、…、V[t]を含む発話データベース16を使用して決定される。マッピングモジュール20の対応する「入力パターン」と「出力パターン」に基づいて、線形回帰モジュール18で実行された線形回帰を使用して重み付け係数が決定される。「入力パターン」として、システム10は各音声発話後に得られる信号と雑音レベルを使用し、ここで、各音声発話は区別される。システム10は各音声発話(例えば、発声の開始部、又は全体部)に基づいて、それらの信号レベルと雑音レベルを測定する。「出力パターン」として、システム10は、標準式を使用して得られるセッション全てのスピーチフレームに基づくチャンネルの平均値及び分散値を利用する。
μ[i]=Σcep[i,τ]/(t+1) (0≦τ≦t)
σ[i]=Σ(cep[i,τ]−μ[i])/(t+1) (0≦τ≦t)
ここで、セッションは、通信チャンネル12が不変であるとみなす全ての発声を含む。このステップで使用される発話と沈黙の識別は、線形重み付け係数がデータのグローバル傾向をモデル化するだけなので重要とならない。
システム10によって使用されるチャンネル推定法によって、少ない数のスピーチフレームでも十分に機能する理由は、主にオーディオ信号の2つの特性の推定値に依存するからである。これらの特性とは、エネルギーの最小値と最大値である。一般的にエネルギーの最終最小値に近い値は、最初のいくつかのフレーム、つまり、発声が始まる前において得られる。エネルギーの最終最大値に近い値は、音声的な意味にかかわらず、発話の最初の母音において測定される。
発声が始まる前において、提案されるチャンネル推定法によって信号対ノイズ比(SNR)をSNR=S−Nと過小評価する。したがって、SNRの推定値が、システム10がうまく動作すると期待する最も騒々しい音響環境のSNR値となるときに、より正確な結果が得られる。また、SNRの推定、及びチャンネルの正規化の2つの処理において発生する遅延が100〜200ミリ秒と小さい場合に、改良されたチャンネル推定法は、発声の最初の母音に先行する数少ないスピーチフレームに対して適用される。
本願明細書に、(チャンネルを)正規化するソフトウェア(プログラムコード)が添付される。
他の実施例は、本願請求項の範囲に含まれる。
<付録>
Figure 0004682154
Figure 0004682154
Figure 0004682154
Figure 0004682154
Figure 0004682154
Figure 0004682154
Figure 0004682154
Figure 0004682154
Figure 0004682154
Figure 0004682154
Figure 0004682154
自動音声認識チャンネルを正規化する処理システム(ソフトウェアプログラム)のブロック図である。
符号の説明
12 通信チャンネル
14 初期処理モジュール
16 発話データベース
18 線形回帰モジュール
20 マッピングモジュール

Claims (18)

  1. 自動音声認識チャンネルを正規化する方法であって、
    音声発話の開始部の統計値を取得するステップであって、前記開始部が前記発話にて発声される最初の母音の発生に基づいて決定される複数のスピーチフレームを含むステップと、
    前記統計値に基づいた特性正規化パラメータ、及び、前記統計値と該正規化パラメータに関連して統計的に導かれる複数のマッピング情報の中から選択して使用するようマッピング情報を推定するステップと、を含む方法。
  2. 前記統計値を取得するステップは、前記音声発話の開始部のエネルギー値を測定するステップを含む請求項1記載の方法。
  3. 前記エネルギー値を測定するステップは、エネルギー極値を測定するステップを含む請求項2記載の方法。
  4. 対応する前記各特性正規化パラメータに関連する複数の前記音声発話を受け付けるステップと、
    複数の前記音声発話の統計値を取得するステップと、
    前記統計値及び複数の前記音声発話に対応する前記特性正規化パラメータに基づいて前記統計的に導かれるマッピング情報を形成するステップと、をさらに含む請求項1記載の方法。
  5. 複数の前記各音声発話は、前記各音声発話の開始部を含む請求項4記載の方法。
  6. 複数の前記各音声発話は、前記各音声発話の全体部を含む請求項4記載の方法。
  7. 前記統計的に導かれるマッピングを形成するステップは、線形回帰を使用して形成するステップを含む請求項4記載の方法。
  8. 複数の前記音声発話に対応する前記特性正規化パラメータは、複数の前記音声発話時間における平均値と分散値を含む請求項4記載の方法。
  9. 自動音声認識チャンネルを正規化する処理システムであって、
    初期処理モジュール、及びマッピングモジュールを備え、
    前記初期処理モジュールにより、音声発話の開始部の統計値を取得し、前記開始部が前記発話にて発声される最初の母音の発生に基づいて決定される複数のスピーチフレームを含み、
    前記マッピングモジュールにより、前記統計値に基づいた特性正規化パラメータ、及び前記統計値と該特性正規化パラメータに関連して統計的に導かれる複数のマッピング情報の中から選択して使用するようマッピング情報を推定することで、自動音声認識チャンネルを正規化する処理システム。
  10. 前記初期処理モジュールにより、前記音声発話の開始部のエネルギー値を測定する請求項9記載の処理システム。
  11. 線形回帰モジュールをさらに備え、
    前記線形回帰モジュールにより、対応する前記各特性正規化パラメータに関連する複数の音声発話を受け付け、
    複数の前記各音声発話の統計値を取得
    前記統計値及び複数の前記音声発話に対応する前記特性正規化パラメータに基づいて前記統計的に導かれるマッピング情報を形成する請求項9記載の処理システム。
  12. 複数の前記各音声発話は、前記各音声発話の開始部を含む請求項11記載の処理システム。
  13. 複数の前記各音声発話は、各音声発話の全体部を含む請求項11記載の処理システム。
  14. コンピュータに、
    音声発話の開始部の統計値を取得するステップであって、前記開始部が前記発話にて発声される最初の母音の発生に基づいて決定される複数のスピーチフレームを含むステップと、
    前記統計値に基づいた特性正規化パラメータ、及び前記統計値と該特性正規化パラメータに関連して統計的に導かれる複数のマッピング情報の中から選択して使用するようマッピング情報を推定するステップと、
    を実行させるためのプログラム
  15. 前記統計値を取得するステップは、音声発話の開始部のエネルギー値を測定するステップを含む請求項14記載のプログラム
  16. 対応する前記各特性正規化パラメータに関連する複数の音声発話を受け付けるステップと、
    複数の前記音声発話の統計値を取得するステップと、
    前記統計値及び複数の前記音声発話に対応する前記特性正規化パラメータに基づいて前記統計的に導かれるマッピングを形成するステップと、をさらに含む請求項14記載のプログラム
  17. 複数の前記各音声発話は、前記各音声発話の開始部を含む請求項16記載のプログラム
  18. 複数の前記各音声発話は、前記各音声発話の全体部を含む請求項16記載のプログラム
JP2006549503A 2004-01-12 2005-01-10 自動音声認識チャンネルの正規化 Expired - Fee Related JP4682154B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US53586304P 2004-01-12 2004-01-12
PCT/US2005/000757 WO2005070130A2 (en) 2004-01-12 2005-01-10 Speech recognition channel normalization utilizing measured energy values from speech utterance

Publications (2)

Publication Number Publication Date
JP2007536562A JP2007536562A (ja) 2007-12-13
JP4682154B2 true JP4682154B2 (ja) 2011-05-11

Family

ID=34806967

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006549503A Expired - Fee Related JP4682154B2 (ja) 2004-01-12 2005-01-10 自動音声認識チャンネルの正規化

Country Status (6)

Country Link
US (1) US7797157B2 (ja)
EP (1) EP1774516B1 (ja)
JP (1) JP4682154B2 (ja)
CN (1) CN101228577B (ja)
DE (1) DE602005026949D1 (ja)
WO (1) WO2005070130A2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7702505B2 (en) * 2004-12-14 2010-04-20 Electronics And Telecommunications Research Institute Channel normalization apparatus and method for robust speech recognition
US20070263848A1 (en) * 2006-04-19 2007-11-15 Tellabs Operations, Inc. Echo detection and delay estimation using a pattern recognition approach and cepstral correlation
EP2100294A4 (en) * 2006-12-27 2011-09-28 Intel Corp METHOD AND DEVICE FOR LANGUAGE SEGMENTATION
JP4864783B2 (ja) * 2007-03-23 2012-02-01 Kddi株式会社 パタンマッチング装置、パタンマッチングプログラム、およびパタンマッチング方法
US8930179B2 (en) * 2009-06-04 2015-01-06 Microsoft Corporation Recognition using re-recognition and statistical classification
US8768695B2 (en) * 2012-06-13 2014-07-01 Nuance Communications, Inc. Channel normalization using recognition feedback
US9984676B2 (en) * 2012-07-24 2018-05-29 Nuance Communications, Inc. Feature normalization inputs to front end processing for automatic speech recognition
WO2015175218A1 (en) 2014-05-13 2015-11-19 Covidien Lp Surgical robotic arm support systems and methods of use
US9953661B2 (en) * 2014-09-26 2018-04-24 Cirrus Logic Inc. Neural network voice activity detection employing running range normalization
WO2016105216A1 (en) * 2014-12-22 2016-06-30 Intel Corporation Cepstral variance normalization for audio feature extraction
US10540990B2 (en) * 2017-11-01 2020-01-21 International Business Machines Corporation Processing of speech signals

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2797949B2 (ja) * 1994-01-31 1998-09-17 日本電気株式会社 音声認識装置
US5604839A (en) * 1994-07-29 1997-02-18 Microsoft Corporation Method and system for improving speech recognition through front-end normalization of feature vectors
GB9419388D0 (en) * 1994-09-26 1994-11-09 Canon Kk Speech analysis
US5677990A (en) * 1995-05-05 1997-10-14 Panasonic Technologies, Inc. System and method using N-best strategy for real time recognition of continuously spelled names
US6633842B1 (en) * 1999-10-22 2003-10-14 Texas Instruments Incorporated Speech recognition front-end feature extraction for noisy speech
US6202047B1 (en) * 1998-03-30 2001-03-13 At&T Corp. Method and apparatus for speech recognition using second order statistics and linear estimation of cepstral coefficients
JPH11311994A (ja) * 1998-04-30 1999-11-09 Sony Corp 情報処理装置および方法、並びに提供媒体
CN1144172C (zh) * 1998-04-30 2004-03-31 松下电器产业株式会社 包括最大似然方法的基于本征音的发言者适应方法
US6173258B1 (en) * 1998-09-09 2001-01-09 Sony Corporation Method for reducing noise distortions in a speech recognition system
US6253175B1 (en) * 1998-11-30 2001-06-26 International Business Machines Corporation Wavelet-based energy binning cepstal features for automatic speech recognition
US6658385B1 (en) * 1999-03-12 2003-12-02 Texas Instruments Incorporated Method for transforming HMMs for speaker-independent recognition in a noisy environment
GB2349259B (en) * 1999-04-23 2003-11-12 Canon Kk Speech processing apparatus and method
JP2001134295A (ja) * 1999-08-23 2001-05-18 Sony Corp 符号化装置および符号化方法、記録装置および記録方法、送信装置および送信方法、復号化装置および符号化方法、再生装置および再生方法、並びに記録媒体
US6502070B1 (en) * 2000-04-28 2002-12-31 Nortel Networks Limited Method and apparatus for normalizing channel specific speech feature elements
DE60110541T2 (de) * 2001-02-06 2006-02-23 Sony International (Europe) Gmbh Verfahren zur Spracherkennung mit geräuschabhängiger Normalisierung der Varianz
US7062433B2 (en) * 2001-03-14 2006-06-13 Texas Instruments Incorporated Method of speech recognition with compensation for both channel distortion and background noise
US7035797B2 (en) * 2001-12-14 2006-04-25 Nokia Corporation Data-driven filtering of cepstral time trajectories for robust speech recognition
IL148592A0 (en) * 2002-03-10 2002-09-12 Ycd Multimedia Ltd Dynamic normalizing
US7117148B2 (en) * 2002-04-05 2006-10-03 Microsoft Corporation Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization
US7197456B2 (en) * 2002-04-30 2007-03-27 Nokia Corporation On-line parametric histogram normalization for noise robust speech recognition
JP4239479B2 (ja) * 2002-05-23 2009-03-18 日本電気株式会社 音声認識装置、音声認識方法、および、音声認識プログラム

Also Published As

Publication number Publication date
EP1774516B1 (en) 2011-03-16
WO2005070130A3 (en) 2009-04-09
EP1774516A2 (en) 2007-04-18
JP2007536562A (ja) 2007-12-13
CN101228577B (zh) 2011-11-23
CN101228577A (zh) 2008-07-23
DE602005026949D1 (de) 2011-04-28
EP1774516A4 (en) 2009-11-11
WO2005070130A2 (en) 2005-08-04
US20050182621A1 (en) 2005-08-18
US7797157B2 (en) 2010-09-14

Similar Documents

Publication Publication Date Title
JP4682154B2 (ja) 自動音声認識チャンネルの正規化
US9666183B2 (en) Deep neural net based filter prediction for audio event classification and extraction
Ma et al. Efficient voice activity detection algorithm using long-term spectral flatness measure
JP4943335B2 (ja) 話者に依存しない堅牢な音声認識システム
US7359856B2 (en) Speech detection system in an audio signal in noisy surrounding
US8655656B2 (en) Method and system for assessing intelligibility of speech represented by a speech signal
US8666737B2 (en) Noise power estimation system, noise power estimating method, speech recognition system and speech recognizing method
JP3105465B2 (ja) 音声区間検出方法
JP6748304B2 (ja) ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム
Lee et al. Dynamic noise embedding: Noise aware training and adaptation for speech enhancement
US8423360B2 (en) Speech recognition apparatus, method and computer program product
Jaiswal et al. Implicit wiener filtering for speech enhancement in non-stationary noise
Löllmann et al. Comparative study of single-channel algorithms for blind reverberation time estimation
KR100784456B1 (ko) Gmm을 이용한 음질향상 시스템
US9875755B2 (en) Voice enhancement device and voice enhancement method
Rehr et al. Cepstral noise subtraction for robust automatic speech recognition
Kasap et al. A unified approach to speech enhancement and voice activity detection
EP1635331A1 (en) Method for estimating a signal to noise ratio
Martin et al. Robust speech/non-speech detection based on LDA-derived parameter and voicing parameter for speech recognition in noisy environments
Hirsch et al. A new HMM adaptation approach for the case of a hands-free speech input in reverberant rooms
KR19990054490A (ko) 신호대 잡음비의 정규화에 의한 특징벡터 추출방법
KR20200038292A (ko) 음성 스피치 및 피치 추정의 낮은 복잡성 검출
Subramanya et al. Speech Modelingwith Magnitude-Normalized Complex Spectra and Its Application to Multisensory Speech Enhancement
Sehr et al. Adapting HMMs of distant-talking ASR systems using feature-domain reverberation models
Pujol et al. Speech recognition experiments with the SPEECON database using several robust front-ends.

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100426

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110125

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110207

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140210

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees