JP4943335B2 - 話者に依存しない堅牢な音声認識システム - Google Patents

話者に依存しない堅牢な音声認識システム Download PDF

Info

Publication number
JP4943335B2
JP4943335B2 JP2007531910A JP2007531910A JP4943335B2 JP 4943335 B2 JP4943335 B2 JP 4943335B2 JP 2007531910 A JP2007531910 A JP 2007531910A JP 2007531910 A JP2007531910 A JP 2007531910A JP 4943335 B2 JP4943335 B2 JP 4943335B2
Authority
JP
Japan
Prior art keywords
sequence
speaker
feature vectors
dependent
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007531910A
Other languages
English (en)
Other versions
JP2008513825A (ja
Inventor
ディーテル ゲレル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2008513825A publication Critical patent/JP2008513825A/ja
Application granted granted Critical
Publication of JP4943335B2 publication Critical patent/JP4943335B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Description

本発明は、音声認識システムの分野に関し、特に限定するものではなく、変化する環境条件に対する音声認識システムの堅牢な適合に関する。
音声認識システムは、話された口述を記述されたテキストに書き起こす。会話からテキストを生成する処理は、通常、音声信号を受信するステップ、音声解析の事前処理をするステップ、音声解析を実行するステップ、解析された信号を認識するステップ、認識されたテキストを出力するステップに分けられることができる。
音声信号を受信するステップは、例えばマイクといった何らかの記録手段を用いて提供される。信号解析ステップにおいて、受信された音声信号は、通常、大体数ミリ秒の範囲における時間間隔を覆う時間窓に分割される。高速フーリエ変換(FFT)を用いて、時間窓のパワースペクトルが計算される。更に、通常三角形状カーネル(triangle shaped kernel)を備える平滑化関数がそのパワースペクトルに適用され、その関数が特徴ベクトルを生成する。特徴ベクトルの一つの要素は、会話の内容にとって特徴的であり、理想的には音声認識目的に適しているパワースペクトルのはっきりした部分を表す。更に、対数関数が特徴ベクトルのすべての要素に適用され、結果として、対数スペクトル領域の特徴ベクトルを生じさせる。信号解析ステップは更に、例えば、ケプストラム変換を適用するステップ又は特徴ベクトルに導関数又は回帰デルタ(regression deltas)を追加するステップといった追加的なステップと共に環境適合を有することができる。
認識ステップにおいては、解析された信号が、語彙に割り当てられるトレーニング音声シーケンスから得られる基準信号と比較される。更に、認識されたテキストが最後のステップで出力される前に、文法規則が適用され、内容依存命令が実行されることができる。
環境適合は、信号解析手順における重要なステップである。特に、トレーニングされた音声基準は高い信号対ノイズ比(SNR)で記録されているが、システムが後に適用される環境が、例えば、高速運転中の車といったノイズの多い環境であるとき、音声認識処理の性能及び信頼性は、かなり影響を受ける場合がある。なぜなら、トレーニングされた基準音声信号と認識されなければならない記録された音声信号とは、バックグラウンドノイズが異なるレベルであることを特徴とし、従って、異なるSNRであることを特徴とするからである。トレーニング手順中及び音声認識システムの適用中の信号対ノイズ比の変動は、環境的なミスマッチの1つの例示にすぎない。一般に環境条件間でのミスマッチは、様々なバックグラウンドノイズのレベル、様々な入力音声レベル、様々な会話速度、及び異なる話者が原因でもたらされることができる。原理上は、トレーニング手順と適用又は認識手順との間の環境的なミスマッチは、音声認識の性能をかなり劣化させる場合がある。
話者非依存の音声認識の概念は、自動音声認識を多用途にする一般的な手法を提供する。ここで、事前にトレーニングされた音声基準が、非常に多様な異なる話者及び異なる環境条件に対して記録される。前もってトレーニング手順を行うことなく自動音声認識システムをユーザが直接適用することを、斯かる話者非依存な音声認識基準が可能にする。
しかしながら、話者非依存の音声認識に対して主に意図される斯かる用途もまた追加的なトレーニングを必要とする場合がある。特に、例えば、ユーザがシステムに挿入したい独特な名前といったユーザ特有の表現をシステムが認識しなければならないときである。通常、ユーザ又は話者依存表現をユーザが自動音声認識システムに入力する環境条件は、後における通常の認識条件とは異なる。ここで、トレーニングされた音声基準は、2つの分離した部分を特徴とすることができる。1つは、話者非依存の基準を表し、1つは、話者依存の基準を表すものである。話者依存の基準は通常、単一のユーザ及び単一の環境条件を示すに過ぎないので、音声認識手順の一般的な性能は、かなり劣化する場合がある。
話者依存の言葉は、認識条件がトレーニング条件に対応するときにのみ正確に識別されることができる。更に、話者依存の言葉に対するトレーニング条件と自動音声認識システムが使用される条件との間のミスマッチが話者に依存しない言葉の認識にも悪い影響を与えることがある。
一般に、話者依存の言葉を話者に依存しない語彙ワードのセットに組み込む様々な手法が存在する。例えば、話者依存の語彙ワードが様々な環境条件下、例えば静かな停止中の車内及び高速運転中の車内でトレーニングされることができる。これは、より堅牢な音声認識を提供することができるが、非常に多数のトレーニング手順を必要とし、従ってエンドユーザには受け入れがたいものである。
別の手法は、例えば、ノイズの多い(noisy)観測が与えられることを前提として、クリーンな(clean:ノイズのない、少ない)音声特徴ベクトルの推定を取得する方法を開示する米国特許第6,633,842号により与えられる。この方法は、2つのガウシアン混合分布を利用する。そこでは、第1の分布はクリーンにされた音声に関してオフラインでトレーニングされ、第2の分布は幾つかのノイズサンプルを用いて第1の分布から得られる。この方法は、クリーンな音声特徴ベクトルの推定を、観測されたノイズの多いベクトルを前提として、クリーンな音声の条件付期待値(conditional expectancy)として与える。この方法は、ノイズの多い観測及び確率密度関数からのクリーンな特徴ベクトルの推定を用いる。
原理的には、これは性能を改善するが、ノイズサンプルが提供され、そしてクリーンにされた音声に結合されなければならず、それにより本質的にかなりの計算と記憶容量とを必要とする。
そこで本発明は、話者に依存する基準データを明示的に格納することなく様々な環境条件に対して適切に認識されることができる音声認識システムへ話者に依存する語彙ワードを組み込む方法を提供することを目的とする。
本発明は、話者依存表現の会話例を用いて、話者非依存の音声認識システムをトレーニングする方法を提供する。話者非依存の音声認識システムは、様々なトレーニング条件に対する語彙を表す混合確率密度(mixture density)のセットを与えるデータベースを持つ。話者非依存の音声認識システムをトレーニングする本発明の方法は、話者依存表現の特徴ベクトルの少なくとも第1のシーケンスを生成するステップと、その特徴ベクトルの少なくとも第1のシーケンスに対する最小距離を特徴とする混合確率密度のセットでの混合確率密度のシーケンスを決定するステップとを有する。
最後に、話者依存表現が混合確率密度のシーケンスに割り当てられる。こうして、本発明は、様々なトレーニング条件に対する語彙を表す混合確率密度の話者非依存なセットにおける混合確率密度又は混合確率密度のシーケンスに、話者依存表現を割り当てることを提供する。特に、混合確率密度を話者依存表現へ割り当てることは、混合確率密度と、話者依存表現を表す特徴ベクトルの少なくとも第1のシーケンスとの間の割り当てに関して行われる。
この割り当ては、好ましくは、特徴ベクトルに基づく割り当て手順で行われる。従って、特徴ベクトルのシーケンスでの各特徴ベクトルに対して、最良マッチ混合確率密度、すなわち、特徴ベクトルに対する最小の距離又はスコアを提供する混合確率密度が選択される。すると、例えば選択された混合確率密度へのポインタを用いて、各特徴ベクトルが、その最良マッチ混合確率密度に別々に割り当てられる。こうして、特徴ベクトルのシーケンスは、ポインタのセットを用いて表されることができる。ポインタはそれぞれ、特徴ベクトルから対応する混合確率密度を示す。
結果として、話者依存表現が話者非依存なトレーニングデータの混合確率密度により表されることができる。こうして、話者に依存する基準データは、音声認識システムに明示的に格納される必要がない。ここで、話者に特有な表現と、混合確率密度の最良マッチシーケンス、つまり、特徴ベクトルの少なくとも第1のシーケンスでの特徴ベクトルに対する最小距離又はスコアを特徴とするそうした混合確率密度との間の割り当てだけが、話者非依存の音声認識システムのデータベースに既に存在する混合確率密度へのポインタのセットを特定することにより行われる。こうして、話者非依存の音声認識システムが、話者依存表現に対する専用の記憶容量を提供する必要性なしに、非常に多様な話者依存表現にまで拡張されることができる。その代わり、話者依存表現を十分に表す話者依存の混合分布(mixture)が決定される。
本発明の好ましい実施形態によれば、話者非依存の音声認識システムをトレーニングする方法は、話者依存表現の特徴ベクトルの少なくとも第2のシーケンスを生成するステップを更に有する。この特徴ベクトルの少なくとも第2のシーケンスは、特徴ベクトルの第1のシーケンスとは異なる環境条件にマッチするよう構成される。こうして、特徴ベクトルのこの第2のシーケンスは、話者依存表現が記録され、特徴ベクトルの第1のシーケンスに反映される環境条件とは異なる環境条件を人工的に表す。その特徴ベクトルの少なくとも第2のシーケンスは、通常、特徴ベクトルの第1のシーケンスに基づき、又は記録された話者依存表現に直接基づき、生成される。例えば、特徴ベクトルのこの第2のシーケンスは、異なる信号対ノイズ比を持つ特徴ベクトルの第1のシーケンスに対応する。特徴ベクトルのこの第2のシーケンスは、例えば、所定の信号対ノイズ比、目標の信号対ノイズ比の生成を提供するノイズ及びチャネル適合モジュールを用いて、生成されることができる。
特徴ベクトルの第1のシーケンスからの人工的な特徴ベクトル又は人工的な特徴ベクトルのシーケンスの生成は、決してノイズ及びチャネル適合、並びに単一の人工的な特徴ベクトル又は人工的な特徴ベクトルの単一のシーケンスのみの生成には限定されない。例えば、特徴ベクトルの第1のシーケンスに基づき、特徴ベクトルシーケンスの全体のセットが、人工的に生成されることができる。そのセットのそれぞれは、異なる目標の信号対ノイズ比を表す。
本発明の追加的な好ましい実施形態によれば、特徴ベクトルの少なくとも第2のシーケンスの生成は、話者依存表現の音声間隔に対応する特徴ベクトルの第1のシーケンスでの特徴ベクトルのセットに基づかれる。こうして、人工的な特徴ベクトルの生成は、記録された話者依存表現の音声フレームに対応する特徴ベクトルの第1のシーケンスにおける特徴ベクトルに関してのみ行われる。これは通常、話者に依存するトレーニング発声の音声部分がどのフレームで開始及び終了するかを決定する端点検出手順により行われる。こうして、無音を表すトレーニング発声のフレームが、人工的な特徴ベクトルの生成に関して捨てられる。従って、人工的な特徴ベクトルの生成に対する計算面でのオーバーヘッドが、効率的に削減されることができる。更に、音声を表す特徴ベクトルの第1のシーケンスでの特徴ベクトルを抽出することにより、特徴ベクトルの少なくとも第1のシーケンスを話者非依存な混合確率密度へ割り当てることについての一般的な信頼性及び性能も強化されることができる。
本発明の追加的な好ましい実施形態によれば、特徴ベクトルの少なくとも第2のシーケンスが、ノイズ適合手順を用いて生成されることができる。
特に、2ステップノイズ適合手順を使用することにより、低いSNRを特徴とする音声の一節に対して、一般的な音声認識の性能が典型的には強化される。
第1のステップにおいては、様々な特徴ベクトルが、もともと得られた特徴ベクトルに基づき生成される。生成される特徴ベクトルはそれぞれ、異なる信号対ノイズ比を特徴とする。従って、異なるノイズレベルが、もとの特徴ベクトルに関して重畳される。第2のステップにおいては、異なるノイズレベルを特徴とする様々な人工的な特徴ベクトルが、最終的に同じ目標の信号対ノイズ比を持つ様々な人工的な特徴ベクトルをもたらすノイズ削減(de-noising)手順の支配を受ける。ノイズ汚染(noise contamination)と後続するノイズ削減との斯かる2ステップ過程を用いて、様々な人工的な特徴ベクトルが、格納された基準データと効果的に結合され、比較される。また、人工的な特徴ベクトルは、スペクトル減算(spectrum subtraction)に基づき生成されることもできる。それは、より複雑であり、前述されたノイズ汚染とノイズ削減との2ステップ手順より高いレベルの計算資源を必要とする。
本発明の追加的な好ましい実施形態によれば、特徴ベクトルの少なくとも第2のシーケンスは、音声速度適合手順及び/又は動的時間ラッピング手順を用いて生成される。こうして、特徴ベクトルの少なくとも第2のシーケンスは、特徴ベクトルの第1のシーケンスとは異なる会話速度を持つ、特徴ベクトルの人工的なシーケンスを表す。こうして、話者依存表現が、様々なレベルの会話速度に適合されることができる。そこで、その会話が異なるスペクトル構成を持ち、異なる会話速度を特徴とする、非常に多様な話者がエミュレート(emulate)されることもできる。
更に、特徴ベクトルのその少なくとも第2のシーケンスは、様々な異なる記録チャネルを表すことができる。それにより、様々なマイクを適用するが故に起こり得る様々な異なる技術的な記録の可能性をシミュレートする。更に、話者、ノイズレベル及びノイズタイプに依存する非線形歪みを表すLombard効果に関して、特徴ベクトルの記録された第1のシーケンスに基づく特徴ベクトルの少なくとも第2のシーケンスの人工的な生成が行われることができる。
本発明の追加的な好ましい実施形態によれば、特徴ベクトルの少なくとも第1のシーケンスは話者依存表現の隠れマルコフモデル(HMM)の状態のシーケンスに対応する。更に、話者依存表現は、HMM状態により表わされ、混合確率密度を対応するHMM状態に割り当てることにより、決定される混合確率密度が、話者依存表現に割り当てられる。通常、特徴ベクトルの第1のシーケンスは、線形マッピングを用いてHMM状態にマップされる(mapped:対応付けられる)。HMM状態と特徴ベクトルシーケンスとの間のこのマッピングは、更に人工的な特徴ベクトルの生成に利用されることができる。特に、線形整列(alignment)手順における特定のHMM状態にマップされるフレームからそうした特徴ベクトルのみを生成すれば十分である。こうして、人工的な特徴ベクトルの生成が、効率的に削減されることができる。
本発明の追加的な好ましい実施形態によれば、特徴ベクトルの少なくとも第1のシーケンスにおける特徴ベクトルに対する最小距離を持つ混合確率密度の決定は、ビタビ近似を効果的に利用する。このビタビ近似は、確率に対する和の代わりに、特徴ベクトルの少なくとも第1のセットにおける特徴ベクトルが、その混合分布を構成する確率密度のセットでの1つの構成確率密度を用いて生成されることができる最大確率を提供する。すると、このHMM状態に属する人工的に生成される特徴ベクトルのセットが、対応する特徴ベクトルの最大確率の幾何平均を有するこの混合分布により生成されることができる平均確率の計算を利用して、HMM状態を表す混合確率密度の決定が行われることができる。更に、混合確率密度に対する最小距離は、それ自身の確率を用いる代わりに確率の負の対数表現を用いて効率的に決定されることができる。
本発明の追加的な好ましい実施形態によれば、話者依存表現を混合確率密度のシーケンスに割り当てることは、混合確率密度のシーケンスにおける混合確率密度へのポインタのセットを格納することを有する。混合確率密度のセットは、本質的に音声認識システムに格納された話者非依存の基準データにより提供される。ここで、ユーザが特定した表現に対して、追加的な記憶容量が提供されなければならないことはない。HMM状態の系列により表わされる話者依存表現と、これらのHMM状態に対する最小距離又はスコアを特徴とする混合確率密度のシーケンスとの間の割り当てだけが、格納されなければならない。話者依存の基準データを明示的に格納する代わりにポインタの形式で割り当てを格納することにより、音声認識システムの記憶容量の必要性が効率的に削減されることができる。
別の側面において、本発明は、種々のトレーニング条件に対する語彙を表す混合確率密度のセットを提供するデータベースを持つ話者非依存の音声認識システムを提供する。話者非依存の音声認識システムは、ユーザにより提供される話者依存表現へと拡張可能である。話者非依存の音声認識システムは、ユーザにより提供される話者依存表現を記録する手段、話者依存表現の特徴ベクトルの少なくとも第1のシーケンスを生成する手段、特徴ベクトルの少なくとも第1のシーケンスに対する最小距離を持つ混合確率密度のシーケンスを決定する処理手段、話者依存表現と決定された混合確率密度のシーケンスとの間の割り当てを格納する記憶手段とを有する。
更に別の側面において、本発明は、話者依存表現を備える話者非依存の音声認識システムをトレーニングするコンピュータプログラムを提供する。音声認識システムは、様々なトレーニング条件に対する語彙を表す混合確率密度のセットを提供するデータベースを持つ。本発明のコンピュータプログラムは、話者依存表現の特徴ベクトルの少なくとも第1のシーケンスを生成し、その特徴ベクトルの少なくとも第1のシーケンスに対する最小距離を持つ混合確率密度のシーケンスを決定し、話者依存表現を混合確率密度のシーケンスに割り当てるよう動作するプログラム手段を有する。
なお、請求項における参照符号は、本発明の範囲を限定するものと解釈されるべきでないことに留意されたい。
以下、本発明の好ましい実施形態が、図面を参照して一層詳細に説明されることになる。
図1は、音声認識システムのフローチャートを概略的に示す。第1のステップ100において、例えば従来のマイクのようなある種の記録デバイスを用いて会話がシステムに入力される。次のステップ102において、記録された信号が、以下のステップを実行することにより解析される:それは、記録された信号をフレーム化された時間窓に分割するステップ、出力密度計算(power density computation)を実行するステップ、対数スペクトル領域における特徴ベクトルを生成するステップ、環境適合を行うステップ、及びオプションで追加的なステップを実行するステップとである。
信号解析102の第1のステップにおいて、記録された音声信号は、異なった時間間隔を覆う時間窓に分割される。それから、各時間窓に対するパワースペクトルが高速フーリエ変換(FFT)を用いて計算される。パワースペクトルに基づき、特徴ベクトルは、その会話の内容にとって特徴的であるスペクトルの最も重要な周波数部分を表すものとなる(descriptive)。信号解析102の次のステップにおいて、記録された信号とシステムに格納されたトレーニング音声から抽出された基準信号との間のミスマッチを減らすため、本発明による環境適合が行われる。
ケプストラム変換といった、更に追加的なステップがオプションで実行されることができる。次のステップ104において、トレーニングデータに基づく特徴ベクトルと、実際の信号解析プラス環境適合に基づく特徴ベクトルとの間の比較に基づき、音声認識が行われる。音声認識ステップ104への入力として、トレーニングされた音声基準の形式でトレーニングデータがステップ106により与えられる。すると認識されたテキストは、ステップ108で出力される。認識されたテキストの出力は、種々の異なる方法で行われることができる。例えば、ある種のグラフィカル・ユーザ・インタフェースにテキストを表示したり、ある種の記憶媒体にテキストを格納したり、又はある種の印刷デバイスを用いて単にテキストを印刷したりすることで行われる。
図2は、音声認識システム200のブロック図を示す。ここで、音声認識システム200の要素は、図1のステップ102で実行される信号解析をサポートし、事前にトレーニングされた基準データに話者に依存する語彙ワードを割り当てるものとして排他的に機能する。図2のブロック図に示されるように、会話202が音声認識システム200に入力される。会話202は、音声認識システム200の語彙又は事前にトレーニングされた音声基準により覆われることのない話者依存表現又はフレーズに対応する。更に、音声認識システム200は、特徴ベクトルモジュール204、データベース206、処理モジュール208、割り当て格納モジュール210、端点検出モジュール216、及び人工特徴ベクトルモジュール218を持つ。
特徴ベクトルモジュール204は、入力された会話202から特徴ベクトルのシーケンスを生成するものとして機能する。データベース206は、混合分布212、214を格納する記憶容量を提供する。混合分布はそれぞれ、話者非依存な特徴ベクトル、つまり、様々な話者及びトレーニングデータの様々な環境条件を表す特徴ベクトルを表すのに使用されることができる重み付きスペクトル密度を提供する。端点決定モジュール216は、与えられる会話202の音声間隔に対応する特徴ベクトルモジュール204により生成される特徴ベクトルのシーケンスにおけるそうした特徴ベクトルを識別するものとして機能する。ここで、端点決定モジュール216は、無音又は会話の中断に対応する記録された音声信号のフレームを捨てるものとして機能する。
人工特徴ベクトル生成モジュール218は、特徴ベクトルモジュール204又は端点決定モジュール216のいずれかからの、特徴ベクトル又は特徴ベクトルシーケンスの受信に応じて、人工的な特徴ベクトルの生成を提供する。好ましくは、人工特徴ベクトルモジュール218は、与えられる音声202の音声間隔に対応する特徴ベクトルに対する様々な人工的な特徴ベクトルを提供する。人工特徴ベクトル生成モジュール218により生成される人工特徴ベクトルは、処理モジュール208に与えられる。処理モジュール208は、複数の人工的に生成された特徴ベクトルを解析し、データベース206に格納された基準データとの比較を行う。
処理モジュール208は、特徴ベクトルモジュール204により生成された特徴ベクトルのシーケンスでの1つの特徴ベクトルに対して、又は人工特徴ベクトル生成モジュール218により提供される様々な人工的に生成された特徴ベクトルに対して、最小距離又は最小スコアを持つ混合分布212、214の混合確率密度の決定を提供する。従って最もマッチする話者非依存の混合確率密度の決定は、会話202についてもともと生成された特徴ベクトルに基づき、又は人工的に生成された特徴ベクトルに基づき、行われることができる。
こうして、会話202として提供される話者に依存する語彙ワードは、話者非依存な混合確率密度のシーケンスに割り当てられ、話者に依存する基準データの明示的な格納は省略されることができる。与えられた特徴ベクトルシーケンスに対する最小のスコアを特徴とする混合確率密度のセットの種々の混合確率密度を決定したことで、この種々の確率密度に特徴ベクトルシーケンスを割り当てることが可能になる。こうした割り当ては、通常割り当て格納モジュール210を用いて格納される。話者非依存の音声認識システムの従来の話者依存の適合に比べると、割り当て格納モジュールは、混合確率密度とHMM状態の話者依存のシーケンスとの間のポインタを格納しさえすればよい。こうして、話者依存の適合に対する記憶要求はかなり削減されることができる。
更に、データベース206により提供される話者非依存の基準データに話者依存のフレーズ又は表現を割り当てることで、本質的に環境適合が実行される。特徴ベクトルモジュール204により生成される特徴ベクトルシーケンスに割り当てられる混合分布212、214の混合確率密度のシーケンスは、本質的に、例えば異なる話者、異なる信号対ノイズ比、異なる会話速度及び異なる記録チャネル特性といった様々な環境条件を表す。
更に、人工特徴ベクトルモジュール218を用いて人工特徴ベクトルのセットを生成することにより、たとえ話者依存表現が特定の環境条件で記録されたとしても、様々な異なる環境条件がシミュレートされ生成されることができる。複数の人工特徴ベクトルと人工特徴ベクトルシーケンスとを組み合わせることにより、変化する環境条件に対する音声認識処理の性能が効率的に強化されることができる。更に、人工特徴ベクトルモジュール218を用いて与えられる、様々な人工的に生成された特徴ベクトルに基づき、混合確率密度212、214と話者依存表現との間の割り当てが実行されることもできる。
図3は、様々な人工特徴ベクトルを生成するフローチャートを示す。第1のステップ300において、特徴ベクトルシーケンスは、入力された会話202に基づき生成される。ステップ300のこの特徴ベクトルの生成は、通常、特徴ベクトルモジュール204を用いて行われるか、又は端点決定モジュール216と組み合わせて行われる。端点決定が行われるか否かに基づき、ステップ300で生成される特徴ベクトルシーケンスは、入力された会話202全体を示すか、入力された会話202の音声間隔を表すかのいずれかである。
ステップ300で与えられる特徴ベクトルシーケンスは、様々な後続ステップ302、304、306、308及び316により並列に処理される。ステップ302において、特徴ベクトルのもとのシーケンスに基づき、第1の目標の信号対ノイズ比へ導く第1の人工的なノイズを重畳させることにより、ノイズ及びチャネル適合が行われる。例えば、ステップ302において、5 dBの第1の信号対ノイズ比が適用される。同様にして、第2の目標の信号対ノイズ比を持つ第2の人工特徴ベクトルがステップ304で生成されることができる。例えば、この第2の目標SNRは10 dBである。同じようにステップ306及び308は、例えば15 dB及び30 dBの信号対ノイズ比の人工特徴ベクトルをそれぞれ生成することができる。その方法は、ステップ302、...、308により異なる人工特徴ベクトルを4つだけ生成することに限定されるものではない。説明では4つの人工的な特徴ベクトルのセットが生成されるが、これは想定される複数の実施例の1つにすぎない。こうして、本発明は、1つの人工特徴ベクトルのみが生成されるとき、十分な改善をすでに提供することができる。
しかしながら、ステップ302から308が実行された後、ステップ310、312、314の第2のセットが適用されることができる。ステップ310は、ステップ302の後に実行され、ステップ312は、ステップ304の後に実行され、そしてステップ314は、ステップ306の後に実行される。ステップ310、312、314のそれぞれ1つは、共通の目標の信号対ノイズ比を持つ人工特徴ベクトルを生成するものとして機能する。例えば、3つのステップ310、312、314は、30 dBの目標の信号対ノイズ比を生成するものとして機能する。こうして、ステップ300で生成される初期の特徴ベクトルシーケンスの単一の特徴ベクトルが、4つの異なる特徴ベクトルに変換される。特徴ベクトルはそれぞれ、同じ目標の信号対ノイズ比を持つ。特に、例えばステップ302において人工的なノイズを重畳させ、続いて生成された人工特徴ベクトルのノイズを削減する2ステップ手順が、特に入射(incident)音声信号の無音経過に対する好適な信号コントラストを得ることを可能にする。更に、ステップ310、312、314及び308で生成される、結果として生じる4つの特徴ベクトルは、続いて、人工的に生成された様々な特徴ベクトルが結合されるステップ318で効率的に結合されることができる。
人工特徴ベクトルの生成に加えて、隠れマルコフモデル状態に対する整列がステップ316で実行される。ステップ316で行われるこの整列は、好ましくは、基準ワードと元々提供された特徴ベクトルのシーケンスとの間の線形整列である。所与のHMM状態に対するこの整列に基づき、ステップ320ではマッピングが行われることができる。このマッピングは、ステップ318で与えられる特徴ベクトルの組み合わせにHMM状態を効率的に割り当てる。こうして、様々な環境条件を表す種々の特徴ベクトルが話者依存表現を表すHMM状態のシーケンスの所与のHMM状態にマップされることができる。マッピング手順の詳細は、図4を用いて説明される。
ステップ316で行われる整列と、ステップ320で行われるマッピングとは、好ましくは、図2の処理モジュール208で実行される。ステップ302からステップ314を通して行われる様々な人工特徴ベクトルの生成は通常、人工特徴ベクトルモジュール218を用いて行われる。人工特徴ベクトル生成は、ステップ302及びステップ310で実現される連続的な特徴ベクトル生成により示されるような2ステップ処理に限定されるものではないことに留意されたい。また、ステップ302、304、306及び308で生成される特徴ベクトルが、ステップ318で直接に結合されることもできる。更に、人工特徴ベクトル生成は、ノイズ及びチャネル適合に限定されるものでもない。通常、人工特徴ベクトル生成は、Lombard効果、会話速度適合、動的時間ラッピング等に関して対応するように適用されることができる。
図4は、最初の特徴ベクトルシーケンスに対する、又は特徴ベクトルシーケンスの人工的に生成されたセットのセットに対する最小距離又は最小スコアを持つ話者非依存の基準データの混合確率密度のシーケンスを決定するフローチャートを示す。ここで、最初のステップ400において、話者依存表現のHMM状態に属する人工的な特徴ベクトルのセット(i=1...n) も生成される。続くステップ402において、特徴ベクトルViが混合分布mjの確率密度dj,mで生成されることができる確率Pj,m,iが決定される。インデックスmは、混合分布jの確率密度mを表す。ここで、特徴ベクトルのセットの各特徴ベクトルに対して、その特徴ベクトルが混合分布の確率密度で表されることができるよう、確率が決定される。例えば、この確率は、
Figure 0004943335
で表わされることができ、ここで、Cは特徴ベクトル要素cの分散にのみ依存する定数であり、abs{}は絶対値処理を表す。
その後、ステップ404において、特徴ベクトルViが混合分布mjで生成されることができる確率Pj,iが計算される。こうして、特徴ベクトルが異なる混合分布により生成されることができる確率が決定される。好ましくは、このPj,iの計算は、ビタビ近似の適用を含む。こうして、混合分布mjのすべての確率密度dmの最大確率が計算される。この計算は、
Figure 0004943335
のようにして行われることができる。ここで、wj,mは、混合分布jにおけるm番目の確率密度の重みを表す。ビタビ近似を用いて、確率に関する総和が回避されることができ、最大化処理max{...}により置き換えられることができる。結果として、
Figure 0004943335
となる。
続くステップ406において、HMM状態sに属する人工的な特徴ベクトルのセットが混合分布mjで生成されることができる確率Pjが決定される。こうして、この計算はデータベース206に格納されるすべての混合分布212、214に対して実行される。従って、対応する数式は、
Figure 0004943335
と等価であり、ここでiは1からnまでのインデックスを表す。特徴ベクトルのこのシーケンスは、特徴ベクトルのシーケンスの単一の最初に得られる特徴ベクトルの人工的なセットを参照することに留意されたい。ガウシアン及び/又はラプラシアン統計量を使用することにより、確率の負の対数表現を用いることが有利である。こうして、指数性(exponentiation)が効果的に回避され、上述された式における積が、和に変換され、最大化手順は、最小化手順に変換される。そこで、距離ds,j又はスコアとも呼ばれる斯かる表現が、
Figure 0004943335
により得られることができる。
後続するステップ408において、この最小化手順は、計算されたds,jのセットに基づき実行される。すると、最もマッチする混合分布mj'は、最小スコア又は距離に対応する。従って、それが、話者依存表現の特徴ベクトルを表すデータベース206により与えられるすべての混合分布の最良の選択である。
ステップ408において最良のマッチング混合分布mj'を決定した後、この最良の混合分布mj'は、ステップ410において話者依存表現のHMM状態に割り当てられる。ステップ410で行われる割り当ては、ステップ412を用いて格納される。そこでは、ユーザ依存の表現のHMM状態と最良の混合分布mj'との間のポインタが割り当て格納モジュール210を用いて格納される。
音声認識手順のフローチャートを示す図である。 音声認識システムのブロック図を示す図である。 人工特徴ベクトルのセットを生成するフローチャートを示す図である。 与えられる特徴ベクトルのシーケンスに対する最小スコアを特徴とする確率密度を決定するフローチャートを示す図である。

Claims (9)

  1. 話者依存語句を備える話者非依存の音声認識システムをトレーニングする方法において、前記音声認識システムが、様々なトレーニング条件に対する語彙を表す混合確率密度のセットを提供するデータベースを持っており、
    −前記話者依存語句の特徴ベクトルの少なくとも第1のシーケンスを生成するステップと、
    −前記特徴ベクトルの少なくとも第1のシーケンスにおける前記特徴ベクトルに対する最小距離を持つ混合確率密度のシーケンスを決定するステップと、
    −前記話者依存語句を前記混合確率密度のシーケンスに割り当てるステップと
    −前記話者依存語句の特徴ベクトルの少なくとも第2のシーケンスを前記第1のシーケンスから生成するステップとを有し、前記特徴ベクトルの少なくとも第2のシーケンスが、前記特徴ベクトルの第1のシーケンスとは異なる環境条件にマッチするよう構成される、方法。
  2. 前記特徴ベクトルの少なくとも第2のシーケンスの生成するステップが、前記話者依存語句無音区間に対応する前記特徴ベクトルの第1のシーケンスにおける特徴ベクトルのセットに基づかれる、請求項に記載の方法。
  3. 前記特徴ベクトルの少なくとも第2のシーケンスが、ノイズ適合手順を用いて生成される、請求項に記載の方法。
  4. 前記特徴ベクトルの少なくとも第2のシーケンスが、会話速度適合手順及び/又は動的時間ラッピング手順を用いて生成される、請求項に記載の方法。
  5. 前記特徴ベクトルの少なくとも第1のシーケンスが、前記話者依存語句の隠れマルコフモデルの状態に対応する、請求項1に記載の方法。
  6. 前記混合確率密度のシーケンスを決定するステップが、ビタビ近似を利用して、前記特徴ベクトルの少なくとも第1のセットにおける特徴ベクトルが前記混合確率密度のセットにおける混合確率密度を用いて生成されることができる最大確率を与える、請求項1に記載の方法。
  7. 前記話者依存語句を前記混合確率密度に割り当てるステップが、前記混合確率密度のシーケンスを指し示すポインタのセットを格納するステップを有する、請求項1に記載の方法。
  8. 様々なトレーニング条件に対する語彙を表す混合確率密度のセットを提供するデータベースを持つ話者非依存の音声認識システムであって、該話者非依存の音声認識システムが、話者依存語句にまで拡張可能であって、
    −ユーザにより与えられる話者依存語句を記録する手段と、
    −前記話者依存語句の特徴ベクトルの少なくとも第1のシーケンスを生成する手段と、
    −前記特徴ベクトルの少なくとも第1のシーケンスにおける前記特徴ベクトルに対する最小距離を持つ混合確率密度のシーケンスを決定する処理手段と、
    −前記話者依存語句と前記混合確率密度のシーケンスとの間の割り当てを格納する記憶手段と
    −前記話者依存語句の特徴ベクトルの少なくとも第2のシーケンスを前記第1のシーケンスから生成する手段とを有し、前記特徴ベクトルの少なくとも第2のシーケンスが、異なる記録条件をシミュレートするよう構成される、話者非依存の音声認識システム。
  9. 話者依存語句を備える話者非依存の音声認識システムをトレーニングするコンピュータプログラムであって、前記音声認識システムが、様々なトレーニング条件に対する語彙を表す混合確率密度のセットを提供するデータベースを持っており、該コンピュータプログラムは、
    −前記話者依存語句の特徴ベクトルの少なくとも第1のシーケンスを生成し、
    −前記特徴ベクトルの少なくとも第1のシーケンスにおける前記特徴ベクトルに対する最小距離を持つ混合確率密度のシーケンスを決定し、
    −前記話者依存語句を前記混合確率密度のシーケンスに割り当て、
    −前記話者依存語句の特徴ベクトルの少なくとも第2のシーケンスを前記第1のシーケンスから生成するよう動作可能であり、前記特徴ベクトルの少なくとも第2のシーケンスが、異なる記録条件をシミュレートするよう構成される、コンピュータプログラム。
JP2007531910A 2004-09-23 2005-09-13 話者に依存しない堅牢な音声認識システム Expired - Fee Related JP4943335B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP04104627 2004-09-23
EP04104627.7 2004-09-23
PCT/IB2005/052986 WO2006033044A2 (en) 2004-09-23 2005-09-13 Method of training a robust speaker-dependent speech recognition system with speaker-dependent expressions and robust speaker-dependent speech recognition system

Publications (2)

Publication Number Publication Date
JP2008513825A JP2008513825A (ja) 2008-05-01
JP4943335B2 true JP4943335B2 (ja) 2012-05-30

Family

ID=35840193

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007531910A Expired - Fee Related JP4943335B2 (ja) 2004-09-23 2005-09-13 話者に依存しない堅牢な音声認識システム

Country Status (5)

Country Link
US (1) US20080208578A1 (ja)
EP (1) EP1794746A2 (ja)
JP (1) JP4943335B2 (ja)
CN (1) CN101027716B (ja)
WO (1) WO2006033044A2 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4854032B2 (ja) * 2007-09-28 2012-01-11 Kddi株式会社 音声認識における音響尤度並列計算装置及びそのプログラム
US8504365B2 (en) * 2008-04-11 2013-08-06 At&T Intellectual Property I, L.P. System and method for detecting synthetic speaker verification
US9020816B2 (en) * 2008-08-14 2015-04-28 21Ct, Inc. Hidden markov model for speech processing with training method
US9009039B2 (en) * 2009-06-12 2015-04-14 Microsoft Technology Licensing, Llc Noise adaptive training for speech recognition
US9026444B2 (en) * 2009-09-16 2015-05-05 At&T Intellectual Property I, L.P. System and method for personalization of acoustic models for automatic speech recognition
GB2482874B (en) * 2010-08-16 2013-06-12 Toshiba Res Europ Ltd A speech processing system and method
CN102290047B (zh) * 2011-09-22 2012-12-12 哈尔滨工业大学 基于稀疏分解与重构的鲁棒语音特征提取方法
US8996381B2 (en) 2011-09-27 2015-03-31 Sensory, Incorporated Background speech recognition assistant
US8768707B2 (en) 2011-09-27 2014-07-01 Sensory Incorporated Background speech recognition assistant using speaker verification
CN102522086A (zh) * 2011-12-27 2012-06-27 中国科学院苏州纳米技术与纳米仿生研究所 一种有序序列相似性对比方法的声纹识别应用
US9767793B2 (en) 2012-06-08 2017-09-19 Nvoq Incorporated Apparatus and methods using a pattern matching speech recognition engine to train a natural language speech recognition engine
US9959863B2 (en) * 2014-09-08 2018-05-01 Qualcomm Incorporated Keyword detection using speaker-independent keyword models for user-designated keywords
KR101579533B1 (ko) * 2014-10-16 2015-12-22 현대자동차주식회사 차량 및 그 제어 방법
US9978374B2 (en) * 2015-09-04 2018-05-22 Google Llc Neural networks for speaker verification
KR102550598B1 (ko) * 2018-03-21 2023-07-04 현대모비스 주식회사 음성 화자 인식 장치 및 그 방법
US11322156B2 (en) * 2018-12-28 2022-05-03 Tata Consultancy Services Limited Features search and selection techniques for speaker and speech recognition
DE102020208720B4 (de) * 2019-12-06 2023-10-05 Sivantos Pte. Ltd. Verfahren zum umgebungsabhängigen Betrieb eines Hörsystems

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5899971A (en) * 1996-03-19 1999-05-04 Siemens Aktiengesellschaft Computer unit for speech recognition and method for computer-supported imaging of a digitalized voice signal onto phonemes
JPH11242494A (ja) * 1998-02-25 1999-09-07 Mitsubishi Electric Corp 話者適応化装置と音声認識装置
JP2002520664A (ja) * 1998-07-10 2002-07-09 ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ 言語に依存しない音声認識
EP1256935A2 (de) * 2001-05-07 2002-11-13 Siemens Aktiengesellschaft Verfahren zum Training und Betrieb eines Spracherkenners, Spracherkenner und Spracherkenner-Trainingssystem
JP2003330484A (ja) * 2002-05-17 2003-11-19 Pioneer Electronic Corp 音声認識装置及び音声認識方法
WO2005013261A1 (de) * 2003-07-28 2005-02-10 Siemens Aktiengesellschaft Verfahren zur spracherkennung und kommunikationsgerät

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5450523A (en) * 1990-11-15 1995-09-12 Matsushita Electric Industrial Co., Ltd. Training module for estimating mixture Gaussian densities for speech unit models in speech recognition systems
US5452397A (en) * 1992-12-11 1995-09-19 Texas Instruments Incorporated Method and system for preventing entry of confusingly similar phases in a voice recognition system vocabulary list
US5664059A (en) * 1993-04-29 1997-09-02 Panasonic Technologies, Inc. Self-learning speaker adaptation based on spectral variation source decomposition
JPH075892A (ja) * 1993-04-29 1995-01-10 Matsushita Electric Ind Co Ltd 音声認識方法
US5528728A (en) * 1993-07-12 1996-06-18 Kabushiki Kaisha Meidensha Speaker independent speech recognition system and method using neural network and DTW matching technique
US5793891A (en) * 1994-07-07 1998-08-11 Nippon Telegraph And Telephone Corporation Adaptive training method for pattern recognition
US5604839A (en) * 1994-07-29 1997-02-18 Microsoft Corporation Method and system for improving speech recognition through front-end normalization of feature vectors
KR100383353B1 (ko) * 1994-11-01 2003-10-17 브리티쉬 텔리커뮤니케이션즈 파블릭 리미티드 캄퍼니 음성인식장치및음성인식장치용어휘발생방법
DE19510083C2 (de) * 1995-03-20 1997-04-24 Ibm Verfahren und Anordnung zur Spracherkennung bei Wortkomposita enthaltenden Sprachen
EP0769184B1 (en) * 1995-05-03 2000-04-26 Koninklijke Philips Electronics N.V. Speech recognition methods and apparatus on the basis of the modelling of new words
US5765132A (en) * 1995-10-26 1998-06-09 Dragon Systems, Inc. Building speech models for new words in a multi-word utterance
US6073101A (en) * 1996-02-02 2000-06-06 International Business Machines Corporation Text independent speaker recognition for transparent command ambiguity resolution and continuous access control
US6006175A (en) * 1996-02-06 1999-12-21 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition
US6076054A (en) * 1996-02-29 2000-06-13 Nynex Science & Technology, Inc. Methods and apparatus for generating and using out of vocabulary word models for speaker dependent speech recognition
US5842165A (en) * 1996-02-29 1998-11-24 Nynex Science & Technology, Inc. Methods and apparatus for generating and using garbage models for speaker dependent speech recognition purposes
US5895448A (en) * 1996-02-29 1999-04-20 Nynex Science And Technology, Inc. Methods and apparatus for generating and using speaker independent garbage models for speaker dependent speech recognition purpose
US5719921A (en) * 1996-02-29 1998-02-17 Nynex Science & Technology Methods and apparatus for activating telephone services in response to speech
AU5359498A (en) * 1996-11-22 1998-06-10 T-Netix, Inc. Subword-based speaker verification using multiple classifier fusion, with channel, fusion, model, and threshold adaptation
US6633842B1 (en) * 1999-10-22 2003-10-14 Texas Instruments Incorporated Speech recognition front-end feature extraction for noisy speech
US6134527A (en) * 1998-01-30 2000-10-17 Motorola, Inc. Method of testing a vocabulary word being enrolled in a speech recognition system
US6226612B1 (en) * 1998-01-30 2001-05-01 Motorola, Inc. Method of evaluating an utterance in a speech recognition system
US6223155B1 (en) * 1998-08-14 2001-04-24 Conexant Systems, Inc. Method of independently creating and using a garbage model for improved rejection in a limited-training speaker-dependent speech recognition system
US6141644A (en) * 1998-09-04 2000-10-31 Matsushita Electric Industrial Co., Ltd. Speaker verification and speaker identification based on eigenvoices
US6466906B2 (en) * 1999-01-06 2002-10-15 Dspc Technologies Ltd. Noise padding and normalization in dynamic time warping
GB2349259B (en) * 1999-04-23 2003-11-12 Canon Kk Speech processing apparatus and method
US7283964B1 (en) * 1999-05-21 2007-10-16 Winbond Electronics Corporation Method and apparatus for voice controlled devices with improved phrase storage, use, conversion, transfer, and recognition
US6535580B1 (en) * 1999-07-27 2003-03-18 Agere Systems Inc. Signature device for home phoneline network devices
US7120582B1 (en) * 1999-09-07 2006-10-10 Dragon Systems, Inc. Expanding an effective vocabulary of a speech recognition system
US6405168B1 (en) * 1999-09-30 2002-06-11 Conexant Systems, Inc. Speaker dependent speech recognition training using simplified hidden markov modeling and robust end-point detection
US6778959B1 (en) * 1999-10-21 2004-08-17 Sony Corporation System and method for speech verification using out-of-vocabulary models
US6615170B1 (en) * 2000-03-07 2003-09-02 International Business Machines Corporation Model-based voice activity detection system and method using a log-likelihood ratio and pitch
US6535850B1 (en) * 2000-03-09 2003-03-18 Conexant Systems, Inc. Smart training and smart scoring in SD speech recognition system with user defined vocabulary
US6510410B1 (en) * 2000-07-28 2003-01-21 International Business Machines Corporation Method and apparatus for recognizing tone languages using pitch information
DE60002584D1 (de) * 2000-11-07 2003-06-12 Ericsson Telefon Ab L M Anwendung von Referenzdaten für Spracherkennung
DE60213595T2 (de) * 2001-05-10 2007-08-09 Koninklijke Philips Electronics N.V. Hintergrundlernen von sprecherstimmen
JP4858663B2 (ja) * 2001-06-08 2012-01-18 日本電気株式会社 音声認識方法及び音声認識装置
US7054811B2 (en) * 2002-11-06 2006-05-30 Cellmax Systems Ltd. Method and system for verifying and enabling user access based on voice parameters
US20040181409A1 (en) * 2003-03-11 2004-09-16 Yifan Gong Speech recognition using model parameters dependent on acoustic environment
US7516069B2 (en) * 2004-04-13 2009-04-07 Texas Instruments Incorporated Middle-end solution to robust speech recognition

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5899971A (en) * 1996-03-19 1999-05-04 Siemens Aktiengesellschaft Computer unit for speech recognition and method for computer-supported imaging of a digitalized voice signal onto phonemes
JPH11242494A (ja) * 1998-02-25 1999-09-07 Mitsubishi Electric Corp 話者適応化装置と音声認識装置
JP2002520664A (ja) * 1998-07-10 2002-07-09 ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ 言語に依存しない音声認識
EP1256935A2 (de) * 2001-05-07 2002-11-13 Siemens Aktiengesellschaft Verfahren zum Training und Betrieb eines Spracherkenners, Spracherkenner und Spracherkenner-Trainingssystem
JP2003330484A (ja) * 2002-05-17 2003-11-19 Pioneer Electronic Corp 音声認識装置及び音声認識方法
WO2005013261A1 (de) * 2003-07-28 2005-02-10 Siemens Aktiengesellschaft Verfahren zur spracherkennung und kommunikationsgerät
JP2007500367A (ja) * 2003-07-28 2007-01-11 シーメンス アクチエンゲゼルシヤフト 音声認識方法およびコミュニケーション機器

Also Published As

Publication number Publication date
EP1794746A2 (en) 2007-06-13
CN101027716A (zh) 2007-08-29
CN101027716B (zh) 2011-01-26
JP2008513825A (ja) 2008-05-01
US20080208578A1 (en) 2008-08-28
WO2006033044A3 (en) 2006-05-04
WO2006033044A2 (en) 2006-03-30

Similar Documents

Publication Publication Date Title
JP4943335B2 (ja) 話者に依存しない堅牢な音声認識システム
Hirsch et al. A new approach for the adaptation of HMMs to reverberation and background noise
CN108899047B (zh) 音频信号的掩蔽阈值估计方法、装置及存储介质
Junqua Robust speech recognition in embedded systems and PC applications
US8386254B2 (en) Multi-class constrained maximum likelihood linear regression
US7571095B2 (en) Method and apparatus for recognizing speech in a noisy environment
US7797157B2 (en) Automatic speech recognition channel normalization based on measured statistics from initial portions of speech utterances
JPH075892A (ja) 音声認識方法
KR20040088368A (ko) 스위칭 상태 공간 모델들을 갖는 변분 추론을 사용하는음성 인식 방법
Kim et al. Feature compensation in the cepstral domain employing model combination
CN112053702B (zh) 一种语音处理的方法、装置及电子设备
Li et al. iMetricGAN: Intelligibility enhancement for speech-in-noise using generative adversarial network-based metric learning
US7120580B2 (en) Method and apparatus for recognizing speech in a noisy environment
JP5670298B2 (ja) 雑音抑圧装置、方法及びプログラム
Di Persia et al. Objective quality evaluation in blind source separation for speech recognition in a real room
Ichikawa et al. Dynamic features in the linear-logarithmic hybrid domain for automatic speech recognition in a reverberant environment
Liu Environmental adaptation for robust speech recognition
Vlaj et al. Voice activity detection algorithm using nonlinear spectral weights, hangover and hangbefore criteria
Pardede On noise robust feature for speech recognition based on power function family
Upadhyay et al. Robust recognition of English speech in noisy environments using frequency warped signal processing
JP2014029407A (ja) 雑音抑圧装置、方法、及びプログラム
Shahnawazuddin et al. A fast adaptation approach for enhanced automatic recognition of children’s speech with mismatched acoustic models
Pacheco et al. Spectral subtraction for reverberation reduction applied to automatic speech recognition
Kaur et al. Correlative consideration concerning feature extraction techniques for speech recognition—a review
Subramanya et al. Speech Modelingwith Magnitude-Normalized Complex Spectra and Its Application to Multisensory Speech Enhancement

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080912

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110517

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110816

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110823

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111005

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120202

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120229

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150309

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees