JP2007508577A - 音声認識システムの環境的不整合への適応方法 - Google Patents

音声認識システムの環境的不整合への適応方法 Download PDF

Info

Publication number
JP2007508577A
JP2007508577A JP2006530972A JP2006530972A JP2007508577A JP 2007508577 A JP2007508577 A JP 2007508577A JP 2006530972 A JP2006530972 A JP 2006530972A JP 2006530972 A JP2006530972 A JP 2006530972A JP 2007508577 A JP2007508577 A JP 2007508577A
Authority
JP
Japan
Prior art keywords
feature vector
silence
utterance
component
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006530972A
Other languages
English (en)
Inventor
ゲラー ディーター
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2007508577A publication Critical patent/JP2007508577A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephonic Communication Services (AREA)
  • Complex Calculations (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本発明は、環境適応を伴う音声認識の方法、システム、及びコンピュータプログラム製品に関するものである。入力音声のパワースペクトルを記述する特徴ベクトルを変換して、学習音声の録音条件と音声認識を施す音声の録音条件との不整合を解消する。この方法は、受信した音声期間が発声を表わすか発声の途切れを表わすかの確率に基づく。発声または発声の途切れの音声期間中の平均値を特定し、この値を学習データのそれぞれの値と比較して、生成された特徴ベクトルの変換を実行して、環境的な不整合を低減することができる。

Description

本発明は、音声認識システムの分野に関するものであり、特に、音声認識システムの環境条件変化への適応に関するものである。
音声認識システムは、発声された口述を書き下しテキストに書き出すものである。音声からのテキスト生成のプロセスは一般に、音声信号を受信するステップと、信号を前処理して分析を実行するステップと、分析した信号を認識し、認識したテキストを出力するステップとに分けられる。
音声信号の受信は、例えばマイクロホンのようなあらゆる録音手段によって行われる。信号分析ステップでは、受信した音声信号は一般に、通常数ミリ秒の範囲の時間間隔をカバーする時間窓(ウィンドウ)に区分される。高速フーリエ変換(FFT)によって、この時間窓のパワースペクトルが計算される。さらに、一般に三角形のカーネルを有する平滑化関数をこのパワースペクトルに適用して特徴ベクトルを生成する。この特徴ベクトルの単一成分は、上記パワースペクトルにおける音声の内容を特徴付ける固有の部分を表わし、従って、観念的には音声認識目的に適う。さらに、上記特徴ベクトルのすべての成分に対数関数を適用して、対数スペクトル領域の特徴ベクトルを生成する。信号分析ステップはさらに、環境適応ステップ並びに追加的なステップ、例えばケプストラム変換の適用、あるいは導関数または回帰Δの特徴ベクトルへの追加を含む。
認識ステップでは、分析した信号を、語彙に割り当てた学習音声シーケンスから導出した基準(参照)信号と比較する。さらに、最終ステップにおいて認識したテキストを出力する前に、文法規則並びに文脈依存のコマンドを実行することができる。
環境適応は、信号分析手順中の重要なステップである。学習させた音声基準と認識データとの環境的不整合の本質的な根源は、例えば、信号対雑音比が異なること、録音チャンネルの雑音(ノイズ)が異なること、あるいは発声対無音の比率が異なることである。
米国特許番号5,778,340
米国特許番号5,778,340は、適応機能を有する音声認識システムを開示している。ここでは、音声入力を特徴ベクトル列に変換して、このベクトル列を予備認識装置に提供する。この予備認識装置は、入力パターンと、基準パターン・メモリーに記憶された基準パターンとの類似尺度を計算することによる予備認識を実行する。このようにして計算した類似尺度によって上位候補が決まる。基準パターン・アダプタ(適応装置)は、基準パターン、入力パターン、上位候補に基づく基準パターンの適応を実行して、適応させた基準パターンを基準パターン・メモリーに新たに記憶する。そして最終認識装置は、上位候補に対応する新たに記憶した基準パターンを用いることによって、入力パターンの音声認識を実行する。
上記適応手段は、発声期間中の入力パターンと雑音期間中の入力パターンとの分離を具えている。雑音期間は、発声が途切れる音声期間に相当する。米国特許番号5,778,340はさらに、基準及び入力パターンにおける雑音及び発声期間中の平均スペクトルの計算を開示している。そして、入力または基準パターンのいずれかの適応を、計算したスペクトルを利用したある種の適応関数によって実行する。いずれにせよ、この方法は、音声期間が発声を表わすか雑音を表わすかという難しい判定に基づく。受信した音声信号及び付加雑音次第では、こうした判定を明確に行うことはできない。従って、一部の厳しい状況では、もとになるシステムが雑音期間を発声期間として解釈するか、あるいはその逆があり得る。
米国特許番号2002/0091521A1
米国特許番号2002/0091521A1は、学習条件とテスト(試験)条件とが不整合な条件下での高速音声認識の技術を記載している。例示されている技術は、最尤スペクトル変換(MLST:Maximum Likelihood Spectral Transformation)に基づくものである。ここでは、実時間発声の音声の特徴ベクトルを線形スペクトル領域に変換し、これにより、変換後の発声の尤度が増加する。最尤スペクトル変換は、この線形スペクトル領域内の畳み込み雑音及び適応雑音に相当する2つのパラメータを推定する。これら2つの雑音パラメータを推定した後に特徴ベクトルの変換を実行して、テスト発声の尤度を増加させる。記載されている技術は線形スペクトル領域に適用され、音声のダイナミックレンジはかなり大きいので、必要なパラメータの高信頼性で強固な決定は困難になり得る。
米国特許番号2003-0050780A1
米国特許番号2003-0050780A1は、背景雑音の存在中に供給される入力音声上の話者適応を記載している。ここでは、特徴抽出後に話者適応に先立って、背景雑音の線形近似を適用して、システムが、背景雑音による歪みなしに音声モデルを登録ユーザーに適応させることを可能にする。ここでは、話者適応モジュールは、上記適応に先立って逆線形近似演算子を用いて背景雑音の影響を除去する。逆線形近似の結果は、背景雑音の影響を除去してきれいにされた、一組の修正された観測データである。米国特許番号2003-0050780A1に記載の雑音(ノイズ)補償認識装置は、特定の雑音条件下で開発され、従って異なる雑音条件下で用いられる音響モデルを用いる。従って、少なくとも2つの雑音レベル差間の雑音レベル差の推定値を評価しなければならない。このことは一般に、入力音声の発声が始まる前の発声前フレームから特徴を抽出する特徴抽出モジュールによって実行される。
本発明は、音声認識システムを種々の環境条件に適応させるための改善された方法及び装置を提供することにある。
本発明は、対数スペクトル領域内での一連の特徴ベクトルの生成、受信した音声期間が発声を表わすか発声の途切れを表わすかの確率の計算、認識すべき音声及び学習音声のそれぞれについての、発声期間中の平均値及び無音期間中の平均値の計算を利用することによる音声認識システムの環境適応の方法を提供する。
前記対数スペクトル領域内の前記一連の特徴ベクトルの各特徴ベクトルは、認識すべき音声のパワースペクトルの記述であり、このパワースペクトルは別個の時間間隔をカバーする時間窓に対応する。音声認識システムは一般に、認識目的の学習条件下で記録された基準特徴ベクトルを具えている。本発明の方法は主に、特徴ベクトルの変換に基づくものであり、これにより、異なる環境での録音条件による不整合を最小化する。
本発明の好適例によれば、本発明の方法は、音声期間が発声を表わすか、無音の形で発声の途切れを表わすかを厳密には区別しない。その代わりに、この方法は、音声期間が発声を表わす確率である発声確率、または無音を表わす確率である無音確率を特定及び計算する。このようにして、困難であり潜在的に誤った判定を回避して、音声認識システム全体の信頼性を向上させる。
この方法は、前記特徴ベクトルの成分毎に、単調減少確率関数によって無音確率を計算する。この確率関数が必要とするパラメータは、単にそれぞれの特徴ベクトル成分のモジュロ(法)である。特徴ベクトル成分が大きいほど、それぞれの特徴ベクトル成分が無音期間を表わす確率は小さくなる。対応する発声確率は、無音確率と1との差によって与えられる。
前記方法はさらに、平均関数によって、特徴ベクトル毎に無音期間中及び発声期間中の平均値を計算する。特徴ベクトルの部分集合に基づいて、前記平均関数は、重みとしての前記無音及び発声確率に基づいて、それぞれの特徴ベクトルに対する平均値を提供する。これに対応して、前記方法はさらに、学習特徴ベクトルの単一成分の無音及び発声についての平均値を計算する。そして、特徴ベクトルの成分毎に別個に、環境適応のための本質的な変換機能を実行し、この変換機能は、特徴ベクトル成分自体、特徴ベクトル成分の無音確率、特徴ベクトルの部分集合のそれぞれの特徴ベクトル成分の無音についての平均値及び発声についての平均値、及び学習特徴ベクトルの部分集合のそれぞれの特徴ベクトル成分の無音についての平均値及び発声についての平均値に基づいて行う。
特徴ベクトルの部分集合と学習特徴ベクトルの部分集合との、無音についての平均値どうしの比較は、録音された音声の雑音レベル及び/または録音環境条件差についての汎用的な指標を与える。同様に、特徴ベクトルの部分集合と学習特徴ベクトルの部分集合との、発声についての平均値どうしを比較することができる。一般に、特徴ベクトル成分の変換は、この比較を特徴ベクトル成分の確率値と組み合わせて利用する。
本発明の他の好適例によれば、各特徴ベクトル成分の発声確率の計算を実行する。一般に、この方法は、単調減少確率関数を利用して無音確率を生成し、これに続いて、この無音確率を1から減算する。この好適例によれば、特徴ベクトル成分の計算は、計算された発声確率を明示的に考慮に入れる。
本発明の他の好適例によれば、特徴ベクトル成分並びに学習特徴ベクトル成分について、無音及び発声についての平均値を生成する平均関数は、移動加重平均関数の形で実現される。平均計算は、特徴ベクトルの部分集合全体にわたって実行する。例えば、別個の特徴ベクトル成分の無音についての平均値は、それぞれの特徴ベクトル成分にそれぞれの特徴ベクトル成分の無音確率を乗じた積の総和を、それぞれの無音確率のすべての総和で割ったものによって与えられ、ここで総計指標(インデックス)は、特徴ベクトルの部分集合のすべての特徴ベクトル上を移動する。
特徴ベクトル成分の無音または発声平均値の計算は、特徴ベクトルの部分集合に対して、学習特徴ベクトルの部分集合と同じ方法で実行する。両方の部分集合は一般に、同数の特徴ベクトルから成る。音声認識中に永続的に取得されるこれらの特徴ベクトルの平均値は動的に変化し、音声認識の処理期間中計算しなければならず、これに対し学習特徴ベクトルを表わす平均値は一定のままであり、従ってある種の記憶手段に記憶しておくことができる。このようにして、本発明の方法は変化する環境条件に動的に適応する。このことは、音声認識システムの高い信頼性及び高い柔軟性を提供する。
本発明の好適例によれば、特徴ベクトル成分の無音及び発声についての平均値を計算する特徴ベクトルの部分集合は一般に、10個、好適には20〜30個の特徴ベクトルから成る。
本発明の他の好適例によれば、前記単調減少確率関数は傾き定数(α)を具え、この値は、この単調減少確率関数の傾きを記述する。このようにして、発声確率または無音確率の別個の特徴ベクトル成分への割り当てを、上記傾き定数(α)の変化によって手動で適応させることができる。このことは極めて実用的である、というのは、音声認識システムを手動で、異なる種類の環境雑音、例えば白色雑音または他の種類のより不規則な雑音パターンに適応させることができるからである。
本発明の他の好適例によれば、(無音についての平均値)+(無音についての適切な分散値)の無音確率関数が、0.5の無音確率を生じさせる。
本発明の他の好適例によれば、前記無音確率関数はシグマ関数によって与えられ、その特定形はさらに、次式によって詳述される:
Figure 2007508577
ここに、
silは、特徴ベクトルの無音についての平均値であり、
silは、特徴ベクトルの無音についての分散値であり、
cは、特徴ベクトル成分である。
本発明の他の好適例によれば、特徴ベクトル成分用の変換関数が次の数式モデルによって与えられる:
c,new=Fc,old+(MTRsil−Msil)Psil+(MTRsp−Msp)Psp
ここに、
c,newは変換された特徴ベクトル成分であり、
c,oldは特徴ベクトル成分であり、
MTRsilは学習特徴ベクトルの無音についての平均値であり、
MTRspは学習特徴ベクトルの発声についての平均値であり、
spは特徴ベクトルの発声についての平均値であり、
silは特徴ベクトルの無音についての平均値であり、
silは無音確率であり、
spは発声確率である。
さらに、本発明の環境適応の方法は、特徴ベクトルに特化するだけでなく、対数スペクトル領域内のスベクトル全体にも適用可能である。さらに、学習させた音声基準と認識データとの環境的な不整合の本質的な根源、例えば信号対雑音比、録音チャンネル、及び発声中の発声と無音との比率が同時に取り扱われる。本発明の手順及び方法は単純な演算アルゴリズムを提供するので、メモリー及び演算時間のリソースの小さいディジタル信号プロセッサ(DSP)における利用に特に適している。
以下、本発明の好適な実施例について図面を参照しながらより詳細に説明する。
図1に、音声認識システムのフローチャートを図式的に示す。ステップ100では、音声を、ある種の録音装置、例えば通常のマイクロホンによってシステムに入力する。次のステップ102では、下記のステップを実行することによって、録音された信号を分析する:録音された信号をフレーム化した時間窓に区分するステップ;パワー密度の計算を実行するステップ;対数スペクトル空間内に特徴ベクトルを生成するステップ;環境適応を実行するステップ;随意的に追加ステップを実行するステップ。
信号分析ステップ102中の最初のステップでは、録音された音声信号を、別個の時間間隔をカバーする時間窓に区分する。そして高速フーリエ変換(FFT)によって時間窓毎にパワースペクトルを計算する。このパワースペクトルに基づけば、前記特徴ベクトルは、このスペクトル中の、発声内容について特徴的な最も関係する周波数部分上で記述される。信号分析ステップ102中の次のステップでは、本発明による環境適応を実行して、録音された信号と、システム内に記憶されている学習音声から抽出した基準信号との不整合を低減する。
さらなる追加ステップ、例えばケプストラム変換を随意的に実行することができる。次のステップ104では、学習データに基づく特徴ベクトルと実際の信号分析に基づく特徴ベクトルとの比較、及びこれに加えて環境適応に基づいて音声認識を実行する。学習させた音声基準の形の学習データを、音声認識ステップ104への入力としてステップ106によって提供する。そしてステップ108では、認識したテキストを出力する。認識したテキストの出力は、多様な方法で実行することができ、例えば、テキストをある種のグラフィカル・ユーザー・インターフェース上に表示すること、テキストをある種の記憶媒体上に記憶すること、あるいは単に何らかの印刷装置によってテキストを印字することである。
図2に、本発明による環境適応を例示する。音声認識システムによって提供される特徴ベクトルを特定の環境条件に適応させる。ここでは、各特徴ベクトルjの単一の成分iを変換して、受信した音声から生成した特徴ベクトル成分と学習データの特徴ベクトル成分との不整合を最小化する。
ステップ200では、1つの特徴ベクトル(j=1)を選択する。次のステップ202では、特徴ベクトルjの単一成分(i=1)を選択する。そして、選択した特徴ベクトル成分をステップ204に渡し、ステップ204では、この特徴ベクトル成分の無音確率を確率関数に従って計算する。ステップ206では、この特徴ベクトル成分の適切な発声確率を計算する。この特徴ベクトル成分について計算した発生確率及び無音確率は、上記選択した特徴ベクトル成分が発声を表わすか発声の途切れを表わすかを示す。ステップ208では、すべての特徴ベクトルjの特徴ベクトル成分iの無音についての平均値を計算する。ステップ210では、すべての特徴ベクトルjの特徴ベクトル成分iの発声についての適切な平均値を計算する。
すべての特徴ベクトルjの別個の成分iの無音についての平均値及び発声についての平均値の計算は、移動加重平均関数に基づく。ステップ224及び226では、学習データのすべての特徴ベクトルjについて、学習特徴ベクトルの別個の特徴ベクトルiについて、無音についての適切な平均値及び発声についての適切な平均値を計算してステップ212に提供する。ステップ212では、選択した特徴ベクトル成分、ステップ204で計算した特徴ベクトル成分の無音確率及びステップ206で計算した特徴ベクトル成分の発声確率、並びにステップ208で計算した無音についての平均値、ステップ210で計算した発声についての平均値、及びそれぞれステップ224及びステップ226で計算した学習データの無音及び発声についての平均値に基づいて、選択した特徴ベクトル成分を新たな特徴ベクトルに変換する。
発声及び無音について生成した平均値は、例えば理想的な、従って無雑音の環境条件下で録音した学習データの無音及び発声の適切な平均値と比べた際に、環境不整合の指標を与える。特徴ベクトル成分の変換をステップ212で実行した際に、新たに生成された特徴ベクトル成分、従って環境に適応させた特徴ベクトル成分は、ステップ214において音声認識モジュールに代入される。ステップ214において、適応させた特徴ベクトル成分を代入した後に、本発明の方法は、ステップ216において、特徴ベクトルの成分の指標iが特徴ベクトルの成分の数m以上であるか否かをチェックする。ステップ216において、成分指標iがm、即ち特徴ベクトルの成分の数より小さい場合には、成分の指標iを1だけ増加させて、本発明の方法はステップ204に戻る。他の場合、即ち、成分指標iが特徴ベクトルの成分数m以上である際には、本発明の方法はステップ218に進み、ステップ218では、特徴ベクトル全体に、音声認識モジュールによって実行される音声認識を施す。ステップ218の音声認識後に、ステップ220では、特徴ベクトルの指標jが特徴ベクトルの数n以上であるか否かをチェックする。特徴ベクトルの指標jがnより小さい場合には、jを1だけ増加させて、本発明の方法はステップ204に戻る。他の場合、即ちjがn以上である際には、すべての特徴ベクトルが変換され、本発明の方法はステップ222で停止する。
演算時間を低減し、環境適応方法の効率を増加させるために、ステップ208及び210における無音及び発声についての平均値の計算は必ずしもすべての特徴ベクトルを含まない。その代わりに、無音及び発声についての平均値の計算は特徴ベクトルの部分集合に基づくこともできる。こうした場合には、ステップ224及び226によって提供される学習特徴ベクトルの無音及び発声についての平均値も、学習特徴ベクトルの適切な部分集合に基づかなければならない。このように、特徴ベクトルのすべての環境適応に必要な無音及び発声についての平均値の計算において、特徴ベクトル及び学習特徴ベクトルの全体を考慮に入れる必要はない。
図3に、特徴ベクトル成分の無音確率の計算用の代表的な確率関数を例示する。横軸300は特徴ベクトル成分のモジュロ(法)を表わし、縦軸302は、グラフ304によって例示される関数による適切な無音確率を与える。本発明による確率関数は原則的に、あらゆる単調減少関数によって表現することができる。関数304は、音声認識システムにおける確率分布に一般に用いられるシグマ関数の一例に過ぎない。この確率関数は、(無音についての平均値)+(適切な分散値)の合計に対して約0.5の無音確率を与える。
図4に、本発明による環境適応を伴う音声認識システム402のブロック図を示す。概括的に、音声400が音声認識システム402に入力され、音声認識システム402は音声からテキストへの変換を実行し、テキスト404が音声認識システム402から出力される。音声認識システム402は、特徴ベクトル生成モジュール406、環境適応モジュール408、及び音声認識モジュール410を具えている。さらに、音声認識システム402は、学習特徴ベクトル412、並びに学習特徴ベクトル412の無音及び発声確率を無音及び発声についての平均値と共に記憶し提供するためのメモリーモジュール414及び416を具えている。
環境適応モジュール408は、無音及び発声確率モジュール418、無音及び発声平均値モジュール420、並びに特徴ベクトル変換モジュール422を具えている。
録音された音声400は特徴ベクトル生成モジュール406に伝送される。特徴ベクトル伝送モジュール406は、音声認識目的の特徴ベクトルを対数スペクトル領域内に生成するために必要なステップを実行する。そして生成された特徴ベクトルは、環境適応モジュール408内の無音及び発声確率モジュール418、及び無音及び発声平均値モジュール、並びに特徴ベクトル変換モジュール422に伝送される。無音及び発声平均値モジュール420は、特徴ベクトル成分毎に、無音及び発声についての平均値を計算し、無音及び発声確率モジュール418は、同様の方法で、特徴ベクトル成分毎に発声及び無音確率を計算する。
こうして生成された特徴ベクトル成分毎の無音及び発声確率、並びに無音及び発声についての平均値は、特徴ベクトル変換モジュール422に伝送される。前記変換関数、特定の特徴ベクトル成分、無音及び発声確率、並びに無音及び発声についての平均値、及び学習特徴ベクトル412の無音及び発声についての平均値に基づいて、特徴ベクトル変換モジュール422は特定の特徴ベクトル成分の変換を実行する。
すべての特徴ベクトルの成分毎に変換を実行するので、特徴ベクトル生成モジュール406によって生成される特徴ベクトルの全体が、音声認識モジュール410に代入される特徴ベクトル成分の新たな組を生成することによって適応される。音声認識モジュール410では、音声400の環境的に適応された特徴ベクトルが学習特徴ベクトル412と比較されて、音声の各部分がテキスト及びテキストフレーズ(文字列の句)に割り当てられる。そして認識された音声は最終的にテキスト404として出力される。
音声認識システムのフローチャートである。 環境適応を実行するためのフローチャートの例示である。 確率関数の単調減少を示す図である。 本発明による音声認識システム及び環境適応のブロック図である。

Claims (16)

  1. 一連の特徴ベクトルを提供する音声認識システムの環境適応方法であって、前記特徴ベクトルの各々が、認識すべき音声のパワースペクトルを記述する音声認識システムの環境適応方法において、
    前記特徴ベクトルの成分毎に:
    単調減少確率関数によって、前記特徴ベクトルの成分の無音確率を計算するステップと;
    学習特徴ベクトルの少なくとも部分集合中のそれぞれの成分の、無音期間中及び発声期間中の平均値を提供するステップと;
    前記特徴ベクトルの少なくとも部分集合に基づく平均関数によって、前記特徴ベクトルの成分の無音期間中及び発声期間中の平均値を計算するステップと;
    前記特徴ベクトルの成分を変換関数によって変換するステップであって、前記変換関数が、前記特徴ベクトル及び前記学習ベクトルの無音及び発声についての平均値、前記特徴ベクトルの成分の無音確率、及び前記特徴ベクトルの成分自体に基づくものであるステップと
    を具えていることを特徴とする音声認識システムの環境適応方法。
  2. 前記方法がさらに、前記特徴ベクトルの成分毎に:
    単調増加確率関数によって、発声についての発声確率を計算するステップと;
    前記特徴ベクトルの成分を前記変換関数によって変換するステップであって、前記変換関数がさらに、前記特徴ベクトルの成分の前記発声確率に基づくステップと
    を具えていることを特徴とする請求項1に記載の方法。
  3. 前記平均関数が移動加重平均関数であり、前記無音及び発声についての平均値の計算が前記特徴ベクトルの前記部分集合に基づき、前記部分集合が、少なくも10個、好適には20〜30個の特徴ベクトルから成ることを特徴とする請求項1または2に記載の方法。
  4. 前記学習特徴ベクトルの無音期間中及び発声期間中の平均値を提供するステップが、前記学習特徴ベクトルの部分集合についての加重平均関数である学習平均関数に基づくものであり、前記部分集合が、少なくとも10個、好適には20〜30個の特徴ベクトルから成ることを特徴とする請求項1〜3のいずれかに記載の方法。
  5. 前記確率関数が、前記単調減少または単調増加確率関数の傾きを記述する傾き定数(α)を具え、前記傾き定数が修正可能であることを特徴とする請求項1〜4のいずれかに記載の方法。
  6. 前記特徴ベクトルの成分の前記変換が、次式:
    c,new=Fc,old+(MTRsil−Msil)Psil+(MTRsp−Msp)Psp
    ここに、
    c,newは変換された前記特徴ベクトルの成分であり、
    c,oldは前記特徴ベクトルの成分であり、
    MTRsilは前記学習特徴ベクトルの無音についての平均値であり、
    MTRspは前記学習特徴ベクトルの発声についての平均値であり、
    spは前記特徴ベクトルの発声についての平均値であり、
    silは前記特徴ベクトルの無音についての平均値であり、
    silは前記無音確率であり、
    spは前記発声確率である、
    によって与えられることを特徴とする請求項1〜5のいずれかに記載の方法。
  7. 前記無音確率の計算に用いる関数が、次式の形式のシグマ関数:
    Figure 2007508577
    によって与えられ、
    前記発声確率の計算に用いる関数が、次式:
    sp=1−Psil
    ここに、
    silは音声の無音期間中の平均値であり、
    silは無音についての平均値からの分散であり、
    αは前記傾き定数であり、
    cは前記特徴ベクトルの成分である、
    によって与えられることを特徴とする請求項1〜6のいずれかに記載の方法。
  8. 環境適応を伴う音声認識システムであって、前記音声認識システムが一連の特徴ベクトルを提供し、前記特徴ベクトルの各々が、認識すべき音声のパワースペクトルを記述する音声認識システムにおいて、
    前記特徴ベクトルの成分毎に:
    単調減少確率関数によって、前記特徴ベクトルの成分の無音確率を計算する手段と;
    学習特徴ベクトルの少なくとも部分集合中のそれぞれの成分の無音期間中及び発声期間中の平均値を提供する手段と;
    前記特徴ベクトルの少なくとも部分集合に基づく平均関数によって、前記特徴ベクトルの成分の無音期間中及び発声期間中の平均値を計算する手段と;
    前記特徴ベクトルの成分を変換関数によって変換する手段であって、前記変換関数が、前記特徴ベクトル及び前記学習ベクトルの無音及び発声についての平均値、前記特徴ベクトルの成分の無音確率、及び前記特徴ベクトルの成分自体に基づくものである手段と
    を具えていることを特徴とする音声認識システム。
  9. 前記システムがさらに、前記特徴ベクトルの成分毎に:
    単調増加確率関数によって、発声についての発声確率を計算する手段と;
    前記特徴ベクトルの成分を前記変換関数によって変換する手段であって、前記変換関数がさらに、前記特徴ベクトルの成分の前記発声確率に基づく手段と
    を具えていることを特徴とする請求項8に記載のシステム。
  10. 前記平均関数が移動加重平均関数であり、前記無音及び発声についての平均値の計算が前記特徴ベクトルの前記部分集合に基づき、前記部分集合が、少なくも10個、好適には20〜30個の特徴ベクトルから成ることを特徴とする請求項8または9に記載のシステム。
  11. 前記学習特徴ベクトルの無音及び発声についての平均値を提供する手段が記憶手段を具え、前記学習特徴ベクトルの成分の無音及び発声についての平均値が前記記憶手段に記憶されることを特徴とする請求項8〜10のいずれかに記載のシステム。
  12. 環境適応を伴う音声認識システム用のコンピュータプログラム手段を有するコンピュータプログラム製品であって、前記音声認識システムが一連の特徴ベクトルを提供し、前記特徴ベクトルの各々が、認識すべき音声のパワースペクトルを記述するコンピュータプログラム製品において、
    前記特徴ベクトルの成分毎に:
    単調減少確率関数によって、前記特徴ベクトルの成分の無音確率を計算するプログラム手段と;
    学習特徴ベクトルの少なくとも部分集合中のそれぞれの成分の無音期間中及び発声期間中の平均値を提供するプログラム手段と;
    前記特徴ベクトルの少なくとも部分集合に基づく平均関数によって、前記特徴ベクトルの成分の無音期間中及び発声期間中の平均値を計算するプログラム手段と;
    前記特徴ベクトルの成分を変換関数によって変換するプログラム手段であって、前記変換関数が、前記特徴ベクトル及び前記学習ベクトルの無音及び発声についての平均値、前記特徴ベクトルの成分の無音確率、及び前記特徴ベクトルの成分自体に基づくものであるプログラム手段と
    を具えていることを特徴とするコンピュータプログラム製品。
  13. 前記コンピュータプログラム製品がさらに、前記特徴ベクトルの成分毎に:
    単調増加確率関数によって、発声についての発声確率を計算するプログラム手段と;
    前記特徴ベクトルの成分を前記変換関数によって変換するプログラム手段であって、前記変換関数がさらに、前記特徴ベクトルの成分の前記発声確率に基づくプログラム手段と
    を具えていることを特徴とする請求項12に記載のコンピュータプログラム製品。
  14. 前記平均関数が移動加重平均関数であり、前記無音及び発声についての平均値の計算が前記特徴ベクトルの前記部分集合に基づき、前記部分集合が、少なくも10個、好適には20〜30個の特徴ベクトルから成ることを特徴とする請求項12または13に記載のコンピュータプログラム製品。
  15. 前記特徴ベクトルの成分の前記変換が、次式:
    c,new=Fc,old+(MTRsil−Msil)Psil+(MTRsp−Msp)Psp
    ここに、
    c,newは変換された前記特徴ベクトルの成分であり、
    c,oldは前記特徴ベクトルの成分であり、
    MTRsilは前記学習特徴ベクトルの無音についての平均値であり、
    MTRspは前記学習特徴ベクトルの発声についての平均値であり、
    spは前記特徴ベクトルの発声についての平均値であり、
    silは前記特徴ベクトルの無音についての平均値であり、
    silは前記無音確率であり、
    spは前記発声確率である、
    によって与えられる
    ことを特徴とする請求項12〜14のいずれかに記載のコンピュータプログラム製品。
  16. 前記無音確率の計算に用いる関数が、次式の形式のシグマ関数:
    Figure 2007508577
    によって与えられ、
    前記発声確率の計算に用いる関数が、次式:
    sp=1−Psil
    ここに、
    silは音声の無音期間中の平均値であり、
    silは無音についての平均値からの分散であり、
    αは前記傾き定数であり、
    cは前記特徴ベクトルの成分である、
    によって与えられることを特徴とする請求項12〜15のいずれかに記載のコンピュータプログラム製品。
JP2006530972A 2003-10-08 2004-10-05 音声認識システムの環境的不整合への適応方法 Withdrawn JP2007508577A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP03103727 2003-10-08
PCT/IB2004/051969 WO2005036525A1 (en) 2003-10-08 2004-10-05 Adaptation of environment mismatch for speech recognition systems

Publications (1)

Publication Number Publication Date
JP2007508577A true JP2007508577A (ja) 2007-04-05

Family

ID=34429460

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006530972A Withdrawn JP2007508577A (ja) 2003-10-08 2004-10-05 音声認識システムの環境的不整合への適応方法

Country Status (7)

Country Link
US (1) US20070124143A1 (ja)
EP (1) EP1673761B1 (ja)
JP (1) JP2007508577A (ja)
CN (1) CN1864202A (ja)
AT (1) ATE362165T1 (ja)
DE (1) DE602004006429D1 (ja)
WO (1) WO2005036525A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7725316B2 (en) * 2006-07-05 2010-05-25 General Motors Llc Applying speech recognition adaptation in an automated speech recognition system of a telematics-equipped vehicle
EP2317730B1 (en) 2009-10-29 2015-08-12 Unify GmbH & Co. KG Method and system to automatically change or update the configuration or setting of a communication system
GB2482874B (en) 2010-08-16 2013-06-12 Toshiba Res Europ Ltd A speech processing system and method
RU2611766C2 (ru) * 2011-03-16 2017-02-28 Конинклейке Филипс Н.В. Оценка симптомов дыхательной недостаточности и отека
US8972256B2 (en) * 2011-10-17 2015-03-03 Nuance Communications, Inc. System and method for dynamic noise adaptation for robust automatic speech recognition
US9338580B2 (en) * 2011-10-21 2016-05-10 Qualcomm Incorporated Method and apparatus for packet loss rate-based codec adaptation

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5604839A (en) * 1994-07-29 1997-02-18 Microsoft Corporation Method and system for improving speech recognition through front-end normalization of feature vectors
JP2768274B2 (ja) * 1994-09-08 1998-06-25 日本電気株式会社 音声認識装置
JPH10161692A (ja) * 1996-12-03 1998-06-19 Canon Inc 音声認識装置及び音声認識方法
KR100304666B1 (ko) * 1999-08-28 2001-11-01 윤종용 음성 향상 방법
US7072833B2 (en) * 2000-06-02 2006-07-04 Canon Kabushiki Kaisha Speech processing system

Also Published As

Publication number Publication date
EP1673761A1 (en) 2006-06-28
ATE362165T1 (de) 2007-06-15
DE602004006429D1 (de) 2007-06-21
WO2005036525A1 (en) 2005-04-21
CN1864202A (zh) 2006-11-15
US20070124143A1 (en) 2007-05-31
EP1673761B1 (en) 2007-05-09

Similar Documents

Publication Publication Date Title
US7181390B2 (en) Noise reduction using correction vectors based on dynamic aspects of speech and noise normalization
EP1199708B1 (en) Noise robust pattern recognition
US7133826B2 (en) Method and apparatus using spectral addition for speaker recognition
US5091948A (en) Speaker recognition with glottal pulse-shapes
US7460992B2 (en) Method of pattern recognition using noise reduction uncertainty
US7925502B2 (en) Pitch model for noise estimation
US20080208578A1 (en) Robust Speaker-Dependent Speech Recognition System
KR100766761B1 (ko) 화자-독립형 보이스 인식 시스템용 보이스 템플릿을구성하는 방법 및 장치
US20100161330A1 (en) Speech models generated using competitive training, asymmetric training, and data boosting
US7254536B2 (en) Method of noise reduction using correction and scaling vectors with partitioning of the acoustic space in the domain of noisy speech
EP1508893B1 (en) Method of noise reduction using instantaneous signal-to-noise ratio as the Principal quantity for optimal estimation
NZ316124A (en) Pattern recognition for speech recognising noise signals signatures
JPH075892A (ja) 音声認識方法
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
KR101065188B1 (ko) 진화 학습에 의한 화자 적응 장치 및 방법과 이를 이용한 음성인식 시스템
US7120580B2 (en) Method and apparatus for recognizing speech in a noisy environment
JP2007508577A (ja) 音声認識システムの環境的不整合への適応方法
JP2002366192A (ja) 音声認識方法及び音声認識装置
JP2000194392A (ja) 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体
Wang et al. Improved Mandarin speech recognition by lattice rescoring with enhanced tone models
JP2003513320A (ja) 音声信号からの雑音の消去
JP2000194385A (ja) 音声認識処理装置
Farsi et al. Text Independent Speaker Recognition Using Mixed MFCC and WOCOR Methods in Persian Language
IL98060A (en) Speech recognition system

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20070322

A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080108