JP2007508577A

JP2007508577A - 音声認識システムの環境的不整合への適応方法

Info

Publication number: JP2007508577A
Application number: JP2006530972A
Authority: JP
Inventors: ゲラーディーター
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2003-10-08
Filing date: 2004-10-05
Publication date: 2007-04-05
Also published as: WO2005036525A1; EP1673761A1; US20070124143A1; CN1864202A; EP1673761B1; DE602004006429D1; ATE362165T1

Abstract

本発明は、環境適応を伴う音声認識の方法、システム、及びコンピュータプログラム製品に関するものである。入力音声のパワースペクトルを記述する特徴ベクトルを変換して、学習音声の録音条件と音声認識を施す音声の録音条件との不整合を解消する。この方法は、受信した音声期間が発声を表わすか発声の途切れを表わすかの確率に基づく。発声または発声の途切れの音声期間中の平均値を特定し、この値を学習データのそれぞれの値と比較して、生成された特徴ベクトルの変換を実行して、環境的な不整合を低減することができる。

Description

本発明は、音声認識システムの分野に関するものであり、特に、音声認識システムの環境条件変化への適応に関するものである。

音声認識システムは、発声された口述を書き下しテキストに書き出すものである。音声からのテキスト生成のプロセスは一般に、音声信号を受信するステップと、信号を前処理して分析を実行するステップと、分析した信号を認識し、認識したテキストを出力するステップとに分けられる。

音声信号の受信は、例えばマイクロホンのようなあらゆる録音手段によって行われる。信号分析ステップでは、受信した音声信号は一般に、通常数ミリ秒の範囲の時間間隔をカバーする時間窓（ウィンドウ）に区分される。高速フーリエ変換（ＦＦＴ）によって、この時間窓のパワースペクトルが計算される。さらに、一般に三角形のカーネルを有する平滑化関数をこのパワースペクトルに適用して特徴ベクトルを生成する。この特徴ベクトルの単一成分は、上記パワースペクトルにおける音声の内容を特徴付ける固有の部分を表わし、従って、観念的には音声認識目的に適う。さらに、上記特徴ベクトルのすべての成分に対数関数を適用して、対数スペクトル領域の特徴ベクトルを生成する。信号分析ステップはさらに、環境適応ステップ並びに追加的なステップ、例えばケプストラム変換の適用、あるいは導関数または回帰Δの特徴ベクトルへの追加を含む。

認識ステップでは、分析した信号を、語彙に割り当てた学習音声シーケンスから導出した基準（参照）信号と比較する。さらに、最終ステップにおいて認識したテキストを出力する前に、文法規則並びに文脈依存のコマンドを実行することができる。

環境適応は、信号分析手順中の重要なステップである。学習させた音声基準と認識データとの環境的不整合の本質的な根源は、例えば、信号対雑音比が異なること、録音チャンネルの雑音（ノイズ）が異なること、あるいは発声対無音の比率が異なることである。

米国特許番号5,778,340

米国特許番号5,778,340は、適応機能を有する音声認識システムを開示している。ここでは、音声入力を特徴ベクトル列に変換して、このベクトル列を予備認識装置に提供する。この予備認識装置は、入力パターンと、基準パターン・メモリーに記憶された基準パターンとの類似尺度を計算することによる予備認識を実行する。このようにして計算した類似尺度によって上位候補が決まる。基準パターン・アダプタ（適応装置）は、基準パターン、入力パターン、上位候補に基づく基準パターンの適応を実行して、適応させた基準パターンを基準パターン・メモリーに新たに記憶する。そして最終認識装置は、上位候補に対応する新たに記憶した基準パターンを用いることによって、入力パターンの音声認識を実行する。

上記適応手段は、発声期間中の入力パターンと雑音期間中の入力パターンとの分離を具えている。雑音期間は、発声が途切れる音声期間に相当する。米国特許番号5,778,340はさらに、基準及び入力パターンにおける雑音及び発声期間中の平均スペクトルの計算を開示している。そして、入力または基準パターンのいずれかの適応を、計算したスペクトルを利用したある種の適応関数によって実行する。いずれにせよ、この方法は、音声期間が発声を表わすか雑音を表わすかという難しい判定に基づく。受信した音声信号及び付加雑音次第では、こうした判定を明確に行うことはできない。従って、一部の厳しい状況では、もとになるシステムが雑音期間を発声期間として解釈するか、あるいはその逆があり得る。

米国特許番号2002/0091521A1

米国特許番号2002/0091521A1は、学習条件とテスト（試験）条件とが不整合な条件下での高速音声認識の技術を記載している。例示されている技術は、最尤スペクトル変換（ＭＬＳＴ：Maximum Likelihood Spectral Transformation）に基づくものである。ここでは、実時間発声の音声の特徴ベクトルを線形スペクトル領域に変換し、これにより、変換後の発声の尤度が増加する。最尤スペクトル変換は、この線形スペクトル領域内の畳み込み雑音及び適応雑音に相当する２つのパラメータを推定する。これら２つの雑音パラメータを推定した後に特徴ベクトルの変換を実行して、テスト発声の尤度を増加させる。記載されている技術は線形スペクトル領域に適用され、音声のダイナミックレンジはかなり大きいので、必要なパラメータの高信頼性で強固な決定は困難になり得る。

米国特許番号2003-0050780A1

米国特許番号2003-0050780A1は、背景雑音の存在中に供給される入力音声上の話者適応を記載している。ここでは、特徴抽出後に話者適応に先立って、背景雑音の線形近似を適用して、システムが、背景雑音による歪みなしに音声モデルを登録ユーザーに適応させることを可能にする。ここでは、話者適応モジュールは、上記適応に先立って逆線形近似演算子を用いて背景雑音の影響を除去する。逆線形近似の結果は、背景雑音の影響を除去してきれいにされた、一組の修正された観測データである。米国特許番号2003-0050780A1に記載の雑音（ノイズ）補償認識装置は、特定の雑音条件下で開発され、従って異なる雑音条件下で用いられる音響モデルを用いる。従って、少なくとも２つの雑音レベル差間の雑音レベル差の推定値を評価しなければならない。このことは一般に、入力音声の発声が始まる前の発声前フレームから特徴を抽出する特徴抽出モジュールによって実行される。

本発明は、音声認識システムを種々の環境条件に適応させるための改善された方法及び装置を提供することにある。

本発明は、対数スペクトル領域内での一連の特徴ベクトルの生成、受信した音声期間が発声を表わすか発声の途切れを表わすかの確率の計算、認識すべき音声及び学習音声のそれぞれについての、発声期間中の平均値及び無音期間中の平均値の計算を利用することによる音声認識システムの環境適応の方法を提供する。

前記対数スペクトル領域内の前記一連の特徴ベクトルの各特徴ベクトルは、認識すべき音声のパワースペクトルの記述であり、このパワースペクトルは別個の時間間隔をカバーする時間窓に対応する。音声認識システムは一般に、認識目的の学習条件下で記録された基準特徴ベクトルを具えている。本発明の方法は主に、特徴ベクトルの変換に基づくものであり、これにより、異なる環境での録音条件による不整合を最小化する。

本発明の好適例によれば、本発明の方法は、音声期間が発声を表わすか、無音の形で発声の途切れを表わすかを厳密には区別しない。その代わりに、この方法は、音声期間が発声を表わす確率である発声確率、または無音を表わす確率である無音確率を特定及び計算する。このようにして、困難であり潜在的に誤った判定を回避して、音声認識システム全体の信頼性を向上させる。

この方法は、前記特徴ベクトルの成分毎に、単調減少確率関数によって無音確率を計算する。この確率関数が必要とするパラメータは、単にそれぞれの特徴ベクトル成分のモジュロ（法）である。特徴ベクトル成分が大きいほど、それぞれの特徴ベクトル成分が無音期間を表わす確率は小さくなる。対応する発声確率は、無音確率と１との差によって与えられる。

前記方法はさらに、平均関数によって、特徴ベクトル毎に無音期間中及び発声期間中の平均値を計算する。特徴ベクトルの部分集合に基づいて、前記平均関数は、重みとしての前記無音及び発声確率に基づいて、それぞれの特徴ベクトルに対する平均値を提供する。これに対応して、前記方法はさらに、学習特徴ベクトルの単一成分の無音及び発声についての平均値を計算する。そして、特徴ベクトルの成分毎に別個に、環境適応のための本質的な変換機能を実行し、この変換機能は、特徴ベクトル成分自体、特徴ベクトル成分の無音確率、特徴ベクトルの部分集合のそれぞれの特徴ベクトル成分の無音についての平均値及び発声についての平均値、及び学習特徴ベクトルの部分集合のそれぞれの特徴ベクトル成分の無音についての平均値及び発声についての平均値に基づいて行う。

特徴ベクトルの部分集合と学習特徴ベクトルの部分集合との、無音についての平均値どうしの比較は、録音された音声の雑音レベル及び／または録音環境条件差についての汎用的な指標を与える。同様に、特徴ベクトルの部分集合と学習特徴ベクトルの部分集合との、発声についての平均値どうしを比較することができる。一般に、特徴ベクトル成分の変換は、この比較を特徴ベクトル成分の確率値と組み合わせて利用する。

本発明の他の好適例によれば、各特徴ベクトル成分の発声確率の計算を実行する。一般に、この方法は、単調減少確率関数を利用して無音確率を生成し、これに続いて、この無音確率を１から減算する。この好適例によれば、特徴ベクトル成分の計算は、計算された発声確率を明示的に考慮に入れる。

本発明の他の好適例によれば、特徴ベクトル成分並びに学習特徴ベクトル成分について、無音及び発声についての平均値を生成する平均関数は、移動加重平均関数の形で実現される。平均計算は、特徴ベクトルの部分集合全体にわたって実行する。例えば、別個の特徴ベクトル成分の無音についての平均値は、それぞれの特徴ベクトル成分にそれぞれの特徴ベクトル成分の無音確率を乗じた積の総和を、それぞれの無音確率のすべての総和で割ったものによって与えられ、ここで総計指標（インデックス）は、特徴ベクトルの部分集合のすべての特徴ベクトル上を移動する。

特徴ベクトル成分の無音または発声平均値の計算は、特徴ベクトルの部分集合に対して、学習特徴ベクトルの部分集合と同じ方法で実行する。両方の部分集合は一般に、同数の特徴ベクトルから成る。音声認識中に永続的に取得されるこれらの特徴ベクトルの平均値は動的に変化し、音声認識の処理期間中計算しなければならず、これに対し学習特徴ベクトルを表わす平均値は一定のままであり、従ってある種の記憶手段に記憶しておくことができる。このようにして、本発明の方法は変化する環境条件に動的に適応する。このことは、音声認識システムの高い信頼性及び高い柔軟性を提供する。

本発明の好適例によれば、特徴ベクトル成分の無音及び発声についての平均値を計算する特徴ベクトルの部分集合は一般に、１０個、好適には２０〜３０個の特徴ベクトルから成る。

本発明の他の好適例によれば、前記単調減少確率関数は傾き定数（α）を具え、この値は、この単調減少確率関数の傾きを記述する。このようにして、発声確率または無音確率の別個の特徴ベクトル成分への割り当てを、上記傾き定数（α）の変化によって手動で適応させることができる。このことは極めて実用的である、というのは、音声認識システムを手動で、異なる種類の環境雑音、例えば白色雑音または他の種類のより不規則な雑音パターンに適応させることができるからである。

本発明の他の好適例によれば、（無音についての平均値）＋（無音についての適切な分散値）の無音確率関数が、０．５の無音確率を生じさせる。

本発明の他の好適例によれば、前記無音確率関数はシグマ関数によって与えられ、その特定形はさらに、次式によって詳述される：

ここに、
Ｍ_silは、特徴ベクトルの無音についての平均値であり、
Ｖ_silは、特徴ベクトルの無音についての分散値であり、
Ｆ_cは、特徴ベクトル成分である。

本発明の他の好適例によれば、特徴ベクトル成分用の変換関数が次の数式モデルによって与えられる：
Ｆ_c,new＝Ｆ_c,old＋(ＭＴＲ_sil−Ｍ_sil)Ｐ_sil＋(ＭＴＲ_sp−Ｍ_sp)Ｐ_sp
ここに、
Ｆ_c,newは変換された特徴ベクトル成分であり、
Ｆ_c,oldは特徴ベクトル成分であり、
ＭＴＲ_silは学習特徴ベクトルの無音についての平均値であり、
ＭＴＲ_spは学習特徴ベクトルの発声についての平均値であり、
Ｍ_spは特徴ベクトルの発声についての平均値であり、
Ｍ_silは特徴ベクトルの無音についての平均値であり、
Ｐ_silは無音確率であり、
Ｐ_spは発声確率である。

さらに、本発明の環境適応の方法は、特徴ベクトルに特化するだけでなく、対数スペクトル領域内のスベクトル全体にも適用可能である。さらに、学習させた音声基準と認識データとの環境的な不整合の本質的な根源、例えば信号対雑音比、録音チャンネル、及び発声中の発声と無音との比率が同時に取り扱われる。本発明の手順及び方法は単純な演算アルゴリズムを提供するので、メモリー及び演算時間のリソースの小さいディジタル信号プロセッサ（ＤＳＰ）における利用に特に適している。

以下、本発明の好適な実施例について図面を参照しながらより詳細に説明する。

図１に、音声認識システムのフローチャートを図式的に示す。ステップ１００では、音声を、ある種の録音装置、例えば通常のマイクロホンによってシステムに入力する。次のステップ１０２では、下記のステップを実行することによって、録音された信号を分析する：録音された信号をフレーム化した時間窓に区分するステップ；パワー密度の計算を実行するステップ；対数スペクトル空間内に特徴ベクトルを生成するステップ；環境適応を実行するステップ；随意的に追加ステップを実行するステップ。

信号分析ステップ１０２中の最初のステップでは、録音された音声信号を、別個の時間間隔をカバーする時間窓に区分する。そして高速フーリエ変換（ＦＦＴ）によって時間窓毎にパワースペクトルを計算する。このパワースペクトルに基づけば、前記特徴ベクトルは、このスペクトル中の、発声内容について特徴的な最も関係する周波数部分上で記述される。信号分析ステップ１０２中の次のステップでは、本発明による環境適応を実行して、録音された信号と、システム内に記憶されている学習音声から抽出した基準信号との不整合を低減する。

さらなる追加ステップ、例えばケプストラム変換を随意的に実行することができる。次のステップ１０４では、学習データに基づく特徴ベクトルと実際の信号分析に基づく特徴ベクトルとの比較、及びこれに加えて環境適応に基づいて音声認識を実行する。学習させた音声基準の形の学習データを、音声認識ステップ１０４への入力としてステップ１０６によって提供する。そしてステップ１０８では、認識したテキストを出力する。認識したテキストの出力は、多様な方法で実行することができ、例えば、テキストをある種のグラフィカル・ユーザー・インターフェース上に表示すること、テキストをある種の記憶媒体上に記憶すること、あるいは単に何らかの印刷装置によってテキストを印字することである。

図２に、本発明による環境適応を例示する。音声認識システムによって提供される特徴ベクトルを特定の環境条件に適応させる。ここでは、各特徴ベクトルｊの単一の成分ｉを変換して、受信した音声から生成した特徴ベクトル成分と学習データの特徴ベクトル成分との不整合を最小化する。

ステップ２００では、１つの特徴ベクトル（ｊ＝１）を選択する。次のステップ２０２では、特徴ベクトルｊの単一成分（ｉ＝１）を選択する。そして、選択した特徴ベクトル成分をステップ２０４に渡し、ステップ２０４では、この特徴ベクトル成分の無音確率を確率関数に従って計算する。ステップ２０６では、この特徴ベクトル成分の適切な発声確率を計算する。この特徴ベクトル成分について計算した発生確率及び無音確率は、上記選択した特徴ベクトル成分が発声を表わすか発声の途切れを表わすかを示す。ステップ２０８では、すべての特徴ベクトルｊの特徴ベクトル成分ｉの無音についての平均値を計算する。ステップ２１０では、すべての特徴ベクトルｊの特徴ベクトル成分ｉの発声についての適切な平均値を計算する。

すべての特徴ベクトルｊの別個の成分ｉの無音についての平均値及び発声についての平均値の計算は、移動加重平均関数に基づく。ステップ２２４及び２２６では、学習データのすべての特徴ベクトルｊについて、学習特徴ベクトルの別個の特徴ベクトルｉについて、無音についての適切な平均値及び発声についての適切な平均値を計算してステップ２１２に提供する。ステップ２１２では、選択した特徴ベクトル成分、ステップ２０４で計算した特徴ベクトル成分の無音確率及びステップ２０６で計算した特徴ベクトル成分の発声確率、並びにステップ２０８で計算した無音についての平均値、ステップ２１０で計算した発声についての平均値、及びそれぞれステップ２２４及びステップ２２６で計算した学習データの無音及び発声についての平均値に基づいて、選択した特徴ベクトル成分を新たな特徴ベクトルに変換する。

発声及び無音について生成した平均値は、例えば理想的な、従って無雑音の環境条件下で録音した学習データの無音及び発声の適切な平均値と比べた際に、環境不整合の指標を与える。特徴ベクトル成分の変換をステップ２１２で実行した際に、新たに生成された特徴ベクトル成分、従って環境に適応させた特徴ベクトル成分は、ステップ２１４において音声認識モジュールに代入される。ステップ２１４において、適応させた特徴ベクトル成分を代入した後に、本発明の方法は、ステップ２１６において、特徴ベクトルの成分の指標ｉが特徴ベクトルの成分の数ｍ以上であるか否かをチェックする。ステップ２１６において、成分指標ｉがｍ、即ち特徴ベクトルの成分の数より小さい場合には、成分の指標ｉを１だけ増加させて、本発明の方法はステップ２０４に戻る。他の場合、即ち、成分指標ｉが特徴ベクトルの成分数ｍ以上である際には、本発明の方法はステップ２１８に進み、ステップ２１８では、特徴ベクトル全体に、音声認識モジュールによって実行される音声認識を施す。ステップ２１８の音声認識後に、ステップ２２０では、特徴ベクトルの指標ｊが特徴ベクトルの数ｎ以上であるか否かをチェックする。特徴ベクトルの指標ｊがｎより小さい場合には、ｊを１だけ増加させて、本発明の方法はステップ２０４に戻る。他の場合、即ちｊがｎ以上である際には、すべての特徴ベクトルが変換され、本発明の方法はステップ２２２で停止する。

演算時間を低減し、環境適応方法の効率を増加させるために、ステップ２０８及び２１０における無音及び発声についての平均値の計算は必ずしもすべての特徴ベクトルを含まない。その代わりに、無音及び発声についての平均値の計算は特徴ベクトルの部分集合に基づくこともできる。こうした場合には、ステップ２２４及び２２６によって提供される学習特徴ベクトルの無音及び発声についての平均値も、学習特徴ベクトルの適切な部分集合に基づかなければならない。このように、特徴ベクトルのすべての環境適応に必要な無音及び発声についての平均値の計算において、特徴ベクトル及び学習特徴ベクトルの全体を考慮に入れる必要はない。

図３に、特徴ベクトル成分の無音確率の計算用の代表的な確率関数を例示する。横軸３００は特徴ベクトル成分のモジュロ（法）を表わし、縦軸３０２は、グラフ３０４によって例示される関数による適切な無音確率を与える。本発明による確率関数は原則的に、あらゆる単調減少関数によって表現することができる。関数３０４は、音声認識システムにおける確率分布に一般に用いられるシグマ関数の一例に過ぎない。この確率関数は、（無音についての平均値）＋（適切な分散値）の合計に対して約０．５の無音確率を与える。

図４に、本発明による環境適応を伴う音声認識システム４０２のブロック図を示す。概括的に、音声４００が音声認識システム４０２に入力され、音声認識システム４０２は音声からテキストへの変換を実行し、テキスト４０４が音声認識システム４０２から出力される。音声認識システム４０２は、特徴ベクトル生成モジュール４０６、環境適応モジュール４０８、及び音声認識モジュール４１０を具えている。さらに、音声認識システム４０２は、学習特徴ベクトル４１２、並びに学習特徴ベクトル４１２の無音及び発声確率を無音及び発声についての平均値と共に記憶し提供するためのメモリーモジュール４１４及び４１６を具えている。

環境適応モジュール４０８は、無音及び発声確率モジュール４１８、無音及び発声平均値モジュール４２０、並びに特徴ベクトル変換モジュール４２２を具えている。

録音された音声４００は特徴ベクトル生成モジュール４０６に伝送される。特徴ベクトル伝送モジュール４０６は、音声認識目的の特徴ベクトルを対数スペクトル領域内に生成するために必要なステップを実行する。そして生成された特徴ベクトルは、環境適応モジュール４０８内の無音及び発声確率モジュール４１８、及び無音及び発声平均値モジュール、並びに特徴ベクトル変換モジュール４２２に伝送される。無音及び発声平均値モジュール４２０は、特徴ベクトル成分毎に、無音及び発声についての平均値を計算し、無音及び発声確率モジュール４１８は、同様の方法で、特徴ベクトル成分毎に発声及び無音確率を計算する。

こうして生成された特徴ベクトル成分毎の無音及び発声確率、並びに無音及び発声についての平均値は、特徴ベクトル変換モジュール４２２に伝送される。前記変換関数、特定の特徴ベクトル成分、無音及び発声確率、並びに無音及び発声についての平均値、及び学習特徴ベクトル４１２の無音及び発声についての平均値に基づいて、特徴ベクトル変換モジュール４２２は特定の特徴ベクトル成分の変換を実行する。

すべての特徴ベクトルの成分毎に変換を実行するので、特徴ベクトル生成モジュール４０６によって生成される特徴ベクトルの全体が、音声認識モジュール４１０に代入される特徴ベクトル成分の新たな組を生成することによって適応される。音声認識モジュール４１０では、音声４００の環境的に適応された特徴ベクトルが学習特徴ベクトル４１２と比較されて、音声の各部分がテキスト及びテキストフレーズ（文字列の句）に割り当てられる。そして認識された音声は最終的にテキスト４０４として出力される。

音声認識システムのフローチャートである。環境適応を実行するためのフローチャートの例示である。確率関数の単調減少を示す図である。本発明による音声認識システム及び環境適応のブロック図である。

Claims

一連の特徴ベクトルを提供する音声認識システムの環境適応方法であって、前記特徴ベクトルの各々が、認識すべき音声のパワースペクトルを記述する音声認識システムの環境適応方法において、
前記特徴ベクトルの成分毎に：
単調減少確率関数によって、前記特徴ベクトルの成分の無音確率を計算するステップと；
学習特徴ベクトルの少なくとも部分集合中のそれぞれの成分の、無音期間中及び発声期間中の平均値を提供するステップと；
前記特徴ベクトルの少なくとも部分集合に基づく平均関数によって、前記特徴ベクトルの成分の無音期間中及び発声期間中の平均値を計算するステップと；
前記特徴ベクトルの成分を変換関数によって変換するステップであって、前記変換関数が、前記特徴ベクトル及び前記学習ベクトルの無音及び発声についての平均値、前記特徴ベクトルの成分の無音確率、及び前記特徴ベクトルの成分自体に基づくものであるステップと
を具えていることを特徴とする音声認識システムの環境適応方法。
前記方法がさらに、前記特徴ベクトルの成分毎に：
単調増加確率関数によって、発声についての発声確率を計算するステップと；
前記特徴ベクトルの成分を前記変換関数によって変換するステップであって、前記変換関数がさらに、前記特徴ベクトルの成分の前記発声確率に基づくステップと
を具えていることを特徴とする請求項１に記載の方法。
前記平均関数が移動加重平均関数であり、前記無音及び発声についての平均値の計算が前記特徴ベクトルの前記部分集合に基づき、前記部分集合が、少なくも１０個、好適には２０〜３０個の特徴ベクトルから成ることを特徴とする請求項１または２に記載の方法。
前記学習特徴ベクトルの無音期間中及び発声期間中の平均値を提供するステップが、前記学習特徴ベクトルの部分集合についての加重平均関数である学習平均関数に基づくものであり、前記部分集合が、少なくとも１０個、好適には２０〜３０個の特徴ベクトルから成ることを特徴とする請求項１〜３のいずれかに記載の方法。
前記確率関数が、前記単調減少または単調増加確率関数の傾きを記述する傾き定数（α）を具え、前記傾き定数が修正可能であることを特徴とする請求項１〜４のいずれかに記載の方法。
前記特徴ベクトルの成分の前記変換が、次式：
Ｆ_c,new＝Ｆ_c,old＋(ＭＴＲ_sil−Ｍ_sil)Ｐ_sil＋(ＭＴＲ_sp−Ｍ_sp)Ｐ_sp
ここに、
Ｆ_c,newは変換された前記特徴ベクトルの成分であり、
Ｆ_c,oldは前記特徴ベクトルの成分であり、
ＭＴＲ_silは前記学習特徴ベクトルの無音についての平均値であり、
ＭＴＲ_spは前記学習特徴ベクトルの発声についての平均値であり、
Ｍ_spは前記特徴ベクトルの発声についての平均値であり、
Ｍ_silは前記特徴ベクトルの無音についての平均値であり、
Ｐ_silは前記無音確率であり、
Ｐ_spは前記発声確率である、
によって与えられることを特徴とする請求項１〜５のいずれかに記載の方法。
前記無音確率の計算に用いる関数が、次式の形式のシグマ関数：

によって与えられ、
前記発声確率の計算に用いる関数が、次式：
Ｐ_sp＝１−Ｐ_sil
ここに、
Ｍ_silは音声の無音期間中の平均値であり、
Ｖ_silは無音についての平均値からの分散であり、
αは前記傾き定数であり、
Ｆ_cは前記特徴ベクトルの成分である、
によって与えられることを特徴とする請求項１〜６のいずれかに記載の方法。
環境適応を伴う音声認識システムであって、前記音声認識システムが一連の特徴ベクトルを提供し、前記特徴ベクトルの各々が、認識すべき音声のパワースペクトルを記述する音声認識システムにおいて、
前記特徴ベクトルの成分毎に：
単調減少確率関数によって、前記特徴ベクトルの成分の無音確率を計算する手段と；
学習特徴ベクトルの少なくとも部分集合中のそれぞれの成分の無音期間中及び発声期間中の平均値を提供する手段と；
前記特徴ベクトルの少なくとも部分集合に基づく平均関数によって、前記特徴ベクトルの成分の無音期間中及び発声期間中の平均値を計算する手段と；
前記特徴ベクトルの成分を変換関数によって変換する手段であって、前記変換関数が、前記特徴ベクトル及び前記学習ベクトルの無音及び発声についての平均値、前記特徴ベクトルの成分の無音確率、及び前記特徴ベクトルの成分自体に基づくものである手段と
を具えていることを特徴とする音声認識システム。
前記システムがさらに、前記特徴ベクトルの成分毎に：
単調増加確率関数によって、発声についての発声確率を計算する手段と；
前記特徴ベクトルの成分を前記変換関数によって変換する手段であって、前記変換関数がさらに、前記特徴ベクトルの成分の前記発声確率に基づく手段と
を具えていることを特徴とする請求項８に記載のシステム。
前記平均関数が移動加重平均関数であり、前記無音及び発声についての平均値の計算が前記特徴ベクトルの前記部分集合に基づき、前記部分集合が、少なくも１０個、好適には２０〜３０個の特徴ベクトルから成ることを特徴とする請求項８または９に記載のシステム。
前記学習特徴ベクトルの無音及び発声についての平均値を提供する手段が記憶手段を具え、前記学習特徴ベクトルの成分の無音及び発声についての平均値が前記記憶手段に記憶されることを特徴とする請求項８〜１０のいずれかに記載のシステム。
環境適応を伴う音声認識システム用のコンピュータプログラム手段を有するコンピュータプログラム製品であって、前記音声認識システムが一連の特徴ベクトルを提供し、前記特徴ベクトルの各々が、認識すべき音声のパワースペクトルを記述するコンピュータプログラム製品において、
前記特徴ベクトルの成分毎に：
単調減少確率関数によって、前記特徴ベクトルの成分の無音確率を計算するプログラム手段と；
学習特徴ベクトルの少なくとも部分集合中のそれぞれの成分の無音期間中及び発声期間中の平均値を提供するプログラム手段と；
前記特徴ベクトルの少なくとも部分集合に基づく平均関数によって、前記特徴ベクトルの成分の無音期間中及び発声期間中の平均値を計算するプログラム手段と；
前記特徴ベクトルの成分を変換関数によって変換するプログラム手段であって、前記変換関数が、前記特徴ベクトル及び前記学習ベクトルの無音及び発声についての平均値、前記特徴ベクトルの成分の無音確率、及び前記特徴ベクトルの成分自体に基づくものであるプログラム手段と
を具えていることを特徴とするコンピュータプログラム製品。
前記コンピュータプログラム製品がさらに、前記特徴ベクトルの成分毎に：
単調増加確率関数によって、発声についての発声確率を計算するプログラム手段と；
前記特徴ベクトルの成分を前記変換関数によって変換するプログラム手段であって、前記変換関数がさらに、前記特徴ベクトルの成分の前記発声確率に基づくプログラム手段と
を具えていることを特徴とする請求項１２に記載のコンピュータプログラム製品。
前記平均関数が移動加重平均関数であり、前記無音及び発声についての平均値の計算が前記特徴ベクトルの前記部分集合に基づき、前記部分集合が、少なくも１０個、好適には２０〜３０個の特徴ベクトルから成ることを特徴とする請求項１２または１３に記載のコンピュータプログラム製品。
前記特徴ベクトルの成分の前記変換が、次式：
Ｆ_c,new＝Ｆ_c,old＋(ＭＴＲ_sil−Ｍ_sil)Ｐ_sil＋(ＭＴＲ_sp−Ｍ_sp)Ｐ_sp
ここに、
Ｆ_c,newは変換された前記特徴ベクトルの成分であり、
Ｆ_c,oldは前記特徴ベクトルの成分であり、
ＭＴＲ_silは前記学習特徴ベクトルの無音についての平均値であり、
ＭＴＲ_spは前記学習特徴ベクトルの発声についての平均値であり、
Ｍ_spは前記特徴ベクトルの発声についての平均値であり、
Ｍ_silは前記特徴ベクトルの無音についての平均値であり、
Ｐ_silは前記無音確率であり、
Ｐ_spは前記発声確率である、
によって与えられる
ことを特徴とする請求項１２〜１４のいずれかに記載のコンピュータプログラム製品。
前記無音確率の計算に用いる関数が、次式の形式のシグマ関数：

によって与えられ、
前記発声確率の計算に用いる関数が、次式：
Ｐ_sp＝１−Ｐ_sil
ここに、
Ｍ_silは音声の無音期間中の平均値であり、
Ｖ_silは無音についての平均値からの分散であり、
αは前記傾き定数であり、
Ｆ_cは前記特徴ベクトルの成分である、
によって与えられることを特徴とする請求項１２〜１５のいずれかに記載のコンピュータプログラム製品。