JP4245617B2

JP4245617B2 - 特徴量補正装置、特徴量補正方法および特徴量補正プログラム

Info

Publication number: JP4245617B2
Application number: JP2006105091A
Authority: JP
Inventors: 政巳赤嶺; 貴史益子; バッレダダニエル; トーネンレムコ
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2006-04-06
Filing date: 2006-04-06
Publication date: 2009-03-25
Anticipated expiration: 2026-04-06
Also published as: US20070276662A1; JP2007279349A; CN101051461A

Description

この発明は、音声処理で用いる音声の特徴量を補正することにより背景雑音環境下で高精度の特徴量を得ることができる特徴量補正装置、特徴量補正方法および特徴量補正プログラムに関するものである。

雑音環境下の音声認識では、学習時の雑音環境と認識時の雑音環境が異なることに起因する認識性能の劣化、いわゆる音響モデルのミスマッチが問題となる。この問題に対処する有効な方法の一つとしてＳＰＬＩＣＥ（Stereo-based Piecewise Linear Compensation for Environments）法が提案されている（非特許文献１）。

ＳＰＬＩＣＥ法は、クリーン音声データと、クリーン音声データに雑音が重畳された雑音音声データとの対から事前に補正ベクトルを求めておき、音声認識時に特徴量をその補正ベクトルを用いてクリーン音声の特徴量に近づける方法であり、雑音除去の手法と捉えることもできる。

このような補正処理によって、認識時の特徴ベクトルと音響モデルのミスマッチが緩和されるため雑音環境下でも高い認識率が実現できることが報告されている。

Li Deng, Alex Acero, Li Jiang, Jasha Droppo and Xuedong Huang, "High-performance robust speech recognition using stereo training data," Proceedings of 2001 International Conference on Acoustics, Speech, and Signal Processing, pp.301-304.

しかしながら、従来のＳＰＬＩＣＥ法では、予め設計した複数の環境の中から、入力音声が属する雑音環境をフレーム単位で一つ選択し特徴ベクトルを補正しているので、予め設計した雑音環境と認識時の雑音環境が必ずしも一致せず、音響モデルのミスマッチにより認識性能が劣化する場合があるという問題があった。

また、雑音環境の選択は１０〜２０ｍｓの短いフレーム単位で行われるため、一定時間同じ環境が連続する場合でもフレーム毎に異なる環境が選択され認識性能が劣化する場合があるという問題があった。

本発明は、上記に鑑みてなされたものであって、予め設計した雑音環境と異なる雑音環境下で音声が入力された場合であっても、特徴量を高精度で求めることができる特徴量補正装置、特徴量補正方法および特徴量補正プログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、音声処理で用いる音声の特徴量を補正する特徴量補正装置であって、複数の雑音環境のそれぞれについて、予め定められた複数の第１の補正量を記憶する記憶手段と、入力された音声の特徴量を抽出する特徴量抽出手段と、前記特徴量抽出手段が抽出した前記特徴量に基づいて、前記雑音環境のそれぞれについて、入力された音声が前記雑音環境で発生したことの確からしさを表す帰属度を計算する帰属度計算手段と、前記記憶手段から複数の前記第１の補正量を取得し、取得した複数の前記第１の補正量を重み付け加算することにより前記雑音環境のそれぞれについての前記特徴量の補正量である第２の補正量を算出し、算出した前記第２の補正量を前記帰属度計算手段が計算した前記帰属度を重み付け係数として重み付け加算した第３の補正量を計算する補正量計算手段と、前記補正量計算手段が計算した前記第３の補正量に基づいて、前記特徴量抽出手段が抽出した前記特徴量を補正する補正手段と、を備えたことを特徴とする。

また、本発明は、上記装置を実行することができる特徴量補正方法および特徴量補正プログラムである。

本発明によれば、予め設計した雑音環境の補正ベクトルを、各雑音環境に対する入力音声の帰属度に基づいて重み付き加算し、算出した補正ベクトルで特徴ベクトルを補正することができる。このため、予め設計した雑音環境と異なる雑音環境下で音声が入力された場合であっても特徴量を高精度で求めることができるという効果を奏する。

以下に添付図面を参照して、この発明にかかる特徴量補正装置、特徴量補正方法および特徴量補正プログラムの最良な実施の形態を詳細に説明する。

（第１の実施の形態）
第１の実施の形態にかかる特徴量補正装置は、複数の雑音環境について事前に補正ベクトルを設計して記憶部に記憶し、音声認識時には各々の雑音環境に対する入力音声の帰属度を計算し、計算した帰属度に基づいて複数の雑音環境の補正ベクトルを重み付き加算して補正ベクトルを求め、求めた補正ベクトルにより特徴ベクトルを補正するものである。

図１は、第１の実施の形態にかかる特徴量補正装置１００の構成を示すブロック図である。同図に示すように、特徴量補正装置１００は、雑音環境記憶部１２０と、入力受付部１０１と、特徴抽出部１０２と、帰属度計算部１０３と、補正ベクトル計算部１０４と、特徴ベクトル補正部１０５とを備えている。

雑音環境記憶部１２０は、複数の雑音環境をＧＭＭ（Gaussian Mixture Model：ガウス混合モデル）でモデル化した際のＧＭＭパラメータと、各雑音環境に対応する特徴量の補正量として予め算出された補正ベクトルを格納する記憶部である。ＧＭＭによるモデル化の詳細については後述する。

本実施の形態では、雑音環境１、雑音環境２、雑音環境３の３つの雑音環境のパラメータ１２１、１２２、１２３が予め算出され、雑音環境記憶部１２０に記憶されているものとする。なお、雑音環境の個数は３に限られるものではなく、任意の個数の雑音環境を対象とすることができる。

また、雑音環境記憶部１２０は、ＨＤＤ（Hard Disk Drive）、光ディスク、メモリカード、ＲＡＭ（Random Access Memory）などの一般的に利用されているあらゆる記憶媒体により構成することができる。

入力受付部１０１は、マイクなどの入力部（図示せず）から入力された音声を電気信号（音声データ）に変換した後、音声データをＡ／Ｄ（アナログデジタル）変換し、ＰＣＭ（パルスコードモジュレーション）形式などによるデジタルデータに変換して出力するものである。これらの処理は、従来から用いられている音声信号のデジタル化処理と同様の方法によって実現することができる。

特徴抽出部１０２は、入力受付部１０１が受付けた音声信号を予め定められた１０〜２０ｍｓのフレームに分割して、音声の特徴量を抽出するものである。本実施の形態では、特徴抽出部１０２は、ＭＦＣＣ（Mel Frequency Cepstrum Coefficient：メル周波数ケプストラム係数）のスタティックとΔ、ΔΔパラメータを用いた音声の特徴量を抽出する。

具体的には、特徴抽出部１０２は、メルフィルタバンク解析の出力のパワーを離散コサイン変換する方法により、１３次元のＭＦＣＣと、当該ＭＦＣＣのΔ、およびΔΔの合計３９次元の特徴ベクトルを特徴量として算出する。

なお、特徴量は上記に限られるものではなく、入力された音声の特徴を表す値であれば、従来から用いられているあらゆる特徴量を利用することができる。

帰属度計算部１０３は、特徴抽出部１０２が抽出した特徴ベクトルを用いて、予め定められた上記３つの雑音環境のそれぞれについて、入力された音声が各雑音環境で発生したことの確からしさを表す帰属度を計算するものである。帰属度の算出方法の詳細については後述する。

補正ベクトル計算部１０４は、各雑音環境の補正ベクトルを雑音環境記憶部１２０から取得し、取得した各補正ベクトルを、帰属度計算部１０３が算出した帰属度を重み付け係数として重み付け加算することにより、入力された音声に対する特徴ベクトルの補正ベクトルを算出するものである。

特徴ベクトル補正部１０５は、補正ベクトル計算部１０４が算出した補正ベクトルを用いて入力音声の特徴ベクトルを補正するものである。具体的には、特徴ベクトル補正部１０５は、特徴ベクトルに補正ベクトルを加算することにより、特徴ベクトルの補正を行う。

次に、このように構成された第１の実施の形態にかかる特徴量補正装置１００による特徴量補正処理について説明する。図２は、第１の実施の形態における特徴量補正処理の全体の流れを示すフローチャートである。

まず、入力受付部１０１が、ユーザが発話した音声の入力を受付ける（ステップＳ２０１）。入力された音声は、入力受付部１０１によりデジタル形式の音声信号に変換され出力される。

次に、特徴抽出部１０２は、音声信号を１０ｍｓのフレームに分割し、当該フレームの特徴量を抽出する（ステップＳ２０２）。特徴抽出部１０２は、上述のようにＭＦＣＣの特徴ベクトルｙ_tを算出することにより特徴量を抽出する。

次に、帰属度計算部１０３は、特徴抽出部１０２が抽出した特徴ベクトルｙ_tを用いて、予め定められた複数の雑音環境のそれぞれに対する当該フレームの音声の帰属度を計算する（ステップＳ２０３）。雑音環境のモデルをｅとおくと、帰属度は以下の（１）式で表される時刻ｔの特徴ベクトルｙ_tに対する環境ｅの尤度ｐ（ｅ｜ｙ_t）として計算される。

なお、ｐ（ｙ_t｜ｅ）は、雑音環境ｅで特徴ベクトルｙ_tが出現する確率を表し、ｐ（ｅ）およびｐ（ｙ_t）はそれぞれ雑音環境ｅおよび特徴ベクトルｙ_tの発生頻度を表す。

ここで、ｐ（ｙ_t）は雑音環境と独立であり、また各環境の発生頻度は等しいと仮定すれば帰属度ｐ（ｅ｜ｙ_t）は以下の（２）式で計算することができる。

（２）式のｐ（ｙ_t｜ｅ）は、以下の（３）式で算出される。

また、（２）式のαは、以下の（４）式で算出される。

ただし、Ｎはガウス分布であり、特徴ベクトルｙ_tがＧＭＭでモデル化されているものとする。ＧＭＭのパラメータである平均ベクトルｕ、共分散行列Σは当該分野で広く知られているＥＭ（Expectation Maximization）アルゴリズムを用いて計算することができる。

具体的には、ある雑音環境で収集された音声データから大量の特徴ベクトルを計算し、算出した特徴ベクトルを学習データとして音声認識の標準的なＨＭＭ（Hidden Markov Model）学習ツールであるＨＴＫ（Hidden Markov Model Toolkit）を適用することで、ＧＭＭのパラメータを求めることができる。なお、（３）式のｐ（ｓ）はＧＭＭの各コンポーネントの事前確率を表す。

次に、補正ベクトル計算部１０４は、帰属度計算部１０３により算出された帰属度を重み付け係数として、各雑音環境に対して予め計算された補正ベクトルｒ_s ^eの重み付け加算を算出することにより、入力された音声の特徴量に対する補正ベクトルｒ_tを算出する（ステップＳ２０４）。具体的には、以下の（５）式により補正ベクトルｒ_tを算出する。

（５）式のｒ_t ^eは、以下の（６）式で算出される。

すなわち、まず、従来のＳＰＬＩＴＥ方式と同様の方法により、予め計算された補正ベクトルｒ_s ^eを重み付け加算して各雑音環境ｅの補正ベクトルｒ_t ^eを算出する（（６）式）。さらに、帰属度を重み付け係数として各雑音環境ｅの補正ベクトルｒ_t ^eを重み付け加算することにより、入力された音声の特徴量に対する補正ベクトルｒ_tを算出する（（５）式）。

ここで、補正ベクトルｒ_s ^eは、従来のＳＰＬＩＣＥ方式と同様の方法で計算することができる。すなわち、各雑音環境で雑音が付加されていないクリーンな音声データの特徴ベクトルｘ_nと、雑音が付加された雑音データｙ_nとの対（ｘ_n、ｙ_n）を大量に準備し、以下の（７）式に従って補正ベクトルｒ_s ^eを計算することができる。なお、以下の式では雑音環境を表す上付きの添え字を省略している。

（７）式のｐ（ｓ｜ｙ_t）は、以下の（８）式で算出される。

このように計算された各雑音環境のＧＭＭパラメータと補正ベクトルは雑音環境記憶部１２０に事前に記憶されるため、ステップＳ２０４では、雑音環境記憶部１２０に記憶された各雑音環境の補正ベクトルｒ_s ^eを用いて、補正ベクトルｒ_tを算出する。

最後に、特徴ベクトル補正部１０５は補正ベクトル計算部１０４により計算された補正ベクトルｒ_tを、ステップＳ２０２で計算された特徴ベクトルｙ_tに加算することによって特徴ベクトルｙ_tを補正する（ステップＳ２０５）。

このようにして補正された補正後の特徴ベクトルは、音声認識を行う音声認識装置に出力される。なお、特徴ベクトルを用いた音声処理は音声認識処理に限られるものではなく、話者認証処理などの音声の特徴ベクトルを利用した音声処理であれば、従来から用いられているあらゆる処理に本実施の形態の方法を適用することができる。

このように、第１の実施の形態にかかる特徴量補正装置では、複数の雑音環境の線形和で未知の雑音環境を近似することにより高い精度で特徴ベクトルを補正することができるので、認識時の雑音環境が設計時の雑音環境と一致していない場合であっても高精度の特徴ベクトルを算出することができる。このため、当該特徴ベクトルを用いることにより、高い音声認識性能を得ることが可能となる。

また、従来の特徴ベクトル補正方式では、入力された音声信号の各フレームに対して雑音環境を唯一選択していたため、雑音環境の選択を誤った場合に性能が大きく劣化していた。これに対して、本実施の形態では雑音環境を１つだけ選択するのではなく、帰属度に基づいて線形結合するため、何らかの原因で帰属度の計算に誤差が存在したとしても、補正ベクトルの計算に対する影響は小さく、性能劣化が小さいという利点がある。

（第２の実施の形態）
第１の実施の形態では、各時刻ｔにおける雑音環境の帰属度は当該時刻ｔの特徴ベクトルｙ_tのみから求めていた。これに対し、第２の実施の形態にかかる特徴量補正装置は、時刻ｔの前後の複数の特徴ベクトルも用いて帰属度を算出するものである。

図３は、第２の実施の形態にかかる特徴量補正装置３００の構成を示すブロック図である。同図に示すように、特徴量補正装置３００は、雑音環境記憶部１２０と、入力受付部１０１と、特徴抽出部１０２と、帰属度計算部３０３と、補正ベクトル計算部１０４と、特徴ベクトル補正部１０５とを備えている。

第２の実施の形態では、帰属度計算部３０３の機能が第１の実施の形態と異なっている。その他の構成および機能は、第１の実施の形態にかかる特徴量補正装置１００の構成を表すブロック図である図１と同様であるので、同一符号を付し、ここでの説明は省略する。

帰属度計算部３０３は、任意の時刻ｔにおけるフレームの音声の帰属度を算出する際に、時刻ｔの前または後の少なくとも一方の所定の範囲の時刻のフレームの特徴ベクトルを利用して帰属度を算出するものである。帰属度の算出方法の詳細については後述する。

次に、このように構成された第２の実施の形態にかかる特徴量補正装置３００による特徴量補正処理について説明する。図４は、第２の実施の形態における特徴量補正処理の全体の流れを示すフローチャートである。

ステップＳ４０１からステップＳ４０２までの、特徴量補正処理は、第１の実施の形態にかかる特徴量補正装置１００におけるステップＳ２０１からステップＳ２０２までと同様の処理なので、その説明を省略する。

ステップＳ４０２で特徴ベクトルを抽出した後、帰属度計算部３０３は、特徴ベクトルを抽出した時刻である時刻tの前後の時刻のフレームの特徴ベクトルについて、抽出した特徴量が各雑音環境で出現する確率（出現確率）を計算する（ステップＳ４０３）。この出現確率は、後述する（１０）式の括弧内の式で算出される値に相当する。

次に、帰属度計算部３０３は、各時刻のフレームで算出した出現確率を重み付け乗算した値を用いて、時刻ｔのフレームの帰属度を計算する（ステップＳ４０４）。具体的には、帰属度計算部３０３は、以下の（９）式により、帰属度ｐ（ｅ｜ｙ_t-a:t-b）を算出する。ここで、ａ、ｂは０以上の整数であり、ｙ_t-a:t+bは時刻ｔ−ａからｔ＋ｂまでの特徴ベクトルの系列を表す。

（９）式のｐ（ｙ_t-a:t-b｜ｅ）は、以下の（１０）式で算出される。

また、（９）式のαは、以下の（１１）式で算出される。

また、ｗ（τ）は各時刻ｔ＋τに対する重みであり、例えば全てのτに対してｗ（τ）＝１としても良いし、τの絶対値が大きくなるに従ってｗ（τ）の値が小さくなるように設定しても良い。このようにして算出された帰属度ｐ（ｅ｜ｙ_t-a:t+b）を用いて、上述の（５）式と同様にして補正ベクトルｒ_tを求めることができる。

すなわち、ステップＳ４０４で計算された帰属度を用いて、第１の実施の形態のステップＳ２０４と同様の方法により、補正ベクトル計算部１０４が補正ベクトルｒ_tを算出する（ステップＳ４０５）。

また、特徴ベクトル補正部１０５は、第１の実施の形態のステップＳ２０５と同様の方法により、補正ベクトルｒ_tを用いて特徴ベクトルｙ_tを補正し（ステップＳ４０６）、特徴量補正処理を終了する。

このように、第２の実施の形態にかかる特徴量補正装置では、複数の特徴ベクトルを用いて帰属度を計算することができるので、補正ベクトルの急激な変動を抑え、高精度の特徴ベクトルを算出することができる。このため、当該特徴ベクトルを用いることにより、高い音声認識性能を得ることが可能となる。

図５は、第１または第２の実施の形態にかかる特徴量補正装置のハードウェア構成を示す説明図である。

第１または第２の実施の形態にかかる特徴量補正装置は、ＣＰＵ（Central Processing Unit）５１などの制御装置と、ＲＯＭ（Read Only Memory）５２やＲＡＭ５３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５４と、各部を接続するバス６１を備えている。

第１または第２の実施の形態にかかる特徴量補正装置で実行される特徴量補正プログラムは、ＲＯＭ５２等に予め組み込まれて提供される。

第１または第２の実施の形態にかかる特徴量補正装置で実行される特徴量補正プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。

さらに、第１または第２の実施の形態にかかる特徴量補正装置で実行される特徴量補正プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第１または第２の実施の形態にかかる特徴量補正装置で実行される特徴量補正プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

第１または第２の実施の形態にかかる特徴量補正装置で実行される特徴量補正プログラムは、上述した各部（入力受付部、特徴抽出部、帰属度計算部、補正ベクトル計算部、特徴ベクトル補正部）を含むモジュール構成となっており、実際のハードウェアとしてはＣＰＵ５１が上記ＲＯＭ５２から特徴量補正プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、各部が主記憶装置上に生成されるようになっている。

以上のように、本発明にかかる特徴量補正装置、特徴量補正方法および特徴量補正プログラムは、音声の特徴量を用いて音声認識や話者認証を行う音声処理装置に適している。

第１の実施の形態にかかる特徴量補正装置の構成を示すブロック図である。第１の実施の形態における特徴量補正処理の全体の流れを示すフローチャートである。第２の実施の形態にかかる特徴量補正装置の構成を示すブロック図である。第２の実施の形態における特徴量補正処理の全体の流れを示すフローチャートである。第１または第２の実施の形態にかかる特徴量補正装置のハードウェア構成を示す説明図である。

符号の説明

５１ＣＰＵ
５２ＲＯＭ
５３ＲＡＭ
５４通信Ｉ／Ｆ
６１バス
１００特徴量補正装置
１０１入力受付部
１０２特徴抽出部
１０３帰属度計算部
１０４補正ベクトル計算部
１０５特徴ベクトル補正部
１２０雑音環境記憶部
１２１、１２２、１２３パラメータ
３００特徴量補正装置
３０３帰属度計算部

Claims

音声処理で用いる音声の特徴量を補正する特徴量補正装置であって、
複数の雑音環境のそれぞれについて、予め定められた複数の第１の補正量を記憶する記憶手段と、
入力された音声の特徴量を抽出する特徴量抽出手段と、
前記特徴量抽出手段が抽出した前記特徴量に基づいて、前記雑音環境のそれぞれについて、入力された音声が前記雑音環境で発生したことの確からしさを表す帰属度を計算する帰属度計算手段と、
前記記憶手段から複数の前記第１の補正量を取得し、取得した複数の前記第１の補正量を重み付け加算することにより前記雑音環境のそれぞれについての前記特徴量の補正量である第２の補正量を算出し、算出した前記第２の補正量を前記帰属度計算手段が計算した前記帰属度を重み付け係数として重み付け加算した第３の補正量を計算する補正量計算手段と、
前記補正量計算手段が計算した前記第３の補正量に基づいて、前記特徴量抽出手段が抽出した前記特徴量を補正する補正手段と、
を備えたことを特徴とする特徴量補正装置。
前記記憶手段は、前記雑音環境をガウス混合モデルでモデル化したときのパラメータをさらに記憶し、
前記帰属度計算手段は、前記記憶手段から前記パラメータを取得し、取得した前記パラメータに基づいて前記雑音環境のそれぞれに対して前記特徴量が出現する確からしさを表す第１の尤度を算出し、算出した前記第１の尤度に基づいて前記帰属度を計算すること、
を特徴とする請求項１に記載の特徴量補正装置。
前記補正手段は、前記特徴量と前記第３の補正量とを加算することにより前記特徴量を補正すること、
を特徴とする請求項１に記載の特徴量補正装置。
前記記憶手段は、前記雑音環境のそれぞれについて、前記雑音環境下の音声である雑音音声と、雑音が存在しない環境下の音声であるクリーン音声とから算出された前記第１の補正量を記憶すること、
を特徴とする請求項１に記載の特徴量補正装置。
前記特徴量抽出手段は、入力された音声のＭＦＣＣ（メル周波数ケプストラム係数）を前記特徴量として抽出すること、
を特徴とする請求項１に記載の特徴量補正装置。
前記帰属度計算手段は、第１の時刻の前または後の少なくとも一方の予め定められた範囲に含まれる複数の時刻で前記特徴量抽出手段が抽出した複数の前記特徴量に基づいて前記帰属度を計算すること、
を特徴とする請求項１に記載の特徴量補正装置。
前記記憶手段は、前記雑音環境をガウス混合モデルでモデル化したときのパラメータをさらに記憶し、
前記帰属度計算手段は、前記記憶手段から前記パラメータを取得し、取得した前記パラメータに基づいて、前記範囲に含まれる複数の時刻のそれぞれについて、前記雑音環境のそれぞれに対して前記特徴量が出現する確からしさを表す第２の尤度を算出し、予め定められた第１の係数を重み付け係数として、算出した前記第２の尤度を重み付け乗算することにより、前記第１の時刻の前記特徴量が出現する確からしさを表す第１の尤度を算出し、算出した前記第１の尤度に基づいて前記帰属度を計算すること、
を特徴とする請求項６に記載の特徴量補正装置。
前記帰属度計算手段は、算出した前記第２の尤度の積である前記第１の尤度を算出し、算出した前記第１の尤度に基づいて前記帰属度を計算すること、
を特徴とする請求項７に記載の特徴量補正装置。
前記帰属度計算手段は、前記第１の時刻との差が大きい時刻に対する前記第１の係数の値が、前記第１の時刻との差が小さい時刻に対する前記第１の係数の値より小さくなるように予め定められた前記第１の係数を重み付け係数として、算出した前記第２の尤度を重み付け乗算すること、
を特徴とする請求項７に記載の特徴量補正装置。
音声処理で用いる音声の特徴量を補正する特徴量補正方法であって、
入力された音声の特徴量を抽出する特徴量抽出ステップと、
前記特徴量抽出ステップが抽出した前記特徴量に基づいて、前記雑音環境のそれぞれについて、入力された音声が前記雑音環境で発生したことの確からしさを表す帰属度を計算する帰属度計算ステップと、
前記雑音環境のそれぞれについて予め定められた複数の第１の補正量を記憶する記憶手段から複数の前記第１の補正量を取得し、取得した複数の前記第１の補正量を重み付け加算することにより前記雑音環境のそれぞれについての前記特徴量の補正量である第２の補正量を算出し、算出した前記第２の補正量を前記帰属度計算ステップが計算した前記帰属度を重み付け係数として重み付け加算した第３の補正量を計算する補正量計算ステップと、
前記補正量計算ステップが計算した前記第３の補正量に基づいて、前記特徴量抽出ステップが抽出した前記特徴量を補正する補正ステップと、
を備えたことを特徴とする特徴量補正方法。
音声処理で用いる音声の特徴量を補正する特徴量補正プログラムであって、
入力された音声の特徴量を抽出する特徴量抽出手順と、
前記特徴量抽出手順が抽出した前記特徴量に基づいて、前記雑音環境のそれぞれについて、入力された音声が前記雑音環境で発生したことの確からしさを表す帰属度を計算する帰属度計算手順と、
前記雑音環境のそれぞれについて予め定められた複数の第１の補正量を記憶する記憶手段から複数の前記第１の補正量を取得し、取得した複数の前記第１の補正量を重み付け加算することにより前記雑音環境のそれぞれについての前記特徴量の補正量である第２の補正量を算出し、算出した前記第２の補正量を前記帰属度計算手順が計算した前記帰属度を重み付け係数として重み付け加算した第３の補正量を計算する補正量計算手順と、
前記補正量計算手順が計算した前記第３の補正量に基づいて、前記特徴量抽出手順が抽出した前記特徴量を補正する補正手順と、
をコンピュータに実行させる特徴量補正プログラム。