JP4316583B2

JP4316583B2 - 特徴量補正装置、特徴量補正方法および特徴量補正プログラム

Info

Publication number: JP4316583B2
Application number: JP2006106594A
Authority: JP
Inventors: 政巳赤嶺; 貴史益子; バッレダダニエル; トーネンレムコ
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2006-04-07
Filing date: 2006-04-07
Publication date: 2009-08-19
Anticipated expiration: 2026-04-07
Also published as: CN101051462A; US20070260455A1; US8370139B2; JP2007279444A

Description

この発明は、音声処理で用いる音声の特徴量を補正することにより背景雑音環境下で高精度の特徴量を得ることができる特徴量補正装置、特徴量補正方法および特徴量補正プログラムに関するものである。

雑音環境下の音声認識では、学習時の雑音環境と認識時の雑音環境が異なることに起因する認識性能の劣化、いわゆる音響モデルのミスマッチが問題となる。この問題に対処する有効な方法の一つとしてＳＰＬＩＣＥ（Stereo-based Piecewise Linear Compensation for Environments）法が提案されている（非特許文献１）。

ＳＰＬＩＣＥ法は、クリーン音声データと、クリーン音声データに雑音が重畳された雑音音声データとの対から事前に補正ベクトルを求めておき、音声認識時に特徴量をその補正ベクトルを用いてクリーン音声の特徴量に近づける方法であり、雑音除去の手法と捉えることもできる。

このような補正処理によって、認識時の特徴ベクトルと音響モデルのミスマッチが緩和されるため雑音環境下でも高い認識率が実現できることが報告されている。

Li Deng, Alex Acero, Li Jiang, Jasha Droppo and Xuedong Huang, "High-performance robust speech recognition using stereo training data," Proceedings of 2001 International Conference on Acoustics, Speech, and Signal Processing, pp.301-304.

しかしながら、従来のＳＰＬＩＣＥ法では、雑音環境の選択は１０〜２０ｍｓの短いフレーム単位で行われるため、一定時間同じ環境が連続する場合でもフレーム毎に異なる環境が選択され認識性能が劣化する場合があるという問題があった。

また、従来のＳＰＬＩＣＥ法では、予め設計した複数の環境の中から、入力音声が属する雑音環境をフレーム単位で一つ選択し特徴ベクトルを補正しているので、予め設計した雑音環境と認識時の雑音環境が必ずしも一致せず、音響モデルのミスマッチにより認識性能が劣化する場合があるという問題があった。

本発明は、上記に鑑みてなされたものであって、実際の雑音環境の変化に近い円滑な雑音環境の選択を行って、音声の特徴量を高精度で求めることができる特徴量補正装置、特徴量補正方法および特徴量補正プログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、音声処理で用いる音声の特徴量を補正する特徴量補正装置であって、複数の雑音環境のそれぞれについて、前記特徴量を補正するための補正量を記憶する雑音環境記憶手段と、前記雑音環境のそれぞれを状態として保持するとともに、前記雑音環境のそれぞれにおける前記特徴量の確率モデルであるガウス混合モデルのパラメータと各状態間を遷移する際の状態遷移確率とをモデル化した雑音環境隠れマルコフモデルを記憶する雑音環境ＨＭＭ記憶手段と、入力された音声を所定時間ごとに分割した複数のフレームの各フレームにおける音声の特徴量を抽出する特徴抽出手段と、前記特徴抽出手段によって抽出された各フレームについての複数の前記特徴量の系列を示す特徴量系列と、前記雑音環境隠れマルコフモデルと、現在のフレームと現在のフレームに対して少なくとも直前のフレームまたは直後のフレームとにおける前記特徴量が前記雑音環境で発生したことの確からしさを示す前記雑音環境のそれぞれについての帰属度に基づいて、前記特徴量系列の各特徴量を発生させる複数の前記雑音環境の系列を示す雑音環境系列を推定する雑音環境系列推定手段と、前記雑音環境系列推定手段によって推定された前記雑音環境系列の各雑音環境に対応する補正量を求める手段であって、前記雑音環境記憶手段に記憶された前記補正量の中から第１の補正量を取得し、取得した前記第１の補正量に対して前記雑音環境隠れマルコフモデルから求めた各状態に存在する確率を重み付け係数として重み付け加算した第２の補正量を計算する補正量計算手段と、前記補正量計算手段によって計算された前記第２の補正量に基づいて、前記特徴抽出手段が抽出した前記特徴量を補正する特徴量補正手段と、を備えたことを特徴とする。

また、本発明は、上記装置を実行することができる特徴量補正方法および特徴量補正プログラムである。

本発明によれば、雑音環境の推定を行う際に、少なくとも隣接する前後のフレームの帰属度を用いているので、実際の雑音環境の変化に近い円滑な選択が可能となり、音声の特徴量を高精度で求めることができるという効果を奏する。

以下に添付図面を参照して、この発明にかかる特徴量補正装置、特徴量補正方法および特徴量補正プログラムの最良な実施の形態を詳細に説明する。

（第１の実施の形態）
図１は、第１の実施の形態にかかる特徴量補正装置１００の構成を示すブロック図である。同図に示すように、特徴量補正装置１００は、雑音環境記憶部１２０と、入力受付部１０１と、特徴抽出部１０２と、雑音環境系列推定部１０３と、補正ベクトル計算部１０４と、特徴ベクトル補正部１０５と、雑音環境ＨＭＭ記憶部１３０とを備えている。

雑音環境記憶部１２０は、複数の雑音環境をＧＭＭ（Gaussian Mixture Model：ガウス混合モデル）でモデル化した際のＧＭＭパラメータと、各雑音環境に対応する特徴量の補正量として予め算出された補正ベクトルを格納する記憶部である。雑音環境記憶部１２０には、後述する（５）、（６）式で算出された補正ベクトルが格納されている。なお、ＧＭＭによるモデル化の詳細については後述する。

本実施の形態では、雑音環境１、雑音環境２、雑音環境３の３つの雑音環境のパラメータ１２１、１２２、１２３が予め算出され、雑音環境記憶部１２０に記憶されているものとする。なお、雑音環境の個数は３に限られるものではなく、任意の個数の雑音環境を対象とすることができる。

また、雑音環境記憶部１２０は、ＨＤＤ（Hard Disk Drive）、光ディスク、メモリカード、ＲＡＭ（Random Access Memory）などの一般的に利用されているあらゆる記憶媒体により構成することができる。

入力受付部１０１は、マイクなどの入力部（図示せず）から入力された音声を電気信号（音声データ）に変換した後、音声データをＡ／Ｄ（アナログデジタル）変換し、ＰＣＭ（パルスコードモジュレーション）形式などによるデジタルデータに変換して出力するものである。これらの処理は、従来から用いられている音声信号のデジタル化処理と同様の方法によって実現することができる。

特徴抽出部１０２は、入力受付部１０１が受付けた音声信号を予め定められた１０〜２０ｍｓのフレームに分割して、フレームごとに音声の特徴量を抽出するものである。本実施の形態では、特徴抽出部１０２は、ＭＦＣＣ（Mel Frequency Cepstrum Coefficient：メル周波数ケプストラム係数）のスタティックとΔ、ΔΔパラメータを用いた音声の特徴量をフレームごとに抽出する。

具体的には、特徴抽出部１０２は、メルフィルタバンク解析の出力のパワーを離散コサイン変換する方法により、１３次元のＭＦＣＣと、当該ＭＦＣＣのΔ、およびΔΔの合計３９次元の特徴ベクトルを特徴量として分割されたフレームごとに算出し、算出したフレームごとの時系列の複数の特徴ベクトルを特徴ベクトル系列として出力する。

なお、特徴量は上記に限られるものではなく、入力された音声の特徴を表す値であれば、従来から用いられているあらゆる特徴量を利用することができる。

雑音環境系列推定部１０３は、特徴抽出部１０２によって抽出された複数フレームの特徴ベクトルからなる特徴ベクトル系列と雑音環境ＨＭＭ記憶部１３０に記憶された雑音環境ＨＭＭ１３０とを入力して、各特徴ベクトルが各雑音環境１〜３で発生したことの確からしさを示す雑音環境のそれぞれについての帰属度とそれぞれの雑音環境間の状態遷移確率に基づいて、特徴ベクトル系列の各特徴ベクトルを発生させる雑音環境１〜３の系列である雑音環境系列を推定するものである。

雑億環境ＨＭＭ記憶部１３０は、雑音環境をモデル化した隠れマルコフモデルである雑音環境ＨＭＭ（Hidden Markov Model）を記憶するＨＤＤ、光ディスク、メモリカード、ＲＡＭなど記憶媒体である。

雑音環境ＨＭＭは、雑音環境１〜３のそれぞれを状態として保持するとともに、雑音環境１〜３のそれぞれにおける特徴ベクトルの確率モデルであるＧＭＭ（ガウス混合モデルのパラメータと雑音環境１〜３の各状態間を遷移する際の状態遷移確率とをモデル化したものである。本実施の形態では、雑音環境ＨＭＭとして、雑音環境１〜３の３状態で各状態が自由に遷移可能なエルゴディックＨＭＭを用いており、各状態は一つの雑音環境に対応している。

各状態は、各雑音環境で観測される音声信号の特徴ベクトルの確率モデルである特徴ベクトル発生確率を表すＧＭＭのパラメータを有し、状態間の遷移は状態遷移確率を要素とする状態遷移行列でモデル化されている。図２は、雑音環境ＨＭＭを説明するための模式図である。図２に示すように、雑音環境ＨＭＭでは、雑音環境１〜３の各状態をそれぞれ状態１〜３とし、状態間を遷移する状態遷移確率をＰ_ijを定めている。ここで、Ｐ_ijは、状態ｉから状態ｊに遷移する状態遷移確率であり、例えば、Ｐ₁₂は、状態１から状態２に遷移する確率であり、Ｐ₁₁は、状態１に滞留する確率を示している。

これらのＧＭＭのパラメータ(平均ベクトルu、共分散行列Σ)及び状態遷移行列は、フレームごとに雑音環境１〜３の種類のラベルが付与された特徴ベクトルを学習データとして準備し、音声認識の技術分野で知られているフォワード・バックワードアルゴリズム及びＥＭ（Expectation Maximization）アルゴリズムを用いて、特徴ベクトルの補正処理の前に予め学習して定められている。より具体的には、音声認識分野で標準的になっているＨＭＭ学習ツールＨＴＫを利用することにより雑音環境ＨＭＭを求めている。

観測される特徴ベクトル系列は、雑音環境HMMの状態遷移に伴って確率的に出力される。雑音環境系列推定部１０３は、入力された特徴ベクトル系列を出力しうる雑音環境HMMの状態の系列の中で特徴ベクトル系列の発生確率を最大にする状態の系列をビタビアルゴリズムを用いて求め、特徴ベクトル系列の発生確率を最大にする状態の系列、すなわち、状態に対応した雑音環境の系列を雑音環境系列として求めている。

例えば、図３に示すように入力音声を２０フレームに分割する場合、雑音環境系列推定部１０３は、状態１〜３を用いた２０フレームの全ての組み合わせの状態の系列に対して、状態遷移確率と特徴ベクトル系列の各特徴ベクトルのフレームの帰属度との乗算により特徴ベクトル系列の発生確率を求め、この発生確率が最大となる状態の系列に対応する雑音環境の系列を雑音環境系列として推定する。図３では、雑音環境１→雑音環境１→雑音環境３→雑音環境２→・・・雑音環境２という雑音環境系列が推定された例を示している。

このように本実施の形態にかかる雑音環境系列推定部１０３では、雑音環境ＨＭＭの各状態は雑音環境の一つに対応しており、ビタビアルゴリズムで雑音環境を推定する際にはフレーム毎にHMMの状態確率と状態遷移確率を考慮している。すなわち、フレームごとに雑音環境の帰属度を計算してフレームごとの帰属度のみから特徴ベクトルの雑音環境を求めているのではなく、複数のフレームに亘って、現在のフレームの帰属度の他、直前フレームを含む以前のフレーム、直後のフレームを含む以後のフレームのそれぞれの帰属度も考慮し、雑音環境ＨＭＭの状態確率、状態遷移確率を利用して、確率的な意味で尤もらしい雑音環境の系列を推定している。

ここで、雑音環境１〜３のそれぞれに対するフレームの音声の帰属度は以下のように計算される。特徴抽出部１０２が抽出した特徴ベクトルｙ_t、雑音環境のモデルをｅとすると、帰属度は以下の（１）式で表される時刻ｔの特徴ベクトルｙ_tに対する環境ｅの尤度ｐ（ｅ｜ｙ_t）として計算される。

なお、ｐ（ｙ_t｜ｅ）は、雑音環境ｅで特徴ベクトルｙ_tが出現する確率を表し、ｐ（ｅ）およびｐ（ｙ_t）はそれぞれ雑音環境ｅおよび特徴ベクトルｙ_tの発生頻度を表す。

ここで、ｐ（ｙ_t）は雑音環境と独立であり、また各環境の発生頻度は等しいと仮定すれば帰属度ｐ（ｅ｜ｙ_t）は以下の（２）式で計算することができる。

（２）式のｐ（ｙ_t｜ｅ）は、以下の（３）式で算出される。

また、（２）式のαは、以下の（４）式で算出される。

ただし、Ｎはガウス分布であり、特徴ベクトルｙ_tがＧＭＭでモデル化されているものとする。ＧＭＭのパラメータである平均ベクトルｕ、共分散行列Σは当該分野で広く知られているＥＭ（Expectation Maximization）アルゴリズムを用いて計算することができる。

具体的には、ある雑音環境で収集された音声データから大量の特徴ベクトルを計算し、算出した特徴ベクトルを学習データとして音声認識の標準的なＨＭＭ（Hidden Markov Model）学習ツールであるＨＴＫ（Hidden Markov Model Toolkit）を適用することで、ＧＭＭのパラメータを求めることができる。なお、（３）式のｐ（ｓ）はＧＭＭの各コンポーネントの事前確率を表す。

補正ベクトル計算部１０４は、雑音環境系列推定部１０３によって推定された雑音環境系列、すなわちフレームごとに推定された各雑音環境に対応する補正ベクトルを雑音環境記憶部１２０から選択取得するものである。

ここで、各雑音環境ｅにおける補正ベクトルｒ_sは、従来のＳＰＬＩＣＥ方式と同様の方法で計算することができる。すなわち、各雑音環境で雑音が付加されていないクリーンな音声データの特徴ベクトルｘ_nと、雑音が付加された雑音データｙ_nとの対（ｘ_n、ｙ_n）を予め多数準備し、以下の（５）式に従って補正ベクトルｒ_s ^eを計算することができる。なお、以下の式では雑音環境を表す上付きの添え字を省略している。

（５）式のｐ（ｓ｜ｙ_t）は、以下の（６）式で算出される。

このように計算された各雑音環境のＧＭＭパラメータと補正ベクトルは雑音環境記憶部１２０に事前に記憶されている。このため、補正ベクトル計算部１０４は、雑音環境記憶部１２０に記憶された各雑音環境１〜３の中で、各フレームごとにそれぞれ推定された雑音環境に対応する補正ベクトルr^eiを取得している。図３に示す例では、雑音環境１→雑音環境１→雑音環境３→雑音環境２→・・・→雑音環境２という雑音環境系列の各雑音環境に対応して各フレームで補正ベクトル１，補正ベクトル１，補正ベクトル３，補正ベクトル２，・・・，補正ベクトル２がそれぞれ取得された例を示している。なお、r^eiは後述の(8)式に従って、各雑音環境のＧＭＭパラメータと補正ベクトル及び各フレームの特徴ベクトルyを用いて計算される。

特徴ベクトル補正部１０５は、補正ベクトル計算部１０４により取得した補正ベクトルを用いて入力音声の特徴ベクトルを補正するものである。具体的には、特徴ベクトル補正部１０５は、特徴ベクトルに補正ベクトルを加算することにより、特徴ベクトルの補正を行う。

次に、このように構成された第１の実施の形態にかかる特徴量補正装置１００による特徴量補正処理について説明する。図４は、第１の実施の形態における特徴量補正処理の全体の流れを示すフローチャートである。

まず、入力受付部１０１が、ユーザが発話した音声の入力を受付ける（ステップＳ１１）。入力された音声は、入力受付部１０１によりデジタル形式の音声信号に変換され出力される。

次に、特徴抽出部１０２は、音声信号を１０ｍｓ等の所定時間ごとのフレームに分割し、各フレームの特徴量を抽出し、抽出した複数フレームの特徴ベクトルの系列を特徴ベクトル系列とする（ステップＳ１２）。なお、特徴抽出部１０２は、上述のようにＭＦＣＣの特徴ベクトルｙ_tを算出することにより特徴量を抽出する。

次に、雑音環境系列推定部１０３は、雑音環境ＨＭＭ記憶部１３０に記憶された雑音環境ＨＭＭと特徴抽出部１０２で求めた特徴ベクトル系列から雑音環境系列を推定する（ステップＳ１３）。雑音環境系列の推定は、上述したように、ビタビアルゴリズムを用い、複数のフレームに亘って、現在のフレームの帰属度の他、直前フレームを含む以前のフレーム、直後のフレームを含む以後のフレームのそれぞれの帰属度も考慮し、雑音環境ＨＭＭの状態確率、状態遷移確率を利用して、確率的な意味で尤もらしい雑音環境の系列を推定している。

次に、補正ベクトル計算部１０４によって、雑音環境系列推定部１０３によって推定された雑音環境系列の各雑音環境における補正ベクトルを雑音環境記憶部１２０から取得する（ステップＳ１４）。そして、特徴ベクトル補正部１０５によって、補正ベクトル計算部１０４により取得した補正ベクトルを特徴ベクトルに加算することにより、特徴ベクトルの補正を行う（ステップＳ１５）。

このように第１の実施の形態にかかる特徴量補正装置では、複数のフレームに亘って、現在のフレームの帰属度の他、直前フレームを含む以前のフレーム、直後のフレームを含む以後のフレームのそれぞれの帰属度も考慮し、雑音環境ＨＭＭの状態確率、状態遷移確率を利用して、確率的な意味で尤もらしい雑音環境の系列を推定しているので、選択される雑音環境はフレーム毎に急激に変化せず、実際の雑音環境の変化に近い円滑な選択が可能となる。このため、雑音環境の選択誤りが緩和され、音声の特徴量を高精度で求めることができる。

また、第１の実施の形態にかかる特徴量補正装置を音声認識処理に適用した場合には、
認識時の雑音環境が設計時の雑音環境と一致していない場合であっても高精度の特徴ベクトルを算出することができ、高い音声認識性能を得ることが可能となる。

（第２の実施の形態）
第１の実施の形態にかかる特徴量補正装置では、推定した雑音環境系列の各雑音環境に対応する補正ベクトルを雑音環境記憶部１２０から取得して特徴ベクトルを補正していたが、この第２の実施の形態にかかる特徴量補正装置では、複数の雑音環境の補正ベクトルを重み付き加算して補正ベクトルを算出している。

第２の実施の形態にかかる特徴量補正装置の構成は、図１で説明した第１の実施の形態の特徴量補正装置と同様である。第２の実施の形態にかかる特徴量補正装置では、補正ベクトル計算部１０４の機能が第１の実施の形態と異なっており、その他の各部については第１の実施の形態と同様の機能を有している。

第２の実施の形態にかかる補正ベクトル計算部１０４は、各雑音環境の補正ベクトルｒ^eiを雑音環境記憶部１２０から取得し、取得した各補正ベクトルｒ^eiに重み付け係数ｐ（ｉ）を付加して重み付け加算することにより、入力された音声に対する特徴ベクトルの補正ベクトルｒを算出するものである。

具体的には、補正ベクトル計算部１０４は、複数フレームの各フレーム毎に雑音環境ＨＭＭの各状態の滞留確率ｐ（ｉ）をフォワード確率とバックワード確率から計算し、各状態の滞留確率ｐ（ｉ）で各雑音環境の補正ベクトルｒ^eiを重み付け加算し、補正ベクトルrを求める。ここで、ｉ(ｉ＝１，２，３)は雑音環境ｉに対応する番号を示している。補正ベクトルｒは、次の（７）式により算出される。

（７）式のｒ^eiは、以下の（８）式により算出される。

次に、以上のように構成された第２の実施の形態にかかる特徴量補正装置１００による特徴量補正処理について説明する。図５は、第２の実施の形態における特徴量補正処理の全体の流れを示すフローチャートである。

ユーザが発話した音声の受け付けから雑音環境系列の推定までの処理（ステップＳ２１〜Ｓ２３）については第１の実施の形態と同様に行われる。

ステップＳ２３で雑音環境系列の推定が行われたら、補正ベクトル計算部１０４は、雑音環境ＨＭＭの各状態の滞留確率ｐ（ｉ）を計算し、滞留確率ｐ（ｉ）重み付け係数として各雑音環境に対して雑音環境記憶部１２０に格納された補正ベクトルｒ_s ^eの重み付け加算を算出することにより、入力された音声の特徴量に対する補正ベクトルｒ_tを算出する（ステップＳ２４）。そして、第１の実施の形態と同様に、特徴ベクトル補正部１０５によって、補正ベクトル計算部１０４により取得した補正ベクトルを特徴ベクトルに加算することにより、特徴ベクトルの補正を行う（ステップＳ２５）。

このように第２の実施の形態にかかる特徴量補正装置では、複数の雑音環境の線形和で未知の雑音環境を近似することになるので、より高い精度で特徴ベクトルを補正することができ、認識時の雑音環境が設計時の雑音環境と一致していない場合でも高い認識性能を得ることができる。

（第３の実施の形態）
第１の実施の形態にかかる特徴量補正装置では、入力された音声に対し複数フレーム毎に雑音環境系列を推定していたが、この第３の実施の形態にかかる特徴量補正装置では、１フレームごとに逐次的に雑音環境系列を推定するものである。

第３の実施の形態にかかる特徴量補正装置の構成は、図１で説明した第１の実施の形態の特徴量補正装置と同様である。第３の実施の形態にかかる特徴量補正装置では、雑音環境系列推定部１０３の機能が第１の実施の形態と異なっており、その他の各部については第１の実施の形態と同様の機能を有している。

雑音環境推定部１０３は、１フレームごとに、最初に入力されたフレームｔから現在のフレームｔ＋ａ(ａは０以上の整数)までの複数のフレームについての特徴量系列と雑音環境ＨＭＭを用いて雑音環境系列を推定するものである。具体的には、各フレームの雑音環境は最初の入力フレームからフレームｔ＋ａまでの特徴ベクトルの系列に対するビタビアルゴリズムを用いて第１の実施の形態と同様の手法で求める。

次に、以上のように構成された第３の実施の形態にかかる特徴量補正装置１００による特徴量補正処理について説明する。図６は、第３の実施の形態における特徴量補正処理の全体の流れを示すフローチャートである。

まず、第１の実施の形態と同様に、ユーザが発話した音声を受け付ける（ステップＳ３１）。そして、特徴抽出部１０２は、所定時間内に受け付けた音声を１フレームとして、フレームごとの特徴ベクトル系列を求める（ステップＳ３２）。

次に、雑音環境系列推定部１０３は、最初に入力されたフレームｔから現在のフレーム（ｔ＋ａ）までの複数のフレームについて、雑音環境ＨＭＭ記憶部１３０に記憶された雑音環境ＨＭＭと特徴抽出部１０２で求めた特徴ベクトル系列から雑音環境系列を１フレームごとに推定する（ステップＳ３３）。そして、入力された音声のすべてのフレームについてステップＳ３２およびＳ３３の処理を繰り返し実行する（ステップＳ３４）。以降は、第１の実施の形態と同様に、補正ベクトル計算部１０４によって、雑音環境系列推定部１０３によって推定された雑音環境系列の各雑音環境における補正ベクトルを雑音環境記憶部１２０から取得する（ステップＳ３５）。そして、特徴ベクトル補正部１０５によって、補正ベクトル計算部１０４により取得した補正ベクトルを特徴ベクトルに加算することにより、特徴ベクトルの補正を行う（ステップＳ３６）。

このように第３の実施の形態にかかる特徴量補正装置では、現時点までに得られている全ての入力音声信号の情報を用いて雑音環境を推定することになるので、より高い精度で安定して特徴ベクトルを補正することができ、高い認識性能を得ることができる。また、第３の実施の形態にかかる特徴量補正装置では、特徴ベクトルが入力されてから補正された特徴ベクトルが出力されるまでの遅延を一定以下に抑えることも可能となる。

なお、第２の実施の形態にかかる特徴量補正装置のように、補正ベクトルを重み付け加算で求める場合において、最初に入力されたフレームｔから現在のフレーム（ｔ＋ａ）までの複数のフレームについて滞留確率ｐ（ｉ）を算出するように構成してもよい。この場合には、最初に入力されたフレームｔから現在のフレーム（ｔ＋ａ）までの複数のフレームについてのフォワード確率とバックワード確率を求め、各状態の滞留確率ｐ（ｉ）を算出すればよい。

図７は、第１〜３の実施の形態にかかる特徴量補正装置のハードウェア構成を示す説明図である。

第１〜３の実施の形態にかかる特徴量補正装置は、ＣＰＵ（Central Processing Unit）５１などの制御装置と、ＲＯＭ（Read Only Memory）５２やＲＡＭ５３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５４と、各部を接続するバス６１を備えている。

第１〜３の実施の形態にかかる特徴量補正装置で実行される特徴量補正プログラムは、ＲＯＭ５２等に予め組み込まれて提供される。

第１〜３の実施の形態にかかる特徴量補正装置で実行される特徴量補正プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。

さらに、第１〜３の実施の形態にかかる特徴量補正装置で実行される特徴量補正プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第１〜３の実施の形態にかかる特徴量補正装置で実行される特徴量補正プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

第１〜３の実施の形態にかかる特徴量補正装置で実行される特徴量補正プログラムは、上述した各部（入力受付部、特徴抽出部、雑音環境系列推定部、補正ベクトル計算部、特徴ベクトル補正部）を含むモジュール構成となっており、実際のハードウェアとしてはＣＰＵ５１が上記ＲＯＭ５２から特徴量補正プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、各部が主記憶装置上に生成されるようになっている。

なお、本発明は、上記実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記実施の形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施の形態にわたる構成要素を適宜組み合わせても良い。

以上のように、本発明にかかる特徴量補正装置、特徴量補正方法および特徴量補正プログラムは、音声の特徴量を用いて音声認識や話者認証を行う音声処理装置に適している。

第１の実施の形態にかかる特徴量補正装置１００の構成を示すブロック図である。雑音環境ＨＭＭを説明するための模式図である。入力音声を２０フレームに分割した場合における雑音環境系列推定、補正ベクトルの例を示す説明図である。第１の実施の形態における特徴量補正処理の全体の流れを示すフローチャートである。第２の実施の形態における特徴量補正処理の全体の流れを示すフローチャートである。第３の実施の形態における特徴量補正処理の全体の流れを示すフローチャートである。第１〜３の実施の形態にかかる特徴量補正装置のハードウェア構成を示す説明図である。

符号の説明

５１ＣＰＵ
５２ＲＯＭ
５３ＲＡＭ
５４通信Ｉ／Ｆ
６１バス
１００特徴量補正装置
１０２特徴抽出部
１０３雑音環境系列推定部
１０４補正ベクトル計算部
１０５特徴ベクトル補正部
１２０雑音環境記憶部
１２１、１２２、１２３パラメータ
１３０雑億環境ＨＭＭ記憶部

Claims

音声処理で用いる音声の特徴量を補正する特徴量補正装置であって、
複数の雑音環境のそれぞれについて、前記特徴量を補正するための補正量を記憶する雑音環境記憶手段と、
前記雑音環境のそれぞれを状態として保持するとともに、前記雑音環境のそれぞれにおける前記特徴量の確率モデルであるガウス混合モデルのパラメータと各状態間を遷移する際の状態遷移確率とをモデル化した雑音環境隠れマルコフモデルを記憶する雑音環境ＨＭＭ記憶手段と、
入力された音声を所定時間ごとに分割した複数のフレームの各フレームにおける音声の特徴量を抽出する特徴抽出手段と、
前記特徴抽出手段によって抽出された各フレームについての複数の前記特徴量の系列を示す特徴量系列と、前記雑音環境隠れマルコフモデルと、現在のフレームと現在のフレームに対して少なくとも直前のフレームまたは直後のフレームとにおける前記特徴量が前記雑音環境で発生したことの確からしさを示す前記雑音環境のそれぞれについての帰属度に基づいて、前記特徴量系列の各特徴量を発生させる複数の前記雑音環境の系列を示す雑音環境系列を推定する雑音環境系列推定手段と、
前記雑音環境系列推定手段によって推定された前記雑音環境系列の各雑音環境に対応する補正量を求める手段であって、前記雑音環境記憶手段に記憶された前記補正量の中から第１の補正量を取得し、取得した前記第１の補正量に対して前記雑音環境隠れマルコフモデルから求めた各状態に存在する確率を重み付け係数として重み付け加算した第２の補正量を計算する補正量計算手段と、
前記補正量計算手段によって計算された前記第２の補正量に基づいて、前記特徴抽出手段が抽出した前記特徴量を補正する特徴量補正手段と、
を備えたことを特徴とする特徴量補正装置。
前記特徴抽出手段は、入力された音声を複数のフレームに分割し、分割された各フレームにおける音声の特徴量を抽出し、
前記雑音環境系列推定手段は、分割された複数のフレームについての前記特徴量系列と、分割された複数のフレームにおける前記特徴量についての前記帰属度に基づいて、前記雑音環境系列を推定することを特徴とする請求項１に記載の特徴量補正装置。
前記雑音環境系列推定手段は、所定のフレームから現在のフレームまでの複数のフレームについての前記特徴量系列と、所定のフレームから現在のフレームまでの複数のフレームにおける前記特徴量についての前記帰属度に基づいて、逐次的に前記雑音環境系列を推定することを特徴とする請求項１に記載の特徴量補正装置。
前記特徴量補正手段は、前記特徴量と前記第２の補正量とを加算することにより前記特徴量を補正することを特徴とする請求項１に記載の特徴量補正装置。
前記雑音環境記憶手段は、前記雑音環境のそれぞれについて、前記雑音環境下の音声である雑音音声と、雑音が存在しない環境下の音声であるクリーン音声とから算出された前記補正量を記憶することを特徴とする請求項１に記載の特徴量補正装置。
前記特徴抽出手段は、入力された音声のＭＦＣＣ（メル周波数ケプストラム係数）を前記特徴量として抽出することを特徴とする請求項１に記載の特徴量補正装置。
音声処理で用いる音声の特徴量を補正する特徴量補正装置で実行される特徴量補正方法であって、
前記特徴量補正装置は、
複数の雑音環境のそれぞれについて、前記特徴量を補正するための補正量を記憶する雑音環境記憶手段と、
前記雑音環境のそれぞれを状態として保持するとともに、前記雑音環境のそれぞれにおける前記特徴量の確率モデルであるガウス混合モデルのパラメータと各状態間を遷移する際の状態遷移確率とをモデル化した雑音環境隠れマルコフモデルを記憶する雑音環境ＨＭＭ記憶手段と、を備え、
入力された音声を所定時間ごとに分割した複数のフレームの各フレームにおける音声の特徴量を抽出する特徴抽出ステップと、
前記特徴抽出ステップによって抽出された各フレームについての複数の前記特徴量の系列を示す特徴量系列と、前記雑音環境隠れマルコフモデルと、現在のフレームと現在のフレームに対して少なくとも直前のフレームまたは直後のフレームとにおける前記特徴量が前記雑音環境で発生したことの確からしさを示す前記雑音環境のそれぞれについての帰属度に基づいて、前記特徴量系列の各特徴量を発生させる複数の前記雑音環境の系列を示す雑音環境系列を推定する雑音環境系列推定ステップと、
前記雑音環境系列推定ステップによって推定された前記雑音環境系列の各雑音環境に対応する補正量を求める手段であって、前記雑音環境記憶手段に記憶された前記補正量の中から第１の補正量を取得し、取得した前記第１の補正量に対して前記雑音環境隠れマルコフモデルから求めた各状態に存在する確率を重み付け係数として重み付け加算した第２の補正量を計算する補正量計算ステップと、
前記補正量計算ステップによって計算された前記第２の補正量に基づいて、前記特徴抽出ステップが抽出した前記特徴量を補正する特徴量補正ステップと、
を含むことを特徴とする特徴量補正方法。
音声処理で用いる音声の特徴量を補正するコンピュータに実行させるための特徴量補正プログラムであって、
前記コンピュータは、
複数の雑音環境のそれぞれについて、前記特徴量を補正するための補正量を記憶する雑音環境記憶手段と、
前記雑音環境のそれぞれを状態として保持するとともに、前記雑音環境のそれぞれにおける前記特徴量の確率モデルであるガウス混合モデルのパラメータと各状態間を遷移する際の状態遷移確率とをモデル化した雑音環境隠れマルコフモデルを記憶する雑音環境ＨＭＭ記憶手段と、を備え、
入力された音声を所定時間ごとに分割した複数のフレームの各フレームにおける音声の特徴量を抽出する特徴抽出ステップと、
前記特徴抽出ステップによって抽出された各フレームについての複数の前記特徴量の系列を示す特徴量系列と、前記雑音環境隠れマルコフモデルと、現在のフレームと現在のフレームに対して少なくとも直前のフレームまたは直後のフレームとにおける前記特徴量が前記雑音環境で発生したことの確からしさを示す前記雑音環境のそれぞれについての帰属度に基づいて、前記特徴量系列の各特徴量を発生させる複数の前記雑音環境の系列を示す雑音環境系列を推定する雑音環境系列推定ステップと、
前記雑音環境系列推定ステップによって推定された前記雑音環境系列の各雑音環境に対応する補正量を求める手段であって、前記雑音環境記憶手段に記憶された前記補正量の中から第１の補正量を取得し、取得した前記第１の補正量に対して前記雑音環境隠れマルコフモデルから求めた各状態に存在する確率を重み付け係数として重み付け加算した第２の補正量を計算する補正量計算ステップと、
前記補正量計算ステップによって計算された前記第２の補正量に基づいて、前記特徴抽出ステップが抽出した前記特徴量を補正する特徴量補正ステップと、
を前記コンピュータに実行させるための特徴量補正プログラム。