JP4765461B2

JP4765461B2 - 雑音抑圧システムと方法及びプログラム

Info

Publication number: JP4765461B2
Application number: JP2005217694A
Authority: JP
Inventors: 隆行荒川; 剛範辻川
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2005-07-27
Filing date: 2005-07-27
Publication date: 2011-09-07
Anticipated expiration: 2025-07-27
Also published as: JP2007033920A; US20070027685A1; CN1905006B; US9613631B2; CN1905006A

Description

本発明は雑音抑圧システムに関し、特に、音声認識における雑音成分の抑圧に好適とされる雑音抑圧システム、雑音抑圧方法及び雑音抑圧プログラムに関する。

従来の音声認識のための雑音抑圧手法は、大別して以下の２つの手法がある。

(a）信号処理的手法を用いて入力信号から雑音成分を減算する。

(b)デコーダ側である音響モデルと雑音モデルを合成し、雑音適応音響モデルを作成する。

なお、本願明細書では、雑音は音声信号以外の信号のことを指し、比較的定常的と考えられる背景雑音に加え、例えば突発雑音や、残響、反響、エコー、あるいは、目的とする話者以外の他の話者の音声等を含む。

非特許文献１によれば、(a)はフロントエンドにおける手法、(b)はデコーダにおける処理と大別されている。

(a)の信号処理的手法として広く使われているものとしては、“スペクトル・サブトラクション法（ＳＳ法）”がある。

図１０は、このＳＳ法を実現するシステムの典型的な構成の一例を示す図である。図１０に示すように、入力信号（スペクトルX）を取得する入力信号取得部１と、雑音平均スペクトル（N）を算出する手段２と、入力信号から雑音平均スペクトルを減算し、推定音声（仮推定音声S'）を算出する手段３ｃとを備えている。

かかる構成のシステムは以下のような利点がある。

・計算量が少ない。

・雑音平均スペクトルを更新する手法など他の手法と容易に組み合わせて使える。

しかしながら、入力信号から雑音平均スペクトルを単純に減算すると、雑音の持つ分散成分や音声と雑音の位相差のために引き残し（ミュージカルノイズ）が生じ、この引き残し成分が誤認識の原因となる。

そこで、ＳＳ法では、フロアリングを行い、音声の谷の情報を埋めてしまう処理が必要となる。このフロアリングの値を大きくすれば、雑音の引き残しは抑えられるが、音声の谷の情報を埋めてしまうために、性能の劣化につながる。

また、特許文献１や非特許文献２、非特許文献６には、平滑化した事前ＳＮＲ（推定音声を雑音平均スペクトルで除算したもの）を用いて、雑音低減フィルタを算出する手法が開示されている。

図１１を参照すると、このシステムは、図１０に示した構成に加えて、雑音低減フィルタを算出する手段６と、推定音声を算出する手段７とをさらに備えている。図１１のシステムは、上記ＳＳ法の問題点であった雑音の引き残しを、平滑化を行うことにより、低減している。

平滑化を強く行うと、雑音の引き残し成分は抑えられるが、
・音声の始端部分が欠ける、
・音声の終端部分が検出しにくくなる、
などの問題がある。

このように、信号処理的手法には、以下のような問題がある。

・フロアリングや平滑化といった処理が必要であり、元々の音声の情報を欠落させてしまう。

・引き残し成分を抑えつつ、このような情報の欠落を最小限に留めるためには、雑音の種類やＳＮＲに応じて、パラメータをチューニングする必要がある。

このため、信号処理的手法を汎用的に用いることは困難である。

(b)の音響モデルを雑音に適応させる手法としては、非特許文献３に記載されている“Parallel Model Combination(ＰＭＣ)法”が広く知られている。

この手法は、雑音モデルを作成する手段と、予め雑音のない環境で学習した音響モデルＨＭＭと、雑音モデルをリニアスペクトルに変形する手段と、音響モデルＨＭＭをリニアスペクトルに変形する手段と、リニアスペクトルに変形した雑音モデルと音響モデルＨＭＭを加算し雑音適応音響モデルＨＭＭを作る手段と、作成された雑音適応モデルをケプストラムに変形する手段とを備えて構成される。

かかる構成のシステムは以下のような利点を有する。

すなわち、音響モデルＨＭＭを雑音に適応させているために、雑音の種類やＳＮＲによらず、認識を行うことができる。

しかしながら、以下のような問題もある。

・雑音適応音響モデルＨＭＭを作るのに多くの計算コストが必要である。

・雑音平均スペクトルを更新する手法など他の手法と組み合わせる事が容易ではない。

また、非特許文献４には、音響モデルではなく、音声の標準パタンＧＭＭ（Gaussian Mixture Model）を雑音に適応させる方法として、“ＧＭＭによる音声信号推定法”が提案されている。

この手法は、図１２に示すように、入力信号Xを取得する入力信号取得部１と、雑音平均スペクトルの算出する手段２と、あらかじめ雑音の無い環境で学習した音声の標準パタン４と、雑音適応パタンの作成部９と、雑音適応パタン１０と、雑音パタンと標準パタンの平均ベクトルの移動量の期待値の算出部１１と、推定音声Ｓの算出部７ａとを備えて構成されている。

このような構成を有するシステムは、以下のような利点を有する。

すなわち、上記信号処理的手法で問題であった雑音成分の減算の操作を、標準パタンと雑音適応パタンとの変化分Ｇの期待値を求めるという操作で置き換えることにより、安定性の高い音声認識を行うことができる。

このような構成を有するシステムは、ＰＭＣ法と同様、以下のような問題を有する。

・雑音適応パタンを作るのに計算コストが必要である。

・雑音平均スペクトルを更新する手法などと組み合わせて使うことが困難である。

特表２００４−５２０６１６号公報松本弘著「雑音環境下の音声認識手法」情報科学技術フォーラムＦＩＴ２００３２００３年９月１０日 Y.Ephraim,D.Malah,"Speech Enhancement Using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator",IEEE Trans.on ASSP-32,No.6,pp.1109-1121 1984年12月 M.J.F.Gales and S.J.Young "Robust Continuous Speech Recognition Using Parallel Model Combination",IEEE Trans.SAP-4,No.5,pp.352-359 1996年9月 J.C.Segura,A.de la Torre,M.C.Benitez and A.M.Peinado "Model-Based Compensation of the Additive Noise For Continous Speech Recognition.Experiments Using AURORAII Database and Tasks",EuroSpeech‘01,Vol.1,pp.221-224 2001年 Rainer Martin, "Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics", IEEE Trans. On Speech and Auido Processing, Vol.9 , No.5, 2001年７月 ETSI ES 202 050 V1.1.1,"Speech processing, Transmission and Quality aspects(STQ)；Distributed speech recognition; Advanced front-end feature extraction algorithm； Compression algorithm," 2002年 Guorong Xuan, Wei Zhang, Peiqi Chai,"EM Algorithm of Gaussian Mixture Model and Hidden Markov Model", IEEE International Conference on Image Processing ICIP 2001, vol.1, pp.145-148 2001年 10月

上記したように、従来のシステムは下記記載の課題を有する。

第１の問題点は、信号処理的手法では、フロアリングや平滑化を行う必要があり、元の音声の情報を欠落させてしまう場合がある、ということである。その理由は、高雑音下では、雑音の分散や音声と雑音の位相差の影響が無視できず、入力信号から雑音平均スペクトルを減算する際、雑音の引き残しが生じる、ためである。

第２の問題点は、信号処理的手法では、雑音の種類やＳＮＲに応じて、パラメータのチューニングが必要である、ということである。その理由は、雑音の引き残しを抑えつつ、情報の欠落を最小限に留めるパラメータが経験的にしか求まらない、ためである。

第３の問題点は、音響モデルもしくは標準パタンを雑音適応させる手法では、時間変動する雑音に対して、雑音平均スペクトルの更新法と組み合わせ、毎フレーム雑音に適応させる事が困難である、ということである。その理由は、音響モデルもしくは標準パタンを雑音適応させるのに、多くの計算コストを必要とするためである。

本発明の目的は、音声の情報を欠落させることなく高い精度で雑音成分を除去できる雑音抑圧システム、方法並びにコンピュータ・プログラムを提供することにある。

本発明の別の目的は、チューニングパラメータを少なくし、かつチューニングパラメータの値に敏感でない雑音抑圧システム、方法並びにコンピュータ・プログラムを提供することにある。

本発明のさらに別の目的は、計算コストが少なく容易に雑音の時間変動に追従できる雑音抑圧システム、方法並びにコンピュータ・プログラムを提供することにある。

本願で開示される発明は、上記課題を解決するため、概略以下のように構成される。

本発明に係る第１のシステムは、雑音平均スペクトルを求める手段と、入力信号と雑音平均スペクトルから仮推定音声を求める手段と、標準パタンと、標準パタンを用いて仮推定音声の補正値を求める手段を備える。

本発明に係る第１の雑音抑圧方法は、入力信号から雑音平均スペクトルを算出する工程と、前記入力信号と、前記雑音平均スペクトルとから、スペクトル領域で仮推定音声を求める工程と、音声の標準パタンを用いて前記仮推定音声の補正値を求める工程と、を含む。

本発明に係る第１のプログラムは、入力信号を入力し雑音を抑圧して出力するコンピュータに、入力信号から雑音の平均スペクトルを算出する処理と、前記入力信号と、前記雑音の平均スペクトルとから、スペクトル領域で仮推定音声を求める処理と、音声の標準パタンを用いて前記仮推定音声の補正値を求める処理と、を実行させるプログラムよりなる。

かかる構成としたことで、雑音の引き残しを標準パタンの知識により補正することができ、第１の目的を達成することができる。

また、仮推定音声がある程度不正確であっても良いために、チューニングパラメータの値に敏感ではない処理が期待できる。すなわち、本発明の第２の目標を達成することができる。

さらに、標準パタンを雑音に適応させる必要がないために、計算コストが少なくて済み、容易に雑音に追従できるために、本発明の第３の目的を達成することができる。

本発明に係る第２の雑音抑圧方法は、第１の雑音抑圧方法において、スペクトル領域で求めた前記仮推定音声を特徴ベクトルに変形する工程と、特徴ベクトル領域での標準パタンを用いて、特徴ベクトルに変形された前記仮推定音声の補正値を求める工程と、
を含む、ことを特徴とする。

本発明に係る第３の雑音抑圧方法は、第１又は第２の雑音抑圧方法において、前記仮推定音声を補正する工程において、
前記標準パタンとして確率分布を仮定し、
前記標準パタンを構成する確率分布が前記仮推定音声を出力する確率と、前記標準パタンを構成する確率分布の平均値とから、音声期待値を求め、前記音声期待値を、前記仮推定音声の補正値とする、ことを特徴とする。

本発明に係る第４の雑音抑圧方法は、第１又は第２の雑音抑圧方法において、前記仮推定音声の補正値を求める工程において、
複数の音声のパタンからなる前記標準パタンを用いて、前記仮推定音声を補正し、
前記入力信号に最も近くなる標準パタンを選択して、前記仮推定音声の補正値とするか、あるいは、前記入力信号に近くなる前記複数の標準パタンを距離に応じて重み付け平均することで前記仮推定音声の補正値とする、ことを特徴とする。

本発明に係る第５の雑音抑圧方法は、第１乃至第４の雑音抑圧方法のいずれかにおいて、前記仮推定音声の補正値を求める工程が、
前記雑音の標準偏差を求める工程を含み、
前記雑音の標準偏差を考慮して、前記仮推定音声の補正を制御する、ことを特徴とする。

本発明に係る第６の雑音抑圧方法は、第１乃至第５の雑音抑圧方法のいずれかにおいて、前記仮推定音声の補正値と前記雑音平均スペクトルとから雑音低減フィルタを導出する工程と、
前記入力信号に前記雑音低減フィルタによるフィルタリング処理を施して前記雑音低減フィルタの出力より推定音声を得る工程と、
を含む、ことを特徴とする。

本発明に係る第７の雑音抑圧方法は、第６の雑音抑圧方法において、前記雑音低減フィルタを算出する際に、補正された仮推定音声と、前記雑音平均スペクトルに加え、前記入力信号を用いて、前記雑音低減フィルタを算出する、ことを特徴とする。

本発明に係る第８の雑音抑圧方法は、第６又は第７の雑音抑圧方法において、前記雑音低減フィルタを算出する際に、仮推定音声の補正値を雑音の平均スペクトルで除して得られる事前ＳＮＲ（信号対雑音比）に対し、時間方向、周波数方向、および特徴ベクトル次元数のうちの少なくとも１つの方向に、平滑化を行う、ことを特徴とする。

本発明に係る第９の雑音抑圧方法は、第１乃至第８のいずれかの雑音抑圧方法において、前記標準パタンを用いて仮推定音声の補正値を仮推定音声とし、再び、前記標準パタンを用いて仮推定値の補正値を求める処理を、所定条件を満たすまで複数回繰り返す、ことを特徴とする。

本発明に係る第１０の方法は、第１乃至第１０のいずれかの方法において、前記入力信号から雑音の平均スペクトルを算出する工程が、複数の入力信号のうち少なくとも１つの入力信号から雑音のスペクトルを算出し、
前記入力信号と雑音平均スペクトルから仮推定音声を求める工程が、前記複数の入力信号のうち少なくとも１つの入力信号と前記雑音のスペクトルとから、仮推定音声を求める、ことを特徴とする。

本発明に係る音声認識方法は、第１乃至第１０のいずれかの雑音抑圧方法を用い、雑音を抑圧した音声を認識する工程を含む。

本発明に係る第２のプログラムは、第１のプログラムにおいて、前記仮推定音声を補正する処理が、
スペクトル領域で求めた前記仮推定音声を特徴ベクトルに変形する処理と、
特徴ベクトル領域での標準パタンを用いて、特徴ベクトルに変形された前記仮推定音声の補正値を求める処理と、
を含む、ことを特徴とする。

本発明に係る第３のプログラムは、第１又は第２のプログラムにおいて、前記仮推定音声の補正値を求める処理が、
前記標準パタンとして確率分布を仮定し、前記標準パタンを構成する確率分布が仮推定音声を出力する確率と、前記標準パタンを構成する確率分布の平均値とから、音声期待値を求め、前記音声期待値を、仮推定音声の補正値とする、ことを特徴とする。

本発明に係る第４のプログラムは、第１又は第２のプログラムにおいて、
前記仮推定音声の補正値を求める処理が、
複数の音声のパタンからなる標準パタンを用いて仮推定音声を補正し、
入力信号に最も近くなる標準パタンを選択して仮推定音声の補正値とするか、あるいは
入力信号に近くなる複数の標準パタンを、距離に応じて、重み付け平均することで、前記仮推定音声の補正値とする、ことを特徴とする。

本発明に係る第５のプログラムは、第１乃至第４のいずれか一のプログラムにおいて、
前記仮推定音声の補正値を求める理が、
雑音の標準偏差を求める処理を含み、前記雑音の標準偏差を考慮して補正を制御する、ことを特徴とする。

本発明に係る第６のプログラムは、第１乃至第５のいずれか一のプログラムにおいて、
補正された推定音声と、雑音平均スペクトルから雑音低減フィルタを算出する処理と、
入力信号に対して前記雑音低減フィルタを施し、推定音声を得る処理と、
をさらに前記コンピュータに実行させるプログラムよりなる。

本発明に係る第７のプログラムは、第６のプログラムにおいて、
前記雑音低減フィルタを算出する処理は、
補正された推定音声と雑音平均スペクトルに加えて、入力信号を用いて、雑音低減フィルタを算出する、ことを特徴とする。

本発明に係る第８のプログラムは、第６又は第７のプログラムにおいて、
前記雑音低減フィルタを算出する処理は、
補正された推定音声、あるいは、補正された推定音声を雑音の平均スペクトルで除して得られる事前ＳＮＲに対し、時間方向、周波数方向、および特徴ベクトル次元数のうち少なくとも１つの方向に平滑化を行う、ことを特徴とする。

本発明に係る第９のプログラムは、第１乃至第８のいずれかのプログラムにおいて、
標準パタンを用いて補正された推定音声を仮推定値とし、再び、前記標準パタンを用いて補正するという処理を、複数回繰り返す、ことを特徴とする。

本発明に係る第１０のプログラムは、第１乃至第９のいずれかのプログラムにおいて、
前記入力信号から雑音の平均スペクトルを算出する処理が、
複数の入力信号のうち少なくとも１つの入力信号から雑音のスペクトルを算出し、
前記入力信号と雑音平均スペクトルから仮推定音声を求める処理が、
複数の入力信号のうち少なくとも１つの入力信号と前記雑音のスペクトルから仮推定音声を求める、ことを特徴とする。

本発明に係る第１１のプログラムは、音声認識装置を構成するコンピュータに、第１乃至１０のいずれかのプログラムにより、雑音が抑圧された音声信号を入力し、音声認識を実行する処理を実行させるプログラムよりなる。

本発明によれば、仮推定音声の雑音の引き残しを標準パタンの知識を用いて適切に補正できる。

本発明によれば、仮推定音声がある程度不正確であっても良いために、チューニングパラメータの値に敏感ではない処理が期待できる。

本発明によれば、標準パタンを雑音に適応させる必要がないために、計算コストが少なくて済み、容易に雑音に追従できる。

上記した本発明についてさらに詳細に説述すべく添付図面を参照して説明する。

図１は、本発明の第１の実施の形態のシステム構成を示す図である。図１参照すると、本発明の第１の実施の形態は、入力信号Xを取得する入力信号取得部１と、入力信号取得部１から取得した入力信号Xから雑音平均スペクトルNを算出する雑音平均スペクトルの算出部２と、入力信号取得部１から取得された入力信号Xと雑音平均スペクトルの算出部２で算出された雑音平均スペクトルNから仮推定音声S’を算出する仮推定音声算出部３と、記憶部に登録されている音声の標準パタン４と、仮推定音声算出部３で得られた仮推定音声を標準パタン４を用いて補正して出力する仮推定音声補正部５と、を備えている。図２は、本発明の第１の実施の形態の処理動作を説明するためのフローチャートである。図１及び図２のフローチャートを参照して本実施の形態の全体の動作について詳細に説明する。

入力信号X(f,t)とする。

ただし、fは、周波数フィルタバンク番号(f=1,…,Lf :Lfは周波数フィルタバンクの数)、tは、フレーム番号(t=1,2,…)である。入力信号X(f,t)には、入力信号取得部１において、例えば、マイクで取得した音声情報を、短時間フレームでスペクトル解析したものなどを用いる。

まず、雑音平均スペクトル算出部２において入力信号X(f,t)から、雑音平均スペクトルN(f,t)を算出する（ステップＳ１）。

雑音平均スペクトルN(f,t)の算出には、例えば下記のいずれか手法を用いることができる。

・入力信号X(f,t)の開始数十フレームの平均値を用いる。

・バッファリングされた数十フレームの入力信号X(f,t)をソートし、小さいほうから数えて数個目の値を用いる。例えば上記非特許文献５の記載が参照される。非特許文献５には、雑音を含む音声信号が与えられたときに、非定常状態のパワースペクトル密度の推定方法が記載され、この推定方法は、雑音パワースペクトル密度推定値を要する音声強調（スピーチエンハンスメント）アルゴリズムと結合される。

・音声区間と非音声区間を求めておき、非音声区間での入力信号X(f,t)の平均値を用いる。例えば非特許文献６の記載が参照される。

次に、仮推定音声の算出部３において、入力信号X(f,t)と雑音平均スペクトル算出部２で算出された雑音平均スペクトルN(f,t)を用いて、
・ＳＳ法（図１０参照）や、
・平滑化事前ＳＮＲを用いたウィナーフィルタ（図１１参照）など、
公知の手法によって、仮推定音声S’(f,t)を算出する（ステップＳ２）。

ＳＳ法を使う場合、仮推定音声Ｓ’(f,t)は以下のように算出される。

S’(f,t) = max( X(f,t) - N(f,t), α N(f,t) ) …(1)

ただし、αは、フロアリングパラメータである。

特に制限されないが、標準パタン４は、この実施例では、あらかじめ雑音のない環境で学習した音声の標準パタンを保持しているものとする。この他にも、既知の雑音で学習した音声の標準パタンなどを保持していても良い。なお、標準パタンの学習方法の詳細については、例えば非特許文献７等の記載が参照される。非特許文献７には、ＧＭＭ（Gaussian Mixed Model）とＨＭＭのＥＭ（Expectation-Maximum）アルゴリズムが記載されている。

本実施例では、標準パタン４は、例えば音声のパタンをケプストラムＧＭＭの形で保持しているものとする。もちろん、これ以外の特徴量（対数スペクトルＧＭＭやリニアスペクトルＧＭＭ、ＬＰＣ(Linear Prediction Coding)ケプストラムＧＭＭ）を保持しておいてもよい。また、混合ガウス分布以外の確率分布を用いてもよい。

次に、標準パタンを用いた仮推定音声の補正部５で、仮推定音声の算出部３で算出された仮推定音声S’(f,t)を標準パタン４を用いて補正する（ステップＳ３）。

上記補正方法の具体例を以下に示す。

まず、仮推定音声を出力とする確率を以下のように定める。

P(k|S’(f,t)) = W^(k) p(S’(f,t)|μ_S ^(ｋ),σ_S ^(k)) / Σ_k W^(k) p(S’(f,t)|μ_S ^(k),σ_S ^(k)) …(2)

だたし、
kは、ＧＭＭの要素であるガウス分布の添え字(k=1,…,K:Kは混合数)、
W^(k)は、ガウス分布kの重み、
p(S’|μ_S ^(ｋ),σ_S ^(k))は、平均値μ_S ^(ｋ) 分散σ_S ^(k)を持つガウス分布が仮推定音声Ｓ’を出力する確率である。

本実施例では、仮推定音声Ｓ’を標準パタン４で保持している音声のパタンの形に合わせてケプストラムの形に変形して用いる。

もちろん標準パタン４で保持している音声のパタンの形が変われば、それに合わせて仮推定音声Ｓ’の形を変えるものとする。

次に、上述の事後確率を用いて、前記仮推定音声の期待値
＜Ｓ(f,t)＞ = Σ_k μ_S ^(k) Ｐ(k|Ｓ’(f,t)) …(3)
を求め、これを仮推定音声Ｓ’の補正値として出力する。＜Ｓ(f,t)＞は、入力信号から雑音が除去された前記仮推定音声の補正値となる。

次に、本実施の形態の効果について説明する。

本実施の形態では、音声の標準パタンを用いて、仮推定音声を補正する構成としたことにより、
・雑音の分散による推定誤差や、
・音声と雑音の位相差に由来する推定誤差
によって生じる推定音声の歪みを補正できる。

以上により、本実施形態によれば、従来の信号処理的手法の問題を解消することができる。

また、本実施形態によれば、標準パタンで推定音声を補正するために、式（１）で決めたフロアリングパラメータのようなチューニングパラメータが、ある程度不正確であっても良い。

また、本実施形態によれば、標準パタンを雑音に適応させる必要がないために、計算コストが少なくて済む。よって、雑音平均スペクトル算出部２に時間的に変動する雑音を推定するアルゴリズムを使うことができる。このため、容易に雑音に追従できる。

[第２の実施形態]
次に、本発明の第２の実施の形態について図面を参照して説明する。図３は、本発明の第２の実施の形態の構成を示す図である。図３を参照すると、本発明の第２の実施の形態は、前記第１の実施形態に対して、確率分布の形で保持する標準パタン４（図１参照）を、音声の平均値を複数個保持する標準パタン４ａに変更し、また、音声の期待値を用いて仮推定音声を補正する仮推定音声の補正部５（図１参照）を、音声の平均値を用いて仮推定音声を補正する仮推定音声の補正部5ａに変更したものである。

上記補正の具体例を以下に示す。まず、仮推定音声S’(f,t)と複数の音声のパタンによって構成される標準パタン（例えば音声パタンの平均値）との距離を比較する。ここでは、対数スペクトルの形で比較するものとする。もちろん、ケプストラムなど、他の形でもよい。

d^(k) = Σ_f (S’(f,t)- μ_s ^(k)(f))² …(4)

ただし、
fは、周波数フィルタバンク番号(f=1,…,Lf :Lfは周波数フィルタバンクの数)、
kは1,…K （Kは標準パタンの数)、
μ_s ^(k)は、標準パタンを構成する音声のパタンkの平均値である。

仮推定音声S’(f,t)が他の形であるならば、fは他の添え字となる。

次に、仮推定音声S’(f,t)と標準パタンとの距離が最も小さくなるようなkを選び、S’(f,t)の値を、対応する標準パタンで置き換え補正値とする。あるいは、距離が近くなるものを複数個選び、距離に応じて重み付け平均したものを補正値としても良い。なお、距離は２乗に限定されるものでなく、絶対値等、他のものを使ってもよい。

本実施の形態では、計算コストが少なくて済む。

[第３の実施形態]
次に、本発明の第３の実施形態について図面を参照して説明する。図４は、本発明の第３の実施の形態の構成を示す図である。図４を参照すると、本発明の第３の実施の形態は、図１の前記第１の実施形態における雑音平均スペクトル算出部２を、入力信号取得部１から取得された入力信号から雑音平均スペクトルと雑音の標準偏差を算出する、雑音平均スペクトル及び雑音の標準偏差算出部２ａに変更している。

また、図１の仮推定音声の算出部３を、入力信号取得部１から取得された入力信号と、雑音平均スペクトル及び雑音の標準偏差算出部２ａで算出された雑音平均スペクトルと、雑音の標準偏差から、仮推定音声と仮推定音声の信頼度を算出する仮推定音声及び信頼度算出部３ａに変更し、標準パタンを用いた仮推定音声の補正部５を、仮推定音声の値だけではなく、仮推定音声の信頼度も考慮して、仮推定音声の補正を行う標準パタンを用いた仮推定音声の補正部５ｂに変更したものである。

次に、本実施の形態について、前記第１の実施の形態と異なる動作について説明する。

雑音平均スペクトル及び雑音の標準偏差算出部２ａでは、入力信号X(f,t)から、雑音平均スペクトル算出部２と同様な手法で、雑音平均スペクトルN(f,t)を算出することに加えて、雑音の標準偏差V(f,t)を算出する。

雑音の標準偏差V(f,t)を算出する方法は、例えば、
・入力信号X(f,t)の開始数十フレームと雑音平均スペクトルN(f,t)とのずれを評価する、あるいは、
・音声区間と非音声区間を求めておき、非音声区間において入力信号X(f,t)の標準偏差を求めてこれを雑音の標準偏差V(f,t)にするなど、公知の手法を用いて算出する。

仮推定音声及び信頼度算出部３ａでは、図１の仮推定音声算出部３と同様の手法を用いて仮推定音声S’(f,t)を求めることに加えて、上記仮推定音声S’(f,t)の信頼度（推定誤差範囲）を、雑音平均スペクトル及び雑音の標準偏差算出部２ａで算出された雑音の標準偏差V(f,t)を用いて算出する。

具体的には、S’(f,t)の信頼度として、
・雑音の標準偏差V(f,t)をそのまま用いる、あるいは、
・雑音の標準偏差V(f,t)を事後ＳＮＲの値
η(f,t) = X(f,t) / N(f,t) …(5)
の逆数の値で重み付けされたものを用いる、ようにしてもよい。

標準パタンを用いた仮推定音声の補正部５ｂは、仮推定音声及び信頼度算出部３ａで算出された仮推定音声S’(f,t)を、標準パタン４を用いて補正する。

このとき、仮推定音声及び信頼度算出部３ａで算出した仮推定音声S’(f,t)の信頼度を用いて補正の範囲を制限する。

具体的には、標準パタンを用いて補正された仮推定音声＜Ｓ＞の値が、仮推定音声S’(f,t)の値から雑音の標準偏差V(f,t)を加減算した範囲
S’(f,t) - V(f,t) ≦ <S(f,t)> ≦ S’(f,t) + V(f,t) …(6)
に収まる場合には、仮推定音声Ｓ’(f,t)を仮推定音声の補正値＜Ｓ(f,t)＞に置き換え、それ以外の場合には、置き換えないなどである。

次に、本実施の形態の効果について説明する。

本実施の形態では、仮推定音声の補正に雑音標準偏差に基づく信頼度を考慮していることで、標準パタンによる補正が大きくずれることを抑制する効果がある。

[第４の実施形態]
次に、本発明の第４の実施形態について図面を参照して詳細に説明する。図５は、本発明の第４の実施形態の構成を示す図である。図５参照すると、本発明の第４の実施の形態は、図１に示した第１実施の形態の構成に加えて、仮推定音声補正部５で補正された、仮推定音声と、雑音平均スペクトル算出部２で算出された雑音平均スペクトルとから雑音低減フィルタを算出する雑音低減フィルタ算出部６と、雑音低減フィルタ算出部６で算出された雑音低減フィルタと入力信号取得部１から取得された入力信号スペクトルXから、推定音声を算出する推定音声算出部７を備えて構成されている。

次に本実施の形態の動作について詳細に説明する。

雑音低減フィルタの算出部６は、標準パタンを用いた仮推定音声の補正部５で補正された仮推定音声＜Ｓ(f,t)＞と、雑音平均スペクトル算出部２で算出された雑音平均スペクトルＮ(f,t)とから雑音低減フィルタを算出する。

具体的には、補正された仮推定音声＜Ｓ(f,t)＞をリニアスペクトルに変形し、事前ＳＮＲ η(f,t)を、
η(f,t) ＝＜Ｓ(f,t)＞／Ｎ(f,t) …(7)
として求める。

上記事前ＳＮＲ η(f,t)は、１つ前のフレームの事前ＳＮＲη(f,t-1)を用い、以下のように、平滑化して求めてもよい。

η(f,t) = β × η(f,t-1) + (1-β) × ＜Ｓ(f,t)＞／Ｎ(f,t) …(8)

ただし、β(0≦β≦1)は平滑化をコントロールするパラメータである。

上記した例のほかにも、
・フレームの先読みを行い、前後の数フレームを使って平滑化する、あるいは、フレーム方向ではなく周波数方向に平滑化する、あるいはその組み合わせを用いてもよい。

雑音低減フィルタW(f,t)は、
Ｗ（f,t）＝η(f,t)／（１＋η(f,t)） …(9)
として算出する。

最後に、推定音声を算出する推定音声算出部７では、雑音低減フィルタの算出部６で算出された雑音低減フィルタW(f,t)と入力信号取得部１から取得された入力信号Ｘ(f,t)を用いて推定音声S(f,t)を、
Ｓ(f,t) ＝Ｗ（f,t）× Ｘ(f,t) …(10)
として算出する。

次に、本実施の形態の効果について説明する。

本実施の形態では、補正された仮推定音声を用いて、事前ＳＮＲを算出し、雑音低減フィルタを用いて、最終的な推定音声を求める構成とされている。標準パタンを構成する音声のパタンが有限の個数であるため、量子化されてしまうことを回避し、精度の高い推定音声を得ることができる。

[第５の実施形態]
図６は、本発明の第５の実施形態の構成を示す図である。図６を参照すると、本発明の第５の実施の形態は、前記第４の実施の形態の構成に対して、仮推定音声推定部５で補正された仮推定音声と、雑音平均スペクトラムの算出部２で算出された雑音平均スペクトルとから雑音低減フィルタを算出する雑音低減フィルタ算出部６が、仮推定音声推定部５で補正された仮推定音声と、雑音平均スペクトラムの算出部２で算出された雑音平均スペクトルと入力信号取得部１で取得された入力信号とから、雑音低減フィルタを算出する雑音低減フィルタの算出部６ａに変更されている。

次に、本実施の形態について、前記第４の実施形態と異なる動作について説明する。

本実施の形態において、雑音低減フィルタの算出部６ａでは、雑音低減フィルタの算出部６と同様の手法を用いて事前ＳＮＲ η(f,t)を求めることに加えて、入力信号X(f,t)と雑音平均スペクトルN(f,t)とを用いて、事後ＳＮＲ γ(f,t)を、
γ(f,t) ＝Ｘ(f,t)／Ｎ(f,t) …(11)
として求める。

雑音低減フィルタW(f,t)は、事前ＳＮＲ η(f,t)と事後ＳＮＲ γ(f,t)を組み合わせたもの（非特許文献２にあるＭＭＳＥ(minimum mean square error)フィルタなど）を使用する。

[第６の実施形態]
図７は、本発明の第６の実施形態の構成を示す図である。図７参照すると、本発明の第６の実施の形態は、前記第１の実施の形態の構成に加えて、標準パタンを用いた仮推定音声補正部５で算出した補正音声をある条件を満たすならば出力へ、満たさないならば再び標準パタンを用いた補正部５へ送るように働く収束判定部８とから構成されている。

ここでの条件とは、例えば、
・「処理をＮ回繰り返したとき」や、
・「新しく算出された補正値と１回前の補正値の差がある閾値以下であるとき」
など様々な判別手段を考えることができる。

次に、本実施の形態の効果について説明する。

本実施の形態では、処理を複数回繰り返して行うことで、真の値に、漸近させることができ、精度の高い推定音声を得ることができる。

[第７の実施形態]
図８は、本発明の第７の実施形態の構成を示す図である。図８を参照すると、本発明の第７の実施の形態は、前記第１の実施の形態の構成に対して、入力信号Xを取得する入力信号取得部１として、複数の入力信号X1〜XKを取得する手段１ａを備えている。例えば、２つのマイクを使用する場合であれば、１つのマイクを音声入力用、もう１つのマイクを雑音入力用とするようにしてもよい。また、方向に応じて２つのマイクの入力信号を加算、減算、あるいは数倍するなどしてから、仮推定音声算出部３ｂと雑音スペクトル算出部２ｂに渡すようにしてもよい。もちろん、さらに多くのマイクを用いても良い。

次に、本実施の形態の効果について説明する。

本実施の形態によれば、複数の入力を用意することにより、仮推定音声と雑音スペクトルの精度を高めることができ、結果精度の高い推定音声を得ることができる。

なお、前記第１乃至第７の実施の形態は、互いに組み合わせて構成してもよい。

[第８の実施の形態]
図９は、本発明の第８の実施形態の構成を示す図である。図９を参照すると、本発明の第８の実施の形態は、第１乃至第７の実施の形態の構成のいずれか、あるいはこれらを組み合わせた雑音抑圧部１２と、雑音抑圧部１２から出力される推定音声を用いて音声認識を行う認識部１３とから構成される。

次に、本実施の形態の効果について説明する。

本実施の形態によれば、高雑音の環境下でも高い認識率となる認識システムを構築することができる。

本発明によれば、雑音のある環境で雑音成分を取り除き、目的とする音声成分のみを取り出す用途に適応できる。また、雑音下での音声認識といった用途に適用できる。

本発明の第１の実施の形態に係る雑音抑圧システムの構成を示すブロック図である。本発明の第１の実施の形態に係る雑音抑圧システムにおける処理手順を示す流れ図である。本発明の第２の実施の形態に係る雑音抑圧システムの構成を示すブロック図である。本発明の第３の実施の形態に係る雑音抑圧システムの構成を示すブロック図である。本発明の第４の実施の形態に係る雑音抑圧システムの構成を示すブロック図である。本発明の第５の実施の形態に係る雑音抑圧システムの構成を示すブロック図である。本発明の第６の実施の形態に係る雑音抑圧システムの構成を示すブロック図である。本発明の第７の実施の形態に係る雑音抑圧システムの構成を示すブロック図である。本発明の第８の実施の形態に係る雑音抑圧システムの構成を示すブロック図である。従来法（ＳＳ法）を用いた雑音抑圧システムの構成を示すブロック図である。従来法（平滑化事前ＳＮＲを用いたウィナーフィルタ）を用いた雑音抑圧システムの構成を示すブロック図である。従来法（ＧＭＭに基づく音声信号推定法）を用いた雑音抑圧システムの構成を示すブロック図である。

符号の説明

１入力信号取得部
１ａ入力信号取得部（多入力）
２雑音平均スペクトル算出部
２ａ雑音平均スペクトル及び標準偏差の算出部
２ｂ雑音スペクトル算出部（多入力）
３仮推定音声算出部
３ａ仮推定音声及び信頼度算出部
３ｂ仮推定音声算出部（多入力）
３ｃ仮推定音声算出部（スペクトル減算）
４標準パタン（確率分布）
４ａ標準パタン（平均値）
５標準パタンを用いた仮推定音声補正部
５ａ標準パタンを用いた仮推定音声補正部
５ｂ標準パタンを用いた仮推定音声補正部
６雑音低減フィルタ算出部（事前ＳＮＲのみ用いる）
６ａ雑音低減フィルタ算出部（事前ＳＮＲと事後ＳＮＲを用いる）
７推定音声算出部
７ａ推定音声算出部
８収束判定部
９雑音適応パタン作成部
１０雑音適応パタン
１１パタン移動ベクトル期待値算出部
１２雑音抑圧部
１３認識部

Claims

入力信号から雑音平均スペクトルを算出する手段と、
前記入力信号と、前記雑音平均スペクトルとから、スペクトル領域で仮推定音声を求める手段と、
予め記憶部に記憶されている音声の標準パタンを用いて前記仮推定音声の補正値を求める手段と、
を含み、前記仮推定音声の補正値が、前記入力信号から雑音が抑圧された推定音声として出力され、
前記仮推定音声の補正値を求める手段が、前記標準パタンとして確率分布を仮定し、
前記標準パタンを構成する確率分布が前記仮推定音声を出力する確率と、前記標準パタンを構成する確率分布の平均値とを用いた期待値演算処理により求めた前記仮推定音声の期待値を、前記仮推定音声の補正値とする、ことを特徴とする雑音抑圧システム。
入力信号から雑音平均スペクトルを算出する手段と、
前記入力信号と、前記雑音平均スペクトルとから、スペクトル領域で仮推定音声を求める手段と、
予め記憶部に記憶されている音声の標準パタンを用いて前記仮推定音声の補正値を求める手段と、
を含み、前記仮推定音声の補正値が、前記入力信号から雑音が抑圧された推定音声として出力され、
前記雑音平均スペクトルを算出する手段が、雑音の標準偏差を求める手段を含み、
前記仮推定音声を求める手段は、前記雑音の標準偏差を用いて前記仮推定音声の信頼度を算出し、
前記仮推定音声の補正値を求める手段は、前記仮推定音声の信頼度を用いて、前記仮推定音声の補正値を制御する、ことを特徴とする雑音抑圧システム。
前記仮推定音声の補正値を求める手段は、前記仮推定音声の値と前記仮推定音声の信頼度とを用いて、前記仮推定音声の補正値の範囲を制限する、ことを特徴とする請求項２に記載の雑音抑圧システム。
入力信号から雑音平均スペクトルを算出する手段と、
前記入力信号と、前記雑音平均スペクトルとから、スペクトル領域で仮推定音声を求める手段と、
予め記憶部に記憶されている音声の標準パタンを用いて前記仮推定音声の補正値を求める手段と、
前記仮推定音声の補正値と、前記雑音平均スペクトルとから、雑音低減フィルタを導出する手段と、
前記入力信号に前記雑音低減フィルタによるフィルタリングを施し前記雑音低減フィルタの出力より推定音声を算出する手段と、
を含み、前記推定音声を算出する手段より、前記入力信号から雑音が抑圧された推定音声として出力される、ことを特徴とする雑音抑圧システム。
前記雑音低減フィルタを導出する手段は、前記仮推定音声の補正値と、前記雑音平均スペクトルとに加えて、前記入力信号を用いて、前記雑音低減フィルタを構成する、ことを特徴とする請求項４記載の雑音抑圧システム。
前記雑音低減フィルタを導出する手段は、前記仮推定音声の補正値を前記雑音平均スペクトルで除して得られる事前ＳＮＲに対し、時間方向、周波数方向のうち少なくとも１つの方向に平滑化を行う、ことを特徴とする請求項４又は５記載の雑音抑圧システム。
前記仮推定音声の補正値を求める手段から出力される仮推定音声の補正値を仮推定音声とし、再び、前記仮推定音声の補正値を求める手段にて、前記標準パタンを用いて仮推定音声の補正値を求めるという処理を、所定の条件を満たすまで複数回繰り返し、前記所定の条件を満たしたときの前記仮推定音声の補正値を推定音声として出力する、ことを特徴とする請求項１乃至６のいずれか一に記載の雑音抑圧システム。
前記入力信号から雑音平均スペクトルを算出する手段が、
複数の入力信号のうち少なくとも１つの入力信号から雑音のスペクトルを算出し、
前記入力信号と雑音平均スペクトルから仮推定音声を求める手段が、
複数の入力信号のうち少なくとも１つの入力信号と前記雑音のスペクトルから仮推定音声を求める、ことを特徴とする請求項１乃至７のいずれか一に記載の雑音抑圧システム。
入力信号から雑音平均スペクトルを算出する手段と、
前記入力信号と、前記雑音平均スペクトルとから、スペクトル領域で仮推定音声を求める手段と、
予め記憶部に記憶されている音声の標準パタンを用いて前記仮推定音声の補正値を求める手段と、
を含み、前記仮推定音声の補正値が、前記入力信号から雑音が抑圧された推定音声として出力され、
前記仮推定音声の補正値を求める手段が、
前記仮推定音声S’(f,t)（ただし、ｔはフレーム番号）を出力とする確率P(S’(f,t)|k)を以下のように定め、
P(k|S’(f,t)) = W^(k) p(S’(f,t)|μ_S ^(ｋ),σ_S ^(k)) / Σ_k W^(k) p(S’(f,t)|μ_S ^(k),σ_S ^(k))
（だたし、
kは、ＧＭＭ（Gaussian Mixed Model）の要素であるガウス分布の添え字(k=1,…,K:Kは混合数)、
W^(k)は、ガウス分布kの重み、
p(S’(f,t)|μ_S ^(ｋ),σ_S ^(k))は、平均値μ_S ^(ｋ) 、分散σ_S ^(k)を持つガウス分布が前記仮推定音声Ｓ’(f,t)を出力する確率である。）、
前記仮推定音声S’(f,t)を前記標準パタンで保持している音声のパタンの形に合わせ、
確率P(k|S’(f,t))を用いて、前記仮推定音声の期待値
＜Ｓ(f,t)＞ = Σ_k μ_S ^(k) P(Ｓ’(f,t)|k)
を求め、これを前記仮推定音声S’(f,t)の補正値とする、ことを特徴とする雑音抑圧システム。
前記雑音平均スペクトルＮ(f,t)（ただし、ｔはフレーム番号）と、前記仮推定音声の補正値＜Ｓ(f,t)＞とに基づき、算出される事前ＳＮＲ η(f,t) ＝＜Ｓ(f,t)＞／Ｎ(f,t)に対して、雑音低減フィルタＷ(f,t)、
Ｗ（f,t）＝η(f,t)／（１＋η(f,t)）
を算出し、
前記雑音低減フィルタW(f,t)と入力信号Ｘ(f,t)を用いて推定音声Ｓ（f,t）を周波数領域での乗算
Ｓ（f,t）＝Ｗ（f,t）× Ｘ(f,t)
にて算出し、前記Ｓ（f,t）が前記入力信号から雑音が抑圧された前記推定音声として出力される、ことを特徴とする請求項４記載の雑音抑圧システム。
前記事前ＳＮＲ η(f,t)（ただし、ｔはフレーム番号）を１フレーム前のη(f,t-1) を用い、η(f,t) = β × η(f,t-1) + (1-β) × ＜Ｓ(f,t)＞／Ｎ(f,t)
（ただし、β(0≦β≦1)は平滑化をコントロールするパラメータ）として平滑化して求める、ことを特徴とする請求項１０記載の雑音抑圧システム。
前記雑音平均スペクトルＮ(f,t)と、前記仮推定音声の補正値＜Ｓ(f,t)＞とに基づき、算出される事前ＳＮＲ η(f,t)と、前記雑音平均スペクトルＮ(f,t)と、前記入力信号X（f,t)とに基づき算出される事後ＳＮＲ γ(f,t)を求め、
前記雑音低減フィルタW(f,t)を、事前ＳＮＲ η(f,t)と事後ＳＮＲ γ(f,t)を組み合わせたものを用い、
前記雑音低減フィルタW(f,t)と入力信号Ｘ(f,t)を用いて推定音声Ｓ(f,t)を周波数領域での乗算
Ｓ(f,t) ＝Ｗ（f,t）× Ｘ(f,t)
にて算出し、前記Ｓ（f,t）が前記入力信号から雑音が抑圧された前記推定音声として出力される、ことを特徴とする請求項４記載の雑音抑圧システム。
請求項１乃至１２のいずれか一に記載の雑音抑圧システムを備え、
前記入力信号に含まれる音声の強調を行う、ことを特徴とする信号強調システム。
請求項１乃至１２のいずれか一に記載の雑音抑圧システムを備え、
前記雑音抑圧システムにおいて雑音が抑圧された音声信号を入力し音声認識する手段を含む、ことを特徴とする音声認識装置。
入力信号から雑音を抑圧し音声を推定する方法であって、
前記入力信号から雑音平均スペクトルを算出する工程と、
前記入力信号と前記雑音平均スペクトルとからスペクトル領域で仮推定音声を求める工程と、
予め記憶部に記憶されている音声の標準パタンを用いて、前記仮推定音声の補正値を求める工程と、
を含み、前記仮推定音声の補正値が、前記入力信号から雑音が抑圧された推定音声として出力され、
前記仮推定音声の補正値を求める工程において、
前記標準パタンとして確率分布を仮定し、
前記標準パタンを構成する確率分布が前記仮推定音声を出力する確率と、前記標準パタンを構成する確率分布の平均値とを用いた期待値演算処理により求めた前記仮推定音声の期待値を、前記仮推定音声の補正値とする、ことを特徴とする雑音抑圧方法。
入力信号から雑音を抑圧し音声を推定する方法であって、
前記入力信号から雑音平均スペクトルを算出する工程と、
前記入力信号と前記雑音平均スペクトルとからスペクトル領域で仮推定音声を求める工程と、
予め記憶部に記憶されている音声の標準パタンを用いて、前記仮推定音声の補正値を求める工程と、
前記仮推定音声の補正値と前記雑音平均スペクトルとから雑音低減フィルタを算出する工程と、
前記入力信号に対して前記雑音低減フィルタを施し、前記入力信号から雑音が抑圧された推定音声を得る工程と、
を含む、ことを特徴とする雑音抑圧方法。
前記仮推定音声の補正値を求める工程において、
前記標準パタンとして確率分布を仮定し、
前記標準パタンを構成する確率分布が前記仮推定音声を出力する確率と、前記標準パタンを構成する確率分布の平均値とを用いた期待値演算処理により求めた前記仮推定音声の期待値を、前記仮推定音声の補正値とする、ことを特徴とする請求項１６記載の雑音抑圧方法。
入力信号を入力し雑音を抑圧し音声を推定するコンピュータに、
入力信号から雑音平均スペクトルを算出する処理と、
前記入力信号と、前記雑音平均スペクトルとから、スペクトル領域で仮推定音声を求める処理と、
予め記憶部に記憶された音声の標準パタンを用いて前記仮推定音声の補正値を求め、前記仮推定音声の補正値を、前記入力信号から雑音が抑圧された推定音声として出力する処理であって、前記標準パタンとして確率分布を仮定し、前記標準パタンを構成する確率分布が仮推定音声を出力する確率と、前記標準パタンを構成する確率分布の平均値とを用いた期待値演算処理で求めた仮推定音声の期待値を、前記仮推定音声の補正値とする処理と、
を実行させるプログラム。
入力信号を入力し雑音を抑圧し音声を推定するコンピュータに、
入力信号から雑音平均スペクトルを算出する処理と、
前記入力信号と、前記雑音平均スペクトルとから、スペクトル領域で仮推定音声を求める処理と、
予め記憶部に記憶された音声の標準パタンを用いて前記仮推定音声の補正値を求める処理と、
前記仮推定音声の補正値と前記雑音平均スペクトルとから雑音低減フィルタを算出する処理と、
前記入力信号に対して前記雑音低減フィルタを施して、前記入力信号から雑音が抑圧された推定音声を得る処理と、
を実行させるプログラム。
音声認識装置を構成するコンピュータに、
請求項１８又は１９に記載のプログラムによる処理で雑音が抑圧された音声信号を入力し、音声認識を実行する処理を実行させるプログラム。