JP2013541023A

JP2013541023A - 試験音声信号の雑音を除去する結果として試験雑音除去音声信号内で減衰したスペクトル成分を復元するための方法

Info

Publication number: JP2013541023A
Application number: JP2013513311A
Authority: JP
Inventors: シン、リタ
Original assignee: Mitsubishi Electric Research Laboratories Inc
Current assignee: Mitsubishi Electric Research Laboratories Inc
Priority date: 2010-12-07
Filing date: 2011-11-08
Publication date: 2013-11-07
Anticipated expiration: 2031-11-08
Also published as: CN103238181A; US20120143604A1; JP5665977B2; EP2649615A1; CN103238181B; WO2012077462A1

Abstract

トレーニング無歪音声信号をトレーニング無歪基本成分の合成成分として表し、トレーニング雑音除去音声信号をトレーニング有歪基本成分の合成成分として表すことによって、試験音声信号の雑音を除去する結果として試験雑音除去音声信号内で減衰したスペクトル成分が復元される。試験雑音除去信号は、トレーニング有歪基本成分の合成成分として分解される。その後、無歪試験音声信号は、トレーニング無歪基本成分の合成成分として推定され、その合成成分は、トレーニング有歪基本成分の合成成分と同一である。

Description

本発明は、包括的には、雑音除去音声信号に関し、より詳細には、雑音除去の結果として音声信号内で減衰したスペクトル成分を復元することに関する。

音声信号は、多くの場合に雑音を含む環境において取り込まれる。音声の知覚品質および了解度を低下させることに加えて、雑音は、通常は歪のない「明瞭な」音声信号に関して効率的な性能を得るために最適化される送信および認識のための符号化のような下流の処理の性能に悪影響を及ぼす。このため、更に処理する前に、信号から雑音を除去することが必要になる。数多くの雑音除去方法が既知である。通常、従来の方法は、最初に雑音を推定し、その後、減算またはフィルタリングのいずれかによって雑音を低減する。

問題は、雑音が時間とともに変化する場合に特に、雑音推定値が一般に正確でないことである。結果として、雑音除去後に或る量の残留雑音が残り、情報を搬送するスペクトル成分が減衰する。例えば、車両内で音声が取り込まれ、その後、雑音が除去される場合には、／Ｓ／のような摩擦音の高周波成分、および／Ｍ／、／Ｎ／および／Ｌ／のような鼻音および流音の極低周波成分が減衰する。これは、自動車雑音が高周波数および低周波数によって支配されており、雑音を低減することにより音声信号内のこれらのスペクトル成分が減衰するために生じる。

雑音低減の結果として、知覚品質が改善された信号が生成されるが、多くの場合に音声の了解度は改善されず、すなわち、雑音を除去された信号は、歪むことなく聞こえるものの、話された内容は、聞き分けにくくなる。場合によるが、雑音除去が強引であるか、または雑音が時間とともに変化するときには特に、雑音を除去された信号の了解度は、雑音を含む信号よりも低い。

この問題は、不完全な処理の結果として生じる。それでも、サードパーティの雑音除去ハードウェアおよびソフトウェアを組み込む音声インターフェース（ｓｐｏｋｅｎ−ｉｎｔｅｒｆａｃｅ）デバイスの場合に極めて現実的な問題である。雑音除去技法は、多くの場合にデバイスの中に組み込まれた「ブラックボックス」であり、雑音除去信号しか入手することができない。この場合、雑音除去によって減衰した音声情報のスペクトル成分を何らかの方法で復元することが重要になる。

雑音は、音声信号を劣化させ、知覚品質、了解度、および下流における処理、例えば、送信または音声認識のための符号化に影響を及ぼす。それゆえ、雑音を含む音声から雑音が除去される。通常、雑音除去方法は、雑音の推定値を減算またはフィルタリングするが、その推定値は、多くの場合に不正確である。結果として、雑音を除去することによって、音声のスペクトル成分が減衰し、了解度が低下する可能性がある。

トレーニング無歪音声信号がトレーニング無歪基本成分の合成成分として表される。トレーニング雑音除去音声がトレーニング有歪基本成分の合成成分として表される。試験雑音除去音声信号をトレーニング有歪基本成分の合成成分として分解することによって。その後、対応する試験無歪音声信号を、トレーニング無歪基本成分の同一の合成成分として推定することができる。

本発明の実施の形態による雑音除去プロセス１００のモデルを示す図である。本発明の実施の形態による、試験雑音除去音声信号のスペクトル成分を復元するための方法の流れ図である。推定された短時間フーリエ変換から時間領域信号への変換を詳述する流れ図である。推定された短時間フーリエ変換から帯域幅拡張が実行されるときの信号への変換を詳述する流れ図である。

本発明の実施の形態は、試験音声信号の雑音を除去する結果として試験雑音除去音声信号内で減衰したスペクトル成分を復元し、雑音除去信号における音声の了解度を高めるための方法を提供する。

その方法は、雑音除去の実施態様によって制約を受ける。第一に、雑音除去は、通常「ブラックボックス」である。雑音が推定される方法、および実際の雑音低減手順は、不明である。第二に、通常、雑音自体を別に記録することは、不可能であるか、または実用的ではなく、雑音除去が音声の任意のスペクトル成分にいかに影響を及ぼしたかを理解するために、雑音の外部推定値を入手することはできない。第三に、その処理は、信号に雑音を再び導入することなく、音声の減衰したスペクトル成分を復元しなければならない。

その方法は、音声信号の合成特性評価（ｃｏｍｐｏｓｉｔｉｏｎａｌｃｈａｒａｃｔｅｒｉｚａｔｉｏｎ）を使用し、それは、信号を加法的基本成分の加算的な合成成分（ｃｏｎｓｔｒｕｃｔｉｖｅｃｏｍｐｏｓｉｔｉｏｎ）として表すことができるものと仮定する。

実施の形態では、この特性評価は、非負行列因子分解（ＮＭＦ：Ｎｏｎ−ｎｅｇａｔｉｖｅＭａｔｒｉｘＦａｃｔｏｒｉｚａｔｉｏｎ）によって得られるが、他の方法を用いることもできる。ＮＭＦは、１つの行列を非負の要素を有する行列に分解する。ＮＭＦは、混合された音声信号を分離し、音声の雑音を除去するために使用されてきた。帯域制限された信号の帯域幅を拡張するために、合成モデルも使用されてきた。しかしながら、知られている限り、ＮＭＦは、雑音除去音声信号内の減衰したスペクトル成分を復元するという特定の問題のために使用されていない。

加法的基本成分の合成成分が雑音除去によって影響を及ぼされる態様は、相対的に一定であり、トレーニング無歪信号およびトレーニング有歪音声信号のステレオペアを含むトレーニングデータから得ることができる。雑音除去信号が加法的基本成分の合成成分の観点からいかに表されるかを特定することによって、減衰したスペクトル構造を基本成分の無歪バージョンから推定し、その後、復元して、無歪音声を与えることができる。

雑音除去モデル
図１に示されるように、本発明の実施の形態は、雑音含有音声Ｓのスペクトル成分を不適切に減衰させる有損失雑音除去プロセスＧ（）１００を、いかなる音声スペクトル成分も減衰させることなく信号内の雑音を減衰させる無損失雑音除去機構Ｆ（）１１０と、無損失雑音除去信号Ｘを変更して有損失信号Ｙを生成する歪関数Ｄ（）１２０との組み合わせとしてモデル化する。

すなわち、雑音含有音声信号Ｓを、理想的な「無損失」雑音除去関数Ｆ（Ｓ）１１０によって処理して、仮想的な無損失雑音除去信号Ｘを生成する。その後、その雑音除去信号Ｘを歪関数Ｄ（Ｘ）１２０に通し、歪関数は、スペクトル成分を減衰させて有損失信号Ｙを生成する。

その目的は、有損失信号Ｙのみを与えるときに、雑音除去信号Ｘを推定することである。本発明の実施の形態は、無損失信号Ｘを重み付けされた加法的基本成分ｗ_ｉＢ_ｉの合成成分として表す。

基本成分Ｂ_ｉは、雑音除去音声信号Ｘを構成する個々のスペクトル構造を形成する無相関の構成単位を表すものと仮定する。歪関数Ｄ（）は、基本成分に歪を加えて、基本成分が表すスペクトル構造を変更する。したがって、任意の基本成分Ｂ_ｉが歪関数によってＢ_ｉ ^{ｄｉｓｔｏｒｔｅｄ}＝Ｄ（Ｂ_ｉ）に変換される。

歪は、他の基本成分から独立して任意の基本成分を変換すると仮定される、すなわち、以下の式が成り立つ。

ただし、Ｄ（Ｂ_ｉ｜Ｂ_ｊ：ｊ≠ｉ）は、他の基本成分Ｂ_ｊ：ｊ≠ｉも同時に存在する場合の、基本成分Ｂｉの歪を表す。この仮定は、基本成分が、重なり合わない完全なスペクトル構造を表さない限り妥当ではない。また、信号を構成するために基本成分が合成される態様は、歪によって変更されないことも仮定する。これらの仮定は、その方法を簡単にするために行われる。上記の仮定が意味することは、以下の通りである。

式２は、全ての基本成分Ｂ_ｉおよびその歪んだバージョンＢ_ｉ ^{ｄｉｓｔｏｒｔｅｄ}が既知であり、かつ歪んだ基本成分がＹを構成する態様を特定できる、すなわち、重みｗ_ｉを推定できる場合には、雑音除去信号Ｘを推定できるという結論をもたらす。

復元モデル概説
図２は、試験雑音除去音声信号２０３内のスペクトル成分を復元するための方法２００のステップを示す。トレーニング無歪音声信号２０１が、トレーニング無歪基本成分２１１の合成成分として表される（２１０）。トレーニング雑音除去音声２０２が、トレーニング有歪基本成分２２１の合成成分として表される（２２０）。トレーニング有歪基本成分２２１の合成成分に従って試験雑音除去音声信号２０３を分解すること（２３０）によって、対応する試験無歪音声信号２０４をトレーニング無歪基本成分２１１の合成成分として推定することができ（２４０）、その合成成分は、トレーニング有歪基本成分２２１の合成成分と同一である。上記の方法のステップは、当該技術分野において既知であるような、メモリおよび入力／出力インターフェースに接続されたプロセッサにおいて実行することができる。

信号を表現する
図１において説明および図示されたモデルは、本来スペクトルモデルである。そのモデルは、無相関信号の合成成分の特性を評価し、無相関信号の電力スペクトルは、加法的であるので、そのモデルは、全ての信号のスペクトルの特性を評価する。それゆえ、全ての音声信号は、信号の短時間フーリエ変換（ＳＴＦＴ：Ｓｈｏｒｔ−ＴｉｍｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を求め、その成分の振幅を計算することによって得られる振幅スペクトログラムとして表される。理論的には、それは、加法的である電力スペクトルである。しかしながら、経験的には、振幅スペクトルの場合の方が、良好に加法性が成り立つ。

ＳＴＦＴのための最適な解析フレームは、４０〜６４ｍｓである。それゆえ、音声信号にわたって６４ｍｓの窓をスライドさせることによって、その信号をセグメント化し、フレームを生成する。各フレームにわたってフーリエスペクトルを計算し、複素スペクトルベクトルを得る。ベクトルの大きさを求め、振幅スペクトルベクトルを得る。全てのフレームのための複素スペクトルベクトルの集合が、その信号のための複素スペクトログラムを構成する。全てのフレームのための振幅スペクトルベクトルが振幅スペクトログラムを構成する。個々のフレームのためにスペクトルは、ベクトル、例えば、Ｘ（ｔ）、Ｙ（ｔ）として表される。

Ｓ、ＸおよびＹがそれぞれ雑音含有音声、無損失雑音除去音声および有損失雑音除去音声の振幅スペクトログラムを表すものとする。基本成分Ｂ_ｉおよびその有歪バージョンＢ_ｉ ^{ｄｉｓｔｏｒｔｅｄ}は、振幅スペクトルベクトルを表す。Ｘ（ｔ）として表される、信号Ｘの第ｉの解析フレームの振幅スペクトルは、以下のように、無損失基本成分Ｂ_ｉから構成されるものと仮定される。

また、有損失信号Ｙの対応するフレームの振幅スペクトルは、以下の通りである。

また、式のモデル内の重みの符号は、基本成分のためのスペクトルの位相の中に包含され、信号の振幅スペクトルと基本成分の振幅スペクトルとの間の関係には、現れないので、重みｗ_ｉは、ここでは全ての非負である。

そのスペクトル復元モデルは、有損失信号の振幅スペクトログラムＹから無損失振幅スペクトログラムＸを推定する。推定された振幅スペクトログラムは、時間領域信号に逆変換される。そのために、有損失信号の複素スペクトログラムからの位相が用いられる。

復元モデル詳述
復元のために、トレーニング段階において、トレーニングデータ、すなわち、トレーニング無歪音声信号２０１およびトレーニング雑音除去音声信号２０２から、信号Ｘのための無損失基本成分Ｂ_ｉ２１１および信号Ｙのための対応する有損失基本成分Ｂ_ｉ ^{ｄｉｓｔｏｒｔｅｄ}２２１が得られる。トレーニング後、その方法の動作中に、これらの基本成分を用いて、雑音除去信号Ｘを推定する。

基本成分を得る
歪関数Ｄ（）１２０は、未知であるので、成分Ｂ_ｉおよびＢ_ｉ ^{ｄｉｓｔｏｒｔｅｄ}は、信号Ｘおよび対応する信号Ｙの共同記録を解析することから一緒に得られる。それゆえ、トレーニング段階において、トレーニング信号ＸおよびＹの共同記録が必要とされる。しかしながら、信号Ｘは、直接入手できず、代わりに、以下の近似が用いられる。

デジタル形式で雑音を付加することによって無歪（明瞭な）トレーニング音声信号Ｃを人為的に劣化させて、雑音含有信号Ｓを得る。その後、雑音除去プロセス１１０によって信号Ｓを処理し、対応する信号Ｙを得る。「無損失雑音除去」信号Ｘは、仮想的な存在物であり、同じく未知である。代わりに、元の無歪明瞭信号Ｃがその信号に対するＸの代わりとして用いられる。雑音除去プロセスおよび歪関数は、信号の中に遅延を導入し、それにより、ＹおよびＣのための信号が互いに時間的にシフトされるようになる。

式２のモデルは、Ｘの各フレームとＹの対応するフレームとの間の一対一対応を仮定しているので、信号ＣおよびＹの記録されたサンプルを時間的に整合させて、雑音除去によって導入された任意の相対的な時間シフトを除去する。その時間シフトは、信号Ｃの各フレームと信号Ｙの対応するフレームとの相互相関によって推定される。

基本成分Ｂ_ｉは、信号Ｘのための構成用の基本成分であると仮定される。基本成分は、ＮＭＦを用いて、信号の振幅スペクトルを解析することによって得ることができる。しかしながら、更なる制約として、有歪基本成分Ｂ_ｉ ^{ｄｉｓｔｏｒｔｅｄ}が、実際に、その対応する無歪基本成分Ｂ_ｉの歪みであることが確実にわからなければならない。

それゆえ、事例ベースモデルが用いられ、そのような対応が確保される。信号Ｘのための基本成分Ｂ_ｉとして、信号Ｃから多数の振幅スペクトルベクトルがランダムに選択される。信号Ｙのトレーニング事例から、対応するベクトルがＢ_ｉ ^{ｄｉｓｔｏｒｔｅｄ}として選択される。これは、Ｂ_ｉ ^{ｄｉｓｔｏｒｔｅｄ}が実際にＢ_ｉの概ね厳密な有歪バージョンであることを確実にする。基本成分は、音声内のスペクトル構造を表しており、音声内のスペクトル構造の潜在的な数は、実質的に無制限であるので、多数、例えば、５０００以上のトレーニング基本成分が選択される。それゆえ、式１のモデルは、過完全になり、信号自体の次元数よりも多くの要素を合成する。

重みを推定する
試験雑音除去信号Ｙ２０３内のスペクトル成分を復元するための方法は、Ｙの各スペクトルベクトルＹ（ｔ）が有歪基本成分によっていかに構成されるかを決定する。上記のように、Ｙ（ｔ）＝Σ_ｉｗ_ｉ（ｔ）Ｂ_ｉ ^{ｄｉｓｔｏｒｔｅｄ}が成り立つ。

全てのトレーニング有歪基本成分２２１からなる集合が行列

として表され、重みの集合｛ｗｉ（ｔ）｝がベクトル：Ｗ（ｔ）＝［ｗ_１（ｔ）ｗ_２（ｔ）．．．］^Ｔとして表される場合には、以下の式が成り立つ。

ベクトルＷ（ｔ）は、推定中に非負であるという制約を受ける。重みを学習するための種々の更新規則が既知である。音声信号およびオーディオ信号の場合、Ｙ（ｔ）と

との間の一般化カルバック・ライブラー距離を最小化する更新規則を用いることが最も実効的である。

ただし、

は、成分ごとの乗算を表し、全ての除算も成分ごとに行われる。その表現は、過完全である、すなわち、Ｙ（ｔ）の次元よりも多くの基本成分が存在するので、その式は、劣決定であり、Ｗ（ｔ）に対する複数の解が存在し、それらの解は、Ｙ（ｔ）を等しく良好に特性評価する。

復元されたスペクトル成分を有する音声を推定する
任意のＹ（ｔ）に対して重みＷ（ｔ）＝［ｗ_１（ｔ）ｗ_２（ｔ）．．．］^Ｔが決定された後に、式２によって、対応する無損失スペクトルＸ（ｔ）を、Ｘ（ｔ）＝Σ_ｉｗ_ｉ（ｔ）Ｂ_ｉとして推定することができる。その推定手順は、繰返し行われるので、式３における厳密な等式は、決して達成されない。代わりに、行列

がＹ（ｔ）に対する唯一の近似である。信号Ｙ内の全エネルギーを考慮に入れるために、以下のウィーナーフィルター定式化を用いて、Ｘのスペクトルベクトルを推定する。

上記の全ての除算および乗算は、成分ごとに行われ、ε＞０にすることより、Ｙ（ｔ）＝０であっても減衰したスペクトル成分を依然として復元できるのを確実にする。

図３は、重みが推定された後の、無歪試験信号を復元するための全プロセス３００を示す。式（５）の分子によって示される初期推定値は、推定された重み３０６にしたがってトレーニング無歪基本成分２１１を合成することによって求められる（３０１）。その後、その結果は、ウィーナーフィルター推定３０２において用いられる。結果として生成されたＳＴＦＴは、雑音除去試験信号のＳＴＦＴからの位相と合成され（３０３）、最後に、逆ＳＴＦＴ３０４を実行することによって時間領域信号３０５に変換される。

帯域幅を拡張する
多くの場合に、記録され、雑音除去された音声信号は、縮小された帯域幅を有し、例えば、その音声が電話によって取り込まれた場合には、その音声は、４ｋＨｚまでの低い周波数のみを含むことができ、４ｋＨｚよりも高い周波数は失われる。これらの場合に、その方法を拡張して、信号の中に高い周波数スペクトル成分を復元することができる。これは、信号の了解度を改善することも予想される。帯域幅を拡張するために、帯域幅再構成手順を用いることができる。引用することにより本明細書の一部をなす、２０１０年４月１３日にＲａｍａｋｒｉｓｈｎａｎ他に対して発行された「Ｃｏｎｓｔｒｕｃｔｉｎｇｂｒｏａｄ−ｂａｎｄａｃｏｕｓｔｉｃｓｉｇｎａｌｓｆｒｏｍｌｏｗｅｒ−ｂａｎｄａｃｏｕｓｔｉｃｓｉｇｎａｌｓ」という名称の米国特許第７，６９８，１４３号を参照されたい。その手順は，低い帯域の音響信号から広帯域の音響信号を構成することにのみ関係し、本明細書の場合のような、雑音除去音声信号には、関係しない。

この場合、トレーニングデータは、トレーニング無歪信号Ｃのための広帯域信号も含む。ＣおよびＹのためのトレーニング記録を時間的に整合させて、同一の解析フレームを用いてＳＴＦＴ解析が実行される。これは、任意の共同記録内で、信号ＣおよびＹのためのスペクトルベクトルが一対一に対応するのを確実にする。結果として、Ｙのトレーニング事例から引き出された基本成分Ｂ_ｉ ^{ｄｉｓｔｏｒｔｅｄ}２２１は、縮小帯域幅の信号を表し、一方、対応する基本成分Ｂ_ｉ２１１は、広帯域信号を表し、高周波成分を含む。信号から雑音が除去された後に、式５を用いて、低周波成分が復元され、高周波成分は、以下の式として得られる。

ただし、ｆはＸ（ｔ）およびＢ_ｉの固有の周波数成分に対するインデックスである。

上記の推定は、スペクトルの振幅のみを求める。振幅スペクトルを時間領域に逆変換するために、信号位相も取り込まれる。低周波成分のための位相は、縮小帯域幅の有損失雑音除去信号から直接得られる。高い方の周波数の場合、低い方の周波数からの位相項を複製すれば十分である。

図４は、重みが推定された後の、帯域幅拡張を用いて無歪試験信号を復元するための全プロセスを示す。式（５）の分子によって示される、低周波成分および高周波成分両方のための初期推定値が求められる（４０１）。ステップ４０１からの高周波推定値を保持しながら、ウィーナーフィルター推定４０２を用いて低周波成分が更新される。結果として生成されたＳＴＦＴは、低周波数の雑音除去試験信号のＳＴＦＴからの位相と合成される（４０３）。低周波数の位相が高周波数に対して複製され（４０４）、最後に、逆ＳＴＦＴ４０５を実行することによって時間領域信号に変換される。

Claims

試験音声信号の雑音を除去する結果として試験雑音除去音声信号内で減衰したスペクトル成分を復元するための方法であって、
トレーニング無歪音声信号をトレーニング無歪基本成分の合成成分として表すことと、
トレーニング雑音除去音声信号をトレーニング有歪基本成分の合成成分として表すことと、
前記試験雑音除去信号を前記トレーニング有歪基本成分の合成成分として分解することと、
前記無歪試験音声信号を前記トレーニング無歪基本成分の前記合成成分として推定することであって、前記合成成分は、前記トレーニング有歪基本成分の前記合成成分と同一である、推定することとを含む、
試験音声信号の雑音を除去する結果として試験雑音除去音声信号内で減衰したスペクトル成分を復元するための方法。
前記試験雑音除去音声信号を生成するためのプロセスは、未知であり、
理想的な無損失雑音除去関数によって前記プロセスをモデル化することであって、仮想的に無損失である雑音除去信号を生成する、モデル化することと、前記雑音除去信号を、前記スペクトル成分を減衰させる歪関数に通すこととを更に含む、
請求項１に記載の方法。
前記基本成分は、全て加法的であり、各基本成分は、重みに関連付けられる、
請求項１に記載の方法。
前記歪関数は、他の基本成分から独立して任意の基本成分を変換する、
請求項２に記載の方法。
全ての音声信号を振幅スペクトログラムとして表すことを更に含み、前記振幅スペクトログラムは、前記音声信号の短時間フーリエ変換（ＳＴＦＴ）の振幅を求めることによって得られる、
請求項１に記載の方法。
前記トレーニング無歪基本成分および前記トレーニング有歪基本成分は、トレーニングデータの振幅スペクトログラムの共同解析によって求められ、前記トレーニングデータは、記録のペアを含み、各ペアは、明瞭な音声信号と、該明瞭な音声信号を人為的に劣化させたバージョンとを含み、前記人為的に劣化させたバージョンは、雑音を付加し、その後、前記人為的に劣化させたバージョンから雑音を除去することによって劣化している、
請求項１に記載の方法。
前記明瞭な音声信号のサンプル、および前記明瞭な音声信号を人為的に劣化させて雑音を除去した前記バージョンのサンプルを時間的に整合させる、
請求項６に記載の方法。
前記無歪トレーニング基本成分および前記有歪トレーニング基本成分は、前記記録の前記ペアの共同解析によって求められる、
請求項７に記載の方法。
前記トレーニング無歪基本成分および前記トレーニング有歪基本成分は、事例ベースモデルを用いて求められ、前記トレーニング無歪基本成分および前記トレーニング有歪基本成分は、前記トレーニング無歪基本成分および前記トレーニング有歪基本成分のための振幅スペクトルベクトルの中からランダムに選択される、
請求項１に記載の方法。
前記重みは、非負である、
請求項３に記載の方法。
前記重みは、非負行列因子分解（ＮＭＦ）によって求められる、
請求項３に記載の方法。
前記試験無歪音声信号の帯域幅を拡張することを更に含む、
請求項１に記載の方法。
前記トレーニング無歪基本成分は、最大帯域幅の明瞭な音声信号から得られ、前記トレーニング有歪基本成分は、縮小された帯域幅を有し、雑音で人為的に劣化させ、雑音を除去した音声信号から得られる、
請求項６または１２に記載の方法。
前記推定された試験無歪音声信号は、非負行列因子分解（ＮＭＦ）によって求められた重みを用いて前記トレーニング無歪基本成分を合成することによって得られる、
請求項１に記載の方法。
前記試験無歪音声信号の推定振幅短時間フーリエ変換（ＳＴＦＴ）を構成する最後の振幅スペクトルは、推定された無歪スペクトルにウィーナーフィルター定式化を用いることを適用することによって得られる、
請求項１に記載の方法。
前記推定された試験無歪音声信号は、逆変換された推定振幅ＳＴＦＴと前記試験雑音除去音声信号のＳＴＦＴから得られた位相とを合成し、結果として生成された複素ＳＴＦＴを逆変換することによって得られる、
請求項１５に記載の方法。
前記推定された試験無歪音声信号の前記ＳＴＦＴの４ｋＨｚよりも高い周波数成分は、前記トレーニング無歪基本成分の前記合成成分から直接得られる、
請求項１５に記載の方法。
前記ＳＴＦＴの４ｋＨｚよりも高い周波数成分のための位相は、前記推定された試験無歪音声信号の前記ＳＴＦＴの４ｋＨｚ未満の低周波成分の位相を複製することによって得られる、
請求項１６または１７に記載の方法。