JP2017520803A

JP2017520803A - ノイズを有するオーディオ信号をエンハンスドオーディオ信号に変換する方法

Info

Publication number: JP2017520803A
Application number: JP2017515359A
Authority: JP
Inventors: エルドガン、ハカン; ハーシェイ、ジョン; 渡部　晋治; 晋治渡部; ル・ルー、ジョナサン
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2014-10-21
Filing date: 2015-10-08
Publication date: 2017-07-27
Anticipated expiration: 2035-10-08
Also published as: WO2016063795A1; CN107077860B; CN107077860A; DE112015004785B4; DE112015004785T5; US20160111108A1; US20160111107A1; WO2016063794A1; JP6415705B2; US9881631B2

Abstract

方法は、まず、環境からノイズを有するオーディオ信号を取得することによって、ノイズを有するオーディオ信号をエンハンスドオーディオ信号に変換する。ノイズを有するオーディオ信号は、ネットワークパラメーターを有するエンハンスメントネットワークによって処理され、大きさマスク及び位相推定値が共同で生成される。次に、大きさマスク及び位相推定値を用いて、エンハンスドオーディオ信号を得る。

Description

本発明は、オーディオ信号を処理することに関し、より詳細には、信号の位相を用いてノイズを有するオーディオ音声信号を強調する（enhancing）ことに関する。

音声強調（speech enhancement（音声エンハンスメント））において、目標は、或る意味において、基礎をなす真の「クリーンな音声」又は「ターゲット音声」により近い、ノイズを有する音声の処理されたバージョンである「エンハンスド音声（enhanced speech（強調された音声））」を得ることである。

クリーンな音声は、トレーニング中にのみ利用可能であり、システムの現実世界での使用中は利用可能でないことが想定されていることに留意されたい。トレーニングの場合、クリーンな音声は接話マイクロフォンを用いて得ることができるのに対し、ノイズを有する音声は、同時に記録される遠距離場用マイクロフォンを用いて得ることができる。又は、クリーンな音声信号及びノイズ信号を別個に与えられる場合、これらの信号を共に合算して、ノイズを有する音声信号を得ることができ、この場合、クリーンな音声信号及びノイズを有する音声信号の対を共にトレーニングに用いることができる。

音声強調及び音声認識は、互いに異なるものの、関連する問題とみなすことができる。良好な音声強調システムは、音声認識システムに対する入力モジュールとして確かに用いることができる。逆に、音声認識により、更なる情報が組み込まれるので、音声認識が音声強調を改善するために用いられる場合がある。一方、強調タスク及び認識タスクの双方のために、マルチタスクリカレントニューラルネットワークシステムをどのように共同で構築するかは明らかでない。

本明細書において、音声強調を、「ノイズを有する音声」から「エンハンスド音声」を得る問題と呼ぶ。他方で、音声分離という用語は、「ターゲット音声」を背景信号から分離することを指す。ここで、背景信号は、任意の他の非音声オーディオ信号、又は更には、関心対象でない他の非ターゲット音声信号とすることができる。本発明では、全ての背景信号の組合せをノイズとみなすので、音声強調という用語の使用は、音声分離をも含有する。

音声分離及び音声強調の用途において、処理は通常、短時間フーリエ変換（ＳＴＦＴ：short-time Fourier transform）領域において行われる。ＳＴＦＴは、信号の複素領域スペクトル−時間（又は時間−周波数）表現を得る。観測されるノイズを有する信号のＳＴＦＴは、ターゲット音声信号のＳＴＦＴと、ノイズ信号のＳＴＦＴとの和として書くことができる。信号のＳＴＦＴは複素数であり、和は複素領域内にある。一方、従来の方法では、位相は無視され、観測される信号のＳＴＦＴの大きさが、ターゲット音声信号及びノイズ信号のＳＴＦＴの大きさの和に等しいと仮定されるが、これは粗い仮定である。このため、従来技術における焦点は、ノイズを有する音声信号を入力として与えられて、「ターゲット音声」の大きさを予測することであった。ノイズを有する信号の位相は、そのＳＴＦＴから時間領域がエンハンスド信号を再構成する間、エンハンスド音声のＳＴＦＴの推定位相として用いられる。これは通例、エンハンスド音声の位相の最小平均二乗誤差（ＭＭＳＥ：minimum mean square error）推定値がノイズを有する信号の位相であることを示すことによって正しいと判断される。

本発明の実施形態は、ノイズを有する音声信号をエンハンスド音声信号に変換する方法を提供する。

ノイズを有する音声は、自動音声認識（ＡＳＲ：automatic speech recognition）システムによって処理され、ＡＳＲ特徴が生成される。ＡＳＲ特徴は、ノイズを有する音声スペクトル特徴と組み合わされ、トレーニングプロセス中に学習されたネットワークパラメーターを用いて深層リカレントニューラルネットワーク（ＤＲＮＮ：Deep Recurrent Neural Network）に渡され、マスクが生成される。このマスクは、ノイズを有する音声に適用され、エンハンスド音声が生成される。

音声は、短時間フーリエ変換（ＳＴＦＴ）領域において処理される。ノイズを有する音声からエンハンスド音声のＳＴＦＴの大きさを計算するための様々な方法が存在するが、本発明では、深層リカレントニューラルネットワーク（ＤＲＮＮ）に基づく手法に焦点を当てる。これらの手法は、ノイズを有する音声信号のＳＴＦＴから得られた特徴を入力として用いて、出力において、エンハンスド音声信号のＳＴＦＴの大きさを得る。これらのノイズを有する音声信号特徴は、スペクトルの大きさ、スペクトルのパワー又はそれらの対数、ノイズを有する信号のＳＴＦＴから得られた対数メルフィルタバンク（log-mel-filterbank）特徴とすることができるか、又は他の同様なスペクトル時間特徴を用いることができる。

本発明によるリカレントニューラルネットワークベースのシステムでは、リカレントニューラルネットワークは、ノイズを有する音声信号のＳＴＦＴを直接乗算してエンハンスド信号のＳＴＦＴを得る、「マスク」又は「フィルタ」を予測する。「マスク」は、時間−周波数ビンごとにゼロと１との間の値を有し、理想的には、音声成分とノイズ成分との大きさの和によって除算された音声の大きさの比である。この「理想的なマスク」は、システムの実際の使用中は未知であるが、トレーニング中に利用可能である、理想的な比のマスク（ideal ratio mask）と呼ばれる。実数値のマスク（real-valued mask）は、ノイズを有する信号のＳＴＦＴを乗算するので、エンハンスド音声は、結果として、デフォルトでノイズを有する信号のＳＴＦＴの位相を用いることになる。当該マスクをノイズを有する信号のＳＴＦＴの大きさ部分に適用するとき、当該マスクがノイズを有する入力の大きさ部分にのみ適用されることを示すために、このマスクを「大きさマスク」と呼ぶ。

ニューラルネットワークトレーニングは、「ネットワークパラメーター」を用いてネットワークによって得られる、クリーンな音声ターゲットとエンハンスド音声との間の差を量子化する目的関数を最小にすることによって実行される。トレーニング手順は、ニューラルネットワークの出力をクリーンな音声ターゲットに最も近付けるネットワークパラメーターを決定することを目的とする。ネットワークトレーニングは、通常、通時的後方伝搬（ＢＰＴＴ：backpropagation through time）アルゴリズムを用いて行われる。ＢＰＴＴアルゴリズムは、各反復において、ネットワークのパラメーターに関する目的関数の勾配の計算を必要とする。

本発明では、深層リカレントニューラルネットワーク（ＤＲＮＮ）を用いて音声強調を行う。ＤＲＮＮは、低レイテンシ（low latency）（オンライン）用途の場合は、長期短期記憶（ＬＳＴＭ：long short-term memory）ネットワークとすることができるか、又はレイテンシが問題とならない場合、双方向長期短期記憶（ＢＬＳＴＭ：bidirectional long short-term memory）ネットワークＤＲＮＮとすることができる。深層リカレントニューラルネットワークは、ゲートＲＮＮ又はクロックワークＲＮＮ（clockwork RNN）等の他の最新のＲＮＮタイプとすることもできる。

別の実施形態では、オーディオ信号の大きさ及び位相は、推定プロセス中に検討される。位相を意識した処理は、幾つかの異なる態様、すなわち、
いわゆる位相敏感信号近似（ＰＳＡ：phase-sensitive signal approximation）技法において、ターゲットとなる大きさのみを予測しながら、目的関数において位相情報を用いることと、
大きさ及び位相の双方のより良好な予測を可能にする適切な目的関数を利用して、深層リカレントニューラルネットワークを用いて、エンハンスド信号の大きさ及び位相の双方を予測することと、
入力の位相を、大きさ及び位相を予測するシステムへの追加の入力として用いることと、
深層リカレントニューラルネットワークにおいて、マイクロフォンアレイ等のマルチチャネルオーディオ信号の全ての大きさ及び位相を用いることと、
を含む。

この着想は、他のタイプのオーディオ信号の強調（エンハンスメント）に適用されることに留意されたい。例えば、オーディオ信号は、認識のタスクが音楽トランスクリプション（music transcription）である、音楽信号、又は認識のタスクが動物の声を様々なカテゴリに分類することであり得る、動物の声、及び認識のタスクが或る特定の音を出す事象及び／又は物を検出し区別することであり得る、環境音を含むことができる。

ノイズを有する音声信号を、ＡＳＲ特徴を用いてエンハンスド音声信号に変換する方法の流れ図である。図１の方法のトレーニングプロセスの流れ図である。共同の音声認識及び音声強調の方法の流れ図である。位相情報を予測し、大きさマスクを用いることによって、ノイズを有するオーディオ信号をエンハンスドオーディオ信号に変換する方法の流れ図である。図４の方法のトレーニングプロセスの流れ図である。

図１は、ノイズを有する音声信号（noisy speech signal）１１２をエンハンスド音声信号（enhanced speech signal）１９０に変換する方法を示す。すなわち、変換によりノイズを有する音声を強調（enhance（エンハンス））する。本明細書に記載される全ての音声及びオーディオ信号は、環境１０２から単一の又は複数のマイクロフォン１０１によって取得される単一チャネル又はマルチチャネルとすることができ、例えば、環境は、１又は複数の人物、動物、楽器等の複数のソースからのオーディオ入力を有し得る。本発明の課題の場合、ソースのうちの１つは、「ターゲットオーディオ」（多くの場合、「ターゲット音声」）であり、オーディオの他のソースは背景とみなされる。

オーディオ信号が音声である場合、ノイズを有する音声は、自動音声認識（ＡＳＲ：automatic speech recognition）システム１７０によって処理され、例えば、「アライメント情報ベクトル」の形態でＡＳＲ特徴１８０が生成される。ＡＳＲは従来型とすることができる。ノイズを有する音声のＳＴＦＴ特徴と組み合わされたＡＳＲ特徴は、ネットワークパラメーター１４０を用いて深層リカレントニューラルネットワーク（ＤＲＮＮ：Deep Recurrent Neural Network）１５０によって処理される。パラメーターは、以下に説明するトレーニングプロセスを用いて学習することができる。

ＤＲＮＮはマスク１６０を生成する。次に、音声推定１６５中、マスクがノイズを有する音声に適用され、エンハンスド音声１９０が生成される。以下で説明されるように、強調ステップ及び認識ステップを反復することが可能である。すなわち、エンハンスド音声が得られた後、エンハンスド音声を用いて、より良好なＡＳＲ結果を得ることができ、そして、そのＡＳＲ結果を、以下の反復中に新たな入力として用いることができる。反復は、終了条件に達するまで、例えば、予め設定された反復回数に達するまで、又は、現在のエンハンスド音声と以前の反復から得られたエンハンスド音声との間の差が予め設定された閾値未満になるまで、継続することができる。

本方法は、当該技術分野において既知のようにバスによってメモリ及び入出力インターフェースに接続されたプロセッサ１００において実行することができる。

図２は、トレーニングプロセスの要素を示す。ここで、ノイズを有する音声及び対応するクリーンな音声１１１がデータベース１１０に記憶される。目的関数（「コスト関数」又は「誤差関数」と呼ばれる場合がある）が決定される（１２０）。目的関数は、エンハンスド音声とクリーンな音声との間の差を量子化する。トレーニング中に目的関数を最小にすることによって、ネットワークは、クリーンな信号に類似するエンハンスド信号を生成することを学習する。目的関数は、ＤＲＮＮトレーニング１３０を実行してネットワークパラメーター１４０を決定するのに用いられる。

図３は、共同認識（joint recognition）及び強調（enhancement）を実行する方法の要素を示す。ここで、共同目的関数３２０は、クリーンな音声信号１１１及びエンハンスド音声信号１９０及び基準テキスト１１３、すなわち認識された音声と、生成された認識結果３５５との間の差を測定する。この場合、共同認識及びエンハンスメントネットワーク（enhancement network）３５０は、認識結果３５５も生成し、この認識結果３５５は、共同目的関数を決定する（３２０）のにも用いられる。認識結果は、ＡＳＲ状態、音素又は単語シーケンス等の形態をとることができる。

共同目的関数は、強調及び認識タスクの目的関数の重み付けされた和である。強調タスクの場合、目的関数は、マスク近似（ＭＡ：mask approximation）、大きさスペクトル近似（ＭＳＡ：magnitude spectrum approximation）又は位相敏感スペクトル近似（ＰＳＡ：phase-sensitive spectrum approximation）とすることができる。認識タスクの場合、目的関数は、単に、状態若しくは音素をターゲットクラスとして用いる交差エントロピーコスト関数とすることができるか、又は場合によっては、仮説ラティス（hypothesis lattice）を用いて計算される最小音素誤り（ＭＰＥ：minimum phone error）、ブーストされた最大相互情報（ＢＭＭＩ：boosted maximum mutual information）等の一連の弁別的目的関数とすることができる。

代替的に、認識結果３５５及びエンハンスド音声１９０は、破線で示されるように、共同認識及びエンハンスメントモジュール３５０への追加の入力としてフィードバックすることができる。

図４は、エンハンスドオーディオ信号の推定位相４５５及び大きさマスク４６０を出力するエンハンスメントネットワーク（ＤＲＮＮ）４５０を用いる方法を示す。この方法は、その大きさ及び位相の双方から導出されたノイズを有するオーディオ信号４１２の特徴を入力としてとり、予測位相４５５及び大きさマスク４６０を用いてエンハンスドオーディオ信号４９０を得る（４６５）。ノイズを有するオーディオ信号は、環境４０２から１つ又は複数のマイクロフォン４０１によって取得される。次に、エンハンスドオーディオ信号４９０が、位相及び大きさマスクから得られる（４６５）。

図５は、相当するトレーニングプロセスを示す。この場合、エンハンスメントネットワーク４５０は、位相敏感目的関数を用いる。全てのオーディオ信号は、信号の大きさ及び位相を用いて処理され、目的関数４２０も位相敏感であり、すなわち、目的関数は複素領域差を用いる。位相予測及び位相敏感目的関数は、エンハンスドオーディオ信号４９０における信号対雑音比（ＳＮＲ）を改善する。

詳細
モデルベースの音声分離システムに言語モデルが統合された。フィードフォワードニューラルネットワークは、確率モデルと対照的に、入力から出力への１つの方向においてのみ情報フロー（information flow）をサポートする。

本発明は、一部には、音声エンハンスメントネットワークが、認識された状態シーケンスから利益を得ることができ、認識システムが音声強調システムの出力から利益を得ることができるという認識に基づく。完全に統合されたシステムがない場合、双方のタスクにおける利益を得るために、強調と認識とを交互に行うシステムを構想することができる。

したがって、第１のパスの間、ノイズを有する音声に対しトレーニングされるノイズにロバストな認識器（noise-robust recognizer）を用いる。認識される状態シーケンスは、ノイズを有する音声特徴と組み合わされ、エンハンスド音声を再構成するようにトレーニングされたリカレントニューラルネットワークへの入力として用いられる。

最新の音声認識システムは、複数のレベルにおける言語情報を利用する。言語モデルは、単語シーケンスの確率を見つける。単語は、手作業で作成された又は学習された語彙ルックアップテーブルを用いて音素シーケンス（phoneme sequence）にマッピングされる。音素は、左から右に遷移する３状態隠れマルコフモデル（ＨＭＭ：hidden Markov model）としてモデル化される。ここで、各状態分布は、通常、コンテキストに依拠し、基本的には、左から右に遷移する音素のコンテキストウィンドウ内にどの音素が存在するかに依拠する。

ＨＭＭ状態は、異なる音素及びコンテキストにわたって連結することができる。これは、コンテキストに依拠するツリーを用いて達成することができる。フレームレベルで認識出力情報を組み込むことは、対象のフレームへの様々なレベルの言語単位のアライメントを用いて行うことができる。

したがって、本発明では、音声認識問題と、音声強調問題とを統合する。１つのアーキテクチャは、強調される入力のフレームごとに音声認識器から受信されるフレームレベルのアラインされた状態シーケンス又はフレームレベルのアラインされた音素シーケンスの情報を用いる。アライメント情報は、単語レベルのアライメントとすることもできる。

アライメント情報は、ＬＳＴＭネットワークの入力に加えられる追加の特徴として提供される。アライメント情報の様々なタイプの特徴を用いることができる。例えば、フレームレベル状態又は音素を示すのに１ホット表現（1-hot representation）を用いることができる。コンテキストに依拠した状態について終了すると、これによって、より大きなベクトルが得られ、これは学習に課題を課す可能性がある。状態又は音素ごとに、トレーニングデータから計算されたスペクトル特徴を平均化することによって導出される連続特徴を用いることもできる。これによって、より短い入力表現が得られ、各状態の或る種の類似性が保持されたコーディングがもたらされる。情報がノイズを有するスペクトル入力と同じ領域内にある場合、この情報は、ネットワークが音声強調マスクを見つける際に用いるのがより容易になり得る。

本発明の別の態様は、次の段階における入力として、２つのシステムからのフィードバックを有することである。このフィードバックは、性能を更に改善するための「反復形式（iterative fashion）」で実行することができる。

マルチタスク学習において、目標は、異なる目的について同時に、「良好な」特徴を一斉に学習する構造を構築することである。目標は、目的を学習することによって別個のタスクに対する性能を改善することである。

大きさ予測のための位相敏感目的関数
ＢＬＳＴＭ−ＤＲＮＮ４５０によって用いられる目的関数に対する改善を説明する。通常、従来技術において、ネットワークは、ノイズを有するオーディオスペクトルに適用されるフィルタ又は周波数領域マスクを推定し、クリーンな音声スペクトルの推定値を生成する。目的関数は、オーディオ推定値とクリーンなオーディオターゲットとの間の振幅スペクトル領域における誤差を求める。再構成されたオーディオ推定は、ノイズを有するオーディオ信号の位相を保持する。

しかしながら、ノイズを有する位相が用いられるとき、位相誤差は振幅とインタラクトし、ＳＮＲの観点における最良の再構成が、クリーンなオーディオ振幅と異なる振幅で得られる。ここで、複素スペクトルにおける誤差に基づいて、振幅及び位相誤差の双方を含む位相敏感目的関数を直接用いることを検討する。これにより、推定振幅がノイズを有する位相の使用を補償することが可能になる。

時間周波数マスクを用いた分離
時間周波数フィルタリング方法は、ノイズを有するオーディオの周波数領域特徴表現を乗算するフィルタ又はマスキング機能を推定して、クリーンなオーディオ信号の推定値を形成する。本発明では、時間領域信号のウィンドウ付きフレームの離散フーリエ変換により得られたノイズを有するオーディオの複素短時間スペクトルｙ_ｆ，ｔ、ノイズｎ_ｆ，ｔ及びオーディオｓ_ｆ，ｔを定義する。以後、ｆ、ｔによるインデックス付けを省いて、単一の時間周波数ビンについて検討する。

推定マスキング関数を

と仮定すると、クリーンなオーディオは、

として推定される。トレーニング中、クリーンなオーディオ信号及びノイズを有するオーディオ信号が提供され、マスキング関数のための推定量

が歪み尺度

によってトレーニングされる。ここで、θは位相を表す。

様々な目的関数、例えば、マスク近似（ＭＡ：mask approximation）及び信号近似（ＳＡ：signal approximation）を用いることができる。ＭＡ目的関数は、ｙ及びｓを用いてターゲットマスクを計算し、次に、推定マスクとターゲットマスクとの間の誤差を以下のように測定する。

ＳＡ目的関数は、フィルタリングされた信号と、ターゲットのクリーンなオーディオとの間の誤差を以下のように測定する。

様々な「理想的な（ideal）」マスクがＭＡ手法においてａ^＊のために用いられている。最も一般的なのは、いわゆる「理想バイナリマスク」（ＩＢＭ：ideal binary mask）及び「理想比マスク」（ＩＲＭ：ideal ratio mask）である。

オーディオ推定値

を計算するための様々なマスキング関数ａ、ａに関するそれらの公式、及び、最適性の条件は、以下の通りである。ＩＢＭにおいて、式ｘが真である場合、δ（ｘ）は１であり、そうでない場合、０である。

ソース分離及び強調のための位相予測
ここで、オーディオソース分離及びオーディオソース強調の用途において位相を大きさと共に予測する方法を説明する。このセットアップは、ニューラルネットワークＷを、ターゲット信号の大きさ及び位相の予測を行うために用いることを含む。（１組の）混合した（又はノイズを有する）信号ｙ（τ）を仮定する。信号ｙ（τ）は、異なるソースからのターゲット信号（又はソース）ｓ^＊（τ）及び他の背景信号の和である。本発明では、ｙ（τ）からｓ^＊（τ）を復元する。ｙ_ｔ，ｆ及び

がそれぞれ、ｙ（τ）及びｓ^＊（τ）の短時間フーリエ変換を表すものとする。

単純な手法（Naive Approach）
単純な手法において、

であり、ここで、

はトレーニング中に既知であるクリーンなオーディオ信号であり、

は、ノイズを有する信号の大きさ及び位相ｙ＝［ｙ_ｔ，ｆ］_{ｔ，ｆ∈Ｂ}からのネットワークの予測値であり、すなわち、

である。ここで、Ｗはネットワークの重みであり、Ｂは全ての時間−周波数インデックスの組である。ネットワークは、

を、極表記において、

として表すことができるか、又は複素表記において、

として表すことができる。ここで、Ｒｅは実数部であり、Ｉｍは虚数部である。

複素フィルタ手法（Complex Filter Approach）
多くの場合、ノイズを有するオーディオ信号を適用するフィルタを推定した方がよい可能性がある。なぜなら、信号がクリーンである場合、フィルタは１（unity）になることができ、それによって、入力信号が出力信号の推定値

となるためである。ここで、ａ_ｔ，ｆは、クリーンな信号及びノイズを有する信号の振幅間の比を表すネットワークによって推定される実数である。本発明では、

を含める。ここで、φ_ｔ，ｆは、クリーンな信号及びノイズを有する信号の位相間の差の推定値である。これを、複素フィルタ

として書くこともできる。入力が概ねクリーンであるとき、ａ_ｔ，ｆは１（unity）に近く、φ_ｔ，ｆはゼロに近く、それによって、複素フィルタｈ_ｔ，ｆは１（unity）に近い。

結合手法
複素フィルタ手法は、信号がクリーンに近いときに最も良好に機能するが、信号のノイズが多いとき、システムは、ノイズを有する信号とクリーンな信号との間の差を推定しなくてはならない。この場合、クリーンな信号を直接推定した方がよい場合がある。これに動機付けられて、本発明では、ソフトゲートα_ｔ，ｆによって、ネットワークにどの方法を用いるか決定させることができる。ソフトゲートα_ｔ，ｆは、ネットワークの別の出力であり、ゼロと１との間の値をとり、時間−周波数出力

ごとに単純なフィルタ手法及び複素フィルタ手法の線形結合を選択するのに用いられる。ここで、ノイズを有する信号がクリーンな信号に概ね等しいとき、α_ｔ，ｆは、通常、１（unity）に設定され、ｒ_ｔ，ｆ、θ_ｔ，ｆは、クリーンな信号の振幅及び位相のネットワークの最良の推定値を表す。この場合、ネットワークの出力は、

である。ここで、Ｗはネットワークにおける重みである。

単純化された結合手法
結合手法は過度に多くのパラメーターを有する可能性があり、これは望ましくない場合がある。本発明では、結合手法を以下のように単純化することができる。α_ｔ，ｆ＝１であるとき、ネットワークは入力を出力に直接渡し、それによって、マスクを推定する必要がなくなる。このため、α_ｔ，ｆ＝１であるとき、マスクを１（unity）に設定し、マスクパラメーター

を省く。ここでもまた、ノイズを有する信号がクリーンな信号に概ね等しいとき、α_ｔ，ｆは、通常、１（unity）に設定され、α_ｔ，ｆが１（unity）でないとき、以下を求める。

これは、α_ｔ，ｆｙ_ｔ，ｆと

との間の差のネットワークの最良の推定値を表す。この場合、ネットワークの出力は、

である。ここで、Ｗは、ネットワークにおける重みである。結合手法及び単純化された結合手法の双方が、冗長な表現であり、同じ推定値が得られる複数組のパラメーターが存在し得ることに留意されたい。

Claims

ノイズを有するオーディオ信号をエンハンスドオーディオ信号に変換する方法であって、
環境から前記ノイズを有するオーディオ信号を取得するステップと、
ネットワークパラメーターを有するエンハンスメントネットワークによって前記ノイズを有するオーディオ信号を処理して、大きさマスク及び位相推定値を共同で生成するステップと、
前記大きさマスク及び前記位相推定値を用いて、前記エンハンスドオーディオ信号を得るステップと
を含み、前記ステップはプロセッサが実行する、方法。
前記エンハンスメントネットワークは、双方向長期短期記憶（ＢＬＳＴＭ）深層リカレントニューラルネットワーク（ＤＲＮＮ）である、請求項１に記載の方法。
前記エンハンスメントネットワークは、前記ノイズを有するオーディオ信号の振幅及び位相における誤差を含む複素スペクトルにおける誤差に基づく位相敏感目的関数を用いる、請求項１に記載の方法。
前記位相推定値は、前記エンハンスメントネットワークを通じて直接得られる、請求項１に記載の方法。
前記位相推定値は、複素値マスクを用いて前記ノイズを有するオーディオ信号の振幅と共同で得られる、請求項１に記載の方法。