JP7175441B2

JP7175441B2 - 雑音のある時変環境のための重み付け予測誤差に基づくオンライン残響除去アルゴリズム

Info

Publication number: JP7175441B2
Application number: JP2019534198A
Authority: JP
Inventors: サイードモサイエブプールカスカリ，; フランチェスコネスタ，; トラウスティソルムンドソン，
Original assignee: シナプティクスインコーポレイテッド
Priority date: 2016-12-23
Filing date: 2017-12-22
Publication date: 2022-11-21
Anticipated expiration: 2037-12-22
Also published as: CN110100457B; WO2018119470A1; JP2020503552A; CN110100457A; US10446171B2; DE112017006486T5; US20180182410A1

Description

関連出願の相互参照
本出願は、２０１６年１２月２３日に出願され、参照により全体が本明細書に組み込まれた「ONLINE DEREVERBERATION ALGORITHM BASED ON WEIGHTED PREDICTION ERROR FOR NOISY TIME- VARYING ENVIRONMENTS」と題する米国仮特許出願第６２／４３８，８６０号の利益と優先権を請求する。

本出願は、一般に音声処理に関し、より具体的には多重チャネル音声信号の残響除去に関する。

音声信号処理の分野で残響低減ソリューションが知られている。多くの従来の手法は、実時間用途での使用に適していない。例えば、残響低減ソリューションは、残響の影響を補償し又は室内インパルス応答（ＲＩＲ）の逆フィルタを推定するために長期データバッファを必要としうる。実時間用途に適した手法は、高残響環境及び特に高非定常環境ではうまく動作しない。更に、そのようなソリューションは、大量のメモリを必要とし、多くの低電力装置では計算効率がよくない。

１つの従来のソリューションは、残響プロセスの自己回帰モデルを仮定する重み付け予測誤差（ＷＰＥ）に基づき、即ち、残響マイクロホン信号の以前のサンプルから特定時間における残響成分を予測できると仮定される。欲しい信号は、モデルの予測誤差として推定されうる。音声信号の短時間相関の歪みを回避するために固定遅延が導入される。このアルゴリズムは、実時間処理に適さず、雑音のある条件では入力信号を明確にモデル化しない。また、ＷＰＥ法は、高い複雑さを有し、オンライン複数入力複数出力（ＭＩＭＯ）ソリューションではない。ＷＰＥ法は、ＭＩＭＯのために拡張され、雑音のある条件で使用するために一般化されてきた。しかしながら、そのような改良は、時変環境に適していない。時変環境のための更なる改良が提案され、その改良は、線形フィルタリング用と、ビーム形成とウィーナフィルタリング式非線形フィルタリングの最適な組み合わせ用の両方のＷＰＥを含む。しかしながら、そのような提案は、相変わらず実時間でなく、その高い複雑さのために低電力装置での使用には適さない。

一般に、従来の方法は、オンライン用途と実時間用途で使用するには複雑さと実用性に限界がある。バッチ処理と違って、産業分野の多くの実際用途では実時間又はオンライン処理が使用される。したがって、オンライン及び実時間残響除去のための改善されたシステム及び方法が必要である。

雑音のある時変環境のための重み付け予測誤差に基づいてオンライン残響除去するための実施形態を含むシステム及び方法が開示される。様々な実施形態において、多重チャネル音声信号を処理するための方法が、時間領域の多重チャネル音声信号を含む入力信号を受け取ることと、入力信号を、複数の多重チャネル周波数領域のｋ空間アンダーサンプリングサブバンド信号を含む周波数領域入力信号に変換することと、周波数領域入力信号の各チャネルをバッファし遅延させることと、スペクトルフレームのそれぞれにおける予測フィルタ推定のためにスペクトルフレームのサブセットを保存することと、スペクトルフレームのそれぞれにおける周波数領域入力信号の分散を推定することと、再帰的最小二乗（ＲＬＳ）アルゴリズムを使用して予測フィルタをオンライン方式で適応的に推定することを含む。方法は、更に、推定予測フィルタを使用して周波数領域入力信号の各チャネルを線形的にフィルタリングして線形フィルタリング出力信号を生成することと、線形フィルタリング出力信号を非線形にフィルタリングして残響及び推定分散を低減することと、非線形フィルタリング出力信号を生成することと、非線形フィルタリング出力信号を合成して残響除去時間領域の多重チャネル音声信号を再構成することを含み、出力チャネルの数は入力チャネルの数と等しい。

様々な実施形態において、方法は、クリーン音声分散を推定することと、雑音分散を推定することと、及び／又は残留音声分散を推定することを更に含む周波数領域入力信号の分散を推定することを更に含みうる。様々な実施形態において、方法は、更に、適応ＲＬＳアルゴリズムを使用して、相関行列にスパース性を課することによって周波数領域入力信号の各周波数ビンに関して各フレームにおける予測フィルタを個別に推定することを含みうる。

様々な実施形態において、入力信号は、少なくとも１つの対象信号を含み、非線形フィルタリングは、各対象信号の強化音声信号を計算して残響及び背景雑音を低減する。分散推定プロセスは、以前の推定予測フィルタに基づいて新しいクリーン音声分散を推定することと、同調パラメータを有する固定された指数関数的に減衰する重み関数を使用して新しい残響分散を推定して音声解をカスタマイズすることと、単一マイクロホン雑音分散推定法を使用して雑音分散を推定して、各チャネルの雑音分散を推定し次に平均を計算することを含みうる。方法は、また、話者が移動した場合に急変を検出して予測フィルタと相関行列をリセットできる。

様々な実施形態において、音声処理システムは、音声入力、サブバンド分解モジュール、バッファ、分散エスティメータ、予測フィルタエスティメータ、線形フィルタ、非線形フィルタ及び合成器を備える。音声入力は、時間領域の多重チャネル音声信号を受け取る働きをする。サブバンド分解モジュールは、入力信号を、複数の多重チャネル周波数領域のｋ空間アンダーサンプリングサブバンド信号を含む周波数領域入力信号に変換する働きをする。バッファは、周波数領域入力信号の各チャネルをバッファし遅延させ、スペクトルフレームのそれぞれにおける予測フィルタ推定のためにスペクトルフレームのサブセットを保存する働きをする。

様々な実施形態において、分散エスティメータは、スペクトルフレームのそれぞれにおける周波数領域入力信号の分散を推定する働きをする。分散エスティメータは、更に、クリーン音声分散、雑音分散、及び／又は残留音声分散を推定する働きをしうる。分散エスティメータは、更に、以前の推定予測フィルタに基づいて新しいクリーン音声分散を推定し、音声解をカスタマイズするために固定された指数関数的減衰重み関数を同調パラメータと共に使用して新しい残響分散を推定し、単一マイクロホン雑音分散推定法を使用して雑音分散を推定し、次に平均を計算することによって各チャネルの雑音分散を推定する働きをしうる。分散エスティメータは、更に、話者の移動による変化を検出し、予測フィルタと相関行列をリセットする働きをしうる。

１つ以上の実施形態において、予測フィルタエスティメータは、再帰的最小二乗（ＲＬＳ）アルゴリズムを使用することによって、予測フィルタを適応的にオンライン方式で推定する働きをする。予測フィルタは、適応ＲＬＳアルゴリズムを使用して、相関行列にスパース性を課することによって、周波数領域入力信号の周波数ビンごとに各フレームにおける予測フィルタを個別に推定する働きをしうる。

様々な実施形態において、線形フィルタは、推定予測フィルタを使用して周波数領域入力信号の各チャネルを線形的にフィルタリングして線形フィルタリング出力信号を生成する働きをする。非線形フィルタは、線形フィルタリング出力信号を非線形にフィルタリングして残響及び推定分散を低減して、非線形フィルタリング出力信号を生成する働きをする。一実施形態において、時間領域の多重チャネル音声信号は、少なくとも１つの対象信号を含み、非線形フィルタは、更に、各対象信号の強化音声信号を計算し、残響と背景雑音を低減する働きをする。合成器は、非線形フィルタリング出力信号を合成して残響除去された時間領域の多重チャネル音声信号を再構成する働きをし、出力チャネルの数は入力チャネルの数と等しい。

本発明の範囲は、参照により本節に組み込まれる特許請求の範囲によって定義される。本発明の実施形態のより完全な理解は、１つ以上の実施形態の以下の詳細な説明の検討によって、その追加の利点の実現と共に、当業者に与えられる。最初に概説される添付の図面について参照する。

本開示の態様及びその利点は、以下の図面及びそれに続く詳細な説明を参照してよりよく理解されうる。図面の１つ以上に示された類似要素を識別するために類似参照番号が使用され、図示されたものは、本開示の実施形態を例証するためのものであり、実施形態を限定するためのものでないことを理解されたい。図面内の構成要素は、必ずしも一律の縮尺ではなく、むしろ本開示の原理を明らかに示すために強調されている。

本開示の一実施形態による音声残響除去システムのブロック図である。本開示の一実施形態による音声残響除去を含む音声処理システムのブロック図である。本開示の一実施形態による遅延付きバッファを示す図である。本開示の一実施形態による分散を決定する流れ図である。本開示の一実施形態による音声処理システムのブロック図である。

本開示の様々な実施形態によれば、多重チャネル音声信号の残響除去のためのシステム及び方法が提供される。

一般に、従来の方法は、オンライン用途と実時間用途で使用するには複雑さと実用性に限界がある。バッチ処理と異なり、産業分野の多くの実際用途では実時間又はオンライン処理が使用されてきた。そのような用途のために、適応ＷＰＥ手法を開発する再帰的最小二乗（ＲＬＳ）法や、クリーン音声信号と時変音響系を同時に推定するマルチマイクロホンアルゴリズムを使用するカルマンフィルタ手法などのオンライン適応アルゴリズムが開発された。再帰的期待値最大化法は、クリーン音声信号と音響系の両方をオンライン方式で取得するために使用される。しかしながら、ＲＬＳ式アルゴリズムとカルマンフィルタ式アルゴリズムの両方で、この方法は、高非定常条件ではうまく動作しない。更に、カルマンアルゴリズムとＲＬＳアルゴリズムの両方の計算複雑さとメモリ使用量は、多くの応用で多すぎる。更に、安定ソリューションへの収束が早いにもかかわらず、これらのアルゴリズムは、急変による影響を受けすぎることがあり、相関行列とフィルタをその初期値にリセットするために変化検出器を必要とすることがある。

本明細書では、サブバンド領域を使用する残響除去のためのオンライン複数入力複数出力（ＭＩＭＯ）実施形態が開示される。様々な実施形態において、１組の未知数の音源とマイクロホンの間の室内インパルス応答（ＲＩＲ）をブラインドで短くするように適応された多重チャネル線形予測フィルタがオンラインで推測される。一実施形態において、高速収束のためにＲＬＳアルゴリズムが使用される。しかしながら、ＲＬＳを使用する幾つかの手法は、高い計算複雑さが特徴でありうる。様々な環境で、低い計算複雑さと低メモリ消費量が必要とされうる。本明細書に開示されたシステム及び方法の様々な実施形態において、相関行列にスパース性を課することによってメモリ使用量と計算複雑さが低減される。一実施形態において、時変環境における予測フィルタの再初期化と収束速度の改善を含む、時変環境で話者又は音源の移動を識別する新しい方法が提案される。

様々な実世界環境では、音声源が環境雑音と混合されうる。記録された音声信号は、典型的に、望ましくない雑音を含み、この雑音は、ボイスオーバーアイピー（ＶｏＩＰ）通信などの音声アプリケーションの音声了解度を低下させることがあり、また電話、ラップトップ、音声制御装置などの装置の音声認識性能を低下させうる。雑音障害の問題に取り組む１つの手法は、雑音源の空間的多様性を利用して所望の音源信号を検出又は抽出し望ましくない干渉を抑制できるマイクロホンアレイ及びビーム形成アルゴリズムを使用することである。ビーム形成は、そのような多重チャネル信号処理アルゴリズムの一種であり、所望の音源位置に高感度のビームを向けると同時に他の位置から生じる信号を抑制する空間フィルタリングを示す。

屋内環境では、信号源がマイクロホンに比較的接近しているので、雑音抑制手法が比較的有効なことがあり、これは近接音場シナリオと呼ばれうる。しかしながら、信号源とマイクロホンの距離が大きいときは雑音抑制が複雑になりうる。

図１を参照すると、人間話者などの信号源１１０が、部屋などの環境１０２内でマイクロホンアレイ１２０から離れた距離にある。マイクロホンアレイ１２０は、信号源１１０とマイクロホンアレイ１２０の間の直接経路内で受け取る所望信号１０４を収集する。マイクロホンアレイ１２０は、また、環境１０２内の雑音障害１４０と、壁、天井及び／又は他の物体からの信号反射１５０を含む、雑音源１３０から雑音を収集する。

音源定位、ビーム形成、自動音声認識（ＡＳＲ）などの多くのマイクロホンアレイ処理技術の性能は、図１に示されたような残響環境では著しく低下されうる。例えば、残響は、直接音の時間及び空間特性をぼかす可能性がある。雑音のある残響環境における音声強化は、色付けされた非定常の音声信号、時間と共に劇的に変化しうる雑音信号、及び長くかつ／又は非最小位相を有しうる音響チャネルのインパルス応答に取り組む必要がありうる。様々な用途で、インパルス応答の長さは残響時間に依存し、多くの方法は、残響時間が長いに場合に機能できない。本明細書では、残響の影響を低減すると同時に残響除去音声信号の多重チャンネル推定を生成する、雑音に頑強な多重チャネル音声残響除去のためのシステム及び方法が開示される。

残響に取り組む従来の方法は、その方法を多くの用途に適さなくする制限を有する。例えば、実時間のオンライン処理を必要とする多くの実世界の事例では、計算の複雑さがアルゴリズムを非実用的にする。そのようなアルゴリズムは、また、メモリ効率の高いアルゴリズムを必要としうる埋め込み装置に適さない高メモリ消費量を必要としうる。実環境において、残響音声信号は、通常、非定常で付加的な背景雑音で汚染されており、これが、モデル内の非定常雑音に明確に対処しない残響除去アルゴリズムの性能を大幅に低下させうる。多くの残響除去方法は、良好な性能を得るために、大量の入力データを必要とするバッチ手法を使用する。しかしながら、ＶｏＩＰや補聴器などの用途では、入出力遅延が望ましくない。

多くの従来の残響除去方法は、入力マイクロホンアレイ内のマイクロホンとしてより少数の残響除去信号を生成し、様々なマイクロホン位置における到達時間差（ＴＤＯＡ）を大事にしない。しかしながら、幾つかの用途において、音源定位アルゴリズムは、明示的又は暗黙的にマイクロホン位置におけるＴＤＯＡに基づきうる。従来の残響除去方法の他の欠点には、音源の数の知識を必要とするアルゴリズムと、早く収束せず、したがって新しい変化に応えるためにアルゴリズムが遅くなる方法がある。

本明細書に開示された実施形態は、従来のシステムの制限に対処して産業界の様々な用途に使用するための解決策を提供する。一実施形態において、アルゴリズムは、ＶＯＩＰのような用途に望ましい高速収束と無遅延を提供する。ブラインド方法は、１組の未知数の音源の間のＭＩＭＯＲＩＲを短くするために多重チャネル入力信号を使用する。サブバンド領域多重チャネル線形予測フィルタが使用され、アルゴリズムは、各周波数帯のフィルタを個別に推定する。この方法の１つの利点は、マイクロホン位置におけるＴＤＯＡ並びに音源とマイクロホンの間の線形関係を保全できることであり、これは、雑音及び干渉の定位と低減のための更なる処理が必要とされる場合に有益である。更に、アルゴリズムは、各マイクロホンの予測フィルタを個々に推定することによって、マイクロホンと同数の残響除去信号を生成できる。適応アルゴリズムを使用して予測フィルタをオンライン方式で適応的に推定するために、モデル内で付加背景雑音も検討されうる。このようにして、アルゴリズムは、雑音のパワースペクトル密度（ＰＳＤ）を適応的に推定できる。

本開示の実施形態は、従来の手法より優れた多数の利点を提供する。種々の実施形態は、待ち時間のない実時間残響除去を提供する。例えば雑音低減又は音源定位を行うために、他の多重チャネル信号処理ブロックと容易に統合されうるＭＩＭＯアルゴリズムが開示される。本明細書で開示された実施形態は、メモリ及び計算効率が高くあまりＭＩＰＳを必要としない。この解決策は、時変環境に対して頑強で収束が高速である。様々な実施形態において、雑音と残響を更に低減するために非線形フィルタリングが省略されてもよく、アルゴリズムは、線形性を必要とする幾つかの用途に不可欠なことがある線形処理を提供できる。解決策は、非定常雑音に対して頑強で、高残響状態でうまく機能できる。解決策は、単チャネルと多重チャネルの両方でよく、複数音源の事例に拡張されうる。

次に、本開示の実施形態について述べる。図１に示されたように、音声残響除去システム１００は、マイクロホンアレイ１２０からの信号を処理し、本明細書に示されたような様々な目的に役立つ出力信号（例えば、強化された音声信号）を生成できる。図２を参照すると、本開示の一実施形態による音声残響除去を含む音声処理システムが言及される。システム２００は、サブバンド分解モジュール２１０、バッファ２２０、分散推定構成要素２３０、予測フィルタ２４０、線形フィルタ２５０、非線形フィルタ２６０及び合成器２７０を含む。

マイクロホンアレイから受け取った音声信号２０２が、サブバンド分解モジュール２１０に提供され、サブバンド分解モジュール２１０が、サブバンド分析を行ってサブバンドフレーム内の時間領域信号を変換する。バッファ２２０は、全てのチャネルのサブバンド信号の最後のＬ_k個のフレームを記憶する（過去フレームの数はサブバンドに依存する）。予測フィルタ推定及び非線形フィルタリングに使用される現在のフレームの分散を推定する分散推定構成要素２３０。予測フィルタ推定構成要素２４０は、収束が高速の適応オンライン手法を使用する。線形フィルタ構成要素２５０は、ほとんどの残響を低減する。非線形フィルタ構成要素２６０は、残響と雑音を低減する。合成器２７０は、強化されたサブバンド領域信号を時間領域に変換する。

動作において、マイクロホンアレイ２０２は、複数の入力信号を受け取る。ｉ番目のチャネルの入力信号がｘ_i［ｎ］によって示されると仮定する。ここで、ｉ＝１,...,Ｍであり、Ｍは、幾つかの異なる音源Ｎ_sを検出するマイクロホンの数である。次に、入力信号は、次のようにモデル化されうる。

ｓ［ｎ］→［ｓ₁［ｎ］...ｓ_Ni［ｎ］］^T 全ての音源（クリーン音声）のベクトル
ｈ_i［ｎ］→［ｈ_i1［ｎ］...ｈ_iNi［ｎ］］ｉ番目のマイクロホンと各音源との間の室内インパルス応答（ＲＩＲ）
ｖ_ｉ［ｎ］→ｉ番目のマイクロホンの背景雑音

短時間フーリエ変換（ＳＴＦＴ）領域内の受信信号は、次のように近似的にモデル化されうる。

ここで、Ｌ_iはＳＴＦＴ領域内のＲＩＲの長さで、ｌはフレーム指数、ｋは周波数ビン指数である。ｉ番目の受信入力信号は、次のように初期反射部分（所望信号）と遅延残響部分に分離されうる。

ここで、Ｄは初期反射のタップ長である。目的は、雑音条件で第２の遅延残響項（Ｒ_i（ｌ,ｋ））と第３項（Ｖ_i（ｌ，ｋ））を低減することによって（３）の第１項（Ｙ_i（ｌ，ｋ））を抽出することである。

１つ以上の実施形態において、遅延残響部分を推定するために、ＲＩＲの遅延反射が、音源信号と共に推定される。この作業をより容易に行うために、残響除去は、以下に示すように（３）をより容易な多重チャネル自己回帰モデルに変換することによって行われる。

（４）で、推定される唯一の未知パラメータは、予測フィルタである。

（Ｗ_i（ｌ'，ｋ）＝［Ｗ_il（ｌ'，ｋ）,...,Ｗ_iM（ｌ'，ｋ）］^T，Ｍｘ１ベクトルとＸ（l－ｌ'，ｋ）＝[Ｘ_l（l－ｌ'，ｋ）,...,Ｘ_M（l－ｌ'，ｋ）]^T，Ｍｘ１ベクトル）。

１つ以上の実施形態において、予測フィルタを推定するために最尤（ＭＬ）法が使用される。一実施形態において、予測フィルタは、以下の仮定に基づく。（１）受信音声信号がガウス確率密度関数（ｐｄｆ）を有し、受け取った音声のクリーン部分が、時変分散のゼロ平均を有する。また、雑音がゼロ平均を有すると仮定され、（２）入力信号のフレームは、独立確率変数であり、（３）ＲＩＲは、無変化か又はゆっくり変化する。

上記の仮定を考慮すると、Ｔ個のフレームの入力信号のｐｄｆは、以下のように記述されうる。

ここで、μ（ｌ，ｋ）は平均であり、Σ (ｌ，ｋ) はＭｘＭ空間相関行列である。

前述したように、ＭＬ法は、予測フィルタを推定するために使用され、したがって、（５）内のｐｄｆの対数を使用するＭＬ関数は、最大化される費用関数と見なされる。

上記の仮定により、平均値は、次のように近似的に得られる。

予測フィルタをオンライン方式で実際に推定できるようにするため、更に、相関フィルタをスケール単位行列によって次のように近似できると仮定される。

ここで、分散スケールσ（ｌ，ｋ）が次のように得られる。

ここで、σ^s _j（ｌ，ｋ）、σ_reverb（ｌ，ｋ）及びσ_noise（ｌ，ｋ）はそれぞれ、ｊ番目の音源、残響変数及び雑音変数である。

単チャネルの場合の式（６）は、（８）を使用して、重み付け平均二乗誤差（ＭＳＥ）最適化問題として次のように単純化されうる。

ここでｅ（ｌ，ｋ）は誤差信号である。

１つ以上の実施形態において、予測フィルタをオンライン方式で推定するために、予測フィルタＷ₁（ｌ’，ｋ）を選択することによってＭＳＥ費用関数が最小化され、新しいデータが届いたときにフィルタが更新される。この実施形態では、予測フィルタを推定するために再帰的最小二乗（ＲＬＳ）フィルタが使用される。そのため、費用関数は、忘却因子（０＜λ≦１）を使用して次のように修正される。

１つの目的は、上記の費用関数を効率に最小化にし、雑音と残響の両方を低減することである。以下に、この目的を達成するために図２の実施形態で示された提案システムについて述べる。

図２に示されたように、入力信号２０２は、最初に、（４）に示されたように、サブバンド分解モジュール２１０によってサブバンド周波数領域に変換される。残響時間が周波数依存し、様々なマイクロホンのＲＩＲの長さがほぼ同じなので、予測フィルタのタップ数は、チャネルに依存せずに周波数に依存すると仮定される。したがって、Ｌ_iは、次のように（４）のＬ_kによって置き換えられる。

メモリ消費量を減らしシステムの性能を改善するために、高い周波数ビンほど短い長さが使用され、低い周波数ビンほど長い長さが使用される。

サブバンド分解２２０の後、各マイクロホンの入力信号が、遅延付きバッファ２３０に提供され、その実施形態は、図３に、フレームｌと周波数ビンｋに関して示される。ｋ番目の周波数ビンのバッファサイズはＬ_kである。この図から明らかなように、Ｄの遅延を有する信号の最新のＬ_k個のフレームが、このバッファにチャネルごとに維持される。

（１１）のＲＬＳフィルタ更新の最終原価関数は、分散エスティメータ２３０によって推定される分散σ（ｌ，ｋ）を有する。（９）により、分散は３つの成分を有する。

図４を参照すると、各成分を効率的に推定する方法４００が言及される。ステップ４０２で、初期反射の分散が推定される。一実施形態において、遅延残響は、入力音声から減算され、次にチャネルの全てにわたって平均される。

ここで、遅延残響に現在の予測フィルタを使用する。

ステップ４０４で、残響の分散が推定される。（１２）から、この分散は、以下の式を使用して推定されうる。

ここで、

は、未知パラメータであるｌ番目のフレームの残留遅延残響重みである。一実施形態において、残響重みは、オンライン方式で以下のように推定される。

ここで、βとｗ₀は、忘却因子（１にきわめて近い）と、残留重み初期化のための数であるεは、ゼロによる除算を回避するためにきわめて小さい数である。この手法は、様々な残響環境で良好な性能を提供するが、実施態様により幾つかの欠点を有する。最初に、分散推定の未知残響重みを推定するために方法の複雑さが増える。第２に、多くの低メモリ装置（例えば、携帯電話）には望ましくない追加メモリが必要とされうる。第３に、これは静的環境に適しており、高速時変環境では性能が低下しうる。

これらの問題を解決するために、代替手法は、以下のように指数関数的減衰関数を有する固定残響重みを使用する。

ここで、ｂとηはそれぞれ、レイリー分布パラメータと約０．０１の少数である。タップ数Ｌ_kにより、残響重みは、ガウスｐｄｆのように見えうる。実験結果から、この代替手法が、僅かに最適以下であるが、時変環境ではより低い計算複雑さとより早い収束を有することが分かった。

ステップ４０６で、効率的で実時間の単チャネル方法を使用して雑音分散σ^v（ｌ，ｋ）が推定され、雑音分散推定が、全てのチャネルにわたって平均化されて雑音分散σ^v（ｌ，ｋ）の単一値が得られる。

図２に戻って参照すると、分散推定構成要素２３０の出力が、予測フィルタ推定構成要素２４０に提供される。予測フィルタ推定構成要素２４０は、受け取ったスペクトルの対数ｐｄｆの最大化に基づき、即ち、最尤法（ＭＬ）アルゴリズムを使用して信号を処理し、ｐｄｆは、（７）～（９）で示された平均と分散を有するガウス分布である。

（７）内のμ_i（ｌ，ｋ）をベクトル形式で書き換えると次のようになる。

ここで、ｗ^l _i（ｋ）は、周波数帯ｋとｉ番目のチャネルの予測フィルタである。ここで、（１１）内の誤差は、次のように書き換えられうる。

一実施形態において、第ｌフレームのＷ_i ^l（ｋ）をオンライン方式で推定するために、予測フィルタＷ_i（ｋ）を、全ての周波数とチャネルに関してゼロ値によって初期化し、次にＬ_k＊Ｍ個のベクトルである（１１）内の費用関数の勾配を計算しなければならない。ＲＬＳアルゴリズムを使用する更新規則は、以下のように要約されうる。

初期化→ｗ_m（０，ｋ）＝０及びΦ（０，ｋ）＝γＩ_M γは正規化関数である。

ここで、Φ（ｌ，ｋ）は、（Ｌ_kＭｘＬ_kＭ）の相関行列である。

この実施形態において、ＲＬＳアルゴリズムは、早い収束速度を有し、一般に、他の適応アルゴリズムより性能が優れているが、用途により２つの欠点を有する。第１に、アルゴリズムは、未知パラメータとして予測フィルタと相関行列の両方を有する。相関行列は、複素行列であり、Ｋ個の周波数帯にはＫｘ（Ｌ_kＭｘＬ_kＭ）個の複素数を有する。これは、比較的多くのメモリ量を必要とすることがあり、したがって、ＲＬＳアルゴリズムは、低メモリを必要とする特定用途に適さないことがある。また、このアルゴリズムの計算複雑さが、そのような用途に合わないことがある。第２に、ＲＬＳアルゴリズムは、相関行列を利用することによって正確な解決策に効率的に収束できる。しかしながら、時変条件では、アルゴリズムが急変を追跡にするのにより多くの時間かかるので、これにより性能問題が生じうる。以下に、両方の問題の解決策を提供する実施形態が開示される。

一実施形態において、ＲＬＳアルゴリズムの複雑さが低減される。（１９）に示された相関行列は、以下のように書き直すこともできる。

計算上、（２０）内の相関行列の更新の主要部分は

である。相関行列がその主対角線上に実質値を有し、２チャネルの場合（Ｍ＝２）には以下に示したような対称行列を有することに注意されたい。

（２１）で、Φ（ｌ，ｋ）の最上位成分が、Ａ_{Lk x Lk}、Ｂ_{Lk x Lk}及びＣ_{Lk x Lk}の主対角線であることに注意されたい。他の成分は、ゼロに近い大きさを有する。これらの対角線を行列Ａ_{Lk x Lk}，Ｂ_{Lk x Lk}では実質値に維持し、Ｃ_{Lk x Lk}では複素値に維持することによって、ＲＬＳアルゴリズムの性能は、結果にほとんど影響を及ぼさなかった。一実施形態において、相関行列は、対角線の値を前述したように維持して他の成分をゼロにすることによって、より疎になる。例えば、２チャネル（Ｍ＝２）の場合、この方法は、以下の式から、全ての周波数のΦ（ｌ，ｋ）の数成分を減少させる。

前述したような成分のほとんどは実数値であり、これにより、行列がより粗になり乗算数が減少するので、メモリ使用量が減るだけでなく、数値的複雑さが低下する。

別の実施形態において、時変環境におけるＲＬＳアルゴリズムの性能が改善される。適応ＷＰＥ手法の開発にＲＬＳアルゴリズムを使用するオンライン適応アルゴリズムは、参照により本明細書に組み込まれる、Ｔ．Ｙｏｓｈｉｏｋａ、Ｈ．Ｔａｃｈｉｂａｎａ、Ｔ．Ｎａｋａｔａｎｉ、Ｍ．Ｍｉｙｏｓｈｉの「話者位置変化検出による音声信号の適応残響除去（Adaptive dereverberation of speech signals with speaker-position change detection）」（Proc. Int. Conf. Acoust., Speech, Signal Process. (2009), pp.3733-3736）に記載されている。この論文に示されたように、ＲＬＳアルゴリズムは、各急変後に信号を増幅する。この論文に記載された検出の性能を改善するために、チャネルごとに長さＮ_fのバイナリバッファが使用され、ゼロによって初期化される。このバッファは、現在のフレームを含む最終Ｎ_f個のフレームの二者択一を含む。このバッファを各フレームで更新するために、（１８）内のｅ_i（ｌ，ｋ）に負値を有する周波数の数が数えられる（各チャネルｉ＝１，．．．，ＭのＦ_iと呼ばれる）。Ｆ_iは、しきい値τ_lと比較される。Ｆ_i＞τ_lの場合は、バッファが１で更新され、そうでない場合はゼロに設定される。任意のチャネルのこのバッファの１の数がしきい値τ₂を越えた場合は、急変が識別される。検出が行われた後、予測フィルタとＲＬＳ法の相関行列が、前述されたようにその初期値にリセットされる。

２４０で予測フィルタが推定された後、線形フィルタ２５０によって各チャネル内の入力信号がフィルタリングされる。一実施形態において、予測フィルタは、以下のように計算される。

線形フィルタリングの後、非線形フィルタリング２６０が、次のように行われる。

ここで、σ^s _j（ｌ，ｋ）は、（９）に示されたようにｊ番目の音源の対応する分散であり、これは、Ｍ．Ｔｏｇａｍｉ、Ｙ．Ｋａｗａｇｕｃｈｉ、Ｒ．Ｔａｋｅｄａ、Ｙ．Ｏｂｕｃｈｉ及びＮ．Ｎｕｋａｇａ「Optimized speech dereverberation from probabilistic perspective for time varying acoustic transfer function（時変音響変換関数の確率的観点からの最適化音声残響除去）」（IEEE Trans. Audio, Speech, Lang. Process., vol.21, no.7, pp.1369-1380, Jul.2013）に示されたような音源分離方法を使って計算されてもよく、この論文は、参照によりその全体が本明細書に組み込まれる。

フィルタリングを適用した後、各バンドの強化音声スペクトルが、重畳加算法とその後で逆短時間高速フーリエ変換（ＩＳＴＦＴ）を適用することによって周波数領域から時間領域に変換される。

本明細書に記載された実施形態は、通常は既知の計算解を実行できないデジタル信号プロセッサ又はより小さいプラットフォームのメモリ及びＭＩＰＳ制限を有する動作のために構成される。その結果、本開示は、消費家電市場の音声制御用途や他の関連用途での使用に適した頑強な残響除去を提供する。例えば、音声コマンドを使用するスマートテレビなどの家庭電化製品の音声制御、自動車産業における音声制御用途、及びその他の潜在的用途が、本明細書に記載されたシステムによって実施されうる。本明細書で述べた実施形態を使用することによって、自動音声認識は、対象話者がマイクロホンから遠い距離にいるときに非定常干渉雑音を抑制できる高い性能を低価格装置で達成できる。

図５は、本開示の典型的な実施による音声情報を処理するための音声処理システムの図である。音声処理システム５１０は、一般に、図２のアーキテクチャに対応し、本明細書で前述された機能のいずれも共有できる。音声処理システム５１０は、ハードウェア又はハードウェアとソフトウェアの組み合わせとして実現でき、デジタル信号プロセッサ、汎用コンピュータ又は他の適切なプラットフォーム上で動作するように構成されうる。

図５に示されたように、音声処理システム５１０は、メモリ５２０とプロセッサ５４０を備える。更に、音声処理システム５１０は、サブバンド分解モジュール５２２、遅延付きバッファモジュール５２４、分散推定モジュール５２６、予測フィルタ推定モジュール５２８、線形フィルタモジュール５３０、非線形フィルタモジュール５３２及び合成モジュール５３４を含み、これらの幾つか又は全てがメモリ５２０に記憶されうる。図５には、マイクロホンアレイや他の音声入力などの音声入力５６０と、アナログデジタル変換器５５０も示される。アナログデジタル変換器５５０は、本明細書に記載されたような処理のために、音声入力を受け取りその音声信号をプロセッサ５４０に提供する働きをする。様々な実施形態では、音声処理システム５１０は、デジタルアナログ変換器５７０と、１つ以上のスピーカなどの音声出力５９０も備えうる。

幾つかの実施形態において、プロセッサ５４０は、メモリ５２０に記憶された機械可読命令（例えば、ソフトウェア、ファームウェア又は他の命令）を実行できる。これに関して、プロセッサ５４０は、本明細書で述べた様々な動作、プロセス及び技法のいずれも実行できる。他の実施形態において、プロセッサ５４０は、本明細書で述べた様々な技法の任意の所望の組み合わせを実行するために専用ハードウェア構成要素と交換されかつ／又は専用ハードウェア構成要素が補足されうる。メモリ５２０は、様々な機械可読命令及びデータを記憶する機械可読媒体として実現されうる。例えば、幾つかの実施形態において、メモリ５２０は、オペレーティングシステムと、本明細書で述べた様々な技法を実行するためにプロセッサ５４０によって読み取られ実行されうる機械可読命令としての１つ以上のアプリケーションとを記憶できる。幾つかの実施形態において、メモリ５２０は、不揮発性メモリ（例えば、フラッシュメモリ、ハードディスク、ソリッドステートドライブ又は他の非一時的機械可読媒体）、揮発性メモリ、又はその組み合わせとして実現されうる。

示された実施形態では、モジュール５２２～５３４は、プロセッサ５４０によって制御される。サブバンド分解モジュール５２２は、対象音声信号を含む複数の音声信号を受け取り、受け取った信号のそれぞれをサブバンド周波数領域に変換する働きをする。遅延付きバッファ５２４は、複数のサブバンド周波数領域信号を受け取り、複数のバッファ出力を生成する働きをする。分散推定モジュール５２６は、本明細書で述べたようなＲＬＳフィルタの費用関数の分散成分を推定する働きをする。予測フィルタ推定モジュール５２８は、本明細書で述べた実施形態により、高速収束を有する適応オンライン手法を使用する働きをする。線形フィルタモジュール５３０は、残響の一部、特に線形フィルタによって低減できる遅延残響を低減する働きをする。非線形フィルタモジュール５３２は、多重チャネル音声信号から残響と雑音を低減する働きをする。合成モジュール５３４は、強化サブバンド領域信号を時間領域に変換する働きをする。

音声処理システム５１０によって提供された解決策には幾つかの利点がある。第１に、解決策は、複数のシナリオに適応され、実施される計算処理環境の特定のハードウェア制限にカスタマイズされうる汎用フレームワークである。この解決策は、オンライン処理で実行され、同時により複雑な最新技術のオフライン解決策に匹敵する性能を提供する能力を有する。例えば、マイクロホンと音源の間の距離が大きいときに２つのマイクロホンを使用するだけで、きわめて残響の大きい音源を分離できる。幾つかの実施では、音声処理システム５１０は、個別の音声処理システム５１０に対して移動中の対象音声信号の音源を選択的に認識するように構成されうる。

以上の開示は、本発明を開示された厳密な形態又は特定の使用分野に限定するものではない。したがって、本開示に対する様々な代替実施形態及び／又は修正が、本明細書に明示されるか暗示されるかにかかわらず、本開示を鑑みて可能である。したがって、本開示の実施形態について述べたが、当業者は、本開示の範囲から逸脱することなく形態及び詳細の変更が行われうることを理解するであろう。したがって、本開示は、特許請求の範囲によってのみ限定される。

２１０サブバンド分解
２２０遅延付きバッファ
２３０分散エスティメータ
２４０予測フィルタエスティメータ
２５０線形フィルタ
２６０非線形フィルタ
２７０合成器

Claims

多重チャネル音声信号を処理する方法であって、
時間領域の多重チャネル音声信号を含む入力信号を受け取るステップと、
前記時間領域の多重チャネル音声信号の各チャネルを複数の周波数ビンと複数のフレームに分解することで、前記入力信号を、複数の多重チャネル周波数領域のサブバンド信号を含む周波数領域入力信号に変換するステップと、
前記周波数領域入力信号の各チャネルをバッファし遅延させ、前記複数のフレームのそれぞれにおけるフィルタ推定を予測するための前記フレームを保存するステップと、
前記複数のフレームのそれぞれにおける前記周波数領域入力信号の分散を推定するステップと、
再帰的最小二乗（ＲＬＳ）アルゴリズムと、推定された前記分散に少なくとも部分的に基づく費用関数と、を使用することによって、前記複数の周波数ビンのそれぞれについて予測フィルタをオンライン方式で適応的に推定するステップと、
推定された前記予測フィルタを使用して残響を減少させるように多重チャネル周波数領域の前記サブバンド信号の各チャネルを線形にフィルタリングして、線形フィルタリング出力信号を生成するステップと、
推定された前記分散を用いて前記線形フィルタリング出力信号を非線形にフィルタリングして残響を減少させ、非線形フィルタリング出力信号を生成するステップと、
前記非線形フィルタリング出力信号を合成して、残響除去時間領域の多重チャネル音声信号を再構成するステップであって、出力チャネルの数が入力チャネルの数と等しいステップとを含む方法。
前記周波数領域入力信号の前記分散を推定するステップが、更に、クリーン音声分散を推定するステップを含む、請求項１に記載の方法。
前記周波数領域入力信号の前記分散を推定するステップが、更に、雑音分散を推定するステップを含む、請求項２に記載の方法。
前記周波数領域入力信号の前記分散を推定するステップが、更に、残留音声分散を推定するステップを含む、請求項３に記載の方法。
適応的に推定するステップが、更に、適応ＲＬＳアルゴリズムを使用して、相関行列にスパース性を課することによって前記周波数領域入力信号の前記複数の周波数ビンごとに各フレームにおける前記予測フィルタを個別に推定するステップを含む、請求項１に記載の方法。
前記入力信号が、少なくとも１つの対象信号を含み、
前記非線形にフィルタリングすることが、対象信号ごとに強化音声信号を計算する、請求項１に記載の方法。
前記非線形にフィルタリングすることが、残響と背景雑音を減少させる、請求項６に記載の方法。
前記周波数領域入力信号の前記分散を推定するステップが、更に、
以前に推定された予測フィルタに基づいて新しいクリーン音声分散を推定するステップと、
同調パラメータと共に固定された指数関数的に減衰する重み関数を使用して新しい残響分散を推定して、音声解をカスタマイズするステップと、
単一マイクロホン雑音分散推定法を使用して雑音分散を推定して、各チャネルの前記雑音分散を推定し、次に平均を計算するステップとを含む、請求項１に記載の方法。
話者が急激に移動したことに応答して、話者が移動したことを検出し、前記予測フィルタと前記相関行列をリセットするステップを更に含む、請求項５に記載の方法。
音声処理システムであって、
時間領域の多重チャネル音声信号を含む入力信号を受け取る働きをする音声入力と、
前記時間領域の多重チャネル音声信号の各チャネルを複数の周波数ビンと複数のフレームに分解することで、前記入力信号を、複数の多重チャネル周波数領域のサブバンド信号を含む周波数領域入力信号に変換する働きをするサブバンド分解モジュールと、
前記周波数領域入力信号の各チャネルをバッファし遅延させ、前記フレームのそれぞれにおける予測フィルタ推定のために前記フレームを保存する働きをするバッファと、
前記フレームのそれぞれにおける前記周波数領域入力信号の分散を推定する働きをする分散エスティメータと、
推定された前記分散に少なくとも部分的に基づく費用関数を有する再帰的最小二乗（ＲＬＳ）アルゴリズムを使用することによって、前記複数の周波数ビンのそれぞれについて予測フィルタをオンライン方式で適応的に推定する働きをする予測フィルタエスティメータと、
推定された前記予測フィルタを使用して残響を減少させるように多重チャネル周波数領域の前記サブバンド信号の各チャネルを線形的にフィルタリングして、線形フィルタリング出力信号を生成する働きをする線形フィルタと、
推定された前記分散を用いて前記線形フィルタリング出力信号を非線形にフィルタリングして残響を減少させて、非線形フィルタリング出力信号を生成する働きをする非線形フィルタと、
前記非線形フィルタリング出力信号を合成して残響除去時間領域の多重チャネル音声信号を再構成する合成器であって、出力チャネルの数が入力チャネルの数と等しい合成器とを含む音声処理システム。
前記分散エスティメータが、更に、クリーン音声分散を推定する働きをする、請求項１０に記載の音声処理システム。
前記分散エスティメータが、更に、雑音分散を推定する働きをする、請求項１１に記載の音声処理システム。
前記分散エスティメータが、更に、残留スピーチ分散を推定する働きをする、請求項１２に記載の音声処理システム。
前記予測フィルタエスティメータが、更に、適応ＲＬＳアルゴリズムを使用して、相関行列にスパース性を課することによって、前記周波数領域入力信号の前記複数の周波数ビンごとに各フレームにおける前記予測フィルタを個別に推定する働きをする、請求項１０に記載の音声処理システム。
前記時間領域の多重チャネル音声信号が、少なくとも１つの対象信号を含み、
前記非線形フィルタが、更に、各対象信号の強化音声信号を計算する働きをする、請求項１０に記載の音声処理システム。
前記非線形フィルタが、残響と背景雑音を減少させる働きをする、請求項１５に記載の音声処理システム。
前記分散エスティメータが、更に、
以前に推定された予測フィルタに基づいて新しいクリーン音声分散を推定し、
固定された指数関数的減衰重み関数を同調パラメータと共に使用して新しい残響分散を推定して、音声解をカスタマイズし、
単一マイクロホン雑音分散推定法を使用して各チャネルの雑音分散を推定し、次に平均を計算して雑音分散を推定する働きをする、請求項１０に記載の音声処理システム。
前記分散エスティメータが、更に、話者の移動により変化を検出し、前記予測フィルタと前記相関行列をリセットする働きをする、請求項１４に記載の音声処理システム。
前記保存するステップが、各チャネルのサブバンドのそれぞれについて複数のフレームを保存することを更に含み、
少なくとも２つのサブバンドについて、保存されるフレームの数が異なる、請求項１に記載の方法。
少なくとも一つのサブバンドが、より高い周波数について保存されたフレームの数よりも長いバッファ長を有する、請求項１９に記載の方法。