JP7175441B2 - 雑音のある時変環境のための重み付け予測誤差に基づくオンライン残響除去アルゴリズム - Google Patents

雑音のある時変環境のための重み付け予測誤差に基づくオンライン残響除去アルゴリズム Download PDF

Info

Publication number
JP7175441B2
JP7175441B2 JP2019534198A JP2019534198A JP7175441B2 JP 7175441 B2 JP7175441 B2 JP 7175441B2 JP 2019534198 A JP2019534198 A JP 2019534198A JP 2019534198 A JP2019534198 A JP 2019534198A JP 7175441 B2 JP7175441 B2 JP 7175441B2
Authority
JP
Japan
Prior art keywords
variance
signal
channel
estimating
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019534198A
Other languages
English (en)
Other versions
JP2020503552A (ja
Inventor
サイード モサイエブプール カスカリ,
フランチェスコ ネスタ,
トラウスティ ソルムンドソン,
Original Assignee
シナプティクス インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シナプティクス インコーポレイテッド filed Critical シナプティクス インコーポレイテッド
Publication of JP2020503552A publication Critical patent/JP2020503552A/ja
Application granted granted Critical
Publication of JP7175441B2 publication Critical patent/JP7175441B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Filters That Use Time-Delay Elements (AREA)

Description

関連出願の相互参照
本出願は、2016年12月23日に出願され、参照により全体が本明細書に組み込まれた「ONLINE DEREVERBERATION ALGORITHM BASED ON WEIGHTED PREDICTION ERROR FOR NOISY TIME- VARYING ENVIRONMENTS」と題する米国仮特許出願第62/438,860号の利益と優先権を請求する。
本出願は、一般に音声処理に関し、より具体的には多重チャネル音声信号の残響除去に関する。
音声信号処理の分野で残響低減ソリューションが知られている。多くの従来の手法は、実時間用途での使用に適していない。例えば、残響低減ソリューションは、残響の影響を補償し又は室内インパルス応答(RIR)の逆フィルタを推定するために長期データバッファを必要としうる。実時間用途に適した手法は、高残響環境及び特に高非定常環境ではうまく動作しない。更に、そのようなソリューションは、大量のメモリを必要とし、多くの低電力装置では計算効率がよくない。
1つの従来のソリューションは、残響プロセスの自己回帰モデルを仮定する重み付け予測誤差(WPE)に基づき、即ち、残響マイクロホン信号の以前のサンプルから特定時間における残響成分を予測できると仮定される。欲しい信号は、モデルの予測誤差として推定されうる。音声信号の短時間相関の歪みを回避するために固定遅延が導入される。このアルゴリズムは、実時間処理に適さず、雑音のある条件では入力信号を明確にモデル化しない。また、WPE法は、高い複雑さを有し、オンライン複数入力複数出力(MIMO)ソリューションではない。WPE法は、MIMOのために拡張され、雑音のある条件で使用するために一般化されてきた。しかしながら、そのような改良は、時変環境に適していない。時変環境のための更なる改良が提案され、その改良は、線形フィルタリング用と、ビーム形成とウィーナフィルタリング式非線形フィルタリングの最適な組み合わせ用の両方のWPEを含む。しかしながら、そのような提案は、相変わらず実時間でなく、その高い複雑さのために低電力装置での使用には適さない。
一般に、従来の方法は、オンライン用途と実時間用途で使用するには複雑さと実用性に限界がある。バッチ処理と違って、産業分野の多くの実際用途では実時間又はオンライン処理が使用される。したがって、オンライン及び実時間残響除去のための改善されたシステム及び方法が必要である。
雑音のある時変環境のための重み付け予測誤差に基づいてオンライン残響除去するための実施形態を含むシステム及び方法が開示される。様々な実施形態において、多重チャネル音声信号を処理するための方法が、時間領域の多重チャネル音声信号を含む入力信号を受け取ることと、入力信号を、複数の多重チャネル周波数領域のk空間アンダーサンプリングサブバンド信号を含む周波数領域入力信号に変換することと、周波数領域入力信号の各チャネルをバッファし遅延させることと、スペクトルフレームのそれぞれにおける予測フィルタ推定のためにスペクトルフレームのサブセットを保存することと、スペクトルフレームのそれぞれにおける周波数領域入力信号の分散を推定することと、再帰的最小二乗(RLS)アルゴリズムを使用して予測フィルタをオンライン方式で適応的に推定することを含む。方法は、更に、推定予測フィルタを使用して周波数領域入力信号の各チャネルを線形的にフィルタリングして線形フィルタリング出力信号を生成することと、線形フィルタリング出力信号を非線形にフィルタリングして残響及び推定分散を低減することと、非線形フィルタリング出力信号を生成することと、非線形フィルタリング出力信号を合成して残響除去時間領域の多重チャネル音声信号を再構成することを含み、出力チャネルの数は入力チャネルの数と等しい。
様々な実施形態において、方法は、クリーン音声分散を推定することと、雑音分散を推定することと、及び/又は残留音声分散を推定することを更に含む周波数領域入力信号の分散を推定することを更に含みうる。様々な実施形態において、方法は、更に、適応RLSアルゴリズムを使用して、相関行列にスパース性を課することによって周波数領域入力信号の各周波数ビンに関して各フレームにおける予測フィルタを個別に推定することを含みうる。
様々な実施形態において、入力信号は、少なくとも1つの対象信号を含み、非線形フィルタリングは、各対象信号の強化音声信号を計算して残響及び背景雑音を低減する。分散推定プロセスは、以前の推定予測フィルタに基づいて新しいクリーン音声分散を推定することと、同調パラメータを有する固定された指数関数的に減衰する重み関数を使用して新しい残響分散を推定して音声解をカスタマイズすることと、単一マイクロホン雑音分散推定法を使用して雑音分散を推定して、各チャネルの雑音分散を推定し次に平均を計算することを含みうる。方法は、また、話者が移動した場合に急変を検出して予測フィルタと相関行列をリセットできる。
様々な実施形態において、音声処理システムは、音声入力、サブバンド分解モジュール、バッファ、分散エスティメータ、予測フィルタエスティメータ、線形フィルタ、非線形フィルタ及び合成器を備える。音声入力は、時間領域の多重チャネル音声信号を受け取る働きをする。サブバンド分解モジュールは、入力信号を、複数の多重チャネル周波数領域のk空間アンダーサンプリングサブバンド信号を含む周波数領域入力信号に変換する働きをする。バッファは、周波数領域入力信号の各チャネルをバッファし遅延させ、スペクトルフレームのそれぞれにおける予測フィルタ推定のためにスペクトルフレームのサブセットを保存する働きをする。
様々な実施形態において、分散エスティメータは、スペクトルフレームのそれぞれにおける周波数領域入力信号の分散を推定する働きをする。分散エスティメータは、更に、クリーン音声分散、雑音分散、及び/又は残留音声分散を推定する働きをしうる。分散エスティメータは、更に、以前の推定予測フィルタに基づいて新しいクリーン音声分散を推定し、音声解をカスタマイズするために固定された指数関数的減衰重み関数を同調パラメータと共に使用して新しい残響分散を推定し、単一マイクロホン雑音分散推定法を使用して雑音分散を推定し、次に平均を計算することによって各チャネルの雑音分散を推定する働きをしうる。分散エスティメータは、更に、話者の移動による変化を検出し、予測フィルタと相関行列をリセットする働きをしうる。
1つ以上の実施形態において、予測フィルタエスティメータは、再帰的最小二乗(RLS)アルゴリズムを使用することによって、予測フィルタを適応的にオンライン方式で推定する働きをする。予測フィルタは、適応RLSアルゴリズムを使用して、相関行列にスパース性を課することによって、周波数領域入力信号の周波数ビンごとに各フレームにおける予測フィルタを個別に推定する働きをしうる。
様々な実施形態において、線形フィルタは、推定予測フィルタを使用して周波数領域入力信号の各チャネルを線形的にフィルタリングして線形フィルタリング出力信号を生成する働きをする。非線形フィルタは、線形フィルタリング出力信号を非線形にフィルタリングして残響及び推定分散を低減して、非線形フィルタリング出力信号を生成する働きをする。一実施形態において、時間領域の多重チャネル音声信号は、少なくとも1つの対象信号を含み、非線形フィルタは、更に、各対象信号の強化音声信号を計算し、残響と背景雑音を低減する働きをする。合成器は、非線形フィルタリング出力信号を合成して残響除去された時間領域の多重チャネル音声信号を再構成する働きをし、出力チャネルの数は入力チャネルの数と等しい。
本発明の範囲は、参照により本節に組み込まれる特許請求の範囲によって定義される。本発明の実施形態のより完全な理解は、1つ以上の実施形態の以下の詳細な説明の検討によって、その追加の利点の実現と共に、当業者に与えられる。最初に概説される添付の図面について参照する。
本開示の態様及びその利点は、以下の図面及びそれに続く詳細な説明を参照してよりよく理解されうる。図面の1つ以上に示された類似要素を識別するために類似参照番号が使用され、図示されたものは、本開示の実施形態を例証するためのものであり、実施形態を限定するためのものでないことを理解されたい。図面内の構成要素は、必ずしも一律の縮尺ではなく、むしろ本開示の原理を明らかに示すために強調されている。
本開示の一実施形態による音声残響除去システムのブロック図である。 本開示の一実施形態による音声残響除去を含む音声処理システムのブロック図である。 本開示の一実施形態による遅延付きバッファを示す図である。 本開示の一実施形態による分散を決定する流れ図である。 本開示の一実施形態による音声処理システムのブロック図である。
本開示の様々な実施形態によれば、多重チャネル音声信号の残響除去のためのシステム及び方法が提供される。
一般に、従来の方法は、オンライン用途と実時間用途で使用するには複雑さと実用性に限界がある。バッチ処理と異なり、産業分野の多くの実際用途では実時間又はオンライン処理が使用されてきた。そのような用途のために、適応WPE手法を開発する再帰的最小二乗(RLS)法や、クリーン音声信号と時変音響系を同時に推定するマルチマイクロホンアルゴリズムを使用するカルマンフィルタ手法などのオンライン適応アルゴリズムが開発された。再帰的期待値最大化法は、クリーン音声信号と音響系の両方をオンライン方式で取得するために使用される。しかしながら、RLS式アルゴリズムとカルマンフィルタ式アルゴリズムの両方で、この方法は、高非定常条件ではうまく動作しない。更に、カルマンアルゴリズムとRLSアルゴリズムの両方の計算複雑さとメモリ使用量は、多くの応用で多すぎる。更に、安定ソリューションへの収束が早いにもかかわらず、これらのアルゴリズムは、急変による影響を受けすぎることがあり、相関行列とフィルタをその初期値にリセットするために変化検出器を必要とすることがある。
本明細書では、サブバンド領域を使用する残響除去のためのオンライン複数入力複数出力(MIMO)実施形態が開示される。様々な実施形態において、1組の未知数の音源とマイクロホンの間の室内インパルス応答(RIR)をブラインドで短くするように適応された多重チャネル線形予測フィルタがオンラインで推測される。一実施形態において、高速収束のためにRLSアルゴリズムが使用される。しかしながら、RLSを使用する幾つかの手法は、高い計算複雑さが特徴でありうる。様々な環境で、低い計算複雑さと低メモリ消費量が必要とされうる。本明細書に開示されたシステム及び方法の様々な実施形態において、相関行列にスパース性を課することによってメモリ使用量と計算複雑さが低減される。一実施形態において、時変環境における予測フィルタの再初期化と収束速度の改善を含む、時変環境で話者又は音源の移動を識別する新しい方法が提案される。
様々な実世界環境では、音声源が環境雑音と混合されうる。記録された音声信号は、典型的に、望ましくない雑音を含み、この雑音は、ボイスオーバーアイピー(VoIP)通信などの音声アプリケーションの音声了解度を低下させることがあり、また電話、ラップトップ、音声制御装置などの装置の音声認識性能を低下させうる。雑音障害の問題に取り組む1つの手法は、雑音源の空間的多様性を利用して所望の音源信号を検出又は抽出し望ましくない干渉を抑制できるマイクロホンアレイ及びビーム形成アルゴリズムを使用することである。ビーム形成は、そのような多重チャネル信号処理アルゴリズムの一種であり、所望の音源位置に高感度のビームを向けると同時に他の位置から生じる信号を抑制する空間フィルタリングを示す。
屋内環境では、信号源がマイクロホンに比較的接近しているので、雑音抑制手法が比較的有効なことがあり、これは近接音場シナリオと呼ばれうる。しかしながら、信号源とマイクロホンの距離が大きいときは雑音抑制が複雑になりうる。
図1を参照すると、人間話者などの信号源110が、部屋などの環境102内でマイクロホンアレイ120から離れた距離にある。マイクロホンアレイ120は、信号源110とマイクロホンアレイ120の間の直接経路内で受け取る所望信号104を収集する。マイクロホンアレイ120は、また、環境102内の雑音障害140と、壁、天井及び/又は他の物体からの信号反射150を含む、雑音源130から雑音を収集する。
音源定位、ビーム形成、自動音声認識(ASR)などの多くのマイクロホンアレイ処理技術の性能は、図1に示されたような残響環境では著しく低下されうる。例えば、残響は、直接音の時間及び空間特性をぼかす可能性がある。雑音のある残響環境における音声強化は、色付けされた非定常の音声信号、時間と共に劇的に変化しうる雑音信号、及び長くかつ/又は非最小位相を有しうる音響チャネルのインパルス応答に取り組む必要がありうる。様々な用途で、インパルス応答の長さは残響時間に依存し、多くの方法は、残響時間が長いに場合に機能できない。本明細書では、残響の影響を低減すると同時に残響除去音声信号の多重チャンネル推定を生成する、雑音に頑強な多重チャネル音声残響除去のためのシステム及び方法が開示される。
残響に取り組む従来の方法は、その方法を多くの用途に適さなくする制限を有する。例えば、実時間のオンライン処理を必要とする多くの実世界の事例では、計算の複雑さがアルゴリズムを非実用的にする。そのようなアルゴリズムは、また、メモリ効率の高いアルゴリズムを必要としうる埋め込み装置に適さない高メモリ消費量を必要としうる。実環境において、残響音声信号は、通常、非定常で付加的な背景雑音で汚染されており、これが、モデル内の非定常雑音に明確に対処しない残響除去アルゴリズムの性能を大幅に低下させうる。多くの残響除去方法は、良好な性能を得るために、大量の入力データを必要とするバッチ手法を使用する。しかしながら、VoIPや補聴器などの用途では、入出力遅延が望ましくない。
多くの従来の残響除去方法は、入力マイクロホンアレイ内のマイクロホンとしてより少数の残響除去信号を生成し、様々なマイクロホン位置における到達時間差(TDOA)を大事にしない。しかしながら、幾つかの用途において、音源定位アルゴリズムは、明示的又は暗黙的にマイクロホン位置におけるTDOAに基づきうる。従来の残響除去方法の他の欠点には、音源の数の知識を必要とするアルゴリズムと、早く収束せず、したがって新しい変化に応えるためにアルゴリズムが遅くなる方法がある。
本明細書に開示された実施形態は、従来のシステムの制限に対処して産業界の様々な用途に使用するための解決策を提供する。一実施形態において、アルゴリズムは、VOIPのような用途に望ましい高速収束と無遅延を提供する。ブラインド方法は、1組の未知数の音源の間のMIMO RIRを短くするために多重チャネル入力信号を使用する。サブバンド領域多重チャネル線形予測フィルタが使用され、アルゴリズムは、各周波数帯のフィルタを個別に推定する。この方法の1つの利点は、マイクロホン位置におけるTDOA並びに音源とマイクロホンの間の線形関係を保全できることであり、これは、雑音及び干渉の定位と低減のための更なる処理が必要とされる場合に有益である。更に、アルゴリズムは、各マイクロホンの予測フィルタを個々に推定することによって、マイクロホンと同数の残響除去信号を生成できる。適応アルゴリズムを使用して予測フィルタをオンライン方式で適応的に推定するために、モデル内で付加背景雑音も検討されうる。このようにして、アルゴリズムは、雑音のパワースペクトル密度(PSD)を適応的に推定できる。
本開示の実施形態は、従来の手法より優れた多数の利点を提供する。種々の実施形態は、待ち時間のない実時間残響除去を提供する。例えば雑音低減又は音源定位を行うために、他の多重チャネル信号処理ブロックと容易に統合されうるMIMOアルゴリズムが開示される。本明細書で開示された実施形態は、メモリ及び計算効率が高くあまりMIPSを必要としない。この解決策は、時変環境に対して頑強で収束が高速である。様々な実施形態において、雑音と残響を更に低減するために非線形フィルタリングが省略されてもよく、アルゴリズムは、線形性を必要とする幾つかの用途に不可欠なことがある線形処理を提供できる。解決策は、非定常雑音に対して頑強で、高残響状態でうまく機能できる。解決策は、単チャネルと多重チャネルの両方でよく、複数音源の事例に拡張されうる。
次に、本開示の実施形態について述べる。図1に示されたように、音声残響除去システム100は、マイクロホンアレイ120からの信号を処理し、本明細書に示されたような様々な目的に役立つ出力信号(例えば、強化された音声信号)を生成できる。図2を参照すると、本開示の一実施形態による音声残響除去を含む音声処理システムが言及される。システム200は、サブバンド分解モジュール210、バッファ220、分散推定構成要素230、予測フィルタ240、線形フィルタ250、非線形フィルタ260及び合成器270を含む。
マイクロホンアレイから受け取った音声信号202が、サブバンド分解モジュール210に提供され、サブバンド分解モジュール210が、サブバンド分析を行ってサブバンドフレーム内の時間領域信号を変換する。バッファ220は、全てのチャネルのサブバンド信号の最後のLk個のフレームを記憶する(過去フレームの数はサブバンドに依存する)。予測フィルタ推定及び非線形フィルタリングに使用される現在のフレームの分散を推定する分散推定構成要素230。予測フィルタ推定構成要素240は、収束が高速の適応オンライン手法を使用する。線形フィルタ構成要素250は、ほとんどの残響を低減する。非線形フィルタ構成要素260は、残響と雑音を低減する。合成器270は、強化されたサブバンド領域信号を時間領域に変換する。
動作において、マイクロホンアレイ202は、複数の入力信号を受け取る。i番目のチャネルの入力信号がxi[n]によって示されると仮定する。ここで、i=1,...,Mであり、Mは、幾つかの異なる音源Nsを検出するマイクロホンの数である。次に、入力信号は、次のようにモデル化されうる。
Figure 0007175441000001
s[n]→[s1[n]...sNi[n]]T 全ての音源(クリーン音声)のベクトル
i[n]→[hi1[n]...hiNi[n]] i番目のマイクロホンと各音源との間の室内インパルス応答(RIR)
[n]→i番目のマイクロホンの背景雑音
短時間フーリエ変換(STFT)領域内の受信信号は、次のように近似的にモデル化されうる。
Figure 0007175441000002
ここで、LiはSTFT領域内のRIRの長さで、lはフレーム指数、kは周波数ビン指数である。i番目の受信入力信号は、次のように初期反射部分(所望信号)と遅延残響部分に分離されうる。
Figure 0007175441000003
ここで、Dは初期反射のタップ長である。目的は、雑音条件で第2の遅延残響項(Ri(l,k))と第3項(Vi(l,k))を低減することによって(3)の第1項(Yi(l,k))を抽出することである。
1つ以上の実施形態において、遅延残響部分を推定するために、RIRの遅延反射が、音源信号と共に推定される。この作業をより容易に行うために、残響除去は、以下に示すように(3)をより容易な多重チャネル自己回帰モデルに変換することによって行われる。
Figure 0007175441000004
(4)で、推定される唯一の未知パラメータは、予測フィルタである。
(Wi(l',k)=[Wil(l',k),...,WiM(l',k)]T,Mx1ベクトルとX(l-l',k)=[Xl(l-l',k),...,XM(l-l',k)]T,Mx1ベクトル)。
1つ以上の実施形態において、予測フィルタを推定するために最尤(ML)法が使用される。一実施形態において、予測フィルタは、以下の仮定に基づく。(1)受信音声信号がガウス確率密度関数(pdf)を有し、受け取った音声のクリーン部分が、時変分散のゼロ平均を有する。また、雑音がゼロ平均を有すると仮定され、(2)入力信号のフレームは、独立確率変数であり、(3)RIRは、無変化か又はゆっくり変化する。
上記の仮定を考慮すると、T個のフレームの入力信号のpdfは、以下のように記述されうる。
Figure 0007175441000005
ここで、μ(l,k)は平均であり、Σ (l,k) はMxM空間相関行列である。
前述したように、ML法は、予測フィルタを推定するために使用され、したがって、(5)内のpdfの対数を使用するML関数は、最大化される費用関数と見なされる。
Figure 0007175441000006
上記の仮定により、平均値は、次のように近似的に得られる。
Figure 0007175441000007
予測フィルタをオンライン方式で実際に推定できるようにするため、更に、相関フィルタをスケール単位行列によって次のように近似できると仮定される。
Figure 0007175441000008
ここで、分散スケールσ(l,k)が次のように得られる。
Figure 0007175441000009
ここで、σs j(l,k)、σreverb(l,k)及びσnoise(l,k)はそれぞれ、j番目の音源、残響変数及び雑音変数である。
単チャネルの場合の式(6)は、(8)を使用して、重み付け平均二乗誤差(MSE)最適化問題として次のように単純化されうる。
Figure 0007175441000010
ここでe(l,k)は誤差信号である。
1つ以上の実施形態において、予測フィルタをオンライン方式で推定するために、予測フィルタW1(l’,k)を選択することによってMSE費用関数が最小化され、新しいデータが届いたときにフィルタが更新される。この実施形態では、予測フィルタを推定するために再帰的最小二乗(RLS)フィルタが使用される。そのため、費用関数は、忘却因子(0<λ≦1)を使用して次のように修正される。
Figure 0007175441000011
1つの目的は、上記の費用関数を効率に最小化にし、雑音と残響の両方を低減することである。以下に、この目的を達成するために図2の実施形態で示された提案システムについて述べる。
図2に示されたように、入力信号202は、最初に、(4)に示されたように、サブバンド分解モジュール210によってサブバンド周波数領域に変換される。残響時間が周波数依存し、様々なマイクロホンのRIRの長さがほぼ同じなので、予測フィルタのタップ数は、チャネルに依存せずに周波数に依存すると仮定される。したがって、Liは、次のように(4)のLkによって置き換えられる。
Figure 0007175441000012
メモリ消費量を減らしシステムの性能を改善するために、高い周波数ビンほど短い長さが使用され、低い周波数ビンほど長い長さが使用される。
サブバンド分解220の後、各マイクロホンの入力信号が、遅延付きバッファ230に提供され、その実施形態は、図3に、フレームlと周波数ビンkに関して示される。k番目の周波数ビンのバッファサイズはLkである。この図から明らかなように、Dの遅延を有する信号の最新のLk個のフレームが、このバッファにチャネルごとに維持される。
(11)のRLSフィルタ更新の最終原価関数は、分散エスティメータ230によって推定される分散σ(l,k)を有する。(9)により、分散は3つの成分を有する。
図4を参照すると、各成分を効率的に推定する方法400が言及される。ステップ402で、初期反射の分散が推定される。一実施形態において、遅延残響は、入力音声から減算され、次にチャネルの全てにわたって平均される。
Figure 0007175441000013
ここで、遅延残響に現在の予測フィルタを使用する。
ステップ404で、残響の分散が推定される。(12)から、この分散は、以下の式を使用して推定されうる。
Figure 0007175441000014
ここで、
Figure 0007175441000015
は、未知パラメータであるl番目のフレームの残留遅延残響重みである。一実施形態において、残響重みは、オンライン方式で以下のように推定される。
Figure 0007175441000016
ここで、βとw0は、忘却因子(1にきわめて近い)と、残留重み初期化のための数であるεは、ゼロによる除算を回避するためにきわめて小さい数である。この手法は、様々な残響環境で良好な性能を提供するが、実施態様により幾つかの欠点を有する。最初に、分散推定の未知残響重みを推定するために方法の複雑さが増える。第2に、多くの低メモリ装置(例えば、携帯電話)には望ましくない追加メモリが必要とされうる。第3に、これは静的環境に適しており、高速時変環境では性能が低下しうる。
これらの問題を解決するために、代替手法は、以下のように指数関数的減衰関数を有する固定残響重みを使用する。
Figure 0007175441000017
ここで、bとηはそれぞれ、レイリー分布パラメータと約0.01の少数である。タップ数Lkにより、残響重みは、ガウスpdfのように見えうる。実験結果から、この代替手法が、僅かに最適以下であるが、時変環境ではより低い計算複雑さとより早い収束を有することが分かった。
ステップ406で、効率的で実時間の単チャネル方法を使用して雑音分散σv(l,k)が推定され、雑音分散推定が、全てのチャネルにわたって平均化されて雑音分散σv(l,k)の単一値が得られる。
図2に戻って参照すると、分散推定構成要素230の出力が、予測フィルタ推定構成要素240に提供される。予測フィルタ推定構成要素240は、受け取ったスペクトルの対数pdfの最大化に基づき、即ち、最尤法(ML)アルゴリズムを使用して信号を処理し、pdfは、(7)~(9)で示された平均と分散を有するガウス分布である。
(7)内のμi(l,k)をベクトル形式で書き換えると次のようになる。
Figure 0007175441000018
ここで、wl i(k)は、周波数帯kとi番目のチャネルの予測フィルタである。ここで、(11)内の誤差は、次のように書き換えられうる。
Figure 0007175441000019
一実施形態において、第lフレームのWi l(k)をオンライン方式で推定するために、予測フィルタWi(k)を、全ての周波数とチャネルに関してゼロ値によって初期化し、次にLk*M個のベクトルである(11)内の費用関数の勾配を計算しなければならない。RLSアルゴリズムを使用する更新規則は、以下のように要約されうる。
初期化→wm(0,k)=0及びΦ(0,k)=γIM γは正規化関数である。
Figure 0007175441000020
ここで、Φ(l,k)は、(LkMxLkM)の相関行列である。
この実施形態において、RLSアルゴリズムは、早い収束速度を有し、一般に、他の適応アルゴリズムより性能が優れているが、用途により2つの欠点を有する。第1に、アルゴリズムは、未知パラメータとして予測フィルタと相関行列の両方を有する。相関行列は、複素行列であり、K個の周波数帯にはKx(LkMxLkM)個の複素数を有する。これは、比較的多くのメモリ量を必要とすることがあり、したがって、RLSアルゴリズムは、低メモリを必要とする特定用途に適さないことがある。また、このアルゴリズムの計算複雑さが、そのような用途に合わないことがある。第2に、RLSアルゴリズムは、相関行列を利用することによって正確な解決策に効率的に収束できる。しかしながら、時変条件では、アルゴリズムが急変を追跡にするのにより多くの時間かかるので、これにより性能問題が生じうる。以下に、両方の問題の解決策を提供する実施形態が開示される。
一実施形態において、RLSアルゴリズムの複雑さが低減される。(19)に示された相関行列は、以下のように書き直すこともできる。
Figure 0007175441000021
計算上、(20)内の相関行列の更新の主要部分は
Figure 0007175441000022
である。相関行列がその主対角線上に実質値を有し、2チャネルの場合(M=2)には以下に示したような対称行列を有することに注意されたい。
Figure 0007175441000023
(21)で、Φ(l,k)の最上位成分が、ALk x Lk、BLk x Lk及びCLk x Lkの主対角線であることに注意されたい。他の成分は、ゼロに近い大きさを有する。これらの対角線を行列ALk x Lk,BLk x Lkでは実質値に維持し、CLk x Lkでは複素値に維持することによって、RLSアルゴリズムの性能は、結果にほとんど影響を及ぼさなかった。一実施形態において、相関行列は、対角線の値を前述したように維持して他の成分をゼロにすることによって、より疎になる。例えば、2チャネル(M=2)の場合、この方法は、以下の式から、全ての周波数のΦ(l,k)の数成分を減少させる。
Figure 0007175441000024
前述したような成分のほとんどは実数値であり、これにより、行列がより粗になり乗算数が減少するので、メモリ使用量が減るだけでなく、数値的複雑さが低下する。
別の実施形態において、時変環境におけるRLSアルゴリズムの性能が改善される。適応WPE手法の開発にRLSアルゴリズムを使用するオンライン適応アルゴリズムは、参照により本明細書に組み込まれる、T.Yoshioka、H.Tachibana、T.Nakatani、M.Miyoshiの「話者位置変化検出による音声信号の適応残響除去(Adaptive dereverberation of speech signals with speaker-position change detection)」(Proc. Int. Conf. Acoust., Speech, Signal Process. (2009), pp.3733-3736)に記載されている。この論文に示されたように、RLSアルゴリズムは、各急変後に信号を増幅する。この論文に記載された検出の性能を改善するために、チャネルごとに長さNfのバイナリバッファが使用され、ゼロによって初期化される。このバッファは、現在のフレームを含む最終Nf個のフレームの二者択一を含む。このバッファを各フレームで更新するために、(18)内のei(l,k)に負値を有する周波数の数が数えられる(各チャネルi=1,...,MのFiと呼ばれる)。Fiは、しきい値τlと比較される。Fi>τlの場合は、バッファが1で更新され、そうでない場合はゼロに設定される。任意のチャネルのこのバッファの1の数がしきい値τ2を越えた場合は、急変が識別される。検出が行われた後、予測フィルタとRLS法の相関行列が、前述されたようにその初期値にリセットされる。
240で予測フィルタが推定された後、線形フィルタ250によって各チャネル内の入力信号がフィルタリングされる。一実施形態において、予測フィルタは、以下のように計算される。
Figure 0007175441000025
線形フィルタリングの後、非線形フィルタリング260が、次のように行われる。
Figure 0007175441000026
ここで、σs j(l,k)は、(9)に示されたようにj番目の音源の対応する分散であり、これは、M.Togami、Y.Kawaguchi、R.Takeda、Y.Obuchi及びN.Nukaga「Optimized speech dereverberation from probabilistic perspective for time varying acoustic transfer function(時変音響変換関数の確率的観点からの最適化音声残響除去)」(IEEE Trans. Audio, Speech, Lang. Process., vol.21, no.7, pp.1369-1380, Jul.2013)に示されたような音源分離方法を使って計算されてもよく、この論文は、参照によりその全体が本明細書に組み込まれる。
フィルタリングを適用した後、各バンドの強化音声スペクトルが、重畳加算法とその後で逆短時間高速フーリエ変換(ISTFT)を適用することによって周波数領域から時間領域に変換される。
本明細書に記載された実施形態は、通常は既知の計算解を実行できないデジタル信号プロセッサ又はより小さいプラットフォームのメモリ及びMIPS制限を有する動作のために構成される。その結果、本開示は、消費家電市場の音声制御用途や他の関連用途での使用に適した頑強な残響除去を提供する。例えば、音声コマンドを使用するスマートテレビなどの家庭電化製品の音声制御、自動車産業における音声制御用途、及びその他の潜在的用途が、本明細書に記載されたシステムによって実施されうる。本明細書で述べた実施形態を使用することによって、自動音声認識は、対象話者がマイクロホンから遠い距離にいるときに非定常干渉雑音を抑制できる高い性能を低価格装置で達成できる。
図5は、本開示の典型的な実施による音声情報を処理するための音声処理システムの図である。音声処理システム510は、一般に、図2のアーキテクチャに対応し、本明細書で前述された機能のいずれも共有できる。音声処理システム510は、ハードウェア又はハードウェアとソフトウェアの組み合わせとして実現でき、デジタル信号プロセッサ、汎用コンピュータ又は他の適切なプラットフォーム上で動作するように構成されうる。
図5に示されたように、音声処理システム510は、メモリ520とプロセッサ540を備える。更に、音声処理システム510は、サブバンド分解モジュール522、遅延付きバッファモジュール524、分散推定モジュール526、予測フィルタ推定モジュール528、線形フィルタモジュール530、非線形フィルタモジュール532及び合成モジュール534を含み、これらの幾つか又は全てがメモリ520に記憶されうる。図5には、マイクロホンアレイや他の音声入力などの音声入力560と、アナログデジタル変換器550も示される。アナログデジタル変換器550は、本明細書に記載されたような処理のために、音声入力を受け取りその音声信号をプロセッサ540に提供する働きをする。様々な実施形態では、音声処理システム510は、デジタルアナログ変換器570と、1つ以上のスピーカなどの音声出力590も備えうる。
幾つかの実施形態において、プロセッサ540は、メモリ520に記憶された機械可読命令(例えば、ソフトウェア、ファームウェア又は他の命令)を実行できる。これに関して、プロセッサ540は、本明細書で述べた様々な動作、プロセス及び技法のいずれも実行できる。他の実施形態において、プロセッサ540は、本明細書で述べた様々な技法の任意の所望の組み合わせを実行するために専用ハードウェア構成要素と交換されかつ/又は専用ハードウェア構成要素が補足されうる。メモリ520は、様々な機械可読命令及びデータを記憶する機械可読媒体として実現されうる。例えば、幾つかの実施形態において、メモリ520は、オペレーティングシステムと、本明細書で述べた様々な技法を実行するためにプロセッサ540によって読み取られ実行されうる機械可読命令としての1つ以上のアプリケーションとを記憶できる。幾つかの実施形態において、メモリ520は、不揮発性メモリ(例えば、フラッシュメモリ、ハードディスク、ソリッドステートドライブ又は他の非一時的機械可読媒体)、揮発性メモリ、又はその組み合わせとして実現されうる。
示された実施形態では、モジュール522~534は、プロセッサ540によって制御される。サブバンド分解モジュール522は、対象音声信号を含む複数の音声信号を受け取り、受け取った信号のそれぞれをサブバンド周波数領域に変換する働きをする。遅延付きバッファ524は、複数のサブバンド周波数領域信号を受け取り、複数のバッファ出力を生成する働きをする。分散推定モジュール526は、本明細書で述べたようなRLSフィルタの費用関数の分散成分を推定する働きをする。予測フィルタ推定モジュール528は、本明細書で述べた実施形態により、高速収束を有する適応オンライン手法を使用する働きをする。線形フィルタモジュール530は、残響の一部、特に線形フィルタによって低減できる遅延残響を低減する働きをする。非線形フィルタモジュール532は、多重チャネル音声信号から残響と雑音を低減する働きをする。合成モジュール534は、強化サブバンド領域信号を時間領域に変換する働きをする。
音声処理システム510によって提供された解決策には幾つかの利点がある。第1に、解決策は、複数のシナリオに適応され、実施される計算処理環境の特定のハードウェア制限にカスタマイズされうる汎用フレームワークである。この解決策は、オンライン処理で実行され、同時により複雑な最新技術のオフライン解決策に匹敵する性能を提供する能力を有する。例えば、マイクロホンと音源の間の距離が大きいときに2つのマイクロホンを使用するだけで、きわめて残響の大きい音源を分離できる。幾つかの実施では、音声処理システム510は、個別の音声処理システム510に対して移動中の対象音声信号の音源を選択的に認識するように構成されうる。
以上の開示は、本発明を開示された厳密な形態又は特定の使用分野に限定するものではない。したがって、本開示に対する様々な代替実施形態及び/又は修正が、本明細書に明示されるか暗示されるかにかかわらず、本開示を鑑みて可能である。したがって、本開示の実施形態について述べたが、当業者は、本開示の範囲から逸脱することなく形態及び詳細の変更が行われうることを理解するであろう。したがって、本開示は、特許請求の範囲によってのみ限定される。
210 サブバンド分解
220 遅延付きバッファ
230 分散エスティメータ
240 予測フィルタエスティメータ
250 線形フィルタ
260 非線形フィルタ
270 合成器

Claims (20)

  1. 多重チャネル音声信号を処理する方法であって、
    時間領域の多重チャネル音声信号を含む入力信号を受け取るステップと、
    前記時間領域の多重チャネル音声信号の各チャネルを複数の周波数ビンと複数のフレームに分解することで、 前記入力信号を、複数の多重チャネル周波数領域のサブバンド信号を含む周波数領域入力信号に変換するステップと、
    前記周波数領域入力信号の各チャネルをバッファし遅延させ、前記複数のフレームのそれぞれにおけるフィルタ推定を予測するための前記フレームを保存するステップと、
    前記複数のフレームのそれぞれにおける前記周波数領域入力信号の分散を推定するステップと、
    再帰的最小二乗(RLS)アルゴリズムと、推定された前記分散に少なくとも部分的に基づく費用関数と、を使用することによって、前記複数の周波数ビンのそれぞれについて予測フィルタをオンライン方式で適応的に推定するステップと、
    推定された前記予測フィルタを使用して残響を減少させるように多重チャネル周波数領域の前記サブバンド信号の各チャネルを線形にフィルタリングして、線形フィルタリング出力信号を生成するステップと、
    推定された前記分散を用いて 前記線形フィルタリング出力信号を非線形にフィルタリングして残響を減少させ、非線形フィルタリング出力信号を生成するステップと、
    前記非線形フィルタリング出力信号を合成して、残響除去時間領域の多重チャネル音声信号を再構成するステップであって、出力チャネルの数が入力チャネルの数と等しいステップとを含む方法。
  2. 前記周波数領域入力信号の前記分散を推定するステップが、更に、クリーン音声分散を推定するステップを含む、請求項1に記載の方法。
  3. 前記周波数領域入力信号の前記分散を推定するステップが、更に、雑音分散を推定するステップを含む、請求項2に記載の方法。
  4. 前記周波数領域入力信号の前記分散を推定するステップが、更に、残留音声分散を推定するステップを含む、請求項3に記載の方法。
  5. 適応的に推定するステップが、更に、適応RLSアルゴリズムを使用して、相関行列にスパース性を課することによって前記周波数領域入力信号の前記複数の周波数ビンごとに各フレームおける前記予測フィルタを個別に推定するステップを含む、請求項1に記載の方法。
  6. 前記入力信号が、少なくとも1つの対象信号を含み、
    前記非線形フィルタリングすることが、対象信号ごとに強化音声信号を計算する、請求項1に記載の方法。
  7. 前記非線形フィルタリングすることが、残響と背景雑音を減少させる、請求項6に記載の方法。
  8. 前記周波数領域入力信号の前記分散を推定するステップが、更に、
    以前推定された予測フィルタに基づいて新しいクリーン音声分散を推定するステップと、
    同調パラメータと共に固定された指数関数的に減衰する重み関数を使用して新しい残響分散を推定して、音声解をカスタマイズするステップと、
    単一マイクロホン雑音分散推定法を使用して雑音分散を推定して、各チャネルの前記雑音分散を推定し、次に平均を計算するステップとを含む、請求項1に記載の方法。
  9. 話者が急激に移動したことに応答して、 話者が移動したことを検出し前記予測フィルタと前記相関行列をリセットするステップを更に含む、請求項に記載の方法。
  10. 音声処理システムであって、
    時間領域の多重チャネル音声信号を含む入力信号を受け取る働きをする音声入力と、
    前記時間領域の多重チャネル音声信号の各チャネルを複数の周波数ビンと複数のフレームに分解することで、 前記入力信号を、複数の多重チャネル周波数領域のサブバンド信号を含む周波数領域入力信号に変換する働きをするサブバンド分解モジュールと、
    前記周波数領域入力信号の各チャネルをバッファし遅延させ、前記フレームのそれぞれにおける予測フィルタ推定のために前記フレームを保存する働きをするバッファと、
    記フレームのそれぞれにおける前記周波数領域入力信号の分散を推定する働きをする分散エスティメータと、
    推定された前記分散に少なくとも部分的に基づく費用関数を有する 再帰的最小二乗(RLS)アルゴリズムを使用することによって、前記複数の周波数ビンのそれぞれについて予測フィルタをオンライン方式で適応的に推定する働きをする予測フィルタエスティメータと、
    推定された前記予測フィルタを使用して残響を減少させるように多重チャネル周波数領域の前記サブバンド信号の各チャネルを線形的にフィルタリングして、線形フィルタリング出力信号を生成する働きをする線形フィルタと、
    推定された前記分散を用いて 前記線形フィルタリング出力信号を非線形にフィルタリングして残響を減少させて、非線形フィルタリング出力信号を生成する働きをする非線形フィルタと、
    前記非線形フィルタリング出力信号を合成して残響除去時間領域の多重チャネル音声信号を再構成する合成器であって、出力チャネルの数が入力チャネルの数と等しい合成器とを含む音声処理システム。
  11. 前記分散エスティメータが、更に、クリーン音声分散を推定する働きをする、請求項10に記載の音声処理システム。
  12. 前記分散エスティメータが、更に、雑音分散を推定する働きをする、請求項11に記載の音声処理システム。
  13. 前記分散エスティメータが、更に、残留スピーチ分散を推定する働きをする、請求項12に記載の音声処理システム。
  14. 前記予測フィルタエスティメータが、更に、適応RLSアルゴリズムを使用して、相関行列にスパース性を課することによって、前記周波数領域入力信号の前記複数の周波数ビンごとに各フレームにおける前記予測フィルタを個別に推定する働きをする、請求項10に記載の音声処理システム。
  15. 前記時間領域の多重チャネル音声信号が、少なくとも1つの対象信号を含み、
    前記非線形フィルタが、更に、各対象信号の強化音声信号を計算する働きをする、請求項10に記載の音声処理システム。
  16. 前記非線形フィルタが、残響と背景雑音を減少させる働きをする、請求項15に記載の音声処理システム。
  17. 前記分散エスティメータが、更に、
    以前推定された予測フィルタに基づいて新しいクリーン音声分散を推定し、
    固定された指数関数的減衰重み関数を同調パラメータと共に使用して新しい残響分散を推定して、音声解をカスタマイズし、
    単一マイクロホン雑音分散推定法を使用して各チャネルの雑音分散を推定し、次に平均を計算して雑音分散を推定する働きをする、請求項10に記載の音声処理システム。
  18. 前記分散エスティメータが、更に、話者の移動により変化を検出し、前記予測フィルタと前記相関行列をリセットする働きをする、請求項14に記載の音声処理システム。
  19. 前記保存するステップが、各チャネルのサブバンドのそれぞれについて複数のフレームを保存することを更に含み、
    少なくとも2つのサブバンドについて、保存されるフレームの数が異なる、請求項1に記載の方法。
  20. 少なくとも一つのサブバンドが、より高い周波数について保存されたフレームの数よりも長いバッファ長を有する、請求項19に記載の方法。
JP2019534198A 2016-12-23 2017-12-22 雑音のある時変環境のための重み付け予測誤差に基づくオンライン残響除去アルゴリズム Active JP7175441B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662438860P 2016-12-23 2016-12-23
US62/438,860 2016-12-23
PCT/US2017/068362 WO2018119470A1 (en) 2016-12-23 2017-12-22 Online dereverberation algorithm based on weighted prediction error for noisy time-varying environments

Publications (2)

Publication Number Publication Date
JP2020503552A JP2020503552A (ja) 2020-01-30
JP7175441B2 true JP7175441B2 (ja) 2022-11-21

Family

ID=62627432

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019534198A Active JP7175441B2 (ja) 2016-12-23 2017-12-22 雑音のある時変環境のための重み付け予測誤差に基づくオンライン残響除去アルゴリズム

Country Status (5)

Country Link
US (1) US10446171B2 (ja)
JP (1) JP7175441B2 (ja)
CN (1) CN110100457B (ja)
DE (1) DE112017006486T5 (ja)
WO (1) WO2018119470A1 (ja)

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9772817B2 (en) 2016-02-22 2017-09-26 Sonos, Inc. Room-corrected voice detection
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
CN107316649B (zh) * 2017-05-15 2020-11-20 百度在线网络技术(北京)有限公司 基于人工智能的语音识别方法及装置
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10446165B2 (en) * 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
KR102076760B1 (ko) * 2018-09-19 2020-02-12 한양대학교 산학협력단 다채널 마이크를 이용한 칼만필터 기반의 다채널 입출력 비선형 음향학적 반향 제거 방법
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US11222651B2 (en) * 2019-06-14 2022-01-11 Robert Bosch Gmbh Automatic speech recognition system addressing perceptual-based adversarial audio attacks
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
WO2021022390A1 (zh) * 2019-08-02 2021-02-11 锐迪科微电子(上海)有限公司 主动降噪系统和方法及存储介质
CN110718230B (zh) * 2019-08-29 2021-12-17 云知声智能科技股份有限公司 一种消除混响的方法和系统
CN110738684A (zh) * 2019-09-12 2020-01-31 昆明理工大学 一种基于相关滤波融合卷积残差学习的目标跟踪方法
CN110660405B (zh) * 2019-09-24 2022-09-23 度小满科技(北京)有限公司 一种语音信号的提纯方法及装置
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11804233B2 (en) * 2019-11-15 2023-10-31 Qualcomm Incorporated Linearization of non-linearly transformed signals
JP7486145B2 (ja) * 2019-11-21 2024-05-17 パナソニックIpマネジメント株式会社 音響クロストーク抑圧装置および音響クロストーク抑圧方法
CN111220974B (zh) * 2019-12-10 2023-03-24 西安宁远电子电工技术有限公司 一种低复杂度的基于调频步进脉冲信号的频域拼接方法
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
CN111599374B (zh) * 2020-04-16 2023-04-18 云知声智能科技股份有限公司 一种单通道语音去混响方法及装置
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
CN112565119B (zh) * 2020-11-30 2022-09-27 西北工业大学 一种基于时变混合信号盲分离的宽带doa估计方法
CN112653979A (zh) * 2020-12-29 2021-04-13 苏州思必驰信息科技有限公司 自适应去混响方法和装置
WO2022168230A1 (ja) * 2021-02-04 2022-08-11 日本電信電話株式会社 残響除去装置、パラメータ推定装置、残響除去方法、パラメータ推定方法、プログラム
CN113160842B (zh) * 2021-03-06 2024-04-09 西安电子科技大学 一种基于mclp的语音去混响方法及系统
CN113299301A (zh) * 2021-04-21 2021-08-24 北京搜狗科技发展有限公司 一种语音处理方法、装置和用于语音处理的装置
CN113393853B (zh) * 2021-04-29 2023-02-03 青岛海尔科技有限公司 混合声信号的处理方法及装置、存储介质及电子装置
CN113506582B (zh) * 2021-05-25 2024-07-09 北京小米移动软件有限公司 声音信号识别方法、装置及系统
CN113571076A (zh) * 2021-06-16 2021-10-29 北京小米移动软件有限公司 信号处理方法、装置、电子设备和存储介质
CN114813129B (zh) * 2022-04-30 2024-03-26 北京化工大学 基于wpe与emd的滚动轴承声信号故障诊断方法
CN114792524B (zh) * 2022-06-24 2022-09-06 腾讯科技(深圳)有限公司 音频数据处理方法、装置、程序产品、计算机设备和介质
CN116047413B (zh) * 2023-03-31 2023-06-23 长沙东玛克信息科技有限公司 一种封闭混响环境下的音频精准定位方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013171076A (ja) 2012-02-17 2013-09-02 Hitachi Ltd 残響除去パラメータ推定装置及び方法、残響・エコー除去パラメータ推定装置、残響除去装置、残響・エコー除去装置、並びに、残響除去装置オンライン会議システム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7167568B2 (en) 2002-05-02 2007-01-23 Microsoft Corporation Microphone array signal enhancement
DE10351793B4 (de) * 2003-11-06 2006-01-12 Herbert Buchner Adaptive Filtervorrichtung und Verfahren zum Verarbeiten eines akustischen Eingangssignals
US7352858B2 (en) 2004-06-30 2008-04-01 Microsoft Corporation Multi-channel echo cancellation with round robin regularization
US8180068B2 (en) * 2005-03-07 2012-05-15 Toa Corporation Noise eliminating apparatus
US8467538B2 (en) 2008-03-03 2013-06-18 Nippon Telegraph And Telephone Corporation Dereverberation apparatus, dereverberation method, dereverberation program, and recording medium
US8036767B2 (en) * 2006-09-20 2011-10-11 Harman International Industries, Incorporated System for extracting and changing the reverberant content of an audio input signal
EP2046073B1 (en) 2007-10-03 2017-03-08 Oticon A/S Hearing aid system with feedback arrangement to predict and cancel acoustic feedback, method and use
GB2459512B (en) * 2008-04-25 2012-02-15 Tannoy Ltd Control system for a transducer array
JP5113794B2 (ja) * 2009-04-02 2013-01-09 日本電信電話株式会社 適応マイクロホンアレイ残響抑圧装置、適応マイクロホンアレイ残響抑圧方法及びプログラム
US8553898B2 (en) 2009-11-30 2013-10-08 Emmet Raftery Method and system for reducing acoustical reverberations in an at least partially enclosed space
WO2013114425A1 (ja) * 2012-01-30 2013-08-08 三菱電機株式会社 残響抑圧装置
FR2992459B1 (fr) * 2012-06-26 2014-08-15 Parrot Procede de debruitage d'un signal acoustique pour un dispositif audio multi-microphone operant dans un milieu bruite.
US9596540B2 (en) 2012-07-02 2017-03-14 Panasonic Intellectual Property Management Co., Ltd. Active noise reduction device and active noise reduction method
KR101401120B1 (ko) 2012-12-28 2014-05-29 한국항공우주연구원 신호 처리 장치 및 방법
US9654894B2 (en) * 2013-10-31 2017-05-16 Conexant Systems, Inc. Selective audio source enhancement

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013171076A (ja) 2012-02-17 2013-09-02 Hitachi Ltd 残響除去パラメータ推定装置及び方法、残響・エコー除去パラメータ推定装置、残響除去装置、残響・エコー除去装置、並びに、残響除去装置オンライン会議システム

Also Published As

Publication number Publication date
CN110100457B (zh) 2021-07-30
WO2018119470A1 (en) 2018-06-28
JP2020503552A (ja) 2020-01-30
CN110100457A (zh) 2019-08-06
US10446171B2 (en) 2019-10-15
DE112017006486T5 (de) 2019-09-12
US20180182410A1 (en) 2018-06-28

Similar Documents

Publication Publication Date Title
JP7175441B2 (ja) 雑音のある時変環境のための重み付け予測誤差に基づくオンライン残響除去アルゴリズム
CN110088834B (zh) 用于语音去混响的多输入多输出(mimo)音频信号处理
US10123113B2 (en) Selective audio source enhancement
CN108172231B (zh) 一种基于卡尔曼滤波的去混响方法及系统
US11373667B2 (en) Real-time single-channel speech enhancement in noisy and time-varying environments
JP7324753B2 (ja) 修正された一般化固有値ビームフォーマーを用いた音声信号のボイス強調
US11894010B2 (en) Signal processing apparatus, signal processing method, and program
US20030206640A1 (en) Microphone array signal enhancement
RU2768514C2 (ru) Процессор сигналов и способ обеспечения обработанного аудиосигнала с подавленным шумом и подавленной реверберацией
KR20120066134A (ko) 다채널 음원 분리 장치 및 그 방법
KR102076760B1 (ko) 다채널 마이크를 이용한 칼만필터 기반의 다채널 입출력 비선형 음향학적 반향 제거 방법
GB2571371A (en) Signal processing for speech dereverberation
WO2007123047A1 (ja) 適応アレイ制御装置、方法、プログラム、及びこれを利用した適応アレイ処理装置、方法、プログラム
CN110111802B (zh) 基于卡尔曼滤波的自适应去混响方法
Nesta et al. A flexible spatial blind source extraction framework for robust speech recognition in noisy environments
Doclo et al. Multimicrophone noise reduction using recursive GSVD-based optimal filtering with ANC postprocessing stage
Habets et al. Dereverberation
Wung et al. Robust multichannel linear prediction for online speech dereverberation using weighted householder least squares lattice adaptive filter
JP6190373B2 (ja) オーディオ信号ノイズ減衰
CN109243476B (zh) 混响语音信号中后混响功率谱的自适应估计方法及装置
US11195540B2 (en) Methods and apparatus for an adaptive blocking matrix
Delcroix et al. Multichannel speech enhancement approaches to DNN-based far-field speech recognition
Braun et al. Low complexity online convolutional beamforming
Tang et al. A Time-Varying Forgetting Factor-Based QRRLS Algorithm for Multichannel Speech Dereverberation
Parchami et al. A new algorithm for noise PSD matrix estimation in multi-microphone speech enhancement based on recursive smoothing

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20190828

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201216

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220420

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220907

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221004

R150 Certificate of patent or registration of utility model

Ref document number: 7175441

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150