JP2018533052A - セミブラインド適応フィルタモデルを使用する通信端末用の音響キーストローク過渡音キャンセラ - Google Patents

セミブラインド適応フィルタモデルを使用する通信端末用の音響キーストローク過渡音キャンセラ Download PDF

Info

Publication number
JP2018533052A
JP2018533052A JP2018513796A JP2018513796A JP2018533052A JP 2018533052 A JP2018533052 A JP 2018533052A JP 2018513796 A JP2018513796 A JP 2018513796A JP 2018513796 A JP2018513796 A JP 2018513796A JP 2018533052 A JP2018533052 A JP 2018533052A
Authority
JP
Japan
Prior art keywords
filter
signal
transient noise
audio
reference signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018513796A
Other languages
English (en)
Other versions
JP6502581B2 (ja
Inventor
ブフナー、ハーバート
ジェイ. ゴッドシル、サイモン
ジェイ. ゴッドシル、サイモン
スコグランド、ジャン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2018533052A publication Critical patent/JP2018533052A/ja
Application granted granted Critical
Publication of JP6502581B2 publication Critical patent/JP6502581B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/05Noise reduction with a separate noise microphone

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

セミブラインド適応フィルタモデルを使用する、ユーザ通信装置用の音響キーストローク過渡音キャンセル/抑制の方法およびシステムが提供される。方法およびシステムは、ある欠陥の少ない信号を、過渡音に関する副次的情報として考慮し、また動的モデルを使用し、残響効果を含む音響信号伝播を補償することによって、過渡ノイズ抑制における既存の問題を解決するよう設計されている。方法およびシステムは、ユーザ装置のキーボードに内蔵された同期参照マイクを利用し、このキーベッドマイク信号の情報を活用する適応フィルタリング手法を利用する。

Description

本発明は、セミブラインド適応フィルタモデルを使用する通信端末用の音響キーストローク過渡音キャンセラに関する。
オーディオおよび/またはビデオ会議環境において、煩わしいキーボードタイピングノイズに遭遇することはよくあり、このノイズはスピーチと同時にも存在し、スピーチ間の「静かな」中断にも存在する。典型的な状況として、ミーティングが行われている間、会議電話に参加している誰かがノートパソコンで記録を取っている場合や、誰かが音声電話中に電子メールをチェックする場合がある。オーディオデータにこの種のノイズが存在すると、ユーザにとって特に煩わしいか妨げになり得る。
発明の概要では、本発明のいくつかの面の基本的な理解を提供するために、簡略化された態様で概念の選択を紹介する。発明の概要は、本発明の広範囲な概略ではなく、本発明の鍵もしくは重要な要素を同定する、または本発明の範囲を限定する意図はされていない。発明の概要は、本発明の概念のいくつかを、下記の詳細な説明の導入として提示するのみである。
本発明は、一般に信号処理の方法およびシステムに関する。より詳細には、本発明の面は、補助マイクからの入力を参照信号として使用してオーディオ信号中の過渡ノイズを抑制することに関する。
本発明の1つの実施形態は、過渡ノイズを抑制するシステムに関する。システムは、1つ以上のソースから取得されるオーディオ信号を入力する複数の入力センサであって、オーディオ信号は、入力センサによって取得される音声データおよび過渡ノイズを含む、複数の入力センサと、過渡ノイズに関するデータを含む参照信号を入力する参照センサであって、入力センサとは別個に設置された参照センサと、参照信号に含まれるデータに基づいて、オーディオ信号から過渡ノイズを選択的にフィルタリングして音声データを抽出するとともに、抽出された音声データを含む強調されたオーディオ信号を出力する複数のフィルタと、を備える。
別の実施形態においては、過渡ノイズを抑制するシステムの複数のフィルタは、適応フォアグラウンドフィルタと、適応バックグラウンドフィルタとを含み、フォアグラウンドフィルタは、過渡ノイズを適応的にフィルタリングして、強調された出力オーディオ信号を作成し、バックグラウンドフィルタは、フォアグラウンドフィルタの適応を制御する。
本発明の別の実施形態は、過渡ノイズを抑制する方法に関する。方法は、複数の入力センサから、1つ以上のソースから取得される入力オーディオ信号を受信する工程であって、オーディオ信号は、入力センサによって取得される音声データおよび過渡ノイズを含む工程と、参照センサから、過渡ノイズに関するデータを含む参照信号を受信する工程であって、参照センサは入力センサとは別個に設置された工程と、参照信号に含まれるデータに基づいて、オーディオ信号から過渡ノイズを選択的にフィルタリングして音声データを抽出する工程と、抽出された音声データを含む強調されたオーディオ信号を出力する工程と、を備える。
別の実施形態では、過渡ノイズを抑制する方法は、過渡ノイズを適応的にフィルタリングするフォアグラウンドフィルタを適応して、強調された出力オーディオ信号を作成する工程をさらに備える。
別の実施形態では、過渡ノイズを抑制する方法は、バックグラウンドフィルタを使用して、フォアグラウンドフィルタの適応を制御する工程をさらに備える。
1つ以上の実施形態では、本明細書に記載する方法およびシステムは、以下の追加の特徴の1つ以上を選択的に含んでよい。フィルタの各々は、広帯域有限インパルス応答フィルタである。広帯域有限インパルス応答フィルタを使用して、過渡ノイズはオーディオ信号から選択的にフィルタリングされる。バックグラウンドフィルタは、参照信号に含まれるデータに基づいてフォアグラウンドフィルタの適応を制御する。バックグラウンドフィルタは、過渡ノイズが前記オーディオ信号において検出されることに応じて前記フォアグラウンドフィルタの適応を制御する。バックグラウンドフィルタは、参照信号のパワーと、参照信号の線形近似の非線形寄与に対する比と、参照信号に関連する時空間ソース信号アクティビティデータとのうちの1つ以上に基づいてフォアグラウンドフィルタの適応を制御する。バックグラウンドフィルタは、参照信号のパワーと、参照信号の線形近似の非線形寄与に対する比と、参照信号に関連する時空間ソース信号アクティビティデータとに基づいてフォアグラウンドフィルタの適応を制御する。オーディオ信号に含まれる過渡ノイズは、ユーザ装置のキーベッドから生成されるキーストロークノイズである。入力センサおよび参照センサは、マイクである。および/または、複数のフィルタは、参照センサから入力された参照信号を減算することによって、オーディオ信号から過渡ノイズをフィルタリングする。
本発明の適用性のさらなる範囲は、下記の詳細な説明から明らかになる。しかしながら、詳細な説明から本発明の精神および範囲内での様々な変更および変形が当業者に明らかになるため、詳細な説明および特定の実施例は好適な実施形態を示唆するものではあるが、説明としてのみ与えられることが理解されるべきである。
これらおよび本発明の他の目的、特徴、ならびに特性は、以下の詳細な説明を、その全てが本明細書の一部を構成する添付の請求項および図面、と併せて検討することで当業者により明らかとなる。
本明細書に記載の1つ以上の実施形態による、補助マイクからの入力を参照信号として使用する過渡ノイズ抑制の例示的な適用を説明する概略図。 異なる残響条件および異なるタイピング速度の下でのキーボード過渡ノイズを説明するグラフ表示の組。 本明細書に記載の1つ以上の実施形態による、所望の音声信号を抽出する複数の入力チャンネルおよび複数の出力チャンネルを有する例示的なシステムを説明するブロック図。 本明細書に記載の1つ以上の実施形態による、例示的な教師あり適応フィルタ構造を説明するブロック図。 本明細書に記載の1つ以上の実施形態による、信号強調のための信号に基づく手法およびシステムに基づく手法の例示的な要件を説明する表。 本明細書に記載の1つ以上の実施形態による、半教師あり音響キーストローク過渡音抑制のための例示的なシステムを説明するブロック図。 本明細書に記載の1つ以上の実施形態による、セミブラインド音響キーストローク過渡音抑制のための例示的な方法を説明するフローチャート。 本明細書に記載の1つ以上の実施形態による、半教師あり音響キーストローク過渡音抑制のために構成された例示的なコンピューティング装置を説明するブロック図。
本明細書に与えられた見出しは、便宜上のものに過ぎず、本開示の請求項の範囲および意味に必ずしも影響を及ぼすものではない。
図中、容易な理解および便宜のために、同一の参照記号および任意の略語は、同一または同様な構成または機能を有する要素または作用を識別する。図は以下の詳細な説明において詳細に記載される。
概要
様々な実施例および実施形態が記載される。以下の記載は、これらの実施例の十分な理解および実施可能な開示のために特定の詳細を提供する。当業者は、しかしながら、本明細書に記載される1つ以上の実施形態が、これらの詳細の多くの部分なしで実施され得ることを理解するだろう。同様に、当業者はまた、本発明の1つ以上の実施形態は、本明細書に詳細が記載されていない多くの他の明らかな特徴を含むことが可能であることを理解するだろう。加えて、いくつかの周知の構成または機能は、関連する記載を不必要に目立たなくすることを回避するために、図示されず、また以下に詳細な記述もされていない場合がある。
高速インターネット接続の利用可能性の急速な増加は、パーソナルコンピューティング装置を、遠隔会議アプリケーションに関して非常に頻繁に使用されるものにした。ラップトップまたはタブレットコンピュータに内蔵されたマイク、スピーカ、およびウェブカメラは、会議電話の設定を非常に簡単にする一方で、結果的な音響ハンズフリー通信状況は、一般に、例えば、音響エコー制御、バックグラウンドノイズまたは他の競合するソースからの信号分離/抽出、および、理想的には残響除去等の数々の困難かつ相関する信号処理問題に対する必要性をもたらした。
特に未解決の問題となり、本発明の方法およびシステムによって対処される、音響ノイズの特定の種類は、特に、遠隔会議の適用中にラップトップコンピュータの内蔵キーボードを使用する(例えば記録を取る、電子メールを書くため等)場合に、キーストローク過渡音によって生じるインパルス性ノイズである。そのような状況では、マイク信号中のこのインパルス性ノイズは、マイクとキーボードとの間の空間的近接性により、また部分的には装置のケース内で起こり得る振動効果および固体伝搬音の伝導により、非常に不快なものになり得る。
上で検討したように、ユーザは、オーディオおよび/またはビデオ会議中にキーボードタイピングノイズが存在する場合、気が散りかつ煩わしいと感じる。そのため、所望の音声に知覚可能なひずみを導入することなくそのようなノイズを除去することが望ましい。したがって、本発明は新しく新規な、特に半教師あり音響キーストローク過渡音キャンセルのための信号強調方法およびシステムを提供する。
以下の節において、信号処理問題をより詳細に解説および分析し、広帯域適応FIRフィルタの使用を特徴とする手法の特定のクラスに焦点を当てる。加えて、半教師あり/セミブラインド信号処理問題の様々な面が、キーボード下に追加の参照センサを含むユーザ装置(例えばラップトップコンピュータ)に関して記載される。記載されるように、これに関連して、半教師あり/セミブラインド信号処理問題は、この分野において既により広範囲に研究された問題のクラスに加えて、ハンズフリー関連の適応フィルタリング問題の新たなクラスとして見なすことが可能である。
多くの既存の単一チャンネルの音声強調方法は、典型的には短時間フーリエ変換(STFT)領域におけるノイズパワー推定およびスペクトル振幅変化に基づいている。しかしながら、キーストローク過渡音等の極めて非定常なノイズを軽減することは、この種の多くの手法にとって、困難な問題としてあり続けている。例えばスペクトル領域における非負行列因子分解(NMF)等の分離法の適用は、インパルス性ノイズに対して有望な結果を示す。そのような手法は、特にバッチ推定のために長い信号サンプルが利用可能な場合に効果的であり得る一方で、残念なことに、実際には、キーストローク過渡音の短いアクティビティおよび音響クリックイベントの変化のために、利用可能な適応時間はほとんどない。キーボードノイズは、典型的には音声信号と同範囲の優位周波数成分を有する広帯域であることに留意することもまた重要である。そのような困難な状況のため、この信号処理問題は主にミッシングフィーチャの手法によって対処されてきた。同様な手法は、画像および動画の処理からも知られる。上記の音声強調方法と同様、ミッシングフィーチャ型の手法は、典型的には、キーストローク過渡音の非常に正確な検出を必要とする。さらに、キーストロークノイズの場合、この検出の問題は、残響効果と、各キーストロークが実際には未知かつ可変の距離を有する2つの可聴クリックに至るという事実との両方によって悪化し、それによって、第2のクリックのピークはしばしば、重複する音声信号に完全に埋もれる(第1のクリックは実際のキーストロークによって生じ、第2のクリックはキーを解放した後に生ずる)。
装置のオペレーティングシステムからのタイピング情報を単に使用しても、通常、オペレーティングシステム(OS)によって記録されたタイピング情報と実際の音響イベントとの間の時間的なずれは変化に富む場合があり、また確定的ではないので、十分には正確ではないことにも留意すべきである。
信号処理問題をさらに説明するため、異なる残響条件および異なるタイピング速度の下での、いくつかの測定されたキーストローク過渡ノイズ信号(例えば、ディスプレイの上部に内部マイクを有するよう構成されたユーザ装置を使用する)を以下に記載する。
タイピング速度は一般に、定義上、1つの「語」が5つの文字からなる毎分語数(WPM)で測定される。各文字は2つのキーストローク過渡音で構成されることが理解されるべきである。異なる技能レベルと傾向のコンピュータのユーザに関する様々な研究に基づいて、40WPMが、ラップトップコンピュータの典型的なQWERTYキーボードに関するタッチタイピングの速度の一般的な目安になるとして現れた。40WPMは、毎秒6.7キーストローク過渡音に相当するので、キーストローク間の平均の距離は、150ms(ミリセカンド)まで低くなる場合がある。無響環境(例えば車の室内)においてプロット(a)の測定が行われた図2に示される例示の信号により、この概算が確認される。キーの下方と上方運動の両方の過渡音は、プロット(a)に明確に視認できる。対照的に、プロット(b)、(c)、および(d)に示されるように、信号の再構成は、一般に、キーストロークの効果が重なることを起こすことになる、タイピング速度および/または室内残響が増加するにつれてより困難になる。さらに、残響環境(例えばプロット(c)および(d))においては、クリックノイズが複数の分析ブロックを超えて広がりがちである。
本発明の方法およびシステムは、携帯型ユーザ装置(例えば、ラップトップコンピュータ、タブレットコンピュータ、携帯電話、スマートフォン等)におけるオーディオストリーム用の過渡ノイズ抑制における既存の問題を解決するよう設計されている。例えば、本明細書に記載される方法およびシステムは、ある欠陥の少ない信号を、過渡音(例えばキーストローク)に関する副次的情報として考慮してよく、動的モデルを使用して、残響効果を含む音響信号伝播もまた補償してよい。以下により詳細に記載されるように、提供される方法およびシステムは、ユーザ装置のキーボードに内蔵された同期参照マイク(本明細書において「キーベッド」マイクとして言及されることがある)を利用し、このキーベッドマイク信号の情報を活用する適応フィルタリング手法を利用するよう設計されている。
本明細書に記載される1つ以上の実施形態に従って、ユーザ装置に関連付けられた1つ以上のマイクが、周囲ノイズで、および例えばキーボードおよび/またはマウスのクリックからの過渡ノイズで劣化した音声信号を記録する。ユーザ装置はまた、音声信号および周囲ノイズには実質的には影響されないキークリックノイズの測定を可能にする、ユーザ装置のキーボードに内蔵された同期参照マイクを含む。そのような設定は、本発明に従って記載されるような、より強力な、半教師ありキーストローク過渡音抑制を可能にする。
図1は、そのような適用の実施例100を説明する。ユーザ装置140(例えばラップトップコンピュータ、タブレットコンピュータ等)は、1つ以上の一次オーディオ取得装置110(例えばマイク)と、ユーザ入力装置165(例えばキーボード、キーパッド、キーベッド等)と、補助(例えば二次または参照)オーディオ取得装置115とを含む。
1つ以上の一次オーディオ取得装置110は、オーディオ130の1つ以上のバックグラウンドソースから生成されるバックグラウンドノイズ(145)のみならず、ユーザ120(例えばオーディオソース)によって生成される音声/ソース信号(150)を取得してよい。加えて、ユーザ入力装置165を操作するユーザ120(例えば、ユーザ装置140を介したオーディオ/ビデオ通信セッションに参加しながら、キーボード上でタイピングをしている)によって生成される過渡ノイズ(155)もまた、一次オーディオ取得装置110に取得されてよい。例えば、音声/ソース信号(150)、バックグラウンドノイズ(145)、および過渡ノイズ(155)の組み合わせは、オーディオ取得装置110によって取得され、1つ以上の入力信号(160)として信号プロセッサ170に対して入力(例えば受信、入手等)されてよい。少なくとも1つの実施形態に従って、信号プロセッサ170はクライアントにおいて動作してよい。さらに、少なくとも1つの他の実施形態に従って、信号プロセッサは、ネットワーク(例えばインターネット)を通じてユーザ装置140と通信をするサーバにおいて動作してよい。
補助オーディオ取得装置115は、ユーザ装置140の内部(例えば、ユーザ入力装置165の上、下、側部等)に配置されてよく、ユーザ入力装置165との連動を計測するよう構成されてよい。例えば、少なくとも1つの実施形態に従って、補助オーディオ取得装置115は、キーベッドとの連動から生成されるキーストロークを測定する。補助マイク115によって得られた情報は、その後、キーベッドとの連動に起因するキークリック(例えば、過渡ノイズ(155)によって劣化し得る入力信号(160))によって劣化した音声マイク信号をよりよく復元するために使用されてよい。例えば、補助マイク115によって得られた情報は参照信号(180)として信号プロセッサ170に対して入力される。
以下により詳細に記載されるように、信号プロセッサ170は、受信される入力信号(160)(例えば音声信号)に対して、補助オーディオ取得装置115からの参照信号(180)を使用して、過渡音抑制/キャンセルを行うように構成されてよい。1つ以上の実施形態に従って、信号プロセッサ170によって実行される過渡音抑制/キャンセルは、広帯域適応MIMO(multiple input multiple output)フィルタリングに基づいてよい。
本発明の方法およびシステムは、複数の現実の世界への適用を有する。例えば、方法およびシステムは、実行され得る過渡ノイズ抑制処理の有効性および効率を向上させるために、キーボード下(または、1つ以上の一次マイクが設置された場所以外の装置のいくつかの他の場所)に設置された補助マイクを有するコンピューティング装置(例えばラップトップコンピュータ、タブレットコンピュータ等)に実装されてよい。1つ以上の他の実施例においては、本発明の方法およびシステムは、モバイル装置(例えば、携帯電話、スマートフォン、個人情報端末(PDA))および音声認識によって装置を制御するよう設計された様々なシステムにおいて使用されてよい。
利用可能な参照信号(例えば、図1に示す例示のシステム100における参照信号180)および適応フィルタリングの適用によって、本発明の方法およびシステムによって対処される問題は、従来の音響エコーキャンセル(AEC)問題または干渉キャンセル問題と類似しているようにも見え得る。しかしながら、本明細書に記載されるキーストローク過渡音抑制方法およびシステムと従来のAECおよび/または干渉キャンセル手法との間には著しい相違がある。相違のいくつかは図5に示される表500に説明され、以下の事項に表される。
(i)同定される「エコー経路」は急速に時間的に変動する。
(ii)「エコー経路」の励起(キーストローク過渡音)は典型的には極めて短く、推定処理のためのデータ量が限定されていることを意味する。
(iii)音声ソースからキーベッドマイクへの、低い(しかし顕著な)パワーのクロストークが存在する。
(iv)従来のAECにおけるダブルトーク制御(または特にダブルトーク検出)は、本明細書に記載される方法およびシステムによって対処される状況では簡単ではない(主に(iii)および(v)のため)。
(v)高度に非線形なシステム。実験により、キーボードからマイクへの音響経路は、ケース内での固体伝搬音の伝導により、有意の非線形寄与を含むことが示された。非線形寄与(例えば、かたかたという音)はまた、記憶に強く残ることを示す。
(vi)システム/方法は、(i)−(v)の課題にもかかわらず、複雑度が低くなければならない。
広帯域適応MIMOフィルタリングに基づくキーストローク過渡音キャンセル
以下に、キーストローク過渡音抑制の上記課題(i)−(vi)を扱うよう設計された、本発明のキーストローク過渡音抑制/キャンセル方法およびシステムの詳細、およびそれらに従ったいくつかの例示的な性能結果を記載する。以下の節で、図3に例が説明される所望の音声信号を抽出するMIMO(multiple input channels and multiple output channels)を有する一般的な適応型動的システムに始まる信号処理手法を展開させる。特に、図3は一般的な2X3ソース分離問題と考えられるシステムの例を示す。
図3は複数の入力チャンネルおよび複数の出力チャンネルを有する例示のシステム300であるが、図4および6は、本発明の1つ以上の実施形態に従ったより具体的な構成を説明する。特に、図4は教師あり適応フィルタ構造に対応する例示的なシステム400を示し、図6はセミブラインド適応SIMOフィルタ構造の若干変更されたバージョンに対応する例示的なシステム600を示す(より具体的には、図6は等化ポストフィルタを有するセミブラインド適応SIMOフィルタ構造を説明する)。
図3、4、および6に示される例示的なシステムに関して、hij(例えばh11、h12、h21等)で表される経路は、音源sからオーディオ入力装置x(例えばマイク)への音響伝播経路を示すことに留意すべきである。以下の記載では、これらの伝播経路hijの線形寄与はインパルス応答hij(n)で記述され得るものとする。また、wjiで同定されるブロックは、インパルス応答wji(n)を有する適応有限インパルス応答(FIR)フィルタを示す。
音響キーストローク過渡音キャンセルのための従来の手法とは対照的に、本発明の方法およびシステムは適応FIRフィルタを使用することが理解されるべきである。一般に、図3、4、および6に示される例示的なシステムに含まれるFIRフィルタ(例えば、例示的なシステム300、400、および600において、それぞれwjiで示されるブロック)は、以下においては方程式(2)として記載される次のフィルタ方程式で記載されてよい。
フィルタ方程式(2)の詳細は、後の節で記載される。
MIMOシステムの係数(線形の場合のインパルス応答)は、潜在変数と見なされる。これらの潜在変数は、観測されたデータの複数のタイムフレームよりも変動性が低いと仮定される。これらの潜在変数は、長いデータ並びに関してグローバルな最適化を可能にするため、潜在変数モデルは、データサイズを減少するという周知の有利な点を有するので、理解を容易にし、したがって、この状況で、出力信号におけるひずみを減少または回避する。以下では、この手法は、以下に記載される「信号に基づく」手法とは対照的な「システムに基づく」最適化として言及され得る。実際には、信号強調のための信号に基づくおよびシステムに基づく手法を組み合わせることがしばしば便利であることに留意すべきである。したがって、そのような手法をこの状況でどのように組み合わせるかの例も詳細に記載される。
本発明のシステムに基づく最適化手法は、異なった考えうる適応フィルタリング構造を、一般的なMIMOの場合の特殊化として記載することを通じて展開される。この展開は、以下に記載され、例示的な要件(i)−(vi)によって示唆される、広帯域適応MIMOフィルタリングのための一般的なフレームワークによって行われる。
教師あり適応フィルタ構造
上記されるように、利用可能なキーボード参照信号xを活用する最も単純な場合は、AEC構造である。事実、AEC構造および様々な既知の教師あり技術は、広帯域適応MIMOフィルタリングのためのフレームワークを特殊化した場合として見なすことが可能である。本発明に特徴的な設定(図3に説明される設定後)において、対応する仮定は、h13(n)≡0、h23(n)=δ(n)と読み得る。これは、この手法においては、実際のキーストローク過渡音sとフィルタw31の入力x間の直接の関係が仮定されることを意味する。
典型的には、結果的な教師あり適応処理は、どんな他のソースs(n)からのクロストークもなく、干渉するキーボード参照信号s(n)へのこの直接のアクセスに基づいて、図4に示すように、非常に単純かつロバストである。またこの手法は、単に適切にフィルタリングされたキーボード参照を単に減算するだけであり、所望の音声信号にひずみを導入しない。さらに、音響エコー抑制(AES)として知られる密接に関連した技術は、急速に時間的に変動するシステムにとって特に有効であることが示されてきた。ダブルトーク制御および無ひずみの制約を本質的に含む、複雑度の低いAESに対する1つの既存の手法は、要件(i)、(ii)、(iv)、および(vi)を満たすのに有力な候補である。しかしながら、そのような既存のAEC/AES的な構造は、この状況と適用において重要となる要件(iii)および(v)を無視している。全ての音響経路h21、h22、h23は、現実には、ケース内での固体伝搬音の伝導により、非線形的であると示されてきた。本発明の1つ以上の実施形態に従って、本明細書に記載される方法およびシステムは、複雑度(vi)および数値的な理由(v)のため、非線形のAECを回避するよう設計されている。
参照信号(例えばフィルタ入力)xがもはや音声信号s(要件(iv))から統計的に独立していないため、要件(iii)はまた、適応制御を従来のAECにおけるものよりも有意により困難にすることに留意すべきである。これは、教師あり適応フィルタリング理論における一般的な仮定およびダブルトーク検出の一般的な戦略と矛盾する。
セミブラインド適応SIMOフィルタ構造
典型的には、実際には、x、x間の関係は、x、x間の関係およびx、x間の関係の各々よりも線形性により近い(図3に示す例示的なシステムを参照)。これは、2つのアレイマイクx、xを用いるブラインド空間信号処理の動機づけとなり得る。
他方で、xは、キーボードとキーボードマイクとの間の近接性から、依然として有意に少ないクロストークおよび少ない残響しか含まない。したがって、キーボードマイクは適応を導入するのに最適である。言い換えれば、中心的な処理がブラインドで適応される一方、全体のシステムはセミブラインドシステムであると見なすことが可能である。キーボードマイクを使用する適応の導入は、ダブルトーク問題とブラインド適応フィルタリング方法の出力における所望のソースに関する本質的な配置の曖昧さの解消との両方に対処する。
キーボードマイク信号(以下により詳細が記載される)から推定された検出情報により、2つの出力信号yおよびyに関する最適化基準の近似的デカップリングが可能である。このデカップリングにより、図3による全MIMO構造のプルーニングを行うことがまた可能であり、結果の構造を、広帯域適応MIMOフィルタリングのための既知のフレームワークを特殊化した場合として見なすことがまた可能である。結果の構造は、サブスペース法/BSE(blind signal extraction)法として、またはSIMO(single−input and multiple−output)システム用のBSI(blind system identification)の方法として解釈することが可能である。以下により詳細が記載されるように、本発明の全体のシステムの少なくとも1つの実際の実装に従って、所望の音声信号を抽出するBSEと、および本明細書に記載される新たなダブルトーク制御処理のBSIとの両方の解釈が用いられてよい。
具体的には、図3によれば、出力信号y(n)における音響キーストローク過渡音のキャンセルの条件は次の通りである。
方程式(1)中、アスタスク(*)は線形畳み込みを示す(方程式(2)における定義と同様に)ことに留意すべきである。1つのアクティブなソース信号だけの場合(例えば、MIMOデミキシングシステムがMISOシステムに減少して)、フィルタ適応処理は、周知の教師あり適応手法に似る形態に単純化する。さらに、この処理は、理想的には、w11(n)∝h22(n)およびw21(n)∝-h21(n)となるようにブラインドシステム同定を実行すると示され得る。これらの理想的な解は、h22(n)とh21(n)が共通の0をZ領域で共有せず、かつフィルタ長がクロストークキャンセルにとって十分に長い限り、方程式(1)から得られる。
近似的線形性が音声マイクの場合に当てはまると仮定すれば、このセミブラインドシステムに基づく手法は、キャンセルフィルタw11とw21がキーストローク過渡音中にだけ適応されている限り(適応制御に関するさらなる詳細は以下に記載される)、確実に機能すると期待することが可能である。出力信号y(n)を有する適応MISOシステムは、したがって、キーストローク過渡音および所望の音声信号に対する継続的にアクティブな時空間的選択フィルタとして動作する。
等化ポストフィルタを有するセミブラインド適応SIMOフィルタ構造
一般に、スピーチアクティビティ中は、所望の信号s(n)もまた、同一のMISO FIRフィルタによってフィルタリングされる(例えば、上記の前節において簡略化されたキャンセル処理によって、キーストロークのアクティビティ中に推定可能である)。従って、任意の残存する線形ひずみを除去するために追加の等化フィルタを出力信号yに加えることは簡単である。この単一チャンネル等化フィルタは、信号抽出性能を変化させない。例えば、本発明の1つ以上の実施形態に従って、そのようなフィルタの設計は、例示的なシステム300におけるフィルタの1つ、例えば、フィルタw11の近似逆に基づくことが可能である。そのような例示的な設計はまた、いわゆる最小ひずみの原則にも従っている。
11の近似逆フィルタの設計後は、この逆フィルタを2つの経路w11とw21中に動かすことによって、全体のシステムをさらに簡略化することが可能である。この等価な構成は、図6に示すシステムにおける実線で表される(以下により詳細が記載される)ように、(適応フィルタw11の代わりの)Dサンプルと単一の変更フィルタw′21それぞれによる純粋な遅延をもたらす。恣意的な話者の位置に対する適応フィルタw′21の因果律を確実にするため、遅延は
として選択されてよい。
適応の効率的な実現と制御
上記の要件(i)−(vi)による最適なシステムに基づく手法のための有望な候補の同定後は、以下の節において、本発明の1つ以上の実施形態に従って、適応の効率的な実際の実現および制御について記載する。
広帯域ブロックオンライン周波数領域適応
本発明の広帯域適応方法およびシステムの様々な特徴および実施形態を十分に記載するには、初めに、上記フィルタ構造の計算上効率的な周波数領域構成を導入する必要がある。関連する量の表記を含むこの構成は、続く広帯域適応方法およびシステムの記述の基礎となる。この周波数領域のフレームワークの重要な特徴は、適応処理(例えばヘッセ行列の近似対角化)とフィルタリング処理(例えばFFTの効率を活用することによる高速畳み込み)との両方の効率を増加させることである。
区分ブロックに関する適応方法およびシステムの様々な特徴および例、つまり、(整数)ブロック長N=L/Kは、フィルタ長Lの一部分であることが可能であることを以下に記載する。このLとNのデカップリングは、本明細書に記載される方法およびシステムによって対処されるキーストローク過渡音等の極めて非定常な信号を扱うのに特に望ましい。
図3に示された例示的なブロック図による個々のサブフィルタwpqのうちの1つの入出力関係を考えてみる。時間nにおけるこのサブフィルタの出力信号は次のように読める。
ここで、wpq,lは、フィルタインパルス応答wpqの係数である。長さLのインパルス応答wpqを整数長N=L/KのKセグメントに区分することによって、方程式(2)は、次のように記述されうる。
ここで
である。
上付き記号Tは、行列のベクトルの交換を示す。長さNのベクトルwpq,k,k=0,...,K-1は、区分されたタップ重みベクトルのサブフィルタを表す。
長さNのブロック出力信号が定義され得る。上記の方程式(3)に基づき、
ここで、mはブロック時間指数であり、
である。
周波数領域の手順を導くために、ブロック出力信号(方程式(8))は、その周波数領域の対応物に変換される(例えばDFT(discrete Fourier Transform)行列を使う)。行列Up,k(m),k=0,...,K-1は、大きさ(N×N)のテプリッツ行列である。テプリッツ行列Up,k(m)は、その大きさを2倍にすることで、大きさ(2N×2N)の循環行列に変換可能であり、また循環行列は、要素e-j2πνn/(2N)(ν,n=0,...,2N-1)を有する(2N×2N)のDFT行列F2Nを使用して対角化可能なので、これにより、次が与えられる。
ここで、
の対角行列と、以下に示す表1に定義されるようなウィンドウ行列
および
とを有する。
これにより、最終的に、pq番目のフィルタの次のブロック出力信号を導く。
ここで、
である。
p=1,2,3かつq=1,2のための方程式(12)のコンパクトな式に基づいて、出力信号ブロック(例えば、図3に示され上記されるy,y)および/または最適化基準に必要なエラー信号ブロックは、これらの信号ベクトルの重ね合わせによって、容易に入手し得る。例えば、図6に示される例示システムの簡略化された構造において、フィルタw´21を適応させるためのブロックエラー信号e(m)は、次のように読める。
ここで、x(m)は、Dサンプルによって遅延されたマイク信号x(n)の長さNのブロックを示す。同様に、上記の元のブラインドSIMOシステム同定に基づく手法の適応方法は、方程式(16)における遅延した参照信号x(m)が方程式(12)によって別の適応サブフィルタ項に置き換わる、エラー信号ベクトルを使用して表現可能である。すなわち、次の通りである。
1つ以上の実施形態に従って、表2(下記)に表される実装は、周波数領域の係数ベクトルw´21に関して方程式(16)のエラー信号のブロック毎の最小化に基づいてよい。1つ以上の他の実施形態に従って、合成された係数ベクトル、
に関して方程式(17)のエラー信号を最小化する類似の構成(以下および表2により詳細に記載される)は、使用されてよい。
ロバストな統計値
コンパクトな区分ブロックの周波数領域表記におけるエラー信号の表現後は、以下に、本発明の1つ以上の実施形態に従って、適切なブロックに基づく最適化基準を記載する。上記のように、このフィルタ最適化は、キーストローク過渡音の独占的なアクティビティ(および音響環境における音声または他の信号の非アクティビティ)中に実行されるべきである。適切なブロックに基づく最適化基準が確立されると、以下に、残響環境において図6によるセミブラインド状況に調整された、本発明の新たな高速反応の過渡ノイズ検出システムおよび方法の詳細を記載する。
容易な説明のために、キーストローク過渡音アクティビティを有する単一トークの状況に関して、以下の特徴および実施例が記載される。殆どの一般の適応方法は最小二乗法に基づき、これらの中で、RLS(recursive least−squares)法は、極めて短いキーストローク過渡音が適応に対して励起信号として振舞うこの状況で重要な性質である、最速の初期収束速度を示すことが知られている。計算上効率的な実装を得るため、以下の記載においては、サンプル毎にO(log L)の複雑度を有するRLS的なFDAF(frequency−domain adaptive filter)と連動する。DFT領域におけるこの広帯域適応スキームは、上記の区分ブロックエラー(また「マルチディレイフィルタ」と呼ばれる場合もある)基づいて、構成は望ましいRLS型の収束特性の多くを保持することが知られている。
さらに、ダブルトーク中の適応のロバスト性を確実にすることは、RLSのような高速収束の手順に特に欠かせないため、1つ以上の実施形態に従って、本発明の方法およびシステムは、この周波数領域のフレームワーク内のロバストな統計値の概念を、(セミ)ブラインド状況に追加的に適用する。ロバストな統計値は、臨時的な外れ値(例えば、まれではあるが、適応制御の不可避的な検出失敗により生じ得る短いバースト)からの影響が本質的に低い推定処理をするのに効率的な技術である。高速収束(元の非ロバストな手法と同様な)を確実にし、一方で同時に、修正スーパーガウス(例えばヘヴィーテイル)バックグラウンドノイズpdf(probability distribution function)によって事実上記述することが可能な状況におけるような急激な発散を回避するため、本発明のロバストな適応方法およびシステムは、各々が下により詳細に記載される少なくとも以下のものを含む。
(1)修正最適化基準を使用するロバスト適応フィルタ推定、および
(2)適応(例えば時間的に変動する)スケールファクタ推定
ロバスト適応フィルタ推定
ノイズをスーパーガウス確率分布関数でモデル化して、外れ値がロバストな技術を得ることは、非二次最適化基準に対応する。ブロックに基づく重み付き最小二乗法の基準に従うことは、次の対応するM推定量に一般化される。
ここで、β(i,m)は、方法の異なるクラス、例えば、忘却係数0<λ<1を有するβ(i,m)=(1-λ)λm-iを定義して、RLS的な方法を得る重み関数であり、e(iN),...,e(iN+N-1)は、ブロック指数iを有する信号ベクトルe(i)(広帯域ブロックオンライン周波数領域適応に関する上の記載による)要素を示す。
次の数式
は、対応する非ロバスト手法を与えることに留意すべきである。一般に、ρ(・)は凸関数であり、sρはi番目のブロックに対する実数値の正スケールファクタ(以下にさらに記載するように)である。ロバストな統計値に対するこの理論の主な主張の1つは、結果の処理は、非線形関数ρ(・)が有界な導関数を有する限り、ロバストな特性を引き継ぐということである。有界な導関数の条件は、古典的な場合ρ(・)=|・|には満足されないと容易に証明することが可能である。
ロバスト性のための、特に単純だが効率的なρ(・)の選択は、次のいわゆるHuber推定量によって与えられる。
ここで、k>0は処理のロバスト性を制御する定数である。Huber推定量のためのρ(・)の導関数、
は有界性要件を確実に満たし、方程式(19)における選択は、最適な同変ロバスト推定量を、ガウスバックグラウンドノイズの仮定の下で与えることが示され得る。
下記の表2は、本明細書に記載される1つ以上の実施形態に従って、図6に示すシステム構成に基づく例示的な方法の擬似コードと、方程式(18)の最適化基準と、方程式(16)におけるマルチディレイ構成を説明する。図6に示されるように、1つ以上の実施形態に従って、全体のシステム600は、フォアグラウンドフィルタ620の適応を制御するために使用され得る別個のバックグラウンドフィルタ640(破線で示す)と同様に、フォアグラウンドフィルタ620(例えば、上記のような、強調された出力信号yを作成する主要な適応フィルタ)を含んでよい。これらの2つの構成要素(フォアグラウンドフィルタ620およびバックグラウンドフィルタ640)はまた、表2に示される擬似コードの2つの最下(主要)部に表される。
上の表2を参照し、必要なカルマン利得(方程式(21e)と(21f))(この利得は共通の入力信号X(m)によってフォアグラウンドフィルタとバックグラウンドフィルタとの両方の計算上の効率のために使用される)を含む擬似コードの最後の部分におけるフォアグラウンドフィルタ(方程式(21s)−(21y))と、必要な入力信号(方程式(21a)−(21c))とに注目する。上記基準に直接的に基づいたこのロバストな周波数領域の適応方法の導出は、当業者に既知である。[a]はベクトルa(例えば方程式(21t)における)のn番目の要素を示すことに留意すべきである。また、適応制御のためのバックグラウンドフィルタは、以下により詳細が記載される。
本発明の1つ以上の実施形態に従って、各ブロックにおける追加のオフライン反復(指数lで示す)は、さらに収束を加速させるために、表2による例示的な実施形態の重要な特徴である。そのようなブロックに関するオフライン反復は、ブラインド適応フィルタリングにおいてより一般的であり得るが、この方法は、教師ありの場合にも直接引き継がれる。事実、教師あり適応フィルタリングの場合、全体のカルマン利得計算はセンサ信号にのみ依存するので(カルマン利得は、ブロック毎に一度だけ計算される必要があることを意味する)、この手法は特に効率的である。さらに、少なくとも1つの実施形態にしたがって、この方法による多量のオフライン反復のための望ましくない「過剰学習」現象を回避しつつ、局所的な信号統計値に対する方法の急速なトラッキング能力の利用をある程度を許容するため、オフライン反復の総数lmaxは、以下に記載するように2ステップに細分化されてよい。
(1)第1lmax,sys反復中(1≦lmax,sys≪lmax)、適応の目標は、厳密にシステムに基づく。これらの反復後(上記表2における方程式(21w)を参照)のフィルタ係数の結果のセット
は、したがって1つのシグナルブロックから次にグローバルに妥当であると考えられる。したがって、ロバストな、一般化可能な推定を得るために、ロバストな統計値の方法がこれらの反復中に適用されてよい。
(2)反復の第2セットl=lmax,sys+1,...,lmaxにおいて、厳密なシステムに基づく目標は緩和されてよい。この反復の第2セットは、最終出力信号ブロック
を作成するが、フィルタ係数の結果のセットは、次の信号ブロックの処理に引き継がれない。言い換えれば、この第2ステップは、ポストフィルタリング段階であると見なすことが可能である。極端な場合lmax→∞では、手法は、周知のWienerポストフィルタ(例えば、下記の方程式(23)を参照)に似るということが分かる一方、理解すべき多くの相違が存在する。第1に、lmaxの選択は、パラメータ推定値の取り込みについて、前回の信号ブロックからトレードオフパラメータを与える。lmax<∞である限り、方程式(22)の一般的な表現に説明されるように、前回のパラメータ推定値は考慮される。第2に、ほとんどの通常のビンワイズWienerポストフィルタリング実装(典型的には短時間フーリエ変換(STFT)領域に)とは対照的に、方程式(22)における制限行列に反映されるように、追加のオフライン反復に起因するポストフィルタはなお広帯域最適化に基づいている。この広帯域の特性は、方程式(23)における極端な場合lmax→∞に見られ、2L×2Lの逆行列は行列
のため厳密にはスパースではない。このような特徴にもかかわらず、表2に与えられた例示的な方法後の反復の実現は、とりわけ、周波数領域における更新方程式のO(log L)複雑度と、カルマン利得計算(表2における方程式(21e)と(21f))は全ての反復に関して一度だけ行われる必要があるという事実と、のためにそれでもなお計算上効率的である。
オフライン反復を使用する方法は、フィルタ長Lおよびブロック長Nのデカップリングを可能にするマルチディレイ(例えば区分)フィルタモデルによって特に効率的であることに留意すべきである。そのようなモデルは、マルチディレイモデルが局所的な信号統計値のトラッキング能力をさらに向上させるので、極めて非定常なキーストローク過渡音を有する本発明の適用において有効である。
ここまでに記載されたビルディングブロックの全ては、広帯域適応MIMOフィルタリングに基づいてキーストローク過渡音キャンセルに関して、上に記載された任意のまたは全ての例示的な全体のシステム構成に引き継がれてよいこともまた理解されるべきである。
スケールファクタ推定
フィルタ係数ベクトルの推定以外には、スケーリングファクタsρが、ロバストな統計値(上記の方程式(18))の方法の他の主要な要素であり、またランダムな誤差の速度に対する適切な推定値である。実際には、sρは、さらにに依存する残留誤差から得られてよい。本発明の1つ以上の実施形態に従って、スケールファクタは、例えば、局所的な音響環境におけるバックグラウンドノイズレベルを反映するべきであり、ダブルトーク中の短いエラーバーストに対してロバストであるべきであり、例えば話者の動きによって生じ得る、音響混合システムにおける変化による残留誤差の長期の変化(例えば、図6に示され上記される、例示的なシステムにおけるインパルス応答hqp)を追跡するべきである。本発明の1つ以上の実施形態に従って、ブロック長Nへの対応するブロック構成は表2における方程式(21z)に適用される。ここでsρ(0)=σであり、βはkに依存する規格化定数である。
セミブラインドマルチディレイダブルトーク検出
前節では、先に提示した要件(i)−(vi)に基づいた、全体のシステム構成の少なくとも1つの実施例を展開および記載し、また、本発明の少なくとも1つの実施形態(例えば、表2における擬似コードの最後の部分)に従って、適応キーストローク過渡音キャンセラの主要な部分を展開および記載した。そのようなものとして、以下の節で、本発明の1つ以上の実施形態に従って、適応制御の様々な特徴と面の詳細を記載する(例えば、ダブルトーク検出器(表2における第1の主要な部分)の使用)。以下に、信頼できる決定機構を、キーストローク過渡音の独占的なアクティビティ中にだけキーストローク過渡音キャンセラの適応を実行するために、展開および記載する。
例えば、以下の記載の基礎をなす考察は、上の前節に記載したようなキーストローク過渡音検出用(例えば、ラップトップコンピュータ等の携帯型コンピューティング装置の)キーボード参照マイクを利用する本発明のセミブラインドシステム構造に基づいてよい。しかしながら、キーボード参照マイクが利用可能であるにもかかわらず、少なくとも現在の状況においては、信頼できる適応制御は、周知の教師あり適応フィルタリングの場合(例えば音響エコー用)に関する適応制御問題よりも困難な課題であるということが分かる。これは、キーストローク過渡音の伝播経路における非常に有意な非線形的要素(例えば、上記の要件(iii)−(v))のみならず、主にキーボード参照マイクへの所望の音声信号の顕著なクロストークによる。したがって、従来の手法に利用された単一のパワーに基づく、または相関に基づく決定統計は、この場合には十分ではない。
代わりに、本発明は、複数のマイクチャンネルによる空間的選択性もまた利用する複数の決定基準に基づく新規な適応制御を提供する。少なくともいくつかの面で、結果の方法は、マルチディレイに基づく検出機構のセミブラインド一般化として見なしてよい。1つ以上の実施形態に従って、適応制御に統合されてよいこの基準は、例えば、キーボード参照信号のパワーと、非線形効果と、近似ブラインド混合のシステム同定およびソース定位とを含む。以下に各々をさらに記載する。
キーボードと直下の参照マイク間の近接性により、方程式(21i)(上の表2に示す)によるキーボード参照信号の信号パワー
は、典型的には、キーストロークのアクティビティについて非常に信頼できる指標を与える。検出器の迅速な反応を確実にするために、ブロック長Nは、マルチディレイフィルタモデルを使用してフィルタ長Lよりも短くなるよう選択される。さらに、忘却係数λbは、忘却係数λよりも小さくあるべきである。忘却係数(0から1の間)を選択することで、信号パワーを推定する効果的なウィンドウ長を、事実上、定義することになる。小さい忘却係数は、短いウィンドウ長に対応し、したがって、(時間的に変動する)信号統計値の早いトラッキングに対応する。
キーストロークの独占的なアクティビティに関して決定するために、この第1基準は、以下に詳細を記載するさらなる基準によって補足されなければならないことが理解されるべきである。教師あり適応フィルタに基づく既知のフォアグラウンドバックグラウンド構造にやや類似して、少なくとも1つの実施形態において、本発明の適応制御は、このフォアグラウンドバックグラウンド構造をブラインド/セミブラインドの場合に引き継ぐ。以下に示すように、バックグラウンドにおける適応フィルタの使用は、異なる検出基準の計算間の相乗効果のための様々な機会を提供する。
第1の検出変数としての短時間の信号パワー
に加えて、検出変数ξは、線形近似のxにおける非線形寄与に対する比を示す。
より重要な基準の1つは、検出変数ξによって示される。この基準は、時空間ソース信号アクティビティ検出器として理解することが可能である。検出変数ξとξとの両方は、適応バックグラウンドフィルタ(フォアグラウンドフィルタに類似しているが、若干大きな刻み幅および、検出機構の迅速な反応のための小さい忘却係数を有する)に基づいていることに留意すべきである。
検出変数ξは、マイクアレイ配置を利用する。図6に説明される例示的な物理的構成によって、h23の直接経路は、h13の直接経路よりも有意に短いと確実に仮定することが可能である。バックグラウンドフィルタ係数の最大値の関係および到達の時間差によって、ソースsとsとの両方のアクティビティの近似的決定(上の表2に記載されるように、方程式(21p)の1≦a<b<c≦L)を行うことが可能である。少なくとも1つの実施形態に従って、さらに検出精度を向上するために、バックグラウンドフィルタ係数のスパース学習のための正規化を適用してもよい(方程式(21m)−(21o)、ここでΦ(・,a)は、収縮演算子としても知られる、幅aのセンタークリッパを示す)。
図8は、本明細書に記載される1つ以上の実施形態による、セミブラインド適応フィルタリングを使用して音響キーストローク過渡音抑制/キャンセルのために構成された、例示的なコンピュータ(800)のハイレベルブロック図である。少なくとも1つの実施形態に従って、コンピュータ(800)は、複数のマイクチャンネルによる空間的選択性を利用する複数の決定基準に基づいて、フィルタの適応制御を行うように構成されてよい。適応制御に統合してもよい基準の例は、キーボードマイクによって提供される参照信号のパワーと、非線形効果と、近似ブラインド混合のシステム同定およびソース定位とを含む。非常に基本的な構成(801)においては、コンピューティング装置(800)は典型的には、1つ以上のプロセッサ(810)とシステムメモリ(820)とを含む。プロセッサ(810)とシステムメモリ(820)との間で通信をするために、メモリバス(830)を使用することが可能である。
所望の構成によっては、プロセッサ(810)は、マイクロプロセッサ(オP)、マイクロコントローラ(オC)、デジタル信号プロセッサ(DSP)、またはその任意の組み合わせを含むがそれに限定されるものではない、任意の種類でよい。プロセッサ(810)は、レベル1キャッシュ(811)およびレベル2キャッシュ(812)等のキャッシングの1つ以上のレベルと、プロセッサコア(813)と、レジスタ(814)とを含むことが可能である。プロセッサコア(813)は、論理演算装置(ALU)と、浮動小数点ユニット(FPU)と、デジタル信号処理コア(DSP Core)、またはその任意の組み合わせを含むことが可能である。メモリコントローラ(815)は、プロセッサ(810)と共に使用することが可能である。またはいくつかの実装においては、メモリコントローラ(815)はプロセッサ(810)の内部部品であってよい。
所望の構成によっては、システムメモリ(820)は、揮発性メモリ(例えばRAM)、不揮発性メモリ(例えばROM、フラッシュメモリ等)、またはその任意の組み合わせを含むがそれに限定されるものではない、任意の種類でよい。システムメモリ(820)は、典型的には、オペレーティングシステム(821)と、1つ以上のアプリケーション(822)と、プログラムデータ(824)とを含む。アプリケーション(822)は、音声データを含むオーディオ信号中の過渡ノイズを、本明細書に記載される1つ以上の実施形態に従って適応有限インパルス応答(FIR)フィルタを使用して選択的に抑制/キャンセルする適応フィルタシステム(823)を含んでよい。プログラムデータ(824)は、1つ以上の処理装置によって実行された場合、セミブラインド適応フィルタリングを使用して音響キーストローク過渡音抑制/キャンセルの方法を実装する、記憶命令を含んでよい。
加えて、少なくとも1つ以上の実施形態に従って、プログラムデータ(824)は、参照マイク(例えば図1に示す例示的なシステム100における参照マイク115)によって測定される過渡ノイズに関するデータ(例えば、パワーデータと、非線形データと、近似ブラインド混合のシステム同定およびソース定位データと)を含み得る参照信号データ(825)を含んでよい。いくつかの実施形態では、アプリケーション(822)は、オペレーティングシステム(821)上でプログラムデータ(824)と動作するよう構成されることが可能である。
コンピューティング装置(800)は、追加の特徴または機能性ならびに、基本的な構成(801)任意および必要な装置とインターフェイスとの間の通信を行うための追加のインターフェイスを有することが可能である。
システムメモリ(820)は、コンピュータ記憶媒体の例である。コンピュータ記憶媒体は、RAM、ROM、EEPROM、フラッシュメモリもしくは他のメモリ技術、CD−ROM、DVD(digital versatile disk)もしくは他の光学的記憶、磁気カセット、磁気テープ、磁気ディスク記憶もしくは他の磁気記憶装置、または、所望の情報を記憶するために使用可能であり、コンピューティング装置(800)によってアクセス可能な任意の他の媒体を含むがそれに限定されるものではない。いかなるそのようなコンピュータ記憶媒体も、装置(800)の一部であり得る。
コンピューティング装置(800)は、携帯電話、スマートフォン、個人情報端末(PDA)、パーソナルメディアプレイヤ装置、タブレットコンピュータ(タブレット)、無線ウェブ閲覧装置、パーソナルヘッドセット装置、アプリケーション専用装置、または任意の上記機能を含むハイブリッド装置等のスモールフォームファクタ携帯(またはモバイル)電子装置の一部として実装可能である。コンピューティング装置(800)はまた、ラップトップコンピュータおよびラップトップではないコンピュータ構成の両方を含むパーソナルコンピュータとして実装可能である。
上記の詳細な説明においては、ブロック図、フローチャート、および/または実施例を使用しつつ、装置の様々な実施形態および/または処理を記載した。そのようなブロック図、フローチャート、および/または実施例が1つ以上の機能および/または動作を含む限り、そのようなブロック図、フローチャート、または実施例内の各機能および/または動作は、広い範囲のハードウェア、ソフトウェア、ファームウェア、または仮想的にその任意の組み合わせによって、個別および/または集合的に実装可能であることが当業者に理解されるであろう。1つ以上の実施形態に従って、本明細書に記載された本発明のいくつかの部分は、特定用途向けIC(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、デジタル信号プロセッサ(DSP)、または他の集積形式を介して実装されてよい。しかしながら、当業者は、本明細書に記載された実施形態のいくつかの面は、全体または一部が、1つ以上のコンピュータ上で動作する1つ以上のコンピュータプログラムとして、1つ以上のプロセッサ上で動作する1つ以上のプログラムとして、ファームウェアとして、または仮想的にその任意の組み合わせとして、集積回路において同等に実装可能であることと、回路の設計をすることおよび/またはソフトウェアおよび/またはファームウェアのコードを書くことは、本明細書に照らして、当業者の技術の範囲内に十分あることと、を認識するであろう。
加えて、当業者は、本明細書に記載された本発明の機序は、プログラム製品として様々な形態で配布可能であることと、本明細書に記載された本発明の説明的な実施形態は、実際に配布を行うために使用される非一時的な信号保持媒体の特定の種類に関わりなく当てはまることと、を理解するであろう。非一時的な信号保持媒体の例は、フロッピー(登録商標)ディスク、ハードディスクドライブ、コンパクトディスク(CD)、デジタルビデオディスク(DVD)、デジタルテープ、コンピュータメモリ等の記録可能型媒体と、デジタルおよび/またはアナログ通信媒体(例えば、光ファイバケーブル、導波管、有線通信リンク、無線通信リンク)等の伝送型媒体と、を含むがそれに限定されるものではない。
本明細書中の実質的にいかなる複数形および/または単数形の用語の使用に関しても、当業者は、複数形を単数形に、および/または単数形を複数形に、状況および/または用途に適切に、解釈可能である。明確さのために、様々な単数形/複数形の置換が本明細書に明示的に記載され得る。
従って、本発明の特定の実施形態が記載された。他の実施形態は、以下の請求項の範囲内である。いくつかの場合では、請求項に記載の動作は異なる順番で実行可能であるが、それでも所望の結果が達成される。加えて、添付の図に説明された処理は、所望の結果を達成するにあたり、示された特定の順または順番を必ずしも必要としない。ある実装では、マルチタスキングおよび並列処理が有利であり得る。

Claims (18)

  1. 過渡ノイズを抑制するシステムであって、
    1つ以上のソースから取得されるオーディオ信号を入力する複数の入力センサであって、前記オーディオ信号は、前記入力センサによって取得される音声データおよび過渡ノイズを含む、複数の入力センサと、
    前記過渡ノイズに関するデータを含む参照信号を入力する参照センサであって、前記入力センサとは別個に設置された参照センサと、
    前記参照信号に含まれる前記データに基づいて、前記オーディオ信号から前記過渡ノイズを選択的にフィルタリングして前記音声データを抽出するとともに、抽出された前記音声データを含む強調されたオーディオ信号を出力する複数のフィルタと、を備えるシステム。
  2. 前記フィルタの各々は、広帯域有限インパルス応答フィルタである、請求項1に記載のシステム。
  3. 前記フィルタは、
    前記過渡ノイズを適応的にフィルタリングして、強調されて出力される前記オーディオ信号を作成する適応フォアグラウンドフィルタと、
    前記フォアグラウンドフィルタの適応を制御する適応バックグラウンドフィルタと、を含む請求項1または2に記載のシステム。
  4. 前記バックグラウンドフィルタは、前記参照信号に含まれる前記データに基づいて前記フォアグラウンドフィルタの適応を制御する、請求項3に記載のシステム。
  5. 前記バックグラウンドフィルタは、過渡ノイズが前記オーディオ信号において検出されることに応じて前記フォアグラウンドフィルタの適応を制御する、請求項3に記載のシステム。
  6. 前記バックグラウンドフィルタは、前記参照信号のパワーと、前記参照信号の線形近似の非線形寄与に対する比と、前記参照信号に関連する時空間ソース信号アクティビティデータとのうちの1つ以上に基づいて前記フォアグラウンドフィルタの適応を制御する、請求項3に記載のシステム。
  7. 前記オーディオ信号に含まれる前記過渡ノイズは、ユーザ装置のキーベッドから生成されるキーストロークノイズである、請求項1乃至6のいずれか一項に記載のシステム。
  8. 前記入力センサおよび前記参照センサは、マイクである、請求項1乃至7のいずれか一項に記載のシステム。
  9. 前記複数のフィルタは、前記参照センサから入力された前記参照信号を減算することによって、前記オーディオ信号から前記過渡ノイズをフィルタリングする、請求項1乃至8のいずれか一項に記載のシステム。
  10. 過渡ノイズを抑制する方法であって、
    複数の入力センサから、1つ以上のソースから取得される入力オーディオ信号を受信する工程であって、前記オーディオ信号は、前記入力センサによって取得される音声データおよび過渡ノイズを含む工程と、
    参照センサから、前記過渡ノイズに関するデータを含む参照信号を受信する工程であって、前記参照センサは前記入力センサとは別個に設置された工程と、
    前記参照信号に含まれる前記データに基づいて、前記オーディオ信号から前記過渡ノイズを選択的にフィルタリングして前記音声データを抽出する工程と、
    抽出された前記音声データを含む強調されたオーディオ信号を出力する工程と、を備える方法。
  11. 広帯域有限インパルス応答フィルタを使用して、前記過渡ノイズは前記オーディオ信号から選択的にフィルタリングされる、請求項10に記載の方法。
  12. 前記過渡ノイズを適応的にフィルタリングするようフォアグラウンドフィルタを適応させて、強調されて出力される前記オーディオ信号を作成する工程をさらに備える、請求項10または11に記載の方法。
  13. バックグラウンドフィルタを使用して、前記フォアグラウンドフィルタの適応を制御する工程をさらに備える、請求項12に記載の方法。
  14. 前記バックグラウンドフィルタは、前記参照信号に含まれる前記データに基づいて前記フォアグラウンドフィルタの適応を制御する、請求項13に記載の方法。
  15. 前記バックグラウンドフィルタは、過渡ノイズが前記オーディオ信号において検出されることに応じて前記フォアグラウンドフィルタの適応を制御する、請求項13に記載の方法。
  16. 前記バックグラウンドフィルタは、前記参照信号のパワーと、前記参照信号の線形近似の非線形寄与に対する比と、前記参照信号に関連する時空間ソース信号アクティビティデータとのうちの1つ以上に基づいて前記フォアグラウンドフィルタの適応を制御する、請求項13に記載の方法。
  17. 前記オーディオ信号に含まれる前記過渡ノイズは、ユーザ装置のキーベッドから生成されるキーストロークノイズである、請求項11乃至16のいずれか一項に記載の方法。
  18. 前記入力センサおよび前記参照センサは、マイクである、請求項11乃至17のいずれか一項に記載の方法。
JP2018513796A 2015-12-30 2016-10-18 過渡ノイズを抑制するシステムおよび方法 Active JP6502581B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/984,373 US9881630B2 (en) 2015-12-30 2015-12-30 Acoustic keystroke transient canceler for speech communication terminals using a semi-blind adaptive filter model
US14/984,373 2015-12-30
PCT/US2016/057441 WO2017116532A1 (en) 2015-12-30 2016-10-18 An acoustic keystroke transient canceler for communication terminals using a semi-blind adaptive filter model

Publications (2)

Publication Number Publication Date
JP2018533052A true JP2018533052A (ja) 2018-11-08
JP6502581B2 JP6502581B2 (ja) 2019-04-17

Family

ID=57227110

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018513796A Active JP6502581B2 (ja) 2015-12-30 2016-10-18 過渡ノイズを抑制するシステムおよび方法

Country Status (6)

Country Link
US (1) US9881630B2 (ja)
EP (1) EP3329488B1 (ja)
JP (1) JP6502581B2 (ja)
KR (1) KR102078046B1 (ja)
CN (1) CN107924684B (ja)
WO (1) WO2017116532A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019071127A1 (en) * 2017-10-05 2019-04-11 iZotope, Inc. IDENTIFICATION AND DELETION OF NOISE IN AN AUDIO SIGNAL
JP6894402B2 (ja) * 2018-05-23 2021-06-30 国立大学法人岩手大学 システム同定装置及び方法及びプログラム及び記憶媒体
WO2019233416A1 (zh) * 2018-06-05 2019-12-12 Dong Yaobin 一种静电扬声器、动圈式扬声器及处理音频信号的装置
CN108806709B (zh) * 2018-06-13 2022-07-12 南京大学 基于频域卡尔曼滤波的自适应声回声抵消方法
US11227621B2 (en) 2018-09-17 2022-01-18 Dolby International Ab Separating desired audio content from undesired content
CN110995950B (zh) * 2019-11-08 2022-02-01 杭州觅睿科技股份有限公司 基于pc端和移动端回音消除自适应的方法
US11521636B1 (en) 2020-05-13 2022-12-06 Benjamin Slotznick Method and apparatus for using a test audio pattern to generate an audio signal transform for use in performing acoustic echo cancellation
US11107490B1 (en) 2020-05-13 2021-08-31 Benjamin Slotznick System and method for adding host-sent audio streams to videoconferencing meetings, without compromising intelligibility of the conversational components
CN113470676A (zh) * 2021-06-30 2021-10-01 北京小米移动软件有限公司 声音处理方法、装置、电子设备和存储介质
CN116189697A (zh) * 2021-11-26 2023-05-30 腾讯科技(深圳)有限公司 一种多通道回声消除方法和相关装置
US11875811B2 (en) * 2021-12-09 2024-01-16 Lenovo (United States) Inc. Input device activation noise suppression

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010191425A (ja) * 2009-02-13 2010-09-02 Honda Motor Co Ltd 残響抑圧装置及び残響抑圧方法
US20140301558A1 (en) * 2013-03-13 2014-10-09 Kopin Corporation Dual stage noise reduction architecture for desired signal extraction

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5694474A (en) * 1995-09-18 1997-12-02 Interval Research Corporation Adaptive filter for signal processing and method therefor
US6002776A (en) * 1995-09-18 1999-12-14 Interval Research Corporation Directional acoustic signal processor and method therefor
JP2882364B2 (ja) * 1996-06-14 1999-04-12 日本電気株式会社 雑音消去方法及び雑音消去装置
JP2874679B2 (ja) 1997-01-29 1999-03-24 日本電気株式会社 雑音消去方法及びその装置
KR100307662B1 (ko) * 1998-10-13 2001-12-01 윤종용 가변적인수행속도를지원하는에코제거장치및방법
JP2000252881A (ja) * 1999-02-25 2000-09-14 Mitsubishi Electric Corp ダブルトーク検知装置並びにエコーキャンセラ装置およびエコーサプレッサー装置
US6748086B1 (en) * 2000-10-19 2004-06-08 Lear Corporation Cabin communication system without acoustic echo cancellation
WO2003036614A2 (en) * 2001-09-12 2003-05-01 Bitwave Private Limited System and apparatus for speech communication and speech recognition
US7454332B2 (en) * 2004-06-15 2008-11-18 Microsoft Corporation Gain constrained noise suppression
US7760758B2 (en) * 2004-12-03 2010-07-20 Nec Corporation Method and apparatus for blindly separating mixed signals, and a transmission method and apparatus of mixed signals
US8130820B2 (en) * 2005-03-01 2012-03-06 Qualcomm Incorporated Method and apparatus for interference cancellation in a wireless communications system
US7707034B2 (en) * 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
EP1793374A1 (en) * 2005-12-02 2007-06-06 Nederlandse Organisatie voor Toegepast-Natuuurwetenschappelijk Onderzoek TNO A filter apparatus for actively reducing noise
ES2376178T3 (es) * 2007-06-14 2012-03-09 France Telecom Post-tratamiento de reducción del ruido de cuantificación de un codificador en la decodificación.
JP5075664B2 (ja) * 2008-02-15 2012-11-21 株式会社東芝 音声対話装置及び支援方法
US8509450B2 (en) * 2010-08-23 2013-08-13 Cambridge Silicon Radio Limited Dynamic audibility enhancement
JP5817366B2 (ja) * 2011-09-12 2015-11-18 沖電気工業株式会社 音声信号処理装置、方法及びプログラム
US9173025B2 (en) * 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals
US9786275B2 (en) * 2012-03-16 2017-10-10 Yale University System and method for anomaly detection and extraction
US9117457B2 (en) * 2013-02-28 2015-08-25 Signal Processing, Inc. Compact plug-in noise cancellation device
US8867757B1 (en) 2013-06-28 2014-10-21 Google Inc. Microphone under keyboard to assist in noise cancellation
CN103440871B (zh) * 2013-08-21 2016-04-13 大连理工大学 一种语音中瞬态噪声抑制的方法
CN104658544A (zh) * 2013-11-20 2015-05-27 大连佑嘉软件科技有限公司 一种语音中瞬态噪声抑制的方法
CN104157295B (zh) * 2014-08-22 2018-03-09 中国科学院上海高等研究院 用于检测及抑制瞬态噪声的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010191425A (ja) * 2009-02-13 2010-09-02 Honda Motor Co Ltd 残響抑圧装置及び残響抑圧方法
US20140301558A1 (en) * 2013-03-13 2014-10-09 Kopin Corporation Dual stage noise reduction architecture for desired signal extraction

Also Published As

Publication number Publication date
WO2017116532A1 (en) 2017-07-06
US20170194015A1 (en) 2017-07-06
CN107924684B (zh) 2022-01-11
EP3329488B1 (en) 2019-09-11
KR102078046B1 (ko) 2020-02-17
CN107924684A (zh) 2018-04-17
EP3329488A1 (en) 2018-06-06
JP6502581B2 (ja) 2019-04-17
US9881630B2 (en) 2018-01-30
KR20180019717A (ko) 2018-02-26

Similar Documents

Publication Publication Date Title
JP6502581B2 (ja) 過渡ノイズを抑制するシステムおよび方法
CN110100457B (zh) 基于噪声时变环境的加权预测误差的在线去混响算法
Krueger et al. Speech enhancement with a GSC-like structure employing eigenvector-based transfer function ratios estimation
Xiao et al. Speech dereverberation for enhancement and recognition using dynamic features constrained deep neural networks and feature adaptation
US10403300B2 (en) Spectral estimation of room acoustic parameters
JP2014502074A (ja) 後期残響成分のモデリングを含むエコー抑制
Dietzen et al. Integrated sidelobe cancellation and linear prediction Kalman filter for joint multi-microphone speech dereverberation, interfering speech cancellation, and noise reduction
CN111415686A (zh) 针对高度不稳定的噪声源的自适应空间vad和时间-频率掩码估计
Huang et al. A family of maximum SNR filters for noise reduction
Song et al. An integrated multi-channel approach for joint noise reduction and dereverberation
JP6190373B2 (ja) オーディオ信号ノイズ減衰
Cohen et al. An online algorithm for echo cancellation, dereverberation and noise reduction based on a Kalman-EM Method
Darazirar et al. A two-sensor Gauss–Seidel fast affine projection algorithm for speech enhancement and acoustic noise reduction
Han et al. Parallel processing of distributed beamforming and multichannel linear prediction for speech denoising and deverberation in wireless acoustic sensor networks
Pfeifenberger et al. Eigenvector-Based Speech Mask Estimation Using Logistic Regression.
JP5787126B2 (ja) 信号処理方法、情報処理装置、及び信号処理プログラム
Park et al. Integrated acoustic echo and background noise suppression technique based on soft decision
Park et al. Two‐Microphone Generalized Sidelobe Canceller with Post‐Filter Based Speech Enhancement in Composite Noise
Delcroix et al. Multichannel speech enhancement approaches to DNN-based far-field speech recognition
Wang et al. Low-latency real-time independent vector analysis using convolutive transfer function
Bendoumia et al. Recursive adaptive filtering algorithms for sparse channel identification and acoustic noise reduction
Tanan et al. Acoustic echo and noise cancellation using Kalman filter in a modified GSC framework
Djendi An efficient wavelet-based adaptive filtering algorithm for automatic blind speech enhancement
Ruiz et al. Cascade algorithms for combined acoustic feedback cancelation and noise reduction
Kodrasi et al. Instrumental and perceptual evaluation of dereverberation techniques based on robust acoustic multichannel equalization

Legal Events

Date Code Title Description
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20181004

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181016

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190305

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190320

R150 Certificate of patent or registration of utility model

Ref document number: 6502581

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250