JP2020504966A - 遠距離音の捕捉 - Google Patents

遠距離音の捕捉 Download PDF

Info

Publication number
JP2020504966A
JP2020504966A JP2019536102A JP2019536102A JP2020504966A JP 2020504966 A JP2020504966 A JP 2020504966A JP 2019536102 A JP2019536102 A JP 2019536102A JP 2019536102 A JP2019536102 A JP 2019536102A JP 2020504966 A JP2020504966 A JP 2020504966A
Authority
JP
Japan
Prior art keywords
signal
noise
noise ratio
block
signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019536102A
Other languages
English (en)
Other versions
JP2020504966A5 (ja
Inventor
マルクス クリストフ,
マルクス クリストフ,
Original Assignee
ハーマン ベッカー オートモーティブ システムズ ゲーエムベーハー
ハーマン ベッカー オートモーティブ システムズ ゲーエムベーハー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ハーマン ベッカー オートモーティブ システムズ ゲーエムベーハー, ハーマン ベッカー オートモーティブ システムズ ゲーエムベーハー filed Critical ハーマン ベッカー オートモーティブ システムズ ゲーエムベーハー
Publication of JP2020504966A publication Critical patent/JP2020504966A/ja
Publication of JP2020504966A5 publication Critical patent/JP2020504966A5/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/23Direction finding using a sum-delay beam-former

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Otolaryngology (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

遠距離音捕捉のためのシステムの方法であって、収音しM≧2個のマイクロホン信号を提供することと、M個のマイクロホン信号(および1つ以上の基準信号)をエコーキャンセル処理しM個のエコーキャンセルされた信号を提供することと、M個のエコーキャンセルされた信号をビームフォーミング処理しB≧1個のビームフォーミングされた信号を提供することと、を含む。方法は、B個のビームフォーミングされた信号をビームステアリング処理することをさらに含み得、ビームステアリング処理は、所望のソースビーム信号を検出することを含み得、所望のソースビーム信号は所望のソースの方角を指す音波ビームを表し得る。【選択図】図1

Description

本開示は、遠距離音捕捉のためのシステムおよび方法(一般に「システム」と呼ばれる)に関する。
遠距離マイクロホンまたは遠距離マイクロホンシステムとも呼ばれる遠距離音捕捉のためのシステムは、遠距離マイクロホンからより長い距離(例えば、数メートル)に位置する所望の音源からの音を記録するように適合されている。しかしながら、音源と遠距離マイクロホンとの間の距離が大きいほど、所望の音の対雑音比は低くなる。本明細書における用語「雑音」は、情報、アイデアまたは感情、例えば、音声または音楽を伝えない音を含む。雑音が所望されない場合は、干渉雑音とも呼ばれる。音声または音楽が家庭またはオフィスの内部のような雑音の多い環境に導入されると、内部に存在する雑音が所望の音声通信または音楽の提供に対して所望しない妨害効果を及ぼすことがある。雑音低減(Noise reduction)は一般的に所望しない信号を減衰させることであるが、所望する信号を増幅させることも含むことがある。所望の信号は音声信号であり得る一方、所望されない信号は所望の信号と干渉する環境内の任意の音であり得る。雑音低減に関連して使用される次の3つの主要なアプローチがある。指向性ビームフォーミング、スペクトル減算、およびピッチベースの音声強調。空間を伝搬する信号を受信するように設計されたシステムは、しばしば干渉信号の存在に遭遇する。所望の信号と干渉物が同一の時間的周波数帯域を占有する場合、時間的フィルタリングは、所望の信号を干渉から分離するために使用することができない。雑音低減の改善が望まれている。
遠距離音捕捉のためのシステムは、収音しM個のマイクロホン信号を提供するように構成されたM≧2個のマイクロホンと、M個のマイクロホン信号(および1つ以上の基準信号)を受信しM個のエコーキャンセルされた信号を提供するように構成されたマルチチャンネル音響エコーキャンセラブロックと、M個のエコーキャンセルされた信号を受信しM個のエコーキャンセルされた信号を処理してB≧1個のビームフォーミングされた信号を提供するように構成された(固定)ビームフォーマブロックと、を含む。
音声ポーズ検出器は、時間領域の入力信号を周波数領域の入力信号に変換するように構成された時間−周波数変換ブロックと、周波数領域の前記入力信号を周波数領域の多数の中間信号に分割するように構成されたスプリッタと、周波数領域において各中間信号に含まれる雑音を推定するように構成された多数の雑音推定器と、を含む。音声ポーズ検出器は、さらに、周波数領域の前記多数の中間信号と周波数領域の各中間信号に含まれる前記推定された雑音とから、周波数領域の各入力信号の信号対雑音比を評価するように構成された多数の信号対雑音評価器と、各信号対雑音比を所定の閾値と比較して信号対雑音比較信号を提供するように構成された多数の比較器と、前記信号対雑音比較信号を合計し、和信号を提供するように構成された加算器と、前記和信号における音声信号の発生および非発生を検出し、音声信号の発生および非発生を示す音声活動信号を提供するように構成された音声活動検出器と、を含む。
遠距離音捕捉のための方法であって、収音しM≧2個のマイクロホン信号を提供することと、M個のマイクロホン信号(および1つ以上の基準信号)をエコーキャンセル処理しM個のエコーキャンセルされた信号を提供することと、M個のエコーキャンセルされた信号をビームフォーミング処理しB≧1個のビームフォーミングされた信号を提供すること、を含む方法。
音声ポーズ検出方法は、時間領域の入力信号を周波数領域の入力信号に変換することと、周波数領域の入力信号を周波数領域の多数の中間信号に分割することと、周波数領域において各中間信号に含まれる雑音を推定することと、周波数領域の多数の中間信号と周波数領域の各中間信号に含まれる前記推定された雑音とから、周波数領域の各入力信号の信号対雑音比を評価することと、を含む。前記方法は、さらに各信号対雑音比を所定の閾値と比較して信号対雑音比較信号を提供することと、前記信号対雑音比較信号を合計し、和信号を提供することと、前記和信号中の音声信号の発生および非発生を検出し、音声信号の発生および非発生を示す音声活動信号を提供することと、を含む。
他のシステム、方法、特徴および利点は、以下の詳細な説明および添付の図面を検討することにより当業者には明らかであり、または明らかになるであろう。すべてのそのような追加のシステム、方法、特徴および利点はこの説明の中に含まれ、本発明の範囲内にあり、そして添付の特許請求の範囲によって保護されることが意図される。
このシステムは、以下の図面および説明を参照してよりよく理解され得る。図中の構成要素は必ずしも縮尺通りではなく、代わりに本発明の原理を例示することに重点が置かれている。さらに、図面において、同様の参照番号は、異なる図を通して対応する部分を示す。
例示的な遠距離マイクロホンシステムを示す概略図である 図1に示す遠距離マイクロホンシステムに適用可能な例示的音響エコーキャンセラを示す概略図である。 例示的なフィルタおよび和ビームフォーマを示す概略図である。 例示的なビームステアリングブロックを示す概略図である。 適応ブロッキングフィルタを用いずに適応ポストフィルタを用いた適応ビームフォーマの単純化された構造を示す概略図である。 例示的な音声ポーズ検出ブロックを有する例示的な遠距離マイクロホンの概略図である。 周波数領域で動作する例示的な音声ポーズ検出ブロックを示す概略図である。
図は、1つまたは複数の構成要素の文脈で概念を説明している。図に示される様々な構成要素は、例えば、適切なハードウェア上で実行されるソフトウェアまたはファームウェアプログラムコード、ハードウェア、およびそれらの任意の組み合わせを含む任意の方法で実施することができる。いくつかの例では、様々な構成要素は、実際の実施態様における対応する構成要素の使用を反映し得る。特定の構成要素は、複数の副構成要素に分割されてもよく、特定の構成要素は、並列的な方法を含む、本明細書に示されたものとは異なる順序で実施されてもよい。
所望の信号と干渉信号は通常異なる空間的位置から発生することが判明している。したがって、ビームフォーミング技術を使用して、オーディオ用途における信号対雑音比を改善することができる。一般的なビームフォーミング技術は、遅延和技術、グリフィス−ジムアルゴリズムなどのアルゴリズムを使用する適応有限インパルス応答(FIR)フィルタリング技術、および人間の両耳聴覚システムのモデリングに基づく技術を含む。
ビームフォーマは、重みの選択方法に応じて、データに依存しないものと統計的に最適なものに分類できる。データに依存しないビームフォーマにおける重みはアレイデータに依存せず、すべての信号/干渉シナリオに対して特定の応答を提供するように選択される。統計的に最適なビームフォーマは、データの統計に基づいてビームフォーマの応答を最適化するために重みを選択する。データ統計はしばしば未知であり、時間と共に変化する可能性があるため、統計的に最適な解に収束する重みを得るために適応アルゴリズムが使用される。計算上の考慮事項により、多数のセンサからなるアレイを有する部分的に適応的なビームフォーマの使用が必要となる。最適なビームフォーマを実現するために多くの異なるアプローチが提案されてきた。一般に、統計的に最適なビームフォーマは、ビームフォーマ出力における信号対雑音比を最大にしようとして、干渉源の方向にヌル(nulls)を配置する。
多くの用途において、所望の信号は未知の強度のものであり得、常に存在するとは限らない。そのような用途では、最大信号対雑音比(SNR)における信号および雑音の共分散行列の正しい推定は不可能である。所望の信号についての知識がないと、基準信号によるアプローチの利用が妨げられる可能性がある。これらの制限は、重みベクトルに線形拘束を適用することによって克服することができる。線形拘束の使用は、ビームフォーマの適応された応答に対する広範な制御を可能にする手法である。しかしながら、普遍的な線形拘束設計アプローチは存在せず、そして多くの用途において異なるタイプの拘束技術の組み合わせが効果的であり得る。しかしながら、線形拘束を設計するための単一の最良の方法または異なる方法の組み合わせのいずれかを見いだす試みにより、線形拘束設計に頼る技術のビームフォーミング用途での使用が制約されている。
一般化サイドローブキャンセリング(GSC)技術は、ビームフォーミング用途のための線形拘束設計技術に関連する欠点に対処するための代替アプローチである。基本的に、GSCは制約付き最小化問題を制約のない形式に変更するためのメカニズムである。GSCは、ある方向からの所望の信号を歪ませずに残し、同時に、他の方向から放射される所望しない信号を抑制する。しかしながら、GSCは2経路構造を使用する。所望の信号の方向を指す(固定)ビームフォーマを実現するための所望の信号経路と、理想的には純粋な雑音推定値を適応的に生成する所望しない信号の経路であり、後者が固定ビームフォーマの出力信号から差し引かれることにより、雑音が抑制され、その信号対雑音比(SNR)が増加する。
所望しない信号の経路、すなわち雑音を推定するための経路は、2段階の手法で実現することができる。所望しない信号の経路の第1段では、この段の入力信号から所望の信号以外の残りの成分を除去または遮断する。これは、例えば単一入力の場合は適応ブロッキングフィルタであり、2つ以上の入力信号が使用される場合は適応ブロッキング行列である。所望しない信号の経路の第2段には、単一チャネルの推定雑音信号を生成するための適応(マルチチャネル)干渉キャンセラ(AIC)がさらに含まれてよく、次に、例えば、固定ビームフォーマの任意に時間遅延された出力信号である所望の信号の経路の出力信号から減算される。したがって、所望の信号成分は理想的にはこの処理によって影響されないので、固定ビームフォーマの任意に遅延された出力信号に含まれる雑音を抑制することができ、より良いSNRをもたらす。これは、雑音推定内のすべての所望の信号成分が首尾よくブロックされることができる場合に限り当てはまり、これは実際にはまれであり、したがって現在の適応ビームフォーミングアルゴリズムに関連する大きな欠点の1つを表す。
音響エコーキャンセレーションは、例えば、全音響信号から推定エコー信号を差し引くことによって達成することができる。実際のエコー信号の推定値を提供するために、時間領域で動作し、時間離散信号を処理する適応デジタルフィルタを使用することができるアルゴリズムが開発されてきた。そのような適応デジタルフィルタは、フィルタの伝送特性を定義するネットワークパラメータが事前設定された品質関数を参照して最適化されるように動作する。そのような品質関数は、例えば、基準信号に関して適応ネットワークの出力信号の平均二乗誤差を最小にすることによって実現される。
ここで図1を参照すると、例示的な遠距離音捕捉システムでは、所望の音源101からの音源信号x(n)に対応し、nは(離散的な)時間インデックスである音が、1つまたは複数のスピーカ(図示せず)を介して放射され、部屋の中を進む際に、伝達関数h(z)....h(z)を有し、zは周波数インデックスである対応する室内インパルス応答(RIR)100でフィルタリングされ、その結果の音がM個のマイクロホン信号を提供するM個(Mは、例えば2、3またはそれより大きい、整数である)のマイクロホン107によって収音される前に、最終的に雑音により損なわれる可能性がある。図1に示される例示的な遠距離音捕捉システムは、M個のエコーキャンセルされた信号x(n)....x(n)を提供する音響エコーキャンセレーション(AEC)ブロック200と、B個(Bは、例えば1、2またはそれより大きい、整数である)のビームフォーミング信号b(n)....b(n)を提供する後続の固定ビームフォーマ(FB)ブロック300と、後続のビームステアリング(BS)ブロック400とを含む。ビームステアリング(BS)ブロック400は、本明細書ではポジティブビーム出力信号b(n)とも呼ばれる所望のソースビーム信号b(n)を提供し、任意選択で、本明細書ではネガティブビーム出力信号b(n)とも呼ばれる所望しないソースビーム信号b(n)を提供する。BSブロック400の後に続いており、所望しないソースビーム信号b(n)が供給される任意の所望しない信号(ネガティブビーム)の経路には、エラー信号e(n)を提供する任意の適応ブロッキングフィルタ(ABF)ブロック500および後に続く適応干渉キャンセラブロック600を含む。元のM個のマイクロホン信号、またはAECブロック200のM個の出力信号、またはFBブロック300のB個の出力信号は、ABMブロック500への入力信号として、任意選択で所望しないソースビーム信号b(n)とオーバーレイして使用することが可能であり、任意選択のマルチチャネルAICブロックに加えて任意選択のマルチチャネルABMブロックを確立することができる。
ビームステアリングブロック400の次に続き、所望のソースビーム信号b(n)が供給される、所望のソースビーム信号(ポジティブビーム)経路には、任意選択の遅延ブロック102、後続の減算ブロック103および後続の(適応)ポストフィルタブロック104を含む。任意選択の音声ポーズ検出器700は、適応ポストフィルタブロック104、任意選択の雑音低減(NR)ブロック105および任意選択の自動利得制御(AGC)ブロック106の下流に接続されてもよい。また、それぞれ、存在する場合は音声ポーズ検出器700の上流に接続されてもよい。AECブロック200は、FBブロック300の上流に接続される代わりに、その下流に接続されてもよいことに留意されたい。これは、B<M、すなわちFBブロック300内のビームフォーマの数がマイクロホンの数より少ない場合に有益であり得る。さらに、AECブロックは、多数のサブブロック(図示せず)、例えば、各マイクロホン信号用の長さが短いサブブロックと、BSブロック下流の所望のソースビーム信号用の長さが長いサブブロック(図示せず)、および任意選択で所望しないソースビーム信号用の別の長さが長いサブブロック(図示せず)とに分割することができる。さらに、このシステムは、示されているようにただ1つのソースを有する状況において適用可能であるのみはなく、多数のソースに関連して使用するために適合させることができる。例えば、2つの無相関信号を提供するステレオソースが使用される場合、AECブロックはステレオ音響エコーキャンセラ(SAEC)ブロック(図示せず)によって置き換えられてもよい。
図1から分かるように、N(=1)個のソース信号x(n)は、N×M個のRIRによってフィルタリングされ、かつ場合により雑音の干渉を受け、AECブロック200への入力として機能する。図2は、単一のマイクロホン(206)と単一のスピーカ(205)を有するAECブロック200の例示的な実現形態を示す。当業者によって理解および認識されるように、そのような構成は、複数のマイクロホン206および/または複数のスピーカ205を含むように拡張することができる。ソース信号x(n)である遠端信号は、スピーカ205を介し、伝達関数(ベクトル)
を有するエコー経路201を通って進み、エコー信号x(n)を提供する。この信号は、加算ノード209において、背景雑音と近端音声の両方を含み得る近端信号v(n)に加算されて、電気マイクロホン(出力)信号d(n)を生成する。適応フィルタブロック202によって提供される推定エコー信号
は、減算ノード203においてマイクロホン信号d(n)から減算されて、エラー信号eAEC(n)を提供する。適応フィルタ202の目的は、エラー信号eAEC(n)を最小にすることである。
LがFIRフィルタの長さである次数L-1の伝達関数
を有するFIRフィルタ202は、エコー経路をモデル化するために使用される。伝達関数
は、
として与えられる。
適応フィルタに対するブロック203での所望のマイクロホン信号d(n)は、
として与えられ、ここで、
は、L(Lは整数)個の最新の入力信号の時間サンプル、x(n)、およびv(n)、すなわち、雑音を含み得る近端信号を含む実数値ベクトルである。前述の表記法を再び適用して、フィードバック/エコーエラー信号は、次のように与えられる。
ここで、ベクトルh(n)および
は、音響エコー経路を表すフィルタ係数と、時間nにおける適応フィルタ係数によるその推定値とを含む。ベクトル
は、例えば、最小二乗平均(LMS)アルゴリズムまたは任意の最先端の再帰アルゴリズムを用いて推定される。LMS型アルゴリズムのステップサイズμ(n)を用いたLMS更新は、
と表わされる。
単純であるが効果的なビームフォーミング技術は遅延和(DS)技術である。図1を再び参照すると、AECブロック200の出力は、固定ビームフォーマブロック300への入力x(n)(i=1,…,M)として機能する。フィルタアンドサム(FS)ビームフォーマブロック300の一般的構造は、伝達関数w(L)=[w(0),...,w(L−1)]を有するフィルタ302を含み、図3に示される。このとき、i=1,...,Mであり、LはFB内のフィルタの長さである。フィルタブロック302が所望の(実際の)遅延を実行する場合、j=1,...,Bである出力ビームフォーマ信号b(n)は以下のように与えられる。ここで、Mはマイクロホンの数である。
j=1,...,Bである各(固定)ビームフォーマ出力信号b(n)に対して、各マイクロホンは互いに対して遅延τi,jを有する。FSビームフォーマは、伝達関数w(L)を有するフィルタ302を介して入力信号x(n)を受信する加算器301を含み得る。
再び図1を参照すると、固定FSビームフォーマブロック300によって出力されたビームフォーマ信号b(n)は、BSブロック400への入力として機能する。固定ビームフォーマブロック300からの各信号は異なる室内方向から取られ、異なるSNRレベルを有することができる。BSブロック400の入力信号b(n)は、低周波数ランブル、直流(DC)オフセット、および音声信号の場合、不要なボーカル破裂音などの低周波数成分を含むことがある。したがって、BSブロック400の入力信号b(n)に影響を及ぼし得るこれらのアーチファクトは除去されることが望ましい。
代替的に、所望しない信号(例えば、雑音)源を指すビーム、すなわち所望しない信号ビームは、所望の音源を指すビーム、すなわち所望のソースビームに基づいて、それを所望のソースを指すビームと反対の方向に(または所望のソースを指すビームに対して任意の固定された異なる方向に)指向させることによって近似させ得る。これにより、より少ないリソースを使用するシステムをもたらし、またまったく同じ時間変動を有するビームをもたらすことになる。さらに、これにより、両方のビームが同じ方向を向くことは決して許さない。
代替的に、所望のソース方向を向いているビーム(ポジティブビーム)を単に基準とする代わりに、その隣接ビームと合計することによって、ポジティブビーム出力信号を生成するための基準を形成することができる。これらすべてのビームが高レベルで含む所望の信号は互いに相関しており、そのため合計によって増幅されることとなる。
一方、隣接する3つのビームに含まれる雑音部分は互いに単に無相関であり、そのため、合計されることによって抑制される。結果として、3つの隣接ビームの最終の出力信号は改善されたSNRを示すであろう。
所望しないソース方向を向いているビーム(ネガティブビーム)は、代替的に、ポジティブビームを表すものを除く、FBブロック300のすべての出力信号を使用することによって生成することができる。これにより、所望の信号ソースの方向に空間的ゼロを有する有効な指向性応答がもたらされる。その他の点では、全方向性の性質が応用可能であり、これは通常、雑音も全方向性的にマイクロホンアレイに入り、指向性のある形態はまれであることから有益であり得る。
さらに、任意選択的に遅延されたBSブロック400からの所望の信号は、出力信号の基礎を形成し、したがって任意選択的な適応ポストフィルタ104に入力される。AICブロック600によって制御され、フィルタリングされた出力信号を供給する適応ポストフィルタ104は、既知のスペクトル・サブストラクション方法を実行できる後続の単一チャネル雑音低減ブロック(例えば、図1のNRブロック105)、および(例えば、最終の)任意選択である自動利得制御ブロック(例えば、図1のAGCブロック106)への、任意選択的な入力が可能である。
図4を参照すると、BSブロック400において、雑音の影響を受けた、または例えば音声信号成分など有用な信号成分を含まない信号成分をブロックするため、ポジティブビーム信号b(n)は、(ハイパスおよび任意のローパス)フィルタブロック401を用いてフィルタリングされる。フィルタブロック401からの出力は、ビーム信号b(n)内において点から点への振幅の急速でランダムな変化をもたらし得る、雑音による振幅変動を有する可能性がある。この状況において、例えば、図4に示されるように後続の平滑化ブロック402において実行されるプロセスによって雑音を低減することが有用であり得る。
フィルタブロック401からのフィルタリングされた信号は、平滑化ブロック402において、例えばローパス無限インパルス応答(IIR)フィルタまたは移動平均(MA)有限インパルス応答(FIR)フィルタ(いずれも図示せず)を適用することによって平滑化され、これにより、低周波成分はほとんど変化せずに通過し、高周波成分が減少する。平滑化ブロック402が出力する平滑化された信号は、ある程度レベルの雑音を依然として含んでいる可能性があり、したがって上述のような、気付き得る鋭い不連続性の原因となり得る。音声信号のレベルは、特にそのレベル変動が、背景雑音のレベル変動よりも、レベル変動の動的範囲が広くはるかに短い間隔で生じるという事実のために、通常、背景雑音のレベルの変動とは明らかに異なる。したがって、雑音推定ブロック403内の線形平滑化フィルタは、雑音を除去するだけでなく、所望の信号、例えば音楽または音声信号における急激な変動を不鮮明にするであろう。このような音楽または音声信号の不鮮明化は多くの用途で受け入れられず、したがって、上述のアーチファクトを抑制するため、雑音推定ブロック403内において非線形平滑化フィルタ(図示せず)を平滑化された信号に適用することができる。平滑化ブロック402の出力ビーム信号b(n)におけるデータ点は、(おそらく雑音のために)直接隣接する点よりも高い振幅を有する個別の点が減少し、隣接する点よりも低い振幅を有する個別の点が増加するように修正される。これはより滑らかな信号(そして信号の変化に対するより遅いステップ応答)をもたらす。
次に、平滑化ブロック402からの平滑化された信号と雑音推定ブロック403からの推定背景雑音信号とに基づいて、SNR値の変動を決定(例えば、計算)することができる。SNRの変動により、雑音ソースを所望の音声または音楽信号と区別することができる。例えば、低いSNR値は、エアコン、ファン、開いている窓、またはコンピュータなどの電気装置などの様々な雑音ソースを表すことがある。SNRは、時間領域または周波数領域またはサブバンド周波数領域で評価することができる。
ブロック404からの出力SNR値は、比較器ブロック405において所定の閾値と比較される。現在のSNR値が所定の閾値よりも大きい場合、例えば所望の音声信号を示すフラグ、例えば「1」が設定される。代替的に、現在のSNR値が所定の閾値未満である場合、エアコン、ファン、開いている窓、またはコンピュータなどの電気装置からの雑音などの所望しない信号を示すフラグ例えば、「0」が設定される。
ブロック404および405からのSNR値は、パス#1からパス#Bを介してコントローラブロック406に渡される。コントローラブロック406は、経時的に収集された複数のSNR(低および高の両方)値のインデックスを比較器ブロック405の状態フラグと比較する。最大値および最小値のヒストグラムは、所定の期間にわたって収集される。ヒストグラムの最小値と最大値は、少なくとも2つの異なる出力信号を表す。少なくとも1つの信号はS(n)で示される所望のソースに向けられ、少なくとも1つの信号はI(n)で表される干渉源に向けられる。
コントローラブロック406内の低いSNR値および高いSNR値に対するインデックスが時間と共に変化する場合、一方の出力信号から他方の出力信号への滑らかな遷移を音響アーチファクトを生成することなく可能とするフェーディングプロセスが開始され得る。BSブロック400の出力は、経時的に選択された所望信号ビームおよび任意選択の所望しない信号ビームを表す。ここで、所望信号ビームは、最もSNRが高いFB出力(ポジティブビーム信号b(n))を表す。任意選択で、所望しないビームは、最も低いSNRを有するFB出力(負のビーム信号b(n))を表すことができる。
BSブロック400の出力は、任意選択の適応ブロッキングフィルタ(ABF)ブロック500による基準として使用することができる高いSNR(ポジティブビーム)を有する信号と、任意選択の低SNR(ネガティブビーム)を有する追加の信号とを含み、任意選択のABFブロック500に対する第2の入力信号を形成する。ABFフィルタブロック500は、最小二乗平均(LMS)アルゴリズムにより制御されるフィルタを使用して、参照信号b(n)(所望のソースビームを表す)によって表される関心信号を信号b(n)(所望しないソースビームを表す)から適応的に減算し、エラー信号(複数可)e(n)を供給できる。ABFブロック500から得られたエラー信号e(n)は、適応干渉キャンセラ(AIC)ブロック600に渡され、適応干渉キャンセラ(AIC)ブロック600は所望の信号経路内の固定ビームフォーマ300のビームフォーマ出力からエラー信号に相関する信号成分を適応的に除去する。既に述べたように、他の信号は代替的にまたは付加的にABMブロックへの入力として機能することができる。さらに、任意選択的にABM、AICおよびAPFブロックを含むことができる適応ビームフォーマブロックは、部分的にまたはその全体を省略することができる。
まず、AICブロック600は、適応フィルタ(図示せず)を使用して干渉信号を計算する。次に、この適応フィルタの出力は、正のビーム信号b(n)であり得る任意選択的に(遅延102によって)遅延された基準信号から減算器103によって減算されて、基準信号b(n)中の残りの干渉および雑音成分を除去する。最後に、適応ポストフィルタ104は、統計的雑音成分(すなわち、明確な自己相関を持たない信号)を低減するために減算器103の下流に接続されてもよい。ABFブロック500におけるように、AICブロック600におけるフィルタ係数は、適応LMSアルゴリズムを使用して更新され得る。AICブロック600、ABFブロック500、およびAECブロックのうちの少なくとも1つの中のフィルタ係数のノルムは、それらが過度に大きくなるのを防ぐために制約され得る。
図5は、所望のソースビーム(ポジティブビーム)信号b(n)から雑音を除去するための例示的なシステムを示す。それによって、図5において信号z(n)によって表される信号b(n)に含まれる雑音成分は、適応システム700によって提供され、遅延102によって任意選択的に遅延された所望の信号b(n−γ)から加算器103によって減算され、その中に含まれる所望しない雑音をある程度まで低減する。適応フィルタ700のための参照信号、すなわち、所望しないソースビームを表す負のビーム信号b(n)が使用され、理想的には雑音のみを含み、音声のような有用な信号を含まない。既知のNLMSアルゴリズムを使用して、BSブロック400からの所望のソースビーム信号b(n)から雑音をフィルタリングすることができる。所望のソースビーム信号b(n)中の雑音成分は、適応システムブロック700を使用して推定される。所望のソースビーム信号b(n)におけるさらなる雑音を低減するために、加算器103によって、所望の信号b(n)における推定雑音が、任意選択的に遅延された所望の信号b(n−γ)から減算される。所望しないソースビーム信号b(n)は、所望ソースビーム信号b(n)中の残留雑音を除去するために、適応システムブロック700のための雑音基準信号として使用される。これにより、所望のソースビーム信号b(n)の信号対雑音(SNR)比が増大する。図5に示されるシステムは、ABFまたはABMブロックによって実行される所望しない信号の信号成分の追加のブロッキングが、純粋な雑音信号の品質を所望の信号b(n−γ)と比較してほとんど向上させない場合には省略され得るので、任意選択のABFまたはABMブロックは使用しない。したがって、所望しないソースビーム信号b(n)の品質に応じて、適応ビームフォーマの性能を低下させることなく、ABFおよび/またはABMブロックを省略することができる。
図6に示すように、ブロック104の所望の出力音声信号y(n)は、音声ポーズ検出器(SPD)ブロック700への入力として機能することができる。SPDブロック700などのSPDブロックは、図示のような遠距離場マイクロホンシステムにおいて、または他の任意の適切な用途において使用することができる。
図7を参照すると、音声ポーズ検出器(SPD)ブロック700は、時間−周波数変換ブロック701によって入力信号y(n)を時間領域から周波数領域に変換することができる。入力信号のスペクトル成分はバンドパスフィルタリングやフーリエ変換を含む様々な方法によって得ることができる。一手法では、離散または高速フーリエ変換を利用して、入力信号のN点の連続ブロックを変換することができる。ハニング窓などの窓関数を適用することができ、その場合、N/2点の重なりを使用することができる。入力信号内の各周波数ビンで離散フーリエ変換(DFT)を利用することができる。代替的に、高速フーリエ変換(FFT)を入力信号によって占められる全周波数帯域にわたって利用することができる。スペクトルは、入力信号帯域内の周波数ビンごとに保存される。
この例では、時間−周波数変換ブロック701は、時間領域の入力信号y(n)に任意選択的な窓掛け(図示せず)を伴う高速フーリエ変換(FFT)を適用して、周波数領域の信号Y(ω)を生成する。信号Y(ω)は、適切な長さの移動平均フィルタを使用して、そして窓関数を適用することによって、スペクトル平滑化ブロック702によって任意選択的に平滑化される。窓関数としては、ハニング窓または他の任意の窓関数が適用可能である。
(任意選択の)スペクトル平滑化の欠点は、それが複数の周波数ビンを説明することであり、これはスペクトル分解能を低下させる。スペクトル平滑化に関連する欠点を克服するために、スペクトル平滑化ブロック702の出力は、時間的平滑化ブロック703を使用することによってさらに平滑化される。時間的平滑化ブロック703は、時間経過に伴う周波数ビン値を組み合わせて、ブロック702の出力信号における時間的ダイナミクスを減少させる。
時間的平滑化ブロック703は、背景雑音と共にインパルス歪みを依然として含み得る時間的に平滑化された信号を出力する。雑音推定ブロック704は、時間的平滑化ブロック703の下流に接続されて、時間的平滑化ブロック703の出力における音声のような衝撃的な歪みを不鮮明化して、現在の背景雑音を最終的に推定する。音楽または音声信号などの所望の信号の不鮮明化を低減または回避するために、雑音推定ブロック704において非線形平滑化(図示せず)を採用することができる。
時間的平滑化ブロック703からの平滑化された信号および雑音推定ブロック704からの推定準定常背景雑音信号に基づいて、SNRの変動を(例えば、SNR値の周波数分布として)決定することができる。SNRの変動によって、雑音源は所望の音声または音楽信号と区別することができる。例えば、低いSNR値は、エアコン、ファン、開いている窓、またはコンピュータなどの電気装置などの様々な雑音源を表し得る。SNRは、時間領域または周波数領域またはサブバンド領域において評価され得る。
比較器ブロック706において、ブロック405からの出力SNR値は所定の閾値と比較される。現在のSNR値が所定の閾値よりも大きい場合、例えば所望の音声信号を示すフラグが例えば「1」に設定される。現在のSNR値が所定の閾値未満である場合、エアコン、ファン、開いている窓、またはコンピュータなどの電気装置からの雑音などの所望しない信号を示すフラグが、例えば、「0」に設定される。
ブロック706からのSNR値は合計ブロック707に渡される。合計ブロック707は、ブロック706からのスペクトルフラグを合計し、少なくとも1つの時変信号S(n)を出力する。ブロック707からの出力信号S(n)は比較器ブロック708に渡される。比較器ブロック708において、ブロック707からの出力信号S(n)はさらに別の所定の閾値と比較される。出力信号S(n)の現在の値が所定の閾値よりも大きい場合、音声活動を示すフラグが例えば「1」に設定される。代替的に、出力信号S(n)の現在値が所定の閾値よりも小さい場合、音声活動を示すフラグが例えば「0」に設定される。
比較器ブロック708の出力信号は、音声の非活動を表し得る。比較器ブロック708の出力は音声ポーズ検出(SPD)タイマブロック709に渡される。SPDタイマブロック709は、カウンタ710を使用して、比較器ブロック708からの音声の非アクティブまたは音声のポーズを示すフラグ「0」の数(カウント)T(n)をカウントすることができる。SPDタイマブロック709が音声の非アクティブ状態またはポーズに遭遇すると、カウントT(n)は1だけ減分され、さもなければカウントT(n)は例えばその初期化値にリセットされる。
SPDタイマブロック710の出力は、音声ポーズ検出(SPD)ブロック710に渡される。SPDタイマブロック710において、出力カウントT(n)は所定の閾値と比較される。現在のカウントT(n)が所定の閾値未満である場合、例えば音声のポーズを示すフラグが「I」に設定されることになる。現在のカウントT(n)が所定の閾値より大きい場合、音声のポーズを示すフラグは音声活動を示す「0」に設定される。既に述べたように、上で概説した方法は時間領域でも実現することができる。
実施形態の説明は、例示および説明の目的で提供されている。実施形態に対する適切な修正および変形は、上記の説明に照らして実行されてもよく、または方法を実施することから取得されてもよい。例えば、特記しない限り、記載された方法のうちの1つ以上は、適切な装置および/または装置の組み合わせによって実行されてもよい。記載された方法および関連する動作はまた、本願に記載された順序に加えて、並行しておよび/または同時に様々な順序で実行されてもよい。説明されたシステムは、本質的に例示的なものであり、追加の要素を含み、かつ/または要素を省略することができる。
例えば、上述のような遠距離音捕捉システムでは、ビームステアリングブロックは、代替的に、M個のマイクロホンまたは、音響エコーキャンセラによって提供されるエラー信号、すなわち、音響エコーキャンセラの前または後、または、音響エコーキャンセラにおける任意選択的な残留エコーサプレッサの前または後の信号に基づくことができる。所望のソースを向く音波のビームを検出することに代えてまたは加えて、所望しないソースを向く音波のビームを主ビームとして使用することができる。システムはさらに、適応干渉キャンセラの上流に接続されたその入力信号内の有用な信号部分を静的または適応的にブロックするように構成された任意選択的な適応ブロッキングフィルタまたは適応ブロッキング行列を含むことができる。適応干渉キャンセラは、代替的にまたは追加的に、M個のエコーキャンセルされた信号だけではなく、(例えば)所望しないソースビーム信号などの他の信号にも基づいて推定雑音信号を提供するように構成され得る。
音響エコーキャンセラブロック、後続の(固定)ビームフォーミングブロック、後続のビームステアリングブロック、そして最後に適応干渉キャンセラとする上述のブロックの順序の代わりに、いくつかの信号処理ブロック、特に、固定ビームフォーマブロック、音響エコーキャンセラブロックまたはその一部の順序を入れ替えまたは省略し、場合により、(固定)ビームフォーマブロック、次に音響エコーキャンセラブロック、そして、ビームステアリングブロック、任意選択で、適応干渉キャンセラの順序とすることが可能である。さらなる任意選択的な構造は、入力段として、M個のマイクロホン信号のそれぞれを処理するように構成されたより短い音響エコーキャンセラブロックと、ポジティブビーム出力信号を処理するように構成された単一チャネルで潜在的により長い音響エコーキャンセラブロックと、任意選択的に、所望しないソースビーム信号を処理するように構成された、別の単一チャネルで潜在的により長い音響エコーキャンセラブロックを含む。
リソースを節約するために、音響エコーキャンセラブロック(複数可)は、最も効率的な位置、例えばM<Bの場合は入力段として、そしてM>Bの場合はビームフォーミングブロックの下流、または上記のような分割構造で配置されてもよい。さらなる選択肢として、(固定)ビームフォーマブロックは、(固定)モーダルビームフォーマであってもよく、これにより、様々な「ルックアングル」によって、各固有ビームごとに単純な乗算を行い、ひとつの追加的な回転行列によってより容易に実施できる。その後は、固有ビームは回転可能であるため、最も適切なものを動的に微調整可能である。
さらに、ビームステアリングブロックは、その最も単純な実施態様では、所望のソースビーム信号のみの提供が可能であり、その結果、遠距離音捕捉システムの最初で最も単純な出力信号として機能することができる。他のすべての信号処理ユニット、例えば、任意選択的な適応ブロッキングフィルタまたはマトリックスブロックに関連して適応干渉キャンセラによって形成され得る適応ビームフォーマ、適応ポストフィルタブロック、雑音低減ブロック、自動利得制御ブロック、および音声ポーズ検出器ブロックは任意選択である。これらの任意選択のブロックは、任意の組み合わせによる構成とすることができる。したがって、ポジティブビーム出力信号は、例えば、最初に自動利得制御ブロックを通過するか、または最初に雑音低減を通過し、次に自動利得制御ブロックを通過することができる。さらに、適応ビームフォーマは、適応ブロッキングフィルタまたはマトリクスブロックを伴ってまたは伴わずに利用され得る。多数の他の組み合わせが適用可能である。(固定)モーダルビームフォーマが使用される場合、(固定)モーダルビームフォーマはそれ自体をそれぞれのソースの方向に自動的に(動的に)または適応的に方向付けるように構成され得るので、ビームステアリングブロックは省略でき、それぞれのビーム出力信号を既に提供可能である。
上述のような音声ポーズ検出器では、代替的に、(例えば、バークスケール、メルスケール、ERBスケールなどに従って)人間の耳のそれと同様の周波数分解能を提供するために、多数の隣接するビンが組み合わされてもよい。これにより、処理ステップ数を対応して減らすことで複雑さが減少するであろう。さらに、音声ポーズ検出器は音声活動認識のところまでが説明されており、最後の部分(タイマーおよび決定部)は省かれている。音声ポーズ検出器は、周波数領域で実施されるだけでなく、時間領域でも実現され得る。さらに、このシステムは音声のポーズを検出するのみでなく、音声活動も順次検出できる。上述の音声ポーズ検出器の様々な変形例は、スタンドアロンの用途にも相応に適用可能である。
本出願で使用されるように、単数形で記載され、単語「a」または「an」に先行された要素またはステップは、複数の前記要素またはステップを排除する旨述べられていない限り、そのような排除は行っていないと理解されるべきである。さらに、本開示の「一実施形態」または「一例」への言及は、列挙された特徴を同様に含む追加の実施形態の存在を排除するものとして解釈されることを意図していない。「第1」、「第2」、および「第3」などの用語は単にラベルとして使用されており、それらのオブジェクトに数値要件または特定の位置順を課すことを意図していない。
本開示の実施形態は、概して、複数の回路、電気装置、および/または少なくとも1つのコントローラを提供する。回路、少なくとも1つのコントローラ、および他の電気装置、ならびにそれぞれによって提供される機能への言及は、すべて、本明細書で例示および説明されたもののみを包含することに限定されることを意図しない。開示された様々な回路、コントローラ、および他の電気装置に特定のラベルを割り当てることができるが、そのようなラベルは、様々な回路、コントローラ、および他の電気機器の動作範囲を限定することを意図しない。そのような回路、コントローラ、および他の電気装置は、互いに組み合わされてもよく、および/または所望される特定の種類の電気的実装に基づく任意の方法で分離されてもよい。
本明細書に開示される任意のコントローラは、任意の数のマイクロプロセッサ、集積回路、メモリデバイス(例えば、FLASH、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、電気的プログラマブル読出し専用メモリ(EPROM)、電気的消去可能プログラマブル読出し専用メモリ(EEPROM)、またはそれらの他の適切な変形形態、および互いに協働するソフトウェアを含み得ることが認識される。さらに、開示されているような任意のコントローラは、開示されているように任意の数の機能を実行するようにプログラムされている非一時的コンピュータ可読媒体で具体化されるコンピュータプログラムを実行するために任意の1つまたは複数のマイクロプロセッサを利用する。さらに、本明細書で提供される任意のコントローラは、ハウジングと、ハウジング内に配置された様々な数のマイクロプロセッサ、集積回路、およびメモリデバイス(例えば、FLASH、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、電気的プログラマブル読出し専用メモリ(EPROM)、電気的消去可能プログラマブル読出し専用メモリ(EEPROM))と、を含む。開示されるコントローラはまた、本明細書で論じられるように、他のハードウェアベースの装置との間でそれぞれデータを送受信するためのハードウェアベースの入力および出力も含む。
本発明の様々な実施形態を説明したが、本発明の範囲内でさらに多くの実施形態および実施態様が可能であることは当業者には明らかであろう。特に、当業者は、異なる実施形態からの様々な特徴の互換性を認識するであろう。これらの技術およびシステムは特定の実施形態および実施例の文脈で開示されているが、これらの技術およびシステムは具体的に開示された実施形態を超えて他の実施形態および/または使用およびそれらの明白な修正に拡張され得る。

Claims (45)

  1. 遠距離音捕捉のためのシステムであって、
    収音しM個の電気マイクロホン信号を提供するように構成されたM≧2個のマイクロホンと、
    前記M個のマイクロホン信号を受信しM個のエコーキャンセルされた信号を提供するように構成されたマルチチャネル音響エコーキャンセラと、
    前記M個のエコーキャンセルされた信号を受信し前記M個のエコーキャンセルされた信号を処理してB≧1個のビームフォーミングされた信号を提供するように構成されたビームフォーマと、を含む前記システム。
  2. 前記B個のビームフォーミングされた信号を受信し処理するように構成されたビームステアラをさらに含み、前記B個のビームフォーミングされた信号を処理することは所望のソースビーム信号を検出することを含み、前記所望のソースビーム信号は所望のソースの方角を指す音波ビームを表す、請求項1に記載のシステム。
  3. 前記B個のビームフォーミングされた信号を処理することは所望しないソースビーム信号を検出することをさらに含み、前記所望しないソースビーム信号は所望しないソースの方角を指す音波ビームを表す、請求項2に記載のシステム。
  4. 前記所望のソースビーム信号および前記所望しないソースビーム信号のうちの少なくとも一方に基づいて推定雑音信号を提供するように構成された適応干渉キャンセラと、
    前記所望のビーム信号から前記推定雑音信号を減算して出力信号を提供するように構成された減算器と、
    をさらに含む、請求項2または3に記載のシステム。
  5. 前記B個のビームフォーミングされた信号を処理することは、
    前記B個のビームフォーミングされた信号の前記信号対雑音比を評価して最も高い信号対雑音比を識別することと、
    前記最も高い信号対雑音比に基づいて前記所望のソースビーム信号を検出することと、
    をさらに含む、請求項2に記載のシステム。
  6. 前記B個のビームフォーミングされた信号を処理することは、
    前記B個のビームフォーミングされた信号の前記信号対雑音比を評価して最も低い信号対雑音比を識別することと、
    前記最も低い信号対雑音比に基づいて前記所望しないソースビーム信号を検出することと、
    をさらに含む、請求項3に記載のシステム。
  7. 前記B個のビームフォーミングされた信号を処理することは、前記所望しないソースビーム信号は前記所望のソースとは反対の方向を指す音波ビームを表すという点において、前記所望のソースビーム信号に基づいて前記所望しないソースビーム信号を検出することをさらに含む、請求項3に記載のシステム。
  8. 前記ビームステアラおよび前記適応干渉キャンセラと動作可能に結合された適応ブロッキングフィルタをさらに含み、
    前記適応ブロッキングフィルタは前記ビームステアラからの前記所望のソースビーム信号および前記所望しないソースビーム信号のうちの少なくとも一方を処理して前記適応干渉キャンセラにエラー信号を提供するように構成されており、
    前記適応干渉キャンセラは、前記エラー信号に基づいて推定雑音信号を提供するように構成されている、請求項4に記載のシステム。
  9. 前記減算器の下流にそれぞれ接続された、適応ポストフィルタ、音声ポーズ検出器、雑音低減フィルタ、および自動利得制御増幅器のうちの少なくとも1つをさらに含み、
    前記適応ポストフィルタは統計的広帯域雑音が低減されたフィルタリングされた出力信号を提供するように構成されており、
    前記自動利得制御増幅器は前記出力信号の信号レベルを制御するように構成されており、
    前記音声ポーズ検出器は前記出力信号または前記フィルタリングされた出力信号における音声信号の発生および非発生を検出するように構成されている、請求項1に記載のシステム。
  10. 前記ビームステアラおよび前記減算器と動作可能に結合され、前記ビームステアラによって前記減算器に供給される前記所望のソースビーム信号を適時に遅延させるように構成された遅延素子をさらに含む、請求項4に記載のシステム。
  11. 前記ビームフォーマと動作可能に結合され、前記B個のビームフォーミングされた信号に含まれる雑音を除去してハイパスフィルタリング処理された信号を提供するように構成されたハイパスフィルタブロックと、
    前記ハイパスフィルタブロックと動作可能に結合され、前記ハイパスフィルタリングされた信号をローパスフィルタリングして平滑化された信号を提供するように構成された信号平滑化ブロックと、
    前記信号平滑化ブロックと動作可能に結合され、前記平滑化された信号に含まれる背景雑音を推定して推定背景雑音信号を提供するように構成された雑音推定ブロックと、をさらに含む、請求項1に記載のシステム。
  12. 前記信号平滑化ブロックおよび前記雑音推定ブロックと動作可能に結合され、前記平滑化された信号および前記推定背景雑音信号に基づいて信号対雑音比を決定し信号対雑音比の値を提供するように構成された信号対雑音比決定ブロックをさらに含む、
    請求項11に記載のシステム。
  13. 前記信号対雑音比決定ブロックは、前記平滑化された信号および前記推定背景雑音信号を、時間領域または周波数領域またはサブバンド周波数領域で処理するようにさらに構成された、請求項12に記載のシステム。
  14. 前記信号対雑音比決定ブロックと動作可能に結合された比較ブロックであって、
    前記信号対雑音比の値を1つ以上の所定の(または制御可能な)閾値と比較し、各信号対雑音比の値に対して、
    前記信号対雑音比の値がそれぞれの閾値を超える場合は音声活動を示す活動状態フラグを提供し、
    前記信号対雑音比の値がそれぞれの閾値を下回る場合は音声活動がないことを示す状態フラグを提供する
    ように構成された前記比較ブロックをさらに含む、請求項12または13に記載のシステム。
  15. コントローラブロックであって、
    最も高い信号対雑音比を有する信号の周波数分布および最も低い信号対雑音比を有する信号の周波数分布のうちの少なくとも一方を評価し、
    最も高い信号対雑音比を有する信号の前記周波数分布に基づいて前記所望のソースビーム信号を出力し、最も低い信号対雑音比を有する信号の前記周波数分布に基づいて前記所望しないソースビーム信号を出力する
    ように構成された前記コントローラブロックをさらに含む、請求項14に記載のシステム。
  16. フェーダブロックをさらに含み、前記フェーダブロックは前記所望ビーム信号および前記所望しないビーム信号のうちの少なくとも一方が経時的に変化する場合に前記少なくとも一方の出力信号をフェーディングするように構成された、請求項15に記載のシステム。
  17. 音声ポーズ検出器であって、
    時間領域の入力信号を周波数領域の入力信号に変換するように構成された時間−周波数変換ブロックと、
    周波数領域の前記入力信号を周波数領域の多数の中間信号に分割するように構成されたスプリッタと、
    周波数領域において各中間信号に含まれる雑音を推定するように構成された多数の雑音推定器と、
    周波数領域の前記多数の中間信号と周波数領域の各中間信号に含まれる前記推定された雑音から、周波数領域の各入力信号の信号対雑音比を評価するように構成された多数の信号対雑音評価器と、
    各信号対雑音比を所定の閾値と比較して信号対雑音比較信号を提供するように構成された多数の比較器と、
    前記信号対雑音比較信号を合計し、和信号を提供するように構成された加算器と、
    前記和信号における音声信号の発生および非発生を検出し、音声信号の発生および非発生を示す音声活動信号を提供するように構成された音声活動検出器と、
    を含む前記音声ポーズ検出器。
  18. 前記和信号において音声信号が所定時間非発生であることを検出次第、非活動信号を提供するように構成された音声ポーズ検出タイマをさらに含む、請求項17に記載の音声ポーズ検出器。
  19. 前記音声ポーズ検出タイマは、音声信号の非発生を示す信号対雑音比較信号の発生をカウントするためのカウンタを含み、
    前記音声ポーズ検出タイマが音声信号の非発生を検出すると、前記カウンタの前記カウントは1だけ減分され、さもなければ前記カウンタは所定の時間後に所定のカウントにリセットされる、請求項17または18に記載の音声ポーズ検出器。
  20. 音声ポーズを示す出力信号を前記カウンタの前記カウントに基づいて生成するように構成された音声ポーズ比較器をさらに含む、請求項19に記載の音声ポーズ検出器。
  21. 前記スプリッタは、周波数領域において前記入力信号をスペクトル的に平滑化するように構成されたスペクトル平滑化ブロックを含む、請求項17〜19のいずれかに記載の音声ポーズ検出器。
  22. 前記スプリッタは、周波数領域において前記中間信号を時間的に平滑化するように構成された多数の時間的平滑化ブロックを含む、請求項20〜4のいずれかに記載の音声ポーズ検出器。
  23. 遠距離音捕捉のための方法であって、
    収音しM≧2個の電気マイクロホン信号を提供することと、
    前記M個のマイクロホン信号をエコーキャンセル処理し、M個のエコーキャンセルされた信号を提供することと、
    前記M個のエコーキャンセルされた信号をビームフォーミング処理し、B≧1個のビームフォーミングされた信号を提供することと、を含む前記方法。
  24. 前記B個のビームフォーミングされた信号をビームステアリング処理することをさらに含み、前記ビームステアリング処理は、所望のソースビーム信号を検出することを含み、前記所望のソースビーム信号は所望のソースの方角を指す音波ビームを表す、請求項23に記載の方法。
  25. 前記B個のビームフォーミングされた信号をビームステアリング処理することは、所望しないソースビーム信号を検出することをさらに含み、前記所望しないソースビーム信号は所望しないソースの方角を指す音波ビームを表す、請求項24に記載の方法。
  26. 前記所望のソースビーム信号および前記所望しないソースビーム信号のうちの少なくとも一方に基づいて推定雑音信号を提供するように構成された適応干渉キャンセリングと、
    前記所望の信号から前記推定雑音信号を減算して出力信号を提供することと、をさらに含む請求項26または27に記載の方法。
  27. 前記B個のビームフォーミングされた信号をビームステアリング処理することは、
    前記B個のビームフォーミングされた信号の前記信号対雑音比を評価して最も高い信号対雑音比を識別することと、
    前記最も高い信号対雑音比に基づいて前記所望のソースビーム信号を検出することと、
    をさらに含む、請求項18に記載の方法。
  28. 前記B個のビームフォーミングされた信号をビームステアリング処理することは、
    前記B個のビームフォーミングされた信号の前記信号対雑音比を評価して最も高い信号対雑音比を識別することと、
    前記最も高い信号対雑音比に基づいて前記所望のソースビーム信号を検出することと、
    をさらに含む、請求項19に記載の方法。
  29. 前記B個のビームフォーミングされた信号をビームステアリング処理することは、前記所望しないソースビーム信号は前記所望のソースとは反対の方向を指す音波ビームを表すという点において、前記所望のソースビーム信号に基づいて前記所望しないソースビーム信号を検出することをさらに含む、請求項19に記載の方法。
  30. 前記所望のソースビーム信号および前記所望しないソースビーム信号のうちの少なくとも一方を処理して適応干渉キャンセリングのためのエラー信号を提供するように構成された適応ブロッキングフィルタリングをさらに含み、
    前記適応干渉キャンセリングは、前記エラー信号に基づいて推定雑音信号を提供するように構成されている、請求項29に記載の方法。
  31. 適応ポストフィルタリング、音声ポーズ検出、雑音低減フィルタリング、および自動利得制御のうちの少なくとも1つをさらに含み、
    適応ポストフィルタリングは統計的広帯域雑音が低減されるフィルタリングされた出力信号を提供するように構成され、
    自動利得制御は前記出力信号の信号レベルを制御するように構成され、音声ポーズ検出は前記出力信号または前記フィルタリングされた出力信号における音声信号の発生および非発生を検出するように構成される、請求項17に記載の方法。
  32. 前記推定雑音信号を前記遅延された所望の信号から減算する前に、提供された前記所望のソースビーム信号を適時に遅延させることをさらに含む、請求項26に記載の方法。
  33. 前記B個のビームフォーミングされた信号に含まれる雑音を除去してハイパスフィルタリングされた信号を提供するように構成されたハイパスフィルタリングと、
    前記ハイパスフィルタリングされた信号をローパスフィルタリングして平滑化された信号を提供するように構成された信号平滑化と、
    背景雑音を推定して推定背景雑音信号を提供するように構成された雑音推定と、をさらに含む請求項17に記載の方法。
  34. 前記平滑化された信号と前記推定背景雑音信号とに基づいて信号対雑音比を決定して信号対雑音比の値を提供するように構成された信号対雑音比決定をさらに含む、請求項28に記載の方法。
  35. 前記信号対雑音比決定ブロックは、前記平滑化された信号および前記推定背景雑音信号を時間領域または周波数領域またはサブバンド周波数領域で処理するようにさらに構成される、請求項29に記載の方法。
  36. 前記信号対雑音比の値を1つ以上の所定の(または制御可能な)閾値と比較し、各信号対雑音比の値に対して、
    前記信号対雑音比の値がそれぞれの閾値を超える場合は音声活動を示す活動状態フラグを提供し、
    前記信号対雑音比の値がそれぞれの閾値を下回る場合は音声活動がないことを示す状態フラグを提供すること
    をさらに含む、請求項29または30に記載の方法。
  37. 最も高い信号対雑音比を有する信号の周波数分布および最も低い信号対雑音比を有する信号の周波数分布のうちの少なくとも一方を評価することと、
    最も高い信号対雑音比を有する信号の前記周波数分布に基づいて前記所望のソースビーム信号を出力し、最も低い信号対雑音比を有する信号の前記周波数分布に基づいて前記所望しないソースビーム信号を出力することと、
    をさらに含む、請求項31に記載の方法。
  38. 前記所望のビーム信号および前記所望しないビーム信号のうちの少なくとも1つが経時的に変化する場合、前記少なくとも1つの出力信号をフェーディングすることをさらに含む、請求項32に記載の方法。
  39. 音声ポーズ検出方法であって、
    時間領域の入力信号を周波数領域の入力信号に変換することと、
    周波数領域の前記入力信号を周波数領域の多数の中間信号に分割することと、
    周波数領域において各中間信号に含まれる雑音を推定することと、
    周波数領域の前記多数の中間信号と周波数領域の各中間信号に含まれる前記推定された雑音から、周波数領域の各入力信号の信号対雑音比を評価することと、
    各信号対雑音比を所定の閾値と比較して信号対雑音比較信号を提供することと、
    前記信号対雑音比較信号を合計し、和信号を提供することと、
    前記和信号中の音声信号の発生および非発生を検出し、音声信号の発生および非発生を示す音声活動信号を提供することと、
    を含む前記音声ポーズ検出方法。
  40. 前記和信号において音声信号が所定時間非発生であることを検出次第、非活動信号を提供することをさらに含む、請求項39に記載の方法。
  41. 音声信号の非発生を示す信号対雑音比較信号の発生をカウントすることと、
    音声信号の非発生が検出されると、前記カウントを1だけ減分させ、さもなければ所定の時間後に前記カウンタを所定のカウントにリセットすることと、をさらに含む、請求項40に記載の方法。
  42. 前記カウントから、音声のポーズを示す出力信号を生成することをさらに含む、請求項41に記載の方法。
  43. 分割することは、周波数領域において前記入力信号をスペクトル的に平滑化するように構成されたスペクトル平滑化を含む、請求項39〜42のいずれかに記載の方法。
  44. 複数の時間的平滑化が、周波数領域において前記中間信号を時間的に平滑化するように構成されている、請求項39〜43のいずれかに記載の方法。
  45. コンピュータプログラム製品であって、前記プログラムがコンピュータによって実行されると、請求項23〜44のいずれかに記載の方法を前記コンピュータに実行させる命令を含む前記コンピュータプログラム製品。
JP2019536102A 2017-01-04 2017-12-11 遠距離音の捕捉 Pending JP2020504966A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP17150217 2017-01-04
EP17150217.2 2017-01-04
PCT/EP2017/082118 WO2018127359A1 (en) 2017-01-04 2017-12-11 Far field sound capturing

Publications (2)

Publication Number Publication Date
JP2020504966A true JP2020504966A (ja) 2020-02-13
JP2020504966A5 JP2020504966A5 (ja) 2021-01-14

Family

ID=57755191

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019536102A Pending JP2020504966A (ja) 2017-01-04 2017-12-11 遠距離音の捕捉

Country Status (6)

Country Link
US (1) US20190348056A1 (ja)
EP (1) EP3545691B1 (ja)
JP (1) JP2020504966A (ja)
KR (1) KR102517939B1 (ja)
CN (1) CN110199528B (ja)
WO (1) WO2018127359A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10938994B2 (en) * 2018-06-25 2021-03-02 Cypress Semiconductor Corporation Beamformer and acoustic echo canceller (AEC) system
US11025324B1 (en) * 2020-04-15 2021-06-01 Cirrus Logic, Inc. Initialization of adaptive blocking matrix filters in a beamforming array using a priori information
KR102306739B1 (ko) * 2020-06-26 2021-09-30 김현석 차량 내부 음성전달 강화 방법 및 장치

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1538867A1 (en) * 2003-06-30 2005-06-08 Harman Becker Automotive Systems GmbH Handsfree system for use in a vehicle
JP2006217649A (ja) * 2006-03-20 2006-08-17 Toshiba Corp 信号処理装置
JP2007522705A (ja) * 2004-01-07 2007-08-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声歪み圧縮システム及びそのフィルター装置
JP2009302983A (ja) * 2008-06-16 2009-12-24 Sony Corp 音声処理装置および音声処理方法
JP2010085733A (ja) * 2008-09-30 2010-04-15 Equos Research Co Ltd 音声強調システム
JP2014194437A (ja) * 2011-06-24 2014-10-09 Nec Corp 音声処理装置、音声処理方法および音声処理プログラム
JP2016021650A (ja) * 2014-07-14 2016-02-04 パナソニックIpマネジメント株式会社 収音制御装置及び収音システム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5699437A (en) * 1995-08-29 1997-12-16 United Technologies Corporation Active noise control system using phased-array sensors
US6292433B1 (en) * 1997-02-03 2001-09-18 Teratech Corporation Multi-dimensional beamforming device
US6480823B1 (en) * 1998-03-24 2002-11-12 Matsushita Electric Industrial Co., Ltd. Speech detection for noisy conditions
US7415117B2 (en) * 2004-03-02 2008-08-19 Microsoft Corporation System and method for beamforming using a microphone array
DE602004017603D1 (de) * 2004-09-03 2008-12-18 Harman Becker Automotive Sys Sprachsignalverarbeitung für die gemeinsame adaptive Reduktion von Störgeräuschen und von akustischen Echos
CN101763858A (zh) * 2009-10-19 2010-06-30 瑞声声学科技(深圳)有限公司 双麦克风信号处理方法
KR101203926B1 (ko) * 2011-04-15 2012-11-22 한양대학교 산학협력단 다중 빔포머를 이용한 잡음 방향 탐지 방법
KR20120128542A (ko) * 2011-05-11 2012-11-27 삼성전자주식회사 멀티 채널 에코 제거를 위한 멀티 채널 비-상관 처리 방법 및 장치
US9264553B2 (en) * 2011-06-11 2016-02-16 Clearone Communications, Inc. Methods and apparatuses for echo cancelation with beamforming microphone arrays

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1538867A1 (en) * 2003-06-30 2005-06-08 Harman Becker Automotive Systems GmbH Handsfree system for use in a vehicle
JP2007522705A (ja) * 2004-01-07 2007-08-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声歪み圧縮システム及びそのフィルター装置
JP2006217649A (ja) * 2006-03-20 2006-08-17 Toshiba Corp 信号処理装置
JP2009302983A (ja) * 2008-06-16 2009-12-24 Sony Corp 音声処理装置および音声処理方法
JP2010085733A (ja) * 2008-09-30 2010-04-15 Equos Research Co Ltd 音声強調システム
JP2014194437A (ja) * 2011-06-24 2014-10-09 Nec Corp 音声処理装置、音声処理方法および音声処理プログラム
JP2016021650A (ja) * 2014-07-14 2016-02-04 パナソニックIpマネジメント株式会社 収音制御装置及び収音システム

Also Published As

Publication number Publication date
KR20190099445A (ko) 2019-08-27
CN110199528B (zh) 2021-03-23
EP3545691B1 (en) 2021-11-17
EP3545691A1 (en) 2019-10-02
WO2018127359A1 (en) 2018-07-12
KR102517939B1 (ko) 2023-04-04
CN110199528A (zh) 2019-09-03
US20190348056A1 (en) 2019-11-14

Similar Documents

Publication Publication Date Title
KR102410447B1 (ko) 적응성 빔포밍
CN109087663B (zh) 信号处理器
JP4378170B2 (ja) 所望のゼロ点を有するカーディオイド・ビームに基づく音響装置、システム及び方法
JP6534180B2 (ja) 適応ビーム形成のための事前白色化を用いる適応ブロック行列
JP5762956B2 (ja) ヌル処理雑音除去を利用した雑音抑制を提供するシステム及び方法
EP2238592B1 (en) Method for reducing noise in an input signal of a hearing device as well as a hearing device
US20040086137A1 (en) Adaptive control system for noise cancellation
KR20090056598A (ko) 마이크로폰을 통해 입력된 사운드 신호로부터 잡음을제거하는 방법 및 장치
JP2003534570A (ja) 適応ビームフォーマーにおいてノイズを抑制する方法
JP6250147B2 (ja) 補聴器システムの信号処理方法および補聴器システム
US11373667B2 (en) Real-time single-channel speech enhancement in noisy and time-varying environments
KR102517939B1 (ko) 원거리 장 사운드 캡처링
CN109326297B (zh) 自适应后滤波
US20190035414A1 (en) Adaptive post filtering
US10692514B2 (en) Single channel noise reduction
JP6854967B1 (ja) 雑音抑圧装置、雑音抑圧方法、及び雑音抑圧プログラム
Yee et al. A speech enhancement system using binaural hearing aids and an external microphone

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201119

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201119

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220302

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220722

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230301