JP6002690B2 - オーディオ入力信号処理システム - Google Patents

オーディオ入力信号処理システム Download PDF

Info

Publication number
JP6002690B2
JP6002690B2 JP2013553528A JP2013553528A JP6002690B2 JP 6002690 B2 JP6002690 B2 JP 6002690B2 JP 2013553528 A JP2013553528 A JP 2013553528A JP 2013553528 A JP2013553528 A JP 2013553528A JP 6002690 B2 JP6002690 B2 JP 6002690B2
Authority
JP
Japan
Prior art keywords
band
gain
noise
frequency
suppression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013553528A
Other languages
English (en)
Other versions
JP2014510452A (ja
Inventor
エヌ ディクキンズ,グレン
エヌ ディクキンズ,グレン
ジェイ ニール,ティモシー
ジェイ ニール,ティモシー
エス ヴィントン,マーク
エス ヴィントン,マーク
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション, ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2014510452A publication Critical patent/JP2014510452A/ja
Application granted granted Critical
Publication of JP6002690B2 publication Critical patent/JP6002690B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Description

本出願は、2011年2月10日付けで出願された米国仮特許出願第61/441,611号の優先権を主張し、当該米国仮特許出願の開示内容の全ては、参照により本明細書中に組み込まれる。
本出願は、「ノイズ抑制利得のメディアン・フィルタリングを含んだ後処理」と題され、整理番号を「D09110BWO01」として本願と同時に出願された国際出願「PCT/US2012/024372」と関連しており、当該国際出願もまた、2011年2月10日付けで出願された米国仮特許出願第61/441,611号の優先権を主張している。当該国際出願「PCT/US2012/024372」の開示内容の全ては、参照により、本明細書中に組み込まれる。
本願は、それぞれ2011年2月10日に出願された以下の米国仮特許出願と関係している。
*「ベクトル型ノイズ消去」と題され、Jon C. Taenzerを発明者とし、代理人整理番号を「60175-0060」とし、出願人整理番号を「A09070USP1」とする米国仮特許出願第61/441,396号。
*「ベクトル型ノイズ消去」と題され、Jon C. TaenzerとSteven H. Puthuffとを発明者とし、代理人整理番号を「60175-0087」とし、出願人整理番号を「A09071USP1」とする米国仮特許出願第61/441,397号。
*「多重チャネル風ノイズ抑制システムおよび方法」と題され、Jon C. Taenzerを発明者とし、代理人整理番号を「435372-000052」とし、出願人整理番号を「D10025USP1」とする米国仮特許出願第61/441,528号。
*「風の検出と抑制のためのシステムと方法」と題され、Glenn N. DickinsとLeif Jonas Samuelssonとを発明者とし、代理人整理番号を「435372-000053」とし、出願人整理番号を「D10089USP1」とし、「風の検出と抑制に関する出願」として本明細書中で参照される米国仮特許出願第61/441,551号。
*「多重マイクロフォン音響キャプチャのための空間適応技術」と題され、Leif Jonas Samuelssonを発明者とし、代理人整理番号を「435372-000054」とし、出願人整理番号を「D11008USP1」とする米国仮特許出願第61/441,633号。
本明細書の開示は一般に音響信号処理と関係し、特に、ノイズ信号、エコー信号およびロケーション外(out-of-location)信号のような望ましくない信号を抑制するために音響信号を処理する技術に関係する。
今日、音響信号処理は、例えばマイクロフォンからの音響信号の品質を改善する等のために、適用することができる。一つの例として、ハンドセットのような多くのデバイスは、エコーの発生源(例えば、大音量スピーカーなど)が存在する状況下で動作する。さらにまた、マイクロフォンからの信号は、例えば、車内、または、その他のノイズが存在する状況などのようなノイズの多い環境下で、生じる場合がある。さらにまた、例えば、他者による現在位置の外での会話または現在位置の外からの干渉、風などのように干渉する位置からの音が存在する場合もある。従って、音響信号処理は、本発明に関する重要な技術領域である。
音響のノイズ低減およびエコー抑制に関する問題にまつわる従来技術の多くは、パラメータの数値的な推定技法、および最小平均二乗誤差(MMSE)のような統計的評価基準を使用した統計的に最適な抑制規則と関係している。この種の方法は、聴覚の複雑な性質を無視しており、その結果、MMSE評価基準が人間の聴取者の嗜好性と良好にマッチしていると仮定している。
ノイズ、エコーおよび空間選択性の問題に対処するための周知の音響信号処理方法およびシステムは、しばしば、異なる特徴に基づく異なる抑制システムを連結する。各抑制システムはそのタスクまたは抑制機能のために何らかの方法で最適化されており、音響信号が後続の抑制システムに渡される前に、各抑制システムを通過中の当該音響信号に対して直接に作用する。これが設計の複雑性を低減することが可能である一方で、それは性能面に関して不満な点が多い結果を生じる。例えば、空間的抑制システムは、空間的な不確実性に起因して望ましくない雑音信号に対するある程度の変調を引き起こす可能性が高い。この種の空間的抑制システムがノイズ低減システムを使用してカスケード接続される場合、ノイズのばらつきはノイズ推定結果の不確実性を増加させ、その結果、性能を低下させる。抑制システムのこの種の単純すぎる連結においては、ノイズ抑制のために空間情報を利用することができず、その結果、所望の空間位置からの一部の擬似雑音信号が不必要に減衰させられてしまう可能性がある。ノイズ抑制が最初に発生したならば、同様の問題が生じる。この種の問題は、任意の2入力(2チャネル)の空間的抑制システムにとって極めて一般的な問題である。2つのセンサだけを使用する場合、同程度のレベルである複数の空間的に別々の音源が存在するようになると同時に、空間位置の推定結果は非常にノイズが多くなる。
エコー制御の必要性が加わる場合、更なる問題が生じる。エコー制御より前段にある動的な抑制要素は、エコー推定の結果を不安定化させる可能性がある。最初にエコー制御を有するような代替構成は、追加的な計算の複雑性を生じさせる。特に所望の信号の電力が望ましくない信号と比べて低いか同程度になる場合には、音声、ノイズおよびエコーが存在する状況において、安定な動作状態を保持することができ、不自然な音響出力を回避することができるシステムを作成することが望ましい。
実際には、音声処理システムの性能、頑健性および知覚される音響品質の大部分は、ヒューリスティック、相互関係のある成分および同調に起因している。
本発明の実施例は、以下のものを含む:方法、システム、装置または処理システムの少なくとも一つのプロセッサによって実行される際に、処理ハードウェアに本発明に係る方法を実施させる命令によって構成される有形のコンピュータ可読記憶媒体、そして、本発明に係る方法を実施するために実行される際に、一つ以上のコンピュータ可読の有形媒体の上にコード化されることが可能であり、かつ構成されることが可能である処理ロジック。本発明に係る方法は、ノイズ、およびロケーション外(out-of-location)信号、さらに実施例によってはエコーをも同時に抑制するために、例えば、マイクロフォン信号のような複数の入力信号を処理することである。
本発明の実施例は、フレーム単位で複数のサンプルから成るフレーム内のサンプリングされたデータを処理する。フレーム単位で実行されるこの種の処理の文脈において、「瞬間的である」という用語は、現在のフレームに関係する。
本発明に係る特定の実施例は、複数のサンプリングされた入力信号を受け取り、複数の周波数バンドに関して、複数の入力信号についての、ダウン・ミキシングされバンド集約された周波数ドメインの瞬間的な振幅メトリックを形成する入力プロセッサを備えるシステムを含む。本発明に係る一実施例において、入力プロセッサは、入力信号を複数の周波数ビンへと変換する入力変換器、ダウン・ミキサー(例えば、ダウン・ミキシングされた(例えば、ビーム形成された)信号を形成するためのビーム形成器など)、および複数の周波数バンドを形成するスペクトル集約要素を含む。本発明に係る幾つかの実施例において、例えばビーム形成動作などのダウン・ミキシング動作は変換動作の前に実行され、他の実施例においては、変換動作は、例えばビーム形成動作などのダウン・ミキシング動作の前に実行される。
本発明に係る一つのシステム実施例は、例えば、変換動作の後において、又は他の実施例においては変換動作の前において、複数のサンプリングされた入力信号からバンド集約化された空間特性を推定するバンド集約化空間特性推定器を含む。
エコー抑制機能を含むシステムの実施例は、一つ以上の基準信号を受け取る基準信号入力プロセッサ、変換器および一つ以上の基準信号についてバンド集約された周波数ドメインの振幅メトリックの表現を形成するスペクトル集約要素を含む。本発明に係るシステムのこの種の実施形態は、適応的に決定されたフィルター係数に基づいた予測器であって、エコーについてのバンド集約された周波数ドメインの振幅メトリック表現の予測器を含む。適応的にフィルター係数を決定するために、ノイズ推定器は、ノイズについてバンド集約されたスペクトル振幅メトリックの推定結果を決定する。音声アクティビティ検出器(VAD)は、ノイズについてのバンド集約されたスペクトル振幅メトリック、信号スペクトル推定器によって決定されるダウン・ミキシングされた信号についてのバンド集約されたスペクトル振幅メトリックの推定結果、および音声が存在するか否かを確認するための以前に予測されたエコー・スペクトル・コンテンツ情報を使用する。本発明に係る幾つかの実施形態では、バンド集約された信号はダウン・ミキシングされた信号についてのバンド集約されたスペクトル振幅メトリックの十分に高精度な推定結果であり、その結果、信号スペクトル推定器は使用されない。VADの出力は、フィルター係数を更新するべきか否か決定する適応フィルター更新器によって使用され、当該フィルター係数を当該更新する動作は、ダウン・ミキシングされた信号およびノイズについてのバンド集約されたスペクトル振幅メトリックの推定結果および以前に予測されたエコー・スペクトル・コンテンツ情報に基づく。
本発明に係るシステムは、例えば、一実施例においてロケーション外(out-of-location)信号確率インジケータ(例えば、2つ以上の空間特性を使用して決定されたロケーション外(out-of-location)利得など)を利得として含んでいる抑制確率インジケータ、および、例えば、ノイズ・スペクトル・コンテンツ情報の推定結果を使用して決定されるノイズ抑制利得などのノイズ抑制確率インジケータを算出する利得算出器を更に含む。本発明に係る幾つかの実施形態では、ノイズ・スペクトル・コンテンツ情報の推定結果は、ノイズ・スペクトル・コンテンツ情報の空間選択的な推定結果である。エコー抑制機能を含む幾つかの実施例において、例えば、抑制利得などのノイズ抑制確率インジケータは、エコー抑制を含む。本発明に係る一実施例において、利得算出器は、各バンド毎の第1の合成された利得を形成するために、例えば、抑制利得などのような未処理の抑制確率インジケータを合成する動作をさらに実行する。本発明に係る幾つかの実施形態では、利得算出器は、更に、各バンド毎に後処理された利得を生成するために、複数のバンドについての第1の合成された利得の上で後処理を実行する動作をさらに実行する。上述した後処理は、個々の実施例に応じて、以下の処理のうちの一つ以上を含む:最小限の利得を保証する処理であって、幾つかの実施例においては、バンドに依存した方法により保証する処理;幾つかの実施例において、合成された利得についての中央値フィルタリング処理を実行することにより、異常な値または孤立した利得が存在しないことを保証する処理;そして、幾つかの実施例においては、時間平滑化処理を実行することによって、あるいは他の実施例においては、バンド対バンドの平滑化処理を実行するによって、平滑性を保証する処理。後処理を含む幾つかの実施例において、この種の後処理は、信号の分類結果を生成するために、2つ以上の空間的な特徴を用いた空間選択的な音声アクティビティの検出動作を含み、その結果、後処理を信号の分類結果に従って実行することができるようになる。
本発明に係る幾つかの実施例において、利得算出器は、更に例えば、エコー抑制利得などのような追加のエコー抑制確率インジケータを算出する。本発明に係る一実施例において、(後処理を含む実施例にあっては、後処理の前に)これは、他の利得と合成され、その結果、最終的な利得となる第1の合成された利得を形成することができる。本発明に係るもう一つの実施例では、最終的な利得を生成するために、追加のエコー抑制確率インジケータ(例えば、抑制利得など)は、後処理を含む実施例において得られる後処理の結果と合成され、さもなければ、第1の合成された利得と合成される。
本発明に係るシステムは、最終的なビン利得を生成し、最終的なビン利得を適用して、ダウン・ミキシングされた信号のビン・データの上で抑制処理を実行し、抑制された信号データを形成するために、最終的な利得を内挿補間するノイズ抑制器を更に含む。システムは、以下の一方または両方を更に含む:a)時間ドメインの出力サンプルを生成する出力合成器および変換器、そして、b)後続のコーデックまたは処理段による使用に適している出力周波数ビンを生成するために、出力を再マッピングする処理動作。
本発明に係る特定の実施例は、複数のサンプリングされた入力信号を受け取り、複数の周波数バンドに関して、複数の入力信号についての、ダウン・ミキシングされ、バンド集約された周波数ドメインの瞬間的な振幅メトリックを形成するための手段を備えるシステムを含む。本発明に係る一実施例において、前記受け取り、前記形成するための手段は、入力信号から周波数ビンへの変換のための手段、ダウン・ミキシングされた(例えば、ビーム形成された)信号を形成するためにダウン・ミキシングする(例えば、ビーム形成する)手段、および複数の周波数バンドを形成するためにバンド集約するための手段を含む。本発明に係る幾つかの実施例において、例えばビーム形成動作などのダウン・ミキシング動作は変換動作の前に実行され、他の実施例においては、変換動作は、例えばビーム形成動作などのダウン・ミキシング動作の前に実行される。
本発明に係る一つのシステム実施例は、複数のサンプリングされた入力信号からバンド集約化された空間特性を決定する手段を含む。
エコー抑制機能を含む幾つかのシステム実施例は、一つ以上の基準信号を受け取り、一つ以上の基準信号についてバンド集約された周波数ドメインの振幅メトリックの表現を形成する手段、およびエコーについてバンド集約された周波数ドメインの振幅メトリック表現を予測するための手段を含む。本発明に係る幾つかの実施例において、前記予測する手段は、適応的にフィルター係数を決定する手段および当該手段と結合され、ノイズについてバンド集約されたスペクトル振幅メトリックの推定結果を決定する手段、ダウン・ミキシングされた信号についてのバンド集約されたスペクトル振幅メトリックの推定結果を用いて、音声アクティビティ検出(VAD)を実行するための手段、および、ダウン・ミキシングされた信号およびノイズについてのバンド集約されたスペクトル振幅メトリックの推定結果および以前に予測されたエコー・スペクトル・コンテンツ情報に基づいてフィルター係数を更新するための手段を含む。更新のための手段は、前記音声アクティビティ検出を実行するための手段の出力内容に従って更新処理を実行する。
本発明に係るシステムの一実施例は、例えば、2つ以上の空間特性を使用して決定されたロケーション外(out-of-location)信号利得を含んでいる抑制利得などのような抑制確率インジケータ、および、例えば、ノイズ・スペクトル・コンテンツ情報の推定結果を使用して決定されるノイズ抑制利得などのノイズ抑制確率インジケータを算出する手段を更に含む。本発明に係る幾つかの実施形態では、ノイズ・スペクトル・コンテンツ情報の推定結果は、ノイズ・スペクトル・コンテンツ情報の空間選択的な推定結果である。エコー抑制機能を含む幾つかの実施例において、ノイズ抑制確率インジケータ(例えば、抑制利得など)は、エコー抑制を含む。前記算出する手段によって前記算出する動作は、各バンド毎の第1の合成された利得を形成するために、例えば抑制利得などのような未処理の抑制確率インジケータを合成する動作をさらに実行する。後処理を含む幾つかの実施形態では、前記算出する手段は、各バンド毎に後処理された利得を生成するために、複数のバンドについての第1の合成された利得の上で後処理を実行する手段をさらに含む。上述した後処理は個別の実施形態に応じて、以下の処理のうちの一つ以上を含む:最小限の利得を保証する処理であって、幾つかの実施例においては、バンドに依存した方法により保証する処理;幾つかの実施例において、合成された利得についての中央値フィルタリング処理を実行することにより、異常な値または孤立した利得が存在しないことを保証する処理;そして、幾つかの実施例においては、時間平滑化処理を実行することによって、あるいは他の実施例においては、バンド対バンドの平滑化処理を実行するによって、平滑性を保証する処理。後処理を含む幾つかの実施例において、前記後処理を実行する手段は、信号の分類結果を生成するために、2つ以上の空間的な特徴を用いた空間選択的な音声アクティビティを検出する手段を含み、その結果、後処理を信号の分類結果に従って実行することができるようになる。
本発明に係る幾つかの実施例において、前記算出する手段は、例えば抑制利得などのような追加のエコー抑制確率インジケータを算出する手段を含む。実施例において、(後処理を含む実施例にあっては、後処理の前に)これは、他の利得と合成され、その結果、第1の合成された利得を形成することができ、上記第1の合成された利得は最終的な利得を形成する一方、本発明に係るもう一つの実施例では、最終的な利得を生成するために、追加のエコー抑制確率インジケータ(例えば、抑制利得など)は、後処理を含む実施例において得られる後処理の結果と合成され、さもなければ、第1の合成された利得と合成される。
本発明に係る一つのシステム実施例は、最終的なビン利得を生成し、最終的なビン利得を適用して、ダウン・ミキシングされた信号のビン・データの上で抑制処理を実行し、抑制された信号データを形成するために、最終的な利得を内挿補間する手段を更に含む。 本発明に係る一つのシステム実施例は、以下の一方または両方を適用する手段を更に含む:a)時間ドメインの出力サンプルを生成するために合成結果を出力し変換動作を実行すること、そして、b)出力周波数ビンを生成するために、出力を再マッピングすること。
本発明に係る特定の実施例は、処理システムを具備する処理装置を含み、当該処理装置は、ノイズおよびロケーション外(out-of-location)信号を含む望ましくない信号を抑制するように構成され、当該処理装置は、複数のサンプリングされた入力信号を受け取り、複数の周波数バンドに関して、複数の入力信号についての、ダウン・ミキシングされ、バンド集約された周波数ドメインの瞬間的な振幅メトリックを形成するように構成され、前記形成する動作は、一組の周波数ビンについての複素数値を有する周波数ドメイン値への変換動作を含む。当該処理装置は、複数のサンプリングされた入力信号からバンド集約された空間特性を決定し;2つ以上の空間特性を使用して決定されたロケーション外(out-of-location)抑制確率インジケータを含んでいる抑制確率インジケータの第1の組、および、ノイズ・スペクトル・コンテンツ情報の推定結果を使用して決定される各バンド毎のノイズ抑制確率インジケータを算出し;各バンド毎に第1の合成された利得を決定するために確率インジケータの第1の組を合成し;そして、ダウン・ミキシングされた信号のビン・データの上で抑制処理を実行して、抑制された信号データを形成するためにするために、第1の合成された利得から決定された内挿補間された最終的な利得を適用するように更に構成される。本発明に係る処理装置の幾つかの実施形態では、ノイズ・スペクトル・コンテンツ情報の推定結果は、2つ以上の空間特性を使用して決定されたノイズ・スペクトル・コンテンツ情報の空間選択的な推定結果である。
本発明に係る特定の実施例は、ノイズおよびロケーション外(out-of-location)信号に加え、幾つかの実施例においてはさらにエコーを抑制するように処理装置を動作させる方法を含む。当該方法は、複数のサンプリングされた入力信号を受け取り、複数の周波数バンドに関して、複数の入力信号についての、ダウン・ミキシングされ、バンド集約された周波数ドメインの瞬間的な振幅メトリックを形成する動作を備え、前記形成する動作は、一組の周波数ビンについての複素数値を有する周波数ドメイン値への変換動作などのようなダウン・ミキシング動作を含む。本発明に係る一実施例においては、前記形成する動作は、複数の入力信号を周波数ビンへと変換する変換動作、周波数データをダウン・ミキシングする(例えば、ビーム形成する)動作、およびバンド集約する動作を含む。代替的な実施例においては、ダウン・ミキシング動作は変換動作の前に実行されることが可能であり、その結果、単一のダウン・ミキシングされた信号が変換される。
当該方法は、複数のサンプリングされた入力信号からバンド集約された空間特性を決定する処理動作を含む。
エコーを同時に抑制する機能を含む実施例においては、当該方法は、一つ以上の基準信号を受け取り、一つ以上の基準信号についてバンド集約された周波数ドメインの振幅メトリックの表現を形成する動作を含む。当該表現は、一実施例においては、合計である。また、エコー抑制機能を含む実施例においては、当該方法は、適応的に更新されたエコー・フィルター係数を使用して、エコーについてバンド集約された周波数ドメインの振幅メトリック表現を予測する動作を含み、当該フィルター係数は、ノイズについてのバンド集約されたスペクトル振幅メトリックの推定結果、以前に予測されたエコー・スペクトル・コンテンツ情報、およびダウン・ミキシングされた信号についてのバンド集約されたスペクトル振幅メトリックの推定結果を使用して更新される。一実施例においては、ダウン・ミキシングされた信号のバンド集約されたスペクトル振幅メトリックの推定結果は、入力信号についての、ダウン・ミキシングされ、バンド集約された瞬間的な周波数ドメイン振幅メトリックであり、その一方、他の実施例においては、信号スペクトル推定が使用される。本発明に係る一実施例において、予測フィルターの更新動作の制御は、ダウン・ミキシングされた信号のバンド集約されたスペクトル振幅メトリックの推定結果、ノイズについてのバンド集約されたスペクトル振幅メトリックの推定結果および以前に予測されたエコー・スペクトル・コンテンツ情報を使用する音声アクティビティの検出動作(VAD)を更に含む。音声アクティビティの検出動作の結果は、フィルター係数の更新があるか否かを決定する。フィルター係数の更新は、ダウン・ミキシングされた信号のバンド集約されたスペクトル振幅メトリックの推定結果、ノイズについてのバンド集約されたスペクトル振幅メトリックの推定結果および以前に予測されたエコー・スペクトル・コンテンツ情報に基づいている。
当該方法は、例えば2つ以上の空間特性を使用して決定されたロケーション外(out-of-location)信号利得を含んでいる抑制利得などのような未処理の抑制確率インジケータ、および例えば、ノイズ・スペクトル・コンテンツ情報の推定結果を使用して決定されるノイズ抑制利得などとしてのノイズ抑制確率インジケータを算出する動作、および各バンド毎に合成された利得の第1の組を決定するために、例えば抑制利得のような未処理の抑制確率インジケータを合成する動作を含む。本発明に係る幾つかの実施形態では、ノイズ・スペクトル・コンテンツ情報の推定結果は、ノイズ・スペクトル・コンテンツ情報の空間選択的な推定結果である。本発明に係る幾つかの実施例においてノイズ抑制確率インジケータ(例えば、抑制利得)は、エコーの抑制を含み、その算出動作は、予測されたエコー・スペクトル・コンテンツ情報をさらに使用する。
本発明に係る幾つかの実施例において、当該方法は、例えば、入力オーディオ信号が音声であるか否かなどに関する信号の分類結果を生成するために、空間特性のうちの2つ以上を使用して決定される空間選択的な音声アクティビティ検出動作を実行することを更に含む。本発明に係る幾つかの実施例においては、風の検出が使用され、その結果、当該信号の分類結果は、入力オーディオ信号が風であるか否かに関する分類を更に含む。
当該方法の幾つかの実施例は、各バンド毎に後処理された利得を生成するために、複数のバンドについての第1の合成された利得の上で後処理を実行する動作をさらに含む。上述した後処理は個別の実施形態に応じて、以下の処理のうちの一つ以上を含む:最小限の利得を保証する処理であって、幾つかの実施例においては、バンドに依存した方法により保証する処理;幾つかの実施例において、合成された利得についての中央値フィルタリング処理を実行することにより、異常な値または孤立した利得が存在しないことを保証する処理;そして、時間平滑化処理を実行することによって、及び/又は、バンド対バンドの平滑化処理を実行するによって、平滑性を保証する処理。本発明に係る一実施例においては、後処理は当該信号の分類結果に従って実行される。
エコー抑制機能が含まれる一実施例において、当該方法は、追加的なエコー抑制確率インジケータ(例えば、抑制利得など)を算出する動作を含む。本発明に係る一実施例において、追加的なエコー抑制利得は、第1の合成された利得を形成するために、他の未処理の抑制利得と合成され、(後処理の実行が含まれる実施例の場合には、後処理がされた)第1の合成された利得は、各バンド毎に最終的な利得を形成する。本発明に係る他の実施態様において、付加的なエコー抑制利得は、各バンド毎に最終的な利得を生成するために、(後処理の実行が含まれる実施例の場合には、後処理がされた)第1の合成された利得と合成される。
当該方法は、最終的なビン利得を生成するために最終的な利得を内挿補間する動作、抑制された信号データを形成するためにダウン・ミキシングされた信号のビン・データ上において、抑制処理を行うために最終的なビン利得を適用する動作、および以下の一方または両方の適用する動作を含む:a)出力サンプルを生成するために、合成結果を出力して変換処理すること、そして、b)は、出力周波数ビンを生成するために、再マッピングを出力すること。
本発明に係る特定の実施例は、望ましくない信号を抑制するために処理装置を動作させる方法を含み、当該望ましくない信号はノイズを含む。本発明に係る特定の実施例はさらに処理システムを含む処理装置を含み、当該処理装置は上述した方法を実施するように構成されている。当該方法は、当該処理装置上において少なくとも一つのサンプリングされた入力信号を受け取り、複数の周波数バンドに関して、当該少なくとも一つの入力信号についての、バンド集約された周波数ドメインの瞬間的な振幅メトリックを形成する動作を備え、前記形成する動作は、一組の周波数ビンについての複素数値を有する周波数ドメイン値への変換動作を含む。当該方法は、ノイズ・スペクトル・コンテンツ情報の推定結果を使用して決定されるノイズ抑制確率インジケータを含む一つ以上の抑制確率インジケータの第1の組を算出する動作;各バンド毎に第1の合成された利得を決定するために、当該抑制確率インジケータの当該第1の組を合成する動作;および当該第1の合成された利得から決定された内挿補間された最終的な利得を適用し、当該少なくとも一つの入力信号のビン・データ上において、抑制処理を実行し、抑制された信号データを形成する動作を含む。各周波数バンド毎のノイズ抑制確率インジケータは、当該周波数バンドに関するバンド集約された瞬間的な振幅メトリックのノイズ抑制利得関数として表現可能である。各周波数バンド毎に、バンド集約された瞬間的な振幅メトリック値第1の数値範囲はノイズに関すると予想され、バンド集約された瞬間的な振幅メトリック値の第2の数値範囲は所望の入力信号に関すると予想される。当該複数の周波数バンドに関するノイズ抑制利得関数は、以下のように構成される:それぞれの最小値を有する;当該第1の数値範囲内において比較的一定の値または比較的小さな負の勾配を有する;当該第2の数値範囲内において、比較的一定の利得を有する;そして、当該第1の数値範囲から当該第2の数値範囲への円滑な遷移を有する。
本発明に係る特定の実施例は、望ましくない信号を抑制するために処理装置を動作させる方法を含む。当該方法は、当該処理装置上において少なくとも一つのサンプリングされた入力信号を受け取り、複数の周波数バンドに関して当該少なくとも一つの入力信号についてのバンド集約された周波数ドメインの瞬間的な振幅メトリックを形成する動作を備え、前記形成する動作は、一組の周波数ビンについての複素数値を有する周波数ドメイン値への変換動作を含み、当該方法はさらに、ノイズ・スペクトル・コンテンツ情報の推定結果を使用して決定されるノイズ抑制確率インジケータを含む一つ以上の抑制確率インジケータの第1の組を算出する動作;各バンド毎に第1の合成された利得を決定するために、当該抑制確率インジケータの当該第1の組を合成する動作を含む。当該方法の幾つかの実施例は、各バンド毎に後処理された利得を生成するために、複数のバンドについての第1の合成された利得の上で後処理を実行する動作をさらに含み、上述した後処理は、各バンド毎に最小限の利得を保証する処理;当該後処理された利得から決定された内挿補間された最終的な利得を適用し、当該少なくとも一つの入力信号のビン・データ上において、抑制処理を実行し、抑制された信号データを形成する動作を含む。幾つかの変形実施例において、後処理は、以下の一つ以上を含む:利得についての中央値フィルタリングを実行する処理;利得についてのバンド対バンド平滑化を実行する処理;および利得についての時間平滑化を実行する処理。
本発明に係る特定の実施例は、少なくとも一つのサンプリングされた入力信号を処理するために処理装置を動作させる方法を含み、当該方法は、以下の新たな処理手順を含む:当該処理装置上において少なくとも一つのサンプリングされた入力信号を受け取り、複数の周波数バンドに関して当該少なくとも一つの入力信号についてのバンド集約された周波数ドメインの瞬間的な振幅メトリックを形成する動作であって、前記形成する動作は、一組の周波数ビンについての複素数値を有する周波数ドメイン値への変換動作および複数の周波数バンドをバンド集約する動作を含む、形成する動作。当該方法は、ノイズ低減を達成することを目的として、および/または、バンド集約することが知覚的なバンド集約化処理である場合、一つ以上の知覚的なドメインに基づくレベリング処理である場合、知覚的な領域に基づくダイナミック・レンジ制御である場合および知覚的な領域に基づく動的な等化である場合には、各バンド毎に利得を算出することを更に含む。幾つかの実施例において、当該方法は、各バンド毎に後処理された利得を生成するために、当該バンドの利得の上において後処理を実施する動作を更に含み;当該後処理は、後処理された信号データを生成するために、当該バンドの利得についての中央値フィルタリング処理;そして、ノイズ低減処理を実行するために、および/または、バンド集約することが知覚的なバンド集約化処理である場合、一つ以上の知覚的なドメインに基づくレベリング処理である場合、知覚的な領域に基づくダイナミック・レンジ制御である場合および知覚的な領域に基づく動的な等化である場合には、(後処理が含まれる実施例の場合にあっては、後処理された)利得から決定される内挿補間された最終的な利得をビン・データの上に適用する処理を含む。当該方法の幾つかの変形実施例は、信号の分類を実行するために、音声アクティビティ検出および風アクティビティ検出の中の少なくとも一方を実行することを更に含み、中央値フィルタリング処理は、信号の分類結果に依存する。
本発明に係る特定の実施例は、望ましくない信号を抑制するために処理装置を動作させる方法を含み、当該方法は、以下の新たな処理手順を含む:当該処理装置上において複数のサンプリングされた入力信号を受け取る動作;および、複数の周波数バンドに関して当該複数の入力信号についての、バンド集約され、ダウン・ミキシングされた周波数ドメインの瞬間的な振幅メトリックを形成する動作であって、前記形成する動作は、一組の周波数ビンについての複素数値を有する周波数ドメイン値への変換動作を含む、形成する動作。当該方法は、複数のサンプリングされた入力信号からバンド集約化された空間特性を決定する動作、空間特性のうちの2つ以上を使用して決定されたロケーション外(out-of-location)抑制確率インジケータを含む抑制確率インジケータの第1の組、およびノイズ・スペクトル・コンテンツ情報の推定結果を使用して決定されたノイズ抑制確率インジケータを算出する動作;各バンド毎に第1の合成された利得を決定するために、抑制確率インジケータの第1の組を合成する動作であって、(後処理の実行が含まれる実施例の場合にあっては、後処理がされた後の)第1の合成された利得は、各バンド毎に最終的な利得を形成する、合成する動作;および、第1の合成された利得から決定される内挿補間された最終的な利得を適用する動作をさらに具備する。最終的な利得を内挿補間することは、ダウン・ミキシングされた信号のビン・データに適用するための最終的なビン利得を生成し、その結果、抑制された信号データが形成される。ノイズ・スペクトル・コンテンツ情報の推定結果は、空間特性のうちの2つ以上を使用して決定されるノイズ・スペクトル・コンテンツ情報の空間選択的な推定結果である。幾つかの変形実施例において、ノイズ・スペクトル・コンテンツ情報の推定結果は、少なくとも一つの最小ホロワーのリーク率パラメータによって定義される追従レートに従って動作するリーキー最小ホロワーによって測定される。特定の変形実施例において、リーキー最小ホロワーの少なくとも一つのリーク率パラメータは、音声アクティビティ検出によって決定される結果に従って、音声の存在確率によって制御される。
本発明に係る特定の実施例は、望ましくない信号を抑制するために処理装置を動作させる方法を含み、当該方法は、以下の新たな処理手順を含む:当該処理装置上において複数のサンプリングされた入力信号を受け取る動作;複数の周波数バンドに関して、当該複数の入力信号についてのバンド集約化され、ダウン・ミキシングされた周波数ドメインの瞬間的な振幅メトリックを形成する動作であって、前記形成する動作は、一組の周波数ビンについての複素数値を有する周波数ドメイン値への変換動作を含む、形成する動作;および、複数のサンプリングされた入力信号からバンド集約化された空間特性を決定する動作。当該方法は、当該空間特性のうちの2つ以上を使用して決定されたロケーション外(out-of-location)抑制確率インジケータを含む抑制確率インジケータの第1の組、およびノイズ・スペクトル・コンテンツ情報の推定結果を使用して決定されたノイズ抑制確率インジケータを算出する動作;当該処理装置の上で一つ以上の基準信号を受け取る動作;一つ以上の基準信号についてバンド集約された周波数ドメインの振幅メトリックの表現を形成する動作;および、適応的に更新されたエコー・フィルター係数を使用して、エコーについてバンド集約された周波数ドメインの振幅メトリック表現を予測する動作をさらに含む。方法は、汎用的な音声アクティビティ検出方法のそれぞれの具体的実装例を使用して、ダウン・ミキシングされ、バンド集約された瞬間的な周波数ドメインの振幅メトリックから音声アクティビティの複数の表示を決定する動作を更に含み、当該汎用的な音声アクティビティ検出方法は、一組のパラメータによって制御され、ノイズ・スペクトル・コンテンツ情報の推定結果、エコーについてのバンド集約された周波数ドメインの振幅メトリック表現、および、バンド集約化された空間特性を使用しており、上述した一組のパラメータは、ノイズ・スペクトル・コンテンツ情報の推定結果が空間選択的であるか否か、および、一つの具体的実装例がパラメータ「音声アクティビティ」の選択によって制御されることを、音声アクティビティの表示の中のいずれが決定するか、に関する情報を含む。当該方法は、各バンド毎に第1の合成された利得を決定するために、確率インジケータの第1の組を合成する動作、および、ダウン・ミキシングされた信号のビン・データの上で抑制処理を実行し、その結果、抑制された信号データを形成するために、(後処理の実行が含まれる実施例の場合にあっては、後処理がされた)利得から決定される内挿補間された最終的な利得を適用する動作をさらに具備する。当該汎用的な音声アクティビティ検出方法の異なる具体的実装例は、当該方法における複数の異なるステップで適用される。幾つかの変形実施例においては、ノイズ・スペクトル・コンテンツ情報の推定結果は、空間特性のうちの2つ以上を使用して決定されるノイズ・スペクトル・コンテンツ情報の空間選択的な推定結果である。
本発明に係る特定の実施例は、命令によって構成設定される有形のコンピュータ可読の記憶媒体を含み、当該命令は、処理システムの少なくとも一つのプロセッサによって実行される際に、本明細書において記載されている方法を処理ハードウェアに実施させる。
本発明に係る特定の実施例は、本明細書において記載されている方法を実施するために一つ以上のコンピュータ可読の有形媒体の上にコード化されることが可能なロジックを含む。
本発明に係る特定の実施例は、これらの実施態様、技術的特徴または技術的効果の一部又は全てを実現することが可能であるか、又はいずれも実現することができない場合もある。本発明に係る特定の実施例は、一つ以上の他の態様、技術的特徴または技術的効果を実現することができ、これらの中の一つ以上は、本明細書に添付した図面、特許請求の範囲および本明細書中の説明から当業者にとって直ちに自明であろう。
本発明に係るシステムの実施例を図示する簡略化されたブロック図。 本発明に係る1つの方法の実施例を図示する簡略化されたフローチャート。 本発明に係る一つ以上の実施例の特徴に従う変換によって変換された値を生成するためにウィンドウ制御されているサンプルの時間フレームを図示する簡略化されたブロック図。 複数の周波数ビンを複数の周波数バンドにバンド集約する動作を説明するための簡略化されたブロック図。 算出された利得をサンプリングされた入力データのビンに対して適用する動作を説明する簡略化されたブロック図。 出力ビンを出力サンプルのフレームに変換する合成過程を図示する簡略化されたブロック図。 図3Dのステージに加えて、または、図3Dのステージの代わりに含めることが可能な出力段であって、本発明に係る幾つかの実施例の特徴に従い、後続の処理における変換(例えば音声コーデック)の必要性に適合するために、複素数値を有するビンを再フォーマットする出力段を図示する簡略化されたブロック図。 本発明に係る幾つかの実施例に従う一組の変換ビンの組をバンド集約するためのバンド集約化マトリックスの二次元プロット表現を示す図。 線形スケール上および対数関数的スケール上において周波数ドメイン内にある複数のバンドの例示的な形状を図示し、さらに、本発明に係る幾つかの実施例に従う例示的なバンド・フィルターの合計を示す図。 バンド集約する処理の例示的な実施例に従う幾つかのフィルタ・バンドに関する時間ドメイン・フィルタ表現を示す図。 本発明に係る幾つかの実施例に従って複数の周波数バンドにバンド集約化するための正規化利得を示す図。 一つのバンド内の信号電力(または他の周波数ドメイン振幅メトリック)を分解して、最終的に所望の信号電力(または他の周波数ドメイン振幅メトリック)の推定結果を得る2つの分解方法をそれぞれ示す図。 一つのバンド内の信号電力(または他の周波数ドメイン振幅メトリック)を分解して、最終的に所望の信号電力(または他の周波数ドメイン振幅メトリック)の推定結果を得る2つの分解方法をそれぞれ示す図。 拡散ノイズおよび音声信号について、比率、位相およびコヒーレンス空間特性のそれぞれに関する時間軸上の確率密度関数を示す図。 拡散ノイズおよび音声信号について、比率、位相およびコヒーレンス空間特性のそれぞれに関する時間軸上の確率密度関数を示す図。 拡散ノイズおよび音声信号について、比率、位相およびコヒーレンス空間特性のそれぞれに関する時間軸上の確率密度関数を示す図。 本発明に係る一実施例に従って図1の利得算出器129の実施例を図示する簡略化されたブロック図。 本発明に係る実施例に従い、後処理に加えて、追加的なエコー利得を算出し、組み込む任意付加的なステップを含む実施例について、図2における利得算出ステップおよび後処理ステップを図示するフローチャート。 ノイズ信号および音声信号の場合について、所与のバンド内における信号電力のスケーリングされたヒストグラムの形で、確率密度関数を示す図。 図12の分布関数と共に、本発明に係る代替的な実施例に従って決定された4つの抑制利得関数を示す図。 図12のヒストグラムと共に、本発明に係る代替的な実施例に従って決定されるS字状の利得曲線および修正されたS字状の利得曲線を示す図。 図14に示すS字状の利得曲線および変更されたS字状の利得曲線を図12に示す確率密度関数に適用した後に、当該確率密度関数に何が起こるかについて示す図。 一つ以上のプロセッサおよび記憶サブシステムを備えている処理システムを含む1つの処理装置の実施例を図示する簡略化されたブロック図であって、当該処理装置は、本発明に係る一実施例に従って、複数の音声入力および一つ以上の基準信号入力を処理する装置である、ブロック図。
<特定の例示的な実施形態>
本明細書中において記載されているのは、以下のような情報を処理する方法である:(a)例えば、複数の空間的に分離されたマイクロフォンからの複数の信号のような複数の入力信号;そして、エコー抑制処理のために、(b)エコーを引き起こす原因となり得る信号であって、例えば、一つ以上の大音量スピーカーからの、又はこれらのスピーカーによって音響再生されるべき複数の信号などのような一つ以上の基準信号。典型的には、例えば、複数のマイクロフォンの配列に対する人間の音声の発声源である人間などのような音源が存在する。当該方法は、統合された方法に従って、ノイズ抑制、エコー抑制およびロケーション外(out-of-location)信号の抑制を同時に実行するために、複数の入力信号および一つ以上の基準信号を処理する。また、本明細書中において記載されているのは、複数の入力信号および一つ以上の基準信号を受け取り、統合された方法に従って、ノイズ抑制、エコー抑制およびロケーション外(out-of-location)信号の抑制を同時に実行するために、複数の入力信号および一つ以上の基準信号を処理するシステムである。また、本明細書中において記載されているのは、命令が符号化されている少なくとも一つの記憶媒体であり、当該命令は、処理システムの一つ以上のプロセッサによって実行される際に、複数の入力信号(例えば、マイクロフォン信号)および一つ以上の基準信号(例えば、一つ以上の大音量スピーカーのための、または、これらのスピーカーから発する信号など)を処理させるための命令であり、その結果、統合された方法に従って、ノイズ抑制、エコー抑制およびロケーション外(out-of-location)信号の抑制を同時に実行するために、複数の入力信号および一つ以上の基準信号が処理される。
<スペクトル・ドメインにおける抑制>
本発明に係る実施例は、一組の抑制確率インジケータを決定して、適用する観点から記載され、当該抑制確率インジケータは、例えば、複数のスペクトル・バンドの各々についての抑制利得として表され、当該抑制利得は、多くの周波数バンドにおける信号のスペクトル値に対して適用される。当該スペクトル値は、スペクトル・コンテンツ情報を表す。本明細書において記載されている実施例の多くにおいて、スペクトル・コンテンツ情報は、電力スペクトルの観点から述べられる。しかしながら、本発明の技術的範囲は、電力スペクトル値を処理する技術に限られていない。むしろ、本発明においては、スペクトル振幅に依存する如何なるメトリックであっても使用することが可能である。例えば、振幅スペクトルが直接的に使用される場合、この種のスペクトル・コンテンツ情報はしばしばスペクトル包絡と呼ばれる。このように、しばしば、用語「電力スペクトル」を使用するよりはむしろ、用語「電力スペクトル(または他の振幅メトリックのスペクトル)」が本明細書の説明において使われる。
<本明細書中において共通に用いられる幾つかの記号のリスト>
B: スペクトル値の個数を表し、これはまた、バンドの個数とも呼ばれる。実施例において、B個のバンドは、互いに周波数間隔が単調に減少しない複数の周波数である。当該複数の周波数バンドの中の少なくとも90%は、複数の周波数ビンからの寄与を含み、好適な実施例においては、各周波数バンドは、2つ以上の周波数ビンからの寄与を含む。幾つかの具体例において、当該複数のバンドは、対数スケール軸の上で単調増加している。幾つかの実施例において、当該複数のバンドは、音響心理学的なスケール軸の上に分布しており、すなわち、複数の周波数バンドは、音響心理学的に重要な意味を持つ周波数間隔に関連したスケーリングに従って離間されており、そのようなバンド配置は、本明細書において「知覚的バンド配置」と呼ばれる。
b: 個々のバンドの番号を表し、1からBまでの値をとる。
C(b): バンドbの中心周波数を表す。
N: 周波数ドメインへと変換した後の周波数ビンの個数。
M: 一フレーム中のサンプルの個数であり、例えば、適切なウィンドウによってウィンドウ制御されているサンプルの個数。
T: M個のサンプルから成る一フレームに渡ってサンプリングされている音の時間間隔。
f0: 一フレーム中のM個のサンプルについてのサンプリング周波数。
P: 入力信号(例えば、マイクロフォンからの入力信号)の個数。
Q: 基準入力の個数を表す。
p,n: P個の(マイクロフォンからの)入力サンプルがある場合に、それぞれM個のサンプルから成るp番目の入力フレームに含まれるN個の複素数値の周波数ビンを表し、m=0,…,M−1であり、p=1,…,Pであり、周波数ビンの並びが周波数の昇順にn=0,…,N−1である場合に、当該入力フレームはxp,mと表される。
R’b: 例えば、複数の周波数ビンおよび複数の要素を有する重み行列Wなどから形成されるP個の入力信号のバンド集約された共分散行列。
n: N個の周波数ビンM個のサンプルから成り、長さTを有する直近のフレーム(現在のフレーム)中に含まれるダウン・ミキシングされた(例えば、ビーム形成された)信号(ノイズおよびエコーが合わさった信号)のN個の周波数ビンを表す。これは、例えば、当該複数の入力の変換された信号ビンをダウン・ミキシング処理(例えば、ビーム形成など)することによって、または、サンプル領域においてダウン・ミキシング処理(例えば、ビーム形成など)を実行し、当該ダウン・ミキシングされた(例えば、ビーム形成された)信号サンプルをさらに変換することによって決定される。
Y’b: 周波数バンドbにおける長さTを有する直近のフレーム(現在フレーム)に含まれるダウン・ミキシングされた(例えば、ビーム形成された)信号(ノイズおよびエコーが合わさった信号)の(バンド集約された)瞬間的なスペクトル・コンテンツ(例えば、瞬間的なスペクトル電力(または他の周波数ドメイン振幅メトリック))を表す。これは、例えば、ダウン・ミキシングされ(例えば、ビーム形成され)、変換された信号ビンを周波数バンドへとバンド集約することによって決定される。
n: M個のサンプルから成る長さTを有する直近のフレーム(現在フレーム)に含まれる基準入力のN個の周波数ビンを表し、これは、例えば、一つ以上の基準入力を表す信号を周波数バンドへと変換することによって得られる。
X’b: 周波数バンドb内の長さTを有する直近のフレーム(現在フレーム)に含まれる基準入力についての瞬間的なスペクトル・コンテンツ情報(例えば、瞬時電力(または他の周波数ドメイン振幅メトリック))。これは、例えば、一つ以上の基準入力を表す信号を変換し、バンド集約することにより決定される。
X’b,l: 長さTを有するフレームのインデックスlに関して、バンドbにおいて、基準入力についての瞬時電力スペクトル・コンテンツ(例えば、電力(または他の周波数ドメイン振幅メトリック))を表し、インデックスlは、M個の入力サンプルから成るフレームの何個が過去に存在したかを示すためのフレーム・インデックスを表し、l=0,…,L−1である。すなわち、インデックスlは、先行するl番目のフレームに対応し、M個のサンプルから成る長さTを有する直近のフレームはl=0に対応し、その結果、X'b=X'b,0となる。
E'b: 周波数バンドbにおける予測されたエコー・スペクトル・コンテンツ情報(例えば、電力スペクトル(または他の振幅メトリック・スペクトル))を表す。
P'b: 周波数バンドbにおける直近のフレーム(現在フレーム)に含まれる信号推定されたスペクトル・コンテンツ情報(例えば、電力スペクトル(または他の振幅メトリック・スペクトル))を表し、これは、バンド集約された瞬間的な電力Y'bから決定される。バンド集約の具体的態様が対数スケール軸上で音響心理学に従って設計されている幾つかの実施例を考慮するならば、Y'bは、P'bの十分に良好な推定結果であるかも知れない。
N’b: 周波数バンドbにおけるノイズ推定スペクトル・コンテンツ情報(例えば、電力スペクトル(または他の振幅メトリック・スペクトル))を表す。これは、例えば、音声アクティビティ検出のために、そして、エコー・スペクトル・コンテンツ情報を適応的に予測するためのフィルター係数を更新するために使用される。
S: VADにより決定される音声アクティビティを表し、Sが閾値を超えるときに、信号は音声であるとみなされる。
<実施例の説明>
図1は、システム100の実施例のブロック図を示し、システム100は、信号入力101(例えば、それぞれ異なる空間位置に設置されたマイクロフォン(図示せず)からのマイクロフォン入力)の一つ以上(その個数はPで表される)から成る多くの信号入力を受け取る。これらの信号入力は、MIC1,…,MICPと表され、多数の(その個数はQで表される)基準入力102は、それぞれREF1,…,REFQと表され、Q個の基準入力102は、Q個の大音量スピーカーで再生される信号またはQ個の大音量スピーカーから取得された信号である。信号101および信号102は、サンプル値の形態で表される。本発明の幾つかの実施例においては、P=1である、すなわち、単一のマイクロフォン入力だけが存在する。ロケーション外(out-of-location)信号の抑制が存在する場合、P=2であり、その結果、少なくとも2つの信号入力(例えば、2つのマイクロフォン入力)が存在することとなる。同様に、実施例によっては、例えば、エコー抑制が全くなされない実施例においては、Q=0となり、その結果、基準入力は全く与えられない。エコー抑制がある場合、Q=1となる。
図1に示されたシステム100は、統合された方法に従って、ノイズ抑制およびロケーション外(out-of-location)信号の抑制を同時に実行し、実施例によっては、さらにエコー抑制も同時に実行する。そのような実施例は、複数のサンプリングされた入力信号を受け取り、複数の(B個の)周波数バンドに関して、複数の入力信号101についての、ダウン・ミキシングされバンド集約された周波数ドメインの瞬間的な振幅メトリック110を形成する入力プロセッサ103、107および109を具備するシステム100を含む。本発明に係る一実施例において、当該入力プロセッサ103、107および109は、入力を複数の周波数ビンへと変換する入力変換器103、ダウン・ミキサー(例えば、ダウン・ミキシングされた(例えば、ビーム形成された)信号108であって、Yn(n=1,…,N)で表される信号108を形成するためのビーム形成器107など)、およびY'b(b=1,…,B)で表される複数の周波数バンドを形成するスペクトル・バンド集約化要素109を含む。本発明に係る幾つかの実施例においては、ビーム形成動作は変換動作の前に実行され、図1に示すような他の実施例においては、変換動作は、例えばビーム形成動作などのダウン・ミキシング動作の前に実行される。
本発明に係る一つのシステム実施例は、変換動作の後において、又は他の実施例においては変換動作の前において、複数のサンプリングされた入力信号からバンド集約化された空間特性106を推定するバンド集約化空間特性推定器105を含む。
エコー抑制機能を含むシステム100の実施例は、一つ以上の基準信号を受け取る基準信号入力プロセッサ111、変換器113および一つ以上の基準信号についてバンド集約された周波数ドメインの振幅メトリックの表現116を形成するスペクトル集約要素115を含む。本発明に係るシステム100のこの種の実施形態は、適応的に決定されたフィルター係数に基づいた予測器117であって、エコーについてのバンド集約された周波数ドメインの振幅メトリック表現118の予測器117を含む。適応的にフィルター係数を決定するために、ノイズ推定器123は、ノイズについてバンド集約されたスペクトル振幅メトリックの推定結果124を決定する。音声アクティビティ検出器(VAD)125は、ノイズについてのバンド集約されたスペクトル振幅メトリック124、信号スペクトル推定器121によって決定されるダウン・ミキシングされた信号についてのバンド集約されたスペクトル振幅メトリックの推定結果122、および音声検出出力を生成するための以前に予測されたエコー・スペクトル・コンテンツ情報118を使用する。本発明に係る幾つかの実施形態では、バンド集約された信号110はダウン・ミキシングされた信号についてのバンド集約されたスペクトル振幅メトリック122の十分に高精度な推定結果であり、その結果、信号スペクトル推定器121は使用されない。VAD125の出力結果は、フィルター係数128を更新するべきか否か決定する適応フィルター更新器127によって使用され、当該フィルター係数128を当該更新する動作は、ダウン・ミキシングされた信号およびノイズについてのバンド集約されたスペクトル振幅メトリックの推定結果122(または110)、124および以前に予測されたエコー・スペクトル・コンテンツ情報118に基づく。
本発明に係るシステム100は、例えば、一実施例においてロケーション外(out-of-location)信号確率インジケータ(例えば、2つ以上の空間特性106を使用して決定されたロケーション外(out-of-location)利得など)を利得として含んでいる抑制確率インジケータ、および、例えば、ノイズ・スペクトル・コンテンツ情報の推定結果を使用して決定されるノイズ抑制利得などのノイズ抑制確率インジケータを算出する利得算出器129を更に含む。エコー抑制機能を含む幾つかの実施形態では、ノイズ抑制利得はエコー抑制を含んでいる。本発明に係る一実施例において、利得算出器129は、各バンド毎に第1の合成された利得を形成するために、未処理の抑制利得を合成する動作をさらに実行する。本発明に係る幾つかの実施形態では、利得算出器129は、更に、各バンド毎に後処理された利得130を生成するために、複数のバンドについての第1の合成された利得の上で後処理をさらに実行する。上述した後処理は、個々の実施例に応じて、以下の処理のうちの一つ以上を含む:最小限の利得を保証する処理であって、幾つかの実施例においては、バンドに依存した方法により保証する処理;幾つかの実施例において、合成された利得についての中央値フィルタリング処理を実行することにより、異常な値または孤立した利得が存在しないことを保証する処理;そして、幾つかの実施例においては、時間平滑化処理を実行することによって、あるいは他の実施例においては、バンド対バンドの平滑化処理を実行するによって、平滑性を保証する処理。幾つかの実施例において、この種の後処理は、信号の分類結果を生成するために、2つ以上の空間的な特徴106を用いた空間選択的な音声アクティビティの検出動作を含み、その結果、後処理を信号の分類結果に従って実行することができるようになる。
本発明に係る幾つかの実施例において、利得算出器129は、更に、エコー抑制利得を算出する。本発明に係る一実施例において、(後処理を含む実施例にあっては、後処理の前に)これは、他の利得と合成され、その結果、第1の合成された利得を形成することができる。本発明に係るもう一つの実施例では、追加のエコー抑制利得は、(後処理の実行を含む実施例にあっては、後処理の後に)第1の合成された利得と合成され、その結果、最終的な利得が生成される。
本発明に係るシステム100は、(後処理の実行を含む実施例にあっては、後処理の後に)利得130を適用して、ダウン・ミキシングされた信号のビン・データの上で抑制処理を実行し、抑制された信号データ132を形成するために、最終的な利得を内挿補間するノイズ抑制器131を更に含む。システム100は、構成要素133内において、以下の一方または両方を更に含む:a)時間ドメインの出力サンプルを生成する出力合成器および変換器、そして、b)後続のコーデックまたは処理段による使用に適している出力周波数ビンを生成するために、出力を再マッピングする処理動作。
本発明に係るシステムの実施例は、複数のサンプリングされた入力信号(図1の101)を受け取り(図1の103)、複数の周波数バンドに関して、複数の入力信号(図1の101)についての、ダウン・ミキシングされ、バンド集約された周波数ドメインの瞬間的な振幅メトリック(図1の110)を形成する(図1の103、107および109)ための手段を備える。本発明に係る一実施例において、前記受け取り、前記形成するための手段は、入力信号から周波数ビンへの変換のための手段103、ダウン・ミキシングされた(例えば、ビーム形成された)信号を形成するためにダウン・ミキシングする(例えば、ビーム形成する)手段107、および複数の周波数バンドを形成するためにバンド集約するための手段109を含む。本発明に係る幾つかの実施例において、例えばビーム形成動作などのダウン・ミキシング動作は変換動作の前に実行され、他の実施例においては、変換動作は、例えばビーム形成動作などのダウン・ミキシング動作の前に実行される。
本発明に係る一つのシステム実施例は、複数のサンプリングされた入力信号からバンド集約化された空間特性106を決定する手段105を含む。
エコー抑制機能を含む幾つかのシステム実施例は、一つ以上の基準信号を受け取り(図1の213)、一つ以上の基準信号についてバンド集約された周波数ドメインの振幅メトリックの表現116を形成する(図1の215、217)ための手段、およびエコーについてバンド集約された周波数ドメインの振幅メトリック表現118を予測する(図1の117、123、125、127)ための手段を含む。本発明に係る幾つかの実施例において、前記予測する(図1の117、123、125、127)ための手段は、適応的にエコー・フィルター係数128を決定する(図1の125、127)ための手段および当該手段と結合され、ノイズについてバンド集約されたスペクトル振幅メトリックの推定結果124を決定する(図1の123)ための手段、ダウン・ミキシングされた信号についてのバンド集約されたスペクトル振幅メトリックの推定結果を用いて、音声アクティビティ検出(VAD)を実行するための手段、および、ダウン・ミキシングされた信号についてのバンド集約されたスペクトル振幅メトリックの推定結果122およびフィルター係数128を更新する(図1の127)ための手段を含む。VADの出力は、更新するための手段127と結合され、更新するための手段127が当該フィルター係数128を更新する場合に、決定される。当該フィルター係数128は、ダウン・ミキシングされた信号およびノイズについてのバンド集約されたスペクトル振幅メトリックの推定結果122、124、および以前に予測されたエコー・スペクトル・コンテンツ情報118に基づいて更新される。
本発明に係るシステムの一実施例は、例えば、2つ以上の空間特性106を使用して決定されたロケーション外(out-of-location)信号利得を含んでいる抑制利得、および、ノイズ・スペクトル・コンテンツ情報の推定結果を使用して決定されるノイズ抑制利得を算出する(図1の129)ための手段を更に含む。エコー抑制機能を含む幾つかの実施例において、ノイズ抑制利得は、エコー抑制を含む。前記算出するための手段129によって前記算出する動作は、各バンド毎に第1の合成された利得を形成するために、未処理の抑制利得を合成する動作を含む。
幾つかの実施形態では、前記算出する手段129は、各バンド毎に後処理された利得130を生成するために、複数のバンドについての第1の合成された利得の上で後処理を実行する手段をさらに含む。上述した後処理は個別の実施形態に応じて、以下の処理のうちの一つ以上を含む:最小限の利得を保証する処理であって、幾つかの実施例においては、バンドに依存した方法により保証する処理;幾つかの実施例において、合成された利得についての中央値フィルタリング処理を実行することにより、異常な値または孤立した利得が存在しないことを保証する処理;そして、幾つかの実施例においては、時間平滑化処理および/またはバンド対バンドの平滑化処理を実行するによって、平滑性を保証する処理。幾つかの実施例において、前記後処理を実行する手段は、信号の分類結果を生成するために、2つ以上の空間的な特徴106を用いた空間選択的な音声アクティビティを検出する手段を含み、その結果、後処理を信号の分類結果に従って実行することができるようになる。
本発明に係る幾つかの実施例において、前記算出する手段129は、追加のエコー抑制利得を算出する手段を含む。幾つかの実施例において、(後処理を含む実施例にあっては、後処理の前に)これは、(一つ以上の)他の利得と合成され、その結果、複数のバンドについて、各バンド毎の最終的な利得として使用されるべき第1の合成された利得を形成することができ、本発明に係るもう一つの実施例では、各バンド毎の追加のエコー抑制利得が、(後処理を含む実施例にあっては後処理された)第1の合成された利得と合成され、最終的な利得が生成される。
本発明に係る一つのシステム実施例は、最終的なビン利得を生成し、最終的なビン利得を適用して、ダウン・ミキシングされた信号のビン・データの上で抑制処理を実行し、抑制された信号データ132を形成するために、最終的な利得を内挿補間する(図1の131)ための手段を更に含む。 本発明に係る一つのシステム実施例は、以下の一方または両方を適用する(図1の133)ための手段を更に含む:a)時間ドメインの出力サンプル135を生成するために合成結果を出力し変換動作を実行すること、そして、b)出力周波数ビン135を生成するために、再マッピング結果を出力すること(出力サンプル生成器および出力周波数ビン生成器の両者を示すために、同一の参照番号が使用されていることに留意されたい)。
図2は、処理装置100を動作させる方法200のフローチャートを示し、当該方法200は、信号入力101(例えば、それぞれ異なる空間位置に設置されたマイクロフォン(図示せず)からのマイクロフォン入力)の一つ以上(その個数はPで表される)から成る多くの信号入力の中に含まれるノイズとロケーション外(out-of-location)信号を抑制するための方法であり、これらの信号入力は、MIC1,…,MICPと表される。エコー抑制機能を含む実施例においては、方法200は、それぞれREF1,…,REFQと表される多数の(その個数はQで表される)基準入力102であって、例えば、Q個の大音量スピーカーで再生される信号またはQ個の大音量スピーカーから取得された信号などである基準入力102を処理する動作を含む。信号101および信号102は、サンプル値の形態で表される。これは、幾つかの実施例においては、他の音源から取得されるような期待されるエコーと関係した合成された振幅メトリックの推定結果を使用することで充分である。当該システムは、統合された方法に従って、ノイズ抑制およびロケーション外(out-of-location)信号の抑制を同時に実行し、実施例によっては、さらにエコー抑制も同時に実行する。
本発明に係る一実施例において、方法200は、処理装置の上において複数のサンプリングされた入力信号101を受け取り(図2の201)、複数の周波数バンドに関して、複数の入力信号101についての、ダウン・ミキシングされ、バンド集約された周波数ドメインの瞬間的な振幅メトリック110を形成する(図2の203、207および209)動作を備え、前記形成する動作は、一組の周波数ビンについての複素数値を有する周波数ドメイン値への変換動作203を含む。本発明に係る一実施例においては、前記形成する動作は、図2の203において、複数の入力信号を周波数ビンへと変換する変換動作、図2の207において、周波数データをダウン・ミキシングする(例えば、ビーム形成する)動作、および図2の209において、バンド集約する動作を含む。代替的な実施例においては、ダウン・ミキシング動作は変換動作の前に実行されることが可能であり、その結果、単一のダウン・ミキシングされた信号が変換される。他の代替的な実施例においては、当該システムは、バンド集約された基準エコーまたは当該基準エコーの周波数ドメイン・スペクトルについて同様の信号表現を推定した結果を活用することが可能であり、これらは、実装されたシステム内にある他の処理回路または音源から供給される。
当該方法200は、複数のサンプリングされた入力信号からバンド集約された空間特性106を決定する(図2の205)処理動作を含む。
エコーを同時に抑制する機能を含む実施例においては、当該方法200は、一つ以上の基準信号を受け取り(図2の213)、一つ以上の基準信号についてバンド集約された周波数ドメインの振幅メトリックの表現116を形成する(図2の215、217)動作を含む。当該表現は、一実施例においては、合計である。また、エコー抑制機能を含む実施例においては、当該方法200は、図2の221において、適応的に更新されたエコー・フィルター係数128を使用して、エコーについてバンド集約された周波数ドメインの振幅メトリック表現118を予測する動作を含む。一実施例においては、当該予測する動作は、ダウン・ミキシングされ、バンド集約された瞬間的な周波数ドメイン振幅メトリック122、ノイズについてのバンド集約されたスペクトル振幅メトリックの推定結果124、および以前に予測されたエコー・スペクトル・コンテンツ情報118を使用する音声アクティビティの検出動作(VAD)を更に含む。音声アクティビティの検出動作の結果に応じて、フィルター係数128は更新されたり、更新されなかったりする。当該フィルター係数128の更新動作は、ノイズについてのバンド集約されたスペクトル振幅メトリックの推定結果124、以前に予測されたエコー・スペクトル・コンテンツ情報118、およびダウン・ミキシングされた信号についてのバンド集約されたスペクトル振幅メトリックの推定結果122を使用する。一実施例においては、ダウン・ミキシングされた信号のバンド集約されたスペクトル振幅メトリックの推定結果122は、入力信号についての、ダウン・ミキシングされ、バンド集約された瞬間的な周波数ドメイン振幅メトリック110であり、その一方、他の実施例においては、信号スペクトル推定が使用される。
当該方法200は、a)2つ以上の空間特性106を使用して決定されたロケーション外(out-of-location)信号利得を含んでいる抑制利得、および空間選択的なノイズ・スペクトル・コンテンツ情報の推定結果を使用して決定されるノイズ抑制利得を算出する動作(図2の223)、および、b)各バンド毎に合成された第1の利得を決定するために、未処理の抑制利得を合成する動作を含む。本発明に係る幾つかの実施例においてノイズ抑制利得は、エコーの抑制を含み、その算出動作(図2の223)は、予測されたエコー・スペクトル・コンテンツ情報118をさらに使用する。
本発明に係る幾つかの実施例において、方法200は、例えば、入力オーディオ信号が音声であるか否かなどに関する信号の分類結果を生成するために、空間特性106のうちの2つ以上を使用して決定される空間選択的な音声アクティビティ検出動作を実行することを更に含む。本発明に係る幾つかの実施例においては、風の検出が使用され、その結果、当該信号の分類結果は、入力オーディオ信号が風であるか否かに関する分類を更に含む。
方法200の幾つかの実施例は、各バンド毎に後処理された利得130を生成するために、複数のバンドについての第1の合成された利得の上で後処理を実行する動作をさらに含む。上述した後処理は個別の実施形態に応じて、以下の処理のうちの一つ以上を含む:最小限の利得を保証する処理であって、幾つかの実施例においては、バンドに依存した方法により保証する処理;幾つかの実施例において、合成された利得についての中央値フィルタリング処理を実行することにより、異常な値または孤立した利得が存在しないことを保証する処理;そして、時間平滑化処理、及び/又は、バンド対バンドの平滑化処理を実行するによって、平滑性を保証する処理。本発明に係る一実施例においては、上述した後処理は当該信号の分類結果に従って実行される。
エコー抑制機能が含まれる一実施例において、当該方法は、追加的なエコー抑制利得を算出する(図2の226)動作を含む。本発明に係る一実施例において、追加的なエコー抑制利得は、第1の合成された利得の中に含まれ、各バンド毎の最終的な利得として使用され、他の実施例においては、追加的なエコー抑制利得は、各バンド毎に最終的な利得を生成するために、(後処理の実行が含まれる実施例の場合には、後処理がされた)第1の合成された利得と合成される。
方法200は、図2の227において、最終的な利得を適用する動作を含み、当該適用する動作は、最終的な利得を内挿補間する動作、抑制された信号データ132を形成するためにダウン・ミキシングされた信号のビン・データ上において、抑制処理を実行する動作を含む。方法200はさらに、図2の229において、以下の一方または両方の適用する動作を含む:a)出力サンプルを生成するために、合成結果を出力して変換処理すること、そして、b)は、出力周波数ビンを生成するために、再マッピングを出力すること。
本発明の典型的な実施態様においては、P≧2およびQ≧1である。しかしながら、本明細書中において記述される方法、システム、および装置は、P=1,Q≧1およびP≧2,Q=0となるような、より簡略化された場合においても、本発明の有効性を維持したまま実施規模を縮小することが可能である。本明細書中において開示される方法および装置は、P=1、Q=0となる場合においてにすら、かなり良好に機能する。上記説明の最後に挙げた具体例は、本発明についての簡略化され、もしかしたら平凡な実施例であるかも知れないが、上述した実施例において提案された発明の実施規模を拡大縮小する機能を実現するフレームワークには技術的な優位性が有り、さらには、例えば、音響センサーやマイクロフォンの故障に起因するなどして、一つ以上の入力信号や基準入力が破損しまたは利用不可能になったならば、より縮小された信号処理動作が実際に必要とされるであろう。
本明細書の開示内容は、エコー、ノイズおよびout-of-spatial location信号を同時に抑制する処理動作を含む、抑制のあらゆる態様を含む完全な方法(図2)、システムまたは装置(図1)を説明しており、または、処理システムの一つ以上のプロセッサ(図16およびその説明を参照)によって実行される際に、当該処理システムを含む処理装置に図2に示すような方法を実施させる命令を含むコンピュータ可読の記憶媒体として示されるが、その一方で、例示的な実施例は、より単純なアプリケーションおよび状況に対して、実施規模の拡大縮小が可能な技術的解決方法をも提供する点に留意されたい。例えば、以下のような相当な技術的利点がある:例えば、送信側(ノイズ抑制、エコー抑制および空間選択性)および受信側(ノイズのみ)が単一の装置(例えば、Bluetoothヘッドセットのようなデバイス)の上に設けられることが必要とされる際に、および、一つ以上の記憶媒体の上に記憶される命令コードを実行する処理システムの上で本発明が実施される場合に、同じ一つ以上の記憶媒体の中において本発明の異なる実施態様のための命令コードを共有することができると言う利点がある。
本発明に係る一実施例は、ノイズ抑制、エコー抑制およびout-of-spatial location信号の抑制を同時に実行する動作を含み、一方、他の実施例は、ノイズ抑制およびout-of-spatial location信号の抑制を同時に実行する動作を含む。本明細書中における説明の多くは、ノイズ抑制、エコー抑制およびロケーション外(out-of-location)信号の抑制を同時に実行する実施態様を想定しており、任意の実施例を、エコー抑制動作が含まれない実施態様に修正する方法は、当業者にとって自明である。
<基準信号と入力信号>
Q個の基準信号は、マイクロフォンの配列において生じ得る可能性のあるエコーに関する一組のオーディオ信号を表す。典型的な場合において、マイクロフォン配列は、ヘッドセット、個人用モバイル機器または固定マイクロフォンから成る配列でもよい。当該複数の基準信号は、ヘッドセットまたは個人モバイル機器、またはスピーカ配列の上に設けられた一つ以上のスピーカー、またはサラウンド・サウンド構成において使用する一つ以上のスピーカ、または携帯機器(例えばラップトップコンピュータまたはタブレット型端末)上の大音量スピーカーなどを駆動するために使用している信号に対応することが可能である。本出願は、これらのシナリオだけに限定されていないことに注意されたい。しかしながら、本発明に係る方法の本来の性質は、マイクロフォン配列の中心位置における各基準信号からの応答特性が利得および遅延において一様であるような環境に最も良く適している。当該基準信号は、スピーカーに対する実際の供給に先立つ信号表現を表すことも可能であり、例えば、レンダリング処理され、多重チャネル・スピーカの出力に対して送信されるよりも前の生のオーディオ・ストリームなどがこれに該当する。本出願において提案される方法は、ロバスト性の有るエコー制御に対して解決策を提案し、また、エコー経路における時空間的なばらつきを適度に抑制することを可能にする、同時にこの事は、サンプリング・オフセット、不連続性およびタイミング・ドリフトに対してロバスト性があることも含む。
基準入力は、生じ得る可能性のあるエコーを生成している出力スピーカーへの供給、あるいは適切なレンダリング処理の後にスピーカー出力を生成するために用いる音源を表すことが可能である。当該システムは、いずれのケースにおいても良好に機能するけれども、幾つかの実施例においては、最初は独立しており、かつ無相関である可能性が高い音源を、レンダリング処理に先立って使用することが好適である。レンダリング処理が線形かつ一定であるか、またはその利得がゆっくりと時間変化するものであるならば、本発明で提示される適応的フレームワークは、多重チャネル・エコー音源のばらつきと複雑さを管理することが可能である。レンダリング処理されたスピーカーへの供給よりもむしろ、成分毎に分けられた音源の使用は、信号相関によって生じるエコー基準信号の組合せの問題を回避するために有益でありえる。エコー基準信号の組合せの問題、及び多重チャネル・エコー抑制のためのロバスト性については、本開示の後の説明において更に具体的に述べられる。
本発明に係る一組の実施例において、システムの出力は、ノイズ、エコー、および所望の位置から生じていない音響成分を除去した後の、分離された音声または着目している信号を表している単一信号である。本発明に係る他の実施形態では、システムの出力は、ノイズ、エコー、および所望の位置から生じていない音響成分を除去した後の、分離された音声または着目している信号を表している一組の再マッピングされた周波数成分である。これらの周波数成分は、例えば、後続して実行される圧縮(符号化)方法または追加的な処理部によって使用可能な形態である。
システム100および方法200の処理動作の各々は、各処理時点におけるM個の入力サンプルから成る一つのフレーム(または、M個の入力サンプルから成る一つのブロックとも呼ばれる)の上で、フレームに基づく方法(または、ブロックに基づく方法とも呼ばれる)により実施される。P個の入力(例えば、P個のマイクロフォン入力)は、P個の周波数ドメイン表現から成る一組を生成するために、それぞれ独立に一つ以上の周波数−時間変換器103によって変換される。周波数ドメイン表現への変換処理は、典型的には、線形状に離隔されたN個の周波数ビンから成る一組を有し、各周波数ビンは、各処理時点にける単一の複素数値を有する。なお、一般にN=Mであるため、その結果として、各時点において、M個の新たなオーディオ・データサンプルは、複素数値を有する周波数ドメイン表現のN個のデータ・ポイントを生成するために処理される。複素数値を有する周波数ドメイン表現におけるデータの増加分は、ある程度の分析、および合理的な位相推定を達成するためのノイズ、エコーおよび空間の選択性アルゴリズムに適しているオーディオ信号の処理を可能にする。
<基準信号を合成する処理>
一実施例において、Q個の基準入力は、単純な時間ドメインの合計演算を使用して合成される。
これは、各処理時点において実数値を有するM個のサンプルから成る単一の基準信号を発生させる。当該システムは、単一の合成された基準信号だけを使用して多重チャネル・エコーに関する抑制を達成することが可能であるということが、発明者によって見出された。本発明は、そのような結果が何故達成されるのかに関する如何なる理由にも依存しない一方、抑制フレームワーク内におけるエコー、ノイズおよび信号の集約された振幅メトリック表現を使用する固有のロバスト性の結果として、および時間フレームに基づく処理により実現されるより幅広い時間分解能の結果として、単一の合成された基準信号だけを使用することがうまく機能すると考えられると我々は信じる。この方法は、タイミングおよび利得のある程度の不確定性またはエラーの発生する余地を許容する。合理的なフレームサイズを8ms乃至32msとし、エコー推定マージンを3dBとした場合に関して、これは、スピーカー同士の間の数メートル(例えば、2m乃至8m)分の相対的な距離変化と等価となるようなスピーカ−マイクロフォン応答特性のばらつきと関係する。これは、国内のおよび単一つのユーザ・アプリケーションの大部分にとって満足なものであり、より大きな劇場またはスピーカー配列構造に関してさえも依然として効果的である可能性があることが分かった。
一実施例において、Q個の基準入力は、エコー制御のために使用される単一の基準信号を生成するために、(例えば、時間ドメインにおける合計演算を使用して)合成される。幾つかの実施例において、この合計演算は、変換処理の後に、またはQ個の基準信号の電力スペクトル(または他の振幅メトリック・スペクトル)が合成され得るバンド集約化処理ステージにおいて発生する場合がある。電力ドメインにおいて信号を合成することは、Q個の信号に跨って情報内容が相関されることによる破壊的な(相殺的な)または重畳的な合成効果を回避することができるメリットがある。広範囲かつ一貫して複数のマイクロフォンの時間および/または周波数に跨って起きる基準信号のこの種の同位相の組み合わせ又は位相が厳密に整合配置された組合せは、めったに発生しそうになく、これは予想される音響エコー伝搬経路における固有の複雑さに起因している。直接的な合成方法は単一チャネル内において偏差を生じさせ得る一方で、エコー予測値として使用される基準電力推定結果とその能力。実際には、これは典型的な多重チャネル・コンテンツについては、重要な問題であるとは看做されない。単一チャネルについての時間ドメイン合成演算は、非常に低い複雑さで有効な性能を提供する。情報内容の相関の大半はチャネル同士の間で発生することが予想され、かつ、互いに位相が反対でタイミングが整合配置されている確率が合理的である場合においては、一つ以上の基準チャネルの上で逆相関フィルターを使用することによって、エコー制御性能が損なわれる可能性を減らすことができる。従来技術において一般的に使用されているこの種のフィルターの一例は、時間遅延要素である。本発明のこの種の実施例のために、2ms乃至5ms程度の時間遅延要素が推奨される。他の具体例は、例えば、ヒルベルト変換または90度位相シフト等のようなバルク位相シフトである。
<周波数ドメインへの変換>
本発明に関して、信号ドメイン内で機能する能力に依存している多くの実施態様が存在し、離散的な時間間隔によって推定結果および処理の制御が更新され、そして、周波数に跨るある程度の分離が存在する。この種の方法は、しばしば、フィルタ・バンクまたは周波数ドメインにおいて行われる変換と信号処理と呼ばれる。可能な限りの多くのフレームワークが存在することは、当業者にとって明らかである。本明細書中に記載されている様々な例示的実施例において使用されるこの種の信号処理に関して、本明細書中の以下の節は、一般的なフレームワークおよび幾つかの好ましい実施例を述べる。
本発明に係る複数の実施例は、フレーム単位でデータを処理し、変換処理において使用され、それぞれ複数のサンプルから成る連続的なフレームの各々は、何らかの方法で使用され、複数のサンプルから成る先行するフレームと重複している。この種の重複したフレームに対する処理は、音声信号処理において一般的である。本命際書中で使用される「瞬間的な」という用語は、この種のフレーム単位で実行される処理手段の文脈において、「現在のフレーム」を意味している。
図3A乃至図3Eは、本発明に係る実施例を構成する要素の幾つかの詳細を示している。図3Aは、M個の入力サンプルから成る1フレーム(1ブロック)を示し、これらの入力サンプルは、2N−M個の以前のサンプルから成る一組を有する長さ2Nのバッファ内に置かれており、かつ、後述する更なる「ねじれ関数」と共に、変換処理に従って変換される2N個の値を生成するためにウィンドウ関数に従ってウィンドウ制御されている。これは、複素数値を有するN個のビンを結果として生じる。図3Bは、N個のビンをB個の周波数バンドに変換する処理を示す。B個の周波数バンドにバンド化することは、以下の説明において更に詳細に後述されている。本発明の一実施態様は、B個の周波数バンドのために、B個の抑制利得から成る一組を決定することである。当該利得の決定は、(例えば、ロケーション外(out-of-location)信号を表している)統計空間情報を組み込む。
図3Cは、N個の利得から成る一組を生成するためのB個の利得についての内挿補間を示し、当該N個の利得は、続いて、入力データのN個のビンに対して適用される。本発明に係る幾つかの実施形態は、安定性を保証するために、生の利得に対する後処理の実行を含む。後処理は、信号の分類(例えば、一つ以上の(空間選択的な)音声アクティビティおよび風のアクティビティに従ってなされる信号の分類)に基づいて制御される。このように、適用されるべき後処理は、信号アクティビティ分類の結果に従って選択される。後処理は、利得が幾つかの予め指定された(周波数バンドに依存する)最小値ポイント以下に落ちるのを防止することを含み、そのような防止の方法は、アクティビティ分類に依存しており、さらに一つ以上の孤立した利得値に起因する音楽的なノイズがアクティビティ分類に依存した方法に従ってどのように効果的に削減することができるかに依存し、および、アクティビティ分類に依存している平滑化のタイプおよび量と共に、利得がどのように平滑化され得るかに依存している。当該抑制利得を適用した結果、N個の出力ビンが得られる。
図3Dは、N個の出力ビンをM個の出力サンプルから成る1フレームに変換する合成過程であって、典型的には、逆変換処理およびウィンドウ制御された重複加算処理の実行を伴う合成過程を記載する。
出力サンプルを生成する代わりに、他の処理における必要性のために、変換ドメイン・データを決定することが代替的に、または、追加的に望ましい場合がある。図3Eは、後続の処理(例えば音声コーデック処理)のための変換処理の必要性を満たすために、図3Cからの複素数値を有するN個のビンを再フォーマットすることができる任意付加的な出力段であり、その結果、処理時間を節約し、信号レイテンシを減らすことができる。例えば、出力が何らかの方法で符号化されることになっている場合、幾つかの用途においては、図3Dに示す処理は使用されない。そのような場合、図3Eに示した再マッピング処理が適用される。
図3Aに一旦戻ると、計算の効率性のために、有限の長さの離散的フーリエ変換(DFT)(例えば、高速フーリエ変換(FFT)によって実装されるもの)の使用は、周波数ドメインへの変換を達成する有効な方法である。(例えばFFTによって実装される)有限の長さの離散的フーリエ変換は、しばしば巡回型の変換処理と呼ばれ、これは、変換ウィンドウ中の信号が何らかの方法で周期的または反復的であるという暗黙的な仮定に起因する。巡回型の変換の一般形の殆どは、バッファリング制御、ウィンドウ制御、ねじれ関数(実数値から複素数値への変換)およびDFT(例えば、FFT)によって表されることが可能である。周波数ドメイン表現が特定の変換定義と一致するように調整するために、DFTを適用した後に、任意付加的な複素ねじれ関数を用いることができる。このクラスの変換操作は、修正されたDFT(MDFT)、短時間のフーリエ変換(STFT)、およびより長いウィンドウとラッピングを使用した共役直交位相ミラー・フィルター(CQMF)を含む。例えば、修正型離散コサイン変換(MDCT)および修正型離散サイン変換(MDST)等のような標準的な変換方法と厳密に整合するために、周波数ドメイン・ビンに対して任意付加的な複素ひねり関数が使用されるが、これは、変換操作の基本的な周波数分解能または処理能力を変えないので、その結果、処理連鎖の終わりに到達するまで放置されることが可能であり、必要に応じて再マッピングの際に適用される。
本発明に係る幾つかの実施例において、以下の数式で表される変換操作および逆変換操作は、図3Aの順方向変換および図3Dの逆方向変換に使用するためのものである:
Figure 0006002690
ここで、i=−1であり、uとvとは適当なウィンドウ関数であり、xは、一連の入力サンプルの最後の2N個の中のいずれかを表し、xN−1は、最も直近のサンプルを表し、Xは、周波数の昇順に並べた複素数値を有するN個の周波数ビンを表す。逆変換処理または図3Dに示した合成処理は、上記した数式のうち、最後の2行によって表される。yは、設計されたウィンドウについて適切となるように、重複操作、加算操作および破棄操作を実行するのに先立って、個々の逆変換処理の結果から生じた2N個の出力サンプルのいずれかを表す。この変換操作は、ブロック乗算処理およびFFTの効率的な実装を有することに留意されたい。
図3Dに示した合成処理をより詳細に説明すると、最終的な出力を再構成するために、複数個のサンプルyは、重複及び加算の方法として知られる方法において実行された以前の変換処理からそのまま残っている一組のサンプルに対して加算される。この重複処理と合成処理は、フレーム・サイズ、変換サイズおよびウィンドウ関数に依存するものであり、周波数ドメインにおける信号Xに対する如何なる処理や修正も実行することなく、入力信号の正確な再構成を実現するように設計されるべきであることは当業者にとっては自明のはずである。
上記した変換処理の数式表現における表記xとXの使用は便宜上のものであることに留意されたい。本明細書中の他の箇所では、「X,n=0,…,N−1」は、基準信号の信号表現における複数の周波数ビンを表し、「Y,n=0,…,N−1」は、ダウンミキシングされた入力信号における複数の周波数ビンを表す。
所与のサンプリング・レートfについて、当該変換処理は、一つの時間間隔を表すM個のサンプル毎に実行され、当該一つの時間間隔は、T=M/fで表される。本発明に限られないが、典型的には、f=8000Hzまたはf=16000Hzであり、2のべき乗について最適となる一般的な変換サイズを有する音声アプリケーションに関しては、N=128、N=256またはN=512である。M=Nとなるサンプリングの場合には、サンプリング・レートとフレーム・サイズのそのような組み合わせは、T=8ms,16ms,32msまたは64msであるときに効果的な時間間隔または変換ドメイン・サンプリング間隔となる。一実施例においては、フレーム・サイトと変換サイズをN=512とするサンプリング・レートf=16000Hzが使用され、その結果、32msの変換時間間隔を提供することが出来る。これは周波数ドメインにおいて良好な時間分解能を提供するが、64ms周期のフレーム化と信号処理に起因して、望ましくないレイテンシを提示する可能性もある。より低いレイテンシと低減された計算複雑性を必要とするアプリケーションのための他の実施例としては、サンプリング・レートをf=8000Hzとし、フレーム・サイズをN=128とし、フレーム間隔を16msとするものがある。システムにおけるフレーム整合上の理由から、またはより細かい時間分解能と僅かに改善された性能を達成するために、変換処理はより高い頻度で実行されることが可能であり、すなわち「オーバー・サンプリング」されることが可能である。一実施例においては、f=8000Hzにおいて変換サイズをN=128としてフレーム・サイズM=90が使用され、当該フレーム・サイズは、典型的なBluetoothヘッドセットにおいて使用される一般的なフレーム・サイズである30に対して合理的にアラインメントすることができるサイズとして選択されたものである。
ウィンドウ関数uとvは、変換周波数分解能のより細かい詳細内容、および処理済データの隣接する時間フレーム間におけるアクティビティの遷移と内挿補間に対して効果を奏する。当該変換処理は、重複した態様で処理されるので、当該ウィンドウ関数は、この重複状態の性質を制御する。当該技術分野における当業者にとって、信号処理のこの実施態様と関係するウィンドウ関数には、それぞれ異なる性質とトレードオフを有する数多くの可能な形態が存在し得ることは周知であろう。一実施例において、上述した変換処理のための推奨されるウィンドウ間数は、正弦波のウィンドウ関数ファミリーであり、その中でも推奨される一つの具体例は、以下の数式で表される。
Figure 0006002690
このウィンドウは、2N個のサンプルの全範囲に渡って広がっていることが理解されよう。このサンプル・ウィンドウを使用するこの一般的なアプローチは、しばしば、変換処理と信号解析のための短期間フーリエ変換法(STFT)と呼ばれている。
当該技術分野における当業者であれば、プロトタイプ・フィルターとしても知られており、図3Aと図3Dに示した解析と合成のためのウィンドウは、本明細書中で示される実例よりも大きな長さ又は短い長さを有することが可能であることが自明であろう。より小さいサイズのウィンドウは、上述した一般的な形態において、ゼロ値の係数を有する形態(ゼロ値によるパディング)により表現されることが可能である。より長いサイズのウィンドウは、典型的には、当該ウィンドウを適用した後に、信号を2N個分のサンプルに等しい変換処理範囲内に畳み込むことによって実現される。ウィンドウの設計は、周波数分解能、周波数ドメイン・ビンの独立性、レイテンシ、及び処理歪みの特定の側面に対して影響を与える。
さらに、本発明は、ある特定のタイプの変換処理を使用する場合に限定されないこともまた当業者にとっては自明であろう。本発明に係る方法は、ブロック周期および必要とされる周波数分解能に関して推奨される一般的な実施例において示されるとおり、信号に対するある程度の周波数解析と時系列解析を必要とする。
適切なウィンドウによって達成される、又は近似される一般的な性質は、Mサンプル長の区間に続いて重複があり、入力ウィンドウ及び出力ウィンドウを適用した後に、Mサンプル長のフレームの全期間に渡って変調なしに一定の利得が達成されるということである。
すなわち、
Figure 0006002690
となり、ここで、kはスケーリング定数であり、以下において後述される一実施例において提供される単位変換を伴い、k=1とすることが単位システム利得を達成するためにも有益な必要条件となる。
本明細書において用いられる変換を実装する際に、複素数値についての標準的な高速フーリエ変換を使用することが可能であり、その結果、この完全な変換は、一組の複素ブロック乗算および標準的なFFTを用いた効率的な実装を有する点に留意されたい。例えば、他の実施例においては他の設計を使用することが可能であるように、上記は本発明の範囲を制限する意味ではない一方、この設計は、ターゲットとなるプロセッサ・プラットホームのために、何らかの標準的で既存の最適化されたFFTを活用することによって、変換またはフィルタ・バンクの移植を容易にする。
入出力ウィンドウ、フレーム・サイズ、位置決め(M)および「ねじれ関数」の多様なバリエーションによって表される変換の数多くのファミリーが存在することは、当該技術分野における当業者にとって明らかであろう。ウィンドウが準最適ではないならば、主要な特性は、周波数サンプリング解像度(N)、基礎となる周波数分解能(入力ウィンドウの幅および形状に関係する)およびフレーム・サイズまたは変換と変換の間の歩幅(M)である。
ダウン・ミキシング処理(例えば、ビーム形成処理)において、および位置推定処理において使用される適切な時間遅延を実行するために、ウィンドウおよび複素ねじれ関数が入力(例えば、マイクロフォン入力)の各々について異なっていてもよい点に留意されたい。この種の詳細は、説明を簡単にするため本明細書中からは省略されるが、当業者であれば理解できるであろう。
全ての処理時定数を更新するために、フレーム・サイズ(または歩幅)が既知であるならば、幾つかの点で、本発明に係る方法は、変換処理から相当程度に独立したものとすることができる。しかしながら、人間の音声については、低域の音声スペクトラム内におけるエコー、ノイズおよびビーム分離を得るために適切な周波数分解能の度合いは、16kHzのサンプリング・レートについてはN=128乃至N=512の変換サイズによって達成され、また、8kHzのサンプリング・レートについてはN=64乃至N=256の変換サイズによって達成される。これは、8ms乃至32msの長さの変換フレーム・サイズまたは時間間隔を表す。Mが低減されるならば、達成される出力利得の平滑化に起因して、これ以上改良できない限界点の動作は、M=Nにおいて達成されるが、計算の複雑性は1/Mと直接的に関係する。
P個の入力(例えば、マイクロフォン入力)の各々に関する複素数値を有するN個のビンは、アクティビティの空間的確率による位置推定結果の組を生成するために直接的に使用される。これは、集約された空間特性推定量105としての図1に示され、処理ステップ205として図2に示される。構成要素105およびステップ205の詳細内容および処理動作は、(例えば、ビーム形成による)ダウン・ミキシングに関する議論の後に、以下の説明において更に詳細に後述されている。
<例えば、ビーム形成などによるダウン・ミキシング処理>
P個の入力の各々に関する複素数値を有するN個のビンは、例えば、ダウン・ミキサー(例えば、ビーム形成器107)を使用する等して、単一の周波数ドメイン・チャネルを生成するために合成される。これは、方法200において、ビーム形成のステップ207として示される。本発明は、如何なるダウン・ミキシングされた信号を使用する場合であっても旨く機能する一方、幾つかの実施例においては、ダウン・ミキサーは、所望の位置に向かって何らかの空間選択性を達成するように設計されたビーム形成器107である。一実施例において、ビーム形成器107は、線形の時不変プロセスであり、すなわち、一組の複素数値を有する周波数依存的な利得によって入力チャネル毎に一般的に定義される受動的なビーム形成器である。より長い時間範囲に渡るフィルタリング処理は、選択的に時間的なおよび空間的なビーム形成器を生成するために含まれることが可能である。考え得るビーム形成構造は、実数値の利得およびP個の信号の組合せを含み、例えば、2つのマイクロフォンの場合、これは、単純な和または差分であるかも知れない。このように、本明細書において使用される用語「ビーム形成」は、ダウン・ミキシング操作を意味し、何らかの空間選択性を含むことが可能である。
幾つかの実施例において、ビーム形成器107(および、ビーム形成ステップ207)は、時間軸に沿った空間選択性の適応的な追跡動作を含むことが可能であり、この場合、着目している音源の推定された位置における何らかの空間選択性を追跡するために、ビーム形成利得(また、「ビーム形成重み」とも呼ばれる)が適切に更新される。このような実施例では、上述した追跡動作は、充分に遅いので、その結果、時変プロセス・ビーム形成器107は、着目している時間期間の間は不変であると看做されることが可能である。それゆえに、説明の単純性のために、そして、短期的なシステム性能の解析のために、この構成要素が時間不変であると仮定することは十分に実際的である。
ダウン・ミキサー(例えば、ビーム形成器107およびステップ207)の他の可能な形態は、各処理ビン毎に導出された複素数値を有する周波数依存的な利得(ミキシング係数)を使用することを含む。この種のフィルターは、相対的に一定であるかまたは異なる周波数に跨って最適に制御される特定の指向性を達成するように設計されることが可能である。通常、ダウン・ミキサー(例えば、ビーム形成器107)は、いずれか一つのマイクロフォンの入力信号によって達成されるであろうS/N比から相対的に見た場合に、所望の信号のS/N比の改善を達成するように設計されているか又は適合されている。
ビーム形成技術は、従来からよく研究されてきた問題であることに留意すべきであり、ビーム形成器107およびステップ207からダウン・ミキシングされた(例えば、ビーム形成された)信号を発生させるために、適切なビーム形成器または線形マイクロフォン配列プロセスを実現するための多くの技術が存在する。
ビーム形成技法に関する各種議論に関しては、Van Trees, H.L.著「検出、推定および変調のための理論:第4巻、最適アレイ処理」2002年発行、New York、Wiley, and Johnson、および、D.H. and D.E. Dudgeon著「アレイ信号処理:概念と技法」1993年発行、Prentice Hallなどの書籍を参照されたい。
一実施例において、ビーム形成器107によるビーム形成処理207は、一つ以上の既知の位置にある音源から到来する特定の信号、またはエコー、ノイズあるいは他の望ましくない信号などのような望ましくない信号をヌル化すること、すなわち、相殺することを含む。「ヌル化」とはゼロになるまで減らすことを意味するけれども、以下の説明においては、「ヌル化」とは感度を低減することを意味する。当該技術分野における当業者であれば、典型的な場合において、完璧な「ヌル化」は実際上は達成可能ではないことを理解するだろう。さらにまた、ビーム形成器の線形プロセスは、独立に配置された少数の(P−1個の)音源を「ヌル化」することが可能なだけである。線形ビーム形成器のこの限定は、本発明の幾つかの実施例の一部として後述する、より効果のある空間的抑制処理によって補完される。予想される支配的なエコー伝搬経路に対するマイクロフォン配列の空間応答特性の配置は公知であり、相対的に一定であってもよい。一例として、マイクロフォンおよびスピーカーが固定された相対的地理的配置を有する(例えば、固定された配置構造において)ポータブル機器に関して、エコーの音源は、スピーカーから来ることが知られている。そのような場合には、または、予想されたとおりに良好に配置された雑音源が存在する場所においては、幾つかの実施例では、ビーム形成器は、既知の場所に位置する望ましくない信号の音源から到来する音に対してヌル化を実行する(すなわち、ゼロまたは低い相対的感度を提供する)ように設計される。
本発明の実施例は、時間の経過に従って空間選択性を適応的に追跡する動作を含むシステムまたは方法において使用されることが可能であり、当該システム又は方法は、例えば、着目している音源の推定された位置における何らかの空間選択性を追跡するのに適切となる様に更新されることが可能なビーム形成器107を使用する。この種の追跡動作は、典型的には、時間幅Tと比較した場合に、かなりゆっくりと時間変化するプロセスであるので、システム性能の分析のためには、ビーム形成器107およびビーム形成207の各々が時間不変であると仮定しても充分に実際的である。
2個のマイクロフォンから成る配列の実施例であって、所望の音源が当該配列に対する幅広い側に位置する(すなわち、当該配列の垂直二等分線上に位置する)実施例に関して、一実施例は、ビーム形成器107として、2本の入力チャネルの単純な合計を決定する受動的なビーム形成器107を使用する。ユーザの頭の両側面に配置される2個のマイクロフォンから成る配列の実施例に関して、ビーム形成処理207の一実施例は、相対的な遅延を導入する動作、および当該2つのマイクロフォンからの2つの入力信号の間に差をつける動作、を含む。これは、マイクロフォンのハイパー・カージオイド指向性パターンを実質的に近似するものである。2個のマイクロフォンから成るこれらの実施例の両者において、P個のマイクロフォン入力を設計されたとおりにミキシングして単一の中間信号を実現することは、所望の音源に関して好適な感度を有する。
幾つかの代替的な実施例において、ダウン・ミキサー(例えば、ビーム形成器107によるビーム形成処理207)は、複素数値を持つ一組の重み係数によって入力(周波数ビンとしての入力)の組を重み付けする。一実施例においては、ビーム形成器107のビーム形成重み係数は、最大比合成(MRC)に従って決定される。その他の実施形態においては、ビーム形成器107は、ゼロ・フォーシング技法を使用して決定される重み係数を使用する。この種の方法は、公知技術である。
本明細書において記載されている本発明の実施例が単一の出力チャネルを生成し、従って、単一の中間信号を生成することになる一方で、当該技術分野における当業者であれば、本明細書中で説明される処理の幾つかの個々に独立した事例又は部分的に関連し合った事例を、複数の出力を作成するために実行することにより、このアプローチを一般化することが可能であると理解するだろう。各事例は、マイクロフォン配列からの入力信号から得られた一意的な関連するミックスまたはビームを有し、各事例がちょうど単一のマイクロフォン信号に作用することができる可能性を含む。このように、本発明に係る方法を、複数の出力チャネルを有するシステムおよび方法に一般化するやり方は、当該技術分野における当業者にとって直進的なやり方であろう。
<複数の周波数バンドへの集約化>
今まで説明してきたのは、周波数ドメイン内における周波数ビンの形での2つの信号の生成であり、すなわち、マイクロフォン配列からのダウン・ミキシングされた(例えば、ビーム形成された)信号と、エコー基準入力の全ての組み合わせから結果として生じた変換された信号である。
本発明における抑制処理に関する部分について、抑制利得の組を計算することに繋がる解析処理の大部分は、信号電力スペクトル(またはその他の振幅測定スペクトル)の表現のみを必要とする。本発明に係る幾つかの実施形態において、周波数ビンの各々を使用するよりもむしろ、複数の(B個の)周波数バンドを形成するために、複数の周波数ビンが合成される。各周波数バンドは、一つ以上の周波数ビンからの寄与を含んでおり、周波数バンドの少なくとも90%は、2つ以上の周波数ビンからの寄与を有し、周波数ビンの個数は、周波数に応じて非減少であり、その結果、より高い周波数バンドは、より低い周波数バンドと比べて、より多くの周波数ビンからの寄与を有している。図3Bは、N個の周波数ビンをB個の周波数バンドに変換する処理を示し、この処理は、バンド集約化要素109と115およびバンド集約化処理ステップ209と217によって実行される。本発明の一つの側面は、B個の周波数バンドに関して、B個の抑制利得から成る一組を決定することである。当該利得の決定は、統計的な空間情報を包含している。
未処理のままの周波数ドメイン表現データは、これが時間ドメインへの信号の合成処理において使用されることになるので、中間信号のために必要とされ、エコー基準信号の未処理のままの周波数ドメイン係数は、必要とはされず、電力スペクトル(又はその他の振幅メトリック・スペクトル)を計算した後に破棄されることが可能である。上述したように、マイクロフォン入力のP個の周波数ドメイン表現の完全な組は、入射するオーディオ信号の空間的な性質を推測するために必要とされる。
一実施例において、B個の周波数バンドは、周波数軸上で単調非減少に間隔が空けられた複数の周波数を中心周波数としている。本発明に係る幾つかの特定の実施形態においては、バンドの離間幅は対数的な態様で単調増加している。この種の対数的な態様は、知覚的な理由により動機付けされている。本発明に係る幾つかの特定の実施形態においては、それらは、心理音響学的なスケールの上にあり、すなわち、複数の周波数バンドは臨界的に離間されており、または臨界的な離隔に対するスケーリング係数によって関係付けられた離間幅に従う。
一実施例において、バンド集約化要素109と115およびバンド集約化処理ステップ209と217によるバンド集約化処理は、人間の内耳の基底膜に沿った特定の場所における周波数応答特性をシミュレートするように設計されている。当該バンド集約化処理109、115、209および217は、周波数軸上でのその帯域幅と離間幅がERB(Equivalent Rectangular Bandwidth)周波数スケールの上で一定であるような複数の線形フィルターの組を含むことが可能であり、ERB周波数スケールは、以下の文献、Moore, Glasberg and Baer (B. C. J. Moore, B. Glasberg, T. Baer, “A Model for the Prediction of Thresholds, Loudness, and Partial Loudness," J. of the Audio Engineering Society (AES), Volume 45 Issue 4 pp. 224-240; April 1997)において説明されている。
どのような知覚的スケールが人間の知覚により密接に整合し、その結果、対象となるラウドネス結果と整合する目的となるラウドネス測定を生成する際に、改善された性能を達成することができるかについては、多くの研究がなされているが、Bark周波数スケールを採用すると、性能が低下する場合もある。
当該技術分野における当業者であれば、ERB周波数スケールが人間の知覚とより密接に整合すると信じているだろう。Bark周波数スケールもまた、性能が低下する場合もあるものの使用されることが可能である。これは発明者の見解であるが、本明細書中に開示されたシステムの全体的な性能にとって、知覚的スケールの具体的詳細内容はそれほど重要ではない。例示的実施例において述べたように、臨界的な知覚的バンドから相対的に見た処理バンドの個数と離間幅とは設計事項であり、本明細書中で推奨される設計は示されるものの、開発された知覚的モデルの正確な整合と一貫性は、システム性能にとって必須の要件ではない。
従って、幾つかの実施形態においては、ダウン・ミキシングされた(例えば、ビーム形成された)入力信号と基準入力とに関して取得された単一チャネルの各々は、B個のスペクトル電力(又はその他の周波数ドメイン振幅メトリック)に減らされることが可能であり、Bは例えば、心理音響学的なスケールの上の値などである。変換処理の基礎となる周波数分解能に依存して、B個の周波数バンドは、対数による周波数スケールの上で公平に均一に離間されることが可能である。この種のあらゆる対数スケール上でのバンド集約化処理は、本明細書中において、「知覚的バンド化処理」と呼ばれる。本発明に係る幾つかの実施形態において、各周波数バンドは、およそ0.5乃至2.0ERBの実効帯域幅を有するべきであり、一実施例においては、帯域幅を0.7ERBとしている。本発明に係る幾つかの実施形態において、各周波数バンドは、0.25乃至1.0Barkの実効帯域幅を有する。一つの特定の実施例においては、0.5Barkの帯域幅を使用している。
より低い周波数においては、数個の周波数ビンを覆うように最小の帯域幅を維持することが有益であることを発明者は見出した。何故なら、短期間フーリエ変換などのような変換処理によって生起することが可能な「時間から周波数バンドへの解析動作」と、「周波数から時間への合成動作」の両者において、時系列的なエイリアシングと巡回的な歪みの問題を回避することが出来るからである。特定の変換処理または複素直交ミラー・フィルタなどのようなサブバンド化されたフィルタ・バンクは、これらの課題の多くを回避することが出来る。加えて、電力スペクトル(またはその他の周波数ドメイン・メトリック)表現と利得の内挿補間に使用されるバンド集約化処理の特性形状と重複状態を比較的スムーズにすることが効果的であることを発明者は見出した。
本発明に係る幾つかの実施形態において、オーディオ信号は、100Hzあたりから始まる通過帯域を有する高域通過フィルターによってフィルタリング処理されている。これ以下、例えば、マイクロフォン信号のような入力信号は、典型的には、劣悪なS/N比によって非常にノイズが多く、固定長のNポイント変換を考慮した場合に、知覚的な離間間隔を達成することがますます困難となることが観察される。
帯域幅が1ERBであるフィルターは以下の式で与えられる。
Figure 0006002690
これを統合し、最初の周波数バンドの中心周波数を約100Hzとして与えるならば、1ERBのバンド中心部の離間間隔に関して、以下の数式を使用することが可能である。
Figure 0006002690
ここで、
Figure 0006002690
は、Hzの単位であり、周波数バンドの個数bは、1乃至Bの範囲内である。
周波数16kHzにおいて、N=512となる変換処理によれば、これは、中心周波数が100Hzから4000Hzまでの範囲内にあるB=30個の周波数バンドを生成し、中心周波数が100Hzに位置する最も低い周波数バンドは、依然として3個以上のビンから成る帯域幅を有している。
バンド集約化要素109と115およびバンド集約化処理ステップ209と217に関するこの特定の知覚的バンド集約化処理は、推奨されるものであり、バンド集約化処理の態様に関して本発明の技術的範囲を限定することを意味しない。さらには、バンド集約化要素109と115およびバンド集約化処理ステップ209と217は、対数的又は対数スケールである必要は無い。しかしながら、人間の聴覚及び知覚の本来的性質と関係した理由から、計算の効率性を達成し、バンド間を跨る統計的な推定の安定性を改善するために、対数スケールでのバンド集約化処理が推奨され、かつ効果的でもある。対数スケールでのバンド集約化アプローチは、複雑性を大幅に低減させ、電力の推定および高域周波数において発生する関連した処理を安定化させる。
バンド集約化要素109と115およびバンド集約化処理ステップ209と217は、バンド集約化フィルタを使用したソフトな重複によって達成されることが可能であり、複数のバンド集約化フィルタから成る組は、解析フィルタ・バンクとも呼ばれる。各バンド集約化フィルタの形状は、各周波数バンドと関係付けられている時間ドメイン・フィルタの時間範囲を最小化するように設計されるべきである。バンド集約化要素109と115およびバンド集約化処理ステップ209と217によるバンド集約化処理は、ビン電力(または他の周波数ドメイン振幅メトリック)をバンド集約化された電力(又は他の周波数ドメイン振幅メトリック)へと変換するB×N個の実数値を有する行列によって表すことが出来る。必須ではないものの、この行列は、正の値だけをとるように限定されることが可能である。何故なら、これは、負のバンド電力(または他の周波数ドメイン振幅メトリック)に起因する問題を回避することが出来るからである。計算負荷を低減させるために、この行列は、その中心周波数の周りの周波数ビンにだけ依存するバンドについて均等に疎らであるべきである。周波数ドメインと時間ドメインの両者においてコンパクトな形状を達成するための最適フィルタ形状は、ガウシアン・フィルターであろう。同様な直交した主たるローブを有するが、より速やかにゼロにトランケートされる代替物としては、高くしたコサインが有る。各周波数バンドは、隣接するバンドの中心周波数のところまで伸びているので、複数の周波数バンドが合計される際に、高くしたコサインはさらに、単位利得を提供する。より小さな周波数バンドに関しては、高くしたコサインは鋭い形状となるので、複数の周波数ビンに跨って、例えば、[1 2 1]/4又は[1 4 6 4 1]/16等のような追加的な拡散カーネルをさらに含めることが推奨される。高域周波数においては、帯域幅がより広いバンドの上では、これは無視できる程度の効果しか有しないが、それはソフト化処理を提供し、その結果、低域周波数において、関連するバンド・フィルターの時間スプレッドを制限することが可能である。
図4は、本発明に係る幾つかの実施例において使用されており、16kHzのサンプリング周波数において、N=512ポイントの複素数値の変換をバンド集約化するためのバンド集約化マトリックスの二次元プロット表現を示す。この種の実施例において、この行列は、N個の周波数ビンからの電力(または他の周波数ドメイン振幅メトリック)を合計してB個の周波数バンドにするために使用される。この行列による変換処理は、B個の抑制利得を変換ビンに対して適用すべきN個の利得から成る組へと内挿補間するために使用される。
図5は、線形スケール及び対数スケールの両者の上での周波数ドメインにおけるB個の周波数バンドの例示的な形状を図示する。B個の周波数バンドは、対数スケールの上で、近似的には均一に離間されており、低い周波数域に有るバンドは少しだけ広くなっていることが分かる。「対数状の」という用語は、そのような振る舞いについて使用される。図5にはさらに、例示的なバンド・フィルターの合計が示されている。カットオフ周波数が約100Hzのあたりである高域通過特性を持つ周波数スペクトル全体に渡って、これは単位利得を有することが分かる。本明細書中に開示された実施例にとって、高い周波数のシェルフとバンド集約化は必須の要素ではないが、着目している信号が音声入力である場合についての典型的なマイクロフォン入力信号の上での使用のための推奨される特性である。
図6は、バンド集約化要素109と115およびバンド集約化処理ステップ209と217に関する例示的な実施例における数個のフィルタ・バンドについての時間ドメイン・フィルタ表現を示す。この例示的実施例において、追加の平滑化カーネル[1 2 1]/4はバンド集約化行列の係数の構成過程において適用される。フィルタの範囲は、ゼロ時刻の周りの時間ウィンドウの中心に位置する半分によって制約されることが分かる。このような性質は、当該フィルタ・バンドを単一の周波数ビンよりも広くする結果として得られ、この実例においては、追加の平滑化カーネルは、当該バンド集約化行列を決定する処理において使用される。
本発明の技術的範囲はそのような実施例だけに限定はされないものの、フィルター範囲を時間ウィンドウ内の中心に位置する半分に制約する性質はフィルタ・バンクに関して利得の任意の組を適用する際、巡回畳み込みに起因する歪みを低減することが見出された。信号のバンド集約化された電力(又はその他の周波数ドメイン振幅メトリック)を決定するために、および図3Cの構成要素131および処理ステップ225において示すように、個々の周波数ビンに対するバンド集約化された利得を適用する際に使用される内挿補間の動作のために、同一のバンド集約化処理を使用する場合に、この事は特に重要である。
バンド集約化された電力(又はその他の周波数ドメイン振幅メトリック)表現に関する整合のとれた解析と内挿補間の使用は、実装において好都合である。しかしながら、本発明に係る幾つかの実施例においては、より細かい解析と周波数を跨いでよりスムーズに適用される処理利得について異なる特性を達成するためには、解析と内挿補間を使用したバンド集約化処理は、異なるものであっても良い。発明者は、フィルター範囲を時間ウィンドウ内の中心に位置する半分に制約することは、バンド集約化された処理利得(構成要素131、処理ステップ225)を内挿補間して、適用すべきビン化された利得を生成するために使用する際、上記のとおり推奨された変換処理または短期間フーリエ変換を使用する際に、バンド集約化行列において特に効果的であることを見出した。
構成要素109、115および処理ステップ209、217によるバンド集約化処理は、以下に述べる幾つかの目的を達成するためのものである。
(1)複数の変換ビンをグループ化することにより、より少ない個数のパラメータにより信号のアクティビティについて推定する。一つの実例においては、B=30となり、N=512個のビンよりも非常に少ない。これは顕著な計算量の節約となる。
(2)複数の変換ビンを複数の周波数バンドにグループ化することにより、各周波数スペクトル・バンドの推定を形成するためにより多くのデータを使用することができ、その結果、推定プロセスの統計的な不確定性を低減させることが出来る。この事は、以下の説明において後述する空間確率インジケータを決定するために特に効果的である。
(3)幾つかの知覚的なバンド集約化の実施例においては、バンド集約化のために心理音響学的な基準が使用され、結果として得られたバンド集約化は、何らかの整列された又はスケーリングされた態様で、聴取者のクリティカルな聴覚帯域幅と関係付けられる。これよりも細かい分解能で周波数スペクトルを制御することに殆どメリットが無いことはほぼ間違いがない。何故なら、各バンド内において知覚されるアクティビティは、そのバンド内における最も強い音源によって支配されるだろうからである。当該最も強い音源はさらに、パラメータ推定結果も支配するだろう。このようにして、変換の適切なバンド集約化は、固有の心理音響学的モデルと整合する信号推定とマスク処理の度合いを提供し、その結果、抑制フレームワーク内においてマスク処理を活用することが出来る。解析の際のバンドの拡散と出力の際の利得の制約とは、既にマスク処理されている信号を抑制しようとすることを回避するように機能する。バンド同士のスムーズな重複は、聴取者の心理音響学的なマスキング効果を考慮に入れたノイズ抑制を達成するための利得の計算と同様の結果を生じる更なる仕組みを提供する。
(4)バンド集約化された抑制利得のバンド集約化と内挿補間とは、平滑化を提供し、周波数ドメインにおけるN個の周波数ビンに対して適用され得るように、周波数を跨る結果的な利得についての如何なる鋭い変動も回避する。本発明に係る幾つかの実施形態においては、バンド・フィルターと関連した全ての時間ドメイン・フィルターが(理想的には、Nよりも短い長さの)コンパクトな形状を有することを保証するために、バンド集約化の設計に対して制約を適用することが可能である。このような設計は、変換ドメイン内においてバンド利得が適用される際に、巡回畳み込みに起因する歪みを低減する。
本発明にとって必須ではないが、本発明に係る幾つかの実施形態は、何らかの公称の絶対基準を達成するために、各バンドにおいて、電力(又はその他の振幅のメトリック)をスケーリングすることを含む。聴覚閾値との相対比較において、残差ノイズを周波数に跨る一定電力値へ抑制する処理を実現するために、バンドの正規化のための一つの推奨されるアプローチは、1kHzのバンドが入力からの単位エネルギー利得を有するように当該1kHzのバンドをスケーリングを実行し、他のバンドが聴覚閾値と整合する相対的なスペクトルを有するノイズ音源が白雑音であるか又はバンドに跨って一定電力となるように、当該他のバンドをスケーリングすることである。ある意味において、これは、低周波数域および高周波数域において、感度の低下を引き起こすのは何れであるかを解析する処理に先立つ、複数のバンド上でのプリエンファシス・フィルターである。残差ノイズが複数のバンドに跨って一定値となるように制御されるならば、聴覚閾値に近付いた際に、これは知覚的に白雑音を達成するので、この正規化は有益である。この意味において、ノイズの可聴性とは無関係に各バンド毎に単なる数値的な最適化を行うよりもむしろ、知覚的に低く聞き取れないノイズ・レベルを達成するように複数のバンドを減衰させることによって、それは、充分ではあっても過剰ではない信号の低減を達成する手段を提供する。
聴覚の平均閾値に関する近似式は以下のように与えられる。
Figure 0006002690
ここで、Tqは、dB単位での音圧レベル(SPL)で表した聴覚の閾値であり、2kHzにおいて約0dBである。この実例については、例えば、Terhardt, E., ”Calculating Virtual Pitch”. Hearing Research, vol. 1: pp. 155–182, 1979.などの文献を参照されたい。以前に定義したバンド利得を使用して、適切なビン周波数において計算されたこの式から得られた電力を合計することにより、聴覚閾値のバンド集約化されたスペクトル形状を表現するバンド電力の一組が取得される。これを使用して、各バンド毎に正規化された利得が計算される。非常に低い周波数域においては、聴覚閾値は急速に変化するので、正規化利得に関して、検知可能な限界である−10dB〜−20dBが推奨される。
図7は、上述した30個のバンドのバンド集約化のための正規化利得を示す。1kHzバンドはバンド13であり、従って、0dBの利得を有することに留意されたい。
今、M個のサンプルのうち、直近のTサンプル長のフレーム(現在のフレーム)の(ノイズとエコーが合成されている)ダウン・ミキシングされた(例えば、ビーム形成された)信号の周波数ビンをYで表す。処理ステップ209において実行される構成要素109に関して、変換出力が与えられた場合のバンド集約化された電力を計算するための最終的な式は以下のとおりである。
Figure 0006002690
ここで、
Figure 0006002690
は、ダウン・ミキシングされた(例えば、ビーム形成された)信号のバンド集約化された瞬時値電力であり、Wは、図7からの正規化利得であり、wb,nは、図4および図5に示されたバンド集約化行列の要素である。
同様に、Wで表される正規化利得およびその要素がで表されるwb,nを使用して、スペクトル・バンド集約化要素115が実行する動作217は、合成された基準信号のバンド集約化された瞬時値電力である
Figure 0006002690
を形成する。
添え字bが数量に関して使用される場合には、当該数量は、周波数バンドbの中にバンド集約化されることに留意されたい。バンド集約化されたドメイン内において「ダッシュ記号(´)」が使用される場合は常に、これはサブバンド電力の測定値であり、又は一般的には、何らかの振幅のメトリックである。従って、「ダッシュ記号(´)」の表記は、周波数ドメイン複素係数に基づく何らかのメトリック(特にそれらの振幅)に一般化することが可能である。一つの代替的な実施例においては、1−ノルムが使用される、すなわち、スペクトル・バンドの振幅(「包絡線」とも呼ばれる)が使用され、ダウン・ミキシングされた信号スペクトルの瞬時値の振幅は、以下の式のようになる。
Figure 0006002690
合成された瞬時値の基準スペクトル振幅である
Figure 0006002690
に関しても同様の式が成り立つ。本発明に係る幾つかの実施形態において、指数pを使用して、特定のバンドにおいて使用される周波数ビンに跨って重み付けされた振幅を合成し、続いて、更なる追加の指数である1/qをすることにより、有益なメトリックが得られる。以下の説明においては、これをpqメトリックと呼ぶことにし、p=qであれば、これは、周波数ドメイン係数から成るベクトルの上のノルムを定義することに留意されたい。重み付け行列であるwb,nを考慮するならば、各バンドは互いに異なるメトリックを有している。各バンドにおけるダウン・ミキシングされた信号の瞬時値のメトリックは、以下の式のようになる。
Figure 0006002690
合成された瞬時値の基準スペクトル・メトリックである
Figure 0006002690
に関しても同様の式が成り立つ。
ここで述べられている実施例においては、信号電力と信号電力スペクトルが使用されており、即ち、p=2かつq=1である一方で、例えば、ここで使用されている数式や定義などの本実施例に関する説明は、任意の他のpqメトリックを使用するように(例えば、振幅または振幅に関する他の何らかのメトリックを使用するように)直ちに修正されることが可能であり、そのような修正を実行する方法に関しては、当該技術分野にける当業者にとっては直進的であろう。従って、ここで使用されている用語が「電力(又はその他の周波数ドメイン振幅メトリック)」を参照している場合がある一方で、本実施例における数式は典型的には電力に関するものであり、当該数式と実装を他の任意のpqメトリックに修正する方法は、当該技術分野にける当業者にとっては直進的であろう。
ここでの説明において、周波数ビンまたはバンド集約化されたドメインの中の信号の明示的表記は常に含まれているとは限らないことに留意されたい。何故なら、それは、当業者にとっては文脈から自明であるからである。一般に、「ダッシュ記号(´)」によって表記される信号および添え字bは、バンド集約化された周波数ドメインの振幅測定値である。構成要素109、115によって実行されるバンド集約化ステップ205、217は、2つの利得を合成し、利得行列が非常に疎らであることに注意することにより、さらに最適化されることが可能であり、そのような修正は当業者にとっては自明の範囲内であり、本明細書の開示において意味するバンド集約化の意味内容の範囲内に含まれている。
<抑制処理>
それぞれM個のサンプルから成るフレーム具体例の各々において、本発明に係る方法とシステムの実施例の目標は、バンド集約化され、ダウン・ミキシングされた音声信号の様々な成分であって、そのバンド内の電力スペクトル(又はその他の振幅メトリック・スペクトル)の全体に渡って含まれている信号成分についての推定結果を決定することを含む。これらは、電力スペクトル(又はその他の振幅メトリック・スペクトル)として決定される。ビーム形成された信号の周波数バンド内成分である
Figure 0006002690
の決定は、以下の説明においてさらに詳細に後述される。
加えて、信号を所望の場所から発している信号成分とそれ以外の場所から発している信号成分とに空間的に分離するために、空間確率インジケータと呼ばれ、バンド集約化された空間特性の推定器105および対応する処理ステップ205によって決定される統計的な空間的性質が使用される。
空間確率インジケータの推定結果と信号スペクトル全体の中の成分の推定結果とは相互に関係付けられる。
ビーム形成器107とビーム形成処理ステップ207とは、ある程度の空間選択性を提供することが可能であることにも留意されたい。これは、out-of-position信号のある程度の抑制とノイズ及びエコーのある程度の抑制を達成することが可能である。
<ビーム形成された信号の周波数バンド内成分Y’を決定する処理>
ここで述べた実施例において推奨されたように、抑制処理は、一般的には、N個の周波数ドメイン係数に跨る実数値の係数としての周波数依存的な利得から成る一組を適用することによって実行される。当該抑制利得は、例えば、電力スペクトル(又はその他の振幅メトリック・スペクトル)のような信号特性の解析結果からバンド集約化されたドメイン内において計算される。バンドb内におけるバンド集約化され、ダウン・ミキシングされた(例えば、ビーム形成された)信号の電力スペクトル(又はその他の振幅メトリック・スペクトル)全体を、
Figure 0006002690
と表すことにする。図8Aと図8Bとは、
Figure 0006002690
内における多種多様な成分を分解した様子を示し、以下の記述は、本発明に係る実施例における複数の成分を推定する処理と関係した仮定についての検討と共に、
Figure 0006002690
内における信号成分について簡単に説明するものである。
(1)N’と表記されるノイズ:N’は、相当程度に一定値である又は短期的な流動が無い電力スペクトル(又はその他の振幅メトリック・スペクトル)の成分であり、流動とは、時間の経過に伴って電力スペクトル(又はその他の振幅メトリック・スペクトル)がどの程度急激に変化するかの測定結果であると当業者に一般に理解されている。
(2)E’と表記されるノイズ:E’は、基準信号の電力スペクトル(又はその他の振幅メトリック・スペクトル)の短い(0.25秒〜0.5秒程度)時間ウィンドウを与えられた場合に、相当程度に予測可能な流動を有する電力スペクトル(又はその他の振幅メトリック・スペクトル)の成分である。
(3)Power’OutOfBeamと表記され、out-of-beam電力およびロケーション外(out-of-location)電力とも呼ばれるout-0f-position電力:所望の場所から入射してくる可能性がある入力マイクロフォン信号の上への位相と振幅の適切なマッピングを有さない流動を伴う電力または電力スペクトル(又はその他の振幅メトリック・スペクトル)成分としてこれは定義される。
(4)Power’Desiredと表記される所望の電力:これは、ノイズ成分N’、エコー成分E’またはPower’OutOfBeam以外のP’の残りの部分である。
図8Aおよび図8Bは、一つのバンド内の信号電力(又はその他の周波数ドメイン振幅メトリック)の2通りの分解結果を示す。図8Aは、ダウン・ミキシングされ(例えば、ビーム形成され)た信号の電力スペクトル推定結果から残差信号電力へのエコー電力とノイズ電力の分離を示し、さらには、当該残差信号電力の一部分としての所望のin-position信号の中への分離を示す。図8Bは、in-position信号の全電力およびout-of-position信号の全電力の中へのバンドB内の総電力の分離を示し、さらに、in-positionエコー電力成分を含まない所望の信号電力およびin-position電力からのin-positionノイズ電力成分の推定へのin-position信号の全電力の分離を示している。
本発明に係る実施形態は、当該所望の信号の中の電力の推定に関して何らかの境界条件を生成するために使用される利用可能な情報を使用し、それに従って、同時に実行される合成された抑制処理に対して影響を与えるために使用される一組のバンド利得を生成する。
図8Aおよび図8Bから、(1)当該所望の信号の電力が、ノイズ電力N’およびエコー電力E’を総電力P’から差し引いた電力である残差電力によって上記から境界設定されること、および(2)out-of-position電力Power’OutOfBeam以外の部分であるin-position電力として推定された総電力P’の一部分によって上記から境界設定されることは自明である。
<信号スペクトルP’を推定する処理(構成要素121による処理ステップ211)>
図1を参照すると、信号電力(又はその他の周波数ドメイン振幅メトリック)の推定器121は、各バンドbの中の合計の信号電力(又はその他の振幅のメトリック)の推定結果を生成する。本発明に係る実施形態は、構成要素121によって実行される処理ステップ211において、全体的な信号電力スペクトル(又はその他の振幅メトリック・スペクトル)およびノイズ電力スペクトル(又はその他の振幅メトリック・スペクトル)を決定する動作を含んでいる。これは、ダウン・ミキシングされた(例えば、ビーム形成された)瞬時値の信号電力Y’の上で実行される。ダウン・ミキシング処理(例えば、ビーム形成処理)は、線形であり、かつ着目している期間内において時間不変のプロセスであるため、入力Xp,nからのノイズとエコーの統計をダウン・ミキサー(例えば、ビーム形成器107)に対してマッピングした結果、および究極的には、そのバンド集約化されたバージョンであるY'もまた、着目している期間内にわたって時間不変である。従って、初期のビーム形成器は、(例えば、電力スペクトルのような)統計の推定のために使用される観察期間に渡って、線形かつ時間不変のプロセスであると仮定することは合理的であり、従って、ビーム形成処理に先立って、基礎となる信号条件から相対的に見た当該推定の本来的性質は変化しておらず、これはビーム形成器が信号条件に速やかに適応することに起因する。
そのような推定結果のばらつきは、信号が観察される時間期間の長さに依存する。16kHzにおける、例えば、N>512となるより長い変換ブロックについては、直近のバンド電力(又はその他の周波数ドメイン振幅メトリック)で充分である。16kHzにおける、N>512となるより短い変換ブロックについては、必須ではないものの、何らかの追加的な平滑化や平均化を行うことが好適である。フレームのサイズMに依存して、一実施例は、信号電力(又はその他の周波数ドメイン振幅メトリック)を平滑化するために、1次フィルターを使用して、電力推定P’を決定する。一実施例において、推定器121によって処理ステップ211において実行されるバンドBにおける合計の電力スペクトルP’の推定は、以下の式で表される。
Figure 0006002690
ここで、P’bPREVは、以前に(例えば、最も直近に)決定された信号電力(又はその他の周波数ドメイン振幅メトリック)の推定結果であり、αp,bは、時間信号推定のための時定数であり、Y’minは、オフセット値である。代替的な実施例は、異なる平滑化方法を使用し、オフセット値を含まない場合もある。時間信号推定のための時定数αp,bの適切な範囲は、20ms〜200msの範囲であることが見出された。幾つかの実施例においては、より狭い範囲である40ms〜120msが使用される。一実施例においては、電力スペクトル(又はその他の振幅メトリック・スペクトル)の推定がゼロ・レベルとなることを回避するために、オフセット値Y’minが加算される。Y’minは、実測されることが可能であり、又は先験的な知識に基づいて選択されることが可能である。Y’minは、例えば、聴覚閾値またはデバイスのノイズ閾値と関係付けられることが可能である。
本発明に係る幾つかの実施形態においては、瞬時値電力(又はその他の周波数ドメイン振幅メトリック)Y'は、信号電力(又はその他の周波数ドメイン振幅メトリック)のスペクトルP’の充分に正確な推定結果であり、その結果、構成要素121は使用されない一方で、Y'がP’の代わりに使用される。バンド集約化フィルター及び周波数バンドが、心理音響学的に基づいた基準(例えば、上述したような対数スケール状のバンド集約化)に従って選択されている場合には、この事は特に真である。従って、ここで説明した数式のうち、P’が使用されている式においては、幾つかの実施例においては、代わりにY'が使用される。
<適応的なエコー予測を実行するステップ221>
方法200は、適応的に決定されたエコー・フィルター係数(エコー・スペクトル予測フィルター117を参照されたい)を使用したエコーの予測を実行し、当該予測されたエコー・スペクトルと合計の信号電力の情報内容を使用してノイズ・スペクトルの推定を実行し(ノイズ推定器123を参照されたい)、信号スペクトルの情報内容、ノイズ・スペクトルの情報内容およびエコー・スペクトルの情報内容を使用して、音声アクティビティ・エコー検出器(VAD)を更新し(構成要素125を参照されたい)、VADの出力および信号スペクトルの情報内容、ノイズ・スペクトルの情報内容およびエコー・スペクトルの情報内容に基づいて、エコー・フィルター係数を適応的に調整(フィルター117の係数を更新する適応フィルター更新器127を参照されたい)するステップ221を含んでいる。
<構成要素117(処理ステップ221の一部)による瞬間的なエコー予測>
一つ以上の基準信号に関連した信号の音響学的な再生に起因して、エコーがマイクロフォンにおいて生成される。今、Q個の基準信号が存在すると仮定し、例えば、サラウンド・サウンドのためにQ=5であり、一般にはQ≧1である。典型的には、可能性として有り得るエコー音源は、例えば、一つ以上の大音量スピーカから成る一組を介してレンダリング処理される。一実施例において、Q個のレンダリング処理された基準信号の直接的な合計を決定するために、加算器111が使用され、その結果、抑制処理のためにエコー・スペクトルの情報内容を予測するために使用される合計の基準信号が生成される。一実施例においては、そのような合計やグループ化されたエコー基準信号は、入力用マイクロフォンの信号と比較して、エコーのレベルがずっと大きく、所望の信号のレベルがより低い単一の無指向性のマイクロフォンによって取得される可能性がある。幾つかの構成においては、信号はレンダリング処理前の状態で利用可能である。例えば、アナログ信号に変換され、続いて、一つ以上の大音量スピーカに対してレンダリング処理されるべきデジタル信号が利用可能である場合がある。さらに別の実例として、アナログ形式のスピーカー信号が利用可能である場合がある。幾つかの実施形態においては、レンダリング処理済みの信号が使用されるよりも(即ち、スピーカーからの音響波形が使用されるよりも)、アナログ形式であれデジタル形式であれ、電気的信号が使用され、デジタル又はアナログのドメインにおいて加算器111により直接的に合計され、その結果、実数値を有する単一の基準信号を含むMサンプル長のフレームが提供される。発明者は、レンダリング処理前の状態の信号を使用することは、技術的優位性をもたらすことを発見した。
方法200のステップ213は、Q個の基準信号を受け付ける(更には合計する)動作を含んでいる。ステップ215は、例えば、時間−周波数変換器113又は変換方法の命令コードを実行しているプロセッサを使用するなどして、合計された基準信号を複数の周波数ビンへと変換する動作を含んでいる。ステップ217は、例えば、スペクトル・バンド集約器115を使用するなどして、当該変換された基準信号のB個のスペクトル・バンドを形成するためのバンド集約化の動作を含んでおり、その結果、変換された瞬時値電力またはX’と表記される他のメトリックを生成する。これは、適応型フィルターを使用してエコー・スペクトルの情報内容を予測するために使用される。
エコー電力スペクトル(又はその他の振幅メトリック・スペクトル)バンドを予測するための適応型フィルターについては数多くの可能な選択肢がある。当業者であれば、適応型フィルターの理論については充分に慣れ親しんでいるだろう。例えば、Haykin, S., “Adaptive Filter Theory Fourth ed.” 2001, New Jersey: Prentice Hallなどの文献を参照されたい。適応的フィルターが本発明に係る実施形態に対して適用される場合、バンド集約化された電力スペクトル(又はその他の振幅メトリック・スペクトル)が正の実数値をとる信号でありその結果、ゼロ平均とならないことを考慮するならば、幾つかのややこしい問題が存在する。処理フレームの各々は、M個のサンプルを表しているので、スペクトルを予測するためのフィルターの長さは相対的に短くなるだろう(16kHzサンプリングでのM=320については、10タップ〜20タップの長さは、大半の音声エコー状態をカバーすることが出来る200ms〜400msを表す)。従って、単純な正規化された最小2乗平均適応型フィルターが適切である。一実施例においては、適応型フィルターの係数を正の値に制限することにより、追加の感度良好な制約が電力スペクトル(又はその他の振幅メトリック・スペクトル)の予測に対して適用される。
便宜上、M個の入力サンプルから成る過去のフレームの個数を整数lで表記する。従って、現在のフレームはl=0と表記される。
一実施例においては、適応型フィルターは、瞬時値のエコー電力スペクトル(又はその他の振幅メトリック・スペクトル)を決定する動作を含み、これはT'と表記され、バンドbについてLタップの適応型フィルターを使用することにより得られ、これは以下の式で表される。
Figure 0006002690
ここで、現在のフレームは、
Figure 0006002690
であり、
Figure 0006002690
は、(合成され)バンド集約化された基準信号X’の最も直近のL個のフレームであり、現在のフレーム
Figure 0006002690
を含んでおり、所与のバンドbに関するL個のフィルター係数は、それぞれ、
Figure 0006002690
と表記される。これらのフィルター係数は、適応型フィルター係数更新器127によって決定される。当該フィルター係数は、初期化されることを必要とし、一実施例においては、当該フィルター係数は0に初期化され、他の実施例においては、当該フィルター係数は、予測されるエコー伝搬経路の先験的な推定結果に初期化される。当該フィルター係数を初期化するための一つの選択肢は、相対的に高い値を持つ初期エコー電力推定を生成することであり、そのような初期エコー電力推定の値は、エコーに関してアグレッシブな開始位置を実現する如何なる予測されるエコー伝搬経路よりも大きな値であり、その結果、VADを起動して適応動作を阻害する過小評価されたエコーの問題を回避することができる。
L個のフィルター係数を適応的に更新する処理は、現在時点のフレームからの信号電力(又はその他の周波数ドメイン振幅メトリック)スペクトル推定P'および現在時点のフレームからのノイズ電力(又はその他の周波数ドメイン振幅メトリック)スペクトル推定N'を使用する。本発明に係る幾つかの実施形態においては、Y'は合理的に見てP'の良好な推定であり、従って、L個のフィルター係数を決定するために、P'(何れの場合においてもY'から決定される)を使用するよりもむしろY'が使用される。
一実施例は、エコー・スペクトル推定E'を決定するために、エコー予測フィルター117からの瞬時値のエコーを時間平滑化する動作を含んでいる。一実施例においては、以下の数式で表されるような一次時間平滑化フィルターが使用される。
Figure 0006002690
ここで、E’bPREVは、エコー・スペクトルの以前に(例えば、最も直近に)決定された推定又はその他の以前に決定された推定であり、αE,bは、一次平滑化の時定数である。一実施例における当該時定数は、周波数バンドに依存するものではなく、他の実施例においては、当該時定数は周波数バンドに依存するものである。0ms〜200msの間の任意の値で旨く機能する。0ms〜200msの範囲内であるそのような時定数が推奨された下で、発明者は、一実施例において、周波数に依存した時定数の実施例として15ms〜200msの値を使用した一方で、発明者は、他の実施例においては、周波数に依存しない値である30msを使用した。
<ノイズ電力スペクトル(又はその他の振幅メトリック・スペクトル)推定器123>
N'と表記されるノイズ電力スペクトル(又はその他の振幅メトリック・スペクトル)は、時間の経過に伴って相対的に一定である又はゆっくりと変化する信号成分として推定される。
本発明に係る異なる実施例は、異なるノイズ推定方法を使用することが可能であり、発明者は、リーキー最小ホロワーが特に効果的であることを見出した。
多くの用途においては、単純なノイズ推定アルゴリズムは適切な性能を提供することが可能である。そのようなアルゴリズムの一例としては、最小統計がある。これについては、例えば、 Martin, “Spectral Subtraction Based on Minimum Statistics,” in Proc. Euro. Signal Processing Conf. (EUSIPCO), 1994, pp. 1182–1185などの文献を参照されたい。最小統計(最小ホロワ)を使用することは、例えば、(音声の場合のように)着目している信号が高い流動性を有し、任意の着目しているバンドにおいて相当程度に頻繁にゼロ電力に低下する場合においては、適切である。
この方法は、単純なノイズ抑制処理にとっては適切である一方で、信号成分の推定結果が、ノイズと所望の信号のみを含む場合には、エコーの存在は、ノイズ成分の過大評価を引き起こす可能性があることを発明者は発見した。この理由により、本発明に係る一実施例は、エコーがゲート制御されたノイズ推定を含み、すなわち、ノイズ推定N’を更新し、以前のノイズ推定と比べて予測されたエコーのレベルが顕著である場合、ノイズ推定の更新動作を停止する。すなわち、ノイズ推定器123は、予測されたエコー・スペクトルの情報内容は、以前に推定されたノイズ・スペクトルの情報内容と比べて顕著なときにゲート制御される推定結果を提供する。
履歴ウィンドウに基づいた単純な最小ホロワーはさらに改善されることが可能である。そのような単純な最小ホロワーからの推定結果は、履歴ウィンドウの入口と出口において電力の極端な値に突然ジャンプすることがあり得る。単純な最小ホロワーのアプローチはさらに、各バンド内における信号電力の値の履歴のために、非常に多くのメモリを消費する。ウィンドウに渡って最小の値を有するよりもむしろ、上述したMartin著の文献記載の例のように、本発明に係る幾つかの実施例は、少なくとも一つの最小ホロワー・リーク・レート・パラメータによって定義される追跡レートを有する「リーキー」な最小ホロワーを使用する。一実施例においては、「リーキー」な最小ホロワーは、一つの最小ホロワー・レート・パラメータによって定義される指数関数状の追跡を有する。
ノイズ・スペクトルN'の以前の推定結果をN’bPREVと表記する。一実施例においては、ノイズ・スペクトル推定は、(例えば、構成要素123が実行する処理ステップ221において)指数関数状の成長を伴う最小ホロワー方法によって決定される。可能性として生じ得るバイアスを回避するため、最小ホロワーは、以前のノイズ推定と比肩するか、より大きなエコーの存在によってゲート制御される。
一実施例において、
Figure 0006002690
であり、ここで、αN,bは、最小ホロワーがノイズの任意の増加を追跡するために増加することが可能な時間軸上のレートを指定するパラメータである。
一実施例において、
Figure 0006002690
であれば、基準E'は、N’bPREVよりも小さく、すなわち、(平滑化された)エコー・スペクトル推定E'が、N'から3dBを差し引いた値の以前の値よりも小さい場合には、ノイズ推定は、現在の電力または成長に従う。さもなければ、
Figure 0006002690
であり、すなわち、N'は、N'の以前の値に維持される。
パラメータαN,bは、最小ホロワーが追跡する時間軸上のレートの観点から最適に表現することが可能である。当該レートは、dB/秒の単位で表現され、続いて、αN,bの値を決定するための仕組みを提供ることが可能である。その範囲は、1dB/秒〜30dB/秒である。一実施例においては、20dB/秒の値が使用される。
一実施例においては、当該最小ホロワーの当該一つ以上のリーク・レート・パラメータは、音声アクティビティ検出(VAD)によって決定される音声の存在確率によって制御される。音声が高い確率で存在することを当該音声の確率が示す場合には、リーク速度は少しだけ遅くされ、音声が存在しないことを確率が示す場合には、リーク速度はより速くされる。一実施例においては、音声が検出されたときに、10dB/秒のレートが使用され、他方、その他の場合には、20dB/秒の値が使用される。以下において後述されるVADの一実施例は、構成要素125に関するものである。他のVADもまた使用することが可能であり、この箇所の記述においてより詳細に説明されるとおり、本発明の一側面は、複数のVADを包含することであり、その各々は、空間選択性を含む選択性と感度とを別々に制御する調整パラメータの小さな一組によって制御され、そのようなパラメータは、その中でVADが使用されている抑制要素に従って調整される。
一実施例は、ノイズ推定のために最小ホロワーを使用する一方で、代替的な実施例は、所与のバンド内における入力信号電力の平均又は時間平均から得られたノイズ推定結果を使用することが可能である。発明者は、他の方法と比較した場合に、バイアスを消去し、エコー予測の適応性を安定化させる際に、最小ホロワーがより効果的であることを発見した。
<エコー更新処理のための音声アクティビティ検出器(VAD)125>
一実施例において、VAD要素125は、以下の数式においてSと表記される全体的なsh人合アクティビティのレベルを決定する。
Figure 0006002690
ここで、β,β>1は、それぞれノイズとエコーの余裕度であり、Y’sensは、設定可能な感度のオフセット値である。一般的に、これらのパラメータの値は、複数のバンドに渡って変化する。用語「VAD」または「音声アクティビティ検出器」は本明細書中において漠然とした意味で使用される。技術的には、測度Sは、ノイズとエコーの現在の推定結果が、β,β>1で表される所定の量を超過している信号(Y'で表される)を有するバンドの個数を表す測度である。ノイズ推定は、各バンド毎に一定値である又は定常的であるノイズ電力(又はその他の周波数ドメイン振幅メトリック)の推定結果であって、「音声」に関する真のアクティビティ測度ではないから、測度Sは、予測されるノイズとエコーを渡過的に又は短期間だけ上回るような信号の流動を表す測度である。
エコー更新処理のための音声アクティビティ検出器(VAD)125およびフィルター更新器127において導出されたVADは、エコー予測の適応性を制御する特定の目的のための役割を果たす。VAD又はこの目的のための検出器は、しばしば、ダブルトーク検出器と呼ばれる。
一実施例において、β,βの値は、1から4までの間である。特定の実施例において、β,βの値はそれぞれ2である。Y’sensの値は、マイクロフォンとシステムの予測されるノイズ・レベルに近い値となるように設定され、当該ノイズ・レベルは、典型的な信号成分を使用した場合の実験によって得られる。代替的に、Y’sensの値を決定するために、聴覚閾値を使用することも可能である。
音声アクティビティは、例えば、Sの値の範囲内であるSthreshと表記される閾値によって、エコー予測フィルター係数アダプター127内における予測フィルター係数を更新すべきか否かを決定する等のために検出される。本発明に係る幾つかの実施形態においては、適応レートの連続的な変動は、Sの値に関連してもたらされる。
エコー更新処理のための音声アクティビティ検出器(VAD)125の処理動作は、音声および局所的な信号のアクティビティ検出のために単純ではあるが有効な方法であることが見出された。β>1かつβ>1であるので、各バンドはノイズ及びエコーの推定よりも大きな幾らかの直近の信号コンテンツを有していなければならない。β,βの典型的な値は2である。おおよそ2に等しくなるβ,βの推奨される値を使用して、信号レベル・パラメータSに対する寄与のために、少なくとも3dBのS/N比が必要とされる。ノイズおよびエコーの推定結果と相対的に比較して、現在の信号レベルが大きければ、各バンド毎に、加算項の値は最大値である1をとる。Sの計算式における分母の中の感度オフセット値は、S(更にその結果、VAD125のような任意の導出されたアクティビティ検出器)が、低い信号レベルにおいて登録処理を実行することを防止する。従って、Sに関して、B個のバンドに跨る加算は、顕著な局所信号を有するバンドの個数を表すことになる。それは、ノイズやエコーの推定結果から予測されない信号であり、システムが一旦収束した後には、合理的であると仮定される信号である。幾つかの実施例においては、上述したような、バンドのサイズと聴覚閾値とに関係する推奨されるスケーリングは、VAD計算式の効果的な均衡化を生成し、各バンド毎に別々にVADパラメータを調整することなく、同様の感度と知覚的に重み付けされた寄与を各バンドが有することとなる。
β,β、Y’sens、およびSthreshから成るパラメータの異なる組を選択することにより、全体的な信号強度の様々の成分に対する異なる感度を有する異なるVADを容易に生成することが可能である。以下において後述するとおり、より場所に特化した形のVADのために、VAD内において空間情報を使用することもまた可能である。そのような場所に特化したVADは、利得算出器129および利得算出ステップ223の幾つかの実施例において使用される。
<アクティビティ閾値によってゲート制御されるエコー予測フィルター係数アダプター>
一実施例において、更新器127によるエコー・フィルター係数の更新処理は、ゲート制御され、その結果、VAD125が判定するところに従い、かつ局所信号アクティビティSが低い値を示すことに従って、予測されたノイズと現在の入力電力と比較して予測されるエコーが顕著であるときに更新動作が生じる。
局所信号アクティビティのレベルが低いならば(例えば、所定の閾値Sthresh以下であることにより、S<Sthreshとなるならば)、適応型フィルターの係数は以下の式に従って更新される。
Figure 0006002690
ここで、γは、ノイズ推定とエコー推定との間の安定性を保証するために調整される調整パラメータである。γの典型的な値は、1.4(+3)dBである。1から4までの間の値を使用することが可能である。μは収束レートとエコー推定の安定性に影響を与える調整パラメータである。複数の異なる実施例において、0から1までの間の値が有益であり得る。一実施例においては、フレームのサイズMとは無関係に、μ=0.1である。X’sensの値は、小さな基準信号についての不安定な適応動作を回避するために設定される。一実施例においては、X’sensの値は、聴覚閾値と関係している。その他の実施例においては、X’sensの値は、基準信号よりも低い予め選択されたdB数であり、(例えば、基準信号内のX'の予測された電力(又はその他の周波数ドメイン振幅メトリック)よりも30dB〜60dB分下回る)基準信号の予測された電力(又はその他の周波数ドメイン振幅メトリック)から見て相対的に設定される。一実施例においては、それは、基準信号内の予測された電力(又はその他の周波数ドメイン振幅メトリック)よりも30dB分下回る。Sthreshの値の選択は、バンドの個数に依存する。Sthreshの値は、1からBまでの間の値をとり、8kHzに対して24個のバンドを有する実施例については、適切な値の範囲は2から8までの間であることが見出され、特定の実施例においては、値として4が使用される。
エコー推定は、入ってくるエコーよりも低くなる可能性があり、適応動作が阻害されるため、低い閾値は、適応型フィルターがエコー伝搬経路内における変化に正確に追従することを阻害する可能性がある。より高い閾値は、より速い初期の収束を可能にするだろうが、顕著な局所信号は、エコー予測制御VAD125からの検出を引き起こすことを求められるだろうから、ダブルトークの期間中は、フィルターの更新結果は破損するだろう。
更なる実施例においては、バンドに依存した重み付け係数がエコー更新処理のための音声アクティビティ検出器125の中に導入されることが可能であり、その結果、瞬時値のS/N比に基づく個々のバンド寄与は、信号アクティビティの検出に対するそれらの寄与に関して周波数に跨って重み付けされる。発話アクティビティの検出に関して、知覚的手法に基づく(例えば、対数スケール状の)バンド集約化処理の場合には、発明者は、均一の重み付け手法を採用することは受け入れ可能であることを見出した。しかしながら、特定の応用目的、または特定の予測される励起要因に対する感度を強化するためには、バンドに依存した重み付け関数を導入することが可能である。
VADに基づくエコー・フィルターの更新処理のためにここで説明されるアプローチは、非常に複雑性が低い反面、エコー・レベルの予測と適応動作を制御するための効果的なアプローチである。当該アプローチはさらに、ノイズおよびエコーの推定結果において、潜在的に曖昧である結合推定によって引き起こされるバイアスを回避することにおいて相当程度に効果的である。当該提案されたアプローチは、ノイズ推定とエコー推定との間の相互干渉に対して効果的に対処し、幅広い範囲の応用目的に対して頑健で効果的であることが見出された。ノイズ推定方法とエコー予測方法が最も広く受け入れられ、評価が確立された既知の方法ではないかも知れないという意味において、当該アプローチは従来型の手法とは幾分異なるものではあるが、当該アプローチは旨く機能することが見出され、任意の誤差やバイアスを効果的に低減し制御するための系統的な手段において使用されるべき、単純ではあるが頑健な技法を可能にする。しかしながら、本発明の技術的範囲は、使用される特定のノイズ推定方法や使用される特定のエコー予測方法に限定されるものではない。
エコーの追跡動作を開始するために、数多くの信号処理時間区間に渡ってフィルター値の適応動作を強制する、又は所望の出力を達成するためにフィルター値を初期化することが必要となる可能性がある。エコー更新処理のための音声アクティビティ検出器125における信号の検出は、エコー・フィルター117が相当程度に収束したことを前提としている。もしも、エコー予測がエコーを過小評価する場合、および特に、初期化の際または如何なるエコーも存在しない状態を追跡した後に、Fb,l=0である場合、良好に推定されていないエコーの唐突な開始は、適応動作をゲート制御する可能性があり、その結果、行き詰まってしまう。この問題に対する解決法は、何らかの基準信号が開始した際に、初期において又は反復的に、適応動作を強制すること、又は予測されたエコー伝搬経路の上限の予測値と等しくなるようにエコー・フィルターを初期化することである。
エコー電力スペクトル(又はその他の振幅メトリック・スペクトル)が推定され、この推定結果は、変換処理とバンド集約化処理に関して述べた周波数及び時間における分解能を有する。エコー基準信号は、この表現と同程度に正確かつ同様の解像度を有していることだけが必要である。この事は、上述したQ個の基準入力のミキシング処理結果においてある程度の柔軟性を提供する。M=N=256である場合、時間フレーム同士の重複に起因して、約16ms〜32msの時間のバラつきが許容可能であり、信号周波数の約10%に及ぶ周波数のバラつきが許容可能であることを発明者は見出した。さらに発明者は、VADおよび抑制公式において使用される抑制ルールおよびエコー推定スケーリングの推奨値に起因して、約3dB〜6dBの間の利得のバラつきの許容可能性もまた存在することを見出した。
当該アルゴリズムのこの点において、ノイズ及びエコーに関して、それを上回る信号アクティビティの最初の測定値に加えて、バンド集約化された電力スペクトル(又はその他の振幅メトリック・スペクトル)の観点から、複数の推定から成る現在の組を我々は有している。
<エコー抑制なしの実施例>
本発明に係る幾つかの実施例は、エコー抑制処理を含んでおらず、ノイズ信号とロケーション外(out-of-location)信号の同時的抑制処理だけを含んでいる。そのような実施例においては、E’=0とし、さらにノイズ推定器によるエコーのゲート制御動作を伴わない形で、同一の公式が当てはまる。さらには、図1に関連して、エコー抑制が全く無い場合には、エコー推定を生成することに関わる構成要素は存在しない可能性があり、そのような構成要素には、基準入力、構成要素111、113、115、フィルター117、エコー更新のためのVAD125および構成要素127が含まれる。さらには、図2に関連して、処理ステップ213、215、217および221は必要ないであろうし、処理ステップ223はエコー抑制処理を伴わないだろう。
本発明に係る実施例の一側面は、入力変換器103および変換処理ステップ203から、周波数ドメイン又は変換ドメイン内において、例えば、マイクロフォン入力データのような入力信号データを使用し、各バンド内における音響の空間的性質の推定結果を生成することである。これはしばしば、音源の方向または位置を推定する動作と呼ばれる。
当該技術分野における先行技術文献の殆どは、自由フィールド音響環境内におけるマイクロフォンの理想的な配置ポイントについての簡単なモデルを仮定している。波形と近似音を平滑化するようなマイクロフォンの感度と応答特性に関する仮定は、アルゴリズム的な設計と先験的な調整作業において使用される。数多くのデバイスと応用目的に関して、入力信号はこのやり方において理想的ではないことが理解されるべきである。例えば、マイクロフォン配列は、デバイス内に複雑に埋め込まれており、その結果、例えば、別々の場所に、異なる指向性および/または異なる応答特性を持つ異なるマイクロフォンを含んでいる可能性がある。更には、マイクロフォン自体を使用しているデバイス、および位置的に固定されたり予測可能ではないユーザの頭部やその他の身体部分などのような、近距離フィールド内の対象物の存在は、所望の位置又はその他の位置から到達する音の配列における予測された信号の性質の観点のみから、対象物の空間的位置が表現されるだけであることを意味する。
従って、本発明に係る複数の実施例においては、音源が位置する場所は決定されず、むしろ、信号の統計と性質の組の観点から入射してくるオーディオ信号の特性が特定の場所に音源が存在するか存在しないかを表す確率の測度として決定される。本発明に係る複数の実施例は、バンド集約化空間特性推定器105によってシステム100内において実行され、処理ステップ205によって方法200内において実行される処理であって、バンド集約化された空間特性を推定し又は決定する処理を含む。本発明に係る幾つかの実施例は、着目している空間領域から発している特定のバンドb内におけるエネルギーの確率のインジケータを使用する。例えば、数個のバンドの中において高い確率が存在するならば、それは着目している空間領域から発していると推測することが合理的である。
本発明に係る複数の実施例は、特定のバンドbが着目している空間領域からのそのようなエネルギー入射を有している確率に対して単調となるバンドb内の一つ以上の空間特性から決定される一つ以上の測度の形態を採る空間情報を使用する。そのような数量は、空間確率インジケータと呼ばれる。
便宜上、用語「位置」は、信号とマイクロフォン配列との間の予測される関係を指して言う用語として使用される。離散的で異なる入射音を与えられた場合に、これは、マイクロフォン配列からの信号同士の間に発生する可能性のある全ての可能な関係を表現するアレイ多様体の中の位置と看做すのが最も適切である。アレイ多様体の中の音源の「位置」とその物理的な位置との間の明確なマッピングが存在する一方で、ここで述べられている技法と発明は、このようなマッピングが既知であることや、決定であること、時間の経過に対して一定であること等に対して如何なる形においても依存していない。
図1に示すシステム100を再び参照すると、マイクロフォン入力の変換処理の後のN個の複素数値からそれぞれ成るP個の組は、バンド集約化された位置の推定処理のために処理要素に向けてルーティングされる。本発明に係る幾つかの実施例においては、各変換ビン内における入力マイクロフォンの相対的な位相と振幅は、所与の処理時点について当該周波数ビン内における支配的な音源に関する何らかの位置情報を推測するために使用されることが可能である。当該処理時点における一つのビンに対する単一の観察によれば、音源の数が我々にとって既知であるとの前提の下で、最大でP−1個までの音源の位置または方向を決定することが可能である。これについては、例えば、Wax, M. and I. Ziskind, “On unique localization of multiple sources by passive sensor arrays”. IEEE Trans. Acoustics, Speech, and Signal Processing, vol. 37, no. 7, pp. 996–1000, 1989などの文献を参照されたい。そのような古典的な統計的手法は、アプローチの数値的および統計的な効率性に着目している。この発明においては、単純な目標評価基準を最適化するよりもむしろ、良好な自覚的結果を達成するために、オーディオ信号の抑制的な制御のための頑健な解決法を提供するアプローチを提示している。本発明の複数の実施例においては、推定結果は、当該処理時点において所与のバンド内のエネルギーが所望の場所から到来している確率に対して単調である測度から成っており、当該所望の場所は、当該アレイ多様体の中の目標となる「位置」によって表現される。当該アレイ多様体の中の当該目標となる「位置」は、先験的な情報および推定結果に基づいていても良く、以前のオンライン推定結果および追跡動作(又はこれら両方の組み合わせ)を活用するものであっても良い。空間的な推測処理の結果は、(例えば、当該バンド内の当該処理時点における所望の場所からの信号の推定量と関係した適切な利得又はその推定された一部分としての)確率の測度に関する推定結果を生成することである。
本発明に係る幾つかの実施例においては、バンド集約化された空間特性の推定器105によって処理ステップ205において、一つ以上の空間確率インジケータが決定され、抑制処理のために使用される。これら一つ以上の空間確率インジケータは特定のバンドbが着目している空間領域からの上述したようなエネルギーを有する確率に対して単調である当該バンドb内の一つ以上の測度である。空間確率インジケータは、複数の入力についての一つ以上の重み付けされバンド集約化された共分散行列の関数である。
一実施例においては、一つ以上の空間確率インジケータは、複数の入力信号についての一つ以上の重み付けされたバンド集約化された共分散行列の関数である。N個の周波数ビンをn=0,…,N−1と表した場合に、P個の入力変換Xp,n,p=1,…,Pを与えられたならば、我々は、n番目のビンに関して、P個の入力に跨る入力ベクトルの積をその共役複素転置を使用して計算した上で合計し、要素wb,nを有するバンド集約化行列Wによって重み付けすることによって、対応すべき重み付けされた共分散行列の一組を生成する。これを数式で表すと以下の通りとなる。
Figure 0006002690
要素wb,nは、複数のバンドに対する寄与のために、各ビンがどのように重み付けされるかについての表示を提供する。これは、所与の具体的な時点と所与の具体的な周波数における瞬時値の配列としての共分散行列の推定を生成する。一般には、多重ビンのバンド集約化によれば、各バンドは、幾つかのビンからの寄与を含んでおり、より高い周波数域のバンドはより多くのビンを有している。バンド集約化された共分散のこのような使用は、共分散の安定した推定動作を提供し、そのような共分散は、最も多いエネルギーを有する信号コンテンツに対して重み付けされる。
本発明に係る幾つかの実施例において、一つ以上の共分散行列は時間の経過に伴って平滑化される。幾つかの実施例において、バンド集約化行列は、重み付け移動平均に関して時間依存の重み付けを含み、これは要素wb,n,lを含む行列Wb,lと表記され、lは、L個の時間フレームの中に含まれる時間フレームを表している。これを数式で表すと以下の通りとなる。
Figure 0006002690
異なる実施例においては、上述した平滑化処理は、周波数依存の時定数である
Figure 0006002690
によって定義され、すなわち、
Figure 0006002690
となり、ここで、
Figure 0006002690
は、以前に決定された共分散行列である。
ここでの記述は、例えば、2つのマイクロフォンから成るマイクロフォン配列からの信号のような2つの信号の場合に関して詳細な説明をするものである。3つ以上の信号を使用する場合に一般化する方法に関しては以降の説明において後述する。
P=2である2つの入力信号を使用する場合には、遺憾の式で表される行列:
Figure 0006002690
各バンドの共分散行列R’bが2×2のエルミート正定値行列であり、
Figure 0006002690
であり、上付きバーは、複素共役を表すために使用されている。
本発明に係る幾つかの実施例においては、空間特性は、「比率」の空間特性、「位相」の空間特性および「コヒーレンス」の空間特性を含んでいる。これらの特性は、ロケーション外(out-of-location)信号の確率インジケータを決定するために使用され、抑制利得として表現され、2つ以上の空間特性を使用して決定され、空間特性の2つ以上を使用して決定されたノイズ・スペクトル・コンテンツの空間選択的な推定結果である。ここで説明される幾つかの実施例においては、「比率」「位相」「コヒーレンス」の3つの空間特性が使用され、2つの空間特性だけを含むようにこれらの実施例を修正する方法は、当業者にとって直進的であろう。
「比率」の空間特性「Ratio」を、バンド集約された大きさの比率に対して単調である数量
Figure 0006002690
で表す。一実施例において、以下の数式で表される対数スケールでの関係が使用される。
Figure 0006002690
ここで、σは、特異点を回避するための小さなオフセット値である。σは、R'b11の予測される最小の値であると考えることが出来る。一実施例においては、それは、マイクロフォンと関連する電子機器についてのバンドbにおけるノイズ電力(又はその他の周波数ドメイン振幅メトリック)の決定された又は推定された(先験的な)値である。すなわち、使用される任意の前段処理の最小の感度である。
「位相」の空間特性「Phase」を、
Figure 0006002690
に対して単調である数量
Figure 0006002690
で表す。
「コヒーレンス」の空間特性「Coherence」を、
Figure 0006002690
に対して単調である数量で表す。幾つかの実施例においては、コヒーレンスに関係する測度として、例えば、
Figure 0006002690
または調整動作と関係した値、共分散行列のランクや固有値スプレッドなどを使用することが可能である。一実施例において、「コヒーレンス」の空間特性は、以下の式で表される。
Figure 0006002690
ここで、オフセット値σの定義は上述したとおりである。代替的な実施例においては、対数スケール上のdB単位を使用して、例えば、
Figure 0006002690
図9A、図9Bおよび図9Cは、実線で示されたノイズの拡散、およびこの場合は音声である点線で示された所望の信号についての空間特性「Ratio’」「Phase’」および「Coherence’」に関する時間の経過に伴う確率密度関数を示している。ここで、所望の信号は、32個の周波数バンドに跨って、約50mmのマイクロフォン間隔を空けられた2個のマイクロフォン・ハンドセットにより捕捉された2つの入力信号に関して計算されている。この事例においては、入ってくる信号は、8kHzのサンプリング・レートでサンプリングされ、近似的な知覚的スケールの上に32個のバンドが存在し、この時の中心周波数が66Hz〜3.8kHzである。「Ratio’」に関して、予測される数値範囲は−10〜+10dBであり、「Phase’」に関して−180°〜+180°であり、「Coherence’」に関して0〜1である。これらのプロットは、1フレームの時間区間Tを16msとして、約10秒間の間のノイズと所望の音声信号から得られたものである。その結果、当該空間特性に関する約600個の観測データが各分布プロットの上に累積されている。
例えば、図9A、図9Bおよび図9Cに示されるようなプロットは、これらのプロットが所望の信号コンテンツと所望されない信号コンテンツとに関して予測される特性値の拡散状態を表現しているという意味で、確率インジケータの設計を決定するために有益である。
ノイズ・フィールドは拡散され、異なる空間的な位置から到来する多数の音源から構成される。その結果、ノイズに関する空間特性「Ratio'b」「Phase'b」および「Coherence'b」は、拡散または空間的にランダムなフィールドの特性である。この事例において、ノイズは遠距離フィールド内にあると仮定される一方で、所望の信号(すなわち、音声)は近距離フィールド内にあると仮定される。しかしながら、これは本発明に係る方法の特定応用のための必須の要件ではない。複数のマイクロフォンは、ノイズ・フィールドに関する平均の「比率」の空間特性が0dBとなる(すなわち、当該比率が1となる)ように整合される。ノイズ信号は、相対的に一定である予測された電力を持って2つのマイクロフォンに到達する。低い周波数域に関して、マイクロフォン信号は、より長い音響学的波長に起因して相関されると予想され、ノイズに関する「比率」の空間特性は、0dBの周辺に集約される。しかしながら、多数の音源がある可能性があるので、より高い周波数域のバンドにおいては、マイクロフォンにおける音響学的信号は、拡散フィールド内において独立となることが可能であり、その結果、ノイズに関する「比率」の空間特性の確率密度関数内における拡散は、より高い周波数域のバンド内において観測される。同様に、拡散されたノイズのフィールドに関する「位相」の空間特性は、0°の周辺に集約される。しかしながら、マイクロフォンは、自由フィールド内にはないので、頭部とデバイス設計の特性は、理論的な空間配置されたマイクロフォンの拡散フィールド応答特性からの逸脱を生成する。繰り返すが、より高い周波数域のバンドにおいて、マイクロフォンの空間配置から相対的に見て、波長は減少し、複数のマイクロフォンが拡散フィールド内において互いに独立になるほど、ノイズに関する「比率」と「位相」の空間特性は、より分散されるようになる。
図9A〜図9Cに示されるプロットのために使用される着目する信号は、ハンドセットの装着者の口から発している音声であった。当該口は、最も近いマイクロフォンから約80mmの距離にある。マイクロフォンまでのこの近接状態は、当該口から到来する信号の比率の大きさにおいて強いバイアスを引き起こす。この事例では、当該バイアスは、約3dB〜5dBである。例えば、頭部やデバイス本体のような近距離フィールド対象物が存在するので、この空間特性は、予測される理論的な自由フィールドまたは理想的な態様に従った振る舞いをしない。さらには、所望の音源は、空間内の単一の場所から発しているのではなく、すなわち、人間の口からの発話は、複雑で動的な変化さえする空間特性を有する。従って、本発明に係る幾つかの実施例は、空間的な配置ではなくむしろ、空間特性の統計に反映されるのに従って、所望の音源の配列の統計的な空間応答特性に焦点を当てている抑制処理を使用する。図9Aおよび図9Bに示すように、単純な理論的モデルは「比率」と「位相」の空間特性がノイズの欠如の下での所望の音源に関する単一の値を仮定している一方で、「比率」と「位相」の空間特性は、各バンド内において異なる値とスプレッドを示す。この先験的な情報は、空間特性の単一の観測の各々から導出される確率インジケータについての適切なパラメータを決定するために使用される。このマッピングは、特定の空間構成、所望の信号およびノイズの特性によって異なり得る。
「コヒーレンス」の空間特性は、如何なる空間構成に対しても依存していない。その代わりに、それは、コヒーレンス、即ち、ある瞬間の信号が単一の支配的な音源によって生成されている範囲の測度である。図9Cから分かるように、変換からのより多くの数の周波数ビンをバンドがカバーするようなより高い周波数域においては、「コヒーレンス」の空間特性は、拡散され、複雑であるノイズ・フィールドからの所望の信号(単一の音声)を分離することにおいて効果的である。
<空間確率インジケータ>
複数の周波数バンドの中の少なくとも幾つかにおいて、ノイズと所望の信号(音声)の分布は、ある程度の分離を示すことが見て取れる。そのような分布から、本発明に係る実施礼の一側面は、所望の空間的な場所からの入射信号の部分的な確率を推定するために、所与のバンド内において、これらの空間特性の各々の観測結果を使用することである。本明細書中において、これらの部分的な確率は空間確率インジケータと呼ばれる。幾つかのバンド内において、音声とノイズに関する空間特性の分布は互いに分離しており、従って、そのバンド内の信号が所望の空間的な場所からのものか否かについて高い確実性をもって言うことができる。しかしながら、一般にはある程度の量の重複があり、従って、当該マイクロフォン配列においてノイズが望ましい統計的性質を持っているように見える可能性、または所望の信号が、通常はノイズであるとみなされる当該マイクロフォン配列上での関係性を提示する可能性が存在する。
本発明に係る幾つかの実施例の一つの特徴は、先験的に予測された所望の信号の特性または所望の信号の特性の現在の推定結果(例えば、図9A〜図9Cに示されたプロットによって表現されるような統計的なデータから、または先験的知識から収集され、例えば、空間的な場所を表現する目標値)に基づいて、各バンド毎の各空間特性は、バンドbに関する空間特性についての確率インジケータを生成するのに使用することが可能である。本発明に係る一実施例は、2つ以上の確率インジケータを合成して、ノイズとエコーの推定結果からの追加の情報と共に、抑制利得を決定するために使用される単一の合成された確率インジケータを形成し、その結果として、安定的で効果的な合成された抑制システムとその方法を実現することができる。本発明に係る幾つかの実施例においては、過剰な処理とそれをしなければ各特性において発生するかも知れない音楽的なアーチファクトを低減するための合成作業は、信号に対して制御または抑制処理を適用するために直接的に使用される。すなわち、本発明に係る実施例に一つの特徴は、各空間特性から独立的に最大限の抑制や弁別を達成するよりもむしろ、全ての情報を使用して、効果的な合成された推測または抑制的な利得の決定を実行することである。
設計された確率インジケータは、所望の信号の空間特性の予測される分布全体にわたる関数である。これらの生成または識別は、固定化された空間配置モデルではなく、実際のデータの観測結果に基づき、従って、任意の複雑な音響学的構成のための柔軟な枠組みと空間的な不確実性に対する頑健な性能を実現可能にする。
図9A〜図9Cに示される確率密度は、所望の場所に位置しているバンド内の信号の最大尤度推定結果および関連する確率を推測するのに使用されることが可能な一方で、本発明に係る幾つかの実施例は、当該分布を複数のパラメータの一組に簡略化する処理を含んでいる。本発明に係る幾つかの実施例においては、所望の場所から発している音の空間特性に関する重心(平均とこれに関係する幅(分散など)など)を推測するために、空間的な場所に関する特性の分布についての先験的な特徴付けが使用される。この事は、詳細な内容の先験的知識を使用することに対して技術的な優位性、すなわち、簡略さをもたらし、詳細な内容の先験的情報に対する行き過ぎた依存が予期しない結果と貧弱な頑健性を実際にもたらす可能性を回避する。
一実施例においては、所望の場所に関する予測された空間特性の分布は、各空間特性と各バンドから導出された確率インジケータについて着目している領域を捕捉するための頑健な手段を与えるガウス分布によってモデル化される。
3つの空間確率インジケータは、これら3つの空間特性と関係付けられ、これらは、RPI’bと表記される比率の空間確率インジケータ、PPI’bと表記される位相の確率インジケータ、CPI’bと表記されるコヒーレンスの確率インジケータであり、
Figure 0006002690
であり、ここで、
Figure 0006002690
であり、かつ
Figure 0006002690
は、図9Aに示すようなデータから、例えば、ハンドセットなどの使用中の装置の上での事前の推定や実験により決定される。
関数
Figure 0006002690
は、平滑化関数である。一実施例においては、比率の空間確率インジケータは、以下の数式で表される。
Figure 0006002690
ここで、WidthRatio,bは、例えばdBのような対数スケールの単位で表される調整パラメータである。WidthRatio,bは、図9Aに示されるような実測データと関係はしているけれども、そのような実測データから決定される必要は無い。それは、通常の状態及びノイズが多い状態における空間特性の予測された変動をカバーするように設定されるが、同時に、所望の抑制を達成するためのシステム全体の文脈において必要とされる程度に狭ければそれだけで必要充分である。ここで説明した例示的実施例において提示した複数の空間特性は、共分散行列の非線形関数であり、その結果、典型的には、所望の信号とノイズが混ざった信号内における空間特性値の予測される分布は、各信号に関する空間特性とそれぞれ個別に線形に関係付けられていない点に注目されたい。任意のノイズが入ることは、所望の信号についての空間特性の観測結果に対してバイアスとバラつきを引き起こす可能性がある。このことを認識した上で、可能性の高そうなノイズ状態において予測される分布と整合するために、目標値と幅が調整される。一般的に、幅のパラメータは、空間配置の変動及びノイズが空間特性の推定結果を破損させる効果に起因する空間特性の変動をカバーするのに充分な大きさである必要があることに注目されたい。WidthRatio,bは、必ずしも、図9Aに示されるようなデータから取得されるとは限らない。一実施例においては、ガウス分布形状を前提とするならば、WidthRatio,bの値は、バンド周波数に応じて変化する可能性がある1dB〜5dBの値である。
位相の確率インジケータに関しては、
Figure 0006002690
であり、ここで、
Figure 0006002690
であり、
Figure 0006002690
は、図9Bに示すようなデータから、例えば、ハンドセットなどの使用中の装置の上での事前の推定や実験により決定される。
関数
Figure 0006002690
は、平滑化関数である。一実施例においては、
Figure 0006002690
であり、ここで、WidthPhase,bは、例えば位相の単位で表される調整パラメータである。WidthPhase,bは、図9Bに示されるような実測データと関係はしているけれども、そのような実測データから決定される必要は無い。それは、通常の状態及びノイズが多い状態における空間特性の予測された変動をカバーするように設定されるが、同時に、所望の抑制を達成するためのシステム全体のコンテキスト内において必要とされる程度に狭ければそれだけで必要充分である。典型的には、それはシステム全体の性能の文脈において調整される必要が有る。
本発明に係る幾つかの実施例においては、より高い周波数域において、サンプリングされたデータからの所望の信号の空間特性のバラつきは、幅の有益な表示値である。より低い周波数域においては、空間特性は、より安定的であり、従って、幅は狭くなり得る。しかしながら、幅を狭くし過ぎることは、過剰にアグレッシブであり、必要とされる以上の抑制的な機能をもたらし、音声と所望の信号の品質までが減少してしまうという対価を支払うことになる。空間確率インジケータの安定性と選択性の整合をとることは、所望の性能を達成するために、図9Aおよび図9Bに示すようなプロットを指針として調整を行うプロセスである。考慮すべき一つは、所望の信号とノイズが混ざり合った信号から結果として生じる空間特性のスプレッドである。幾つかの実施例においては、比率と位相の空間特性についての目標値と幅は、図9Aおよび図9Bに示すようなデータから直接的に導かれる。幾つかの実施例においては、目標値は、各バンド内における所望の信号の空間特性の平均値として取得されることが可能であり、幅は、上記と同じ空間特性の分散のスケーリング関数から取得されることが可能である。その他の実施例においては、目標値と幅は、まず最初に、図9Aおよび図9Bに示すようなデータから導かれ、続いて、ノイズ低減と性能とのバランスを達成するために必要となる分だけ調整されることが可能である。
コヒーレンスの確率インジケータに関しては、目標値は一切使用されず、一実施例においては、
Figure 0006002690
であり、ここで、CFactorは、0.1から10までの範囲内の一定値とすることが可能であり、一実施例においては、0.25が効果的な値であることが見出された。他の実施例においては、CFactorの値は、周波数bに依存しており、典型的には、周波数bの増加に伴ってより低い値となり、低い周波数域における最大値の10から減ってゆき、高い周波数域のバンドにおける0までの範囲の値をとる。一実施例においては、最も低いbに関して約5の値が使用され、最も高いbに関して約0.25の値が使用される。
確率インジケータの各々は、0〜1の間の値を有する。
代替的な実施例においては、当該分布が非対称である(例えば、ガウス分布形状を半分にしたもの)が許容される。
例えば、比率の確率インジケータの場合、
Figure 0006002690
の2つの幅の値を設けると仮定する。一実施例においては、
Figure 0006002690
となる。
PPI’についても同様の修正をすることが可能である。今、
Figure 0006002690
の2つの幅の値を設けると仮定する。一実施例においては、
Figure 0006002690
となる。
空間特性から空間確率インジケータへとマッピングすることに関してここで述べた実施例は、幾つかの有益な事例を提供する。任意の区分的連続関数から複数の曲線の一組が生成され得ることは自明である。便宜的に、発明者は、空間特性ドメイン内に確率インジケータが単位量となるような少なくとも何らかの点又は部分に加えて、この点から任意の方向に向かって距離が離れるにつれて非増加となる関数が存在することを選択した。安定的なノイズ抑制と改善された音声品質のために、上述した関数は連続であり、値の変化および1次の導関数と高次の導関数が比較的滑らかであるべきである。当該関数に対する上述したような推奨される拡張は、特定の空間特性についての扁平型のウィンドウ制御された領域、および高められたコサインのような他のバンド集約化された関数を含んでいる。
<2つ以上のマイクロフォンを使用する場合>
2つ以上のマイクロフォンの配列からの入力信号のような2つ以上の入力信号を使用する一般的な場合に関しては、本発明に係る一実施例は、信号の幾つかの又は全ての対に関して、空間特性と確率インジケータとを対毎に決定する。例えば、3個のマイクロフォンについては、3つの可能な対毎の組み合わせが存在する。従って、「比率」、「位相」および「コヒーレンス」の空間特性を決定する場合に関しては、最大で9個の対毎の空間特性が取得されることが可能であり、その各々に関して確率インジケータが決定され、最大で9個の空間確率インジケータのうちの2つ以上を合成することにより、所与の構成について合成された空間確率インジケータが決定される。
ここで述べた複数の実施例は単純な方法を提供する一方で、一般的には、着目している信号の位置は、そのような空間特性に加えて、所与の周波数バンドと関係付けられている複数の変換ビンに跨って、当該位置のコヒーレンスに基づいて、不確実性の測度として推測されることが可能である。音響フィールドを生成している音源のスペクトルが周波数バンド内の複数の変換ビンに跨って相当程度に一定値であるとの仮定がなされるならば、各ビンは、基礎となる同一の空間分布プロセスの別々の観測結果であると看做すことができる。
周波数ビンおよび/または時間軸に沿った定常プロセスの観測としてのバンド内の観測について考察することにより、例えば、MUSIC (see Stoica, P. and A. Nehorai, “MUSIC, maximum likelihood, and Cramer-Rao bound,” IEEE Trans. Acoustics, Speech, and Signal Processing, vol. 37, No. 5, pp. 720−741, 1989.)またはESPRIT (see Roy, R., A. Paulraj, and T. Kailath, “ESPRIT −A subspace rotation approach to estimation of parameters of cisoids in noise,” IEEE Trans. Acoustics, Speech, and Signal Processing, vol. 34, no. 5, pp 1340−1342., 1986)等の統計的アルゴリズムを使用して、信号の到来方向と伝搬距離とを推測することが出来る。これに関しては、例えば、Audone, B. and M. Buzzo Margari, “The use of MUSIC algorithm to characterize emissive sources” Electromagnetic Compatibility, IEEE Transactions on, vol. 43, No. 4, pp. 688−693, 2001などを参照されたい。これは、配列の統計を空間的な場所にマッピングし、その結果、代替的な空間確率インジケータを生成するための代替的なアプローチを提供することが可能である。
<利得算出器129および利得算出ステップ223>
本発明に係る実施例の一つの特徴は、例えば、抑制利得を決定するための空間確率インジケータなどのような統計的な空間情報を使用することである。当該利得の決定は、図1に示す利得算出器129および図2の方法200に示す利得算出ステップ223によって実行される。
一実施例においては、利得算出器129は、位置確率インジケータに加えて、予測されるエコー・スペクトルの情報内容、バンド集約化され、ダウン・ミキシングされた瞬時値の信号電力を使用することにより、一つ以上の音声アクティビティ検出器を実装し、ノイズ、エコーおよびロケーション外(out-of-location)信号の同時抑制のためのB個の利得から成る一組を形成するために、抑制利得の形で、B個の抑制確率インジケータから成る一組を決定する。ノイズ(及びエコー)に関する抑制利得は、位置確率インジケータを使用して決定された空間選択的なノイズ・スペクトル・コンテンツの推定結果を使用する。
<ビーム利得およびビーム外利得>
B個の利得から成るある一組はビーム利得であり、所望の場所の中に位置する、即ちビーム内に位置する音源から到来する信号の確率と関係した抑制確率インジケータを決定するために、一つの確率インジケータが使用される。同様に、これと関係するのは、確率又はロケーション外(out-of-location)信号に関する利得であり、これは、一実施例においては、ビーム外利得として表現される。
一実施例においては、空間確率インジケータは、ビーム利得と呼ばれるものを決定するために使用され、当該ビーム利得は、BeamGain’と表記される統計的な数量であり、合計電力の中からビーム内電力とビーム外電力とを推定するのに使用することが可能であり、さらには、ビーム外抑制利得を決定するために使用することが可能である。一実施例においては、当該ビーム利得は、空間確率インジケータの積である。便宜的に、およびここで説明される幾つかの実施例においては、確率インジケータは、当該ビーム利得が1に等しい最大値を有するようにスケーリングされる。
2個の入力信号の場合、一実施例においては、当該ビーム利得は、3つの空間確率インジケータのうちの少なくとも2つの積である。一実施例においては、当該ビーム利得は、3つの空間確率インジケータの全ての積であり、1に等しい最大値を有する。各空間確率インジケータが1に等しい最大値を有すると仮定するならば、一実施例において、当該ビーム利得は、BeamGainminと表記される所定の最小値を有する。この最小値は、ビーム利得が非常に低い値に急激に低下して、利得値の変動の大部分がノイズを表し、残りの小さな変動が着目している信号から乖離することを回避する役割を果たす。利得又は確率の推定の下限値又は最小値を生成するこのようなアプローチは、以下の説明においてさらに具体的に後述され、不安定性の存在を低減するための仕組みとして本発明に係る実施例の別の部分で使用され、不安定性の存在とは、つまり、個々の確率推定結果における音楽的なノイズであり、所望の信号の存在を表す尤度から乖離したことをそれらが表したならば、上記仕組みが使用される。ビーム利得に関するこのより低い閾値を実現するための推奨されるアプローチは、以下の式で表される。
Figure 0006002690
本発明に係る複数の実施例は、BeamGainminの値として0.01〜0.3(−40dB〜10dB)の値を使用する。一実施例は、BeamGainminの値として0.1を使用する。
本発明に係る幾つかの実施例は、ビーム利得として3つの空間確率インジケータの全ての積を使用する一方で、代替的な実施例は、3つの空間確率インジケータのうちの1つ又は2つを使用し、即ち、一般的な場合においては、当該ビーム利得は、2つ以上の空間確率インジケータに対して単調である。
さらに、3つ以上の入力(例えば、マイクロフォン入力)に関しては、一実施例は、対毎に決定された空間確率インジケータを使用し、そのような実施例においては、ビーム利得は、対毎に決定された空間確率インジケータに対して単調である。ここで説明するアプローチは、個々の空間特性確率インジケータを積として合成し、より低い閾値を適用する単純な方法を提供する。しかしながら、本発明は、そのような合成操作だけに限定はされない。合成操作に代わる代替的な実施例は、(対数スケール領域上または線形領域上での)最大値、最小値、中央値または平均値の中のいずれか一つ以上を使用することを含み、あるいは、3つ以上の入力を伴うより多くの空間特性を使用する場合には、例えば、入札方式のようなアプローチが可能である。
当該ビーム利得は、本明細書中の以下の説明で後述する全体的な抑制利得を決定するために使用される。さらに幾つかの実施例においては、当該ビーム利得は、ビーム内である電力(又はその他の周波数ドメイン振幅メトリック)およびビーム外である電力を推定するために使用することもまた可能であり、ビーム内の電力とは、着目している場所から到来した可能性が高い所与のバンドb内における電力(又はその他の周波数ドメイン振幅メトリック)であり、ビーム外の電力とは、着目している場所から到来したものではない可能性が高い所与のバンドb内における電力(又はその他の周波数ドメイン振幅メトリック)である。場所あるいは空間的な位置の一般的な概念と特定の場所をアレイ多様体の上にマッピングすることは、異なる到来角度におけるものかも知れないし、近距離フィールド又は遠距離フィールドにおけるものかも知れないし、以下同様である。
上述したように、ダウン・ミキシングされた入力信号からの(即ち、ビーム形成処理がされた後の)合計のバンド集約化された電力(又はその他の周波数ドメイン振幅メトリック)をY'と表記する。ビーム内電力とビーム外電力は以下の式で表される。
Figure 0006002690
ここで、
Figure 0006002690
の値は1とすることが可能であるので、代替的な実施例においては、
Figure 0006002690
であることに留意されたい。
ここで、
Figure 0006002690
は、抑制処理のために使用される統計的な測度であることに留意されたい。
<ビーム外電力および空間選択的なノイズ推定>
本発明に係る実施例は、ノイズ・スペクトル・コンテンツの推定結果を決定し、ノイズ抑制利得を決定するために、当該ノイズ・スペクトル・コンテンツの推定結果を使用することを含む。ノイズ推定処理において、ノイズは、通常は定常的であると仮定され、他方、音声は高い流動性を持つと仮定される。従って、スペクトル的に単調である音声信号は、ノイズとして解釈されることが可能であり、抑制処理がそのようなノイズ推定方法に基づいているならば、音声は最終的には、抑制されてしまう可能性がある。着目している場所から到来するノイズに似通った音に対して感度をより低くすることが望ましい。本発明に係る幾つかの実施例は、必ずしも空間選択的ではないノイズ・スペクトル・コンテンツの推定結果を使用して決定されるノイズの抑制利得またはノイズとエコーの抑制利得を使用する一方で、本発明に係る幾つかの実施例の一つの特徴は、ノイズ電力(又はその他の周波数ドメイン振幅メトリック)スペクトルの推定結果を推定する動作を改善するために、空間確率インジケータを使用することであり、当該推定結果は、所望の場所から到来しているノイズに似通った音に対する抑制処理の感度を低減するために、場所を考慮に入れて抑制利得を決定するために使用するためのものである。従って、本発明に係る幾つかの実施例においては、ノイズ抑制利得は、ノイズ・スペクトル・コンテンツの空間選択的な推定に基づいている。
本発明に係る幾つかの実施例の別の特徴は、空間を考慮した音声アクティビティ検出を実行するために空間確率インジケータを使用することであり、これは、場所を考慮に入れて抑制利得を決定する際に使用される。
例えば、エコー予測制御において見られるように、音声をノイズであると解釈することは必ずしも技術的欠点ではない。従って、音声アクティビティ検出とエコー予測フィルターの更新処理に関して決定されるノイズ推定N’は、場所を考慮に入れていない(ただし、初期のビーム形成動作において本来存在する何らかの場所を意識した動作を除く)。
図10は、利得算出器129の一実施例の簡略化されたブロック図を示し、空間選択的なノイズ電力(又はその他の周波数ドメイン振幅メトリック)のスペクトルの算出器1005を含み、当該算出器1005は、Power’OutOfBeamと表記され、ビーム外電力算出器1003によって生成されるビーム外電力の推定結果の上で動作する。
図11は、後処理を含む実施例において、利得算出ステップ223および後処理実行ステップ225と共に、追加のエコー利得を算出し、組み込む処理を実行する任意付加的なステップ226のフローチャートを示す。
ビーム外電力算出器1003は、空間確率インジケータから、ビーム利得BeamGain’を決定する。一実施例においては、上述したように、
Figure 0006002690
である。構成要素1003と処理ステップ1005の各々は、ビーム外の瞬時値の電力
Figure 0006002690
の推定結果を決定する。一つのバージョンにおいては、
Figure 0006002690
である。
Figure 0006002690
の値は1とすることが可能であり、その結果、
Figure 0006002690
の値は0とすることが可能であるから、改良された実施例は、ビーム外の電力が決して0とならないことを保証する。構成要素1003と処理ステップ1005の実施例においては、
Figure 0006002690
となる。
当然ながら、代替的な実施例は、
Figure 0006002690
の最小値について異なる値を使用することが可能であり、
Figure 0006002690
の値が決してゼロとならないようにするために、異なる方法を使用することも可能である。
さらに、幾つかの実施例において、ビーム利得とY'から瞬時値のビーム外電力とビーム内電力が生成されるよりもむしろ、他の実施例においては、Y'ではなく、信号電力(又はその他の周波数ドメイン振幅メトリック)スペクトルP’を使用して、ビーム外のバンド集約化されたスペクトル推定およびビーム内のバンド集約化されたスペクトル推定が決定される。しかしながら、複数の実施例においては、Y'はP’の良好な近似値であることを見出した。スペクトルのバンド集約化が充分に解析的であるならば(例えば、バンド集約化が対数スケール状である、又は知覚的スケールに基づいているならば)、Y'は多かれ少なかれP’と等しく、平滑化処理がされた電力推定結果であるP’を必ずしも使用しなくても良い。
空間選択的なノイズ電力のスペクトルの算出器1005および処理ステップ1007の各々は、ノイズ電力スペクトル1006(又は他の実施例においては、振幅に関する別のメトリックのスペクトル)の推定結果を決定する。本発明に係る一実施例は、リーキーな最小ホロワーを使用し、その追跡レートはリーク・レート・パラメータの少なくとも一つによって決定される。当該リーク・レート・パラメータは、エコー・フィルター係数の更新処理において使用される空間選択的ではないノイズ推定に関するものと同一である必要は無い。
空間選択的なノイズ・スペクトルの推定1006をN’b,Sと表記する。一実施例において、
Figure 0006002690
であり、ここで
Figure 0006002690
は、N’b,Sの既に決定された値、即ち、以前に決定された値である。リーク・レート・パラメータαはdB/秒の単位で表現され、その結果、一フレーム時間Tについて、音声の確率が低いならば、
Figure 0006002690
は、1.2〜4の値をとり、音声の確率が高いならば、1の値をとる。αの公称値は、3dB/秒であり、その結果、
Figure 0006002690
となる。
本発明に係る幾つかの実施例においては、ノイズ推定に対してバイアスが加わることを回避するために、エコー・ゲート制御が使用される。すなわち、
Figure 0006002690
である。
これは即ち、以前のノイズ推定結果が、現在のエコー予測より大きい(例えば、2倍以上大きい、など)ことを示している場合に限り、ノイズ推定結果が更新されるということである。さもなければ、当該エコーは、当該ノイズ推定結果に対してバイアスを加えてしまうだろう。一実施例においては、Power’b,OutOfBeamは、Y'を使用して決定される瞬間量である一方で、別の実施例においては、P'から決定されたビーム外のスペクトルの推定結果は、N’b,Sを計算するために使用される。
さらに、幾つかの実施例においては、N’b,Sを決定するために使用されるリーキー最小ホロワーの少なくとも一つのリーク・レート・パラメータは、音声アクティビティ検出処理によって決定されるところに従い、音声が存在する確率によって制御される。
<ノイズ抑制(場合によっては、エコー抑制も伴う)>
本発明の一つの側面は、1)空間選択的なノイズ推定に基づくノイズと、2)ビーム外の信号の同時抑制である。
一実施例においては、利得算出器129の構成要素103と処理ステップ223の構成ステップ1108の各々は、ノイズ電力(又はその他の周波数ドメイン振幅メトリック)スペクトルの空間選択的な推定に基づいて、さらには、特定のバンド内におけるバンド集約化された瞬時値の入力電力Y'に基づいて、中間信号(例えば、周波数ビン108など)についての利得として表現された確率インジケータ1014を計算する。簡単のために、この確率インジケータは、Gainと表記される利得と呼ばれる。しかしながら、この利得Gainは、直接的には適用されず、むしろ、利得合成器1015および利得合成ステップ1109において、追加の利得、即ち、追加の確率インジケータと合成され、単一の抑制動作を実現するために適用される単一の利得を作り出す。
構成要素1013と処理ステップ1108の各々は、それぞれ図10と図11にエコー抑制を伴って示され、幾つかのバージョンにおいては、エコー抑制を含まないで示される。
一の数式が計算の複雑性の観点から効果的であることが見出され、その効果は、以下の式で与えられる。
Figure 0006002690
ここで、Y'は、バンド集約化された瞬時値の電力(又はその他の周波数ドメイン振幅メトリック)であり、N’b,Sは、バンド集約化された空間選択的な(ビーム外の)ノイズ推定結果であり、β’は、ノイズ推定における誤差を許容し、それに従って、利得曲線をオフセットするためのスケーリング・パラメータであり、典型的には、1から4までの範囲内の値をとる。このスケーリング・パラメータは、目的と大きさにおいて、VAD機能において使用される定数と同様のものであるが、VADのスケーリング・パラメータと必ずしも等しくなくても良い。しかしながら、信号の分類(音声か否か)および利得の算出の両者に共通のパラメータと構造を使用することには幾らかの利点がある可能性がある。一実施例においては、適切に調整された値は、β’=1.5である。パラメータGainExpは、アグレッシブさ、即ち、抑制から伝搬への抑制利得の遷移のレートを制御するためのものである。一般的に、この指数は、0.25から4までの範囲内の値をとり、一実施例においては、好適な値は2である。
<エコー抑制処理の追加>
本発明に係る幾つかの実施例は、ノイズの抑制だけでなく、これと同時に、エコーの抑制を実行する実施例も含む。従って、本発明に係る幾つかの実施例は、1)空間選択的なノイズ推定に基づくノイズと、2)エコーと、3)ビーム外の信号に対する同時抑制を実行することを含む。
利得算出器129の幾つかの実施例においては、構成要素1013は、エコー抑制を含み、処理ステップ223の幾つかの実施例においては、ステップ1108は、エコー抑制を含む。利得算出器129と処理ステップ223のそのような幾つかの実施例においては、エコーを抑制するための確率インジケータ1014は、Gain’b,N+Eと表記される利得によって表現される。エコー抑制をさらに含む場合においては、上述したノイズ抑制利得を表現する式は、
Figure 0006002690
となり、ここで、Y'は、繰り返して言うが、バンド集約化された瞬時値の電力であり、N’b,SおよびE'は、バンド集約化された空間選択的なノイズ推定結果およびバンド集約化されたエコーの推定結果であり、β’とβ’は、ノイズ推定とエコー推定における誤差を許容し、それに従って、利得曲線をオフセットするためのスケーリング・パラメータであり、典型的には、1から4までの範囲内の値をとる。繰り返して言うが、このスケーリング・パラメータは、目的と大きさにおいて、VAD機能において使用される定数と同様のものであるが、VADのスケーリング・パラメータと必ずしも等しくなくても良い。しかしながら、信号の分類および利得の算出の両者に共通のパラメータと構造を使用することには幾らかの利点がある可能性がある。一実施例においては、適切に調整された値は、β’=1.5、β’=1.4である。ノイズ抑制のみの場合と同様に、パラメータGainExpは、アグレッシブさ、即ち、抑制から伝搬への抑制利得の遷移のレートを制御するためのものである。一般的に、この指数は、0.25から4までの範囲内の値をとり、一実施例においては、好適な値は、全てのbの値について2である。
抑制処理に関する節の残りの記述においては、エコー抑制が含められている。しかしながら、本発明に係る幾つかの実施例は、エコー抑制を含まず、ノイズとロケーション外(out-of-location)信号の同時抑制だけを含むことを理解すべきである。そのような実施例においては、E’=0とし、さらに、ノイズ推定器についてのエコーのゲート制御を伴わずに、同一の公式が当てはまる。さらに、図1に関連して、エコー抑制が全く無い場合には、エコー推定を生成することに関与している構成要素は存在しなくても良く、これらのものには例えば、基準信号、構成要素111、113、115、フィルター117、エコー更新のためのVAD125および構成要素127などが含まれる。さらには、図2と関係して、ステップ213、215、217およびステップ221は必要ないだろうし、ステップ223はエコー抑制処理を伴わないだろう。
ノイズとエコーに対する同時抑制に適用可能であるGain’b,N+Eに関する数式Gain1を再び参照すると、この数式Gain1は、利得を生成するために、全てのbについて指数部分がGainExp=0.5となる場合においては、スペクトル差分に関して周知かつ慣用されている最小平均2乗誤差(MMSE)基準と同様となることが認識されても良い。本発明はこれよりも範囲が広く、本発明に係る複数の実施例においては、0.5よりも大きな値のGainExpは、予測されるノイズ電力のアクティビティおよび変動の領域からより多く削減される抑制と伝搬との間の過渡的領域を生成することにおいて好適であることが分かっている。本明細書中において後述するとおり、幾つかの実施例においては、当該利得の計算式は、予測されるノイズ電力の領域内において、入力電力に対して、相対的に平坦な又は逆転さえしている利得関係を達成する。そして発明者は、これを、ノイズのアクティビティ持続期間内において抑制の不安定性を顕著に低減する利得関数の設計において、従来技術に対する進歩性を有するものであると考えている。
<バンド集約化された瞬時値の電力ではなく、電力スペクトルを使用すること>
構成要素1013と1108の複数の実施例に関してここで説明したGain’b,N+Eに関する幾つかの数式は、分子と分母の両方の中にバンド集約化された瞬時値の入力電力(又はその他の周波数ドメイン振幅メトリック)Y’を有している。これは、バンド集約化処理が本明細書で説明するとおりに、対数スケール上の又は知覚的に空間配置された周波数バンドを使用して適切に設計されていれば旨く機能する。本発明に係る代替的な実施例においては、分母として、推定されバンド集約化された電力スペクトル(又はその他の振幅メトリック・スペクトル)P’を使用し、その結果、Gain’b,N+Eに関する上記の数式は、以下のように変更される。
Figure 0006002690
<利得曲線を平滑化する処理>
Gain’b,N+Eに関する上記の数式Gain1およびGain1MODについては、入力信号の電力がエコー又はノイズの電力の1.4倍から1.5倍よりも下に減少した際に、利得値がゼロになる可能性があるような複数の値から成る少なくとも一つの組が存在する。この点において、S/N比は約−3dBとなる。入力信号の電力または推測されたS/N比がこの値(又は任意の値)をとる時のゼロ利得への唐突な遷移は、望ましくない可能性がある。何故なら、それは、当該点における信号ダイナミクスの膨張を生成し、この事は、入ってくる信号の電力の小さな変化が利得の大幅な変化をもたらす可能性があり、その結果、抑制利得を適用した後において、出力における変動と不安定性をもたらすこととなる。
本発明に係る幾つかの実施例の一つの特徴は、この問題を顕著に軽減することができる。
説明を明瞭にするために、我々はまず最初に、典型的な動作状態において予測されるような特定のサブバンド内における予測される電力の例示的な確率密度(例えば、ヒストグラム)を提示する。図12は、互いに分離されたノイズ(実線で示す)と所望の(音声の)信号(破線で示す)が、約1kHzの単一バンドについて、各信号クラスを約10秒にわたって観測した結果から得られている場合について、所与のバンドにおける信号電力のスケーリングされたヒストグラムの形での確率密度を示し、この時、ノイズと音声のレベルは、約0dBである平均の信号対雑音レベルに対応する。当該複数の値は例示的なものであり、限定的なものではなく、この図は、抑制利得の算出に関する幾つかの実施例についての所望の性質と具体的な設計を実演して見せるために抑制利得の算出の問題の特徴を把握する役割を果たす。水平軸は、予測されるノイズ(及びエコー)の電力から相対的に見たバンド集約化された瞬時値の電力のスケーリングされた値を表現する。これは実効的には、ノイズに対する入力電力の比率であり、これはより一般的に使用されているS/N比と関係してはいるが若干異なるものである。
任意の実装において、ノイズに対する入力信号の比率が境界値で制限されたままとなるように、ノイズおよび/またはエコーの推定結果において何らかの下限を設けなくてはならないことに留意されたい。ここでの説明において利得関数として表現されている確率インジケータは、予測されるノイズに対する入力電力の比率が大きくなるほど、漸近的に単位量に近付くので、この下限値は、充分に小さい値であるときには重要ではない。ここで説明されている利得対入力電力の表現は、利得対S/N比の観点からの従来技術における表現よりも好適である。何故なら、ここで説明されている利得対入力電力の表現は、異なる信号クラスにおいて電力の自然な分布をより良好に示し、ここで説明されている利得表現を使用することの設計と利点をハイライトする役割を果たす。
以下の検討においては、「予測されるノイズ及びエコーの電力」との表現は、その時点における予測されるノイズ電力と予測されるエコー電力との合計を指して言うために使用される。一のバンド内における任意の特定の時点において、エコー又はノイズのいずれか一方又は両者が、任意の構成比率に従って存在することが可能である。
図12を参照すると、ノイズ信号は、ノイズ推定結果の周りを中心とし、おおよそ±10dBの範囲を持つ入力信号の観測された瞬時値電力の広がりを示す。この場合には音声である所望の信号は、より広い範囲にわたるより高い瞬時値電力を有し、一般的には、アクティブな音声が存在するときのノイズよりも大きな5dB〜20dBの範囲内の瞬時値電力を有する。当該データは、マイクロフォンにおける入射信号を表しており、この時、平均の音声信号電力とノイズ信号電力との間の比率は0dBである。しかしながら、音声信号は典型的には、極めて非定常的であるので、発話が存在している時の時間とバンドとは、0dB平均が示すよりも高い信号レベルを示す。
理想的には、任意の抑制利得は、ノイズ成分を一定量だけ減衰させるべきであり、発話内容を単位利得で伝搬させるべきである。図12に示す実例から理解できるとおり、所望の信号の分布とノイズの分布とは互いに分離されていない。しかしながら、使用される抑制のための設計基準は、アーチファクトが加わるのを回避するために、最も可能性の高い発話レベルと最も可能性の高いノイズ・レベルにわたって相対的に安定した利得を保証するために機能する。発明者の知見に照らすならば、これは、抑制システムに関してより優れた性能出力を提案し、視覚化し、達成するための新規で非自明性のある発明的方法である。従来技術における数多くのアプローチは、初期の基準信号に対して各ビン又は各バンドにおいて数値的な誤差を最小化することに関心を払っており、その結果、他の解決方法においても共通して見られるように、不安定な利得と音楽的なアーチファクトを結果的にもたらす。本発明に係る複数の実施例の一つの特徴は、利得関数が持つ性質の形で各バンド毎に抑制利得を特定することである。音声とノイズの電力分布モードの両者に跨る一定値の又は平滑化された利得は、音楽的なノイズと音楽的なアーチファクトが顕著に低減される処理を保証する。発明者はさらに、ここで説明されている方法は、ノイズとエコーのレベルについての正確な推定結果への依存を低減することが出来ることを見出した。
エコーとノイズの電力に基づいた抑制のための上述した利得関数の2種類の簡単な修正版を追加の実施例として以下に示す。第1の修正版は、予測されるノイズ/エコー電力の周りでの利得の顕著な変動を防止するための利得の最小閾値を使用し、例えば、
Figure 0006002690
となる。ここで、最小値として0.1を選択したことは、限定的な意味に解釈すべきではなく、異なる実施例においては異なる値をとることが可能である。発明者は、0.001から0.3までの範囲内(−60dB〜−10dB)の値を推奨しており、当該最小値は、周波数に依存して決めることも可能である。
第2の修正版は、予測されるノイズ/エコー電力の周りでのより平坦な利得とより滑らから遷移と一階導関数の両者を達成することが可能なよりソフトな加算的な最小値を使用し、例えば、
Figure 0006002690
となる。ここで、最小値として0.1を選択したことは、限定的な意味に解釈すべきではなく、異なる実施例においては異なる値をとることが可能である。発明者は、0.001から0.3までの範囲内(−60dB〜−10dB)の値を推奨しており、当該最小値は、周波数に依存して決めることも可能である。第2の値は、感覚的には、第1の値から1を差し引いた値である。
ある修正された実例は、以下を使用する。
Figure 0006002690
ここで、指数部である
Figure 0006002690
は個別の調整パラメータであり、
Figure 0006002690
は、利得表現指数であり、これもまた調整パラメータである。
さらに別の実例は、異なるアプローチを採り、より直接的な意味でノイズに対する入力信号電力の比率の関数であり、以下のように表される。
Figure 0006002690
ここで、パラメータGainExp’は、抑制から伝搬への遷移のアグレッシブさを制御するために使用可能なパラメータであり、0.5から4までの範囲内の値をとることが可能であり、一実施例における好適な値は、1.5である。上記式中において0.1および0.01と示された最初の2つの定数は、必要とされる最小利得と遷移期間を達成するために調整される。最小値として0.1を示したことは、限定的な意味に解釈すべきではなく、異なる実施例においては異なる値をとることが可能である。スカラー定数0.01は、入力電力がノイズとエコーの予測されるレベルにある場合に、約8dBの減衰を達成するために設定されたものである。これについてもまた、異なる実施例においては異なる値をとることが可能である。
上述した実例は計算量的に効率的であることが自明である。望まれることは、平滑化関数を使用することである。一つの適切な平滑化関数は、S字状関数であり、Gain’b,N+Eに関する上記式は、S字型形状の関数の近似であると考えることが出来る。
第5の実例は、着目している基礎パラメータ(予測されるノイズに対する入力信号電力の比率)に対してインデックス付けされた周知のロジスティクス関数を使用してこれを一般化したものを提示する。第5の実例においては、
Figure 0006002690
となる。
当該技術分野における当業者であれば自明なことであるが、S字状関数については、計算量的な単純化が存在し、そのような単純化を使用する代替的な実施例は、本発明の技術的範囲内であると解釈すべきである。
これらの関数は、上記において簡単に説明し、以下において詳細に後述する同様の及び望ましい性質の組を有している。これらの数式の全ては、予測されるノイズに対する入力電力の特定のドメイン表現に縛られること無く、望ましい性質を達成し、数式「Gain4」を除く全ての式においては、特定のS字状関数なしに望ましい性質を達成する。特定の数式は重要ではないが、上述した全ての実施例は、発話またはノイズの持続期間中に発生する入力信号電力のモード又は最も可能性が高い入力信号電力の領域において比較的一定値であるという性質を共有するという点に注目されたい。説明を簡単にするために、これら3つの関数は、0.1すなわち−20dBとなる最小利得を使用して提示されている。このパラメータは複数の異なる応答目的に適合させるために、調整されることが可能であり、この最小値の推奨される値の範囲は−60dB〜−5dBである。
図13は、ノイズに対する入力電力の比率の関数としての上述した利得計算式Gain1、Gain2、Gain3およびGain4と共に、図12の分布を示している。当該利得関数は、dB単位の対数スケール上にプロットされる形で示されている。
抑制利得関数のこのファミリーの特徴は、各周波数バンド毎に、バンド集約化された瞬時値の振幅メトリック値の第1の数値範囲がノイズに関して予測され、バンド集約化された瞬時値の振幅メトリック値の第2の数値範囲が所望の入力信号に関して予測されると仮定することを含み、これは即ち以下のとおりである。
(1)第1の数値範囲にわたって、即ち、ノイズ電力の領域内において利得が比較的一定である。ここで、比較的一定であるとは、第1の数値範囲内での変動が0.03dBより小さいということを意味する。
(2)第2の数値範囲にわたって、即ち、所望の信号(例えば、音声信号)の電力の領域内において利得が比較的一定である。ここで、比較的一定であるとは、第2の数値範囲内での入力電力1dBあたりの変動が0.1dBより小さいということを意味する。
(3)第1の数値範囲から第2の数値範囲への、即ち、ノイズ電力の領域から所望の信号の電力の領域への遷移が比較的滑らかである。
(4)導関数も同時に滑らかである関数(例えば、S字状の関数)への進行。
従って、その他の望ましいが必須ではない特徴は、以下のものを含む。
(i)ノイズ電力の領域から所望の信号の電力の領域への遷移が比較的滑らかである。
(ii)一次の導関数そして望ましくは高次の導関数が連続的で有限である。
このアプローチは、入ってくるバンド集約化された信号電力の関数としての利得における過大な勾配または不連続性に起因して発生する膨張の度合いを充分に低減する。
これらの特性を表現する数多くの可能な関数とパラメータ化が存在し、ここで開示された技術内容は、発明者が旨く機能することを発見した推奨例であることは当該技術分野の当業者にとっては自明のことである。ここで説明された推奨事項は、単純な単一チャネルやノイズ抑制のための代替的な構造に対しても適用可能であることに留意されたい。
<負の勾配を含めるための抑制曲線の延伸>
発明者は、ノイズを抑制する、即ち、ノイズのレベルを低下させることが望ましい可能性があることを見出し、ノイズのレベルだけでなく、ノイズの望ましくない特性を抑制するためにもノイズを白色化することがさらに望ましい可能性があることを見出した。
この目的のために、ノイズ信号について予測される入力電力の範囲の少なくとも一部において曲線が負の勾配を有する利得を使用することが効果的だろう。この領域において、より低い電力ノイズは、より高い電力ノイズよりも減衰量が少なく、これは、周波数軸と時間軸の両者の上でのノイズのダイナミクスを減少させる白色化処理プロセスである。
利得曲線において上述したような負の勾配が実現される範囲は、状況に応じて異なる。しかしながら、入力電力から相対的に見た利得の勾配は(dB利得対dB入力電力の単位で)約−1よりも低くなるべきではないことを発明者は見出した。発明者はさらに、利得曲線上におけるスパイクや鋭いエッジや不連続性を回避することを推奨している。さらに、利得が単位量を超過すべきではないとすることも合理的である。従って、ノイズとエコーの抑制利得に関して、以下が推奨される。
*ノイズの瞬時値電力の予測される範囲(第1の数値範囲)にわたって平均化された勾配量を(dB利得対dB入力電力の単位で)約−0.5とすること。ここで、約−0.5とは、−0.3〜−0.7の範囲内であることを意味する。−0.5に等しい勾配量が推奨され、これにより、ノイズ信号のダイナミック・レンジの圧縮比として2:1が達成される。
これらの特性を表現する可能な関数とパラメータ化の連続体が存在することは自明であろう。一実施例においては、修正されたS字状関数が使用される。すなわち、S字状関数は、予測されるノイズ・レベルの周りの入力信号電力についての望ましい負の勾配を結果として生じる追加の項を含めることによって修正される。
一実施例においては、S字状関数と追加の項を含む修正されたS字状関数が使用され、第1の領域内において負の勾配を提供する。上述した推奨実施例における上述した関数と同等レベルの抑制効果に加えて、ノイズのダイナミック・レンジの顕著な低減を達成する更なる性質をもたらす修正されたS字状関数に関して、一つの定義式を以下に提示する。以下の式では、S字状関数と追加の項の両方に関して計算量的な簡略化がなされていることが明らかである。
Figure 0006002690
当該技術分野における当業者にとっては自明のことであるが、上記のS字状関数について計算量的な簡略化がされており、代替的な実施例は、数式「Gain5」のそのような簡略化を使用する。
図14は、数式「Gain4」のS字状の利得曲線、および図面中において白色化利得と呼ばれている数式「Gain5」の修正されたS字状利得曲線と共に、図12のヒストグラムを示している。各プロットは、水平軸の値として、dB単位でのノイズに対する入力電力の比率を有している。
図15は、数式「Gain4」で表されるS字状の利得曲線と数式「Gain5」で表される白色化された利得曲線を適用した後に、ノイズ信号と音声信号に関して、ノイズの予測される電力についてのスケーリングされたヒストグラムとして表される確率密度関数に対して何が起きるかを示している。図から分かるように、これらの各々は、音声のノイズとの間に顕著な分離を引き起こしており、この時、ノイズ・レベルは電力において減少し、すなわち、水平軸上において低い値の方にシフトしている。第1のS字状関数利得「Gain4」は、ノイズ電力の広がりを生成している。すなわち、当該ノイズのレベルは、元々のノイズ信号と比べて電力がより大きく変動している。このような効果は、主たるノイズ電力分布を介したS字状関数の滑らかな性質を示さないノイズ抑制のための従来技術のアプローチに関しては、もっと酷い。さらには音声のレベルの少しだけ広がっている。
第2の修正されたS字状関数の利得「Gain5」は、ノイズ電力の分布状態をコンパクト化する性質を有している。この場合には、中央に位置するノイズがより可能性が高いので、これは利得の曲線をより高くする。この事は、ノイズに関して変動がより少なく、浸透性のノイズをより少なくすることができるある種の平滑化や白色化が存在することを意味する。
これらのプロットは、ノイズ信号および音声信号に関して、スケーリングされた確率密度関数(例えば、ヒストグラムのような)を示すことに注目されたい。ノイズと音声の確率密度関数は、同一の領域を有するようにスケーリングされる。
従って、これら両方の利得関数は、スプレッドを増加させることにより、即ち、ノイズ・レベルを低減することにより、S/N比を増加させる。白色化利得の場合においては、ノイズはより浸透性が低く、時間軸と周波数軸に沿って部分的に白色化されている。
<エコー抑制の追加的な独立の制御>
上述した抑制利得の計算式は、予測される望ましくない信号電力(これは、説明を簡単にするために、しばしばノイズと呼ばれる)に対する瞬時値の入力電力の比率のドメイン上での関数として一般化されることが可能である。これらの利得計算式において、望ましくない信号電力は、推定された(空間を考慮した)ノイズ電力と推定され又は予測されたエコー電力の合計である。このような方法でノイズとエコーを一つに合成することは、望ましくないノイズと望ましくないエコーの両方を同時に減衰させる抑制利得の形での単一の確率インジケータを提供する。
例えば、エコーがノイズのレベルと比較して充分に高いレベルを達成することが出来る場合のような幾つかの場合においては、そのような抑制処理は、結果として、エコーを充分には減衰させない。例えば、幾つかの応用用途においては、アンビエントなノイズに対する穏やかな低減処理だけが必要である場合もある一方で、一般には、エコーは聞こえなくなるまで抑制されることが必要とされる。上記のような所望の効果を達成するために、一実施例においては、確率インジケータ又は利得についての追加的なスケーリングが使用され、そのような追加的なスケーリングは、エコー電力単独に対する入力信号の比率に基づいている。
各々が抑制利得に関する望ましい性質(例えば、上述したように平滑化されるという性質を含む)を持っている抑制利得関数の対を
Figure 0006002690
と表記する。一例として、
Figure 0006002690
の各々は、S字状関数の特性を有している。幾つかの実施例においては、利得の計算式を
Figure 0006002690
として定義するよりもむしろ、例えば、以下の式で表されるような利得
Figure 0006002690
等のような確率インジケータの対を使用することが可能であり、さらに、ノイズ信号とエコー信号の電力に対する応答特性に関して、アグレッシブさと深さを互いに独立に制御することを可能にする合成された利得係数を
Figure 0006002690
から決定することが可能である。さらに別の実施例においては、ノイズとエコーの両方の抑制に関して、
Figure 0006002690
を適用することが可能であり、エコーの追加的な抑制に関して、
Figure 0006002690
を適用することが可能である。
一実施例においては、2つの関数
Figure 0006002690
が使用され、別の実施例においては、2つの関数
Figure 0006002690
は、一つの抑制利得としての合成された確率インジケータを達成するために、これらの積として一つに合成される。
<ロケーション外(out-of-location)信号を同時に抑制するために抑制利得を合成すること>
一実施例においては、Gain’b,Sと表記され、空間抑制利得と呼ばれ、ビームの利得1012として表現されるビーム内信号に関する抑制確率インジケータは、構成要素129内の空間抑制利得算出器1011(図10)および処理ステップ223内の抑制利得算出ステップ1103によって、以下の式に従って決定される。
Figure 0006002690
空間抑制利得1012は、利得合成器1015内および合成ステップ1109において他の抑制利得と合成され、その結果、一つの抑制利得として表現された全体的な確率インジケータが形成される。ノイズ、エコーおよびロケーション外(out-of-location)信号を同時に抑制するための利得Gain’b,RAWと表現される全体的な確率インジケータは、一実施例においては、以下のように複数の利得の積である。
Figure 0006002690
代替的な実施例においては、追加の平滑化処理が適用される。利得算出ステップ1109と構成要素1015の一つの例示的実施例においては、
Figure 0006002690
であり、ここで、最小利得0.1と係数0.9=(1−0.1)は、利得に関して異なる最小値を達成するために、複数の異なる実施例に応じて変更されることが可能であり、推奨される値の範囲は、0.001〜0.3(−60dB〜−10dB)である。ソフト化処理は、パラメータと推定結果が計算されるポイント毎に、時間、信号状態および空間的不確実性の変化に伴う連続性と安定性を保証する努力がなされることを保証する。これは、典型的には、確率インジケータ又は利得が小さくなるにつれて、利得において、任意の鋭いエッジや唐突な相対変化を回避する。
Gain’b,RAWに関する上述した数式は、ノイズとエコーを等しく抑制する。上述したように、ノイズを完全には消去しないことが望ましい場合もあるが、エコーを完全に消去することについてはそうではない。利得の決定に関するそのような実施例においては、
Figure 0006002690
であり、ここで、
Figure 0006002690
は、ノイズとエコーの両方に対して(比較的)控えめな抑制を達成するが、他方で、
Figure 0006002690
は、エコーをより一層抑制する。異なる実施例においては、
Figure 0006002690
はノイズのみを抑制し、
Figure 0006002690
は、エコーを抑制する。
さらに別の実施例においては、
Figure 0006002690
であり、ここで、
Figure 0006002690
である。
幾つかの実施例においては、ノイズとエコーの抑制利得は、未処理のままの合成利得を形成するために、空間特性の確率インジケータ又は利得と合成される。幾つかのバージョンにおいては、合成処理の後に、未処理のままの合成利得は、安定性とその他の望ましい挙動を保証するために、後処理回路1025および後処理実行ステップ225によって後処理される。
別の実施例においては(後処理を含む実施例にあっては、後処理回路1025および後処理実行ステップ225による後処理がされた後に)、エコー抑制に特有の利得関数
Figure 0006002690
が、利得として適用される。後処理については、本明細書中の以下の説明において、さらに詳細に後述される。利得算出器129の幾つかの実施例は、追加のエコー抑制利得の決定された値、および当該追加のエコー抑制利得を後処理された利得と合成して、適用すべきB個の利得の全体を結果として生じる合成器1027を含んでいる。発明者は、そのような実施例が、エコーのより特異的でより深い減衰効果を提供することが出来ることを見出した。後処理を含む実施例において、エコーの確率インジケータまたは利得
Figure 0006002690
は、例えば、所望の信号とノイズ信号の安定性および望ましくない音声の歪みの無い適切なレベルのノイズ抑制のためにカスタマイズされている後処理225によって課される平滑化と連続性の対象ではない。エコーがアクティブ状態であるときに、信号からエコーを消去する必要性は、瞬間的な発話の品質についての制約よりも優先させることが可能である。(後処理を含んだ実施例にあっては、後処理がされた後の)エコー抑制的な成分は、周波数に跨って狭く潜在的に深い抑制的な作用を適用することが可能であり、それは、信号内に残留しているノイズの上にエコーの不愉快な残差シグネチャを残してしまう可能性がある。この問題に対する解決法は、「心地よいノイズ」に関するものであり、この問題は、当該技術分野における当業者にとっては周知のものであり、利得の後処理がされた後に、エコー抑制器によって引き起こされるスペクトル内のギャップの存在を低減するために、この解決法をどのように適用すべきであるかについては自明である。
<決定された利得を改善するための後処理>
利得算出器129の幾つかの実施例は、後処理回路1025を含み、方法200の幾つかの実施例は、後処理実行ステップ225を含む。後処理回路1025および後処理実行ステップ225の各々は、各バンドについて後処理がされた利得を生成するために、複数のバンドについての未処理のままの合成された利得に対して後処理を実行するものである。複数の異なる実施例においては、そのような後処理は、以下の処理の一つ以上を含んでいる:最小の利得値を保証する処理;合成された利得に対する中央値フィルタリング処理を実行することにより、孤立した値や異常値を有する利得が全く又は殆ど存在しないことを保証する処理;時間平滑化処理およびバンド対バンドの平滑化処理のいずれか一方又は両方を実行することによる滑らかさを保証する処理。幾つかの実施例は、信号の分類処理を含み、これは信号分類結果を生成し、その結果、後処理回路1025により実行される後処理225が当該信号分類結果に従って実行されるようにするために、例えば、以下の一方または両方を使用して実行される:処理ステップ1111を実現している空間選択的な音声アクティビティ検出器1021;および処理ステップ1113を実現している風アクティビティ検出器1023。
風アクティビティ検出器(WAD)1023の一実施例と同様に、空間選択的な音声アクティビティ検出器1021の一実施例が以下の説明において後述される。しかしながら、本発明において後処理の実行が信号分類結果によって制御される点は、ここで述べられる音声アクティビティ検出器または風アクティビティ検出器の特定の実施例だけに限定されるものではない。
<最小値(最大の抑制深さ)>
未処理のままの合成された利得Gain’b,RAWは、時として望ましい最小値ポイントよりも下に低下する場合があり、即ち、最大の望ましい抑制深さより大きい抑制深さを達成する場合がある。本明細書中において、「最大の抑制深さ」と「最小の利得」は交換可能な用語として使用されることに留意されたい。当該利得を決定するための上述した複数の実施例の全てではないが幾つかは、利得がそのような最小値ポイントよりも下に低下しないことを保証する処理を含んでいる。最小の利得を保証する処理ステップは、特性推定における小さな誤差又はノイズ特性の自然な変動に対して相対的に大きな変動を示す可能性がある小さな利得値を回避することによって、ノイズの多い状況において抑制利得を安定化させる役割を果たす。最小利得を設定するプロセスは、低い値を持つ利得におけるそのような変動によって引き起こされる処理アーチファクト及び「音楽的なノイズ」を低減する役割を果たし、同時に、特定の複数のバンド内において、抑制の作業負荷又は深さを低下させるために使用することが可能であり、その結果、所望の信号の改善された品質をもたらすことができる。
後処理回路1025および後処理実行ステップ225の幾つかの実施例は、(例えば、処理ステップ1115において)利得が所定の最小値より下に低下しないことを保証する処理を含み、その結果、所定の最大の抑制深さが存在する。
さらに、後処理回路1025および処理ステップ1115の幾つかの実施例においては、未処理のままの利得が全てのバンドに関して同一の最大抑制深さ(最小利得)を有するようにするよりもむしろ、異なる周波数バンド毎に最小レベルは異なるようにすることが望ましい場合も有る。一実施例においては、
Figure 0006002690
である。
一例として、後処理回路1025および処理ステップ1115の幾つかの実施例においては、最大抑制深さ又は最小利得の範囲は、−80dBから−5dBまでの範囲にわたり、周波数に依存している。一実施例において、200Hzより下の低い周波数域において抑制深さは約−20dBであり、1kHzにおいては約−10dBに変化し、4kHzの周辺にある高域音声周波数においては、僅か−6dBに緩和される。
幾つかの実施例において、後処理実行ステップ225および後処理回路1025による処理内容は、(例えば、VADによる判定に従って音声であるか否か、および/またはWADによる判定に従って風であるか否かなどのように)入力信号の分類の結果によって制御される。上記のような信号分類結果によって制御される後処理を伴う実施例の一つにおいては、各バンド毎の利得の最小値であるGain’b,MINは、(例えば、VADを含む実施例にあっては、VADによる判定に従って信号が音声であるか否か、および/またはWADを含む実施例にあっては、WADによる判定に従って信号が風であるか否かなどのように)信号の分類結果に依存している。一実施例においては、VADは空間選択的である。
一実施例においては、VADが信号を音声であると判定した場合、Gain’b,MINは、(例えば、周波数バンドに依存した方法で)増加させられ、又は他の実施例においては、各バンドbについて同じ量だけ増加させられる。一実施例においては、最小値における増加量は、中央の周波数バンド(例えば、500Hz〜2kHzのバンド)におけるよりも大きい。
一実施例においては、WADが信号を風であると判定した場合、Gain’b,MINは、(例えば、周波数バンドに依存した方法で)減少させられ、又は他の実施例においては、各バンドbについて同じ量だけ減少させられる。一実施例においては、最小値における減少量は、200Hz〜1500Hzのより低い周波数域において発生する減少量がより大きくなるのに従って、周波数に依存して決まる。
改良された実施例においては、最小利得値における増加は、音声が検出された際に、時間の経過に伴って次第に増加してゆくように制御され、同様に、音声が検出されたのに続いて、音声が欠如していることが検出された際に、時間の経過に伴って次第に減少してゆくように制御される。
同様に、改良された実施例においては、最小利得値における減少は、風が検出された際に、時間の経過に伴って次第に減少してゆくように制御され、同様に、風が検出されたのに続いて、風が欠如していることが検出された際に、時間の経過に伴って次第に増加してゆくように制御される。
一実施例においては、(音声に関しての)上述した増加と減少および(風に関しての)上述した減少と増加を制御するために、単一の時定数が使用される。別の実施例においては、音声が検出された際に、最小利得値における増加を、風が検出された際に、最小利得値における減少を制御するために、第1の時定数が使用され、音声の欠如が検出された際に、最小利得値における減少を、風の欠如が検出された際に、最小利得値における増加を制御するために、第2の時定数が使用される。
<音楽的なノイズを制御すること>
音楽的なノイズが存在することが知られており、これは、複数のバンドのうちの幾つかにおける利得の上で、時間の経過に伴う短期的な誤りが生じることによって発生する可能性がある。そのような誤差を含む利得は、統計的な異常値であると看做すことが可能であり、すなわち、バンドの一つのグループを跨る利得値が、統計的に見て、予測される範囲の外に存在し、その結果、孤立しているように見える。ある程度までは、ここで説明される複数の異なる実施例において提示される後処理の3種類の方法の全ては、抑制利得が低い場合に、特にノイズ区間内において、音楽的なアーチファクトの存在を低減するように作用する。この節において説明される中央値フィルタリング・アプローチは、内部的な推定結果を処理するよりも、特に効果的であり、利得の上に直接的に作用する。各バンド毎に、複数の利得または確率インジケータを単一の利得に合成し、当該利得の上で、直接的な線形の又は非線形のフィルタリング処理を使用するアプローチは、非常に新規で効果的な提案技術である。中央値フィルタリングのアプローチは、広範囲にわたる音楽的なノイズによるアーチファクトの顕著な低減効果をもたらす役割を持つ。
そのような統計的な異常値は、入力信号が変換され、バンド集約化されるその他のタイプの処理においても、生じる可能性がある。そのような他のタイプの処理には、知覚的なドメインに基づくレベル化、知覚的なドメインに基づくダイナミック・レンジの制御、および知覚的なドメインに基づくダイナミックな等化処理などが含まれ、これらの処理は、オーディオ信号の再生レベルに依存して、オーディオの知覚における変動を考慮に入れる。これに関しては、例えば、「WO2004/111994」として公開されている国際出願PCT/US2004/016964などを参照されたい。知覚的なドメインに基づくレベル化、知覚的なドメインに基づくダイナミック・レンジの制御、および知覚的なドメインに基づくダイナミックな等化処理の各々は、複数のバンド集約化された利得から成る一組を入力信号振幅の変換された知覚に基づくメトリックに対して適用することにより、オーディオ信号の知覚される音量を決定し、調節する動作を含んでいる。そのような入力信号振幅の知覚に基づくメトリックを決定するために、オーディオ信号の音量の測度を知覚的な単位において計算するために、心理音響学的なモデルが使用される。国際公開公報「WO2004/111994」においては、そのような知覚的なドメインにおける音量の測度は、特定の音量と呼ばれ、周波数と時間の関数としての、知覚的な音量の測度である。等化処理に適用される際に、オーディオ信号の知覚されるスペクトルを、時間により変化するものから実質的に時間により変化しないものと変換するために、知覚的なドメインにおいて真の意味でのダイナミックな等化処理が実行される。
レベル化処理および/またはダイナミックな等化処理のために、各バンド毎に決定される利得は、統計的な異常値(例えば、孤立した値)を含んでおり、そのような異常値は、音楽的なノイズのようなアーチファクトを引き起こす原因となる可能性がある。従って、ここで説明される処理は、複数の周波数バンドにおける振幅についての、変換されバンド集約化されたノルムを表している信号に対して利得が適用されるような他の応用に対してもまた適用可能である場合がある。当該提案された後処理は、特性と抑制の合成を行わないシステムに対してもまた適用可能であることにも留意されたい。例えば、それは、単一チャネルのノイズ低減システムの性能を改善するための効果的な方法を提供する。
後処理225および後処理回路1025の一実施例は、(例えば、処理ステップ1117において)複数の異なる周波数バンドにわたって未処理の利得に対して中央値フィルタリング処理を適用することを含む。中央値フィルターは、1)中央値を決定するために含むべき利得値の個数、および、2)スペクトルの端部における中央値の計算を可能にするためにバンド集約化された利得を拡張するために使用される条件、の2つによって特徴付けられる。
一実施例は、3ポイントのバンド対バンドの中央値フィルタリング処理を含み、端部に関しては、内部値の外挿を伴う。別の実施例においては、バンド集約化された利得を拡張するために、最小利得またはゼロ値が使用される。
一実施例においては、バンド対バンドの中央値フィルタリング処理は、信号の分類結果によって制御される。一実施例においては、例えば、空間選択的なVADのようなVADが含まれ、当該VADが音声は存在しないと判定したならば、5ポイントのバンド対バンドの中央値フィルタリング処理が実行され、この時、中央値を計算するために、端部における最小利得またはゼロ値は拡張され、当該VADが音声は存在すると判定したならば、3ポイントのバンド対バンドの中央値フィルタリング処理が実行され、この時、中央値を計算するために、端部におけるエッジ値が外挿される。
一実施例においては、WADが含まれ、当該WADが風は存在しないと判定したならば、3ポイントのバンド対バンドの中央値フィルタリング処理が実行され、この時、端部において適用されるエッジ値が外挿され、当該WADが風は存在すると判定したならば、5ポイントのバンド対バンドの中央値フィルタリング処理が実行され、この時、端部において適用される最小利得値が選択される。
<平滑化処理>
上述した未処理のままの利得は、各バンド毎に互いに独立に決定され、統計的な異常値(例えば、孤立した値)となる利得値の発生を無くすか減少させるために、中央値フィルタリング処理を実行した後でさえ、利得の値は、複数の周波数バンドに跨って、幾分かのジャンプを有する場合が有り得る。従って、後処理回路1025および後処理実行ステップ225のの幾つかの実施例は、白色ではない不自然な出力スペクトルの原因となり得るような可能性として生じ得る上記のようなジャンプを無くすために、複数の周波数バンドに跨って、平滑化処理1119を実行することを含む。
平滑化処理1119の一実施例は、固定化されたカーネルを使用した重み付けされた移動平均を使用する。一つの例は、重み付けされた移動平均に関して、ガウス重み付けカーネルの2項近似を使用する。
一例として、5ポイントの2項平滑化器は、カーネル
Figure 0006002690
を有する。実際にはもちろん、係数1/16は除外されることが可能であり、この場合、いずれかのポイントにおいて必要に応じてスケーリングが実行される。
別の例として、3ポイントの2項平滑化器は、カーネル
Figure 0006002690
を有する。
他の多くの重み付け移動平均フィルタリングが周知であり、そのような任意のフィルターは、利得のバンド対バンド平滑化処理のために使用するために適切に修正されることが可能である。
平滑化処理(例えば、処理ステップ1119の平滑化)は、次元がBである実数値の正方行列および周波数バンドの個数によって定義されることが可能である。
本明細書の以降の説明においてさらに後述されるとおり、処理ステップ227と構成要素131におけるN個の周波数ビンの上での利得の適用は、N×Bの行列を使用することを含む。上述した利得適用行列に対して平滑化を定義するB×Bの行列が合成され、その結果、合成されたN×Bの行列を定義される。従って、一実施例においては、処理ステップ227と構成要素131における利得適用操作の各々は、バンド対バンドの平滑化処理を含んでいる。
一実施例においては、バンド対バンドの中央値フィルタリング処理は、信号の分類結果によって制御される。一実施例においては、例えば、空間選択的なVADのようなVADが含められ、当該VADが音声は存在すると判定したならば、ノイズが検出された時に平滑化の度合いが増加させられる。一つの例示的実施例においては、当該VADがノイズを検出したと表示する場合において、5ポイントのバンド対バンドの重み付け平均平滑化処理が実行され、さもなければ、当該VADが音声は存在しないと判定した時に、平滑化処理を全く実行しないようにする。
幾つかの実施例においては、利得に対する時間平滑化処理がさらに含められる。幾つかの実施例においては、B個のバンドの各々の利得は、以下の式で表される1次平滑化フィルターによって平滑化される。
Figure 0006002690
ここで、Gainは、現在の時間フレームの利得であり、Gainb,Smoothedは、時間平滑化処理がされた利得であり、
Figure 0006002690
は、以前のMサンプル長のフレームから取って来たGainb,Smoothedの値である。αは周波数バンドに依存することが可能な時定数であり、典型的には、20ms〜500msの範囲の値をとる。一実施例では、値として50msが使用される。
従って、一実施例においては、複数の1次時定数から成る一組に従って実行される利得に対する1次時間平滑化処理が含められる。
一実施例においては、時間平滑化の処理量は、現在のフレームについての信号の分類結果によって制御される。利得の1次時間平滑化処理を含む特定の実施例においては、現在のフレームについての信号の分類結果は、各バンド毎に時間の経過に沿って利得をフィルタリング処理するために使用される1次時定数から成る値の組を制御するのに使用される。
VADが含まれる場合においては、一実施例は、音声が検出された場合に、時間平滑化を停止する。
一実施例においては、発話が全く検出されなければ、
Figure 0006002690
であり、発話が検出されれば、
Figure 0006002690
である。
発話の開始時点においてアグレッシブな平滑化処理は打ち切られることが重要であることを発明者は見出した。従って、後処理のパラメータは、低いレイテンシを有する直近の信号分類器(VAD、WAD)の出力値によって制御され、ノイズから音声(又はその他の所望の信号)のモードへと後処理が素早く遷移することを達成可能であることが好適である。音声の検出の後によりアグレッシブな後処理が復活する速さは、それほど重要ではないことが見出された。何故ならそれは、発話の明瞭度に対してあまり影響しないからである。
<設定可能な感度を使用した音声アクティビティ検出>
音声アクティビティ検出を使用することが可能な方法やシステムには、多種多様な構成要素が存在する。VADは周知な技術である。特に、いわゆる「最適VAD」が周知であり、VADの最適性評価基準に従って、そのような「最適VAD」をどのように決定するかに関しては、充分な研究がなされてきた。
抑制処理に適用される際に、抑制システムの中の複数の異なる部分がそれぞれ異なるVADにより制御され、全ての使用に関して「最適VAD」を有するよりもむしろ、そのようなVADの各々が、使用される場所毎における抑制器の機能に関してカスタム設計されている場合において、抑制処理は最適に作用する。従って、本発明の一側面は、その各々が感度と(空間選択性を含む)選択性を互いに独立に制御する複数の調製パラメータから成る小さな組によって制御される複数のVADを含めることであり、この時、そのような調整パラメータは、当該VADが使用される場所での抑制機能要素に従って調整される。
複数のVADの各々は、Y’から音声アクティビティの表示を決定する汎用的VADの個別具現化である。そのような汎用的VADは、複数のパラメータから成る一組によって制御され、ノイズ・スペクトル・コンテンツの推定結果、エコーのバンド集約化された周波数ドメイン振幅メトリック表現、およびバンド集約化された空間特性を使用する。当該パラメータの組は、ノイズ・スペクトル・コンテンツの推定結果が空間選択的であるか否かを含んでいる。上記の個別具現化されたVADが決定する音声アクティビティ表示のタイプは、パラメータの選択によって制御される。
従って、本発明に係る実施例のその他の特徴は、ダウン・ミキシングされバンド集約化された瞬時値の周波数ドメイン振幅メトリックであるY’から複数の音声アクティビティ表示を決定するための方法であり、ここで、当該音声アクティビティ表示は、汎用的な音声アクティビティ検出方法のそれぞれの個別具現化を使用する。汎用的な音声アクティビティ検出方法は、複数のパラメータから成る一組によって制御され、ノイズ・スペクトル・コンテンツの推定結果、エコーのバンド集約化された周波数ドメイン振幅メトリック表現、およびバンド集約化された空間特性を使用する。当該パラメータの組は、ノイズ・スペクトル・コンテンツの推定結果が空間選択的であるか否かを含んでいる。それぞれの個別具現化が音声アクティビティのどの表示を決定するかは、パラメータの選択によって制御される。
例えば、抑制方法の幾つかの構成ステップにおいては、選択性が重要であり、すなわち、VADの個別具現化は、検出されているものが音声である高い確率を有すべきであり、当該抑制方法の他の構成ステップにおいては、感度が重要であり、すなわち、より多くの誤検出が許容されるように、選択性を犠牲にしてでも、音声アクティビティを見逃すことについて低い確率を有するべきである。
第1の例として、エコー予測パラメータ(予測フィルターの係数)を更新することを阻害するために使用されるVAD125は、選択性を犠牲にしてでも高い感度を有するように選択される。後処理の制御のために、発明者は、選択性と感度のバランスをとるようにVADを調整することを選んだ。何故なら、過剰に感度が高いことは、発話が誤検出されるたびに、ノイズのレベルの変動を結果としてもたらし、他方、過剰に選択的であることは、音声の存在を多少なりとも見逃しかねないからである。別の例として、出力された発話のレベルを測定することは、実際の発話のみがレベルと利得制御を設定するのに使用されることを保証するために、高度に選択的であるが感度が高過ぎないVADを必要とする。
様々な関数に関して調整されることが可能な音声アクティビティを計算するための一般的な空間選択的なVAD構造(汎用的なVAD)の一実施例は、以下の式で与えられる。
Figure 0006002690
ここで、
Figure 0006002690
であり、BeamGainExpは、より大きな値をとるほどVADの空間選択性のアグレッシブさを増加させ、エコー更新のためのVAD125に関して使用する場合のように、空間選択的ではないVADについては0の値をとり、
Figure 0006002690
は、VAD125において使用されるような合計のノイズ電力(又はその他の周波数ドメイン振幅メトリック)の推定N'、またはビーム外の電力(又はその他の周波数ドメイン振幅メトリック)を使用して決定される空間選択的なノイズ推定N’b,Sのいずれかであり、β,β>1は、それぞれノイズとエコーの余裕度であり、Y’sensは、設定可能なオフセット値である。β,βの値は、1から4までの間である。BeamGainExpの値は、空間選択性が望まれる場合には、0.5〜2.0の値であり、後処理を制御するために使用される処理ステップ1111とVAD1021の一実施例に関しては、1.5である。
上述した数式はさらに、汎用的な音声アクティビティ検出方法の動作を制御する。
発話表示値を生成するためのパラメータの任意の与えられた組Sについて、音声が存在することを表す時にS>Sthreshとなる判定式を考慮することにより、2値判定または分類器を取得することが出来る。さらに、値Sは、瞬間的な発話レベルの連続的なインジケータとして使用することが可能であることも自明である。さらに、伝搬制御や後処理の制御などの処理動作のための改良された有用な汎用的VADは、適切な「張り出し」すなわち、検出事象の後における音声の連続的な表示の適切な持続期間を使用して取得されることが可能である。そのような「張り出し」の期間は、0msから500msまでの範囲内で変動することが可能であり、一実施例においては、200msに等しい値が使用される。「張り出し」期間の間は、アクティブ化の閾値を(例えば2/3になるまで)低下させることが有益である。発話のバースト状態が一旦開始された際に、これは、増加させられた音声に対する感度と安定性を作り出す。
一つ以上の後処理動作を制御するための音声アクティビティ検出(例えば、処理ステップ1111およびVAD1021におけるもの)に関して、上述した式の中のノイズは、N’b,Sであり、これは、ビーム外の電力(又はその他の周波数ドメイン振幅メトリック)Y'を使用して決定される。β,βの値は、エコー更新のためのVAD125に関するものと必ずしも同一でなくても良い。このVADは空間選択的なVADと呼ばれ、図10において、構成要素1021として示される。Y’sensは、マイクロフォンとシステムの予測されるノイズ・レベルとおおよそ等しくなるように設定され、その値は、典型的な信号成分についての実験により取得される。
従って、β,β、Y’sens、Sthresh、BeamGainExpおよびN'とN’b,Sのどちらが使用されるかは、調製可能なパラメータであり、これらの各々は、汎用的VADの個別具現化が使用される構成要素によって実行される機能に従って、調整される。これは、音声品質を強化する一方で、エコー、ノイズおよびスピーカーが位置する場所以外から来る音のうちの一つ以上のような望ましくない効果の抑制を改善するものである。ここで説明するVAD構造のその他の使用は、伝搬又は符号化の制御、レベルの推定、利得制御及びシステム電力の管理などを含む。
<風ウアクティビティの検出>
本発明に係る幾つかの実施例は、利得の適用における、そして特に、後処理における、風アクティビティ検出器1023および風アクティビティ検出ステップ1113を含んでいる。
一般的に、風アクティビティ検出器1023および風アクティビティ検出ステップ1113の各々は、複数の入力信号(例えば、複数の(例えば2個の)マイクロフォン入力)における音の破損を起こす風の影響の存在を検出するよう動作する。一実施例において、構成要素1023と処理ステップ1113は、風アクティビティの推定を決定する。これは利得についての後処理を制御するために使用されることが可能であり、例えば、以下に列挙する一つ以上の特性のうちの一つ以上を制御する:(a)利得値の最小下限を課する;(b)複数の周波数バンドにわたって、利得に対して中央値フィルタリングを適用する;(c)バンド対バンドの平滑化;(d)時間平滑化;および、その他の後処理方法であって、一実施例では、音声アクティビティによって起きるゲート制御であり、別の実施例では、音声アクティビティ検出、風アクティビティ検出及び無音状態検出のうちの一つ以上による処理。
任意の風アクティビティ検出器および風アクティビティ検出方法は、本発明に係るシステムと方法の実施例において使用されることが可能である。発明者は、本明細書の冒頭の「技術分野」の欄に記載された「風の検出と抑制」に関して開示する関連出願において説明されている風アクティビティ検出器および風アクティビティ検出方法を使用することを選んだ。幾つかの実施例はさらに、風の抑制を含んでいる。しかしながら、風の抑制は、本明細書中においては検討されず、上記関連出願において検討されている。
風アクティビティ検出器および風アクティビティ検出方法の実施例の概略だけが、当業者に実施可能な程度に詳細に本明細書中で説明される。より詳しい説明に関しては、上述した関連出願を参照されたい。
幾つかの実施例においては、検出の特異性を増加させ、従来の風検出技術において一般的な音声と音響学的干渉要因に共通する音の過渡的なバースト状態によって引き起こされる「誤警報」の発生を低減するために、風検出器1023は、空間特性を含む複数の特性についてのアルゴリズム的な合成処理を使用する。この事は、風が存在する場合の励起要因に対して抑制を追加するために、算出器129によって算出される利得によって示されるような抑制器131の動作を可能にし、その結果、通常の動作状態の下での風抑制処理の望ましくない動作に起因する発話品質の何らかの低下を防止する。
2つのチャネル内において風の存在の下で音を記録するための2つのサンプリング周期に関しては、チャネル間に低い程度の相関が示されることが実験的に示されている。この効果は、信号を時間ウィンドウと周波数ウィンドウの両者の上で観察した場合に、より一層発音される。さらに、風は、一般的に、低域周波数の端部において、高い負荷がかかった所謂「赤い」スペクトルを有していることが観測されている。実験によれば、風の電力スペクトルは、ノイズ電力のスペクトルと比較した場合に、顕著な下降トレンドを有していることが示されている。この事実は、風アクティビティ検出器1023と風アクティビティ検出ステップ1113の実施例において応用されている。
風を弁別するために使用することが可能な幾つかの他の関連する特徴(複数の特性)は、その統計確率的に非定常的な性質と関係している。時間と周波数にわたって観察した際、風は、例えば、比率、角度およびコヒーレンスなどのような複数の空間特性に対して極端なバラつきを加える。すなわち、任意のバンド内の複数の空間パラメータは、時間と周波数にわたって、むしろ確率的で独立したものとなる。これは、構造的な空間的性質又は時間的性質を全く持たない風によって生じる結果であり、マイクロフォンの空間配置または配置方向にある程度の多様性があるならば、典型的にはそれは、各マイクロフォンにおいて互いに独立したランダム過程を近似しており、その結果、時間、空間及び周波数に渡って、相関されないだろう。
風アクティビティ検出器1023および風アクティビティ検出方法1113の幾つかの実施例は、風の検出に関する以下の決定された特性を使用する。
(1)Slope:例えば10を基底とするdBの単位で、例えば、200Hzから1500Hzまでのバンドの回帰処理を使用して得られたスペクトル傾斜。
(2)RatioStd:例えば、200Hzから1500Hzまでのバンドにおける、例えば、dB単位での、比率の空間特性の瞬時値と予測値との間の差分の標準偏差。
(3)CoherStd:200Hzから1500Hzまでのバンドにおける、コヒーレンスの空間特性の標準偏差。
2つの入力が有る場合に、共分散を使用する傾斜の算出に関して、一実施例は、「位置情報」の節において上述した定義を使用する。別の実施例は、以下の定義を使用する。
Figure 0006002690
一実施例においては、B個のバンドの中の幾つかのみが使用される。一実施例においては、おおよそ200Hzから1500Hzまでの間の周波数範囲をカバーする複数のバンド(典型的には、5個〜20個のバンド)が使用される。傾斜は、10×log10(電力)とlog10(バンド周波数)との間の線形の関係で表される。RatioStdは、複数のバンドのこの組に跨って、dB(10×log10(Rb22/Rb11))の単位で表現されたRatioの標準偏差である。一実施例においては、CoherStdは、複数のバンドのこの組に跨って、
Figure 0006002690
の単位で表現されたCoherenceの標準偏差であり、他方、別の実施例においては、非対数スケールが使用される。
各バンドbに関して、Slope、RatioおよびCoherenceからの寄与量は、以下の式によって決定される。
Figure 0006002690
SlopeContributionの計算式において、Slopeは、データの現在のフレームから取得されるスペクトルの傾斜であり、WindSlopeBiasとWindSlopeは、(例えば、電力のプロットから)経験的に決定される定数であり、一実施例においては、風の全く無い状態が0の値に対応し、1の値が公称レベルの風を表現し、1より大きな値がだんだんとより高い風アクティビティを表現する結果と成るように、SlopeContributionの値をスケーリングするために、上記定数の値は、−5および−20に等しい値に到達する。
RatioContributionの計算式においては、RatioStdは、データの現在のフレームから取得され、WindRatioStdは、上述したように、0と1の値がそれぞれ、風が無い場合と公称レベルの風を表現するように、RatioContributionの値のスケーリングを達成するために、時間の経過に沿って、Ratioから経験的に決定された定数である。
CoherContributionの計算式において、CoherStdは、データの現在のフレームから取得され、WindCoherStdは、上述したように、0と1の値がそれぞれ、風が無い場合と公称レベルの風を表現するように、CoherContributionの値のスケーリングを達成するために、時間の経過に沿って、Coherenceのデータから経験的に決定された定数である。
一実施例において、全体の風レベルは、その後、SlopeContribution、RatioContributio、およびCoherContributionの積として計算され、感知可能な所定のレベル(例えば、2の値)に対してクランプされる。
この全体の風レベルは、1の値をとるときに風アクティビティの合理的な感度を表現している連続値変数である。この感度は、必要に応じて感度と特異性との間のバランスをとるために、異なる検出要件に応じて増やしたり減らしたりすることが可能である。一実施例においては、小さなオフセット値(例えば、0.1に等しいオフセット値)が幾らかの残差を取り除くために、減算される。従って、幾つかの実施例においては、
Figure 0006002690
であり、“・”は乗算演算を表す。
異なる関数にとって必要とされる風のインジケータを達成するために、当該信号は、平滑化やスケーリングを使用してさらに処理される。一実施例においては、100msの減衰フィルターが使用される。
主として乗算演算である上述した合成処理は、何らかのAND演算子関数と等価な形態を採る。一実施例においては、各インジケータに基づいて、以下の式で表される形態において、多重検出処理が使用される。
Figure 0006002690
ここで、SlopeContributionInd、RatioContributionIndおよびCoherContributionIndは、SlopeContribution、RatioContributio、およびCoherContributionにそれぞれ基づいた風アクティビティのインジケータである。
具体的には、一実施例において、風の存在は、3つの特性の全てが、所定のレベルの風アクティビティを示した時だけ確認されることが可能である。例えば、所定の発話アクティビティの期間内においては、Slope特性が風アクティビティを登録する一方で、Ratio特性とCoherence特性は登録しない場合があるので、そのような実装は、「誤警報」の望ましい減少を達成する。
幾つかの実施例においては、風検出器から発しているWindLevel信号をフィルタリング処理するために、一のフィルターが使用される。風の本来的性質と検出方法の複数の側面に起因して、この値は素早く変化することが可能である。風の急な開始を捕捉するが、最初の検出以後の短期間内の風アクティビティの記憶を維持する何らかのヒステリシスを追加することによる特定のロバスト性を提供することによって、後処理の制御(および風の抑制)のために、より適切な信号を生成するために、当該フィルターは提供される。一実施例においては、これは、検出されたレベルにおけるピークが急速に通過するような低いアタック時定数、および100msのオーダーであるリリース時定数を有するフィルターを使用して達成される。一実施例においては、これは以下の式で表されるような簡単なフィルタリングを使用して達成されることが可能である。
Figure 0006002690
ここで、WindDecayは、1次の時定数を反映しており、その結果、WindLevelが長さTの時間間隔で計算されるならば、WindDecayは、exp(−T0.100)に従って変化する。その結果、時定数の値が100msとなる。
風検出器に関して上述した実施例とスケーリングを与えられた上で、風アクティビティの2値インジケータを生成するための適切な閾値は、感覚的には、0.2から1.5までの範囲内の値をとる。一実施例においては、風の単一の2値インジケータを生成するために、FilteredWindLevelに対して1.0の値が使用される。
<利得の適用>
再び図1に戻ると、システム100は抑制要素131を含み、抑制要素131は、バンド集約化され、ダウン・ミキシングされた信号108において、ノイズおよびロケーション外(out-of-location)信号に加え、幾つかの実施例では、エコーを同時に抑制するために、B個のバンド内において、(全体の、後処理がされた)利得を適用するためのものである。方法200を参照すると、処理ステップは、B個のバンド内において、(全体の、後処理がされた)利得を適用することにより、バンド集約化され、ダウン・ミキシングされた信号108において、ノイズおよびロケーション外(out-of-location)信号に加え、幾つかの実施例では、エコーを同時に抑制する動作を含んでいる。
ダウン・ミキシングされた(例えば、ビーム形成された)入力信号108のN個の周波数ビンをY,n=0,…,N−1と表記する。後処理の後に取得され、エコー抑制が独立に(追加的に)適用されることを含む実施例においては、追加のエコー抑制利得と合成されるB個の全体の利得を、G',b=1,…,Bと表記する。
一実施例においては、B個の利得G'は、G,n=0,…,N−1と表記されるN個の利得を作り出すために、内挿補間される。一実施例においては、
Figure 0006002690
となり、ここで、w’b,nは、重複している内挿補間ウィンドウを表現している。一実施例においては、内挿補間ウィンドウは、高められたコサインである。代替的な実施例においては、鋭い保存的なスプライン関数またはバンドが制限された内挿補間関数が使用され、一実施例においては、全てのnの値について、
Figure 0006002690
である。
内挿補間された利得値Gは、ダウン・ミキシングされた(例えば、ビーム形成された)信号108のN個の周波数ビンに対して適用され、その結果、Out,n=0,…,N−1と表記されるN個の出力信号ビンが形成される。また、Out=G・Y,n=0,…,N−1となる。
これは、図3Cに示した処理プロセスであり、構成要素131および処理ステップ227によって実行される。
<出力結果の生成>
処理ステップ229における出力結果の合成プロセスは、当該出力結果が時間サンプルの形態をとる場合には、(例えば、出力の合成器/変換器133などによって)従来型の重複加算演算と逆変換のステップが実行される。
処理ステップ229における出力結果の再マッピング処理プロセスは、当該出力結果が周波数ドメイン上の形式である場合には、再マッピング動作が以降の処理ステップにおいて必要とされ、例えば、出力の再マッピング器133によって実行される。幾つかの実施例においては、時間ドメインのサンプルだけが出力され、他の実施例においては、再マッピングされた周波数ドメインの出力だけが生成され、他方、さらに別の実施例においては、時間ドメインの出力と再マッピングされた周波数ドメインの出力の両方が生成される。これについては、図3Dと図3Eを参照されたい。
<処理システムを含む処理装置>
図16は、(例えば、複数のマイクロフォン(図示なし)からの)複数のオーディオ入力101と(例えば、一つ以上の大音量スピーカー(図示なし)又はそのような大音量スピーカーへの信号供給からの)一つ以上の基準信号102を処理するための処理装置の一実施例1600の簡略化されたブロック図を示す。処理装置1600は、本発明に係る一つ以上の特徴に従って指定されるとおりに、一実施例においてはノイズとロケーション外(out-of-location)信号を抑制することにより、他の実施例においては、これらに加えて、エコーを抑制することにより修正されたオーディオ出力135を生成するものである。例えば、当該装置は、図1に示すシステムを実装することが可能であり、その代替実施例は、動作時において、図2に示す方法(本明細書中で説明されている任意の変形実施例を含む)を実行することが可能である。そのような装置は、例えば、Bluetoothヘッドセット等のようなヘッドフォン・セット内に含められることが可能である。オーディオ入力101、基準入力102、およびオーディオ出力135は、それぞれがサンプリングされたデータから成るMサンプル長のフレームの形態をとると仮定される。アナログ形式の入力の場合、アナログ対デジタル変換器および量子化器を含むデジタル化回路が存在し得る。オーディオの再生に関しては、逆量子化器とデジタル対アナログ変換器が存在し得る。例えば、ヘッドセット装置のような完全なオーディオ信号処理システム内に含まれている可能性がある上記のような構成要素や他の構成要素は省略されており、そのような構成要素をどのようにして含めるべきで有るかに関しては、当業者であれば自明であろう。図16に示す実施例は、動作時において、本明細書中で説明された抑制方法を実行するように構成されている処理システム1603を含んでいる。処理システム1603は、少なくとも一つのプロセッサを含み、それは、デジタル信号処理装置における処理ユニットとすることが可能であり、または、より汎用目的の処理装置におけるCPUとすることも可能である。処理システム1603はさらに、典型的には一つ以上のメモリ要素を含んでいる記憶サブシステム1607を含んでいる。当該処理システム内の複数の構成要素は、図16には示されないが、例えば、バス・システムや他の何らかの相互接続機構によって互いに接続される。処理システム1603の幾つかの構成要素は、当業者にとって周知である技法を使用して、単一の回路内に統合されることが可能である。
記憶サブシステム1607は、プロセッサ1605によって実行された際に、本明細書で説明される方法をプロセッサ1605に実行させる命令コード1611を含んでいる。
幾つかの実施例においては、記憶サブシステム1607は、処理システム1603によって実行される複数の処理ステップの一部を変更するために使用することが可能な一つ以上の調整パラメータを格納するように構成される。
図16に示すシステムは、(例えば、無線Bluetoothヘッドセット等の)ヘッドセットのような特殊化された装置内に組み込まれることが可能である。
従って、抑制システムの実施例と抑制方法の実施例を提示された。発明者は、一切の知覚的な歪み無しに対象となる信号の目立つ部分を取り除くことが可能であることを提唱している。発明者は、人間の脳は、(特に音声に関して)誤り訂正に熟達しており、その結果、不必要または不可避的なスペクトル抑制の形態をとる多くの些細な歪みは、依然として知覚的に心地よい結果をもたらすことを提唱している。音声が充分に明瞭であるならば、高いレベルの神経学的聴覚過程は、完全な音声オーディオ・ストリームの知覚に対してマッピングし戻す可能性があることが疑われる。その結果、発明者は、音声と音響学的信号は、典型的なガウス・モデルよりも時間と周波数において遥かに分離されており、出力が人間による知覚のためであるならば、言わば、無線復調器よりも抑制的な歪みを遥かに多く許容することが出来、従って、本明細書中において説明されてきたアルゴリズムのクラスは、あまり研究されていない。従って、本発明に係る実施例は、何らかの数値的なスケールによって測定された場合に、顕著な抑制歪みをもたらす可能性があるが、知覚的には心地よい結果をもたらす。当然ながら、本発明は、本明細書中で説明された方法が何故旨く機能するかについて説明していると推測される任意の理論やモデルの正しさには全く依存していない。むしろ、本発明の技術的範囲は、本明細書に添付した請求項の記載およびそれらの法律上の均等物によって制限される。
そうではないと特に断らない限り、以下の説明から自明なことではあるが、本明細書中の検討内容全般に渡って、例えば、「処理動作」、「計算動作」または「判定動作」等の用語を使用することは、コンピュータ、計算システム又は同様の電子的計算装置による動作や処理を指して言っていることが理解されるだろうし、これらの装置は、物理的な(例えば、電気的な)量として表現されたデータを操作し、さらに物理量として同様に表現される他のデータに変換するものである。
同様の方法により、用語「プロセッサ」は、(例えば、レジスタやメモリからの)電子データを処理し、当該電子データを、例えば、レジスタやメモリに格納されることが可能な他の電子データに変換する任意の装置又は装置の一部を指して言うことが可能である。コンピュータ、計算機、またはコンピュータ・プラットフォームは、一つ以上のプロセッサを含む。
幾つかの構成要素(例えば、幾つかの構成ステップ)を含んでいる方法が説明されている場合には、特に断らない限り、そのような構成要素(例えば、構成ステップ)同士の間には順序関係は全くないと解釈されるべきである。
幾つかの数式は対数関数を含んでいることにも留意されたい。基数が10である対数関数が使用されたが、当該技術分野における当業者であれば、これは限定的な意味に解釈すべきではなく、任意の基数を使用することが可能であることが理解できるだろう。さらに、当該技術分野における当業者であれば、幾つかの数学的表現の中において等号(“=”イコール記号)が用いられてきたが、現実の実装においては、定数比例関係を導入することが可能であり、さらに言うならば、当該数学的表現の中のアイデアは、挙動に対して単調に変化する何らかの関数が適用される場合であっても、依然として妥当することが理解できよう。
幾つかの実施例においては、本明細書中で説明された方法は、一つ以上のコンピュータ可読媒体の上に符号化されたロジック(例えば、命令コード)を受け付ける一つ以上のプロセッサによって実行可能である。一つ以上のプロセッサにより実行される際に、当該命令コードは、本明細書中で説明された方法の少なくとも一つをプロセッサに実行させる。実行すべき動作を指定する(逐次的なまたはそうではない)命令コードのセットを実行可能な任意のプロセッサが含まれている。従って、一つの例は、一つ以上のプロセッサを含んでいる典型的な処理システムである。各プロセッサは、一つ以上のCPUまたは同様の構成要素、グラフィック処理ユニット(GPU)、フィールド・プログラマブル・ゲートウェイ・アレイ、特定用途向け集積回路、および/またはプログラマミング可能なDSPユニット等を含むことが可能である。当該処理システムはさらに、少なくとも一つの記憶媒体を伴う記憶サブシステムを含み、当該記憶媒体は、半導体デバイスの中に埋め込まれたメモリ、主記憶RAM、スタティックRAM、ROM、さらにはキャッシュ・メモリを含む別々のメモリ・サブシステムを含むことが可能である。当該記憶サブシステムはさらに、磁気的または光学的な記憶装置、更には半導体記憶装置などの他の一つ以上の記憶装置を含むことが可能である。構成要素同士の間の通信のために、バス・サブシステムが含まれることが可能である。当該処理システムはさらに、複数のプロセッサがネットワークを介して(例えば、ネットワーク・インターフェース・デバイスや無線ネットワーク・インターフェース・デバイスを介して)結合されている分散処理システムとすることが可能である。当該処理システムがディスプレイを必要とするならば、そのようなディスプレイは、例えば、LCD(液晶ディスプレイ)、OLED(有機ELディスプレイ)、CRT(陰極線管)ディスプレイなどを含むことが可能である。手動でのデータ入力操作が必要とされるならば、当該処理システムは、キーボード等の一つ以上の英数字入力ユニットやマウス等のポインティング・コントロール・デバイス等である入力デバイスをさらに含む。文脈から明らかであり、そうではないと明確に断らない限り、本明細書中で使われている記憶装置、記憶サブシステム、メモリ・ユニットなどの用語は、ディスク・ドライブ・ユニット等のようなストレージ・システムをも包含する。幾つかの構成における当該処理システムは、音響出力デバイスやネットワーク・インターフェース・デバイスを含むことが可能である。
幾つかの実施例においては、コンピュータ読み出し可能記憶媒体には、デジタル信号処理装置、または少なくとも一つのプロセッサ要素と記憶サブシステムを含んでいるサブシステムなどである処理システムの一つ以上のプロセッサにより実行された際に、本明細書中で説明された方法を当該プロセッサに実行させる命令コード(例えば、ロジック)が符号化されている。幾つかの実施例は、ロジックそれ自身の形態をとっている。コンピュータ読み出し可能記憶媒体は、本発明に対して適用される特許法の下で発明としての法上の保護対象となる任意のコンピュータ可読媒体である。コンピュータ読み出し可能記憶媒体は、例えば、具体的には、遷移的に伝搬する信号、遷移的な搬送波、または他の何らかの伝送媒体ではないコンピュータ可読媒体である。従って、コンピュータ読み出し可能記憶媒体は、あらゆる有形のコンピュータ可読記憶媒体をカバーする。従って、上述したような典型的な処理システムにおいては、記憶サブシステムは、一つ以上のプロセッサによって実行された際に、本明細書中で説明された方法の一つ以上の処理ステップをプロセッサに実行させる命令コード(例えば、ロジックやソフトウェア)によって符号化されたコンピュータ可読記憶媒体を含む。ソフトウェアは、その全体がハード・ディスク上に常駐することが可能であり、又は少なくとも一部が、メモリ(例えば、RAM)内に常駐することも可能であり、又は当該ソフトウェアがコンピュータ・システムによって実行中の間は、プロセッサのレジスタ内に常駐することが可能である。従って、メモリとプロセッサのレジスタもまた、コンピュータ読み出し可能記憶媒体を構成することが可能であり、その上では、実行された際に本発明に係る方法の処理ステップをプロセッサに実行させる命令コードを符号化することが可能である。コンピュータ読み出し可能記憶媒体は、数多くの形態をとることが可能なあらゆる有形のコンピュータ可読記憶媒体を含み、これには、不揮発性記憶媒体や揮発性記憶媒体が含まれる。例えば、不揮発性記憶媒体には、スタティックRAM,光学ディスク、磁気ディスク、および光磁気ディスクなどが含まれる。揮発性記憶媒体には、(例えば、処理システム内の主記憶である)ダイナミック・メモリや処理システム内のハードウェア・レジスタが含まれる。
コンピュータ可読媒体は、一つの例示的実施例においては、単一の媒体として示されているが、用語「媒体」は、命令コードから成る一つ以上のセットを格納するための単一の又は複数の媒体を含むように解釈されるべきである(例えば、幾つかのメモリ、集中化された又は分散化されたデータベース、および/またはこれと関係付けられたキャッシュとサーバなど)。
さらに、非伝播的なコンピュータ可読媒体(例えば、コンピュータ可読記憶媒体)は、コンピュータ・プログラム製品を形成することが可能であり、又はコンピュータ・プログラム製品に含められることが可能である。
代替的な実施例においては、一つ以上のプロセッサは、スタンドアローン型のデバイスとして動作し、または、ネットワーク化されたシステム展開において、他のプロセッサと接続され(例えば、ネットワーク化され)、あるいは、一つ以上のプロセッサは、クライアント/サーバ型ネットワーク環境において、サーバ・マシンまたはクライアント・マシンの処理容量の中で動作することも可能であり、または、ピア・ツー・ピア型や分散ネットワーク型の環境内におけるピア・マシンとして動作することも可能である。用語「処理システム」は、本明細書中で明示的に除外しない限り、上述したような可能性の全てを包含する。一つ以上のプロセッサは、PC(パーソナル・コンピュータ)、メディ再生デバイス、ヘッドセット・デバイス、ハンズフリー通信デバイス、タブレット型PC、STB(セットトップ・ボックス)、PDA(パーソナル・デジタル・アシスタント)、ゲーム機器、セルラー電話、Webアプライアンス、ネットワーク・ルータ機器、スイッチやブリッジ、または上述した機器類によって実行されるべき動作を指定する(逐次的な又はそれ以外の)命令コードのセットを実行する機能を有する任意の機械を計背ウすることが可能である。
幾つかのブロック図は、単一のプロセッサと命令コードを含むロジックを格納している単一の記憶サブシステム(例えば、単一のメモリ)だけを図示している一方で、上述した構成要素の多くのものは、含まれてはいるけれども、本発明の本質を曖昧にしないようにするために、明示的には図示および説明されていない。例えば、単一のマシンだけが図示されているけれども、用語「マシン」は、個別的に、又は協働的に命令コードのセット(又は複数のセット)を実行して、本命際書中で検討した方法の任意の一つ以上を実施するマシンの集合体を含むように解釈することも可能である。
従って、当該技術分野における当業者であれば理解できるように、本発明に係る複数の実施例は、方法として、専用目的装置のような装置として、またはデータ処理システムのような装置として、または(例えば、コンピュータ可読記憶媒体の中に具現化された)ロジック、命令コードによって符号化されたコンピュータ可読記憶媒体(例えば、コンピュータ・プログラム製品によって構成されたコンピュータ可読記憶媒体)等として具現化されることが可能である。コンピュータ可読媒体は、一つ以上のプロセッサにより実行された際に、本発明にかかる方法ステップをプロセッサに実行させる命令コードのセットによって構成されている。従って、本発明の複数の側面は、方法の形態、全体としてハードウェア実施例の形態、全体としてソフトウェア実施例の形態を、またはソフトウェアとハードウェアとが組み合わさった実施例の形態をとることが可能である。さらには、本発明は、コンピュータ可読記憶媒体の上のプログラム・ロジック(例えば、コンピュータ・プログラム)またはコンピュータ読み出し可能なプログラム・コード(例えば、コンピュータ・プログラム製品)によって構成されたコンピュータ可読記憶媒体の形態をとることが可能である。
さらに、本発明に係る実施例が何らかの特定の実装方法やプログラミング技法に限定されておらず、本明細書中で説明されている機能を実装するための任意の適切な技法を使用して実装可能であることが理解されよう。さらに、本発明に係る実施例は、何らかの特定のプログラミング言語やオペレーティング・システムにも限定されない。
さらに、本発明に係る実施例が何らかの特定の実装方法やプログラミング技法に限定されておらず、本明細書中で説明されている機能を実装するための任意の適切な技法を使用して実装可能であることが理解されよう。さらに、本発明に係る実施例は、何らかの特定のプログラミング言語やオペレーティング・システムにも限定されない。
「一実施例」、「実施例」、「幾つかの実施例」または「実施例」に対する本明細書の全体にわたる参照は、実施例に関連して記載されている特定の特徴、構造または特性が本発明の少なくとも一つの実施例に含まれることを意味する。このように、この明細書の全体にわたって、様々な場所において出現している「実施例において」、または、「実施例において」との記載は、同じ実施例に必ずしも関連しているというわけではない。さらにまた、特定の特徴、構造または特性はいかなる適切な方法にも組み込まれることができる。そして、一つ以上の実施例で、そのことはこの開示から当業者にとって明らかである。
同様に、本発明についての例示の実施例の上記説明で、様々な本発明の特徴が時々、様々な発明の態様の一つ以上を理解するのを助けるために、単一の実施例、図またはその説明において合成されることが理解されるべきである。しかしながら、開示のこの方法は、特許請求された本発明が各請求項においてはっきりと詳述されるより多くの特徴を必要とする意図を表すことと解釈されないことになっている。むしろ、以下の請求項が反映するように、発明の態様が単一の前述の開示された実施例の全ての特徴より少なく中で基底されている。このように、本発明の別々の実施例として単独で成立している各請求項については、「発明を実施するための形態」欄の後の請求項は、この「発明を実施するための形態」欄にここに明確に組み込まれる。
さらにまた、本明細書において記載されている幾つかの実施例が他の実施例に含まれる他の特徴とは異なるいくつかを含むと共に、異なる実施例の特徴の組合せは本発明の範囲内で、異なる実施例(当業者によって理解される)を形成するはずである。例えば、以下の請求項で、特許請求された実施例のいずれかが、いかなる組合せでも使われることができる。
さらにまた、実施例のいくつかは、コンピュータ・システムのプロセッサによって、または、機能を実行する他の手段によって実行可能な方法による方法の一部の組合せとして本明細書中において実装される。このように、方法または方法の構成要素を実行するための必要な命令コードを有するプロセッサは、方法または方法の構成要素を実行するための手段を形成する。さらにまた、装置に係る実施例の中で本明細書において記載されている構成要素は、本発明を実施するために当該構成要素によって実行される機能を実行するための手段の実施例である。
ここに提供されている説明において、多数の具体的な詳細が記載されてきた。しかしながら、本発明の実施例がこれらの具体的な詳細なしで実施されることができるものと理解される。他の例において、周知の方法、構造および技術は、この説明の理解を不明瞭にしないために、詳細に示されなかった。
本明細書中で使用しているように、「最初に」、「第2」、「第3」、その他などの共通の対象を記述するための序数形容詞は、単に同様の対象の異なるインスタンスを指して言っていることを示しており、そのように記述された対象が、所与のシーケンスに従って、または時間的に、空間的に、ランキングにおいて、または、他の任意の方法で、順序付けされていなければならないことを意味することを意図しない。
用語「電力」が使われる一方で、この開示のいくつかの場所にて説明したように、本発明が電力(すなわち、周波数係数振幅の二乗の加重和)の使用に限られていなくて、任意の振幅メトリックに適応するために変更されることができる点に留意されたい。
先行技術文献の参照による編入を認めない行政地域を除いて、本明細書において列挙された米国を指定国とするすべての米国特許、米国特許出願および国際(PCT)特許出願は、本細書中で引用されたものとし、ここで、出願人は、新規事項と考えられる事項の追加を除き、手続補正により、本明細書中にそのような全ての背景技術に関する記載の任煮の部分を挿入する権利を予約する。特許規則または特許法が、それ自身が参照によって情報を組み込んでいる先行技術を参照によって編入することを許可しない場合には、本明細書において技術的事項の参照による編入においては、当該参照によって組み込まれる先行技術内においてさらに参照によって組み込まれている情報は、本明細書中に実質的な意味で参照編入される結果とならない限り、そのような情報は、本明細書中から除外される。
この明細書の従来技術に関するいかなる議論も、この種の従来技術が広くわかっているか、公的にわかっているか、または、分野の一般知識の一部を形成するという承認と決して考えられてはならない。
下記の請求項および本明細書における説明において、用語「備える」は、それ以下に続くものを含むがそれ以外のものを除外しない開いた用語である。このように、請求項中において使われるときに、用語「備える」は、それに続けて列挙される手段、構成要素、またはステップだけに制限されるような意味であることと解釈されてはならない。例えば、表現「element_Aおよびelement_Bを備えるデバイス」は「element_Aおよびelement_Bだけから成るデバイス」との意味に限定解釈すべきではない。本明細書中で使用されている用語「含む」は、それ以下に続くものを含むがそれ以外のものを除外しない開いた用語である。従って、用語「備える」と用語「含む」は同義語である。
同様に、請求項中において使われるときに、被結合用語が直接接続だけに制限的であることと解釈されてはならないことに留意されたい。「連結されて」、「接続される」などの用語が、それらの派生語に加えて、使われることができる。これらの用語は、互いに同義語であること意図していないことを理解すべきである。このように、表現「デバイスBに連結するデバイスA」の意味する範囲は、デバイスAの入力または出力がデバイスBの出力または入力に直結であるデバイスまたはシステムに限られていてはならない。それは、間に他のデバイスまたは手段を含むパスでもよいデバイスAとデバイスB間のパスが存在することを意味する。さらにまた、結合する特定の方向を意味しない。これ故、ある表現「デバイスAは、デバイスBに連結する」は、表現「デバイスBは、デバイスAに連結する」と同義でもよい。用語「結合」は、2つ以上の素子が物理的または電気的に直接接続されている、または、2つ以上の素子が互いに直接接触していないが、少なくとも互いに協働するか又は互いに相互作用することを意味することができる。
加えて、冠詞「a」または「an」の使用は、本明細書中における実施例の素子およびコンポーネントを記載するために用いる。これは、単に便宜的にだけ用いられ、そして、本発明の一般的な意味を与える。この説明は1つまたは少なくとも1を含むと読まれなければならなず、そうではないことを意味することが明らかでない限り、単数も複数も含む。
このように、本発明の好ましい実施例であると考えられていることが記載されると共に、当業者は、他のおよび更なる修正が本発明の精神を逸脱しない範囲でそれになされることができることを認識するであろう、そして、それはこの種の全ての改変と変更態様が、本発明の範囲内であるとして特許請求することを目的とする。例えば、上で与えられるいかなる公式も、単に用いられることができる手順を代表するだけである。機能性は追加されることができるかまたはブロック図から削除されることができる、そして、動作は機能ブロックの中で交換されることができる。
ステップは、本発明の範囲内で記載されている方法に追加されることができるかまたは削除されることができる。

Claims (66)

  1. オーディ入力信号を処理するシステムであって:
    複数のサンプリングされた入力信号を受け取り、サンプリングされた入力信号をダウン・ミキシングしてサンプリング・ドメインにおけるダウン・ミキシングされた信号を形成し、またはサンプリングされた入力信号を変換して変換されたサンプリングされた入力信号をダウン・ミキシングして周波数ドメインにおけるダウン・ミキシングされた信号を形成し、複数の周波数バンドに関して、前記複数の入力信号についての、ダウン・ミキシングされバンド集約された周波数ドメインの瞬間的な振幅メトリックを形成する、前記複数の周波数バンドのうちの少なくとも90%は2つ以上の周波数ビンが寄与している、入力プロセッサ;
    複数のサンプリングされた入力信号からバンド集約化された空間特性を推定するバンド集約化空間特性推定器;
    2つ以上のバンド集約化された空間特性を使用して決定された、バンド集約化されたロケーション外信号の確率インジケータと、各周波数バンド毎のノイズ抑制利得として表現可能であり、前記入力信号についての前記ダウン・ミキシングされバンド集約化された瞬間的な周波数ドメイン振幅メトリックに基づいて、バンド集約化されたノイズ・スペクトルの推定結果を使用して決定されるバンド集約化されたノイズ抑制確率インジケータとを含んでいるバンド集約化された抑制確率インジケータのセットを算出する利得算出器であって、前記確率インジケータのセットを合成して、前記複数の周波数バンドのバンド毎合成された利得を算出する、利得算出器;および、
    前記複数の周波数バンドについての前記合成された利得によって決定される補間された最終的な利得を適用して、ダウン・ミキシングされた信号抑制処理を実行し、抑制された信号データを形成する抑制器;
    を具備するシステム。
  2. 前記ノイズ・スペクトルの推定結果は、ノイズ・スペクトルの空間選択的な推定結果であることを特徴とする、請求項1記載のシステム。
  3. 前記空間特性は、前記サンプリングされた入力信号についての一つ以上のバンド集約化され、重み付けられた共分散行列から決定される、請求項1または請求項2に記載のシステム。
  4. 前記一つ以上の共分散行列は、時間の経過に沿って平滑化される、請求項3記載のシステム。
  5. 一つ以上の基準信号を受け取り、一つ以上の基準信号についてバンド集約された周波数ドメインの振幅メトリックの表現を形成する基準信号入力プロセッサ;
    一つ以上の基準信号についてバンド集約された周波数ドメインの振幅メトリックの表現に基づき、エコーについてのバンド集約された周波数ドメインの振幅メトリック表現を予測する予測器であって、前記予測器は適応的に決定された係数を使用し、抑制処理のためダウン・ミキシングされた信号に適用される最終的な利得は、エコー抑制を含む少なくとも一つのバンド集約化された抑制確率インジケータを含み、前記少なくとも一つのバンド集約化された抑制確率インジケータは、前記予測器の出力から決定されたバンド集約化されたエコー・スペクトルの推定結果を使用して決定される、
    請求項1乃至請求項4の中のいずれか一項に記載のシステム。
  6. 係数の更新器をさらに具備し、
    前記係数の更新器は、ノイズについてのバンド集約されたスペクトル周波数ドメイン振幅メトリックの推定結果、以前に予測されたエコー・スペクトル、およびダウン・ミキシングされた信号のバンド集約化されたスペクトル振幅メトリックの推定結果を使用して、適応的に決定される係数を更新する、請求項5記載のシステム。
  7. 前記係数の更新器に結合される出力を有する音声アクティビティ検出器をさらに具備し、
    前記音声アクティビティ検出器は、ダウン・ミキシングされた信号についてのバンド集約されたスペクトル振幅メトリックの推定結果、ノイズについてのバンド集約されたスペクトル振幅メトリックの推定結果、および以前に予測されたエコー・スペクトルを使用し、
    前記係数の更新器による前記更新する動作は、前記音声アクティビティ検出器の前記出力に依存している、請求項6記載のシステム。
  8. 前記エコー・スペクトルの推定結果を決定するために、前記予測器の前記出力は時間平滑化されることを特徴とする、請求項5乃至請求項7の中のいずれか一項に記載のシステム。
  9. 前記係数の更新器によって使用されるノイズについてのバンド集約されたスペクトル周波数ドメイン振幅メトリックの推定結果は、少なくとも一つの最小ホロワー・リーク率パラメータによって定義される追従レートに従って動作するリーキー最小ホロワーによって決定されることを特徴とする、請求項5乃至請求項の中のいずれか一項に記載のシステム。
  10. 前記入力プロセッサは、周波数ビンへと変換する入力変換器、サンプリング・ドメインまたは周波数ビン・ドメインにおいてダウン・ミキシングされた信号を形成するダウン・ミキサーおよび前記周波数バンドについての前記ダウン・ミキシングされバンド集約化された瞬間的な周波数ドメイン振幅メトリックを形成するスペクトル・バンド集約化要素を含む、請求項1乃至請求項の中のいずれか一項に記載のシステム。
  11. 前記入力プロセッサにおいて、前記ダウン・ミキシングされた信号を形成することは、複数の入力信号を複数の周波数ビンに変換する変換処理に先立って実行される、請求項1乃至請求項の中のいずれか一項に記載のシステム。
  12. 前記利得算出器は、バンド毎に、追加のエコー抑制利得をさらに算出し、利得算出器におけるバンド毎の合成利得は、前記追加のエコー抑制利得を含む、請求項1乃至請求項11の中のいずれか一項に記載のシステム。
  13. 前記利得算出器は、前記バンドについて前記合成された利得に対して後処理をさらに実行し、バンド毎に後処理がされた利得を生成し、前記バンドについての前記後処理がされた利得から補間された最終的な利得を決定、後処理は、後処理された利得が最小限の利得を保証する処理、後処理された利得に異常な値または孤立した利得が存在しないことを保証する処理、後処理された利得の平滑性を保証する処理のうちの少なくとも一つを含む、請求項1乃至請求項12の中のいずれか一項に記載のシステム。
  14. 利得算出器は追加のエコー抑制利得を合成利得に含める前に、前記バンドの合成利得を後処理し、後処理により各バンドについて後処理利得が生成され、
    前記後処理の後に、前記追加のエコー抑制利得が、前記バンドの前記後処理された結果と合成され、前記抑制器において適用される最終的な利得を生成する、請求項13記載のシステム。
  15. 前記利得算出器は、前記合成利得に含められた追加のエコー抑制利得を含む前記バンドの合成利得を後処理し、前記後処理はバンド毎の後処理された利得を生成し、前記抑制器において適用される最終的利得を生成する、請求項12に記載のシステム。
  16. 前記抑制器から抑制された信号データを受け取り、出力サンプルを生成する出力合成及び変換器をさらに具備する、または、
    前記抑制器から抑制された信号データを受け取り、出力周波数ビンを生成する出力再マッピング器をさらに具備する、
    請求項1乃至請求項15の中のいずれか一項に記載のシステム。
  17. オーディ入力信号を処理するシステムであって:
    複数のサンプリングされた入力信号を受け取り、複数の周波数バンドに関して、前記複数の入力信号についての、ダウン・ミキシングされ、バンド集約された周波数ドメインの瞬間的な振幅メトリックを形成する手段であって、前記形成する手段は、前記複数の入力信号の、又は複数の周波数ビンから成るセットに関するダウン・ミキシングされた信号の、複素数値を有する周波数ドメイン値に変換する手段を含み、前記複数の周波数バンドのうちの少なくとも90%は、2つ以上の周波数ビンが寄与している、手段;
    複数のサンプリングされた入力信号からバンド集約化された空間特性を決定する手段;
    2つ以上のバンド集約化された空間特性を使用して決定されたバンド集約化されたロケーション外信号の利得、および前記複数の入力信号についての前記ダウン・ミキシングされ、バンド集約化された瞬間的な周波数ドメイン振幅メトリックを使用して決定されたノイズ・スペクトルの空間選択的な推定結果を使用して決定されるバンド集約化されたノイズ抑制利得として表現可能なバンド集約化されたノイズ抑制確率インジケータを含んでいるバンド集約化された抑制利得として表現可能な複数のバンド集約化された抑制確率インジケータから成るセットを算出する手段;
    複数の抑制利得から成るセットを合成し、複数の周波数バンドのバンド毎合成された利得を決定する手段;
    前記複数の周波数バンドについての前記合成された利得から決定された補間された最終的な利得を適用し、前記ダウン・ミキシングされた信号抑制を実行し、抑制された信号データを形成する手段;および、
    抑制された信号データを形成する手段から受け取った抑制された信号データに、(a)出力サンプルを生成するための出力合成動作と変換動作、および(b)出力周波数ビンを生成するための抑制された信号データへの出力再マッピング動作のいずれか一方又は両方を適用する手段;
    を具備するシステム。
  18. 前記バンドについての前記合成された利得に対して後処理を実行し、各バンド毎に、後処理がされた利得を生成する手段をさらに具備し、
    後処理は、後処理された利得が最小限の利得を保証する処理、後処理された利得に異常な値または孤立した利得が存在しないことを保証する処理、後処理された利得の平滑性を保証する処理のうちの少なくとも一つを含み、
    前記補間された最終的な利得は、前記後処理がされた利得から決定される、請求項17記載のシステム。
  19. 前記後処理を実行する手段は、2つ以上の空間特性を使用して空間選択的な音声アクティビティ検出を実行し、信号の分類結果を生成する手段であって、前記後処理は、前記信号の分類結果に従って実行される、手段を含むことを特徴とする、請求項18に記載されたシステム。
  20. 一つ以上の基準信号を受け取り、一つ以上の基準信号についてバンド集約された周波数ドメインの振幅メトリックの表現を形成する手段;
    エコーのバンド集約化された周波数ドメイン振幅表現を予測する手段;
    をさらに具備し、前記予測する手段は、
    エコー・フィルター係数を適応的に決定する手段であって、前記ノイズについてのバンド集約化されたスペクトル振幅メトリックの推定結果を決定する手段と結合された手段と、
    前記ダウン・ミキシングされた信号についてのバンド集約化されたスペクトル振幅メトリックの推定結果を使用して、音声アクティビティ検出を実行する手段と、
    前記ダウン・ミキシングされた信号と前記ノイズについての前記バンド集約化されたスペクトル振幅メトリックの推定結果および以前に予測されたエコー・スペクトルに基づいて、フィルター係数を更新する手段と、
    を含み、
    前記更新する手段による前記更新する動作は、前記音声アクティビティ検出を実行する手段の出力に従って、発生する、
    請求項1乃至請求項19の中のいずれか一項に記載されたシステム。
  21. 前記算出する手段は、追加のエコー抑制利得を算出する手段、及び後処理の結果を合成して、後処理がされた利得を生成する手段を含む、
    請求項1乃至請求項20の中のいずれか一項に記載されたシステム。
  22. 各周波数バンド毎の前記ノイズ抑制確率インジケータは、前記バンドに関する前記バンド集約化された瞬時値の振幅メトリックについてのノイズ抑制利得関数として表現可能であり、
    各周波数バンド毎に、バンド集約化された瞬時値の振幅メトリックの第1の数値範囲がノイズについて予測され、バンド集約化された瞬時値の振幅メトリックの第2の数値範囲が所望の入力について予測され、
    前記周波数バンドについての前記ノイズ抑制利得関数は、それぞれの最小値を有し、前記第1の数値範囲内において比較的一定である値または比較的小さな負の勾配を有し、前記第2の数値範囲内において比較的一定である利得を有し、前記第1の数値範囲から前記第2の数値範囲への滑らかな遷移を有するように構成される、
    請求項1乃至請求項21の中のいずれか一項に記載されたシステム。
  23. 前記周波数バンドについての前記ノイズ抑制利得関数は、滑らかな導関数を有するようにさらに構成されることを特徴とする、請求項22記載のシステム。
  24. 前記周波数バンドについてのノイズ抑制利得関数は、それぞれS字状関数又はその計算的な簡略化である、請求項22または請求項23に記載されたシステム。
  25. 前記周波数バンドについてのノイズ抑制利得関数は、前記第1の数値範囲内において、負の勾配を有する、請求項22または請求項23に記載されたシステム。
  26. 前記瞬時値の振幅メトリックはパワーであり、前記周波数バンドについてのノイズ抑制利得関数は、前記数値範囲内において、負の勾配を有し、当該勾配の平均は、入力パワーdBあたり−0.3dB乃至−0.7dB利得に等しいことを特徴とする、請求項22または請求項23に記載されたシステム。
  27. 前記周波数バンドについてのノイズ抑制利得関数は、それぞれS字状関数の合計として表現可能である修正されたS字状関数またはその計算的な簡略化に前記数値範囲内において負の勾配を提供するための追加の項が付加されたものであることを特徴とする、請求項25または請求項26に記載されたシステム。
  28. 前記ノイズ抑制確率インジケータを決定するために使用される前記ノイズ・スペクトルの推定結果は、2つ以上の前記空間特性を使用して決定されるノイズ・スペクトルの空間選択的な推定結果であることを特徴とする、請求項1乃至請求項27の中のいずれか一項に記載されたシステム。
  29. 前記ノイズ・スペクトルの空間選択的な推定結果は、リーキー最小ホロワーを使用して決定されることを特徴とする、請求項28に記載されたシステム。
  30. 前記周波数ドメイン振幅メトリックは、周波数ドメインパワーであることを特徴とする、請求項1乃至請求項29の中のいずれか一項に記載されたシステム。
  31. バンド間の周波数間隔が単調減少せず、前記バンド集約化が実行されることを特徴とする、請求項1乃至請求項30の中のいずれか一項に記載されたシステム。
  32. 前記バンド間の周波数間隔は、対数スケール状であることを特徴とする、請求項31に記載されたシステム。
  33. オーディオ入力信号内におけるノイズとロケーション外信号を含む望ましくない信号を抑制する処理装置を作動させる方法であって:
    前記処理装置において、複数のサンプリングされた入力信号を受け取るステップ;
    複数の周波数バンドに関して、前記複数の入力信号についての、ダウン・ミキシングされ、バンド集約された瞬間的な周波数ドメイン振幅メトリックを形成するステップであって、形成するステップは、前記複数の入力信号または複数の周波数ビンから成るセットに関するダウン・ミキシングされた信号を、複素数値を有する周波数ドメイン値へと変換する動作を含み、前記複数の周波数バンドの中の少なくとも90%は2つ以上の周波数ビンが寄与している、ステップ;
    複数のサンプリングされた入力信号からバンド集約化された空間特性を決定するステップ;
    2つ以上のバンド集約化された空間特性を使用して決定されたバンド集約化されたロケーション外信号の抑制確率インジケータ、および各周波数バンド毎にノイズ抑制利得として表現可能であり、前記ダウン・ミキシングされた信号についての前記ダウン・ミキシングされ、バンド集約化された瞬間的な周波数ドメイン振幅メトリックに基づいて決定された、バンド集約化されたノイズ・スペクトルの推定結果を使用して決定されるバンド集約化されたノイズ抑制確率インジケータを含んでいる複数のバンド集約化された抑制確率インジケータから成るセットを算出するステップ;
    複数のバンド集約化された抑制確率インジケータから成るセットを合成し、前記複数の周波数バンドの各バンド毎に合成された利得を決定するステップ;および、
    前記複数の周波数バンドについての前記合成された利得から決定された補間された最終的な利得を適用し、前記ダウン・ミキシングされた信号抑制を実行し、抑制された信号データを形成するステップ;
    を具備する方法。
  34. 前記ノイズ・スペクトルの推定結果は、ノイズ・スペクトルの空間選択的な推定結果である、請求項33記載の方法。
  35. 前記空間特性は、前記サンプリングされた入力信号についての一つ以上のバンド集約化され、重み付けられた共分散行列から決定される、請求項33乃至請求項34の中のいずれか一項に記載された方法。
  36. 前記一つ以上の共分散行列は、時間の経過に沿って平滑化されることを特徴とする、請求項35記載の方法。
  37. 前記ダウン・ミキシングされ、バンド集約された周波数ドメインの瞬間的な振幅メトリックを形成するステップは、前記受け取った入力信号又はそれを合成した信号を周波数ビンに変換し、サンプリング・ドメイン又は周波数ドメイン内においてダウン・ミキシング処理を実行してダウン・ミキシングされた信号を形成し、スペクトル・バンド集約化を実行した周波数バンドを形成することを含む、請求項33乃至請求項36の中のいずれか一項に記載された方法。
  38. 前記ダウン・ミキシング処理は、前記変換に先立って実行される、請求項37に記載された方法。
  39. 各バンドの追加的エコー抑制利得を計算するステップと、各バンドの合成されたゲインが追加的エコー抑制利得を含むように一以上の他の抑制利得を合成するステップとをさらに有する、請求項33ないし38いずれか一項に記載の方法。
  40. 前記バンドの第1の合成された利得に対して後処理を実行し、バンド毎に後処理がされた利得を生成するステップをさらに有し、前記バンドについての前記後処理がされた利得から、補間された最終的な利得が決定され、前記最終的な利得は前記抑制のダウン・ミキシングされた信号に適用され、後処理は、前記第1の合成された利得の分散が所望の範囲内にあることを保証する処理である、請求項33乃至請求項39いずれか一項に記載された方法。
  41. 前記後処理は、前記入力信号の分類結果に従って実行される、請求項40に記載された方法。
  42. 各周波数バンド毎の前記ノイズ抑制確率インジケータは、前記バンドに関する前記バンド集約化された瞬時値の振幅メトリックについてのノイズ抑制利得関数として表現可能であり、
    各周波数バンド毎に、バンド集約化された瞬時値の振幅メトリックの第1の数値範囲がノイズについて予測され、バンド集約化された瞬時値の振幅メトリックの第2の数値範囲が所望の入力について予測され、
    前記周波数バンドについての前記ノイズ抑制利得関数は、それぞれの最小値を有し、前記第1の数値範囲内において比較的一定である値または比較的小さな負の勾配を有し、前記第2の数値範囲内において比較的一定である利得を有し、前記第1の数値範囲から前記第2の数値範囲への滑らかな遷移を有するように構成される、
    請求項33乃至請求項41いずれか一項に記載された方法。
  43. 望ましくない信号を抑制する処理装置を作動させる方法であって、前記望ましくない信号にはノイズが含まれ、
    前記処理装置において、少なくとも一つのサンプリングされた入力信号を受け取るステップ;
    複数の周波数バンドに関して、前記少なくとも一つの入力信号についての、バンド集約された瞬間的な周波数ドメイン振幅メトリックを形成するステップであって、前記少なくとも一つの入力信号または複数の周波数ビンから成るセットに関するダウン・ミキシングされた信号を、複素数値を有する周波数ドメイン値へ変換する動作を含み、前記複数の周波数バンドの中の少なくとも90%は、2つ以上の周波数ビンが寄与している、ステップ;
    一つ以上の抑制確率インジケータから成るセットを算出するステップであって、前記一つ以上の抑制確率インジケータからなるセットは、周波数バンド毎にノイズ抑制利得として表現可能であり、前記少なくとも一つの入力信号についてのバンド集約化された瞬間的な周波数ドメイン振幅メトリックに基づいて、ノイズ・スペクトルの推定結果を使用して決定されるノイズ抑制確率インジケータを含む、ステップ;
    複数の抑制確率インジケータから成るセットを合成して、各バンド毎にバンド集約化された合成された利得を決定するステップ;および、
    抑制された信号データを形成する手段から受け取った抑制された信号データに、前記合成された利得から決定された補間された最終的な利得を適用し、前記少なくとも一つの入力信号またはダウン・ミキシングされた信号の周波数ドメイン値抑制を実行し、抑制された信号データを形成するステップ;を具備し、
    各周波数バンド毎の前記抑制確率インジケータは、前記バンドに関する前記バンド集約化された瞬時値の振幅メトリックについてのノイズ抑制利得関数として表現可能であり、
    各周波数バンド毎に、バンド集約化された瞬時値の振幅メトリックの第1の数値範囲がノイズについて予測され、バンド集約化された瞬時値の振幅メトリックの第2の数値範囲が所望の入力について予測され、
    前記周波数バンドについての前記ノイズ抑制利得関数は、それぞれの最小値を有し、前記第1の数値範囲内において比較的一定である値または比較的小さな負の勾配を有し、前記第2の数値範囲内において比較的一定である利得を有し、前記第1の数値範囲から前記第2の数値範囲への滑らかな遷移を有するように構成される、方法。
  44. 前記周波数バンドについての前記ノイズ抑制利得関数は、滑らかな1次導関数を有するようにさらに構成されることを特徴とする、請求項42または43に記載の方法。
  45. 前記周波数バンドについてのノイズ抑制利得関数は、それぞれS字状関数又はその計算的な簡略化であることを特徴とする、請求項42乃至請求項44いずれか一項に記載の方法。
  46. 前記周波数バンドについてのノイズ抑制利得関数は、前記第1の数値範囲内において、負の勾配を有することを特徴とする、請求項42乃至請求項44いずれか一項に記載の方法。
  47. 前記瞬時値の振幅メトリックはパワーであり、前記周波数バンドについてのノイズ抑制利得関数は、前記第1の数値範囲内において、負の勾配を有し、当該勾配の平均は、入力パワーdBあたり−0.3dB乃至−0.7dB利得に等しいことを特徴とする、請求項42乃至請求項45いずれか一項に記載の方法。
  48. 前記周波数バンドについてのノイズ抑制利得関数は、それぞれS字状関数またはその計算的な簡略化と、前記第1の数値範囲内において負の勾配を提供する追加の項との和である修正S字状関数であることを特徴とする、請求項46または請求項47に記載された方法。
  49. 前記処理装置において、前記受け取るステップは、複数のサンプリングされた入力信号を受け取ることを含み、
    前記受け取った入力信号についてのバンド集約された周波数ドメインの瞬間的な振幅メトリックを形成するためのステップは、複数の周波数バンドにわたって、前記入力信号についての、ダウン・ミキシングされ、バンド集約化された周波数ドメインの瞬間的な振幅メトリックを形成する動作を含み、
    当該方法は、複数のサンプリングされた入力信号から、バンド集約化された空間特性を決定するステップをさらに具備し、
    前記抑制確率インジケータの第1の組は、ノイズとロケーション外信号を同時に抑制するために、2つ以上の前記空間特性を使用して決定されたロケーション外信号の抑制確率インジケータを含む、
    請求項44乃至請求項48いずれか一項に記載された方法。
  50. 前記ノイズ・スペクトルの推定結果は、2つ以上の前記空間特性から決定されたノイズ・スペクトルの空間選択的な推定結果であることを特徴とする、請求項49に記載された方法。
  51. 一つ以上の基準信号を受け取るステップ;
    前記一つ以上の基準信号についてのバンド集約化された周波数ドメイン振幅メトリック表現を形成するステップ;
    適応的に決定されたエコー・フィルター係数を使用して、エコーについてのバンド集約化された周波数ドメイン振幅メトリック表現を予測するステップであって、前記フィルター係数は、前記ノイズについての前記バンド集約化されたスペクトル振幅メトリック、以前に予測されたエコー・スペクトル、および前記入力信号についての前記バンド集約化されたスペクトル振幅メトリックの推定結果を使用して決定され、前記フィルター係数は、前記入力信号と前記ノイズについての前記バンド集約化されたスペクトル振幅メトリックの推定結果、および前記以前に予測されたエコー・スペクトルに基づいて更新されるステップをさらに含み
    前記最終的な利得は、エコー抑制を含んだ少なくとも一つのバンド集約化された抑制確率インジケータを包含し、前記少なくとも一つのバンド集約化された抑制確率インジケータは、前記エコーについてのバンド集約化された周波数ドメイン振幅メトリック表現を使用して決定される、
    ことを特徴とする、請求項33乃至請求項50いずれか一項に記載された方法。
  52. 前記フィルター係数を決定することは、音声アクティビティ検出を実行することを含み、前記更新することは、前記音声アクティビティ検出の結果に依存していることを特徴とする、請求項51記載の方法。
  53. 前記予測するステップは、フィルタリング処理の結果を時間平滑化する動作を含む、請求項51または52に記載の方法。
  54. 前記フィルタ係数は前記入力信号の、及びノイズのバンド集約化されたスペクトル振幅メトリックの推定結果に基づき、係数更新器により更新され、
    係数更新器により用いられる前記ノイズについての前記バンド集約化されたスペクトル周波数ドメイン振幅メトリックの推定結果は、少なくとも一つの最小ホロワー・リーク率パラメータによって定義される追跡レートを有するリーキー最小ホロワーによって決定されることを特徴とする、請求項51乃至請求項53の中のいずれか一項に記載された方法。
  55. 前記最小ホロワーは、前記ノイズについての前記バンド集約化されたスペクトル周波数ドメイン振幅メトリックの以前の推定結果と比較し得る又はより大きなエコー推定結果の存在によりゲート制御されることを特徴とする、請求項54に記載の方法。
  56. 前記リーキー最小ホロワーの前記少なくとも一つの最小ホロワー・リーク率パラメータは、音声アクティビティ検出による判定に従い、音声が存在する確率によって制御されることを特徴とする、請求項54または請求項55に記載の方法。
  57. 前記バンドの前記第1の合成された利得の上で後処理を実行して後処理がされた前記第1の合成された利得を生成するステップと、前記後処理がされた前記第1の合成された利得を追加のエコー抑制利得と合成して補間された最終的な利得を形成するステップをさらに具備することを特徴とする、請求項56に記載された方法。
  58. バンド間の周波数間隔が単調減少せず、90%以上のバンドが一つ以上の周波数ビンが寄与するような態様で、前記バンド集約化が実行されることを特徴とする、請求項33乃至請求項57の中のいずれか一項に記載されたシステム。
  59. 前記バンド間の周波数間隔は、対数スケール状であることを特徴とする、請求項58に記載されたシステム。
  60. 出力サンプルを生成するために、出力合成を適用するステップをさらに備える、請求項33乃至請求項59の中のいずれか一項に記載された方法。
  61. 出力周波数ビンを生成するために、出力再マッピングを適用するステップをさらに備える、請求項33乃至請求項59の中のいずれか一項に記載された方法。
  62. 前記周波数ドメイン振幅メトリックは、周波数ドメインパワーであることを特徴とする、請求項33乃至請求項61の中のいずれか一項に記載された方法。
  63. 望ましくない信号を抑制するために、処理装置を動作させる方法であって、
    前記処理装置において、複数のサンプリングされた入力信号を受け取るステップ;
    複数の周波数バンドに関して、前記複数の入力信号についての、ダウン・ミキシングされ、バンド集約された周波数ドメインの瞬間的な振幅メトリックを形成するためのステップであって、前記形成するための手段は、複数の周波数ビンから成るセットについて、複素数値を有する周波数ドメイン値への変換動作を含み、前記複数の周波数バンドの中の少なくとも90%は、2つ以上の周波数ビンが寄与している、ステップ;
    複数のサンプリングされた入力信号からバンド集約化された空間特性を決定するステップ;
    2つ以上の空間特性を使用して決定されたロケーション外信号の抑制確率インジケータを含んでいる複数の抑制確率インジケータから成るセット、および前記複数の入力信号についての前記ダウン・ミキシングされ、バンド集約化された瞬間的な周波数ドメイン振幅メトリックに基づいて、ノイズ・スペクトルの推定結果を使用して決定され、各周波数バンド毎に、ノイズ抑制利得として表現可能であるノイズ抑制確率インジケータを算出するステップ;
    前記処理装置において、一つ以上の基準信号を受け取るステップ;
    前記一つ以上の基準信号についてのバンド集約化された周波数ドメイン振幅メトリック表現を形成するステップ;
    適応的に決定されたエコー・フィルター係数を使用して、エコーについてのバンド集約化された周波数ドメイン振幅メトリック表現を予測するステップ;
    汎用的な音声アクティビティ検出方法のそれぞれの個別具現化を使用して、ダウン・ミキシングされバンド集約化された瞬時値の周波数ドメイン振幅メトリックから音声アクティビティについての複数の表示を判定するステップであって、前記汎用的な音声アクティビティ検出方法は、複数のパラメータから成るセットによって制御され、ノイズ・スペクトルの推定結果、前記エコーの前記バンド集約化された周波数ドメイン振幅メトリック表現、およびバンド集約化された空間特性を使用し、前記複数のパラメータから成るセットは、前記ノイズ・スペクトルの推定結果が空間選択的であるか否か、一の個別具現化が決定した音声アクティビティについてのいずれの表示が前記複数のパラメータの選択結果によって制御されるか、および音声アクティビティを含んでいる、ステップ;
    各バンド毎に、第1の合成された利得を決定するために、複数の確率インジケータから成る前記セットを合成するステップ;および、
    前記第1の合成された利得から決定された補間された最終的な利得を適用して、前記ダウン・ミキシングされた信号のビン・データの上で抑制処理を実行し、抑制された信号データを形成するステップ;
    を具備する方法。
  64. 処理システムを含み、請求項33乃至請求項63の中のいずれか一項に記載された方法を実行するように構成された処理装置。
  65. 処理システム内の少なくとも一つのプロセッサによって実行された際に、請求項33乃至請求項63の中のいずれか一項に記載された方法を処理ハードウェアに実行させるコンピュータプログラム
  66. 請求項65に記載のコンピュータプログラムを記憶したコンピュータ読み出し可能記憶媒体。
JP2013553528A 2011-02-10 2012-02-08 オーディオ入力信号処理システム Active JP6002690B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161441611P 2011-02-10 2011-02-10
US61/441,611 2011-02-10
PCT/US2012/024370 WO2012109384A1 (en) 2011-02-10 2012-02-08 Combined suppression of noise and out - of - location signals

Publications (2)

Publication Number Publication Date
JP2014510452A JP2014510452A (ja) 2014-04-24
JP6002690B2 true JP6002690B2 (ja) 2016-10-05

Family

ID=45809594

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013553528A Active JP6002690B2 (ja) 2011-02-10 2012-02-08 オーディオ入力信号処理システム

Country Status (4)

Country Link
EP (2) EP2673777B1 (ja)
JP (1) JP6002690B2 (ja)
CN (2) CN103348408B (ja)
WO (2) WO2012109384A1 (ja)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105792071B (zh) 2011-02-10 2019-07-05 杜比实验室特许公司 用于风检测和抑制的系统和方法
US9538286B2 (en) 2011-02-10 2017-01-03 Dolby International Ab Spatial adaptation in multi-microphone sound capture
US8804977B2 (en) 2011-03-18 2014-08-12 Dolby Laboratories Licensing Corporation Nonlinear reference signal processing for echo suppression
CN103325380B (zh) 2012-03-23 2017-09-12 杜比实验室特许公司 用于信号增强的增益后处理
CN104050969A (zh) 2013-03-14 2014-09-17 杜比实验室特许公司 空间舒适噪声
GB201309777D0 (en) * 2013-05-31 2013-07-17 Microsoft Corp Echo suppression
GB201309779D0 (en) 2013-05-31 2013-07-17 Microsoft Corp Echo removal
GB201309771D0 (en) 2013-05-31 2013-07-17 Microsoft Corp Echo removal
GB201309773D0 (en) 2013-05-31 2013-07-17 Microsoft Corp Echo removal
JP6087762B2 (ja) * 2013-08-13 2017-03-01 日本電信電話株式会社 残響抑圧装置とその方法と、プログラムとその記録媒体
TWI498884B (zh) * 2013-09-09 2015-09-01 Pegatron Corp 具有過濾背景音功能的電子裝置及其方法
EP2854133A1 (en) * 2013-09-27 2015-04-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Generation of a downmix signal
CN104681034A (zh) 2013-11-27 2015-06-03 杜比实验室特许公司 音频信号处理
EP3080975B1 (en) * 2013-12-12 2017-07-12 Koninklijke Philips N.V. Echo cancellation
US10079941B2 (en) 2014-07-07 2018-09-18 Dolby Laboratories Licensing Corporation Audio capture and render device having a visual display and user interface for use for audio conferencing
CN104200817B (zh) * 2014-07-31 2017-07-28 广东美的制冷设备有限公司 语音控制方法和系统
JP6195548B2 (ja) * 2014-08-19 2017-09-13 日本電信電話株式会社 信号解析装置、方法、及びプログラム
US9953661B2 (en) * 2014-09-26 2018-04-24 Cirrus Logic Inc. Neural network voice activity detection employing running range normalization
JP6391197B2 (ja) * 2015-01-14 2018-09-19 ヴェーデクス・アクティーセルスカプ 補聴器システムの動作方法および補聴器システム
JP6654209B2 (ja) * 2015-06-30 2020-02-26 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン ノイズを関連付けそして分析するための方法および装置
US9401158B1 (en) * 2015-09-14 2016-07-26 Knowles Electronics, Llc Microphone signal fusion
CN107493247B (zh) * 2016-06-13 2021-10-22 中兴通讯股份有限公司 一种自适应均衡方法、装置及均衡器
US9906859B1 (en) * 2016-09-30 2018-02-27 Bose Corporation Noise estimation for dynamic sound adjustment
CN106782591B (zh) * 2016-12-26 2021-02-19 惠州Tcl移动通信有限公司 一种在背景噪音下提高语音识别率的装置及其方法
US11513205B2 (en) 2017-10-30 2022-11-29 The Research Foundation For The State University Of New York System and method associated with user authentication based on an acoustic-based echo-signature
CN107886965B (zh) * 2017-11-28 2021-04-20 游密科技(深圳)有限公司 游戏背景音的回声消除方法
CN108447500B (zh) * 2018-04-27 2020-08-18 深圳市沃特沃德股份有限公司 语音增强的方法与装置
US10847178B2 (en) * 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
WO2020023856A1 (en) * 2018-07-27 2020-01-30 Dolby Laboratories Licensing Corporation Forced gap insertion for pervasive listening
CN111145770B (zh) * 2018-11-02 2022-11-22 北京微播视界科技有限公司 音频处理方法和装置
CN109949820B (zh) * 2019-03-07 2020-05-08 出门问问信息科技有限公司 一种语音信号处理方法、装置及系统
CN110097884B (zh) * 2019-06-11 2022-05-17 大众问问(北京)信息科技有限公司 一种语音交互方法和装置
CN110136739B (zh) * 2019-07-03 2021-04-09 四川大学 语音信号中冲激性噪声的去除方法
CN112420073B (zh) * 2020-10-12 2024-04-16 北京百度网讯科技有限公司 语音信号处理方法、装置、电子设备和存储介质
CN112235693B (zh) * 2020-11-04 2021-12-21 北京声智科技有限公司 麦克风信号处理方法、装置、设备及计算机可读存储介质
GB202101561D0 (en) * 2021-02-04 2021-03-24 Neatframe Ltd Audio processing
EP4288961A1 (en) * 2021-02-04 2023-12-13 Neatframe Limited Audio processing
KR20230160840A (ko) * 2021-03-11 2023-11-24 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 역상관기, 처리 시스템, 및 오디오 신호 역상관 방법
US11849291B2 (en) * 2021-05-17 2023-12-19 Apple Inc. Spatially informed acoustic echo cancelation
CN113689878A (zh) * 2021-07-26 2021-11-23 浙江大华技术股份有限公司 回声消除方法、回声消除装置及计算机可读存储介质
EP4198976B1 (en) * 2021-12-17 2023-10-25 GN Audio A/S Wind noise suppression system

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2913105B2 (ja) * 1989-03-10 1999-06-28 日本電信電話株式会社 音響信号検出方法
DE4405723A1 (de) * 1994-02-23 1995-08-24 Daimler Benz Ag Verfahren zur Geräuschreduktion eines gestörten Sprachsignals
JP3484801B2 (ja) * 1995-02-17 2004-01-06 ソニー株式会社 音声信号の雑音低減方法及び装置
US5587998A (en) * 1995-03-03 1996-12-24 At&T Method and apparatus for reducing residual far-end echo in voice communication networks
US6351731B1 (en) * 1998-08-21 2002-02-26 Polycom, Inc. Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor
JP3435357B2 (ja) * 1998-09-07 2003-08-11 日本電信電話株式会社 収音方法、その装置及びプログラム記録媒体
KR100467020B1 (ko) 2002-07-26 2005-01-24 삼성전자주식회사 자기 정렬된 접합영역 콘택홀을 갖는 반도체 장치 및 그제조 방법
JP4247037B2 (ja) * 2003-01-29 2009-04-02 株式会社東芝 音声信号処理方法と装置及びプログラム
BRPI0410740A (pt) 2003-05-28 2006-06-27 Dolby Lab Licensing Corp método, aparelho e programa de computador para calcular e ajustar o volume percebido de um sinal de áudio
EP1633121B1 (en) * 2004-09-03 2008-11-05 Harman Becker Automotive Systems GmbH Speech signal processing with combined adaptive noise reduction and adaptive echo compensation
US8280730B2 (en) * 2005-05-25 2012-10-02 Motorola Mobility Llc Method and apparatus of increasing speech intelligibility in noisy environments
JP4671303B2 (ja) * 2005-09-02 2011-04-13 国立大学法人北陸先端科学技術大学院大学 マイクロホンアレイ用ポストフィルタ
US8811627B2 (en) * 2005-10-26 2014-08-19 Nec Corporation Echo suppressing method and apparatus
US8068619B2 (en) * 2006-05-09 2011-11-29 Fortemedia, Inc. Method and apparatus for noise suppression in a small array microphone system
US8005237B2 (en) * 2007-05-17 2011-08-23 Microsoft Corp. Sensor array beamformer post-processor
JP4850191B2 (ja) * 2008-01-16 2012-01-11 富士通株式会社 自動音量制御装置及びそれを用いた音声通信装置
CN101510426B (zh) * 2009-03-23 2013-03-27 北京中星微电子有限公司 一种噪声消除方法及系统

Also Published As

Publication number Publication date
WO2012109385A1 (en) 2012-08-16
EP2673777B1 (en) 2018-12-26
CN103348408A (zh) 2013-10-09
EP2673778B1 (en) 2018-10-10
CN103348408B (zh) 2015-11-25
WO2012109384A1 (en) 2012-08-16
EP2673777A1 (en) 2013-12-18
EP2673778A1 (en) 2013-12-18
CN103354937A (zh) 2013-10-16
CN103354937B (zh) 2015-07-29
JP2014510452A (ja) 2014-04-24

Similar Documents

Publication Publication Date Title
JP6002690B2 (ja) オーディオ入力信号処理システム
US9173025B2 (en) Combined suppression of noise, echo, and out-of-location signals
JP6014259B2 (ja) ノイズ削減利得の百分位数フィルタリング
US11308976B2 (en) Post-processing gains for signal enhancement
JP6637014B2 (ja) 音声信号処理のためのマルチチャネル直接・環境分解のための装置及び方法
US9202456B2 (en) Systems, methods, apparatus, and computer-readable media for automatic control of active noise cancellation
TWI463817B (zh) 可適性智慧雜訊抑制系統及方法
US20120263317A1 (en) Systems, methods, apparatus, and computer readable media for equalization
US10403300B2 (en) Spectral estimation of room acoustic parameters
US20110058676A1 (en) Systems, methods, apparatus, and computer-readable media for dereverberation of multichannel signal
RU2760097C2 (ru) Способ и устройство для захвата аудиоинформации с использованием формирования диаграммы направленности
US8712076B2 (en) Post-processing including median filtering of noise suppression gains
EP3275208B1 (en) Sub-band mixing of multiple microphones
US9137611B2 (en) Method, system and computer program product for estimating a level of noise
CN117136407A (zh) 用于音频处理的深度神经网络去噪器掩模生成系统
US20130054233A1 (en) Method, System and Computer Program Product for Attenuating Noise Using Multiple Channels
Gustafsson et al. Dual-Microphone Spectral Subtraction

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140918

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140924

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20141222

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20150126

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20150224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150324

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150929

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20151224

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20160128

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20160229

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160329

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160809

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160905

R150 Certificate of patent or registration of utility model

Ref document number: 6002690

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250