JP2015529847A

JP2015529847A - ノイズ削減利得の百分位数フィルタリング

Info

Publication number: JP2015529847A
Application number: JP2015525407A
Authority: JP
Inventors: サン，シュエジン; エヌディクキンズ，グレン
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2012-08-01
Filing date: 2012-08-01
Publication date: 2015-10-08
Anticipated expiration: 2032-08-01
Also published as: EP2880655B8; US20150215700A1; EP2880655A1; WO2014021890A1; CN104520925B; US9729965B2; CN104520925A; JP6014259B2; EP2880655B1

Abstract

オーディオ信号に適用するための帯域分割された利得を後処理する方法、帯域分割された利得を後処理する装置および実行されたときに上記方法を実行する命令を含む有体のコンピュータ可読記憶媒体。帯域分割された利得は、一つまたは複数の入力オーディオ信号を入力処理することによって決定される。本方法は、帯域分割された利得を後処理して、後処理された利得を生成し、特定の周波数帯域についての特定の後処理された利得を生成することを含む。これは、前記一つまたは複数の入力オーディオ信号の一つまたは複数の前のフレームからおよび前記特定の周波数帯域に隣接する周波数帯域についての利得値からの利得値を使って百分位数フィルタリングすることを含む。

Description

本開示は一般に、特にオーディオ信号の信号処理に関する。

音響ノイズ削減システムは典型的にはノイズ推定器と、一組の周波数帯域上で決定され、周波数領域に変換して前記一組の周波数帯域に帯域分割したあとの（ノイズのある）入力オーディオ信号に適用されてノイズ成分を減衰させる一組のノイズ削減利得を決定する利得計算モジュールとを含む。音響ノイズ削減システムは、一つのマイクロホン、あるいは複数のマイクロホン入力および一つの入力オーディオ信号を生成するための下方混合〔ダウンミキシング〕、たとえばビーム形成を含んでいてもよい。音響ノイズ削減システムはさらに、エコー削減を含んでいてもよく、さらに、位置外（out-of-location）信号削減を含んでいてもよい。

音楽ノイズが存在することが知られており、帯域のいくつかにおける利得に対してなされる時間的な短期的ミスのために生じうる。そのような誤った利得は統計的突出値、すなわち、帯域のグループを横断して実質的に期待される範囲外に存在し、よって「孤立」して見える利得の値と考えることができる。

そのような統計的突出値は、入力オーディオ信号が変換され、帯域分割される他の型の処理でも起こりうる。そのような他の型の処理は、知覚的ドメイン・ベース平準化（levelling）、知覚的ドメイン・ベース・ダイナミックレンジ制御および知覚的ドメイン・ベース動的等化を含み、これはオーディオ信号の再生レベルに依存するオーディオの知覚における変動を考慮に入れる。たとえば特許文献１を参照。平準化および／または動的等化のための各帯域について決定される利得が統計的突出値、たとえば孤立した値を含むことがあり、そのような突出値は音楽ノイズのようなアーチファクトを引き起こしうる。

利得、たとえばノイズ削減利得をメジアン・フィルタリングすることまたは諸周波数帯域を横断した平準化および／または動的等化は音楽ノイズ・アーチファクトを軽減できる。

国際公開第2004111994号、国際出願PCT/US2004/016964号

利得値は、周波数を通じて有意に変わることがあり、そのような状況では、諸周波数帯に沿って比較的幅広いメジアン・フィルタを走らせることは、時間的包絡線の連続性を破壊する危険がある。時間的包絡線は多くの信号にとって本来的な属性であり、知覚にとって決定的でもある。突出値に対するより大きな不感性を提供しつつ、より長いメジアン・フィルタは処理のスペクトル選択性を低下させ、潜在的には周波数および時間を通じた利得値におけるより大きな不連続またはジャンプを導入することがある。

上記のセクションで記述されたアプローチは、追求されることができたが必ずしも以前に着想または追求されたアプローチではない。したがって、特に断りのない限り、該セクションにおいて記述されるアプローチはいずれも、該セクションに含まれているというだけのために従来技術の資格をもつと想定されるべきではない。同様に、特に断りのない限り、一つまたは複数のアプローチに関して特定されている問題は、該セクションに基づいて何らかの従来技術において認識されていたと想定されるべきではない。

本発明のある実施形態を含む、一つまたは複数の入力オーディオ信号、たとえば異なる位置のマイクロホンからのマイクロホン信号１０１の集合を処理する一例を示す図である。本発明の実施形態の百分位数フィルタのある実施形態の帯域分割された利得および時間‐周波数カバレッジの諸集合を図的に示す図である。Ａは、本発明のある実施形態に基づく百分位数フィルタを含む後処理器の簡略化されたブロック図であり、Ｂは、本発明のある実施形態に基づく百分位数フィルタリングを含む後処理方法の簡略化されたフローチャートである。ノイズの抑制およびいくつかのバージョンでは同時のエコー抑制およびいくつかのバージョンでは位置外信号の同時の抑制のための、後処理された利得の集合を決定するよう構成された装置実施形態の一例を示す図である。装置実施形態の一例をより詳細に示す図である。空間的に敏感な音声活動検出器および風活動検出器を含む利得計算要素の例示的な実施形態を示す図である。ノイズおよび位置外信号およびいくつかの実施形態ではエコーを抑制する処理装置の動作方法のある実施形態のフローチャートである。一組の利得を決定し、決定された利得を百分位数フィルタリングすることを含め利得を後処理し、利得の適用によって修正されたオーディオ出力を生成するよう、一つまたは複数のオーディオ入力を処理するための処理装置実施形態の簡略化されたブロック図である。クリーンな発話および自動車ノイズの混合におけるノイズのある発話について、例示的な入力波形および対応する音声活動検出器出力を示す図である。本発明のある実施形態を含む種々のメジアン・フィルタリング戦略を使って図９の信号についての処理された波形を示す、（ａ）ないし（ｅ）で表わす五つのプロットを示す図である。自動車ノイズのあるセグメントの例示的な入力波形および対応する音声活動検出器出力を示す図である。本発明のある実施形態を含む種々のメジアン・フィルタリング戦略を使って図１１の信号についての処理された波形を示す、（ａ）ないし（ｅ）で表わす五つのプロットを示す図である。

〈概観〉
本発明の諸実施形態は、方法、装置および前記方法を実行するために一つまたは複数のコンピュータ可読な有体の媒体にエンコードされた論理を含む。

ある実施形態は、オーディオ信号に適用するための帯域分割された利得を後処理する方法を含む。帯域分割された利得は、一つまたは複数の入力オーディオ信号を入力処理することによって決定される。本方法は、帯域分割された利得を後処理して、後処理された利得を生成し、特定の周波数帯域についての特定の後処理された利得を生成することを含む。これは、前記一つまたは複数の入力オーディオ信号の一つまたは複数の前のフレームからおよび前記特定の周波数帯域に隣接する周波数帯域についての利得値からの利得値を使って百分位数フィルタリングすることを含む。

ある実施形態は、オーディオ信号に適用するための帯域分割された利得を後処理する装置を含む。帯域分割された利得は、一つまたは複数の入力オーディオ信号を入力処理することによって決定される。本装置は、帯域分割された利得を受け容れて、後処理された利得を生成し、特定の周波数帯域についての特定の後処理された利得を生成する後処理器を有する。これは、前記一つまたは複数の入力オーディオ信号の一つまたは複数の前のフレームからおよび前記特定の周波数帯域に隣接する周波数帯域についての利得値からの利得値を使って百分位数フィルタリングすることを含む。

いくつかの実施形態では、前記後処理は、前記百分位数フィルタリングのあとに、周波数帯域から周波数帯域にかけての平滑化および時間を横断しての平滑化の少なくとも一方を含む。

いくつかの実施形態では、前記百分位数フィルタリングの幅および深さの一方または両方が、前記一つまたは複数の入力オーディオ信号の信号分類に依存する。いくつかの実施形態では、前記分類は、前記入力オーディオ信号が音声である可能性が高いか否かを含む。

いくつかの実施形態では、前記百分位数フィルタリングの幅および深さの一方または両方が、前記一つまたは複数の入力オーディオ信号のスペクトル・フラックスに依存する。

いくつかの実施形態では、前記特定の周波数帯域についての前記百分位数フィルタリングの幅および深さの一方または両方が、前記百分位数フィルタリングによって決定される前記特定の周波数帯域に依存する。

いくつかの実施形態では、前記周波数帯域は知覚的スケールまたは対数スケール上である。

いくつかの実施形態では、前記百分位数フィルタリングは百分位数値のものであり、たとえば前記百分位数値はメジアンである。いくつかの実施形態では、前記百分位数フィルタリングは百分位数値のものであり、前記百分位数値は前記一つまたは複数の入力オーディオ信号の分類および前記一つまたは複数の入力オーディオ信号のスペクトル・フラックスのうちの一つまたは複数に依存する。

いくつかの実施形態では、前記百分位数フィルタリングは重み付けされた百分位数フィルタリングである。

いくつかの実施形態では、一つまたは複数の入力オーディオ信号から決定された前記帯域分割された利得はノイズを削減するためである。いくつかの実施形態では、帯域分割された利得は、二つ以上の入力オーディオ信号から決定され、ノイズおよび位置外信号を削減するためである。いくつかの実施形態では、帯域分割された利得は一つまたは複数の入力オーディオ信号および一つまたは複数の参照信号から決定され、ノイズおよびエコーを削減するためである。

ある実施形態は、命令を含む有体のコンピュータ可読記憶媒体を含み、前記命令は、処理システムの一つまたは複数のプロセッサによって実行されたときに、処理ハードウェアに、本稿に記載されるようにしてオーディオ信号に適用するための帯域分割された利得を後処理する方法を実行させる。

ある実施形態は、少なくとも一つのプロセッサによって実行されたときに、本稿に記載される方法の実行を引き起こすプログラム論理を含む。

個別的な実施形態は、これらの側面、特徴または利点の全部を提供することもあれば、一部を提供することもあれば、あるいは一つも提供しないこともある。個別的な実施形態は、一つまたは複数の他の側面、特徴または利点を提供してもよく、その一つまたは複数は本願の図面、記述および請求項から当業者にはすぐに明白となりうるものである。

〈いくつかの例示的な実施形態〉
本発明のある側面は、たとえばノイズ削減のためまたは他の入力処理のための利得平滑化のための利得の百分位数フィルタリングを含む。百分位数フィルタ〔パーセンタイル・フィルタ〕は、特定の利得値を、あらかじめ定義された数の値のあらかじめ定義された百分位数で、たとえば前記特定の利得値およびあらかじめ定義された近傍利得値の集合の前記あらかじめ定義された百分位数で、置き換える。百分位数フィルタの一例は、メジアン・フィルタである。メジアン・フィルタについては、前記あらかじめ定義された百分位数は第50百分位数である。あらかじめ定義された百分位数はパラメータであってもよく、データ依存であってもよいことを注意しておく。よって、本稿に記載されるいくつかの例では、ある型のデータ、たとえばノイズである可能性が高いデータについては第一のあらかじめ定義された百分位数があってもよく、別の型のデータ、たとえば音声である可能性が高いデータについては、異なる第二の百分位数値があってもよい。百分位数フィルタは時にランク順フィルタと称される。その場合、あらかじめ定義された百分位数ではなく、あらかじめ定義されたランク順が使用される。たとえば、整数9個の値について、第三ランク順フィルタは、それら九つの値の三番目に大きな値を出力することになり、第五ランク順フィルタは五番目に大きな値を出力することになり、これはメジアン、すなわち第50百分位数である。

図１は、本発明のある実施形態を含む、一つまたは複数のオーディオ信号、たとえば異なる位置のマイクロホンからのマイクロホン信号１０１の集合を処理することの一例を示している。処理は、ある数、たとえばM個のサンプルの時間フレームごとである。簡単な実施形態では、一つの入力、たとえば一つのマイクロホンしかなく、別の実施形態では、Pで表わされる複数個の入力、たとえばマイクロホン信号１０１がある。入力処理器１０５はサンプリングされた入力オーディオ信号１０１を受け容れ、複数B個の周波数帯域についての該入力オーディオ信号１０１の帯域分割された瞬時周波数領域振幅メトリック１１９を形成する。二つ以上の入力オーディオ信号があるいくつかの実施形態では、メトリック１１９は入力オーディオ信号から下方混合される。振幅メトリックはスペクトル内容を表わす。本稿に記載される実施形態の多くでは、スペクトル内容はパワースペクトルで表わされるが、本発明はパワースペクトル値を処理することに限定されるものではない。むしろ、任意のスペクトル振幅依存メトリックが使用できる。たとえば、振幅スペクトルが直接使われる場合、そのようなスペクトル内容は時にスペクトル包絡線と称される。そのため、本記述においては時に「パワー（または他の振幅メトリック）スペクトル」という句が使われる。

いくつかの実施形態では、利得の後処理は、位相または群遅延のような諸帯域における追加的な信号属性および／または複数の入力チャネル間の、あるサブバンドにわたる相関を使う利得に関係することを注意しておく。

あるノイズ削減実施形態では、入力処理器１０５は、瞬時振幅メトリック１１９に適用するべき帯域分割された利得１１１の集合を決定する。ある実施形態では、入力処理はさらに、入力オーディオ信号の単一の分類、たとえば音声活動検出器（VAD: voice activity detector）によって決定されるところの入力オーディオ信号（単数または複数）が音声である可能性が高いか否かの指標および／または風活動検出器（WAD: wind activity detector）によって決定されるところの入力音声信号（単数または複数）が風である可能性が高いか否かの指標および／またはたとえばスペクトル・フラックスがある閾値を超えることによって示される信号エネルギーが急速に変化しつつあることの指標を決定することを含む。

本発明の諸実施形態の一つの特徴は、利得を後処理して出力の品質を改善することを含む。ある実施形態では、後処理は、入力処理によって決定された利得の百分位数フィルタリングを含む。百分位数フィルタは、利得の集合を考え、該利得の集合のうちあらかじめ決定された百分位数である利得を出力する。百分位数フィルタリングの一例はメジアン・フィルタである。もう一つの例は、整数P個の値の集合に対して作用し、p番目の値を選択する百分位数フィルタである。ここで、1＜p＜Pである。フレーム毎にB個の利得の集合が決定され、よって、B個の周波数帯域に対するB個の利得の諸集合の時系列がある。ある実施形態では、百分位数フィルタは周波数を横断して延在するが、本発明のいくつかの実施形態では、百分位数フィルタは時間および周波数の両方を横断して延在し、現在処理されている時間フレームについて特定の周波数帯域について、１）その特定の周波数帯域および該特定の周波数の近傍のあらかじめ定義された数の周波数帯域を含む、現在の時点での周波数帯域の集合の集合のそれぞれにおける利得、および、２）一つまたは複数の以前の時間フレームにおける少なくともその特定の周波数の利得のうちの、あらかじめ定義された百分位数値、たとえばメジアンまたは他の百分位数を決定する。

図２は、帯域分割された利得の諸集合を図的に示している。現在の時間、一フレーム前、二フレーム前、三フレーム前などのそれぞれについて一つの集合がある。図２はさらに、現在のフレームにおける周波数帯域b_cを中心とした五つの利得値および同じ周波数帯域b_cについての二つの前の時間フレームにおける二つの利得値を含む例示的な百分位数フィルタのカバレッジを示している。フィルタ幅といえば、周波数帯域領域におけるフィルタの幅を意味し、フィルタ深さといえば、時間領域におけるフィルタの深さを意味する。記憶のない百分位数フィルタは、同じ時間フレームに対して百分位数フィルタリングを実行するだけで、よってフィルタ深さ1をもつ。図６に示されるT型の百分位数フィルタは幅5および深さ3をもつ。

百分位数フィルタの種々の実施形態のさらなる詳細は本稿でのちに述べる。

図１に戻ると、後処理は、瞬時パワー（または他の振幅メトリック）１１９に適用されて出力を、たとえば複数の処理された周波数ビン１３３として生じる後処理された利得１２５の集合を生成する。出力合成フィルタバンク１３５（またはその後の符号化のための変換器／再マッピング器）がこれらの周波数ビンを所望される出力１３７に変換する。

入力処理要素１０５は、入力分解フィルタバンクおよび利得計算器を含む。入力分解フィルタバンクは、一つの入力オーディオ信号１０１の場合、フレームのサンプルを諸周波数ビンに変換する変換器と、諸周波数帯域を形成する帯域分割要素とを含む。周波数帯域の大半は複数の周波数ビンを含む。入力分解フィルタバンクは、複数の入力オーディオ信号１０１の場合、各入力オーディオ信号のフレームのサンプルを諸周波数ビンに変換する変換器と、下方混合器、たとえば前記複数を単一の信号に下方混合するビーム形成器と、諸周波数帯域を形成する帯域分割要素とを含む。周波数帯域の大半は複数の周波数ビンを含む。

ある実施形態では、変換器は短時間フーリエ変換（STFT）を実装する。計算効率のため、変換器は、高速フーリエ変換（FFT）によって実装される離散的な有限長のフーリエ変換（DFT）を使う。他の実施形態は異なる変換を使う。

ある実施形態では、B個の帯域は、間隔が単調非減少である周波数にある。周波数帯域のそこそこの数、たとえば90%が二つ以上の周波数ビンからの寄与を含み、特定的な諸実施形態では、各周波数帯域は二つ以上の周波数ビンからの寄与を含む。いくつかの実施形態では、それらの帯域は対数式に単調増加する。いくつかの実施形態では、それらの帯域は音響心理学的スケール上にある。すなわち、それらの周波数帯域は、音響心理学的な臨界的間隔に関係するスケーリングをもって離間される。そのような帯域分割は本稿では「知覚的に離間された帯域分割」と呼ばれる。特定的な諸実施形態では、帯域間隔は約1ERBまたは0.5バークである、あるいは等価だが諸帯域は中心周波数の約10%の周波数離間をもつ。周波数間隔の合理的な範囲は5〜20%または約0.05..2ERBである。

入力処理がノイズ削減を含むいくつかの実施形態では、入力処理はエコー削減をも含む。エコー削減を含む入力処理の一例は、2011年2月10日に出願された、発明者Dickinsraへの、「COMBINED SUPRRESSION OF NOISE, ECHO, AND OUT-OF-LOCATION SIGNALS」という名称の米国仮出願第61/441,611号に記載されている。その内容はここに参照によって組み込まれる。入力処理がエコー削減を含む実施形態については、一つまたは複数の参照信号も含まれ、エコーの何らかの属性、たとえばエコーのパワー（または他の振幅メトリック）スペクトルの推定を得るために使われる。結果として得られる帯域分割された利得は、同時のエコー削減およびノイズ削減を達成する。

ノイズ削減およびエコー削減を含むいくつかの実施形態では、後処理された利得は要素１２３によって受け容れられ、要素１２３がそれらの利得を修正して追加的なエコー抑制を含める。結果は、後処理された利得１２５の集合であり、これらの利得が、周波数領域において、たとえば周波数ビンとして入力オーディオ信号を、たとえば異なる位置のマイクロホンからの二つ以上の入力オーディオ信号がある場合には下方混合したあとに、処理するために使われる。

利得適用モジュール１３１は後処理された帯域分割された利得１２５を受け容れ、そのような利得を適用する。ある実施形態では、それらの帯域利得は補間され、入力オーディオ信号（一つの場合）または下方混合された入力オーディオ信号（二つ以上の入力オーディオ信号がある場合）の周波数ビン・データに適用される。周波数ビン・データは、Y_nで表わされる。n＝0,1,…,N−1であり、Nは周波数ビンの数である。Y_n、n＝0,1,…,N−1は諸入力オーディオ信号サンプルY_m、m＝1,,Mのフレームの周波数ビンである。処理されたデータ１３３は次いで出力合成フィルタバンク１３５によってサンプル領域に変換し戻されて、M個の信号サンプル１３７を生成してもよい。いくつかの実施形態では、これに加えてまたは代わりに、信号１３３が変換または再マッピングにかけられて、たとえば、何らかの符号化方法に基づく符号化の準備ができた形にされる。

ノイズ（および可能性としてはエコーおよび位置外信号）を削減するための入力処理を含む米国仮出願第61/441,611号と同様のシステムの例示的な実施形態について、以下でより詳細に述べる。

本発明は、むろん、米国仮出願第61/441,611号に記載される入力処理および利得計算にもノイズ削減にも限定されるものではない。

ある実施形態では入力処理はノイズ（および可能性としてはエコーおよび位置外信号）を削減するためだが、他の実施形態では、入力処理は、追加的にまたは主として、知覚的ドメイン・ベース平準化（leveling）、知覚的ドメイン・ベース・ダイナミックレンジ制御および知覚的ドメイン・ベース動的等化の一つまたは複数を実行するものであってもよく、たとえば本願と同じ所有者の特許文献１に記載されるように、オーディオ信号の再生レベルに依存するオーディオの知覚における変動を考慮に入れる。特許文献１によって計算される帯域分割された利得は、百分位数フィルタリングを含めて後処理されて、（変換された）入力に適用すべき、後処理された利得１２５が決定される。

〈例示的な百分位数フィルタ〉
図３のＡは、本発明のある実施形態に基づく、百分位数フィルタ３０５を含む後処理器１２１の簡略されたブロック図を示している。後処理器１２１は利得１１１を受け容れ、後処理が信号分類によって変わる実施形態では、一つまたは複数の信号分類指標１１５、たとえばVAD、WADまたは高レート・エネルギー変化、たとえば高スペクトル・フラックス検出器のうち一つまたは複数の出力を受け容れる。すべての実施形態に含まれるわけではないが、後処理器のいくつかの実施形態は、それらの利得があらかじめ定義された、可能性としては周波数依存の値を下回らないことを保証するために、最小利得処理器３０３を含む。ここでもまた、すべての実施形態に含まれるわけではないが、後処理器のいくつかの実施形態は、周波数帯から周波数帯にかけての変動を平滑化するおよび／または時間変動を平滑化するために、百分位数フィルタリングのあとに利得を処理する平滑化フィルタ３０７を含む。図３のＢは、生の利得を、そして後処理が信号分類によって変わる実施形態では一つまたは複数の信号分類指標１１５を受け容れることを３１１において含む後処理３１０の方法の簡略化されたフローチャートを示している。後処理は、本発明の諸実施形態によれば、百分位数フィルタリング３１５を含む。発明者は、百分位数フィルタリングが強力な非線形平滑化技法であり、これが平滑化方法を使うだけの場合と比べて望まれない突出値を消去するためによく機能することを見出した。いくつかの実施形態は、段階３１３において、それらの利得があらかじめ定義された、周波数帯域依存であってもよい最小を下回らないことを保証することを含む。いくつかの実施形態はさらに、段階３１７において、帯域から帯域にかけてのおよび／または時間的な平滑化、たとえば重み付けされた移動平均などを使った線形平滑化を含む。

このように、本発明のいくつかの実施形態では、帯域分割された利得値の百分位数フィルタ３１５は：１）百分位数値を決定するために含められる帯域分割された利得の数、２）含められる帯域分割された利得の時間および周波数帯での位置；３）時間および周波数における利得値の位置に従って百分位数を決定する際にどのように各利得値をカウントするか；および４）エッジ条件、すなわち帯域分割された利得を、時間および周波数帯域のエッジにおける百分位数の計算を許容するよう拡張するために使われる条件；５）百分位数フィルタの該特徴付けが信号分類、たとえば音声の存在、風の存在および高スペクトル・フラックスによって示される急速に変化するエネルギーのうちの一つまたは複数によってどのように影響されるか；６）一つまたは複数の百分位数フィルタ特性が周波数帯域上でどのように変化するか；６）時間次元における百分位数フィルタリングの場合、時間遅延された利得値が生の利得であるか（直接的）、上記後処理段階の一つまたは複数のあと、たとえば百分位数フィルタリングのあとの利得であるか（再帰的）によって特徴付けられる。

いくつかの実施形態は、信号分類に基づいて、周波数および時間上での前記百分位数フィルタリング特性の一つまたは複数を制御するための機構を含む。たとえば、音声活動検出を含むある実施形態では、百分位数フィルタリング特性の一つまたは複数は、入力がVADによって声であると確かめられるか否かに従って変わる。風活動検出を含むある実施形態では、百分位数フィルタリング特性の一つまたは複数は、入力がWADによって風であると確かめられるか否かに従って変わる。さらにもう一つの実施形態では、百分位数フィルタリング特性の一つまたは複数は、たとえばスペクトル・フラックスの測定値によって示される、どのくらい速く信号中でエネルギーが変化しているかに従って変わる。

種々のエッジ条件の例は、（ａ）エッジについての内部の値の外挿；（ｂ）エッジにおける帯域分割された利得を拡張するために最小利得値を使うこと；（ｃ）エッジにおける帯域分割された利得を拡張するために零利得値を使うこと；（ｄ）エッジにおける帯域分割された利得を拡張するために中央フィルタ位置値を複製すること；（ｅ）エッジにおける帯域分割された利得を拡張するために最大利得値を使うこと、を含む。

〈追加的な後処理〉
すべての実施形態に含まれるわけではないが、いくつかの実施形態では、後処理器１２１は、それらの利得があらかじめ定義された最小利得値を下回らないことを保証する段階３１３を実行する最小利得処理器３０３を含む。いくつかの実施形態では、最小利得処理器は、周波数帯域に依存する仕方で最小値を保証する。いくつかの実施形態では、防止最小の仕方は、活動分類１１５、たとえば声か否かに依存する。

ある実施形態では、入力処理からの計算された利得をGain'_b,Sで表わすと、最小処理器後のGain'_b,RAWで表わされる利得についてのいくつかの代替は、次のようになる。

一例として、後処理器１２１および段階３１０のいくつかの実施形態では、最大抑制深さまたは最小利得の範囲は、−80dBから−5dBの範囲であってもよく、周波数依存であってもよい。ある実施形態では、抑制深さは200Hzより下の低周波数では約−20dBであり、1kHでは約−10dBまで変化し、4kHzのまわりの上音声周波数（upper voice frequencies）ではたった−6dBまで緩和される。さらに、ある実施形態では、VADが信号が声であると判定する場合、Gain'_b,MINがたとえば周波数帯域に依存する仕方で（または別の実施形態では各帯域bについて同じ量だけ）増大させられる。ある実施形態では、最小の増大量は中間の諸周波数帯域、たとえば500Hzから2kHzの間の諸帯域においてより大きくなる。

さらに、すべての実施形態に含まれるわけではないが、いくつかの実施形態では、後処理器１２１は平滑化フィルタ３０７、たとえば周波数帯域から帯域への平滑化および時間的な平滑化の一方または両方を実行する線形平滑化フィルタを含む。いくつかの実施形態では、そのような平滑化は、信号分類１１５に従って変えられる。

平滑化３１７の一つの実施形態は、固定カーネルを用いた重み付けされた移動平均を使う。一例は、重み付けされた移動平均のためにガウシアン重み付けカーネルの二項近似を使う。一例として、5点二項平滑化器は、カーネル(1/16)[1 4 6 4 1]をもつ。むろん、実際上、因子1/16は省いて、スケーリングは必要に応じていずれかの時点で行なってもよい。もう一つの例として、3点二項平滑化器は、カーネル(1/4)[1 2 1]をもつ。他の多くの重み付けされた移動平均フィルタが知られており、任意のそのようなフィルタが、利得の帯域から帯域にかけての平滑化のために好適に修正されることができる。

ある実施形態では、帯域から帯域にかけてのメジアン・フィルタリングは、信号分類によって制御される。ある実施形態では、VAD、たとえば空間選択的なVADが含まれ、VADが声があると判定する場合、ノイズが検出されるときに平滑化の度合いが高められる。ある例示的な実施形態では、5点の帯域から帯域にかけての重み付けされた平均平滑化は、VADが声が検出されることを示す場合に実行され、そうではなく、VADが声がないと判定するときは、平滑化は実行されない。

いくつかの実施形態では、利得の時間的平滑化も含められる。いくつかの実施形態では、B個の帯域の各帯域の利得が、一次平滑化フィルタによって平滑化される。

Gain_b,Smoothed＝α_bGain_b＋(1−α_b)Gain_{b,SmoothedPrev}
ここで、Gain_bは現在の時間フレームの利得、Gain_b,Smoothedは時間平滑化された利得、Gain_{b,SmoothedPrev}は前のMサンプル・フレームからのGain_b,Smoothedである。α_bは、周波数帯域依存であってもよい時定数であり、典型的には20ないし500msの範囲内である。ある実施形態では、50msの値が使用された。ある実施形態では、時間平滑化の量は、現在フレームの信号分類によって制御される。利得の一次時間平滑化を含むある個別的な実施形態では、現在フレームの信号分類が、各帯域において時間的に利得をフィルタリングするために使われる一次時定数の値を制御するために使われる。VADが含まれる場合には、ある実施形態は、声が検出される場合、時間平滑化を止める。

発明者は、声が始まったら積極的な平滑化は中止することが重要であることを見出した。よって、後処理のパラメータは、低いレイテンシーをもち、ノイズ・モードから音声モード（または他の所望される信号モード）への後処理の迅速な遷移を達成できる中間的な信号分類器（VAD、WAD）値によって制御されることが好ましい。音声の検出後に、すなわちトレールアウト（trail out）においてより積極的な後処理が復活されるスピードは、それほど重要でないことが見出された。声の了解性に対する影響がより少ないからである。

〈時間周波数特性〉
所望される利得値が、たとえばノイズ抑制または利得計算アルゴリズムの所望される選択性または活動性のためまたは他の理由により、諸周波数を横断して著しく変動するとき、発明者は、周波数軸に沿って百分位数フィルタを走らせることは、時間的包絡線の連続性を破壊するリスクがあることを発見した。時間的包絡線は多くの信号にとって本来的な属性であり、知覚にとって決定的でもある。突出値に対するより大きな不感性を提供する一方、より長い百分位数フィルタは処理のスペクトル選択性を低下させ、潜在的には周波数および時間を通じた利得値におけるより大きな不連続またはジャンプを導入することがある。各周波数帯域における時間的包絡線の不連続を最小にするため、本発明のいくつかの実施形態は、2D百分位数フィルタ、たとえば時間および周波数情報の両方を組み込むメジアン・フィルタを使う。そのようなフィルタは、特定の周波数帯域（「目標」帯域）のまわりの、該目標周波数帯域についてのフィルタリングされた値を生成するための時間‐周波数窓によって特徴付けられることができる。特に、本発明のいくつかの実施形態は、ちょうどその目標帯域の前の諸時間値が各目標帯域に含められる、T型フィルタを使う。図２は、目標帯域の二つの前の値が含められる、7点T型フィルタの一つのそのような実施形態を示している。

いくつかの実施形態では、時間遅延された利得値は生の利得であり（直接的）、よって百分位数フィルタは時間において非再帰的である。一方、時間および周波数百分位数フィルタリングを使う他の実施形態では、時間遅延された利得値は、後処理段階の一つまたは複数のあとのもの、たとえば百分位数フィルタリング後のものであり、よって百分位数フィルタは時間において再帰的である。

〈音声活動制御の例〉
ある実施形態では、帯域から帯域にかけての百分位数フィルタリングは、信号分類によって制御される。ある実施形態では、VADが含められ、VADが声がない可能性が高いと判定する場合、5点の帯域から帯域にかけてのおよび3点の時間的な百分位数フィルタリングをもつ7点のT型メジアン・フィルタが、エッジにおいて百分位数を計算するために最小利得値または値0を延長することを含むエッジ処理とともに、実行される。VADが声が存在する可能性が高いと判定する場合には、第一のバージョンでは、現在の時間フレームにおいて三つの周波数帯域をもち、二つの前の時間フレームを使う5点のT型時間‐周波数百分位数フィルタリングが実行される。第二の実施形態では、3点の記憶なしの周波数帯域のみの百分位数フィルタが、エッジにおいて百分位数を計算するために外挿されたエッジ値を用いて、使用される。そのような一組の実施形態では、百分位数はメジアン値であり、よって百分位数フィルタはメジアン・フィルタである。

〈風活動制御の例〉
本発明の一つの特徴は、百分位数フィルタリングが信号の分類に依存するということであり、一つのそのような分類は、いくつかの実施形態では、風があるか否かである。いくつかの実施形態では、WADが含められ、WADが風がないと判定し、VADが声がないことを示す場合、百分位数フィルタにはより少数の利得値が含められる。風が存在するとき、一組の利得は、時間的に、特により低い周波数帯域においてより大きな変動を示しうる。WADおよびVADが含まれるとき、WADが風がない可能性が高いと判定し、VADが声がありそうだと判定する場合、百分位数フィルタリングはより短くするべきであり、時間的フィルタリングはなしとするべきである。これはたとえば、3点の記憶なしの帯域から帯域にかけての百分位数フィルタを、エッジにおいて適用されるエッジ値の外挿とともに使うことによる。WADが風がなさそうであることを示し、VADが声もなさそうだと示す場合、周波数帯域および時間の両方においてより多くの百分位数フィルタリングが使用できる。たとえば、5点の帯域から帯域にかけてのおよび3点の時間的な百分位数フィルタリングをもつ7点のT型メジアン・フィルタが、エッジにおいて百分位数を計算するために最小利得値または値0を延長することを含むエッジ処理とともに、実行される。WADが風がありそうであることを示し、VADが声はなさそうだと示す場合、周波数帯域および時間の両方においてさらに多くの百分位数フィルタリングが使用できる。たとえば、7点の帯域から帯域にかけてのおよび3点の時間的な百分位数フィルタリングをもつ9点のT型メジアン・フィルタが、エッジにおいて百分位数を計算するために最小利得値または値0を延長することを含むエッジ処理とともに、実行される。ある実施形態では、WADが風が存在することを示し、声がありそうなときの百分位数フィルタリングは周波数依存であり、より低い周波数帯域、たとえば1kHz未満を含む帯域については7点の帯域から帯域にかけてのフィルタリングを用い、他の（より高い）周波数帯域については7点の帯域から帯域にかけての百分位数フィルタリングを用い、すべての周波数帯域について3点の時間的百分位数フィルタリングを用いる。より低い周波数帯域におけるこのようなより大きな百分位数フィルタリングは、散発的な高利得の蔓延を防止しうる。風および声が存在するときは、百分位数フィルタリングについてそれほど積極的でなくなる。一組のそのような実施形態では、百分位数値はメジアン値であり、百分位数フィルタはメジアン・フィルタである。風が存在するときは、VADはそれほど信頼できないことがありうることを注意しておく。

一般に、いくつかの実施形態では、より低い周波数（＜1kHz）でのメジアン・フィルタが、短い低周波の風バーストを除去するために、より大きなスペクトル帯域範囲（100〜500Hz）およびより長い継続時間（50〜200ms）をカバーするよう延長されることが有用であることが見出される。風活動が存在し、声の確率が低いとき、このより広いフィルタはより高い周波数に延長されてもよい。このフィルタリングは声に対して影響をもちうるので、風活動があり、声のそこそこの確率がある場合には、より短いフィルタが使用される。

〈時間周波数特性のスペクトル・フラックス制御〉
信号のスペクトル・フラックスは、信号のパワー（または他の振幅メトリック）スペクトルがどのくらい急速に変化しているかを決定するために基準として使われることができる。本発明のいくつかの実施形態では、スペクトル・フラックスは百分位数フィルタの特性を制御するために使われる。信号スペクトルがあまりに速く変化している場合、百分位数フィルタの時間次元は縮小されることができる。たとえば、スペクトル・フラックスがあらかじめ定義された閾値より上である場合、5点の記憶なしの周波数帯域のみの百分位数フィルタでエッジにおいて外挿されたものが使われる。さらに異なる実施形態では、通常は、5点の帯域から帯域にかけてのおよび3点の時間的なT型の時間‐周波数百分位数フィルタが使用され、一方、スペクトル・フラックスがあらかじめ定義された閾値より上の場合には、3かける3の5点のT型時間‐周波数百分位数フィルタリングが使用される。

〈百分位数値の制御〉
上記の百分位数フィルタリングは、たとえば3点、5点または7点の短いカーネルのフィルタのまわりで動作する。エッジ制約条件および長さに加えて、変えることのできる一つの特性は、どの百分位数値が計算されるかである。たとえば、5点百分位数フィルタについて、二番目に大きな値または二番目に高い値が、第50百分位数、すなわちメジアン値の代わりに選択されることができる。百分位数値は、信号分類によって制御されてもよい。たとえば、音声活動検出を含むある実施形態では、5点の周波数帯域から周波数帯域への記憶なしの百分位数フィルタリングが使用でき、VADが声が存在しない可能性が高いと判定するときは二番目に小さな値が選択され、VADが声が存在する可能性が高いと判定するときは二番目に大きな値が選択される。厳密な第50百分位数以外の使用は、各百分位数フィルタ・カーネルにおける偶数個のデータ点の使用をも許容する。たとえば、ある実施形態では、周波数帯域領域において5タップ、時間領域において2タップを有する6タップのT型の百分位数フィルタが使用される。VADが含まれる場合、百分位数フィルタは、声が存在する可能性が高いときは昇順で三番目に高い値（第60百分位数）を選択し、声が存在しない可能性が高いときは三番目に小さい値（第40百分位数）を選択するよう構成される。

〈百分位数計算の重み付け〉
いくつかの実施形態では、現在の時間における目標周波数帯域のまわりの利得値の集合の直接的な百分位数ではなく、百分位数フィルタリングにおいて使用される異なる周波数帯域（および可能性としては時間）位置が、異なる仕方で重み付けされる。たとえば、ある実施形態では、百分位数フィルタ母集団（population）における中央利得タップが複製される。そのような場合、図２のT型百分位数フィルタを考えると、現在の時間におけるb_Cと表わされる中央帯域は二回数えられ、百分位数フィルタの出力として百分位数値が使われる値は合計八つある。他の実施形態では、フィルタ・カーネル中の各位置は整数回数えられ、含まれる総数の値の百分位数が計算される。さらに他の実施形態では、非整数の重みが使われる。しかしながら、整数重みが低計算量という利点をもつ。重み付けされた百分位数利得値を決定するために乗算が必要とされないからである。

いくつかの実施形態では、百分位数フィルタリングにおいて使用される重み付けは信号の分類に依存させられる。音声活動検出が含まれるある実施形態では、たとえば、百分位数フィルタリングは、入力が声であると見なされるか否かに依存させられる。ある例示的な実施形態では、現在のフレームが声と分類される場合、隣接帯域より大きな重みが現在のフレームの中央帯域に置かれることができ、現在のフレームが声なしと分類される場合、中央帯域とその隣接帯域は均等に重みを割り当てられることができる。ある個別的な実施形態では、メジアン・フィルタにおける中央タップの重み付けは、声が存在する可能性が高いときには、音声活動検出器が声が存在することがありそうもないと判定するときに使われる重み付けに比べて、二倍にされる。

〈周波数帯域依存特性をもつ百分位数フィルタ〉
いくつかの実施形態では、百分位数フィルタの特性の一つまたは複数は、周波数帯域に依存させられる。たとえば、百分位数フィルタの（時間）深さおよび／または百分位数フィルタの（周波数帯域）幅は周波数帯域に依存する。たとえば、人間の発話における第二フォルマント（F2）はしばしば他のフィルマントより速く変動することが知られている。ある実施形態は、百分位数フィルタの（時間における）深さおよび（周波数帯域における）幅がF2のまわりでより小さくなるよう、百分位数フィルタを変化させる。音声活動検出（VAD）が使用されるある実施形態では、F2のまわりでの百分位数フィルタリングの量のこの低減は、VADが入力オーディオ信号が声である可能性が高いことを示す場合のみである。

上記の実施形態において、帯域分割は、知覚的または対数スケール上であることを注意しておく。提示される実施形態における提案されるフィルタ長は、約1ERBまたは0.5バークのフィルタ帯域間隔について、あるいは等価だが中央周波数の約10%の周波数離間をもつ諸帯域について適切である。本方法は線形な帯域間隔を含む他の帯域分割構造にも適用可能であることは明白であろうが、フィルタ長の値はしかるべくスケールすることになる。線形帯域構造では、百分位数、たとえばメジアン・フィルタの長さが周波数が上がるにつれて長くなるようにすることがより有意であろう。これは、対数的に離間されたフィルタバンク上での単一長のメジアン・フィルタを提案する上記の諸実施形態では含意されている。

上記の諸実施形態においてT型の百分位数メジアン・フィルタについて提案される3時間単位（フレーム）の深さがフィルタバンクのサンプリング区間に関係していることをも注意しておくべきである。上記の諸実施形態については、16msのサンプリング区間が使われ、提案されるメジアン・フィルタリングの程度として約48ないし64msの長さを与えた。このより長い長さは、フィルタバンク自身に起因する時間的な広がりを反映する。

上記の二つの点を考えると、以下の推奨は、任意のメジアンまたは百分位数フィルタリングについて提供される。

声の確率が低いと見なされるノイズ状況においては、帯域中心周波数の約±20%の周波数領域上のメジアン・フィルタリングが提案される（±10%ないし±30%の範囲は合理的と考えられる）。時間領域上の広がりは約48msである（32ないし64msの範囲は合理的と考えられる、あるいは信頼できる低レイテンシーのVAD、たとえば別個の信頼できる低レイテンシーのVADが利用可能であれば一層長くてもよい）。百分位数フィルタは、VADが声が存在しそうもないことを示すとき、20%ないし50%の範囲は合理的と考えられるが、メジアン以下である利得を選択するべきである。

声の確率が高いと見なされる有声状況においては、帯域中心周波数の約±10%の周波数領域上のメジアン・フィルタが提案される（5%ないし20%の範囲は合理的と考えられる）。時間領域上の広がりは現在時点のみを使う（0ms、ただし0ないし48msの範囲のデータが使用されるのは合理的と考えられる）。百分位数フィルタは、VADがノイズが存在しそうもないことを示すとき、50%ないし80%の範囲は合理的と考えられるが、メジアン以上である利得を選択するべきである。

〈例示的な音響ノイズ削減システム〉
音響ノイズ削減システムは典型的にはノイズ推定器と、たとえば一組の周波数帯域上で決定され、周波数領域に変換して前記一組の周波数帯域に帯域分割したあとの（ノイズのある）入力オーディオ信号に適用されてノイズ成分を減衰させる一組のノイズ削減利得を決定する利得計算モジュールとを含む。音響ノイズ削減システムは、一つのマイクロホン、あるいは異なる位置のマイクロホンからの複数の入力および一つの入力オーディオ信号を生成するための下方混合〔ダウンミキシング〕、たとえばビーム形成を含んでいてもよい。音響ノイズ削減システムはさらに、エコー削減を含んでいてもよく、さらに、位置外（out-of-location）信号削減を含んでいてもよい。

図４は、ノイズの抑制およびいくつかのバージョンでは同時のエコー抑制およびいくつかのバージョンでは位置外信号の同時の抑制のための、後処理された利得の集合を決定するよう構成された装置の一例を示している。そのようなシステムはたとえば米国仮出願第61/441,611号に記載されている。入力は一つまたは複数のオーディオ信号１０１、たとえば異なる位置のマイクロホンからの信号を含む。それぞれフレーム当たりMサンプルからなる諸集合をなす。空間的情報が含まれるとき、二つ以上の入力オーディオ信号、たとえば空間的に離間したマイクロホンからの信号がある。エコー抑制が含まれるときは、一つまたは複数の参照信号１０３も、M個のサンプルからなるフレームの形で受容される。これらはたとえば、一つまたは複数のラウドスピーカーからの一つまたは複数の信号であってもよく、あるいは別の実施形態では、ラウドスピーカーを駆動するために使われる信号であってもよい。第一の入力処理段４０３は、P'_bで表わされる帯域分割されたパワー（または他の振幅メトリック）スペクトル４１３およびY'_bで表わされる瞬時パワーの帯域分割された測度４１７を決定する。二つ以上の入力オーディオ信号が含まれるときは、スペクトル４１３および瞬時の帯域分割された測度４１７のそれぞれは、下方混合器、たとえばビーム形成器によって下方混合されたあとの入力のものである。エコー抑制が含まれるときは、第一の入力処理段４０３は、E'_bで表わされるエコーの帯域分割されたパワースペクトル推定値４１５をも決定する。この決定は、適応的に決定されるフィルタ係数の集合をもつフィルタを使って、エコーの、前に計算されたパワースペクトル推定値からである。位置外信号抑制を含むバージョンでは、第一の入力信号処理段４０３は、信号を所望される位置から発する成分と所望される方向からではない成分に空間的に分離するために使用可能な帯域分割された位置確率指標（location probability indicator）４１９の形で空間的特徴（spatial feature）４１９をも決定する。

第一段４０３からの量は、利得を決定し、該利得に対して本発明の諸実施形態の百分位数フィルタリングを含む後処理をして、帯域分割された後処理された利得１２５を決定する第二段４０５において使用される。第二段４０５の諸実施形態は、E'_bで表わされるノイズ・パワー（または他の振幅メトリック）スペクトルの測度を決定するノイズ・パワー（または他の振幅メトリック）スペクトル計算器４２１と、信号分類１１５を決定する信号分類器４２３、たとえば音声活動検出器（VAD）、風活動検出器およびパワー・フラックス計算器のうちの一つまたは複数とを含む。図４はVADを含む信号分類器４２３を示している。

図５は、図４の諸要素のある実施形態５００をより詳細に示しており、ノイズ、エコーおよび位置外ノイズ抑制のこの例示的実施形態については、後処理された利得１２５を適用した抑制器１３１と、出力信号１３７を生成する出力合成器（または変換器または再マッピング器）１３５とを含む。

図４と図５を比べると、図４の第一段の処理器４０３は、図５の要素５０３、５０５、５０７、５０９、５１１、５１３、５１５、５１７、５２１、５２３、５２５および５２７を含む。いくつかの詳細では、入力フレーム１０１は入力変換器（単数または複数）５０３によって変換されて、変換された入力信号ビンが決定される。周波数ビンの数はNで表わされる。二つ以上の入力オーディオ信号の場合、これらの周波数領域信号はビーム形成器５０７によってビーム形成されて、Y_n、n＝1,…,Nで表わされる入力周波数ビン・データを形成し、入力周波数ビン・データY_nはスペクトル帯域分割要素５０９によってB個のスペクトル帯域、ある実施形態では知覚的に離間されたスペクトル帯域に帯域分割され、パワーの瞬時の帯域分割された測度Y'_b、b＝1,…,Bを生成する。位置外抑制および二つ以上の入力オーディオ信号を含むバージョンでは、入力変換器５０３からの周波数領域信号は帯域分割された空間的特徴計算器によって受容され、それぞれ0から1までの間の、帯域分割された位置確率指標を決定する。エコー抑制を含むバージョンでは、二つ以上の参照信号、たとえばQ個の参照信号がある場合、それらの信号は組み合わせ器５１１、ある実施形態では総和器によって組み合わされ、組み合わされた参照入力を生成する。入力変換器５１３およびスペクトル帯域分割器５１５は該参照を、B個の帯域についてのX'_b、b＝1,…,Bで表わされる帯域分割された参照スペクトル内容に変換する。Lタップ線形予測フィルタ５１７が、LかけるBのフィルタ更新係数５２８を使って、帯域分割されたエコー・スペクトル内容E'_b、b＝1,…,Bを予測する。信号スペクトル計算器５２１は、（下方混合された）パワー（または他の振幅メトリック）スペクトルP'_b、b＝1,…,Bの測度を計算する。いくつかの実施形態では、Y'_bはP'_bに対する十分良好な近似として使われる。

フィルタ５１７についてのLBフィルタ係数は、適応フィルタ更新器５２７によって決定される。適応フィルタ更新器５２７は、現在の帯域分割されたエコー・スペクトル内容E'_b、（下方混合された）パワー（または他の振幅メトリック）スペクトルP'_bの測度、N'_b、b＝1,…,Bで表わされ、ノイズ計算器５２３によって瞬時パワーY'_bおよび信号スペクトル計算器５２１からの測度から決定される帯域分割されたノイズ・パワー（または他の振幅メトリック）スペクトル５２４を使う。更新は、Sで表わされる、音声活動検出器（VAD）５２５によってP'_b（またはY'_b）、N'_bおよびE'_bを使って決定される音声活動信号によってトリガーされる。Sが閾値を超えると、信号は声であると想定される。エコー更新音声活動検出器５２５において導出されるVADおよびフィルタ更新器５２７は、エコー予測の適応を制御するという特定の目的に資する。この目的をもつVADまたは検出器はしばしばダブルトーク検出器と称される。ある実施形態では、更新器５２７のエコー・フィルタ係数更新はゲーティングされ、更新は、VAD ５２５によって決定され、ローカル信号活動度Sの低い値によって示されるところにより、予期されるエコーが予期されるノイズおよび現在の入力パワーに比べて有意であるときに行なわれる。

図４および図５による第一段４０３の諸要素がいくつかの実施形態においてどのように動作するかの詳細は次のようになる。ある実施形態では、入力変換器５０３、５１１は短時間フーリエ変換（STFT）を決定する。別の実施形態では、下記の変換および逆の対が、要素５０３および５１１における順変換についておよび出力合成要素１３５において使われる。

ここで、i²＝−1であり、u_nおよびv_nは適切な窓関数であり、x_nは最後の2N個の入力サンプルを表わし、x_N-1が最も最近のサンプルであり、X_nは周波数の昇順にN個の複素数値の周波数ビンを表わす。逆変換または合成は、後半二つの式で表わされている。y_nは、指定された窓について適切な重複、加算および破棄に先立つ個々の逆変換から帰結する2N個の出力サンプルを表わす。この変換は、ブロック乗算およびFFTとして効率的な実装をもつことを注意しておくべきである。変換の上記の式におけるx_nおよびX_nの使用は便宜上のことであることを注意しておく。本開示の他の部分では、X_n、n＝1,…,N−1は下方混合された入力オーディオ信号の周波数ビンを表わす。

ある実施形態では、ある実施形態における上記の変換のための窓関数u_nおよびv_nは正弦波窓族であり、それについての一つの提案される実施形態は次のとおり。

当業者には、プロトタイプ・フィルタとしても知られる分解窓および合成窓は、本稿で与えられる例より大きいまたは小さい長さであってもよいことは明白であるはずである。

本発明は任意の下方混合された信号とともに機能するが、いくつかの実施形態では、下方混合器は、所望される位置のほうへの何らかの空間的選択性を達成するよう設計されたビーム形成器５０７である。ある実施形態では、ビーム形成器５０７は線形な時間不変なプロセス、すなわち、一般に各入力チャネルについての複素数値の周波数依存の利得の集合によって定義される受動的なビーム形成器である。所望される音源がアレイの真横に、すなわち垂直二等分線に位置している二マイクロホン・アレイの例については、ある実施形態は、ビーム形成器５０７について、二つの入力チャネルの単純な和を決定する受動的なビーム形成器１０７を使う。いくつかのバージョンでは、ビーム形成器５０７は、（諸周波数ビンとしての）入力の諸集合を、複素数値の重みの集合によって重み付けする。ある実施形態では、ビーム形成器１０７のビーム形成重みは、最大比合成（MRC: maximum-ratio combining）に従って決定される。もう一つの実施形態では、ビーム形成器５０７は、零強制（zero-forcing）を使って決定された重みを使う。そのような方法は当技術分野においてよく知られている。

スペクトル帯域分割要素５０９および５１４の帯域分割（banding）は次式によって記述できる。

ここで、Y'_bは下方混合された、たとえばビーム形成された信号の帯域分割された瞬時パワーであり、W_bは規格化利得であり、w_b,nは帯域分割行列からの要素である。

ある実施形態における信号スペクトル計算器５２１は平滑化プロセス

によって記述される。ここで、P'_bPREVは前に、たとえば最も最近に決定された信号パワー（または他の周波数領域振幅メトリック）推定値であり、α_P,bは時間信号推定時定数であり、Y'_minはオフセットである。信号推定時定数α_P,bについての好適な範囲は20から200msまでの間であることが見出された。ある実施形態では、オフセットY'_minは零レベルのパワースペクトル（または他の振幅メトリック・スペクトル）推定値を避けるために加えられる。Y'_minは、測定されることができ、あるいは先験的な知識に基づいて選択されることができる。Y'_minは、たとえば聴覚の閾値または装置ノイズ閾値に関係付けされることができる。

ある実施形態では、適応フィルタ５１７は、次式で記述されるLタップ適応フィルタを使って帯域bについてのT'_bで表わされる瞬時エコー・パワースペクトル（または他の振幅メトリック・スペクトル）を決定することを含む。

ここで、現在フレームはX'_b＝X'_b,0であり、X'_b,0,…,X'_b,l,…,X'_b,L-1は、現在フレームX'_b＝X'_b,0を含む（組み合わされた）帯域分割された参照信号X'_bのL個の最も最近のフレームである。所与の帯域bについてのL個のフィルタ係数はそれぞれF_b,0,…,F_b,l,…,F_b,L-1によって表わされる。

ある実施形態は、エコー予測フィルタ５１７からエコー・スペクトル推定値E'_bを決定する、瞬時エコーの時間的平滑化を含む。ある実施形態では、次のような一次の時間的平滑化フィルタが使われる。

ここで、E'_bPrevは、前に決定されたエコー・スペクトル推定値、たとえば最も最近に決定されたまたは他の前に決定された推定値であり、α_E,bは一次の平滑化時定数である。

ある実施形態では、ノイズ・パワースペクトル計算器５２３は、指数関数的成長のある最小追随手段（minimum follower）を使う。

ここで、α_N,bは、最小追随手段がノイズにおける何らかの増大を追跡するために増大することができる時間的なレートを指定するパラメータである。ある実施形態では、E'_bがN'_bPrevより小さいという基準は、E'_b＜N'_bPrev／2の場合、すなわち、（平滑化された）エコー・スペクトル推定値E'_bがN'_bの前の値の3dB下より小さい場合であり、その場合、ノイズ推定値は前記成長または現在のパワーに追随する。それ以外の場合には、N'_b＝N'_bPrevである、すなわちN'_bはN'_bの前の値に保持される。パラメータα_N,bは、最小追随手段が追跡する時間的レートを用いて表現するのが最善である。そのレートはdB/secで表現でき、よってこれはα_N,bの値を決定する機構を提供する。範囲は1ないし30dB/secである。ある実施形態では、20dB/secの値が使用される。

他の実施形態では、ノイズ推定のための種々のアプローチが使用されてもよい。そのような種々のアプローチの例は、信号観察の窓、たとえば1および10秒の窓にわたる最小を決定する代替的な処方法を含むがそれに限られるものではない。該最小に加えてまたはその代わりに、そのような種々のアプローチはまた、信号がノイズである可能性が高いまたは声がありそうもない時間の間に信号の平均および分散を決定してもよい。

ある実施形態では、最小追随手段の一つまたは複数の漏れレート（leak rate）パラメータは、音声活動検出（VAD）によって決定される音声が存在する確率によって制御される。ある実施形態では、VAD要素５２５はSで表わされる全体的な信号活動度レベルを次式のように決定する。

ここで、β_N、β_B＞1はそれぞれノイズおよびエコーのためのマージンであり、Y'_sensは設定可能な感度オフセットである。これらのパラメータは一般に、諸帯域を横断して変わりうる。ある実施形態では、β_N、β_Eの値は1から4までの間である。ある特定的な実施形態では、β_N、β_Eはそれぞれ2である。Y'_sensは、典型的なコンポーネントでの実験によって得られる、予期されるマイクロホンおよびシステムのノイズ・レベルの周辺であるよう設定される。あるいはまた、Y_sensの値を決定するために聴覚の閾値を使うことができる。

ある実施形態では、更新器５２７のエコー・フィルタ係数更新は次のようにゲーティングされる。ローカル信号活動度レベルが低い、たとえばあらかじめ決定された閾値S_threshより低い場合、すなわちS＜S_threshの場合、適応フィルタ係数は次のように更新される。

ここで、γ_Nは、ノイズとエコー推定値の間の安定性を保証するためにチューニングされるチューニング・パラメータである。γ_Nについての典型的な値は1.4（＋3dB）である。値1ないし4の範囲が使用できる。μは、エコー推定値の収束レートおよび安定性に影響するチューニング・パラメータである。0から1までの間の値が種々の実施形態において有用でありうる。ある実施形態では、フレーム・サイズMによらずμ＝0.1である。X'_sensは、小さな参照信号についての不安定な適応を避けるために設定される。ある実施形態では、X'_sensは聴覚の閾値に関係している。S_threshについての値の選択は帯域の数に依存する。S_threshは1からBまでの間であり、8kHzまでの24個の帯域をもつある実施形態については、好適な範囲は2から8までの間であることが見出された。ある特定的な実施形態は値4を使う。

本発明の諸実施形態は、特定の帯域bが関心対象空間領域から入射するエネルギーをもつ確率に対して単調である、帯域bにおける一つまたは複数の空間的特徴から決定される一つまたは複数の測度の形の空間的情報を使う。そのような量は、空間的確率指標（spatial probability indicator）と呼ばれる。ある実施形態では、前記一つまたは複数の空間的確率指標は、入力オーディオ信号の一つまたは複数の帯域分割され重み付けされた共変行列の関数である。N個の周波数ビンに関するP個の入力変換の出力X_p,n、p＝1,…,P、n＝0,…,N−1を与えられて、ビンnについてのP個の入力にわたる入力ベクトルとその共役転置との積を合計し、要素w_b,nをもつ帯域分割行列W_bによって重み付けすることによって、対応する重み付けされた共変行列の集合を構築する。

w_b,nは諸帯域への寄与のために各ビンがどのように重み付けされるかの指標を与える。いくつかの実施形態では、前記一つまたは複数の共変行列は時間的に平滑化される。いくつかの実施形態では、帯域分割行列は、重み付けされた移動平均のために、時間に依存する重み付けを含む。これは要素w_b,n,lをもつW_b,lで表わされ、lが時間フレームを表わす。よって、L個の時間フレームにわたって、

二つの入力P＝2の場合、

と定義すると、各帯域共変行列R'_bは2×2エルミート正定値行列であり、

である。ここで、上線は複素共役を示すために使われている。

空間的特徴「比」によって、帯域分割された大きさR'_b11/R'_b22の比に対して単調な量を表わすとする。ある実施形態では、次の対数関係が使われる。

ここで、σは特異性を避けるために加えられる小さなオフセットである。σはR'_b11についての最小の期待される値と考えることができる。ある実施形態では、σは、マイクロホンおよび関係する電子系についての帯域bにおけるノイズ・パワー（または他の周波数領域振幅メトリック）の決定されたまたは推定された（先験的な）値である。すなわち、使用される任意の前処理の最小感度である。

空間的特徴位相によって、tan^-1R'_b21に対して単調な量を表わすとする。

Phase'_b＝tan^-1R'_b21
空間的特徴「コヒーレンス」によって、R'_b21R'_b12／R'_b11R'_b22に対して単調な量を表わすとする。いくつかの実施形態では、コヒーレンスの関係する測度が使われることができる。たとえば、2R'_b21R'_b12／（R'_b11R'_b11＋R'_b22R'_b22）または共変行列の条件付け（conditioning）、ランク（rank）または固有値広がり（eigenvalue spread）に関係した値である。ある実施形態では、コヒーレンス特徴は

であり、オフセットσは上記で定義したとおりである。

ノイズ、エコーおよび位置外信号抑制のいくつかの実施形態の一つの特徴は、所望される信号特徴の先験的な期待されるまたは現在の推定値――たとえば統計的データから集められる空間的位置を表わす目標値――に基づいて、各帯域における各空間的特徴は、帯域bについての特徴についての確率指標を生成するために使われることができる。

ある実施形態では、所望される位置についての期待される空間的特徴の分布は、ガウス分布としてモデル化される。ガウス分布は、各空間的特徴および帯域から導出される確率指標のために関心領域を捕捉する堅牢な方法を呈する。

三つの空間的確率指標がこれら三つの空間的特徴に関係しており、RPI'_bで表わされる比確率指標（ratio probability indicator）、PPI'_bで表わされる位相確率指標（phase probability indicator）およびCPI'_bで表わされるコヒーレンス確率指標（coherence probability indicator）である。ここで、

ここで、ΔRatio'_b＝Ratio'_b−Ratio_targetbおよびRatio_targetbは、先験的な推定または使用された設備、たとえばヘッドセットでの実験から、たとえば図９Ａに示されるようなデータから決定される。

関数f_Rb(ΔRatio')はなめらかな関数である。ある実施形態では、比確率指標関数は

である。ここで、Width_Ratio,bは対数単位、たとえばdBで表わした幅チューニング・パラメータである。Width_Ratio,bは実際のデータに関係しているが、実際のデータから決定される必要はない。これは、通常の状態およびノイズのある状態において空間的特徴の期待される変動をカバーするよう設定されるが、全体的なシステムが所望される抑制を達成するというコンテキストにおいて必要とされるくらい狭いだけでよい。

位相確率指標については、

であり、ΔPhase'_b＝Phase'_b−Phase_targetbおよびPhase_targetbは、先験的な推定または使用された設備、たとえばヘッドセットでの実験から決定され、たとえばデータから得られる。

関数f_Pb(ΔPhase')はなめらかな関数である。ある実施形態では、

である。ここで、Width_Phase,bは位相の単位で表わした幅チューニング・パラメータである。ある実施形態では、Width_Phase,bは実際のデータに関係しているが、実際のデータから決定される必要はない。

コヒーレンス確率指標については、目標は使用されず、ある実施形態では、

であり、CFactr_bは、0.1から10の範囲の一定値であってもよいチューニング・パラメータである。ある実施形態では、値0.25が有効であることが見出された。

図６は、生の利得の、要素５２９における計算の一例を示しており、空間的な感度のある音声活動検出器（VAD）６２１および風活動検出器（WAD）６２３を含んでいる。ノイズ削減の代替的なバージョンは、WADまたは空間的な感度をもつVADを含まなくてもよく、さらに、エコー抑制または他の削減を含まなくてもよい。さらに、図６に示した実施形態は、追加的なエコー抑制を含むが、これはより単純なバージョンでは含まれなくてもよい。

ある実施形態では、空間的確率指標は、ビーム利得と称されるものを決定するために使われる。これは、BeamGain'_bと表わされる統計的な量であって、たとえばビーム外スペクトル計算器６０３を使って、全パワーからビーム内およびビーム外のパワーを推定するために使用でき、さらに、空間的抑制利得計算器６１１によってビーム外抑制利得を決定するために使用できる。慣習により、本稿に提示される実施形態では、確率指標は、ビーム利得が最大値1をもつようスケーリングされる。

ある実施形態では、ビーム利得は
BeamGain'_b＝BeamGain_min＋(1−BeamGain_min)RPI'_b・PPI'_b・CPI'_b
である。

いくつかの実施形態は、0.01から0.3（−40dBから−10dB）のBeamGain_minを使う。ある実施形態は0.1のBeamGain_minを使う。

ビーム内およびビーム外パワーは次のようになる。

Power'_b,InBeam＝BeamGain'_b ²Y'_b
Power'_b,OutOfBeam＝(1−BeamGain'_b ²)Y'_b
Power'_b,InBeamおよびPower'_b,OutOfBeamは抑制のために使われる統計的測度であることを注意しておく。

要素６０３のあるバージョンでは、次のようになる。

Power'_b,OutOfBeam＝[0.1＋0.9(1−BeamGain_b ²)]Y'_b
利得計算の一つのバージョンは、ノイズ・パワー（または振幅の他のメトリック）スペクトルの推定値を決定する、空間的に選択的なノイズ・パワースペクトル計算器６０５を使う。本発明のある実施形態は、追跡レートが少なくとも一つの漏れレート・パラメータによって決定される、漏れのある最小追随手段（leaky minimum follower）を使う。漏れレート・パラメータは、エコー係数更新において使われる非空間選択的なノイズ推定についてと同じである必要はない。N'_b,Sによって、空間選択的なノイズ・スペクトル推定値を表わすとする。ある実施形態では、次のようになる。

ここで、N'_b,SPrevは、N'_b,Sの、すでに決定された、すなわち前の値である。漏れレート・パラメータα_bはdB/s単位で表わされ、Tで表わされるフレーム時間について、(1＋α_b)^1/Tが、声の確率が低ければ1.2から4までの間にあり、声の確率が高ければ1であるようなものである。α_bの公称値は3dB/sであり、(1＋α_b)^1/T＝1.4となる。

いくつかの実施形態では、ノイズ推定値にバイアスを加えるのを避けるために、エコー・ゲーティングが使われる。すなわち、

すなわち、ノイズ推定値は、前のノイズ推定値がノイズ・レベルがより大きい、たとえば現在のエコー予測の二倍より大きいことを示唆する場合にのみ、更新される。そうしないと、エコーがノイズ推定値にバイアスをかけてしまう。

図４、図５および図６に示されるノイズ削減器の一つの特徴は、１）空間選択的なノイズ推定値に基づくノイズおよび２）ビーム外信号を同時に抑制することを含む。利得計算器５２９は、ノイズ・パワー（または他の周波数領域振幅メトリック）スペクトルの空間選択的な推定値およびさらに特定の帯域における瞬時の帯域分割された入力パワーY'_bに基づいて、中間信号、たとえば周波数ビンY_nのための利得として表わされる確率指標を計算する要素６１３を含む。簡単のため、この確率指標は利得と称され、Gain_Nで表わされる。しかしながら、この利得Gain_Nが直接適用されるのではなく、追加的な利得、すなわち追加的な確率指標と利得組み合わせ器６１５において組み合わされて、単一の抑制アクションを達成するために適用する単一の利得を達成することを注意しておくべきである。

要素６１３はエコー抑制をもつものとして示されているが、いくつかのバージョンではエコー抑制を含まない。

計算量および効果の点で効果的であると見出された表式は次によって与えられる。

ここで、Y'_bは瞬時の帯域分割されたパワー（または他の周波数領域振幅メトリック）であり、N'_b,Sは帯域分割された空間選択的な（ビーム外）ノイズ推定値であり、β'_Nは典型的には1から4の範囲のスケーリング・パラメータである。あるバージョンでは、β'_N＝1.5である。パラメータGainExpは、積極性、あるいは抑制利得の抑制から伝達への遷移のレートの制御である。この指数は一般に、0.25から4の範囲の値を取る。あるバージョンでは、GainExp＝2である。

〈エコー抑制の追加〉
ノイズ削減のための入力処理のいくつかの実施形態は、ノイズ抑制のみならず、同時のエコーの抑制をも含む。利得計算器５２９のいくつかの実施形態では、要素６１３はエコー抑制を含み、利得計算器５２９において、エコーを抑制するための確率指標がGain'_b,N+Eで表わされる利得として表現される。上記のノイズ抑制利得表式は、エコー抑制をも含む場合、次のようになる。

ここで、Y'_bはやはり瞬時の帯域分割されたパワーであり、N'_b,S、E'_bは帯域分割された空間選択的なノイズおよび帯域分割されたエコー推定値であり、β'_N、β'_Eは1から4の範囲のスケーリング・パラメータであり、ノイズおよびエコー推定値における誤差を斟酌し、利得曲線をしかるべくオフセットするものである。ここでもまた、これらは、VAD関数において使われる定数と目的および大きさにおいて同様であるが、必ずしも同じ値ではない。ある実施形態では、好適なチューニングされた値はβ'_N＝1.5、β'_E＝1.4、GainExp_bはbのすべての値について2である。

本稿に記載されるGain'_N+Eについての表式のいくつかは、分子および分母の両方において瞬時の帯域分割された入力パワー（または他の周波数領域振幅メトリック）Y'_bをもつ。これは、帯域分割が本稿に記載されるように、対数様の周波数帯域または知覚的に離間された周波数帯域を用いて適正に設計されているときに、よく機能する。本発明の代替的な諸実施形態では、分母は推定された帯域分割されたパワースペクトル（または他の振幅メトリック・スペクトル）P'_bを使い、それによりGain'_b,N+Eについての上記の表式は次のようになる。

〈エコー抑制の追加的な独立した制御〉
上記の抑制利得の表式は、瞬時入力パワーの、時に簡単のため「ノイズ」と呼ばれる予期される望ましくない信号パワーに対する比の定義域上での関数として一般化されることができる。これらの利得表式では、望ましくない信号パワーは、推定される（位置に敏感な）ノイズ・パワーと予測されるもしくは推定されるエコー・パワーとの和である。このようにしてノイズとエコーを組み合わせることは、望ましくないノイズおよび望ましくないエコーの両方の同時の減衰を引き起こす抑制利得の形の単一の確率指標を与える。

いくつかの場合には、たとえばエコーがノイズのレベルより実質的に高いレベルを達成できる場合には、そのような抑制は十分なエコー減衰につながらないことがある。たとえば、いくつかのアプリケーションでは、一般にはいかなるエコーも可聴に至らないまでに抑制されることが要求される一方、周辺ノイズの穏やかな削減のみが必要であることがある。そのような所望される効果を達成するために、ある実施形態では、確率指標または利得の追加的なスケーリングが使われ、そのような追加的なスケーリングは、入力オーディオ信号のエコー・パワーに対する比のみに基づく。

f_A(・)、f_B(・)によって一対の抑制利得関数を表わすとする。それぞれは、たとえば上記のような、たとえばなめらかであることを含む、抑制利得のための所望される属性をもつ。一例として、f_A(・)、f_B(・)のそれぞれはS字関数特性をもつ。いくつかの実施形態では、利得表式がf_A(Y'_b／(N'_b,S＋E'_b))として定義されるのではなく、代わりに一対の確率指標、たとえば利得f_A(Y'_b／N'_b,S)およびf_B(Y'_b／E'_b)を使い、f_A(Y'_b／N'_b,S)およびf_B(Y'_b／E'_b)から組み合わされた利得因子を決定することができる。これは、ノイズおよびエコーの信号パワーへの応答のための積極性および深さの独立した制御を許容する。さらにもう一つの実施形態では、f_A(Y'_b／(N'_b,S＋E'_b))はノイズおよびエコー抑制両方に適用されることができ、f_B(Y'_b／E'_b)は追加的なエコー抑制のために適用されることができる。

ある実施形態では、二つの関数f_A(Y'_b／N'_b,S)、f_B(Y'_b／E'_b)または別の実施形態では二つの関数、f_A(Y'_b／(N'_b,S＋E'_b))、f_B(Y'_b／E'_b)が積として組み合わされて、抑制利得として組み合わされた確率指標を達成する。

〈位置外信号の同時抑制のための抑制利得の組み合わせ〉
ある実施形態では、空間的抑制利得と呼ばれ、Gain'_b,Sで表わされる、ビーム利得６１２として表現される、ビーム内信号についての抑制確率指標は、要素５２９（図５）内の空間的抑制利得計算器６１１によって、
Gain'_b,S＝BeamGain_b＝BeamGain_min＋(1−BeamGain_min)RPI'_b・PPI'_b・CPI'_b
として決定される。

空間的抑制利得６１２は利得組み合わせ器６１５において他の抑制利得と組み合わされて、抑制利得として表現された全体的な確率指標を形成する。利得Gain'_b,RAWとして表現される、ノイズ、エコーおよびビーム外信号の同時抑制のための全体的な確率指標は、ある実施形態では、上記の利得の積：
Gain'_b,RAW＝Gain'_b,S・Gain'_b,N+E
である。

ある代替的な実施形態では、追加的な平滑化が適用される。利得要素６１５のある例示的な実施形態では、
Gain'_b,RAW＝0.1＋0.9Gain'_b,S・Gain'_b,N+E
である。ここで、最小利得0.1および0.9＝(1−0.1)の因子は、異なる実施形態については、利得についての異なる最小値を達成するために変えることができる。提案される範囲は0.001から0.3（−60dBから−10dB）である。

Gain'_b,RAWについての上記の表式は、ノイズおよびエコーを等しく抑制する。上記で論じたように、ノイズは完全にはなくさないがエコーは完全になくすことが望ましいことがありうる。利得決定のあるそのような実施形態では、
Gain'_b,RAW＝0.1＋0.9Gain'_b,S・f_A(Y'_b／(N'_b,S＋E'_b))・f_B(Y'_b／E'_b)
であり、ここで、f_A(Y'_b／(N'_b,S＋E'_b))はノイズおよびエコー両方の（比較的）穏やかな抑制を達成し、f_B(Y'_b／E'_b)はエコーをさらに抑制する。ある異なる実施形態では、f_A(・)はノイズのみを抑制し、f_B(・)はエコーを抑制する。

さらにもう一つの実施形態では、
Gain'_b,RAW＝0.1＋0.9Gain'_b,S・Gain'_b,N+E
であり、ここで、
Gain'_b,E+B＝（0.1＋0.9f_A(Y'_b／(N'_b,S＋E'_b))）・（0.1＋0.9f_B(Y'_b／E'_b)）
である。

いくつかの実施形態では、ノイズおよびエコー抑制利得は、空間的特徴確率指標または利得と組み合わされて、生の組み合わされた利得を形成し、次いで、安定性および他の所望される振る舞いを保証するよう後処理器６２５および後処理段階によって後処理される。

もう一つの実施形態では、エコー抑制に固有の利得関数f_B(Y'_b／E'_b)は、後処理器６２５による後処理後に利得として適用される。利得計算器５２９のいくつかの実施形態は、追加的なエコー抑制利得の決定器と、該追加的なエコー抑制利得を後処理された利得と組み合わせて適用すべき全体的なB個の利得を生じる組み合わせ器６２７とを含む。本発明者は、そのような実施形態が、エコーのより特定的かつより深い減衰を提供できることを発見した。エコー確率指標または利得f_B(Y'_b／E'_b)が、後処理によって課される平滑化および連続性にかけられないからである。

図７は、たとえば異なる位置のマイクロホンからの、P≧1個の信号入力１０１中のノイズおよび位置外信号およびいくつかの実施形態ではエコーを抑制する処理装置１００の動作方法７００のフローチャートを示している。エコー抑制を含む実施形態では、方法７００は、Q≧1個の参照入力１０２、たとえばQ個のラウドスピーカー上でレンダリングされるべきQ個の入力またはQ個のラウドスピーカーから得られた信号を処理することを含む。

ある実施形態では、方法７００は、当該処理装置において、複数のサンプリングされた入力オーディオ信号１０１を受け容れ７０１、複数の周波数帯域についての、入力オーディオ信号１０１の、下方混合された帯域分割された瞬時周波数領域振幅メトリック４１７を形成する７０３、７０７、７０９ことを含む。該形成は、一組の周波数ビンについての複素数値の周波数領域値に変換する７０３ことを含む。ある実施形態では、該変換は、７０３において、入力オーディオ信号を周波数ビンに変換し、周波数データを下方混合、たとえばビーム形成７０７し、７０９において、帯域分割することを含む。７１１では、本方法は、信号のパワー（または他の振幅メトリック）スペクトルを計算することを含む。代替的な実施形態では、下方混合は変換の前であってもよく、よって単一の下方混合された信号が変換される。代替的な実施形態では、システムは、実現されるシステム内の別の処理コンポーネントまたは源によって提供される、帯域分割されたエコー参照の推定またはエコー参照の周波数領域スペクトルの同様の表現を利用してもよい。

本方法は、７０５において帯域分割された空間的特徴、たとえば位置確率指標４１９を、前記複数のサンプリングされた入力オーディオ信号から決定することを含む。

同時のエコー抑制を含む実施形態では、本方法は、一つまたは複数の参照信号を受け容れ７１３、該一つまたは複数の参照信号の帯域分割された周波数領域振幅メトリック表現を形成する７１５および７１７ことを含む。前記表現はある実施形態では和である。やはりエコー抑制を含む実施形態では、本方法は、適応的に決定されるエコー・フィルタ係数を使ってエコーの帯域分割された周波数領域振幅メトリック表現４１５を予測する７２１ことを含む。該予測はある実施形態ではさらに、音声活動検出――VAD――を含む。VADは、下方混合された信号４１３の帯域分割されたスペクトル振幅メトリックの推定値と、ノイズの帯域分割されたスペクトル振幅メトリックの推定値と、前に予測されたエコー・スペクトル内容４１５とを使う。上記係数は、音声活動検出の結果に応じて、更新されたりされなかったりする。更新は、ノイズの帯域分割されたスペクトル振幅メトリックの推定値と、前に予測されたエコー・スペクトル内容４１５と、下方混合された信号の帯域分割されたスペクトル振幅メトリックの推定値４１３とを使う。下方混合された信号の帯域分割されたスペクトル振幅メトリックの推定値は、ある実施形態では、入力オーディオ信号の、下方混合された帯域分割された瞬時周波数領域振幅メトリック４１７である。一方、他の実施形態では、単一のスペクトル推定が使われる。

いくつかの実施形態では、方法７００は：ａ）前記空間的特徴４１９の二つ以上を使って決定される位置外信号利得および空間選択的ノイズ・スペクトル内容を使って決定されるノイズ抑制利得を含む生の抑制利得を７２３において計算し；ｂ）それらの生の抑制利得を組み合わせて各帯域についての第一の組み合わされた利得にすることを含む。ノイズ抑制利得はいくつかの実施形態では、エコーの抑制を含み、その計算７２３は予測されたエコー・スペクトル内容４１５をも使う。

いくつかの実施形態では、方法７００はさらに、７２５において、前記空間的特徴４１９の二つ以上を使って決定される空間選択的な音声活動検出を実行して、信号分類、たとえば声か否かを生成することを含む。いくつかの実施形態では、風検出が使われ、信号分類はさらに信号が風か否かを含む。

方法７００はさらに、帯域の第一の組み合わされた利得に対する後処理を実行して、後処理された利得１２５を各帯域について生成することを含む。いくつかの実施形態では、後処理は、最小利得を、たとえば帯域依存の仕方で保証することを含む。本発明の実施形態の一つの特徴は、たとえば突出値利得がないことを保証するために、後処理が、組み合わされた利得の百分位数フィルタリングを実行することを含むということである。いくつかの実施形態では、百分位数フィルタリングは、時間‐周波数式に実行される。後処理のいくつかの実施形態は、時間および／または帯域間の平滑化を実行することによってなめらかさを保証することを含む。

いくつかの実施形態では、後処理７２５は、信号分類、たとえば声か否かまたは風か否かに基づき、いくつかの実施形態では、百分位数フィルタリングの特性は、信号分類、たとえば声か否かまたは風か否かに応じて変わる。

エコー抑制が含まれるある実施形態では、本方法は、７２６において追加的なエコー抑制利得を計算することを含む。ある実施形態では、追加的なエコー抑制利得は、各帯域についての最終利得として使われる第一の組み合わされた利得に含まれ、別の実施形態では、追加的なエコー抑制利得は、第一の組み合わされた利得を後処理して各帯域についての最終利得を生成する結果と組み合わされる。

本方法は、７２７において、最終利得を適用する段階であって、ビン・データについての利得を補間して下方混合された信号のビン・データに対して抑制を実行して抑制された信号データ１３３を形成することを含む段階と、７２９において、ａ）出力サンプルを生成するための出力合成および変換ならびにｂ）出力周波数ビンを生成するための出力再マッピングの一方または両方を適用する段階とを含む。

典型的には、P≧2かつQ≧1である。しかしながら、本稿に開示される方法、システムおよび装置は、P＝1、Q≧1およびP≧2、Q＝0のより単純な場合にも有効なままでスケールダウンできる。本稿に開示される方法および装置は、P＝1、Q＝0についてもそこそこよく機能する。この最後の例は提示される発明の縮小された、おそらくはトリビアルな実施形態であるが、提案される枠組みがスケーリングできることは有利でありさらに、たとえばセンサーまたはマイクロホンの障害のために入力オーディオ信号または参照信号の一つまたは複数が破損または利用不能になる場合、実際上、より低い信号動作ケースが要求されることがありうる。

本開示は、同時のエコー、ノイズおよび空間的位置外の抑制を含む抑制のすべての側面を含む完全なノイズ削減方法（図７）、システムまたは装置（図５、図６）について提示されている、あるいは処理システム（後述する図８参照）の一つまたは複数のプロセッサによって実行されたときに該処理システムを含む処理装置に図７のような方法を実行させる命令を含むコンピュータ可読記憶媒体として提示されているが、例示的な実施形態は、より単純な応用および状況のためのスケーラブルな解決策をも提供することを注意しておく。さらに、ノイズ削減は、本発明の実施形態において記述される百分位数フィルタリングを含む後処理方法によって後処理されることができる利得を決定する入力処理の一例でしかない。

〈処理システム・ベースの装置〉
図８は、たとえばマイクロホン（図示せず）からの一つまたは複数のオーディオ入力１０１を処理するためのある処理装置実施形態８００の簡略化されたブロック図を示している。処理装置８００は、一組の利得を決定し、決定された利得を百分位数フィルタリングすることを含め、利得を後処理し、利得の適用によって修正されたオーディオ出力１３７を生成するものである。あるバージョンは、知覚的ドメイン・ベース平準化、知覚的ドメイン・ベース・ダイナミックレンジ制御および知覚的ドメイン・ベース動的等化を含み、これはオーディオ信号の再生レベルに依存するオーディオの知覚における変動を考慮に入れる。別のバージョンはノイズ削減を達成した。

あるノイズ削減バージョンは、エコー削減を含み、そのようなバージョンでは、処理装置は、たとえば一つまたは複数のラウドスピーカー（図示せず）からまたはそのようなラウドスピーカーへのフィード（単数または複数）から一つまたは複数の参照信号１０３をも受け容れる。そのようなあるノイズ削減バージョンでは、処理装置８００は、本発明の一つまたは複数の特徴に従って規定されるように、ある実施形態ではノイズおよび位置外信号を、別の実施形態ではエコーをも抑制することによって修正されたオーディオ出力１３７を生成する。本装置は、たとえば、図６に示されるシステムおよびその任意の代替を実装でき、動作するときに、本稿に記載される方法の任意の変形を含め図７の方法を実行できる。そのような装置は、たとえば、ブルートゥース・ヘッドセットのようなヘッドフォン・セットに含まれてもよい。オーディオ入力１０１、参照入力（単数または複数）１０３およびオーディオ出力１３７は、サンプリングされたデータのM個のサンプルからなるフレームの形であると想定される。アナログ入力の場合、アナログ‐デジタル変換器および量子化器を含むデジタイザーが存在するであろう。オーディオ再生のためには、量子化解除器およびデジタル‐アナログ変換器が存在するであろう。完全なオーディオ処理システム、たとえばヘッドセット・デバイスに含まれることがあるそのようなおよびその他の要素は割愛されている。そのような要素をいかにして含めるかは、当業者には明らかであろう。

図８に示した実施形態は、動作において、本稿に記載される抑制方法を実行するよう構成された処理システム８０３を含む。処理システム８０３は、少なくとも一つのプロセッサ８０５を含む。これは、デジタル信号処理装置の処理ユニット（単数または複数）またはより汎用の処理装置のCPUであることができる。処理システム８０３は、典型的には一つまたは複数のメモリ要素を含む記憶サブシステム８０７をも含む。処理システムの要素は、たとえばバス・サブシステムまたは図８に示されない他の何らかの相互接続機構によって結合される。処理システム８０３の要素のいくつかは、当業者に普通に知られている技法を使って、単一の回路中に統合されてもよい。

記憶サブシステム８０７は、プロセッサ８０５によって実行されたときに本稿に記載される方法の実行を引き起こす命令８１１を含んでいる。

いくつかの実施形態では、記憶サブシステム８０７は、処理システム８０３によって実行される処理段階のいくつかを変えるために使用できる一つまたは複数のチューニング・パラメータ８１３を記憶するよう構成されている。

図８に示したシステムは、ヘッドセット、たとえば無線ブルートゥース・ヘッドセットのような特化した装置に組み込まれることができる。システムはまた、オーディオ信号を処理するよう構成された汎用コンピュータ、たとえばパーソナル・コンピュータの一部であることができる。

〈設定可能な感度をもつ音声活動検出〉
本発明のいくつかの実施形態では、後処理、たとえば百分位数フィルタリングは、VADによって決定される信号分類によって制御される。本発明は、いかなる特定の型のVADにも限定されるものではなく、多くのVADが当技術分野において知られている。抑制に適用されるとき、発明者は、全ユーザーにとっての「最適」VADをもつのではなく、抑制システムの異なる部分が異なるVADによって制御され、それぞれのそのようなVADがそれが使われる抑制器の機能のためにカスタム設計されるときに、抑制が最もよく機能することを発見した。したがって、ノイズ削減のための入力処理のいくつかのバージョンでは、複数のVADがそれぞれ、感度および空間的選択性を含む選択性を別個に制御するチューニング・パラメータの小さな集合によって制御され、そのようなパラメータはVADが使われる抑制要素に応じてチューニングされる。前記複数のVADのそれぞれは、Y'_bから音声活動度の指示を決定するユニバーサルVADのインスタンス化である。ユニバーサルVADは、一組のパラメータによって制御され、ノイズ・スペクトル内容の推定値と、エコーの帯域分割された周波数領域振幅メトリック表現と、帯域分割された空間的特徴とを使う。前記一組のパラメータは、ノイズ・スペクトル内容の推定値が空間的に選択性であるか否かを含む。特定のインスタンス化が決定する音声活動の指示の型は、上記パラメータの選択によって制御される。

一般的な空間選択的なVAD構造――さまざまな機能のためにチューニングできる音声活動度を計算するためのユニバーサルVAD――の一つの実施形態は、

である。ここで、BeamGain'_b＝BeamGain_min＋(1−BeamGain_min)RPI'_b・PPI'_b・CPI'_bであり、BeamGainExpは、より大きな値についてはVADの空間的選択性の積極性を増し、非空間選択的なVADについては0であるパラメータである。N'_b∨N'_b,Sは、ビーム外パワー（または他の周波数領域振幅メトリック）を使って決定された全ノイズ・パワー（または他の周波数領域振幅メトリック）推定値N'_bまたは空間選択的なノイズ推定値N'_b,Sを表わす。β_N、β_E＞1は、それぞれノイズおよびエコーのためのマージンであり、Y'_sensは設定可能な感度オフセットである。こβ_N、β_Eの値は1から4までの間である。BeamGainExpは、空間的選択性が所望されるときは0.5から2.0までの間であり、たとえば本発明のいくつかの実施形態における後処理を制御するために使われる空間選択的なVADのある実施形態については1.5である。RPI'_b、PPI'_bおよびCPI'_bは上記のように、三つの空間的確率指標、すなわち比確率指標、位相確率指標およびコヒーレンス確率指標である。

上記の表式は、ユニバーサル音声活動検出方法の動作をも制御する。

音声指標値Sを生成するための任意の所与の一組のパラメータについて、声の存在を示すものとして試験S＞S_threshを考えることによって、二分決定または二項分類器が得られる。値Sが瞬時声レベルの連続的な指標として使用できることも明白であるはずである。さらに、伝達制御または後処理の制御といった動作のための改善された有用なユニバーサルVADが、好適な「ハングオーバー」または検出されたイベント後の声の継続される指示の期間を使って得られる。そのようなハングオーバー期間は0から500msまで変わりうる。ある実施形態では、200msの値が使用された。ハングオーバー期間中は、活性化閾値をたとえば因子2/3によって低下させることが有用であることがある。これは、ひとたび語りバーストが始まったときに、声に対する増大した感度および安定性を作り出す。

たとえば空間選択的なVADについての一つまたは複数の後処理動作を制御するための空間選択的な音声活動検出について、上記の表式におけるノイズは、ビーム外のパワー（または他の周波数領域振幅メトリック）の推定値を使って決定される、N'_b,Sである。Y_sensは、典型的なコンポーネントでの実験によって得られる、予期されるマイクロホンおよびシステムのノイズ・レベルの周辺に設定される。

〈百分位数フィルタリング結果の例〉
図９は、VADについての入力波形および対応するVAD値を示している。ここで、0は無声を示し、1は有声の発話を示す。ノイズのある発話は、クリーンな発話と自動車ノイズとの、0dBの信号対雑音比（SNR）での混合である。

図１０は、本発明のある実施形態を含む種々のメジアン・フィルタリング戦略を使って処理された波形を示す、（ａ）ないし（ｅ）で表わす五つのプロットを示している。図１０における結果（ａ）は、いかなる後処理もなしで生の利得を使った結果である。図１０における結果（ｂ）は、無声については5点の周波数のみのメジアン・フィルタを使い、有声については3点の周波数のみのメジアン・フィルタを使った結果である。図１０における結果（ｃ）は、無声については7点の周波数のみのメジアン・フィルタを使い、有声については5点の周波数のみのメジアン・フィルタを使った結果である。図１０における結果（ｄ）は、3点の時間のみのメジアン・フィルタを使っただけの結果である。図１０における結果（ｅ）は、無声については7点の時間‐周波数メジアン・フィルタを使い、有声については5点の時間‐周波数メジアン・フィルタを使った結果である。本発明の百分位数フィルタリング方法の実施形態を使っている図１０の結果（ｅ）が、周波数のみのアプローチおよび時間のみのメジアン・フィルタリングと比べ、ずっとなめらかな時間的包絡線を示すことが明らかである。知覚的な聴取も、提案されるフィルタが、より少数のアーチファクトを含む、より快い出力を生成することを確証している。しかしながら、本発明者は、時には、生の後処理されない利得を使うよりも、音声開始時にやや大きな歪みがあることに気づいた。だが、この減衰は図１０に示した例を含め、たいていの場合、かろうじて知覚可能な程度である。ある改善された実施形態では、VADは、たとえば空間選択的なパラメータを使って、より敏感になるようチューニングされ、時間的な百分位数フィルタリングはなくされた（すなわち、声の始まりが検出されるときに百分位数フィルタが周波数帯域のみのフィルタに変更された）。

図９および図１０の例は、音声信号についての時間‐周波数メジアン・フィルタの利点を実証している。ノイズに対するその影響をさらに例解するために、自動車ノイズのセグメントが処理された。図１１は、自動車ノイズのセグメントの入力波形と、対応するVAD値を示している。図１２は、本発明のある実施形態を含む種々のメジアン・フィルタリング方法を使って図１１の自動車ノイズのセグメントについて、（ａ）ないし（ｅ）で表わされる処理された出力を示す。図１１の縦軸は例解目的のために[−0.1,0.1]にスケーリングしてある。図１２における結果（ａ）は、いかなる後処理もなしで生の利得を使った結果である。図１２における結果（ｂ）は、無声については5点の周波数のみのメジアン・フィルタを（そして、ここでは現われない有声については3点の周波数のみのメジアン・フィルタを）使った結果である。図１２における結果（ｃ）は、無声については7点の周波数のみのメジアン・フィルタを使い、有声については5点の周波数のみのメジアン・フィルタを使った結果である（有声はここでは存在しない）。図１２における結果（ｄ）は、3点の時間のみのメジアン・フィルタを使っただけの結果である。図１２における結果（ｅ）は、無声については7点の時間‐周波数メジアン・フィルタを使い、有声については5点の時間‐周波数メジアン・フィルタを使った結果である（ここでは有声はない）。本発明の百分位数フィルタリング方法の実施形態を使っている図１２の結果（ｅ）が、より低いノイズフロアをもつ、ずっとなめらかな結果を示すことが明らかである。

〈一般〉
本明細書を通じて、「処理」、「コンピューティング」、「計算」、「決定／判定／判別」などといった用語を使っての議論は、限定するものではないが、回路またはコンピュータまたはコンピューティング・システムまたは同様の電子コンピューティング装置または他のハードウェアの、電子的な量などの物理的な量として表現されたデータを操作および／または変換して物理的な量として同様に表現された他のデータにするアクションおよび／またはプロセスを指しうることが理解される。

同様に、用語「プロセッサ」は、たとえばレジスタおよび／またはメモリからの電子データを処理して、該電子データを、たとえばレジスタおよび／またはメモリに記憶されうる他の電子データに変換する任意の装置または装置の部分を指しうる。「コンピュータ」または「コンピューティング機械」または「コンピューティング・プラットフォーム」は一つまたは複数のプロセッサを含みうる。

いくつかの要素、たとえばいくつかの段階を含む方法が記述されるとき、明示的に述べられるのでない限り、そのような要素の、たとえばそのような段階の順序は含意されない。

本稿に記載される方法論は、いくつかの実施形態では、一つまたは複数のコンピュータ可読媒体上にエンコードされた論理：命令を受け容れる一つまたは複数のプロセッサによって実行可能である。前記プロセッサの一つまたは複数によって実行されたとき、前記命令は、本稿に記載される方法の少なくとも一つの実行を引き起こす。取るべきアクションを指定する命令（逐次的またはその他）の集合を実行できる任意のプロセッサが含まれる。このように、一例は、一つまたは複数のプロセッサを含む典型的な処理システムである。各プロセッサは、CPUまたは同様の要素、グラフィック処理ユニット（GPU）、フィールドプログラム可能なゲートアレイ、特定用途向け集積回路および／またはプログラム可能なDSPユニットの一つまたは複数を含んでいてもよい。処理システムはさらに、半導体デバイスに組み込まれたメモリを含みうる少なくとも一つの記憶媒体をもつ記憶サブシステム、あるいはメインRAMおよび／または静的RAMおよび／またはROMを、またキャッシュ・メモリをも含む別個のメモリ・サブシステムを含む。記憶サブシステムはさらに、磁気および／または光学式および／またはさらなる固体記憶デバイスといった一つまたは複数の他の記憶デバイスを含んでいてもよい。コンポーネント間の通信のためにバス・サブシステムが含まれていてもよい。処理システムはさらに、たとえばネットワーク・インターフェース・デバイスまたは無線ネットワーク・インターフェース・デバイスを介してネットワークによって結合された諸プロセッサをもつ分散式処理システムであってもよい。処理システムがディスプレイを必要とする場合には、そのようなディスプレイが含まれてもよい。たとえば、液晶ディスプレイ（LCD）、有機発光ディスプレイ（OLED）または陰極線管（CRT）ディスプレイである。手動のデータ入力が必要とされる場合には、処理システムは、キーボードのような英数字入力ユニット、マウスのようなポインティング制御装置などの一つまたは複数といった入力装置をも含む。本稿で使われるところの記憶装置、記憶サブシステムおよびメモリ・ユニットという用語のそれぞれは、コンテキストから明らかであり、そうでないことが明示的に述べられているのでない限り、ディスク・ドライブ・ユニットのような記憶システムをも包含する。処理システムは、いくつかの構成では、音出力装置およびネットワーク・インターフェース・デバイスを含んでいてもよい。

いくつかの実施形態では、非一時的なコンピュータ可読媒体が、少なくとも一つのプロセッサ要素および記憶サブシステムを含むデジタル信号処理装置またはサブシステムのような処理システムの一つまたは複数のプロセッサによって実行されたときに、本稿に記載される方法の実行を引き起こす命令、たとえば論理をもって構成されている、たとえばそれをエンコードされている。いくつかの実施形態は、論理自身の形である。非一時的なコンピュータ可読媒体は、特に一時的な伝搬される信号または一時的な搬送波または他の何らかの一時的な伝送媒体ではない、任意のコンピュータ可読媒体である。よって、「非一時的なコンピュータ可読媒体」という用語は、任意の有体なコンピュータ可読記憶媒体をカバーする。非一時的なコンピュータ可読媒体は、任意の有体のコンピュータ可読記憶媒体を含み、不揮発性記憶媒体および揮発性記憶媒体を含む多くの形を取りうる。不揮発性記憶媒体は、たとえば、静的RAM、光ディスク、磁気ディスクおよび光磁気ディスクを含む。揮発性記憶媒体は、処理システム内のメイン・メモリのような動的メモリおよび処理システム内のハードウェア・レジスタを含む。よって、上記の典型的な処理システムでは、記憶サブシステムは、一つまたは複数のプロセッサによって実行されたときに本稿に記載される方法段階のうちの一つまたは複数の実行を引き起こす命令、たとえば論理、たとえばソフトウェアをもって構成されている、たとえばそれをエンコードされているコンピュータ可読記憶媒体である。前記ソフトウェアはハードディスクに存在していてもよいし、あるいはコンピュータ・システムによるその実行の間、完全にまたは少なくとも部分的に、メモリ、たとえばRAM内におよび／またはプロセッサ・レジスタ内に存在していてもよい。このように、メモリおよびプロセッサ・レジスタも、実行されたときに方法段階の実行を引き起こす命令がエンコードできる非一時的なコンピュータ可読媒体をなす。

コンピュータ可読媒体はある例示的な実施形態では単一の媒体であるよう示されているが、用語「媒体」は、命令の前記一つまたは複数の集合を記憶する単一の媒体または複数の媒体（たとえば、いくつかのメモリ、中央集中されたまたは分散されたデータベースおよび／または付随するキャッシュおよびサーバー）を含むと解釈されるべきである。

さらに、非一時的なコンピュータ可読媒体、たとえばコンピュータ可読記憶媒体は、コンピュータ・プログラム・プロダクトを形成してもよく、あるいはコンピュータ・プログラム・プロダクトに含まれてもよい。

代替的な実施形態では、前記一つまたは複数のプロセッサは、単体の装置として動作してもよいし、あるいはネットワーク接続された展開において他のプロセッサ（単数または複数）に接続、たとえばネットワーク接続されていてもよい。あるいは、前記一つまたは複数のプロセッサは、サーバー‐クライアント・ネットワーク環境におけるサーバーまたはクライアント機械の役割で、あるいはピアツーピアまたは分散式のネットワーク環境におけるピア機械として、動作してもよい。処理システムの用語は、本稿において明示的に除外されているのでない限り、そのようなすべての可能性を包含する。前記一つまたは複数のプロセッサは、パーソナル・コンピュータ（PC）、メディア再生装置、ヘッドセット装置、ハンズフリー通信装置、タブレットPC、セットトップボックス（STB）、携帯情報端末（PDA）、ゲーム機、携帯電話、ウェブ・アプライアンス、ネットワーク・ルータ、スイッチもしくはブリッジまたは当該機械によって行なわれるアクションを指定する命令（逐次的またはその他）の集合を実行することのできる任意の機械をなしてもよい。

一部の図面（単数または複数）は、単一のプロセッサおよび単一の記憶サブシステム、たとえば命令を含む論理を記憶する単一のメモリを示すだけであるものの、当業者は、上記のコンポーネントの多くが含まれているが、発明側面を埋没させないために明示的に図示または記述されていないことを理解するであろう。たとえば、単一の機械だけが図示されているものの、用語「機械」は、本稿で論じられる方法論の任意の一つまたは複数を実行するために個々にまたは合同して一組の（または複数組の）命令を実行する任意の機械の集合をも含むものと解釈される。

このように、当業者は理解するであろうが、本発明の実施形態は、方法、特殊目的装置のような装置、データ処理システムのような装置、たとえば非一時的なコンピュータ可読媒体において具現される論理または命令をエンコードされたコンピュータ可読媒体、たとえばコンピュータ・プログラム・プロダクトとして構成されたコンピュータ可読記憶媒体として具現されうる。コンピュータ可読媒体は、一つまたは複数のプロセッサによって実行されたときに方法段階の実行を引き起こす一組の命令をもって構成されている。よって、本発明の諸側面は、方法、完全にハードウェアの実施形態、完全にソフトウェアの実施形態またはソフトウェアおよびハードウェア側面を組み合わせる実施形態の形を取りうる。さらに、本発明は、プログラム論理、たとえばコンピュータ可読記憶媒体上のコンピュータ・プログラムまたはコンピュータ可読プログラム・コードをもって構成された前記コンピュータ可読記憶媒体、たとえばコンピュータ・プログラム・プロダクトの形を取りうる。

また、本発明の実施形態がいかなる特定の実装またはプログラミング技法にも限定されないことおよび本発明が本稿に記載される機能を実装するためのいかなる適切な技法を使って実装されてもよいことも理解されるであろう。さらに、実施形態は、いかなる特定のプログラミング言語またはオペレーティング・システムにも限定されない。

本明細書を通じて「一つの実施形態」または「ある実施形態」への言及は、その実施形態との関連で記述される特定の特徴、構造または特性が本発明の少なくとも一つの実施形態に含まれることを意味する。よって、本明細書を通じて随所に「一つの実施形態」または「ある実施形態」という句が現われることは、必ずしもみなが同じ実施形態に言及しているのではない。さらに、個別的な特徴、構造または特性は、一つまたは複数の実施形態において、本開示から当業者に明白となるであろういかなる好適な仕方で組み合わされてもよい。

同様に、本発明の例示的な実施形態の上記の記述において、本発明のさまざまな特徴が、本開示の流れをよくし、さまざまな発明側面のうちの一つまたは複数の理解を助けるために、時に単一の実施形態、図面またはその説明に一緒にまとめられていることが理解されるはずである。しかしながら、この開示方法は、特許請求される発明が、各請求項において明示的に記載されているより多くの特徴を必要とするという意図を反映したものと解釈されるものではない。むしろ、付属の請求項が反映しているように、発明側面は、単一の上記の開示される実施形態の全部よりも少ない特徴にある。よって、特許請求の範囲にある請求項は、ここに明示的に発明の詳細な説明に組み込まれ、各請求項はそれ自身で本発明の別個の実施形態をなす。

さらに、本稿に記載されるいくつかの実施形態は、他の実施形態に含まれるいくつかの特徴は含むが他の特徴は含まないものの、異なる実施形態の特徴の組み合わせは、本発明の範囲内であり、異なる実施形態をなすことが意図されている。当業者はこのことを理解するであろう。たとえば、請求項において、特許請求される実施形態の任意のものが任意の組み合わせにおいて使用されることができる。

さらに、実施形態のいくつかは、本稿では、コンピュータ・システムのプロセッサによってまたは当該機能を実行する他の手段によって実装されることができる方法または方法の要素の組み合わせとして記述されている。よって、プロセッサは、そのような方法または方法の要素を実行するための必要な命令とともに、該方法または方法の要素を実行する手段をなす。さらに、本稿に記載される装置実施形態の要素は、本発明を実行するために該要素によって実行される機能を実行する手段の例である。

本稿で与えた記述では、数多くの個別的詳細が記載されている。しかしながら、本発明の実施形態はそうした個別的詳細なしでも実施されうることは理解される。他の事例では、よく知られた方法、構造および技法は、本記述の理解をかすませないために、詳細に示してはいない。

本稿での用法では、そうでないことが述べられるのでない限り、共通のオブジェクトを記述する序数形容語「第一の」「第二の」「第三の」などの使用は単に、同様のオブジェクトの異なるインスタンスが言及されていることを示すのであって、そのように記述されるそれらのオブジェクトが、時間的に、空間的に、ランキングにおいてまたは他の任意の仕方において、所与の序列でなければならないことを含意することは意図されていない。

ある実施形態では、短時間フーリエ変換（STFT）が周波数帯域を得るために使用されるが、本発明はSTFTに限定されるものではない。STFTのような変換はしばしば巡回変換（circulant transform）と称される。巡回変換の最も一般的な形は、バッファリング、窓、ツイスト（実数値から複素数値への変換）およびDFT、たとえばFFTによって表現できる。特定の変換定義に合うよう周波数領域表現を調整するために、DFT後の複素ツイストが使用されることができる。本発明は、修正DFT（MDFT）、短時間フーリエ変換（STFT）を含むこのクラスの変換の任意のものによっておよびより長い窓およびラッピング、共役直交ミラー・フィルタ（CQMF）をもって、実装されうる。修正離散コサイン変換（MDCT）および修正離散サイン変換（MDST）のような他の標準的な変換も、周波数領域ビンの追加的な複素ツイストとともに、使用できる。該追加的な複素ツイストは、変換の基礎になる周波数分解能または処理能力を変えないので、処理チェーンの最後まで残され、必要であれば再マッピングにおいて適用されることができる。

本稿で引用されるあらゆる米国特許、米国特許出願および米国を指定する国際（PCT）特許出願はここに参照によって組み込まれる。特許規則または法令が、それ自身参照によって情報を組み込んでいる素材の参照による組み込みを許さない場合には、本稿における参照による組み込みは、そのような参照によって組み込まれる素材における参照によって組み込まれている情報は、そのような情報が明示的に本稿に参照によって組み込まれているのでない限り、除外する。

本明細書における他の技術のいかなる議論も、いかなる意味でも、そのような技術が発明の時点において周知である、公知であるまたは当技術分野における技術常識の一部をなすことを認めたものであると考えるべきではない。

請求項および明細書の記述において、有する、からなる、含むといった用語のいずれも、挙げられている要素／特徴を少なくとも含むが他を排除するものではないことを意味するオープンな用語である。よって、請求項で使われるときの有する／含むの用語は、挙げられている手段または要素またはステップに限定するものとして解釈すべきではない。たとえば、AおよびBを有する装置という表現の範囲は、要素AおよびBのみからなる装置に限定されるべきではない。本願で使われるところの含むも、挙げられている要素／特徴を少なくとも含むが他を排除するものではないことを意味するオープンな用語である。よって、含むは有すると同義であり、有することを意味する。

同様に、請求項において使用されるときの結合されたという用語は、直接接続だけに限定するものと解釈すべきではないことも注意しておくべきである。「結合された」および「接続された」という用語およびそれらの派生形が使用されうる。これらの用語は、互いと同義であるとは意図されていないことを理解しておくべきである。よって、装置Bに結合された装置Aという表現の範囲は、装置Aの出力が装置Bの入力に直接接続されている装置またはシステムに限定されるべきではない。Aの出力とBの入力の間に経路が存在し、その経路が他の装置または手段を含んでいてもよいことを意味する。「結合された」は二つ以上の要素が直接的な物理的または電気的接触状態にあること、あるいは二つ以上の要素が互いに直接接触してはいないがそれでも互いと協働または対話することを意味しうる。

このように、本発明の好ましい実施形態であると考えられるものについて記述してきたが、当業者は、本発明の精神から外れることなく他のさらなる修正がされうることを認識するであろう。本発明の範囲内にはいるようなそのようなすべての変更および修正を特許請求することが意図されている。たとえば、上記で挙げた公式は単に使用されうる手順の代表的なものである。ブロック図に機能を追加あるいは削除してもよく、機能ブロック間で動作が交換されてもよい。本発明の範囲内で記載される方法にステップが追加または削除されてもよい。

７０１ P個の入力信号を受容
７０３入力信号を周波数ビンに変換
７０５ B個のスペクトル帯域における帯域分割された空間的特徴、たとえば空間的確率指標を決定
７０７周波数ビンをビーム形成
７０９帯域分割：B個のスペクトル帯域を決定（帯域分割された瞬時パワー）
７１１信号スペクトル推定を実行
７１３ Q個の参照信号を受容（および総和）
７１５合計参照を周波数ビンに変換
７１７帯域分割：変換された参照のB個のスペクトル帯域を形成
７２１適応エコー予測：適応的に決定されるエコー・フィルタ係数を使ってエコーの予測を実行。予測されたエコー・スペクトル内容を使ってノイズ・スペクトル推定を実行し、信号スペクトル内容、ノイズ・スペクトル内容およびエコー・スペクトル内容を使って音声活動エコー検出器（VAD）を更新。VAD出力および信号スペクトル内容、ノイズ・スペクトル内容およびエコー・スペクトル内容に基づいてエコー・フィルタ係数を適応。
７２３空間的確率指標、信号スペクトル内容（Y'_b）、空間選択的ノイズ・スペクトル内容およびエコー・スペクトル内容を使ってノイズ（およびエコー）抑制利得、位置外信号利得および全体的な生の抑制利得を計算。空間的確率指標を使って決定された空間選択的音声活動検出を実行。
７２５信号分類に従って生の利得を後処理。信号分類に従って制御される百分位数フィルタ特性をもつ百分位数フィルタリングを含む。
７２６追加的なエコー抑制利得を計算し、組み合わせて全体的な後処理された利得を形成
７２７全体的な後処理された利得を適用して、ビーム形成された信号のビン・データに対する抑制を実行
７２９出力合成および変換および／または再マッピング

Claims

帯域分割された利得を後処理してオーディオ信号に適用するための後処理された利得を生成する方法であって、前記帯域分割された利得は、一つまたは複数の入力オーディオ信号を入力処理することによって決定され、当該方法は：
特定の周波数帯域についての特定の後処理された利得を生成する段階を含み、前記段階は少なくとも、前記一つまたは複数の入力オーディオ信号の一つまたは複数の前のフレームからおよび前記特定の周波数帯域に隣接する周波数帯域についての利得値からの利得値を使って百分位数フィルタリングすることを含み、前記周波数帯域は一つまたは複数の周波数ビンを含む、
方法。
前記百分位数フィルタリングのあとに、周波数帯域から周波数帯域にかけての平滑化および時間を通じた平滑化の少なくとも一方をさらに含む、請求項１記載の方法。
前記百分位数フィルタリングの幅および深さの一方または両方が、前記一つまたは複数の入力オーディオ信号の信号分類に依存する、請求項１または２記載の方法。
前記分類は、前記入力オーディオ信号が声である可能性が高いか否かを含む、請求項３記載の方法。
前記百分位数フィルタリングの幅および深さの一方または両方が、前記一つまたは複数の入力オーディオ信号のスペクトル・フラックスに依存する、請求項１ないし４のうちいずれか一項記載の方法。
前記特定の周波数帯域についての前記百分位数フィルタリングの幅および深さの一方または両方が、その特定の周波数帯域に依存する、請求項１ないし５のうちいずれか一項記載の方法。
前記周波数帯域は知覚的スケールまたは対数スケール上である、請求項１ないし６のうちいずれか一項記載の方法。
前記百分位数フィルタリングはある百分位数値のものであり、前記百分位数値はメジアンである、請求項１ないし７のうちいずれか一項記載の方法。
前記百分位数フィルタリングはある百分位数値のものであり、前記百分位数値は前記一つまたは複数の入力オーディオ信号の分類および前記一つまたは複数の入力オーディオ信号のスペクトル・フラックスのうちの一つまたは複数に依存する、請求項１ないし７のうちいずれか一項記載の方法。
前記百分位数フィルタリングは重み付けされた百分位数フィルタリングである、請求項１ないし９のうちいずれか一項記載の方法。
一つまたは複数の入力オーディオ信号から決定された前記帯域分割された利得はノイズを削減するためである、請求項１ないし１０のうちいずれか一項記載の方法。
前記帯域分割された利得は、二つ以上の入力オーディオ信号から決定され、ノイズおよび位置外信号を削減するためである、請求項１ないし１０のうちいずれか一項記載の方法。
前記帯域分割された利得は一つまたは複数の入力オーディオ信号および一つまたは複数の参照信号から決定され、ノイズおよびエコーを削減するためである、請求項１ないし１０のうちいずれか一項記載の方法。
前記帯域分割された利得は、知覚的ドメイン・ベースの平準化、知覚的ドメイン・ベースのダイナミックレンジ制御および知覚的ドメイン・ベースの動的等化のうちの一つまたは複数のためである、請求項１ないし１０のうちいずれか一項記載の方法。
命令を含む有体のコンピュータ可読記憶媒体であって、前記命令は、処理システムの一つまたは複数のプロセッサによって実行されたときに、処理ハードウェアに、請求項１ないし１４のうちいずれか一項記載の、オーディオ信号に適用するための帯域分割された利得を後処理する方法を実行させるものである、媒体。
少なくとも一つのプロセッサによって実行されたときに、請求項１ないし１４のうちいずれか一項記載の方法の実行を引き起こすプログラム論理。
オーディオ信号に適用するための帯域分割された利得を後処理する装置であって、前記帯域分割された利得は、一つまたは複数の入力オーディオ信号を入力処理することによって決定されたものであり、当該装置は：
前記帯域分割された利得を受け容れて、後処理された利得を生成し、特定の周波数帯域についての特定の後処理された利得を生成する後処理器を有し、該後処理は、前記一つまたは複数の入力オーディオ信号の一つまたは複数の前のフレームからおよび前記特定の周波数帯域に隣接する周波数帯域についての利得値からの利得値を使って百分位数フィルタリングすることを含む、
装置。
前記後処理器が、前記百分位数フィルタリングされた利得を平滑化する平滑化フィルタを含み、前記平滑化が周波数帯域から周波数帯域にかけての平滑化および時間を通じた平滑化の少なくとも一方を含む、請求項１７記載の装置。
前記一つまたは複数の入力オーディオ信号の信号分類を生成する信号分類器をさらに有しており、前記百分位数フィルタリングの幅および深さの一方または両方が、前記一つまたは複数の入力オーディオ信号の前記信号分類に依存する、請求項１７または１８記載の装置。
前記信号分類器は音声活動検出器を含み、前記信号分類が前記入力オーディオ信号が声である可能性が高いか否かを含む、請求項１９記載の装置。
前記百分位数フィルタリングの幅および深さの一方または両方が、前記一つまたは複数の入力オーディオ信号のスペクトル・フラックスに依存する、請求項１７ないし２０のうちいずれか一項記載の装置。
前記特定の周波数帯域についての前記百分位数フィルタリングの幅および深さの一方または両方が、その特定の周波数帯域に依存する、請求項１７ないし２１のうちいずれか一項記載の装置。
前記周波数帯域は知覚的スケールまたは対数スケール上である、請求項１７ないし２２のうちいずれか一項記載の装置。
前記百分位数フィルタリングはある百分位数値のものであり、前記百分位数値はメジアンである、請求項１７ないし２３のうちいずれか一項記載の装置。
前記百分位数フィルタリングはある百分位数値のものであり、前記百分位数値は前記一つまたは複数の入力オーディオ信号の分類および前記一つまたは複数の入力オーディオ信号のスペクトル・フラックスのうちの一つまたは複数に依存する、請求項１７ないし２３のうちいずれか一項記載の装置。
前記百分位数フィルタリングは重み付けされた百分位数フィルタリングである、請求項１７ないし２５のうちいずれか一項記載の装置。
一つまたは複数の入力オーディオ信号から決定された前記帯域分割された利得はノイズを削減するためである、請求項１７ないし２６のうちいずれか一項記載の装置。
前記帯域分割された利得は、二つ以上の入力オーディオ信号から決定され、ノイズおよび位置外信号を削減するためである、請求項１７ないし２６のうちいずれか一項記載の装置。
前記帯域分割された利得は一つまたは複数の入力オーディオ信号および一つまたは複数の参照信号から決定され、ノイズおよびエコーを削減するためである、請求項１７ないし２６のうちいずれか一項記載の装置。
前記帯域分割された利得は、知覚的ドメイン・ベースの平準化、知覚的ドメイン・ベースのダイナミックレンジ制御および知覚的ドメイン・ベースの動的等化のうちの一つまたは複数のためである、請求項１７ないし２６のうちいずれか一項記載の装置。