JP6643336B2

JP6643336B2 - 一次チャネルと基準チャネルとの間の雑音および音の電力レベル差の決定

Info

Publication number: JP6643336B2
Application number: JP2017525365A
Authority: JP
Inventors: ジャンエス．エルケレンス，
Original assignee: シラスロジック、インコーポレイテッド
Priority date: 2014-11-12
Filing date: 2015-11-12
Publication date: 2020-02-12
Anticipated expiration: 2035-11-12
Also published as: US10127919B2; JP2017538344A; WO2016077547A1; KR20170082595A; CN107408394B; EP3218902A4; US20160134984A1; CN107408394A; EP3218902A1; KR102431896B1

Description

（関連出願の引用）
本願は、米国仮出願第６２／０７８，８２８号（２０１４年１１月１２日出願、名称「ＤｅｔｅｒｍｉｎｉｎｇＮｏｉｓｅＰｏｗｅｒＬｅｖｅｌＤｉｆｆｅｒｅｎｃｅａｎｄ／ｏｒＳｏｕｎｄＰｏｗｅｒＬｅｖｅｌＤｉｆｆｅｒｅｎｃｅｂｅｔｗｅｅｎＰｒｉｍａｒｙａｎｄＲｅｆｅｒｅｎｃｅＣｈａｎｎｅｌｓｏｆａｎＡｕｄｉｏＳｉｇｎａｌ」）の利益およびそれに対する優先権を主張し、上記出願は、その全体が参照により本明細書に引用される。

（発明の分野）
本開示は、オーディオ信号の一次チャネルとオーディオ信号の基準チャネルとの間の雑音および／または音の電力レベルにおける差異を決定する技法に関する。

オーディオ信号をフィルタ処理または別様に明瞭化するための多くの技法は、信号対雑音比（ＳＮＲ）に依拠する。ＳＮＲは、典型的には、オーディオ信号における雑音の量または雑音の電力レベルの推定を採用する。

最新技術のモバイル電話を含む、種々のオーディオデバイスは、意図された源からオーディオを受信するように位置付けられ、向けられる一次マイクロホンと、意図された源から背景雑音を受信するが、オーディオを殆どまたは全く受信しないように位置付けられ、向けられる基準マイクロホンとを含む。基準マイクロホンの主要機能は、一次マイクロホンによって取得されるオーディオ信号の一次チャネルに存在する可能性が高い雑音の量のインジケータを提供することである。従来、基準マイクロホンを用いて取得されるオーディオ信号の基準チャネルにおける雑音のレベルは、オーディオ信号の一次チャネルにおける雑音のレベルと実質的に同一であると仮定されていた。

実際は、一次チャネルに存在する雑音レベルと対応する基準チャネルに存在する雑音レベルとの間には、有意な差異が存在し得る。これらの差異は、限定ではないが、一次マイクロホンおよび基準マイクロホンが音を検出する様式（例えば、感度）における不平衡、オーディオの意図された源に対する一次マイクロホンおよび基準マイクロホンの向き、（例えば、個人がモバイル電話等を使用するときの個人の頭部および／または他の部分による）雑音および／または音の遮断、ならびに一次および／または基準チャネルの事前処理を含むいくつかの異なる要因のいずれかによって引き起こされ得る。基準チャネルにおける雑音レベルが一次チャネルにおける雑音レベルを上回るとき、一次チャネルにおける雑音を除去または別様に抑制する努力は、一次チャネルからの標的音（例えば、音声、音楽等）の過剰抑制またはその一部の望ましくない除去、ならびに標的音の歪みをもたらし得る。逆に、基準チャネルにおける雑音レベルが一次チャネルにおける雑音レベルを下回るとき、一次チャネルからの雑音は、抑制不足になり得、これは、雑音抑制処理によって出力されるオーディオ信号における不必要に高レベルの残留雑音をもたらし得る。

基準チャネルの中への標的音（例えば、音声等）の存在はまた、推定された雑音レベルに誤差をもたらし、したがって、雑音が除去または別様に抑制されたオーディオ信号の品質に悪影響を及ぼし得る。

故に、雑音および音声電力レベルにおける差異の推定における改良が、追求される。

一次および基準マイクロホンにおける平均雑音および音声電力レベルは、概して、異なる。本発明者は、周波数依存性雑音電力レベル差（ＮＰＬＤ）および音声電力レベル差（ＳＰＬＤ）を推定する方法を考え、説明する。従来技術の不利点に本発明が対処する方法が、以下により詳細に議論されるが、概して、本発明は、推定されるＮＰＬＤおよびＳＰＬＤを使用して、基準マイクロホンからの雑音分散推定値を補正し、レベル差フィルタを修正してＰＬＤを考慮する方法を提供する。本発明の側面は、セルラー通信に対して説明され得るが、本発明の側面は、任意の数のオーディオ、ビデオ、または他のデータ伝送および関連プロセスにも適用され得る。

種々の側面では、本開示は、オーディオ信号の第１のチャネル（例えば、基準チャネル、二次チャネル等）における雑音電力および／または音電力を正確に推定し、オーディオ信号のその雑音電力および／または音電力と第２のチャネル（例えば、一次チャネル、基準チャネル等）におけるそれぞれの雑音電力および／または音電力との間の任意の差異を最小化するか、もしくは排除する技法に関する。

一側面では、オーディオ信号の基準チャネルとオーディオ信号の一次チャネルとの間の雑音電力レベル差（ＮＰＬＤ）を追跡する技法が、開示される。そのような方法では、オーディオ信号は、モバイル電話等のオーディオデバイスの一次マイクロホンおよび少なくとも１つの基準マイクロホンから同時に取得される。より具体的には、一次マイクロホンは、オーディオ信号の一次チャネルを受信する一方、基準マイクロホンは、オーディオ信号の基準チャネルを受信する。

いわゆる「最尤」推定技法が、一次チャネルと基準チャネルとの間のＮＰＬＤを決定するために使用され得る。最尤推定技法は、雑音の大きさの推定値を提供する、オーディオ信号の基準チャネルの雑音の大きさまたは雑音電力を推定することを含み得る。具体的実施形態では、雑音の大きさの推定は、Ｅｒｋｅｌｅｎｓ，Ｊ．Ｓ．，他の「ＴｒａｃｋｉｎｇｏｆＮｏｎｓｔａｔｉｏｎａｒｙＮｏｉｓｅＢａｓｅｄｏｎＤａｔａＤｒｉｖｅＲｅｃｕｒｓｉｖｅＮｏｉｓｅＰｏｗｅｒＥｓｔｉｍａｔｉｏｎ」（ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｕｄｉｏ，Ｓｐｅｅｃｈ，ａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，１６（６）：１１１２１１２３（２００８）（「Ｅｒｋｅｌｅｎｓ」））（その全開示が、あらゆる目的のために、参照することによって本明細書に組み込まれる）によって開示されるもの等のデータ駆動帰納的雑音電力推定技法の使用を含み得る。

雑音の大きさの推定値を用いて、オーディオ信号の一次チャネルの高速フーリエ変換（ＦＦＴ）係数の確率密度関数（ＰＤＦ）が、モデル化され得る。いくつかの実施形態では、一次チャネルのＦＦＴ係数のＰＤＦをモデル化することは、複素ガウス分布としてこれをモデル化することを含み、複素ガウス分布の平均は、ＮＰＬＤに依存し得る。ＮＰＬＤに関してオーディオ信号の一次チャネルの特定の部分に対するＦＦＴ係数の結合ＰＤＦを最大化することは、オーディオ信号の基準チャネルおよび一次チャネルから計算され得るＮＰＬＤ値を提供する。正確なＮＰＬＤを用いて、一次オーディオ信号の雑音の大きさまたは雑音電力は、基準オーディオ信号の雑音の大きさまたは雑音電力に正確に関連し得る。

種々の実施形態では、これらのプロセスは、連続的であり、したがって、雑音分散推定値ならびにＮＰＬＤを追跡することを含み得る。追跡プロセスが起こる速度は、少なくとも部分的に、標的音（例えば、音声、音楽等）がオーディオ信号の一次チャネルに存在する可能性に依存し得る。標的音が一次チャネルに存在する可能性が高い実施形態では、追跡プロセスの速度は、Ｅｒｋｅｌｅｎｓによって教示される平滑化係数を使用することによって減速され得、それは、ＮＰＬＤならびに雑音の大きさまたは雑音電力のより敏感なおよび／もしくは正確な追跡を可能にし、したがって、雑音がそれから除去されるか、または別様に抑制されるので、より少ない歪みの標的音を可能にし得る。標的音が一次チャネルにおそらく存在しない実施形態では、追跡プロセスは、より速い速度において実施され得る。

別の側面では、一次チャネルと基準チャネルとの間の音声電力レベル差（ＳＰＬＤ）が、決定され得る。ＳＰＬＤは、一次チャネルのＦＦＴ係数を基準チャネルのそれらの関数として表すことによって決定され得る。いくつかの実施形態では、一次チャネルのＦＦＴ係数のＰＤＦをモデル化することは、複素ガウス分布としてそれをモデル化することを含み、複素ガウス分布の平均および分散は、ＳＰＬＤに依存し得る。ＳＰＬＤに関してオーディオ信号の一次チャネルの特定の部分に対するＦＦＴ係数の結合ＰＤＦを最大化することは、オーディオ信号の基準チャネルおよび一次チャネルから計算され得るＳＰＬＤ値を提供する。

ＳＰＬＤは、連続的に計算または追跡され得る。いくつかの実施形態では、オーディオ信号の一次チャネルと基準チャネルとの間のＳＰＬＤを追跡する速度は、音声がオーディオ信号の一次チャネルに存在する可能性に依存し得る。音声が一次チャネルに存在する可能性が高い実施形態では、追跡の速度は、増加され得る。音声が一次チャネルに存在しない可能性が高い実施形態では、追跡の速度は、低減され得、それは、ＳＰＬＤのより敏感なおよび／または正確な追跡を可能にし得る。

本開示の別の側面によると、ＮＰＬＤおよび／またはＳＰＬＤ追跡は、オーディオフィルタ処理および／または明瞭化プロセスにおいて使用され得る。限定ではないが、ＮＰＬＤおよび／またはＳＰＬＤ追跡は、オーディオ信号の一次および基準チャネルの最小平均二乗誤差（ＭＭＳＥ）フィルタ処理の前に、またはレベル差後処理において（すなわち、ＭＭＳＥ等の主要明瞭化プロセス後に）、初期フィルタ処理（例えば、適応最小平均二乗（ＬＭＳ）等）プロセスに続いて、（例えば、基準マイクロホン等による）基準チャネルの生成に応じて基準チャネルの雑音の大きさの推定値を補正するために使用され得る。

本発明の一側面は、いくつかの実施形態では、オーディオデバイスの一次マイクロホンと基準マイクロホンとの間の雑音電力レベル差（ＮＰＬＤ）を推定する方法を特徴とする。方法は、オーディオデバイスの一次マイクロホンを用いて、オーディオ信号の一次チャネルを取得することと、オーディオデバイスの基準マイクロホンを用いて、オーディオ信号の基準チャネルを取得することと、オーディオ信号の基準チャネルの雑音の大きさを推定、１つ以上の周波数に対する雑音分散推定値を提供することとを含む。方法はさらに、オーディオ信号の一次チャネルの高速フーリエ変換（ＦＦＴ）係数の確率密度関数（ＰＤＦ）をモデル化することと、ＰＤＦを最大化し、基準チャネルの雑音分散推定値と一次チャネルの雑音分散推定値との間のＮＰＬＤを提供することと、オーディオ信号の基準チャネルのＦＦＴ係数のＰＤＦをモデル化することと、ＰＤＦを最大化し、一次および基準チャネルの音声ＦＦＴ係数間の複素音声電力レベル差（ＳＰＬＤ）係数を提供することと、雑音分散推定値、ＮＰＬＤ、およびＳＰＬＤ係数に基づいて、基準チャネルの補正された雑音の大きさを計算することとを含む。

いくつかの実施形態では、基準チャネルの雑音電力レベルは、一次チャネルの雑音電力レベルとは異なる。いくつかの実施形態では、基準チャネルの雑音の大きさを推定すること、一次チャネルのＦＦＴ係数のＰＤＦをモデル化すること、およびＰＤＦを最大化することは、連続的に行われ、ＮＰＬＤを追跡することを含む。いくつかの実施形態では、ＮＰＬＤを追跡することは、連続した時間フレームにわたる統計の指数平滑化を含む。いくつかの実施形態では、連続した時間フレームにわたる統計の指数平滑化は、データ駆動帰納的雑音電力推定を含む。

いくつかの実施形態では、方法は、音声がオーディオ信号の少なくとも一次チャネルに存在する可能性を決定することを含む。いくつかの実施形態では、音声がオーディオ信号の少なくとも一次チャネルに存在する可能性が高い場合、方法は、追跡することが起こる速度を減速させることを含む。

いくつかの実施形態では、基準チャネルの雑音の大きさを推定することは、データ駆動帰納的雑音電力推定を含む。

いくつかの実施形態では、オーディオ信号の一次チャネルのＦＦＴ係数のＰＤＦをモデル化することは、複素ガウスＰＤＦをモデル化することを含み、複素ガウス分布の平均は、ＮＰＬＤに依存する。

いくつかの実施形態では、方法は、オーディオ信号の一次チャネルにおける音声およびオーディオ信号の基準チャネルにおける音声の相対強度を決定することを含む。いくつかの実施形態では、相対強度を決定することは、経時的に相対強度を追跡することを含む。いくつかの実施形態では、方法は、相対強度を決定することがデータ駆動帰納的雑音電力推定を含むことを含む。いくつかの実施形態では、方法は、ＮＰＬＤおよびＳＰＬＤ係数を適用することに先立って、最小平均二乗（ＬＭＳ）フィルタを適用することを含む。

いくつかの実施形態では、基準チャネルの雑音の大きさを推定すること、一次チャネルのＦＦＴ係数のＰＤＦをモデル化すること、およびＰＤＦを最大化することは、オーディオ信号の少なくともいくつかのフィルタ処理の前に起こる。いくつかの実施形態では、基準チャネルの雑音の大きさを推定すること、一次チャネルのＦＦＴ係数のＰＤＦをモデル化すること、およびＰＤＦを最大化することは、一次チャネルおよび基準チャネルの最小平均二乗誤差（ＭＭＳＥ）フィルタ処理の前に起こる。

いくつかの実施形態では、基準チャネルのＦＦＴ係数のＰＤＦをモデル化することは、複素ガウス分布をモデル化することを含み、複素ガウス分布の平均は、複素ＳＰＬＤ係数に依存する。

いくつかの実施形態では、基準チャネルの雑音の大きさを推定すること、一次チャネルおよび基準チャネルのＦＦＴ係数のＰＤＦをモデル化すること、およびＰＤＦを最大化することは、オーディオ信号が主要フィルタ処理または明瞭化プロセスを受けた後、オーディオ信号のレベル差後処理のために基準チャネルの雑音分散をスケーリングすることを含む。

いくつかの実施形態では、方法は、音声活動および識別可能な話者音声活動のうちの１つ以上のものを検出することにおいて、ＮＰＬＤおよびＳＰＬＤを使用することを含む。

いくつかの実施形態では、方法は、最高の信号対雑音比を達成するために、マイクロホン間の選択においてＮＰＬＤおよびＳＰＬＤを使用することを含む。

本発明の別の側面は、いくつかの実施形態では、オーディオデバイスは、オーディオ信号を受信し、オーディオ信号の一次チャネルを通信するための一次マイクロホンと、オーディオ信号を一次マイクロホンとは異なる状況から受信し、オーディオ信号の基準チャネルを通信するための基準マイクロホンと、オーディオ信号を処理し、オーディオ信号をフィルタ処理および／または明瞭化するための少なくとも１つの処理要素とを備え、少なくとも１つの処理要素は、オーディオデバイスの一次マイクロホンと基準マイクロホンとの間の雑音電力レベル差（ＮＰＬＤ）を推定する方法を行うためのプログラムを実行するように構成される。方法は、オーディオデバイスの一次マイクロホンを用いて、オーディオ信号の一次チャネルを取得することと、オーディオデバイスの基準マイクロホンを用いて、オーディオ信号の基準チャネルを取得することと、オーディオ信号の基準チャネルの雑音の大きさを推定し、１つ以上の周波数に対する雑音分散推定値を提供することとを含む。方法はさらに、オーディオ信号の一次チャネルの高速フーリエ変換（ＦＦＴ）係数の確率密度関数（ＰＤＦ）をモデル化することと、ＰＤＦを最大化し、基準チャネルの雑音分散推定値と一次チャネルの雑音分散推定値との間のＮＰＬＤを提供することと、オーディオ信号の基準チャネルのＦＦＴ係数のＰＤＦをモデル化することと、ＰＤＦを最大化し、一次および基準チャネルの音声ＦＦＴ係数間の複素音声電力レベル差（ＳＰＬＤ）係数を提供することと、雑音分散推定値、ＮＰＬＤ、およびＳＰＬＤ係数に基づいて、基準チャネルの補正された雑音の大きさを計算することとを含む。

本開示によるオーディオデバイスの種々の実施形態は、開示されるプロセスのいずれかを実行するようにプログラムされ得る、少なくとも１つの処理要素を含む。そのようなオーディオデバイスは、オーディオを受信するための２つ以上のマイクロホンを伴う任意の電子デバイス、またはオーディオ信号の２つ以上のチャネルを受信するように構成される任意のデバイスを備え得る。そのようなデバイスのいくつかの実施形態は、限定ではないが、モバイル電話、電話、オーディオ記録機器、およびいくつかのポータブルメディアプレーヤを含む。そのようなデバイスの処理要素は、マイクロプロセッサ、マイクロコントローラ等を含み得る。

開示される主題の他の側面、ならびにその種々の側面の特徴および利点は、上記に提供される開示、付随の図面、および添付される請求項の考慮を通して、当業者に明白となるはずである。前述の開示は多くの詳細を提供しているが、これらは、続く請求項のいずれかの範囲を限定するものとして解釈されるべきではない。請求項の範囲から逸脱しない他の実施形態が、考案され得る。異なる実施形態からの特徴が、組み合わせて採用され得る。各請求項の範囲は、したがって、その明示的な言語およびその要素に対する利用可能な法的均等物の全範囲によってのみ示され、限定される。

図１は、一実施形態による、一次ならびに基準信号のクリーンおよびノイジースペクトルの例示的プロットを例証する。図２は、図１の信号に関する推定されたならびに真のＮＰＬＤおよびＳＰＬＤスペクトルを例証する。図３は、シミュレートされたカフェ環境において測定された雑音の両方のチャネルからの平均スペクトルを例証する。図４は、図３のシミュレートされたカフェ環境シナリオにおけるクリーンおよびノイジー信号の平均スペクトルを例証する。図５は、図１の信号に対して測定された「真の」ならびに推定されたＮＰＬＤおよびＳＰＬＤスペクトルを例証する。図６は、一実施形態による、スペクトル音声増進システムにおいて使用するための雑音および音声電力レベル差の推定に関するプロセスフロー概観を例証する。図７は、デジタルオーディオデータを分析するためのコンピュータアーキテクチャを例証する。

以下の説明は、本発明の例示的実施形態にすぎず、本発明の範囲、可用性、または構成を限定することは意図されない。むしろ、以下の説明は、本発明の種々の実施形態を実装するための便宜な例証を提供することが意図される。明白になるであろうように、種々の変更が、本明細書に記載されるような本発明の範囲から逸脱することなく、これらの実施形態に説明される要素の機能および配列において成され得る。本明細書における説明は、異なる形状、構成要素、機構等を有する代替として構成されたデバイスとともに採用されるように適合され、依然として、本発明の範囲内に該当し得ることを理解されたい。したがって、本明細書における発明を実施するための形態は、限定ではなく、例証のみを目的として提示される。

本明細書における「一実装」または「ある実施形態」の言及は、説明される特定の特徴、構造、または特性が、本発明の少なくともある実施形態、実装、または用途に含まれることを示すことが意図される。本明細書の種々の場所における語句「一実装では」または「ある実施形態」の出現は、必ずしも、全てが同一の実装または実施形態を指すわけではない。

（１モデル化の仮定および定義）
（１．１信号モデル）
２つのマイクロホンから着信する時間領域信号は、一次マイクロホンに対してｙ_１と呼ばれ、二次（基準）マイクロホンに対してｙ_２と呼ばれる。信号は、音声信号および雑音擾乱の合計
であり、式中、ｎは、離散時間指数である。電話では、二次マイクロホンは、通常、背面に位置し、ユーザは、一次マイクロホンに発話する。一次音声信号は、したがって、多くの場合、二次音声信号よりもはるかに強い。雑音信号は、多くの場合、類似する強度であるが、雑音源の場所およびマイクロホン感度の差異に応じて、周波数依存性のレベル差が、存在し得る。マイクロホンにおける雑音および音声信号は、独立していると仮定される。

音声増進アルゴリズムの大部分が、ＦＦＴ領域において動作し、信号は、
であり、式中、ｋは、離散周波数指数であり、ｍ＝０，１，・・・は、フレーム指数である。

一次および基準信号は、「生の」マイクロホン信号であり得るか、またはそれらは、ある種類の事前処理後のマイクロホン信号であり得る。多くの事前処理アルゴリズムが、可能である。例えば、事前処理は、信号のある一定の帯域を減衰させる固定フィルタから成り得るか、または、それは、一次信号における雑音、および／もしくは基準チャネルにおける音声を減衰させようとするアルゴリズムから成り得る。このタイプのアルゴリズムの実施例は、最小平均二乗フィルタならびにカルマンフィルタ等のビーム形成アルゴリズムおよび適応フィルタである。

スペクトル音声増進は、利得関数Ｇ（ｋ，ｍ）を各ノイジーフーリエ係数Ｙ_１（ｋ，ｍ）に適用するステップから成る（例えば、［１−５］参照）。利得は、より低いＳＮＲを伴う周波数ビンにより多くの抑制を適用する。利得は、時変であり、フレーム毎に決定される必要がある。利得は、一次チャネルの２つのＳＮＲパラメータ、すなわち、事前ＳＮＲξ_１（ｋ，ｍ）と事後ＳＮＲγ_１（ｋ，ｍ）との関数であり、それらは、それぞれ、
として定義され、式中、λ_ｓ１（ｋ，ｍ）およびλ_ｄ１（ｋ，ｍ）は、それぞれ、一次音声および雑音信号のスペクトル分散である。

指数ｋおよびｍは、ＦＦＴ領域における信号および変数が周波数依存性であり、フレーム毎に変化し得ることを理解して、表記を容易にするために省略され得る。

スペクトル分散は、大きさの二乗の期待値、すなわち、
として定義され、εは、期待値演算子である。

スペクトル分散λ_ｓ１およびλ_ｄ１は、推定値である。独立した音声および雑音信号に対して、ノイジー信号のスペクトル分散λ_ｙｉは、音声スペクトル分散と雑音スペクトル分散との合計である。

（２ＳＮＲの推定）
一次チャネルの事前および事後ＳＮＲの推定は、λ_ｓ１およびλ_ｄ１の推定を要求する。λ_ｄ１を推定するための単純な方法は、基準チャネルを使用することである。両方のマイクロホンにおける雑音信号がほぼ同一の強度を有し、基準チャネルにおける音声信号が雑音信号と比較して弱いと仮定すると、λ_ｄ２の推定値が、信号電力の指数平滑化｜Ｙ_２ ^２｜を用いて取得され、それをλ_ｄ１の推定値としても使用する。
であり、式中、α_ＮＶは、雑音分散平滑化係数である。

この簡略化された推定量は、いくつかの問題を提示し得る。先に言及されたように、雑音信号は、両方のチャネルにおいて異なるレベルを有し得る。これは、準最適フィルタ処理をもたらすであろう。さらに、マイクロホンは、多くの場合、基準信号における標的音声の一部を拾い上げる。これは、推定量（６）が雑音レベルを過大推定するであろうことを意味する。これは、一次音声信号の過剰抑制をもたらし得る。次の節は、これらの問題に対処するために提案された方法に取り組む。

雑音分散の推定値が与えられると、一次チャネルの事前ＳＮＲは、一般的に、「ディシジョンダイレクテッドアプローチ」を用いて決定され、例えば、
であり、α_ＸＩは、事前ＳＮＲ平滑化係数であり、
は、前のフレームからの推定された一次音声スペクトルの大きさであり、
は、推定された事後ＳＮＲである。

（３電力レベル差の推定）
ＦＦＴ領域における信号の差異は、係数Ｃ_ｓ（ｋ，ｍ）およびＣ_ｄ（ｋ，ｍ）を用いてモデル化されることができる。これらの周波数依存性係数は、２つのマイクロホンにおける音声または雑音レベルの平均差を説明するために導入される。それらは、経時的に変化し得るが、それらの大きさは、フレームレートよりもはるかに緩慢な速度で変化すると仮定される。ＦＦＴ領域における信号モデルは、ここでは、
となる。

雑音項Ｎ_１およびＮ_２は、全ての雑音源からの寄与を含む。それらの分散は、等しいと仮定されるが、Ｃ_ｄの二乗された大きさは、実際の雑音信号間の平均電力レベル差をモデル化する。Ｃ_ｄは、したがって、雑音電力レベル差（ＮＰＬＤ）係数と呼ばれる。同様に、Ｃ_ｓは、音声電力レベル差（ＳＰＬＤ）係数と呼ばれる。電力レベル差（ＰＬＤ）係数は、存在し得る任意の長期平均位相差をモデル化するために、複素数であると仮定される。Ｃ_ｄの位相は、以下の理由により、Ｃ_ｓのものよりもはるかに速く変動すると予期される。全ての雑音源は、マイクロホンに対して異なる相対位置にある。これらの雑音源は、場合によっては話者および互いに対して移動しており、反響も存在し得る。

１人の標的話者がマイクロホンに近接していると仮定されるので、これらの係数は、音声信号に対してあまり重要ではない可能性がある。Ｃ_ｓの位相への重要な寄与は、信号到着時間の遅延である。通常、Ｃ_ｓの絶対値は、１よりも小さい（｜Ｃ_ｓ｜＜１）。Ｃ_ｄの絶対値は、１よりも小さいことも、それよりも大きいこともあり得る。Ｃ_ｓ（ｋ，ｍ）および絶対値｜Ｃ_ｄ（ｋ，ｍ）｜は、徐々に変化すると仮定される（そうでなければ、それらを正確に推定することは困難になる）。

独立した音声および雑音を仮定すると、ノイジー信号のスペクトル分散は、
によってモデル化される。

フレーム指数ｍは、それらの大きさがフレームの長さ中、ほぼ一定のままであると仮定されるので、ＰＬＤ係数から省略されたことに留意されたい。Ｎ_１およびＮ_２の分散は、両方ともλｄに等しいと仮定される。ＮＰＬＤは、｜Ｃ_ｄ｜^２によって説明され、ＳＰＬＤは、｜Ｃ_ｓ｜^２によって説明される。

｜Ｃ_ｄ｜およびＣ_ｓの最尤推定量の導出が、以下に説明される。

（３．１ＮＰＬＤの推定）
Ｃ_ｄＮ_１が、既知であると仮定する。音声ＦＦＴ係数が平均０および分散λ_ｓを伴う複素ガウス分布によってモデル化される場合、Ｃ_ｄＮ_１の値を与えられるノイジーＦＦＴ係数の確率密度関数（ＰＤＦ）は、平均Ｃ_ｄＮ_１および分散λ_ｓを伴う複素ガウス
である。

方程式（１１）はまた、
として記載されることもでき、式中、θは、Ｙ_１の位相であり、ψは、Ｃ_ｄＮ_１の位相である。最尤（ＭＬ）推定理論［６］は、未知のパラメータに対してＰＤＦを最大化することが、ある望ましい性質を伴う推定値につながることを示す。例えば、観察の数が増加するにつれて、推定量の分散は、クラメールラオ下限に接近する。分散を許容可能なレベルに低減させるために、推定は、複数のフレームからのデータに基づく必要がある。連続フレームの音声ＦＦＴ係数Ｓ（ｋ，ｍ）は、独立していると仮定され得る。これは、多くの場合、音声増進文献において成される簡略化仮定である。複数のフレームのノイジーＦＦＴ係数Ｙ_１（ｋ，ｍ）の結合ＰＤＦは、Ｃ_ｄ（ｋ，ｍ）Ｎ_１（ｋ，ｍ）を与えられると、これらのフレームのＰＤＦ（１２）の積として記載されることができる。Ｍ個の連続フレームに対する周波数指数ｋの結果として生じる結合ＰＤＦは、
としてモデル化され、Ｙ_１（ｋ）は、Ｍ個の連続フレームのノイジーＦＦＴ係数のベクトルである。Ｎ’_１（ｋ）は、連続Ｃ_ｄ（ｋ，ｍ）Ｎ_１（ｋ，ｍ）係数のベクトルである。

位相ψ（ｋ，ｍ）は、連続フレームに対して互いに独立していると仮定されるであろう。ＰＤＦ（１２）は、ψ（ｋ，ｍ）＝θ（ｋ，ｍ）に対してψ（ｋ，ｍ）に関して最大化され、つまり、Ｎ’_１（ｋ）の位相のＭＬ推定値は、ノイジー位相に等しい。これらの推定値を結合ＰＤＦ（１３）に代入し、｜Ｃ_ｄ（ｋ）｜に関して最大化することは、そのＭＬ推定値に対する以下の式をもたらす。

したがって、（１４）の分子および分母は両方とも、λ_ｓ（ｋ，ｍ）によって正規化されている。これは、多くの音声エネルギーを伴うフレームが、殆ど重みを与えられないことを意味する。理論的には、これは、
が高ＳＮＲの期間中にも推定され得るが、音声信号が低ＳＮＲを有するとき、より良好な推定値が予期されることを意味する。とりわけ、音声の存在は、この推定量の導出において仮定された。

ガウス音声モデルの使用が一般的であるが、スーパーガウス統計モデルも、提案されている。例えば、［７−９］およびその中の参考文献を参照されたい。理論的には、ＮＰＬＤに対するＭＬ推定量も、これらのモデルに対して導出されることができる。ガウスモデルに基づく推定量が、すでに非常に良好に機能しており、ここで使用される。

推定量（１４）は、フレームの全てにおいて少なくともある音声が存在すると仮定することに留意されたい（
）。したがって、正規化係数は、非常に小さい数による除算を防止するために制限される。実験を通して、以下の正規化が、非常に良好に機能することが観察された。一次チャネルの事前ＳＮＲを雑音分散で乗算することによって、λ_ｓを推定することができる。事前ＳＮＲは、ディシジョンダイレクテッドアプローチを使用して算出されており、雑音分散推定値
は、データ駆動雑音追跡アルゴリズム［１０］によって提供され、音声スペクトルの大きさ
は、ウィナー利得を使用して推定された。

別の可能性は、音声スペクトル分散の大まかな推定値として、二乗されたスペクトル大きさの推定値、例えば、
を使用することである。分散を低減させ、非常に小さい値を回避するために、それらを経時的に少し平滑化することが賢明である。

これらの２つの代替音声分散推定値は、音声が存在するときに大きく、それらは、雑音のみのセグメントにおける雑音分散におおよそ比例する。

純粋な雑音では、Ｙ_１のＰＤＦは、分散を伴う複素ガウス｜Ｃ_ｄ｜^２λ_ｄとしてモデル化されることができる。雑音のみの期間に対するＭＬ推定量は、
のようになるであろう。

この推定量は、音声活動検出器（ＶＡＤ）を要求する。本実装では、（１４）は、分母λ_ｄを推定することにおいて使用される。ｍにわたる総和は、連続データ値のセグメントの使用を示唆するが、これは、要求されない。例えば、ＶＡＤが音声不在を示すフレームからのデータのみを使用することを選定し得る。代替として、総和におけるいくつかの寄与は、例えば、音声存在確率の推定値に応じて、あまり重みを与えられない場合がある。

分子および分母における平均は、指数平滑化を用いて算出される。これは、｜Ｃ_ｄ（ｋ）｜における緩慢な変化を追跡することを可能にする。例えば、（１４）の分子がＢ（ｋ，ｍ）と呼ばれる場合、これは、以下のように更新され、
式中、
は、推定された音声スペクトル分散である。（１４）の分母も、同様に更新される。
は、雑音スペクトルの大きさの推定値である。推定量（１４）は、雑音の大きさ｜Ｎ_１（ｋ，ｍ）｜に依存し、これらは、未知である。データ駆動雑音トラッカは、推定値
を提供し、これらは、実装（１６）において使用される。雑音の大きさは、音声が存在するとき、一次チャネルからよりも基準チャネルからより確実に推定されるので、基準チャネルのそれらが、使用される。これは、
を仮定する。

異なるフレームに与えられる重みをさらに制御するために、音声存在確率の大まかな推定値に依存する、平滑化係数α_ＮＰＬＤが、適用される。これらの平滑化係数は、以下のように、データ駆動雑音追跡アルゴリズム［１０］によって提供されるものから見出され、
式中、α_ｓ２は、基準チャネルのためにデータ駆動雑音トラッカによって提供される平滑化係数であり、Ｔ_ｓは、ミリ秒におけるフレームスキップである。音声が基準チャネルに存在する可能性がより高いとき、平滑化係数α_ｓ２（ｋ，ｍ）は、１により近接し、統計のより緩慢な更新をもたらす。

実験において、ＮＰＬＤ推定量が低くバイアスされ、すなわち、それがＮＰＬＤを若干過小推定することに気づいた。理由の一部は、データ駆動雑音トラッカが｜Ｎ（ｋ，ｍ）｜^２のＭＭＳＥ推定値を提供し、それらの平方根が（１６）において使用されることである。平方根演算子は、あるバイアスを導入するが、バイアスの他の源も同様に存在し得る。例えば、基準チャネルから取得される推定値
が、一次チャネルからのものの代わりに使用されるが、後者は、概して、一次チャネルのノイジー大きさ｜Ｙ_１（ｋ，ｍ）｜とより強く相関されるであろう。観察されたバイアスを補償するために、（１６）が、経験的バイアス補正係数ηで乗算されることができる。ηの適切な値は、１〜１．４の範囲内である。

（３．２ＳＰＬＤ係数の推定）
Ｃｓの推定量を導出するために、（８）は、形式
に書き換えられることができる。

Ｃ_ｄの位相は、多かれ少なかれランダムであると予期され、Ｃｓは、雑音から独立している。そして、中括弧間の２つの項は、独立している。それらの合計は、Ｎ’（ｋ，ｍ）として表され、分散
を伴う複素ガウス雑音としてモデル化され、式中、β（ｋ）＝｜Ｃ_ｓ（ｋ）｜^２｜Ｃ_ｄ（ｋ）｜^２である。通常、βは、１よりも小さい。ＮＰＬＤ推定量（１４）を導出することにおいて行われたものと同様に、結合ＰＤＦＰ（Ｙ_２｜Ｙ_１’）が、最大化されることができ、ここで、Ｙ_１’は、Ｃ_ｓ（ｋ）Ｙ_１（ｋ，ｍ）値のベクトルである。このＰＤＦを最大化することは、その自然対数のマイナスを最小化することと同等であり、その関連部分は、
である。

λ’_ｄはＣ_ｓに依存するので、本発明者は、ＰＤＦを最大化するＣ_ｓの値に対する閉形式解を見出すことはできなかった。λ’_ｄがＣ_ｓに依存しない場合、（合計された）商の最小値は、
に対して見出されるであろう。

この推定量は複素数値である、すなわち、大きさおよび位相が両方とも推定されることに留意されたい。

λ’_ｄは、｜Ｃ_ｓ｜とともに単調に増加するので、（２０）における合計された商の実際の最小値は、（２１）からの
よりも若干より大きい絶対値を伴う値にある。一方、（２０）における項λ’_ｄ自体は、最小値の場所を若干より小さい絶対値を伴う値に引き寄せる。これらの効果は、部分的に補償し得る。これらの効果はまた、βが小さいとき、小さいと予期される。したがって、本発明者は、Ｃ_ｓに対する推定量として（２１）を使用した。

ＮＰＬＤ推定量の場合のように、分子および分母は、指数平滑化を用いて更新される。ここでは、雑音のみが存在する可能性がより高いとき、１により近接する平滑化係数が、必要とされる。そのような平滑化係数は、一次チャネルに対してデータ駆動雑音追跡アルゴリズムによって提供されるものであるα_ｓ１から見出されることができる。平滑化係数α_ＳＰＬＤは、α_ｓ１から
として算出される。

α_ｓ１の最小到達可能値は、α_ＳＰＬＤ＝１に対する０．８５^{Ｔｓ／１６}（雑音のみの期間において所望される）である。ニュートラルネットワークＶＡＤは、例えば、ＶＡＤが音声の不在を示すときに更新を控えることによって、雑音のみの期間において有用であり得ることに留意されたい。

λ’_ｄは、以下のようにデータ駆動雑音トラッカによって提供される雑音分散推定値から計算され、
式中、
は、それぞれ、一次および基準チャネルに対するデータ駆動雑音分散推定値である。
は、前のフレームからのＣｓの推定値である。したがって、最初に、（２３）が、計算され、その値は、新しいＣ_ｓの推定値を計算するために、（２１）における統計を更新するために使用される。

（３．２．１経験的推定量）
データ駆動雑音分散推定値
から、いくつかの経験的推定量もまた、構築されることができる。例えば、
の比率は、｜Ｃ_ｄ｜^２のそのような推定量である。平滑化パラメータα_ｄに対する好適な値は、０．９５^{Ｔｓ／１６}である。ＳＰＬＤの経験的推定量は、
の比率をとることによって構築されることができ、式中、
は、データ駆動雑音トラッカによって提供される。この推定量は、位相独立性である利点を有するが、（２１）に基づく推定量よりも低ＳＮＲにおいてあまり良好に機能しないことが見出された。

（４いくつかの実施例）
本節では、人工および測定された雑音信号によるいくつかの結果が、ＰＬＤ推定量（１４）および（２１）の性能を例証するために示される。第１の実施例では、人工デュアルチャネル信号が、構築される。一次クリーン音声信号は、（１６ｋＨｚにおいてサンプリングされる）ＴＩＭＩＴセンテンスであり、単位分散に正規化される。無音フレームは、除去されない。二次チャネルは、５で除算される同一の信号である。これは、２０×ｌｏｇ_１０（１／５）＝-１４ｄＢのＳＰＬＤに対応する。一次チャネルにおける雑音は、白色雑音であり、基準チャネルにおける雑音は、適切な全極型フィルタを用いて白色雑音をフィルタ処理することによって取得される音声形状雑音である。両方の雑音信号は、最初に、単位分散に正規化され、次いで、一次チャネルにおけるＳＮＲが５ｄＢに等しくなるように、同一の係数を用いてスケーリングされる。図１は、クリーンおよびノイジー信号の平均スペクトルを示す。平均一次音声スペクトルは、より低い周波数範囲における雑音スペクトルよりも強いが、より高い周波数範囲におけるものよりも強くない。平均基準音声スペクトルは、雑音スペクトルよりもはるかに弱い。

図２は、真のＮＰＬＤおよびＳＰＬＤスペクトルと推定されたＮＰＬＤおよびＳＰＬＤスペクトルとを示す。ＳＮＲ＝５ｄＢにおける白色雑音が、一次信号に対して使用され、等しい分散を伴う音声形状雑音が、基準信号に対して使用される。バイアス補正係数η＝１．２が、使用された。ＮＰＬＤは、平均音声スペクトルが非常に高いＳＮＲを有する最低周波数を除いて、非常に正確に推定される。ＳＰＬＤは、基準チャネルにおける音声が雑音よりもはるかに弱いにもかかわらず、より低い周波数範囲において非常に良好に推定される。それは、両方のチャネルが雑音によって氾濫するより高い周波数領域において過小推定される。

次の実施例は、測定されたデュアルマイクロホン雑音を使用する。実生活の雑音は、非常に多くの場合、ローパス特性を有する。

図３は、測定されたカフェ雑音の両方のチャネルに対する平均スペクトルを示す。マイクロホンは、１０ｃｍ間隔を置かれた。両方の信号は、単位標準偏差に正規化された。殆どの周波数に対して、雑音は、基準チャネルにおいて若干より大きいことが観察された。この雑音は、（一次チャネルにおける）０ｄＢのＳＮＲにおいてＭＦＬデータベースからのセンテンスとコンピュータミックスされた。

図４は、クリーンおよびノイジー信号の平均スペクトルを示す。デュアルマイクロホンのカフェ雑音は、一次チャネルにおいて０ｄＢのＳＮＲにおいて使用された。雑音は、非常に低い周波数範囲において、両方のチャネルにおいて音声を圧倒することが分かり得る。

図５は、図４のノイジー信号に対して測定された「真」のおよび推定されたＰＬＤスペクトルを示す。測定されたＰＬＤスペクトルは、両方のチャネルの平均雑音または音声スペクトルの比率から取得される。推定されたおよび真の測定されたＰＬＤスペクトルは、非常に良好に合致することが分かり得る。ＳＰＬＤ推定値は、雑音が両方のチャネルにおいて音声を圧倒する最低周波数に対して不正確であり、殆ど音声エネルギーが存在しない最高周波数に対して不正確である。

多くの自然雑音源のローパス特性は、多くの場合、実践において、非常に低い周波数範囲においてＳＰＬＤを正確に推定することを非常に困難にするであろう。この理由から、実際の実装では、推定量（２１）は、３００Ｈｚを下回る周波数に対して使用されなかった。代わりに、推定されたＳＰＬＤスペクトルの平均が、３００Ｈｚを上回る限定された範囲の周波数に対して使用される。平均化のための適切な周波数範囲は、例えば、音声信号が強い（特に、有声音声において）３００〜１５００Ｈｚである。

（５ＰＬＤ補正の適用）
（５．１雑音分散の補正）
ＮＰＬＤおよびＳＰＬＤ推定の問題を掘り下げる主な理由は、基準チャネルから取得される雑音分散推定値（６）を改良することであった。ＮＰＬＤおよびＳＰＬＤスペクトルは、（６）の補正を計算するために使用されることができ、これは、一次チャネルにおける雑音分散に近似するはずである。基準チャネルにおける音声信号が非常に弱い場合では、ＮＰＬＤ補正のみを適用することで十分であろう。ＮＰＬＤ補正は、（６）に推定されたＮＰＬＤスペクトルを乗算することによって、容易に実装されることができる。

基準チャネルにおける音声信号は、雑音タイプ、音声タイプ、ＳＮＲ、雑音源の場所、および電話の向きのような要因に応じて、時として、ある周波数帯域において雑音よりも強くあり得る。その場合、（６）は、雑音レベルを過大推定し、潜在的に、ＭＭＳＥフィルタ処理プロセスにおいて有意な音声歪みを引き起こすであろう。音声電力に対する追加の補正が成され得る多くの方法が存在する。実験を通して、以下の方法が良好に機能することが、見出された。

（９）から、チャネル１の事前ＳＮＲξ１は、λ_ｓ／｜Ｃ_ｄ｜^２λ_ｄに等しいことが分かり得る。同様に、（１０）は、チャネル２の事前ＳＮＲξ_２が｜Ｃ_ｓ｜^２λｓ／λ_ｄに等しいことを示す。したがって、以下の関係が、これらの事前ＳＮＲ間に存在する。

（１０）を｜Ｃ_ｄ｜^２で乗算し、１＋ξ_２＝１＋βξ_１で除算することは、それをチャネル１の雑音分散項｜Ｃ_ｄ｜^２λ_ｄと等しくする。したがって、それは、（６）に成されるべき所望される補正である。事前ＳＮＲは、時間フレーム毎に更新されるので、｜Ｙ_２｜^２への補正は、（６）の第２項において適用され、それを
に修正する。

補正は、推定されたＰＬＤスペクトルおよびチャネル１の事前ＳＮＲ（７）から計算されることができる。しかしながら、それを上回るものが、要求される。（２７）において使用し得る事前ＳＮＲ推定値
は、ＮＰＬＤ補正雑音分散を使用して、例えば、（７）から見出される。音声電力に対するいかなる補正も、その雑音分散推定値にまだ適用されていないので、音声が存在するとき、それは、雑音分散の過大推定値である。結果として生じる事前ＳＮＲ推定値は、したがって、過小推定値である。これは、（２７）において
で除算することが、音声エネルギーを完全には補正しないであろうことを意味する。より完全な補正が、事前ＳＮＲ（７）および雑音分散（２７）、（２８）を反復的に計算することによって見出され得る。

完全に補正された雑音分散に基づいて事前ＳＮＲに対する方程式を使用することで、結果として生じる事前ＳＮＲに対する方程式が、多くの反復を伴わずに取得されることができる。（２７）を（２８）に代入し、結果として生じるＰＬＤ補正雑音分散に対する式を（７）に代入し、ｍａｘ演算子を省くと、解くことが容易である、
における二次多項式につながる。０、１、または２つの正の実数解が存在し得る。

ちょうど１つの正の解が存在する場合、これは、（２７）に代入され、ＰＬＤ補正雑音分散を見出すことができる。

事前ＳＮＲに対する２つの正の実数解が存在するとき、最小のものが、使用されるであろう。この状況は、ｍａｘ演算子なしで、（７）が負であるとき、起こり得る。これは、通常、非常に低いＳＮＲ状況に対応するので、二次方程式に対する最小解が、選定される。

いずれの正の実数解も存在しないとき、「不完全な」補正が、使用される、つまり、ＮＰＬＤ補正は、（６）に適用され、事前ＳＮＲは、（７）から計算され、それは、（２７）において使用される。

代替補正方法が、基準チャネルに対して（６）に示されるように、一次および基準チャネルの両方における信号電力の平滑化に基づいて検討された。各チャネル分散推定値は、音声および雑音成分から成り、相対強度は、平均的に、ＮＰＬＤおよびＳＰＬＤによって説明される。雑音成分を求めることができる。結果として生じる推定量は、かなり大きい分散を有し、ゼロよりも小さくさえなり得、そのための対抗策が、講じられる必要がある。したがって、いくつかの場合、以下に説明される補正方法（２７）、（２８）が、好ましくあり得る。

上記に説明される補正技法は、いくつかの異なるデータ組に対して試験された場合、客観的品質（ＰＥＳＱ、ＳＮＲ、および減衰の観点から）および主観的品質の両方を改良する。

（５．２レベル間差フィルタの修正）
レベル間差フィルタ（ＩＬＤＦ）は、ＭＭＳＥ利得を、一実施形態では、以下のような一次および基準チャネルの大きさの比率に依存する係数ｆ
で乗算し、式中、τは、シグモイド関数の閾値であり、σは、その勾配パラメータである。ＩＬＤＦは、残留雑音を抑制する傾向がある。一次大きさに対してより強い基準大きさは、より強い抑制をもたらす。固定パラメータτおよびσに対して、フィルタは、ＮＰＬＤおよびＳＰＬＤが変化すると、異なるように機能するであろう。ＮＰＬＤおよびＳＰＬＤが考慮されると、広い範囲の条件下で良好に機能するパラメータを選定することがより容易になる。これを行うための一方法は、（２７）および（２８）におけるものと同一のＰＬＤ補正を基準チャネルの大きさに適用することであり、すなわち、（２９）において｜Ｙ_２（ｋ，ｍ）｜の代わりに
を使用することである。

ＰＬＤ変動とは別に、より積極的なフィルタ処理が、音声もまた含むフレームよりも雑音のみのフレームにおいて適用され得る。これを達成するための一方法は、閾値τをニュートラルネットワークＶＡＤ出力の関数
とすることにより、式中、Ｖは、０〜１の値に正規化されるＶＡＤ出力であり、τ_Ｓは、音声フレームにおいて使用することを望む閾値であり、τ_Ｎは、雑音フレームに対する閾値である。τ_Ｓ＝１およびτ_Ｎ＝１．５が、種々の実験に対して好適であった。

（５．３他の用途）
雑音分散および後置フィルタ補正とは別に、ＮＰＬＤおよびＳＰＬＤは、いくつかの他の方法において有用であり得る。いくつかの音声処理アルゴリズムが、信号特徴に対して訓練される。例えば、ＶＡＤならびに音声および話者認識システムである。複数のチャネルが特徴を算出するために使用される場合、これらのアルゴリズムは、ＰＬＤベースの特徴補正からそれらの用途において利益を享受し得る。それは、そのような補正が、訓練において見られる特徴と実践において直面するものとの間の差異を減少させ得るからである。

いくつかの用途では、いくつかの利用可能なマイクロホンから選ぶための選択肢を有し得る。ＮＰＬＤおよびＳＰＬＤは、最高信号対雑音比を伴うマイクロホンを選択することにおいて役立ち得る。

ＮＰＬＤおよびＳＰＬＤは、マイクロホン較正のためにも使用され得る。マイクロホンに進入する試験信号が等しい強度である場合、ＮＰＬＤまたはＳＰＬＤは、相対マイクロホン感度を決定する。

（６概論）
図６は、ＮＰＬＤおよびＳＰＬＤの推定および補正手順と、それらが新規のスペクトル音声増進システムに適合する方法との概観を示す。注記：本図の区分ＩＩＩ−Ａは、本文書の段落［００５０］−［００６２］に対応する。
区分ＩＩＩ−Ｂは、段落［００６３］−［００７１］に対応する。
区分Ｖ−Ａは、段落［００７９］−［００８９］に対応する。
区分Ｖ−Ｂは、段落［００９０］−［００９１］に対応する。

おそらく事前処理されたマイクロホン信号ｙ_１（ｎ）およびｙ_２（ｎ）からの重複フレームは、窓処理され、ＦＦＴが、適用される。一次チャネルのスペクトルの大きさは、中間雑音分散、事前ＳＮＲ、および音声分散推定値を作成するために使用される。基準チャネルのスペクトルの大きさは、雑音の大きさおよび中間雑音分散推定値を作成するために使用される。

両方のチャネルのこれらの量およびＦＦＴ係数から、雑音および音声ＰＬＤ係数が、推定される。最終雑音分散推定値（２７）、（２８）、および事前ＳＮＲ推定値は、区分Ｖ−Ａに従って計算される。事後ＳＮＲもまた、算出され、ＭＭＳＥ利得が、算出される。

後処理段階では、ＭＭＳＥ利得は、レベル間差フィルタ、音楽雑音平滑化フィルタ、および無音声フレームを減衰させるフィルタによって修正される。最終雑音分散推定値における基準大きさに適用されたＰＬＤ補正は、レベル間差フィルタにおいても同様に使用される。

再構築段階では、一次ＦＦＴ係数は、修正されたＭＭＳＥ利得で乗算され、フィルタ処理された係数が、時間領域に戻るように変換される。明瞭化された音声が、重畳加算手順によって構築される。

本発明の実施形態はまた、デジタルデータを分析するためのコンピュータプログラム製品にも及び得る。そのようなコンピュータプログラム製品は、デジタルデータを分析する方法を実施するために、コンピュータプロセッサ上でコンピュータ実行可能命令を実行することが意図され得る。そのようなコンピュータプログラム製品は、エンコードされたコンピュータ実行可能命令を有するコンピュータ読み取り可能な媒体を備え得、コンピュータ実行可能命令は、好適なコンピュータ環境内の好適なプロセッサ上で実行されると、本明細書にさらに説明されるようなデジタルデータを分析する方法を実施する。

本発明の実施形態は、以下にさらに詳細に議論されるように、例えば、１つ以上のコンピュータプロセッサおよびデータ記憶装置もしくはシステムメモリ等のコンピュータハードウェアを含む専用または汎用コンピュータを備えているか、または利用し得る。本発明の範囲内の実施形態はまた、コンピュータ実行可能命令および／またはデータ構造を伝搬もしくは記憶するための物理的および他のコンピュータ読み取り可能な媒体を含む。そのようなコンピュータ読み取り可能な媒体は、汎用または専用コンピュータシステムによってアクセスされ得る任意の利用可能な媒体であり得る。コンピュータ実行可能命令を記憶するコンピュータ読み取り可能な媒体は、コンピュータ記憶媒体である。コンピュータ実行可能命令を伝搬するコンピュータ読み取り可能な媒体は、伝送媒体である。したがって、限定ではなく、例として、本発明の実施形態は、少なくとも２つの明確に異なる種類のコンピュータ読み取り可能な媒体、すなわち、コンピュータ記憶媒体と、伝送媒体とを備えていることができる。

コンピュータ記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＣＤ−ＲＯＭ、もしくは他の光学ディスク記憶装置、磁気ディスク記憶装置もしくは他の磁気記憶デバイス、またはコンピュータ実行可能命令もしくはデータ構造の形態の所望されるプログラムコード手段を記憶するように使用され得、汎用もしくは専用コンピュータによってアクセスされ得る、任意の他の物理的媒体を含む。

「ネットワーク」は、コンピュータシステムおよび／またはモジュールおよび／または他の電子デバイス間の電子データの転送を可能にする、１つ以上のデータリンクとして定義される。情報がネットワークまたは別の通信接続（有線、無線、または有線もしくは無線の組み合わせのいずれか）を経由してコンピュータに伝達もしくは提供されると、コンピュータは、適切に、接続を伝送媒体と見なす。伝送媒体は、汎用または専用コンピュータによって受信もしくはアクセスされ得る、コンピュータ実行可能命令および／もしくはデータ構造の形態の所望されるプログラムコード手段を伝搬もしくは伝送するように使用され得る、ネットワークおよび／もしくはデータリンクを含むことができる。上記の組み合わせもまた、コンピュータ読み取り可能な媒体の範囲内に含まれるべきである。

さらに、種々のコンピュータシステム構成要素に到達すると、コンピュータ実行可能命令またはデータ構造の形態のプログラムコード手段は、伝送媒体からコンピュータ記憶媒体に自動的に伝達されることができる（逆もまた同様である）。例えば、ネットワークまたはデータリンクを経由して受信されるコンピュータ実行可能命令もしくはデータ構造は、ネットワークインターフェースモジュール（例えば、「ＮＩＣ」）内のＲＡＭにおいてバッファリングされ、次いで、最終的に、コンピュータシステムＲＡＭおよび／またはコンピュータシステムにおけるより揮発性の低いコンピュータ記憶媒体に伝達されることができる。したがって、コンピュータ記憶媒体は、また、（または場合によっては主として）伝送媒体を利用するコンピュータシステム構成要素に含まれ得ることを理解されたい。

コンピュータ実行可能命令は、例えば、プロセッサにおいて実行されると、汎用コンピュータ、専用コンピュータ、または専用処理デバイスに、ある機能もしくは機能群を実施させる命令およびデータを含む。コンピュータ実行可能命令は、例えば、プロセッサ上で直接実行され得るバイナリ、アセンブリ言語等の中間フォーマット命令、または特定の機械もしくはプロセッサを標的とするコンパイラによるコンパイルを要求し得るさらに高レベルのソースコードであり得る。本主題は、構造的特徴および／または方法論的行為に特有の言語で説明されたが、添付される請求項に定義される主題は、必ずしも、上記に説明される、説明される特徴または行為に限定されないことを理解されたい。むしろ、説明される特徴および行為は、本請求項を実装する例示的形態として開示される。

当業者は、本発明が、パーソナルコンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、メッセージプロセッサ、ハンドヘルドデバイス、マルチプロセッサシステム、マイクロプロセッサベースまたはプログラマブル消費者用電子機器、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ、モバイル電話、ＰＤＡ、ページャ、ルータ、スイッチ等を含む、多くのタイプのコンピュータシステム構成を伴うネットワークコンピューティング環境において実践され得ることを理解するであろう。本発明はまた、ネットワークを通して（有線データリンク、無線データリンク、または有線および無線データリンクの組み合わせのいずれかによって）リンクされる、ローカルおよびリモートコンピュータシステムが両方ともタスクを実施する、分散システム環境において実践され得る。分散システム環境では、プログラムモジュールが、ローカルおよびリモート両方のメモリ記憶デバイスに位置し得る。

図７を参照すると、デジタルオーディオデータを分析するための例示的コンピュータアーキテクチャ６００が、例証される。本明細書ではコンピュータシステム６００とも称されるコンピュータアーキテクチャ６００は、１つ以上のコンピュータプロセッサ６０２と、データ記憶装置とを含む。データ記憶装置は、コンピューティングシステム６００内のメモリ６０４であり得、揮発性または不揮発性メモリであり得る。コンピューティングシステム６００はまた、データまたは他の情報の表示のためのディスプレイ６１２も備え得る。コンピューティングシステム６００はまた、コンピューティングシステム６００が、例えば、ネットワーク（おそらくインターネット６１０等）を経由して他のコンピューティングシステム、デバイス、またはデータソースと通信することを可能にする、通信チャネル６０８も含み得る。コンピューティングシステム６００はまた、デジタルまたはアナログデータのソースがアクセスされることを可能にする、マイクロホン６０６等の入力デバイスも備え得る。そのようなデジタルまたはアナログデータは、例えば、オーディオまたはビデオデータであり得る。デジタルまたはアナログデータは、ライブマイクロホンン等からのリアルタイムストリーミングデータの形態であり得る、またはコンピューティングシステム６００によって直接アクセス可能である、もしくは通信チャネル６０８を通して、もしくはインターネット６１０等のネットワークを介してより遠隔でアクセスされ得る、データ記憶装置６１４からアクセスされる記憶されたデータであり得る。

通信チャネル６０８は、伝送媒体の例である。伝送媒体は、典型的には、コンピュータ読み取り可能な命令、データ構造、プログラムモジュール、または他のデータを搬送波もしくは他の転送機構等の変調データ信号に具現化し、任意の情報送達媒体を含む。限定ではなく、例として、伝送媒体は、有線ネットワークおよび直接有線接続等の無線媒体、ならびに音響、高周波、赤外線、および他の無線媒体等の無線媒体を含む。本明細書で使用されるような用語「コンピュータ読み取り可能な媒体」は、コンピュータ記憶媒体および伝送媒体を両方とも含む。

本発明の範囲内の実施形態はまた、その上に記憶されるコンピュータ実行可能命令またはデータ構造を伝搬もしくは有するためのコンピュータ読み取り可能な媒体を含む。「コンピュータ記憶媒体」と称される、そのような物理的コンピュータ読み取り可能な媒体は、汎用または専用コンピュータによってアクセスされ得る任意の利用可能な物理的媒体であり得る。限定ではなく、例として、そのようなコンピュータ読み取り可能な媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＣＤ−ＲＯＭ、もしくは他の光学ディスク記憶装置、磁気ディスク記憶装置もしくは他の磁気記憶デバイス、またはコンピュータ実行可能命令もしくはデータ構造の形態の所望されるプログラムコード手段を記憶するように使用され得、汎用もしくは専用コンピュータによってアクセスされ得る、任意の他の物理的媒体等の物理的記憶装置および／またはメモリ媒体を含むことができる。

コンピュータシステムは、例えば、ローカルエリアネットワーク（「ＬＡＮ」）、広域ネットワーク（「ＷＡＮ」）、無線広域ネットワーク（「ＷＷＡＮ」）、およびさらにはインターネット１１０等のネットワークを経由して互いに接続され得る（またはその一部である）。故に、描写されるコンピュータシステムならびに任意の他の接続されるコンピュータシステムおよびそれらの構成要素はそれぞれ、メッセージ関連データを作成し、ネットワークを経由してメッセージ関連データ（例えば、インターネットプロトコル（「ＩＰ」）データグラムおよびＩＰデータグラムを利用する、伝送制御プロトコル（「ＴＣＰ」）、ハイパーテキスト輸送プロトコル（「ＨＴＴＰ」）、または簡易メール転送プロトコル（「ＳＭＴＰ」）等の他の上位層プロトコル）を交換することができる。

開示される主題の他の側面、ならびにその種々の側面の特徴および利点は、上記に提供される開示、付随の図面、および添付される請求項の考慮を通して、当業者に明白となるはずである。

前述の開示は多くの詳細を提供しているが、これらは、続く請求項のいずれかの範囲を限定するものとして解釈されるべきではない。請求項の範囲から逸脱しない他の実施形態が、考案され得る。異なる実施形態からの特徴が、組み合わせて採用され得る。

最後に、本発明は、種々の例示的実施形態に対して上記に説明されたが、多くの変更、組み合わせ、および修正が、本発明の範囲から逸脱することなく、実施形態に成され得る。例えば、本発明は、音声検出における使用に対して説明されたが、本発明の側面は、他のオーディオ、ビデオ、データ検出スキームに容易に適用され得る。さらに、種々の要素、構成要素、および／またはプロセスが、代替方法において実装され得る。これらの代替は、特定の用途に応じて、または方法もしくはシステムの実装もしくは動作と関連付けられる任意の数の要因を考慮して、好適に選択されることができる。加えて、本明細書に説明される技法は、他のタイプの用途およびシステムと併用するために拡張または修正され得る。これらおよび他の変更または修正は、本発明の範囲内に含まれることが意図される。

（文献目録）
以下の参考文献は、その全体が、参照することによって本明細書に組み込まれる。

Claims

オーディオデバイスの一次マイクロホンと基準マイクロホンとの間の雑音電力レベル差（ＮＰＬＤ）を推定する方法であって、
オーディオデバイスの一次マイクロホンを用いて、オーディオ信号の一次チャネルを取得することと、
前記オーディオデバイスの基準マイクロホンを用いて、前記オーディオ信号の基準チャネルを取得することと、
前記オーディオ信号の前記基準チャネルの雑音の大きさを推定し、１つ以上の周波数に対する雑音分散推定値を提供することと、
前記オーディオ信号の前記一次チャネルの高速フーリエ変換（ＦＦＴ）係数の確率密度関数（ＰＤＦ）をモデル化することと、
前記ＰＤＦを最大化し、前記基準チャネルの前記雑音分散推定値と前記一次チャネルの雑音分散推定値との間のＮＰＬＤを提供することと、
前記オーディオ信号の前記基準チャネルのＦＦＴ係数のＰＤＦをモデル化することと、
前記ＰＤＦを最大化し、前記一次チャネルの音声ＦＦＴ係数と前記基準チャネルの音声ＦＦＴ係数との間の複素音声電力レベル差（ＳＰＬＤ）係数を提供することと、
前記雑音分散推定値、前記ＮＰＬＤ、および前記ＳＰＬＤ係数に基づいて、前記基準チャネルの補正された雑音の大きさを計算することと
を含む、方法。
前記基準チャネルの雑音電力レベルは、前記一次チャネルの雑音電力レベルとは異なる、請求書１に記載の方法。
前記基準チャネルの雑音の大きさを推定すること、前記一次チャネルのＦＦＴ係数のＰＤＦをモデル化すること、および前記ＰＤＦを最大化することは、連続的に行われ、前記ＮＰＬＤを追跡することをさらに含む、請求書１に記載の方法。
前記ＮＰＬＤを追跡することは、連続した時間フレームにわたる統計の指数平滑化を含む、請求項３に記載の方法。
前記連続した時間フレームにわたる統計の指数平滑化は、データ駆動帰納的雑音電力推定を含む、請求項４に記載の方法。
音声が前記オーディオ信号の少なくとも前記一次チャネルに存在する可能性を決定することをさらに含む、請求項３に記載の方法。
音声が前記オーディオ信号の少なくとも前記一次チャネルに存在する可能性が高い場合、前記追跡することが起こる速度を減速させる、請求項６に記載の方法。
前記基準チャネルの雑音の大きさを推定することは、データ駆動帰納的雑音電力推定を含む、請求項１に記載の方法。
前記オーディオ信号の前記一次チャネルのＦＦＴ係数のＰＤＦをモデル化することは、複素ガウスＰＤＦをモデル化することを含み、前記複素ガウス分布の平均は、前記ＮＰＬＤに依存する、請求項１に記載の方法。
前記オーディオ信号の前記一次チャネルにおける音声と前記オーディオ信号の前記基準チャネルにおける音声との相対強度を決定することをさらに含む、請求項１に記載の方法。
前記相対強度を決定することは、経時的に前記相対強度を追跡することを含む、請求項１０に記載の方法。
前記相対強度を決定することは、データ駆動帰納的雑音電力推定を含む、請求項１０に記載の方法。
前記ＮＰＬＤおよび前記ＳＰＬＤ係数を適用することに先立って、最小平均二乗（ＬＭＳ）フィルタを適用することをさらに含む、請求項１０に記載の方法。
前記基準チャネルの雑音の大きさを推定すること、前記一次チャネルのＦＦＴ係数のＰＤＦをモデル化すること、および前記ＰＤＦを最大化することは、前記オーディオ信号の少なくともいくつかのフィルタ処理の前に起こる、請求項１に記載の方法。
前記基準チャネルの雑音の大きさを推定すること、前記一次チャネルのＦＦＴ係数のＰＤＦをモデル化すること、および前記ＰＤＦを最大化することは、前記一次チャネルおよび前記基準チャネルの最小平均二乗誤差（ＭＭＳＥ）フィルタ処理の前に起こる、請求項１４に記載の方法。
前記基準チャネルのＦＦＴ係数のＰＤＦをモデル化することは、複素ガウス分布をモデル化することを含み、前記複素ガウス分布の平均は、前記複素ＳＰＬＤ係数に依存する、請求項１に記載の方法。
前記基準チャネルの雑音の大きさを推定すること、前記一次チャネルおよび基準チャネルのＦＦＴ係数のＰＤＦをモデル化すること、および前記ＰＤＦを最大化することは、オーディオ信号が主要フィルタ処理または明瞭化プロセスを受けた後、前記オーディオ信号のレベル差後処理のために前記基準チャネルの雑音分散をスケーリングすることを含む、請求項１に記載の方法。
音声活動および識別可能な話者音声活動のうちの１つ以上のものを検出することにおいて、前記ＮＰＬＤおよびＳＰＬＤを使用することをさらに含む、請求項１に記載の方法。
前記ＮＰＬＤおよびＳＰＬＤは、最高の信号対雑音比を達成するために、マイクロホン間の選択において使用される、請求項１に記載の方法。
オーディオデバイスであって、
オーディオ信号を受信し、前記オーディオ信号の一次チャネルを通信するための一次マイクロホンと、
前記オーディオ信号を前記一次マイクロホンとは異なる状況で受信し、前記オーディオ信号の基準チャネルを通信するための基準マイクロホンと、
前記オーディオ信号をフィルタ処理および／または明瞭化するために前記オーディオ信号を処理する少なくとも１つの処理要素と
を備え、
前記少なくとも１つの処理要素は、オーディオデバイスの一次マイクロホンと基準マイクロホンとの間の雑音電力レベル差（ＮＰＬＤ）を推定する方法を行うためのプログラムを実行するように構成され、
前記方法は、
オーディオデバイスの一次マイクロホンを用いて、オーディオ信号の一次チャネルを取得することと、
前記オーディオデバイスの基準マイクロホンを用いて、前記オーディオ信号の基準チャネルを取得することと、
前記オーディオ信号の前記基準チャネルの雑音の大きさを推定し、１つ以上の周波数に対する雑音分散推定値を提供することと、
前記オーディオ信号の前記一次チャネルの高速フーリエ変換（ＦＦＴ）係数の確率密度関数（ＰＤＦ）をモデル化することと、
前記ＰＤＦを最大化し、前記基準チャネルの前記雑音分散推定値と前記一次チャネルの雑音分散推定値との間のＮＰＬＤを提供することと、
前記オーディオ信号の基準チャネルのＦＦＴ係数のＰＤＦをモデル化することと、
前記ＰＤＦを最大化し、前記一次チャネルの音声ＦＦＴ係数と前記基準チャネルの音声ＦＦＴ係数との間の複素音声電力レベル差（ＳＰＬＤ）係数を提供することと、
前記雑音分散推定値、前記ＮＰＬＤ、および前記ＳＰＬＤ係数に基づいて、前記基準チャネルの補正された雑音の大きさを計算することと
を含む、オーディオデバイス。