JP7352740B2

JP7352740B2 - 風雑音減衰のための方法及び装置

Info

Publication number: JP7352740B2
Application number: JP2022538844A
Authority: JP
Inventors: ソン・ジエンミン
Original assignee: Continental Automotive Systems Inc
Current assignee: Continental Automotive Systems Inc
Priority date: 2020-01-24
Filing date: 2021-01-22
Publication date: 2023-09-28
Anticipated expiration: 2041-01-22
Also published as: EP4094255A1; KR102659035B1; CN114930450A; KR20220130744A; WO2021150816A1; JP2023509593A; US20210233557A1; US11217269B2

Description

本出願は、マイクロホンによって検出された信号における風雑音（風切り音）の除去又は低減に関する。

風雑音（風切り音、ＷＮ）は、多くの環境における聴覚干渉の主要な原因であり、例えば、車内の補聴器又はハンズフリー通信システムでは、マイクロホン膜に当たる乱気流によって引き起こされ、主に比較的低周波領域に集中した強い可聴信号を生成する。これらのオーディオ装置又は音声通信システムが雑音の多い条件下で良好に機能することを可能にするためには、信頼性が高く効果的な風雑音低減（ＷＮＲ）能力が重要である。

しかし、従来の雑音抑圧方法では、風雑音を適切に除去できない。これは主に、風雑音と音声とを、時間領域又は周波数領域におけるエネルギー分析又はＳＮＲ分析によって区別することが困難であるためである。

本開示のより完全な理解に、以下の詳細な説明及び添付図面を参照すべきである。さらに、特定の行動やステップは、特定の発生順序で説明又は描写されることがあるが、当業者は、配列に関するそのような特異性が実際には必要とされないことを理解するであろう。また、本明細書で使用される用語及び表現は、特定の意味が本明細書に別段の定めがある場合を除き、対応するそれぞれの調査および研究の分野に関してそのような用語および表現に与えられる通常の意味を有することも理解されよう。

図１は、本発明の様々な実施形態による風雑音低減のためのシステムの図を含む。図２は、本発明の様々な実施形態による風雑音低減のための手法のフローチャートを含む。図３は、本発明の様々な実施形態による、本明細書で説明する手法の動作の観点を示す図を備える。図３は、本発明の様々な実施形態による、本明細書で説明する手法の動作の観点を示す図を備える。図４は、本発明の様々な実施形態による、本明細書で説明する手法の動作の観点を示す図を備える。図５は、本発明の様々な実施形態による、本明細書で説明する手法の動作の観点を示す図を備える。図６は、本発明の様々な実施形態による、本明細書で説明する手法の動作の観点を示す図を備える。図７は、本発明の様々な実施形態による、本明細書で説明する手法の動作の観点を示す図を備える。図８は、本発明の様々な実施形態による、本明細書で説明する手法の動作の観点を示す図を備える。

本明細書で説明する手法は、２つ以上のマイクロホンにおける空間選択性及び信号相関特性を使用して、受信信号中の風雑音を決定する。異なるマイクロホン位置に存在する信号相関における３つの特性（発話信号と無相関である風雑音信号と、大部分無相関である異なる位置における風雑音と、相関される小型マイクロホンアレイ上の全てのマイクロホンにおける発話）を利用することによって、これらの手法は、任意の所与の時間におけるマイクロホン入力を４つの区分（風雑音、発話に混ざった風雑音、発話及びバフェッティング以外の雑音、例えば、従来の定常雑音）のうちの１つとして分類する、信頼性のある風雑音検出器を迅速に構築する。

いくつかの観点では、風雑音検出と分類結果との少なくとも一方に基づいて、本発明はまた、信号、例えば２つの入ってくるマイクロホン入力値用の効果的な風雑音減衰器を作成し、適用する。態様では、減衰利得係数は、コヒーレンスと、２つ（又は複数の）マイクロホン入力のクロスパワースペクトルの位相と、風雑音検出器において推定された発話及び風雑音の確率とから導出される。２つのマイクロホン入力の最小統計から生成されたコンフォート雑音電力スペクトルを作成し、風雑音減衰オーディオ信号に適用して、雑音ゲーティング効果を排除できる。本明細書で提供される手法の適用は、発話の品質を維持しながら、風雑音を迅速かつ有意量で除去する。

いくつかの観点では、本手法は、２つ（又はそれ以上）のマイクロホンベースの風雑音／発話検出及び風雑音抑圧のための複数の手法及びアルゴリズムを具現化する。様々なステップが実行される。

１つの手法では、前処理が最初に実行される。いくつかの観点では、音声信号が車の中の２つのマイクロホンにおいて捕捉され、マイクロホン信号のそれぞれが位相整合されるべきである。その位相整合は、音源（例えば、運転手又は共同運転手）から生じた２つの信号間の一定時間遅延と、２つの信号の相互相関に基づいて実行時に計算された遅延とを決定する幾何学的手法の組合せを通して行われる。決定論理を使用して、幾何学的ベースの静的遅延又は動的に計算された実行時遅延が２つの信号位相整合に使用されるべきかどうかを決定する。以前の手法とは異なり、この手法は信頼性が高く、車の中の不正確な幾何学的計測又は話者（運転手／共同運転手）位置に対してより寛容である。

次に、風雑音及び音声の計測のための計量基準が作成される。２つの計量基準、すなわち、発話存在の確率及び風雑音存在の確率が作成される。いくつかの観点では、これらの計量基準は、それらの値が０と１との間の範囲であるので、確率である。

信号分類（例えば、発話、雑音など）にエネルギー又はＳＮＲ（信号対雑音比）を利用する以前の手法とは異なり、これらの確率は、発話／風雑音分類に使用され、複数の周波領域における位相差の統計から完全に導出される。ここに記載する手法では、特定の周波数領域にわたって広がる位相差の正規化された分散が、風雑音から音声を区別するための重要な変数として採用される。これらの正規化された分散は、発話存在の確率及び風雑音存在の確率を構築するためにさらに使用される。この処理は、実行時に各時間間隔（例えば、１０ｍｓから２０ｍｓ）に対して起きる。

それから、発話及び風雑音が検出と分類の少なくとも一方がなされる。本明細書で利用される分類器／検出器は、発話のみ、風雑音のみ、及び発話／風雑音混合データを含むオーディオサンプルを使用して事前トレーニングされた（又はオフライントレーニングされた）決定論理（例えば、ハードウェア又はソフトウェアの任意の組合せとして実装される）を利用する。各短い時間間隔（例えば、１０ｍｓから２０ｍｓ）において、異なる周波数領域における信号特性を特徴付ける２つの計量基準、すなわち、発話の確率及び風雑音の確率の両方が計算され、これらの２つの計量基準は、別々に重み付けされ、それから、分類に使用される単一の計量基準を形成するために線形結合される。単一の計量基準は、音声のしきい値と、風雑音のしきい値と、音声及び風雑音が同時に発生するしきい値を表す３つのしきい値と比較される。いくつかの例では、これらのしきい値は、オフライン分類器トレーニングから決定される。

フレームごとの発話／風雑音分類の信頼性を高め、（風雑音が抑制された後に不快な風雑音の漏れにつながる）散発的な分類エラーを回避する観点及びそれらを行うために、本明細書で説明する手法は、フレームｔにおける各分類結果ｃ_ｔが、（Ｎ－１）個の前のフレームからの（Ｎ－１）個の分類結果とともに長さＮ（例えば、Ｎ＝１０）の循環バッファに押し出される多数決方式を採用する。現在のフレームｔに対する信号クラス決定は、多数決によって行われ、すなわち、循環バッファにおけるその発生が最も現れる最終的な分類結果が取り上げられる。

次に、利得関数が導出及び適用される。（信号対雑音比（ＳＮＲ）情報のみを利用する）利得関数構築のための以前の手法とは異なり、本明細書で説明される手法で利用される風雑音利得関数は、ＳＮＲと、風雑音／音声検出において重要な役割も果たす位相差の正規化分散との組合せである。ＳＮＲと位相情報との組合せは、スペクトル情報と空間情報との両方を提供し、風雑音減衰／音声保存のための導出利得関数のみである従来のＳＮＲよりもはるかに良好に機能する。

これらの実施形態の多くでは、システムは、第１マイクロホンと、第２マイクロホンと、制御回路とを備え、第１マイクロホンは第１オーディオ信号を取得し、第２マイクロホンは第２オーディオ信号を取得する。第１マイクロホンは、第２マイクロホンから空間的に離れている。

第１マイクロホン及び第２マイクロホンに結合された制御回路は、第１マイクロホンに到達する第１オーディオ信号と第２マイクロホンに到達する第２オーディオ信号とを複数の時間区間に連続的かつ同時に分けるように構成されている。各時間区間について、第１マイクロホンに到達する第１オーディオ信号は第１フレーム化オーディオ信号に形成され、第２マイクロホンに到達する第２オーディオ信号は第２フレーム化オーディオ信号に形成される。

制御回路は、第１フレーム化オーディオ信号と第２フレーム化オーディオ信号とを目標音源に対して時間的に整合させるようにさらに構成されている。第１フレーム化オーディオ信号と第２フレーム化オーディオ信号との時間整合は、実行時に２つのマイクロホンにおいて受信された信号間の動的相互相関評価によって調整された静的な幾何形状ベース計測に基づく。

制御回路はまた、時間整合された第１フレーム化オーディオ信号にフーリエ変換を実行して第１スペクトルを生成し、第２フレーム化オーディオ信号にフーリエ変換を実行して第２スペクトルを生成するように構成される。第１スペクトル及び第２スペクトルそれぞれは、各時間区間における２つの時間整合されたマイクロホン信号のうちの１つのスペクトルを表す。

制御回路は、第１スペクトルと第２スペクトルとの相互相関に従って、複数の周波数のそれぞれにおける第１スペクトルと第２スペクトルとの間の位相差を計算するようにさらに構成されている。制御回路は、各時間区間についての定義された周波数範囲における位相差の正規化された分散を決定するようにさらに構成されている。周波数範囲は、位相差の正規化された分散の計算における誤差マージンが最小化されるように、マイクロホンの幾何学的形状に基づいて計算される。

制御回路はまた、各時間区間において、２つの時間整合されたマイクロホン信号のスペクトル位相差の正規化された分散に基づいて、音声存在の確率及び風雑音存在の確率を定式化及び評価するように構成されている。制御回路はそれから、各時間区間において、時間区間ごとの区分を決定するように構成され、区分は、発話のみ、風雑音のみ、風雑音と混合された発話、又は未知のうちの１つである。ここで、決定論理が、区分の決定に使用され、決定論理は、発話存在の確率及び風雑音存在の確率の個々の値及び組み合わされた値を組み込む第１関数に基づく。第１関数の値は、複数のしきい値と比較され、風雑音検出決定を行う。決定された区分に基づいて、風減衰処理が選択的に始動される。

動作が風雑音減衰の実行であるとき、制御回路は、利得又は減衰関数を計算するように構成されている。関数は、位相差の正規化された分散及び所定の周波数範囲内にある複数の周波数の各周波数における個々の位相差に基づく。風雑音減衰は、利得又は注意関数を第１スペクトル及び第２スペクトルの各スペクトルのマグニチュード（大きさ）と乗算することで周波数領域において実行され、風雑音が除去された第１スペクトル及び風雑音が除去された第２スペクトルを生成する。

制御回路は、それから、風雑音が除去された第１スペクトルと風雑音が除去された第２スペクトルとを結合して結合スペクトルを生成し、結合スペクトルの逆ＦＦＴを行うことによって風雑音が除去された時間領域信号を構築するように構成されている。

他のエンティティと潜在的に組み合わされた制御回路は、時間領域信号を使用して動作を実施可能である。ここでいう動作とは、時間領域信号を電子装置に送信すること、時間領域信号を使用して電子機器を制御すること、時間領域信号を使用して電子機器と相互作用することのうちの１つ又は複数である。

いくつかの観点では、時間区間は、長さが１０から２０ミリ秒である。他の例もあり得る。

いくつかの例では、目標音声源は、車両の座席に座っている人からの音声を含む。音声源の他の例もあり得る。

他の例では、発話存在の確率及び風雑音存在の確率はそれぞれ、０と１との間の値を持つ。

他の観点では、区分の決定は、現在の決定と前の連続する時間区間における決定の流れとを考慮する多数決手法をさらに利用する。他の例では、音声存在の確率及び風雑音存在の確率は、各時間区間における音声存在又は風雑音存在の程度の評価に使用される計量基準を提供する。

さらに他の観点では、風雑音の減衰動作は、なされた決定が風雑音のみ又は音声に混ざった風雑音であるときに始動される。さらに他の例では、しきい値の値は、音声及び風雑音サンプルの量を使用して、オフラインアルゴリズムトレーニング段階においてオフラインで推定される。

いくつかの例において、システムは、少なくとも部分的に車両内に配置される。他の位置も可能である。いくつかの例では、音源は移動し、他の例では、音源は静止又はほぼ静止している。

これらの実施形態のうちの他のものでは、マイクロホン信号内の風雑音低減の手法が提供される。

制御回路は、第１マイクロホンに到達する第１オーディオ信号及び第２マイクロホンに到達する第２オーディオ信号を複数の時間区間に連続的かつ同時に分割（区間化）する。各時間区間について、第１マイクロホンに到達する第１オーディオ信号は第１フレーム化オーディオ信号に形成され、第２マイクロホンに到達する第２オーディオ信号は第２フレーム化オーディオ信号に形成される。

制御回路は、第１フレーム化オーディオ信号と第２フレーム化オーディオ信号とを目標音源に対して時間で整合させる。第１フレーム化オーディオ信号と第２フレーム化オーディオ信号との時間整合は、実行時に２つのマイクロホンにおいて受信された信号間の動的相互相関評価によって調整された静的幾何形状に基づいた計測に基づく。

制御回路は、時間整合された第１フレーム化オーディオ信号のそれぞれにフーリエ変換を実行して第１スペクトルを生成し、第２フレーム化オーディオ信号のそれぞれにフーリエ変換を実行して第２スペクトルを生成する。第１スペクトル及び第２スペクトルそれぞれは、各時間区間における２つの時間整合されたマイクロホン信号のうちの１つのスペクトルを表す。

制御回路は、第１スペクトルと第２スペクトルとの相互相関に従って、複数の周波数のそれぞれにおける第１スペクトルと第２スペクトルとの間の位相差を計算する。

制御回路は、各時間区間について、定義された周波数範囲における位相差の正規化された分散を決定する。周波数範囲は、位相差の正規化された分散の計算における誤差マージンが最小化されるように、マイクロホンの幾何学的形状に基づいて計算される。

制御回路は、各時間区間において、２つの時間整合されたマイクロホン信号のスペクトル位相差の正規化された分散に基づいて、発話存在の確率及び風雑音存在の確率を定式化及び評価する。制御回路は、各時間区間にて、各時間区間の区分を決定する。区分は、発話のみ、風雑音のみ、風雑音に混ざった発話、又は未知の中の１つである。決定論理は、区分を決定するために使用され、決定論理は、発話存在の確率及び風雑音存在の確率の個々の値及び組み合わされた値を組み込む第１関数に基づいている。第１関数の値は、複数のしきい値と比較され、風雑音検出決定を行う。決定された区分に基づいて、風減衰動作が選択的に始動される。

動作が風雑音減衰の実行であるとき、制御回路は、利得又は減衰関数を計算する。この関数は、位相差の正規化された分散及び所定の周波数範囲内の複数の周波数のそれぞれにおける個々の位相差に基づき、風雑音減衰は、利得又は注意関数を第１スペクトル及び第２スペクトルの各スペクトルのマグニチュードと乗算することで周波数領域において実行され、風雑音除去された第１スペクトル及び風雑音除去された第２スペクトルを生成する。

制御回路は、風雑音が除去された第１スペクトルと風雑音が除去された第２スペクトルとを合成し、合成スペクトルを生成する。制御回路は、合成スペクトルの逆ＦＦＴを行うことで、風雑音が除去された時間領域信号を構築する。

時間領域信号を使用して動作が行われる。ここでいう動作とは、時間領域信号を電子装置に送信すること、時間領域信号を使用して電子機器を制御すること、時間領域信号を使用して電子機器と相互作用することの中の１つ又は複数である。動作として他の例があり得る。

ここで図１を参照すると、風雑音を減衰させるためのシステムの一例が表されている。車両１００は、第１マイクロホン１０２と、第２マイクロホン１０４と、運転者１０１と、搭乗者１０３とを備える。マイクロホン１０１及び１０４は、制御回路１０６に結合されてよい。

マイクロホン１０２及び１０４は、いくつかの観点では人間の発話を検出する任意のタイプのマイクロホンであってよい。一例では、マイクロホン１０２及び１０４は、時間領域において人間の音声の信号を感知し、検出された音声を表すアナログ信号を生成する従来のアナログマイクロホンであってよい。車両１００は、自動車やトラックのような人間を輸送する任意の種類の車両である。他の例もあり得る。２つのマイクロホンが示されているが、これらの手法は任意の数のマイクロホンに適用可能であることが理解されよう。

本明細書で使用される場合、「制御回路」という用語は、一般に他の構成要素及び装置の動作を管理するように設計された、プロセッサ、メモリ、及びプログラム可能な入力／出力周辺機器を持つ任意のマイクロコントローラ、コンピュータ、又はプロセッサベースの装置を広く指すことが理解されるであろう。メモリ、他の構成要素及び装置と通信する送受信機などを含む、一般的な付属付属装置を備えることがさらに理解される。これらのアーキテクチャ上の選択事項は、当技術分野でよく知られ理解されていて、本明細書でさらに説明する必要はない。制御回路１０６は、本明細書に記載されるステップと、動作と、機能のうちの１つ又は複数を（例えば、当業者によってよく理解されているように、メモリに記憶された対応するプログラミングを使用することによって）実行するように構成してよい。

制御回路１０６は、車両１００内の様々な位置に配備されてよい。一例では、制御回路１０６は、車両制御ユニット（例えば、車両１００における様々な機能を制御又は監視する）に配備されてよい。一般的に言えば、制御回路１０６は、（後述するように）受信したマイクロホン信号に風雑音が存在するか否かを判定し、それから、それらの信号から風雑音を選択的に除去する。風雑音が除去された後、現在減衰されているマイクロホン信号は、他の目的に（例えば、車両１００において動作をするために）使用可能である。

マイクロホン１０２及び１０４は、有線接続又は無線接続のいずれかによって制御回路１０６に結合してよい。マイクロホン１０２及び１０４はまた、ユーザの必要性やシステム要件に応じて車両１００内の様々な位置に展開してよい。

図１のシステムの動作の一例では、第１マイクロホン１０２は第１オーディオ信号を取得し、第２マイクロホン１０４は第２オーディオ信号を取得する。第１マイクロホン１０２は第２マイクロホン１０４から空間的に離れている。

制御回路１０６は、各時間区間用に第１マイクロホン１０２に到達する第１オーディオ信号及び第２マイクロホン１０４に到達する第２オーディオ信号を、連続的かつ同時に複数区間に分割するように構成されている。この各時間区間では、第１マイクロホン１０２に到達する第１オーディオ信号は第１フレーム化オーディオ信号に形成され、第２マイクロホン１０４に到達する第２オーディオ信号は第２フレーム化オーディオ信号に形成される。

制御回路１０６は、第１フレーム化オーディオ信号と第２フレーム化オーディオ信号とを目標音声源に対して時間的に整合させるようにさらに構成されている。第１フレーム化オーディオ信号と第２フレーム化オーディオ信号との時間整合は、実行時に２つのマイクロホンにおいて受信された信号間の動的相互相関評価によって調整された静的幾何形状ベースの計測に基づいている。

制御回路１０６はまた、時間整合された第１フレーム化オーディオ信号のそれぞれにフーリエ変換を実行して第１スペクトルを生成し、第２フレーム化オーディオ信号のそれぞれにフーリエ変換を実行して第２スペクトルを生成するように構成されている。第１スペクトル及び第２スペクトルそれぞれは、各時間区間における２つの時間整合されたマイクロホン信号のうちの１つの周波数スペクトルを表す。

制御回路１０６は、第１スペクトルと第２スペクトルとの相互相関に従って、複数の周波数のそれぞれにおける第１スペクトルと第２スペクトルとの間の位相差を計算するようにさらに構成されている。制御回路１０６は、各時間区間についての定義された周波数範囲における位相差の正規化された分散を決定するようにさらに構成されている。周波数範囲は、位相差の正規化された分散の計算における誤差マージンが最小化されるように、マイクロホンの幾何学的形状に基づいて計算される。

制御回路１０６はまた、各時間区間において、２つの時間整合されたマイクロホン信号のスペクトル位相差の正規化された分散に基づいて、発話存在の確率及び風雑音存在の確率を定式化及び評価するように構成されている。次に、制御回路１０６は、各時間区間において、各時間区間用の区分（カテゴリー）を決定するように構成されていて、ここで、区分は、発話のみ、風雑音のみ、発話と風雑音との混合、又は不明のうちの１つである。決定論理は、各時間区間の区分の決定に使用される。決定論理は、発話存在の確率及び風雑音存在の確率の個々の値及び組み合わされた値を組み込む第１関数に基づいている。第１関数の値は、複数のしきい値に対して比較され、風雑音の判断がなされる。決定された区分に基づいて、風雑音の減衰動作が選択的に始動される。

動作が風雑音の減衰の実行であるとき、制御回路１０６は、利得又は減衰関数を計算するように構成されている。関数は、位相差の正規化された分散及び所定の周波数範囲内の複数の周波数のそれぞれにおける個々の位相差に基づいている。風雑音減衰は、利得又は注意関数を第１スペクトル及び第２スペクトルの各スペクトルのマグニチュードと乗算することで周波数領域において実行されて、風雑音が除去された第１スペクトル及び風雑音が除去された第２スペクトルを生成する。

制御回路１０６は、それから、風雑音が除去された第１スペクトルと風雑音が除去された第２スペクトルとを結合して結合スペクトルを生成し、結合スペクトルの逆ＦＦＴを行うことによって風雑音が除去された時間領域信号を構築するように構成される。

制御回路１０６は、それ自体で、又は他のエンティティと組み合わせて、時間領域信号を使用して動作を実行可能である。ここでいう動作とは、電子装置（例えば、スマートフォン、コンピュータ、ラップトップ、又はタブレットのような電子装置）に時間領域信号を（送信機１１０を使用して）送信すること、最終時間領域信号を使用して電子機器（例えば、オーディオシステム、操縦システム、又は制動システムのような車両１００内の電子機器）を制御すること、時間領域信号を使用して電子機器と相互作用することのうちの１つ又は複数である。一例では、ユーザは、ラジオに口頭で指示して始動させ、それから、ラジオの音量を制御してよい。他の例があり得る。

１態様では、信号の時間区間は、１０から２０ミリ秒長である。他の例があり得る。

１例では、目標音声源は、車両の座席に座っている運転者１０１又は乗員１０５からの音声を含む。音声源の他の例があり得る。

さらに他の観点では、風雑音減衰行動は、決定された決定が風雑音のみ又は発話と混合された風雑音であるときに始動される。さらに他の例では、しきい値の値は、発話及び風雑音サンプルの量を使用して、オフラインアルゴリズムトレーニング段階においてオフラインで推定される。例えば、これは、システム初期化時に工場で決定されてよい。

一部の例では、音源（運転者１０１及び乗員１０３）は移動するが、他の例では、音源は静止しているか又はほぼ静止している。

ここで図２を参照すると、風雑音検出及び減衰用の手法の一例が説明されている。

ステップ２０２において、スペクトル分析が実行される。一例では、デュアルマイクロホンｘ_１（ｎ）、ｘ_２（ｎ）から来る各１０ｍｓの入力信号は、重複加算処理を通過して、前のフレームとともに２０ｍｓフレームを定式化し、処理されるべき「生」データの表現としてスペクトル等価物ｘ_１（ｆ）、ｘ_２（ｆ）を生成する。

ステップ２０４において、マイクロホン入力ステアリングが実行される。アルゴリズムは、２つのマイクロホン入力ｘ１（ｆ）、ｘ２（ｆ）を同相で整列させ続ける。この目的に、マイクロホンの幾何形状から導出されたステアリングベクトルが、システム初期化の一部として計算される。いくつかの観点では、幾何形状ベースのステアリングベクトル形成は、固定ビームフォーマ（ＦＢＦ）において使用されるものと同様であるが、それよりも単純である。

マイクロホンの幾何学的配置に関して、車両の内側に（典型的には中央コンソールの頭上に）取り付けられた２つのマイクロホンアレイは、車両の中心軸線に対して同一直線上にあり、かつ垂直である。マイクロホンアレイの幾何形状は、図１に示すように、運転者と共同運転者の口からマイクロホンまでの距離によって決定される。ＤＭ１は、運転者１０１からマイクロホン１（１０２）までの間隔であり、ＰＭ２は、共同運転者又は乗員１０３からマイクロホン２（１０４）までの距離である。実際には、幾何学的配置は、車両の中心軸に対して運転者１０１及び助手席同乗者１０３に対して対称である、すなわち、ＰＭ１＝ＤＭ２、及びＰＭ２＝ＤＭ１などであることも仮定される。

車両内の音声源が運転者１０１からであり、２つのマイクロホン１０２及び１０４への信号伝搬のためのマルチパスの影響を無視できると仮定すると、音声信号を位相整合するステアリングベクトルｓｖ１は、次の式によって決定される。

τ１、τ２は、マイクロホン１及び２に到達する信号伝搬遅延（秒単位）である。ａ１、ａ２は、個々の正規化経路損失に関連する２つの因子である。

ステアリングベクトルは、最も遠いマイクロホンへの信号伝搬の遅延が０であると仮定することで簡略化されて、ステアリングベクトルは次の式で表されるものとなる。

ここで、τは、より近いマイクロホンに到達する音声の相対的な遅延（秒単位の負の数）である。

デュアルマイクロホンアレイに対するドライバ１０１及び乗客１０３（の口）の位置は対称であると仮定される。定式化された同じステアリングベクトルがドライバ１０１及び乗客１０３の両方に適用可能である。

車両１００内の音声源がドライバからであり、２つのマイクロホン１０２及び１０４への信号伝搬のためのマルチパスの影響が無視できると仮定して、音声信号を位相整合させるステアリングベクトルｓｖ１は、次の式で決定される。

τ１、τ２は、マイクロホン１及び２に到達する信号伝搬遅延（秒単位）であり、ａ１、ａ２は、個々の正規化された経路損失に関連する２つの因子である。

ステアリングベクトルは、最も遠いマイクロホンへの信号伝搬の遅延が０であると仮定することによって簡略化される。ステアリングベクトルは次の式で表されるものとなる。

ここで、τは、より近いマイクロホンに到達する音声の相対的な遅延（秒単位の負数）である。

デュアルマイクロホンアレイに対する運転者１０１及び乗員１０３（の口）の位置は対称であると仮定され、定式化された同じステアリングベクトルが運転者及び共同運転者の両方に適用可能である。

ステップ２０６において、信号整合が実行される。マイクロホンの幾何形状から導出されたステアリングベクトルが与えられると、運転者又は共同運転者から生じた２つのマイクロホン信号ｘ１（ｆ）、ｘ２（ｆ）は、次式によって運転者及び共同運転者の視線方向において位相の整列がなされる。

運転者１０３には次の式を用いる。

又は共同運転者（乗員）１０５には次の式を用いる。

ステップ２０８において、動的時間遅延推定及びステアリングベクトル選択が実行される。マイクロホン幾何形状は一度計測され、毎回使用する固定の変数となるが、運転者１０１及び同乗者１０３から２つのマイクロホン１０２及び１０４までの距離は、時々変化する可能性がある。運転者と共同運転者の身長は同じでない場合があり、これは、計測された幾何形状がもはや正確に適用されないことを意味する。したがって、幾何形状から計算された相対時間遅延は、「公称」値として認識されるべきであり、幾何形状の不一致に起因して位相整合に誤差が存在することになる。

この問題を緩和するために、時間遅延は、各フレームにおける２つのマイクロホン信号ｘ１（ｎ）、ｘ２（ｎ）の相互相関を介して、次式によってオンザフライで（その場ですぐに）推定される。

ここで、ｎ及びｍはデータサンプルの添え字である。

時間領域において計算された相互相関Ｒ_ｘ１ｘ２（ｍ）は、Ｒ_ｘ１ｘ１（０）とＲ_ｘ２ｘ２（０）の幾何平均によってさらに正規化されて、相互相関係数になる。相互相関係数の絶対値は、区間［０，１］に限定される。

そのように、サンプルの単位でのｘ１とｘ２との間の有効な時間遅延は、次の式で推定できる。

ここで、ここで、τ＿ｄ，τ，Δは、幾何学的τからの最大許容偏差である動的、幾何学的及びマージンに対するサンプル単位の時間遅延を表す。ｔｈｌｄ＿Ｒ_ｘ１ｘ２ｉはしきい値（例えば、０．６０）である。

遅延τ＿ｄは、有効である場合、動的ステアリングベクトルを構築するためにサンプルの単位から秒の単位に変換される。

ここで、ｆ_ｓはサンプリング周波数（Ｈｚ）である。

経路損失は、幾何学的に又は動的に構築されたステアリングベクトルについて同じに保たれる。

各フレームにおいて、計算された動的遅延が有効である場合、その対応するステアリングベクトルが信号整合に使用され、そうでない場合、幾何学的導出ステアリングベクトルが使用される。動的τ_ｄ計算及びそのステアリングベクトル適用は、幾何学的不整合（ｍｉｃｍａｔｃｈ，ｍｉｓｍａｔｃｈ）に起因する２つの信号整合に起こり得る誤差を軽減し、数値分析によって始動される動的時間遅延における偶発的な全体的誤差を防止する。

ステップ２１０において、信号のコヒーレンス及びクロススペクトルが決定される。２つのマイクロホン信号の統計は、風雑音と車両内の音声との間の強い差を示す。有用な統計は、以下のように定義される２つの信号Ｘ_１（ｆ）とＸ_２（ｆ）のコヒーレンスによって最もよく表される。

ここで、｛｝^＊は複素共役演算子を表す。

短いフレーム分析ゆえ、クロスパワースペクトルは、次の式で表され

以下のように時間ｔにわたって平滑化される。

ここで、平滑化係数ａは、一例では０．５に設定される。

クロスパワースペクトルの位相は、一部の観点では、風雑音と音声検出に使用される最も重要な統計値であり、次の式で計算される。

ここで、Ｘ_１（ｆ）とＸ_２（ｆ）は、本明細書の他の箇所で説明するように、幾何学的ステアリングベクトル及び動的ステアリングベクトルのいずれかによって位相整合される。

ステップ２１２において、風雑音及び音声識別（位相解析による）が実行される。車両において、風雑音と音声との間の区別は、２つの整列された信号Ｘ_１（ｆ）とＸ_２（ｆ）との間の相互複素スペクトルの位相から探索される。音声信号は相関されるが、風雑音は相関されないので、音声の場合、相互スペクトルの位相は一般に非常に小さく、特に低又は中周波範囲（例えば、最大２ｋＨｚ）にある。一方、風雑音の場合、クロススペクトルの位相の値ははるかに大きく、時間と周波数にわたるその変動はランダムである。

より良い風雑音及び音声識別に、分析周波数範囲は２つの領域に分割される。第１範囲［１０Ｈｚ（Ｆ＿ＷＮ＿Ｂ）から５００Ｈｚ（Ｆ＿ＷＮ＿Ｅ）までの（Ｆ＿ＷＮ）］は主に風雑音検出に使用され、第２範囲［６００Ｈｚ（Ｆ＿ＳＰ＿Ｂ）から２０００Ｈｚ（Ｆ＿ＳＰ＿Ｅ）までのＦ＿ＳＰ］は主に音声検出に使用される。

時間／周波数グリッドにおける個々の位相値は無意味なので、統計計量基準は、位相の特徴付けに作成される。この計量基準は、次の式で定義されるクロススペクトラムの正規化分散である。

２つの位相分散σ_φ（ｗｎ）及びσ_φ（ｓｐ）は、２つの周波数領域のうちの１つからそれぞれ計算される。

σ_φ（ｓｐ）は領域Ｆ＿ＷＮからのものであり、ｆ１＝Ｆ＿ＳＰ＿Ｂ、ｆ２＝Ｆ＿ＳＰ＿Ｅ（例えばｆ１＝２０Ｈｚ、ｆ２＝５００Ｈｚ）である。σ_φ（ｓｐ）は領域Ｆ＿ＳＰからのものであり、ｆ１＝Ｆ＿ＳＰ＿Ｂ、ｆ２＝Ｆ＿ＳＰ＿Ｅ（例えばｆ１＝５００Ｈｚ、ｆ２＝２０００Ｈｚ）である。

しかしながら、領域Ｆ＿ＳＰにおける最大周波数ｆ２は、次の式で制限されなければならない。

ここで、ｃ及びｄは、音速及び２つのマイクロホン間の分離距離である。

図３Ａは、バフェッティングなしで車において記録されたデュアルマイクロホンのクリーンな発話を表示し、図３Ｂは、スピーチの存在なしで車においてバフェッティングのあるデュアルマイクロホンを表示する。

図４及び図５（横軸は分散であり、縦軸は出現回数である）は、クリーンな音声の場合の２つの頻度領域における正規化された位相分散分布（ヒストグラム）を示す。σφ（ｗｎ）分布及びσφ（ｓｐ）分布の両方は、０に近い間隔に限定される。一方、図６及び図７に示すように、風雑音の場合の２つの分布は、はるかに広い間隔に広がっている。正規化された位相分散の観点から、音声と風雑音とが分離可能であることは明らかである。

さらに、これらの統計値の分析を通じて、風雑音は周波数領域Ｆ＿ＷＮにおいて検出されやすく、一方、音声は周波数Ｆ＿ＳＰにおいて、特に風雑音と音声とが同時に発生するときに識別されやすいと結論付けられる。

ステップ２１４で、音声及び風雑音の確率の定式化が行われ、風雑音／音声の検出又は識別を容易にするために、音声及び風雑音の確率が次の式で計算される。

ここで、σ_φ（ｗｎ）、σ_φ（ｓｐ）は領域からの正規化された位相分散を表す。
ｔｈｌｄ＿ｌｏｗ＿σ_φ、ｔｈｌｄ＿ｈｉｇｈ＿σ_φは、関連する周波数領域における風雑音の確率及び音声の確率の決定に使用されるしきい値である。

ステップ２１６において、決定論理を利用して、風雑音、音声、又は音声と混合された風雑音を分類する。

風雑音及び音声検出決定論理は、次の式で計算される。

ここで、ｔｈｌｄ＿ｓｐ、ｔｈｌｄ＿ｗｎ、ｔｈｌｄ＿ｓｐ＿ｗｎはしきい値であり、α_ｓｐ及びα_ｗｎは重みであり、演算子←は割り当てである。

瞬間的な（すなわち、フレームごとの）分類結果ｃは、隣りの結果を調べることでさらに雑音除去される。フレームｔにおける現在の値ｃ_ｔは、（Ｎ－１）個の前のフレームからの（Ｎ－１）個の決定結果と共に長さＮ（例えば、Ｎ＝１０）の循環バッファに記憶される。現在のフレームｔに対する最終的な信号クラス決定は、いわゆる多数決によって行われ、循環バッファにおけるその発生が最も多く現れるクラスが取り上げられる。

ここで、Ｃ_ｔはフレームｔにおける信号クラスの最終決定であり、ｃ_{ｔ－Ｎ－１，}ｃ_{ｔ－Ｎ－２}，．．．ｃ_ｔは現在及び（Ｎ－１）個の前のフレームに対して計算された瞬時クラスである。

図８は、発話のみが存在する開始部分及び終了部分を除いて、発話及び風雑音の両方が存在するデュアルマイクロホン録音についての確率推定及び信号分類の結果を強調している。発話と風雑音の複数例がラベルを付けて図示されている。この例では、従来の雑音区分が発話区分とマージされているが、風雑音のみ及び発話に混ざった風雑音は２つの別個の区分である。この図に示される確率分析及び分類決定の両方は、記録における真の内容（すなわち、発話、風雑音、又は発話に混ざった風雑音）と一致する。いくつかの観点において、発話に混ざった風雑音は、風雑音及び発話存在の両方の確率の高い値によって、ほとんど常に正確に選び出され、発話又は風雑音区分のいずれとも混同されないことが分かる。

風雑音低減は、風雑音検出器が風雑音の存在を検出したときに行われる風雑音低減を実装する。風雑音低減を実施する制御回路は、いくつかの観点において、４つの機能、すなわち、風雑音画像推定と、風雑音低減の利得構築と、コンフォート雑音の生成と、風雑音低減と、コンフォート雑音注入とを、達成又は利用する。

ステップ２１８において、風雑音の画像推定が実行される。２つのマイクロホン１０２及び１０４における風雑音信号は相関していないと仮定され、一方、音声信号は相関しているとする。それにより、理論的な雑音パワースペクトル密度（ＰＳＤ）は、次の式で定式化できる。

ここで、ｔ、ｆはフレーム及び周波数の添え字である。

しかしながら、これらの仮定は常に成立するとは限らない。１つの理由として、仮定の正しさはマイクロホンの幾何形状に依存するからである。例えば、マイクロホンの間隔が大きいほど、２つのマイクロホンにおける音声信号の相関が小さくなる。理論的な風雑音ＰＳＤは過小評価される傾向がある。より信頼性が高く機能的な風雑音ＰＳＤは、Ｘ１及びＸ２の自動ＰＳＤの理論的なものと幾何平均との組合せとして設計され、次の式で音声及び風雑音の確率によって重み付けされる。

ここで、ＡＬＰＨＡは定数（０．４）であり、ｐｒｏｂ_ｗｎ、ｐｒｏｂ_ｓｐは、選択された（運転者又は共同運転者に向かう）視線方向に関連する風雑音及び発話の確率である。

風雑音の確率が高く、音声の確率が低い条件では、風雑音ＰＳＤは、Ｘ１及びＸ２の２つの自動ＰＳＤの幾何平均とほぼ同じである。

ステップ２２０で、ＷＮＲ利得関数が決定される。風雑音低減用に設計及び適用された２つの異なる利得計算がある。最初のものは、以下のスペクトル減算手法の変形から来ている。

ここで、ΦＮ（ｔ，ｆ）は、推定される風雑音パワースペクトルである。

最小利得係数は、通常、非常に強い風雑音を効果的に除去するためにはるかに小さい値（例えば、－４０Ｂ）を必要とする。雑音が存在する場合であっても音声をより良好に保存するために、Ｇ_ｍｉｎは、Ｃ_{ｍｉｎ＿ｍｉｎ}とＧ_ｍｉｎ＿_ｍａｘとの間で変化し、正規化された位相分散σ_φ（ｗｎ）の関数として次の式で作成される。

ここで、Ｇｍｉｎ＿ｍｉｎ、Ｇｍｉｎ＿ｍｉｎはそれぞれ－４０ｄＢ及び－２０ｄＢに設定され、最小及び最大のＧｍｉｎを表す。σφ（ｗｎ）は、本明細書の他の箇所で説明されるしきい値ｔｈｌｄ＿ｍｉｎ＿σφ、ｔｈｌｄ＿ｍａｘ＿σφと共に、風雑音検出に割り当てられた周波数範囲から計算された正規化された位相分散である。

クロススペクトルの位相の大きな値は、風雑音の存在の強い指標であるので、第２利得関数も次の式で導出される。

ここで、ｔｈｌｄ＿ｍｉｎ＿σ_φ、ｔｈｌｄ＿ｍａｘ＿σ_φは、指定された頻度範囲における風雑音ｐｒｏｂ_ｗｎｉｐの確率を計算するために（確率決定に関して）上記で使用されたものと同じしきい値である。

この利得関数の１つの利点は、両方のチャネル上の時間／周波数グリッドに対する深い減衰を確実にすることである。この時間／周波数グリッドは、クロススペクトルのその関連する位相が過度に大きいので、風雑音の存在を有する可能性が高い。

ＷＮＲ動作用に使用される最終的な組合せ抑制規則は、次の式で表される。

ステップ２２２において、風雑音低減が実行され、図１に示されるように両方のマイクロホンチャネルに適用される。風雑音検出器がフレームを風雑音のみとして検出するか、又は音声に混ざった風雑音として検出する場合、ＷＮＲが関与し、計算は次の式で示される。

ここで、Ｘｉ（ｆ）は仮想チャネルｉの複素スペクトルを表し、Ｃｎ（ｆ）は予め生成されたコンフォート雑音である。ｆ１、ｆ２は、ＷＮＲが行われる周波数範囲を表す。

減衰された信号へのコンフォート雑音注入もまた、本明細書で説明される手法において利用可能である。風雑音は、通常、非常に小さい利得値（例えば、－４０ｄＢ）に起因して深く抑制されるので、真に平滑化されたコンフォート雑音は、事前に作成され、信号が大きく減衰される点に注入される必要がある。定常的な雑音状態の場合、コンフォート雑音スペクトルは、推定された瞬時雑音の長期平滑化バージョンを介して作成される。しかしながら、風雑音は強く、騒々しく、長時間持続する可能性があるので、従来の方法で生成されたコンフォート雑音は、雑音ゲーティング効果を有し、依然として風雑音のようなものであり、したがって、風雑音低減信号に加算するのに適していない。

風雑音低減の適用に、代替的でより使用可能なコンフォート雑音が、最小統計手法の助けを借りて設計される。両方のチャネルで演算された最小統計は、考慮される各周波数について経過時間にわたって最小値を効率的かつ効果的に特定する。それから、これらの非同期最小グリッドを組み合わせて、各チャネルについて「最小」背景雑音を定式化する。

新しいコンフォート雑音スペクトル（エンベロープ）は、２つのチャネルからの２つの最小統計収集の平均である。

ここで、ｃｈａｎｎｅｌ［ｉ］→Ｓｍｉｎ［ｆ］は、最小統計探索時間にわたるｉ番目のチャネルに関連する周波数ｆにおける最小パワースペクトル値を表す。

従来のコンフォート雑音生成と同様に、ＷＮＲアプリケーションのための最終的なコンフォート雑音生成は、正規化されたホワイトノイズＮｗ（ｆ）の一部に対して、最小統計導出スペクトルエンベロープを適用することである。

生成されたこの新しいコンフォート雑音は、実際には、エコー抑制後に使用される場所のような他の場所に適用可能である。

風雑音が信号から除去された後、これらの信号は、変換されて時間領域に戻され、次いで他の目的に利用されてよい。例えば、これらの信号は、車両内の他の装置の動作を制御するために使用できる。他の例では、信号は、他のユーザ又は装置に送信されてもよい。

本明細書で説明される装置（例えば、制御回路、コントローラ、受信機、送信機、センサ、任意のプレゼンテーションもしくは表示装置、又は外部装置）のいずれも、コンピューティング装置を使用して、これらの装置の様々な機能及び動作を実装可能であることを理解されたい。ハードウェアアーキテクチャに関して、そのようなコンピューティング装置は、限定はしないが、ローカルインタフェースを介して通信可能に結合されたプロセッサ、メモリ、ならびに１つ又は複数の入力出力（Ｉ／Ｏ）装置インタフェースを備えてよく、ローカルインタフェースは、例えば、限定はしないが、１つ又は複数のバスや他の有線もしくは無線接続を備えてよい。プロセッサは、ソフトウェア、特にメモリに記憶されたソフトウェアを実行するハードウェア装置であってもよい。プロセッサは、カスタムメイドもしくは市販のプロセッサ、中央処理装置（ＣＰＵ）、コンピューティング装置に関連付けられたいくつかのプロセッサの中の補助プロセッサ、半導体ベースのマイクロプロセッサ（マイクロチップもしくはチップセットの形態）、又はソフトウェア命令を実行するための一般的に任意の装置であってもよい。

本明細書で説明するメモリ装置は、揮発性メモリ素子（例えば、ダイナミックＲＡＭ（ＤＲＡＭ）と、スタティックＲＡＭ（ＳＲＡＭ）と、シンクロナスダイナミックＲＡＭ（ＳＤＲＡＭ）と、ビデオＲＡＭ（ＶＲＡＭ）などのランダムアクセスメモリ（ＲＡＭ））と、不揮発性メモリ素子（例えば、リードオンリメモリ（ＲＯＭ）、ハードドライブ、テープ、ＣＤＲＯＭなど）との中のいずれか１つ又は組合せを備えてよい。さらに、メモリは、電子的と、磁気的と、光学的と、他のタイプとの中の少なくとも一種類の記憶媒体を組み込んでよい。メモリは、様々な構成要素が互いに離れて位置する分散アーキテクチャを持ち得るが、プロセッサによってアクセス可能である。

本明細書で説明するメモリ装置のいずれかにおけるソフトウェアは、１つ又は複数の別個のプログラムを備えてよく、そのそれぞれは、本明細書で説明する機能を実装するための実行可能命令の順序付きリストを含む。ソースプログラムとして構築される場合、プログラムは、メモリ内に含まれても含まれなくてもよいコンパイラ、アセンブラ、インタプリタなどを介して翻訳される。

本明細書で説明される手法のいずれも、コンピュータ媒体（例えば、上述のコンピュータメモリ）上に記憶されたコンピュータ命令として少なくとも部分的に実装してよく、これらの命令は、マイクロプロセッサなどの処理装置上で実行できるが、これらの手法は、電子ハードウェアとソフトウェアの少なくとも一方の任意の組合せとして実装できることが理解されよう。

本発明を実施するために本発明者らに知られている最良の形態を含む、本発明の好ましい実施形態が本明細書に記載されている。図示された実施形態は例示的なものにすぎず、本発明の範囲を限定するものとして解釈されるべきではないことを理解されたい。

Claims

第１オーディオ信号を取得する第１マイクロホンと、
第２オーディオ信号を取得する第２マイクロホンと、を備えるシステムであって、
前記第１マイクロホンは前記第２マイクロホンから空間的に離れていて、
前記第１マイクロホン及び前記第２マイクロホンに結合されている制御回路を備えるシステムにおいて、制御回路が、
前記第１マイクロホンに到達した第１オーディオ信号及び前記第２マイクロホンに到達した第２オーディオ信号を、前記第１オーディオ信号を第１フレーム化オーディオ信号に形成して前記第２オーディオ信号を第２フレーム化オーディオ信号に形成するような各時間区間に連続的かつ同時に分割することと、
前記第１フレーム化オーディオ信号及び前記第２フレーム化オーディオ信号を、目標とする音源に対して時間整合することであって、前記第１フレーム化オーディオ信号及び前記第２フレーム化オーディオ信号の時間整合は、実行時に前記第１マイクロホン及び前記第２マイクロホンの２つのマイクロホンにおいて受信された信号間の動的相互相関評価によって調整された静的幾何形状ベースの計測に基づいている、前記時間整合することと、
第１スペクトルを生成するために前記時間整合された第１フレーム化オーディオ信号のそれぞれに対してフーリエ変換を実行し、第２スペクトルを生成するために前記第２フレーム化オーディオ信号に対してフーリエ変換を実行することであって、前記第１スペクトル及び前記第２スペクトルのそれぞれは、前記各時間区間における前記２つの時間整合されたマイクロホン信号のうちの１つの前記スペクトルを表す、前記実行することと、
前記第１スペクトルと前記第２スペクトルとの相互相関に基づいて、複数の周波数のそれぞれにおける前記第１スペクトルと前記第２スペクトルとの位相差を算出することと、
前記各時間区間についての定義された周波数範囲における前記位相差の正規化された分散を決定することであって、前記周波数範囲は、前記位相差の前記正規化された分散の計算における誤差マージンが最小化されるように、マイクロホンの幾何学的形状に基づいて計算される、前記決定することと、
前記各時間区間において、前記２つの時間整合されたマイクロホン信号の前記スペクトル位相差の前記正規化された分散に基づいて、発話存在の確率及び風雑音存在の確率を定式化及び評価することと、
前記各時間区間において、各時間区間についての区分を決定することであって、前記区分は、発話のみ、風雑音のみ、風雑音と混合された発話、又は未知のうちの１つであり、前記区分を決定するために決定論理が使用され、前記決定論理は、発話存在の確率及び風雑音存在の確率の個々の値及び組み合わされた値を組み込む第１関数に基づき、前記第１関数の値は、複数のしきい値と比較され、風雑音検出決定を行い、決定された区分に基づいて、風減衰動作が選択的に始動される、前記区分を決定することと、
前記風減衰動作が風雑音減衰の実行であるとき、利得又は減衰関数を計算することであって、前記減衰関数が、前記位相差の正規化された分散と、所定の周波数範囲内の複数の周波数のそれぞれにおける個々の位相差とに基づき、前記風雑音減衰が、利得又は減衰関数に前記第１スペクトル及び前記第２スペクトルの各スペクトルの大きさを乗算して、風雑音が除去された第１スペクトル及び風雑音が除去された第２スペクトルを生成することによって、周波数領域において実行される、前記計算することと、
前記風雑音が除去された前記第１スペクトルと前記風雑音が除去された前記第２スペクトルとを結合して結合スペクトルを生成することと、
前記結合スペクトルの逆ＦＦＴを行うことによって、風雑音が除去された時間領域信号を構築することと、
前記時間領域信号を使用して動作を行うことであって、前記動作は、前記時間領域信号を電子装置に送信すること、前記時間領域信号を使用して電子機器を制御すること、前記時間領域信号を使用して電子機器と相互作用することの中の１つ又は複数である、前記時間領域信号を使用して動作を行うことと
を行うべく構成されている、
前記システム。
前記時間区間は、１０ミリ秒と２０ミリ秒との間の長さである、請求項１に記載のシステム。
目標とする前記音源が、車両の座席に着座している人からの声を備える、請求項１に記載のシステム。
発話存在の前記確率及び風雑音存在の前記確率は、それぞれ、０と１の間の値を持つ、請求項１に記載のシステム。
前記区分の決定は、現在の決定と前の連続する時間区間における決定の流れとを考慮する多数決手法をさらに利用する、請求項１に記載のシステム。
発話存在の前記確率及び風雑音存在の前記確率は、前記各時間区間における発話存在又は風雑音存在の程度を評価するために使用される計量基準を提供する、請求項１に記載のシステム。
前記決定された区分が、風雑音のみ、又は発話と混合された風雑音であるとき、前記風雑音減衰動作が始動される、請求項１に記載のシステム。
前記しきい値の値は、発話及び風雑音サンプルの量を使用して、オフラインアルゴリズムトレーニング段階においてオフラインで推定される、請求項１に記載のシステム。
前記システムが、車両内に少なくとも部分的に配置されている、請求項１に記載のシステム。
音源が動く、請求項１に記載のシステム。
制御回路にて、
第１マイクロホンに到達する第１オーディオ信号及び第２マイクロホンに到達する第２オーディオ信号を時間区間に連続的かつ同時に分割し、それにより、各時間区間について、前記第１マイクロホンに到達する前記第１オーディオ信号が第１フレーム化オーディオ信号に形成され、前記第２マイクロホンに到達する第２オーディオ信号が第２フレーム化オーディオ信号に形成されるステップと、
前記第１フレーム化オーディオ信号及び前記第２フレーム化オーディオ信号を、目標とされた音源に対して時間で整合させ、ここでは前記第１フレーム化オーディオ信号と前記第２フレーム化オーディオ信号とのに前記第１マイクロホン及び前記第２マイクロホンの２つのマイクロホンにおいて受信された信号間の動的相互相関評価によって調整された静的幾何形状ベースの計測に基づく、ステップと、
前記時間整合された前記第１フレーム化オーディオ信号のそれぞれにフーリエ変換を実行して第１スペクトルを生成し、前記第２フレーム化オーディオ信号にフーリエ変換を実行して第２スペクトルを生成し、ここでは前記第１スペクトル及び前記第２スペクトルのそれぞれは、前記各時間区間における前記２つの時間整合されたマイクロホン信号のうちの１つの前記スペクトルを表す、ステップと、
前記第１スペクトルと前記第２スペクトルとの相互相関に基づいて、複数の周波数のそれぞれにおける前記第１スペクトルと前記第２スペクトルとの位相差を算出しするステップと、
前記各時間区間について、定義された周波数範囲における前記位相差の正規化された分散を決定し、ここでは前記周波数範囲は、前記位相差の前記正規化された分散の計算における誤差マージンが最小化されるように、マイクロホンの幾何学的形状に基づいて計算される、ステップと、
前記各時間区間において、前記２つの時間整合されたマイクロホン信号の前記スペクトル位相差の前記正規化された分散に基づいて、発話存在の確率及び風雑音存在の確率を定式化及び評価するステップと、
前記各時間区間において、各時間区間に対する区分を決定し、ここでは区分は、発話のみ、風雑音のみ、風雑音に混ざった発話、又は不明の中の１つであり、前記区分の決定に決定論理が使用され、前記決定論理は、発話存在の確率及び風雑音存在の確率の個々の値及び組み合わされた値を組み込む第１関数に基づき、前記第１関数の値は、複数のしきい値と比較され、風雑音検出決定を行い、決定された区分に基づいて、風減衰動作が選択的に始動される、ステップと、
前記風減衰動作が風雑音減衰を実行することであるとき、利得又は減衰関数を計算し、ここでは前記関数が、前記位相差の前記正規化された分散と、所定の周波数範囲内の複数の周波数のそれぞれにおける個々の位相差とに基づき、風雑音減衰が、前記利得又は減衰関数に前記第１スペクトル及び前記第２スペクトルの各スペクトルの大きさを乗算することによって周波数領域において実行されて、風雑音が除去された第１スペクトル及び風雑音が除去された第２スペクトルを生成するステップと、
前記風雑音が除去された第１スペクトルと前記風雑音が除去された第２スペクトルとを結合して、結合スペクトルを生成するステップと、
前記結合スペクトルの逆ＦＦＴを行うことによって、風雑音が除去された時間領域信号を構築するステップと、
前記時間領域信号を使用して動作を行うステップであって、ここでは前記動作は、前記時間領域信号を電子装置に送信すること、前記時間領域信号を使用して電子機器を制御すること、又は前記時間領域信号を使用して電子機器と相互作用することのうちの１つ又は複数である、ステップと
を備える、方法。
前記時間区間は、１０ミリ秒と２０ミリ秒との間の長さである、請求項１１に記載の方法。
目標とする前記音源が、車両の座席に着座している人からの声を備える、請求項１１に記載の方法。
発話存在の前記確率及び風雑音存在の前記確率は、それぞれ、０と１の間の値を持つ、請求項１１に記載の方法。
前記区分の決定は、現在の決定と前の連続する時間区間における決定の流れとを考慮する多数決手法をさらに利用する、請求項１１に記載の方法。
発話存在の前記確率及び風雑音存在の前記確率は、前記各時間区間における発話存在又は風雑音存在の程度を評価するために使用される計量基準を提供する、請求項１１に記載の方法。
前記決定された区分が、風雑音のみ、又は発話に混ざった風雑音であるとき、前記風雑音減衰動作が始動される、請求項１１に記載の方法。
前記しきい値の値は、発話及び風雑音サンプルの量を使用して、オフラインアルゴリズムトレーニング段階においてオフラインで推定される、請求項１１に記載の方法。
前記制御回路が、車両内に少なくとも部分的に配置されている、請求項１１に記載の方法。
前記音源が動く、請求項１１に記載の方法。