JP2023509593A - 風雑音減衰のための方法及び装置 - Google Patents

風雑音減衰のための方法及び装置 Download PDF

Info

Publication number
JP2023509593A
JP2023509593A JP2022538844A JP2022538844A JP2023509593A JP 2023509593 A JP2023509593 A JP 2023509593A JP 2022538844 A JP2022538844 A JP 2022538844A JP 2022538844 A JP2022538844 A JP 2022538844A JP 2023509593 A JP2023509593 A JP 2023509593A
Authority
JP
Japan
Prior art keywords
wind noise
spectrum
microphone
audio signal
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022538844A
Other languages
English (en)
Other versions
JP7352740B2 (ja
Inventor
ソン・ジエンミン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Continental Automotive Systems Inc
Original Assignee
Continental Automotive Systems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Continental Automotive Systems Inc filed Critical Continental Automotive Systems Inc
Publication of JP2023509593A publication Critical patent/JP2023509593A/ja
Application granted granted Critical
Publication of JP7352740B2 publication Critical patent/JP7352740B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/07Mechanical or electrical reduction of wind noise generated by wind passing a microphone

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Optical Radar Systems And Details Thereof (AREA)

Abstract

Figure 2023509593000001
【課題】マイクロホンが捉える音の信号中の風雑音を低減する。
【解決手段】本発明は、マルチマイクアレイで捕捉されたオーディオ信号から風雑音を検出して低減する手法について説明するものである。いくつかの観点では、風雑音検出器は、発話の存在及び風雑音の存在の確率から構築され、これらは、別々の周波数領域におけるマルチマイクロホンの時間整列信号間の位相差の統計から導出される。風雑音が検出された場合、周波数領域の利得によって低減される。これは、位相差とその統計の関数でもある。

Description

本出願は、マイクロホンによって検出された信号における風雑音(風切り音)の除去又は低減に関する。
風雑音(風切り音、WN)は、多くの環境における聴覚干渉の主要な原因であり、例えば、車内の補聴器又はハンズフリー通信システムでは、マイクロホン膜に当たる乱気流によって引き起こされ、主に比較的低周波領域に集中した強い可聴信号を生成する。これらのオーディオ装置又は音声通信システムが雑音の多い条件下で良好に機能することを可能にするためには、信頼性が高く効果的な風雑音低減(WNR)能力が重要である。
しかし、従来の雑音抑圧方法では、風雑音を適切に除去できない。これは主に、風雑音と音声とを、時間領域又は周波数領域におけるエネルギー分析又はSNR分析によって区別することが困難であるためである。
本開示のより完全な理解に、以下の詳細な説明及び添付図面を参照すべきである。さらに、特定の行動やステップは、特定の発生順序で説明又は描写されることがあるが、当業者は、配列に関するそのような特異性が実際には必要とされないことを理解するであろう。また、本明細書で使用される用語及び表現は、特定の意味が本明細書に別段の定めがある場合を除き、対応するそれぞれの調査および研究の分野に関してそのような用語および表現に与えられる通常の意味を有することも理解されよう。
図1は、本発明の様々な実施形態による風雑音低減のためのシステムの図を含む。 図2は、本発明の様々な実施形態による風雑音低減のための手法のフローチャートを含む。 図3は、本発明の様々な実施形態による、本明細書で説明する手法の動作の観点を示す図を備える。 図3は、本発明の様々な実施形態による、本明細書で説明する手法の動作の観点を示す図を備える。 図4は、本発明の様々な実施形態による、本明細書で説明する手法の動作の観点を示す図を備える。 図5は、本発明の様々な実施形態による、本明細書で説明する手法の動作の観点を示す図を備える。 図6は、本発明の様々な実施形態による、本明細書で説明する手法の動作の観点を示す図を備える。 図7は、本発明の様々な実施形態による、本明細書で説明する手法の動作の観点を示す図を備える。 図8は、本発明の様々な実施形態による、本明細書で説明する手法の動作の観点を示す図を備える。
本明細書で説明する手法は、2つ以上のマイクロホンにおける空間選択性及び信号相関特性を使用して、受信信号中の風雑音を決定する。異なるマイクロホン位置に存在する信号相関における3つの特性(発話信号と無相関である風雑音信号と、大部分無相関である異なる位置における風雑音と、相関される小型マイクロホンアレイ上の全てのマイクロホンにおける発話)を利用することによって、これらの手法は、任意の所与の時間におけるマイクロホン入力を4つの区分(風雑音、発話に混ざった風雑音、発話及びバフェッティング以外の雑音、例えば、従来の定常雑音)のうちの1つとして分類する、信頼性のある風雑音検出器を迅速に構築する。
いくつかの観点では、風雑音検出と分類結果との少なくとも一方に基づいて、本発明はまた、信号、例えば2つの入ってくるマイクロホン入力値用の効果的な風雑音減衰器を作成し、適用する。態様では、減衰利得係数は、コヒーレンスと、2つ(又は複数の)マイクロホン入力のクロスパワースペクトルの位相と、風雑音検出器において推定された発話及び風雑音の確率とから導出される。2つのマイクロホン入力の最小統計から生成されたコンフォート雑音電力スペクトルを作成し、風雑音減衰オーディオ信号に適用して、雑音ゲーティング効果を排除できる。本明細書で提供される手法の適用は、発話の品質を維持しながら、風雑音を迅速かつ有意量で除去する。
いくつかの観点では、本手法は、2つ(又はそれ以上)のマイクロホンベースの風雑音/発話検出及び風雑音抑圧のための複数の手法及びアルゴリズムを具現化する。様々なステップが実行される。
1つの手法では、前処理が最初に実行される。いくつかの観点では、音声信号が車の中の2つのマイクロホンにおいて捕捉され、マイクロホン信号のそれぞれが位相整合されるべきである。その位相整合は、音源(例えば、運転手又は共同運転手)から生じた2つの信号間の一定時間遅延と、2つの信号の相互相関に基づいて実行時に計算された遅延とを決定する幾何学的手法の組合せを通して行われる。決定論理を使用して、幾何学的ベースの静的遅延又は動的に計算された実行時遅延が2つの信号位相整合に使用されるべきかどうかを決定する。以前の手法とは異なり、この手法は信頼性が高く、車の中の不正確な幾何学的計測又は話者(運転手/共同運転手)位置に対してより寛容である。
次に、風雑音及び音声の計測のための計量基準が作成される。2つの計量基準、すなわち、発話存在の確率及び風雑音存在の確率が作成される。いくつかの観点では、これらの計量基準は、それらの値が0と1との間の範囲であるので、確率である。
信号分類(例えば、発話、雑音など)にエネルギー又はSNR(信号対雑音比)を利用する以前の手法とは異なり、これらの確率は、発話/風雑音分類に使用され、複数の周波領域における位相差の統計から完全に導出される。ここに記載する手法では、特定の周波数領域にわたって広がる位相差の正規化された分散が、風雑音から音声を区別するための重要な変数として採用される。これらの正規化された分散は、発話存在の確率及び風雑音存在の確率を構築するためにさらに使用される。この処理は、実行時に各時間間隔(例えば、10msから20ms)に対して起きる。
それから、発話及び風雑音が検出と分類の少なくとも一方がなされる。本明細書で利用される分類器/検出器は、発話のみ、風雑音のみ、及び発話/風雑音混合データを含むオーディオサンプルを使用して事前トレーニングされた(又はオフライントレーニングされた)決定論理(例えば、ハードウェア又はソフトウェアの任意の組合せとして実装される)を利用する。各短い時間間隔(例えば、10msから20ms)において、異なる周波数領域における信号特性を特徴付ける2つの計量基準、すなわち、発話の確率及び風雑音の確率の両方が計算され、これらの2つの計量基準は、別々に重み付けされ、それから、分類に使用される単一の計量基準を形成するために線形結合される。単一の計量基準は、音声のしきい値と、風雑音のしきい値と、音声及び風雑音が同時に発生するしきい値を表す3つのしきい値と比較される。いくつかの例では、これらのしきい値は、オフライン分類器トレーニングから決定される。
フレームごとの発話/風雑音分類の信頼性を高め、(風雑音が抑制された後に不快な風雑音の漏れにつながる)散発的な分類エラーを回避する観点及びそれらを行うために、本明細書で説明する手法は、フレームtにおける各分類結果cが、(N-1)個の前のフレームからの(N-1)個の分類結果とともに長さN(例えば、N=10)の循環バッファに押し出される多数決方式を採用する。現在のフレームtに対する信号クラス決定は、多数決によって行われ、すなわち、循環バッファにおけるその発生が最も現れる最終的な分類結果が取り上げられる。
次に、利得関数が導出及び適用される。(信号対雑音比(SNR)情報のみを利用する)利得関数構築のための以前の手法とは異なり、本明細書で説明される手法で利用される風雑音利得関数は、SNRと、風雑音/音声検出において重要な役割も果たす位相差の正規化分散との組合せである。SNRと位相情報との組合せは、スペクトル情報と空間情報との両方を提供し、風雑音減衰/音声保存のための導出利得関数のみである従来のSNRよりもはるかに良好に機能する。
これらの実施形態の多くでは、システムは、第1マイクロホンと、第2マイクロホンと、制御回路とを備え、第1マイクロホンは第1オーディオ信号を取得し、第2マイクロホンは第2オーディオ信号を取得する。第1マイクロホンは、第2マイクロホンから空間的に離れている。
第1マイクロホン及び第2マイクロホンに結合された制御回路は、第1マイクロホンに到達する第1オーディオ信号と第2マイクロホンに到達する第2オーディオ信号とを複数の時間区間に連続的かつ同時に分けるように構成されている。各時間区間について、第1マイクロホンに到達する第1オーディオ信号は第1フレーム化オーディオ信号に形成され、第2マイクロホンに到達する第2オーディオ信号は第2フレーム化オーディオ信号に形成される。
制御回路は、第1フレーム化オーディオ信号と第2フレーム化オーディオ信号とを目標音源に対して時間的に整合させるようにさらに構成されている。第1フレーム化オーディオ信号と第2フレーム化オーディオ信号との時間整合は、実行時に2つのマイクロホンにおいて受信された信号間の動的相互相関評価によって調整された静的な幾何形状ベース計測に基づく。
制御回路はまた、時間整合された第1フレーム化オーディオ信号にフーリエ変換を実行して第1スペクトルを生成し、第2フレーム化オーディオ信号にフーリエ変換を実行して第2スペクトルを生成するように構成される。第1スペクトル及び第2スペクトルそれぞれは、各時間区間における2つの時間整合されたマイクロホン信号のうちの1つのスペクトルを表す。
制御回路は、第1スペクトルと第2スペクトルとの相互相関に従って、複数の周波数のそれぞれにおける第1スペクトルと第2スペクトルとの間の位相差を計算するようにさらに構成されている。制御回路は、各時間区間についての定義された周波数範囲における位相差の正規化された分散を決定するようにさらに構成されている。周波数範囲は、位相差の正規化された分散の計算における誤差マージンが最小化されるように、マイクロホンの幾何学的形状に基づいて計算される。
制御回路はまた、各時間区間において、2つの時間整合されたマイクロホン信号のスペクトル位相差の正規化された分散に基づいて、音声存在の確率及び風雑音存在の確率を定式化及び評価するように構成されている。制御回路はそれから、各時間区間において、時間区間ごとの区分を決定するように構成され、区分は、発話のみ、風雑音のみ、風雑音と混合された発話、又は未知のうちの1つである。ここで、決定論理が、区分の決定に使用され、決定論理は、発話存在の確率及び風雑音存在の確率の個々の値及び組み合わされた値を組み込む第1関数に基づく。第1関数の値は、複数のしきい値と比較され、風雑音検出決定を行う。決定された区分に基づいて、風減衰処理が選択的に始動される。
動作が風雑音減衰の実行であるとき、制御回路は、利得又は減衰関数を計算するように構成されている。関数は、位相差の正規化された分散及び所定の周波数範囲内にある複数の周波数の各周波数における個々の位相差に基づく。風雑音減衰は、利得又は注意関数を第1スペクトル及び第2スペクトルの各スペクトルのマグニチュード(大きさ)と乗算することで周波数領域において実行され、風雑音が除去された第1スペクトル及び風雑音が除去された第2スペクトルを生成する。
制御回路は、それから、風雑音が除去された第1スペクトルと風雑音が除去された第2スペクトルとを結合して結合スペクトルを生成し、結合スペクトルの逆FFTを行うことによって風雑音が除去された時間領域信号を構築するように構成されている。
他のエンティティと潜在的に組み合わされた制御回路は、時間領域信号を使用して動作を実施可能である。ここでいう動作とは、時間領域信号を電子装置に送信すること、時間領域信号を使用して電子機器を制御すること、時間領域信号を使用して電子機器と相互作用することのうちの1つ又は複数である。
いくつかの観点では、時間区間は、長さが10から20ミリ秒である。他の例もあり得る。
いくつかの例では、目標音声源は、車両の座席に座っている人からの音声を含む。音声源の他の例もあり得る。
他の例では、発話存在の確率及び風雑音存在の確率はそれぞれ、0と1との間の値を持つ。
他の観点では、区分の決定は、現在の決定と前の連続する時間区間における決定の流れとを考慮する多数決手法をさらに利用する。他の例では、音声存在の確率及び風雑音存在の確率は、各時間区間における音声存在又は風雑音存在の程度の評価に使用される計量基準を提供する。
さらに他の観点では、風雑音の減衰動作は、なされた決定が風雑音のみ又は音声に混ざった風雑音であるときに始動される。さらに他の例では、しきい値の値は、音声及び風雑音サンプルの量を使用して、オフラインアルゴリズムトレーニング段階においてオフラインで推定される。
いくつかの例において、システムは、少なくとも部分的に車両内に配置される。他の位置も可能である。いくつかの例では、音源は移動し、他の例では、音源は静止又はほぼ静止している。
これらの実施形態のうちの他のものでは、マイクロホン信号内の風雑音低減の手法が提供される。
制御回路は、第1マイクロホンに到達する第1オーディオ信号及び第2マイクロホンに到達する第2オーディオ信号を複数の時間区間に連続的かつ同時に分割(区間化)する。各時間区間について、第1マイクロホンに到達する第1オーディオ信号は第1フレーム化オーディオ信号に形成され、第2マイクロホンに到達する第2オーディオ信号は第2フレーム化オーディオ信号に形成される。
制御回路は、第1フレーム化オーディオ信号と第2フレーム化オーディオ信号とを目標音源に対して時間で整合させる。第1フレーム化オーディオ信号と第2フレーム化オーディオ信号との時間整合は、実行時に2つのマイクロホンにおいて受信された信号間の動的相互相関評価によって調整された静的幾何形状に基づいた計測に基づく。
制御回路は、時間整合された第1フレーム化オーディオ信号のそれぞれにフーリエ変換を実行して第1スペクトルを生成し、第2フレーム化オーディオ信号のそれぞれにフーリエ変換を実行して第2スペクトルを生成する。第1スペクトル及び第2スペクトルそれぞれは、各時間区間における2つの時間整合されたマイクロホン信号のうちの1つのスペクトルを表す。
制御回路は、第1スペクトルと第2スペクトルとの相互相関に従って、複数の周波数のそれぞれにおける第1スペクトルと第2スペクトルとの間の位相差を計算する。
制御回路は、各時間区間について、定義された周波数範囲における位相差の正規化された分散を決定する。周波数範囲は、位相差の正規化された分散の計算における誤差マージンが最小化されるように、マイクロホンの幾何学的形状に基づいて計算される。
制御回路は、各時間区間において、2つの時間整合されたマイクロホン信号のスペクトル位相差の正規化された分散に基づいて、発話存在の確率及び風雑音存在の確率を定式化及び評価する。制御回路は、各時間区間にて、各時間区間の区分を決定する。区分は、発話のみ、風雑音のみ、風雑音に混ざった発話、又は未知の中の1つである。決定論理は、区分を決定するために使用され、決定論理は、発話存在の確率及び風雑音存在の確率の個々の値及び組み合わされた値を組み込む第1関数に基づいている。第1関数の値は、複数のしきい値と比較され、風雑音検出決定を行う。決定された区分に基づいて、風減衰動作が選択的に始動される。
動作が風雑音減衰の実行であるとき、制御回路は、利得又は減衰関数を計算する。この関数は、位相差の正規化された分散及び所定の周波数範囲内の複数の周波数のそれぞれにおける個々の位相差に基づき、風雑音減衰は、利得又は注意関数を第1スペクトル及び第2スペクトルの各スペクトルのマグニチュードと乗算することで周波数領域において実行され、風雑音除去された第1スペクトル及び風雑音除去された第2スペクトルを生成する。
制御回路は、風雑音が除去された第1スペクトルと風雑音が除去された第2スペクトルとを合成し、合成スペクトルを生成する。制御回路は、合成スペクトルの逆FFTを行うことで、風雑音が除去された時間領域信号を構築する。
時間領域信号を使用して動作が行われる。ここでいう動作とは、時間領域信号を電子装置に送信すること、時間領域信号を使用して電子機器を制御すること、時間領域信号を使用して電子機器と相互作用することの中の1つ又は複数である。動作として他の例があり得る。
ここで図1を参照すると、風雑音を減衰させるためのシステムの一例が表されている。車両100は、第1マイクロホン102と、第2マイクロホン104と、運転者101と、搭乗者103とを備える。マイクロホン101及び104は、制御回路106に結合されてよい。
マイクロホン102及び104は、いくつかの観点では人間の発話を検出する任意のタイプのマイクロホンであってよい。一例では、マイクロホン102及び104は、時間領域において人間の音声の信号を感知し、検出された音声を表すアナログ信号を生成する従来のアナログマイクロホンであってよい。車両100は、自動車やトラックのような人間を輸送する任意の種類の車両である。他の例もあり得る。2つのマイクロホンが示されているが、これらの手法は任意の数のマイクロホンに適用可能であることが理解されよう。
本明細書で使用される場合、「制御回路」という用語は、一般に他の構成要素及び装置の動作を管理するように設計された、プロセッサ、メモリ、及びプログラム可能な入力/出力周辺機器を持つ任意のマイクロコントローラ、コンピュータ、又はプロセッサベースの装置を広く指すことが理解されるであろう。メモリ、他の構成要素及び装置と通信する送受信機などを含む、一般的な付属付属装置を備えることがさらに理解される。これらのアーキテクチャ上の選択事項は、当技術分野でよく知られ理解されていて、本明細書でさらに説明する必要はない。制御回路106は、本明細書に記載されるステップと、動作と、機能のうちの1つ又は複数を(例えば、当業者によってよく理解されているように、メモリに記憶された対応するプログラミングを使用することによって)実行するように構成してよい。
制御回路106は、車両100内の様々な位置に配備されてよい。一例では、制御回路106は、車両制御ユニット(例えば、車両100における様々な機能を制御又は監視する)に配備されてよい。一般的に言えば、制御回路106は、(後述するように)受信したマイクロホン信号に風雑音が存在するか否かを判定し、それから、それらの信号から風雑音を選択的に除去する。風雑音が除去された後、現在減衰されているマイクロホン信号は、他の目的に(例えば、車両100において動作をするために)使用可能である。
マイクロホン102及び104は、有線接続又は無線接続のいずれかによって制御回路106に結合してよい。マイクロホン102及び104はまた、ユーザの必要性やシステム要件に応じて車両100内の様々な位置に展開してよい。
図1のシステムの動作の一例では、第1マイクロホン102は第1オーディオ信号を取得し、第2マイクロホン104は第2オーディオ信号を取得する。第1マイクロホン102は第2マイクロホン104から空間的に離れている。
制御回路106は、各時間区間用に第1マイクロホン102に到達する第1オーディオ信号及び第2マイクロホン104に到達する第2オーディオ信号を、連続的かつ同時に複数区間に分割するように構成されている。この各時間区間では、第1マイクロホン102に到達する第1オーディオ信号は第1フレーム化オーディオ信号に形成され、第2マイクロホン104に到達する第2オーディオ信号は第2フレーム化オーディオ信号に形成される。
制御回路106は、第1フレーム化オーディオ信号と第2フレーム化オーディオ信号とを目標音声源に対して時間的に整合させるようにさらに構成されている。第1フレーム化オーディオ信号と第2フレーム化オーディオ信号との時間整合は、実行時に2つのマイクロホンにおいて受信された信号間の動的相互相関評価によって調整された静的幾何形状ベースの計測に基づいている。
制御回路106はまた、時間整合された第1フレーム化オーディオ信号のそれぞれにフーリエ変換を実行して第1スペクトルを生成し、第2フレーム化オーディオ信号のそれぞれにフーリエ変換を実行して第2スペクトルを生成するように構成されている。第1スペクトル及び第2スペクトルそれぞれは、各時間区間における2つの時間整合されたマイクロホン信号のうちの1つの周波数スペクトルを表す。
制御回路106は、第1スペクトルと第2スペクトルとの相互相関に従って、複数の周波数のそれぞれにおける第1スペクトルと第2スペクトルとの間の位相差を計算するようにさらに構成されている。制御回路106は、各時間区間についての定義された周波数範囲における位相差の正規化された分散を決定するようにさらに構成されている。周波数範囲は、位相差の正規化された分散の計算における誤差マージンが最小化されるように、マイクロホンの幾何学的形状に基づいて計算される。
制御回路106はまた、各時間区間において、2つの時間整合されたマイクロホン信号のスペクトル位相差の正規化された分散に基づいて、発話存在の確率及び風雑音存在の確率を定式化及び評価するように構成されている。次に、制御回路106は、各時間区間において、各時間区間用の区分(カテゴリー)を決定するように構成されていて、ここで、区分は、発話のみ、風雑音のみ、発話と風雑音との混合、又は不明のうちの1つである。決定論理は、各時間区間の区分の決定に使用される。決定論理は、発話存在の確率及び風雑音存在の確率の個々の値及び組み合わされた値を組み込む第1関数に基づいている。第1関数の値は、複数のしきい値に対して比較され、風雑音の判断がなされる。決定された区分に基づいて、風雑音の減衰動作が選択的に始動される。
動作が風雑音の減衰の実行であるとき、制御回路106は、利得又は減衰関数を計算するように構成されている。関数は、位相差の正規化された分散及び所定の周波数範囲内の複数の周波数のそれぞれにおける個々の位相差に基づいている。風雑音減衰は、利得又は注意関数を第1スペクトル及び第2スペクトルの各スペクトルのマグニチュードと乗算することで周波数領域において実行されて、風雑音が除去された第1スペクトル及び風雑音が除去された第2スペクトルを生成する。
制御回路106は、それから、風雑音が除去された第1スペクトルと風雑音が除去された第2スペクトルとを結合して結合スペクトルを生成し、結合スペクトルの逆FFTを行うことによって風雑音が除去された時間領域信号を構築するように構成される。
制御回路106は、それ自体で、又は他のエンティティと組み合わせて、時間領域信号を使用して動作を実行可能である。ここでいう動作とは、電子装置(例えば、スマートフォン、コンピュータ、ラップトップ、又はタブレットのような電子装置)に時間領域信号を(送信機110を使用して)送信すること、最終時間領域信号を使用して電子機器(例えば、オーディオシステム、操縦システム、又は制動システムのような車両100内の電子機器)を制御すること、時間領域信号を使用して電子機器と相互作用することのうちの1つ又は複数である。一例では、ユーザは、ラジオに口頭で指示して始動させ、それから、ラジオの音量を制御してよい。他の例があり得る。
1態様では、信号の時間区間は、10から20ミリ秒長である。他の例があり得る。
1例では、目標音声源は、車両の座席に座っている運転者101又は乗員105からの音声を含む。音声源の他の例があり得る。
他の例では、発話存在の確率及び風雑音存在の確率はそれぞれ、0と1との間の値を持つ。
他の観点では、区分の決定は、現在の決定と前の連続する時間区間における決定の流れとを考慮する多数決手法をさらに利用する。他の例では、音声存在の確率及び風雑音存在の確率は、各時間区間における音声存在又は風雑音存在の程度の評価に使用される計量基準を提供する。
さらに他の観点では、風雑音減衰行動は、決定された決定が風雑音のみ又は発話と混合された風雑音であるときに始動される。さらに他の例では、しきい値の値は、発話及び風雑音サンプルの量を使用して、オフラインアルゴリズムトレーニング段階においてオフラインで推定される。例えば、これは、システム初期化時に工場で決定されてよい。
一部の例では、音源(運転者101及び乗員103)は移動するが、他の例では、音源は静止しているか又はほぼ静止している。
ここで図2を参照すると、風雑音検出及び減衰用の手法の一例が説明されている。
ステップ202において、スペクトル分析が実行される。一例では、デュアルマイクロホンx(n)、x(n)から来る各10msの入力信号は、重複加算処理を通過して、前のフレームとともに20msフレームを定式化し、処理されるべき「生」データの表現としてスペクトル等価物x(f)、x(f)を生成する。
ステップ204において、マイクロホン入力ステアリングが実行される。アルゴリズムは、2つのマイクロホン入力x1(f)、x2(f)を同相で整列させ続ける。この目的に、マイクロホンの幾何形状から導出されたステアリングベクトルが、システム初期化の一部として計算される。いくつかの観点では、幾何形状ベースのステアリングベクトル形成は、固定ビームフォーマ(FBF)において使用されるものと同様であるが、それよりも単純である。
マイクロホンの幾何学的配置に関して、車両の内側に(典型的には中央コンソールの頭上に)取り付けられた2つのマイクロホンアレイは、車両の中心軸線に対して同一直線上にあり、かつ垂直である。マイクロホンアレイの幾何形状は、図1に示すように、運転者と共同運転者の口からマイクロホンまでの距離によって決定される。DM1は、運転者101からマイクロホン1(102)までの間隔であり、PM2は、共同運転者又は乗員103からマイクロホン2(104)までの距離である。実際には、幾何学的配置は、車両の中心軸に対して運転者101及び助手席同乗者103に対して対称である、すなわち、PM1=DM2、及びPM2=DM1などであることも仮定される。
車両内の音声源が運転者101からであり、2つのマイクロホン102及び104への信号伝搬のためのマルチパスの影響を無視できると仮定すると、音声信号を位相整合するステアリングベクトルsv1は、次の式によって決定される。
Figure 2023509593000002
τ1、τ2は、マイクロホン1及び2に到達する信号伝搬遅延(秒単位)である。a1、a2は、個々の正規化経路損失に関連する2つの因子である。
ステアリングベクトルは、最も遠いマイクロホンへの信号伝搬の遅延が0であると仮定することで簡略化されて、ステアリングベクトルは次の式で表されるものとなる。
Figure 2023509593000003
ここで、τは、より近いマイクロホンに到達する音声の相対的な遅延(秒単位の負の数)である。
デュアルマイクロホンアレイに対するドライバ101及び乗客103(の口)の位置は対称であると仮定される。定式化された同じステアリングベクトルがドライバ101及び乗客103の両方に適用可能である。
車両100内の音声源がドライバからであり、2つのマイクロホン102及び104への信号伝搬のためのマルチパスの影響が無視できると仮定して、音声信号を位相整合させるステアリングベクトルsv1は、次の式で決定される。
Figure 2023509593000004
τ1、τ2は、マイクロホン1及び2に到達する信号伝搬遅延(秒単位)であり、a1、a2は、個々の正規化された経路損失に関連する2つの因子である。
ステアリングベクトルは、最も遠いマイクロホンへの信号伝搬の遅延が0であると仮定することによって簡略化される。ステアリングベクトルは次の式で表されるものとなる。
Figure 2023509593000005
ここで、τは、より近いマイクロホンに到達する音声の相対的な遅延(秒単位の負数)である。
デュアルマイクロホンアレイに対する運転者101及び乗員103(の口)の位置は対称であると仮定され、定式化された同じステアリングベクトルが運転者及び共同運転者の両方に適用可能である。
ステップ206において、信号整合が実行される。マイクロホンの幾何形状から導出されたステアリングベクトルが与えられると、運転者又は共同運転者から生じた2つのマイクロホン信号x1(f)、x2(f)は、次式によって運転者及び共同運転者の視線方向において位相の整列がなされる。
運転者103には次の式を用いる。
Figure 2023509593000006
又は共同運転者(乗員)105には次の式を用いる。
Figure 2023509593000007
ステップ208において、動的時間遅延推定及びステアリングベクトル選択が実行される。マイクロホン幾何形状は一度計測され、毎回使用する固定の変数となるが、運転者101及び同乗者103から2つのマイクロホン102及び104までの距離は、時々変化する可能性がある。運転者と共同運転者の身長は同じでない場合があり、これは、計測された幾何形状がもはや正確に適用されないことを意味する。したがって、幾何形状から計算された相対時間遅延は、「公称」値として認識されるべきであり、幾何形状の不一致に起因して位相整合に誤差が存在することになる。
この問題を緩和するために、時間遅延は、各フレームにおける2つのマイクロホン信号x1(n)、x2(n)の相互相関を介して、次式によってオンザフライで(その場ですぐに)推定される。
Figure 2023509593000008
ここで、n及びmはデータサンプルの添え字である。
時間領域において計算された相互相関Rx1x2(m)は、Rx1x1(0)とRx2x2(0)の幾何平均によってさらに正規化されて、相互相関係数になる。相互相関係数の絶対値は、区間[0,1]に限定される。
Figure 2023509593000009
そのように、サンプルの単位でのx1とx2との間の有効な時間遅延は、次の式で推定できる。
Figure 2023509593000010
ここで、ここで、τ_d,τ,Δは、幾何学的τからの最大許容偏差である動的、幾何学的及びマージンに対するサンプル単位の時間遅延を表す。thld_Rx1x2iはしきい値(例えば、0.60)である。
遅延τ_dは、有効である場合、動的ステアリングベクトルを構築するためにサンプルの単位から秒の単位に変換される。
Figure 2023509593000011
ここで、fはサンプリング周波数(Hz)である。
経路損失は、幾何学的に又は動的に構築されたステアリングベクトルについて同じに保たれる。
各フレームにおいて、計算された動的遅延が有効である場合、その対応するステアリングベクトルが信号整合に使用され、そうでない場合、幾何学的導出ステアリングベクトルが使用される。動的τ計算及びそのステアリングベクトル適用は、幾何学的不整合(micmatch, mismatch)に起因する2つの信号整合に起こり得る誤差を軽減し、数値分析によって始動される動的時間遅延における偶発的な全体的誤差を防止する。
ステップ210において、信号のコヒーレンス及びクロススペクトルが決定される。2つのマイクロホン信号の統計は、風雑音と車両内の音声との間の強い差を示す。有用な統計は、以下のように定義される2つの信号X(f)とX(f)のコヒーレンスによって最もよく表される。
Figure 2023509593000012
ここで、{}は複素共役演算子を表す。
短いフレーム分析ゆえ、クロスパワースペクトルは、次の式で表され
Figure 2023509593000013
以下のように時間tにわたって平滑化される。
Figure 2023509593000014
ここで、平滑化係数aは、一例では0.5に設定される。
クロスパワースペクトルの位相は、一部の観点では、風雑音と音声検出に使用される最も重要な統計値であり、次の式で計算される。
Figure 2023509593000015
ここで、X(f)とX(f)は、本明細書の他の箇所で説明するように、幾何学的ステアリングベクトル及び動的ステアリングベクトルのいずれかによって位相整合される。
ステップ212において、風雑音及び音声識別(位相解析による)が実行される。車両において、風雑音と音声との間の区別は、2つの整列された信号X(f)とX(f)との間の相互複素スペクトルの位相から探索される。音声信号は相関されるが、風雑音は相関されないので、音声の場合、相互スペクトルの位相は一般に非常に小さく、特に低又は中周波範囲(例えば、最大2kHz)にある。一方、風雑音の場合、クロススペクトルの位相の値ははるかに大きく、時間と周波数にわたるその変動はランダムである。
より良い風雑音及び音声識別に、分析周波数範囲は2つの領域に分割される。第1範囲[10Hz(F_WN_B)から500Hz(F_WN_E)までの(F_WN)]は主に風雑音検出に使用され、第2範囲[600Hz(F_SP_B)から2000Hz(F_SP_E)までのF_SP]は主に音声検出に使用される。
時間/周波数グリッドにおける個々の位相値は無意味なので、統計計量基準は、位相の特徴付けに作成される。この計量基準は、次の式で定義されるクロススペクトラムの正規化分散である。
Figure 2023509593000016
2つの位相分散σφ(wn)及びσφ(sp)は、2つの周波数領域のうちの1つからそれぞれ計算される。
σφ(sp)は領域F_WNからのものであり、f1=F_SP_B、f2=F_SP_E(例えばf1=20Hz、f2=500Hz)である。σφ(sp)は領域F_SPからのものであり、f1=F_SP_B、f2=F_SP_E(例えばf1=500Hz、f2=2000Hz)である。
しかしながら、領域F_SPにおける最大周波数f2は、次の式で制限されなければならない。
Figure 2023509593000017
ここで、c及びdは、音速及び2つのマイクロホン間の分離距離である。
図3Aは、バフェッティングなしで車において記録されたデュアルマイクロホンのクリーンな発話を表示し、図3Bは、スピーチの存在なしで車においてバフェッティングのあるデュアルマイクロホンを表示する。
図4及び図5(横軸は分散であり、縦軸は出現回数である)は、クリーンな音声の場合の2つの頻度領域における正規化された位相分散分布(ヒストグラム)を示す。σφ(wn)分布及びσφ(sp)分布の両方は、0に近い間隔に限定される。一方、図6及び図7に示すように、風雑音の場合の2つの分布は、はるかに広い間隔に広がっている。正規化された位相分散の観点から、音声と風雑音とが分離可能であることは明らかである。
さらに、これらの統計値の分析を通じて、風雑音は周波数領域F_WNにおいて検出されやすく、一方、音声は周波数F_SPにおいて、特に風雑音と音声とが同時に発生するときに識別されやすいと結論付けられる。
ステップ214で、音声及び風雑音の確率の定式化が行われ、風雑音/音声の検出又は識別を容易にするために、音声及び風雑音の確率が次の式で計算される。
Figure 2023509593000018
ここで、σφ(wn)、σφ(sp)は領域からの正規化された位相分散を表す。
thld_low_σφ、thld_high_σφは、関連する周波数領域における風雑音の確率及び音声の確率の決定に使用されるしきい値である。
ステップ216において、決定論理を利用して、風雑音、音声、又は音声と混合された風雑音を分類する。
風雑音及び音声検出決定論理は、次の式で計算される。
Figure 2023509593000019
ここで、thld_sp、thld_wn、thld_sp_wnはしきい値であり、αsp及びαwnは重みであり、演算子←は割り当てである。
瞬間的な(すなわち、フレームごとの)分類結果cは、隣りの結果を調べることでさらに雑音除去される。フレームtにおける現在の値cは、(N-1)個の前のフレームからの(N-1)個の決定結果と共に長さN(例えば、N=10)の循環バッファに記憶される。現在のフレームtに対する最終的な信号クラス決定は、いわゆる多数決によって行われ、循環バッファにおけるその発生が最も多く現れるクラスが取り上げられる。
Figure 2023509593000020
ここで、Cはフレームtにおける信号クラスの最終決定であり、ct-N-1,t-N-2,...cは現在及び(N-1)個の前のフレームに対して計算された瞬時クラスである。
図8は、発話のみが存在する開始部分及び終了部分を除いて、発話及び風雑音の両方が存在するデュアルマイクロホン録音についての確率推定及び信号分類の結果を強調している。発話と風雑音の複数例がラベルを付けて図示されている。この例では、従来の雑音区分が発話区分とマージされているが、風雑音のみ及び発話に混ざった風雑音は2つの別個の区分である。この図に示される確率分析及び分類決定の両方は、記録における真の内容(すなわち、発話、風雑音、又は発話に混ざった風雑音)と一致する。いくつかの観点において、発話に混ざった風雑音は、風雑音及び発話存在の両方の確率の高い値によって、ほとんど常に正確に選び出され、発話又は風雑音区分のいずれとも混同されないことが分かる。
風雑音低減は、風雑音検出器が風雑音の存在を検出したときに行われる風雑音低減を実装する。風雑音低減を実施する制御回路は、いくつかの観点において、4つの機能、すなわち、風雑音画像推定と、風雑音低減の利得構築と、コンフォート雑音の生成と、風雑音低減と、コンフォート雑音注入とを、達成又は利用する。
ステップ218において、風雑音の画像推定が実行される。2つのマイクロホン102及び104における風雑音信号は相関していないと仮定され、一方、音声信号は相関しているとする。それにより、理論的な雑音パワースペクトル密度(PSD)は、次の式で定式化できる。
Figure 2023509593000021
ここで、t、fはフレーム及び周波数の添え字である。
しかしながら、これらの仮定は常に成立するとは限らない。1つの理由として、仮定の正しさはマイクロホンの幾何形状に依存するからである。例えば、マイクロホンの間隔が大きいほど、2つのマイクロホンにおける音声信号の相関が小さくなる。理論的な風雑音PSDは過小評価される傾向がある。より信頼性が高く機能的な風雑音PSDは、X1及びX2の自動PSDの理論的なものと幾何平均との組合せとして設計され、次の式で音声及び風雑音の確率によって重み付けされる。
Figure 2023509593000022
ここで、ALPHAは定数(0.4)であり、probwn、probspは、選択された(運転者又は共同運転者に向かう)視線方向に関連する風雑音及び発話の確率である。
風雑音の確率が高く、音声の確率が低い条件では、風雑音PSDは、X1及びX2の2つの自動PSDの幾何平均とほぼ同じである。
ステップ220で、WNR利得関数が決定される。風雑音低減用に設計及び適用された2つの異なる利得計算がある。最初のものは、以下のスペクトル減算手法の変形から来ている。
Figure 2023509593000023
ここで、ΦN(t,f)は、推定される風雑音パワースペクトルである。
最小利得係数は、通常、非常に強い風雑音を効果的に除去するためにはるかに小さい値(例えば、-40B)を必要とする。雑音が存在する場合であっても音声をより良好に保存するために、Gminは、Cmin_minとGmin_maxとの間で変化し、正規化された位相分散σφ(wn)の関数として次の式で作成される。
Figure 2023509593000024
ここで、Gmin_min、Gmin_minはそれぞれ-40dB及び-20dBに設定され、最小及び最大のGminを表す。σφ(wn)は、本明細書の他の箇所で説明されるしきい値thld_min_σφ、thld_max_σφと共に、風雑音検出に割り当てられた周波数範囲から計算された正規化された位相分散である。
クロススペクトルの位相の大きな値は、風雑音の存在の強い指標であるので、第2利得関数も次の式で導出される。
Figure 2023509593000025
ここで、thld_min_σφ、thld_max_σφは、指定された頻度範囲における風雑音probwnipの確率を計算するために(確率決定に関して)上記で使用されたものと同じしきい値である。
この利得関数の1つの利点は、両方のチャネル上の時間/周波数グリッドに対する深い減衰を確実にすることである。この時間/周波数グリッドは、クロススペクトルのその関連する位相が過度に大きいので、風雑音の存在を有する可能性が高い。
WNR動作用に使用される最終的な組合せ抑制規則は、次の式で表される。
Figure 2023509593000026
ステップ222において、風雑音低減が実行され、図1に示されるように両方のマイクロホンチャネルに適用される。風雑音検出器がフレームを風雑音のみとして検出するか、又は音声に混ざった風雑音として検出する場合、WNRが関与し、計算は次の式で示される。
Figure 2023509593000027
ここで、Xi(f)は仮想チャネルiの複素スペクトルを表し、Cn(f)は予め生成されたコンフォート雑音である。f1、f2は、WNRが行われる周波数範囲を表す。
減衰された信号へのコンフォート雑音注入もまた、本明細書で説明される手法において利用可能である。風雑音は、通常、非常に小さい利得値(例えば、-40dB)に起因して深く抑制されるので、真に平滑化されたコンフォート雑音は、事前に作成され、信号が大きく減衰される点に注入される必要がある。定常的な雑音状態の場合、コンフォート雑音スペクトルは、推定された瞬時雑音の長期平滑化バージョンを介して作成される。しかしながら、風雑音は強く、騒々しく、長時間持続する可能性があるので、従来の方法で生成されたコンフォート雑音は、雑音ゲーティング効果を有し、依然として風雑音のようなものであり、したがって、風雑音低減信号に加算するのに適していない。
風雑音低減の適用に、代替的でより使用可能なコンフォート雑音が、最小統計手法の助けを借りて設計される。両方のチャネルで演算された最小統計は、考慮される各周波数について経過時間にわたって最小値を効率的かつ効果的に特定する。それから、これらの非同期最小グリッドを組み合わせて、各チャネルについて「最小」背景雑音を定式化する。
新しいコンフォート雑音スペクトル(エンベロープ)は、2つのチャネルからの2つの最小統計収集の平均である。
Figure 2023509593000028
ここで、channel[i]→Smin[f]は、最小統計探索時間にわたるi番目のチャネルに関連する周波数fにおける最小パワースペクトル値を表す。
従来のコンフォート雑音生成と同様に、WNRアプリケーションのための最終的なコンフォート雑音生成は、正規化されたホワイトノイズNw(f)の一部に対して、最小統計導出スペクトルエンベロープを適用することである。
Figure 2023509593000029
生成されたこの新しいコンフォート雑音は、実際には、エコー抑制後に使用される場所のような他の場所に適用可能である。
風雑音が信号から除去された後、これらの信号は、変換されて時間領域に戻され、次いで他の目的に利用されてよい。例えば、これらの信号は、車両内の他の装置の動作を制御するために使用できる。他の例では、信号は、他のユーザ又は装置に送信されてもよい。
本明細書で説明される装置(例えば、制御回路、コントローラ、受信機、送信機、センサ、任意のプレゼンテーションもしくは表示装置、又は外部装置)のいずれも、コンピューティング装置を使用して、これらの装置の様々な機能及び動作を実装可能であることを理解されたい。ハードウェアアーキテクチャに関して、そのようなコンピューティング装置は、限定はしないが、ローカルインタフェースを介して通信可能に結合されたプロセッサ、メモリ、ならびに1つ又は複数の入力出力(I/O)装置インタフェースを備えてよく、ローカルインタフェースは、例えば、限定はしないが、1つ又は複数のバスや他の有線もしくは無線接続を備えてよい。プロセッサは、ソフトウェア、特にメモリに記憶されたソフトウェアを実行するハードウェア装置であってもよい。プロセッサは、カスタムメイドもしくは市販のプロセッサ、中央処理装置(CPU)、コンピューティング装置に関連付けられたいくつかのプロセッサの中の補助プロセッサ、半導体ベースのマイクロプロセッサ(マイクロチップもしくはチップセットの形態)、又はソフトウェア命令を実行するための一般的に任意の装置であってもよい。
本明細書で説明するメモリ装置は、揮発性メモリ素子(例えば、ダイナミックRAM(DRAM)と、スタティックRAM(SRAM)と、シンクロナスダイナミックRAM(SDRAM)と、ビデオRAM(VRAM)などのランダムアクセスメモリ(RAM))と、不揮発性メモリ素子(例えば、リードオンリメモリ(ROM)、ハードドライブ、テープ、CDROMなど)との中のいずれか1つ又は組合せを備えてよい。さらに、メモリは、電子的と、磁気的と、光学的と、他のタイプとの中の少なくとも一種類の記憶媒体を組み込んでよい。メモリは、様々な構成要素が互いに離れて位置する分散アーキテクチャを持ち得るが、プロセッサによってアクセス可能である。
本明細書で説明するメモリ装置のいずれかにおけるソフトウェアは、1つ又は複数の別個のプログラムを備えてよく、そのそれぞれは、本明細書で説明する機能を実装するための実行可能命令の順序付きリストを含む。ソースプログラムとして構築される場合、プログラムは、メモリ内に含まれても含まれなくてもよいコンパイラ、アセンブラ、インタプリタなどを介して翻訳される。
本明細書で説明される手法のいずれも、コンピュータ媒体(例えば、上述のコンピュータメモリ)上に記憶されたコンピュータ命令として少なくとも部分的に実装してよく、これらの命令は、マイクロプロセッサなどの処理装置上で実行できるが、これらの手法は、電子ハードウェアとソフトウェアの少なくとも一方の任意の組合せとして実装できることが理解されよう。
本発明を実施するために本発明者らに知られている最良の形態を含む、本発明の好ましい実施形態が本明細書に記載されている。図示された実施形態は例示的なものにすぎず、本発明の範囲を限定するものとして解釈されるべきではないことを理解されたい。

Claims (20)

  1. 第1音声信号を取得する第1マイクロホンと、
    第2音声信号を取得する第2マイクロホンと、を備えるシステムであって、
    第1マイクロホンは第2マイクロホンから空間的に離れていて、
    第1マイクロホン及び第2マイクロホンに結合されている制御回路を備えるシステムにおいて、制御回路が、
    第1マイクロホンに到達した第1音声信号及び第2マイクロホンに到達した第2音声信号を、第1音声信号を第1フレーム化音声信号に形成して第2音声信号を第2フレーム化音声信号に形成するような各時間区間に連続的かつ同時に分割することと、
    第1フレーム化音声信号及び第2フレーム化音声信号を、目標とする音源に対して時間整合することであって、前記第1フレーム化オーディオ信号及び前記第2フレーム化オーディオ信号の時間整合は、実行時に前記2つのマイクロホンにおいて受信された信号間の動的相互相関評価によって調整された静的幾何形状ベースの計測に基づいている、前記時間整合することと、
    第1スペクトルを生成するために前記時間整列された第1フレーム化オーディオ信号のそれぞれに対してフーリエ変換を実行し、第2スペクトルを生成するために前記第2フレーム化オーディオ信号に対してフーリエ変換を実行することであって、前記第1スペクトル及び前記第2スペクトルのそれぞれは、前記各時間区間における前記2つの時間整列されたマイクロホン信号のうちの1つの前記スペクトルを表す、前記実行することと、
    前記第1スペクトルと前記第2スペクトルとの相互相関に基づいて、複数の周波数のそれぞれにおける前記第1スペクトルと前記第2スペクトルとの位相差を算出することと、
    前記各時間区間についての定義された周波数範囲における前記位相差の正規化された分散を決定することであって、前記周波数範囲は、前記位相差の前記正規化された分散の前記計算における前記誤差マージンが最小化されるように、マイクロホンの幾何学的形状に基づいて計算される、前記決定することと、
    前記各時間区間において、前記2つの時間整合されたマイクロホン信号の前記スペクトル位相差の前記正規化された分散に基づいて、音声存在の確率及び風雑音存在の確率を定式化及び評価することと、
    前記各時間区間において、各時間区間についての区分を決定することであって、前記区分は、音声のみ、風雑音のみ、風雑音と混合された音声、又は未知のうちの1つであり、前記区分を決定するために決定論理が使用され、前記決定論理は、音声存在の確率及び風雑音存在の確率の個々の値及び組み合わされた値を組み込む第1関数に基づき、前記第1関数の値は、複数のしきい値と比較され、風雑音検出決定を行い、決定された区分に基づいて、風減衰動作が選択的に始動される、前記区分を決定することと、
    動作が風雑音減衰の実行であるとき、利得又は減衰関数を計算することであって、前記関数が、前記位相差の正規化された分散と、所定の周波数範囲内の複数の周波数のそれぞれにおける個々の位相差とに基づき、風雑音減衰が、利得又は減衰関数に前記第1スペクトル及び前記第2スペクトルの各スペクトルの大きさを乗算して、風雑音が除去された第1スペクトル及び風雑音が除去された第2スペクトルを生成することによって、周波数領域において実行される、前記計算することと、
    前記風雑音が除去された第1スペクトルと前記風雑音が除去された第2スペクトルとを結合して結合スペクトルを生成することと、
    結合されたスペクトルの逆FFTを行うことによって、風雑音が除去された時間領域信号を構築することと、
    前記時間領域信号を使用して動作を行うことであって、前記動作は、前記時間領域信号を電子装置に送信すること、前記時間領域信号を使用して電子機器を制御すること、前記時間領域信号を使用して電子機器と相互作用することの中の1つ又は複数である、前記動作を行うことと
    を行うべく構成されている、
    前記システム。
  2. 時間区間は、10ミリ秒と20ミリ秒との間の長さである、請求項1に記載のシステム。
  3. 目標とする音声源が、車両の座席に着座している人からの声を備える、請求項1に記載のシステム。
  4. 発話存在の確率及び風雑音存在の確率は、それぞれ、0と1の間の値を持つ、請求項1に記載のシステム。
  5. 前記区分の決定は、現在の決定と前の連続する時間区間における決定の流れとを考慮する多数決手法をさらに利用する、請求項1に記載のシステム。
  6. 音声存在の前記確率及び風雑音存在の前記確率は、前記各時間区間における音声存在又は風雑音存在の程度を評価するために使用される計量基準を提供する、請求項1に記載のシステム。
  7. 決定された決定が、風雑音のみ、又は音声と混合された風雑音であるとき、風雑音減衰動作が始動される、請求項1に記載のシステム。
  8. しきい値の値は、音声及び風雑音サンプルの量を使用して、オフラインアルゴリズムトレーニング段階においてオフラインで推定される、請求項1に記載のシステム。
  9. 前記システムが、車両内に少なくとも部分的に配置されている、請求項1に記載のシステム。
  10. 音源が動く、請求項1に記載のシステム。
  11. 制御回路にて、
    第1マイクロホンに到達する第1オーディオ信号及び第2マイクロホンに到達する第2オーディオ信号を時間区間に連続的かつ同時に分割し、それにより、各時間区間について、前記第1マイクロホンに到達する前記第1オーディオ信号が第1フレーム化オーディオ信号に形成され、前記第2マイクロホンに到達する第2オーディオ信号が第2フレーム化オーディオ信号に形成されるステップと、
    前記第1フレーム化されたオーディオ信号及び前記第2フレーム化されたオーディオ信号を、目標とされた音源に対して時間で整合させ、ここでは前記第1フレーム化されたオーディオ信号と前記第2フレーム化されたオーディオ信号とのに前記2つのマイクロホンにおいて受信された信号間の動的相互相関評価によって調整された静的幾何形状ベースの計測に基づく、ステップと、
    前記時間整列された第1フレーム化オーディオ信号のそれぞれにフーリエ変換を実行して第1スペクトルを生成し、前記第2フレーム化オーディオ信号にフーリエ変換を実行して第2スペクトルを生成し、ここでは前記第1スペクトル及び前記第2スペクトルのそれぞれは、前記各時間区間における前記2つの時間整列されたマイクロホン信号のうちの1つの前記スペクトルを表す、ステップと、
    前記第1スペクトルと前記第2スペクトルとの相互相関に基づいて、複数の周波数のそれぞれにおける前記第1スペクトルと前記第2スペクトルとの位相差を算出しするステップと、
    前記各時間区間について、定義された周波数範囲における前記位相差の正規化された分散を決定し、ここでは前記周波数範囲は、前記位相差の前記正規化された分散の前記計算における前記誤差マージンが最小化されるように、マイクロホンの幾何学的形状に基づいて計算される、ステップと、
    前記各時間区間において、前記2つの時間整列されたマイクロホン信号の前記スペクトル位相差の前記正規化された分散に基づいて、音声存在の確率及び風雑音存在の確率を定式化及び評価するステップと、
    前記各時間区間において、各時間区間に対する区分を決定し、ここでは区分は、音声のみ、風雑音のみ、風雑音に混ざった音声、又は不明の中の1つであり、前記区分の決定に決定論理が使用され、前記決定論理は、音声存在の確率及び風雑音存在の確率の個々の値及び組み合わされた値を組み込む第1関数に基づき、前記第1関数の値は、複数のしきい値と比較され、風雑音検出決定を行い、決定された区分に基づいて、風減衰動作が選択的に始動される、ステップと、
    前記アクションが風雑音減衰を実行することであるとき、利得又は減衰関数を計算し、ここでは前記関数が、前記位相差の前記正規化された分散と、所定の周波数範囲内の複数の周波数のそれぞれにおける個々の位相差とに基づき、風雑音減衰が、前記利得又は減衰関数に前記第1スペクトル及び前記第2スペクトルの各スペクトルの大きさを乗算することによって周波数領域において実行されて、風雑音が除去された第1スペクトル及び風雑音が除去された第2スペクトルを生成するステップと、
    前記風雑音が除去された第1スペクトルと前記風雑音が除去された第2スペクトルとを結合して、結合スペクトルを生成するステップと、
    前記結合されたスペクトルの逆FFTを行うことによって、風雑音が除去された時間領域信号を構築するステップと、
    前記時間領域信号を使用して動作を行うステップであって、ここでは前記動作は、前記時間領域信号を電子装置に送信すること、前記時間領域信号を使用して電子機器を制御すること、又は前記時間領域信号を使用して電子機器と相互作用することのうちの1つ又は複数である、ステップと
    を備える、方法。
  12. 時間区間は、10ミリ秒と20ミリ秒との間の長さである、請求項11に記載の方法。
  13. 目標とする音声源が、車両の座席に着座している人からの声を備える、請求項11に記載の方法。
  14. 発話存在の確率及び風雑音存在の確率は、それぞれ、0と1の間の値を持つ、請求項11に記載の方法。
  15. 前記区分の決定は、現在の決定と前の連続する時間区間における決定の流れとを考慮する多数決手法をさらに利用する、請求項11に記載の方法。
  16. 音声存在の前記確率及び風雑音存在の前記確率は、前記各時間区間における音声存在又は風雑音存在の程度を評価するために使用される計量基準を提供する、請求項11に記載の方法。
  17. 決定された決定が、風雑音のみ、又は音声に混ざった風雑音であるとき、風雑音減衰動作が始動される、請求項11に記載の方法。
  18. しきい値の値は、音声及び風雑音サンプルの量を使用して、オフラインアルゴリズムトレーニング段階においてオフラインで推定される、請求項11に記載の方法。
  19. 制御回路が、車両内に少なくとも部分的に配置されている、請求項11に記載の方法。
  20. 音源が動く、請求項11に記載の方法。
JP2022538844A 2020-01-24 2021-01-22 風雑音減衰のための方法及び装置 Active JP7352740B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/751,316 US11217269B2 (en) 2020-01-24 2020-01-24 Method and apparatus for wind noise attenuation
US16/751,316 2020-01-24
PCT/US2021/014507 WO2021150816A1 (en) 2020-01-24 2021-01-22 Method and apparatus for wind noise attenuation

Publications (2)

Publication Number Publication Date
JP2023509593A true JP2023509593A (ja) 2023-03-09
JP7352740B2 JP7352740B2 (ja) 2023-09-28

Family

ID=74666786

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022538844A Active JP7352740B2 (ja) 2020-01-24 2021-01-22 風雑音減衰のための方法及び装置

Country Status (6)

Country Link
US (1) US11217269B2 (ja)
EP (1) EP4094255A1 (ja)
JP (1) JP7352740B2 (ja)
KR (1) KR102659035B1 (ja)
CN (1) CN114930450A (ja)
WO (1) WO2021150816A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI739236B (zh) * 2019-12-13 2021-09-11 瑞昱半導體股份有限公司 具有抗噪機制的音訊播放裝置及方法
CN113613112B (zh) * 2021-09-23 2024-03-29 三星半导体(中国)研究开发有限公司 抑制麦克风的风噪的方法和电子装置
CN118072763B (zh) * 2024-03-06 2024-08-23 上海交通大学 一种基于双互补神经网络的电力设备声纹增强方法、部署方法以及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001124621A (ja) * 1999-10-28 2001-05-11 Matsushita Electric Ind Co Ltd 風雑音低減可能な騒音計測装置
US20120163622A1 (en) * 2010-12-28 2012-06-28 Stmicroelectronics Asia Pacific Pte Ltd Noise detection and reduction in audio devices
JP2014126856A (ja) * 2012-12-27 2014-07-07 Canon Inc 雑音除去装置及びその制御方法
JP2016039521A (ja) * 2014-08-08 2016-03-22 リオン株式会社 音信号処理装置、及び、それを用いた補聴器
JP2018066963A (ja) * 2016-10-21 2018-04-26 キヤノン株式会社 音声処理装置
US20180277138A1 (en) * 2017-03-24 2018-09-27 Samsung Electronics Co., Ltd. Method and electronic device for outputting signal with adjusted wind sound

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7895036B2 (en) * 2003-02-21 2011-02-22 Qnx Software Systems Co. System for suppressing wind noise
JP4228924B2 (ja) 2004-01-29 2009-02-25 ソニー株式会社 風音低減装置
US8861745B2 (en) * 2010-12-01 2014-10-14 Cambridge Silicon Radio Limited Wind noise mitigation
CN103348686B (zh) * 2011-02-10 2016-04-13 杜比实验室特许公司 用于风检测和抑制的系统和方法
JP5998483B2 (ja) * 2012-01-11 2016-09-28 ソニー株式会社 音声信号処理装置、音声信号処理方法、プログラム及び記録媒体
CN104751853B (zh) * 2013-12-31 2019-01-04 辰芯科技有限公司 双麦克风噪声抑制方法及系统
AU2015292259A1 (en) * 2014-07-21 2016-12-15 Cirrus Logic International Semiconductor Limited Method and apparatus for wind noise detection
US9838815B1 (en) * 2016-06-01 2017-12-05 Qualcomm Incorporated Suppressing or reducing effects of wind turbulence
GB2555139A (en) * 2016-10-21 2018-04-25 Nokia Technologies Oy Detecting the presence of wind noise
KR101903874B1 (ko) 2017-01-19 2018-10-02 재단법인 다차원 스마트 아이티 융합시스템 연구단 듀얼 마이크 기반의 잡음 제거 방법 및 장치
US10885907B2 (en) * 2018-02-14 2021-01-05 Cirrus Logic, Inc. Noise reduction system and method for audio device with multiple microphones

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001124621A (ja) * 1999-10-28 2001-05-11 Matsushita Electric Ind Co Ltd 風雑音低減可能な騒音計測装置
US20120163622A1 (en) * 2010-12-28 2012-06-28 Stmicroelectronics Asia Pacific Pte Ltd Noise detection and reduction in audio devices
JP2014126856A (ja) * 2012-12-27 2014-07-07 Canon Inc 雑音除去装置及びその制御方法
JP2016039521A (ja) * 2014-08-08 2016-03-22 リオン株式会社 音信号処理装置、及び、それを用いた補聴器
JP2018066963A (ja) * 2016-10-21 2018-04-26 キヤノン株式会社 音声処理装置
US20180277138A1 (en) * 2017-03-24 2018-09-27 Samsung Electronics Co., Ltd. Method and electronic device for outputting signal with adjusted wind sound

Also Published As

Publication number Publication date
US20210233557A1 (en) 2021-07-29
JP7352740B2 (ja) 2023-09-28
WO2021150816A1 (en) 2021-07-29
US11217269B2 (en) 2022-01-04
KR102659035B1 (ko) 2024-04-18
EP4094255A1 (en) 2022-11-30
KR20220130744A (ko) 2022-09-27
CN114930450A (zh) 2022-08-19

Similar Documents

Publication Publication Date Title
JP7352740B2 (ja) 風雑音減衰のための方法及び装置
US9269367B2 (en) Processing audio signals during a communication event
US9633651B2 (en) Apparatus and method for providing an informed multichannel speech presence probability estimation
US8891785B2 (en) Processing signals
KR102352927B1 (ko) 상관 기반 근접장 검출기
JP7041156B6 (ja) ビームフォーミングを使用するオーディオキャプチャのための方法及び装置
US9767826B2 (en) Methods and apparatus for robust speaker activity detection
US11621017B2 (en) Event detection for playback management in an audio device
JP7041157B6 (ja) ビームフォーミングを使用するオーディオキャプチャ
Yousefian et al. Using power level difference for near field dual-microphone speech enhancement
US20200382863A1 (en) Multi-channel microphone signal gain equalization based on evaluation of cross talk components
CN110140171B (zh) 使用波束形成的音频捕获
Rahmani et al. Noise cross PSD estimation using phase information in diffuse noise field
Pfeifenberger et al. Blind source extraction based on a direction-dependent a-priori SNR.
JP6854967B1 (ja) 雑音抑圧装置、雑音抑圧方法、及び雑音抑圧プログラム
Azarpour et al. Binaural noise PSD estimation for binaural speech enhancement
Madhu et al. Source number estimation for multi-speaker localisation and tracking
Gong et al. Noise power spectral density matrix estimation based on modified IMCRA
US11425495B1 (en) Sound source localization using wave decomposition
EP3332558B1 (en) Event detection for playback management in an audio device
Abdelaziz et al. Real-Time Dual-Microphone Speech Enhancement
Yong et al. Incorporating multi-channel Wiener filter with single-channel speech enhancement algorithm
Cohen Robust system identification using speech signals

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230517

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230807

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230823

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230915

R150 Certificate of patent or registration of utility model

Ref document number: 7352740

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150