JP2013531419A - ヘッドマウントマイクロフォンペアを使用する音声信号の処理のためのシステム、方法、装置、及びコンピュータ可読媒体 - Google Patents

ヘッドマウントマイクロフォンペアを使用する音声信号の処理のためのシステム、方法、装置、及びコンピュータ可読媒体 Download PDF

Info

Publication number
JP2013531419A
JP2013531419A JP2013511404A JP2013511404A JP2013531419A JP 2013531419 A JP2013531419 A JP 2013531419A JP 2013511404 A JP2013511404 A JP 2013511404A JP 2013511404 A JP2013511404 A JP 2013511404A JP 2013531419 A JP2013531419 A JP 2013531419A
Authority
JP
Japan
Prior art keywords
signal
audio signal
microphone
noise
generate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013511404A
Other languages
English (en)
Other versions
JP5714700B2 (ja
Inventor
シェブシウ、アンドレ・ガスタボ・プッチ
ビッサー、エリック
ラマクリシュナン、ディネッシュ
リウ、イアン・アーナン
リ、レン
モメヤー,ブライアン
パーク、ヒュン・ジン
オリベイラ、ルイス・ディー.
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2013531419A publication Critical patent/JP2013531419A/ja
Application granted granted Critical
Publication of JP5714700B2 publication Critical patent/JP5714700B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02168Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Headphones And Earphones (AREA)

Abstract

ボイス通信のための雑音消去ヘッドセットが、ユーザの耳の各々にあるマイクロフォンと、ボイスマイクロフォンとを含んでいる。ヘッドセットは、送信経路と受信経路の両方の上の信号対雑音比を改善するためのイヤマイクロフォンの使用を共有する。

Description

本開示は、音声信号の処理に関する。
以前は静かなオフィス又は家庭環境で行われていた多くの活動が、今日では車、街路、又はカフェのような音響的に変動する状況で行われている。例えば、ある人は、ボイス通信チャネルを使用して別の人と通信することを望むことがある。そのチャネルは、例えば、モバイルワイヤレスハンドセット又はヘッドセット、ウォーキートーキー、双方向無線、カーキット、又は別の通信機器によって提供され得る。従って、ユーザが他の人々に囲まれる環境で、人が集まる傾向のある場所で一般的に遭遇する種類の雑音成分を伴って、モバイル機器(例えば、スマートフォン、ハンドセット、及び/又はヘッドセット)を使用して、かなりの量のボイス通信が行われている。そのような雑音は、電話会話の遠端にいるユーザの気を散らしたり、いらいらさせたりする傾向がある。その上、多くの標準的な自動業務取引(例えば、口座残高又は株価の確認)はボイス認識ベースのデータ照会を採用しており、これらのシステムの精度は干渉雑音によって著しく妨げられ得る。
雑音の多い環境で通信が行われる適用例では、所望の音声信号を背景雑音から分離することが望ましいことがある。雑音は、所望の信号と干渉するか或いは所望の信号を劣化させる全ての信号の合成と定義され得る。背景雑音は、他の人々の背景会話など、音響環境内で発生される多数の雑音信号及び所望の信号及び/又は他の信号のいずれかから発生される反射及び残響を含み得る。所望の音声信号が背景雑音から分離されない限り、所望の音声信号を確実に効率的に利用することが困難であることがある。1つの特定の例では、雑音の多い環境で音声信号が発生され、その音声信号を環境雑音から分離するために音声処理方法が使用される。
モバイル環境中で遭遇する雑音は、競合する話し手、音楽、バブル、街頭雑音、及び/又は空港雑音など、多種多様な成分を含み得る。そのような雑音のシグナチャは、一般に非定常であり、ユーザ自身の周波数シグナチャに近いので、従来の単一マイクロフォン又は固定ビームフォーミングタイプ方法を使用して雑音を抑圧することが難しいことがある。単一マイクロフォン雑音低減技法は、一般に、定常雑音のみを抑圧し、雑音抑圧を行うと同時にしばしば所望の音声の著しい劣化をもたらす。しかしながら、複数マイクロフォンベースの高度信号処理技法は、一般に、大幅な雑音低減とともに優れたボイス品質を与えることが可能であり、雑音の多い環境においてボイス通信のためのモバイル機器の使用をサポートするために望ましいことがある。
ヘッドセットを使用するボイス通信は、ニアエンドに環境雑音があることによる影響を受けることがある。雑音は、ファーエンドに送信されている信号、及びファーエンドから受信されている信号の信号対雑音比(SNR)を低減するので、了解度(intelligibility)が損なわれ、ネットワーク容量と端末バッテリー寿命とが低減することがある。
米国特許法第119条に基づく優先権の主張
本特許出願は、本出願の譲受人に譲渡され、2010年5月20日に出願された「Multi-Microphone Configurations in Noise Reduction/Cancellation and Speech Enhancement Systems」と題する仮出願第61/346,841号、及び2010年6月18日に出願された「Noise Cancelling Headset with Multiple Microphone Array Configurations」と題する仮出願第61/356,539号の優先権を主張する。
一般的構成による信号処理の方法は、第1のオーディオ信号と第2のオーディオ信号との間の関係に基づいているボイスアクティビティ検出信号を生成することと、音声信号を生成するために、第3のオーディオ信号に基づいている信号にボイスアクティビティ検出信号を適用することとを含む。本方法では、第1のオーディオ信号は、(A)ユーザの頭部の側面に位置する第1のマイクロフォンによって、(B)ユーザのボイスに応答して生成された信号に基づき、第2のオーディオ信号は、ユーザのボイスに応答して、ユーザの頭部の他の側面に位置する第2のマイクロフォンによって生成された信号に基づいている。本方法では、第3のオーディオ信号は、ユーザのボイスに応答して、第1のマイクロフォン及び第2のマイクロフォンとは異なる第3のマイクロフォンによって生成された信号に基づき、第3のマイクロフォンは、第1のマイクロフォン及び第2のマイクロフォンのいずれよりもユーザのボイスの中央出口点に近い、ユーザの頭部の前頭面(coronal plane)にある。機能を読み取る機械にそのような方法を実行させる実体的機能を有するコンピュータ可読記憶媒体も開示される。
一般的構成による信号処理のための装置は、第1のオーディオ信号と第2のオーディオ信号との間の関係に基づいているボイスアクティビティ検出信号を生成するための手段と、音声信号を生成するために、第3のオーディオ信号に基づいている信号にボイスアクティビティ検出信号を適用するための手段とを含む。本装置では、第1のオーディオ信号は、(A)ユーザの頭部の側面に位置する第1のマイクロフォンによって、(B)ユーザのボイスに応答して生成された信号に基づき、第2のオーディオ信号は、ユーザのボイスに応答して、ユーザの頭部の他の側面に位置する第2のマイクロフォンによって生成された信号に基づいている。本装置では、第3のオーディオ信号は、ユーザのボイスに応答して、第1のマイクロフォン及び第2のマイクロフォンとは異なる第3のマイクロフォンによって生成された信号に基づき、第3のマイクロフォンは、第1のマイクロフォン及び第2のマイクロフォンのいずれよりもユーザのボイスの中央出口点に近い、ユーザの頭部の前頭面にある。
別の一般的な構成による信号処理のための装置は、装置の使用中にユーザの頭部の前頭面に配置されるように構成された第1のマイクロフォンと、装置の使用中にユーザの頭部の他の前頭面に配置されるように構成された第2のマイクロフォンと、装置の使用中に、第1のマイクロフォン及び第2のマイクロフォンのいずれよりもユーザのボイスの中央出口点に近い、ユーザの頭部の前頭面に配置されるように構成された第3のマイクロフォンとを含む。本装置はまた、第1のオーディオ信号と第2のオーディオ信号との間の関係に基づいているボイスアクティビティ検出信号を生成するように構成されたボイスアクティビティ検出器と、音声推定値を生成するために、第3のオーディオ信号に基づいている信号にボイスアクティビティ検出信号を適用するように構成された音声推定器とを含む。本装置では、第1のオーディオ信号は、装置の使用中にユーザのボイスに応答して第1のマイクロフォンによって生成された信号に基づき、第2のオーディオ信号は、装置の使用中にユーザのボイスに応答して第2のマイクロフォンによって生成された信号に基づき、第3のオーディオ信号は、装置の使用中にユーザのボイスに応答して第3のマイクロフォンによって生成された信号に基づいている。
一般的構成による装置A100のブロック図。 オーディオ前処理段AP10の実装形態AP20のブロック図。 Head and Torso Simulator(HATS)のそれぞれの耳に装着された雑音基準マイクロフォンML10及びMR10の正面図。 HATSの左耳に装着された雑音基準マイクロフォンML10の左側面図。 装置A100の使用中の、いくつかの位置の各々におけるマイクロフォンMC10のインスタンスの配向の一例を示す図。 ポータブルメディアプレーヤD400に結合された、装置A100のコード付き実装形態の一般的な適用例の正面図。 装置A100の実装形態A110のブロック図。 音声推定器SE10の実装形態SE20のブロック図。 音声推定器SE20の実装形態SE22のブロック図。 音声推定器SE22の実装形態SE30のブロック図。 装置A100の実装形態A130のブロック図。 装置A100の実装形態A120のブロック図。 音声推定器SE40のブロック図。 装置A100の実装形態A140のブロック図。 イヤホンEB10の正面図。 イヤホンEB10の実装形態EB12の正面図。 装置A100の実装形態A150のブロック図。 装置A100のコード付き実装形態におけるイヤホンEB10のインスタンスとボイスマイクロフォンMC10のインスタンスとを示す図。 音声推定器SE50のブロック図。 イヤホンEB10のインスタンスの側面図。 TRRSプラグの一例を示す図。 フックスイッチSW10がコードCD10に一体化された一例を示す図。 プラグP10と同軸プラグP20とを含むコネクタの一例を示す図。 装置A100の実装形態A200のブロック図。 オーディオ前処理段AP12の実装形態AP22のブロック図。 イヤカップEC10の断面図。 イヤカップEC10の実装形態EC20の断面図。 イヤカップEC20の実装形態EC30の断面図。 装置A100の実装形態A210のブロック図。 装置A100の実装形態を含む通信機器D20のブロック図。 雑音基準マイクロフォンML10、MR10のための追加の候補ロケーションを示す図。 誤差マイクロフォンME10のための追加の候補ロケーションを示す図。 機器D20内に含まれ得るヘッドセットD100のビューを示す図。 機器D20内に含まれ得るヘッドセットD100のビューを示す図。 機器D20内に含まれ得るヘッドセットD100のビューを示す図。 機器D20内に含まれ得るヘッドセットD100のビューを示す図。 使用中の機器D100の一例の上面図。 本明細書で説明する装置A100の実装形態内で使用され得る機器の追加の例を示す図。 本明細書で説明する装置A100の実装形態内で使用され得る機器の追加の例を示す図。 本明細書で説明する装置A100の実装形態内で使用され得る機器の追加の例を示す図。 本明細書で説明する装置A100の実装形態内で使用され得る機器の追加の例を示す図。 本明細書で説明する装置A100の実装形態内で使用され得る機器の追加の例を示す図。 一般的構成による方法M100のフローチャート。 方法M100の実装形態M110のフローチャート。 方法M100の実装形態M120のフローチャート。 方法M100の実装形態M130のフローチャート。 方法M100の実装形態M140のフローチャート。 方法M100の実装形態M150のフローチャート。 方法M100の実装形態M200のフローチャート。 一般的構成による装置MF100のブロック図。 装置MF100の実装形態MF140のブロック図。 装置MF100の実装形態MF200のブロック図。 装置A100の実装形態A160のブロック図。 音声推定器SE50の構成のブロック図。 装置A100の実装形態A170のブロック図。 音声推定器SE40の実装形態SE42のブロック図。
アクティブ雑音消去(ANC:active noise cancellation、アクティブ雑音低減とも呼ばれる)は、「反位相」又は「アンチノイズ」波形とも呼ばれる、(例えば、同じレベル及び反転位相を有する)雑音波の逆の形である波形を発生することによって周囲音響雑音をアクティブに低減する技術である。ANCシステムは、概して、1つ以上のマイクロフォンを使用して外部雑音基準信号をピックアップし、その雑音基準信号からアンチノイズ波形を発生し、1つ以上のラウドスピーカを通してアンチノイズ波形を再生する。このアンチノイズ波形は、元の雑音波と弱め合うように干渉して、ユーザの耳に到達する雑音のレベルを低減する。
アクティブ雑音消去技法は、周囲環境からの音響雑音を低減するために、ヘッドフォンなどの音声再生機器、及びセルラー電話などのパーソナル通信機器に適用され得る。そのような適用例では、ANC技法の使用は、音楽及びファーエンドボイスなどの有用な音響信号を配信しながら、耳に到達する背景雑音のレベルを(例えば、最高20デシベルだけ)低減し得る。
雑音消去ヘッドセットは、ユーザの頭部に装着する雑音基準マイクロフォンペアと、ユーザからの音響ボイス信号を受信するように配置された第3のマイクロフォンとを含む。ユーザの耳における雑音の自動消去をサポートするため、及び第3のマイクロフォンからの信号に適用されるボイスアクティビティ検出信号を発生するために、ヘッドマウントペアからの信号を使用するためのシステム、方法、装置、及びコンピュータ可読媒体について説明する。そのようなヘッドセットは、例えば、雑音検出のためのマイクロフォンの数を最小限に抑えながら、ニアエンドSNRとファーエンドSNRの両方を同時に改善するために使用され得る。
その文脈によって明確に限定されない限り、「信号」という用語は、本明細書では、ワイヤ、バス、又は他の伝送媒体上に表されたメモリロケーション(又はメモリロケーションのセット)の状態を含む、その通常の意味のいずれをも示すのに使用される。文脈によって明確に限定されない限り、「発生(generating)」という用語は、本明細書では、計算(computing)又は別様の生成(producing)など、その通常の意味のいずれをも示すのに使用される。その文脈によって明確に限定されない限り、「計算(calculating)」という用語は、本明細書では、複数の値からの計算(computing)、評価、平滑化、及び/又は選択など、その通常の意味のいずれをも示すのに使用される。文脈によって明確に限定されない限り、「取得(obtaining)」という用語は、計算、導出、(例えば、外部機器からの)受信、及び/又は(例えば、記憶要素のアレイからの)検索など、その通常の意味のいずれをも示すのに使用される。その文脈によって明確に限定されない限り、「選択(selecting)」という用語は、2つ以上のセットのうちの少なくとも1つ、及び全てよりも少数を識別、指示、適用、及び/又は使用することなど、その通常の意味のいずれをも示すのに使用される。「備える(comprising)」という用語は、本明細書及び特許請求の範囲において使用される場合、他の要素又は動作を除外するものではない。「に基づいている」(「AはBに基づいている」など)という用語は、(i)「から導出される」(例えば、「BはAのプレカーサー(precursor)である」)、(ii)「少なくとも〜に基づいている」(例えば、「Aは少なくともBに基づいている」)、及び特定の文脈で適当な場合に、(iii)「に等しい」(例えば、「AはBに等しい」)という場合を含む、その通常の意味のいずれをも示すのに使用される。同様に、「に応答して」という用語は、「少なくとも〜に応答して」を含む、その通常の意味のいずれをも示すのに使用される。
マルチマイクロフォンオーディオ感知機器のマイクロフォンの「ロケーション」への言及は、文脈によって別段に規定されていない限り、マイクロフォンの音響的に敏感な面の中心のロケーションを示す。マルチマイクロフォンオーディオ感知機器のマイクロフォンの「方向」又は「配向」への言及は、文脈によって別段に規定されていない限り、マイクロフォンの音響的に敏感な面に垂直な方向を示す。「チャネル」という用語は、特定の文脈に応じて、時々、信号経路を示すのに使用され、また他のときには、そのような経路によって搬送される信号を示すのに使用される。別段に規定されていない限り、「一連」という用語は、2つ以上のアイテムのシーケンスを示すのに使用される。「対数」という用語は、10を底とする対数を示すのに使用されるが、他の底へのそのような演算の拡張も本開示の範囲内である。「周波数成分」という用語は、(例えば、高速フーリエ変換によって生成される)信号の周波数領域表現のサンプル、或いは信号のサブバンド(例えば、バーク尺度又はメル尺度サブバンド)など、信号の周波数又は周波数帯域のセットのうちの1つを示すのに使用される。
別段に規定されていない限り、特定の特徴を有する装置の動作のいかなる開示も、類似の特徴を有する方法を開示する(その逆も同様)ことをも明確に意図し、特定の構成による装置の動作のいかなる開示も、類似の構成による方法を開示する(その逆も同様)ことをも明確に意図する。「構成」という用語は、その特定の文脈によって示されるように、方法、装置、及び/又はシステムに関して使用され得る。「方法(method)」、「プロセス」、「手順(procedure)」、及び「技法(technique)」という用語は、特定の文脈(context)によって別段に規定されていない限り、一般的、互換的に使用される。「装置」及び「機器」という用語も、特定の文脈によって別段に規定されていない限り、一般的、互換的に使用される。「要素(element)」及び「モジュール」という用語は、一般に、より大きい構成の一部を示すのに使用される。その文脈によって明確に限定されない限り、「システム」という用語は、本明細書では、「共通の目的を果たすために相互作用する要素のグループ」を含む、その通常の意味のいずれをも示すのに使用される。文書の一部の参照によるいかなる組込みも、そのような定義が文書中の他の場所、並びに組み込まれた部分で参照される図に現れた場合、その部分内で言及された用語又は変数の定義を組み込んでいることをも理解されたい。
「コーダ」、「コーデック」、及び「符号化システム」という用語は、(場合によっては知覚的重み付け(perceptual weighting)及び/又は他のフィルタ処理演算(filtering operation)などの1つ以上の前処理演算の後に)オーディオ信号のフレームを受信し符号化するように構成された少なくとも1つのエンコーダと、フレームの復号表現を生成するように構成された対応するデコーダとを含むシステムを示すのに互換的に使用される。そのようなエンコーダ及びデコーダは一般に通信リンクの反対側の端末に配備される。全二重通信をサポートするために、エンコーダとデコーダの両方のインスタンスは、一般にそのようなリンクの各端部に配備される。
本明細書では、「感知オーディオ信号(sensed audio signal)」という用語は、1つ以上のマイクロフォンを介して受信された信号を示し、「再生オーディオ信号」という用語は、記憶装置から取り出され、及び/又はワイヤード若しくはワイヤレス接続を介して別の機器に受信された情報から再生される信号を示す。通信又は再生機器などのオーディオ再生機器は、再生オーディオ信号を機器の1つ以上のラウドスピーカに出力するように構成され得る。代替的に、そのような機器は、再生オーディオ信号を、ワイヤを介して又はワイヤレスに機器に結合されたイヤピース、他のヘッドセット、又は外部ラウドスピーカに出力するように構成され得る。テレフォニーなどのボイス通信のためのトランシーバアプリケーションに関して、感知オーディオ信号は、トランシーバによって送信されるべきニアエンド信号であり、再生オーディオ信号は、トランシーバによって(例えば、ワイヤレス通信リンクを介して)受信されるファーエンド信号である。記録された音楽、ビデオ、又は音声(例えば、MP3で符号化された音楽ファイル、映画、ビデオクリップ、オーディオブック、ポッドキャスト(podcasts))の再生、或いはそのようなコンテンツのストリーミングなどのモバイルオーディオ再生アプリケーションに関して、再生オーディオ信号は、再生又はストリーミングされるオーディオ信号である。
セルラー電話ハンドセット(例えば、スマートフォン)とともに使用するヘッドセットは、一般に、ユーザの耳のうちの1つでファーエンドオーディオ信号を再生するためのラウドスピーカと、ユーザのボイスを受信するための1次マイクロフォンとを含んでいる。ラウドスピーカは、一般にユーザの耳に装着され、マイクロフォンは、受付け可能な程度に高いSNRをもつユーザのボイスを受信するために、使用中に配設されるべきヘッドセット内に配置される。マイクロフォンは、一般に、例えば、ユーザの耳に装着するハウジング内に、そのようなハウジングからユーザの口のほうへ延びるブーム又は他の突出部上に、又はセルラー電話との間でオーディオ信号を搬送するコード上に位置する。ヘッドセットとハンドセットとの間のオーディオ情報(及び、場合によっては電話フックステータス(telephone hook status)などの制御情報)の通信は、ワイヤード又はワイヤレスリンクを介して実行され得る。
ヘッドセットはまた、ユーザの耳における1つ以上の追加の2次マイクロフォンを含み得、それは1次マイクロフォン信号のSNRを改善するために使用され得る。そのようなヘッドセットは、一般に、ユーザの他の耳におけるそのような目的の2次マイクロフォンを含まないか又は使用しない。
ヘッドフォン又はイヤホンのステレオセットは、再生ステレオメディアコンテンツを再生するためのポータブルメディアプレーヤとともに使用され得る。そのような機器は、ユーザの左耳に装着するラウドスピーカとユーザの右耳に同じ様式で装着するラウドスピーカとを含む。そのような機器はまた、ユーザの耳の各々において、ANC機能をサポートするために、環境雑音信号を生成するために配設される雑音基準マイクロフォンペアの各々を含み得る。雑音基準マイクロフォンによって生成された環境雑音信号は、一般に、ユーザのボイスの処理をサポートするためには使用されない。
図1Aに、一般的構成による装置A100のブロック図を示す。装置A100は、音響環境雑音を受信するためにユーザの頭部の左側に装着され、第1のマイクロフォン信号MS10を生成するように構成された第1の雑音基準マイクロフォンML10と、音響環境雑音を受信するためにユーザの頭部の右側に装着され、第2のマイクロフォン信号MS20を生成するように構成された第2の雑音基準マイクロフォンMR10と、ユーザによって装着され、第3のマイクロフォン信号MS30を生成するように構成されたボイスマイクロフォンMC10とを含む。図2Aに、雑音基準マイクロフォンML10及びMR10がHead and Torso Simulator又は「HATS」(Bruel and Kjaer、DK)のそれぞれの耳に装着された、HATSの正面図を示す。図2Bに、雑音基準マイクロフォンML10がHATSの左耳に装着された、HATSの左側面図を示す。
マイクロフォンML10、MR10、及びMC10の各々は、全方向、双方向、又は単方向(例えば、カージオイド)である応答を有し得る。マイクロフォンML10、MR10、及びMC10の各々のために使用され得る様々なタイプのマイクロフォンには、(限定はしないが)圧電マイクロフォン、ダイナミックマイクロフォン、及びエレクトレットマイクロフォンがある。
雑音基準マイクロフォンML10及びMR10はユーザのボイスのエネルギーをピックアップし得るが、マイクロフォン信号MS10及びMS20におけるユーザのボイスのSNRは、ボイス送信のためには低すぎて有用でないことが予想され得る。とはいえ、本明細書で説明する技法は、第3のマイクロフォン信号MS30からの情報に基づいて音声信号の1つ以上の特性(例えば、SNR)を改善するためにこのボイス情報を使用する。
マイクロフォンMC10は、装置A100の使用中に、マイクロフォン信号MS30におけるユーザのボイスのSNRが、マイクロフォン信号MS10及びMS20のいずれかにおけるユーザのボイスのSNRよりも大きくなるように装置A100内に配置される。代替又は追加として、ボイスマイクロフォンMC10は、使用中に、雑音基準マイクロフォンML10及びMR10のいずれよりも、ユーザのボイスの中央出口点に向かってよりまっすぐに配向されるように、中央出口点により近くなるように、及び/又は中央出口点により近い前頭面にあるように配置される。ユーザのボイスの中央出口点は、図2A及び図2B中の十字線によって示され、話中にユーザの上唇の外面と下唇の外面とが接触するユーザの頭部の正中矢状面(midsagittal plane)内のロケーションとして定義される。中央前頭面(midcoronal plane)と中央出口点との間の距離は、一般に7、8、又は、9から10、11、12、13、又は14センチメートルまで(例えば、80〜130mm)の範囲内にある。(本明細書では、点と平面との間の距離は、平面に直交する線に沿って測定されると仮定する。)装置A100の使用中に、ボイスマイクロフォンMC10は、一般に中央出口点から30センチメートル以内に位置する。
装置A100の使用中のボイスマイクロフォンMC10の位置のいくつかの異なる例が、図2A中のラベルが付いた円によって示されている。位置Aでは、ボイスマイクロフォンMC10は、キャップ又はヘルメットのバイザーに取り付けられる。位置Bでは、ボイスマイクロフォンMC10は、眼鏡、ゴーグル、安全眼鏡、又は他のアイウェア(eyewear)のブリッジに取り付けられる。位置Cl又はCRでは、ボイスマイクロフォンMC10は、眼鏡、ゴーグル、安全眼鏡、又は他のアイウェアの左テンプル又は右テンプルに取り付けられる。位置DL又はDRでは、ボイスマイクロフォンMC10は、マイクロフォンML10及びMR10のうちの対応する1つを含むヘッドセットハウジングの前の部分に取り付けられる。位置EL又はERでは、ボイスマイクロフォンMC10は、ユーザの耳に装着されたフックからユーザの口のほうへ延びるブームに取り付けられる。位置FL、FR、GL、又はGRでは、ボイスマイクロフォンMC10は、ボイスマイクロフォンMC10を電気的に接続するコードに取り付けられ、雑音基準マイクロフォンML10及びMR10のうちの対応する1つは通信機器に取り付けられる。
図2Bの側面図は、位置A、B、CL、DL、EL、FL、及びGLの全てが(例えば、位置FLに関して示すように)雑音基準マイクロフォンML10よりも中央出口点に近い冠状面(即ち、図示のように中央前頭面に対して平行な平面)内にあることを示す。図3Aの側面図は、これらの位置の各々にあるマイクロフォンMC10のインスタンスの配向の例を示し、位置A、B、DL、EL、FL、及びGLにあるインスタンスの各々が(図の平面に垂直に配向された)マイクロフォンML10よりも中央出口点に向かってよりまっすぐに配向されていることを示す。
図3Bに、コードCD10を介してポータブルメディアプレーヤD400に結合された、装置A100のコード付き実装形態の一般的な適用例の正面図を示す。そのような機器は、標準圧縮形式(例えば、Moving Pictures Experts Group(MPEG)−1 Audio Layer 3(MP3)、MPEG−4 Part 14(MP4)、Windows (登録商標) Media Audio/Video(WMA/WMV)のバージョン(マイクロソフト社(ワシントン州レドモンド))、次世代符号化(Advanced Audio Coding(AAC))、国際電気通信連合(International Telecommunication Union (ITU)-T H.264など)に従って符号化されたファイル又はストリームなどの圧縮オーディオ又はオーディオビジュアル情報を再生するように構成され得る。
装置A100は、第1のオーディオ信号AS10、第2のオーディオ信号AS20、及び第3のオーディオ信号AS30のうちの対応する1つを生成するために、マイクロフォン信号MS10、MS20、及びMS30の各々に対して1つ以上の前処理演算を実行するオーディオ前処理段を含む。そのような前処理演算は、(限定はしないが)インピーダンス整合、アナログデジタル変換、利得制御、並びに/或いはアナログ及び/又はデジタル領域におけるフィルタ処理を含み得る。
図1Bに、アナログ前処理段P10a、P10b、及びP10cを含むオーディオ前処理段AP10の実装形態AP20のブロック図を示す。一例では、段P10a、P10b、及びP10cはそれぞれ、対応するマイクロフォン信号に対して(例えば、50、100、又は200Hzのカットオフ周波数をもつ)高域フィルタ処理演算を実行するように構成される。一般に、段P10a及びP10bは、それぞれ、第1のオーディオ信号AS10と第2のオーディオ信号AS20とに対して同じ機能を実行するように構成される。
オーディオ前処理段AP10は、マルチチャネル信号をデジタル信号として、即ち、サンプルのシーケンスとして生成することが望ましいことがある。オーディオ前処理段AP20は、例えば、対応するアナログ信号をサンプリングするようにそれぞれ構成されたアナログデジタル変換器(ADC)C10a、C10b、及びC10cを含む。音響アプリケーションの典型的なサンプリングレートには、8kHz、12kHz、16kHz、及び約8から約16kHzまでの範囲内の他の周波数があるが、約44.1、48、又は192kHzも使用され得る。一般に、コンバータC10a及びC10bは、それぞれ、第1のオーディオ信号AS10と第2のオーディオ信号AS20とを同じレートでサンプリングするように構成されるが、コンバータC10cは、第3のオーディオ信号C10cを同じレートで、又は異なるレートで(例えば、より高いレートで)サンプリングするように構成され得る。
この特定の例では、オーディオ前処理段AP20はまた、対応するデジタル化チャネル上で1つ以上の前処理演算(例えば、スペクトル整形)を実行するようにそれぞれ構成されたデジタル前処理段P20a、P20b、及びP20cを含む。一般に、段P20a及びP20bは、それぞれ、第1のオーディオ信号AS10と第2のオーディオ信号AS20とに対して同じ機能を実行するように構成されるが、段P20cは、第3のオーディオ信号AS30に対して1つ以上の異なる機能(例えば、スペクトル整形、雑音低減、及び/又はエコー消去)を実行するように構成され得る。
第1のオーディオ信号AS10及び/又は第2のオーディオ信号AS20は、2つ以上のマイクロフォンからの信号に基づき得ることに特に留意されたい。例えば、図13Bに、マイクロフォンML10(及び/又はMR10)の複数のインスタンスがユーザの頭部の対応する側面に位置し得るいくつかのロケーションの例を示す。追加又は代替として、第3のオーディオ信号AS30は、ボイスマイクロフォンMC10の2つ以上のインスタンス(例えば、図2Bに示す、ロケーションELに配設された1次マイクロフォン、及びロケーションDLに配設された2次マイクロフォン)からの信号に基づき得る。そのような場合、オーディオ前処理段AP10は、対応するオーディオ信号を生成するために、複数のマイクロフォン信号に対して他の処理演算を混合及び/又は実行するように構成され得る。
音声処理アプリケーション(例えば、テレフォニーなどのボイス通信アプリケーション)では、音声情報を搬送するオーディオ信号のセグメントの正確な検出を実行することが望ましいことがある。そのようなボイスアクティビティ検出(VAD:voice activity detection)は、例えば、音声情報を維持する際に重要であり得る。音声情報を搬送するセグメントの誤識別は、復号されたセグメント中のその情報の品質を低下させ得るので、音声コーダは、一般に、雑音として識別されるセグメントを符号化するためよりも、音声として識別されるセグメントを符号化するためにより多くのビットを割り振るように構成される。別の例では、ボイスアクティビティ検出段がこれらのセグメントを音声として識別することができない場合、雑音低減システムは低エネルギー無声音声セグメントをアグレッシブに減衰させ得る。
各チャネルが異なるマイクロフォンによって生成された信号に基づいており、マルチチャネル信号は、一般にボイスアクティビティ検出のために使用され得る、音源方向及び/又は近傍に関する情報を含んでいる。そのようなマルチチャネルVAD演算は、例えば、特定の方向範囲(例えば、ユーザの口など、所望の音源の方向)から到着する方向性音を含んでいるセグメントを、拡散音又は他の方向から到着する方向性音を含んでいるセグメントと区別することによって、到着方向(DOA:direction of arrival)に基づき得る。
装置A100は、第1のオーディオ信号AS10からの情報と第2のオーディオ信号AS20からの情報との間の関係に基づいているボイスアクティビティ検出(VAD)信号VS10を生成するように構成されたボイスアクティビティ検出器VAD10を含む。ボイスアクティビティ検出器VAD10は、ボイスアクティビティ状態の遷移がオーディオ信号AS30の対応するセグメント中に存在するかどうかを示すために、一般に、オーディオ信号AS10及びAS20の一連の対応するセグメントの各々を処理するように構成される。典型的なセグメント長は約5又は10ミリ秒から約40又は50ミリ秒にわたり、セグメントは、重複しても(例えば、隣接するセグメントが25%又は50%だけ重複する)、重複しなくてもよい。1つの特定の例では、信号AS10、AS20、及びAS30の各々は、各フレームが10ミリ秒の長さを有する一連の重複しないセグメント又は「フレーム」に分割される。また、ボイスアクティビティ検出器VAD10によって処理されるセグメントは、異なる演算によって処理されるより大きいセグメントのセグメント(即ち、「サブフレーム」)であり得、又はその逆も同様である。
第1の例では、ボイスアクティビティ検出器VAD10は、時間領域における第1のオーディオ信号AS10の対応するセグメントと第2のオーディオ信号AS20の対応するセグメントとを相互相関させることによってVAD信号VS10を生成するように構成される。ボイスアクティビティ検出器VAD10は、以下などの式に従って遅延の範囲−d〜+dにわたる相互相関r(d)を計算するように構成され得る。
Figure 2013531419
又は
Figure 2013531419
上式で、xは第1のオーディオ信号AS10を示し、yは第2のオーディオ信号AS20を示し、Nは各セグメント中のサンプルの数を示す。
上記で示したようにゼロ詰め(zero-padding)を使用する代わりに、式(1)及び式(2)はまた、各セグメントを循環として扱うか、或いは適宜に前又は後続のセグメントに拡張するように構成され得る。これらのいずれの場合も、ボイスアクティビティ検出器VAD10は、以下などの式に従ってr(d)を正規化することによって相互相関を計算するように構成され得る。
Figure 2013531419
上式で、μxは第1のオーディオ信号AS10のセグメントの平均を示し、μyは第2のオーディオ信号AS20のセグメントの平均を示す。
ボイスアクティビティ検出器VAD10を、ゼロ遅延の周りの限られた範囲にわたって相互相関を計算するように構成することが望ましいことがある。マイクロフォン信号のサンプリングレートが8キロヘルツである例では、VADが、+又は1、2、3、4、又は5サンプルの限られた範囲にわたって信号を相互相関させることが望ましいことがある。そのような場合、各サンプルは、125マイクロ秒の時間差(即ち、4.25センチメートルの距離)に対応する。マイクロフォン信号のサンプリングレートが16キロヘルツである例では、VADが+又は1、2、3、4、又は5のサンプルの限られた範囲にわたって信号を相互相関させることが望ましいことがある。そのような場合、各サンプルは、62.5マイクロ秒の時間差(即ち、2.125センチメートルの距離)に対応する。
追加又は代替として、ボイスアクティビティ検出器VAD10を、所望の周波数レンジにわたって相互相関を計算するように構成することが望ましいことがある。例えば、50(又は100、200、又は500)Hzから500(又は1000、1200、1500、又は2000)Hzまでの範囲を有するバンドパス信号として第1のオーディオ信号AS10と第2のオーディオ信号AS20とを与えるように、オーディオ前処理段AP10を構成することが望ましいことがある。(500から500Hzまでの自明のケースを除く)これらの19個の特定の範囲の例の各々は、明確に企図され、本明細書によって開示される。
上記の相互相関例のいずれかでは、ボイスアクティビティ検出器VAD10は、各セグメントのためのVAD信号VS10の状態がゼロ遅延において対応する相互相関値に基づくようにVAD信号VS10を生成するように構成され得る。一例では、ボイスアクティビティ検出器VAD10は、セグメントについて計算された遅延値のうちゼロ遅延値が最大値である場合はボイスアクティビティがあることを示す第1の状態(例えば、高又は1)を有し、他の場合はボイスアクティビティがないことを示す第2の状態(例えば、低又は0)を有するVAD信号VS10を生成するように構成される。別の例では、ボイスアクティビティ検出器VAD10は、ゼロ遅延値がしきい値を上回る(代替的に、それ以上である)場合は第1の状態を有し、他の場合は第2の状態を有するVAD信号VS10を生成するように構成される。そのような場合、しきい値は、固定され得るか、或いは第3のオーディオ信号AS30の対応するセグメントの平均サンプル値に、及び/又は1つ以上の他の遅延におけるセグメントの相互相関結果に基づき得る。さらなる一例では、ボイスアクティビティ検出器VAD10は、ゼロ遅延値が+1サンプル及び1サンプルの遅延の対応する値のうち最高の値の指定された比率(例えば、0.7又は0.8)よりも大きい(代替的に、少なくともそれに等しい)場合は第1の状態を有し、他の場合は第2の状態を有するVAD信号VS10を生成するように構成される。ボイスアクティビティ検出器VAD10はまた、(例えば、AND論理及び/又はOR論理を使用して)2つ以上のそのような結果を合成するように構成され得る。
ボイスアクティビティ検出器VAD10は、信号VS10の状態変更を遅延させるために慣性機構(inertial mechanism)を含むように構成され得る。そのような機構の一例は、いくつかの連続するフレーム(例えば、1、2、3、4、5、8、10、12、又は20フレーム)のハングオーバ期間にわたってボイスアクティビティがないことを検出器が検出し続けるまで、検出器VAD10がそれの出力を第1の状態から第2の状態に切り替えることを抑止するように構成された論理である。例えば、そのようなハングオーバ論理は、ボイスアクティビティの最新の検出後ある程度の期間にわたって、検出器VAD10にセグメントを音声として識別し続けさせるように構成され得る。
第2の例では、ボイスアクティビティ検出器VAD10は、時間領域におけるセグメントにわたって第1のオーディオ信号AS10と第2のオーディオ信号AS20の(利得とも呼ばれる)レベルの間の差に基づいてVAD信号VS10を生成するように構成される。例えば、ボイスアクティビティ検出器VAD10のそのような実装形態は、一方又は両方の信号のレベルがしきい値を上回り(信号がマイクロフォンに近い音源から到着していることを示す)、その2つの信号のレベルが実質的に等しい(信号が2つのマイクロフォン間のロケーションから到着していることを示す)ときに、ボイス検出を示すように構成され得る。この場合、「実質的に等しい」という用語は、小さい方の信号のレベルの5、10、15、20、又は25パーセント以内を示す。セグメントのレベル測度の例には、合計の大きさ(例えば、サンプル値の絶対値の和)、平均の大きさ(例えば、サンプル当たり)、RMS振幅、中央値の大きさ、最大振幅、総エネルギー(例えば、サンプル値の平方和)、及び平均エネルギー(例えば、サンプル当たり)がある。レベル差技法を用いて正確な結果を得るために、2つのマイクロフォンチャネルの応答が互いに較正されることが望ましいことがある。
ボイスアクティビティ検出器VAD10は、比較的少ない計算費用でVAD信号VS10を計算するために、上記で説明した時間領域技法のうちの1つ又は複数を使用するように構成され得る。さらなる実装形態では、ボイスアクティビティ検出器VAD10は、各セグメントの複数のサブバンドの各々について(例えば、相互相関又はレベル差に基づいて)VAD信号VS10のそのような値を計算するように構成される。この場合、ボイスアクティビティ検出器VAD10は、一様サブバンド分割又は非一様サブバンド分割に従って(例えば、バーク尺度又はメル尺度に従って)構成されたサブバンドフィルタのバンクから時間領域サブバンド信号を得るように配置され得る。
さらなる一例では、ボイスアクティビティ検出器VAD10は、周波数領域における第1のオーディオ信号AS10と第2のオーディオ信号AS20との間の差に基づいてVAD信号VS10を生成するように構成される。周波数領域VAD演算の1つのクラスは、所望の周波数レンジ内のセグメントの周波数成分ごとに、マルチチャネル信号の2つのチャネルの各々における周波数成分間の位相差に基づいている。そのようなVAD演算は、500〜2000Hzなどの広い周波数レンジにわたって位相差と周波数との間の関係が一貫しているときに(即ち、位相差と周波数との相関が線形であるときに)、ボイス検出を示すように構成され得る。そのような位相ベースのVAD演算については、以下でより詳細に説明する。追加又は代替として、ボイスアクティビティ検出器VAD10は、周波数領域におけるセグメントにわたって(例えば、1つ以上の特定の周波数レンジにわたって)第1のオーディオ信号AS10のレベルと第2のオーディオ信号AS20のレベルとの間の差に基づいてVAD信号VS10を生成するように構成され得る。追加又は代替として、ボイスアクティビティ検出器VAD10は、周波数領域におけるセグメントにわたって(例えば、1つ以上の特定の周波数レンジにわたって)第1のオーディオ信号AS10と第2のオーディオ信号AS20との間の相互相関に基づいてVAD信号VS10を生成するように構成され得る。第3のオーディオ信号AS30のための現在のピッチ推定値の倍数に対応する周波数成分のみを考慮するように、周波数領域ボイスアクティビティ検出器(例えば、上記で説明した位相、レベル、又は相互相関ベースの検出器)を構成することが望ましいことがある。
チャネル間利得差に基づいているマルチチャネルボイスアクティビティ検出器、及びシングルチャネル(例えば、エネルギーベース)ボイスアクティビティ検出器は、一般に、広い周波数レンジ(例えば、0〜4kHz、500〜4000Hz、0〜8kHz、又は500〜8000Hzの範囲)からの情報に依拠する。到着方向(DOA)に基づいているマルチチャネルボイスアクティビティ検出器は、一般に、低周波数レンジ(例えば、500〜2000Hz又は500〜2500Hzの範囲)からの情報に依拠する。有声音声が、通常、これらの範囲において有意なエネルギーコンテンツを有すると仮定すれば、そのような検出器は、概して、有声音声のセグメントを確実に示すように構成され得る。本明細書で説明するストラテジと組み合わせられ得る別のVADストラテジは、(例えば、900Hzを下回る、又は500Hzを下回る)低周波数レンジにおけるチャネル間利得差に基づいているマルチチャネルVAD信号である。そのような検出器は、フォールスアラームの低いレートで有声セグメントを正確に検出することが予想され得る。
ボイスアクティビティ検出器VAD10は、VAD信号VS10を生成するために、本明細書で説明する第1のオーディオ信号AS10と第2のオーディオ信号AS20とに対してVAD演算のうちの2つ以上を実行し、その結果を合成するように構成され得る。代替又は追加として、ボイスアクティビティ検出器VAD10は、VAD信号VS10を生成するために、第3のオーディオ信号AS30に対して1つ以上のVAD演算を実行し、そのような演算の結果を、本明細書で説明する第1のオーディオ信号AS10と第2のオーディオ信号AS20とに対するVAD演算のうちの1つ以上の結果と合成するように構成され得る。
図4Aに、ボイスアクティビティ検出器VAD10の実装形態VAD12を含む装置A100の実装形態A110のブロック図を示す。ボイスアクティビティ検出器VAD12は、第3のオーディオ信号AS30を受信し、信号AS30に対する1つ以上のシングルチャネルVAD演算の結果にも基づいてVAD信号VS10を生成するように構成される。そのようなシングルチャネルVAD演算の例には、フレームエネルギー、信号対雑音比、周期性、音声及び/又は残差(例えば、線形予測符号化残差)の自己相関、ゼロ交差レート、及び/又は第1の反射係数など、1つ以上のファクタに基づいて、セグメントをアクティブ(例えば、音声)又は非アクティブ(例えば、雑音)として分類するように構成された技法がある。そのような分類は、そのようなファクタの値又は大きさをしきい値と比較すること、及び/又はそのようなファクタの変化の大きさをしきい値と比較することを含み得る。代替又は追加として、そのような分類は、1つの周波数帯域におけるエネルギーなどのそのようなファクタの値若しくは大きさ又はそのようなファクタの変化の大きさと、別の周波数帯域における同様の値との比較を含み得る。複数の基準(例えば、エネルギー、ゼロ交差レートなど)及び/又は最近のVAD決定のメモリに基づいてボイスアクティビティ検出を実行するように、そのようなVAD技法を実装することが望ましいことがある。
検出器VAD12によって、その結果が、本明細書で説明する、第1のオーディオ信号AS10と第2のオーディオ信号AS20とに対するVAD演算のうちの2つ以上の結果と合成され得るVAD演算の一例には、例えば、「Enhanced Variable Rate Codec, Speech Service Options 3, 68, 70, and 73 for Wideband Spread Spectrum Digital Systems」と題する3GPP2文書C.S0014−D、v3.0、2010年10月(www.3gpp.orgでオンライン入手可能)のセクション4.7(pp.4−48〜4−55)に記載されているように、セグメントのハイバンド及びローバンドエネルギーをそれぞれのしきい値と比較することがある。他の例(例えば、音声オンセット及び/又はオフセットを検出すること、フレームエネルギーと平均エネルギーとの比及び/又はローバンドエネルギーとハイバンドエネルギーとの比を比較すること)については、2011年4月20日に出願された「SYSTEMS, METHODS, AND APPARATUS FOR SPEECH FEATURE DETECTION」と題する米国特許出願第13/092,502号、弁理士整理番号第100839号(Visserら)に記載されている。
本明細書で説明するボイスアクティビティ検出器VAD10の実装形態(例えば、VAD10、VAD12)は、VAD信号VS10を2進値信号又はフラグ(即ち、2つの可能な状態を有する)として、又は多値信号(即ち、3つ以上の可能な状態を有する)として生成するように構成され得る。一例では、検出器VAD10又はVAD12は、2進値信号に対して(例えば、1次IIRフィルタを使用して)時間平滑化演算を実行することによって多値信号を生成するように構成される。
雑音低減及び/又は抑圧のためにVAD信号VS10を使用するように装置A100を構成することが望ましいことがある。1つのそのような例では、第3のオーディオ信号AS30に、(例えば、雑音周波数成分及び/又はセグメントを減衰させるために)利得制御としてVAD信号VS10が適用される。別のそのような例では、更新された雑音推定値に基づいている第3のオーディオ信号AS30に対して(例えば、VAD演算によって雑音として分類された周波数成分又はセグメントを使用して)雑音低減演算のための雑音推定値を計算(例えば、更新)するために、VAD信号VS10が適用される。
装置A100は、VAD信号VS30に従って第3のオーディオ信号SA30から音声信号SS10を生成するように構成された音声推定器SE10を含む。図4Bに、利得制御要素GC10を含む音声推定器SE10の実装形態SE20のブロック図を示す。利得制御要素GC10は、第3のオーディオ信号AS30の各セグメントに、VAD信号VS10の対応する状態を適用するように構成される。一般的な例では、利得制御要素GC10は乗算器として実装され、VAD信号VS10の各状態が0から1までの範囲内の値を有する。
図4Cに、(例えば、VAD信号VS10が2進値である場合)利得制御要素GC10がセレクタGC20として実装された音声推定器SE20の実装形態SE22のブロック図を示す。利得制御要素GC20は、VAD信号VS10によってボイスを含んでいるとして識別されたセグメントを渡し、VAD信号VS10によって雑音のみとして識別されたセグメントをブロックすること(「ゲーティング」とも呼ばれる)によって、音声信号SS10を生成するように構成され得る。
ボイスアクティビティがないとして識別された、第3のオーディオ信号AS30のセグメントを減衰又は除去することによって、音声推定器SE20又はSE22は、全体的に第3のオーディオ信号AS30よりも雑音が少ない音声信号SS10を生成することが予想され得る。しかしながら、ボイスアクティビティを含んでいる第3のオーディオ信号AS30のセグメント中にもそのような雑音が存在することも予想され得、これらのセグメント内の雑音を低減するために1つ以上の追加の演算を実行するように音声推定器SE10を構成することが望ましいことがある。
典型的な環境における音響雑音には、バブル雑音、空港雑音、街頭雑音、競合する話し手のボイス、及び/又は干渉源(例えば、テレビ受像機又はラジオ)からの音があり得る。従って、そのような雑音は、一般に非定常であり、ユーザ自身のボイスの平均スペクトルに近い平均スペクトルを有することがある。シングルチャネルVAD信号(例えば、第3のオーディオ信号AS30のみに基づいているVAD信号)に従って計算される雑音パワー基準信号は、通常、近似定常雑音推定値のみである。その上、そのような計算は一般に雑音パワー推定遅延を伴うので、かなりの遅延の後にしか、対応する利得調整を実行することができない。環境雑音の確実な同時推定値を得ることが望ましいことがある。
VAD信号VS10を使用して第3のオーディオ信号AS30の成分及び/又はセグメントを分類することによって、(「準シングルチャネル」雑音推定値とも呼ばれる)改善されたシングルチャネル雑音基準が計算され得る。そのような雑音推定値は、長期推定値を必要としないので、他の手法よりも迅速に利用可能であり得る。また、このシングルチャネル雑音基準は、一般に非定常雑音の除去をサポートすることができない長期推定値ベースの手法とは異なり、非定常雑音をキャプチャすることができる。そのような方法は、高速、正確、及び非定常の雑音基準を与え得る。装置A100は、(例えば、場合によっては各周波数成分に対して第1度平滑器(first-degree smoother)を使用して)現在の雑音セグメントを雑音推定値の前の状態で平滑化することによって雑音推定値を生成するように構成され得る。
図5Aに、セレクタGC20の実装形態GC22を含む音声推定器SE22の実装形態SE30のブロック図を示す。セレクタGC22は、VAD信号VS10の対応する状態に基づいて、第3のオーディオ信号AS30を雑音の多い音声セグメントNSF10のストリームと雑音セグメントNF10のストリームとに分離するように構成される。音声推定器SE30はまた、雑音セグメントNF10からの情報に基づいて雑音推定値NE10(例えば、第3のオーディオ信号AS30の雑音成分のスペクトルプロファイル)を更新するように構成された雑音推定器NS10を含む。
雑音推定器NS10は、雑音推定値NE10を雑音セグメントNF10の時間平均として計算するように構成され得る。雑音推定器NS10は、例えば、各雑音セグメントを使用して雑音推定値を更新するように構成され得る。そのような更新は、周波数成分値を時間的に平滑化することによって周波数領域において実行され得る。例えば、雑音推定器NS10は、1次IIRフィルタを使用して、雑音推定値の各成分の前の値を現在の雑音セグメントの対応する成分の値で更新するように構成され得る。そのような雑音推定値は、第3のオーディオ信号AS30からのVAD情報のみに基づいている値よりも信頼できる雑音基準を与えることが予想され得る。
音声推定器SE30はまた、音声信号SS10を生成するために、雑音の多い音声セグメントNSF10に対して雑音低減演算を実行するように構成された雑音低減モジュールNR10を含む。1つのそのような例では、雑音低減モジュールNR10は、周波数領域において音声信号SS10を生成するために、雑音の多い音声フレームNSF10から雑音推定値NE10を減算することによってスペクトル減算演算を実行するように構成される。別のそのような例では、雑音低減モジュールNR10は、音声信号SS10を生成するために、雑音推定値NE10を使用して、雑音の多い音声フレームNSF10に対してウィーナーフィルタ処理演算を実行するように構成される。
雑音低減モジュールNR10は、時間領域において音声信号SS10を生成するために、周波数領域において雑音低減演算を実行し、得られた信号を(例えば、逆変換モジュールを介して)変換するように構成され得る。雑音推定器NS10及び/又は雑音低減モジュールNR10内で使用され得る後処理演算(例えば、残留雑音抑圧、雑音推定値合成)のさらなる例は、米国特許出願第61/406,382号(Shinら、2010年10月25日出願)に記載されている。
図6Aに、ボイスアクティビティ検出器VAD10の実装形態VAD14と、音声推定器SE10の実装形態SE40とを含む装置A100の実装形態A120のブロック図を示す。ボイスアクティビティ検出器VAD14は、VAD信号VS10の2つのバージョン、即ち上記で説明した2進値信号VS10aと上記で説明した多値信号VS10bとを生成するように構成される。一例では、検出器VAD14は、信号VS10aに対して、(例えば、1次IIRフィルタを使用した)時間平滑化演算と、場合によっては慣性演算(例えば、ハングオーバ)とを実行することによって信号VS10bを生成するように構成される。
図6Bに、音声推定値SE10を生成するために、VAD信号VS10bに従って第3のオーディオ信号AS30に対して非2値利得制御を実行するように構成された利得制御要素GC10のインスタンスを含む音声推定器SE40のブロック図を示す。音声推定器SE40はまた、VAD信号VS10aに従って第3のオーディオ信号AS30から雑音フレームNF10のストリームを生成するように構成されたセレクタGC20の実装形態GC24を含む。
上記で説明したように、マイクロフォンアレイML10及びMR10からの空間情報を使用して、マイクロフォンMC10からのボイス情報を向上させるために適用されるVAD信号を生成する。また、マイクロフォンアレイMC10及びML10(又はMC10及びMR10)からの空間情報を使用して、マイクロフォンMC10からのボイス情報を向上させることが望ましいことがある。
第1の例では、マイクロフォンアレイMC10及びML10(又はMC10及びMR10)からの空間情報に基づいているVAD信号を使用してマイクロフォンMC10からのボイス情報を向上させる。図5Bに、装置A100のそのような実装形態A130のブロック図を示す。装置A130は、第2のオーディオ信号AS20からの情報と、第3のオーディオ信号AS30からの情報とに基づいて、第2のVAD信号VS20を生成するように構成された第2のボイスアクティビティ検出器VAD20を含む。検出器VAD20は、時間領域において、又は周波数領域において動作するように構成され得、本明細書で説明するマルチチャネルボイスアクティビティ検出器(例えば、チャネル間レベル差に基づいている検出器、位相ベース及び相互相関ベースの検出器を含む、到着方向に基づいている検出器)のいずれかのインスタンスとして実装され得る。
利得ベースの方式が使用された場合、検出器VAD20は、第2のオーディオ信号AS20のレベルに対する第3のオーディオ信号AS30のレベルの比がしきい値を超えた(代替的に、それ以上である)場合はボイスアクティビティがあることを示し、他の場合はボイスアクティビティがないことを示すVAD信号VS20を生成するように構成され得る。同等に、検出器VAD20は、第3のオーディオ信号AS30のレベルの対数と第2のオーディオ信号AS20のレベルの対数との間の差がしきい値を超えた(代替的に、それ以上である)場合はボイスアクティビティがあることを示し、他の場合はボイスアクティビティがないことを示すVAD信号VS20を生成するように構成され得る。
DOAベースの方式が使用された場合、検出器VAD20は、セグメントのDOAが、マイクロフォンMR10からマイクロフォンMC10に向かうマイクロフォンペアの軸に近い(例えば、10、15、20、30、又は45度以内である)場合はボイスアクティビティがあることを示し、他の場合はボイスアクティビティがないことを示すVAD信号VS20を生成するように構成され得る。
装置A130はまた、VAD信号VS10を得るために、VAD信号VS20を、本明細書で説明する、第1のオーディオ信号AS10と第2のオーディオ信号AS20とに対するVAD演算のうちの1つ又は複数(例えば、時間領域相互相関ベースの演算)の結果と、及び場合によっては本明細書で説明する第3のオーディオ信号AS30に対する1つ以上のVAD演算の結果と(例えば、AND論理及び/又はOR論理を使用して)合成するように構成されたボイスアクティビティ検出器VAD10の実装形態VAD16を含む。
第2の例では、マイクロフォンアレイMC10及びML10(又はMC10及びMR10)からの空間情報を使用して、音声推定器SE10のアップストリームのマイクロフォンMC10からのボイス情報を向上させる。図7Aに、装置A100のそのような実装形態A140のブロック図を示す。装置A140は、フィルタ処理された信号FS10を生成するために、第2のオーディオ信号AS20と第3のオーディオ信号AS30とに対して空間選択的処理(SSP:spatially selective processing)演算を実行するように構成されたSSPフィルタSSP10を含む。そのようなSSP演算の例には、(限定はしないが)ブラインド音源分離、ビームフォーミング、ヌルビームフォーミング、及び方向マスキング方式がある。そのような演算は、例えば、フィルタ処理された信号FS10のボイスアクティブフレームが、第3のオーディオ信号AS30の対応するフレームよりも、ユーザのボイスのエネルギーをより多く(及び/又は他の指向性音源からの、及び/又は背景雑音からのエネルギーをより少なく)含むように構成され得る。この実装形態では、音声推定器SE10は、第3のオーディオ信号AS30の代わりにフィルタ処理された信号FS10を入力として受信するように構成される。
図8Aに、フィルタ処理された雑音信号FN10を生成するように構成されたSSPフィルタSSP10の実装形態SSP12を含む装置A100の実装形態A150のブロック図を示す。フィルタSSP12は、例えば、フィルタ処理された雑音信号FN10のフレームが、第3のオーディオ信号AS30の対応するフレームよりも、指向性雑音源からの及び/又は背景雑音からのエネルギーをより多く含むように構成され得る。装置A150はまた、フィルタ処理された信号FS10とフィルタ処理された雑音信号FN10とを入力として受信するように構成され、配置された音声推定器SE30の実装形態SE50を含む。図9Aに、VAD信号VS10に従って、フィルタ処理された信号FS10から雑音の多い音声フレームNSF10のストリームを生成するように構成されたセレクタGC20のインスタンスを含む音声推定器SE50のブロック図を示す。音声推定器SE50はまた、VAD信号VS10に従って、フィルタ処理された雑音信号FN30から雑音フレームNF10のストリームを生成するように構成され、配置されたセレクタGC24のインスタンスを含む。
位相ベースのボイスアクティビティ検出器の一例では、周波数成分ごとに、その周波数における位相差が、所望の範囲内にある方向に対応するかどうかを判断するために、方向マスキング関数が適用され、2値VAD指示を得るために、テスト中の周波数レンジにわたってそのようなマスキングの結果に従ってコヒーレンシ測度が計算され、しきい値と比較される。そのような手法は、(例えば、単一の方向マスキング関数が全ての周波数において使用され得るように)各周波数における位相差を、到着方向又は到達時間差など、方向の周波数独立インジケータに変換することを含み得る。代替的に、そのような手法は、各周波数において観測される位相差に異なるそれぞれのマスキング関数を適用することを含み得る。
位相ベースのボイスアクティビティ検出器の別の例では、テスト中の周波数レンジ内の個々の周波数成分についての到着方向の分布の形状(例えば、個々のDOAが互いにどのくらい緊密にグループ化されるか)に基づいてコヒーレンシ測度が計算される。いずれの場合も、現在のピッチ推定値の倍数である周波数のみに基づいてコヒーレンシ測度を計算するように位相ベースのボイスアクティビティ検出器を構成することが望ましいことがある。
検査されるべき周波数成分ごとに、例えば、位相ベースの検出器は、FFT係数の実数項に対する、対応する高速フーリエ変換(FFT)係数の虚数項の比の逆タンジェント(アークタンジェントとも呼ばれる)として位相を推定するように構成され得る。
広帯域周波数レンジ上で各ペアのチャネル間の方向コヒーレンスを判断するように位相ベースのボイスアクティビティ検出器を構成することが望ましいことがある。そのような広帯域レンジは、例えば、0、50、100、又は200Hzの低周波限界から、3、3.5、又は4kHzの(或いは最高7又は8kHz以上など、さらにより高い)高周波限界に及び得る。ただし、検出器は、信号の帯域幅全体にわたって位相差を計算することが不要であり得る。例えば、そのような広帯域レンジにおける多くの帯域では、位相推定が実際的でないか又は不要であり得る。超低周波数における受信した波形の位相関係の実際的評価は、一般に、トランスデューサ間で相応して大きい間隔を必要とする。従って、マイクロフォン間の最大の利用可能な間隔は、低周波限界を確立し得る。一方、マイクロフォン間の距離は、空間エイリアシングを回避するために、最小波長の1/2を超えるべきではない。例えば、8キロヘルツサンプリングレートは0から4キロヘルツまでの帯域幅を与える。4kHz信号の波長は約8.5センチメートルであるので、この場合、隣接するマイクロフォン間の間隔は約4センチメートルを超えるべきではない。マイクロフォンチャネルは、空間エイリアシングを生じ得る周波数を除去するために低域フィルタ処理され得る。
音声信号(又は他の所望の信号)が方向的にコヒーレントであることが予想され得る、特定の周波数成分又は特定の周波数レンジをターゲットにすることが望ましいことがある。(例えば、自動車などの音源からの)指向性雑音及び/又は拡散雑音など、背景雑音は同じ範囲にわたって方向的にコヒーレントでないことになることが予想され得る。音声は4から8キロヘルツまでの範囲において低電力を有する傾向があり、従って、少なくともこの範囲にわたって位相推定を控えることが望ましいことがある。例えば、約700ヘルツから約2キロヘルツまでの範囲にわたって位相推定を実行し、方向コヒーレンシを判断することが望ましいことがある。
従って、周波数成分の全てよりも少数の周波数成分について(例えば、FFTの周波数サンプルの全てよりも少数の周波数サンプルについて)位相推定値を計算するように検出器を構成することが望ましいことがある。一例では、検出器は700Hz〜2000Hzの周波数レンジについて位相推定値を計算する。4キロヘルツ帯域幅信号の128点FFTの場合、700〜2000Hzの範囲は、ほぼ、第10のサンプルから第32のサンプルまでの23個の周波数サンプルに対応する。信号についての現在のピッチ推定値の倍数に対応する周波数成分について位相差のみを考慮するように検出器を構成することも望ましいことがある。
位相ベースのボイスアクティビティ検出器は、計算された位相差からの情報に基づいて、チャネルペアの方向コヒーレンスを評価するように構成され得る。マルチチャネル信号の「方向コヒーレンス」は、信号の様々な周波数成分が同じ方向から到着する程度として定義される。理想的に方向的にコヒーレントなチャネルペアの場合、
Figure 2013531419
の値は全ての周波数について定数kに等しく、ここで、kの値は到着方向θ及び到着時間遅延τに関係する。マルチチャネル信号の方向コヒーレンスは、例えば、(例えば、方向マスキング関数によって示されるように)各周波数成分について推定される到着方向が特定の方向にどのくらい良く適合するかに従って、(位相差と周波数との比によって、又は到着時間遅延によって示されることもある)各周波数成分について推定される到着方向を評価する(rating)ことと、次いで、その信号についてのコヒーレンシ測度を取得するために様々な周波数成分についての評価結果(rating results)を組み合わせることとによって、定量化され得る。
コヒーレンシ測度を時間平滑化値として生成すること(例えば、時間平滑化関数を使用してコヒーレンシ測度を計算すること)が望ましいことがある。コヒーレンシ測度の対比は、コヒーレンシ測度の現在値と、経時的コヒーレンシ測度の平均値(例えば、直近の10、20、50、又は100フレームにわたる平均値、最頻値、又は中央値)との間の関係の値(例えば、差又は比)として表され得る。コヒーレンシ測度の平均値は、時間平滑化関数を使用して計算され得る。また、方向コヒーレンスの測度の計算及び適用を含む、位相ベースVAD技法は、例えば、米国特許出願公開第2010/0323652 A1号及び第2011/038489 A1号(Visserら)に記載されている。
利得ベースVAD技法は、各チャネルについてレベル又は利得測度の対応する値の間の差に基づいてセグメント中のボイスアクティビティの存在又は不在を示すように構成され得る。(時間領域において又は周波数領域において計算され得る)そのような利得測度の例は、合計大きさ、平均大きさ、RMS振幅、中央大きさ、ピーク大きさ、総エネルギー、及び平均エネルギーを含む。利得測度に対して及び/又は計算された差に対して時間平滑化演算を実行するように検出器を構成することが望ましいことがある。利得ベースVAD技法は、(例えば、所望の周波数レンジにわたる)セグメントレベルの結果、又は代替的に、各セグメントの複数のサブバンドの各々についての結果を生成するように構成され得る。
チャネル間の利得差が近接度検出のために使用され得、これは、より良い前面雑音抑圧(例えば、ユーザの前の干渉話者の抑圧)など、よりアグレッシブな近距離場/遠距離場区別(near-field/far-field discrimination)をサポートし得る。マイクロフォン間の距離に応じて、平衡マイクロフォンチャネル間の利得差は、一般に、音源が50センチメートル又は1メートル以内にある場合のみ発生することになる。
利得ベースVAD技法は、チャネルの利得間の差がしきい値よりも大きいとき、セグメントが、マイクロフォンアレイの縦方向(endfire direction)における所望の音源からのものであることを検出する(例えば、ボイスアクティビティの検出を示す)ように構成され得る。代替的に、利得ベースVAD技法は、チャネルの利得間の差がしきい値よりも小さいとき、セグメントがマイクロフォンアレイの横方向(broadside direction)における所望の音源からのものであることを検出する(例えば、ボイスアクティビティの検出を示す)ように構成され得る。しきい値はヒューリスティックに判断され得、信号対雑音比(SNR)、雑音フロアなどの1つ以上のファクタに応じて異なるしきい値を使用すること(例えば、SNRが低いときにより高いしきい値を使用すること)が望ましいことがある。また、利得ベースVAD技法は、例えば、米国特許出願公開第2010/0323652 A1号(Visserら)に記載されている。
図20Aに、第1のマイクロフォン信号MS10からの情報と第2のマイクロフォン信号MS20からの情報とに基づいて雑音基準N10を生成するように構成された計算器CL10を含む装置A100の実装形態A160のブロック図を示す。計算器CL10は、例えば、第1のオーディオ信号AS10と第2のオーディオ信号AS20との間の差として(例えば、信号AS10から信号AS20を減算することによって、又はその逆によって)雑音基準N10を計算するように構成され得る。装置A160はまた、VAD信号VS10に従って、セレクタGC20が、第3のオーディオ信号AS30から雑音の多い音声フレームNSF10のストリームを生成するように構成され、セレクタGC24が、雑音基準N10から雑音フレームNF10のストリームを生成するように構成されるように、図20Bに示すように、第3のオーディオ信号AS30と雑音基準N10とを入力として受信するように配置された音声推定器SE50のインスタンスを含む。
図21Aに、上記で説明した計算器CL10のインスタンスを含む装置A100の実装形態A170のブロック図を示す。装置A170はまた、利得制御要素GC10が、音声推定値SE10を生成するために、VAD信号VS10bに従って第3のオーディオ信号AS30に対して非2値利得制御を実行するように構成され、セレクタGC24が、VAD信号VS10aに従って雑音基準N10から雑音フレームNF10のストリームを生成するように構成されるように、図21Bに示すように、第3のオーディオ信号AS30と雑音基準N10とを入力として受信するように配置された、音声推定器SE40の実装形態SE42を含む。
装置A100はまた、ユーザの耳の各々においてオーディオ信号を再生するように構成され得る。例えば、装置A100は、(例えば、図3Bに示すように装着される)イヤホンのペアを含むように実装され得る。図7Bに、左ラウドスピーカLLS10と左雑音基準マイクロフォンML10とを含んでいるイヤホンEB10の例の正面図を示す。使用中に、イヤホンEB10は、(例えば、コードCD10を介して受信された信号から)左ラウドスピーカLLS10によって生成された音響信号をユーザの耳道に向けるためにユーザの左耳に装着される。音響信号をユーザの耳道に向けるイヤホン(earbud)EB10の一部分は、ユーザの耳道を密閉するように快適に装着され得るように、エラストマー(例えば、シリコーンゴム)など、弾性のある材料で製造されているか、又は覆われていることが望ましいことがある。
図8Bに、装置A100のコード付き実装形態におけるイヤホンEB10のインスタンスとボイスマイクロフォンMC10のインスタンスとを示す。この例では、マイクロフォンMC10は、マイクロフォンML10から約3〜4センチメートルの距離のところで、コードCD10の半硬式ケーブル部分CB10に取り付けられる。半硬式ケーブルCB10は、柔軟及び軽量であるが、使用中にマイクロフォンMC10をユーザの口のほうへ向けた状態に保つのに十分固く構成され得る。図9Bに、使用中にマイクロフォンMC10がユーザの口のほうへ向けられるように、イヤホンのコードCD10の張力緩和(strain-relief)部分内にマイクロフォンMC10が取り付けられたイヤホンEB10のインスタンスの側面図を示す。
装置A100は、ユーザの頭部全体に装着されるように構成され得る。そのような場合、装置A100は、音声信号SS10を生成し、無線又は有線リンクを介して、それを通信機器に送信し、通信機器から再生オーディオ信号(例えば、遠端通信信号(far-end communications signal))を受信するように構成され得る。代替的に、装置A100は、通信機器(それの例には、限定はしないが、セルラー電話、スマートフォン、タブレットコンピュータ、及びラップトップコンピュータがある)中に、処理要素(例えば、ボイスアクティビティ検出器VAD10及び/又は音声推定器SE10)の一部又は全部が配置されるように構成され得る。いずれの場合も、有線リンクを介した通信機器との信号伝達は、図9Cに示す3.5ミリメートルチップリングリングスリーブ(TRRS:tip-ring-ring-sleeve)プラグP10などの多芯プラグを通して実行され得る。
装置A100は、ユーザが(例えば、通話を開始、応答、及び/又は終了するために)通信機器のオンフックステータスとオフフックステータスとをそれによって制御し得るフックスイッチSW10を(例えば、イヤホン又はイヤカップ上に)含むように構成され得る。図9Dに、フックスイッチSW10がコードCD10に一体化された例を示し、図9Eに、プラグP10と、フックスイッチSW10の状態を通信機器に伝達するように構成された同軸プラグP20とを含むコネクタの例を示す。
イヤホンの代替として、装置A100は、一般に、ユーザの頭部に装着されるバンドによって結合されるイヤカップのペアを含むように実装され得る。図11Aに、(例えば、ワイヤレスに、又はコードCD10を介して受信された信号から)ユーザの耳への音響信号を生成するように配置された、右ラウドスピーカRLS10を含んでいるイヤカップEC10、及びイヤカップハウジング中の音響ポートを介して環境雑音信号を受信するように配置された右雑音基準マイクロフォンMR10の断面図を示す。イヤカップEC10は、耳載せ形(supra-aural)に(即ち、耳を囲むことなくユーザの耳の上に載るように)又は耳覆い形(circumaural)に(即ち、ユーザの耳を覆うように)構成され得る。
従来のアクティブ雑音消去ヘッドセットの場合と同様に、マイクロフォンML10及びMR10の各々は、それぞれの耳道入口位置における受信SNRを改善するために個別に使用され得る。図10Aに、装置A100のそのような実装形態A200のブロック図を示す。装置A200は、第1のマイクロフォン信号MS10からの情報に基づいてアンチノイズ信号AN10を生成するように構成されたANCフィルタNCL10と、第2のマイクロフォン信号MS20からの情報に基づいてアンチノイズ信号AN20を生成するように構成されたANCフィルタNCR10とを含む。
ANCフィルタNCL10、NCR10の各々は、対応するオーディオ信号AS10、AS20に基づいて、対応するアンチノイズ信号AN10、AN20を生成するように構成され得る。ただし、アンチノイズ処理経路がデジタル前処理段P20a、P20bによって実行される1つ以上の前処理演算(例えば、エコー消去)をバイパスすることが望ましいことがある。装置A200は、第1のマイクロフォン信号MS10からの情報に基づいて雑音基準NRF10を生成し、第2のマイクロフォン信号MS20からの情報に基づいて雑音基準NRF20を生成するように構成されたオーディオ前処理段AP10のそのような実装形態AP12を含む。図10Bに、雑音基準NRF10、NRF20が、対応するデジタル前処理段P20a、P20bをバイパスするオーディオ前処理段AP12の実装形態AP22のブロック図を示す。図10Aに示す例では、ANCフィルタNCL10は、雑音基準NRF10に基づいてアンチノイズ信号AN10を生成するように構成され、ANCフィルタNCR10は、雑音基準NRF20に基づいてアンチノイズ信号AN20を生成するように構成される。
ANCフィルタNCL10、NCR10の各々は、任意の所望のANC技法に従って対応するアンチノイズ信号AN10、AN20を生成するように構成され得る。そのようなANCフィルタは、一般に、雑音基準信号の位相を反転させるように構成され、また、周波数応答を等化し、及び/又は遅延を整合させるか若しくは最小限に抑えるように構成され得る。アンチノイズ信号AN10を生成するために、マイクロフォン信号ML10からの情報に対して(例えば、第1のオーディオ信号AS10又は雑音基準NRF10に対して)ANCフィルタNCL10によって実行され、アンチノイズ信号AN20を生成するために、マイクロフォン信号MR10からの情報に対して(例えば、第2のオーディオ信号AS20又は雑音基準NRF20に対して)ANCフィルタNCR10によって実行され得るANC演算の例には、位相反転フィルタ処理演算、最小2乗平均(LMS)フィルタ処理演算、LMSの変形態又は派生物(例えば、米国特許出願公開第2006/0069566号(Nadjarら)などに記載されているfiltered-x LMS)、並びに(例えば、米国特許第5,105,377号(Ziegler)に記載されている)デジタルバーチャルアースアルゴリズムがある。ANCフィルタNCL10、NCR10の各々は、時間領域及び/又は変換領域(例えば、フーリエ変換若しくは他の周波数領域)において対応するANC演算を実行するように構成され得る。
装置A200は、ユーザの左耳に装着するように構成された左ラウドスピーカLLS10を駆動するために、アンチノイズ信号AN10を受信し、対応するオーディオ出力信号OS10を生成するように構成されたオーディオ出力段OL10を含む。装置A200は、ユーザの右耳に装着するように構成された右ラウドスピーカRLS10を駆動するために、アンチノイズ信号AN20を受信し、対応するオーディオ出力信号OS20を生成するように構成されたオーディオ出力段OR10を含む。オーディオ出力段OL10、OR10は、アンチノイズ信号AN10、AN20をデジタル形式からアナログ形式に変換することによって、及び/又はその信号に対して任意の他の所望のオーディオ処理演算(例えば、その信号に対するフィルタ処理、増幅、利得係数の適用、及び/又はレベルの制御)を実行することによってオーディオ出力信号OS10、OS20を生成するように構成され得る。オーディオ出力段OL10、OR10の各々はまた、対応するアンチノイズ信号AN10、AN20を再生オーディオ信号(例えば、ファーエンド通信信号)及び/又は(例えば、ボイスマイクロフォンMC10からの)側音信号と混合するように構成され得る。オーディオ出力段OL10、OR10はまた、対応するラウドスピーカにインピーダンス整合を与えるように構成され得る。
誤差マイクロフォンを含むANCシステム(例えば、フィードバックANCシステム)として装置A100を実装することが望ましいことがある。図12に、装置A100のそのような実装形態A210のブロック図を示す。装置A210は、音響誤差信号を受信し、第1の誤差マイクロフォン信号MS40を生成するために、ユーザの左耳に装着されるように構成された左誤差マイクロフォンMLE10と、音響誤差信号を受信し、第2の誤差マイクロフォン信号MS50を生成するためにユーザの右耳に装着されるように構成された右誤差マイクロフォンMLE10とを含む。装置A210はまた、第1の誤差信号ES10及び第2の誤差信号ES20のうちの対応する1つを生成するために、マイクロフォン信号MS40及びMS50の各々に対して本明細書で説明する1つ以上の前処理演算(例えば、アナログ前処理、アナログデジタル変換)を実行するように構成されたオーディオ前処理段AP12の(例えば、AP22の)実装形態AP32を含む。
装置A210は、第1のマイクロフォン信号MS10からの、及び第1の誤差マイクロフォン信号MS40からの情報に基づいてアンチノイズ信号AN10を生成するように構成されたANCフィルタNCL10の実装形態NCL12を含む。装置A210はまた、第2のマイクロフォン信号MS20からの、及び第2の誤差マイクロフォン信号MS50からの情報に基づいてアンチノイズ信号AN20を生成するように構成されたANCフィルタNCR10の実装形態NCR12を含む。装置A210はまた、ユーザの左耳に装着され、アンチノイズ信号AN10に基づいて音響信号を生成するように構成された左ラウドスピーカLLS10と、ユーザの右耳に装着され、アンチノイズ信号AN20に基づいて音響信号を生成するように構成された右ラウドスピーカRLS10と含む。
誤差マイクロフォンMLE10、MRE10の各々が、対応するラウドスピーカLLS10、RLS10によって生成された音場内に配設されることが望ましいことがある。例えば、誤差マイクロフォンは、ヘッドフォンのイヤカップ又はイヤホンの、鼓膜向き部分内にラウドスピーカとともに配設されることが望ましいことがある。誤差マイクロフォンMLE10、MRE10の各々が、対応する雑音基準マイクロフォンML10、MR10よりもユーザの耳道の近くに配置されることが望ましいことがある。誤差マイクロフォンはまた、環境雑音から遮音されることが望ましいことがある。図7Cに、左誤差マイクロフォンMLE10を含んでいるイヤホンEB10の実装形態EB12の正面図を示す。図11Bに、(例えば、イヤカップハウジング中の音響ポートを介して)誤差信号を受信するように配置された右誤差マイクロフォンMRE10を含んでいるイヤカップEC10の実装形態EC20の断面図を示す。イヤホン又はイヤカップの構造によって、ラウドスピーカLLS10、RLS10から機械振動を受けることから、対応するマイクロフォンMLE10、MRE10を防振することが望ましいことがある。
図11Cに、ボイスマイクロフォンMC10をも含むイヤカップEC20の実装形態EC30の(例えば、水平面又は垂直面における)断面図を示す。イヤカップEC10の他の実装形態では、イヤカップEC10の左又は右のインスタンスから延びるブーム又は他の突出部上にマイクロフォンMC10が取り付けられ得る。
本明細書で説明する装置A100の実装形態は、装置A110、A120、A130、A140、A200、及び/又はA210の機能を組み合わせた実装形態を含む。例えば、装置A100は、本明細書で説明する装置A110、A120、及びA130のうちの任意の2つ以上の機能を含むように実装され得る。そのような組合せはまた、本明細書で説明する装置A150、又は本明細書で説明するA140、A160、及び/又はA170の機能、並びに/若しくは本明細書で説明する装置A200又はA210の機能を含むように実装され得る。そのような各組合せは、明確に企図され、本明細書によって開示される。ユーザが雑音基準マイクロフォンML10を装着しないことを選定した場合、又はユーザの耳からマイクロフォンML10が外れた場合でも、装置A130、A140、及びA150などの実装形態は、第3のオーディオ信号AS30に基づいて音声信号に雑音抑圧を行い続け得ることにも留意されたい。第1のオーディオ信号AS10とマイクロフォンML10との間の本明細書における関連付け、及び第2のオーディオ信号AS20とマイクロフォンMR10との間の本明細書における関連付けが便宜上のものにすぎないことと、第1のオーディオ信号AS10が代わりにマイクロフォンMR10に関連付けられ、第2のオーディオ信号AS20が代わりにマイクロフォンMR10に関連付けられる、全てのそのようなケースも企図され、開示されることとにさらに留意されたい。
本明細書で説明する装置A100の実装形態の処理要素(即ち、トランスデューサでない要素)は、ハードウェアで、及び/又はハードウェアとソフトウェア並びに/若しくはファームウェアとの組合せにおいて実装され得る。例えば、これらの処理要素のうちの1つ又は複数(場合によっては全て)は、音声信号SS10に対して1つ以上の他の演算(例えば、ボコーディング)を実行するようにも構成されたプロセッサ上に実装され得る。
マイクロフォン信号(例えば、信号MS10、MS20、MS30)は、電話ハンドセット(例えば、セルラー電話ハンドセット)又はスマートフォン、ワイヤード又はワイヤレスヘッドセット(例えば、Bluetooth(登録商標)ヘッドセット)、ハンドヘルドオーディオ及び/又はビデオレコーダ、オーディオ及び/又はビデオコンテンツを記録するように構成されたパーソナルメディアプレーヤ、携帯情報端末(PDA)又は他のハンドヘルドコンピューティング機器、並びにノートブックコンピュータ、ラップトップコンピュータ、ネットブックコンピュータ、タブレットコンピュータ、又は他のポータブルコンピューティング機器など、オーディオ記録及び/又はボイス通信アプリケーションのためのポータブルオーディオ感知機器中にある処理チップにルーティングされ得る。
ポータブルコンピューティング機器の種類は現在、ラップトップコンピュータ、ノートブックコンピュータ、ネットブックコンピュータ、ウルトラポータブルコンピュータ、タブレットコンピュータ、モバイルインターネット機器、スマートブック、又はスマートフォンなどの名称を有する機器を含む。そのような機器の1つのタイプは、上記で説明したようにスレート構成又はスラブ構成を有し(例えば、iPad(登録商標)(Apple、Inc.、Cupertino、CA)、Slate(Hewlett-Packard Co.、Palo Alto、CA)、又はStreak(Dell Inc.、Round Rock、TX)など、上面にタッチスクリーンディスプレイを含むタブレットコンピュータ)、スライドアウト式キーボードを含むこともある。そのような機器の別のタイプは、ディスプレイスクリーンを含む上部パネルと、キーボードを含み得る下部パネルとを有し、2つのパネルは、クラムシェル又は他のヒンジ結合関係で接続され得る。
本明細書で説明する装置A100の実装形態内で使用され得るポータブルオーディオ感知機器の他の例には、iPhone(Apple Inc.、Cupertino、CA)、HD2(HTC、Taiwan、ROC)又はCLIQ(Motorola, Inc.、Schaumberg、IL)などの電話ハンドセットのタッチスクリーン実装形態がある。
図13Aに、装置A100の実装形態を含む通信機器D20のブロック図を示す。(本明細書で説明するポータブルオーディオ感知機器の任意のインスタンスを含むように実装され得る)機器D20は、チップ又は装置A100の処理要素(例えば、オーディオ前処理段AP10、ボイスアクティビティ検出器VAD10、音声推定器SE10)を組み込むチップセットCS10(例えば、移動局モデム(MSM)チップセット)を含む。チップ/チップセットCS10は、装置A100のソフトウェア及び/又はファームウェア部を(例えば、命令として)実行するように構成され得る1つ以上のプロセッサを含み得る。
チップ/チップセットCS10は、無線周波(RF)通信信号を受信し、RF信号内で符号化されたオーディオ信号を復号し再生するように構成された、受信機と、音声信号SS10に基づいているオーディオ信号を符号化し、符号化オーディオ信号を記述しているRF通信信号を送信するように構成された、送信機とを含み得る。そのような機器は、1つ以上の(「コーデック」とも呼ばれる)符号化及び復号方式を介してボイス通信データをワイヤレスに送信及び受信するように構成され得る。そのようなコーデックの例には、「Enhanced Variable Rate Codec, Speech Service Options 3, 68, and 70 for Wideband Spread Spectrum Digital Systems」と題する第三世代提携プロジェクト(Third Generation Partnership Project)2(3GPP2)文書C.S0014−C、v1.0、2007年2月(www.3gpp.orgでオンライン入手可能)に記載されている拡張可変レートコーデック(Enhanced Variable Rate Codec)「Selectable Mode Vocoder (SMV) Service Option for Wideband Spread Spectrum Communication Systems」と題する3GPP2文書C.S0030−0、v3.0、2004年1月(www.3gpp.orgでオンライン入手可能)に記載されている選択可能モードボコーダ音声コーデック(Selectable Mode Vocoder speech codec)、文書ETSI TS 126 092 V6.0.0(欧州電気通信標準化機構(European Telecommunications Standards Institute(ETSI))、Sophia Antipolis Cedex、FR、2004年12月)に記載されている適応マルチレート(Adaptive Multi Rate)(AMR)音声コーデック、及び文書ETSI TS 126 192 V6.0.0(ETSI、2004年12月)に記載されているAMR広帯域音声コーデックがある。
機器D20は、アンテナC30を介してRF通信信号を受信及び送信するように構成される。機器D20はまた、アンテナC30への経路中にダイプレクサと1つ以上のパワー増幅器とを含むことができる。また、チップ/チップセットCS10は、キーパッドC10を介してユーザ入力を受信し、ディスプレイC20を介して情報を表示するように構成される。この例では、機器D20はまた、全地球測位システム(Global Positioning System)(GPS)ロケーションサービス及び/又は無線(例えば、Bluetooth))ヘッドセットなどの外部機器との短距離通信をサポートする1つ以上のアンテナC40を含む。別の例では、そのような通信機器は、それ自体でBluetoothヘッドセットであり、キーパッドC10、ディスプレイC20、及びアンテナC30がない。
図14A〜図14Dに、機器D20内に含まれ得るヘッドセットD100の様々なビューを示す。機器D100は、マイクロフォンML10(又はMR10)及びMC10を担持するハウジングZ10と、ハウジングから延びて、ユーザの耳道への音響信号を生成するために配設されたラウドスピーカ(例えば、ラウドスピーカLLS10又はRLS10)を囲むイヤフォンZ20とを含む。そのような機器は、セルラー電話ハンドセット(例えば、スマートフォン)などの電話機器とのワイヤード(例えば、コードCD10を介した)又はワイヤレス(例えば、Bluetooth Special Interest Group, Inc.、Bellevue、WAによって公表されたBluetoothプロトコルのバージョンを使用した)通信を介して半二重又は全二重電話をサポートするように構成され得る。概して、ヘッドセットのハウジングは、図14A、図14B、及び図14Dに示すように矩形又はさもなければ細長い形(例えば、ミニブームのような形)であるか、或いはより丸い形、さらには円形であり得る。ハウジングはまた、バッテリー及びプロセッサ及び/又は他の処理回路(例えば、プリント回路板及びその上に取り付けられた構成要素)を封入し得、電気的ポート(例えば、ミニユニバーサルシリアルバス(USB)又はバッテリー充電用の他のポート)と、1つ以上のボタンスイッチ及び/又はLEDなどのユーザインターフェース機能とを含み得る。一般に、ハウジングの長軸に沿った長さは1インチから3インチまでの範囲内にある。
図15に、使用中にユーザの右耳に装着される機器D100の例の平面図を示す。この図はまた、機器D20内にも含まれ得る、ユーザの左耳に装着されて使用されるヘッドセットD110のインスタンスを示している。雑音基準マイクロフォンML10を支持し、ボイスマイクロフォンがないことがある機器D110は、有線及び/又は無線リンクを介してヘッドセットD100と、及び/又は機器D20内の別のポータブルオーディオ感知機器と通信するように構成され得る。
ヘッドセットは、イヤフックZ30などの固定機器をも含み得、これは一般にヘッドセットから着脱可能である。外部イヤフックは、例えば、ユーザがヘッドセットをいずれの耳でも使用するように構成することを可能にするために、可逆的であり得る。代替的に、ヘッドセットのイヤホンは、内部固定機器(例えば、イヤプラグ)として設計され得、この内部固定機器は、特定のユーザの耳道の外側部分により良く合うように、異なるユーザが異なるサイズ(例えば、直径)のイヤピースを使用できるようにするための着脱可能イヤピースを含み得る。
一般に、機器D100の各マイクロフォンは、機器内に、音響ポートとして働く、ハウジング中の1つ以上の小さい穴の背後に取り付けられる。図14B〜図14Dに、ボイスマイクロフォンMC10のための音響ポートZ40のロケーションと雑音基準マイクロフォンML10(又はMR10)のための音響ポートZ50のロケーションとを示す。図13B及び図13Cに、雑音基準マイクロフォンML10、MR10、及び誤差マイクロフォンME10のための追加の候補ロケーションを示す。
図16A〜図16Eに、本明細書で説明する装置A100の実装形態内で使用され得る機器の追加の例を示す。図16Aは、テンプルに取り付けられた雑音基準ペアの各マイクロフォンML10、MR10と、テンプル又は対応する端部に取り付けられたボイスマイクロフォンMC10とを有する眼鏡(例えば、度付き眼鏡、サングラス、又は安全眼鏡)を示している。図16Bは、ボイスマイクロフォンMC10がユーザの口の位置に取り付けられ、雑音基準ペアの各マイクロフォンML10、MR10がユーザの頭部の対応する側に取り付けられたヘルメットを示している。図16C〜図16Eは、雑音基準ペアの各マイクロフォンML10、MR10がユーザの頭部の対応する側に取り付けられたゴーグル(例えば、スキー用ゴーグル)の例を示しており、これらの例の各々は、ボイスマイクロフォンMC10の異なる対応するロケーションを示している。本明細書で説明する装置A100の実装形態内で使用され得るポータブルオーディオ感知機器の使用中のボイスマイクロフォンMC10の配置の追加の例には、限定はしないが、キャップ又はハットのバイザー又は縁、ラペル、胸ポケット、又は肩がある。
本明細書で開示するシステム、方法、及び装置の適用範囲は、限定はしないが、本明細書で開示する、及び/又は図2A〜3B、図7B、図7C、図8B、図9B、図11A〜図11C、及び図13B〜図16Eに示す特定の例を含むことが明確に開示される。本明細書で説明する装置A100の実装形態内で使用され得るポータブルコンピューティング機器のさらなる一例は、ハンズフリーカーキットである。そのような機器は、車両のダッシュボード、風防、バックミラー、バイザー、又は別の室内表面の中若しくは上に設置されるか、又はそれらに着脱自在に固定されるように構成され得る。そのような機器は、上記の例などの1つ以上のコーデックを介してボイス通信データをワイヤレスに送信及び受信するように構成され得る。代替又は追加として、そのような機器は、(例えば、上記で説明したようにBluetoothプロトコルの一バージョンを使用して)セルラー電話ハンドセットなどの電話機器との通信を介した半二重又は全二重テレフォニーをサポートするように構成され得る。
図17Aに、タスクT100とT200とを含む一般的構成による方法M100のフローチャートを示す。タスクT100は、(例えば、ボイスアクティビティ検出器VAD10に関して本明細書で説明したように)第1のオーディオ信号と第2のオーディオ信号との間の関係に基づいているボイスアクティビティ検出信号を生成する。第1のオーディオ信号は、ユーザのボイスに応答して、ユーザの頭部の側面に位置する第1のマイクロフォンによって生成された信号に基づいている。第2のオーディオ信号は、ユーザのボイスに応答して、ユーザの頭部の他の側面に位置する第2のマイクロフォンによって生成された信号に基づいている。タスクT200は、(例えば、音声推定器SE10に関して本明細書で説明したように)音声推定値を生成するために、第3のオーディオ信号にボイスアクティビティ検出信号を適用する。第3のオーディオ信号は、ユーザのボイスに応答して、第1のマイクロフォン及び第2のマイクロフォンとは異なる第3のマイクロフォンによって生成された信号に基づき、第3のマイクロフォンは、第1のマイクロフォン及び第2のマイクロフォンのいずれよりもユーザのボイスの中央出口点に近い、ユーザの頭部の前頭面にある。
図17Bに、タスクT100の実装形態T110を含む方法M100の実装形態M110のフローチャートを示す。タスクT110は、(例えば、ボイスアクティビティ検出器VAD12に関して本明細書で説明したように)第1のオーディオ信号と第2のオーディオ信号との間の関係に基づいて、また第3のオーディオ信号からの情報に基づいてVAD信号を生成する。
図17Cに、タスクT200の実装形態T210を含む方法M100の実装形態M120のフローチャートを示す。タスクT210は、雑音推定値を生成するために、第3のオーディオ信号に基づいている信号にVAD信号を適用するように構成され、(例えば、音声推定器SE30に関して本明細書で説明したように)音声信号は雑音推定値に基づいている。
図17Dに、タスクT400とタスクT100の実装形態T120とを含む方法M100の実装形態M130のフローチャートを示す。タスクT400は、(例えば、第2のボイスアクティビティ検出器VAD20に関して本明細書で説明したように)第1のオーディオ信号と第3のオーディオ信号との間の関係に基づいて第2のVAD信号を生成する。タスクT120は、(例えば、ボイスアクティビティ検出器VAD16に関して本明細書で説明したように)第1のオーディオ信号と第2のオーディオ信号との間の関係と、第2のVAD信号とに基づいてVAD信号を生成する。
図18Aに、タスクT500とタスクT200の実装形態T220とを含む方法M100の実装形態M140のフローチャートを示す。タスクT500は、(例えば、SSPフィルタSSP10に関して本明細書で説明したように)フィルタ処理された信号を生成するために、第2のオーディオ信号と第3のオーディオ信号とに対してSSP演算を実行する。タスクT220は、音声信号を生成するために、フィルタ処理された信号にVAD信号を適用する。
図18Bに、タスクT500の実装形態T510とタスクT200の実装形態T230とを含む方法M100の実装形態M150のフローチャートを示す。タスクT510は、(例えば、SSPフィルタSSP12に関して本明細書で説明したように)フィルタ処理された信号とフィルタ処理された雑音信号とを生成するために、第2のオーディオ信号と第3のオーディオ信号とに対してSSP演算を実行する。タスクT230は、(例えば、音声推定器SE50に関して本明細書で説明したように)音声信号を生成するために、フィルタ処理された信号とフィルタ処理された雑音信号とにVAD信号を適用する。
図18Cに、タスクT600を含む方法M100の実装形態M200のフローチャートを示す。タスクT600は、(例えば、ANCフィルタNCL10に関して本明細書で説明したように)第1のアンチノイズ信号を生成するために、第1のマイクロフォンによって生成された信号に基づいている信号に対してANC演算を実行する。
図19Aに、一般的構成による装置MF100のブロック図を示す。装置MF100は、(例えば、ボイスアクティビティ検出器VAD10に関して本明細書で説明したように)第1のオーディオ信号と第2のオーディオ信号との間の関係に基づいているボイスアクティビティ検出信号を生成するための手段F100を含む。第1のオーディオ信号は、ユーザのボイスに応答して、ユーザの頭部の側面に位置する第1のマイクロフォンによって生成された信号に基づいている。第2のオーディオ信号は、ユーザのボイスに応答して、ユーザの頭部の他の側面に位置する第2のマイクロフォンによって生成された信号に基づいている。装置MF200はまた、(例えば、音声推定器SE10に関して本明細書で説明したように)音声推定値を生成するために、第3のオーディオ信号にボイスアクティビティ検出信号を適用するための手段F200を含む。第3のオーディオ信号は、ユーザのボイスに応答して、第1のマイクロフォン及び第2のマイクロフォンとは異なる第3のマイクロフォンによって生成された信号に基づき、第3のマイクロフォンは、ユーザのボイスの中央出口点に第1のマイクロフォン及び第2のマイクロフォンのいずれよりも近い、ユーザの頭部の前頭面にある。
図19Bに、(例えば、SSPフィルタSSP10に関して本明細書で説明したように)フィルタ処理された信号を生成するために、第2のオーディオ信号と第3のオーディオ信号とに対してSSP演算を実行するための手段F500を含む装置MF100の実装形態MF140のブロック図を示す。装置MF140はまた、音声信号を生成するために、フィルタ処理された信号にVAD信号を適用するように構成された手段F200の実装形態F220を含む。
図19Cに、(例えば、ANCフィルタNCL10に関して本明細書で説明したように)第1のアンチノイズ信号を生成するために、第1のマイクロフォンによって生成された信号に基づいている信号に対してANC演算を実行するための手段F600を含む装置MF100の実装形態MF200のブロック図を示す。
本明細書で開示する方法及び装置は、概して任意の送受信及び/又はオーディオ感知適用例、特にそのような適用例のモバイル又は場合によってはポータブルインスタンスにおいて適用され得る。例えば、本明細書で開示する構成の範囲は、符号分割多元接続(CDMA)無線インターフェースを採用するように構成されたワイヤレステレフォニー通信システム中に常駐する通信機器を含む。とはいえ、本明細書で説明する特徴を有する方法及び装置は、有線及び/又は無線(例えば、CDMA、TDMA、FDMA、及び/又はTD−SCDMA)送信チャネルを介したボイスオーバIP(VoIP)を採用するシステムなど、当業者に知られている広範囲の技術を採用する様々な通信システムのいずれにも常駐し得ることが、当業者には理解されよう。
本明細書で開示する通信機器は、パケット交換式であるネットワーク(例えば、VoIPなどのプロトコルに従ってオーディオ送信を搬送するように構成された有線及び/又は無線ネットワーク)及び/又は回線交換式であるネットワークにおける使用に適応させられ得ることが明確に企図され、本明細書によって開示される。また、本明細書で開示する通信機器は、狭帯域符号化システム(例えば、約4又は5キロヘルツの可聴周波数レンジを符号化するシステム)での使用、及び/又は全帯域広帯域符号化グシステム及びスプリットバンド広帯域符号化システムを含む、広帯域符号化システム(例えば、5キロヘルツを超える可聴周波数を符号化するシステム)での使用に適応させられ得ることが明確に企図され、本明細書によって開示される。
説明した構成の上記の提示は、本明細書で開示する方法及び他の構造を当業者が製造又は使用できるように与えたものである。本明細書で図示及び説明するフローチャート、ブロック図、及び他の構造は例にすぎず、これらの構造の他の変形態も本開示の範囲内である。これらの構成に対する様々な変更が可能であり、本明細書で提示した一般原理は他の構成にも同様に適用され得る。従って、本開示は、上記に示した構成に限定されるものではなく、原開示の一部をなす、出願した添付の特許請求の範囲を含む、本明細書において任意の方法で開示した原理及び新規の特徴に一致する最も広い範囲が与えられるべきである。
情報及び信号は、多種多様な技術及び技法のいずれかを使用して表され得ることを当業者ならば理解されよう。例えば、上記の説明全体にわたって言及され得るデータ、命令、コマンド、情報、信号、ビット、及びシンボルは、電圧、電流、電磁波、磁界又は磁性粒子、光場又は光学粒子、或いはそれらの任意の組合せによって表され得る。
本明細書で開示する構成の実装形態の重要な設計要件は、8キロヘルツよりも高いサンプリングレート(例えば、12、16、44.1、48、又は192kHz)におけるボイス通信の適用例などの計算集約的適用例では特に、(一般に百万命令毎秒又はMIPSで測定される)処理遅延及び/又は計算複雑さを最小にすることを含み得る。
本明細書で説明するマルチマイクロフォン処理システムの目的は、全体で10〜12dBの雑音低減を達成すること、所望の話者の移動中にボイスレベル及びカラーを保持すること、アグレッシブな雑音除去、音声の残響除去の代わりに雑音が背景に移動されたという知覚を取得すること、及び/又はよりアグレッシブな雑音低減のための後処理(例えば、スペクトル減算又はウィーナーフィルタ処理など、雑音推定値に基づいているスペクトルマスキング及び/又は別のスペクトル修正演算)のオプションを可能にすることを含み得る。
本明細書で開示する装置(例えば、装置A100、A110、A120、A130、A140、A150、A160、A170、A200、A210、MF100、MF104、及びMF200)の実装形態の様々な処理要素は、意図された適用例に好適であると考えられる、任意のハードウェア構造、或いはハードウェアとソフトウェア及び/又はファームウェアとの任意の組合せで実施され得る。例えば、そのような要素は、例えば同じチップ上に、又はチップセット中の2つ以上のチップ間に常駐する電子機器及び/又は光機器として作製され得る。そのような機器の一例は、トランジスタ又は論理ゲートなどの論理要素の固定アレイ又はプログラマブルアレイであり、これらの要素のいずれも1つ以上のそのようなアレイとして実装され得る。これらの要素のうちの任意の2つ以上、さらには全てが、同じ1つ以上のアレイ内に実装され得る。そのような1つ以上のアレイは、1つ以上のチップ内(例えば、2つ以上のチップを含むチップセット内)に実装され得る。
本明細書で開示する装置(例えば、装置A100、A110、A120、A130、A140、A150、A160、A170、A200、A210、MF100、MF140、及びMF200)の様々な実装形態の1つ以上の処理要素は、一部が、マイクロプロセッサ、組込みプロセッサ、IPコア、デジタル信号プロセッサ、FPGA(フィールドプログラマブルゲートアレイ)、ASSP(特定用途向け標準製品)、及びASIC(特定用途向け集積回路)などの論理要素の1つ以上の固定アレイ又はプログラマブルアレイ上で実行するように構成された命令の1つ以上のセットとしても実装され得る。本明細書で開示する装置の実装形態の様々な要素のいずれも、1つ以上のコンピュータ(例えば、「プロセッサ」とも呼ばれる、命令の1つ以上のセット又はシーケンスを実行するようにプログラムされた1つ以上のアレイを含む機械)としても実施され得、これらの要素のうちの任意の2つ以上、さらには全てが、同じそのような1つ以上のコンピュータ内に実装され得る。
本明細書で開示するプロセッサ又は処理するための他の手段は、例えば同じチップ上に、又はチップセット中の2つ以上のチップ間に常駐する1つ以上の電子機器及び/又は光機器として作製され得る。そのような機器の一例は、トランジスタ又は論理ゲートなどの論理要素の固定アレイ又はプログラマブルアレイであり、これらの要素のいずれも1つ以上のそのようなアレイとして実装され得る。そのような1つ以上のアレイは、1つ以上のチップ内(例えば、2つ以上のチップを含むチップセット内)に実装され得る。そのようなアレイの例には、マイクロプロセッサ、組込みプロセッサ、IPコア、DSP、FPGA、ASSP、及びASICなどの論理要素の固定アレイ又はプログラマブルアレイがある。本明細書で開示するプロセッサ又は処理するための他の手段は、1つ以上のコンピュータ(例えば、命令の1つ以上のセット又はシーケンスを実行するようにプログラムされた1つ以上のアレイを含む機械)或いは他のプロセッサとしても実施され得る。本明細書で説明したプロセッサは、プロセッサが組み込まれている機器又はシステム(例えば、オーディオ感知機器)の別の演算に関係するタスクなど、方法M100の実装形態のプロシージャに直接関係しないタスクを実行するか又は命令の他のセットを実行するために使用することが可能である。また、本明細書で開示する方法の一部はオーディオ感知機器のプロセッサによって実行され(例えば、テスクT200)、その方法の別の一部は1つ以上の他のプロセッサの制御下で実行される(例えば、テスクT600)ことが可能である。
本明細書で開示する構成に関して説明する様々な例示的なモジュール、論理ブロック、回路、及びテスト並びに他の動作は、電子ハードウェア、コンピュータソフトウェア、又は両方の組合せとして実装され得ることを、当業者なら理解されよう。そのようなモジュール、論理ブロック、回路、及び動作は、本明細書で開示する構成を生成するように設計された、汎用プロセッサ、デジタル信号プロセッサ(DSP)、ASIC又はASSP、FPGA又は他のプログラマブル論理機器、個別ゲート又はトランジスタロジック、個別ハードウェア構成要素、或いはそれらの任意の組合せを用いて実装又は実行され得る。例えば、そのような構成は、少なくとも部分的に、ハードワイヤード回路として、特定用途向け集積回路へと作製された回路構成として、或いは不揮発性記憶装置にロードされるファームウェアプログラム、又は汎用プロセッサ若しくは他のデジタル信号処理ユニットなどの論理要素のアレイによって実行可能な命令である機械可読コードとしてデータ記憶媒体からロードされる若しくはデータ記憶媒体にロードされるソフトウェアプログラムとして実装され得る。汎用プロセッサはマイクロプロセッサであり得るが、代替として、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、又は状態機械であり得る。プロセッサはまた、コンピューティング機器の組合せ、例えば、DSPとマイクロプロセッサとの組合せ、複数のマイクロプロセッサ、DSPコアと連携する1つ以上のマイクロプロセッサ、或いは任意の他のそのような構成として実装され得る。ソフトウェアモジュールは、RAM(ランダムアクセスメモリ)、ROM(読取り専用メモリ)、フラッシュRAMなどの不揮発性RAM(NVRAM)、消去可能プログラマブルROM(EPROM)、電気的消去可能プログラマブルROM(EEPROM)、レジスタ、ハードディスク、リムーバブルディスク、又はCD−ROMなど、非一時的記憶媒体中に、或いは当技術分野で知られている任意の他の形態の記憶媒体中に常駐し得る。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるように、プロセッサに結合される。代替として、記憶媒体はプロセッサに一体化され得る。プロセッサ及び記憶媒体はASIC中に常駐し得る。ASICはユーザ端末中に常駐し得る。代替として、プロセッサ及び記憶媒体は、ユーザ端末中に個別構成要素として常駐し得る。
本明細書で開示する様々な方法(例えば、方法M100、M110、M120、M130、M140、M150、及びM200)は、プロセッサなどの論理要素のアレイによって実行され得、本明細書で説明する装置の様々な要素は、そのようなアレイ上で実行するように設計されたモジュールとして実装され得ることに留意されたい。本明細書で使用する「モジュール」又は「サブモジュール」という用語は、ソフトウェア、ハードウェア又はファームウェアの形態でコンピュータ命令(例えば、論理式)を含む任意の方法、装置、機器、ユニット又はコンピュータ可読データ記憶媒体を指すことができる。複数のモジュール又はシステムを1つのモジュール又はシステムに結合することができ、1つのモジュール又はシステムを、同じ機能を実行する複数のモジュール又はシステムに分離することができることを理解されたい。ソフトウェア又は他のコンピュータ実行可能命令で実装した場合、プロセスの要素は本質的に、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを用いて関連するタスクを実行するコードセグメントである。「ソフトウェア」という用語は、ソースコード、アセンブリ言語コード、機械コード、バイナリコード、ファームウェア、マクロコード、マイクロコード、論理要素のアレイによって実行可能な命令の1つ以上のセット又はシーケンス、及びそのような例の任意の組合せを含むことを理解されたい。プログラム又はコードセグメントは、プロセッサ可読記憶媒体に記憶され得、或いは搬送波に埋め込まれたコンピュータデータ信号によって伝送媒体又は通信リンクを介して送信され得る。
本明細書で開示する方法、方式、及び技法の実装形態は、(例えば、本明細書に記載する1つ以上のコンピュータ可読記憶媒体の有形のコンピュータ可読特徴において)論理要素のアレイ(例えば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、又は他の有限状態機械)を含む機械によって実行可能な命令の1つ以上のセットとしても有形に実施され得る。「コンピュータ可読媒体」という用語は、情報を記憶又は転送することができる、揮発性、不揮発性、取外し可能及び取外し不可能な記憶媒体を含む、任意の媒体を含み得る。コンピュータ可読媒体の例は、電子回路、半導体メモリ機器、ROM、フラッシュメモリ、消去可能ROM(EROM)、フロッピー(登録商標)ディスケット又は他の磁気ストレージ、CD−ROM/DVD又は他の光ストレージ、ハードディスク、光ファイバー媒体、無線周波(RF)リンク、或いは所望の情報を記憶するために使用され得、アクセスされ得る、任意の他の媒体を含む。コンピュータデータ信号は、電子ネットワークチャネル、光ファイバー、エアリンク、電磁リンク、RFリンクなどの伝送媒体を介して伝播することができるどんな信号をも含み得る。コードセグメントは、インターネット又はイントラネットなどのコンピュータネットワークを介してダウンロードされ得る。いずれの場合も、本開示の範囲は、そのような実施形態によって限定されると解釈すべきではない。
本明細書で説明する方法のタスクの各々は、ハードウェアで直接実施され得るか、プロセッサによって実行されるソフトウェアモジュールで実施され得るか、又はその2つの組合せで実施され得る。本明細書で開示する方法の実装形態の典型的な適用例では、論理要素のアレイ(例えば、論理ゲート)は、この方法の様々なタスクのうちの1つ、複数、さらには全てを実行するように構成される。タスクのうちの1つ又は複数(場合によっては全て)は、論理要素のアレイ(例えば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、又は他の有限状態機械)を含む機械(例えば、コンピュータ)によって読取り可能及び/又は実行可能であるコンピュータプログラム製品(例えば、ディスク、フラッシュ又は他の不揮発性メモリカード、半導体メモリチップなど、1つ以上のデータ記憶媒体など)に埋め込まれたコード(例えば、命令の1つ以上のセット)としても実装され得る。本明細書で開示する方法の実装形態のタスクは、2つ以上のそのようなアレイ又は機械によっても実行され得る。これらの又は他の実装形態では、タスクは、セルラー電話など、ワイヤレス通信用の機器、又はそのような通信機能をもつ他の機器内で実行され得る。そのような機器は、(VoIPなどの1つ以上のプロトコルを使用して)回線交換及び/又はパケット交換ネットワークと通信するように構成され得る。例えば、そのような機器は、符号化フレームを受信及び/又は送信するように構成されたRF回路を含み得る。
本明細書で開示する様々な方法は、ポータブル通信機器(例えば、ハンドセット、ヘッドセット、又は携帯情報端末(PDA))によって実行され得ること、及び本明細書で説明する様々な装置は、そのような機器に含まれ得ることが明確に開示される。典型的なリアルタイム(例えば、オンライン)適用例は、そのようなモバイル機器を使用して行われる電話会話である。
1つ以上の例示的な実施形態では、本明細書で説明する動作は、ハードウェア、ソフトウェア、ファームウェア、又はそれらの任意の組合せで実装され得る。ソフトウェアで実装した場合、そのような動作は、1つ以上の命令又はコードとしてコンピュータ可読媒体に記憶され得るか、或いはコンピュータ可読媒体を介して送信され得る。「コンピュータ可読媒体」という用語は、コンピュータ可読記憶媒体と通信(例えば、伝送)媒体の両方を含む。限定ではなく、例として、コンピュータ可読記憶媒体は、(限定はしないが、ダイナミック又はスタティックRAM、ROM、EEPROM、及び/又はフラッシュRAMを含み得る)半導体メモリ、又は強誘電体メモリ、磁気抵抗メモリ、オボニックメモリ、高分子メモリ、又は相変化メモリなどの記憶要素のアレイ、CD−ROM又は他の光ディスクストレージ、並びに/或いは磁気ディスクストレージ又は他の磁気ストレージ機器を備えることができる。そのような記憶媒体は、コンピュータによってアクセスされ得る命令又はデータ構造の形態で情報を記憶し得る。通信媒体は、ある場所から別の場所へのコンピュータプログラムの転送を可能にする任意の媒体を含む、命令又はデータ構造の形態の所望でプログラムコードを搬送するために使用され得、コンピュータによってアクセスされ得る任意の媒体を備えることができる。また、いかなる接続もコンピュータ可読媒体と適切に呼ばれる。例えば、ソフトウェアが、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線(DSL)、又は赤外線、無線、及び/又はマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、又は他のリモートソースから送信される場合、同軸ケーブル、光ファイバーケーブル、ツイストペア、DSL、又は赤外線、無線、及び/又はマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。本明細書で使用するディスク(disk)及びディスク(disc)は、コンパクトディスク(disc)(CD)、レーザディスク(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピーディスク(disk)及びブルーレイディスク(登録商標)(Blu-Ray Disc Association、Universal City、CA)を含み、ディスク(disk)は、通常、データを磁気的に再生し、ディスク(disc)はデータをレーザで光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲内に含めるべきである。
本明細書で説明する音響信号処理装置は、いくつかの動作を制御するために音声入力を受容し、或いは背景雑音から所望の雑音を分離することから利益を得ることがある、通信機器などの電子機器に組み込まれ得る。多くの適用例では、複数の方向発の背景音から明瞭な所望の音を強調又は分離することから利益を得ることがある。そのような適用例では、ボイス認識及び検出、音声強調及び分離、ボイスアクティブ化制御などの機能を組み込んだ電子機器又はコンピューティング機器におけるヒューマンマシンインターフェースを含み得る。限定された処理機能のみを与える機器に適したそのような音響信号処理装置を実装することが望ましいことがある。
本明細書で説明するモジュール、要素、及び機器の様々な実装形態の要素は、例えば、同じチップ上に又はチップセット中の2つ以上のチップ間に常駐する電子機器及び/又は光機器として作製され得る。そのような機器の一例は、トランジスタ又はゲートなど、論理要素の固定アレイ又はプログラマブルアレイである。本明細書で説明する装置の様々な実装形態の1つ以上の要素は、全体又は一部が、マイクロプロセッサ、組込みプロセッサ、IPコア、デジタル信号プロセッサ、FPGA、ASSP、及びASICなど、論理要素の1つ以上の固定アレイ又はプログラマブルアレイ上で実行するように構成された命令の1つ以上のセットとしても実装され得る。
本明細書で説明する装置の実装形態の1つ以上の要素は、装置が組み込まれている機器又はシステムの別の動作に関係するタスクなど、装置の動作に直接関係しないタスクを実施するために、又は装置の動作に直接関係しない命令の他のセットを実行するために、使用することが可能である。また、そのような装置の実装形態の1つ以上の要素は、共通の構造(例えば、異なる要素に対応するコードの部分を異なる時間に実行するために使用されるプロセッサ、異なる要素に対応するタスクを異なる時間に実施するために実行される命令のセット、或いは、異なる要素向けの動作を異なる時間に実施する電子機器及び/又は光機器の構成)を有することが可能である。
本明細書で説明する装置の実装形態の1つ以上の要素は、装置が組み込まれている機器又はシステムの別の動作に関係するタスクなど、装置の動作に直接関係しないタスクを実施するために、又は装置の動作に直接関係しない命令の他のセットを実行するために、使用することが可能である。また、そのような装置の実装形態の1つ以上の要素は、共通の構造(例えば、異なる要素に対応するコードの部分を異なる時間に実行するために使用されるプロセッサ、異なる要素に対応するタスクを異なる時間に実施するために実行される命令のセット、或いは、異なる要素向けの動作を異なる時間に実施する電子機器及び/又は光機器の構成)を有することが可能である。
以下に本件出願当初の特許請求の範囲に記載された発明を付記する。
[1] 信号処理の方法であって、第1のオーディオ信号と第2のオーディオ信号との間の関係に基づいているボイスアクティビティ検出信号を生成することと、音声信号を生成するために、第3のオーディオ信号に基づいている信号に前記ボイスアクティビティ検出信号を適用することとを備え、前記第1のオーディオ信号が、(A)ユーザの頭部の側面に位置する第1のマイクロフォンによって、(B)前記ユーザのボイスに応答して生成された信号に基づき、前記第2のオーディオ信号が、前記ユーザの前記ボイスに応答して、前記ユーザの頭部の前記他の側面に位置する第2のマイクロフォンによって生成された信号に基づき、前記第3のオーディオ信号が、前記ユーザの前記ボイスに応答して、前記第1のマイクロフォン及び前記第2のマイクロフォンとは異なる第3のマイクロフォンによって生成された信号に基づき、前記第3のマイクロフォンが、前記第1のマイクロフォン及び前記第2のマイクロフォンのいずれよりも前記ユーザのボイスの中央出口点に近い、前記ユーザの頭部の前頭面に位置する、方法。
[2] 前記ボイスアクティビティ検出信号を前記適用することが、雑音推定値を生成するために、前記第3のオーディオ信号に基づいている前記信号に前記ボイスアクティビティ検出信号を適用することを備え、前記音声信号が前記雑音推定値に基づいており、[1]に記載の方法。
[3] 前記ボイスアクティビティ検出信号を適用することが、音声推定値を生成するために、前記第3のオーディオ信号に基づいている前記信号に前記ボイスアクティビティ検出信号を適用することと、前記音声信号を生成するために、前記雑音推定値に基づいて、前記音声推定値に対して雑音低減演算を実行することと、を備える、[2]に記載の方法。
[4] 前記方法が、雑音基準を生成するために、(A)前記第1のマイクロフォンによって生成された信号に基づいている信号と、(B)前記第2のマイクロフォンによって生成された信号に基づいている信号との間の差を計算することを備え、前記音声信号が前記雑音基準に基づいており、[1]に記載の方法。
[5] 音声推定値を生成するために、前記第2のオーディオ信号と前記第3のオーディオ信号とに基づいて、空間選択的処理演算を実行することを備え、第3のオーディオ信号に基づいている前記信号が前記音声推定値である、[1]に記載の方法。
[6] 前記ボイスアクティビティ検出信号を生成することが、前記第1のオーディオ信号と前記第2のオーディオ信号との間の相互相関を計算することを備える、[1]に記載の方法。
[7] 前記第2のオーディオ信号と前記第3のオーディオ信号との間の関係に基づいている第2のボイスアクティビティ検出信号を生成することを備え、
前記ボイスアクティビティ検出信号が前記第2のボイスアクティビティ検出信号に基づいている、[1]に記載の方法。
[8] フィルタ処理された信号を生成するために、前記第2のオーディオ信号と前記第3のオーディオ信号とに対して空間選択的処理演算を実行することを備え、第3のオーディオ信号に基づいている前記信号が、前記フィルタ処理された信号である、[1]に記載の方法。
[9] 第1のアンチノイズ信号を生成するために、前記第1のマイクロフォンによって生成された信号に基づいている信号に対して第1のアクティブ雑音消去演算を実行することと、前記第1のアンチノイズ信号に基づいている音響信号を生成するために、前記ユーザの頭部の前記側面に位置するラウドスピーカを駆動することと、を備える、[1]に記載の方法。
[10] 前記アンチノイズ信号が、前記ユーザの頭部の前記側面に位置する誤差マイクロフォンによって生成された音響誤差信号からの情報に基づいている、[9]に記載の方法。
[11] 信号処理のための装置であって、第1のオーディオ信号と第2のオーディオ信号との間の関係に基づいているボイスアクティビティ検出信号を生成するための手段と、音声信号を生成するために、第3のオーディオ信号に基づいている信号に前記ボイスアクティビティ検出信号を適用するための手段と、を備え、前記第1のオーディオ信号が、(A)ユーザの頭部の側面に位置する第1のマイクロフォンによって、(B)前記ユーザのボイスに応答して生成された信号に基づき、前記第2のオーディオ信号が、前記ユーザの前記ボイスに応答して、前記ユーザの頭部の前記他の側面に位置する第2のマイクロフォンによって生成された信号に基づき、前記第3のオーディオ信号が、前記ユーザの前記ボイスに応答して、前記第1のマイクロフォン及び前記第2のマイクロフォンとは異なる第3のマイクロフォンによって生成された信号に基づき、前記第3のマイクロフォンが、前記第1のマイクロフォン及び前記第2のマイクロフォンのいずれよりも前記ユーザのボイスの中央出口点に近い、前記ユーザの頭部の前頭面に位置する、装置。
[12] 前記ボイスアクティビティ検出信号を適用するための前記手段が、雑音推定値を生成するために、前記第3のオーディオ信号に基づいている前記信号に前記ボイスアクティビティ検出信号を適用するように構成され、前記音声信号が前記雑音推定値に基づいている、[11]に記載の装置。
[13] 前記ボイスアクティビティ検出信号を適用するための手段が、音声推定値を生成するために、前記第3のオーディオ信号に基づいている前記信号に前記ボイスアクティビティ検出信号を適用するための手段と、前記音声信号を生成するために、前記雑音推定値に基づいて、前記音声推定値に対して雑音低減演算を実行するための手段と、を備える、[12]に記載の装置。
[14] 雑音基準を生成するために、(A)前記第1のマイクロフォンによって生成された信号に基づいている信号と、(B)前記第2のマイクロフォンによって生成された信号に基づいている信号との間の差を計算するための手段を備え、前記音声信号が前記雑音基準に基づいている、[11]に記載の装置。
[15] 前記装置が、音声推定値を生成するために、前記第2のオーディオ信号と前記第3のオーディオ信号とに基づいて、空間選択的処理演算を実行するための手段を備え、第3のオーディオ信号に基づいている前記信号が前記音声推定値である、[11]に記載の装置。
[16] 前記ボイスアクティビティ検出信号を生成するための手段が、前記第1のオーディオ信号と前記第2のオーディオ信号との間の相互相関を計算するための手段を備える、[11]に記載の装置。
[17] 前記第2のオーディオ信号と前記第3のオーディオ信号との間の関係に基づいている第2のボイスアクティビティ検出信号を生成するための手段を備え、前記ボイスアクティビティ検出信号が前記第2のボイスアクティビティ検出信号に基づいている、[11]に記載の装置。
[18] 前記装置が、フィルタ処理された信号を生成するために、前記第2のオーディオ信号と前記第3のオーディオ信号とに対して空間選択的処理演算を実行するための手段を備え、第3のオーディオ信号に基づいている前記信号が、前記フィルタ処理された信号である、[11]に記載の装置。
[19] 第1のアンチノイズ信号を生成するために、前記第1のマイクロフォンによって生成された信号に基づいている信号に対して第1のアクティブ雑音消去演算を実行するための手段と、前記第1のアンチノイズ信号に基づいている音響信号を生成するために、前記ユーザの頭部の前記側面に位置するラウドスピーカを駆動するための手段と、を備える、[11]に記載の装置。
[20] 前記アンチノイズ信号が、前記ユーザの頭部の前記側面に位置する誤差マイクロフォンによって生成された音響誤差信号からの情報に基づいている、[19]に記載の装置。
[21] 信号処理のための装置であって、前記装置の使用中にユーザの頭部の側面に位置するように構成された第1のマイクロフォンと、前記装置の前記使用中に前記ユーザの頭部の他の側面に位置するように構成された第2のマイクロフォンと、前記装置の前記使用中に、前記第1のマイクロフォン及び前記第2のマイクロフォンのいずれよりも前記ユーザのボイスの中央出口点に近い、前記ユーザの頭部の前頭面にあるように構成された第3のマイクロフォンと、第1のオーディオ信号と第2のオーディオ信号との間の関係に基づいているボイスアクティビティ検出信号を生成するように構成されたボイスアクティビティ検出器と、音声推定値を生成するために、第3のオーディオ信号に基づいている信号に前記ボイスアクティビティ検出信号を適用するように構成された音声推定器とを備え、前記第1のオーディオ信号が、前記ユーザの前記ボイスに応答して、前記装置の前記使用中に前記第1のマイクロフォンによって生成された信号に基づき、前記第2のオーディオ信号が、前記ユーザの前記ボイスに応答して、前記装置の前記使用中に前記第2のマイクロフォンによって生成された信号に基づき、前記第3のオーディオ信号が、前記ユーザの前記ボイスに応答して、前記装置の前記使用中に前記第3のマイクロフォンによって生成された信号に基づいている、装置。
[22] 前記音声推定器が、雑音推定値を生成するために、前記第3のオーディオ信号に基づいている前記信号に前記ボイスアクティビティ検出信号を適用するように構成され、前記音声信号が前記雑音推定値に基づいており、[21]に記載の装置。
[23] 前記音声推定器が、音声推定値を生成するために、前記第3のオーディオ信号に基づいている前記信号に前記ボイスアクティビティ検出信号を適用するように構成された利得制御要素と、前記音声信号を生成するために、前記雑音推定値に基づいて、前記音声推定値に対して雑音低減演算を実行するように構成された雑音低減モジュールと、を備える、[22]に記載の装置。
[24] 前記装置が、雑音基準を生成するために、(A)前記第1のマイクロフォンによって生成された信号に基づいている信号と、(B)前記第2のマイクロフォンによって生成された信号に基づいている信号との間の差を計算するように構成された計算器を備え、前記音声信号が前記雑音基準に基づいている、[21]に記載の装置。
[25] 前記装置が、音声推定値を生成するために、前記第2のオーディオ信号と前記第3のオーディオ信号とに基づいて、空間選択的処理演算を実行するように構成されたフィルタを備え、第3のオーディオ信号に基づいている前記信号が前記音声推定値である、[21]に記載の装置。
[26] 前記ボイスアクティビティ検出器が、前記第1のオーディオ信号と前記第2のオーディオ信号とを相互相関させた結果に基づいて前記ボイスアクティビティ検出信号を生成するように構成された、[21]に記載の装置。
[27] 前記装置が、前記第2のオーディオ信号と前記第3のオーディオ信号との間の関係に基づいている第2のボイスアクティビティ検出信号を生成するように構成された第2のボイスアクティビティ検出器を備え、前記ボイスアクティビティ検出信号が前記第2のボイスアクティビティ検出信号に基づいている、[21]に記載の装置。
[28] フィルタ処理された信号を生成するために、前記第2のオーディオ信号と前記第3のオーディオ信号とに対して空間選択的処理演算を実行するように構成されたフィルタを備え、第3のオーディオ信号に基づいている前記信号が、前記フィルタ処理された信号である、[21]に記載の装置。
[29] 前記装置が、第1のアンチノイズ信号を生成するために、前記第1のマイクロフォンによって生成された信号に基づいている信号に対してアクティブ雑音消去演算を実行するように構成された第1のアクティブ雑音消去フィルタと、前記装置の前記使用中に前記ユーザの頭部の前記側面に位置し、前記第1のアンチノイズ信号に基づいている音響信号を生成するように構成されたラウドスピーカと、を備える、[21]に記載の装置。
[30] 前記装置が、前記装置の前記使用中に、前記ユーザの頭部の前記側面に、前記第1のマイクロフォンよりも前記ユーザの前記側面の耳道の近くに位置するように構成された誤差マイクロフォンを含み、前記アンチノイズ信号が、前記誤差マイクロフォンによって生成された音響誤差信号からの情報に基づいている、[29]に記載の装置。
[31] 実体的機能を有する非一時的コンピュータ可読記憶媒体であって、前記実体的機能が、前記機能を読み取る機械に、第1のオーディオ信号と第2のオーディオ信号との間の関係に基づいているボイスアクティビティ検出信号を生成することと、音声信号を生成するために、第3のオーディオ信号に基づいている信号に前記ボイスアクティビティ検出信号を適用することと、を行わせ、前記第1のオーディオ信号が、(A)ユーザの頭部の側面に位置する第1のマイクロフォンによって、(B)前記ユーザのボイスに応答して生成された信号に基づき、前記第2のオーディオ信号が、前記ユーザの前記ボイスに応答して、前記ユーザの頭部の前記他の側面に位置する第2のマイクロフォンによって生成された信号に基づき、前記第3のオーディオ信号が、前記ユーザの前記ボイスに応答して、前記第1のマイクロフォン及び前記第2のマイクロフォンとは異なる第3のマイクロフォンによって生成された信号に基づき、前記第3のマイクロフォンが、前記第1のマイクロフォン及び前記第2のマイクロフォンのいずれよりも前記ユーザのボイスの中央出口点に近い、前記ユーザの頭部の前頭面に位置する、非一時的コンピュータ可読記憶媒体。
[32] 前記ボイスアクティビティ検出信号を適用することが、雑音推定値を生成するために、前記第3のオーディオ信号に基づいている前記信号に前記ボイスアクティビティ検出信号を適用することを備え、前記音声信号が前記雑音推定値に基づいている、[31]に記載のコンピュータ可読記憶媒体。
[33] 前記ボイスアクティビティ検出信号を適用することが、音声推定値を生成するために、前記第3のオーディオ信号に基づいている前記信号に前記ボイスアクティビティ検出信号を適用することと、前記音声信号を生成するために、前記雑音推定値に基づいて、前記音声推定値に対して雑音低減演算を実行することと
を備える、[32]に記載のコンピュータ可読記憶媒体。
[34] 前記媒体が実体的機能を有し、前記実体的機能が、前記機能を読み取る機械に、雑音基準を生成するために、(A)前記第1のマイクロフォンによって生成された信号に基づいている信号と、(B)前記第2のマイクロフォンによって生成された信号に基づいている信号との間の差を計算させ、前記音声信号が前記雑音基準に基づいている、[31]に記載のコンピュータ可読記憶媒体。
[35] 前記媒体が実体的機能を有し、前記実体的機能が、前記機能を読み取る機械に、音声推定値を生成するために、前記第2のオーディオ信号と前記第3のオーディオ信号とに基づいて、空間選択的処理演算を実行させ、第3のオーディオ信号に基づいている前記信号が前記音声推定値である、[31]に記載のコンピュータ可読記憶媒体。
[36] 前記ボイスアクティビティ検出信号を前記生成することが、前記第1のオーディオ信号と前記第2のオーディオ信号との間の相互相関を計算することを備える、[31]に記載のコンピュータ可読記憶媒体。
[37] 前記媒体が実体的機能を有し、前記実体的機能が、前記機能を読み取る機械に、前記第2のオーディオ信号と前記第3のオーディオ信号との間の関係に基づいている第2のボイスアクティビティ検出信号を生成させ、前記ボイスアクティビティ検出信号が前記第2のボイスアクティビティ検出信号に基づいている、[31]に記載のコンピュータ可読記憶媒体。
[38] 前記媒体が実体的機能を有し、前記実体的機能が、前記機能を読み取る機械に、フィルタ処理された信号を生成するために、前記第2のオーディオ信号と前記第3のオーディオ信号とに対して、空間選択的処理演算を実行させ、第3のオーディオ信号に基づいている前記信号が、前記フィルタ処理された信号である、[31]に記載のコンピュータ可読記憶媒体。
[39] 前記媒体が実体的機能を有し、前記実体的機能が、前記機能を読み取る機械に、第1のアンチノイズ信号を生成するために、前記第1のマイクロフォンによって生成された信号に基づいている信号に対して第1のアクティブ雑音消去演算を実行することと、前記第1のアンチノイズ信号に基づいている音響信号を生成するために、前記ユーザの頭部の前記側面に位置するラウドスピーカを駆動することと、を行わせる、[31]に記載のコンピュータ可読記憶媒体。
[40] 前記アンチノイズ信号が、前記ユーザの頭部の前記側面に位置する誤差マイクロフォンによって生成された音響誤差信号からの情報に基づいている、[39]に記載のコンピュータ可読記憶媒体。

Claims (40)

  1. 信号処理の方法であって、
    第1のオーディオ信号と第2のオーディオ信号との間の関係に基づいているボイスアクティビティ検出信号を生成することと、
    音声信号を生成するために、第3のオーディオ信号に基づいている信号に前記ボイスアクティビティ検出信号を適用することとを備え、
    前記第1のオーディオ信号が、(A)ユーザの頭部の側面に位置する第1のマイクロフォンによって、(B)前記ユーザのボイスに応答して生成された信号に基づき、
    前記第2のオーディオ信号が、前記ユーザの前記ボイスに応答して、前記ユーザの頭部の前記他の側面に位置する第2のマイクロフォンによって生成された信号に基づき、
    前記第3のオーディオ信号が、前記ユーザの前記ボイスに応答して、前記第1のマイクロフォン及び前記第2のマイクロフォンとは異なる第3のマイクロフォンによって生成された信号に基づき、
    前記第3のマイクロフォンが、前記第1のマイクロフォン及び前記第2のマイクロフォンのいずれよりも前記ユーザのボイスの中央出口点に近い、前記ユーザの頭部の前頭面に位置する、方法。
  2. 前記ボイスアクティビティ検出信号を前記適用することが、雑音推定値を生成するために、前記第3のオーディオ信号に基づいている前記信号に前記ボイスアクティビティ検出信号を適用することを備え、
    前記音声信号が前記雑音推定値に基づいており、請求項1に記載の方法。
  3. 前記ボイスアクティビティ検出信号を適用することが、
    音声推定値を生成するために、前記第3のオーディオ信号に基づいている前記信号に前記ボイスアクティビティ検出信号を適用することと、
    前記音声信号を生成するために、前記雑音推定値に基づいて、前記音声推定値に対して雑音低減演算を実行することと、
    を備える、請求項2に記載の方法。
  4. 前記方法が、雑音基準を生成するために、(A)前記第1のマイクロフォンによって生成された信号に基づいている信号と、(B)前記第2のマイクロフォンによって生成された信号に基づいている信号との間の差を計算することを備え、
    前記音声信号が前記雑音基準に基づいており、請求項1に記載の方法。
  5. 音声推定値を生成するために、前記第2のオーディオ信号と前記第3のオーディオ信号とに基づいて、空間選択的処理演算を実行することを備え、
    第3のオーディオ信号に基づいている前記信号が前記音声推定値である、請求項1に記載の方法。
  6. 前記ボイスアクティビティ検出信号を生成することが、前記第1のオーディオ信号と前記第2のオーディオ信号との間の相互相関を計算することを備える、請求項1に記載の方法。
  7. 前記第2のオーディオ信号と前記第3のオーディオ信号との間の関係に基づいている第2のボイスアクティビティ検出信号を生成することを備え、
    前記ボイスアクティビティ検出信号が前記第2のボイスアクティビティ検出信号に基づいている、請求項1に記載の方法。
  8. フィルタ処理された信号を生成するために、前記第2のオーディオ信号と前記第3のオーディオ信号とに対して空間選択的処理演算を実行することを備え、
    第3のオーディオ信号に基づいている前記信号が、前記フィルタ処理された信号である、請求項1に記載の方法。
  9. 第1のアンチノイズ信号を生成するために、前記第1のマイクロフォンによって生成された信号に基づいている信号に対して第1のアクティブ雑音消去演算を実行することと、
    前記第1のアンチノイズ信号に基づいている音響信号を生成するために、前記ユーザの頭部の前記側面に位置するラウドスピーカを駆動することと、
    を備える、請求項1に記載の方法。
  10. 前記アンチノイズ信号が、前記ユーザの頭部の前記側面に位置する誤差マイクロフォンによって生成された音響誤差信号からの情報に基づいている、請求項9に記載の方法。
  11. 信号処理のための装置であって、
    第1のオーディオ信号と第2のオーディオ信号との間の関係に基づいているボイスアクティビティ検出信号を生成するための手段と、
    音声信号を生成するために、第3のオーディオ信号に基づいている信号に前記ボイスアクティビティ検出信号を適用するための手段と、を備え、
    前記第1のオーディオ信号が、(A)ユーザの頭部の側面に位置する第1のマイクロフォンによって、(B)前記ユーザのボイスに応答して生成された信号に基づき、
    前記第2のオーディオ信号が、前記ユーザの前記ボイスに応答して、前記ユーザの頭部の前記他の側面に位置する第2のマイクロフォンによって生成された信号に基づき、
    前記第3のオーディオ信号が、前記ユーザの前記ボイスに応答して、前記第1のマイクロフォン及び前記第2のマイクロフォンとは異なる第3のマイクロフォンによって生成された信号に基づき、
    前記第3のマイクロフォンが、前記第1のマイクロフォン及び前記第2のマイクロフォンのいずれよりも前記ユーザのボイスの中央出口点に近い、前記ユーザの頭部の前頭面に位置する、装置。
  12. 前記ボイスアクティビティ検出信号を適用するための前記手段が、雑音推定値を生成するために、前記第3のオーディオ信号に基づいている前記信号に前記ボイスアクティビティ検出信号を適用するように構成され、
    前記音声信号が前記雑音推定値に基づいている、請求項11に記載の装置。
  13. 前記ボイスアクティビティ検出信号を適用するための手段が、
    音声推定値を生成するために、前記第3のオーディオ信号に基づいている前記信号に前記ボイスアクティビティ検出信号を適用するための手段と、
    前記音声信号を生成するために、前記雑音推定値に基づいて、前記音声推定値に対して雑音低減演算を実行するための手段と、
    を備える、請求項12に記載の装置。
  14. 雑音基準を生成するために、(A)前記第1のマイクロフォンによって生成された信号に基づいている信号と、(B)前記第2のマイクロフォンによって生成された信号に基づいている信号との間の差を計算するための手段を備え、
    前記音声信号が前記雑音基準に基づいている、請求項11に記載の装置。
  15. 前記装置が、音声推定値を生成するために、前記第2のオーディオ信号と前記第3のオーディオ信号とに基づいて、空間選択的処理演算を実行するための手段を備え、
    第3のオーディオ信号に基づいている前記信号が前記音声推定値である、請求項11に記載の装置。
  16. 前記ボイスアクティビティ検出信号を生成するための手段が、前記第1のオーディオ信号と前記第2のオーディオ信号との間の相互相関を計算するための手段を備える、請求項11に記載の装置。
  17. 前記第2のオーディオ信号と前記第3のオーディオ信号との間の関係に基づいている第2のボイスアクティビティ検出信号を生成するための手段を備え、
    前記ボイスアクティビティ検出信号が前記第2のボイスアクティビティ検出信号に基づいている、請求項11に記載の装置。
  18. 前記装置が、フィルタ処理された信号を生成するために、前記第2のオーディオ信号と前記第3のオーディオ信号とに対して空間選択的処理演算を実行するための手段を備え、
    第3のオーディオ信号に基づいている前記信号が、前記フィルタ処理された信号である、請求項11に記載の装置。
  19. 第1のアンチノイズ信号を生成するために、前記第1のマイクロフォンによって生成された信号に基づいている信号に対して第1のアクティブ雑音消去演算を実行するための手段と、
    前記第1のアンチノイズ信号に基づいている音響信号を生成するために、前記ユーザの頭部の前記側面に位置するラウドスピーカを駆動するための手段と、
    を備える、請求項11に記載の装置。
  20. 前記アンチノイズ信号が、前記ユーザの頭部の前記側面に位置する誤差マイクロフォンによって生成された音響誤差信号からの情報に基づいている、請求項19に記載の装置。
  21. 信号処理のための装置であって、
    前記装置の使用中にユーザの頭部の側面に位置するように構成された第1のマイクロフォンと、
    前記装置の前記使用中に前記ユーザの頭部の他の側面に位置するように構成された第2のマイクロフォンと、
    前記装置の前記使用中に、前記第1のマイクロフォン及び前記第2のマイクロフォンのいずれよりも前記ユーザのボイスの中央出口点に近い、前記ユーザの頭部の前頭面にあるように構成された第3のマイクロフォンと、
    第1のオーディオ信号と第2のオーディオ信号との間の関係に基づいているボイスアクティビティ検出信号を生成するように構成されたボイスアクティビティ検出器と、
    音声推定値を生成するために、第3のオーディオ信号に基づいている信号に前記ボイスアクティビティ検出信号を適用するように構成された音声推定器とを備え、
    前記第1のオーディオ信号が、前記ユーザの前記ボイスに応答して、前記装置の前記使用中に前記第1のマイクロフォンによって生成された信号に基づき、
    前記第2のオーディオ信号が、前記ユーザの前記ボイスに応答して、前記装置の前記使用中に前記第2のマイクロフォンによって生成された信号に基づき、
    前記第3のオーディオ信号が、前記ユーザの前記ボイスに応答して、前記装置の前記使用中に前記第3のマイクロフォンによって生成された信号に基づいている、装置。
  22. 前記音声推定器が、雑音推定値を生成するために、前記第3のオーディオ信号に基づいている前記信号に前記ボイスアクティビティ検出信号を適用するように構成され、
    前記音声信号が前記雑音推定値に基づいており、請求項21に記載の装置。
  23. 前記音声推定器が、
    音声推定値を生成するために、前記第3のオーディオ信号に基づいている前記信号に前記ボイスアクティビティ検出信号を適用するように構成された利得制御要素と、
    前記音声信号を生成するために、前記雑音推定値に基づいて、前記音声推定値に対して雑音低減演算を実行するように構成された雑音低減モジュールと、
    を備える、請求項22に記載の装置。
  24. 前記装置が、雑音基準を生成するために、(A)前記第1のマイクロフォンによって生成された信号に基づいている信号と、(B)前記第2のマイクロフォンによって生成された信号に基づいている信号との間の差を計算するように構成された計算器を備え、
    前記音声信号が前記雑音基準に基づいている、請求項21に記載の装置。
  25. 前記装置が、音声推定値を生成するために、前記第2のオーディオ信号と前記第3のオーディオ信号とに基づいて、空間選択的処理演算を実行するように構成されたフィルタを備え、
    第3のオーディオ信号に基づいている前記信号が前記音声推定値である、請求項21に記載の装置。
  26. 前記ボイスアクティビティ検出器が、前記第1のオーディオ信号と前記第2のオーディオ信号とを相互相関させた結果に基づいて前記ボイスアクティビティ検出信号を生成するように構成された、請求項21に記載の装置。
  27. 前記装置が、前記第2のオーディオ信号と前記第3のオーディオ信号との間の関係に基づいている第2のボイスアクティビティ検出信号を生成するように構成された第2のボイスアクティビティ検出器を備え、
    前記ボイスアクティビティ検出信号が前記第2のボイスアクティビティ検出信号に基づいている、請求項21に記載の装置。
  28. フィルタ処理された信号を生成するために、前記第2のオーディオ信号と前記第3のオーディオ信号とに対して空間選択的処理演算を実行するように構成されたフィルタを備え、
    第3のオーディオ信号に基づいている前記信号が、前記フィルタ処理された信号である、請求項21に記載の装置。
  29. 前記装置が、
    第1のアンチノイズ信号を生成するために、前記第1のマイクロフォンによって生成された信号に基づいている信号に対してアクティブ雑音消去演算を実行するように構成された第1のアクティブ雑音消去フィルタと、
    前記装置の前記使用中に前記ユーザの頭部の前記側面に位置し、前記第1のアンチノイズ信号に基づいている音響信号を生成するように構成されたラウドスピーカと、
    を備える、請求項21に記載の装置。
  30. 前記装置が、前記装置の前記使用中に、前記ユーザの頭部の前記側面に、前記第1のマイクロフォンよりも前記ユーザの前記側面の耳道の近くに位置するように構成された誤差マイクロフォンを含み、
    前記アンチノイズ信号が、前記誤差マイクロフォンによって生成された音響誤差信号からの情報に基づいている、請求項29に記載の装置。
  31. 実体的機能を有する非一時的コンピュータ可読記憶媒体であって、前記実体的機能が、前記機能を読み取る機械に、
    第1のオーディオ信号と第2のオーディオ信号との間の関係に基づいているボイスアクティビティ検出信号を生成することと、
    音声信号を生成するために、第3のオーディオ信号に基づいている信号に前記ボイスアクティビティ検出信号を適用することと、
    を行わせ、
    前記第1のオーディオ信号が、(A)ユーザの頭部の側面に位置する第1のマイクロフォンによって、(B)前記ユーザのボイスに応答して生成された信号に基づき、
    前記第2のオーディオ信号が、前記ユーザの前記ボイスに応答して、前記ユーザの頭部の前記他の側面に位置する第2のマイクロフォンによって生成された信号に基づき、
    前記第3のオーディオ信号が、前記ユーザの前記ボイスに応答して、前記第1のマイクロフォン及び前記第2のマイクロフォンとは異なる第3のマイクロフォンによって生成された信号に基づき、
    前記第3のマイクロフォンが、前記第1のマイクロフォン及び前記第2のマイクロフォンのいずれよりも前記ユーザのボイスの中央出口点に近い、前記ユーザの頭部の前頭面に位置する、非一時的コンピュータ可読記憶媒体。
  32. 前記ボイスアクティビティ検出信号を適用することが、雑音推定値を生成するために、前記第3のオーディオ信号に基づいている前記信号に前記ボイスアクティビティ検出信号を適用することを備え、
    前記音声信号が前記雑音推定値に基づいている、請求項31に記載のコンピュータ可読記憶媒体。
  33. 前記ボイスアクティビティ検出信号を適用することが、
    音声推定値を生成するために、前記第3のオーディオ信号に基づいている前記信号に前記ボイスアクティビティ検出信号を適用することと、
    前記音声信号を生成するために、前記雑音推定値に基づいて、前記音声推定値に対して雑音低減演算を実行することと
    を備える、請求項32に記載のコンピュータ可読記憶媒体。
  34. 前記媒体が実体的機能を有し、前記実体的機能が、前記機能を読み取る機械に、雑音基準を生成するために、(A)前記第1のマイクロフォンによって生成された信号に基づいている信号と、(B)前記第2のマイクロフォンによって生成された信号に基づいている信号との間の差を計算させ、
    前記音声信号が前記雑音基準に基づいている、請求項31に記載のコンピュータ可読記憶媒体。
  35. 前記媒体が実体的機能を有し、前記実体的機能が、前記機能を読み取る機械に、音声推定値を生成するために、前記第2のオーディオ信号と前記第3のオーディオ信号とに基づいて、空間選択的処理演算を実行させ、
    第3のオーディオ信号に基づいている前記信号が前記音声推定値である、請求項31に記載のコンピュータ可読記憶媒体。
  36. 前記ボイスアクティビティ検出信号を前記生成することが、前記第1のオーディオ信号と前記第2のオーディオ信号との間の相互相関を計算することを備える、請求項31に記載のコンピュータ可読記憶媒体。
  37. 前記媒体が実体的機能を有し、前記実体的機能が、前記機能を読み取る機械に、前記第2のオーディオ信号と前記第3のオーディオ信号との間の関係に基づいている第2のボイスアクティビティ検出信号を生成させ、
    前記ボイスアクティビティ検出信号が前記第2のボイスアクティビティ検出信号に基づいている、請求項31に記載のコンピュータ可読記憶媒体。
  38. 前記媒体が実体的機能を有し、前記実体的機能が、前記機能を読み取る機械に、フィルタ処理された信号を生成するために、前記第2のオーディオ信号と前記第3のオーディオ信号とに対して、空間選択的処理演算を実行させ、
    第3のオーディオ信号に基づいている前記信号が、前記フィルタ処理された信号である、請求項31に記載のコンピュータ可読記憶媒体。
  39. 前記媒体が実体的機能を有し、前記実体的機能が、前記機能を読み取る機械に、
    第1のアンチノイズ信号を生成するために、前記第1のマイクロフォンによって生成された信号に基づいている信号に対して第1のアクティブ雑音消去演算を実行することと、
    前記第1のアンチノイズ信号に基づいている音響信号を生成するために、前記ユーザの頭部の前記側面に位置するラウドスピーカを駆動することと、
    を行わせる、請求項31に記載のコンピュータ可読記憶媒体。
  40. 前記アンチノイズ信号が、前記ユーザの頭部の前記側面に位置する誤差マイクロフォンによって生成された音響誤差信号からの情報に基づいている、請求項39に記載のコンピュータ可読記憶媒体。
JP2013511404A 2010-05-20 2011-05-20 ヘッドマウントマイクロフォンペアを使用する音声信号の処理のためのシステム、方法、装置、及びコンピュータ可読媒体 Expired - Fee Related JP5714700B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US34684110P 2010-05-20 2010-05-20
US61/346,841 2010-05-20
US35653910P 2010-06-18 2010-06-18
US61/356,539 2010-06-18
US13/111,627 US20110288860A1 (en) 2010-05-20 2011-05-19 Systems, methods, apparatus, and computer-readable media for processing of speech signals using head-mounted microphone pair
US13/111,627 2011-05-19
PCT/US2011/037460 WO2011146903A1 (en) 2010-05-20 2011-05-20 Methods, apparatus, and computer - readable media for processing of speech signals using head -mounted microphone pair

Publications (2)

Publication Number Publication Date
JP2013531419A true JP2013531419A (ja) 2013-08-01
JP5714700B2 JP5714700B2 (ja) 2015-05-07

Family

ID=44973211

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013511404A Expired - Fee Related JP5714700B2 (ja) 2010-05-20 2011-05-20 ヘッドマウントマイクロフォンペアを使用する音声信号の処理のためのシステム、方法、装置、及びコンピュータ可読媒体

Country Status (6)

Country Link
US (1) US20110288860A1 (ja)
EP (1) EP2572353B1 (ja)
JP (1) JP5714700B2 (ja)
KR (2) KR20150080645A (ja)
CN (1) CN102893331B (ja)
WO (1) WO2011146903A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014016377A (ja) * 2012-07-05 2014-01-30 Oki Electric Ind Co Ltd 音声信号処理装置、方法及びプログラム
JP2014056112A (ja) * 2012-09-12 2014-03-27 Oki Electric Ind Co Ltd 音声信号処理装置、方法及びプログラム
JP2014215963A (ja) * 2013-04-30 2014-11-17 株式会社Nttドコモ イヤホン及び眼球運動推定装置
JP2018521520A (ja) * 2015-04-02 2018-08-02 シバントス ピーティーイー リミテッド 聴音装置
JP2019053180A (ja) * 2017-09-14 2019-04-04 株式会社東芝 音響処理装置、音声認識装置、音響処理方法、音声認識方法、音響処理プログラム及び音声認識プログラム
JP2020533619A (ja) * 2017-08-17 2020-11-19 セレンス オペレーティング カンパニー 有音音声検出の複雑性低減およびピッチ推定

Families Citing this family (132)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012001928A1 (ja) * 2010-06-30 2012-01-05 パナソニック株式会社 会話検出装置、補聴器及び会話検出方法
US9142207B2 (en) 2010-12-03 2015-09-22 Cirrus Logic, Inc. Oversight control of an adaptive noise canceler in a personal audio device
US8908877B2 (en) 2010-12-03 2014-12-09 Cirrus Logic, Inc. Ear-coupling detection and adjustment of adaptive response in noise-canceling in personal audio devices
KR20120080409A (ko) * 2011-01-07 2012-07-17 삼성전자주식회사 잡음 구간 판별에 의한 잡음 추정 장치 및 방법
US9037458B2 (en) 2011-02-23 2015-05-19 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for spatially selective audio augmentation
US8824692B2 (en) * 2011-04-20 2014-09-02 Vocollect, Inc. Self calibrating multi-element dipole microphone
US9214150B2 (en) 2011-06-03 2015-12-15 Cirrus Logic, Inc. Continuous adaptation of secondary path adaptive response in noise-canceling personal audio devices
US8948407B2 (en) 2011-06-03 2015-02-03 Cirrus Logic, Inc. Bandlimiting anti-noise in personal audio devices having adaptive noise cancellation (ANC)
US8958571B2 (en) * 2011-06-03 2015-02-17 Cirrus Logic, Inc. MIC covering detection in personal audio devices
US9824677B2 (en) 2011-06-03 2017-11-21 Cirrus Logic, Inc. Bandlimiting anti-noise in personal audio devices having adaptive noise cancellation (ANC)
US8848936B2 (en) 2011-06-03 2014-09-30 Cirrus Logic, Inc. Speaker damage prevention in adaptive noise-canceling personal audio devices
US9318094B2 (en) 2011-06-03 2016-04-19 Cirrus Logic, Inc. Adaptive noise canceling architecture for a personal audio device
US9076431B2 (en) 2011-06-03 2015-07-07 Cirrus Logic, Inc. Filter architecture for an adaptive noise canceler in a personal audio device
US8620646B2 (en) * 2011-08-08 2013-12-31 The Intellisis Corporation System and method for tracking sound pitch across an audio signal using harmonic envelope
US20130054233A1 (en) * 2011-08-24 2013-02-28 Texas Instruments Incorporated Method, System and Computer Program Product for Attenuating Noise Using Multiple Channels
US9325821B1 (en) * 2011-09-30 2016-04-26 Cirrus Logic, Inc. Sidetone management in an adaptive noise canceling (ANC) system including secondary path modeling
JP5927887B2 (ja) * 2011-12-13 2016-06-01 沖電気工業株式会社 非目的音抑制装置、非目的音抑制方法及び非目的音抑制プログラム
US9014387B2 (en) 2012-04-26 2015-04-21 Cirrus Logic, Inc. Coordinated control of adaptive noise cancellation (ANC) among earspeaker channels
US9142205B2 (en) 2012-04-26 2015-09-22 Cirrus Logic, Inc. Leakage-modeling adaptive noise canceling for earspeakers
US9076427B2 (en) 2012-05-10 2015-07-07 Cirrus Logic, Inc. Error-signal content controlled adaptation of secondary and leakage path models in noise-canceling personal audio devices
US9082387B2 (en) 2012-05-10 2015-07-14 Cirrus Logic, Inc. Noise burst adaptation of secondary path adaptive response in noise-canceling personal audio devices
US9318090B2 (en) 2012-05-10 2016-04-19 Cirrus Logic, Inc. Downlink tone detection and adaptation of a secondary path response model in an adaptive noise canceling system
US9123321B2 (en) 2012-05-10 2015-09-01 Cirrus Logic, Inc. Sequenced adaptation of anti-noise generator response and secondary path response in an adaptive noise canceling system
US9319781B2 (en) 2012-05-10 2016-04-19 Cirrus Logic, Inc. Frequency and direction-dependent ambient sound handling in personal audio devices having adaptive noise cancellation (ANC)
US9094749B2 (en) 2012-07-25 2015-07-28 Nokia Technologies Oy Head-mounted sound capture device
US9135915B1 (en) 2012-07-26 2015-09-15 Google Inc. Augmenting speech segmentation and recognition using head-mounted vibration and/or motion sensors
US9532139B1 (en) 2012-09-14 2016-12-27 Cirrus Logic, Inc. Dual-microphone frequency amplitude response self-calibration
US9313572B2 (en) * 2012-09-28 2016-04-12 Apple Inc. System and method of detecting a user's voice activity using an accelerometer
US9438985B2 (en) * 2012-09-28 2016-09-06 Apple Inc. System and method of detecting a user's voice activity using an accelerometer
CN103813241B (zh) * 2012-11-09 2016-02-10 辉达公司 移动电子设备及其音频播放装置
US9704486B2 (en) * 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
US9107010B2 (en) 2013-02-08 2015-08-11 Cirrus Logic, Inc. Ambient noise root mean square (RMS) detector
US9807495B2 (en) 2013-02-25 2017-10-31 Microsoft Technology Licensing, Llc Wearable audio accessories for computing devices
US9369798B1 (en) 2013-03-12 2016-06-14 Cirrus Logic, Inc. Internal dynamic range control in an adaptive noise cancellation (ANC) system
CN105229737B (zh) * 2013-03-13 2019-05-17 寇平公司 噪声消除麦克风装置
US9106989B2 (en) 2013-03-13 2015-08-11 Cirrus Logic, Inc. Adaptive-noise canceling (ANC) effectiveness estimation and correction in a personal audio device
US9215749B2 (en) 2013-03-14 2015-12-15 Cirrus Logic, Inc. Reducing an acoustic intensity vector with adaptive noise cancellation with two error microphones
US9414150B2 (en) 2013-03-14 2016-08-09 Cirrus Logic, Inc. Low-latency multi-driver adaptive noise canceling (ANC) system for a personal audio device
US9467776B2 (en) 2013-03-15 2016-10-11 Cirrus Logic, Inc. Monitoring of speaker impedance to detect pressure applied between mobile device and ear
US9324311B1 (en) 2013-03-15 2016-04-26 Cirrus Logic, Inc. Robust adaptive noise canceling (ANC) in a personal audio device
US9635480B2 (en) 2013-03-15 2017-04-25 Cirrus Logic, Inc. Speaker impedance monitoring
US9208771B2 (en) 2013-03-15 2015-12-08 Cirrus Logic, Inc. Ambient noise-based adaptation of secondary path adaptive response in noise-canceling personal audio devices
KR101451844B1 (ko) * 2013-03-27 2014-10-16 주식회사 시그테크 음성활동감지방법 및 그 방법을 채택한 통신장치
US10206032B2 (en) 2013-04-10 2019-02-12 Cirrus Logic, Inc. Systems and methods for multi-mode adaptive noise cancellation for audio headsets
US9066176B2 (en) 2013-04-15 2015-06-23 Cirrus Logic, Inc. Systems and methods for adaptive noise cancellation including dynamic bias of coefficients of an adaptive noise cancellation system
US9462376B2 (en) 2013-04-16 2016-10-04 Cirrus Logic, Inc. Systems and methods for hybrid adaptive noise cancellation
US9478210B2 (en) 2013-04-17 2016-10-25 Cirrus Logic, Inc. Systems and methods for hybrid adaptive noise cancellation
US9460701B2 (en) 2013-04-17 2016-10-04 Cirrus Logic, Inc. Systems and methods for adaptive noise cancellation by biasing anti-noise level
US9578432B1 (en) 2013-04-24 2017-02-21 Cirrus Logic, Inc. Metric and tool to evaluate secondary path design in adaptive noise cancellation systems
US9264808B2 (en) 2013-06-14 2016-02-16 Cirrus Logic, Inc. Systems and methods for detection and cancellation of narrow-band noise
US9392364B1 (en) 2013-08-15 2016-07-12 Cirrus Logic, Inc. Virtual microphone for adaptive noise cancellation in personal audio devices
US9190043B2 (en) 2013-08-27 2015-11-17 Bose Corporation Assisting conversation in noisy environments
US9288570B2 (en) 2013-08-27 2016-03-15 Bose Corporation Assisting conversation while listening to audio
US9666176B2 (en) 2013-09-13 2017-05-30 Cirrus Logic, Inc. Systems and methods for adaptive noise cancellation by adaptively shaping internal white noise to train a secondary path
US9620101B1 (en) 2013-10-08 2017-04-11 Cirrus Logic, Inc. Systems and methods for maintaining playback fidelity in an audio system with adaptive noise cancellation
CN104661158A (zh) * 2013-11-25 2015-05-27 华为技术有限公司 立体声耳机、终端及两者的音频信号处理方法
US9704472B2 (en) 2013-12-10 2017-07-11 Cirrus Logic, Inc. Systems and methods for sharing secondary path information between audio channels in an adaptive noise cancellation system
US10219071B2 (en) 2013-12-10 2019-02-26 Cirrus Logic, Inc. Systems and methods for bandlimiting anti-noise in personal audio devices having adaptive noise cancellation
US10382864B2 (en) 2013-12-10 2019-08-13 Cirrus Logic, Inc. Systems and methods for providing adaptive playback equalization in an audio device
WO2015120475A1 (en) * 2014-02-10 2015-08-13 Bose Corporation Conversation assistance system
US9369557B2 (en) 2014-03-05 2016-06-14 Cirrus Logic, Inc. Frequency-dependent sidetone calibration
US9479860B2 (en) 2014-03-07 2016-10-25 Cirrus Logic, Inc. Systems and methods for enhancing performance of audio transducer based on detection of transducer status
US9648410B1 (en) 2014-03-12 2017-05-09 Cirrus Logic, Inc. Control of audio output of headphone earbuds based on the environment around the headphone earbuds
US9510094B2 (en) 2014-04-09 2016-11-29 Apple Inc. Noise estimation in a mobile device using an external acoustic microphone signal
US9319784B2 (en) 2014-04-14 2016-04-19 Cirrus Logic, Inc. Frequency-shaped noise-based adaptation of secondary path adaptive response in noise-canceling personal audio devices
US9609416B2 (en) 2014-06-09 2017-03-28 Cirrus Logic, Inc. Headphone responsive to optical signaling
US10181315B2 (en) 2014-06-13 2019-01-15 Cirrus Logic, Inc. Systems and methods for selectively enabling and disabling adaptation of an adaptive noise cancellation system
US9478212B1 (en) 2014-09-03 2016-10-25 Cirrus Logic, Inc. Systems and methods for use of adaptive secondary path estimate to control equalization in an audio device
US9622013B2 (en) * 2014-12-08 2017-04-11 Harman International Industries, Inc. Directional sound modification
US9779725B2 (en) 2014-12-11 2017-10-03 Mediatek Inc. Voice wakeup detecting device and method
US9775113B2 (en) * 2014-12-11 2017-09-26 Mediatek Inc. Voice wakeup detecting device with digital microphone and associated method
US9552805B2 (en) 2014-12-19 2017-01-24 Cirrus Logic, Inc. Systems and methods for performance and stability control for feedback adaptive noise cancellation
AU2015371631B2 (en) 2014-12-23 2020-06-18 Timothy DEGRAYE Method and system for audio sharing
DE112016000729B4 (de) * 2015-02-13 2022-03-03 Harman Becker Automotive Systems Gmbh System und verfahren zur aktiven geräuschunterdrückung für einen helm
US9531428B2 (en) * 2015-03-03 2016-12-27 Mediatek Inc. Wireless communication calibration system and associated method
US9905216B2 (en) * 2015-03-13 2018-02-27 Bose Corporation Voice sensing using multiple microphones
US9699549B2 (en) * 2015-03-31 2017-07-04 Asustek Computer Inc. Audio capturing enhancement method and audio capturing system using the same
US9736578B2 (en) 2015-06-07 2017-08-15 Apple Inc. Microphone-based orientation sensors and related techniques
CN106303837B (zh) * 2015-06-24 2019-10-18 联芯科技有限公司 双麦克风的风噪检测及抑制方法、系统
US9734845B1 (en) * 2015-06-26 2017-08-15 Amazon Technologies, Inc. Mitigating effects of electronic audio sources in expression detection
WO2017029550A1 (en) 2015-08-20 2017-02-23 Cirrus Logic International Semiconductor Ltd Feedback adaptive noise cancellation (anc) controller and method having a feedback response partially provided by a fixed-response filter
US9578415B1 (en) 2015-08-21 2017-02-21 Cirrus Logic, Inc. Hybrid adaptive noise cancellation system with filtered error microphone signal
KR20170024913A (ko) * 2015-08-26 2017-03-08 삼성전자주식회사 복수의 마이크들을 이용한 잡음 제거 전자 장치 및 잡음 제거 방법
US10186276B2 (en) * 2015-09-25 2019-01-22 Qualcomm Incorporated Adaptive noise suppression for super wideband music
JP6536320B2 (ja) * 2015-09-28 2019-07-03 富士通株式会社 音声信号処理装置、音声信号処理方法及びプログラム
CN105280195B (zh) * 2015-11-04 2018-12-28 腾讯科技(深圳)有限公司 语音信号的处理方法及装置
US10225657B2 (en) 2016-01-18 2019-03-05 Boomcloud 360, Inc. Subband spatial and crosstalk cancellation for audio reproduction
BR112018014724B1 (pt) 2016-01-19 2020-11-24 Boomcloud 360, Inc Metodo, sistema de processamento de audio e midia legivel por computador nao transitoria configurada para armazenar o metodo
US10090005B2 (en) * 2016-03-10 2018-10-02 Aspinity, Inc. Analog voice activity detection
US10013966B2 (en) 2016-03-15 2018-07-03 Cirrus Logic, Inc. Systems and methods for adaptive active noise cancellation for multiple-driver personal audio device
CN105979464A (zh) * 2016-05-13 2016-09-28 深圳市豪恩声学股份有限公司 电声换能器不良诊断的预处理装置及方法
US10535364B1 (en) * 2016-09-08 2020-01-14 Amazon Technologies, Inc. Voice activity detection using air conduction and bone conduction microphones
DK3300078T3 (da) * 2016-09-26 2021-02-15 Oticon As Stemmeaktivitetsdetektionsenhed og en høreanordning, der omfatter en stemmeaktivitetsdetektionsenhed
WO2018088450A1 (ja) * 2016-11-08 2018-05-17 ヤマハ株式会社 音声提供装置、音声再生装置、音声提供方法及び音声再生方法
CN106535045A (zh) * 2016-11-30 2017-03-22 中航华东光电(上海)有限公司 喉头送话器音频增强处理模块
US10564925B2 (en) 2017-02-07 2020-02-18 Avnera Corporation User voice activity detection methods, devices, assemblies, and components
KR101898911B1 (ko) 2017-02-13 2018-10-31 주식회사 오르페오사운드웍스 인이어 마이크와 아웃이어 마이크 수음특성을 이용한 소음 제거 이어셋 및 소음 제거 방법
DE112018000717T5 (de) * 2017-02-14 2020-01-16 Avnera Corporation Verfahren, vorrichtungen, anordnungen und komponenten zur aktivitätsermittlung von nutzerstimmaktivität
AU2017402614B2 (en) * 2017-03-10 2022-03-31 James Jordan Rosenberg System and method for relative enhancement of vocal utterances in an acoustically cluttered environment
US10311889B2 (en) * 2017-03-20 2019-06-04 Bose Corporation Audio signal processing for noise reduction
US10313820B2 (en) 2017-07-11 2019-06-04 Boomcloud 360, Inc. Sub-band spatial audio enhancement
KR101953866B1 (ko) 2017-10-16 2019-03-04 주식회사 오르페오사운드웍스 인-이어 마이크로폰을 갖는 이어셋의 음향신호 처리 장치 및 방법
CN109859749A (zh) * 2017-11-30 2019-06-07 阿里巴巴集团控股有限公司 一种语音信号识别方法和装置
US11074906B2 (en) 2017-12-07 2021-07-27 Hed Technologies Sarl Voice aware audio system and method
US11373665B2 (en) * 2018-01-08 2022-06-28 Avnera Corporation Voice isolation system
US10847173B2 (en) * 2018-02-13 2020-11-24 Intel Corporation Selection between signal sources based upon calculated signal to noise ratio
KR101950807B1 (ko) * 2018-02-27 2019-02-21 인하대학교 산학협력단 넥밴드 음향장치 및 넥밴드 음향장치의 음량 조절방법
US10764704B2 (en) 2018-03-22 2020-09-01 Boomcloud 360, Inc. Multi-channel subband spatial processing for loudspeakers
IL277606B1 (en) * 2018-03-29 2024-10-01 3M Innovative Properties Company Voice-activated audio coding for headphones using frequency domain representations of microphone signals
CN108674344B (zh) * 2018-03-30 2024-04-02 斑马网络技术有限公司 基于方向盘的语音处理系统及其应用
TWI690218B (zh) 2018-06-15 2020-04-01 瑞昱半導體股份有限公司 耳機
EP3811360A4 (en) 2018-06-21 2021-11-24 Magic Leap, Inc. PORTABLE SYSTEM VOICE PROCESSING
KR102046803B1 (ko) * 2018-07-03 2019-11-21 주식회사 이엠텍 청음 보조 시스템
US10629226B1 (en) * 2018-10-29 2020-04-21 Bestechnic (Shanghai) Co., Ltd. Acoustic signal processing with voice activity detector having processor in an idle state
CN113544768A (zh) 2018-12-21 2021-10-22 诺拉控股有限公司 使用多传感器的语音识别
US10681452B1 (en) 2019-02-26 2020-06-09 Qualcomm Incorporated Seamless listen-through for a wearable device
EP3931827A4 (en) 2019-03-01 2022-11-02 Magic Leap, Inc. INPUT DETERMINATION FOR A VOICE PROCESSING ENGINE
US11049509B2 (en) * 2019-03-06 2021-06-29 Plantronics, Inc. Voice signal enhancement for head-worn audio devices
KR20210150372A (ko) * 2019-04-08 2021-12-10 소니그룹주식회사 신호 처리 장치, 신호 처리 방법 및 프로그램
WO2021048632A2 (en) * 2019-05-22 2021-03-18 Solos Technology Limited Microphone configurations for eyewear devices, systems, apparatuses, and methods
KR102226132B1 (ko) 2019-07-23 2021-03-09 엘지전자 주식회사 헤드셋 및 그의 구동 방법
US11328740B2 (en) * 2019-08-07 2022-05-10 Magic Leap, Inc. Voice onset detection
TWI731391B (zh) * 2019-08-15 2021-06-21 緯創資通股份有限公司 麥克風裝置、電子裝置及其音訊信號處理方法
US10841728B1 (en) 2019-10-10 2020-11-17 Boomcloud 360, Inc. Multi-channel crosstalk processing
US11917384B2 (en) * 2020-03-27 2024-02-27 Magic Leap, Inc. Method of waking a device using spoken voice commands
CN113571053B (zh) * 2020-04-28 2024-07-30 华为技术有限公司 语音唤醒方法和设备
US11138990B1 (en) * 2020-04-29 2021-10-05 Bose Corporation Voice activity detection
WO2021226503A1 (en) 2020-05-08 2021-11-11 Nuance Communications, Inc. System and method for data augmentation for multi-microphone signal processing
US11783809B2 (en) 2020-10-08 2023-10-10 Qualcomm Incorporated User voice activity detection using dynamic classifier
US20220392479A1 (en) * 2021-06-04 2022-12-08 Samsung Electronics Co., Ltd. Sound signal processing apparatus and method of processing sound signal
WO2023136385A1 (ko) * 2022-01-17 2023-07-20 엘지전자 주식회사 발화인지를 지원하는 이어버드 및 관련 방법
CN220067647U (zh) * 2022-10-28 2023-11-21 深圳市韶音科技有限公司 一种耳机

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008507926A (ja) * 2004-07-22 2008-03-13 ソフトマックス,インク 雑音環境内で音声信号を分離するためのヘッドセット
WO2009131772A1 (en) * 2008-04-22 2009-10-29 Bose Corporation Hearing assistance apparatus

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4718096A (en) * 1983-05-18 1988-01-05 Speech Systems, Inc. Speech recognition system
US5105377A (en) 1990-02-09 1992-04-14 Noise Cancellation Technologies, Inc. Digital virtual earth active cancellation system
US5251263A (en) * 1992-05-22 1993-10-05 Andrea Electronics Corporation Adaptive noise cancellation and speech enhancement system and apparatus therefor
US20030179888A1 (en) * 2002-03-05 2003-09-25 Burnett Gregory C. Voice activity detection (VAD) devices and methods for use with noise suppression systems
US20070233479A1 (en) * 2002-05-30 2007-10-04 Burnett Gregory C Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
US8452023B2 (en) * 2007-05-25 2013-05-28 Aliphcom Wind suppression/replacement component for use with electronic systems
US7174022B1 (en) * 2002-11-15 2007-02-06 Fortemedia, Inc. Small array microphone for beam-forming and noise suppression
TW200425763A (en) * 2003-01-30 2004-11-16 Aliphcom Inc Acoustic vibration sensor
EP1614322A2 (en) * 2003-04-08 2006-01-11 Philips Intellectual Property & Standards GmbH Method and apparatus for reducing an interference noise signal fraction in a microphone signal
JP4989967B2 (ja) * 2003-07-11 2012-08-01 コクレア リミテッド ノイズ低減のための方法および装置
US7383181B2 (en) * 2003-07-29 2008-06-03 Microsoft Corporation Multi-sensory speech detection system
JP4328698B2 (ja) 2004-09-15 2009-09-09 キヤノン株式会社 素片セット作成方法および装置
US7283850B2 (en) * 2004-10-12 2007-10-16 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
US20060133621A1 (en) * 2004-12-22 2006-06-22 Broadcom Corporation Wireless telephone having multiple microphones
JP4896449B2 (ja) * 2005-06-29 2012-03-14 株式会社東芝 音響信号処理方法、装置及びプログラム
US7813923B2 (en) * 2005-10-14 2010-10-12 Microsoft Corporation Calibration based beamforming, non-linear adaptive filtering, and multi-sensor headset
CN100535992C (zh) * 2005-11-14 2009-09-02 北京大学科技开发部 小尺度麦克风阵列语音增强系统和方法
US7565288B2 (en) * 2005-12-22 2009-07-21 Microsoft Corporation Spatial noise suppression for a microphone array
US8503686B2 (en) * 2007-05-25 2013-08-06 Aliphcom Vibration sensor and acoustic voice activity detection system (VADS) for use with electronic systems
ATE456130T1 (de) * 2007-10-29 2010-02-15 Harman Becker Automotive Sys Partielle sprachrekonstruktion
WO2009102811A1 (en) * 2008-02-11 2009-08-20 Cochlear Americas Cancellation of bone conducted sound in a hearing prosthesis
US8244528B2 (en) * 2008-04-25 2012-08-14 Nokia Corporation Method and apparatus for voice activity determination
US8724829B2 (en) 2008-10-24 2014-05-13 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coherence detection
US9202455B2 (en) * 2008-11-24 2015-12-01 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for enhanced active noise cancellation
US8660281B2 (en) * 2009-02-03 2014-02-25 University Of Ottawa Method and system for a multi-microphone noise reduction
US8315405B2 (en) * 2009-04-28 2012-11-20 Bose Corporation Coordinated ANR reference sound compression
US8620672B2 (en) 2009-06-09 2013-12-31 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal
WO2011133924A1 (en) * 2010-04-22 2011-10-27 Qualcomm Incorporated Voice activity detection
WO2011158506A1 (ja) * 2010-06-18 2011-12-22 パナソニック株式会社 補聴器、信号処理方法及びプログラム
WO2012001928A1 (ja) * 2010-06-30 2012-01-05 パナソニック株式会社 会話検出装置、補聴器及び会話検出方法
US10230346B2 (en) * 2011-01-10 2019-03-12 Zhinian Jing Acoustic voice activity detection

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008507926A (ja) * 2004-07-22 2008-03-13 ソフトマックス,インク 雑音環境内で音声信号を分離するためのヘッドセット
WO2009131772A1 (en) * 2008-04-22 2009-10-29 Bose Corporation Hearing assistance apparatus
JP2011518358A (ja) * 2008-04-22 2011-06-23 ボーズ・コーポレーション ヒアリングアシスタンス装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014016377A (ja) * 2012-07-05 2014-01-30 Oki Electric Ind Co Ltd 音声信号処理装置、方法及びプログラム
JP2014056112A (ja) * 2012-09-12 2014-03-27 Oki Electric Ind Co Ltd 音声信号処理装置、方法及びプログラム
JP2014215963A (ja) * 2013-04-30 2014-11-17 株式会社Nttドコモ イヤホン及び眼球運動推定装置
JP2018521520A (ja) * 2015-04-02 2018-08-02 シバントス ピーティーイー リミテッド 聴音装置
US10798494B2 (en) 2015-04-02 2020-10-06 Sivantos Pte. Ltd. Hearing apparatus
JP2020533619A (ja) * 2017-08-17 2020-11-19 セレンス オペレーティング カンパニー 有音音声検出の複雑性低減およびピッチ推定
US11176957B2 (en) 2017-08-17 2021-11-16 Cerence Operating Company Low complexity detection of voiced speech and pitch estimation
JP7052008B2 (ja) 2017-08-17 2022-04-11 セレンス オペレーティング カンパニー 有声音声検出の複雑性低減およびピッチ推定
JP2019053180A (ja) * 2017-09-14 2019-04-04 株式会社東芝 音響処理装置、音声認識装置、音響処理方法、音声認識方法、音響処理プログラム及び音声認識プログラム

Also Published As

Publication number Publication date
KR20130042495A (ko) 2013-04-26
KR20150080645A (ko) 2015-07-09
US20110288860A1 (en) 2011-11-24
CN102893331A (zh) 2013-01-23
EP2572353B1 (en) 2016-06-01
JP5714700B2 (ja) 2015-05-07
CN102893331B (zh) 2016-03-09
EP2572353A1 (en) 2013-03-27
WO2011146903A1 (en) 2011-11-24

Similar Documents

Publication Publication Date Title
JP5714700B2 (ja) ヘッドマウントマイクロフォンペアを使用する音声信号の処理のためのシステム、方法、装置、及びコンピュータ可読媒体
JP5575977B2 (ja) ボイスアクティビティ検出
JP5038550B1 (ja) ロバストな雑音低減のためのマイクロフォンアレイサブセット選択
JP5329655B2 (ja) マルチチャネル信号のバランスをとるためのシステム、方法及び装置
KR101470262B1 (ko) 다중-마이크로폰 위치 선택적 프로세싱을 위한 시스템들, 방법들, 장치, 및 컴퓨터 판독가능 매체
KR101275442B1 (ko) 멀티채널 신호의 위상 기반 프로세싱을 위한 시스템들, 방법들, 장치들, 및 컴퓨터 판독가능한 매체
KR101463324B1 (ko) 오디오 등화를 위한 시스템들, 방법들, 디바이스들, 장치, 및 컴퓨터 프로그램 제품들
JP2014511612A (ja) 空間的選択音声拡張のためのシステム、方法、装置、およびコンピュータ可読媒体

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140218

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140708

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141110

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20141118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150311

R150 Certificate of patent or registration of utility model

Ref document number: 5714700

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees