JP2012507049A - コヒーレンス検出のためのシステム、方法、装置、およびコンピュータ可読媒体 - Google Patents

コヒーレンス検出のためのシステム、方法、装置、およびコンピュータ可読媒体 Download PDF

Info

Publication number
JP2012507049A
JP2012507049A JP2011533412A JP2011533412A JP2012507049A JP 2012507049 A JP2012507049 A JP 2012507049A JP 2011533412 A JP2011533412 A JP 2011533412A JP 2011533412 A JP2011533412 A JP 2011533412A JP 2012507049 A JP2012507049 A JP 2012507049A
Authority
JP
Japan
Prior art keywords
channel
value
coherency measure
channel signal
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011533412A
Other languages
English (en)
Other versions
JP5307248B2 (ja
Inventor
ビッサー、エリック
リウ、イアン・エルナン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2012507049A publication Critical patent/JP2012507049A/ja
Application granted granted Critical
Publication of JP5307248B2 publication Critical patent/JP5307248B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/8006Multi-channel systems specially adapted for direction-finding, i.e. having a single aerial system capable of giving simultaneous indications of the directions of different signals
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/86Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves with means for eliminating undesired waves, e.g. disturbing noises
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

マルチチャネル信号の異なるチャネルの対応する周波数成分間の位相差に基づいて、方向性コヒーレンシの測度が計算される。ボイスアクティビティ検出および雑音低減へのそのような測度の適用も開示される。

Description

米国特許法第119条に基づく優先権の主張
本特許出願は、本出願の譲受人に譲渡され、2008年10月24日に出願された「Motivation for multi mic phase correlation based masking scheme」と題する米国仮特許出願第61/108,447号に対する優先権を主張する。本特許出願はまた、本出願の譲受人に譲渡され、2009年6月9日に出願された「Systems, methods, apparatus, and computer-readable media for coherence detection」と題する米国仮特許出願第61/185,518号に対する優先権を主張する。本特許出願はまた、本出願の譲受人に譲渡され、2009年9月8日に出願された「Systems, methods, apparatus, and computer-readable media for coherence detection」と題する米国仮特許出願第61/240,318号に対する優先権を主張する。
本開示は、信号処理に関する。
以前は静かなオフィスまたは家庭環境で行われていた多くの活動が、今日では車、街路、またはカフェのような音響的に変動する状況で行われている。たとえば、ある人は、ボイス通信チャネルを使用して別の人と通信することを望むことがある。チャネルは、たとえば、モバイルワイヤレスハンドセットまたはヘッドセット、ウォーキートーキー、双方向無線、カーキット、または別の通信デバイスによって提供され得る。したがって、ユーザが他の人々に囲まれる環境で、人が集まる傾向のある場所で一般的に遭遇する種類の雑音成分を伴って、モバイルデバイス(たとえば、スマートフォン、ハンドセット、および/またはヘッドセット)を使用して、かなりの量のボイス通信が行われている。そのような雑音は、電話会話の遠端にいるユーザの気を散らしたり、いらいらさせたりする傾向がある。その上、多くの標準的な自動業務取引(たとえば、口座残高または株価の確認)はボイス認識ベースのデータ照会を採用しており、これらのシステムの精度は干渉雑音によって著しく妨げられ得る。
通信が雑音の多い環境で行われる適用例では、所望の音声信号を背景雑音から分離することが望ましい場合がある。雑音は、所望の信号を妨害するか、あるいは劣化させるすべての信号の組合せと定義され得る。背景雑音は、他の人々の背景会話など、音響環境内で発生される多数の雑音信号、ならびに所望の信号および/または他の信号のいずれかから発生される反射および残響を含み得る。所望の音声信号が背景雑音から分離されない限り、それを確実に効率的に利用することが困難になる可能性がある。1つの特定の例では、ノイズの多い環境で音声信号が発生され、環境ノイズから音声信号を分離するために音声処理方法が使用される。
モバイル環境中で遭遇される雑音は、競合する話者、音楽、バブル、街頭雑音、および/または空港雑音など、多種多様な成分を含み得る。そのような雑音のシグナチャは一般に非定常であり、ユーザ自身の周波数シグナチャに近いので、従来の単一マイクロフォンまたは固定ビームフォーミングタイプ方法を使用して雑音をモデル化することが難しい場合がある。単一マイクロフォン雑音低減技法は、一般に最適なパフォーマンスを達成するためにかなりのパラメータチューニングを必要とする。たとえば、そのような場合、好適な雑音基準が直接的に利用可能ではない場合があり、雑音基準を間接的に導出することが必要である場合がある。したがって、雑音の多い環境でのボイス通信のためのモバイルデバイスの使用をサポートするために、複数マイクロフォンベースの高度な信号処理が望ましい場合がある。
一般的構成によるマルチチャネル信号を処理する方法は、マルチチャネル信号の複数の異なる周波数成分の各々について、マルチチャネル信号の第1のチャネル中の周波数成分の位相とマルチチャネル信号の第2のチャネル中の周波数成分の位相との間の差を計算することを含む。本方法はまた、複数の計算された位相差からの情報に基づいて、少なくとも複数の異なる周波数成分の到来方向の間のコヒーレンスの程度を示すコヒーレンシ測度の値を計算することを含む。そのような方法を実行するための機械実行可能命令を記憶するコンピュータ可読媒体、そのような方法を実行するように構成された装置、およびそのような装置を含んでいるシステムも、本明細書で開示される。
一般的構成によるマルチチャネル信号を処理するための装置は、マルチチャネル信号の複数の異なる周波数成分の各々について、マルチチャネル信号の第1のチャネル中の周波数成分の位相とマルチチャネル信号の第2のチャネル中の周波数成分の位相との間の差を計算するための手段を含む。そのような装置はまた、複数の計算された位相差からの情報に基づいて、少なくとも複数の異なる周波数成分の到来方向の間のコヒーレンスの程度を示すコヒーレンシ測度の値を計算するための手段を含む。
別の一般的構成によるマルチチャネル信号を処理するための装置は、マルチチャネル信号の複数の異なる周波数成分の各々について、マルチチャネル信号の第1のチャネル中の周波数成分の位相とマルチチャネル信号の第2のチャネル中に周波数成分の位相との間の差を計算するように構成された位相差計算機を含む。そのような装置はまた、複数の計算された位相差からの情報に基づいて、少なくとも複数の異なる周波数成分の到来方向の間のコヒーレンスの程度を示すコヒーレンシ測度の値を計算するように構成されたコヒーレンシ測度計算機を含む。
一般的構成による方法M100のフローチャート。 タスクT100の実装形態T102のフローチャート。 タスクT110の実装形態T112のフローチャート。 タスクT200の実装形態T202のフローチャート。 タスクT200の代替実装形態T204のフローチャート。 タスクT200の代替実装形態T206のフローチャート。 到来方向θを推定するための手法を示す幾何近似の一例を示す図。 マスキング関数のための異なるプロファイルの一例を示す図。 マスキング関数のための異なるプロファイルの一例を示す図。 マスキング関数のための異なるプロファイルの一例を示す図。 図3Aに示された幾何近似の別の例を示す図。 ユーザの口に対して標準配向でユーザの耳に装着されたヘッドセットD100の図。 ヘッドセットD100のための、ユーザの口に対する標準配向の2つの例を示す図。 ハンドセットD300のための、ユーザの口に対する標準配向の2つの例を示す図。 非線形マスキング関数のための異なるプロファイルの一例を示す図。 非線形マスキング関数のための異なるプロファイルの一例を示す図。 非線形マスキング関数のための異なるプロファイルの一例を示す図。 非線形マスキング関数のための異なるプロファイルの一例を示す図。 有声音声信号の256点FFTの最初の128ビンの振幅の一例を示す図。 そのスペクトルが図9に示される信号に、タスクT100の(たとえば、タスクT1122の)一実装形態を適用する一例を示す図。 方法M100の実装形態M200のフローチャート。 タスクT300の実装形態T302のフローチャート。 タスクT310の実装形態T312のフローチャート。 タスクT310の実装形態T314のフローチャート。 タスクT310の実装形態T316のフローチャート。 タスクT302の実装形態T3021のフローチャート。 タスクT302の実装形態T3022のフローチャート。 タスクT300の実装形態T304のフローチャート。 タスクT304の実装形態T3041のフローチャート。 タスクT304の実装形態T3042のフローチャート。 タスクT300の実装形態T306のフローチャート。 タスクT300の実装形態T308のフローチャート。 タスクT308の実装形態T3082のフローチャート。 方法M200の実装形態M210のフローチャート。 方法M100のそのような実装形態M120のフローチャート。 方法M100のそのような実装形態M130のフローチャート。 方法M130の実装形態M140のフローチャート。 タスクT316の実装形態T3164のフローチャート。 タスクT400の実装形態T402のフローチャート。 タスクT500の実装形態T502のフローチャート。 方法M200の実装形態M220のフローチャート。 方法M200の実装形態M230のフローチャート。 方法M230の実装形態M240のフローチャート。 一般的構成による装置A10のブロック図。 装置A10の実装形態A100のブロック図。 装置A10の実装形態A20のブロック図。 装置A20の実装形態A200のブロック図。 装置A10の実装形態A12のブロック図。 装置A12の実装形態A120のブロック図。 装置A100の実装形態A1002のブロック図。 装置A1002の実装形態A2002のブロック図。 装置A10の実装形態A13のブロック図。 装置A13の実装形態A130のブロック図。 装置A10の実装形態A14のブロック図。 装置A14の実装形態A140のブロック図。 装置A14および装置A20の実装形態A24のブロック図。 装置A140および装置A200の実装形態A240のブロック図。 装置A240の実装形態A2402のブロック図。 アレイR100の実装形態R200のブロック図。 アレイR200の実装形態R210のブロック図。 一般的構成によるデバイスD10のブロック図。 デバイスD10の実装形態D20のブロック図。 マルチマイクロフォンワイヤレスヘッドセットD100の様々な図。 マルチマイクロフォンワイヤレスヘッドセットD100の様々な図。 マルチマイクロフォンワイヤレスヘッドセットD100の様々な図。 マルチマイクロフォンワイヤレスヘッドセットD100の様々な図。 マルチマイクロフォンワイヤレスヘッドセットD200の様々な図。 マルチマイクロフォンワイヤレスヘッドセットD200の様々な図。 マルチマイクロフォンワイヤレスヘッドセットD200の様々な図。 マルチマイクロフォンワイヤレスヘッドセットD200の様々な図。 マルチマイクロフォン通信ハンドセットD300の(中心軸に沿った)断面図。 デバイスD300の実装形態D310の断面図。 マルチマイクロフォンメディアプレーヤD400の図。 デバイスD400の実装形態D410の図。 デバイスD400の実装形態D420の図。 マルチマイクロフォンハンズフリーカーキットD500の図。 マルチマイクロフォンライティングデバイスD600の図。 デバイスD700の正面図。 デバイスD700の平面図。 デバイスD710の正面図。 デバイスD710の平面図。 デバイスD10のマルチマイクロフォンポータブルオーディオ感知実装形態D800の図。 方法M300のフローチャート。 タスクT280の実装形態T288のフローチャート。 タスクT280の実装形態T282のフローチャート。 タスクT280の実装形態T284のフローチャート。 タスクT280の実装形態T286のフローチャート。 アレイR100のマルチペア実装形態の一例を示す図。 2マイクロフォンアレイおよび2つの音源を示す図。 2マイクロフォンアレイおよび縦方向マスキング関数を示す図。 2マイクロフォンアレイおよび横方向マスキング関数を示す図。 4マイクロフォンアレイおよび縦方向マスキング関数を示す図。 3マイクロフォンアレイの一般的な例を示す図。 3マイクロフォンアレイの適用例の別の例を示す図。 4マイクロフォンアレイの適用例の一例を示す図。 ハンドセットD300の実装形態D320の正面図。 ハンドセットD320の側面図。 ハンドセットD300の実装形態D330の正面図。 ハンドセットD330の側面図。 広いアドミタンス角度が3つの重複セクタに分割された適用例の一例を示す図。 方法M100の実装形態M400のフローチャート。 タスクT700のそのような実装形態T702のフローチャート。 タスクT700の実装形態T704のフローチャート。 方法M400の実装形態M410のフローチャート。 タスクT720の実装形態T722のフローチャート。 方法M300の実装形態M350のフローチャート。 装置A100の実装形態A400の適用例を示す図。 装置A400の実装形態A420の適用例を示す図。 マイクロフォンのペアが非定常雑音基準を発生するために使用される一例を示す図。 3つ以上のマイクロフォンが非定常雑音基準を発生するために使用される一例を示す図。 方向性マスキング関数および相補的マスクの一例を示す図。 方法M100の実装形態M500のフローチャート。 方法M100の実装形態M600のフローチャート。 タスクT910を含む方法M600の実装形態M610のフローチャート。 ヒストグラムを示す図。 ヒストグラムに基づいてマスキング関数の通過帯域が選択される一例を示す図。 計算されたビームの一例のプロットの図。 計算されたビームの一例のプロットの図。 線形で等距離の4マイクロフォンアレイについて取得されたビームパターンの一例を示す図。 線形で等距離の4マイクロフォンアレイについて取得されたビームパターンの一例を示す図。 線形で等距離の4マイクロフォンアレイについて取得されたビームパターンの一例を示す図。 ラウドスピーカーマイクロフォンセットアップを示す図。 収束した1つのBSS解の一例を示す図。 収束した1つのBSS解の一例を示す図。 より狭いビームを示す図。 より狭いビームを示す図。 図58中のビームから取得された別の狭くされたビームを示す図。
現実の世界は、単一点雑音源を含む複数の雑音源にあふれており、これらは、しばしば複数の音響に入り込んで残響を生じる。背景音響雑音は、一般的な環境によって発生される多数の雑音信号、他の人々の背景会話によって発生される干渉信号、ならびに所望の音響信号および/または他の信号のいずれかから発生される反射および残響を含み得る。
環境雑音は、遠端音声信号などの感知オーディオ信号の了解度に影響を及ぼし得る。所望のオーディオ信号を背景雑音と区別するために信号処理を使用することが望ましい場合がある。通信が雑音の多い環境で行われ得る適用例では、たとえば、音声処理方法を使用して、音声信号を背景雑音と区別し、その了解度を向上させることが望ましい場合がある。雑音は現実の状態ではほとんど常に存在するので、そのような処理は日常的な通信の多くの領域で重要であり得る。
ハンドセットおよびヘッドセットのためのマルチマイクロフォン雑音低減方式は、ビームフォーミング手法(たとえば、一般化サイドローブ消去(GSC)、最小分散無歪応答(MVDR)、および/または線形制約最小分散(LCMV)ビームフォーマ)およびブラインド音源分離(BSS)手法を含む。そのような手法の難点は、一般に、所望の音響(たとえば、近距離話者のボイス)と同じ方向から到来する雑音を抑制することができないことである。特に、ヘッドセットおよび中距離または遠距離ハンドセット適用例(たとえば、ブラウズトークモードおよびスピーカーフォンモード)では、マイクロフォンアレイによって記録されたマルチチャネル信号は、干渉雑音源からの音響および/または所望の近距離話者の音声の著しい残響を含み得る。特にヘッドセットの場合、ユーザの口までの距離が大きいので、マイクロフォンアレイは、方向性情報のみを使用して大幅に抑制することが困難であり得る前面方向からの大量の雑音を拾うことになり得る。
近距離は、音響受信機(たとえば、マイクロフォンアレイ)から1波長未満離れている空間の領域として定義され得る。この定義の下では、領域の境界までの距離は周波数に反比例して変化する。たとえば、200、700、および2000ヘルツの周波数では、1波長境界までの距離は、それぞれ、約170、49、および17センチメートルである。代わりに、近距離/遠距離境界がマイクロフォンアレイから特定の距離(たとえば、アレイの1つのマイクロフォンからまたはアレイの重心から50センチメートル、あるいはアレイの1つのマイクロフォンからまたはアレイの重心から1メートルまたは1.5メートル)にあると考えることが有用である場合がある。
(たとえば、より良好な雑音低減のために)近距離音源からの音響と遠距離音源からの音響とを区別する信号処理方式を実装することが望ましい場合がある。たとえば、所望の近距離話者からの音響と、同じ方向から到来する遠距離音源からの音響とを弁別することが望ましい場合がある。そのような方式の振幅または利得ベースの一例は、音源が近距離であるか遠距離であるかを判断するために、2つのマイクロフォン間の圧力勾配場を使用する。そのような技法は、近距離無音中に遠距離音源からの雑音を低減するために有用であり得るが、しかしながら、両方の音源がアクティブであるとき、近距離信号と遠距離信号との区別をサポートすることができない。そのような技法はまた、一般に、マイクロフォンの互いに対する正確な利得較正に大いに依存し、達成することが困難および/または実行不可能である(たとえば、費用がかかるおよび/または時間がかかる)場合がある。近距離音源無音と近距離音源アクティビティの両方の間に遠距離信号を低減すること、および/または、マイクロフォン利得較正にほとんどもしくはまったく依存せずに、近距離音源からの信号と遠距離音源からの信号とを区別することが望ましい場合がある。
本開示は、(たとえば、マイクロフォンアレイによって生成される)マルチチャネル信号の様々な周波数成分の間の方向性コヒーレンスを判断するように構成されたシステム、方法、および装置の説明を含む。複数の異なる周波数の各々における、信号のチャネルの推定された位相間の差に基づいて方向性コヒーレンスを判断するように、そのようなシステム、方法、または装置を構成することが望ましい場合がある。そのような構成は、本明細書では「位相ベース」とも呼ばれる。位相ベースの構成は、たとえば、複数の異なる周波数と、複数の異なる周波数の各々における推定された位相差との間の相関(たとえば、線形関係の強さ)に従って方向性コヒーレンスを判断する方式を使用し得る。そのような方式は、本明細書では「位相相関ベース」とも呼ばれる。
マイクロフォンアレイは、各チャネルが音響環境へのマイクロフォンのうちの対応する1つの応答に基づく、マルチチャネル信号を生成する。アレイが遠距離音源から発した音響を受信したときに得られるマルチチャネル信号は、一般に、近距離音源から発した受信音響の場合よりも、方向性コヒーレンシが小さくなる。たとえば、複数の異なる周波数成分の各々におけるマイクロフォンチャネル間の位相差は、一般に、近距離音源から発した受信音響の場合よりも遠距離音源から発した受信音響の場合のほうが、周波数との相関が小さくなる。アレイが、ある方向における所望の近距離音源からの音響と、異なる方向における干渉近距離音源からの音響とを受信したとき、各音響に応答してアレイによって生成される信号は、一般に、対応する方向においてコヒーレントになる。
不要な位相差特性(たとえば、周波数と無相関であり、および/または周波数と相関するが、不要な方向においてコヒーレンスを示す位相差)を示す時間周波数点を識別するために、位相ベースまたは位相相関ベースの方式を使用することが望ましい場合がある。そのような識別は、記録されたマルチチャネル信号に対して方向性マスキング演算を実行することを含み得る。たとえば、方向性マスキング演算は、信号の多数の時間周波数点を排除するために、マルチチャネル信号の位相分析の結果に方向性マスキング関数(または「マスク」)を適用することを含み得る。記録された信号に比較したマスク信号の電力の大幅な低減は、その特定の時間間隔中の遠距離音源および/または干渉近距離音源の存在を示すために使用され得、その間隔にわたって記録の1つまたは複数のチャネルを減衰させることが望ましい場合がある。そのような方法は、たとえば、マルチチャネル信号の1次チャネル(すなわち、ユーザのボイスを最も直接的に受信するように配向されたマイクロフォンなど、1次マイクロフォンによって生成された信号に基づくチャネル)中の不要な時間周波数点を減衰させるように構成され得る。
位相ベースまたは位相相関ベースの方向性コヒーレンス方式(たとえば、マスキング方式)の適用の範囲は、非定常拡散および/または方向性雑音の低減と、所望の近距離話者によって生成された音響の残響除去と、マイクロフォンチャネル間の無相関である雑音(たとえば、風および/またはセンサ雑音)の除去と、不要な方向からの音響の抑制と、任意の方向からの遠距離信号の抑制と、(たとえば、遠距離音源からの干渉の大幅な低減のための)直接経路対残響信号強度の推定と、近距離音源と遠距離音源との区別による非定常雑音の低減と、一般に利得ベースの手法では達成可能ではない、所望の近距離音源アクティビティ中ならびに休止中の前面干渉物からの音響の低減とを含む。
2マイクロフォンアレイを有する通信ヘッドセットでは、近距離話者と遠距離話者とを区別するために、したがってその到来方向にかかわらず遠距離干渉を低減するために、位相ベースのマスキング方式が使用され得る。近距離音源からの音響と遠距離音源からの音響との間のそのような区別は、一般に、現在の雑音低減方式では利用可能ではなく、ヘッドセットパフォーマンスに著しい利益を付加することが予想され得る。4マイクロフォンアレイを有する通信ハンドセットでは、近距離話者からの音響の大幅な残響除去、および/またはブラウズトークモード(すなわち、ユーザがデバイスのディスプレイスクリーンを閲覧しながら通話などのボイス通信セッションに関与するデバイス使用モード)のための非定常雑音の低減を得るために、位相ベースのマスキング手法が使用され得る。
1つまたは複数の他の処理演算の上流でマルチチャネル記録入力に対して位相ベースの方式を実行することが望ましい場合がある。たとえば、位相ベースまたは位相相関ベースの演算からの結果が、記録入力に対する利得較正演算、空間選択的処理演算、および/または雑音低減演算など、様々なさらなる適用例をサポートするために使用され得る。
文脈によって明確に限定されない限り、「信号」という用語は、本明細書では、ワイヤ、バス、または他の伝送媒体上に表されたメモリ位置(またはメモリ位置のセット)の状態を含む、その通常の意味のいずれをも示すのに使用される。文脈によって明確に限定されない限り、「発生(generating)」という用語は、本明細書では、計算(computing)または別様の生成(producing)など、その通常の意味のいずれをも示すのに使用される。文脈によって明確に限定されない限り、「計算(calculating)」という用語は、本明細書では、複数の値から計算(computing)すること、評価すること、推定すること、および/または選択することなど、その通常の意味のいずれをも示すのに使用される。文脈によって明確に限定されない限り、「得る」という用語は、計算(calculating)、導出、(たとえば、外部デバイスからの)受信、および/または(たとえば、記憶要素のアレイからの)検索など、その通常の意味のいずれをも示すのに使用される。文脈によって明確に限定されない限り、「選択」という用語は、2つ以上のもののセットのうちの少なくとも1つ、およびそのすべてよりも少ないものを識別すること、示すこと、適用すること、および/または使用することなど、その通常の意味のいずれをも示すのに使用される。「備える」という用語は、本明細書および特許請求の範囲において使用される場合、他の要素または動作を除外するものではない。「に基づく」(「AはBに基づく」など)という用語は、(i)「導出された」(たとえば、「BはAのプリカーサーである」)、(ii)「少なくとも〜に基づく」(たとえば、「Aは少なくともBに基づく」)、および特定の文脈で適当な場合に、(iii)「と等しい」(たとえば、「AはBと等しい」)という場合を含む、その通常の意味のいずれをも示すのに使用される。同様に、「〜に応答して」という用語は、「少なくとも〜に応答して」を含むその通常の意味のいずれをも示すのに使用される。
マルチマイクロフォンオーディオ感知デバイスのマイクロフォンの「ロケーション」への言及は、文脈による別段の指示がない限り、マイクロフォンの音響的に敏感な面の中心のロケーションを示す。「チャネル」という用語は、特定の文脈によれば、あるときは信号経路を示し、またあるときは、そのような経路によって搬送される信号を示すために使用される。別段の指示がない限り、「一連」という用語は、2つ以上のアイテムの連続を示すために使用される。「対数」という用語は、底10の対数を示すために使用されるが、そのような演算の他の底への拡張は本開示の範囲内である。「周波数成分」という用語は、(たとえば、高速フーリエ変換によって生成される)信号の周波数領域表現のサンプルなど、信号の周波数または周波数帯域のセット、または信号のサブバンド(たとえば、バーク尺度またはメル尺度サブバンド)のうちの1つを示すために使用される。
別段の指示がない限り、特定の特徴を有する装置の動作のいかなる開示も、類似の特徴を有する方法を開示する(その逆も同様)ことをも明確に意図し、特定の構成による装置の動作のいかなる開示も、類似の構成による方法を開示する(その逆も同様)ことをも明確に意図する。「構成」という用語は、その特定の文脈によって示されるように、方法、装置、および/またはシステムに関して使用され得る。「方法」、「プロセス」、「手順」、および「技法」という用語は、特定の文脈による別段の指示がない限り、一般的、互換的に使用される。「装置」および「デバイス」という用語も、特定の文脈による別段の指示がない限り、一般的、互換的に使用される。「要素」および「モジュール」という用語は、より大きい構成の一部を示すのに一般的に使用される。文脈によって明確に限定されない限り、「システム」という用語は、本明細書では、「共通の目的にサービスするために相互に作用する要素のグループ」を含む、その通常の意味のいずれをも示すのに使用される。文書の一部の参照によるいかなる組込みも、そのような定義が文書中の他の場所、ならびに組み込まれた部分で参照される図に現れた場合、その部分内で言及された用語または変数の定義を組み込んでいることをも理解されたい。
本明細書は、感知マルチチャネル信号のある周波数成分が許容できるマイクロフォン間角度の範囲内から発したか、またはその範囲外から発したかを判断するために、マイクロフォン間距離、および周波数とマイクロフォン間位相差との間の相関に関する情報を適用するシステム、方法、および装置の開示を含む。そのような判断は、(たとえば、その範囲内から発する音響が保存され、その範囲外で発する音響が抑制されるように)異なる方向から到来する信号同士を区別するために、および/または近距離信号と遠距離信号とを区別するために使用され得る。
典型的な適用例では、そのようなシステム、方法、または装置は、マルチチャネル信号の時間周波数点ごとにマイクロフォンペアに関する到来方向を計算するために使用される。所望の範囲内の到来方向を有する点を他の到来方向を有する点と区別するために、これらの結果に方向性マスキング関数が適用され得る。マスキング演算からの結果は、マスク外の到来方向を有する時間周波数点を排除するまたは減衰させることによって不要な方向からの信号を除去するために使用され得る。たとえば、(たとえば、各到来方向にマッピングする測定時間周波数点の数を計算することによって)すべての時間周波数点にわたって到来方向のヒストグラムを計算し、そのヒストグラムから所望の方向を選択することが望ましい場合がある。
図1Aは、一般的構成によるマルチチャネル信号を処理する方法M100のフローチャートを示す。方法M100は、マルチチャネル信号の複数の異なる周波数成分の各々についてその信号のチャネル(たとえば、マイクロフォンチャネル)間の位相差を計算するタスクT100と、計算された位相差に基づいてコヒーレンシ測度を計算するタスクT200とを含む。
方法M100は、マルチチャネル信号を一連のセグメントとして処理するように構成され得る。典型的なセグメント長は、約5または10ミリ秒から約40または50ミリ秒にわたり、セグメントは重複(たとえば、隣接するセグメントが25%または50%だけ重複)していても重複していなくてもよい。1つの特定の例では、マルチチャネル信号は、各々10ミリ秒の長さを有する一連の重複しないセグメントまたは「フレーム」に分割される。タスクT100は、位相差のセット(たとえば、ベクトル)を計算するように構成され得、タスクT200は、セグメントの各々について、コヒーレンシ測度を計算するように構成され得る。方法M100によって処理されるセグメントはまた、異なる演算によって処理されるより大きいセグメントのセグメント(すなわち、「サブフレーム」)であるか、またはその逆であり得る。
図1Bは、タスクT100の実装形態T102のフローチャートを示す。マイクロフォンチャネルごとに、タスクT102は、異なる周波数成分の各々についてチャネルの位相を推定するサブタスクT110のそれぞれのインスタンスを含む。図1Cは、サブタスクT1121とT1122とを含むタスクT110の実装形態T112のフローチャートを示す。タスクT1121は、高速フーリエ変換(FFT)または離散コサイン変換(DCT)など、チャネルの周波数変換を計算する。タスクT1121は、一般に、セグメントごとにチャネルの周波数変換を計算するように構成される。たとえば、タスクT1121を、各セグメントの128点または256点FFTを実行するように構成することが望ましい場合がある。タスクT1121の代替実装形態は、サブバンドフィルタのバンクを使用してチャネルの様々な周波数成分を分離するように構成される。
タスクT1122は、(「ビン」とも呼ばれる)異なる周波数成分の各々についてマイクロフォンチャネルの位相を計算する(たとえば、推定する)。たとえば、検査すべき周波数成分ごとに、タスクT1122は、FFT係数の実数項に対する対応するFFT係数の虚数項の比の(アークタンジェントとも呼ばれる)逆タンジェントとして位相を推定するように構成され得る。
タスクT102はまた、各チャネルの推定された位相に基づいて、異なる周波数成分の各々について位相差Δψを計算するサブタスクT120を含む。タスクT120は、あるチャネル中のその周波数成分の推定された位相を別のチャネル中のその周波数成分の推定された位相から減算することによって位相差を計算するように構成され得る。たとえば、タスクT120は、1次チャネル中のその周波数成分の推定された位相を別の(たとえば、2次)チャネル中のその周波数成分の推定された位相から減算することによって位相差を計算するように構成され得る。そのような場合、1次チャネルは、デバイスの典型的な使用中にユーザのボイスを最も直接的に受信することが予想されるマイクロフォンに対応するチャネルなど、最も高い信号対雑音比を有することが予想されるチャネルであり得る。
方法M100(またはそのような方法を実行するように構成されたシステムもしくは装置)を、広帯域周波数範囲にわたるマルチチャネル信号のチャネル間の方向性コヒーレンスを判断するように構成することが望ましい場合がある。そのような広帯域範囲は、たとえば、0、50、100、または200Hzの低周波限界から、3、3.5、または4kHz(またはさらにより高い、最高7または8kHzもしくはそれ以上など)の高周波限界まで広がり得る。しかしながら、タスクT100は、信号の全帯域幅にわたって位相差を計算することが不要である場合がある。そのような広帯域範囲中の多くの帯域では、たとえば、位相推定が実行不可能または不要である場合がある。超低周波数における受信波形の位相関係の実際的な評価は、一般に、トランスデューサ間の相応して大きい間隔を必要とする。したがって、マイクロフォン間の最大利用可能間隔は低周波限界を確立し得る。他方、マイクロフォン間の距離は、空間エイリアシングを回避するために最小波長の半分を超えてはならない。たとえば、8キロヘルツサンプリングレートは、0から4キロヘルツの帯域幅を与える。4kHz信号の波長は約8.5センチメートルであり、したがってこの場合、隣接するマイクロフォン間の間隔は約4センチメートルを超えてはならない。マイクロフォンチャネルは、空間エイリアシングを生じ得る周波数を除去するために低域フィルタ処理され得る。
特定の周波数成分、または音声信号(または他の所望の信号)が方向性コヒーレントであることが予想され得る特定の周波数範囲をターゲットにすることが望ましい場合がある。(たとえば、自動車などの音源からの)方向性雑音および/または拡散雑音など、背景雑音は同じ範囲にわたって方向性コヒーレントでないと予想され得る。音声は4〜8キロヘルツの範囲の低い電力を有する傾向があり、したがって、少なくともこの範囲にわたる位相推定を控えることが望ましい場合がある。たとえば、約700ヘルツから約2キロヘルツまでの範囲にわたって位相推定を実行し、方向性コヒーレンシを判断することが望ましい場合がある。
したがって、タスクT1121によって生成された周波数成分のすべてよりも少ない周波数成分について(たとえば、タスクT1121によって実行されたFFTの周波数サンプルのすべてよりも少ないサンプルについて)位相推定値を計算するようにタスクT1122を構成することが望ましい場合がある。一例では、タスクT1122は、700Hz〜2000Hzの周波数範囲について位相推定値を計算する。4キロヘルツ帯域幅信号の128点FFTの場合、700〜2000Hzの範囲は、10個のサンプルから32個のサンプルまでの23個の周波数サンプルにほぼ対応する。
タスクT100によって計算された位相差からの情報に基づいて、タスクT200は、マルチチャネル信号のコヒーレンシ測度を計算する。図2Aは、サブタスクT210を含むタスクT200の実装形態T202のフローチャートを示す。タスクT100からの複数の計算された位相差の各々について、タスクT210は、対応する方向インジケータを計算する。
タスクT210は、マルチチャネル信号の対応する周波数成分fiの到来方向θiとして方向インジケータの各々を計算するように構成され得る。たとえば、タスクT210は、量
Figure 2012507049
の(アークコサインとも呼ばれる)逆コサインとして到来方向θiを推定するように構成され得る。上式で、cは音速(約340m/sec)を示し、dはマイクロフォン間の距離を示し、Δψiは、2つのマイクロフォンについての対応する位相推定値間のラジアン単位の差を示し、fiは、位相推定値が対応する周波数成分(たとえば、対応するFFTサンプルの周波数、または対応するサブバンドの中心またはエッジ周波数)である。代替的に、タスクT210は、量
Figure 2012507049
の逆コサインとして到来方向θiを推定するように構成され得る。上式で、λiは周波数成分fiの波長を示す。
図3Aは、2マイクロフォンアレイMC10、MC20のうちのマイクロフォンMC20に関する到来方向θを推定するためのこの手法を示す幾何近似の一例を示す。この例では、θi=0の値は、基準縦方向(すなわち、マイクロフォンMC10の方向)からマイクロフォンMC20に到来する信号を示し、θi=πの値は、他の縦方向から到来する信号を示し、θi=π/2の値は、横方向から到来する信号を示す。別の例では、タスクT210は、異なる基準位置(たとえば、マイクロフォンMC10またはマイクロフォン間の中間のポイントなど、何らかの他のポイント)および/または異なる基準方向(たとえば、他の縦方向、横方向など)に対してθiを評価するように構成され得る。
図3Aに示す方式は、Δψiの正値(たとえば、0〜π/2)について使用され得る。図4は、Δψiの負値(たとえば、0〜−π/2)について同じ近似を使用する一例を示す。この場合、上記で説明されたように、角度ζを評価するために逆コサインが計算され得、次いで、到来方向θiを生じるために角度ζがπラジアンから減算され得る。Δψiの正値(たとえば、正縦ローブ)のみが重要である場合、Δψiが負であるとき、到来方向θiの計算は不要であり得る。たとえば、Δψiが負である成分を除去するか、または場合によっては雑音として分類することが望まれる場合がある。また、到来方向θiは、ラジアンの代わりに、度数、または特定の適用例に適した他の単位で表され得ることを、実践技術者は理解するであろう。
上記のように、到来方向θiの計算は、図3Aおよび図4に示すように幾何近似に従って実行され得る。この近似では、距離sが距離Lに等しいと仮定し、ただし、sは、マイクロフォンMC20の位置と、音源とマイクロフォンMC20との間のライン上へのマイクロフォンMC10の位置の直交射影との間の距離であり、Lは、音源までの各マイクロフォンの距離の間の実際の差である。マイクロフォンMC20に関する到来方向θが0に近づくにつれて、誤差(s−L)は小さくなる。この誤差はまた、音源とマイクロフォンアレイとの間の相対距離が増加するにつれて、小さくなる。
代替実装形態では、タスクT210は、マルチチャネル信号の対応する周波数成分fiの到来時間遅延τi(たとえば、秒単位)として方向インジケータの各々を計算するように構成される。タスクT210は、
Figure 2012507049
または
Figure 2012507049
などの式を使用して、マイクロフォンMC10に関するマイクロフォンMC20における到来時間遅延τiを推定するように構成され得る。これらの例では、τi=0の値は、横方向から到来する信号を示し、τiの大きい正値は、基準縦方向から到来する信号を示し、τiの大きい負値は、他の縦方向から到来する信号を示す。Δψiの正値(たとえば、正縦ローブ)のみが重要である場合、Δψiが負であるとき、到来時間遅延τiの計算は不要であり得る。値τiを計算する際に、サンプリング周期(たとえば、8kHzのサンプリングレートでは125マイクロ秒単位)または数分の1秒(たとえば、10-3、10-4、10-5、もしくは10-6秒)など、特定の適用例に適すると考えられる時間単位を使用することが望ましい場合がある。タスクT210はまた、時間領域中の各チャネルの周波数成分fiを相互相関させることによって到来時間遅延τiを計算するように構成され得ることに留意されたい。
理想的に方向性コヒーレントな信号の場合、
Figure 2012507049
の値はすべての周波数について定数kに等しく、ここで、kの値は到来方向θおよび到来時間遅延τに関係する。別の代替実装形態では、タスクT210は、推定された位相差Δψiと周波数fiとの間の比ri(たとえば、
Figure 2012507049
)として方向インジケータの各々を計算するように構成される。Δψiの正値(たとえば、正縦ローブ)のみが重要である場合、Δψiが負であるとき、比riの計算は不要であり得る。

Figure 2012507049
または
Figure 2012507049
は、遠距離モデル(すなわち、平波面を仮定するモデル)に従って方向インジケータθiを計算するが、式
Figure 2012507049

Figure 2012507049

Figure 2012507049
、および
Figure 2012507049
は、近距離モデル(すなわち、球波面を仮定するモデル)に従って方向インジケータτiおよびriを計算することに留意されたい。近距離モデルに基づく方向インジケータは、より正確なおよび/または計算するのがより容易な結果を与え得るが、上記で説明されたように、方向インジケータθiは、振幅制御(たとえば、利得制御)などの適用例に有用であり得る位相差の非線形マッピングを与える。
タスクT202はまた、タスクT210によって生成された方向インジケータをレーティングするサブタスクT220を含む。タスクT220は、検査されるべき周波数成分ごとに、方向インジケータの値を振幅、絶対値、またはパス/フェイル尺度に対応する値に変換またはマッピングすることによって、方向インジケータをレーティングするように構成され得る。たとえば、タスクT220は、各方向インジケータの値を、示された方向がマスキング関数の通過帯域内に入るかどうか(および/またはどの程度入るか)を示すマスクスコアにマッピングするために、方向性マスキング関数を使用するように構成され得る。(このコンテキストでは、「通過帯域」という用語は、マスキング関数によってパスされる到来方向の範囲を指す。)様々な周波数成分のためのマスクスコアのセットはベクトルと見なされ得る。
マスキング関数の通過帯域は、所望の信号方向を含むように選択され得る。マスキング関数の空間選択性は、アドミタンス範囲(すなわち、関数によってパスされる到来方向または時間遅延の範囲)と雑音除去との間の所望のトレードオフに従って選択され得る、通過帯域の幅を変化させることによって制御され得る。広通過帯域は、より大きいユーザモビリティおよび使用のフレキシビリティを可能にし得るが、マルチチャネル信号中の環境雑音のより多くが出力をパススルーすることを可能にすることも予想される。
オーディオ感知デバイスは、一般に、ユーザの口に対して一定のジオメトリに(すなわち、標準配向に)保持される。通常使用中に、ポータブルオーディオ感知デバイスは、所望の音源に対する標準配向の範囲のうちのいずれかで動作し得る。たとえば、異なるユーザがデバイスを別様に着用または保持することができ、同じ使用期間内(たとえば、単一の通話中)でさえ、同じユーザが異なる時間にデバイスを別様に着用または保持することができる。図5は、ユーザの口に対して標準配向でユーザの耳に装着されたヘッドセットの平面図を示し、図6は、ユーザの口に対するヘッドセットの標準配向の範囲内にある2つの例の側面図を示す。標準配向の所望の許容範囲に従ってマスキング関数の通過帯域を選択することが望ましい場合がある。0度が、アレイがユーザの口に最も直接的に向けられる標準配向を示す場合、たとえば、ヘッドセット適用例では、(+45〜−45度の到来方向の範囲にわたる)+45〜−45度の通過帯域を規定することが望ましい場合がある。
ハンドセットの場合、ヘッドセットの場合よりも大きい範囲の標準配向を可能にすることが望ましい場合がある。たとえば、0度が、アレイがユーザの口に最も直接的に向けられる標準配向を示す場合、+90〜−90度の通過帯域を有するようにハンドセット適用例のためのマスキング関数を構成することが望ましい場合がある。図7は、ハンドセットの場合のユーザの口に対する標準配向の範囲内にある2つの例を示す。
停止帯域と通過帯域との間の1つまたは複数の遷移のロケーションおよび/またはシャープネスが、信号対雑音比(SNR)、雑音フロアなどの1つまたは複数の係数の値に応じて演算中に選択可能および/または可変であるように、方向性マスキング関数は実装され得る。たとえば、SNRが低いとき、より狭い通過帯域を使用することが望ましい場合がある。
所望の適用例に従って方向性マスキング関数の伝達関数を選択することが望ましい場合がある。(たとえば、ボイスアクティビティ検出適用例のための)2進値出力を得るために、通過帯域と停止帯域との間の比較的急激な遷移を有するマスキング関数(たとえば、到来方向θ=π/4を中心とする通過帯域を有するマスキング関数についての図3Bに示す、ブリックウォールプロファイル)を使用するようにタスクT220を構成することが望ましい場合がある。1つのそのような場合には、タスクT220は、方向インジケータが関数の通過帯域内の方向を示すときは、第1の値(たとえば、1)を有するマスクスコアを戻し、方向インジケータが関数の通過帯域外の方向を示すときは、第2の値(たとえば、0)を有するマスクスコアを戻すように構成される。
一方、(たとえば、利得制御または他の振幅制御適用例のための)多値出力を得るために、通過帯域と停止帯域との間のあまり急激でない遷移(たとえば、より緩やかなロールオフ)を有するマスキング関数を使用するようにタスクT220を構成することが望ましい場合がある。図3Cは、線形ロールオフと到来方向θ=π/4を中心とする通過帯域とを有するマスキング関数の一例を示し、図3Dは、非線形ロールオフと到来方向θ=π/4を中心とする通過帯域とを有するマスキング関数の一例を示す。
非線形方向性マスキング関数の一例は、次のように表され得る。
Figure 2012507049
上式で、θTはターゲット到来方向を示し、wはラジアン単位のマスクの所望の幅を示し、γはシャープネスパラメータを示す。図8A〜図8Dは、それぞれ
Figure 2012507049

Figure 2012507049

Figure 2012507049
、および
Figure 2012507049
に等しい(γ,w,θT)のための関数の例を示す。そのような関数は、方向θではなく時間遅延τまたは比rに関しても表され得る。
小さいマイクロフォン間距離(たとえば、10cm以下)および低い周波数(たとえば、1kHz未満)の場合、Δψの観測可能値は限定され得ることに留意されたい。200Hzの周波数成分の場合、たとえば、対応する波長は約170cmである。1センチメートルのマイクロフォン間距離を有するアレイは、この成分について、わずか約2度の(たとえば、縦形の)最大位相差を観測することができる。そのような場合、2度よりも大きい観測された位相差は、2つ以上の音源からの信号(たとえば、信号およびその残響)を示す。したがって、報告された位相差が最大値(たとえば、特定のマイクロフォン間距離および周波数を仮定した、最大観測可能位相差)を超えるときを検出するように方法M100を構成することが望ましい場合がある。そのような状態は、単一の音源と矛盾するとして解釈され得る。1つのそのような例では、そのような状態が検出されたとき、対応する周波数成分のためのマスクスコアは最低マスクスコア(たとえば、0)に設定される。
特定のタイプの音源からの方向性コヒーレント信号の存在を検出することが望まれる適用例の場合、ターゲット信号の他の特性に関する情報に従って方法M100を変更することが望ましい場合がある。そのような変更の潜在的な利点は、探索空間を低減すること、および雑音の多いデータを除外することを含む。ボイスアクティビティ検出適用例の場合、たとえば、音声信号の1つまたは複数の特性に関係する情報に従って方法M100を構成することが望ましい場合がある。
有声音声(たとえば、母音)のエネルギースペクトルは、ピッチ周波数の高調波においてローカルピークを有する傾向がある。図9は、アスタリスクがピークを示す、そのような信号の256点FFTの最初の128ビンの振幅を示す。一方、背景雑音のエネルギースペクトルは、比較的非構造的である傾向がある。したがって、ピッチ周波数の高調波における入力チャネルの成分は、他の成分よりも高い信号対雑音比(SNR)を有することが予想され得る。方法M100の音声処理適用例(たとえば、ボイスアクティビティ検出適用例)の場合、推定されたピッチ周波数の倍数に対応する位相差のみを検討するようにタスクT100を構成する(たとえば、タスクT1122を構成する)ことが望ましい場合がある。
典型的なピッチ周波数は、男性話者の約70〜100Hzから女性話者の約150〜200Hzまで変動する。現在のピッチ周波数は、(たとえば、1次マイクロフォンチャネルにおける)隣接するピッチピーク間の距離としてピッチ周期を計算することによって推定され得る。入力チャネルのサンプルは、(たとえば、サンプルエネルギーとフレーム平均エネルギーとの間の比に基づく)そのエネルギーの測度、および/またはサンプルの近傍が既知のピッチピークの同様の近傍とどの程度相関されるかの測度に基づいて、ピッチピークとして識別され得る。ピッチ推定手順は、たとえば、www−dot−3gpp−dot−orgにおいてオンラインで入手可能なEVRC(Enhanced Variable Rate Codec)文献C.S0014−Cのセクション4.6.3(pp.4−44〜4−49)に記載されている。(たとえば、ピッチ周期または「ピッチラグ」の推定値の形態の)ピッチ周波数の現在の推定値は、一般に、音声符号化および/または復号を含む適用例(たとえば、符号励振線形予測(CELP)およびプロトタイプ波形補間(PWI)など、ピッチ推定を含むコーデックを使用するボイス通信)においてすでに利用可能であろう。
図10は、そのスペクトルが図9に示される信号に、タスクT100の(たとえば、タスクT1122の)そのような一実装形態を適用する一例を示す。点線は、検討されるべき周波数レンジを示す。この例では、範囲は、10番目の周波数ビンから76番目の周波数ビン(約300〜2500Hz)まで広がる。ピッチ周波数(この例では約190Hz)の倍数に対応する位相差のみを検討することによって、検討されるべき位相差の数は、67からわずか11に低減される。その上、これらの11の位相差が計算される周波数係数は、検討されている周波数範囲内の他の周波数係数に対して高いSNRを有するであろうことが予想され得る。より一般的場合では、他の信号特性も検討され得る。たとえば、計算された位相差の少なくとも25、50、または75パーセントが推定されたピッチ周波数の倍数に対応するように、タスクT1122を構成することが望ましい場合がある。同じ原理が、他の所望の高調波信号に同様に適用され得る。方法M100の関係する実装形態では、タスクT100は、マルチチャネル信号の少なくともサブバンドの周波数成分の各々について位相差を計算するように構成され、タスクT200は、推定されたピッチ周波数の倍数に対応する位相差のみに基づいてコヒーレンシ測度の値を計算するように構成される。
フォルマント追跡は、音声処理適用例(たとえば、ボイスアクティビティ検出適用例)のための方法M100の一実装形態に含まれ得る別の音声特性関係手順である。フォルマント追跡は、線形予測符号化、隠れマルコフモデル(HMM)、カルマンフィルタ、および/またはメル周波数ケプストラム係数(MFCC)を使用して実行され得る。フォルマント情報は、一般に、音声符号化および/または復号(たとえば、線形予測符号化を使用するボイス通信、MFCCおよび/またはHMMを使用する音声認識適用例)を含む適用例においてすでに利用可能である。
タスクT202はまた、レーティング結果に基づいて信号のコヒーレンシ測度を計算するサブタスクT230を含む。たとえば、タスクT230は、コヒーレンシ測度を得るために、当該の周波数(たとえば、700〜2000Hzの範囲内の成分、および/またはピッチ周波数の倍数における成分)に対応する様々なマスクスコアを組み合わせるように構成され得る。たとえば、タスクT230は、(たとえば、マスクスコアを合計することによって、またはマスクスコアの平均を得るためにその和を正規化することによって)マスクスコアを平均化することによってコヒーレンシ測度を計算するように構成され得る。そのような場合、タスクT230は、マスクスコアの各々を等しく重み付けする(たとえば、各マスクスコアを1で重み付けする)か、または1つまたは複数のマスクスコアを互いに別様に重み付けする(たとえば、中域周波数成分に対応するマスクスコアよりも低周波数成分または高周波数成分に対応するマスクスコアをより軽く重み付けする)ように構成され得る。代替的に、タスクT230は、当該の周波数成分(たとえば、700〜2000Hzの範囲内の成分、および/またはピッチ周波数の倍数における成分)の重み付けされた値(たとえば、絶対値)の和を計算することによってコヒーレンシ測度を計算するように構成され得、ただし、各値は、対応するマスクスコアによって重み付けされる。そのような場合、各周波数成分の値は、マルチチャネル信号の1つのチャネル(たとえば、1次チャネル)から、または(たとえば、各チャネルからの対応値の平均として)両方のチャネルから取られ得る。
図2Bは、タスクT200の代替実装形態T204のフローチャートを示す。複数の方向インジケータの各々をレーティングする代わりに、タスクT204は、対応する方向性マスキング関数miを使用して各位相差ΔψiをレーティングするサブタスクT240を含む。θLからθHまでの範囲内の方向から到来するコヒーレント信号を選択することが望まれる場合、各マスキング関数miは、ΔψLiからΔψHiまで変動する通過帯域を有するように構成され得、ここで、
Figure 2012507049
(同等に、
Figure 2012507049
)および
Figure 2012507049
(同等に、
Figure 2012507049
)である。τLからτHまでの到来時間遅延の範囲に対応する方向から到来するコヒーレント信号を選択することが望まれる場合、各マスキング関数miは、ΔψLiからΔψHiまで変動する通過帯域を有するように構成され得、ここで、ΔψLi=2πfiτL(同等に、
Figure 2012507049
)およびΔψHi=2πfiτH(同等に、
Figure 2012507049
)である。rLからrHまでの位相差対周波数の比の範囲に対応する方向から到来するコヒーレント信号を選択することが望まれる場合、各マスキング関数miは、ΔψLiからΔψHiまで変動する通過帯域を有するように構成され得、ここで、ΔψLi=fiLおよびΔψHi=fiHである。タスクT220に関して上記で説明されたように、各マスキング関数のプロファイルは、所望の適用例(たとえば、ボイスアクティビティ検出、利得制御など)に従って選択され得る。
場合によっては、所定の到来方向または到来時間遅延に関係なくコヒーレンシ測度を計算することが望ましい場合がある。図2Cは、サブタスクT250を含むタスクT200の代替実装形態T206のフローチャートを示す。タスクT210によって計算された方向インジケータに基づいて、タスクT250は、マルチチャネル信号のコヒーレンシ測度を計算する。タスクT250は、様々な周波数成分のための方向インジケータの現在値の分布に基づいてコヒーレンシ測度を計算するように構成され得る。1つの特定の例では、タスクT250は、方向インジケータの分散に基づいてコヒーレンシ測度を計算するように構成される。たとえば、タスクT250のそのような一実装形態は、各方向インジケータの2乗差と方向インジケータの平均との和に基づいてコヒーレンシ測度を計算するように構成され得る。そのような分布を計算する際に、1つまたは複数の方向インジケータを互いに別様に重み付けすることが望ましい場合がある。たとえば、中域周波数帯域に対応する方向インジケータよりも低周波数帯域または高周波数帯域に対応する方向インジケータをより軽く重み付けすることが望ましい場合がある。
時間平滑化された値としてコヒーレンシ測度を生成するようにタスクT230またはタスクT250を構成することが望ましい場合がある。たとえば、そのようなタスクは、有限または無限インパルス応答フィルタなど、時間平滑化関数を使用してコヒーレンシ測度を計算するように構成され得る。そのような一例では、タスクは、最も最近のm個のフレームにわたる平均値としてコヒーレンシ測度を生成するように構成され、ここで、mのあり得る値は、4、5、8、10、16、および20を含む。別のそのような例では、タスクは、(1次IIRまたは再帰的フィルタとしても知られる)z(n)=αz(n−1)+(1−α)c(n)などの式に従ってフレームnの平滑化されたコヒーレンシ測度z(n)を計算するように構成される。上式で、z(n−1)は、前のフレームの平滑化されたコヒーレンシ測度を示し、c(n)は、コヒーレンシ測度の現在の平滑化されていない値を示し、αは、値が0(平滑化なし)から1(更新なし)までの範囲から選択され得る平滑化係数である。平滑化係数αの典型的な値は、0.1、0.2、0.25、0.3、0.4、および0.5を含む。(たとえば、オーディオ感知回路の電源投入または他の活動化の直後の)初期収束期間中に、タスクは、後続の定常状態動作中よりも、より短い間隔にわたってコヒーレンシ測度を平滑化するか、または平滑化係数αのより小さい値を使用することが望ましい場合がある。
コヒーレンシ測度を評価することに加えて、計算された位相差からの情報に基づいて、マルチチャネル信号の1つまたは複数のチャネルの1つまたは複数の周波数成分の利得を制御する(あるいはその振幅を変化させる)ことが望ましい場合がある。たとえば、コヒーレンシ測度の値が低いときよりも、コヒーレンシ測度の値が高いときに、少なくとも1つのチャネルにより高い利得を適用することが望ましい場合がある。図11Aは、タスクT200の実装形態T300を含む方法M100の実装形態M200のフローチャートを示す。上記で説明されたようにコヒーレンシ測度の値を計算することに加えて、タスクT300は、計算された位相差とマルチチャネル信号の少なくとも1つのチャネルとに基づくマスク信号を生成する。タスクT300は、対応するレーティング結果の値に従って少なくとも1つのチャネルの周波数成分を重み付けまたはゲートすることの結果に基づくマスク信号を生成するように構成され得る。たとえば、タスクT300は、計算された位相差のためのレーティング結果(たとえば、マスクスコア)に基づいてマルチチャネル信号の1つまたは複数のチャネルの1つまたは複数の周波数成分の振幅を変化させることによってマスク信号を生成するように構成され得る。
マスク信号は、シングルチャネル信号とすることもでき、または2つ以上のチャネルを有することもできる。複素数値周波数成分の場合、成分の振幅を変化させることは、同じ係数によって成分の実数値および虚数値を変化させることによって、または成分の絶対値を変化させることによって、または成分に利得係数を適用することによって実行され得る。信号の少なくとも1つの周波数成分の振幅を変化させることはまた、時間領域中の信号に利得係数を適用することによって実行され得る。そのような振幅変化演算は、(たとえば、デシベルの値を有する利得係数を適用することによって)直線的にまたは対数的に実行され得る。
図11Bは、タスクT300の実装形態T302のフローチャートを示す。上記で説明されたタスクT202の一実装形態でもあるタスクT302は、レーティングタスクT220の第2のインスタンスT220bを含む。本明細書で説明される実装形態のいずれかに従って構成され得るタスクT220bは、タスクT220の他のインスタンスとは異なる方向性マスキング関数を使用するように構成され得る。タスクT302はまた、タスクT220bによって生成されたレーティング結果からの情報に基づいて、マルチチャネル信号の少なくとも1つのチャネル(たとえば、1次チャネル)の少なくとも1つの周波数成分の振幅を変化させることによってマスク信号を生成するように構成されたタスクT310を含む。図12Aは、タスクT220およびT220bがタスクT220の単一のインスタンスを使用して実装された、タスクT302の実装形態T3021のフローチャートを示す。
信号マスキングタスクT310は、レーティング結果を、少なくとも1つのチャネルの対応する周波数成分に、少なくとも1つのチャネルのサブバンドに、あるいは1つまたは複数のチャネル全体に適用するように構成され得る。図11Cは、周波数成分の少なくとも1つの各々をその周波数成分に対応するレーティング結果によって重み付けすることによって、レーティング結果を少なくとも1つのチャネルに適用する信号マスキングタスクT310の実装形態T312のフローチャートを示す。たとえば、タスクT312は、smi=ci×fiなどの式に従って、マルチチャネル信号のチャネルの周波数成分の一部または全部に、重み係数としてマスクスコアを適用することによってマスク信号を生成するように構成され得る。上式で、fiはi番目の周波数成分を示し、ciは対応するマスクスコアを示し、smiはマスク信号の対応する周波数成分を示す。(たとえば、非アクティブフレームの過大な減衰を回避するために)マスクスコアの値および/またはマスキングされた周波数成分の絶対値に、より低い制限を課すようにタスクT310を構成することが望ましい場合がある。
代替または追加として、タスクT312は、マルチチャネル信号のチャネルの周波数成分の一部または全部をゲートすることによって、マスク信号を生成するように構成され得る。たとえば、タスクT312は、次のような式に従ってマスク信号を生成するように構成され得る。
Figure 2012507049
これらの例では、Tiは、すべての周波数成分fiについて同じ値を有し得るしきい値を示す。代替的に、しきい値Tiは、(たとえば、所望の信号の予想されるスペクトルプロファイルなど、指定されたスペクトルプロファイルに従って)周波数成分の2つ以上および場合によってはすべての各々について異なる値を有し得る。最小振幅または絶対値εiは、すべての周波数成分fiについて同じ値(たとえば、0または何らかの小さい正値)を有し得るか、または代替的に、周波数成分の2つ以上(場合によってはすべて)の各々について異なる値を有し得る。
周波数成分のすべてよりも少ない数(たとえば、ピッチ周波数の倍数のみ)が対応するマスクスコアを有する場合、タスクT312は、近くの成分のマスクスコアから複製または補間する(たとえば、線形補間する)ことによって他の周波数成分fiについてciの値を計算するように構成され得る。
サブバンドマスキングを実行するようにタスクT310を構成することが望ましい場合がある。たとえば、そのような手法は、信号と雑音とを無相関化すること、ならびに/または雑音変調を低減することに役立ち得る。図11Dは、マスク信号を生成するために、レーティング結果を少なくとも1つのチャネルの1つまたは複数のサブバンドに適用するタスクT310の実装形態T314のフローチャートを示す。タスクT314は、対応するレーティング結果からの情報に基づいて、1つまたは複数のサブバンドの各々(たとえば、バーク尺度またはメル尺度サブバンドのセットのうちの1つまたは複数の各々)についてサブバンドレーティング結果を計算するタスクT3142を含む。サブバンドの2つ以上(場合によってはすべて)の各々について異なる通過帯域幅および/またはロールオフプロファイルを有する方向性マスキング関数を使用するように、レーティングタスクT220の対応するインスタンスを構成することが望ましい場合がある。たとえば、高周波数サブバンドの場合よりも低周波数サブバンドの場合により狭い通過帯域を使用することが望ましい場合がある。
タスクT3142は、サブバンドjの周波数成分のレーティング結果を組み合わせることによって、そのサブバンドのサブバンドレーティング結果を計算するように構成され得る。たとえば、タスクT3142は、そのサブバンドの周波数成分に対応する計算された位相差のためのレーティング結果を平均化することによって(たとえば、マスクスコアを合計することによって、またはマスクスコアの平均を得るためにその和を正規化することによって)サブバンドのサブバンドレーティング結果を計算するように構成され得る。そのような場合、タスクT3142は、レーティング結果の各々を等しく重み付けする(たとえば、各マスクスコアを1で重み付けする)か、またはサブバンド中のレーティング結果の1つまたは複数(たとえば、2、3、または場合によってはすべて)を互いに別様に重み付けするように構成され得る。タスクT3142によって計算されたサブバンドレーティング結果はまた、対応するサブバンドについてのコヒーレンシ測度であると見なされ得る。
タスクT314はまた、タスクT3142において計算されたサブバンドレーティング結果に基づいて、少なくとも1つのチャネルの少なくとも1つの周波数成分の振幅を変化させることによってマスク信号を生成するタスクT3144を含む。たとえば、少なくとも1つのチャネルのサブバンドの1つまたは複数(たとえば、2、または3、または場合によってはすべて)の各々について、タスクT3144は、対応するサブバンドレーティング結果によってサブバンドの周波数成分の少なくとも1つ(場合によってはすべて)の各々を重み付けする、および/または対応するサブバンドレーティング結果としきい値との間の関係の状態に従って(たとえば、上記の式(1a)または(1b)に類似する式に従って)サブバンドの周波数成分の少なくとも1つ(場合によってはすべて)の各々をゲートするように構成され得る。
追加または代替として、タスクT3144は、異なるサブバンドにわたってタスクT3142によって計算されたサブバンドレーティング結果によってサブバンドの周波数成分の少なくとも1つの各々を重み付けする、および/またはしきい値と、異なるサブバンドにわたってタスクT3142によって計算されたサブバンドレーティング結果との間の関係の状態に従って(たとえば、上記の式(1a)または(1b)に類似する式に従って)サブバンドの周波数成分の少なくとも1つの各々をゲートするように構成され得る。たとえば、タスクT3144は、低周波数成分を含まないサブバンド(たとえば、中間周波数サブバンド、高周波数サブバンド、または中間および高周波数成分のみを含むサブバンド)にわたってタスクT3142によって計算されたサブバンドレーティング結果によって、低周波数サブバンドの成分を含む少なくとも1つのチャネルの周波数成分を重み付けするように構成され得る。感知マルチチャネル信号の低周波数成分のための位相情報は雑音によって破損され得るので、そのような手法は、雑音と所望の近距離音声とを無相関化するのに役立ち得る。タスクT3144は、(たとえば、サブバンドの振幅を変化させるように構成された増幅器の利得制御入力部に)時間領域におけるサブバンドレーティング結果に基づいて利得係数を適用することによってサブバンドの振幅を変化させるように構成され得る。
図11Eは、コヒーレンシ測度に基づいて少なくとも1つの周波数成分の振幅を変化させることによって、レーティング結果を少なくとも1つのチャネルに適用するタスクT310の実装形態T316のフローチャートを示す。タスクT316は、(たとえば、本明細書で説明される実装形態のいずれかに記載の)コヒーレンシ測度計算タスクT230のインスタンスを含む。タスクT316はまた、コヒーレンシ測度に基づいて、少なくとも1つのチャネルの少なくとも1つの周波数成分の振幅を変化させることによってマスク信号を生成するタスクT3162を含む。たとえば、タスクT3162は、コヒーレンシ測度によって少なくとも1つのチャネルの周波数成分の1つまたは複数(場合によってはすべて)を重み付けすることによって、および/またはコヒーレンシ測度としきい値との間の関係の状態に従って(たとえば、上記の式(1a)または(1b)に類似する式に従って)少なくとも1つのチャネルの周波数成分の1つまたは複数(場合によってはすべて)をゲートすることによってマスク信号を生成するように構成され得る。タスクT3162は、(たとえば、少なくとも1つのチャネルの振幅を変化させるように構成された増幅器の利得制御入力部に)時間領域におけるコヒーレンシ測度に基づいて利得係数を適用することによって少なくとも1つのチャネルの振幅を変化させるように構成され得る。図12Bは、タスクT230およびT310がタスクT316のインスタンスによって実装された、タスクT3021の実装形態T3022のフローチャートを示す。
図13Aは、タスクT300の別の実装形態T304のフローチャートを示す。上記で説明されたタスクT204の一実装形態でもあるタスクT304は、レーティングタスクT240の第2のインスタンスを含む。本明細書で説明される実装形態のいずれかに従って構成され得るタスクT240bは、タスクT240の他のインスタンスとは異なる方向性マスキング関数を使用するように構成され得る。タスクT304はまた、タスクT240bによって生成されたレーティング結果からの情報に基づいて、マルチチャネル信号の少なくとも1つのチャネル(たとえば、1次チャネル)の少なくとも1つの周波数成分の振幅を変化させることによってマスク信号を生成するように構成された信号マスキングタスクT310のインスタンスを含む。図13Bは、タスクT240およびT240bがタスクT240の単一のインスタンスを使用して実装された、タスクT304の実装形態T3041のフローチャートを示し、図13Cは、タスクT230およびT310がタスクT316のインスタンスによって実装された、タスクT3041の実装形態T3042のフローチャートを示す。
図14Aは、タスクT300の実装形態T306のフローチャートを示す。タスクT206の実装形態でもあるタスクT306は、タスクT210によって生成された方向インジケータに基づいて、方向性マスキング関数を選択するように構成されたタスクT260を含む。タスクT260は、方向インジケータの平均および/または分布に基づいて方向性マスキング関数を選択するように構成され得る。たとえば、タスクT260は、方向インジケータの2つ以上(場合によってはすべて)の平均として方向性マスキング関数の通過帯域方向を選択する、ならびに/あるいは方向インジケータの分散に従って方向性マスキング関数の通過帯域幅および/またはプロファイルを選択するように構成され得る。
タスクT306はまた、方向インジケータをレーティングするために選択されたマスキング関数を使用するように構成された、本明細書で説明される実装形態のいずれかに従って構成され得るレーティングタスクT220のインスタンスを含む。タスクT306はまた、タスクT220によって生成されたレーティング結果からの情報に基づいてマスク信号を生成するように構成された、本明細書で説明される実装形態のいずれかに従って構成され得る信号マスキングタスクT310のインスタンスを含む。
図14Bは、タスクT260を含むタスクT3021の関係する実装形態T308のフローチャートを示し、図14Cは、タスクT3022の関係する実装形態T3082のフローチャートを示す。これらの場合、タスクT260は、タスクT210によって生成された方向インジケータに基づいて方向性マスキング関数を選択するように構成され、タスクT220は、方向インジケータをレーティングするためにタスクT260によって選択された方向性マスキング関数を使用するように構成される。
タスクT300によって生成されたマスク信号に対して1つまたは複数の追加の演算を実行するように方法M200を構成することが望ましい場合がある。マスキング前の信号のレベルとマスキング後の信号のレベルとの間に大きい差があるとき、たとえば、そのような差は、非マスク信号のエネルギーの大部分が残響および/または干渉によることを示し得るので、マスク信号を減衰させることが望ましい場合がある。図15Aは、方法M200の実装形態M210のフローチャートを示す。方法M210は、マスキング前の信号のレベルに対するマスキング後の信号のレベルの比が小さいときにマスク信号を減衰させるように構成されたタスクT350を含む。
タスクT350は、Σi|smi|/Σi|fi|などの式に従って、非マスクレベルに対するマスクレベルの比R(すなわち、タスクT300が生成するマスク信号とタスクT300が作用する非マスク信号との周波数成分の絶対値の和の間の比)を計算するように構成され得る。代替的に、タスクT350は、Σi|smi2/Σi|fi2などの式に従って、R(すなわち、2つの信号の周波数成分のエネルギーの和の間の比)を計算するように構成され得る。
タスクT350は、比Rが最小比しきい値ηよりも小さい(代替的に、それ以下の)ときはマスク信号を減衰させ、他の場合はさらなる減衰なしにマスク信号をパスするように構成され得る。そのような関係は、R<η、1/R>1/η、M<η*U、またはU>M/η(代替的に、R≦η、1/R≧1/η、M≦η*U、またはU≧M/η)と同等に表され得、ここで、UおよびMは、それぞれ非マスクレベルおよびマスクレベルを示し、タスクT350は、任意の1つまたは複数のそのような式に従って関係を評価するように実装され得る。しきい値ηの値の例は、0.2、0.25、0.3、0.4、0.5、0.6、および0.7を含む。
タスクT350は、0と1との間の値(たとえば、0.25、0.3、0.4、0.5、0.6、もしくは0.7)を有する減衰係数ε(η)によってマスク信号を重み付けすることによって、または信号からデシベルの対応値を減算することによってマスク信号を減衰させるように構成され得る。たとえば、タスクT350は、ε(η)によってマスク信号の各周波数成分smiを重み付けすることによって、ε(η)によって時間領域中のマスク信号を重み付けすることによって、またはデシベルの対応する利得係数を時間または周波数領域中の信号に適用することによってマスク信号を減衰させるように構成され得る。
減衰係数ε(η)の対応値とともに、最小比しきい値ηの2つ以上の値を使用するようにタスクT350を構成することが望ましい場合がある。たとえば、タスクT350のそのような一実装形態は、ηの現在値が比Rよりも大きく(代替的に、それ以上に)なるまで、最小比しきい値ηの連続的により大きい値を使用し、減衰係数ε(η)の対応値を使用してマスク信号を減衰させ、または比Rが、ηの値の最大値以上である(代替的に、それよりも大きい)場合、さらなる減衰なしにマスク信号をパスするように構成され得る。そのような場合、(たとえば、マスク信号のレベルの急激なおよび場合によっては知覚的に好ましくない変更を回避するために)1つのセグメントから別のセグメントまで減衰係数ε(η)の値を時間的に平滑化するようにタスクT350を構成することが望ましい場合がある。タスクT350は、指定された数の連続フレーム(たとえば、2、3、4、5、または10個のフレーム)について新しい値が示されるまで、減衰係数ε(η)の値の変更を遅延させることによってそのような平滑化を実行するように構成され得る。そのような手法は、減衰係数ε(η)の値の過渡応答を避けるのに役立ち得る。代替的に、タスクT350は、本明細書において関係するコンテキストに記載されている時間平滑化アルゴリズム(たとえば、1次IIRフィルタなど、FIRまたはIIRフィルタ)に従ってそのような平滑化を実行するように構成され得る。
コヒーレンシ測度の値に基づいて、マルチチャネル信号の少なくとも1つのチャネルの残留背景雑音スペクトルを変更することが望ましい場合がある。図15Bは、タスクT400を含む方法M100の実装形態M120のフローチャートを示す。タスクT400は、コヒーレンシ測度の値に基づいて、マルチチャネル信号の1つまたは複数のチャネルの雑音成分のスペクトルを変更するように構成される。このコンテキストでは、「雑音成分」という用語は、1つまたは複数の所望の情報信号ではないマルチチャネル信号の成分を示す。雑音成分は、所望の情報信号の残響を含み得る。
タスクT400は、コヒーレンシ測度の値が指定されたしきい値よりも小さい(代替的に、それ以下の)間隔中に、1次チャネルなど、マルチチャネル信号の1つまたは複数のチャネルのスペクトルを変更するように構成され得る。そのようなスペクトル変更は、1つまたは複数のスペクトルピークの各々において1つまたは複数の周波数成分を減衰させること、および/または1つまたは複数のスペクトルの谷の各々において1つまたは複数の周波数成分をブースティングすることを含み得る。たとえば、タスクT400は、所望の雑音スペクトルプロファイル(たとえば、擬似ホワイトまたはピンクスペクトルプロファイル)に従ってそのような間隔中に信号スペクトルを圧伸または低減するように構成され得る。
そのような雑音白色化は、残留定常雑音フロアの感覚を引き起こし得、および/または雑音が背景に注入されているまたは後退している知覚をもたらし得る。タスクT400は、そのような変更が信号に対して実行されない間隔(たとえば、音声間隔)と、スペクトル変更が実行される間隔(たとえば、雑音間隔)との間の影響を及ぼされる周波数成分の振幅の遷移を平滑化するために、本明細書で説明される時間平滑化方式など、平滑化方式を含むことが望ましい場合がある。本明細書で説明されるFIRまたはIIRフィルタを使用することを含み得るそのような平滑化は、音声間隔と雑音間隔との間の知覚的に滑らかな遷移をサポートするのに役立ち得る。
(「雑音基準」または「雑音パワー基準」とも呼ばれる)マルチチャネル信号の雑音成分の推定値を計算することが望ましい場合がある。たとえば、ボイスアクティビティ検出(VAD)演算によって非アクティブと分類される入力チャネルのフレームの時間にわたる平均として、雑音パワー基準信号が計算され得る。典型的な環境における音響雑音は、バブル雑音、空港雑音、街頭雑音、競合する話し手のボイス、および/または干渉源(たとえば、テレビ受像機またはラジオ)からの音を含み得る。そのような雑音は、一般に非定常であり、ユーザ自身のボイスの平均スペクトルに近い平均スペクトルを有し得る。しかしながら、VAD演算がシングルチャネルのみに基づくとき、得られる雑音基準は、通常、定常雑音の概算にすぎない。その上、そのような基準の計算は、一般に、雑音成分のスペクトルシグナチャの変更に対する応答が有意な遅延後のみ実行されることができるように、雑音パワー推定遅延を伴う。
タスクT200によって生成されたコヒーレンシ測度は、シングルチャネルVAD信号に基づく雑音推定値よりも確実なおよび同時に発生する雑音基準の計算をサポートするために使用され得る。図15Cは、タスクT500を含む方法M100のそのような実装形態M130のフローチャートを示す。コヒーレンシ測度の値に基づいて、タスクT500は、雑音基準(たとえば、1次チャネルの雑音成分の推定値)を計算する。たとえば、タスクT500は、コヒーレンシ測度の値が指定されたしきい値よりも小さい(代替的に、それ以下の)ときに、1次チャネルのフレームからの情報に基づいて、雑音推定値を更新することによって雑音推定値を計算するように構成され得る。
タスクT500は、有限または無限インパルス応答フィルタなど、時間平滑化関数を使用して雑音基準を計算するように構成され得る。1つのそのような例では、タスクT500は、雑音基準の各周波数成分が、最も最近のm個の非アクティブフレームにわたる1次チャネルの対応する周波数成分の平均値になるように雑音基準を計算するように構成され、ここで、mのあり得る値は、2、3、4、5、8、10、および16を含む。別のそのような例では、タスクT500は、ri=βri0+(1−β)qiなどの式に従って雑音基準rの各周波数成分riを更新するように構成される。上式で、ri0は、riの前の値を示し、qiは、現在の非アクティブフレームの対応する周波数成分を示し、βは、値が0(平滑化なし)から1(更新なし)までの範囲から選択され得る平滑化係数である。平滑化係数βの典型的な値は、0.1、0.2、0.25、0.3、0.4、および0.5を含む。(たとえば、オーディオ感知回路の電源投入または他の活動化の直後の)初期収束期間中に、タスクT500は、後続の定常状態動作中よりも、より短い間隔にわたって雑音基準を計算するか、または平滑化係数βのより小さい値を使用することが望ましい場合がある。
雑音基準中の周波数成分の数は、マルチチャネル信号中の周波数成分の数とは異なり得ることに留意されたい。たとえば、タスクT500は、サブバンドベースで雑音基準を計算するように実装され得る。タスクT500のそのような実装形態は、雑音フレームのサブバンド(たとえば、バーク尺度またはメル尺度サブバンド)のセットの各々について、周波数成分の平均を計算し、雑音基準の対応するサブバンドを更新するためにその平均を使用するように構成され得る。
方法M130は、マルチチャネル信号の1つまたは複数のチャネルに対して周波数依存振幅制御演算を実行するために、タスクT500によって生成された雑音基準を使用するように実装され得る。方法M130のそのような実装形態は、たとえば、雑音基準におけるピークに対応する成分またはサブバンドを減衰させることによって少なくとも1つのチャネルのスペクトルを変更するように構成され得る。図15Dは、タスクT550を含む方法M130の実装形態M140のフローチャートを示す。タスクT550は、マルチチャネル信号の少なくとも1つのチャネルに対して雑音低減演算を実行するために雑音基準を使用するように構成される。そのような雑音低減演算の一例は、1次チャネルに対してウィーナーフィルタ処理演算を実行するために雑音基準を使用する。そのような雑音低減演算の別の例は、(たとえば、1次チャネルから雑音スペクトルを減算することによって)1次チャネルに対してスペクトル減算演算を実行するために雑音基準を使用する。そのような雑音低減演算のさらなる一例は、(たとえば、雑音基準の対応する周波数成分のエネルギーとともに増加する利得減衰を各周波数成分に適用することによって)雑音基準の対応する周波数成分のエネルギーに基づいて1次チャネルの1つまたは複数の周波数成分の利得を減衰させる。
タスクT550は、サブバンドベースで雑音低減演算(たとえば、スペクトル減算または利得減衰演算)を実行するように構成され得る。たとえば、タスクT550のそのような実装形態は、雑音基準の対応するサブバンドのエネルギーに各々基づいて、サブバンド利得減衰のセットを1次チャネルの対応するサブバンドに適用するように構成され得る。タスクT550がマルチチャネル信号の1つのチャネルのみ(たとえば、1次チャネル)に対して雑音低減演算を実行するとき、生じる演算は、デュアルチャネルVAD演算を利用する擬似シングルチャネル雑音低減アルゴリズムであると考えられ得る。代替的に、タスクT550は、マルチチャネル出力を生成するために、(シングルチャネルまたはマルチチャネル雑音基準を使用して)マルチチャネル信号に対してそのような雑音低減演算を実行するように構成され得る。
方法M100は、入力チャネルが方向性コヒーレントであるときは第1の状態(たとえば、高または「1」)、他の場合は第2の状態(たとえば、低または「0」)を有するコヒーレンシ測度の値に基づいて、コヒーレンス指示を生成するように実装され得る。そのようなコヒーレンス指示は、フレームが、コヒーレンス指示の対応する状態が第1の状態にある場合はアクティブ(すなわち、ボイス)、他の場合は非アクティブ(すなわち、雑音)と分類されるように、ボイスアクティビティ検出(VAD)信号またはフラグとして使用され得る。(たとえば、タスクT316、T400、およびT500に関して)上記で説明されたように、たとえば、コヒーレンシ測度の値としきい値との間の関係の状態に従って1つまたは複数のタスクを実行するように方法M100を構成することが望ましい場合がある。そのような場合、コヒーレンシ測度としきい値との間のこの関係の状態を示すコヒーレンス指示を生成するように方法M100を構成することが望ましい場合がある。
コヒーレンシ測度の値が高いほど方向性コヒーレンスの程度が高いことを示す適用例の場合、コヒーレンス指示は、コヒーレンシ測度がしきい値を上回る(代替的に、それ以上の)ときに信号コヒーレンスを示すように構成され得る。コヒーレンシ測度の値が低いほど方向性コヒーレンスの程度が高いことを示す適用例の場合、コヒーレンス指示は、コヒーレンシ測度がしきい値を下回る(代替的に、それ以下の)ときに信号コヒーレンスを示すように構成され得る。時間に対して固定または可変とすることができるしきい値は、マスキング関数の通過帯域の幅および方向、ならびに検出演算の所望の感度などの係数に従って選択され得る。
図16Aは、タスクT3166を含むタスクT316の実装形態T3164のフローチャートを示す。タスクT3166は、コヒーレンシ測度に基づいてコヒーレンス指示を生成するサブタスクT3168を含む。たとえば、タスクT3168は、コヒーレンシ測度がしきい値を上回る(代替的に、それ以上の)ときは第1の状態、他の場合は第2の状態を有するように構成され得る。タスクT3166はまた、コヒーレンス指示の状態に基づいてマルチチャネル信号の少なくとも1つのチャネルの少なくとも1つの周波数成分の振幅を変化させるサブタスクT3169を含む。
タスクT3164を含む方法M100の一実装形態は、たとえば、ゲートされている信号(たとえば、マルチチャネル信号またはマスク信号の1つまたは複数のチャネル)が、入力チャネルが方向性コヒーレントにあるときはパスされ、他の場合はブロックされるように、ゲート信号としてコヒーレンス指示を使用するように構成され得る。タスクT3164のそのような実装形態は、コヒーレンス指示が第1の状態を有するとき、ゲートされている信号のサブバンドのすべて(代替的に、選択された周波数レンジ中の信号のすべてのサブバンド)をパスするように構成され得る。たとえば、タスクT3164は、(たとえば、コヒーレンス指示およびゲートされている信号の各ビットの論理ANDを計算することによって)アクティブフレーム中に1次チャネルのすべてのサブバンドをパスするように構成され得る。代替的に、1つまたは複数の追加の制約も満たされる場合のみ、ゲートされている信号のサブバンドをパスするようにタスクT3164を構成することが望ましい場合がある。
たとえば、タスクT3164は、コヒーレンス指示が第1の状態を有するとき、十分に高いマスクスコアを有するサブバンドのみをパスするように構成され得る。代替または追加として、タスクT3164は、コヒーレンス指示が第1の状態を有するとき、最小エネルギーしきい値に少なくとも等しい(代替的に、それ以上の)エネルギーを有するサブバンドのみをパスするように構成され得る。このしきい値は、各サブバンドについて同じであり得、または2つ以上の(場合によってはすべての)サブバンドの各々について異なる値であり得る。そのような周波数依存制約は、ひずみを低減するのに役立ち得る。
図16Bは、タスクT3168のインスタンスおよびサブタスクT404を含むタスクT400の関係する実装形態T402のフローチャートを示す。タスクT404は、コヒーレンス指示の状態に基づいてマルチチャネル信号の1つまたは複数のチャネルの雑音成分のスペクトルを変更するように構成される。図16Cは、タスクT3168のインスタンスおよびサブタスクT504を含むタスクT500の関係する実装形態T502のフローチャートを示す。タスクT504は、コヒーレンス指示の状態に基づいて、マルチチャネル信号の1つまたは複数のチャネルの雑音成分の推定値を計算するように構成される。
時間依存利得制御(たとえば、タスクT300に関して本明細書で説明された信号マスキング)は、出力中の雑音成分の絶対値を時間とともに変化させ得る。たとえば、時間依存利得制御は、所望のスピーカーが非アクティブである間隔中よりも、所望のスピーカーがアクティブである間隔中に不均衡により多い雑音量の通過をもたらし得る。そのような効果は、「雑音ゲート」、「雑音ライドイン」、または「雑音変調」として知られている。
コヒーレンシ測度の値が方向性コヒーレンスの欠如を示すマルチチャネル信号の間隔中に1つまたは複数のチャネルを不均衡に減衰させるように信号マスキングタスクT316を構成することが望ましい場合がある。同様に、対応するレーティング結果の値が方向性コヒーレンスの欠如を示すマルチチャネル信号の間隔中に1つまたは複数の周波数成分および/またはサブバンドを不均衡に減衰させるように信号マスキングタスクT314を構成することが望ましい場合がある。同様に、そのような間隔中に1つまたは複数の周波数成分を不均衡に減衰させるように信号マスキングタスクT312を構成することが望ましい場合がある。そのような手法は、たとえば、雑音と所望の近距離音声とを無相関化することによって雑音ゲートを低減し得る。
雑音ライドインは、一般に、雑音基準に基づく雑音低減演算(たとえば、ウィーナーフィルタリング、スペクトル減算、または、たとえば、上記のタスクT330に関して説明された他の周波数依存利得制御演算)では観測されない。したがって、タスクT300によって生成されたマスク信号を、マルチチャネル信号の少なくとも1つのチャネルに対してタスクT400またはT550のインスタンスを実行することによって生成されたスペクトル変更された信号と合成する(たとえば、混合する)ことが望ましい場合がある。たとえば、タスクT400、またはT500およびT550のそのようなインスタンスを含み、タスクT300によって生成されたマスク信号と、タスクT400またはT550の出力信号との平均である出力信号を生成するように方法M200を実装することが望ましい場合がある。方法M200のそのような実装形態は、1次チャネルに対してタスクT300およびT400(またはT500およびT550)の各々を実行し、その結果を混合するように構成され得る。タスクT300およびT400またはT550の各々が(たとえば、ステレオ送信のための)マルチチャネル出力を生成する適用例の場合、その結果の各チャネルがマスク信号の対応するチャネルと、タスクT400またはT550の出力信号の対応するチャネルとの平均になるように、これらの出力を混合することが望ましい場合がある。
タスクT400またはT550の出力をタスクT300によって生成されたマスク信号と混合することの代替として、タスクT400またはT500をマスク信号の1つまたは複数のチャネルに適用することが望ましい場合がある。図17Aは、コヒーレンシ測度の値に基づいてマスク信号の1つまたは複数のチャネルの雑音成分のスペクトルを変更するように構成されたタスクT400の実装形態T410を含む方法M200のそのような実装形態M220のフローチャートを示す。図17Bは、コヒーレンシ測度の値に基づいてマスク信号の雑音成分の推定値を計算するように構成されたタスクT500の実装形態T510を含む方法M200の関係する実装形態M230のフローチャートを示す。図17Cは、タスクT510によって生成された雑音推定値に基づいて、マスク信号の1つまたは複数のチャネルに対して雑音低減演算を実行するように構成されたタスクT550の実装形態T560を含む方法M230の関係する実装形態M240のフローチャートを示す。
いくつかのマルチチャネル信号処理演算は、マルチチャネル出力の各チャネルを生成するためにマルチチャネル信号の2つ以上のチャネルからの情報を使用する。そのような演算の例は、ビームフォーミングおよびブラインド音源分離(BSS)演算を含み得る。その演算は各出力チャネル中の残留エコーを変化させる傾向があるので、エコー消去をそのような技法と統合することは困難であり得る。本明細書で説明されるように、方法M100は、マルチチャネル信号の1つまたは複数のチャネルの各々に対して(たとえば、1次チャネルに対して)シングルチャネル時間および/または周波数依存振幅制御(たとえば、雑音低減演算)を実行するために、計算された位相差からの情報を使用するように実装され得る。そのようなシングルチャネル演算は、残留エコーが実質的に不変のままであるように実装され得る。したがって、エコー消去演算と、そのような雑音低減演算を含む方法M100の実装形態との統合は、エコー消去演算と、2つ以上のマイクロフォンチャネルに作用する雑音低減演算との統合よりも容易であり得る。
音源とマイクロフォンペアとの間の相対距離が増加するにつれて、異なる周波数成分の到来方向の間のコヒーレンスは(たとえば、残響の増加により)減少することが予想され得る。したがって、タスクT200において計算されたコヒーレンシ測度は、ある程度まで、近接測度としても働き得る。到来方向のみに基づく処理演算とは異なり、たとえば、本明細書で説明されるコヒーレンシ測度の値に基づく時間および/または周波数依存振幅制御は、同じ方向において競合話者の音声を遠距離音源と区別するなど、ユーザまたは他の所望の近距離音源の音声を干渉と区別するために有効であり得る。方向性コヒーレンシが距離とともに減少するレートは、環境ごとに異なり得る。たとえば、自動車の内部は一般に極めて残響性があり、したがって、広範囲の周波数にわたる方向性コヒーレンシが、音源からわずか約50センチメートルの範囲内で確実に安定したレベルで経時的に維持され得る。そのような場合、後部座席の同乗者が方向性マスキング関数の通過帯域内に配置されている場合でも、その話者からの音響は、インコヒーレントであるものとして除去され得る。検出可能なコヒーレンスの範囲は、そのような状況において背が高い話者の場合にも(たとえば、近くの天井から反射により)低減され得る。
アレイR100のマイクロフォンの製造中にばらつきが生じ得、そのため大量生産され見掛け上同じマイクロフォンのバッチの中でさえマイクロフォンごとに感度が著しく異なり得る。たとえば、ポータブルマスマーケットデバイスにおいて使用するためのマイクロフォンは、プラスまたはマイナス3デシベルの感度許容差で製造され得、したがって、あるデバイスのマイクロフォンアレイ中の2つのそのようなマイクロフォンの利得応答が6デシベル程度異なり得る。
多くのマルチマイクロフォン空間処理演算は、本来的にマイクロフォンチャネルの相対利得応答に依存する。そのような空間処理演算を可能にするために必要であり得る、製造中のマイクロフォン利得応答の較正は、一般に時間がかかり、および/または場合によっては費用がかかる。ただし、方法M100は、入力チャネルの利得間の差の影響を受けないように実装され得、したがって、対応するマイクロフォンの利得応答が互いに対して較正される程度は、空間処理方法のパフォーマンス(たとえば、計算された位相差と、その位相差に基づく後続の演算との精度)の制限要因とはならないことが留意される。
また、方法M100の実装形態は、利得較正演算または空間選択的処理演算などの様々なさらなる演算をサポートするように構成され得る。たとえば、自動利得整合(AGM)演算を含むように方法M100を実装することが望ましい場合がある。マイクロフォンチャネルが適切に較正された場合、遠距離雑音に対するそれらの応答のレベルは等しくなることが仮定され得る。AGM演算は、遠距離雑音に対するチャネルの応答間のオフセットに応答して少なくとも1つのチャネルの利得応答を調整する。
利得整合に好適でない場合がある、近距離間隔と遠距離間隔を区別するために、現在のAGM技法は、一般に、チャネルの相対レベルの比較に依拠する。現在の技法よりも一般により迅速に、より確実に遠距離雑音間隔を識別するために、位相ベースのVAD演算(たとえば、本明細書で説明されるようにコヒーレンス指示を生成するように構成された方法M100の実装形態)が使用され得る。遠距離雑音間隔の正確な検出は、AGM演算が、より正確にマイクロフォンチャネルの利得を整合させることを可能にする。そのような改善された利得整合は、近接効果ベースの減衰方式のより積極的な同調のためにも使用され得る。そのような演算の例の説明は、米国仮特許出願第61/240,320号(代理人整理番号第091561P2号、2009年9月8日に出願)において開示されている。
図18Aは、一般的構成による装置A10のブロック図を示す。装置A10は、(たとえば、タスクT100に関して本明細書で説明されたように)マルチチャネル信号の複数の異なる周波数成分の各々についてその信号のチャネル間の位相差を計算するための手段F100を含む。装置A10は、(たとえば、タスクT200に関して本明細書で説明されたように)計算された位相差からの情報に基づいて、少なくとも複数の異なる周波数成分の到来方向の間のコヒーレンスの程度を示すコヒーレンシ測度の値を計算するための手段F200をも含む。
図18Bは、装置A10の実装形態A100のブロック図を示す。装置A100は、(たとえば、タスクT100に関して本明細書で説明されたように)マルチチャネル信号の複数の異なる周波数成分の各々についてその信号のチャネル間の位相差を計算するように構成され、手段F100の実装形態である、位相差計算機100を含む。装置A100は、(たとえば、タスクT200に関して本明細書で説明されたように)計算された位相差からの情報に基づいてコヒーレンシ測度の値を計算するように構成され、手段F200の実装形態である、コヒーレンシ測度計算機200をも含む。
図18Cは、装置A10の実装形態A20のブロック図を示す。装置A20は、(たとえば、タスクT300に関して本明細書で説明されたように)コヒーレンシ測度の値を計算し、マスク信号を生成するための手段F300を含む。図18Dは、装置A20および装置A100の実装形態A200のブロック図を示す。装置A200は、コヒーレンシ測度計算機200からの情報(たとえば、タスクT300に関して本明細書で説明されたように、方向インジケータ、レーティング結果、またはコヒーレンシ測度)に従って、マルチチャネル信号の少なくとも1つのチャネルに基づいて、マスク信号を生成するように構成されたマスク信号発生器300を含む。
図18Eは、装置A10の実装形態A12のブロック図を示す。装置A12は、(たとえば、タスクT400に関して本明細書で説明されたように)マルチチャネル信号の少なくとも1つのチャネルの雑音成分のスペクトルを変更するための手段F400を含む。図18Fは、装置A12および装置A100の実装形態A120のブロック図を示す。装置A120は、(たとえば、タスクT400に関して本明細書で説明されたように)指定された雑音スペクトルプロファイルに従ってマルチチャネル信号の少なくとも1つのチャネルの少なくとも1つの周波数成分の振幅を変化させるように構成されたスペクトル変更器400を含む。
図19Aは、装置A100の実装形態A1002のブロック図を示す。装置A1002は、それぞれマルチチャネル信号のチャネルS10−1およびS10−2を受信し、対応する周波数成分を位相差計算機100に出力するためのFFT演算を実行する、FFTモジュールFFT1およびFFT2を含む。図19Bは、装置A1002および装置A200の実装形態A2002のブロック図を示す。装置A2002は、マルチチャネル信号の1次チャネルS10−1に基づいてマスク信号を生成するように構成されたマスク信号発生器300をも含む。装置A2002は、時間領域信号S20を生成するために周波数領域からのマスク信号を変換するための逆FFT演算を実行するように構成された逆FFTモジュールIFFT1をも含む。
図20Aは、装置A10の実装形態A13のブロック図を示す。装置A13は、(たとえば、タスクT500に関して本明細書で説明されたように)マルチチャネル信号の少なくとも1つのチャネルの雑音成分を推定するための手段F500を含む。図20Bは、装置A13および装置A100の実装形態A130のブロック図を示す。装置A130は、(たとえば、タスクT500に関して本明細書で説明されたように)マルチチャネル信号の少なくとも1つのチャネルの雑音成分を推定するように構成された雑音推定器500を含む。
図20Cは、装置A10の実装形態A14のブロック図を示す。装置A14は、(たとえば、タスクT550に関して本明細書で説明されたように)手段F500によって生成された雑音推定値に基づいて、マルチチャネル信号の少なくとも1つのチャネルのスペクトルを変更するための手段F550を含む。図20Dは、装置A14および装置A130の実装形態A140のブロック図を示す。装置A140は、(たとえば、タスクT550に関して本明細書で説明されたように)マルチチャネル信号の少なくとも1つのチャネルのスペクトルを変更するように構成されたスペクトル推定器550を含む。
図20Eは、装置A14および装置A20の実装形態A24のブロック図を示す。装置A24は、(たとえば、タスクT510に関して本明細書で説明されたように)手段F300によって生成されたマスク信号の少なくとも1つのチャネルの雑音成分を推定するための手段F500の実装形態F510を含む。装置A24は、(たとえば、タスクT560に関して本明細書で説明されたように)手段F510によって生成された雑音推定値に基づいて、マスク信号の少なくとも1つのチャネルのスペクトルを変更するための手段F550の実装形態F560をも含む。
図20Fは、装置A140および装置A200の実装形態A240のブロック図を示す。装置A240は、(たとえば、タスクT510に関して本明細書で説明されたように)マスク信号発生器300によって生成されたマスク信号の少なくとも1つのチャネルの雑音成分を推定するように構成された雑音推定器500の実装形態510を含む。装置A240は、(たとえば、タスクT560に関して本明細書で説明されたように)雑音推定器510によって生成された雑音推定値に基づいて、マスク信号の少なくとも1つのチャネルのスペクトルを変更するように構成されたスペクトル推定器550の実装形態560をも含む。
図21は、装置A240の実装形態A2402のブロック図を示す。装置A2402は、マルチチャネル信号のそれぞれのチャネルS10−1〜S10−4に対してFFT演算を実行するように構成された4つのFFTモジュールFFT1〜FFT4を含む。装置A2402は、1次チャネルS10−1と、コヒーレンシ測度計算機200によって生成されたコヒーレンシ測度とに基づいてマスク信号を生成するように構成されたマスク信号発生器300の実装形態316をも含む。たとえば、マスク信号発生器316は、1次チャネルS10−1の少なくとも1つの周波数成分またはサブバンドに重み付けするか、またはそれをゲートするように構成された利得制御要素(たとえば、乗算器または増幅器)として実装され得る。1次チャネルS10−1の周波数範囲の一部分のみの(たとえば、0〜4kHz帯域など、低周波数サブバンドのみの)振幅を変化させるようにマスク信号発生器316を構成することが望ましい場合がある。
装置A2402は、チャネルS10−1の雑音成分の推定値を計算するように構成された雑音推定器500のインスタンスと、雑音推定値に基づいてマスク信号のスペクトルを変更するように構成されたスペクトル変更器560のインスタンスとをも含む。マスク信号発生器316によって作用される範囲よりも広い1次チャネルS10−1の周波数範囲にわたって(たとえば、0〜8kHz帯域など、全周波数帯域にわたって)雑音低減演算を実行するようにスペクトル変更器560を構成することが望ましい場合がある。装置A2402は、時間領域信号S20を生成するために周波数領域からのスペクトル変更されたマスク信号を変換するための逆FFT演算を実行するように構成された逆FFTモジュールIFFT1をも含む。
音響信号を受信するように構成された2つ以上のマイクロフォンのアレイR100を有するポータブルオーディオ感知デバイスを生成することが望ましい場合がある。そのようなアレイを含むように実装され得、オーディオ記録および/またはボイス通信適用例のために使用され得るポータブルオーディオ感知デバイスの例は、電話ハンドセット(たとえば、セルラー電話ハンドセット)、ワイヤードまたはワイヤレスヘッドセット(たとえば、Bluetooth(登録商標)ヘッドセット)、ハンドヘルドオーディオおよび/またはビデオレコーダ、オーディオおよび/またはビデオコンテンツを記録するように構成されたパーソナルメディアプレーヤ、携帯情報端末(PDA)または他のハンドヘルドコンピューティングデバイス、ならびに、ノートブックコンピュータ、ラップトップコンピュータ、ネットブックコンピュータ、あるいは他のポータブルコンピューティングデバイスを含む。
アレイR100の各マイクロフォンは、全方向、双方向、または単方向(たとえば、カージオイド)である応答を有し得る。アレイR100において使用され得る様々なタイプのマイクロフォンは、(限定はしないが)圧電マイクロフォン、ダイナミックマイクロフォン、およびエレクトレットマイクロフォンを含む。ハンドセットまたはヘッドセットなど、ポータブルボイス通信のためのデバイスでは、アレイR100の隣接するマイクロフォン間の中心間間隔は一般に約1.5cm〜約4.5cmの範囲内であるが、ハンドセットなどのデバイスでは(たとえば、10cmまたは15cmまでの)より広い間隔も可能である。補聴器では、アレイR100の隣接するマイクロフォン間の中心間間隔は、わずか約4mmまたは5mmであり得る。アレイR100のマイクロフォンは、線に沿って、あるいは代替的にそれらの中心が2次元(たとえば、三角形)または3次元形状の頂点に存在するように構成され得る。
マルチマイクロフォンオーディオ感知デバイス(たとえば、本明細書で説明されるデバイスD100、D200、D300、D400、D500、D600、D700、またはD800)の演算中に、アレイR100は、各チャネルが音響環境へのマイクロフォンのうちの対応する1つの応答に基づく、マルチチャネル信号を生成する。1つのマイクロフォンは、特定の音響を別のマイクロフォンよりも直接的に受信し得、したがって、対応するチャネルは互いに異なって、単一のマイクロフォンを使用してキャプチャされ得るよりも完全な音響環境の表現を集合的に与えるようになる。
アレイR100が、マルチチャネル信号S10を生成するために、マイクロフォンによって生成された信号に対して1つまたは複数の処理演算を実行することが望ましい場合がある。図22Aは、(限定はしないが)インピーダンス整合、アナログデジタル変換、利得制御、ならびに/あるいはアナログおよび/またはデジタル領域におけるフィルタ処理を含み得る、1つまたは複数のそのような演算を実行するように構成されたオーディオ前処理段AP10を含むアレイR100の実装形態R200のブロック図を示す。
図22Bは、アレイR200の実装形態R210のブロック図を示す。アレイR210は、アナログ前処理段P10aおよびP10bを含むオーディオ前処理段AP10の実装形態AP20を含む。一例では、段P10aおよびP10bは、それぞれ、対応するマイクロフォン信号に対して(たとえば、50Hz、100Hz、または200Hzのカットオフ周波数を用いて)高域フィルタ処理演算を実行するように構成される。
アレイR100がマルチチャネル信号をデジタル信号として、すなわち、サンプルのシーケンスとして生成することが望ましい場合がある。アレイR210は、たとえば、対応するアナログチャネルをサンプリングするようにそれぞれ構成されたアナログデジタル変換器(ADC)C10aおよびC10bを含む。音響適用例のための典型的なサンプリングレートは、8kHz、12kHz、16kHz、および約8kHzから約16kHzまでの範囲内の他の周波数を含むが、約44kHzと同じ程度のサンプリングレートも使用され得る。この特定の例では、アレイR210は、対応するデジタル化チャネルに対して1つまたは複数の前処理演算(たとえば、エコー消去、雑音低減、および/またはスペクトル整形)を実行するようにそれぞれ構成されたデジタル前処理段P20aおよびP20bをも含む。
アレイR100のマイクロフォンは、より一般的には、音響以外の放射または放出に反応するトランスデューサとして実装され得ることが明確に留意される。そのような一例では、アレイR100のマイクロフォンは、超音波トランスデューサ(たとえば、15キロヘルツ、20キロヘルツ、25キロヘルツ、30キロヘルツ、40キロヘルツ、または50キロヘルツよりも大きい、あるいはそれ以上の音響周波数に反応するトランスデューサ)として実装される。
図23Aは、一般的構成によるデバイスD10のブロック図を示す。デバイスD10は、本明細書で開示されるマイクロフォンアレイR100の実装形態のいずれかのインスタンスを含み、本明細書で開示されるオーディオ感知デバイスのいずれも、デバイスD10のインスタンスとして実装され得る。デバイスD10は、コヒーレンシ測度の値を計算するために、アレイR100によって生成されたマルチチャネル信号を処理するように構成された装置A10の実装形態のインスタンスをも含む。たとえば、装置A10は、本明細書で開示される方法M100の実装形態のいずれかのインスタンスに従ってマルチチャネルオーディオ信号を処理するように構成され得る。装置A10は、ハードウェアでおよび/またはソフトウェア(たとえば、ファームウェア)で実装され得る。たとえば、装置A10は、同じく、処理されたマルチチャネル信号に対して上記で説明された空間処理演算(たとえば、オーディオ感知デバイスと特定の音源との間の距離を判断し、雑音を低減し、特定の方向から到来する信号成分を強調し、および/または他の環境音響から1つまたは複数の音響成分を分離する、1つまたは複数の演算)を実行するように構成されたデバイスD10のプロセッサ上に実装され得る。
図23Bは、デバイスD10の実装形態である通信デバイスD20のブロック図を示す。デバイスD20は、装置A10を含むチップまたはチップセットCS10(たとえば、移動局モデム(MSM)チップセット)を含む。チップ/チップセットCS10は、装置A10の全部または一部を(たとえば、命令として)実行するように構成され得る1つまたは複数のプロセッサを含み得る。チップ/チップセットCS10は、アレイR100の処理要素(たとえば、オーディオ前処理段AP10の要素)をも含み得る。チップ/チップセットCS10は、無線周波(RF)通信信号を受信し、RF信号内で符号化されたオーディオ信号を復号し、再生するように構成された受信機と、装置A10によって生成された処理された信号に基づくオーディオ信号を符号化し、符号化されたオーディオ信号を記述するRF通信信号を送信するように構成された送信機とを含む。たとえば、チップ/チップセットCS10の1つまたは複数のプロセッサは、符号化されたオーディオ信号が雑音低減信号に基づくように、マルチチャネル信号の1つまたは複数のチャネルに対して上記で説明された雑音低減演算を実行するように構成され得る。
デバイスD20は、アンテナC30を介してRF通信信号を受信および送信するように構成される。デバイスD20は、アンテナC30への経路中にダイプレクサと1つまたは複数のパワー増幅器とをも含み得る。チップ/チップセットCS10はまた、キーパッドC10を介してユーザ入力を受信し、ディスプレイC20を介して情報を表示するように構成される。この例では、デバイスD20は、Global Positioning System(GPS)ロケーションサービスおよび/またはワイヤレス(たとえば、Bluetooth(商標))ヘッドセットなどの外部デバイスとの短距離通信をサポートする1つまたは複数のアンテナC40をも含む。別の例では、そのような通信デバイスは、それ自体でBluetooth(登録商標)ヘッドセットであり、キーパッドC10、ディスプレイC20、およびアンテナC30を欠く。
本明細書で説明される装置A10の実装形態は、ヘッドセットおよびハンドセットを含む様々なオーディオ感知デバイスにおいて実施され得る。ハンドセット実装形態の一例は、マイクロフォン間に6.5センチメートル間隔を有するアレイR100の前向きデュアルマイクロフォン実装形態を含む。デュアルマイクロフォンマスキング手法の実装は、スペクトログラムにおけるマイクロフォンペアの位相関係を直接分析することと、不要な方向からの時間周波数点をマスキングすることとを含み得る。
図24A〜図24Dは、デバイスD10のマルチマイクロフォンポータブルオーディオ感知実装形態D100の様々な図を示す。デバイスD100は、アレイR100の2マイクロフォン実装形態をもつ筐体Z10と、その筐体から延びるイヤフォンZ20とを含む、ワイヤレスヘッドセットである。そのようなデバイスは、(たとえば、Bluetooth Special Interest Group社(ワシントン州ベルビュー)によって公表されたBluetooth(商標)プロトコルのバージョンを使用して)セルラー電話ハンドセットなどの電話デバイスとの通信を介した半二重または全二重電話をサポートするように構成され得る。一般に、ヘッドセットの筐体は、図24A、図24B、および図24Dに示されるように矩形または場合によっては細長い形(たとえば、ミニブームのような形)であるか、あるいはより丸い形、さらには円形であり得る。その筐体はまた、バッテリならびにプロセッサおよび/または他の処理回路(たとえば、プリント回路板およびその上に取り付けられた構成要素)を囲み得、電気的ポート(たとえば、ミニユニバーサルシリアルバス(USB)またはバッテリ充電用の他のポート)と、1つまたは複数のボタンスイッチおよび/またはLEDなどのユーザインターフェース機能とを含み得る。一般に、その筐体の長軸に沿った長さは1インチから3インチまでの範囲内である。
一般に、アレイR100の各マイクロフォンは、音響ポートとして働く、筐体中の1つまたは複数の小さい穴の後ろでデバイス内に取り付けられる。図24B〜図24Dは、デバイスD100のアレイの1次マイクロフォンのための音響ポートZ40と、デバイスD100のアレイの2次マイクロフォンのための音響ポートZ50とのロケーションを示している。
ヘッドセットはまた、イヤフックZ30などの固定デバイスを含み得、これは一般にヘッドセットから着脱可能である。外部イヤフックは、たとえば、ユーザがヘッドセットをいずれの耳でも使用するように構成することを可能にするために、可逆のものであり得る。代替的に、ヘッドセットのイヤフォンは、内部固定デバイス(たとえば、イヤプラグ)として設計され得、この内部固定デバイスは、特定のユーザの耳道の外側部分により良く合うように、異なるユーザが異なるサイズ(たとえば、直径)のイヤピースを使用できるようにするためのリムーバブルイヤピースを含み得る。
図25A〜図25Dは、ワイヤレスヘッドセットの別の例である、デバイスD10のマルチマイクロフォンポータブルオーディオ感知実装形態D200の様々な図を示す。デバイスD200は、丸く、楕円の筐体Z12と、イヤプラグとして構成され得るイヤフォンZ22とを含む。図25A〜図25Dはまた、デバイスD200のアレイの1次マイクロフォンのための音響ポートZ42と、2次マイクロフォンのための音響ポートZ52とのロケーションを示している。2次マイクロフォンポートZ52が(たとえば、ユーザインターフェースボタンによって)少なくとも部分的にふさがれ得ることが起こりうる。
図26Aは、通信ハンドセットである、デバイスD10のマルチマイクロフォンポータブルオーディオ感知実装形態D300の(中心軸に沿った)断面図を示す。デバイスD300は、1次マイクロフォンMC10と2次マイクロフォンMC20とを有するアレイR100の実装形態を含む。この例では、デバイスD300はまた1次ラウドスピーカーSP10と2次ラウドスピーカーSP20とを含む。そのようなデバイスは、1つまたは複数の符号化および復号方式(「コーデック」とも呼ばれる)を介してボイス通信データをワイヤレスに送信および受信するように構成され得る。そのようなコーデックの例は、「Enhanced Variable Rate Codec, Speech Service Options 3, 68, and 70 for Wideband Spread Spectrum Digital Systems」と題するThird Generation Partnership Project 2(3GPP2)文書C.S0014−C、v1.0、2007年2月(www−dot−3gpp−dot−orgでオンライン入手可能)に記載されているEnhanced Variable Rate Codec、「Selectable Mode Vocoder (SMV) Service Option for Wideband Spread Spectrum Communication Systems」と題する3GPP2文書C.S0030−0、v3.0、2004年1月(www−dot−3gpp−dot−orgでオンライン入手可能)に記載されているSelectable Mode Vocoder音声コーデック、文書ETSI TS 126 092 V6.0.0(European Telecommunications Standards Institute(ETSI)、Sophia Antipolis Cedex、FR、2004年12月)に記載されているAdaptive Multi Rate(AMR)音声コーデック、および文書ETSI TS 126 192 V6.0.0(ETSI、2004年12月)に記載されているAMR Wideband音声コーデックを含む。図3Aの例では、ハンドセットD300はクラムシェルタイプセルラー電話ハンドセット(「フリップ」ハンドセットとも呼ばれる)である。そのようなマルチマイクロフォン通信ハンドセットの他の構成はバータイプおよびスライダタイプ電話ハンドセットを含む。図26Bは、第3のマイクロフォンMC30を含むアレイR100の3マイクロフォン実装形態を含むデバイスD300の実装形態D310の断面図を示す。
図27Aは、メディアプレーヤである、デバイスD10のマルチマイクロフォンポータブルオーディオ感知実装形態D400の図を示す。そのようなデバイスは、標準圧縮形式(たとえば、Moving Pictures Experts Group(MPEG)−1 Audio Layer 3(MP3)、MPEG−4 Part 14(MP4)、Windows(登録商標) Media Audio/Video(WMA/WMV)のバージョン(マイクロソフト社(ワシントン州レドモンド))、Advanced Audio Coding(AAC)、International Telecommunication Union(ITU)−T H.264など)に従って符号化されたファイルまたはストリームなどの圧縮オーディオまたはオーディオビジュアル情報を再生するように構成され得る。デバイスD400は、デバイスの前面に配設されたディスプレイスクリーンSC10とラウドスピーカーSP10とを含み、アレイR100のマイクロフォンMC10およびMC20が、デバイスの同じ面に(たとえば、この例のように上面の両側に、または前面の両側に)配設される。図27Bは、マイクロフォンMC10およびMC20がデバイスの対向する面に配設されたデバイスD400の別の実装形態D410を示し、図27Cは、マイクロフォンMC10およびMC20がデバイスの隣接する面に配設されたデバイスD400のさらなる実装形態D420を示す。また、メディアプレーヤは、意図された使用中、より長い軸が水平になるように設計され得る。
図28Aは、ハンズフリーカーキットである、デバイスD10のマルチマイクロフォンポータブルオーディオ感知実装形態D500の図を示す。そのようなデバイスは、車両のダッシュボード、風防、バックミラー、バイザー、または別の室内表面に設置されるか、またはその上に設置されるか、あるいはそれに着脱自在に固定されるように、構成され得る。デバイスD500はラウドスピーカー85とアレイR100の実装形態とを含む。この特定の例では、デバイスD500は、線形アレイで構成された4つのマイクロフォンとしてのアレイR100の実装形態R102を含む。そのようなデバイスは、上記の例などの1つまたは複数のコーデックを介してボイス通信データをワイヤレスに送信および受信するように構成され得る。代替または追加として、そのようなデバイスは、(たとえば、上記で説明されたようにBluetooth(商標)プロトコルのバージョンを使用して)セルラー電話ハンドセットなどの電話デバイスとの通信を介して半二重または全二重電話をサポートするように構成され得る。
図28Bは、ライティングデバイス(たとえば、ペンまたはペンシル)である、デバイスD10のマルチマイクロフォンポータブルオーディオ感知実装形態D600の図を示す。デバイスD600はアレイR100の実装形態を含む。そのようなデバイスは、上記の例などの1つまたは複数のコーデックを介してボイス通信データをワイヤレスに送信および受信するように構成され得る。代替または追加として、そのようなデバイスは、(たとえば、上記で説明されたようにBluetooth(商標)プロトコルのバージョンを使用して)セルラー電話ハンドセットおよび/またはワイヤレスヘッドセットなどのデバイスとの通信を介して半二重または全二重電話をサポートするように構成され得る。デバイスD600は、アレイR100によって生成された信号における、描画面81(たとえば、1枚の紙)上でのデバイスD600の先端の移動から生じ得るスクラッチノイズ82のレベルを低減するために空間選択的処理演算を実行するように構成された1つまたは複数のプロセッサを含み得る。
ポータブルコンピューティングデバイスのクラスは、現在、ラップトップコンピュータ、ノートブックコンピュータ、ネットブックコンピュータ、ウルトラポータブルコンピュータ、タブレットコンピュータ、モバイルインターネットデバイス、スマートブック、またはスマートフォンなどの名前を有するデバイスを含む。そのようなデバイスは、一般に、ディスプレイスクリーンを含む上部パネルと、キーボードを含み得る下部パネルとを有し、それらの2つのパネルは、クラムシェルまたは他のヒンジ結合関係において接続され得る。
図29Aは、ディスプレイスクリーンSC10の上方に上部パネルPL10上で線形アレイで構成された4つのマイクロフォンMC10、MC20、MC30、MC40を含むデバイスD10のそのような実装形態の一例、D700の正面図を示す。図29Bは、その4つのマイクロフォンの位置を別の次元で示す、上部パネルPL10の上面図を示す。図29Cは、ディスプレイスクリーンSC10の上方に上部パネルPL12上で非線形アレイで構成された4つのマイクロフォンMC10、MC20、MC30、MC40を含むそのようなポータブルコンピューティングデバイスの別の例、D710の正面図を示す。図29Dは、その4つのマイクロフォンの位置を別の次元で示す、上部パネルPL12の上面図を示しており、マイクロフォンMC10、MC20、およびMC30はパネルの前面に配設され、マイクロフォンMC40はパネルの背面に配設されている。
図30は、ハンドヘルド適用例のためのデバイスD10のマルチマイクロフォンポータブルオーディオ感知実装形態D800の図を示す。デバイスD800は、タッチスクリーンディスプレイTS10と、3つの前面マイクロフォンMC10〜MC30と、背面マイクロフォンMC40と、2つのラウドスピーカーSP10およびSP20と、(たとえば、選択のための)左側ユーザインターフェース制御UI10と、(たとえば、ナビゲーションのための)右側ユーザインターフェース制御UI20とを含む。ユーザインターフェース制御の各々は、押しボタン、トラックボール、クリックホイール、タッチパッド、ジョイスティックおよび/または他のポインティングデバイスなどのうちの1つまたは複数を使用して実装され得る。ブラウズトークモードまたはゲームプレイモードで使用され得るデバイスD800の典型的なサイズは約15センチメートル×20センチメートルである。本明細書で開示されるシステム、方法、および装置の適用範囲は、図24A〜図30に示される特定の例に制限されないことが明確に開示される。そのようなシステム、方法、および装置が適用され得るポータブルオーディオ感知デバイスの他の例は、補聴器を含む。
2つ以上のマルチチャネル信号を処理するために方法M100を拡張することが望ましい場合がある。たとえば、以下の例に関して説明されるように、ただ1つのマイクロフォンペアの場合は利用可能でない場合がある演算をサポートするために、方法M100の拡張された実装形態M300が使用され得る。
図31Aは、第1のマルチチャネル信号に基づいて、第1の複数の位相差を計算するタスクT100の第1のインスタンスT100aと、第2のマルチチャネル信号に基づいて、第2の複数の位相差を計算するタスクT100の第2のインスタンスT100bとを含む方法M300のフローチャートを示す。方法M300は、それぞれの追加のマルチチャネル信号に基づいて、追加の複数の位相差を計算するように構成されたタスクT100の追加のインスタンスをも含むように実装され得る。方法M300は、第1および第2の(および場合によっては他の)複数の位相差からの情報に基づいてコヒーレンシ測度の値を計算するタスクT280をも含む。
図31Bは、タスクT280の実装形態T288のフローチャートを示す。タスクT288は、第1の複数の位相差からの情報に基づいて、第1のコヒーレンシ測度の値を計算するタスクT200の第1のインスタンスT200aを含む。タスクT288は、第2の複数の位相差からの情報に基づいて、第2のコヒーレンシ測度の値を計算するタスクT200の第2のインスタンスT200bをも含む。タスクT288は、それぞれの追加のマルチチャネル信号から計算された位相差に基づいて追加のコヒーレンシ測度の値を計算するように構成されたタスクT200の追加のインスタンスをも含むように実装され得る。
タスクT288は、複合コヒーレンシ測度の値を得るために成分コヒーレンシ測度(この例では、第1および第2のコヒーレンシ測度)の値を組み合わせるタスクT610をも含む。たとえば、タスクT610は、成分コヒーレンシ測度の積に基づいて複合コヒーレンシ測度を計算するように構成され得る。成分コヒーレンシ測度の値が2進数(たとえば、上記で説明されたコヒーレンス指示)である場合、そのような積は、論理AND演算を使用して計算され得る。
図31Cは、タスクT280およびタスクT202の実装形態T282のフローチャートを示す。タスクT282は、タスクT100aによって計算された第1の複数の位相差の各々について対応する方向インジケータを計算するように構成されたタスクT210の第1のインスタンスT210aと、レーティング結果の第1のセット(たとえば、マスクスコアの第1のベクトル)を生成するために方向インジケータをレーティングするように構成されたタスクT220の第1のインスタンスT220aとを含む。タスクT282は、少なくとも、タスクT100bによって計算された第2の複数の位相差の各々について対応する方向インジケータを計算するように構成されたタスクT210の第2のインスタンスT210bと、レーティング結果の第2のセット(たとえば、マスクスコアの第2のベクトル)を生成するために方向インジケータをレーティングするように構成されたタスクT220の対応する第2のインスタンスT220bとをも含む。
タスクT282は、レーティング結果のマージされたセットを生成するためにレーティング結果の第1および第2の(および場合によっては追加の)セットをマージするように構成されたタスクT620と、レーティング結果のマージされたセットに基づいて(たとえば、レーティング結果のマージされたセットによって重み付けされた当該の周波数成分の値の和として)コヒーレンシ測度の値を計算するように構成されたタスクT230のインスタンスとをも含む。タスクT620は、マージされるセットの各レーティング結果を、タスクT220の様々なインスタンスからの対応するレーティング結果の平均(たとえば、平均値)として計算することによって、レーティング結果のセットをマージするように構成され得る。代替的に、タスクT620は、マージされるセットの各レーティング結果を、タスクT220の様々なインスタンスからの対応するレーティング結果のうち最小のものとして計算することによって、レーティング結果のセットをマージするように構成され得る。2進値レーティング結果の場合、タスクT620は、マージされるセットの各レーティング結果を、タスクT220の様々なインスタンスからの対応するレーティング結果の論理ANDとして計算することによって、レーティング結果のセットをマージするように構成され得る。
そのような一例では、タスクT220aは、200〜1000ヘルツの範囲内の周波数成分に対応するレーティング結果のセットを生成し、タスクT220bは、500〜2000ヘルツの範囲内の周波数成分に対応するレーティング結果のセットを生成する。この例では、タスクT620は、200〜500ヘルツの範囲についての各マージされたレーティング結果が、タスクT220aによって生成された対応するレーティング結果(すなわち、それ自体の平均)となり、1000から2000ヘルツまでの範囲についての各マージされたレーティング結果が、タスクT220bによって生成された対応するレーティング結果となり、500〜1000ヘルツの範囲についての各マージされたレーティング結果が、タスクT220aおよびT220bによって生成された対応するレーティング結果の平均値となるように、200〜2000ヘルツの範囲内の周波数成分に対応するマージされたレーティング結果のセットを生成するように構成され得る。
図32Aは、タスクT280およびタスクT204の実装形態T284のフローチャートを示す。タスクT284は、タスクT100aによって計算された第1の複数の位相差の各々をレーティングするために対応するマスキング関数を使用するように構成されたタスクT240の第1のインスタンスT240aと、タスクT100bによって計算された第2の複数の位相差の各々をレーティングするために対応するマスキング関数を使用するように構成されたタスクT240の第2のインスタンスT240bと、場合によっては、タスクT100のそれぞれの追加のインスタンスによって計算された複数の位相差をレーティングするように構成されたタスクT240の追加のインスタンスとを含む。タスクT284は、レーティング結果のマージされたセットを生成するためにレーティング結果の第1および第2の(および場合によっては追加の)セットをマージするように構成されたタスクT620のインスタンスと、マージされたレーティング結果に基づいてコヒーレンシ測度の値を計算するように構成されたタスクT230のインスタンスとをも含む。
図32Bは、タスクT280およびタスクT206の実装形態T286のフローチャートを示す。タスクT286は、少なくとも、タスクT100の各インスタンスによって計算された複数の位相差について対応する複数の方向インジケータを計算するように構成されたタスクT210の第1および第2のインスタンスT210aおよびT210bを含む。タスクT286は、少なくとも、複数の方向インジケータの各々について対応するコヒーレンシ測度を計算するように構成されたタスクT250の第1および第2のインスタンスT250aおよびT250bと、複合コヒーレンシ測度の値を得るために成分コヒーレンシ測度の値を組み合わせるように構成されたタスクT610のインスタンスとをも含む。
方法M300の適用例の一例は、単一のマイクロフォンペアを使用して観測され得るよりも広い周波数範囲にわたる位相差に基づくコヒーレンシ測度を計算することである。上記のように、位相差が確実に計算され得る周波数範囲は、上からは空間エイリアシングによって、下からは最大観測可能位相差によって、制限され得る。したがって、2つ以上のマイクロフォンペアから記録された信号から計算された位相差に基づいてコヒーレンシ測度を計算するように方法M300を適用することが望ましい場合がある。タスクT200のそれぞれのインスタンスは、同じ方向性マスキング関数を使用するように構成され得、あるいは、それぞれのマスキング関数の通過帯域および/またはプロファイルは、各インスタンスによってターゲットにされている周波数範囲に従って異なり得る。たとえば、より低い周波数範囲に対応するタスクT200のインスタンスの場合、より狭い通過帯域を使用することが望ましい場合がある。
図32Cは、3つのマイクロフォンMC10、MC20、およびMC30を含むアレイR100のマルチペア実装形態の一例を示す。この例では、第1のマルチチャネル信号が、マイクロフォンMC10およびMC20によって記録された信号に基づき、第2のマルチチャネル信号が、マイクロフォンMC10およびMC30によって記録された信号に基づく。マイクロフォンMC10とマイクロフォンMC20との間の距離が、マイクロフォンMC10とマイクロフォンMC30との間の距離未満であるので、第1のマルチチャネル信号は、第2のマルチチャネル信号よりも高い周波数において位相差を計算するために使用され得、第2のマルチチャネル信号は、第1のマルチチャネル信号よりも低い周波数において位相差を計算するために使用され得る。いずれかのマイクロフォンペアのみによって確実にサポートされ得るよりも大きい周波数範囲にわたって方向性コヒーレンスの程度を示す複合コヒーレンシ測度を得るために2つのマルチチャネル信号を処理するために、方法M300の実装形態が使用され得る。
図32Cは線形マイクロフォンアレイを示しているが、マイクロフォンペアの様々な配向が考慮に入れられる限り、非線形構成も使用され得る。図32Cのアレイでは、マイクロフォンMC10が両方のペアに共通であるが、共通のマイクロフォンを有しないペアから第1および第2のマルチチャネル信号を得ることも可能である。
あるアレイの2つのマイクロフォンに到来する周波数成分間の位相差は、理想的には、そのアレイの軸に対する特定の角度に対応する(その角度の頂点は、それらのマイクロフォンのうちの1つの中心、またはそれらのマイクロフォン間の中間点など、その軸に沿った何らかの基準点にある)。したがって、アレイに対して空間的に異なるロケーションにあるが、そのアレイ軸に対して同じ角度の関係を満たす音源(たとえば、図33A中の音源1および2)から受信された等しい周波数の成分は、理想的には同じ位相差を有することになる。
方向性マスキング関数は、一般に、マイクロフォンアレイの軸を含む半平面にわたって(すなわち、180度の空間範囲にわたって)定義され、したがって、その関数の応答は、アレイ軸を中心として空間的にほぼ対称的になる。(実際問題として、この対称性の程度は、マイクロフォンの応答における方向性、デバイスの1つまたは複数の表面からの反射、特定の音源方向に対してマイクロフォンがふさがれることなどの要因によって制限され得る。)マスキング関数のそのような対称性は、図33Bの例の場合のように、所望の音源からの音響が縦方向から到来することが予想されるときは、許容でき、さらには望ましい場合がある。しかしながら、図33Cの例の場合のように、マスキング関数の通過帯域が、横方向を見るように構成されたときは、軸の一方の側(たとえば、デバイスの表側)から到来する音響と、軸の反対側(たとえば、デバイスの裏側)から到来する音響とを区別することが望まれる場合がある。
方法M300の適用例の別の例は、2つ以上の次元で、および/またはデバイスの2つ以上の面にわたって、方向性選択を与えることである。図33Dは、2つのマイクロフォンMC30およびMC40が図33Cのアレイに追加されたそのような一例を示す。この場合、方法M300は、図33Cに示されるように、マイクロフォンMC10およびMC20からの信号に基づく第1のマルチチャネル信号に横方向マスキング関数を適用し、図33Dに示されるように、マイクロフォンMC30およびMC40からの信号に基づく第2のマルチチャネル信号に縦方向マスキング関数を適用し、その2つのマスキング関数の通過帯域の空間の共通部分(intersection)にわたってコヒーレンスの程度を示すコヒーレンシ測度を生成するように構成される。そのような構成の典型的な使用では、マイクロフォンMC10、MC20、およびMC30はデバイスの前面上に配置され(すなわち、ユーザに直面する)、マイクロフォンMC40はデバイスの背面上に配置され、方法M300は、デバイスの前における(たとえば、円錐に近似する)所望のカバレージの領域に関するコヒーレンスを示すように動作する。
図34Aは、ポータブルオーディオ感知デバイスにおいて使用され得る3マイクロフォンアレイの一般的な例を示す。そのような場合、方法M300は、左右方向における(すなわち、xy平面における)角度を区別するためにマイクロフォンMC10およびMC20からのチャネルに第1のマスキング関数を適用し、上下方向における(すなわち、yz平面における)角度を区別するためにマイクロフォンMC10およびMC30のチャネルに第2のマスキング関数を適用するように構成され得る。方法M300のそのような実装形態は、カバレージの円錐と見なされ得る、3次元ボリュームでの方向の選択された範囲に関するコヒーレンスを示すために、これらの2つの複合マスキング関数からの結果を組み合わせるように構成され得る。そのような適用例の別の例では、複合マスキング関数の各々は、4つ以上のマイクロフォンのアレイのマイクロフォンの異なるペアのチャネルに適用される。
図34Bは、ポータブルオーディオ感知デバイスにおいて使用され得る3マイクロフォンアレイの適用例の別の例を示す。そのような場合、方法M300は、左右方向における角度を区別するためにマイクロフォンMC10およびMC20のチャネルに第1のマスキング関数を適用するように構成され、また、順方向から到来する音響をパスし逆方向から到来する音響を除去するためにマイクロフォンMC10およびMC30のチャネルに第2のマスキング関数を適用するように構成され得る。たとえば、ラップトップまたはネットブック実装形態では、アレイの前から到来する音響とアレイの後ろから到来する音響とを区別することが望ましい場合がある。そのような適用例の別の例では、複合マスキング関数の各々は、4つ以上のマイクロフォンのアレイのマイクロフォンの異なるペアのチャネルに適用される。そのような適用例のための4マイクロフォンアレイの一例は、3つのマイクロフォンの前向きセットと、後向きマイクロフォンとを含む。前向きマイクロフォンのうちの2つからの信号は、ユーザ位置の範囲をカバーするために使用され得、別の前向きマイクロフォンおよび後向きマイクロフォンからの信号は、前および後ろ方向から到来する信号を区別するために使用され得る。たとえば、図34Cでは、マイクロフォンMC20およびMC40のチャネルは、左右区別のために使用され得る。
4マイクロフォンアレイの別の例では、1つのマイクロフォンが、約3センチメートル間隔で離間した他の3つのマイクロフォンの位置によって頂点が画定される三角形の後ろに(たとえば、約1センチメートル後ろに)配置されるように、それらのマイクロフォンは、ほぼ四面体の構成で構成される。そのようなアレイの潜在的な適用例は、スピーカーフォンモードで動作するハンドセットを含み、その場合、話者の口とアレイとの間の予想される距離は約20〜30センチメートルである。図35Aは、ほぼ四面体の構成で構成された4つのマイクロフォンMC10、MC20、MC30、MC40を含むハンドセットD300の実装形態D320の正面図を示す。図35Bは、ハンドセット内のマイクロフォンMC10、MC20、MC30、およびMC40の位置を示す、ハンドセットD320の側面図を示す。
ハンドセット適用例のための4マイクロフォンアレイの別の例は、ハンドセットの前面における(たとえば、キーパッドの1、7、および9の位置の近くの)3つのマイクロフォンと、背面における(たとえば、キーパッドの7または9の位置の後ろの)1つのマイクロフォンとを含む。図35Cは、「星形」構成で構成された4つのマイクロフォンMC10、MC20、MC30、MC40を含むハンドセットD300の実装形態D330の正面図を示す。図35Dは、ハンドセット内のマイクロフォンMC10、MC20、MC30、およびMC40の位置を示す、ハンドセットD330の側面図を示す。
いくつかの適用例では、所望の音響(たとえば、ユーザのボイス)の到来方向の予想される範囲は、一般に、比較的狭い範囲に限定される。そのような場合(たとえば、典型的なヘッドセットまたはハンドセット適用例の場合)、単一の方向性マスキング関数は、対応する次元での所望の音響の到来方向の予想される範囲を含むのに十分広く、しかも(たとえば、許容範囲外の雑音源によって生成された周波数成分を除去することによって)広帯域コヒーレント信号の確実な検出のために十分に高い信号対雑音比(SNR)を与えるのに十分狭い場合がある。
しかしながら、他の適用例では、到来方向の所望の範囲を含むのに十分広いアドミタンス範囲をもつ単一のマスキング関数は、あまりに多くの雑音を認めるので、確実に広帯域コヒーレント信号を干渉と区別することができない場合がある。たとえば、ラップトップ、スマートフォンなどの多くの消費者デバイス、およびMID(モバイルインターネットデバイス)などの新生のデバイスは、様々なユーザインターフェースモードの範囲をサポートしており、所与の状況においてユーザがどの方向から話しているかが必ずしも明らかではない場合がある。そのようなデバイスは、一般に、より大きいディスプレイスクリーンを有し、広範囲にわたる可能なマイクロフォン配置および同時マイクロフォン信号収集を可能にし得る。たとえば、「ブラウズトーク」モードでは、ユーザは、ビデオリンクを介してチャットまたは会話しながらディスプレイスクリーンを見得る。そのようなモード中は、一般にユーザの口がマイクロフォンからさらに離れて配置されるので、快適な通信エクスペリエンスを維持することは、実質的な音声強調処理に関与し得る。
典型的なラップトップまたはネットブックまたはハンズフリーカーキット適用例の場合、最高180度の許容到来方向の範囲など、広範囲の可能な話者の位置を可能にすることが望ましい場合がある。たとえば、ユーザは、使用中に、ポータブルコンピューティングデバイスD700またはD710の前で左右に移動し、そのデバイスに向かっておよびそのデバイスから離れて移動し、ならびに/あるいはそのデバイスの周りをも(たとえば、デバイスの前から後ろに)移動し得ることが予想され得る。他の適用例(たとえば、会議)の場合、さらにより大きい範囲の可能な話者の位置を可能にすることが望ましい場合がある。
残念ながら、広いアドミタンス範囲を有するマスキング関数は、雑音源からの音響をもパスし得る。マスキング関数のアドミタンス角度を広げることは、より大きい範囲の到来方向を可能にし得るが、そのように広げることはまた、所望の周波数範囲にわたって方向性コヒーレントである信号を背景雑音と区別する、本方法の能力を低減し得る。広いアドミタンス角度を与えるために2つ以上のマイクロフォンを使用する適用例(たとえば、カーキットまたはラップトップまたはネットブック適用例)の場合、所望のアドミタンス角度を対応するセクタに分割するために複数の方向性マスキング関数を使用することが望ましい場合があり、そこで、各セクタは、対応するマスキング関数の通過帯域として定義される。
そのような所望の話者の位置特定および/または音響の空間区別を達成するために、音源(たとえば、ユーザ)の位置を正確に判断するためにマイクロフォンアレイの周りの異なる方向において狭い空間セクタを発生することが望ましい場合がある。2つのマイクロフォンの場合は、比較的狭いセクタが一般に縦方向においてのみ作成され得るが、横セクタは一般にはるかにより広い。しかしながら、3つ、4つ、またはそれ以上のマイクロフォンの場合は、より狭いセクタが一般にすべての方向において可能である。
(たとえば、所望の話者の移動のための連続性を保証し、より平滑な遷移をサポートし、および/またはジッタを低減するために)隣接するセクタの間の重複を設計することが望ましい場合がある。図36Aは、(マイクロフォンMC10に関する、マイクロフォンMC20における到来方向の所望の範囲に及ぶ)広いアドミタンス角度が3つの重複セクタに分割された適用例の一例を示す。別の特定の例では、180度のアドミタンス角度が、9つの重複セクタに分割される(たとえば、ネットブックまたはラップトップ適用例の場合)。
一般的場合では、(たとえば、一方では各セクタの幅と、他方では利用可能な計算リソースとの間の所望のトレードオフに依存して)任意のアドミタンス角度がセクタに分割され得、任意の数のセクタが使用され得る。セクタは互いと同じ(たとえば、度数またはラジアン単位の)角度幅を有し得、またはセクタのうちの2つ以上(場合によってはすべて)は、互いとは異なる幅を有し得る。たとえば、中心においては(すなわち、アレイにおいては)約20度の、および最大許容距離においてはより広い度数の、帯域幅を有するように各マスクを実装することが望ましい場合がある。
スピーカーフォンモードで動作するハンドセットの一例は、各々が約90度幅であり、1つのマスクがユーザに向けられ、1つのマスクがユーザの45度左に向けられ、残りのマスクがユーザの45度右に向けられた、3つのマスキング関数を使用する。別の例では、カーキット適用例は、運転者の頭部に向かって配向されたセクタと、運転者の頭部と中間との間に配向されたセクタと、中間に向かって配向されたセクタと、前部座席同乗者の頭部に向かって配向されたセクタとを含むように実装される。さらなる一例では、カーキット適用例は、運転者のドアまたはウィンドウに向かって配向されたセクタと、運転者の座席または頭部に向かって配向されたセクタと、中間に向かって(すなわち、運転者と前部座席同乗者との間に)配向されたセクタとを含むように実装される。そのような適用例は、同乗者の頭部に向かって配向されたセクタをも含み得る。カーキット適用例は、(たとえば、ボタンまたは他のユーザインターフェースを介して)運転者または同乗者を所望の話者であるように手作業で選択する能力を含み得る。
広帯域コヒーレント信号が、セクタのうちの1つ内で広帯域コヒーレントである限り、その信号が複合アドミタンス角度内のどこかで検出され得るように、マルチセクタ適用例を構成することが望ましい場合がある。図36Bは、少なくともタスクT100の1つのインスタンスとタスクT700とを含む方法M100の実装形態M400のフローチャートを示す。タスクT100によって計算された位相差に基づいて、タスクT700は、対応するマルチチャネル信号が複数のセクタのいずれかにおいてコヒーレントであるかどうかを判断する。そのような方法でのコヒーレント信号の検出は、(たとえば、上記でより詳細に説明されたように)ボイスアクティビティ検出および/または雑音低減演算をサポートするために使用され得る。
各成分マスキング関数についてコヒーレンシ測度評価タスクT230のインスタンスを含むようにタスクT700を構成することが望ましい場合がある。図37は、nが1よりも大きい整数である、nセクタ適用例のためのタスクT700およびタスクT202のそのような実装形態T702のフローチャートを示す。タスクT702は、サブタスクT220のn個のインスタンスT220a、T220b、...、T220nを含み、そこで、各インスタンスjは、タスクT210によって生成された方向インジケータをレーティングするためにn個の方向性マスキング関数のうちの各々(すなわち、j番目のセクタに対応する関数)を使用するように構成される。スプリットバンド構造および/またはオーバーラップ保存フレームワークを使用して様々な方向性マスキング関数を実装することが望ましい場合がある。
タスクT702は、サブタスクT230のn個のインスタンスT230a、T230b、...、T230nをも含む。タスクT230の各インスタンスは、タスクT220の対応するインスタンスによって生成されたレーティング結果に基づいて、対応するセクタに関して、上記信号のコヒーレンシ測度を計算するように構成される。時間平滑化された値として対応するコヒーレンシ測度を生成するようにタスクT230の様々なインスタンスの各々を構成することが望ましい場合がある。そのような一例では、タスクT230の各インスタンスは、z(n)=βz(n−1)+(1−β)c(n)などの式に従ってフレームnの平滑化されたコヒーレンシ測度z(n)を計算するように構成される。上式で、z(n−1)は、前のフレームの平滑化されたコヒーレンシ測度を示し、c(n)は、コヒーレンシ測度の現在値を示し、βは、値が0(平滑化なし)から1(更新なし)までの範囲から選択され得る平滑化係数である。平滑化係数βの典型的な値は、0.1、0.2、0.25、0.3、0.4、および0.5を含む。そのようなタスクは、異なる時間に(たとえば、オーディオ感知回路の活動化中と定常状態中とに)平滑化係数βの異なる値を使用することが可能である。異なるセクタに対応するそのようなタスクT230のインスタンスは、βの同じ値を使用することが典型的ではあるが、必要ではない。
タスクT702は、対応するコヒーレンシ測度に基づいて、マルチチャネル信号がn個のセクタのいずれかにおいてコヒーレントであるかどうかを判断するように構成されたサブタスクT710をも含む。たとえば、タスクT710は、コヒーレンシ測度のいずれかが、対応するしきい値を超える(代替的に、少なくともそれに等しい)かどうかを示すように構成され得る。あるセクタに対して、別のセクタに対してよりも高いしきい値を使用するようにタスクT710を構成することが望ましい場合がある。空間分布雑音は、マイクロフォンペアの軸に直角である、時間による平均到来方向を有する傾向があり、したがって、横セクタ(マイクロフォンペアの軸に直角な方向を含むセクタ)は、縦セクタ(マイクロフォンペアの軸を含むセクタ)よりも多くのそのような雑音に遭遇する可能性がある。したがって、縦セクタに対するしきい値(たとえば、0.2、0.3、0.4、または0.5)よりも高いしきい値(たとえば、0.4、0.5、0.6、または0.7)を横セクタに対して使用することが望ましい場合がある。同様に、横セクタは(たとえば、認められる分布雑音の量を低減するために)軸からわずかに離れて向けられることが望ましい場合がある。
図38Aは、nセクタ適用例のためのタスクT700およびタスクT204の実装形態T704のフローチャートを示す。タスクT704は、マルチセクタマスキング関数を使用して位相差の各々をレーティングするサブタスクT240の実装形態T245を含む。たとえば、タスクT245は、各セクタについて、各位相差が、そのセクタにおけるその周波数成分についての許容位相差の範囲内に入るかどうか(および/またはどの程度入るか)を示すように構成され得る。
コヒーレント信号が検出された1つまたは複数のセクタを示すようにタスクT710を構成することが望ましい場合がある。タスクT710のそのような実装形態T712は、たとえば、コヒーレンシ測度が最も大きいセクタ(または複数のセクタ)、またはコヒーレンシ測度が最も大きいコントラストを有するセクタ(または複数のセクタ)を示すように構成され得る。そのような場合、コヒーレンシ測度のコントラストは、コヒーレンシ測度の現在値と、時間による(たとえば、最も最近の10、20、50、または100フレームにわたる)コヒーレンシ測度の平均値との間の関係の値(たとえば、差または比)として表され得る。
タスクT712は、(たとえば、所望の音源の相対位置が、あるセクタから別のセクタに移動するので)時間がたつにつれて異なるセクタを示すことになることが予想され得る。ターゲットセクタのコヒーレンシ測度が、そのセクタのしきい値を超える(代替的に、それ以上である)のでない限り、タスクT712がセクタを切り替える(すなわち、現在のセクタとは異なるセクタを示す)のを抑止することが望ましい場合がある。たとえば、そのような条件が満たされない場合は、ターゲットセクタのコヒーレンシ測度が、現在、最も大きい値または最も大きいコントラストを有する場合でも、現在のセクタを示すことを続けるようにタスクT712のそのような実装形態を構成することが望ましい場合がある。上記のように、縦セクタに対するしきい値(たとえば、0.2、0.3、0.4、または0.5)よりも高いしきい値(たとえば、0.4、0.5、0.6、または0.7)を横セクタに対して使用することが望ましい場合がある。
各フレームが、そのフレームについてタスクT712によって識別されたセクタに対応するマスキング関数を使用して得られる、(たとえば、タスクT310に関して上記で説明されたように)マルチチャネル信号の少なくとも1つのチャネルに基づいてマスク信号を生成することが望ましい場合がある。そのような演算は、たとえば、対応するマスキング関数のマスクスコアに基づいて、1次チャネルの周波数成分および/またはサブバンドを減衰させること、ならびに/あるいは1次チャネルのすべてのサブバンドよりも少数のサブバンドをパスすることを含み得る。方法M400の他の実装形態は、(たとえば、特定の選択されたセクタに関連するビームまたは他のフィルタをマルチチャネル信号の少なくとも1つのチャネルに適用するために)タスクT712によって示されたセクタ選択に従って、マルチチャネル信号の1つまたは複数のチャネルに基づいてオーディオ信号を生成するように構成された同様のタスクを含むように構成され得る。
あるセクタから別のセクタへの平滑な遷移をサポートするための論理を含むようにタスクT712を実装することが望ましい場合がある。たとえば、ジッタを低減するのに役立ち得る、ハングオーバ論理などの慣性機構を含むようにタスクT712を構成することが望ましい場合がある。そのようなハングオーバ論理は、(たとえば、上記で説明されたように)そのセクタに切り替わることを示す条件が、いくつかの連続するフレーム(たとえば、2、3、4、5、10、または20個のフレーム)の期間にわたって続くのでない限り、タスクT712がターゲットセクタに切り替わるのを抑止するように構成され得る。
タスクT710は、一度に2つ以上のコヒーレントセクタを示すように実装され得る。たとえば、タスクT710のそのような実装形態は、どのセクタが、対応するしきい値よりも高い(代替的に、それ以上である)コヒーレンシ測度を有するかを示すように構成され得る。そのようなタスクを含む方法M400の実装形態は、2つ以上の示されたセクタからのレーティング結果および/またはコヒーレンシ測度に従ってマスク信号を生成するように構成され得る。(たとえば、会議適用例において)2つ以上の所望の音源を追跡するために複数のセクタ指示が使用され得る。しかしながら、複数の音源を追跡することは、出力へのより多くの雑音を認める可能性もある。代替または追加として、タスクT710は、コヒーレントセクタが長時間(たとえば、0.25秒、0.5秒、1秒、または2秒)検出されないときを示すための論理を含むように構成され得、その場合、より多くの雑音低減を適用することが望ましい場合がある。
セクタ固有のコヒーレンシ測度に基づくコヒーレンシ測度を生成するようにタスクT710を構成することが望ましい場合がある。タスクT710のそのような一例は、マルチチャネル信号の各フレームについて、そのフレームのための様々なセクタのコヒーレンシ測度のうち最も大きいものに基づく(たとえば、それに等しい)複合コヒーレンシ測度を生成する。タスクT710のそのような別の例は、各フレームについて、現在最も大きいコントラストを有するセクタ固有のコヒーレンシ測度に基づく(たとえば、それに等しい)複合コヒーレンシ測度を生成する。タスクT710の実装形態は、(たとえば、本明細書で説明される時間平滑化技法のいずれかに従って)時間平滑化された値として複合コヒーレンシ測度を生成するように構成され得る。
方法M400の実装形態は、VAD指示のためにおよび/または雑音低減のために(たとえば、タスクT400に関して上記で説明された雑音修正のために、ならびに/またはタスクT500およびT550に関して上記で説明された雑音推定のために)タスクT710によって生成されたコヒーレンシ測度を使用するように構成され得る。代替または追加として、方法M400の実装形態は、タスクT710によって生成されたコヒーレンシ測度の値に基づいて、1次チャネルなど、マルチチャネル信号の少なくとも1つのチャネルに利得係数を適用するように構成され得る。方法M400のそのような実装形態は、(たとえば、本明細書で説明される時間平滑化技法のいずれかに従って)時間とともにそのような利得係数の値を平滑化するように構成され得る。
セクタ切替え演算にわたる値および/または構造を時間平滑化するようにタスクT710を構成することが望ましい場合がある。たとえば、タスクT710は、あるセクタに関連するビームから別のセクタに関連するビームへの遷移を平滑化し、および/またはあるセクタの1つまたは複数の値(たとえば、マスクスコアおよび/またはコヒーレンシ測度)から別のセクタの対応値への遷移を平滑化するように構成され得る。そのような平滑化はr=μq+(1−μ)pなどの式に従って実行され得、上式で、pは、現在のセクタに関連する値または構造を示し、qは、ターゲットセクタに関連する対応する値または構造を示し、rは、ブレンドされた値または構造を示し、μは、いくつかのフレーム(たとえば、2、3、4、5、または10個のフレーム)の期間にわたって0から1までの範囲にわたって値が増加する平滑化係数を示す。
また、方法M400は、各々が、異なるマイクロフォンペアからのものである、2つ以上のマルチチャネル信号を受信し、それらのマルチチャネル信号のいずれかの任意のセクタにおいてコヒーレンスが検出されたかどうかを示すように構成され得る。たとえば、方法M400のそのような実装形態は、線形アレイの異なるマイクロフォンペアからのマルチチャネル信号を処理するように構成され得る。
図38Bは、対応するマルチチャネル信号から複数の位相差を計算するように各々が構成された、タスクT100の複数のインスタンスを含む方法M400のそのような実装形態M410のフローチャートを示す。方法M410は、複数の計算された位相差からの情報に基づいて、マルチチャネル信号のいずれかが任意のセクタにおいてコヒーレントであるかどうかを判断するタスクT700の実装形態T720をも含む。図39は、タスクT720およびタスクT702の実装形態T722のフローチャートを示す。タスクT720は、同様にしてタスクT704の拡張された実装形態としても実装され得る。
方法M410の適用例の一例では、タスクT210aは、図34Cに示されるアレイのマイクロフォンMC40およびMC20から第1のマルチチャネル信号を受信し、タスクT210bは、アレイのマイクロフォンMC20およびMC10から第2のマルチチャネル信号を受信する。この特定の例では、タスクT722は、マイクロフォンMC40の縦方向から横方向(すなわち、アレイ軸に直角な方向)までの約90度の範囲をカバーするマスキング関数を第1のマルチチャネル信号に適用し、タスクT722は、マイクロフォンMC10の縦方向から横方向までの約90度の範囲をカバーするマスキング関数を第2のマルチチャネル信号に適用する。
追加または代替として、方法M100は、方法M400のセクタ選択が、方法M300によって処理されたマルチチャネル信号のうちの少なくとも1つに対して実行されるように、方向性選択方法M300とセクタ選択方法M400の両方の実装形態として構成され得る。たとえば、方法M400のそのような実装形態は、非線形アレイの異なるマイクロフォンペアからのマルチチャネル信号を処理するように構成され得る。
図40は、対応するマルチチャネル信号から複数の位相差を計算するように各々が構成された、タスクT100の複数のインスタンスを含む方法M300および方法M400のそのような実装形態M350のフローチャートを示す。方法M350は、マルチチャネル信号のうちの1つについてのコヒーレンシ測度の値を計算するように構成されたタスクT200のインスタンスと、マルチチャネル信号のうちの別の1つが任意のセクタにおいてコヒーレントであるかどうかを判断するように構成されたタスクT700のインスタンスとをも含む。方法M350は、複合コヒーレンシ測度を生成するために、タスクT200からのコヒーレンシ測度をタスクT700によって生成されたコヒーレンス指示と組み合わせるように構成されたタスクT610のインスタンスをも含む。方法M350の適用例の一例では、タスクT200のマスキング関数の通過帯域はデバイスの前面をカバーし、タスクT700は、デバイスのその面をセクタに分割する。
方法M100の実装形態は、タスクT712のセクタ選択に従って指向的に構成可能である(たとえば、操縦可能である)空間選択的処理演算を含むように構成され得る。たとえば、方法M100のそのような実装形態は、セクタ選択に従ってビームが選択可能に向けられる(たとえば、操縦される)ように、マイクロフォンチャネルに対してビームフォーミング演算を実行するように構成され得る。ビームフォーマは、複数の固定ビームフォーマの間で選択することによって、または適応ビームフォーマのビーム方向を変更することによって、そのような選択可能な方向を実行するように構成され得る。
図41は、装置A100の実装形態A400のブロック図を示す。装置A400は、(たとえば、本明細書で説明されるタスクT710の実装形態T712を含むタスクT700の実装形態に従って)複数のセクタのうちコヒーレントなセクタを示すように構成されたコヒーレンシ測度計算機200の実装形態712を含む。装置A400は、コヒーレンシ測度計算機712によって示されたセクタに従って、複数のビームのうち1つを選択するように構成され、また、所望の音響および場合によっては雑音を含む第1のチャネルと、雑音基準である第2のチャネルとを生成するために、選択されたビームをチャネルS10−1〜S10−4のうちの2つ、3つ、4つ、またはそれ以上に適用するように構成された、選択可能ビームフォーマ800をも含む。装置A400は、雑音低減信号を生成するためにビームフォーマ800のマルチチャネル出力に対して雑音低減演算を実行するように構成された雑音低減モジュール600をも含む。モジュール600は、ビームフォーマ800の信号雑音出力の雑音成分を推定するように構成された雑音推定器500のインスタンスと、雑音推定値をビームフォーマ出力に適用するように構成されたスペクトル変更器560のインスタンスとを含むように実装され得る。
ビームフォーマ800は、複数のビームを記憶および/または計算するように構成され得、それらのビームは、限定はしないが、本明細書で言及される例(たとえば、MVDR、制約付きBSSなど)を含む、任意のビームフォーミング方法に従って計算され得る。選択されたビームをチャネルの周波数範囲の一部分のみにわたって(たとえば、0〜4kHz帯域など、低周波数帯域にわたって)適用するようにビームフォーマ800を構成することが望ましい場合がある。図42は、装置A400および装置A2402の実装形態A420のブロック図を示す。装置A420は、コヒーレンシ測度計算機712によって生成されたレーティング結果および/またはコヒーレンシ測度に従って、ビームフォーマ出力に基づいて、マスク信号を生成するように構成されたマスク信号発生器300の実装形態302をも含む。装置A420は、マスク信号の雑音成分を推定するように構成された雑音推定器500のインスタンスと、雑音推定値をマスク信号に適用するように構成されたスペクトル変更器560のインスタンスをも含む。
非定常雑音環境では、あまり確実でないシングルチャネルVAD演算によってデュアルマイクロフォンシステムのパフォーマンスが妨害され得る。その上、デュアルマイクロフォンアレイは、前後構成の場合のみ非定常雑音基準を与えることが可能であり得る。図43は、マイクロフォンMC20およびMC40のペアが、(点線の半円で表されるように)アレイの後ろのほうへ向けられたマスクから非定常雑音基準を発生するために使用され得る、そのような一例を示す。そのようなマスクは、たとえば、アレイの前に向けられたヌルビームを含み得、雑音基準は、マルチチャネル信号の少なくとも1つのチャネルに対する(たとえば、タスクT500およびT550に関して)本明細書で説明される後処理雑音低減演算をサポートするために使用され得る。図43に示されるように、そのような雑音基準は、(ラウドスピーカーで表されるように)アレイの前における音源からの干渉を含むことができない場合がある。
ハンドセットと所望の話者との間の相対空間構成のより広い範囲において非定常雑音基準の推定をサポートするために、より多くのマイクロフォン(たとえば、4つのマイクロフォン)を有するアレイが使用され得る。図44は、所望の話者のほうへ向けられた第1のマスクを、第1のマスクを補足する(また、点線の領域によって示される)第2のマスクと組み合わせる一例を示す。第1のマスクは、(たとえば、タスクT310に関して上記で説明されたように)マルチチャネル信号の少なくとも1つのチャネルに基づいてマスク信号を発生するために使用され、補足的マスクは、マスク信号の少なくとも1つのチャネルに対する(たとえば、タスクT500およびT550に関して)本明細書で説明される後処理雑音低減演算をサポートするために使用され得る非定常雑音基準を発生するために使用される。そのような雑音低減方式は、2マイクロフォン方式よりも一貫して全体的に実行することが予想され得る。
図45は、所望の音源のほうへ向けられた(約40度から約90度までの通過帯域によって示される)方向性マスキング関数と、所望の音源から離れて向けられた(約20度未満の通過帯域および約100度を超える通過帯域によって示される)補足的マスクとの一例を示す。この図に示されるように、ほとんど重複を有しないように信号および補足的マスクの通過帯域を実装することが望ましい場合がある。
図46は、非定常雑音推定値を発生するために補足的マスキング関数を使用する方法M100の実装形態M500のフローチャートを示す。方法M500は、少なくとも位相差計算タスクT100の1つのインスタンスと、セクタ選択タスクT712を含むタスクT700の実装形態とを含む。方法M500は、マスキングタスクT310の実装形態T740をも含む。タスクT740は、タスクT712によって選択されたセクタに対応する方向性マスキング関数からのレーティング結果(たとえば、マスクスコア)に従って、マルチチャネル信号の少なくとも1つのチャネルに基づいて、マスク信号を生成する。
方法M500は、マスキングタスクT310の実装形態T750をも含む。タスクT750は、マルチチャネル信号の少なくとも1つのチャネルに基づくマスク雑音信号を生成するために選択されたセクタを補足する方向性マスキング関数を使用する。方法M500は、マルチチャネル信号の少なくとも1つのチャネルの非定常雑音成分の推定値を計算する雑音推定タスクT500の実装形態T520をも含む。たとえば、タスクT520は、(たとえば、本明細書で説明されるようにFIRまたはIIRフィルタを使用して)マスク雑音信号に対して時間平滑化演算を実行することによって非定常雑音推定値を計算するように構成され得る。そのような場合、定常雑音推定値にとって慣例であるよりも迅速に雑音推定値を更新することが望ましい場合がある。たとえば、短い時間間隔(たとえば、2、3、5、または10個のフレーム)にわたっておよび/または(たとえば0.1、0.2、または0.3の平滑化係数を使用して)平滑化よりも多くの更新を実行することによって、マスク雑音信号を平滑化することが望ましい場合がある。方法M500は、タスクT520によって生成された非定常雑音推定値に基づいて、マスク信号の少なくとも1つのチャネルのスペクトルを変更するように構成されたスペクトル修正タスクT560のインスタンスをも含む。
方法M500の代替実装形態は、マスク信号を生成するために、方向性マスキング関数ではなく、選択されたセクタに対応するビームを使用するように構成され、および/またはマスク雑音信号を生成するために、補足的方向性マスキング関数ではなく、選択されたセクタのほうへ向けられたヌルビームを使用するように構成され得る。
非定常雑音基準を計算するように装置A100の実装形態を構成することが望ましい場合がある。装置A420の実装形態では、たとえば、(たとえば、コヒーレンシ測度計算機712によって示されるように)選択されたマスクの補足に基づいて雑音基準を計算するように雑音基準計算機500を構成することが望ましい場合がある。一例では、そのような雑音基準は、コヒーレンシ測度計算機712によって生成されたコヒーレンシ測度が高いときは、低利得をチャネルS10−1に適用することによって計算され、その逆も同様である。別の例では、そのような雑音基準は、選択されたヌルビームが所望の話者の方向に(たとえば、選択されたセクタの方向に)あるように、(ビームフォーマ800に類似する)選択可能ヌルビームフォーマをチャネルS10−1〜S10−4のうちの2つ以上に適用することによって発生される。そのような方法で、選択されたマスクの補足は、所望の話者がいない領域のほうを見ることによって得られ得る。マルチチャネル信号のあるフレームの少なくとも1つのチャネルに対して雑音低減演算を実行するために、その信号の同じフレームからの情報を使用して更新される、そのような非定常雑音基準を使用することが可能である。
雑音推定器500のそのような実装形態は、非アクティブ間隔からの情報に基づいて雑音推定値を更新する雑音推定器500の実装形態の代わりに、またはそれに加えて、使用され得る。たとえば、スペクトル変更器560は、2つの雑音基準の組合せ(たとえば、平均)を1次チャネルS10−1に(代替的に、ビームフォーマ800によって生成された信号雑音チャネルに)適用するように構成され得る。
一例では、4つのマイクロフォンを使用するマスキング手法は、所望のエリア中では単位利得を有し、そのエリア外では(たとえば、40デシベルよりも大きい)強い減衰を有するように実装される。強い方向性前面雑音を伴う状況では、所望の話者が前から話しているときは、狭いマスクが使用されているときでも、わずか約10または12デシベルの雑音低減が達成され得ることが可能である。しかしながら、所望の話者が左側または右側から話しているときは、20dBを超える雑音低減を達成することが可能である。
2つのマイクロフォンの場合は、比較的狭いビームが一般に縦方向においてのみ作成され得るが、横ビームは一般にはるかにより広い。しかしながら、3つ、4つ、またはそれ以上のマイクロフォンの場合は、より狭いビームが一般にすべての方向において可能である。
最初に2つのマイクロフォンからの広いセクタを使用し、次いで4つのマイクロフォンからのより狭いセクタを使用することによって、特定の空間音源にズームするように方法M400を実装することが望ましい場合がある。そのような方式は、所望の話者方向の推定における初期の不確実性による所望のボイス振幅の損失なしに帯域幅の適応調整を得るために使用され得る。2つのマイクロフォンから3つおよび4つのマイクロフォンに進む方式は、より緩やかな遷移のためにも実装され得る。1つのマイクロフォンが機能しない場合、4つのマイクロフォンによって達成される最も狭い空間分解能は損害を被り得るが、3つのマイクロフォンの組合せを用いて、十分に狭い横セクタおよび/またはビームが一般に達成され得る。
セクタを使用する演算(たとえば、方法M400)の追跡精度は、一般にセクタの幅に依存し、それは追跡演算の空間分解能に対して最小限界を設定し得る。たとえば、コヒーレント信号を受信するものとして現在示されているセクタ内の音源は、そのセクタの中心に、またはそのセクタのボーダーのうちの1つに、またはそのセクタ内の他のどこにでも配置され得る。追跡精度は、セクタの幅を狭くすることによって増加させられ得るが、より多くのセクタが使用されるのでない限り、そのような手法はまた、アドミタンス角度を低減し得、それは、次いで、その演算の計算複雑性を増加させ得る。
コヒーレント信号の音源の位置を特定し、および/またはコヒーレント信号の音源を追跡するために、セクタの事前セットではなく、方向インジケータの分布を使用することが望ましい場合がある。図47Aは、位相差計算タスクT100のインスタンスと、方向インジケータ計算タスクT210のインスタンスと、コヒーレンシ測度評価タスクT250の実装形態T252とを含む方法M100の実装形態M600のフローチャートを示す。タスクT252は、到来方向の範囲にわたる方向インジケータの分布に基づいてコヒーレンシ測度の値を計算するように構成される。上記で説明されたように、方向インジケータは、たとえば、到来方向、到来時間遅延、または位相差と周波数との比の値として計算され得る。
タスクT252は、複数の方向の各々について、方向インジケータのうちのいくつの方向インジケータが、その方向に対応するかを判断するように構成される。たとえば、方向の範囲は複数のビンに分割され得、タスクT252は、その値が各ビン内に入る方向インジケータの数を計数するように構成され得る。そのような場合、コヒーレンシ測度の値は、最も密集したビンにおける方向インジケータの数に基づく。
当該の周波数(たとえば、700〜2000Hzの範囲内の成分、および/またはピッチ周波数の倍数における成分)に対応する方向インジケータのみを検討するようにタスクT252を構成することが望ましい場合がある。タスクT252はまた、その対応する周波数に従って方向インジケータのうちの1つまたは複数を重み付けするように構成され得る。たとえば、タスクT252のそのような実装形態は、特定のサブバンドに対応する方向インジケータをより重くまたはより軽く重み付けし、および/あるいは推定されたピッチ周波数の倍数に対応する方向インジケータをより重く重み付けするように構成され得る。
方向インジケータの各あり得る値についてビンを有することが望ましい場合がある。この場合、タスクT252は、同じ値を有する方向インジケータの数を計数することによってコヒーレンシ測度の値を計算するように構成される。たとえば、タスクT252は、コヒーレンシ測度の値を方向インジケータのモードとして計算するように構成され得る。代替的に、方向インジケータの2つ以上の(たとえば、5つの)あり得る値を組み合わせて単一のビンにすることが望ましい場合がある。たとえば、ビン分割は、方向インジケータのあり得る値のうちの2つ以上を各ビンがカバーするように構成され得る。異なる方向において異なる追跡分解能をサポートするようにビン分割を構成することが望ましい場合がある。
タスクT252は、図48に示されるヒストグラムをプロットすることによって実装され得る。そのような場合、コヒーレンシ測度の値は、ヒストグラムによって示される分布のピークまたは重心に基づき得る。ヒストグラムがピークの周りで対称でないインスタンスの場合、タスクT252は、重み付けされた最大値(たとえば、重心)に基づいてコヒーレンシ測度の値を計算することが望ましい場合がある。
タスクT252は、1つのフレームにわたって、または複数のフレーム(たとえば、5、10、20、または50個のフレーム)にわたって方向インジケータを計数するように構成され得る。タスクT252はまた、(たとえば、FIRまたはIIRフィルタなど、本明細書で説明される時間平滑化演算を使用して)時間とともにコヒーレンシ測度の値を平滑化するように構成され得る。
タスクT252は、コヒーレンシ測度がしきい値よりも小さい(代替的に、それ以下の)場合、コヒーレンスの欠如を示すように構成され得る。そのような場合、複数の方向のうちの2つ以上(場合によってはすべて)について異なるしきい値を使用することが望ましい場合がある。たとえば、横方向(すなわち、マイクロフォンアレイの軸に対する横方向)に向かう方向に対して、縦方向に向かう方向に対してよりも高いしきい値を使用することが望ましい場合がある。追加または代替として、タスクT252は、様々な方向についてコヒーレンシが示された場合、2つ以上のコヒーレンシ測度の各々についての値を計算するように構成され得る。
図47Bは、タスクT910を含む方法M600の実装形態M610のフローチャートを示す。タスクT910は、方向インジケータの分布に基づいてマスキング方向を選択するように構成される。たとえば、タスクT910は、ヒストグラムによって示される分布のピークまたは重心に対応する方向を選択するように構成され得る。ヒストグラムがピークの周りで対称でないインスタンスの場合、タスクT910は、重み付けされた最大値に対応する方向を選択することが望ましい場合がある。タスクT252が、2つ以上のコヒーレンシ測度の各々についての値を計算するように構成された場合、タスクT910はまた、2つ以上の対応するマスキング方向を選択するように構成され得る。
タスクT910は、(たとえば、10度の幅を有する)固定方向性マスキング関数のセットの中から選択するように構成され得る。代替的に、タスクT910は、操縦可能な方向性マスキング関数を構成するために上記分布からの情報を使用するように構成され得る。そのような関数の一例は、図8A〜図8Dに関して上記で説明された非線形マスキング関数である。そのような場合、タスクT910は、(たとえば、ヒストグラムのピークまたは重心から)通過帯域の中心周波数を選択し、固定通過帯域幅(たとえば、10度)および/またはプロファイルを使用するように構成され、あるいは分布の特性(たとえば、ピーキネス)に基づいて幅および/またはプロファイルを選択するように構成され得る。図49は、ヒストグラムに基づいてマスキング関数の通過帯域が選択される一例を示す。方法M600による位置特定手法の1つの潜在的な利点は、セクタのセットの各々について同時にコヒーレンシ測度評価のインスタンスを実行することを回避することである。
上記で説明されたビームフォーマおよびビームフォーミング演算に関して、本明細書で説明される方法M400の実装形態によって追跡された空間セクタについて、1つまたは複数のデータ依存またはデータ独立設計技法(MVDR、独立ベクトル分析(IVA)など)を使用して、固定ビームを発生することが望ましい場合がある。たとえば、オフラインで計算されたビームをルックアップテーブルに記憶することが望ましい場合がある。そのような一例は、フィルタごとに65個の複素係数と、空間セクタごとにビームを発生するための3つのフィルタと、合計9つの空間セクタとを含む。図50および図51は、そのような計算されたビームの一例のプロットの2つの図を示す。
MVDR、遅延和ビームフォーマのような従来の手法は、1に等しい制約付きルック方向(look direction)エネルギーとともにビームフォーマ出力エネルギーが最小化される自由場モデルに基づいてビームパターンを設計するために使用され得る。たとえば、閉形MVDR技法は、所与のルック方向、マイクロフォン間距離、および雑音相互相関行列に基づいてビームパターンを設計するために使用され得る。一般に、得られる設計は不要なサイドローブを包含し、それは、雑音相互相関行列の周波数依存対角線ローディングによって主ビームに対してトレードオフされ得る。
主ビーム幅とサイドローブ大きさとの間のトレードオフのより良い制御を与え得る、線形プログラミング技法によって解決される特殊制約付きMVDRコスト関数を使用することが望ましい場合がある。図52〜図54は、それぞれ、ルック方向がπ/2、5π/8、および3π/8である、線形で等距離の4マイクロフォンアレイについて得られたビームパターンの例のセットを示す。相当なサイドローブが主要ルック方向の周りに存在し、ビームが低周波数サブバンドにおいて薄く、それは、非常に風雑音増幅に影響されやすいことに通じ得ることが観測される。
3つ以上のマイクロフォンを有する適用例の場合、ビームパターンを設計するために反復手順を実装することが望ましい場合がある。設計されたビームフォーマ出力エネルギーを最小化する代わりに、そのような手順は、干渉源に対するヌルビームを作成することによって音源を互いに分離しようとする制約付きブラインド音源分離(BSS)学習ルールを使用し得る。従来のビームフォーミング技法の場合のように所望の音源にビームする代わりに、そのような手順は、他の競合する方向をビームアウト(beam out)することによって所望の音源に向かってビームを発生するように設計され得る。各個の周波数ビンにおいてビームパターンを反復的に整形し、それによって、無相関雑音に対して相関雑音をトレードオフし、主ビームに対してサイドローブをトレードオフするために、制約付きBSS手法を使用するようにその手順を構成することが望ましい場合がある。そのような結果を達成するために、すべてのルック角(look angle)にわたって正規化手順を使用して、所望のルック方向において、収束されたビームを単位利得に正則化することが望ましい場合がある。また、あらゆるヌルビーム方向において周波数ビンごとの反復プロセス中に、実施されるヌルビームの深さおよびビーム幅を直接制御するために同調行列を使用することが望ましい場合がある。
適切なヌルビームを作成するために、図55に示されるラウドスピーカーマイクロフォンセットアップが、データを収集するために使用され得る。特定のルック方向に向かってビームを発生することが望まれる場合、ラウドスピーカーは、アレイに対してそれらの角度で配置され得る。制約付きBSSルールは、競合する音源をヌルアウトしようとし得、それによって、干渉ラウドスピーカーの相対角距離によって判断される、より狭いまたはあまり狭くない残留ビームに結果し得るので、得られるビームのビーム幅は、干渉ラウドスピーカーの近接度によって判断され得る。
ビーム幅は、異なる表面および曲率をもつラウドスピーカーを使用することによって影響を及ぼされ得、ラウドスピーカーは、それらのジオメトリに従って空間において音響を拡散する。これらの応答を整形するためにマイクロフォンの数以下の数の音源信号が使用され得る。様々な周波数成分を作成するために、ラウドスピーカーによって再生される様々な音響ファイルが使用され得る。ラウドスピーカーが様々な周波数成分を含んでいる場合、再生される信号は、一定の帯域における周波数損失を補償するために、再生の前に等化され得る。
BSSアルゴリズムは、自然に干渉源をビームアウトし、所望のルック方向においてのみエネルギーを残すことを試み得る。すべての周波数ビンにわたる正規化の後、そのような演算は、所望の音源方向における単位利得に結果し得る。BSSアルゴリズムは、一定の方向において完全に整合させられたビームを生じない場合がある。一定の空間ピックアップパターンを用いてビームフォーマを作成することが望まれる場合、特定のルック方向においてヌルビームを実施することによって、サイドローブは最小化され、ビーム幅は整形され得、ヌルビームの深さおよび幅は、各周波数ビンについておよび各ヌルビーム方向について特定の同調係数によって実施され得る。
選択的にサイドローブ最小化を実施し、および/または一定のルック方向においてビームパターンを正則化することによって、BSSアルゴリズムによって与えられた未加工ビームパターンを微調整することが望ましい場合がある。所望のルック方向は、たとえば、アレイルック方向にわたってフィルタ空間応答の最大値を計算し、次いで、この最大ルック方向の周りの制約を実施することによって、得られ得る。
そのような合成されたビームフォーマの各出力チャネルjのビームパターンは、以下の式の大きさプロットを計算することによって、周波数領域伝達関数Wjm(i*ω)(上式で、mは入力チャネルを示し、1≦m≦M)から得られ得る。
Figure 2012507049
この式では、D(ω)は、
Figure 2012507049
となるような、周波数ωの指向性行列を示し、上式で、pos(i)は、M個のマイクロフォンのアレイにおけるi番目のマイクロフォンの空間座標を示し、cは、媒体中の音響の伝搬速度(たとえば、空気中で340m/s)であり、θjは、マイクロフォンアレイの軸に対するj番目の音源の到来入射角を示す。
ブラインド音源分離(BSS)アルゴリズムの範囲は、フィルタ係数値が周波数領域において直接計算される、周波数領域ICAまたは複素ICAと呼ばれる手法を含む。フィードフォワードフィルタ構造を使用して実装され得るそのような手法は、入力チャネルに対してFFTまたは他の変換を実行することを含み得る。このICA技法は、分離された出力ベクトルY(ω,l)=W(ω)X(ω,l)が相互に独立するように、各周波数ビンωについてM×M逆混合行列W(ω)を計算するように設計される。逆混合行列W(ω)は、次のように表され得るルールに従って更新される。
Figure 2012507049
上式で、W(ω)は、周波数ビンωおよび窓lの逆混合行列を示し、Y(ω,l)は、周波数ビンωおよび窓lのフィルタ出力を示し、Wl+r(ω)は、周波数ビンωおよび窓(l+r)の逆混合行列を示し、rは、1以上の整数値を有する更新レートパラメータであり、μは学習レートパラメータであり、Iは単位行列であり、Φは活動化関数を示し、上付き文字Hは共役転置演算を示し、括弧<>は、時間l=1、...、Lにおける平均化演算を示す。一例では、活動化関数Φ(Yj(ω,l))は、Yj(ω,l)/|Yj(ω,l)|に等しい。
複素ICA解は、一般にスケーリング曖昧さから損害を被り、それは、ルック方向が変化するにつれて、ビームパターン利得および/または応答色の変動を生じ得る。すべての周波数ビンにおいて音源が定常であり、音源の差異が知られている場合、スケーリング問題は、その差異を知られている値に調整することによって解決され得る。しかしながら、自然信号源は、ダイナミックであり、一般に非定常であり、未知の差異を有する。
音源差異を調整する代わりに、スケーリング問題は、学習された分離フィルタ行列を調整することによって解決され得る。最小ひずみ原理によって得られる、1つのよく知られているソリューションは、以下のような式に従って、学習された逆混合行列をスケーリングする。
Figure 2012507049
所望のルック方向において単位利得を作成することによってスケーリング問題に対処することが望ましい場合があり、それは、所望の話者のボイスの周波数カラーレーションを低減または回避するのに役立ち得る。1つのそのような手法は、すべての角度にわたってフィルタ応答大きさの最大値によって行列Wの各行jを正規化する。
Figure 2012507049
いくつかの複素ICA実装形態の別の問題は、同じ音源に関係する周波数ビンの間のコヒーレンスの損失である。この損失は、主に情報源からのエネルギーを含んでいる周波数ビンが干渉出力チャネルに誤って割り当てられる、および/またはその逆も同様である、周波数置換問題に通じ得る。この問題に対していくつかのソリューションが使用され得る。
使用され得る、置換問題に対する1つの応答は、周波数ビンの間で予想される依存関係をモデル化する、ソースプライアを使用する複素ICAの変形体、独立ベクトル分析(IVA)である。本方法では、活動化関数Φは、以下のような多変量活動化関数である。
Figure 2012507049
上式で、pは1以上の整数値(たとえば、1、2、または3)を有する。この関数では、分母における項は、すべての周波数ビンにわたる分離された音源スペクトルに関係する。
(上記の式(5)に記載の)指向性行列D(ω)に基づいて正則化項J(ω)を追加することによってビームおよび/またはヌルビームを実施することが望ましい場合がある。
Figure 2012507049
上式で、S(ω)は、周波数ωおよび各ヌルビーム方向の同調行列であり、C(ω)は、所望のビームパターンの選択を設定し、各出力チャネルjについて干渉方向にヌルを配置する、diag(W(ω)*D(ω))に等しいM×M対角行列である。そのような正則化は、サイドローブを制御するのに役立ち得る。たとえば、行列S(ω)は、各周波数ビンにおける各ヌル方向における実施の量を制御することによって特定の方向θjにおいて各ヌルビームの深さを整形するために使用され得る。そのような制御は、狭いまたは広いヌルビームに対してサイドローブの発生をトレードオフするために重要である場合がある。
正則化項(7)は、以下のような式を用いて、逆混合行列更新式に関する制約として表され得る。
Figure 2012507049
そのような制約は、以下の式の場合のように、そのような項をフィルタ学習ルール(たとえば、式(6))に加算することによって実装され得る。
Figure 2012507049
音源到来方向(DOA)値θjは、サイドローブをなくすために収束されたBSSビームパターンに基づいて判断され得る。たとえば、図56および図57は、π/2ラジアンの周りの広域において収束した1つのBSS解の一例を示す。そのような場合、所望の適用例にとっては法外に大きい場合があるサイドローブを低減するために、たとえば、θj=π/4およびθj=3π/4において選択的ヌルビームを実施することが望ましい場合がある。図58および図59は、得られたより狭いビームを示す。図60は、各周波数ビンにおいて特定の行列S(ω)によって実施される追加のヌルビームをθj=6.5π/8において適用することによって、図58中のビームから得られた別の狭くされたビームを示す。サイドローブが中〜高周波数帯域において著しく低減されたことが観測され得る。この例では、低周波数帯域は意図的に広いビームを含んでおり、それは、無相関雑音増幅を最小化するのに役立ち得る。閉形MVDR設計は、一般にそのような問題を直接扱うことができない。
各個の周波数ビンにおいてビームパターンを反復的に整形し、それによって、無相関雑音に対して相関雑音をトレードオフし、主ビームに対してサイドローブをトレードオフするために、制約付きBSS手法が使用され得る。しかしながら、MVDR設計の場合と同様に、制約付きBSS設計は、単独では、マイクロフォンアレイの前と後ろとの不十分な区別を行い得る。
近距離音声の保存と遠距離干渉の減衰との間の好適なトレードオフを行うために、および/または不要な方向において非線形信号減衰を行うために、本明細書で説明される関連する処理システムを実装することが望ましい場合がある。3つ以上のマイクロフォンからの信号を処理する方法M100の実装形態の適用例の場合、最小ボイスひずみのために線形マイクロフォン構成を選択し、またはより良い雑音低減のために非線形マイクロフォン構成を選択することが望ましい場合がある。
所望のボイスひずみを最小化しながらそのような強調を達成するために、3つ、4つ、またはそれ以上のマイクロフォンを同時にまたはペアで使用することが望ましい場合がある。使用のために開かれ得るキーボードと同様に、デバイスD10の実装形態は、そのような様式で展開され得る非線形マイクロフォンアレイを装備され得る。
非線形4マイクロフォンアレイの一例は、中心マイクロフォンと外側マイクロフォンの各々との間が5センチメートル間隔である、ある線における3つのマイクロフォンと、その線の4センチメートル上方に配置され、いずれかの外側マイクロフォンに対してよりも中心マイクロフォンに対してより近接した別のマイクロフォンとを含む。そのようなアレイの適用例はハンズフリーカーキットを含み、それは、前部座席乗員の前に、および運転者のバイザーと同乗者のバイザーとの間に(たとえば、バックミラー中にまたはバックミラー上に)取り付けられ得る。
ハンドセットモードで使用されている通信デバイスの場合、ハンドセットと所望の話者との空間構成の可変性が一般に制限されるので、デュアルマイクロフォンアレイが一般に十分であり、したがって、デュアルマイクロフォンアレイは、空間構成の限定された範囲のみに対処するのに十分である場合がある。その特定のマイクロフォン構成は、ハンドセットモードのための最適な構成によって示され得る。記録される信号対雑音比は一般に高く、したがって、積極的な後処理技法(たとえば、タスクT550に関して説明された雑音低減演算)が適用され得る。しかしながら、2マイクロフォンアレイは、限定されたユーザ追跡機能のみをサポートし得、したがって、話者のボイスは、特定の範囲を越えて減衰させられ得る。
時間的におよび空間的にユーザの追跡をサポートするために、ならびに/または近距離領域と遠距離領域とを区別するために、3つ以上のマイクロフォンのアレイを使用してことが望ましい場合がある。ユーザハンドセット構成の適切な追跡とともに、そのようなアレイは、空間区別処理によって著しい雑音低減をサポートするために使用され得る。そのようなアレイは、ハンズフリーモードおよび/またはブラウズトークモードなどの遠距離対話モードを有するスマートフォンまたは他のデバイスのためのそのようなモードに好適である場合がある。そのようなモードのためのアレイとユーザの口との間の1つの典型的な距離は50センチメートルである。そのようなアレイは、極めて低いボイスひずみでの雑音除去のみを許容し得る、自動音声認識(ASR)適用例(たとえば、ボイス探索)に有用であり得る。話者の移動を追跡し、それに応じて処理を適応させるために、そのようなアレイを使用することが望ましい場合がある。しかしながら、自動エコー消去の問題は、ハンドセットモードにおける問題よりも困難であり得、3つ以上のマイクロフォンチャネルからの雑音低減とともに対話のための統合エコー消去雑音抑圧(ECNS)ソリューションを使用することが望ましい場合がある。
3つ以上のマイクロフォンのアレイを使用することは、高いボイス品質および/または良好なASRパフォーマンスに貢献し得る。たとえば、そのようなアレイの使用は、広範囲の空間構成にわたって雑音低減の所与のレベルに対してより少ないボイスひずみを与え得る。移動中に、より少ないボイス減衰またはマフリングが所望の話者によって経験されるように、拡張ボイス追跡機能をサポートするためにそのようなアレイを使用することが望ましい場合がある。
本明細書で開示される方法および装置は、一般に、任意の送受信および/またはオーディオ感知適用例、特にそのような適用例のモバイルまたは場合によってはポータブルインスタンスにおいて適用され得る。たとえば、本明細書で開示される構成の範囲は、符号分割多元接続(CDMA)無線インターフェースを採用するように構成されたワイヤレス電話通信システムに常駐する通信デバイスを含む。とはいえ、本明細書で説明される特徴を有する方法および装置は、ワイヤードおよび/またはワイヤレス(たとえば、CDMA、TDMA、FDMA、および/またはTD−SCDMA)送信チャネルを介したボイスオーバーIP(VoIP)を採用するシステムなど、当業者に知られている広範囲の技術を採用する様々な通信システムのいずれにも常駐し得ることが、当業者には理解されよう。
本明細書で開示される通信デバイスは、パケット交換式であるネットワーク(たとえば、VoIPなどのプロトコルに従ってオーディオ送信を搬送するように構成されたワイヤードおよび/またはワイヤレスネットワーク)および/または回線交換式であるネットワークにおける使用に適応させられ得ることが明確に企図され、本明細書によって開示される。また、本明細書で開示される通信デバイスは、狭帯域符号化システム(たとえば、約4または5キロヘルツの可聴周波数範囲を符号化するシステム)での使用、および/または全帯域広帯域符号化システムおよびスプリットバンド符号化システムを含む、広帯域符号化システム(たとえば、5キロヘルツを超える可聴周波数を符号化するシステム)での使用に適応させられ得ることが明確に企図され、本明細書によって開示される。
説明された構成の上記の提示は、本明細書で開示される方法および他の構造を当業者が製造または使用できるように与えられている。本明細書で図示および説明されたフローチャート、ブロック図、および他の構造は例にすぎず、これらの構造の他の変形態も開示の範囲内である。これらの構成に対する様々な変更が可能であり、本明細書で提示された一般的原理は他の構成にも同様に適用され得る。したがって、本開示は、上記に示された構成に限定されることが意図されず、原開示の一部をなす、出願された添付の特許請求の範囲を含む、本明細書において任意の方法で開示された原理および新規の特徴に一致する最も広い範囲が与えられるべきである。
情報および信号は、多種多様な技術および技法のいずれかを使用して表され得ることを当業者ならば理解されよう。たとえば、上記の説明全体にわたって言及され得るデータ、命令、コマンド、情報、信号、ビット、およびシンボルは、電圧、電流、電磁波、磁界または磁性粒子、光場または光学粒子、あるいはそれらの任意の組合せによって表され得る。
本明細書で開示される構成の実装形態の重要な設計要件は、8キロヘルツよりも高いサンプリングレート(たとえば、12kHz、16kHz、または44kHz)でのボイス通信の適用例などの計算集約的適用例の場合は特に、(一般に百万命令毎秒またはMIPSで測定される)処理遅延および/または計算複雑性を最小化することを含み得る。
マルチマイクロフォン処理システムの目的は、全体的な雑音低減において10〜12dBを達成すること、所望の話者の移動中にボイスレベルおよび色を保存すること、積極的な雑音除去、音声の残響除去の代わりに、雑音が背景に移動させられたという知覚を得ること、ならびに/またはより積極的な雑音低減のための後処理(たとえば、タスクT550など、雑音推定値に基づくスペクトル修正演算)のオプションを可能にすることを含み得る。
本明細書で開示される装置(たとえば、装置A10、A12、A13、A14、A20、A24、A100、A120、A130、A140、A200、A240、A400、A420、A1002、A2002、およびA2402)の実装形態の様々な要素は、意図された適用例に好適であると見なされる、ハードウェア、ソフトウェア、および/またはファームウェアの任意の組合せにおいて実施され得る。たとえば、そのような要素は、たとえば同じチップ上に、またはチップセット中の2つ以上のチップの間に常駐する電子デバイスおよび/または光デバイスとして作製され得る。そのようなデバイスの一例は、トランジスタまたは論理ゲートなどの論理要素の固定アレイまたはプログラマブルアレイであり、これらの要素のいずれも1つまたは複数のそのようなアレイとして実装され得る。これらの要素の任意の2つ以上、さらにはすべては、同じ1つまたは複数のアレイ内に実装され得る。そのような1つまたは複数のアレイは、1つまたは複数のチップ内(たとえば、2つ以上のチップを含むチップセット内)に実装され得る。
また、本明細書で開示される装置(たとえば、装置A10、A12、A13、A14、A20、A24、A100、A120、A130、A140、A200、A240、A400、A420、A1002、A2002、およびA2402)の様々な実装形態の1つまたは複数の要素は、全体または一部を、マイクロプロセッサ、組込みプロセッサ、IPコア、デジタル信号プロセッサ、FPGA(フィールドプログラマブルゲートアレイ)、ASSP(特定用途向け標準製品)、およびASIC(特定用途向け集積回路)などの論理要素の1つまたは複数の固定アレイまたはプログラマブルアレイ上で実行するように構成された命令の1つまたは複数のセットとして実装され得る。本明細書で開示する装置の実装形態の様々な要素のいずれも、1つまたは複数のコンピュータ(たとえば、「プロセッサ」とも呼ばれる、命令の1つまたは複数のセットまたはシーケンスを実行するようにプログラムされた1つまたは複数のアレイを含む機械)としても実施され得、これらの要素の任意の2つ以上、さらにはすべてを同じそのような1つまたは複数のコンピュータ内に実装され得る。
本明細書で開示されるように処理するためのプロセッサまたは他の手段は、たとえば同じチップ上に、またはチップセット中の2つ以上のチップ間に常駐する1つまたは複数の電子デバイスおよび/または光デバイスとして作製され得る。そのようなデバイスの一例は、トランジスタまたは論理ゲートなどの論理要素の固定アレイまたはプログラマブルアレイであり、これらの要素のいずれも1つまたは複数のそのようなアレイとして実装され得る。そのような1つまたは複数のアレイは、1つまたは複数のチップ内(たとえば、2つ以上のチップを含むチップセット内)に実装され得る。そのようなアレイの例は、マイクロプロセッサ、組込みプロセッサ、IPコア、DSP、FPGA、ASSP、およびASICなどの論理要素の固定アレイまたはプログラマブルアレイを含む。本明細書で開示されるように処理するためのプロセッサまたは他の手段はまた、1つまたは複数のコンピュータ(たとえば、命令の1つまたは複数のセットまたはシーケンスを実行するようにプログラムされた1つまたは複数のアレイを含む機械)あるいは他のプロセッサとして実施され得る。本明細書で説明されたプロセッサは、プロセッサが組み込まれているデバイスまたはシステム(たとえば、オーディオ感知デバイス)の別の演算に関係するタスクなど、コヒーレンシ検出手順に直接関係しないタスクを実行し、またはコヒーレンシ検出手順に直接関係しない命令の他のセットを実行するために使用することが可能である。また、本明細書で開示される方法の一部(たとえば、位相差計算タスクT100および/またはコヒーレンシ測度計算タスクT200)は、オーディオ感知デバイスのプロセッサによって実行され、本方法の別の一部(たとえば、雑音低減タスクなど、信号の1つまたは複数のチャネルにコヒーレンシ測度を適用するように構成されたタスク)は、1つまたは複数の他のプロセッサの制御下で実行されることが可能である。
本明細書で開示される構成に関して説明された様々な例示的なモジュール、論理ブロック、回路、およびテストならびに他の動作は、電子ハードウェア、コンピュータソフトウェア、または両方の組合せとして実装され得ることを、当業者なら諒解されよう。そのようなモジュール、論理ブロック、回路、および動作は、本明細書で開示される構成を生成するように設計された、汎用プロセッサ、デジタル信号プロセッサ(DSP)、ASICまたはASSP、FPGAまたは他のプログラマブル論理デバイス、個別ゲートまたはトランジスタロジック、個別ハードウェア構成要素、あるいはそれらの任意の組合せを用いて実装または実行され得る。たとえば、そのような構成は、少なくとも部分的に、ハードワイヤード回路として、特定用途向け集積回路へと作製された回路構成として、あるいは不揮発性記憶装置にロードされるファームウェアプログラム、または汎用プロセッサもしくは他のデジタル信号処理ユニットなどの論理要素のアレイによって実行可能な命令である機械可読コードとしてデータ記憶媒体から、もしくはデータ記憶媒体にロードされるソフトウェアプログラムとして実装され得る。汎用プロセッサはマイクロプロセッサであり得るが、代替として、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態機械であり得る。プロセッサはまた、コンピューティングデバイスの組合せ、たとえば、DSPとマイクロプロセッサとの組合せ、複数のマイクロプロセッサ、DSPコアと連携する1つまたは複数のマイクロプロセッサ、あるいは任意の他のそのような構成として実装され得る。ソフトウェアモジュールは、RAM(ランダムアクセスメモリ)、ROM(読取り専用メモリ)、フラッシュRAMなどの不揮発性RAM(NVRAM)、消去可能プログラマブルROM(EPROM)、電気的消去可能プログラマブルROM(EEPROM)、レジスタ、ハードディスク、リムーバブルディスク、CD−ROM、または当技術分野で知られている任意の他の形態の記憶媒体に常駐し得る。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるように、プロセッサに結合される。代替として、記憶媒体はプロセッサに一体化され得る。プロセッサおよび記憶媒体はASICに常駐し得る。ASICはユーザ端末に常駐し得る。代替として、プロセッサおよび記憶媒体は、個別構成要素としてユーザ端末に常駐し得る。
本明細書で開示される様々な方法は、プロセッサなどの論理要素のアレイによって実行され得、本明細書で説明される装置の様々な要素は、そのようなアレイ上で実行するように設計されたモジュールとして実装され得ることが留意される。本明細書で使用される「モジュール」または「サブモジュール」という用語は、ソフトウェア、ハードウェアまたはファームウェアの形態でコンピュータ命令(たとえば、論理式)を含む任意の方法、装置、デバイス、ユニットまたはコンピュータ可読データ記憶媒体を指すことができる。複数のモジュールまたはシステムは1つのモジュールまたはシステムに結合され得、1つのモジュールまたはシステムは、同じ機能を実行する複数のモジュールまたはシステムに分離され得ることが理解されるべきである。ソフトウェアまたは他のコンピュータ実行可能命令で実装された場合、プロセスの要素は本質的に、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを用いて関連するタスクを実行するコードセグメントである。「ソフトウェア」という用語は、ソースコード、アセンブリ言語コード、機械コード、バイナリコード、ファームウェア、マクロコード、マイクロコード、論理要素のアレイによって実行可能な命令の1つまたは複数のセットまたはシーケンス、およびそのような例の任意の組合せを含むことが理解されるべきである。プログラムまたはコードセグメントは、プロセッサ可読媒体に記憶され得、あるいは搬送波に埋め込まれたコンピュータデータ信号によって伝送媒体または通信リンクを介して送信され得る。
また、本明細書で開示される方法、方式、および技法の実装形態は、(たとえば、本明細書に記載される1つまたは複数のコンピュータ可読媒体中で)論理要素のアレイ(たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械)を含む機械によって読取り可能および/または実行可能な命令の1つまたは複数のセットとして有形に実施され得る。「コンピュータ可読媒体」という用語は、情報を記憶または転送することができる、揮発性、不揮発性、取外し可能および取外し不可能な媒体を含む任意の媒体を含み得る。コンピュータ可読媒体の例は、電子回路、半導体メモリデバイス、ROM、フラッシュメモリ、消去可能ROM(EROM)、フロッピー(登録商標)ディスケットまたは他の磁気記憶装置、CD−ROM/DVDまたは他の光記憶装置、ハードディスク、光ファイバ媒体、無線周波数(RF)リンク、または所望の情報を記憶するために使用され得、アクセスされ得る任意の他の媒体を含む。コンピュータデータ信号は、電子ネットワークチャネル、光ファイバ、エアリンク、電磁リンク、RFリンクなどの伝送媒体を介して伝搬することができるどんな信号でも含み得る。コードセグメントは、インターネットまたはイントラネットなどのコンピュータネットワークを介してダウンロードされ得る。いずれの場合も、本開示の範囲は、そのような実施形態によって限定されると解釈されるべきではない。
本明細書で説明された方法のタスクの各々は、ハードウェアで直接実施されるか、プロセッサによって実行されるソフトウェアモジュールで実施されるか、またはその2つの組合せで実施され得る。本明細書で開示される方法の実装形態の典型的な適用例では、論理要素のアレイ(たとえば、論理ゲート)は、この方法の様々なタスクのうちの1つ、複数、さらにはすべてを実行するように構成される。また、タスクの1つまたは複数(場合によってはすべて)は、論理要素のアレイ(たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械)を含む機械(たとえば、コンピュータ)によって可読および/または実行可能であるコンピュータプログラム製品(たとえば、ディスク、フラッシュまたは他の不揮発性メモリカード、半導体メモリチップなどの1つまたは複数のデータ記憶媒体など)に埋め込まれたコード(たとえば、命令の1つまたは複数のセット)として実装され得る。本明細書で開示される方法の実装形態のタスクはまた、2つ以上のそのようなアレイまたは機械によって実行され得る。これらのまたは他の実装形態では、タスクは、セルラー電話など、ワイヤレス通信用のデバイス、またはそのような通信機能をもつ他のデバイス内で実行され得る。そのようなデバイスは、(VoIPなどの1つまたは複数のプロトコルを使用して)回線交換および/またはパケット交換ネットワークと通信するように構成され得る。たとえば、そのようなデバイスは、符号化フレームを受信および/または送信するように構成されたRF回路を含み得る。
本明細書で開示される様々な方法は、ハンドセット、ヘッドセット、または携帯情報端末(PDA)などのポータブル通信デバイスによって実行され得、本明細書で説明された様々な装置は、そのようなデバイス内に含められ得ることが明確に開示される。典型的なリアルタイム(たとえば、オンライン)適用例は、そのようなモバイルデバイスを使用して行われる電話会話である。
1つまたは複数の例示的な実施形態では、本明細書で説明された動作は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。ソフトウェアで実装された場合、そのような動作は、1つまたは複数の命令またはコードとしてコンピュータ可読媒体に記憶されるか、あるいはコンピュータ可読媒体を介して送信され得る。「コンピュータ可読媒体」という用語は、コンピュータ記憶媒体と、ある場所から別の場所へのコンピュータプログラムの転送を可能にするいかなる媒体をも含む通信媒体との両方を含む。記憶媒体は、コンピュータによってアクセスされ得る任意の利用可能な媒体であり得る。限定ではなく、例として、そのようなコンピュータ可読媒体は、(限定はしないが、ダイナミックまたはスタティックRAM、ROM、EEPROM、および/またはフラッシュRAMを含み得る)半導体メモリ、あるいは強誘電体メモリ、磁気抵抗メモリ、オボニックメモリ、高分子メモリ、または相変化メモリなどの記憶要素のアレイ、CD−ROMまたは他の光ディスク記憶装置、磁気ディスク記憶装置または他の磁気記憶装置を備えることができ、あるいは所望のプログラムコードを命令またはデータ構造の形態で搬送または記憶するために使用され得、コンピュータによってアクセスされ得る、任意の他の媒体を備えることができる。また、いかなる接続もコンピュータ可読媒体と適切に呼ばれる。たとえば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線(DSL)、または赤外線、無線、および/またはマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバケーブル、ツイストペア、DSL、または赤外線、無線、および/またはマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。本明細書で使用される、ディスク(disk)およびディスク(disc)は、コンパクトディスク(disc)(CD)、レーザディスク(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピーディスク(disk)およびブルーレイディスク(disc)(商標)(ブルーレイディスクアソシエーション、カリフォルニア州ユニヴァーサルシティー)を含み、この場合、ディスク(disk)は、通常、データを磁気的に再生し、ディスク(disc)はデータをレーザで光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲内に含まれるべきである。
本明細書で説明された音響信号処理装置は、いくつかの動作を制御するために音声入力を受容し、または場合によっては背景雑音から所望の雑音を分離することから利益を得る場合がある、通信デバイスなどの電子デバイスに組み込まれ得る。多くの適用例は、複数の方向から発する背景音から明瞭な所望の音を強調または分離することから利益を得る場合がある。そのような適用例は、ボイス認識および検出、音声強調および分離、ボイス作動制御などの機能を組み込んだ電子デバイスまたはコンピューティングデバイス中のヒューマンマシンインターフェースを含み得る。限定された処理機能のみを与えるデバイスに適したそのような音響信号処理装置を実装することが望ましい場合がある。
本明細書で説明されたモジュール、要素、およびデバイスの様々な実装形態の要素は、たとえば、同じチップ上にまたはチップセット中の2つ以上のチップ上に常駐する電子デバイスおよび/または光デバイスとして作製され得る。そのようなデバイスの一例は、トランジスタまたはゲートなど、論理要素の固定アレイまたはプログラマブルアレイである。また、本明細書で説明された装置の様々な実装形態の1つまたは複数の要素は、全体または一部を、マイクロプロセッサ、組込みプロセッサ、IPコア、デジタル信号プロセッサ、FPGA、ASSP、およびASICなど論理要素の1つまたは複数の固定アレイまたはプログラマブルアレイ上で実行するように構成された命令の1つまたは複数のセットとして実装され得る。
本明細書で説明された装置の一実装形態の1つまたは複数の要素は、装置が組み込まれているデバイスまたはシステムの別の動作に関係するタスクなど、装置の動作に直接関係しないタスクを実施し、あるいは装置の動作に直接関係しない命令の他のセットを実行するために使用されることが可能である。また、そのような装置の実装形態の1つまたは複数の要素は、共通の構造(たとえば、異なる要素に対応するコードの部分を異なる時間に実行するために使用されるプロセッサ、異なる要素に対応するタスクを異なる時間に実施するために実行される命令のセット、あるいは、異なる要素向けの動作を異なる時間に実施する電子デバイスおよび/または光デバイスの構成)を有することが可能である。たとえば、FFTモジュールFFT1〜FFT4のうちの1つまたは複数(場合によってはすべて)は、異なる時間に同じ構造(たとえば、あるFFT演算を定義する命令の同じセット)を使用するように実装され得る。
本明細書で説明された装置の一実装形態の1つまたは複数の要素は、装置が組み込まれているデバイスまたはシステムの別の動作に関係するタスクなど、装置の動作に直接関係しないタスクを実施し、あるいは装置の動作に直接関係しない命令の他のセットを実行するために使用されることが可能である。また、そのような装置の実装形態の1つまたは複数の要素は、共通の構造(たとえば、異なる要素に対応するコードの部分を異なる時間に実行するために使用されるプロセッサ、異なる要素に対応するタスクを異なる時間に実施するために実行される命令のセット、あるいは、異なる要素向けの動作を異なる時間に実施する電子デバイスおよび/または光デバイスの構成)を有することが可能である。たとえば、FFTモジュールFFT1〜FFT4のうちの1つまたは複数(場合によってはすべて)は、異なる時間に同じ構造(たとえば、あるFFT演算を定義する命令の同じセット)を使用するように実装され得る。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
(1)
マルチチャネル信号を処理する方法であって、前記方法は、
前記マルチチャネル信号の複数の異なる周波数成分の各々について、前記マルチチャネル信号の第1のチャネル中の前記周波数成分の位相と、前記マルチチャネル信号の第2のチャネル中の前記周波数成分の位相との間の差を計算することと、
前記複数の計算された位相差からの情報に基づいて、少なくとも前記複数の異なる周波数成分の到来方向の間のコヒーレンスの程度を示すコヒーレンシ測度の値を計算することと、
を備える方法。
(2)
前記複数の周波数成分は、1キロヘルツ以下の周波数を有する少なくとも1つの周波数成分と、1500ヘルツ以上の周波数を有する少なくとも1つの周波数成分とを含む、(1)に記載の方法。
(3)
前記複数の周波数成分は、800ヘルツ以下の周波数を有する少なくとも1つの周波数成分と、1800ヘルツ以上の周波数を有する少なくとも1つの周波数成分とを含む、(1)に記載の方法。
(4)
前記方法は、前記マルチチャネル信号の推定ピッチ周波数に基づいて前記複数の異なる周波数成分を選択することを含む、(1)に記載の方法。
(5)
前記方法は、前記コヒーレンシ測度の前記値に基づいて、指定された雑音スペクトルプロファイルに従って前記マルチチャネル信号の少なくとも1つのチャネルの少なくとも1つの周波数成分の振幅を変化させることを含む、(1)に記載の方法。
(6)
前記方法は、前記コヒーレンシ測度の前記値に基づいて、前記マルチチャネル信号の少なくとも1つのチャネルの雑音成分の推定値を更新することを含む、(1)に記載の方法。
(7)
前記方法は、
第2のマルチチャネル信号の複数の異なる周波数成分の各々について、第2の複数の計算された位相差を得るために、前記第2のマルチチャネル信号の第1のチャネル中の前記周波数成分の位相と、前記第2のマルチチャネル信号の第2のチャネル中の前記周波数成分の位相との間の差を計算することを備え、
コヒーレンシ測度の値を前記計算することは、前記第2の複数の計算された位相差からの情報に基づき、
前記コヒーレンシ測度の前記値は、少なくとも前記マルチチャネル信号の前記複数の異なる周波数成分と前記第2のマルチチャネル信号の前記複数の異なる周波数成分との前記到来方向の間のコヒーレンスの程度を示す、
(1)に記載の方法。
(8)
前記コヒーレンシ測度の値を前記計算することは、前記複数の計算された位相差の各々について、対応する方向インジケータを計算することを備え、
前記複数の方向インジケータの各々は、(A)前記対応する周波数成分の到来方向、(B)前記対応する周波数成分の到来時間遅延、および(C)前記計算された位相差と、前記対応する周波数成分の前記周波数との間の比のうちの少なくとも1つを示す、
(1)に記載の方法。
(9)
前記コヒーレンシ測度の値を前記計算することは、前記複数の方向インジケータの各々について、対応するマスクスコアを得るために、方向性マスキング関数に従って前記方向インジケータをレーティングすることを備え、
前記コヒーレンシ測度の前記値が前記複数のマスクスコアに基づく、
(8)に記載の方法。
(10)
前記方法は、マスク信号を生成するために、前記対応するマスクスコアに基づいて、前記マルチチャネル信号の少なくとも1つのチャネルの前記複数の周波数成分のうちの少なくとも1つの振幅を変化させることを含む、(9)に記載の方法。
(11)
前記方法は、
前記マルチチャネル信号の指定されたサブバンド中の周波数成分に対応する前記複数の方向インジケータのうちの少なくともいくつかの前記マスクスコアに基づいて、サブバンドマスクスコアを計算することと、
マスク信号を生成するために、前記サブバンドマスクスコアに基づいて、前記マルチチャネル信号の少なくとも1つのチャネルの少なくとも前記指定されたサブバンドの前記周波数成分の振幅を変化させることと
を含む、(9)に記載の方法。
(12)
前記方法は、前記マスク信号のレベルと前記少なくとも1つのチャネルのレベルとの比が小さいときに前記マスク信号を減衰させることを含む、(10)に記載の方法。
(13)
前記方法は、
前記複数の方向インジケータの各々について、第2の対応するマスクスコアを得るために、第2の方向性マスキング関数に従って前記方向インジケータをレーティングすることと、
前記第2の複数のマスクスコアに基づいて、第2のコヒーレンシ測度の値を計算することと、
を備える、(9)に記載の方法。
(14)
前記方法は、
前記コヒーレンシ測度の前記値と前記第2のコヒーレンシ測度の前記値とに基づいて、(A)前記方向性マスキング関数に対応する第1の方向、および(B)前記第2の方向性マスキング関数に対応する第2の方向、のうちの1つに従って空間選択的処理演算を構成することと、
処理された信号を得るために、前記構成された空間選択的処理演算を前記マルチチャネル信号の少なくとも2つのチャネルに適用することと、
を備える、(13)に記載の方法。
(15)
前記方法は、
(A)前記コヒーレンシ測度の前記値と前記コヒーレンシ測度の過去の値の平均との間の関係の状態と、(B)前記第2のコヒーレンシ測度の前記値と前記第2のコヒーレンシ測度の過去の値の平均との間の関係の状態と、を比較すること、
を備える、(13)に記載の方法。
(16)
前記方法は、
第2のマルチチャネル信号の複数の異なる周波数成分の各々について、第2の複数の計算された位相差を得るために、前記第2のマルチチャネル信号の第1のチャネル中の前記周波数成分の位相と、前記第2のマルチチャネル信号の第2のチャネル中の前記周波数成分の位相との間の差を計算することと、
前記第2の複数の計算された位相差からの情報に基づいて、少なくとも前記第2のマルチチャネル信号の前記複数の異なる周波数成分の前記到来方向の間のコヒーレンスの程度を示す第2のコヒーレンシ測度の値を計算することと、
前記コヒーレンシ測度の前記値を第1のしきい値と比較することと、
前記第2のコヒーレンシ測度の前記値を、前記第1のしきい値とは異なる第2のしきい値と比較することと、
を備える、(1)に記載の方法。
(17)
マルチチャネル信号を処理するための装置であって、前記装置は、
前記マルチチャネル信号の複数の異なる周波数成分の各々について、前記マルチチャネル信号の第1のチャネル中の前記周波数成分の位相と、前記マルチチャネル信号の第2のチャネル中の前記周波数成分の位相との間の差を計算するための手段と、
前記複数の計算された位相差からの情報に基づいて、少なくとも前記複数の異なる周波数成分の到来方向の間のコヒーレンスの程度を示すコヒーレンシ測度の値を計算するための手段と、
を備える装置。
(18)
前記複数の周波数成分は、1キロヘルツ以下の周波数を有する少なくとも1つの周波数成分と、1500ヘルツ以上の周波数を有する少なくとも1つの周波数成分とを含む、(17)に記載の装置。
(19)
前記複数の周波数成分は、800ヘルツ以下の周波数を有する少なくとも1つの周波数成分と、1800ヘルツ以上の周波数を有する少なくとも1つの周波数成分とを含む、(17)に記載の装置。
(20)
前記装置は、前記マルチチャネル信号の推定ピッチ周波数に基づいて前記複数の異なる周波数成分を選択するための手段を含む、(17)に記載の装置。
(21)
前記装置は、前記コヒーレンシ測度の前記値に基づいて、指定された雑音スペクトルプロファイルに従って前記マルチチャネル信号の少なくとも1つのチャネルの少なくとも1つの周波数成分の振幅を変化させるための手段を含む、(17)に記載の装置。
(22)
前記装置は、前記コヒーレンシ測度の前記値に基づいて、前記マルチチャネル信号の少なくとも1つのチャネルの雑音成分の推定値を更新するための手段を含む、(17)に記載の装置。
(23)
前記装置は、第2のマルチチャネル信号の複数の異なる周波数成分の各々について、第2の複数の計算された位相差を得るために、前記第2のマルチチャネル信号の第1のチャネル中の前記周波数成分の位相と、前記第2のマルチチャネル信号の第2のチャネル中の前記周波数成分の位相と、の間の差を計算するための手段を備え、
コヒーレンシ測度の値を計算するための前記手段は、前記第2の複数の計算された位相差からの情報に基づいて前記コヒーレンシ測度の前記値を計算するように構成され、
前記コヒーレンシ測度の前記値は、少なくとも前記マルチチャネル信号の前記複数の異なる周波数成分と前記第2のマルチチャネル信号の前記複数の異なる周波数成分との前記到来方向の間のコヒーレンスの程度を示す、
(17)に記載の装置。
(24)
前記コヒーレンシ測度の値を計算するための前記手段は、前記複数の計算された位相差の各々について、対応する方向インジケータを計算するように構成され、
前記複数の方向インジケータの各々は、(A)前記対応する周波数成分の到来方向、(B)前記対応する周波数成分の到来時間遅延、および(C)前記計算された位相差と、前記対応する周波数成分の前記周波数との間の比のうちの少なくとも1つを示す、
(17)に記載の装置。
(25)
前記コヒーレンシ測度の値を計算するための前記手段が、前記複数の方向インジケータの各々について、対応するマスクスコアを得るために、方向性マスキング関数に従って前記方向インジケータをレーティングするための手段を備え、
前記コヒーレンシ測度の前記値は前記複数のマスクスコアに基づく、
(24)に記載の装置。
(26)
前記装置は、マスク信号を生成するために、前記対応するマスクスコアに基づいて、前記マルチチャネル信号のうちの少なくとも1つのチャネルの前記複数の周波数成分のうちの少なくとも1つの振幅を変化させるための手段を含む、(25)に記載の装置。
(27)
前記装置は、
前記マルチチャネル信号の指定されたサブバンド中の周波数成分に対応する前記複数の方向インジケータのうちの少なくともいくつかの前記マスクスコアに基づいて、サブバンドマスクスコアを計算するための手段と、
マスク信号を生成するために、前記サブバンドマスクスコアに基づいて、前記マルチチャネル信号の少なくとも1つのチャネルの少なくとも前記指定されたサブバンドの前記周波数成分の振幅を変化させるための手段と、
を含む、(25)に記載の装置。
(28)
前記装置は、前記マスク信号のレベルと前記少なくとも1つのチャネルのレベルとの比が小さいときに前記マスク信号を減衰させるための手段を含む、(26)に記載の装置。
(29)
前記装置は、
前記複数の方向インジケータの各々について、第2の対応するマスクスコアを得るために、第2の方向性マスキング関数に従って前記方向インジケータをレーティングするための手段と、
前記第2の複数のマスクスコアに基づいて、第2のコヒーレンシ測度の値を計算するための手段と、
を備える、(25)に記載の装置。
(30)
前記装置は、
前記コヒーレンシ測度の前記値と前記第2のコヒーレンシ測度の前記値とに基づいて、(A)前記方向性マスキング関数に対応する第1の方向、および(B)前記第2の方向性マスキング関数に対応する第2の方向のうちの1つに従って空間選択的処理演算を構成するための手段と、
処理された信号を得るために、前記構成された空間選択的処理演算を前記マルチチャネル信号の少なくとも2つのチャネルに適用するための手段と、
を備える、(29)に記載の装置。
(31)
前記装置は、
(A)前記コヒーレンシ測度の前記値と前記コヒーレンシ測度の過去の値の平均との間の関係の状態と、(B)前記第2のコヒーレンシ測度の前記値と前記第2のコヒーレンシ測度の過去の値の平均との間の関係の状態と、を比較するための手段
を備える、(29)に記載の装置。
(32)
前記装置は、
第2のマルチチャネル信号の複数の異なる周波数成分の各々について、第2の複数の計算された位相差を得るために、前記第2のマルチチャネル信号の第1のチャネル中の前記周波数成分の位相と、前記第2のマルチチャネル信号の第2のチャネル中の前記周波数成分の位相との間の差を計算するための手段と、
前記第2の複数の計算された位相差からの情報に基づいて、少なくとも前記第2のマルチチャネル信号の前記複数の異なる周波数成分の前記到来方向の間のコヒーレンスの程度を示す第2のコヒーレンシ測度の値を計算するための手段と、
前記コヒーレンシ測度の前記値を第1のしきい値と比較するための手段と、
前記第2のコヒーレンシ測度の前記値を前記第1のしきい値とは異なる第2のしきい値と比較するための手段と、
を備える、(17)に記載の装置。
(33)
マルチチャネル信号を処理するための装置であって、前記装置は、
前記マルチチャネル信号の複数の異なる周波数成分の各々に ついて、前記マルチチャネル信号の第1のチャネル中の前記周波数成分の位相と、前記マルチチャネル信号の第2のチャネル中の前記周波数成分の位相との間の差を計算するように構成された位相差計算機と、
前記複数の計算された位相差からの情報に基づいて、少なくとも前記複数の異なる周波数成分の前記到来方向の間のコヒーレンスの程度を示すコヒーレンシ測度の値を計算するように構成されたコヒーレンシ測度計算機と、
を備える装置。
(34)
前記複数の周波数成分は、1キロヘルツ以下の周波数を有する少なくとも1つの周波数成分と、1500ヘルツ以上の周波数を有する少なくとも1つの周波数成分とを含む、(33)に記載の装置。
(35)
前記複数の周波数成分は、800ヘルツ以下の周波数を有する少なくとも1つの周波数成分と、1800ヘルツ以上の周波数を有する少なくとも1つの周波数成分と、を含む、(33)に記載の装置。
(36)
前記位相差計算機と前記コヒーレンシ測度計算機とのうちの少なくとも1つは、前記マルチチャネル信号の推定されたピッチ周波数に基づいて前記複数の異なる周波数成分を選択するように構成されている、(33)に記載の装置。
(37)
前記装置は、前記コヒーレンシ測度の前記値に基づいて、指定された雑音スペクトルプロファイルに従って前記マルチチャネル信号の少なくとも1つのチャネルの少なくとも1つの周波数成分の振幅を変化させるように構成されたスペクトル変更器を含む、(33)に記載の装置。
(38)
前記装置は、前記コヒーレンシ測度の前記値に基づいて、前記マルチチャネル信号の少なくとも1つのチャネルの雑音成分の推定値を更新するように構成された雑音推定器を含む、(33)に記載の装置。
(39)
前記装置は、第2のマルチチャネル信号の複数の異なる周波数成分の各々について、第2の複数の計算された位相を得るために、前記第2のマルチチャネル信号の第1のチャネル中の前記周波数成分の位相と、前記第2のマルチチャネル信号の第2のチャネル中の前記周波数成分の位相と、の間の差を計算するように構成された第2の位相差計算機を備え、
前記コヒーレンシ測度計算機は、前記第2の複数の計算された位相差からの情報に基づいて前記コヒーレンシ測度の前記値を計算するように構成され、
前記コヒーレンシ測度の前記値は、少なくとも前記マルチチャネル信号の前記複数の異なる周波数成分と前記第2のマルチチャネル信号の前記複数の異なる周波数成分との前記到来方向の間のコヒーレンスの程度を示す、
(33)に記載の装置。
(40)
前記コヒーレンシ測度計算機は、前記複数の計算された位相差の各々について、対応する方向インジケータを計算するように構成され、
前記複数の方向インジケータの各々は、(A)前記対応する周波数成分の到来方向、(B)前記対応する周波数成分の到来時間遅延、および(C)前記計算された位相差と、前記対応する周波数成分の前記周波数との間の比、のうちの少なくとも1つを示す、
(33)に記載の装置。
(41)
前記コヒーレンシ測度計算機は、前記複数の方向インジケータの各々について、対応するマスクスコアを得るために、方向性マスキング関数に従って前記方向インジケータをレーティングするように構成され、
前記コヒーレンシ測度の前記値が前記複数のマスクスコアに基づく、
(40)に記載の装置。
(42)
前記装置は、マスク信号を生成するために、前記対応するマスクスコアに基づいて、前記マルチチャネル信号の少なくとも1つのチャネルの前記複数の周波数成分のうちの少なくとも1つの振幅を変化させるように構成されたマスク信号発生器を含む、(41)に記載の装置。
(43)
前記装置は、前記マルチチャネル信号の指定されたサブバンド中の周波数成分に対応する前記複数の方向インジケータのうちの少なくともいくつかの前記マスクスコアに基づいて、サブバンドマスクスコアを計算し、マスク信号を生成するために、前記サブバンドマスクスコアに基づいて、前記マルチチャネル信号の少なくとも1つのチャネルの少なくとも前記指定されたサブバンドの前記周波数成分の振幅を変化させるように構成されたマスク信号発生器を含む、(41)に記載の装置。
(44)
前記マスク信号発生器は、前記マスク信号のレベルと前記少なくとも1つのチャネルのレベルとの比が小さいときに前記マスク信号を減衰させるように構成された、(42)に記載の装置。
(45)
前記コヒーレンシ測度計算機は、前記複数の方向インジケータの各々について、第2の対応するマスクスコアを得るために、第2の方向性マスキング関数に従って前記方向インジケータをレーティングし、前記第2の複数のマスクスコアに基づいて、第2のコヒーレンシ測度の値を計算するように構成されている、(41)に記載の装置。
(46)
前記装置は、処理された信号を得るために、空間選択的処理演算を前記マルチチャネル信号の少なくとも2つのチャネルに適用するように構成された空間選択的プロセッサを備え、
前記空間選択的処理演算は、前記コヒーレンシ測度の前記値と前記第2のコヒーレンシ測度の前記値とに基づいて、(A)前記方向性マスキング関数に対応する第1の方向、および(B)前記第2の方向性マスキング関数に対応する第2の方向、のうちの1つに従って構成された、
(45)に記載の装置。
(47)
前記コヒーレンシ測度計算機は、(A)前記コヒーレンシ測度の前記値と前記コヒーレンシ測度の過去の値の平均との間の関係の状態と、(B)前記第2のコヒーレンシ測度の前記値と前記第2のコヒーレンシ測度の過去の値の平均との間の関係の状態とを比較するように構成された、(45)に記載の装置。
(48)
前記コヒーレンシ測度計算機は、
第2のマルチチャネル信号の複数の異なる周波数成分の各々について、第2の複数の計算された位相差を得るために、前記第2のマルチチャネル信号の第1のチャネル中の前記周波数成分の位相と、前記第2のマルチチャネル信号の第2のチャネル中の前記周波数成分の位相との間の差を計算することと、
前記第2の複数の計算された位相差からの情報に基づいて、少なくとも前記第2のマルチチャネル信号の前記複数の異なる周波数成分の前記到来方向の間のコヒーレンスの程度を示す第2のコヒーレンシ測度の値を計算することと、
前記コヒーレンシ測度の前記値を第1のしきい値と比較することと、
前記第2のコヒーレンシ測度の前記値を、前記第1のしきい値とは異なる第2のしきい値と比較することと、
を行うように構成された、(33)に記載の装置。
(49)
少なくとも1つのプロセッサによって実行されたとき、前記少なくとも1つのプロセッサに(1)に記載の方法を実行させる指示を備えるコンピュータ可読媒体。

Claims (49)

  1. マルチチャネル信号を処理する方法であって、前記方法は、
    前記マルチチャネル信号の複数の異なる周波数成分の各々について、前記マルチチャネル信号の第1のチャネル中の前記周波数成分の位相と、前記マルチチャネル信号の第2のチャネル中の前記周波数成分の位相との間の差を計算することと、
    前記複数の計算された位相差からの情報に基づいて、少なくとも前記複数の異なる周波数成分の到来方向の間のコヒーレンスの程度を示すコヒーレンシ測度の値を計算することと、
    を備える方法。
  2. 前記複数の周波数成分は、1キロヘルツ以下の周波数を有する少なくとも1つの周波数成分と、1500ヘルツ以上の周波数を有する少なくとも1つの周波数成分とを含む、請求項1に記載の方法。
  3. 前記複数の周波数成分は、800ヘルツ以下の周波数を有する少なくとも1つの周波数成分と、1800ヘルツ以上の周波数を有する少なくとも1つの周波数成分とを含む、請求項1に記載の方法。
  4. 前記方法は、前記マルチチャネル信号の推定ピッチ周波数に基づいて前記複数の異なる周波数成分を選択することを含む、請求項1に記載の方法。
  5. 前記方法は、前記コヒーレンシ測度の前記値に基づいて、指定された雑音スペクトルプロファイルに従って前記マルチチャネル信号の少なくとも1つのチャネルの少なくとも1つの周波数成分の振幅を変化させることを含む、請求項1に記載の方法。
  6. 前記方法は、前記コヒーレンシ測度の前記値に基づいて、前記マルチチャネル信号の少なくとも1つのチャネルの雑音成分の推定値を更新することを含む、請求項1に記載の方法。
  7. 前記方法は、
    第2のマルチチャネル信号の複数の異なる周波数成分の各々について、第2の複数の計算された位相差を得るために、前記第2のマルチチャネル信号の第1のチャネル中の前記周波数成分の位相と、前記第2のマルチチャネル信号の第2のチャネル中の前記周波数成分の位相との間の差を計算することを備え、
    コヒーレンシ測度の値を前記計算することは、前記第2の複数の計算された位相差からの情報に基づき、
    前記コヒーレンシ測度の前記値は、少なくとも前記マルチチャネル信号の前記複数の異なる周波数成分と前記第2のマルチチャネル信号の前記複数の異なる周波数成分との前記到来方向の間のコヒーレンスの程度を示す、
    請求項1に記載の方法。
  8. 前記コヒーレンシ測度の値を前記計算することは、前記複数の計算された位相差の各々について、対応する方向インジケータを計算することを備え、
    前記複数の方向インジケータの各々は、(A)前記対応する周波数成分の到来方向、(B)前記対応する周波数成分の到来時間遅延、および(C)前記計算された位相差と、前記対応する周波数成分の前記周波数との間の比のうちの少なくとも1つを示す、
    請求項1に記載の方法。
  9. 前記コヒーレンシ測度の値を前記計算することは、前記複数の方向インジケータの各々について、対応するマスクスコアを得るために、方向性マスキング関数に従って前記方向インジケータをレーティングすることを備え、
    前記コヒーレンシ測度の前記値が前記複数のマスクスコアに基づく、
    請求項8に記載の方法。
  10. 前記方法は、マスク信号を生成するために、前記対応するマスクスコアに基づいて、前記マルチチャネル信号の少なくとも1つのチャネルの前記複数の周波数成分のうちの少なくとも1つの振幅を変化させることを含む、請求項9に記載の方法。
  11. 前記方法は、
    前記マルチチャネル信号の指定されたサブバンド中の周波数成分に対応する前記複数の方向インジケータのうちの少なくともいくつかの前記マスクスコアに基づいて、サブバンドマスクスコアを計算することと、
    マスク信号を生成するために、前記サブバンドマスクスコアに基づいて、前記マルチチャネル信号の少なくとも1つのチャネルの少なくとも前記指定されたサブバンドの前記周波数成分の振幅を変化させることと
    を含む、請求項9に記載の方法。
  12. 前記方法は、前記マスク信号のレベルと前記少なくとも1つのチャネルのレベルとの比が小さいときに前記マスク信号を減衰させることを含む、請求項10に記載の方法。
  13. 前記方法は、
    前記複数の方向インジケータの各々について、第2の対応するマスクスコアを得るために、第2の方向性マスキング関数に従って前記方向インジケータをレーティングすることと、
    前記第2の複数のマスクスコアに基づいて、第2のコヒーレンシ測度の値を計算することと、
    を備える、請求項9に記載の方法。
  14. 前記方法は、
    前記コヒーレンシ測度の前記値と前記第2のコヒーレンシ測度の前記値とに基づいて、(A)前記方向性マスキング関数に対応する第1の方向、および(B)前記第2の方向性マスキング関数に対応する第2の方向、のうちの1つに従って空間選択的処理演算を構成することと、
    処理された信号を得るために、前記構成された空間選択的処理演算を前記マルチチャネル信号の少なくとも2つのチャネルに適用することと、
    を備える、請求項13に記載の方法。
  15. 前記方法は、
    (A)前記コヒーレンシ測度の前記値と前記コヒーレンシ測度の過去の値の平均との間の関係の状態と、(B)前記第2のコヒーレンシ測度の前記値と前記第2のコヒーレンシ測度の過去の値の平均との間の関係の状態と、を比較すること、
    を備える、請求項13に記載の方法。
  16. 前記方法は、
    第2のマルチチャネル信号の複数の異なる周波数成分の各々について、第2の複数の計算された位相差を得るために、前記第2のマルチチャネル信号の第1のチャネル中の前記周波数成分の位相と、前記第2のマルチチャネル信号の第2のチャネル中の前記周波数成分の位相との間の差を計算することと、
    前記第2の複数の計算された位相差からの情報に基づいて、少なくとも前記第2のマルチチャネル信号の前記複数の異なる周波数成分の前記到来方向の間のコヒーレンスの程度を示す第2のコヒーレンシ測度の値を計算することと、
    前記コヒーレンシ測度の前記値を第1のしきい値と比較することと、
    前記第2のコヒーレンシ測度の前記値を、前記第1のしきい値とは異なる第2のしきい値と比較することと、
    を備える、請求項1に記載の方法。
  17. マルチチャネル信号を処理するための装置であって、前記装置は、
    前記マルチチャネル信号の複数の異なる周波数成分の各々について、前記マルチチャネル信号の第1のチャネル中の前記周波数成分の位相と、前記マルチチャネル信号の第2のチャネル中の前記周波数成分の位相との間の差を計算するための手段と、
    前記複数の計算された位相差からの情報に基づいて、少なくとも前記複数の異なる周波数成分の到来方向の間のコヒーレンスの程度を示すコヒーレンシ測度の値を計算するための手段と、
    を備える装置。
  18. 前記複数の周波数成分は、1キロヘルツ以下の周波数を有する少なくとも1つの周波数成分と、1500ヘルツ以上の周波数を有する少なくとも1つの周波数成分とを含む、請求項17に記載の装置。
  19. 前記複数の周波数成分は、800ヘルツ以下の周波数を有する少なくとも1つの周波数成分と、1800ヘルツ以上の周波数を有する少なくとも1つの周波数成分とを含む、請求項17に記載の装置。
  20. 前記装置は、前記マルチチャネル信号の推定ピッチ周波数に基づいて前記複数の異なる周波数成分を選択するための手段を含む、請求項17に記載の装置。
  21. 前記装置は、前記コヒーレンシ測度の前記値に基づいて、指定された雑音スペクトルプロファイルに従って前記マルチチャネル信号の少なくとも1つのチャネルの少なくとも1つの周波数成分の振幅を変化させるための手段を含む、請求項17に記載の装置。
  22. 前記装置は、前記コヒーレンシ測度の前記値に基づいて、前記マルチチャネル信号の少なくとも1つのチャネルの雑音成分の推定値を更新するための手段を含む、請求項17に記載の装置。
  23. 前記装置は、第2のマルチチャネル信号の複数の異なる周波数成分の各々について、第2の複数の計算された位相差を得るために、前記第2のマルチチャネル信号の第1のチャネル中の前記周波数成分の位相と、前記第2のマルチチャネル信号の第2のチャネル中の前記周波数成分の位相と、の間の差を計算するための手段を備え、
    コヒーレンシ測度の値を計算するための前記手段は、前記第2の複数の計算された位相差からの情報に基づいて前記コヒーレンシ測度の前記値を計算するように構成され、
    前記コヒーレンシ測度の前記値は、少なくとも前記マルチチャネル信号の前記複数の異なる周波数成分と前記第2のマルチチャネル信号の前記複数の異なる周波数成分との前記到来方向の間のコヒーレンスの程度を示す、
    請求項17に記載の装置。
  24. 前記コヒーレンシ測度の値を計算するための前記手段は、前記複数の計算された位相差の各々について、対応する方向インジケータを計算するように構成され、
    前記複数の方向インジケータの各々は、(A)前記対応する周波数成分の到来方向、(B)前記対応する周波数成分の到来時間遅延、および(C)前記計算された位相差と、前記対応する周波数成分の前記周波数との間の比のうちの少なくとも1つを示す、
    請求項17に記載の装置。
  25. 前記コヒーレンシ測度の値を計算するための前記手段が、前記複数の方向インジケータの各々について、対応するマスクスコアを得るために、方向性マスキング関数に従って前記方向インジケータをレーティングするための手段を備え、
    前記コヒーレンシ測度の前記値は前記複数のマスクスコアに基づく、
    請求項24に記載の装置。
  26. 前記装置は、マスク信号を生成するために、前記対応するマスクスコアに基づいて、前記マルチチャネル信号のうちの少なくとも1つのチャネルの前記複数の周波数成分のうちの少なくとも1つの振幅を変化させるための手段を含む、請求項25に記載の装置。
  27. 前記装置は、
    前記マルチチャネル信号の指定されたサブバンド中の周波数成分に対応する前記複数の方向インジケータのうちの少なくともいくつかの前記マスクスコアに基づいて、サブバンドマスクスコアを計算するための手段と、
    マスク信号を生成するために、前記サブバンドマスクスコアに基づいて、前記マルチチャネル信号の少なくとも1つのチャネルの少なくとも前記指定されたサブバンドの前記周波数成分の振幅を変化させるための手段と、
    を含む、請求項25に記載の装置。
  28. 前記装置は、前記マスク信号のレベルと前記少なくとも1つのチャネルのレベルとの比が小さいときに前記マスク信号を減衰させるための手段を含む、請求項26に記載の装置。
  29. 前記装置は、
    前記複数の方向インジケータの各々について、第2の対応するマスクスコアを得るために、第2の方向性マスキング関数に従って前記方向インジケータをレーティングするための手段と、
    前記第2の複数のマスクスコアに基づいて、第2のコヒーレンシ測度の値を計算するための手段と、
    を備える、請求項25に記載の装置。
  30. 前記装置は、
    前記コヒーレンシ測度の前記値と前記第2のコヒーレンシ測度の前記値とに基づいて、(A)前記方向性マスキング関数に対応する第1の方向、および(B)前記第2の方向性マスキング関数に対応する第2の方向のうちの1つに従って空間選択的処理演算を構成するための手段と、
    処理された信号を得るために、前記構成された空間選択的処理演算を前記マルチチャネル信号の少なくとも2つのチャネルに適用するための手段と、
    を備える、請求項29に記載の装置。
  31. 前記装置は、
    (A)前記コヒーレンシ測度の前記値と前記コヒーレンシ測度の過去の値の平均との間の関係の状態と、(B)前記第2のコヒーレンシ測度の前記値と前記第2のコヒーレンシ測度の過去の値の平均との間の関係の状態と、を比較するための手段
    を備える、請求項29に記載の装置。
  32. 前記装置は、
    第2のマルチチャネル信号の複数の異なる周波数成分の各々について、第2の複数の計算された位相差を得るために、前記第2のマルチチャネル信号の第1のチャネル中の前記周波数成分の位相と、前記第2のマルチチャネル信号の第2のチャネル中の前記周波数成分の位相との間の差を計算するための手段と、
    前記第2の複数の計算された位相差からの情報に基づいて、少なくとも前記第2のマルチチャネル信号の前記複数の異なる周波数成分の前記到来方向の間のコヒーレンスの程度を示す第2のコヒーレンシ測度の値を計算するための手段と、
    前記コヒーレンシ測度の前記値を第1のしきい値と比較するための手段と、
    前記第2のコヒーレンシ測度の前記値を前記第1のしきい値とは異なる第2のしきい値と比較するための手段と、
    を備える、請求項17に記載の装置。
  33. マルチチャネル信号を処理するための装置であって、前記装置は、
    前記マルチチャネル信号の複数の異なる周波数成分の各々に ついて、前記マルチチャネル信号の第1のチャネル中の前記周波数成分の位相と、前記マルチチャネル信号の第2のチャネル中の前記周波数成分の位相との間の差を計算するように構成された位相差計算機と、
    前記複数の計算された位相差からの情報に基づいて、少なくとも前記複数の異なる周波数成分の前記到来方向の間のコヒーレンスの程度を示すコヒーレンシ測度の値を計算するように構成されたコヒーレンシ測度計算機と、
    を備える装置。
  34. 前記複数の周波数成分は、1キロヘルツ以下の周波数を有する少なくとも1つの周波数成分と、1500ヘルツ以上の周波数を有する少なくとも1つの周波数成分とを含む、請求項33に記載の装置。
  35. 前記複数の周波数成分は、800ヘルツ以下の周波数を有する少なくとも1つの周波数成分と、1800ヘルツ以上の周波数を有する少なくとも1つの周波数成分と、を含む、請求項33に記載の装置。
  36. 前記位相差計算機と前記コヒーレンシ測度計算機とのうちの少なくとも1つは、前記マルチチャネル信号の推定されたピッチ周波数に基づいて前記複数の異なる周波数成分を選択するように構成されている、請求項33に記載の装置。
  37. 前記装置は、前記コヒーレンシ測度の前記値に基づいて、指定された雑音スペクトルプロファイルに従って前記マルチチャネル信号の少なくとも1つのチャネルの少なくとも1つの周波数成分の振幅を変化させるように構成されたスペクトル変更器を含む、請求項33に記載の装置。
  38. 前記装置は、前記コヒーレンシ測度の前記値に基づいて、前記マルチチャネル信号の少なくとも1つのチャネルの雑音成分の推定値を更新するように構成された雑音推定器を含む、請求項33に記載の装置。
  39. 前記装置は、第2のマルチチャネル信号の複数の異なる周波数成分の各々について、第2の複数の計算された位相を得るために、前記第2のマルチチャネル信号の第1のチャネル中の前記周波数成分の位相と、前記第2のマルチチャネル信号の第2のチャネル中の前記周波数成分の位相と、の間の差を計算するように構成された第2の位相差計算機を備え、
    前記コヒーレンシ測度計算機は、前記第2の複数の計算された位相差からの情報に基づいて前記コヒーレンシ測度の前記値を計算するように構成され、
    前記コヒーレンシ測度の前記値は、少なくとも前記マルチチャネル信号の前記複数の異なる周波数成分と前記第2のマルチチャネル信号の前記複数の異なる周波数成分との前記到来方向の間のコヒーレンスの程度を示す、
    請求項33に記載の装置。
  40. 前記コヒーレンシ測度計算機は、前記複数の計算された位相差の各々について、対応する方向インジケータを計算するように構成され、
    前記複数の方向インジケータの各々は、(A)前記対応する周波数成分の到来方向、(B)前記対応する周波数成分の到来時間遅延、および(C)前記計算された位相差と、前記対応する周波数成分の前記周波数との間の比、のうちの少なくとも1つを示す、
    請求項33に記載の装置。
  41. 前記コヒーレンシ測度計算機は、前記複数の方向インジケータの各々について、対応するマスクスコアを得るために、方向性マスキング関数に従って前記方向インジケータをレーティングするように構成され、
    前記コヒーレンシ測度の前記値が前記複数のマスクスコアに基づく、
    請求項40に記載の装置。
  42. 前記装置は、マスク信号を生成するために、前記対応するマスクスコアに基づいて、前記マルチチャネル信号の少なくとも1つのチャネルの前記複数の周波数成分のうちの少なくとも1つの振幅を変化させるように構成されたマスク信号発生器を含む、請求項41に記載の装置。
  43. 前記装置は、前記マルチチャネル信号の指定されたサブバンド中の周波数成分に対応する前記複数の方向インジケータのうちの少なくともいくつかの前記マスクスコアに基づいて、サブバンドマスクスコアを計算し、マスク信号を生成するために、前記サブバンドマスクスコアに基づいて、前記マルチチャネル信号の少なくとも1つのチャネルの少なくとも前記指定されたサブバンドの前記周波数成分の振幅を変化させるように構成されたマスク信号発生器を含む、請求項41に記載の装置。
  44. 前記マスク信号発生器は、前記マスク信号のレベルと前記少なくとも1つのチャネルのレベルとの比が小さいときに前記マスク信号を減衰させるように構成された、請求項42に記載の装置。
  45. 前記コヒーレンシ測度計算機は、前記複数の方向インジケータの各々について、第2の対応するマスクスコアを得るために、第2の方向性マスキング関数に従って前記方向インジケータをレーティングし、前記第2の複数のマスクスコアに基づいて、第2のコヒーレンシ測度の値を計算するように構成されている、請求項41に記載の装置。
  46. 前記装置は、処理された信号を得るために、空間選択的処理演算を前記マルチチャネル信号の少なくとも2つのチャネルに適用するように構成された空間選択的プロセッサを備え、
    前記空間選択的処理演算は、前記コヒーレンシ測度の前記値と前記第2のコヒーレンシ測度の前記値とに基づいて、(A)前記方向性マスキング関数に対応する第1の方向、および(B)前記第2の方向性マスキング関数に対応する第2の方向、のうちの1つに従って構成された、
    請求項45に記載の装置。
  47. 前記コヒーレンシ測度計算機は、(A)前記コヒーレンシ測度の前記値と前記コヒーレンシ測度の過去の値の平均との間の関係の状態と、(B)前記第2のコヒーレンシ測度の前記値と前記第2のコヒーレンシ測度の過去の値の平均との間の関係の状態とを比較するように構成された、請求項45に記載の装置。
  48. 前記コヒーレンシ測度計算機は、
    第2のマルチチャネル信号の複数の異なる周波数成分の各々について、第2の複数の計算された位相差を得るために、前記第2のマルチチャネル信号の第1のチャネル中の前記周波数成分の位相と、前記第2のマルチチャネル信号の第2のチャネル中の前記周波数成分の位相との間の差を計算することと、
    前記第2の複数の計算された位相差からの情報に基づいて、少なくとも前記第2のマルチチャネル信号の前記複数の異なる周波数成分の前記到来方向の間のコヒーレンスの程度を示す第2のコヒーレンシ測度の値を計算することと、
    前記コヒーレンシ測度の前記値を第1のしきい値と比較することと、
    前記第2のコヒーレンシ測度の前記値を、前記第1のしきい値とは異なる第2のしきい値と比較することと、
    を行うように構成された、請求項33に記載の装置。
  49. 少なくとも1つのプロセッサによって実行されたとき、前記少なくとも1つのプロセッサに請求項1に記載の方法を実行させる指示を備えるコンピュータ可読媒体。
JP2011533412A 2008-10-24 2009-10-26 コヒーレンス検出のためのシステム、方法、装置、およびコンピュータ可読媒体 Expired - Fee Related JP5307248B2 (ja)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US10844708P 2008-10-24 2008-10-24
US61/108,447 2008-10-24
US18551809P 2009-06-09 2009-06-09
US61/185,518 2009-06-09
US24031809P 2009-09-08 2009-09-08
US61/240,318 2009-09-08
US12/605,158 2009-10-23
US12/605,158 US8724829B2 (en) 2008-10-24 2009-10-23 Systems, methods, apparatus, and computer-readable media for coherence detection
PCT/US2009/062098 WO2010048620A1 (en) 2008-10-24 2009-10-26 Systems, methods, apparatus, and computer-readable media for coherence detection

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2013134352A Division JP2013240082A (ja) 2008-10-24 2013-06-26 コヒーレンス検出のためのシステム、方法、装置、およびコンピュータ可読媒体

Publications (2)

Publication Number Publication Date
JP2012507049A true JP2012507049A (ja) 2012-03-22
JP5307248B2 JP5307248B2 (ja) 2013-10-02

Family

ID=41651609

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2011533412A Expired - Fee Related JP5307248B2 (ja) 2008-10-24 2009-10-26 コヒーレンス検出のためのシステム、方法、装置、およびコンピュータ可読媒体
JP2013134352A Pending JP2013240082A (ja) 2008-10-24 2013-06-26 コヒーレンス検出のためのシステム、方法、装置、およびコンピュータ可読媒体

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2013134352A Pending JP2013240082A (ja) 2008-10-24 2013-06-26 コヒーレンス検出のためのシステム、方法、装置、およびコンピュータ可読媒体

Country Status (6)

Country Link
US (1) US8724829B2 (ja)
EP (1) EP2345031B1 (ja)
JP (2) JP5307248B2 (ja)
CN (2) CN102197424B (ja)
TW (1) TW201032220A (ja)
WO (1) WO2010048620A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013507661A (ja) * 2009-10-15 2013-03-04 ヴェーデクス・アクティーセルスカプ 音声コーデックを備えた補聴器および方法
JP2013545136A (ja) * 2010-10-25 2013-12-19 クゥアルコム・インコーポレイテッド 音声アクティビティ検出のための、システム、方法、および装置
JP2014501064A (ja) * 2010-10-25 2014-01-16 クゥアルコム・インコーポレイテッド マルチマイクロフォンを用いた3次元サウンド獲得及び再生
WO2014054314A1 (ja) * 2012-10-03 2014-04-10 沖電気工業株式会社 音声信号処理装置、方法及びプログラム
CN109743653A (zh) * 2019-01-21 2019-05-10 闻泰通讯股份有限公司 耳机电路结构及通讯设备

Families Citing this family (314)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
JP2008092269A (ja) * 2006-10-02 2008-04-17 Matsushita Electric Ind Co Ltd ハンズフリー通話装置
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
CN103137139B (zh) * 2008-06-30 2014-12-10 杜比实验室特许公司 多麦克风语音活动检测器
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010058230A2 (en) * 2008-11-24 2010-05-27 Institut Rudjer Boskovic Method of and system for blind extraction of more than two pure components out of spectroscopic or spectrometric measurements of only two mixtures by means of sparse component analysis
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US8620672B2 (en) * 2009-06-09 2013-12-31 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US20110096937A1 (en) * 2009-10-28 2011-04-28 Fortemedia, Inc. Microphone apparatus and sound processing method
US9838784B2 (en) * 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
US8560309B2 (en) * 2009-12-29 2013-10-15 Apple Inc. Remote conferencing center
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8897455B2 (en) 2010-02-18 2014-11-25 Qualcomm Incorporated Microphone array subset selection for robust noise reduction
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
US8538035B2 (en) 2010-04-29 2013-09-17 Audience, Inc. Multi-microphone robust noise suppression
US8958572B1 (en) * 2010-04-19 2015-02-17 Audience, Inc. Adaptive noise cancellation for multi-microphone systems
US9165567B2 (en) 2010-04-22 2015-10-20 Qualcomm Incorporated Systems, methods, and apparatus for speech feature detection
US8781137B1 (en) 2010-04-27 2014-07-15 Audience, Inc. Wind noise detection and suppression
US20110288860A1 (en) 2010-05-20 2011-11-24 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for processing of speech signals using head-mounted microphone pair
US9053697B2 (en) 2010-06-01 2015-06-09 Qualcomm Incorporated Systems, methods, devices, apparatus, and computer program products for audio equalization
US8447596B2 (en) 2010-07-12 2013-05-21 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
US9025782B2 (en) 2010-07-26 2015-05-05 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for multi-microphone location-selective processing
US9100734B2 (en) 2010-10-22 2015-08-04 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation
US8855341B2 (en) 2010-10-25 2014-10-07 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for head tracking based on recorded sound signals
US9031256B2 (en) 2010-10-25 2015-05-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for orientation-sensitive recording control
US9111526B2 (en) 2010-10-25 2015-08-18 Qualcomm Incorporated Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal
US9330675B2 (en) 2010-11-12 2016-05-03 Broadcom Corporation Method and apparatus for wind noise detection and suppression using multiple microphones
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
WO2012091643A1 (en) 2010-12-29 2012-07-05 Telefonaktiebolaget L M Ericsson (Publ) A noise suppressing method and a noise suppressor for applying the noise suppressing method
US8525868B2 (en) 2011-01-13 2013-09-03 Qualcomm Incorporated Variable beamforming with a mobile platform
JP2012150237A (ja) * 2011-01-18 2012-08-09 Sony Corp 音信号処理装置、および音信号処理方法、並びにプログラム
WO2012107561A1 (en) * 2011-02-10 2012-08-16 Dolby International Ab Spatial adaptation in multi-microphone sound capture
US9354310B2 (en) * 2011-03-03 2016-05-31 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for source localization using audible sound and ultrasound
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US8942382B2 (en) * 2011-03-22 2015-01-27 Mh Acoustics Llc Dynamic beamformer processing for acoustic echo cancellation in systems with high acoustic coupling
EP2716069B1 (en) * 2011-05-23 2021-09-08 Sonova AG A method of processing a signal in a hearing instrument, and hearing instrument
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8817917B2 (en) * 2011-06-21 2014-08-26 Ibiquity Digital Corporation Method and apparatus for implementing signal quality metrics and antenna diversity switching control
GB2493327B (en) * 2011-07-05 2018-06-06 Skype Processing audio signals
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10015589B1 (en) * 2011-09-02 2018-07-03 Cirrus Logic, Inc. Controlling speech enhancement algorithms using near-field spatial statistics
GB2495131A (en) 2011-09-30 2013-04-03 Skype A mobile device includes a received-signal beamformer that adapts to motion of the mobile device
GB2495129B (en) 2011-09-30 2017-07-19 Skype Processing signals
GB2495278A (en) 2011-09-30 2013-04-10 Skype Processing received signals from a range of receiving angles to reduce interference
GB2495472B (en) 2011-09-30 2019-07-03 Skype Processing audio signals
GB2495130B (en) 2011-09-30 2018-10-24 Skype Processing audio signals
GB2495128B (en) 2011-09-30 2018-04-04 Skype Processing signals
EP2771061B1 (en) * 2011-10-27 2020-07-29 MED-EL Elektromedizinische Geräte GmbH Optimized energy and data transfer in hearing implant systems
KR20130048075A (ko) 2011-11-01 2013-05-09 삼성전자주식회사 다중 음원 위치추적장치 및 그 위치추적방법
GB2496660B (en) 2011-11-18 2014-06-04 Skype Processing audio signals
US8879761B2 (en) 2011-11-22 2014-11-04 Apple Inc. Orientation-based audio
GB201120392D0 (en) 2011-11-25 2012-01-11 Skype Ltd Processing signals
GB2497343B (en) 2011-12-08 2014-11-26 Skype Processing audio signals
US9173025B2 (en) 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals
US8712076B2 (en) 2012-02-08 2014-04-29 Dolby Laboratories Licensing Corporation Post-processing including median filtering of noise suppression gains
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US10448161B2 (en) 2012-04-02 2019-10-15 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for gestural manipulation of a sound field
US20130275873A1 (en) * 2012-04-13 2013-10-17 Qualcomm Incorporated Systems and methods for displaying a user interface
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US20140006017A1 (en) * 2012-06-29 2014-01-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for generating obfuscated speech signal
US10075801B2 (en) * 2012-07-13 2018-09-11 Sony Corporation Information processing system and storage medium
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9210499B2 (en) * 2012-12-13 2015-12-08 Cisco Technology, Inc. Spatial interference suppression using dual-microphone arrays
EP2747451A1 (en) * 2012-12-21 2014-06-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Filter and method for informed spatial filtering using multiple instantaneous direction-of-arrivial estimates
WO2014104815A1 (ko) * 2012-12-28 2014-07-03 한국과학기술연구원 바람 소음 제거를 통한 음원 위치 추적 장치 및 그 방법
US9516418B2 (en) 2013-01-29 2016-12-06 2236008 Ontario Inc. Sound field spatial stabilizer
SG11201505898XA (en) 2013-01-29 2015-09-29 Fraunhofer Ges Forschung Concept for coding mode switching compensation
KR102516577B1 (ko) 2013-02-07 2023-04-03 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10306389B2 (en) 2013-03-13 2019-05-28 Kopin Corporation Head wearable acoustic system with noise canceling microphone geometry apparatuses and methods
US9257952B2 (en) 2013-03-13 2016-02-09 Kopin Corporation Apparatuses and methods for multi-channel signal compression during desired voice activity detection
US20140278380A1 (en) * 2013-03-14 2014-09-18 Dolby Laboratories Licensing Corporation Spectral and Spatial Modification of Noise Captured During Teleconferencing
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
TWI629464B (zh) * 2013-03-21 2018-07-11 唯亞威方案公司 用於識別一海產樣本之方法及裝置與用於判定一海產樣本之鮮度之方法
CN105122359B (zh) 2013-04-10 2019-04-23 杜比实验室特许公司 语音去混响的方法、设备和系统
US20180317019A1 (en) 2013-05-23 2018-11-01 Knowles Electronics, Llc Acoustic activity detecting microphone
US9269350B2 (en) 2013-05-24 2016-02-23 Google Technology Holdings LLC Voice controlled audio recording or transmission apparatus with keyword filtering
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008964B1 (en) 2013-06-13 2019-09-25 Apple Inc. System and method for emergency calls initiated by voice command
US9271100B2 (en) * 2013-06-20 2016-02-23 2236008 Ontario Inc. Sound field spatial stabilizer with spectral coherence compensation
US9099973B2 (en) 2013-06-20 2015-08-04 2236008 Ontario Inc. Sound field spatial stabilizer with structured noise compensation
DE112014003443B4 (de) * 2013-07-26 2016-12-29 Analog Devices, Inc. Mikrophonkalibrierung
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
KR102089638B1 (ko) 2013-08-26 2020-03-16 삼성전자주식회사 전자장치의 음성 녹음 방법 및 장치
WO2015041549A1 (en) * 2013-09-17 2015-03-26 Intel Corporation Adaptive phase difference based noise reduction for automatic speech recognition (asr)
KR20150050693A (ko) * 2013-10-30 2015-05-11 삼성전자주식회사 컨텐츠 재생 방법 및 그 방법을 처리하는 전자 장치
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
JP6295650B2 (ja) * 2013-12-25 2018-03-20 沖電気工業株式会社 音声信号処理装置及びプログラム
CA2947324C (en) 2014-04-30 2019-09-17 Motorola Solutions, Inc. Method and apparatus for discriminating between voice signals
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US20150348530A1 (en) * 2014-06-02 2015-12-03 Plantronics, Inc. Noise Masking in Headsets
US9946331B2 (en) 2014-06-27 2018-04-17 Samsung Electronics Co., Ltd. System and method to process signals having a common component
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
EP3220659B1 (en) * 2014-11-11 2021-06-23 Sony Corporation Sound processing device, sound processing method, and program
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
WO2016093854A1 (en) 2014-12-12 2016-06-16 Nuance Communications, Inc. System and method for speech enhancement using a coherent to diffuse sound ratio
CN105791961B (zh) * 2014-12-23 2018-12-07 深圳Tcl数字技术有限公司 终端与环绕音响之间音频数据的无线传输方法及系统
CA2971147C (en) * 2014-12-23 2022-07-26 Timothy DEGRAYE Method and system for audio sharing
JP2016127300A (ja) * 2014-12-26 2016-07-11 アイシン精機株式会社 音声処理装置
US9800964B2 (en) 2014-12-29 2017-10-24 Sound Devices, LLC Motion detection for microphone gating
DE112016000287T5 (de) 2015-01-07 2017-10-05 Knowles Electronics, Llc Verwendung von digitalen Mikrofonen zur Niedrigleistung-Schlüsselworterkennung und Rauschunterdrückung
CN105989851B (zh) 2015-02-15 2021-05-07 杜比实验室特许公司 音频源分离
EP3259927A1 (en) * 2015-02-19 2017-12-27 Dolby Laboratories Licensing Corporation Loudspeaker-room equalization with perceptual correction of spectral dips
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9489963B2 (en) * 2015-03-16 2016-11-08 Qualcomm Technologies International, Ltd. Correlation-based two microphone algorithm for noise reduction in reverberation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
TWI579835B (zh) * 2015-03-19 2017-04-21 絡達科技股份有限公司 音效增益方法
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US9554207B2 (en) 2015-04-30 2017-01-24 Shure Acquisition Holdings, Inc. Offset cartridge microphones
US9565493B2 (en) 2015-04-30 2017-02-07 Shure Acquisition Holdings, Inc. Array microphone system and method of assembling the same
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US9672841B2 (en) * 2015-06-30 2017-06-06 Zte Corporation Voice activity detection method and method used for voice activity detection and apparatus thereof
DK3329692T3 (da) * 2015-07-27 2021-08-30 Sonova Ag Mikrofonaggregat med klemmefastgørelse
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10242689B2 (en) * 2015-09-17 2019-03-26 Intel IP Corporation Position-robust multiple microphone noise estimation techniques
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
EP3157268B1 (en) * 2015-10-12 2021-06-30 Oticon A/s A hearing device and a hearing system configured to localize a sound source
US11631421B2 (en) * 2015-10-18 2023-04-18 Solos Technology Limited Apparatuses and methods for enhanced speech recognition in variable environments
US9878664B2 (en) * 2015-11-04 2018-01-30 Zoox, Inc. Method for robotic vehicle communication with an external environment via acoustic beam forming
US9804599B2 (en) 2015-11-04 2017-10-31 Zoox, Inc. Active lighting control for communicating a state of an autonomous vehicle to entities in a surrounding environment
US9494940B1 (en) 2015-11-04 2016-11-15 Zoox, Inc. Quadrant configuration of robotic vehicles
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US11120814B2 (en) 2016-02-19 2021-09-14 Dolby Laboratories Licensing Corporation Multi-microphone signal enhancement
WO2017143105A1 (en) 2016-02-19 2017-08-24 Dolby Laboratories Licensing Corporation Multi-microphone signal enhancement
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
JP6645322B2 (ja) * 2016-03-31 2020-02-14 富士通株式会社 雑音抑圧装置、音声認識装置、雑音抑圧方法、及び雑音抑圧プログラム
WO2017174136A1 (en) * 2016-04-07 2017-10-12 Sonova Ag Hearing assistance system
BR112017021239B1 (pt) * 2016-04-29 2023-10-03 Honor Device Co., Ltd Método, aparelho, e meio legível por computador de determinação de exceção de entrada de voz
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US20180160226A1 (en) * 2016-12-05 2018-06-07 Semiconductor Components Industries, Llc Reducing or eliminating transducer reverberation
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
EP3346725B1 (en) 2017-01-05 2019-09-25 Harman Becker Automotive Systems GmbH Active noise reduction earphones
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10367948B2 (en) 2017-01-13 2019-07-30 Shure Acquisition Holdings, Inc. Post-mixing acoustic echo cancellation systems and methods
US10481202B2 (en) * 2017-02-13 2019-11-19 Qualcomm Incorporated In-field self-test controller for safety critical automotive use cases
CN110226101B (zh) * 2017-04-25 2021-09-14 华为技术有限公司 用于估计到达方向的设备和方法
JP2018191145A (ja) * 2017-05-08 2018-11-29 オリンパス株式会社 収音装置、収音方法、収音プログラム及びディクテーション方法
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
CN109686378B (zh) * 2017-10-13 2021-06-08 华为技术有限公司 语音处理方法和终端
US10665234B2 (en) * 2017-10-18 2020-05-26 Motorola Mobility Llc Detecting audio trigger phrases for a voice recognition session
CN107948900A (zh) * 2017-10-26 2018-04-20 青岛亿联客信息技术有限公司 一种电子设备麦克风阵列一致性检测方法及其装置
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10339949B1 (en) 2017-12-19 2019-07-02 Apple Inc. Multi-channel speech enhancement
CN108303463A (zh) * 2017-12-22 2018-07-20 江苏大学 一种用于禽蛋裂纹识别的音频传感器的检测装置及方法
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
KR102088222B1 (ko) * 2018-01-25 2020-03-16 서강대학교 산학협력단 분산도 마스크를 이용한 음원 국지화 방법 및 음원 국지화 장치
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11523212B2 (en) 2018-06-01 2022-12-06 Shure Acquisition Holdings, Inc. Pattern-forming microphone array
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
US11297423B2 (en) 2018-06-15 2022-04-05 Shure Acquisition Holdings, Inc. Endfire linear array microphone
CN109104683B (zh) * 2018-07-13 2021-02-02 深圳市小瑞科技股份有限公司 一种双麦克风相位测量校正的方法及校正系统
US11310596B2 (en) 2018-09-20 2022-04-19 Shure Acquisition Holdings, Inc. Adjustable lobe shape for array microphones
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US10665220B1 (en) * 2019-03-05 2020-05-26 Bose Corporation Active noise reduction (ANR) system with multiple feedforward microphones and multiple controllers
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11558693B2 (en) 2019-03-21 2023-01-17 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality
US11438691B2 (en) 2019-03-21 2022-09-06 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition functionality
WO2020191354A1 (en) 2019-03-21 2020-09-24 Shure Acquisition Holdings, Inc. Housings and associated design features for ceiling array microphones
CN110012331B (zh) * 2019-04-11 2021-05-25 杭州微纳科技股份有限公司 一种红外触发的远场双麦远场语音识别方法
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
TW202101422A (zh) 2019-05-23 2021-01-01 美商舒爾獲得控股公司 可操縱揚聲器陣列、系統及其方法
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
EP3977449A1 (en) 2019-05-31 2022-04-06 Shure Acquisition Holdings, Inc. Low latency automixer integrated with voice and noise activity detection
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
CN110383378B (zh) 2019-06-14 2023-05-19 深圳市汇顶科技股份有限公司 差分波束形成方法及模块、信号处理方法及装置、芯片
EP3764360B1 (en) * 2019-07-10 2024-05-01 Analog Devices International Unlimited Company Signal processing methods and systems for beam forming with improved signal to noise ratio
US11297426B2 (en) 2019-08-23 2022-04-05 Shure Acquisition Holdings, Inc. One-dimensional array microphone with improved directivity
JP7199322B2 (ja) * 2019-08-26 2023-01-05 株式会社東芝 測距装置及び測距方法
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
CN110996244B (zh) * 2019-12-23 2021-08-03 四川虹美智能科技有限公司 麦克风阵列性能测试方法、装置及系统
US11508348B2 (en) * 2020-02-05 2022-11-22 Motorola Mobility Llc Directional noise suppression
US11552611B2 (en) 2020-02-07 2023-01-10 Shure Acquisition Holdings, Inc. System and method for automatic adjustment of reference gain
CN113466840B (zh) * 2020-03-30 2022-09-20 阿里巴巴集团控股有限公司 测距方法、定位方法、装置、设备及系统
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
WO2021243368A2 (en) 2020-05-29 2021-12-02 Shure Acquisition Holdings, Inc. Transducer steering and configuration systems and methods using a local positioning system
CN112365900B (zh) * 2020-10-30 2021-12-24 北京声智科技有限公司 一种语音信号增强方法、装置、介质和设备
WO2022150950A1 (zh) * 2021-01-12 2022-07-21 华为技术有限公司 评估传声器阵列一致性的方法和装置
CN116918351A (zh) 2021-01-28 2023-10-20 舒尔获得控股公司 混合音频波束成形系统
CN113889137B (zh) * 2021-12-06 2022-04-01 中国科学院自动化研究所 麦克风阵列语音增强的方法、装置、电子设备及存储介质
CN117935837B (zh) * 2024-03-25 2024-05-24 中国空气动力研究与发展中心计算空气动力研究所 一种时域多声源定位及噪声处理方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002084590A (ja) * 2000-09-06 2002-03-22 Nippon Telegr & Teleph Corp <Ntt> 収音装置、収音・音源分離装置及び収音方法、収音・音源分離方法並びに収音プログラム、収音・音源分離プログラムを記録した記録媒体
JP2003078988A (ja) * 2001-09-06 2003-03-14 Nippon Telegr & Teleph Corp <Ntt> 収音装置、方法及びプログラム、記録媒体
WO2005024788A1 (ja) * 2003-09-02 2005-03-17 Nippon Telegraph And Telephone Corporation 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体
JP2007010897A (ja) * 2005-06-29 2007-01-18 Toshiba Corp 音響信号処理方法、装置及びプログラム
JP2007183202A (ja) * 2006-01-10 2007-07-19 Casio Comput Co Ltd 音源方向判定方法及び装置
JP2008079256A (ja) * 2006-09-25 2008-04-03 Toshiba Corp 音響信号処理装置、音響信号処理方法及びプログラム

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100230231B1 (ko) 1994-05-31 1999-11-15 윤종용 다채널 오디오 마스킹처리장치
JP3797751B2 (ja) * 1996-11-27 2006-07-19 富士通株式会社 マイクロホンシステム
US6654468B1 (en) * 1998-08-25 2003-11-25 Knowles Electronics, Llc Apparatus and method for matching the response of microphones in magnitude and phase
JP2002540696A (ja) 1999-03-19 2002-11-26 シーメンス アクチエンゲゼルシヤフト ノイズ音響に満ちた環境でのオーディオ信号の受信と処理のための方法
EP1198974B1 (en) * 1999-08-03 2003-06-04 Widex A/S Hearing aid with adaptive matching of microphones
US7006636B2 (en) * 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
US20030112896A1 (en) 2001-07-11 2003-06-19 Raghavan Sreen A. Multi-channel communications transceiver
US7171008B2 (en) * 2002-02-05 2007-01-30 Mh Acoustics, Llc Reducing noise in audio systems
JP2004128707A (ja) * 2002-08-02 2004-04-22 Sony Corp 指向性を備えた音声受信装置およびその方法
JP2006100869A (ja) * 2004-09-28 2006-04-13 Sony Corp 音声信号処理装置および音声信号処理方法
KR100657912B1 (ko) * 2004-11-18 2006-12-14 삼성전자주식회사 잡음 제거 방법 및 장치
JP4247195B2 (ja) * 2005-03-23 2009-04-02 株式会社東芝 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録した記録媒体
JP2007027939A (ja) * 2005-07-13 2007-02-01 Advanced Telecommunication Research Institute International 音響信号処理装置
JP4701931B2 (ja) 2005-09-02 2011-06-15 日本電気株式会社 信号処理の方法及び装置並びにコンピュータプログラム
US8345890B2 (en) 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
JP4912036B2 (ja) * 2006-05-26 2012-04-04 富士通株式会社 指向性集音装置、指向性集音方法、及びコンピュータプログラム
JP4660740B2 (ja) * 2006-09-13 2011-03-30 独立行政法人産業技術総合研究所 電動車椅子搭載用音声入力装置
EP2101513A4 (en) * 2006-11-22 2011-09-28 Funai Eaa Tech Res Inst Inc LANGUAGE INPUT DEVICE, METHOD FOR THEIR MANUFACTURE AND INFORMATION PROCESSING SYSTEM
US8041043B2 (en) * 2007-01-12 2011-10-18 Fraunhofer-Gessellschaft Zur Foerderung Angewandten Forschung E.V. Processing microphone generated signals to generate surround sound
US8005238B2 (en) * 2007-03-22 2011-08-23 Microsoft Corporation Robust adaptive beamforming with enhanced noise suppression
GB2453118B (en) 2007-09-25 2011-09-21 Motorola Inc Method and apparatus for generating and audio signal from multiple microphones
US8954324B2 (en) * 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
US8620672B2 (en) * 2009-06-09 2013-12-31 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002084590A (ja) * 2000-09-06 2002-03-22 Nippon Telegr & Teleph Corp <Ntt> 収音装置、収音・音源分離装置及び収音方法、収音・音源分離方法並びに収音プログラム、収音・音源分離プログラムを記録した記録媒体
JP2003078988A (ja) * 2001-09-06 2003-03-14 Nippon Telegr & Teleph Corp <Ntt> 収音装置、方法及びプログラム、記録媒体
WO2005024788A1 (ja) * 2003-09-02 2005-03-17 Nippon Telegraph And Telephone Corporation 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体
JP2007010897A (ja) * 2005-06-29 2007-01-18 Toshiba Corp 音響信号処理方法、装置及びプログラム
JP2007183202A (ja) * 2006-01-10 2007-07-19 Casio Comput Co Ltd 音源方向判定方法及び装置
JP2008079256A (ja) * 2006-09-25 2008-04-03 Toshiba Corp 音響信号処理装置、音響信号処理方法及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200201352012; 永田仁史他: '"二つの指向性マイクロホンを用いた目的音検出に関する検討"' 電子情報通信学会論文誌 Vol.J83-A,No.12, 200012, pp.1445-1454 *
JPN6013005279; 永田仁史他: '"二つの指向性マイクロホンを用いた目的音検出に関する検討"' 電子情報通信学会論文誌 Vol.J83-A,No.12, 200012, pp.1445-1454 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013507661A (ja) * 2009-10-15 2013-03-04 ヴェーデクス・アクティーセルスカプ 音声コーデックを備えた補聴器および方法
JP2013545136A (ja) * 2010-10-25 2013-12-19 クゥアルコム・インコーポレイテッド 音声アクティビティ検出のための、システム、方法、および装置
JP2014501064A (ja) * 2010-10-25 2014-01-16 クゥアルコム・インコーポレイテッド マルチマイクロフォンを用いた3次元サウンド獲得及び再生
WO2014054314A1 (ja) * 2012-10-03 2014-04-10 沖電気工業株式会社 音声信号処理装置、方法及びプログラム
JP2014075674A (ja) * 2012-10-03 2014-04-24 Oki Electric Ind Co Ltd 音声信号処理装置、方法及びプログラム
US9418676B2 (en) 2012-10-03 2016-08-16 Oki Electric Industry Co., Ltd. Audio signal processor, method, and program for suppressing noise components from input audio signals
CN109743653A (zh) * 2019-01-21 2019-05-10 闻泰通讯股份有限公司 耳机电路结构及通讯设备
CN109743653B (zh) * 2019-01-21 2020-11-10 闻泰通讯股份有限公司 耳机电路结构及通讯设备

Also Published As

Publication number Publication date
US20110038489A1 (en) 2011-02-17
JP2013240082A (ja) 2013-11-28
US8724829B2 (en) 2014-05-13
CN102197424A (zh) 2011-09-21
CN103295579A (zh) 2013-09-11
EP2345031B1 (en) 2015-07-29
EP2345031A1 (en) 2011-07-20
WO2010048620A1 (en) 2010-04-29
CN103295579B (zh) 2015-10-21
JP5307248B2 (ja) 2013-10-02
TW201032220A (en) 2010-09-01
CN102197424B (zh) 2013-07-17

Similar Documents

Publication Publication Date Title
JP5307248B2 (ja) コヒーレンス検出のためのシステム、方法、装置、およびコンピュータ可読媒体
US8897455B2 (en) Microphone array subset selection for robust noise reduction
JP5323995B2 (ja) マルチチャネル信号の残響除去のためのシステム、方法、装置、およびコンピュータ可読媒体
US8620672B2 (en) Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal
JP5575977B2 (ja) ボイスアクティビティ検出
EP2599329B1 (en) System, method, apparatus, and computer-readable medium for multi-microphone location-selective processing
US8175291B2 (en) Systems, methods, and apparatus for multi-microphone based speech enhancement
US20110288860A1 (en) Systems, methods, apparatus, and computer-readable media for processing of speech signals using head-mounted microphone pair
Qi Real-time adaptive noise cancellation for automatic speech recognition in a car environment: a thesis presented in partial fulfillment of the requirements for the degree of Doctor of Philosophy in Computer Engineering at Massey University, School of Engineering and Advanced Technology, Auckland, New Zealand

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130205

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130502

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130528

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130626

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5307248

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees