JP5323995B2 - マルチチャネル信号の残響除去のためのシステム、方法、装置、およびコンピュータ可読媒体 - Google Patents

マルチチャネル信号の残響除去のためのシステム、方法、装置、およびコンピュータ可読媒体 Download PDF

Info

Publication number
JP5323995B2
JP5323995B2 JP2012528858A JP2012528858A JP5323995B2 JP 5323995 B2 JP5323995 B2 JP 5323995B2 JP 2012528858 A JP2012528858 A JP 2012528858A JP 2012528858 A JP2012528858 A JP 2012528858A JP 5323995 B2 JP5323995 B2 JP 5323995B2
Authority
JP
Japan
Prior art keywords
signal
directivity
channel
selective processing
dereverberation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012528858A
Other languages
English (en)
Other versions
JP2013504283A (ja
Inventor
ビッサー、エリック
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2013504283A publication Critical patent/JP2013504283A/ja
Application granted granted Critical
Publication of JP5323995B2 publication Critical patent/JP5323995B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/21Direction finding using differential microphone array [DMA]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/15Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Telephone Function (AREA)

Description

米国特許法第119条に基づく優先権の主張
本特許出願は、本出願の譲受人に譲渡され、2009年9月7日に出願された「SYSTEMS, METHODS, APPARATUS, AND COMPUTER-READABLE MEDIA FOR DEREVERBERATION OF MULTICHANNEL SIGNAL」と題する仮出願第61/240,301号の優先権を主張する。
本開示は信号処理に関する。
特定の方向から発信した音響信号(たとえば、通信デバイスのユーザによって発せられた音声信号)が壁および/または他の表面から反射されると、残響が生じる。直接経路信号に加えて、マイクロフォン記録信号は、それらの多重反射(たとえば、オーディオ信号の遅延したインスタンス)を含んでいることがある。残響音声は、概して、(たとえば、様々な音響経路上での信号インスタンスの弱め合う干渉により)対面の会話で聞こえる音声よりも、こもって、不明瞭に、および/またはわかりづらく聞こえる。これらの影響は、自動音声認識(ASR)適用例(たとえば、勘定残高または株価チェックなどの自動商取引、自動メニューナビゲーション、自動問合せ処理)の場合に特に問題になり、精度の低減につながり得る。したがって、ボイスの音色の変更を最小限に抑えながら、記録信号に対して残響除去(dereverberation)演算を実行することが望ましいことがある。
一般的構成による、指向性成分を含むマルチチャネル信号を処理する方法が、残差信号を生成するために第1の信号に対して第1の指向性選択的処理演算を実行することと、拡張信号を生成するために第2の信号に対して第2の指向性選択的処理演算を実行することとを含む。本方法は、生成された残差信号からの情報に基づいて、逆フィルタの複数のフィルタ係数を計算することと、残響除去信号を生成するために拡張信号に対して残響除去演算を実行することとを含む。残響除去演算は、計算された複数のフィルタ係数に基づく。第1の信号はマルチチャネル信号の少なくとも2つのチャネルを含み、第2の信号はマルチチャネル信号の少なくとも2つのチャネルを含む。本方法では、第1の信号に対して第1の指向性選択的処理演算を実行することは、第1の信号の総エネルギーと比較して、第1の信号内の指向性成分のエネルギーを減少させることを含み、第2の信号に対して第2の指向性選択的処理演算を実行することは、第2の信号の総エネルギーと比較して、第2の信号内の指向性成分のエネルギーを増加させることを含む。そのような方法を実行するように構成されたシステムおよび装置、ならびにそのような方法を実行するための機械実行可能命令を有するコンピュータ可読媒体も開示される。
一般的構成による、指向性成分を含むマルチチャネル信号を処理するための装置が、残差信号を生成するために第1の信号に対して第1の指向性選択的処理演算を実行するように構成された第1のフィルタと、拡張信号を生成するために第2の信号に対して第2の指向性選択的処理演算を実行するように構成された第2のフィルタとを有する。本装置は、生成された残差信号からの情報に基づいて、逆フィルタの複数のフィルタ係数を計算するように構成された計算器と、計算された複数のフィルタ係数に基づいて、残響除去信号を生成するために拡張信号をフィルタ処理するように構成された第3のフィルタとを有する。第1の信号はマルチチャネル信号の少なくとも2つのチャネルを含み、第2の信号はマルチチャネル信号の少なくとも2つのチャネルを含む。本装置では、第1の指向性選択的処理演算は、第1の信号の総エネルギーと比較して、第1の信号内の指向性成分のエネルギーを減少させることを含み、第2の指向性選択的処理演算は、第2の信号の総エネルギーと比較して、第2の信号内の指向性成分のエネルギーを増加させることを含む。
別の一般的構成による、指向性成分を含むマルチチャネル信号を処理するための装置が、残差信号を生成するために第1の信号に対して第1の指向性選択的処理演算を実行するための手段と、拡張信号を生成するために第2の信号に対して第2の指向性選択的処理演算を実行するための手段とを有する。本装置は、生成された残差信号からの情報に基づいて、逆フィルタの複数のフィルタ係数を計算するための手段と、残響除去信号を生成するために拡張信号に対して残響除去演算を実行するための手段とを含む。本装置では、残響除去演算は、計算された複数のフィルタ係数に基づく。第1の信号はマルチチャネル信号の少なくとも2つのチャネルを含み、第2の信号はマルチチャネル信号の少なくとも2つのチャネルを含む。本装置では、第1の信号に対して第1の指向性選択的処理演算を実行するための手段は、第1の信号の総エネルギーと比較して、第1の信号内の指向性成分のエネルギーを減少させるように構成され、第2の信号に対して第2の指向性選択的処理演算を実行するための手段は、第2の信号の総エネルギーと比較して、第2の信号内の指向性成分のエネルギーを増加させるように構成される。
ビームフォーマ応答プロットの例を示す図。 ビームフォーマ応答プロットの例を示す図。 一般的構成による方法M100のフローチャート。 一般的構成による装置A100のフローチャート。 発生されたヌルビームの例を示す図。 発生されたヌルビームの例を示す図。 方法M100の実装形態M102のフローチャート。 装置A100の実装形態A104のブロック図。 装置A100の実装形態A106のブロック図。 装置A100の実装形態A108のブロック図。 一般的構成による装置MF100のフローチャート。 別の構成による方法のフローチャート。 一般的構成によるデバイスD10のブロック図。 装置D10の実装形態D20のブロック図。 マルチマイクロフォンワイヤレスヘッドセットD100の様々な図。 マルチマイクロフォンワイヤレスヘッドセットD100の様々な図。 マルチマイクロフォンワイヤレスヘッドセットD100の様々な図。 マルチマイクロフォンワイヤレスヘッドセットD100の様々な図。 マルチマイクロフォンワイヤレスヘッドセットD200の様々な図。 マルチマイクロフォンワイヤレスヘッドセットD200の様々な図。 マルチマイクロフォンワイヤレスヘッドセットD200の様々な図。 マルチマイクロフォンワイヤレスヘッドセットD200の様々な図。 マルチマイクロフォン通信ハンドセットD300の(中央軸に沿った)断面図。 デバイスD300の実装形態D310の断面図。 マルチマイクロフォンメディアプレーヤD400の図。 デバイスD400の実装形態D410の図。 デバイスD400の実装形態D420の図。 マルチマイクロフォンハンズフリーカーキットD500の図。 マルチマイクロフォンライティングデバイスD600の図。 デバイスD700の正面図。 デバイスD700の上面図。 デバイスD710の正面図。 デバイスD710の上面図。 ハンドセットD300の実装形態D320の正面図。 ハンドセットD300の実装形態D320の側面図。 ハンドセットD300の実装形態D330の正面図。 ハンドセットD300の実装形態D330の側面図。 オーディオ感知デバイスD800のディスプレイ図。 デバイスD10の異なる会議実装形態の構成を示す図。 デバイスD10の異なる会議実装形態の構成を示す図。 デバイスD10の異なる会議実装形態の構成を示す図。 デバイスD10の異なる会議実装形態の構成を示す図。 アレイR100の実装形態R200のブロック図。 アレイR200の実装形態R210のブロック図。
本開示は、ブラインド音源分離(BSS:blind source separation)を使用して取得された分離された残響推定値に関してトレーニングされた逆フィルタと組み合わされたビームフォーミングを使用する、マルチマイクロフォン信号の残響除去のためのシステム、方法、装置、およびコンピュータ可読媒体の説明を含む。
その文脈によって明確に限定されない限り、「信号」という用語は、本明細書では、ワイヤ、バス、または他の伝送媒体上に表されたメモリロケーション(またはメモリロケーションのセット)の状態を含む、その通常の意味のいずれをも示すのに使用される。その文脈によって明確に限定されない限り、「発生(generating)」という用語は、本明細書では、計算(computing)または別様の生成(producing)など、その通常の意味のいずれをも示すのに使用される。その文脈によって明確に限定されない限り、「計算(calculating)」という用語は、本明細書では、複数の値からの計算(computing)、評価、推定、および/または選択など、その通常の意味のいずれをも示すのに使用される。その文脈によって明確に限定されない限り、「取得(obtaining)」という用語は、計算(calculating)、導出、(たとえば、外部デバイスからの)受信、および/または(たとえば、記憶要素のアレイからの)検索など、その通常の意味のいずれをも示すのに使用される。「備える(comprising)」という用語は、本明細書および特許請求の範囲において使用される場合、他の要素または動作を除外するものではない。「に基づく」(「AはBに基づく」など)という用語は、(i)「から導出される」(たとえば、「BはAのプリカーサーである」)、(ii)「少なくとも〜に基づく」(たとえば、「Aは少なくともBに基づく」)、および特定の文脈で適当な場合に、(iii)「に等しい」(たとえば、「AはBに等しい」)という場合を含む、その通常の意味のいずれをも示すのに使用される。同様に、「に応答して」という用語は、「少なくとも〜に応答して」を含む、その通常の意味のいずれをも示すのに使用される。
マルチマイクロフォンオーディオ感知デバイスのマイクロフォンの「ロケーション」への言及は、文脈によって別段に規定されていない限り、マイクロフォンの音響的に敏感な面の中心のロケーションを示す。「チャネル」という用語は、特定の文脈に応じて、時々、信号経路を示すのに使用され、また他のときには、そのような経路によって搬送される信号を示すのに使用される。別段に規定されていない限り、「一連」という用語は、2つ以上のアイテムのシーケンスを示すのに使用される。「周波数成分」という用語は、(たとえば、高速フーリエ変換によって生成される)信号の周波数領域表現のサンプル、あるいは信号のサブバンド(たとえば、バーク尺度サブバンド)など、信号の周波数または周波数帯域のセットのうちの1つを示すのに使用される。
別段に規定されていない限り、特定の特徴を有する装置の動作のいかなる開示も、類似の特徴を有する方法を開示する(その逆も同様)ことをも明確に意図し、特定の構成による装置の動作のいかなる開示も、類似の構成による方法を開示する(その逆も同様)ことをも明確に意図する。「構成」という用語は、その特定の文脈によって示されるように、方法、装置、および/またはシステムに関して使用され得る。「方法」、「プロセス」、「プロシージャ」、および「技法」という用語は、特定の文脈によって別段に規定されていない限り、一般的、互換的に使用される。「装置」および「デバイス」という用語も、特定の文脈によって別段に規定されていない限り、一般的、互換的に使用される。「要素」および「モジュール」という用語は、一般に、より大きい構成の一部を示すのに使用される。その文脈によって明確に限定されない限り、「システム」という用語は、本明細書では、「共通の目的を果たすために相互作用する要素のグループ」を含む、その通常の意味のいずれをも示すのに使用される。文書の一部の参照によるいかなる組込みも、そのような定義が文書中の他の場所、ならびに組み込まれた部分で参照される図に現れた場合、その部分内で言及された用語または変数の定義を組み込んでいることをも理解されたい。
マルチマイクロフォン信号の残響除去は、ビームフォーミングなど、指向性弁別(discriminative)(または「指向性選択」)フィルタ技法を使用して実行され得る。そのような技法は、ほぼ正確な空間分解能を用いて、他の方向から到着する音響成分から、(所望の音響成分の反射されたインスタンス含む)特定の方向から到着する音響成分を隔離するために使用され得る。この分離は、概して、中間周波数から高周波数までではうまく動作するが、低周波数における結果は概して期待外れである。
低周波数におけるこの不全の1つの理由は、典型的なオーディオ感知消費者デバイス形状ファクタ(たとえば、ワイヤレスヘッドセット、電話ハンドセット、携帯電話、携帯情報端末(PDA))上で利用可能なマイクロフォン間隔が、異なる方向から到着する低周波成分間の良好な分離を保証するためには概して小さすぎることである。信頼できる指向性弁別は、一般に、波長と同等のアレイアパーチャを必要とする。200Hzにおける低周波成分では、波長は約170センチメートルである。しかしながら、典型的なオーディオ感知消費者デバイスでは、マイクロフォン間の間隔は、約10センチメートル程度の実際的な上限を有し得る。さらに、白色雑音利得を制限することのデザイアビリティは、設計者に低周波数のビームを広げることを強制し得る。白色雑音利得に対する制限は、一般に、センサ雑音や風雑音など、マイクロフォンチャネル間では無相関である雑音の増幅を低減または回避するために課せられる。
空間エイリアシングを回避するために、マイクロフォン間の距離は最小波長の半分を超えるべきではない。たとえば、8キロヘルツサンプリングレートは0キロヘルツから4キロヘルツまでの帯域幅を与える。4キロヘルツにおける波長は約8.5センチメートルであるので、この場合、隣接するマイクロフォン間の間隔は約4センチメートルを超えるべきではない。マイクロフォンチャネルは、空間エイリアシングを生じ得る周波数を除去するために低域フィルタ処理され得る。空間エイリアシングは高周波数における空間選択フィルタ処理の有効性を低減し得るが、残響エネルギーは、通常、(たとえば、典型的な室内ジオメトリにより)低周波数に集中する。指向性選択フィルタ処理演算は、中間および高周波数において残響の十分な除去を実行し得るが、低周波数におけるそれの残響除去パフォーマンスは、所望の知覚利得を生成するには不十分であり得る。
図1Aおよび図1Bに、隣接するマイクロフォンとの間に3.5cmの間隔がある4マイクロフォン線形アレイを使用して記録されたマルチマイクロフォン信号上で取得されたビームフォーマ応答プロットを示す。図1Aは、アレイ軸に対して90度のステア方向の応答を示し、図1Bは、アレイ軸に対して0度のステア方向の応答を示す。両方の図において、周波数レンジは0キロヘルツから4キロヘルツまでであり、低から高の利得は暗から明の輝度によって示されている。理解を促進するために、図1A中の最高周波数において境界線が追加されており、図1Bにメインローブの輪郭が追加されている。各図において、ビームパターンは、中間および高周波数では高い指向性を与えるが、低周波数では拡散することがわかり得る。したがって、残響除去を行うためのそのようなビームの適用は、中間および高周波数では有効であり得るが、残響エネルギーが集中する傾向がある低周波数帯域ではあまり有効でないことがある。
代替的に、マルチマイクロフォン信号の残響除去は残響測定値の直接逆フィルタ処理によって実行され得る。そのような手法は、C(z-1)Y(t)=S(t)などのモデルを使用し得、Y(t)は、観測された音声信号を示し、S(t)は、直接経路音声信号を示し、C(z-1)は、逆室内応答(room-response)フィルタを示す。
典型的な直接逆フィルタ処理手法は、有意味な解に収束させるために各量の分布関数(たとえば、音声の確率分布関数および再構成誤差の確率分布関数)に関する適切な仮定を使用して、直接経路音声信号S(t)と逆室内応答フィルタC(z-1)とを同時に推定し得る。しかしながら、これらの2つの無関係な量の同時推定には問題があり得る。たとえば、そのような手法は、反復的になる可能性があり、一般にあまり正確でない結果のための大量の計算および遅い収束につながり得る。このようにして、記録信号に逆フィルタ処理を直接適用することはまた、室内インパルス応答関数を反転させる間に音声ホルマント構造の白色化を起こしやすいので、音声が不自然に聞こえる。これらの白色化アーティファクトを回避するために、直接逆フィルタ処理手法はパラメータチューニングに過剰に依存し得る。
本明細書では、ブラインド音源分離(BSS)または他の無相関化技法を使用して推定された残響信号に基づいて逆フィルタ処理を実行する、マルチマイクロフォン残響除去のためのシステム、方法、装置、およびコンピュータ可読媒体を開示する。そのような手法は、音源に向かってダイレクトされるヌルビームを計算するために、BSSまたは他の無相関化技法を使用することによって残響を推定することと、得られた残差信号(たとえば、低周波残響残差信号)からの情報を使用して、逆室内応答フィルタを推定することとを含み得る。
図2Aに、指向性成分(たとえば、ユーザの口によって発せられた音声信号など、所望の信号の直接経路インスタンス)を含むマルチチャネル信号を処理する、一般的構成による方法M100のフローチャートを示す。方法M100は、タスクT100と、タスクT200と、タスクT300と、タスクT400とを含む。タスクT100は、残差信号を生成するために第1の信号に対して第1の指向性選択的処理(DSP)演算を実行する。第1の信号はマルチチャネル信号の少なくとも2つのチャネルを含み、第1のDSP演算は、第1の信号の総エネルギーと比較して、第1の信号内の指向性成分のエネルギーを減少させることによって残差信号を生成する。第1のDSP演算は、たとえば、指向性成分に負の利得を適用することによって、および/または信号の1つまたは複数の他の成分に正の利得を適用することによって、指向性成分の相対エネルギーを減少させるように構成され得る。
概して、第1のDSP演算は、信号の総エネルギーと比較して、指向性成分のエネルギーを減少させるように構成された無相関化演算として実装され得る。例には、(ヌルビームフォーミング演算として構成された)ビームフォーミング演算、指向性成分を分離するように構成されたブラインド音源分離演算、および指向性成分の周波数成分を減衰させるように構成された位相ベースの演算がある。そのような演算は、時間領域においてまたは変換領域(たとえば、FFTまたはDCT領域あるいは別の周波数領域)において実行するように構成され得る。
一例では、第1のDSP演算はヌルビームフォーミング演算を含む。この場合、指向性成分の到着方向(たとえば、第1の信号を生成するマイクロフォンアレイに対するユーザの口の方向)におけるヌルビームを計算することによって残差が取得される。ヌルビームフォーミング演算は固定および/または適応型であり得る。そのようなヌルビームフォーミング演算を実行するために使用され得る固定ビームフォーミング演算の例には、時間領域遅延和(delay-and-sum)ビームフォーミングと、サブバンド(たとえば、周波数領域)位相シフト和(phase-shift-and-sum)ビームフォーミングと、超指向性ビームフォーミングとを含む遅延和ビームフォーミングがある。そのようなヌルビームフォーミング演算を実行するために使用され得る適応型ビームフォーミング演算の例には、最小分散無ひずみ応答(MVDR:minimum variance distortionless response)ビームフォーミング、線形制約最小分散(LCMV:linearly constrained minimum variance)ビームフォーミング、および一般化サイドローブキャンセラ(GSC:generalized sidelobe canceller)ビームフォーミングがある。
別の例では、第1のDSP演算は、第1の信号の異なるチャネルにおける周波数成分の位相間の差に基づく利得を第1の信号の周波数成分に適用することを含む。そのような位相差ベースの演算は、第1の信号の複数の異なる周波数成分の各々について、第1の信号の異なるチャネルにおける周波数成分の対応する位相間の差を計算することと、計算された位相差に基づいて異なる利得を周波数成分に適用することとを含み得る。そのような位相差から導出され得る方向インジケータの例には到着方向および到達時間差がある。
位相差ベースの演算は、位相差が特定の基準を満たす(たとえば、対応する到着方向が指定された範囲内に入るか、または対応する到達時間差が指定された範囲内に入るか、または位相差と周波数との比が指定された範囲内に入る)周波数成分の数に従ってコヒーレンシ測度を計算するように構成され得る。完全にコヒーレントな信号では、位相差と周波数との比は定数である。そのようなコヒーレンシ測度は、(たとえば、ボイスアクティビティ検出器として)指向性成分がアクティブである間隔を示すために使用され得る。指定された周波数レンジ(たとえば、約500、600、700、または800Hzから約1700、1800、1900、または2000Hzまでなど、話者のボイスのエネルギーの大部分を含むことが予想され得るレンジ)にあり、および/または所望の話者のボイスのピッチ周波数の現在の推定値の倍数である、周波数成分のみの位相差に基づいてコヒーレンシ測度を計算するように、そのような演算を構成することが望ましいことがある。
さらなる一例では、第1のDSP演算はブラインド音源分離(BSS)演算を含む。ブラインド音源分離は、出力間の相互情報量が最小化される程度まで、分離された出力を無相関化する分離フィルタ解を計算するので、特定のシナリオにおいて残響を推定するための有用な方法を与える。そのような演算は、放出源が経時的に移動するにつれて、指向性成分のエネルギーを確実に分離し続け得るような適応型である。
従来のビームフォーミング技法の場合のような所望の音源へのビーミングの代わりに、BSS演算は、他の競合方向をビームアウトすることによって所望の音源に向かうビームを発生するように設計され得る。残差信号は、指向性成分のエネルギーがそこから分離される、BSS演算の雑音または「残差」出力から(すなわち、指向性成分のエネルギーがその中に分離される、雑音の多い信号出力とは反対に)取得され得る。
制約付きBSS手法を使用して、各個の周波数ビンにおいてビームパターンを反復的に整形し、それによって相関雑音を無相関雑音に対してトレードオフし、サイドローブを主ビームに対してトレードオフするように第1のDSP演算を構成することが望ましいことがある。そのような結果を達成するために、すべてのルック角(look angle)にわたって正規化(normalization)プロシージャを使用して、所望のルック方向において収束ビームを単位利得に正規化(regularize)することが望ましいことがある。また、チューニング行列を使用して、各ヌルビーム方向の周波数ビンごとの反復プロセス中に、強化されたヌルビームの深さおよびビーム幅を直接制御することが望ましいことがある。
MVDR設計の場合と同様に、BSS設計は、単独ではマイクロフォンアレイの前面と背面との弁別が不十分であり得る。したがって、BSS演算が、マイクロフォンアレイの前の音源とマイクロフォンアレイの後ろの音源とを弁別することが望ましい適用例では、後ろからの音源を示すために使用され得る、他のマイクロフォンから向きがそれている少なくとも1つのマイクロフォンを含むようにアレイを実装することが望ましいことがある。
収束時間を低減するために、BSS演算は、一般に、指向性成分の推定方向を示す初期条件のセットを用いて初期化される。初期条件は、ビームフォーマ(たとえば、MVDRビームフォーマ)から取得され得、および/またはマイクロフォンアレイを使用して取得された1つまたは複数の指向性音源の記録に関してデバイスをトレーニングすることによって取得され得る。たとえば、マイクロフォンアレイを使用して、トレーニングデータを収集するために1つまたは複数のラウドスピーカーのアレイからの信号を記録し得る。特定のルック方向に向かうビームを発生することが望まれる場合、ラウドスピーカーはアレイに対してそれらの角度で配置され得る。制約付きBSSルールは、競合音源をヌルアウトしようと試み得、したがって、干渉ラウドスピーカーの相対角距離によって決定された多少狭い残差ビームを生じ得るので、得られたビームのビーム幅は干渉ラウドスピーカーの近接度によって決定され得る。
それらのジオメトリに従って空間的に音響を拡散する、異なる表面および曲率をもつラウドスピーカーを使用することによって、ビーム幅は影響を受けることがある。これらの応答を整形するために、マイクロフォンの数以下の数の音源信号が使用され得る。異なる周波数成分を作成するために、ラウドスピーカーによって再生される異なるサウンドファイルが使用され得る。ラウドスピーカーが異なる周波数成分を含んでいる場合、再生信号は、いくつかの帯域において周波数損失を補償するために再生の前に等化され得る。
BSS演算は、特定の時間間隔中に、特定の方向から到着するエネルギーのみを分離するように指向的に制約され得る。代替的に、そのような制約は、特定の時間間隔中に、BSS演算が異なる周波数においていくぶん異なる方向から到着するエネルギーを分離することを可能にするために、ある程度緩和され得、これは現実世界の条件においてより良い分離性能を生じ得る。
図3Aおよび図3Bに、マイクロフォンアレイに対する音源(たとえば、ユーザの口)の異なる空間構成のためにBSSを使用して発生されたヌルビームの例を示す。図3Aでは、所望の音源はアレイ軸に対して30度であり、図3Bでは、所望の音源はアレイ軸に対して120度である。これらの例の両方において、周波数レンジは0キロヘルツから4キロヘルツまでであり、低から高の利得は暗から明の輝度によって示されている。理解を助けるために、最高周波数においておよびより低い周波数において各図中に等高線が追加されている。
タスクT100において実行される第1のDSP演算は、所望の音源に向かう十分に鋭いヌルビームを作成し得るが、この空間的方向は、(たとえば、その帯域において蓄積する残響により)すべての周波数帯域、特に低周波数帯域においてあまりうまく定義され得ない。上記のように、指向性選択的処理演算は、一般に、特にマイクロフォンアレイの幅が低周波成分の波長よりもはるかに狭いような小さいフォームファクタを有するデバイスでは、低周波数においてあまり有効ではない。したがって、タスクT100において実行される第1のDSP演算は、第1の信号の中間および高周波数帯域から指向性成分の残響を除去するのに効果的であり得るが、指向性成分の低周波残響を除去するためにはあまり有効でないことがある。
タスクT100によって生成された残差信号は所望の音声信号ほどの構造を含んでいないので、この残差信号に関してトレーニングされた逆フィルタは、音声ホルマント構造を反転させる可能性が低い。したがって、記録信号または拡張信号にトレーニングされた逆フィルタを適用することは、人工音声効果を作り出すことなしに高品質残響除去を生成することが予想され得る。また、残差信号から指向性成分を抑制することは、指向性成分の同時推定なしに逆室内インパルス応答関数の推定を可能にし、これは、従来の逆フィルタ処理手法に比較して逆フィルタ応答関数のより効率的な計算を可能にし得る。
タスクT200は、タスクT100において取得された残差信号からの情報を使用して、(「室内インパルス応答関数」とも呼ばれる)室内応答伝達関数F(z)の逆数を計算する。記録信号Y(z)(たとえば、マルチチャネル信号)は、所望の指向性信号S(z)(たとえば、ユーザの口から発せられた音声信号)の直接経路インスタンスと指向性信号S(z)の残響インスタンスとの和としてモデル化され得ると仮定する。
Figure 0005323995
このモデルは、記録信号Y(z)に関して指向性信号S(z)を表すために書き換えられ得る。
Figure 0005323995
また、室内応答伝達関数F(z)は、逆フィルタC(z)が有限インパルス応答(FIR)フィルタであるような全極型フィルタ1/C(z)としてモデル化され得ると仮定する。
Figure 0005323995
これらの2つのモデルは、所望の信号S(z)についての以下の式を取得するために結合される。
Figure 0005323995
残響がない場合(すなわち、フィルタ係数ciのすべてが0に等しいとき)、関数C(z)およびF(z)はそれぞれ1に等しい。上記の式において、この条件は結果S(z)=Y(z)/2を生じる。したがって、以下のように、記録信号Y(z)および逆フィルタC(z)に関して、音声信号S(z)のモデルを取得するために正規化ファクタ2を含めることが望ましいことがある。
Figure 0005323995
一例では、タスクT200は、計算された残差に自己回帰モデルを適合させることによって逆フィルタC(z)のフィルタ係数ciを計算するように構成される。そのようなモデルは、たとえば、C(z)r(t)=e(t)として表され得、r(t)は、時間領域において計算された残差信号を示し、e(t)は、白色雑音シーケンスを示す。このモデルはまた、次式として表され得る。
Figure 0005323995
上式で、表記「a[b]」は、時間bにおける時間領域シーケンスaの値を示し、フィルタ係数ciは、モデルのパラメータである。モデルの次数qは固定または適応型であり得る。
タスクT200は、任意の好適な方法を使用して、そのような自己回帰モデルのパラメータciを計算するように構成され得る。一例では、タスクT200は、モデルに対して最小2乗最小化演算を実行する(すなわち、誤りe(t)のエネルギーを最小化する)。モデルパラメータciを計算するために使用され得る他の方法には、前方後方(forward-backward)手法、ユールウォーカー(Yule-Walker)方法およびバーグ(Burg)方法がある。
0でないC(z)を取得するために、タスクT200は、誤りe(t)についての分布関数を仮定するように構成され得る。たとえば、e(t)は、最大尤度関数に従って分布されると仮定され得る。スパースなインパルス列(たとえば、できるだけ少数のインパルスまたはできるだけ多くの0を含む一連のデルタ関数)であることをe(t)に強制するようにタスクT200を構成することが望ましいことがある。
モデルパラメータciは、残差に関して学習される白色化フィルタを定義すると見なされ得、誤りe(t)は、残差r(t)を生じた仮定的励振信号と見なされ得る。このコンテキストでは、計算フィルタC(z)のプロセスは、LPC音声ホルマント構造モデリングにおいて励振ベクトルを見つけるプロセスと同様である。したがって、別のときにはLPC分析のために使用されるハードウェアまたはファームウェアモジュールを使用して、フィルタ係数ciについて解くことが可能であり得る。残差信号は、音声信号の直接経路インスタンスを除去することによって計算されたので、モデルパラメータ推定演算は、音声ホルマント構造を反転させることを試みることなしに室内伝達関数F(z)の極を推定することが予想され得る。
タスクT100によって生成された残差信号の低周波成分は、指向性成分の残響エネルギーの大部分を含む傾向がある。残差信号中の中間周波エネルギーおよび/または高周波エネルギーの量をさらに減少させるように方法M100の実装形態を構成することが望まれることがある。図4Aに、タスクT150を含む方法M100のそのような実装形態M102の一例を示す。タスクT150は、タスクT200において計算されるフィルタ係数が、フィルタ処理された残差に基づくように、タスクT200の上流で残差信号に対して低域フィルタ処理演算を実行する。方法M100の関係する代替実装形態では、タスクT100において実行される第1の指向性選択的処理演算は低域フィルタ処理演算を含む。いずれの場合も、低域フィルタ処理演算は、たとえば、500、600、700、800、900、または1000Hzのカットオフ周波数を有することが望ましいことがある。
タスクT300は、拡張信号を生成するために第2の信号に対して第2の指向性選択的処理演算を実行する。第2の信号はマルチチャネル信号の少なくとも2つのチャネルを含み、第2のDSP演算は、第2の信号の総エネルギーと比較して、第2の信号内の指向性成分のエネルギーを増加させることによって拡張信号を生成する。第2のDSP演算は、指向性成分に正の利得を適用することによって、および/または第2の信号の1つまたは複数の他の成分に負の利得を適用することによって、指向性成分の相対エネルギーを増加させるように構成され得る。第2のDSP演算は、時間領域においてまたは変換領域(たとえば、FFTまたはDCT領域あるいは別の周波数領域)において実行するように構成され得る。
一例では、第2のDSP演算はビームフォーミング演算を含む。この場合、指向性成分の到着方向(たとえば、第2の信号を生成する、マイクロフォンアレイに対する話者の口の方向)におけるビームを計算することによって拡張信号が取得される。固定および/または適応型であり得るビームフォーミング演算は、タスクT100に関して上記で説明したビームフォーミング例のいずれかを使用して実装され得る。タスクT300はまた、(たとえば、最も高いエネルギーまたはSNRを現在生成しているビームに従って)異なる指定された方向にダイレクトされる複数のビームの中からビームを選択するように構成され得る。別の例では、タスクT300は、多重信号分類(MUSIC:multiple signal classification)アルゴリズムなどの音源局在化方法を使用してビーム方向を選択するように構成される。
概して、遅延和またはMVDRビームフォーマなどの従来の手法は、1に等しい制約付きルック方向エネルギーを用いてビームフォーマ出力エネルギーが最小化される自由音場モデルに基づいて1つまたは複数のビームパターンを設計するために使用され得る。閉形式MVDR技法は、たとえば、所与のルック方向と、マイクロフォン間距離と、雑音相互相関行列とに基づいてビームパターンを設計するために使用され得る。一般に、得られた設計は、雑音相互相関行列の周波数依存対角線ローディングによって主ビームに対してトレードオフされ得る不要なサイドローブを包含する。主ビーム幅とサイドローブ振幅との間のトレードオフに対してより良い制御を行い得る線形プログラミング技法によって解決される特殊制約付きMVDRコスト関数を使用することが望ましいことがある。第1または第2のDSP演算が、マイクロフォンアレイの前の音源とマイクロフォンアレイの後ろの音源とを弁別することが望ましい適用例では、MVDR設計は、単独では、マイクロフォンアレイの前面と背面との弁別が不十分であり得るので、後ろからの音源を示すために使用され得る、他のマイクロフォンから向きがそれている少なくとも1つのマイクロフォンを含むようにアレイを実装することが望ましいことがある。
別の例では、第2のDSP演算は、第2の信号の異なるチャネルにおける周波数成分の位相間の差に基づく利得を第2の信号の周波数成分に適用することを含む。タスクT100に関して上記で説明した位相差ベースの例のいずれかを使用して実装され得るそのような演算は、第2の信号の複数の異なる周波数成分の各々について、第2の信号の異なるチャネルにおける周波数成分の対応する位相間の差を計算することと、計算された位相差に基づいて周波数成分に異なる利得を適用することとを含み得る。第1および/または第2のDSP演算(たとえば、第1のフィルタF110および/または第2のフィルタF120)を実装するために使用され得る位相差ベースの方法および構造に関する追加情報は、たとえば、米国特許出願第12/605,158号(名称「SYSTEMS, METHODS, APPARATUS, AND COMPUTER-READABLE MEDIA FOR COHERENCE DETECTION」、2009年10月23日出願)および米国特許出願第12/796,566号(名称「SYSTEMS, METHODS, APPARATUS, AND COMPUTER-READABLE MEDIA FOR PHASE-BASED PROCESSING OF MULTICHANNEL SIGNAL」、2010年6月8日出願)に記載されている。そのような方法は、たとえば、位相差に基づくサブバンド利得制御、異なるアレイ軸に沿ったマイクロフォンからの信号に基づく前後弁別、空間セクタ内でのコヒーレンスに基づく音源局在化、および(たとえば、残差信号計算のために)指向性音源からのエネルギーをマスキングするための相補マスキングを含む。
第3の例では、第2のDSP演算は、タスクT100に関して上記で説明したBSS例のいずれかを使用して実装、初期化、および/または制約され得るブラインド音源分離(BSS)演算を含む。第1および/または第2のDSP演算(たとえば、第1のフィルタF110および/または第2のフィルタF120)を実装するために使用され得るBSS技法および構造に関する追加情報は、たとえば、米国特許出願公開第2009/0022336号(Visserら、名称「SYSTEMS, METHODS, AND APPARATUS FOR SIGNAL SEPARATION」、2009年1月22日発行)および米国特許出願公開第2009/0164212号(Chanら、名称「SYSTEMS, METHODS, AND APPARATUS FOR MULTI-MICROPHONE BASED SPEECH ENHANCEMENT」、2009年6月25日発行)に記載されている。
第4の例では、BSS演算は、タスクT100とT300の両方を実装するために使用される。この場合、残差信号はBSS演算のある出力において生成され、拡張信号はBSS演算の別の出力において生成される。
第1および第2のDSP演算のいずれかはまた、演算への入力信号の各チャネルにおける信号レベル間の関係(たとえば、第1または第2の信号のチャネルの、線形レベルの比または対数レベルの差)に基づいて信号方向を区別するために実装され得る。そのようなレベルベース(たとえば、利得ベースまたはエネルギーベース)の演算は、信号の現在の方向、信号の複数のサブバンドの各々の現在の方向、または信号の複数の周波数成分の各々の現在の方向を示すように構成され得る。この場合、マイクロフォンチャネルの利得応答(特に、マイクロフォンの利得応答)が互いに対してうまく較正されることが望まれることがある。
上記のように、指向性選択的処理演算は、一般に、低周波数においてはあまり有効でない。したがって、タスクT300において実行される第2のDSP演算は、所望の信号の中間周波数および高周波数を効果的に残響除去し得るが、この演算は、残響エネルギーの大部分を含んでいることが予想され得る低周波数において有効である可能性が低い。
ビームフォーミング、BSSまたはマスキング演算の指向性の損失は、一般に、周波数が減少する際の利得応答のメインローブの幅の増加として現れる。メインローブの幅は、たとえば、利得応答が最大値から3デシベル降下するポイント間の角度として取られ得る。第1および/または第2のDSP演算の指向性の損失を、周波数が減少する際の、特定の周波数における演算の最小利得応答と最大利得応答との間の絶対差の減少として表すことが望まれることがある。たとえば、この絶対差は、低周波数レンジ(たとえば、300ヘルツから400ヘルツまで)にわたるよりも中間および/または高周波数レンジ(たとえば、2kHzから3kHzまで)にわたるほうが大きくなることが予想され得る。
代替的に、第1および/または第2のDSP演算の指向性の損失を、周波数が減少する際の、方向に関する、演算の最小利得応答と最大利得応答との間の絶対差の減少として表すことが望まれることがある。たとえば、この絶対差は、低周波数レンジ(たとえば、300ヘルツから400ヘルツまで)にわたるよりも中間および/または高周波数レンジ(たとえば、2kHzから3kHzまで)にわたるほうが大きくなることが予想され得る。代替的に、中間および/または高周波数レンジ(たとえば、2kHzから3kHzまで)にわたる、そのレンジ内の各周波数成分におけるこの絶対差の平均は、低周波数レンジ(たとえば、300のヘルツから400ヘルツまで)にわたる、そのレンジ内の各周波数成分におけるこの絶対差の平均よりも大きくなることが予想され得る。
タスク400は、残響除去信号を生成するために拡張信号に対して残響除去演算を実行する。残響除去演算は、計算されたフィルタ係数ciに基づき、タスクT400は、時間領域においてまたは変換領域(たとえば、FFTまたはDCT領域あるいは別の周波数領域)において残響除去演算を実行するように構成され得る。一例では、タスクT400は、次式などの式に従って残響除去演算を実行するように構成される。
Figure 0005323995
上式で、G(z)は拡張信号S40を示し、D(z)は残響除去信号S50を示す。そのような演算はまた、次の時間領域差式として表され得る。
Figure 0005323995
上式で、dおよびgは、それぞれ、時間領域における残響除去信号S50および拡張信号S40を示す。
上記のように、タスクT100において実行される第1のDSP演算は、第1の信号の中間および高周波数帯域から指向性成分の残響を除去するのに効果的であり得る。したがって、タスクT200において実行される逆フィルタ計算は、タスクT400において実行される残響除去演算が拡張信号の低周波数を中間または高周波数よりも多く減衰させるように、主に低周波エネルギーに基づく。たとえば、タスクT400において実行される残響除去演算の利得応答は、(たとえば、300ヘルツから400ヘルツの間の)低周波数レンジにわたる残響除去演算の平均利得応答よりも(たとえば、少なくとも3、6、9、12、または20デシベルだけ)大きい、(たとえば、2キロヘルツから3キロヘルツの間の)中間および/または高周波数レンジにわたる平均利得応答を有し得る。
方法M100は、マルチチャネル信号を一連のセグメントとして処理するように構成され得る。典型的なセグメント長は約5または10ミリ秒から約40または50ミリ秒にわたり、セグメントは、重複しても(たとえば、隣接するセグメントが25%または50%だけ重複する)、重複しなくてもよい。1つの特定の例では、マルチチャネル信号は、10ミリ秒の長さをそれぞれ有する一連の重複しないセグメントまたは「フレーム」に分割される。また、方法M100によって処理されるセグメントは、異なる演算によって処理されるより大きいセグメントのセグメント(すなわち、「サブフレーム」)であり得、またはその逆も同様である。
第1の指向性選択的処理演算の適応型実装形態(たとえば、適応型ビームフォーマまたはBSS演算)は、各フレームにおいて、またはより少ない頻度の間隔(たとえば、5または10フレームごとに1回)において、または何らかのイベント(たとえば、到着方向の検出された変化)に応答して、適応を実行するように構成され得る。そのような演算は、たとえば、フィルタ係数の1つまたは複数の対応するセットを更新することによって適応を実行するように構成され得る。第2の指向性選択的処理演算の適応型実装形態(たとえば、適応型ビームフォーマまたはBSS演算)は同様に構成され得る。
タスクT200は、残差信号r(t)のフレームにわたってまたは複数の連続フレームのウィンドウにわたってフィルタ係数ciを計算するように構成され得る。タスクT200は、フィルタ係数が、残響エネルギーを含む残差信号のセグメントに基づき得るように、ボイスアクティビティ検出(VAD)演算(たとえば、エネルギーベースのVAD演算、または上記で説明した位相ベースのコヒーレンシ測度)に従って、フィルタ係数を計算するために使用される残差信号のフレームを選択するように構成され得る。タスクT200は、各フレームにおいて、または各アクティブフレームにおいて、またはより少ない頻度の間隔(たとえば、5または10フレームごとに1回、あるいは5または10アクティブフレームごとに1回)において、または何らかのイベント(たとえば、指向性成分の到着方向の検出された変化)に応答して、フィルタ係数を更新する(たとえば、再計算する)ように構成され得る。
タスクT200におけるフィルタ係数の更新は、フィルタ係数を取得するために経時的に計算値を平滑化することを含み得る。そのような時間平滑化演算は、次式などの式に従って実行され得る。
Figure 0005323995
上式で、cinは、フィルタ係数ciの計算値を示し、ci[n−1]は、フィルタ係数ciの前の値を示し、ci[n]は、フィルタ係数ciの更新された値を示し、αは、0(すなわち、平滑化なし)から1(すなわち、更新なし)までの範囲内の値を有する平滑化係数を示す。平滑化係数αの典型的な値は、0.5、0.6、0.7、0.8および、0.9を含む。
図2Bに、指向性成分を含むマルチチャネル信号を処理するための、一般的構成による装置A100のブロック図を示す。装置A100は、残差信号S30を生成するために第1の信号S10に対して(たとえば、タスクT100に関して本明細書で説明したように)第1の指向性選択的処理演算を実行するように構成された第1のフィルタF110を含む。装置A100はまた、拡張信号S40を生成するために第2の信号S20に対して(たとえば、タスクT300に関して本明細書で説明したように)第2の指向性選択的処理演算を実行するように構成された第2のフィルタF120を含む。第1の信号S10はマルチチャネル信号の少なくとも2つのチャネルを含み、第2の信号S20はマルチチャネル信号の少なくとも2つのチャネルを含む。
装置A100はまた、残差信号S30からの情報に基づいて、(たとえば、タスクT200に関して本明細書で説明したように)逆フィルタの複数のフィルタ係数を計算するように構成された計算器CA100を含む。装置A100はまた、計算された複数のフィルタ係数に基づいて、残響除去信号S50を生成するために(たとえば、タスクT400に関して本明細書で説明したように)拡張信号S40をフィルタ処理するように構成された第3のフィルタF130を含む。
上記のように、第1および第2のDSP演算の各々は、時間領域においてまたは変換領域(たとえば、FFTまたはDCT領域あるいは別の周波数領域)において実行するように構成され得る。図4Bに、(変換モジュールTM10aおよびTM10bを介した)フィルタF110およびF120の上流でのFFT領域への第1および第2の信号S10およびS20の変換と、(逆変換モジュールTM20aおよびTM20bを介した)フィルタF110およびF120の下流での時間領域への残差信号S30と拡張信号S40との後続の変換とを明確に示す、装置A100の実装形態A104の一例のブロック図を示す。方法M100および装置A100はまた、第1の指向性選択的処理演算と第2の指向性選択的処理演算の両方が時間領域において実行されるか、あるいは第1の指向性選択的処理演算が時間領域において実行され、第2の指向性選択的処理演算が変換領域において実行される(またはその逆である)ように実装され得ることに明確に留意されたい。さらなる例は、演算の入力および出力が異なる領域にあるような第1の指向性選択的処理演算と第2の指向性選択的処理演算の一方または両方内での変換(たとえば、FFT領域から時間領域への変換)を含む。
図5Aに、装置A100の実装形態A106のブロック図を示す。装置A106は、マルチチャネル信号の4チャネル実装形態MCS4のすべての4つのチャネルを第2の信号S20として受信するように構成された第2のフィルタF120の実装形態F122を含む。一例では、装置A106は、第1のフィルタF110がBSS演算を実行し、第2のフィルタF122がビームフォーミング演算を実行するように実装される。
図5Bに、装置A100の実装形態A108のブロック図を示す。装置A108は、第1のフィルタF110と第2のフィルタF120の両方を含むように構成された無相関化器DC10を含む。たとえば、無相関化器DC10は、ある出力(たとえば、雑音出力)において残差信号S30を生成し、別の出力(たとえば、分離された信号出力)において拡張信号S40するために、マルチチャネル信号の2チャネル実装形態MCS2に対して(たとえば、本明細書で説明するBSS例のいずれかに従って)BSS演算を実行するように構成され得る。
図6Aに、指向性成分を含むマルチチャネル信号を処理するための、一般的構成による装置MF100のブロック図を示す。装置MF100は、残差信号を生成するために第1の信号に対して(たとえば、タスクT100に関して本明細書で説明したように)第1の指向性選択的処理演算を実行するための手段F100を含む。装置MF100はまた、拡張信号を生成するために第2の信号に対して(たとえば、タスクT300に関して本明細書で説明したように)第2の指向性選択的処理演算を実行するための手段F300を含む。第1の信号はマルチチャネル信号の少なくとも2つのチャネルを含み、第2の信号はマルチチャネル信号の少なくとも2つのチャネルを含む。装置MF100はまた、生成された残差信号からの情報に基づいて、(たとえば、タスクT200に関して本明細書で説明したように)逆フィルタの複数のフィルタ係数を計算するための手段F200を含む。装置MF100はまた、計算された複数のフィルタ係数に基づいて、残響除去信号を生成するために(たとえば、タスクT400に関して本明細書で説明したように)拡張信号に対して残響除去演算を実行するための手段F400を含む。
タスクT300において実行される(代替的に、第2のフィルタF120によって実行される)マルチチャネル指向性選択的処理演算は、指向性成分のエネルギーが集中した雑音の多い信号出力と、第2の信号の他の成分(たとえば、他の指向性成分および/または分散雑音成分)のエネルギーを含む雑音出力の2つの出力を生成するように実装され得る。(たとえば、図5Bに示すように)そのような出力を生成するために、たとえば、ビームフォーミングおよびBSS演算が通常実装される。タスクT300またはフィルタF120のそのような実装形態は、雑音の多い信号出力を拡張信号として生成するように構成され得る。
代替的に、そのような場合、雑音の多い信号出力において雑音をさらに低減するために、雑音出力を使用することによって拡張信号を生成する後処理演算を含むように、タスクT300において実行される(代替的に、第2のフィルタF120または無相関化器DC10によって実行される)第2の指向性選択的処理演算を実装することが望ましいことがある。(「雑音低減演算」とも呼ばれる)そのような後処理演算は、たとえば、雑音出力のスペクトルに基づいて、雑音の多い信号出力に対するウィーナー(Wiener)フィルタ処理演算として構成され得る。代替的に、そのような雑音低減演算は、拡張信号を生成するために、雑音の多い信号出力から、雑音出力に基づく推定された雑音スペクトルを減算するスペクトル減算演算として構成され得る。そのような雑音低減演算はまた、スペクトル減算または信号対雑音比(SNR)ベースの利得ルールに基づくサブバンド利得制御演算として構成され得る。しかしながら、アグレッシブな設定において、そのようなサブバンド利得制御演算は音声ひずみをもたらし得る。
特定の設計選択に応じて、タスクT300(代替的に、第2のフィルタF120)は、拡張信号をシングルチャネル信号として(すなわち、本明細書で説明し例示するように)またはマルチチャネル信号として生成するように構成され得る。拡張信号がマルチチャネル信号である場合、タスクT400は、各チャネルに対して残響除去演算の対応するインスタンスを実行するように構成され得る。そのような場合、得られたチャネルのうちの1つまたは複数に対して、得られたチャネルのうちの別の1つまたは複数からの雑音推定に基づいて、上記で説明したように雑音低減演算を実行することが可能である。
図6Bのフローチャートに示すようにマルチチャネル信号を処理する方法(または対応する装置)を実装することが可能であり、タスクT500は、タスクT300によって生成される拡張信号に対してではなくマルチチャネル信号のチャネルのうちの1つまたは複数に対して、タスクT400に関して本明細書で説明したように残響除去演算を実行する。この場合、タスクT300(または第2のフィルタF120)は省略またはバイパスされ得る。しかしながら、タスクT300のマルチチャネルDSP演算は、逆室内応答フィルタに基づく残響除去よりも中間および高周波数における指向性成分のより良い残響除去を実行することが予想され得るので、方法M100は、そのような方法(または対応する装置)よりも良好な結果を生成することが予想され得る。
タスクT100(代替的に、第1のフィルタF110)によって実行される第1のDSP演算および/またはタスクT300(代替的に、第2のフィルタF120)によって実行される第2のDSP演算を実装するために使用され得るブラインド音源分離(BSS)アルゴリズムの範囲は、フィルタ係数値が周波数領域において直接計算される、周波数領域ICAまたは複素ICAと呼ばれる手法を含む。フィードフォワードフィルタ構造を使用して実装され得るそのような手法は、入力チャネルに対してFFTまたは他の変換を実行することを含み得る。このICA技法は、分離された出力ベクトルY(ω,l)=W(ω)X(ω,l)が互いに独立しているような、各周波数ビンωのM×M逆混合行列W(ω)を計算するように設計され、ただし、X(ω,l)は、周波数ビンωとウィンドウlとの観測信号を示す。逆混合行列W(ω)は、次のように表され得るルールに従って更新される。
Figure 0005323995
上式で、Wl(ω)は、周波数ビンωとウィンドウlとの逆混合行列を示し、Y(ω,l)は、周波数ビンωとウィンドウlとのフィルタ出力を示し、Wl+r(ω)は、周波数ビンωとウィンドウ(l+r)との逆混合行列を示し、rは、1以上の整数値を有する更新レートパラメータであり、μは学習レートパラメータであり、Iは単位行列であり、Φは活性化関数を示し、上付き文字Hは共役転置演算を示し、括弧<>は時間l=1,...,Lにおける平均演算を示す。一例では、活性化関数Φ(Yj(ω,l))はYj(ω,l)/|Yj(ω,l)|に等しい。周知のICA実装形態の例には、Infomax、FastICA(www−dot−cis−dot−hut−dot−fi/projects/ica/fasticaでオンライン入手可能)、およびJADE(Joint Approximate Diagonalization of Eigenmatrices)がある。
そのような合成されたビームフォーマの各出力チャネルjのビームパターンは、次式の絶対値プロットを計算することによって周波数領域伝達関数Wjm(i*ω)(mは、入力チャネルを示し、1≦m≦Mである)から取得され得る。
Figure 0005323995
この式において、D(ω)は、次式を満たすような周波数ωの指向性行列を示す。
Figure 0005323995
上式で、pos(i)は、M個のマイクロフォンのアレイ中のi番目のマイクロフォンの空間座標を示し、cは、媒体中での音響の伝搬速度(たとえば、空気中では340m/s)であり、θjは、マイクロフォンアレイの軸に対するj番目の音源の到来入射角を示す。
複素ICA解には、一般にスケーリングのあいまいさという問題があり、これは、ルック方向が変化するにつれてビームパターン利得および/または応答色の変動を生じ得る。音源が定常であり、音源の分散がすべての周波数ビンにおいて既知である場合、スケーリング問題は、分散を既知の値に合わせて調整することによって解決され得る。しかしながら、自然信号源は動的であり、概して非定常であり、未知の分散を有する。
音源分散を調整する代わりに、スケーリング問題は、学習された分離フィルタ行列を調整することによって解決され得る。最小ひずみ原理によって取得される1つの周知の解法は、次式などの式に従って、学習された逆混合行列をスケーリングする。
Figure 0005323995
所望のルック方向における単位利得を作成することによってスケーリング問題に対処することが望ましいことがあり、これは、所望の話者のボイスの周波数カラーレーションを低減または回避するのに役立ち得る。1つのそのような手法は、すべての角度にわたるフィルタ応答絶対値の最大値によって行列Wの各行jを正規化(normalize)する。
Figure 0005323995
いくつかの複素ICA実装形態に関する別の問題は、同じ音源に関係する周波数ビンの間のコヒーレンスの損失である。この損失は、情報源からのエネルギーを主に含んでいる周波数ビンが干渉出力チャネルに誤って割り当てられ、および/またはその逆である周波数パーミュテーション(permutation)問題につながり得る。この問題へのいくつかの解法が使用され得る。
使用され得るパーミュテーション問題への1つの応答は、周波数ビンの間の予想される依存性をモデル化するソースプライアを使用する複素ICAの変形体である独立ベクトル解析(IVA)である。この方法では、活性化関数Φは次式などの多変量活性化関数である。
Figure 0005323995
上式で、pは、1以上の整数値(たとえば、1、2、または3)を有する。この関数において、分母の項は、すべての周波数ビンにわたる分離された音源スペクトルに関係する。
BSSアルゴリズムは、当然、干渉源をビームアウトして、所望のルック方向におけるエネルギーのみを残すことを試み得る。すべての周波数ビンにわたる正規化の後に、そのような演算は、所望の音源方向における単位利得を生じ得る。BSSアルゴリズムは、ある方向における完全に整合されたビームを生じないことがある。ある空間ピックアップパターンをもつビームフォーマを作成することが望まれる場合、周波数ビンごとにおよびヌルビーム方向ごとに特定のチューニングファクタによって深さおよび幅が強化され得る特定のルック方向におけるヌルビームを強化することによって、サイドローブが最小化され、ビーム幅が整形される。
サイドローブ最小化を選択的に強化すること、および/またはいくつかのルック方向においてビームパターンを正規化することによって、BSSアルゴリズムによって与えられる未加工ビームパターンを微調整することが望ましいことがある。所望のルック方向は、たとえば、アレイルック方向にわたるフィルタ空間応答の最大値を計算し、次いでこの最大ルック方向を中心とする制約を強化することによって取得され得る。
(上記の式(2)に記載の)指向性行列D(ω)に基づいて正規化項(regularization term)J(ω)を追加することによってビームおよび/またはヌルビームを強化することが望ましいことがある。
Figure 0005323995
上式で、S(ω)は、周波数ωと各ヌルビーム方向とのチューニング行列であり、C(ω)は、所望のビームパターンの選定を設定し、各出力チャネルjの干渉方向にヌルを配置するdiag(W(ω)*D(ω))に等しいM×M対角行列である。そのような正規化は、サイドローブを制御するのに役立ち得る。たとえば、行列S(ω)は、各周波数ビンでの各ヌル方向における強化の量を制御することによって、特定の方向θjにおける各ヌルビームの深さを整形するために使用され得る。そのような制御は、サイドローブの発生を狭いまたは広いヌルビームに対してトレードオフするために重要であり得る。
正規化項(3)は、次式などの式を用いて逆混合行列更新式に関する制約として表され得る。
Figure 0005323995
そのような制約は、以下の式のように、そのような項をフィルタ学習ルール(たとえば、式(1))に追加することによって実装され得る。
Figure 0005323995
音源到着方向(DOA)値θjは、サイドローブをなくすために、収束BSSビームパターンに基づいて決定され得る。所望の適用例にとって法外に大きいことがあるサイドローブを低減するために、選択的ヌルビームを強化することが望ましいことがある。各周波数ビンにおいて特定の行列S(ω)を介して強化される追加のヌルビームを適用することによって、狭くなったビームが取得され得る。
音響信号を受信するように構成された2つ以上のマイクロフォンのアレイR100と装置A100の実装形態とを有するポータブルオーディオ感知デバイスを生成することが望ましいことがある。そのようなアレイを含むように実装され得、オーディオ記録および/またはボイス通信アプリケーションのために使用され得るポータブルオーディオ感知デバイスの例には、電話ハンドセット(たとえば、セルラー電話ハンドセット)、ワイヤードまたはワイヤレスヘッドセット(たとえば、Bluetooth(登録商標)ヘッドセット)、ハンドヘルドオーディオおよび/またはビデオレコーダ、オーディオおよび/またはビデオコンテンツを記録するように構成されたパーソナルメディアプレーヤ、携帯情報端末(PDA)または他のハンドヘルドコンピューティングデバイス、およびノートブックコンピュータ、ラップトップコンピュータ、ネットブックコンピュータ、タブレットコンピュータ、または他のポータブルコンピューティングデバイスがある。アレイR100と装置A100とのインスタンスを含むように構築され得、オーディオ記録および/またはボイス通信アプリケーションのために使用され得るオーディオ感知デバイスの他の例には、セットトップボックスならびにオーディオおよび/またはビデオ会議デバイスがある。
図7Aに、一般的構成によるマルチマイクロフォンオーディオ感知デバイスD10のブロック図を示す。デバイスD10は、本明細書で開示するマイクロフォンアレイR100の実装形態のいずれかのインスタンスを含み、本明細書で開示するオーディオ感知デバイスのいずれもデバイスD10のインスタンスとして実装され得る。デバイスD10はまた、本明細書で開示する装置A100の実装形態(たとえば、装置A100、A104、A106、A108、および/またはMF100)である装置A200を含み、および/または本明細書で開示する方法M100の実装形態(たとえば、方法M100またはM102)を実行することによってマルチチャネルオーディオ信号MCSを処理するように構成される。装置A200は、ハードウェアおよび/またはソフトウェア(たとえば、ファームウェア)で実装され得る。たとえば、装置A200は、デバイスD10のプロセッサ上で実行するように実装され得る。
図7Bに、デバイスD10の実装形態である通信デバイスD20のブロック図を示す。デバイスD20は、装置A200を含むチップまたはチップセットCS10(たとえば、移動局モデム(MSM)チップセット)を含む。チップ/チップセットCS10は、装置A200の全部または一部を(たとえば、命令として)実行するように構成され得る1つまたは複数のプロセッサを含み得る。チップ/チップセットCS10はまた、アレイR100の処理要素(たとえば、以下で説明するオーディオ前処理段AP10の要素)を含み得る。チップ/チップセットCS10は、無線周波(RF)通信信号を受信し、RF信号内で符号化されたオーディオ信号を復号し再生するように構成された、受信機と、装置A200によって生成された処理済み信号に基づくオーディオ信号を符号化し、符号化オーディオ信号を記述しているRF通信信号を送信するように構成された、送信機とを含み得る。たとえば、チップ/チップセットCS10の1つまたは複数のプロセッサは、符号化オーディオ信号が雑音低減信号に基づくように、マルチチャネル信号の1つまたは複数のチャネルに対して上記で説明した雑音低減演算を実行するように構成され得る。
アレイR100の各マイクロフォンは、全方向、双方向、または単方向(たとえば、カージオイド)である応答を有し得る。アレイR100において使用され得る様々なタイプのマイクロフォンには、(限定はしないが)圧電マイクロフォン、ダイナミックマイクロフォン、およびエレクトレットマイクロフォンがある。ハンドセットまたはヘッドセットなど、ポータブルボイス通信のためのデバイスでは、アレイR100の隣接するマイクロフォン間の中心間間隔は一般に約1.5cmから約4.5cmまでの範囲内であるが、ハンドセットまたはスマートフォンなどのデバイスでは(たとえば、10cmまたは15cmまでの)より広い間隔も可能であり、タブレットコンピュータなどのデバイスでは(たとえば、20cm、25cmまたは30cm以上までの)さらに広い間隔が可能である。アレイR100のマイクロフォンは、(一様または非一様なマイクロフォン間隔をもつ)線に沿って、あるいは代替的に、それらの中心が2次元形状(たとえば、三角形)または3次元形状の頂点に存在するように構成され得る。
マイクロフォンは、より一般的には、音響以外の放射または放出に反応するトランスデューサとして実装され得ることに明確に留意されたい。1つのそのような例では、マイクロフォンペアは、超音波トランスデューサ(たとえば、15、20、25、30、40、または50キロヘルツ以上よりも大きい音響周波数に反応するトランスデューサ)のペアとして実装される。
図8A〜図8Dに、マルチマイクロフォンオーディオ感知デバイスD10のポータブル実装形態D100の様々な図を示す。デバイスD100は、アレイR100の2マイクロフォン実装形態と、ハウジングから延在するイヤフォンZ20とを支持するハウジングZ10を含むワイヤレスヘッドセットである。そのようなデバイスは、(たとえば、ワシントン州ベルビューのBluetooth Special Interest Group社によって公表されたBluetooth(商標)プロトコルの一バージョンを使用して)セルラー電話ハンドセットなどの電話デバイスとの通信を介した半二重または全二重テレフォニーをサポートするように構成され得る。概して、ヘッドセットのハウジングは、図8A、図8B、および図8Dに示すように矩形またはさもなければ細長い形(たとえば、ミニブームのような形)であるか、あるいはより丸い形、さらには円形であり得る。ハウジングはまた、バッテリーおよびプロセッサおよび/または他の処理回路(たとえば、プリント回路板およびその上に取り付けられた構成要素)を封入し得、電気的ポート(たとえば、ミニユニバーサルシリアルバス(USB)もしくはバッテリー充電用の他のポート)と、1つまたは複数のボタンスイッチおよび/またはLEDなどのユーザインターフェース機能とを含み得る。一般に、ハウジングの長軸に沿った長さは1インチから3インチまでの範囲内にある。
一般に、アレイR100の各マイクロフォンは、デバイス内に、音響ポートとして働く、ハウジング中の1つまたは複数の小さい穴の背後に取り付けられる。図8B〜図8Dは、デバイスD100のアレイの1次マイクロフォンのための音響ポートZ40と、デバイスD100のアレイの2次マイクロフォンのための音響ポートZ50とのロケーションを示している。
ヘッドセットはまた、イヤフックZ30などの固定デバイスを含み得、これは一般にヘッドセットから着脱可能である。外部イヤフックは、たとえば、ユーザがヘッドセットをいずれの耳でも使用するように構成することを可能にするために、可逆的であり得る。代替的に、ヘッドセットのイヤフォンは、内部固定デバイス(たとえば、イヤプラグ)として設計され得、この内部固定デバイスは、特定のユーザの耳道の外側部分により良く合うように、異なるユーザが異なるサイズ(たとえば、直径)のイヤピースを使用できるようにするためのリムーバブルイヤピースを含み得る。
図9A〜図9Dに、ワイヤレスヘッドセットの別の例であるマルチマイクロフォンオーディオ感知デバイスD10のポータブル実装形態D200の様々な図を示す。デバイスD200は、丸みのある、楕円のハウジングZ12と、イヤプラグとして構成され得るイヤフォンZ22とを含む。図9A〜図9Dはまた、デバイスD200のアレイの1次マイクロフォンのための音響ポートZ42と、2次マイクロフォンのための音響ポートZ52とのロケーションを示している。2次マイクロフォンポートZ52は(たとえば、ユーザインターフェースボタンによって)少なくとも部分的にふさがれることが起こり得る。
図10Aに、通信ハンドセットであるマルチマイクロフォンオーディオ感知デバイスD10のポータブル実装形態D300の(中心軸に沿った)断面図を示す。デバイスD300は、1次マイクロフォンMC10と2次マイクロフォンMC20とを有するアレイR100の実装形態を含む。この例では、デバイスD300はまた1次ラウドスピーカーSP10と2次ラウドスピーカーSP20とを含む。そのようなデバイスは、1つまたは複数の(「コーデック」とも呼ばれる)符号化および復号方式を介してボイス通信データをワイヤレスに送信および受信するように構成され得る。そのようなコーデックの例には、「Enhanced Variable Rate Codec, Speech Service Options 3, 68, and 70 for Wideband Spread Spectrum Digital Systems」と題するThird Generation Partnership Project 2(3GPP2)文書C.S0014−C、v1.0、2007年2月(www−dot−3gpp−dot−orgでオンライン入手可能)に記載されているEnhanced Variable Rate Codec、「Selectable Mode Vocoder (SMV) Service Option for Wideband Spread Spectrum Communication Systems」と題する3GPP2文書C.S0030−0、v3.0、2004年1月(www−dot−3gpp−dot−orgでオンライン入手可能)に記載されているSelectable Mode Vocoder音声コーデック、文書ETSI TS 126 092 V6.0.0(European Telecommunications Standards Institute(ETSI)、Sophia Antipolis Cedex、FR、2004年12月)に記載されているAdaptive Multi Rate(AMR)音声コーデック、および文書ETSI TS 126 192 V6.0.0(ETSI、2004年12月)に記載されているAMR Wideband音声コーデックがある。
図10Aの例では、ハンドセットD300は(「フリップ」ハンドセットとも呼ばれる)クラムシェルタイプセルラー電話ハンドセットである。そのようなマルチマイクロフォン通信ハンドセットの他の構成には、バータイプ、スライダタイプ、タッチスクリーン電話ハンドセットがあり、デバイスD10は、これらのフォーマットのいずれかに従って実装され得る。図10Bに、第3のマイクロフォンMC30を含む、アレイR100の3マイクロフォン実装形態を含む、デバイスD300の実装形態D310の断面図を示す。
図11Aに、メディアプレーヤであるマルチマイクロフォンオーディオ感知デバイスD10のポータブル実装形態D400の図を示す。そのようなデバイスは、標準圧縮形式(たとえば、Moving Pictures Experts Group(MPEG)−1 Audio Layer 3(MP3)、MPEG−4 Part 14(MP4)、Windows(登録商標) Media Audio/Video(WMA/WMV)のバージョン(マイクロソフト社(ワシントン州レドモンド))、Advanced Audio Coding(AAC)、International Telecommunication Union(ITU)−T H.264など)に従って符号化されたファイルまたはストリームなどの圧縮オーディオまたはオーディオビジュアル情報を再生するように構成され得る。デバイスD400は、デバイスの前面に配設されたディスプレイスクリーンSC10とラウドスピーカーSP10とを含み、アレイR100のマイクロフォンMC10およびMC20が、デバイスの同じ面に(たとえば、この例のように上面の両側に、または前面の両側に)配設される。図11Bに、マイクロフォンMC10およびMC20がデバイスの反対側の面に配設されたデバイスD400の別の実装形態D410を示し、図11Cに、マイクロフォンMC10およびMC20がデバイスの隣接する面に配設されたデバイスD400のさらなる実装形態D420を示す。メディアプレーヤはまた、意図された使用中、より長い軸が水平になるように設計され得る。
図12Aに、ハンズフリーカーキットであるマルチマイクロフォンオーディオ感知デバイスD10の実装形態D500の図を示す。そのようなデバイスは、車両のダッシュボード、風防、バックミラー、バイザー、または別の室内表面の中もしくは上に設置されるか、またはそれらに着脱自在に固定されるように構成され得る。たとえば、前部座席の乗員の前、および運転者のバイザーと乗客のバイザーとの間に(たとえば、バックミラーの中または上に)そのようなデバイスを配置することが望ましいことがある。デバイスD500はラウドスピーカー85とアレイR100の実装形態とを含む。この特定の例では、デバイスD500はアレイR100の4マイクロフォン実装形態R102を含む。そのようなデバイスは、上記の例などの1つまたは複数のコーデックを介してボイス通信データをワイヤレスに送信および受信するように構成され得る。代替または追加として、そのようなデバイスは、(たとえば、上記で説明したようにBluetooth(商標)プロトコルの一バージョンを使用して)セルラー電話ハンドセットなどの電話デバイスとの通信を介した半二重または全二重テレフォニーをサポートするように構成され得る。
図12Bに、スタイラスまたはライティングデバイス(たとえば、ペンまたは鉛筆)であるマルチマイクロフォンオーディオ感知デバイスD10のポータブル実装形態D600の図を示す。デバイスD600はアレイR100の実装形態を含む。そのようなデバイスは、上記の例などの1つまたは複数のコーデックを介してボイス通信データをワイヤレスに送信および受信するように構成され得る。代替または追加として、そのようなデバイスは、(たとえば、上記で説明したようにBluetooth(商標)プロトコルの一バージョンを使用して)セルラー電話ハンドセットおよび/またはワイヤレスヘッドセットなどのデバイスとの通信を介した半二重または全二重テレフォニーをサポートするように構成され得る。デバイスD600は、描画面81(たとえば、1枚の紙)上でのデバイスD600の先端の移動から生じ得る、アレイR100によって生成された信号中のスクラッチノイズ82のレベルを低減するために空間選択的処理演算を実行するように構成された1つまたは複数のプロセッサを含み得る。
アレイR100の非線形4マイクロフォン実装形態の一例は、中央マイクロフォンと外側マイクロフォンの各々との間に5センチメートルの間隔を空けて一線になった3つのマイクロフォンと、その線の4センチメートル上方に、いずれの外側マイクロフォンよりも中央マイクロフォンに近接して配置された別のマイクロフォンとを含む。そのようなアレイの適用例の一例はハンズフリーカーキットD500の代替実装形態である。
ポータブルコンピューティングデバイスの種類は現在、ラップトップコンピュータ、ノートブックコンピュータ、ネットブックコンピュータ、ウルトラポータブルコンピュータ、タブレットコンピュータ、モバイルインターネットデバイス、スマートブック、およびスマートフォンなどの名称を有するデバイスを含む。そのようなデバイスは、ディスプレイスクリーンを含む上部パネルと、キーボードを含み得る下部パネルとを有し得、2つのパネルは、クラムシェルまたは他のヒンジ結合関係で接続され得る。
図13Aに、デバイスD10のそのようなポータブルコンピューティング実装形態D700の一例の正面図を示す。デバイスD700は、上部パネルPL10上でディスプレイスクリーンSC10の上方に線形アレイで構成された4つのマイクロフォンMC10、MC20、MC30、MC40を有するアレイR100の実装形態を含む。図13Bに、別の次元における4つのマイクロフォンの位置を示す上部パネルPL10の上面図を示す。図13Cに、4つのマイクロフォンMC10、MC20、MC30、MC40が上部パネルPL12上でディスプレイスクリーンSC10の上方に非線形様式で構成された、アレイR100の実装形態を含むそのようなポータブルコンピューティングデバイスD710の別の例の正面図を示す。図13Dに、マイクロフォンMC10、MC20、およびMC30がパネルの前面に配設され、マイクロフォンMC40がパネルの背面に配設された、別の次元における4つのマイクロフォンの位置を示す上部パネルPL12の上面図を示す。
ユーザは、使用中に、そのようなデバイスD700またはD710の前で左右に移動し、デバイスのほうへおよびデバイスから離れて移動し、および/または、さらにはデバイスの周りを(たとえば、デバイスの前面から背面に)移動し得ることが予想され得る。近距離場音声の維持と遠距離場干渉の減衰との間の好適なトレードオフを行うために、および/または不要な方向において非線形信号減衰を行うために、そのようなデバイス内にデバイスD10を実装することが望ましいことがある。最小ボイスひずみのために線形マイクロフォン構成を選択するか、またはより良い雑音低減のために非線形マイクロフォン構成を選択することが望ましいことがある。
アレイR100の4マイクロフォンインスタンスの別の例では、マイクロフォンは、1つのマイクロフォンが、約3センチメートル間隔で離間した他の3つのマイクロフォンの位置によって頂点が定義される三角形の後ろ(たとえば、約1センチメートル後ろ)に配置されるような、ほぼ4面体の構成において構成される。そのようなアレイのための潜在的な適用例は、話者の口とアレイとの間の予想される距離が約20〜30センチメートルである、スピーカーフォンモードで動作するハンドセットを含む。図14Aに、4つのマイクロフォンMC10、MC20、MC30、MC40がほぼ4面体の構成において構成されたアレイR100のそのような実装形態を含むハンドセットD300の実装形態D320の正面図を示す。図14Bに、ハンドセット内のマイクロフォンMC10、MC20、MC30、およびMC40の位置を示すハンドセットD320の側面図を示す。
ハンドセット適用例のためのアレイR100の4マイクロフォンインスタンスの別の例は、ハンドセットの前面(たとえば、キーパッドの1、7、および9の位置の近く)にある3つのマイクロフォンと、背面(たとえば、キーパッドの7または9の位置の後ろ)にある1つのマイクロフォンとを含む。図14Cに、4つのマイクロフォンMC10、MC20、MC30、MC40が「星形」構成において構成されたアレイR100のそのような実装形態を含むハンドセットD300の実装形態D330の正面図を示す。図14Dに、ハンドセット内のマイクロフォンMC10、MC20、MC30、およびMC40の位置を示すハンドセットD330の側面図を示す。デバイスD10の他の例には、マイクロフォンがタッチスクリーンの外周において同様にして構成された(たとえば、iPhone(Apple社(カリフォルニア州クパチーノ))、HD2(HTC(中華民国台湾))またはCLIQ(モトローラ社(イリノイ州シャインバーグ))など、フラットな非折り畳みスラブとしての)ハンドセットD320およびD330のタッチスクリーン実装形態がある。
図15に、ハンドヘルド適用例のためのマルチマイクロフォンオーディオ感知デバイスD10のポータブル実装形態D800の図を示す。デバイスD800は、タッチスクリーンディスプレイと、ユーザインターフェース選択コントロール(左側)と、ユーザインターフェースナビゲーションコントロール(右側)と、2つのラウドスピーカーと、3つの前面マイクロフォンと1つの背面マイクロフォンとを含むアレイR100の実装形態とを含む。ユーザインターフェースコントロールの各々は、プッシュボタン、トラックボール、クリックホイール、タッチパッド、ジョイスティックおよび/または他のポインティングデバイスなどのうちの1つまたは複数を使用して実装され得る。ブラウズトークモードまたはゲームプレイモードで使用され得るデバイスD800の典型的なサイズは約15センチメートル×20センチメートルである。デバイスD10は、アレイR100のマイクロフォンがタブレットコンピュータの上面のマージン内および/または1つまたは複数の側面に配設された、上面上にタッチスクリーンディスプレイを含むタブレットコンピュータ(たとえば、iPad(アップル社)などの「スレート」、Slate(ヒューレットパッカード社(カリフォルニア州パロアルト))またはStreak(デル社(テキサス州ラウンドロック))として同様に実装され得る。
マルチチャネル記録信号内の残響エネルギーは、所望の音源とアレイR100と間の距離が増加するにつれて増加する傾向がある。方法M100を実行することが望ましいことがある別の適用例はオーディオおよび/またはビデオ会議である。図16A〜図16Dに、デバイスD10の会議実装形態のいくつかの例の上面図を示す。図16Aは、アレイR100の3マイクロフォン実装形態(マイクロフォンMC10、MC20、およびMC30)を含む。図16Bは、アレイR100の4マイクロフォン実装形態(マイクロフォンMC10、MC20、MC30、およびMC40)を含む。図16Cは、アレイR100の5マイクロフォン実装形態(マイクロフォンMC10、MC20、MC30、MC40、およびMC50)を含む。図16Dは、アレイR100の6マイクロフォン実装形態(マイクロフォンMC10、MC20、MC30、MC40、MC50、およびMC60)を含む。アレイR100のマイクロフォンの各々を正多角形の対応する頂点に配置することが望ましいことがある。遠端オーディオ信号の再生のためのラウドスピーカーSP10は(たとえば、図16Aに示すように)デバイス内に含まれ得、および/またはそのようなラウドスピーカーは、(たとえば、音響的フィードバックを低減するために)デバイスとは別に配置され得る。
デバイスD10の会議実装形態は、(たとえば、2人以上の近端話者の各ボイスを別々に残響除去するために)マイクロフォンペアごとに、または少なくともアクティブマイクロフォンペアごとに方法M100の実装形態の別個のインスタンスを実行することが望ましいことがある。そのような場合、またデバイスは、遠端への送信の前に様々な残響除去された音声信号を合成(たとえば、混合)することが望ましいことがある。
デバイスD100の会議適用例の別の例では、アレイR100の水平線形実装形態がテレビジョンまたはセットトップボックスのフロントパネル内に含まれる。そのようなデバイスは、アレイの前のエリア内でおよびアレイから約1メートル〜3または4メートル離れた位置から話す人(たとえば、テレビジョンを見ている視聴者)からの近端音源信号の位置を特定し、残響除去することによって、電話通信をサポートするように構成され得る。本明細書で開示するシステム、方法、および装置の適用範囲は、図8A〜図16Dに示す特定の例に限定されないことが明確に開示される。
マルチマイクロフォンオーディオ感知デバイス(たとえば、デバイスD100、D200、D300、D400、D500、またはD600)の動作中、アレイR100はマルチチャネル信号を生成し、各チャネルは、音響環境に対するマイクロフォンのうちの対応する1つの応答に基づく。単一のマイクロフォンを使用してキャプチャされ得るよりも音響環境の完全な表現を集合的に与えるために、対応するチャネルが互いに異なるように、1つのマイクロフォンが別のマイクロフォンよりも直接的に特定の音響を受信し得る。
アレイR100は、マルチチャネル信号MCSを生成するために、マイクロフォンによって生成された信号に対して1つまたは複数の処理演算を実行することが望ましいことがある。図17Aに、(限定はしないが)インピーダンス整合、アナログデジタル変換、利得制御、ならびに/あるいはアナログおよび/またはデジタル領域におけるフィルタ処理を含み得る、1つまたは複数のそのような演算を実行するように構成されたオーディオ前処理段AP10を含むアレイR100の実装形態R200のブロック図を示す。
図17Bに、アレイR200の実装形態R210のブロック図を示す。アレイR210は、アナログ前処理段P10aとアナログ前処理段P10bとを含むオーディオ前処理段AP10の実装形態AP20を含む。一例では、段P10aおよびP10bはそれぞれ、対応するマイクロフォン信号に対して(たとえば、50、100、または200Hzのカットオフ周波数をもつ)高域フィルタ処理演算を実行するように構成される。
アレイR100は、マルチチャネル信号をデジタル信号として、すなわち、サンプルのシーケンスとして生成することが望ましいことがある。アレイR210は、たとえば、対応するアナログチャネルをサンプリングするようにそれぞれ構成されたアナログデジタル変換器(ADC)C10aおよびC10bを含む。音響アプリケーションの典型的なサンプリングレートには、8kHz、12kHz、16kHz、および約8kHzから約16kHzまでのレンジ内の他の周波数があるが、約44kHzも使用され得る。この特定の例では、アレイR210はまた、マルチチャネル信号MCSの対応するチャネルMCS−1、MCS−2を生成するために、対応するデジタル化チャネル上で1つまたは複数の前処理演算(たとえば、エコー消去、雑音低減、および/またはスペクトル整形)を実行するようにそれぞれ構成されたデジタル前処理段P20aおよびP20bを含む。図17Aおよび図17Bは2チャネル実装形態を示しているが、同じ原理が任意の数のマイクロフォンとマルチチャネル信号MCSの対応するチャネルとに拡張され得ることを理解されよう。
本明細書で開示する方法および装置は、概して任意の送受信および/またはオーディオ感知適用例、特にそのような適用例のモバイルまたは場合によってはポータブル事例において適用され得る。たとえば、本明細書で開示する構成の範囲は、符号分割多元接続(CDMA)無線インターフェースを採用するように構成されたワイヤレステレフォニー通信システムに常駐する通信デバイスを含む。とはいえ、本明細書で説明する特徴を有する方法および装置は、ワイヤードおよび/またはワイヤレス(たとえば、CDMA、TDMA、FDMA、および/またはTD−SCDMA)送信チャネルを介したボイスオーバーIP(VoIP)を採用するシステムなど、当業者に知られている広範囲の技術を採用する様々な通信システムのいずれにも常駐し得ることが、当業者には理解されよう。
本明細書で開示する通信デバイスは、パケット交換式であるネットワーク(たとえば、VoIPなどのプロトコルに従ってオーディオ送信を搬送するように構成されたワイヤードおよび/またはワイヤレスネットワーク)および/または回線交換式であるネットワークにおける使用に適応させられ得ることが明確に企図され、本明細書によって開示される。また、本明細書で開示する通信デバイスは、狭帯域コーディングシステム(たとえば、約4または5キロヘルツの可聴周波数レンジを符号化するシステム)での使用、および/または全帯域広帯域コーディングシステムおよびスプリットバンドコーディングシステムを含む、広帯域コーディングシステム(たとえば、5キロヘルツを超える可聴周波数を符号化するシステム)での使用に適応させられ得ることが明確に企図され、本明細書によって開示される。
説明した構成の上記の提示は、本明細書で開示する方法および他の構造を当業者が製造または使用できるように与えたものである。本明細書で図示および説明したフローチャート、ブロック図、および他の構造は例にすぎず、これらの構造の他の変形態も開示の範囲内である。これらの構成に対する様々な変更が可能であり、本明細書で提示した一般的原理は他の構成にも同様に適用され得る。したがって、本開示は、上記に示した構成に限定されるものではなく、原開示の一部をなす、出願した添付の特許請求の範囲を含む、本明細書において任意の方法で開示した原理および新規の特徴に一致する最も広い範囲が与えられるべきである。
情報および信号は、多種多様な技術および技法のいずれかを使用して表され得ることを当業者ならば理解されよう。たとえば、上記の説明全体にわたって言及され得るデータ、命令、コマンド、情報、信号、ビット、およびシンボルは、電圧、電流、電磁波、磁界または磁性粒子、光場または光学粒子、あるいはそれらの任意の組合せによって表され得る。
本明細書で開示する構成の実装形態の重要な設計要件は、8キロヘルツよりも高いサンプリングレート(たとえば、12、16、または44kHz)におけるボイス通信の適用例などの計算集約的適用例では特に、(一般に百万命令毎秒またはMIPSで測定される)処理遅延および/または計算複雑さを最小にすることを含み得る。
本明細書で開示する装置(たとえば、装置A100、A104、A106、A108、MF100、A200)の実装形態の様々な要素は、意図された適用例に好適であると考えられるハードウェア、ソフトウェア、および/またはファームウェアの任意の組合せで実施され得る。たとえば、そのような要素は、たとえば同じチップ上に、またはチップセット中の2つ以上のチップ間に常駐する電子デバイスおよび/または光デバイスとして製造され得る。そのようなデバイスの一例は、トランジスタまたは論理ゲートなどの論理要素の固定アレイまたはプログラマブルアレイであり、これらの要素のいずれも1つまたは複数のそのようなアレイとして実装され得る。これらの要素の任意の2つ以上、さらにはすべてが、同じ1つまたは複数のアレイ内に実装され得る。そのような1つまたは複数のアレイは、1つまたは複数のチップ内(たとえば、2つ以上のチップを含むチップセット内)に実装され得る。
本明細書で開示する装置(たとえば、装置A100、A104、A106、A108、MF100、A200)の様々な実装形態の1つまたは複数の要素は、全体または一部が、マイクロプロセッサ、組込みプロセッサ、IPコア、デジタル信号プロセッサ、FPGA(フィールドプログラマブルゲートアレイ)、ASSP(特定用途向け標準製品)、およびASIC(特定用途向け集積回路)などの論理要素の1つまたは複数の固定アレイまたはプログラマブルアレイ上で実行するように構成された命令の1つまたは複数のセットとしても実装され得る。本明細書で開示する装置の実装形態の様々な要素のいずれも、1つまたは複数のコンピュータ(たとえば、「プロセッサ」とも呼ばれる、命令の1つまたは複数のセットまたはシーケンスを実行するようにプログラムされた1つまたは複数のアレイを含む機械)としても実装され得、これらの要素の任意の2つ以上、さらにはすべてが、同じそのような1つまたは複数のコンピュータ内に実装され得る。
本明細書で開示するプロセッサまたは処理するための他の手段は、たとえば同じチップ上に、またはチップセット中の2つ以上のチップ間に常駐する1つまたは複数の電子デバイスおよび/または光学デバイスとして作製され得る。そのようなデバイスの一例は、トランジスタまたは論理ゲートなどの論理要素の固定アレイまたはプログラマブルアレイであり、これらの要素のいずれも1つまたは複数のそのようなアレイとして実装され得る。そのような1つまたは複数のアレイは、1つまたは複数のチップ内(たとえば、2つ以上のチップを含むチップセット内)に実装され得る。そのようなアレイの例には、マイクロプロセッサ、埋込みプロセッサ、IPコア、デジタル信号プロセッサ、FPGA、ASSP、およびASICなどの論理要素の固定アレイまたはプログラマブルアレイがある。本明細書で開示するプロセッサまたは処理するための他の手段は、1つまたは複数のコンピュータ(たとえば、命令の1つまたは複数のセットまたはシーケンスを実行するようにプログラムされた1つまたは複数のアレイを含む機械)あるいは他のプロセッサとしても実施され得る。本明細書で説明したプロセッサは、プロセッサが組み込まれているデバイスまたはシステム(たとえば、オーディオ感知デバイス)の別の演算に関係するタスクなど、コヒーレンシ検出プロシージャに直接関係しないタスクを実行するかまたは命令の他のセットを実行するために使用することが可能である。また、本明細書で開示する方法の一部がオーディオ感知デバイスのプロセッサによって実行され、その方法の別の一部は1つまたは複数の他のプロセッサの制御下で実行されることが可能である。
本明細書で開示する構成に関して説明した様々な例示的なモジュール、論理ブロック、回路、およびテストならびに他の動作は、電子ハードウェア、コンピュータソフトウェア、または両方の組合せとして実装され得ることを、当業者なら理解されよう。そのようなモジュール、論理ブロック、回路、および動作は、本明細書で開示する構成を生成するように設計された、汎用プロセッサ、デジタル信号プロセッサ、ASICまたはASSP、FPGAまたは他のプログラマブル論理デバイス、個別ゲートまたはトランジスタロジック、個別ハードウェア構成要素、あるいはそれらの任意の組合せを用いて実装または実行され得る。たとえば、そのような構成は、少なくとも部分的に、ハードワイヤード回路として、特定用途向け集積回路へと作製された回路構成として、あるいは不揮発性記憶装置にロードされるファームウェアプログラム、または汎用プロセッサもしくは他のデジタル信号処理ユニットなどの論理要素のアレイによって実行可能な命令である機械可読コードとしてデータ記憶媒体から、もしくはデータ記憶媒体にロードされるソフトウェアプログラムとして実装され得る。汎用プロセッサはマイクロプロセッサであり得るが、代替として、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態機械であり得る。プロセッサはまた、コンピューティングデバイスの組合せ、たとえば、デジタル信号プロセッサとマイクロプロセッサとの組合せ、複数のマイクロプロセッサ、デジタル信号プロセッサコアと連携する1つまたは複数のマイクロプロセッサ、あるいは任意の他のそのような構成として実装され得る。ソフトウェアモジュールは、RAM(ランダムアクセスメモリ)、ROM(読取り専用メモリ)、フラッシュRAMなどの不揮発性RAM(NVRAM)、消去可能プログラマブルROM(EPROM)、電気的消去可能プログラマブルROM(EEPROM)、レジスタ、ハードディスク、リムーバブルディスク、CD−ROM、または当技術分野で知られている任意の他の形態の記憶媒体中に常駐し得る。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるように、プロセッサに結合される。代替として、記憶媒体はプロセッサに一体化され得る。プロセッサおよび記憶媒体はASIC中に常駐し得る。ASICはユーザ端末中に常駐し得る。代替として、プロセッサおよび記憶媒体は、ユーザ端末中に個別構成要素として常駐し得る。
本明細書で開示する様々な方法(たとえば、方法M100、M102)は、プロセッサなどの論理要素のアレイによって実行され得、本明細書で説明する装置の様々な要素は、そのようなアレイ上で実行するように設計されたモジュールとして実装され得ることに留意されたい。本明細書で使用する「モジュール」または「サブモジュール」という用語は、ソフトウェア、ハードウェアまたはファームウェアの形態でコンピュータ命令(たとえば、論理式)を含む任意の方法、装置、デバイス、ユニットまたはコンピュータ可読データ記憶媒体を指すことができる。複数のモジュールまたはシステムを1つのモジュールまたはシステムに結合することができ、1つのモジュールまたはシステムを、同じ機能を実行する複数のモジュールまたはシステムに分離することができることを理解されたい。ソフトウェアまたは他のコンピュータ実行可能命令で実装した場合、プロセスの要素は本質的に、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを用いて関連するタスクを実行するコードセグメントである。「ソフトウェア」という用語は、ソースコード、アセンブリ言語コード、機械コード、バイナリコード、ファームウェア、マクロコード、マイクロコード、論理要素のアレイによって実行可能な命令の1つまたは複数のセットまたはシーケンス、およびそのような例の任意の組合せを含むことを理解されたい。プログラムまたはコードセグメントは、プロセッサ可読媒体に記憶され得、あるいは搬送波に埋め込まれたコンピュータデータ信号によって伝送媒体または通信リンクを介して送信され得る。
本明細書で開示する方法、方式、および技法の実装形態は、(たとえば、本明細書に記載する1つまたは複数のコンピュータ可読媒体中で)論理要素のアレイ(たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械)を含む機械によって読取り可能および/または実行可能な命令の1つまたは複数のセットとしても有形に実施され得る。「コンピュータ可読媒体」という用語は、情報を記憶または転送することができる、揮発性、不揮発性、取外し可能および取外し不可能な媒体を含む任意の媒体を含み得る。コンピュータ可読媒体の例には、電子回路、コンピュータ可読記憶媒体(たとえば、ROM、消去可能ROM(EROM)、フラッシュメモリ、または他の半導体メモリデバイス、フロッピー(登録商標)ディスケット、ハードディスク、または他の磁気ストレージ、CD−ROM/DVDまたは他の光ストレージ)、伝送媒体(たとえば、光ファイバ媒体、無線周波数(RF)リンク)、または所望の情報を取得するためにアクセスされ得る他の媒体がある。コンピュータデータ信号は、電子ネットワークチャネル、光ファイバ、エアリンク、電磁リンク、RFリンクなどの伝送媒体を介して伝播することができるどんな信号でも含み得る。コードセグメントは、インターネットまたはイントラネットなどのコンピュータネットワークを介してダウンロードされ得る。いずれの場合も、本開示の範囲は、そのような実施形態によって限定されると解釈すべきではない。
本明細書で説明した方法のタスクの各々は、ハードウェアで直接実施され得るか、プロセッサによって実行されるソフトウェアモジュールで実施され得るか、またはその2つの組合せで実施され得る。本明細書で開示する方法の実装形態の典型的な適用例では、論理要素のアレイ(たとえば、論理ゲート)は、この方法の様々なタスクのうちの1つ、複数、さらにはすべてを実行するように構成される。タスクのうちの1つまたは複数(場合によってはすべて)は、論理要素のアレイ(たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械)を含む機械(たとえば、コンピュータ)によって可読および/または実行可能であるコンピュータプログラム製品(たとえば、ディスク、フラッシュまたは他の不揮発性メモリカード、半導体メモリチップなどの1つまたは複数のデータ記憶媒体など)に埋め込まれたコード(たとえば、命令の1つまたは複数のセット)としても実装され得る。本明細書で開示する方法の実装形態のタスクは、2つ以上のそのようなアレイまたは機械によっても実行され得る。これらのまたは他の実装形態では、タスクは、セルラー電話など、ワイヤレス通信用のデバイス、またはそのような通信機能をもつ他のデバイス内で実行され得る。そのようなデバイスは、(VoIPなどの1つまたは複数のプロトコルを使用して)回線交換および/またはパケット交換ネットワークと通信するように構成され得る。たとえば、そのようなデバイスは、符号化フレームを受信および/または送信するように構成されたRF回路を含み得る。
本明細書で開示する様々な方法は、ハンドセット、ヘッドセット、または携帯情報端末(PDA)などのポータブル通信デバイスによって実行され得、本明細書で説明した様々な装置は、そのようなデバイスに含まれ得ることが明確に開示される。典型的なリアルタイム(たとえば、オンライン)適用例は、そのようなモバイルデバイスを使用して行われる電話会話である。
1つまたは複数の例示的な実施形態では、本明細書で説明した動作は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。ソフトウェアで実装した場合、そのような動作は、1つまたは複数の命令またはコードとしてコンピュータ可読媒体に記憶され得るか、あるいはコンピュータ可読媒体を介して送信され得る。コンピュータ可読媒体は、コンピュータによってアクセスされ得る任意の媒体であり得る。「コンピュータ可読媒体」という用語は、コンピュータ可読記憶媒体と通信(たとえば、伝送)媒体の両方を含む。限定ではなく、例として、コンピュータ可読記憶媒体は、(限定はしないが、ダイナミックまたはスタティックRAM、ROM、EEPROM、および/またはフラッシュRAMを含むことができる)半導体メモリ、あるいは強誘電体メモリ、磁気抵抗メモリ、オボニックメモリ、高分子メモリ、または相変化メモリなどの記憶要素のアレイ、CD−ROMまたは他の光ディスクストレージ、ならびに/あるいは磁気ディスクストレージまたは他の磁気ストレージデバイスを備えることができる。そのような記憶媒体は、コンピュータによってアクセスされ得る命令またはデータ構造の形態で情報を記憶し得る。通信媒体は、ある場所から別の場所へのコンピュータプログラムの転送を可能にする任意の媒体を含む、命令またはデータ構造の形態の所望でプログラムコードを搬送するために使用され得、コンピュータによってアクセスされ得る任意の媒体を備えることができる。また、いかなる接続もコンピュータ可読媒体と適切に呼ばれる。たとえば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線(DSL)、または赤外線、無線、および/またはマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバケーブル、ツイストペア、DSL、または赤外線、無線、および/またはマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。本明細書では、ディスク(disk)およびディスク(disc)は、コンパクトディスク(disc)(CD)、レーザディスク(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピーディスク(disk)およびBlu−ray Disc(商標)(Blu−Ray Disc Association(カリフォルニア州ユニバーサルシティー))を含み、この場合、ディスク(disk)は、通常、データを磁気的に再生し、ディスク(disc)はデータをレーザで光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲内に含めるべきである。
本明細書で説明した音響信号処理装置は、いくつかの動作を制御するために音声入力を受容し、あるいは背景雑音から所望の雑音を分離することから利益を得ることがある、通信デバイスなどの電子デバイスに組み込まれ得る。多くの適用例では、複数の方向発の背景音から明瞭な所望の音を強調または分離することから利益を得ることがある。そのような適用例では、ボイス認識および検出、音声強調および分離、ボイスアクティブ化制御などの機能を組み込んだ電子デバイスまたはコンピューティングデバイスにヒューマンマシンインターフェースを含み得る。限定された処理機能のみを与えるデバイスに適したそのような音響信号処理装置を実装することが望ましいことがある。
本明細書で説明したモジュール、要素、およびデバイスの様々な実装形態の要素は、たとえば、同じチップ上にまたはチップセット中の2つ以上のチップ上に常駐する電子デバイスおよび/または光デバイスとして作製され得る。そのようなデバイスの一例は、トランジスタまたはゲートなど、論理要素の固定アレイまたはプログラマブルアレイである。本明細書で説明した装置の様々な実装形態の1つまたは複数の要素は、全体または一部が、マイクロプロセッサ、組込みプロセッサ、IPコア、デジタル信号プロセッサ、FPGA、ASSP、およびASICなど論理要素の1つまたは複数の固定アレイまたはプログラマブルアレイ上で実行するように構成された命令の1つまたは複数のセットとしても実装され得る。
本明細書で説明した装置の一実装形態の1つまたは複数の要素は、装置が組み込まれているデバイスまたはシステムの別の動作に関係するタスクなど、装置の動作に直接関係しないタスクを実施し、あるいは装置の動作に直接関係しない命令の他のセットを実行するために使用することが可能である。また、そのような装置の実装形態の1つまたは複数の要素は、共通の構造(たとえば、異なる要素に対応するコードの部分を異なる時間に実行するために使用されるプロセッサ、異なる要素に対応するタスクを異なる時間に実施するために実行される命令のセット、あるいは、異なる要素向けの動作を異なる時間に実施する電子デバイスおよび/または光デバイスの構成)を有することが可能である。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
〔1〕
指向性成分を含むマルチチャネル信号を処理する方法であって、前記方法が、
残差信号を生成するために第1の信号に対して第1の指向性選択的処理演算を実行することと、
拡張信号を生成するために第2の信号に対して第2の指向性選択的処理演算を実行することと、
前記生成された残差信号からの情報に基づいて、逆フィルタの複数のフィルタ係数を計算することと、
残響除去信号を生成するために前記拡張信号に対して残響除去演算を実行することと
を備え、
前記残響除去演算が、前記計算された複数のフィルタ係数に基づき、
前記第1の信号が前記マルチチャネル信号の少なくとも2つのチャネルを含み、前記第2の信号が前記マルチチャネル信号の少なくとも2つのチャネルを含み、
前記第1の信号に対して前記第1の指向性選択的処理演算を前記実行することが、前記第1の信号の総エネルギーと比較して、前記第1の信号内の前記指向性成分のエネルギーを減少させることを含み、
前記第2の信号に対して前記第2の指向性選択的処理演算を前記実行することが、前記第2の信号の総エネルギーと比較して、前記第2の信号内の前記指向性成分のエネルギーを増加させることを含む、
方法。
〔2〕
前記第1の指向性選択的処理演算がブラインド音源分離演算である、〔1〕に記載の方法。
〔3〕
前記第1の指向性選択的処理演算がヌルビームフォーミング演算である、〔1〕に記載の方法。
〔4〕
前記第1の指向性選択的処理演算が、
前記第1の信号の複数の異なる周波数成分の各々について、前記第1の信号の第1のチャネルにおける前記周波数成分の位相と、前記第1の信号の第2のチャネルにおける前記周波数成分の位相との間の差を計算することと、
前記第1の信号における前記計算された位相差に基づいて、前記第1の信号の前記複数の異なる周波数成分のうちの別の周波数成分のレベルと比較して、前記第1の信号の前記複数の異なる周波数成分のうちの少なくとも1つの周波数成分のレベルを減衰させることと
を備える、〔1〕に記載の方法。
〔5〕
前記第1の指向性選択的処理演算が、前記第1の信号の前記総エネルギーと比較して、前記第1の信号内の前記指向性成分の前記エネルギーを減少させるように構成された無相関化演算である、〔1〕に記載の方法。
〔6〕
前記第2の指向性選択的処理演算がブラインド音源分離演算である、〔1〕に記載の方法。
〔7〕
前記第2の指向性選択的処理演算がビームフォーミング演算である、〔1〕に記載の方法。
〔8〕
前記第2の指向性選択的処理演算が、
前記第2の信号の複数の異なる周波数成分の各々について、前記第2の信号の第1のチャネルにおける前記周波数成分の位相と、前記第2の信号の第2のチャネルにおける前記周波数成分の位相との間の差を計算することと、
前記第2の信号における前記計算された位相差に基づいて、前記第2の信号の前記複数の異なる周波数成分のうちの別の周波数成分のレベルと比較して、前記第2の信号の前記複数の異なる周波数成分のうちの少なくとも1つの周波数成分のレベルを増加させることと
を備える、〔1〕に記載の方法。
〔9〕
前記方法が、前記マルチチャネル信号に対してブラインド音源分離演算を実行することを備え、
前記ブラインド音源分離演算が前記第1および第2の指向性選択的処理演算を含み、
前記第1の信号が前記マルチチャネル信号であり、前記第2の信号が前記マルチチャネル信号である、
〔1〕に記載の方法。
〔10〕
前記複数のフィルタ係数を前記計算することが、前記生成された残差信号に自己回帰モデルを適合させることを備える、〔1〕に記載の方法。
〔11〕
複数のフィルタ係数を前記計算することが、前記複数のフィルタ係数を、前記生成された残差信号に基づく自己回帰モデルのパラメータとして計算することを備える、〔1〕に記載の方法。
〔12〕
2キロヘルツから3キロヘルツの間の前記残響除去演算の平均利得応答が、300ヘルツから400ヘルツの間の前記残響除去演算の平均利得応答よりも少なくとも3デシベル大きい、〔1〕に記載の方法。
〔13〕
前記第1および第2の指向性選択的処理演算のうちの少なくとも1つについて、2000ヘルツから3000ヘルツまでの周波数レンジにわたる、方向に関する、前記演算の最小利得応答と前記演算の最大利得応答との間の絶対差が、300ヘルツから400ヘルツまでの周波数レンジにわたる、方向に関する、前記演算の最小利得応答と前記演算の最大利得応答との間の絶対差よりも大きい、〔1〕に記載の方法。
〔14〕
プロセッサによって読み取られたとき、指向性成分を含むマルチチャネル信号を処理する方法を前記プロセッサに実行させる、有形機能を備えるコンピュータ可読記憶媒体であって、前記方法が、
残差信号を生成するために第1の信号に対して第1の指向性選択的処理演算を実行することと、
拡張信号を生成するために第2の信号に対して第2の指向性選択的処理演算を実行することと、
前記生成された残差信号からの情報に基づいて、逆フィルタの複数のフィルタ係数を計算することと、
残響除去信号を生成するために前記拡張信号に対して残響除去演算を実行することと
を備え、
前記残響除去演算が、前記計算された複数のフィルタ係数に基づき、
前記第1の信号が前記マルチチャネル信号の少なくとも2つのチャネルを含み、前記第2の信号が前記マルチチャネル信号の少なくとも2つのチャネルを含み、
前記第1の信号に対して前記第1の指向性選択的処理演算を前記実行することが、前記第1の信号の総エネルギーと比較して、前記第1の信号内の前記指向性成分のエネルギーを減少させることを含み、
前記第2の信号に対して前記第2の指向性選択的処理演算を前記実行することが、前記第2の信号の総エネルギーと比較して、前記第2の信号内の前記指向性成分のエネルギーを増加させることを含む、
コンピュータ可読記憶媒体。
〔15〕
指向性成分を含むマルチチャネル信号を処理するための装置であって、前記装置が、
残差信号を生成するために第1の信号に対して第1の指向性選択的処理演算を実行するように構成された第1のフィルタと、
拡張信号を生成するために第2の信号に対して第2の指向性選択的処理演算を実行するように構成された第2のフィルタと、
前記生成された残差信号からの情報に基づいて、逆フィルタの複数のフィルタ係数を計算するように構成された計算器と、
前記計算された複数のフィルタ係数に基づいて、残響除去信号を生成するために前記拡張信号をフィルタ処理するように構成された第3のフィルタと
を備え、
前記第1の信号が前記マルチチャネル信号の少なくとも2つのチャネルを含み、前記第2の信号が前記マルチチャネル信号の少なくとも2つのチャネルを含み、
前記第1の指向性選択的処理演算が、前記第1の信号の総エネルギーと比較して、前記第1の信号内の前記指向性成分のエネルギーを減少させることを含み、
前記第2の指向性選択的処理演算が、前記第2の信号の総エネルギーと比較して、前記第2の信号内の前記指向性成分のエネルギーを増加させることを含む、
装置。
〔16〕
前記第1の指向性選択的処理演算がブラインド音源分離演算である、〔15〕に記載の装置。
〔17〕
前記第1の指向性選択的処理演算がヌルビームフォーミング演算である、〔15〕に記載の装置。
〔18〕
前記第1の指向性選択的処理演算が、
前記第1の信号の複数の異なる周波数成分の各々について、前記第1の信号の第1のチャネルにおける前記周波数成分の位相と、前記第1の信号の第2のチャネルにおける前記周波数成分の位相との間の差を計算することと、
前記第1の信号における前記計算された位相差に基づいて、前記第1の信号の前記複数の異なる周波数成分のうちの別の周波数成分のレベルと比較して、前記第1の信号の前記複数の異なる周波数成分のうちの少なくとも1つの周波数成分のレベルを減衰させることと
を備える、〔15〕に記載の装置。
〔19〕
前記第1の指向性選択的処理演算が、前記第1の信号の前記総エネルギーと比較して、前記第1の信号内の前記指向性成分の前記エネルギーを減少させるように構成された無相関化演算である、〔15〕に記載の装置。
〔20〕
前記第2の指向性選択的処理演算がブラインド音源分離演算である、〔15〕に記載の装置。
〔21〕
前記第2の指向性選択的処理演算がビームフォーミング演算である、〔15〕に記載の装置。
〔22〕
前記第2の指向性選択的処理演算が、
前記第2の信号の複数の異なる周波数成分の各々について、前記第2の信号の第1のチャネルにおける前記周波数成分の位相と、前記第2の信号の第2のチャネルにおける前記周波数成分の位相との間の差を計算することと、
前記第2の信号における前記計算された位相差に基づいて、前記第2の信号の前記複数の異なる周波数成分のうちの別の周波数成分のレベルと比較して、前記第2の信号の前記複数の異なる周波数成分のうちの少なくとも1つの周波数成分のレベルを増加させることと
を備える、〔15〕に記載の装置。
〔23〕
前記装置が、前記マルチチャネル信号に対してブラインド音源分離演算を実行するように構成された無相関化器を備え、
前記無相関化器が前記第1のフィルタと前記第2のフィルタとを含み、
前記第1の信号が前記マルチチャネル信号であり、前記第2の信号が前記マルチチャネル信号である、
〔15〕に記載の装置。
〔24〕
前記計算器が、前記生成された残差信号に自己回帰モデルを適合させるように構成された、〔15〕に記載の装置。
〔25〕
前記計算器が、前記複数のフィルタ係数を、前記生成された残差信号に基づく自己回帰モデルのパラメータとして計算するように構成された、〔15〕に記載の装置。
〔26〕
2キロヘルツから3キロヘルツの間の前記第3のフィルタの平均利得応答が、300ヘルツから400ヘルツの間の前記第3のフィルタの平均利得応答よりも少なくとも3デシベル大きい、〔15〕に記載の装置。
〔27〕
前記第1および第2の指向性選択的処理演算のうちの少なくとも1つについて、2000ヘルツから3000ヘルツまでの周波数レンジにわたる、方向に関する、前記演算の最小利得応答と前記演算の最大利得応答との間の絶対差が、300ヘルツから400ヘルツまでの周波数レンジにわたる、方向に関する、前記演算の最小利得応答と前記演算の最大利得応答との間の絶対差よりも大きい、〔15〕に記載の装置。
〔28〕
指向性成分を含むマルチチャネル信号を処理するための装置であって、前記装置が、
残差信号を生成するために第1の信号に対して第1の指向性選択的処理演算を実行するための手段と、
拡張信号を生成するために第2の信号に対して第2の指向性選択的処理演算を実行するための手段と、
前記生成された残差信号からの情報に基づいて、逆フィルタの複数のフィルタ係数を計算するための手段と、
残響除去信号を生成するために前記拡張信号に対して残響除去演算を実行するための手段と
を備え、
前記残響除去演算が、前記計算された複数のフィルタ係数に基づき、
前記第1の信号が前記マルチチャネル信号の少なくとも2つのチャネルを含み、前記第2の信号が前記マルチチャネル信号の少なくとも2つのチャネルを含み、
前記第1の信号に対して前記第1の指向性選択的処理演算を実行するための前記手段が、前記第1の信号の総エネルギーと比較して、前記第1の信号内の前記指向性成分のエネルギーを減少させるように構成され、
前記第2の信号に対して前記第2の指向性選択的処理演算を実行するための前記手段が、前記第2の信号の総エネルギーと比較して、前記第2の信号内の前記指向性成分のエネルギーを増加させるように構成された、
装置。
〔29〕
前記第1の指向性選択的処理演算がブラインド音源分離演算である、〔28〕に記載の装置。
〔30〕
前記第1の指向性選択的処理演算がヌルビームフォーミング演算である、〔28〕に記載の装置。
〔31〕
前記第1の指向性選択的処理演算が、
前記第1の信号の複数の異なる周波数成分の各々について、前記第1の信号の第1のチャネルにおける前記周波数成分の位相と、前記第1の信号の第2のチャネルにおける前記周波数成分の位相との間の差を計算することと、
前記第1の信号における前記計算された位相差に基づいて、前記第1の信号の前記複数の異なる周波数成分のうちの別の周波数成分のレベルと比較して、前記第1の信号の前記複数の異なる周波数成分のうちの少なくとも1つの周波数成分のレベルを減衰させることと
を備える、〔28〕に記載の装置。
〔32〕
前記第1の指向性選択的処理演算が、前記第1の信号の前記総エネルギーと比較して、前記第1の信号内の前記指向性成分の前記エネルギーを減少させるように構成された無相関化演算である、〔28〕に記載の装置。
〔33〕
前記第2の指向性選択的処理演算がブラインド音源分離演算である、〔28〕に記載の装置。
〔34〕
前記第2の指向性選択的処理演算がビームフォーミング演算である、〔28〕に記載の装置。
〔35〕
前記第2の指向性選択的処理演算が、
前記第2の信号の複数の異なる周波数成分の各々について、前記第2の信号の第1のチャネルにおける前記周波数成分の位相と、前記第2の信号の第2のチャネルにおける前記周波数成分の位相との間の差を計算することと、
前記第2の信号における前記計算された位相差に基づいて、前記第2の信号の前記複数の異なる周波数成分のうちの別の周波数成分のレベルと比較して、前記第2の信号の前記複数の異なる周波数成分のうちの少なくとも1つの周波数成分のレベルを増加させることと
を備える、〔28〕に記載の装置。
〔36〕
前記装置が、前記マルチチャネル信号に対してブラインド音源分離演算を実行するための手段を備え、
ブラインド音源分離演算を実行するための前記手段が、前記第1の指向性選択的処理演算を実行するための前記手段と、前記第2の指向性選択的処理演算を実行するための前記手段とを含み、
前記第1の信号が前記マルチチャネル信号であり、前記第2の信号が前記マルチチャネル信号である、
〔28〕に記載の装置。
〔37〕
前記複数のフィルタ係数を計算するための前記手段が、前記生成された残差信号に自己回帰モデルを適合させるように構成された、〔28〕に記載の装置。
〔38〕
複数のフィルタ係数を計算するための前記手段が、前記複数のフィルタ係数を、前記生成された残差信号に基づく自己回帰モデルのパラメータとして計算するように構成された、〔28〕に記載の装置。
〔39〕
2キロヘルツから3キロヘルツの間の前記残響除去演算の平均利得応答が、300ヘルツから400ヘルツの間の前記残響除去演算の平均利得応答よりも少なくとも3デシベル大きい、〔28〕に記載の装置。
〔40〕
前記第1および第2の指向性選択的処理演算のうちの少なくとも1つについて、2000ヘルツから3000ヘルツまでの周波数レンジにわたる、方向に関する、前記演算の最小利得応答と前記演算の最大利得応答との間の絶対差が、300ヘルツから400ヘルツまでの周波数レンジにわたる、方向に関する、前記演算の最小利得応答と前記演算の最大利得応答との間の絶対差よりも大きい、〔28〕に記載の装置。

Claims (31)

  1. 指向性成分を含むマルチチャネル信号を処理する方法であって、前記方法が、
    残差信号を生成するために第1の信号に対して第1の指向性選択的処理演算を実行することと、
    拡張信号を生成するために第2の信号に対して第2の指向性選択的処理演算を実行することと、
    前記生成された残差信号からの情報に基づいて、室内応答伝達関数の逆数の複数のフィルタ係数を計算することと、
    残響除去信号を生成するために前記拡張信号に対して残響除去演算を実行することと
    を備え、
    前記残響除去演算が、前記計算された複数のフィルタ係数に基づき、
    前記第1の信号が前記マルチチャネル信号の少なくとも2つのチャネルを含み、前記第2の信号が前記マルチチャネル信号の少なくとも2つのチャネルを含み、
    前記第1の信号に対して前記第1の指向性選択的処理演算を前記実行することが、前記第1の信号の総エネルギーと比較して、前記第1の信号内の前記指向性成分のエネルギーを減少させることを含み、
    前記第2の信号に対して前記第2の指向性選択的処理演算を前記実行することが、前記第2の信号の総エネルギーと比較して、前記第2の信号内の前記指向性成分のエネルギーを増加させることを含む、
    方法。
  2. 前記第1の指向性選択的処理演算がブラインド音源分離演算である、請求項1に記載の方法。
  3. 前記第1の指向性選択的処理演算がヌルビームフォーミング演算である、請求項1に記載の方法。
  4. 前記第1の指向性選択的処理演算が、
    前記第1の信号の複数の異なる周波数成分の各々について、前記第1の信号の第1のチャネルにおける前記周波数成分の位相と、前記第1の信号の第2のチャネルにおける前記周波数成分の位相との間の差を計算することと、
    前記第1の信号における前記計算された位相差に基づいて、前記第1の信号の前記複数の異なる周波数成分のうちの別の周波数成分のレベルと比較して、前記第1の信号の前記複数の異なる周波数成分のうちの少なくとも1つの周波数成分のレベルを減衰させることと
    を備え、
    前記減衰させることが、前記第1の信号内の前記指向性成分からのエネルギーをマスキングするために相補マスクを使用することを備える、
    請求項1に記載の方法。
  5. 前記第1の指向性選択的処理演算が、
    前記第1の信号の複数の異なる周波数成分の各々について、前記第1の信号の第1のチャネルにおける前記周波数成分の位相と、前記第1の信号の第2のチャネルにおける前記周波数成分の位相との間の差を計算することと、
    特定の基準を満たす前記計算された位相差の数に基づいて、前記指向性成分が前記第1の信号内でアクティブであるかどうかを示すことと
    を備える、請求項1に記載の方法。
  6. 前記残響除去演算を前記実行することが、前記拡張信号に基づく信号を用いて、時間領域において、前記計算された複数のフィルタ係数を畳み込むことを備える、請求項1から5のいずれか一項に記載の方法。
  7. 前記第2の指向性選択的処理演算がブラインド音源分離演算である、請求項1から6のいずれか一項に記載の方法。
  8. 前記第2の指向性選択的処理演算がビームフォーミング演算である、請求項1から6のいずれか一項に記載の方法。
  9. 前記第2の指向性選択的処理演算が、
    前記第2の信号の複数の異なる周波数成分の各々について、前記第2の信号の第1のチャネルにおける前記周波数成分の位相と、前記第2の信号の第2のチャネルにおける前記周波数成分の位相との間の差を計算することと、
    特定の基準を満たす前記計算された位相差の数に基づいて、前記指向性成分が前記第2の信号内でアクティブであるかどうかを示すことと
    を備える、請求項1から6のいずれか一項に記載の方法。
  10. 前記方法が、前記マルチチャネル信号に対してブラインド音源分離演算を実行することを備え、
    前記ブラインド音源分離演算が前記第1および第2の指向性選択的処理演算を含み、
    前記第1の信号が前記マルチチャネル信号であり、前記第2の信号が前記マルチチャネル信号である、
    請求項1に記載の方法。
  11. 前記複数のフィルタ係数を前記計算することが、前記生成された残差信号に自己回帰モデルを適合させることを備える、請求項1から10のいずれか一項に記載の方法。
  12. 複数のフィルタ係数を前記計算することが、前記複数のフィルタ係数を、前記生成された残差信号に基づく自己回帰モデルのパラメータとして計算することを備える、請求項1から11のいずれか一項に記載の方法。
  13. 2キロヘルツから3キロヘルツの間の前記残響除去演算の平均利得応答が、300ヘルツから400ヘルツの間の前記残響除去演算の平均利得応答よりも少なくとも3デシベル大きい、請求項1から12のいずれか一項に記載の方法。
  14. 前記第1および第2の指向性選択的処理演算のうちの少なくとも1つについて、2000ヘルツから3000ヘルツまでの周波数レンジにわたる、方向に関する、前記演算の最小利得応答と前記演算の最大利得応答との間の絶対差が、300ヘルツから400ヘルツまでの周波数レンジにわたる、方向に関する、前記演算の最小利得応答と前記演算の最大利得応答との間の絶対差よりも大きい、請求項1から13のいずれか一項に記載の方法。
  15. プロセッサによって読み取られたとき、請求項1から14のいずれか一項に記載の、指向性成分を含むマルチチャネル信号を処理する方法を前記プロセッサに実行させる、有形機能を備えるコンピュータ可読記憶媒体。
  16. 指向性成分を含むマルチチャネル信号を処理するための装置であって、前記装置が、
    残差信号を生成するために第1の信号に対して第1の指向性選択的処理演算を実行するための手段と、
    拡張信号を生成するために第2の信号に対して第2の指向性選択的処理演算を実行するための手段と、
    前記生成された残差信号からの情報に基づいて、室内応答伝達関数の逆数の複数のフィルタ係数を計算するための手段と、
    残響除去信号を生成するために前記拡張信号に対して残響除去演算を実行するための手段と
    を備え、
    前記残響除去演算が、前記計算された複数のフィルタ係数に基づき、
    前記第1の信号が前記マルチチャネル信号の少なくとも2つのチャネルを含み、前記第2の信号が前記マルチチャネル信号の少なくとも2つのチャネルを含み、
    前記第1の信号に対して前記第1の指向性選択的処理演算を実行するための前記手段が、前記第1の信号の総エネルギーと比較して、前記第1の信号内の前記指向性成分のエネルギーを減少させるように構成され、
    前記第2の信号に対して前記第2の指向性選択的処理演算を実行するための前記手段が、前記第2の信号の総エネルギーと比較して、前記第2の信号内の前記指向性成分のエネルギーを増加させるように構成された、
    装置。
  17. 前記第1の指向性選択的処理演算がブラインド音源分離演算である、請求項16に記載の装置。
  18. 前記第1の指向性選択的処理演算がヌルビームフォーミング演算である、請求項16に記載の装置。
  19. 前記第1の指向性選択的処理演算が、
    前記第1の信号の複数の異なる周波数成分の各々について、前記第1の信号の第1のチャネルにおける前記周波数成分の位相と、前記第1の信号の第2のチャネルにおける前記周波数成分の位相との間の差を計算することと、
    前記第1の信号における前記計算された位相差に基づいて、前記第1の信号の前記複数の異なる周波数成分のうちの別の周波数成分のレベルと比較して、前記第1の信号の前記複数の異なる周波数成分のうちの少なくとも1つの周波数成分のレベルを減衰させることと
    を備え、
    前記減衰させることが、前記第1の信号内の前記指向性成分からのエネルギーをマスキングするために相補マスクを使用することを備える、
    請求項16に記載の装置。
  20. 前記第1の指向性選択的処理演算が、
    前記第1の信号の複数の異なる周波数成分の各々について、前記第1の信号の第1のチャネルにおける前記周波数成分の位相と、前記第1の信号の第2のチャネルにおける前記周波数成分の位相との間の差を計算することと、
    特定の基準を満たす前記計算された位相差の数に基づいて、前記指向性成分が前記第1の信号内でアクティブであるかどうかを示すことと
    を備える、請求項16に記載の装置。
  21. 前記残響除去演算を前記実行することが、前記拡張信号に基づく信号を用いて、時間領域において、前記計算された複数のフィルタ係数を畳み込むことを備える、請求項16から20のいずれか一項に記載の装置。
  22. 残響除去信号を生成するために前記拡張信号に対して残響除去演算を実行するための前記手段が、前記拡張信号に基づく信号を用いて、時間領域において、前記計算された複数のフィルタ係数を畳み込むように構成されたフィルタである、請求項16から20のいずれか一項に記載の装置。
  23. 前記第2の指向性選択的処理演算がブラインド音源分離演算である、請求項16から22のいずれか一項に記載の装置。
  24. 前記第2の指向性選択的処理演算がビームフォーミング演算である、請求項16から22のいずれか一項に記載の装置。
  25. 前記第2の指向性選択的処理演算が、
    前記第2の信号の複数の異なる周波数成分の各々について、前記第2の信号の第1のチャネルにおける前記周波数成分の位相と、前記第2の信号の第2のチャネルにおける前記周波数成分の位相との間の差を計算することと、
    特定の基準を満たす前記計算された位相差の数に基づいて、前記指向性成分が前記第2の信号内でアクティブであるかどうかを示すことと
    を備える、請求項16から22のいずれか一項に記載の装置。
  26. 前記装置が、前記マルチチャネル信号に対してブラインド音源分離演算を実行するための手段を備え、
    ブラインド音源分離演算を実行するための前記手段が、前記第1の指向性選択的処理演算を実行するための前記手段と、前記第2の指向性選択的処理演算を実行するための前記手段とを含み、
    前記第1の信号が前記マルチチャネル信号であり、前記第2の信号が前記マルチチャネル信号である、
    請求項16に記載の装置。
  27. 前記複数のフィルタ係数を計算するための前記手段が、前記生成された残差信号に自己回帰モデルを適合させるように構成された、請求項16から26のいずれか一項に記載の装置。
  28. 複数のフィルタ係数を計算するための前記手段が、前記複数のフィルタ係数を、前記生成された残差信号に基づく自己回帰モデルのパラメータとして計算するように構成された、請求項16から27のいずれか一項に記載の装置。
  29. 2キロヘルツから3キロヘルツの間の前記残響除去演算の平均利得応答が、300ヘルツから400ヘルツの間の前記残響除去演算の平均利得応答よりも少なくとも3デシベル大きい、請求項16から28のいずれか一項に記載の装置。
  30. 残響除去信号を生成するために前記拡張信号に対して残響除去演算を実行するための前記手段がフィルタであり、
    2キロヘルツから3キロヘルツの間の前記フィルタの平均利得応答が、300ヘルツから400ヘルツの間の前記フィルタの平均利得応答よりも少なくとも3デシベル大きい、
    請求項16から28のいずれか一項に記載の装置。
  31. 前記第1および第2の指向性選択的処理演算のうちの少なくとも1つについて、2000ヘルツから3000ヘルツまでの周波数レンジにわたる、方向に関する、前記演算の最小利得応答と前記演算の最大利得応答との間の絶対差が、300ヘルツから400ヘルツまでの周波数レンジにわたる、方向に関する、前記演算の最小利得応答と前記演算の最大利得応答との間の絶対差よりも大きい、請求項16から30のいずれか一項に記載の装置。
JP2012528858A 2009-09-07 2010-09-07 マルチチャネル信号の残響除去のためのシステム、方法、装置、およびコンピュータ可読媒体 Expired - Fee Related JP5323995B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US24030109P 2009-09-07 2009-09-07
US61/240,301 2009-09-07
US12/876,163 US20110058676A1 (en) 2009-09-07 2010-09-05 Systems, methods, apparatus, and computer-readable media for dereverberation of multichannel signal
US12/876,163 2010-09-05
PCT/US2010/048026 WO2011029103A1 (en) 2009-09-07 2010-09-07 Systems, methods, apparatus, and computer-readable media for dereverberation of multichannel signal

Publications (2)

Publication Number Publication Date
JP2013504283A JP2013504283A (ja) 2013-02-04
JP5323995B2 true JP5323995B2 (ja) 2013-10-23

Family

ID=43647782

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012528858A Expired - Fee Related JP5323995B2 (ja) 2009-09-07 2010-09-07 マルチチャネル信号の残響除去のためのシステム、方法、装置、およびコンピュータ可読媒体

Country Status (6)

Country Link
US (1) US20110058676A1 (ja)
EP (1) EP2476117A1 (ja)
JP (1) JP5323995B2 (ja)
KR (1) KR101340215B1 (ja)
CN (1) CN102625946B (ja)
WO (1) WO2011029103A1 (ja)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8199922B2 (en) * 2007-12-19 2012-06-12 Avaya Inc. Ethernet isolator for microphonics security and method thereof
EP2716069B1 (en) 2011-05-23 2021-09-08 Sonova AG A method of processing a signal in a hearing instrument, and hearing instrument
JP5699844B2 (ja) * 2011-07-28 2015-04-15 富士通株式会社 残響抑制装置および残響抑制方法並びに残響抑制プログラム
KR101609494B1 (ko) 2012-02-07 2016-04-05 엠파이어 테크놀로지 디벨롭먼트 엘엘씨 신호 향상
DE202013005408U1 (de) * 2012-06-25 2013-10-11 Lg Electronics Inc. Mikrophonbefestigungsanordnung eines mobilen Endgerätes
US9767818B1 (en) * 2012-09-18 2017-09-19 Marvell International Ltd. Steerable beamformer
US8938041B2 (en) * 2012-12-18 2015-01-20 Intel Corporation Techniques for managing interference in multiple channel communications system
US9183829B2 (en) 2012-12-21 2015-11-10 Intel Corporation Integrated accoustic phase array
US9191736B2 (en) * 2013-03-11 2015-11-17 Fortemedia, Inc. Microphone apparatus
US8896475B2 (en) 2013-03-15 2014-11-25 Analog Devices Technology Continuous-time oversampling pipeline analog-to-digital converter
DE112014003443B4 (de) * 2013-07-26 2016-12-29 Analog Devices, Inc. Mikrophonkalibrierung
TW201507489A (zh) * 2013-08-09 2015-02-16 Nat Univ Tsing Hua 利用陣列麥克風消除迴聲的方法
US9848260B2 (en) * 2013-09-24 2017-12-19 Nuance Communications, Inc. Wearable communication enhancement device
CN105981409B (zh) * 2014-02-10 2019-06-14 伯斯有限公司 会话辅助系统
US9312840B2 (en) 2014-02-28 2016-04-12 Analog Devices Global LC lattice delay line for high-speed ADC applications
WO2015150066A1 (en) 2014-03-31 2015-10-08 Sony Corporation Method and apparatus for generating audio content
CA2953619A1 (en) 2014-06-05 2015-12-10 Interdev Technologies Inc. Systems and methods of interpreting speech data
CN104144269B (zh) * 2014-08-08 2016-03-02 西南交通大学 一种基于解相关的成比例自适应电话回声消除方法
US9997170B2 (en) 2014-10-07 2018-06-12 Samsung Electronics Co., Ltd. Electronic device and reverberation removal method therefor
US9699549B2 (en) * 2015-03-31 2017-07-04 Asustek Computer Inc. Audio capturing enhancement method and audio capturing system using the same
US9762221B2 (en) 2015-06-16 2017-09-12 Analog Devices Global RC lattice delay
CN106935246A (zh) * 2015-12-31 2017-07-07 芋头科技(杭州)有限公司 一种基于麦克风阵列的人声获取方法及电子设备
CN105848061B (zh) * 2016-03-30 2021-04-13 联想(北京)有限公司 一种控制方法及电子设备
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
US10079027B2 (en) * 2016-06-03 2018-09-18 Nxp B.V. Sound signal detector
JP7095854B2 (ja) * 2016-09-05 2022-07-05 日本電気株式会社 端末装置およびその制御方法
US10375473B2 (en) * 2016-09-20 2019-08-06 Vocollect, Inc. Distributed environmental microphones to minimize noise during speech recognition
FR3067511A1 (fr) * 2017-06-09 2018-12-14 Orange Traitement de donnees sonores pour une separation de sources sonores dans un signal multicanal
US10171102B1 (en) 2018-01-09 2019-01-01 Analog Devices Global Unlimited Company Oversampled continuous-time pipeline ADC with voltage-mode summation
CN108564962B (zh) * 2018-03-09 2021-10-08 浙江大学 基于四面体麦克风阵列的无人机声音信号增强方法
WO2019223603A1 (zh) * 2018-05-22 2019-11-28 出门问问信息科技有限公司 一种语音处理方法、装置及电子设备
EP3573058B1 (en) * 2018-05-23 2021-02-24 Harman Becker Automotive Systems GmbH Dry sound and ambient sound separation
CN111726464B (zh) * 2020-06-29 2021-04-20 珠海全志科技股份有限公司 一种多通道回声滤除方法、滤除装置和可读存储介质
CN111798827A (zh) * 2020-07-07 2020-10-20 上海立可芯半导体科技有限公司 回声消除方法、装置、系统和计算机可读介质
CN112037813B (zh) * 2020-08-28 2023-10-13 南京大学 一种针对大功率目标信号的语音提取方法
CN112435685B (zh) * 2020-11-24 2024-04-12 深圳市友杰智新科技有限公司 强混响环境的盲源分离方法、装置、语音设备和存储介质
US11133814B1 (en) 2020-12-03 2021-09-28 Analog Devices International Unlimited Company Continuous-time residue generation analog-to-digital converter arrangements with programmable analog delay
CN112289326B (zh) * 2020-12-25 2021-04-06 浙江弄潮儿智慧科技有限公司 一种利用具有噪音去除的鸟类识别综合管理系统的噪音去除方法
CN113488067B (zh) * 2021-06-30 2024-06-25 北京小米移动软件有限公司 回声消除方法、装置、电子设备和存储介质
KR102628500B1 (ko) * 2021-09-29 2024-01-24 주식회사 케이티 대면녹취단말장치 및 이를 이용한 대면녹취방법

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09247788A (ja) * 1996-03-13 1997-09-19 Sony Corp 音声処理装置および会議用音声システム
US5774562A (en) * 1996-03-25 1998-06-30 Nippon Telegraph And Telephone Corp. Method and apparatus for dereverberation
JPH09261133A (ja) * 1996-03-25 1997-10-03 Nippon Telegr & Teleph Corp <Ntt> 残響抑圧方法および装置
US6898612B1 (en) * 1998-11-12 2005-05-24 Sarnoff Corporation Method and system for on-line blind source separation
JP2000276193A (ja) * 1999-03-24 2000-10-06 Matsushita Electric Ind Co Ltd 反復型エコー除去法を応用した信号源分離方法及びこの方法を記録した記録媒体
EP1230739B1 (en) * 1999-11-19 2016-05-25 Gentex Corporation Vehicle accessory microphone
ATE417483T1 (de) * 2000-02-02 2008-12-15 Bernafon Ag Schaltung und verfahren zur adaptiven geräuschunterdrückung
US6771723B1 (en) * 2000-07-14 2004-08-03 Dennis W. Davis Normalized parametric adaptive matched filter receiver
KR20040019339A (ko) * 2001-07-20 2004-03-05 코닌클리케 필립스 일렉트로닉스 엔.브이. 반향 억제기 및 확성기 빔 형성기를 구비한 사운드 보강시스템
US7359504B1 (en) * 2002-12-03 2008-04-15 Plantronics, Inc. Method and apparatus for reducing echo and noise
GB2403360B (en) * 2003-06-28 2006-07-26 Zarlink Semiconductor Inc Reduced complexity adaptive filter implementation
EP2068308B1 (en) * 2003-09-02 2010-06-16 Nippon Telegraph and Telephone Corporation Signal separation method, signal separation device, and signal separation program
US7099821B2 (en) * 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
US7352858B2 (en) * 2004-06-30 2008-04-01 Microsoft Corporation Multi-channel echo cancellation with round robin regularization
JP4173469B2 (ja) * 2004-08-24 2008-10-29 日本電信電話株式会社 信号抽出方法、信号抽出装置、拡声装置、送話装置、受信装置、信号抽出プログラム、これを記録した記録媒体
JP4473709B2 (ja) * 2004-11-18 2010-06-02 日本電信電話株式会社 信号推定方法、信号推定装置、信号推定プログラム及びその記録媒体
JP2006234888A (ja) * 2005-02-22 2006-09-07 Nippon Telegr & Teleph Corp <Ntt> 残響除去装置、残響除去方法、残響除去プログラムおよび記録媒体
JP4422692B2 (ja) * 2006-03-03 2010-02-24 日本電信電話株式会社 伝達経路推定方法、残響除去方法、音源分離方法、これらの装置、プログラム、記録媒体
JP4107613B2 (ja) * 2006-09-04 2008-06-25 インターナショナル・ビジネス・マシーンズ・コーポレーション 残響除去における低コストのフィルタ係数決定法
JP4854533B2 (ja) * 2007-01-30 2012-01-18 富士通株式会社 音響判定方法、音響判定装置及びコンピュータプログラム
JP4891805B2 (ja) * 2007-02-23 2012-03-07 日本電信電話株式会社 残響除去装置、残響除去方法、残響除去プログラム、記録媒体
US8160273B2 (en) 2007-02-26 2012-04-17 Erik Visser Systems, methods, and apparatus for signal separation using data driven techniques
EP2058804B1 (en) * 2007-10-31 2016-12-14 Nuance Communications, Inc. Method for dereverberation of an acoustic signal and system thereof
US8175291B2 (en) * 2007-12-19 2012-05-08 Qualcomm Incorporated Systems, methods, and apparatus for multi-microphone based speech enhancement

Also Published As

Publication number Publication date
KR20120054087A (ko) 2012-05-29
WO2011029103A1 (en) 2011-03-10
US20110058676A1 (en) 2011-03-10
CN102625946B (zh) 2013-08-14
JP2013504283A (ja) 2013-02-04
CN102625946A (zh) 2012-08-01
EP2476117A1 (en) 2012-07-18
KR101340215B1 (ko) 2013-12-10

Similar Documents

Publication Publication Date Title
JP5323995B2 (ja) マルチチャネル信号の残響除去のためのシステム、方法、装置、およびコンピュータ可読媒体
JP5307248B2 (ja) コヒーレンス検出のためのシステム、方法、装置、およびコンピュータ可読媒体
US8897455B2 (en) Microphone array subset selection for robust noise reduction
US7366662B2 (en) Separation of target acoustic signals in a multi-transducer arrangement
JP5410603B2 (ja) マルチチャネル信号の位相ベースの処理のためのシステム、方法、装置、およびコンピュータ可読媒体
KR101470262B1 (ko) 다중-마이크로폰 위치 선택적 프로세싱을 위한 시스템들, 방법들, 장치, 및 컴퓨터 판독가능 매체
US8175291B2 (en) Systems, methods, and apparatus for multi-microphone based speech enhancement
US20080208538A1 (en) Systems, methods, and apparatus for signal separation
US20080260175A1 (en) Dual-Microphone Spatial Noise Suppression
WO2007059255A1 (en) Dual-microphone spatial noise suppression
KALUVA Integrated Speech Enhancement Technique for Hands-Free Mobile Phones

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130531

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130618

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130717

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees