JP2013543987A - 遠距離場マルチ音源追跡および分離のためのシステム、方法、装置およびコンピュータ可読媒体 - Google Patents
遠距離場マルチ音源追跡および分離のためのシステム、方法、装置およびコンピュータ可読媒体 Download PDFInfo
- Publication number
- JP2013543987A JP2013543987A JP2013534943A JP2013534943A JP2013543987A JP 2013543987 A JP2013543987 A JP 2013543987A JP 2013534943 A JP2013534943 A JP 2013534943A JP 2013534943 A JP2013534943 A JP 2013534943A JP 2013543987 A JP2013543987 A JP 2013543987A
- Authority
- JP
- Japan
- Prior art keywords
- coefficients
- value set
- response
- signal
- sound source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 title claims description 102
- 230000004044 response Effects 0.000 claims abstract description 134
- 230000003044 adaptive effect Effects 0.000 claims abstract description 43
- 238000012545 processing Methods 0.000 claims abstract description 25
- 230000006978 adaptation Effects 0.000 claims description 70
- 230000006870 function Effects 0.000 claims description 26
- 230000009467 reduction Effects 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 description 53
- 238000010586 diagram Methods 0.000 description 50
- 238000004891 communication Methods 0.000 description 25
- 239000000243 solution Substances 0.000 description 24
- 101100401568 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) MIC10 gene Proteins 0.000 description 16
- 238000004422 calculation algorithm Methods 0.000 description 16
- 238000003491 array Methods 0.000 description 15
- 230000002452 interceptive effect Effects 0.000 description 14
- 238000002156 mixing Methods 0.000 description 14
- 230000000694 effects Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 11
- 238000001914 filtration Methods 0.000 description 9
- 230000003287 optical effect Effects 0.000 description 8
- 238000007781 pre-processing Methods 0.000 description 8
- 230000004913 activation Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 7
- 230000005236 sound signal Effects 0.000 description 7
- 238000012546 transfer Methods 0.000 description 7
- 238000012880 independent component analysis Methods 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 101001043818 Mus musculus Interleukin-31 receptor subunit alpha Proteins 0.000 description 5
- 238000013461 design Methods 0.000 description 5
- 238000012805 post-processing Methods 0.000 description 5
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 4
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 4
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 4
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 101000608720 Helianthus annuus 10 kDa late embryogenesis abundant protein Proteins 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000000835 fiber Substances 0.000 description 3
- 230000004807 localization Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 239000003855 balanced salt solution Substances 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 238000007493 shaping process Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 101100229939 Mus musculus Gpsm1 gene Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000004886 head movement Effects 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000033001 locomotion Effects 0.000 description 1
- 239000006249 magnetic particle Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 229920000642 polymer Polymers 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000004043 responsiveness Effects 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- FEPMHVLSLDOMQC-UHFFFAOYSA-N virginiamycin-S1 Natural products CC1OC(=O)C(C=2C=CC=CC=2)NC(=O)C2CC(=O)CCN2C(=O)C(CC=2C=CC=CC=2)N(C)C(=O)C2CCCN2C(=O)C(CC)NC(=O)C1NC(=O)C1=NC=CC=C1O FEPMHVLSLDOMQC-UHFFFAOYSA-N 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000002087 whitening effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
- H04R2430/23—Direction finding using a sum-delay beam-former
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
マルチチャネル信号処理のための装置は、推定音源方向でビームにより分離フィルタバンクを初期化すること、指定の制約下で分離フィルタバンクを適応させること、方向に対する最大応答に基づいて適応解を正規化することによって、様々な音響源から信号成分を分離する。そのような装置を使用して、マイクロフォンアレイの遠距離場において互いに近い音源から信号成分を分離することができる。
Description
米国特許法第119条に基づく優先権の主張
本特許出願は、2010年10月22日に出願され、本出願の譲受人に譲渡された「SYSTEMS,METHODS,APPARATUS,AND COMPUTER−READABLE MEDIA FOR FAR−FIELD MULTI−SOURCE TRACKING AND SEPARATION」と題する仮出願第61/405,922号の優先権を主張する。
本特許出願は、2010年10月22日に出願され、本出願の譲受人に譲渡された「SYSTEMS,METHODS,APPARATUS,AND COMPUTER−READABLE MEDIA FOR FAR−FIELD MULTI−SOURCE TRACKING AND SEPARATION」と題する仮出願第61/405,922号の優先権を主張する。
本開示は、オーディオ信号処理に関する。
一般的構成によるマルチチャネル信号を処理するための装置は、(A)マルチチャネル信号に基づく第1の信号に複数の第1の係数を適用して、第1の出力信号を生成するように構成された第1のフィルタと、(B)マルチチャネル信号に基づく第2の信号に複数の第2の係数を適用して、第2の出力信号を生成するように構成された第2のフィルタとを有するフィルタバンクを含む。本装置は、第1の音源方向に基づいて、複数の第1の係数の初期値セット(initial set of values)を生成するように、また第1の音源方向とは異なる第2の音源方向に基づいて、複数の第2の係数の初期値セットを生成するように構成されたフィルタ方位モジュールも含む。本装置は、複数の応答に基づいて、指定の特性を有する応答を特定し、指定の特性を有する前記応答に基づいて複数の第1の係数の初期値セットを更新するように構成されたフィルタ更新モジュールも含む。本装置において、前記複数の応答の各応答は、複数の方向のうちの対応する1つにおける応答である。
図3A〜図3C、図4、図5、図8〜図10および図21、ならびに図26A〜図26Cのプロットは、元の図に表示されていた情報の一部のみを提示する疑似カラー図のグレースケールマッピングであることに留意されたい。これらの図では、元の中央値は白にマッピングされ、元の最小値および最大値はいずれも黒にマッピングされる。
ビームフォーミングのためのデータ独立型方法は、様々な音源から(たとえば、所望の音源から、また干渉音源から)到来する音響成分を、それぞれの音源の方向の推定に基づいて分離するマルチチャネル信号処理において一般に有用である。しかしながら、音源方向推定およびビームフォーミングの既存の方法は、遠くの音源から到来する音響成分を確実に分離するには通常不十分であり、とりわけ、所望の信号および干渉信号が類似の方向から到来する場合はなおさらである。開ループビームフォーミング解のみではなく、空間フィルタ処理演算の実際の分離出力からの情報に基づく適応解を使用するのが望ましいことがある。残念ながら、十分なレベルの区別をもたらす適応解は、長い収束期間を有し得る。長い収束期間を有する解は、動いていることおよび/または互いに極めて接近していることのある遠くの音源を伴うリアルタイム適用にとって非実用的であり得る。
遠くの音源からの信号はまた、残響の問題を抱えている可能性が高く、適応アルゴリズムは、分離信号にさらなる残響をもたらすことがある。既存の音声残響除去方法は逆フィルタ処理を含み、これは、音源信号(たとえば音声)のスペクトルを白色化せずに室内インパルス応答を反転させようとする。しかしながら、室内伝達関数は音源位置に大きく依存する。したがって、そのような方法は一般に、室内インパルス伝達関数のブラインド反転を必要とし、これは音声の著しい歪みにつながり得る。
たとえば、室内で、かつ/または干渉音源がある状況下で使用されるデバイスの音声品質を向上させるために使用され得る残響除去および/または干渉除去システムを提供するのが望ましいことがある。そのようなシステムの適用例には、セットトップボックス、または電話のような音声通信アプリケーションをサポートするように構成された他のデバイスがある。所望の音源の方向と干渉音源の方向との差異が小さくなるにつれて、競合する解に対する本明細書で説明する解のパフォーマンスの優位性は増すと予想され得る。
その文脈によって明確に限定されない限り、「信号」という用語は、本明細書では、ワイヤ、バス、または他の伝送媒体上に表されたメモリ位置(またはメモリ位置のセット)の状態を含む、その通常の意味のいずれをも示すのに使用される。その文脈によって明確に限定されない限り、「発生(generating)」という用語は、本明細書では、計算(computing)または別様の生成(producing)など、その通常の意味のいずれをも示すのに使用される。その文脈によって明確に限定されない限り、「計算(calculating)」という用語は、本明細書では、複数の値からの計算(computing)、評価、平滑化、および/または選択など、その通常の意味のいずれをも示すのに使用される。その文脈によって明確に限定されない限り、「取得(obtaining)」という用語は、計算、導出、(たとえば、外部デバイスからの)受信、および/または(たとえば、記憶要素のアレイからの)検索など、その通常の意味のいずれをも示すのに使用される。その文脈によって明確に限定されない限り、「選択(selecting)」という用語は、2つ以上のセットのうちの少なくとも1つ、およびすべてよりも少数を識別、指示、適用、および/または使用することなど、その通常の意味のいずれをも示すのに使用される。「備える(comprising)」という用語は、本明細書および特許請求の範囲において使用される場合、他の要素または動作を除外するものではない。「に基づく」(「AはBに基づく」など)という用語は、(i)「から導出される」(たとえば、「BはAのプリカーサーである」)、(ii)「少なくとも〜に基づく」(たとえば、「Aは少なくともBに基づく」)、および特定の文脈で適当な場合に、(iii)「に等しい」(たとえば、「AはBに等しい」)という場合を含む、その通常の意味のいずれをも示すのに使用される。同様に、「に応答して」という用語は、「少なくとも〜に応答して」を含む、その通常の意味のいずれをも示すのに使用される。
マルチマイクロフォンオーディオ感知デバイスのマイクロフォンの「ロケーション」への言及は、文脈によって別段に規定されていない限り、マイクロフォンの音響的に敏感な面の中心のロケーションを示す。「チャネル」という用語は、特定の文脈に応じて、時々、信号経路を示すのに使用され、また他のときには、そのような経路によって搬送される信号を示すのに使用される。別段に規定されていない限り、「一連」という用語は、2つ以上のアイテムのシーケンスを示すのに使用される。「対数」という用語は、10を底とする対数を示すのに使用されるが、他の底へのそのような演算の拡張は本開示の範囲内である。「周波数成分」という用語は、(たとえば、高速フーリエ変換によって生成される)信号の周波数領域表現のサンプル、あるいは信号のサブバンド(たとえば、バーク尺度またはメル尺度サブバンド)など、信号の周波数または周波数帯域のセットのうちの1つを示すのに使用される。
別段に規定されていない限り、特定の特徴を有する装置の動作のいかなる開示も、類似の特徴を有する方法を開示する(その逆も同様)ことをも明確に意図し、特定の構成による装置の動作のいかなる開示も、類似の構成による方法を開示する(その逆も同様)ことをも明確に意図する。「構成」という用語は、その特定の文脈によって示されるように、方法、装置、および/またはシステムに関して使用され得る。「方法」、「プロセス」、「プロシージャ」、および「技法」という用語は、特定の文脈によって別段に規定されていない限り、一般的、互換的に使用される。「装置」および「デバイス」という用語も、特定の文脈によって別段に規定されていない限り、一般的、互換的に使用される。「要素」および「モジュール」という用語は、一般に、より大きい構成の一部分を示すのに使用される。その文脈によって明確に限定されない限り、「システム」という用語は、本明細書では、「共通の目的を果たすために相互作用する要素のグループ」を含む、その通常の意味のいずれをも示すのに使用される。また、文書の一部分の参照によるいかなる組込みも、その部分内で参照される用語または変数の定義が、その文書中の他の場所、ならびに組み込まれた部分中で参照される図に現れた場合、そのような定義を組み込んでいることを理解されたい。定冠詞によって最初に導入されない限り、請求要素を変更するのに使用される順序を示す用語(たとえば、「第1の」、「第2の」、「第3の」など)は、それ自体、別のものに関する請求要素の優先順位または順序を示しておらず、請求要素を、(順序を示す用語の使用を別にすれば)同じ名前を有する別の請求要素から区別しているだけである。その文脈によって明確に限定されない限り、「複数」という用語は、1よりも大きい整数の量を示すために本明細書で使用される。
遠距離場オーディオ処理(たとえば音声強調)の適用は、1つまたは複数の音源が録音デバイスからかなりの距離(たとえば2メートル以上の距離)に位置するときに生じ得る。テレビジョンディスプレイを伴う多くの適用では、たとえば、ソファーに座り、テレビを見る、ビデオゲームをする、音楽ビデオゲームと対話するなどの活動をしている話者は通常、ディスプレイから少なくとも2メートル離れたところに位置する。
遠距離場使用事例の第1の例では、いくつかの異なる音源を含む音響シーンの記録を分解して、個別の音源のうちの1つまたは複数からそれぞれの音響成分を取得する。たとえば、様々な音源(たとえば、様々な声および/または楽器)からの音声が分離されるように、生の音楽演奏を記録するのが望ましいことがある。別のそのような例では、「ロックバンド」タイプのビデオゲームのようなビデオゲームの2人以上の異なるプレーヤからの音声入力(たとえば、命令および/または歌唱)を区別するのが望ましいことがある。
遠距離場使用事例の第2の例では、マルチマイクロフォンデバイスを使用して、(「ズームインマイクロフォン(zoom-in microphone)」とも呼ばれる)ビューの音場を狭めることによって遠距離場音声強調を実行する。カメラを通じてシーンを見ているユーザは、カメラのレンズのズーム機能を使用して、たとえば、個々の話者または他の音源に対するビューの視界を選択的に拡大縮小することができる。相補的音響「ズームイン」効果をもたらすために、視覚的ズーム動作と同期して、記録される音響領域も被選択音源に狭められるように、カメラを実装するのが望ましいことがある。
遠距離場使用事例の第3の例では、マイクロフォンアレイがテレビ受像機に(たとえば、スクリーンの上端に沿って)またはセットトップボックスに取り付けられた録音システムは、(図32Aおよび図32Bに示すように)約2〜3メートル離れてソファーに隣り合わせに座っているユーザを区別するように構成される。たとえば、肩と肩が触れ合って座っている話者の声を区別するのが望ましいことがある。そのようなオペレーションは、(室内に散乱した音声ではなく)聞き手の前に話者が立っている聴感印象をもたらすように設計され得る。そのような使用事例のアプリケーションには、電話および音声作動遠隔制御装置(たとえば、テレビジョンチャンネル、ビデオソース、および/または音量調節設定の間の音声制御選択用)がある。
遠距離場音声強調の適用は固有の問題を示している。これらの遠距離場使用事例では、音源とトランスデューサとの間の距離が拡大すると、特にオフィス、家庭もしくは車内または別の密閉空間内に被記録信号の強い残響が生じる傾向がある。音源位置が不確かであることも、遠距離場適用に特有のロバストな解が必要である理由となっている。所望の話者とマイクロフォンとの間の距離は大きいので、直接経路対残響比は小さく、音源位置を特定するのは難しい。また、遠距離場使用事例において、低周波フォルマント合成(low-frequency formant synthesis)および/または高周波ブーストのような追加の音声スペクトル整形を実行して、室内ローパスフィルタ処理効果のような効果と低周波数における強い残響力とを弱めるのが望ましいこともある。
特定の遠くの音源から到来する音響成分を区別することは、単にビームパターンを特定の方向に狭めることではない。ビームパターンの空間幅が、フィルタの規模を拡大することによって(たとえば、より長い初期係数値セットを使用してビームパターンを定義することによって)狭められ得るが、音源の単一の到来方向にのみ依存すると、実際にはフィルタが音源エネルギーの大部分を逃すことになり得る。残響などの影響により、たとえば、音源信号は通常、異なる周波数においてやや異なる方向から到来し、結果的に、遠くの音源の到来方向は一般にはっきりしない。したがって、信号のエネルギーは、特定の方向に集中するのではなく、角度範囲にわたって拡散することがあり、特定の音源の到来角を、単一の方向におけるピークではなく周波数範囲にわたる重心として特徴付けるのがより有用であり得る。
フィルタのビームパターンが、単一の方向(たとえば、任意の1つの周波数における最大エネルギーによって示される方向)だけでなく、異なる周波数における方向の集中の範囲をカバーするのが望ましいことがある。たとえば、ビームが、様々な対応周波数において、そのような集中の範囲内で、若干異なる方法に向くことができるのが望ましいことがある。
適応ビームフォーミングアルゴリズムを使用して、1つの周波数における特定の方向での最大応答と、別の周波数における異なる方向での最大応答とを有するフィルタを取得することができる。適応ビームフォーマは一般に、正確なボイスアクティビティ検出に依存するが、これは遠距離場の話者にとって達成するのが難しい。そのようなアルゴリズムはまた、所望の音源からの信号と干渉音源からの信号とが類似のスペクトルを有するとき(たとえば、2つの音源の両方が人々の話声であるとき)パフォーマンスが芳しくないことがある。適応ビームフォーマの代替としてブラインド音源分離(BSS)解を使用して、1つの周波数における特定の方向での最大応答と、別の周波数における異なる方向での最大応答とを有するフィルタを取得することもできる。しかしながら、そのようなアルゴリズムは、遅い収束、極小値への収束、および/またはスケーリングのあいまいさを示すことがある。
良好な初期条件を提供するデータ独立型、開ループ手法(たとえば、MVDRビームフォーマ)を、ボイスアクティビティ検出器を使用せずに出力間の相関を最小限に抑える閉ループ方法(たとえば、BSS)と組み合わせて、改良されたロバストな分離解を提供するのが望ましいことがある。BSS方法は経時的に適応を実行するので、残響環境においてもロバストな解を生成することが期待され得る。
ヌルビームを使用してフィルタを初期化する既存のBSS初期化手法とは対照的に、本明細書で説明する解は、音源ビームを使用してフィルタを初期化し、指定の音源方向に集中する。そのような初期化なしに、BSS方法がリアルタイムで有用な解に適応することを期待するのは現実的でないことがある。
図1Aは、一般的構成による装置A100のブロック図を示しており、装置A100は、フィルタバンクBK10と、フィルタ方位モジュールOM10と、フィルタ更新モジュールUM10とを含み、マルチチャネル信号(この例では入力チャネルMCS10−1およびMCS10−2)を受信するように構成される。フィルタバンクBK10は、マルチチャネル信号に基づく第1の信号に複数の第1の係数を適用して、第1の出力信号OS10−1を生成するように構成される。フィルタバンクBK10はまた、マルチチャネル信号に基づく第2の信号に複数の第2の係数を適用して、第2の出力信号OS10−2を生成するように構成される。フィルタ方位モジュールOM10は、第1の音源方向DA10に基づく複数の第1の係数の初期値セットCV10を生成し、第1の音源方向DA10とは異なる第2の音源方向DA20に基づく複数の第2の係数の初期値セットCV20を生成するように構成される。フィルタ更新モジュールUM10は、第1および第2の出力信号からの情報に基づき、複数の第1および第2の係数の初期値セットを更新して、対応する更新値セット(updated set of values)UV10およびUV20を生成するように構成される。
音源方向DA10およびDA20の各々が、入力チャネルMCS10−1およびMCS10−2を生成するマイクロフォンアレイに対する(たとえば、アレイのマイクロフォンの軸に対する)対応する音源の推定方向を示すのが望ましいことがある。図1Bは、デバイスD10のブロック図を示しており、デバイスD10は、マイクロフォンアレイR100と、アレイから(たとえば、入力チャネルMCS10−1およびMCS10−2を含む)マルチチャネル信号MCS10を受信するように構成された装置A100のインスタンスとを含む。図1Cは、点音源jから受信した信号成分の、アレイR100のマイクロフォンMC10およびMC20の軸に対する到来方向θjを示している。アレイの軸は、マイクロフォンの音響的に敏感な面の中心を通る線として定められている。この例では、標示dは、マイクロフォンMC10とマイクロフォンMC20との間の距離を示している。
フィルタ方位モジュールOM10は、ビームフォーミングアルゴリズムを実行して、それぞれの音源方向DA10、DA20におけるビームを記述した初期係数値セットCV10、CV20を発生させるように実装され得る。ビームフォーミングアルゴリズムの例には、DSB(遅延和ビームフォーミング)、LCMV(線形制約最小分散)、およびMVDR(最小分散無歪み応答)がある。一例では、フィルタ方位モジュールOM10は、次のようなデータ独立式に従って、各フィルタが他の音源方向におけるゼロ応答(またはヌルビーム)を有するように、ビームフォーマのN×M係数行列Wを計算するように実装される。
これらの例では、Nは、出力チャネルの数を示し、Mは入力チャネルの数(たとえば、マイクロフォンの数)を示し、Φは、雑音の正規化クロスパワースペクトル密度行列を示し、D(ω)は、(指向性行列とも呼ばれる)M×Nアレイマニホルド行列を示し、上付き文字Hは共役転置関数を示している。通常、MはN以上である。
係数行列Wの各行は、フィルタバンクBK10の対応するフィルタの係数の初期値を定める。一例では、係数行列Wの第1の行は初期値CV10を定め、係数行列Wの第2の行は初期値CV20を定める。別の例では、係数行列Wの第1の行は初期値CV20を定め、係数行列Wの第2の行は初期値CV10を定める。
この式において、iは虚数を示し、cは媒体における音声の伝播速度(たとえば、空中で340m/秒)を示し、θjは、図1Cに示す到来入射角としてマイクロフォンアレイの軸に対する音源jの方向(たとえば、j=1の方向DA10およびj=2の方向DA20)を示し、pos(m)はM個のマイクロフォンからなるアレイにおけるm番目のマイクロフォンの空間的座標を示している。マイクロフォン間の均一間隔dを有するマイクロフォンの線形アレイの場合、係数pos(m)は、(m−1)dと表され得る。
ここでdijは、マイクロフォンiとマイクロフォンjとの間の距離を示している。さらなる一例では、行列Φは、(Γ+λ(ω)I)に置き換えられ、ここでλ(ω)は、(たとえば安定性に関する)対角線ローディング係数である。
一般に、フィルタバンクBK10の出力チャネルの数Nは、入力チャネルの数M以下である。図1Aは、Nの値が2である(すなわち、2つの出力チャネルOS10−1およびOS10−2を有する)装置A100の一実装形態を示しているが、NおよびMは2よりも大きい値(たとえば、3、4、またはより大きい値)を有してよいことを理解されたい。そのような一般的な場合において、フィルタバンクBK10は、N個のフィルタを含むように実装され、フィルタ方位モジュールOM10は、これらのフィルタのためにN個の対応する初期係数値セットを生成するように実装され、これらの原理のそのような拡張は、明示的に企図され、本明細書によって開示される。
たとえば、図2は、NもMも値が4である装置A100の実装形態A110のブロック図を示している。装置A110は、フィルタバンクBK10の実装形態BK12を含み、BK12は、4つのフィルタを含み、各フィルタは、入力チャネルMCS10−1、MCS10−2、MCS10−3、およびMCS10−4の各々をフィルタ処理して、出力信号(またはチャネル)OS10−1、OS10−2、OS10−3、およびOS10−4のうちの対応する1つを生成するように構成される。装置A100はまた、フィルタバンクBK12のフィルタ用に初期係数値セットCV10、CV20、CV30、およびCV40を生成するように構成された、フィルタ方位モジュールOM10の実装形態OM12と、初期係数値セットを適応させて、対応する更新値セットUV10、UV20、UV30、およびUV40を生成するように構成された、フィルタ適応モジュールAM10の実装形態AM12とを含む。
図3Aは、MVDRビームフォーミングアルゴリズム(たとえば、上の式(1))による、フィルタの係数値がフィルタ方位モジュールOM10によって発生する場合における、(ビームパターンとも呼ばれる)入射角と周波数ビンとを対比したフィルタバンクBK10のフィルタの初期応答のプロットを示している。この応答は入射角ゼロ(たとえば、マイクロフォンアレイの軸の方向)を中心として対称的であることが確認され得る。図3Bおよび図3Cは、2つの異なる初期条件セット(たとえば、所望の音源からの音声および干渉音源からの音声の異なる推定到来方向セット)におけるこのビームパターンの変形を示している。これらの図では、高および低の利得応答振幅(たとえば、ビームおよびヌルビーム)が黒で示され、中域の利得応答振幅が白で示され、ビームおよびヌルビームのおおよその方向がそれぞれ太い実線および破線で示されている。
特定の適用例に適していると考えられる指向性とサイドローブ発生との折衷に従って選択されたビームフォーマ設計により、係数値CV10およびCV20を生成するようにフィルタ方位モジュールOM10を実装するのが望ましいことがある。上記の例は、周波数領域ビームフォーマ設計について説明しているが、時間領域ビームフォーマ設計に従って係数値セットを生成するように構成されるフィルタ方位モジュールOM10の代替実装形態も、明確に企図され、本明細書によって開示されている。
フィルタ方位モジュールOM10は、(たとえば、上述のようにビームフォーミングアルゴリズムを実行することによって)係数値CV10およびCV20を発生させるように、またはストレージから係数値CV10およびCV20を取り出すように実装され得る。たとえば、フィルタ方位モジュールOM10は、音源方向(たとえば、DA10およびDA20)に従って事前計算された値(たとえばビーム)セットの中から選択することによって、初期係数値セットを生成するように実装され得る。そのような事前計算された係数値セットをオフラインで計算して、対応する所望の分解能における方向および/または周波数の所望の範囲をカバーすることができる(たとえば、0度、20度、または30度から150度、160度、または180度までの範囲における、5度、10度、または20度の各間隔の異なる係数値セット)。
フィルタ方位モジュールOM10によって生成される初期係数値(たとえば、CV10およびCV20)は、音源信号間における所望のレベルの分離をもたらすようにフィルタバンクBK10を構成するには十分でないことがある。これらの初期値が依拠する推定音源方向(たとえば、方向DA10およびDA20)が完全に正確であったとしても、フィルタを一定の方向にステアリングするだけでは、アレイからから遠く離れた音源間の最良の分離、または特定の離れた音源への最良の集中は実現しないことがある。
フィルタ更新モジュールUM10は、第1および第2の出力信号OS10−1およびOS10−2からの情報に基づいて、第1および第2の係数の初期値CV10およびCV20を更新して、対応する更新値セットUV10およびUV20を生成するように構成される。たとえば、フィルタ更新モジュールUM10は、これらの初期係数値が記述するビームパターンを適応させるために適応BSSアルゴリズムを実行するように実装され得る。
BSS方法は、Yj(ω,l)=W(ω)Xj(ω,l)のような式に従って様々な音源から、統計的に独立した信号成分を分離する。この式において、Xjは周波数領域における入力(混成)信号のj番目のチャネルを示し、Yjは周波数領域における出力(分離)信号のj番目のチャネルを示し、ωは周波数ビンインデックスを示し、lは時間フレームインデックスを示し、Wはフィルタ係数行列を示している。一般に、BSS方法は、次のような式による逆混合行列Wの経時的適応として説明され得る。
ここでrは適応間隔(または更新レート)パラメータを示し、μは適応速度(または学習レート)係数を示し、Iは恒等行列を示し、上付き文字Hは共役転置関数を示し、Φは活性化関数を示し、括弧〈 〉は(たとえば、フレームlからl+L−1にわたるものであって、Lは一般にr以下である)時間平均化演算を示している。一例では、μの値は0.1である。式(2)はBSS学習ルールまたはBSS適応ルールとも呼ばれる。活性化関数Φは一般に、所望の信号の累積密度関数に近似するように選択され得る非線形有界関数である。そのような方法に使用できる活性化関数Φの例には、双曲正接関数、シグモイド関数、および符号関数がある。
フィルタ更新モジュールUM10は、本明細書で説明するBSS方法に従い、フィルタ方位モジュールOM10によって生成された係数値(たとえば、CV10およびCV20)を適応させるように実装され得る。そのような場合、出力信号OS10−1およびOS10−2は、周波数領域信号Yのチャネル(たとえば、それぞれ第1のチャネルおよび第2のチャネル)であり、係数値CV10およびCV20は、逆混合行列Wの対応する行(たとえば、それぞれ第1の行および第2の行)の初期値であり、適応値は、適応後の逆混合行列Wの対応する行(たとえば、それぞれ第1の行および第2の行)によって定められる。
周波数領域における適応のためのフィルタ更新モジュールUM10の一般的な実装形態では、逆混合行列Wは、有限インパルス応答(FIR)多項式行列である。そのような行列は、要素としてFIRフィルタの周波数変換(たとえば、離散フーリエ変換)を有する。時間領域における適応のためのフィルタ更新モジュールUM10の一般的な実装形態では、逆混合行列WはFIR行列である。そのような行列は要素としてFIRフィルタを有する。そのような場合、各初期係数値セット(たとえば、CV10およびCV20)は、一般に複数のフィルタを記述することが理解されよう。たとえば、各初期係数値セットは、逆混合行列Wの対応する行の各要素のフィルタを記述し得る。周波数領域実装形態の場合、各初期係数値セットは、マルチチャネル信号の周波数ビンごとに、逆混合行列Wの対応する行の各要素のフィルタの変換を記述し得る。
BSS学習ルールは一般に、出力信号間の相関を減らすように設計される。たとえば、BSS学習ルールは、出力信号間の相互情報量を最小限に抑えるように、出力信号の統計的独立性を高めるように、または出力信号のエントロピーを最大化するように選択され得る。一例では、フィルタ更新モジュールUM10は、独立成分分析(ICA)として知られているBSS方法を実行するように実装される。そのような場合、フィルタ更新モジュールUM10は、上記のような活性化関数、またはたとえば、活性化関数Φ(Yj(ω,l))=Yj(ω,l)/|Yj(ω,l)|を使用するように構成され得る。周知のICA実装形態の例には、Infomax、FastICA(www−dot−cis−dot−hut−dot−fi/projects/ica/fasticaでオンライン入手可能)、およびJADE(Joint Approximate Diagonalization of Eigenmatrices)がある。
スケーリングおよび周波数置換は、BSSにおいて一般に遭遇する2つのあいまいな点である。フィルタ方位モジュールOM10によって生成される初期ビームは置換されないが、そのようなあいまいさは、ICAの場合に適応中に生じ得る。置換されない解を維持するために、代わりに、周波数ビン間の予想される依存性をモデル化するソースプライアを使用する複素ICAの一変形である独立ベクトル解析(IVA)を使用するようにフィルタ更新モジュールUM10を構成することが望ましいことがある。本方法では、活性化関数Φは、Φ(Yj(ω,l))=Yj(ω,l)/(Σω|Yj(ω,l)|p)1/pのような多変量活性化関数であり、この式において、pは1以上の整数値(たとえば、1、2、または3)を有する。この関数において、分母の項は、すべての周波数ビンにわたる分離された音源スペクトルに関係する。この場合、置換のあいまいさは解決される。
結果として生じる適応係数値によって定義されるビームパターンは、単純ではなく複雑に見える。そのようなパターンは、遠くの音源の分離には一般に不十分である初期係数値CV10およびCV20によって定義されるビームパターンよりも優れた分離をもたらすと予想され得る。たとえば、10〜12dBから18〜20dBへの干渉除去の増大が観測されている。適応係数値によって表される解はまた、マイクロフォン応答(たとえば、利得および/または位相応答)の不一致に対し、開ループビームフォーミング解よりもロバストであると予想され得る。
図4は、フィルタバンクBK12の一例における4つのフィルタの各々に関する(たとえば、フィルタ更新モジュールUM10によって、それぞれ係数値セットCV10、CV20、CV30、およびCV40を適応させることによって取得された値によって定義された)ビームパターンを示している。この場合、2つの指向性音源がアレイから2.5メートルのところで、アレイに対して互いから約40〜60度離れたところに位置する。図5は、2つの指向性音源がアレイから2.5メートルのところで、アレイに対して互いから約15度離れたところに位置する別の場合におけるこれらのフィルタのビームパターンを示している。これらの図では、高および低の利得応答振幅(たとえば、ビームおよびヌルビーム)が黒で示され、中域の利得応答振幅が白で示され、ビームおよびヌルビームのおおよその方向がそれぞれ太い実線および破線で示されている。図6は、フィルタバンクBK10の2チャネル実装形態における適応フィルタのうちの1つについて別の観点からビームパターンの一例を示している。
上記の例は、周波数領域におけるフィルタ適応について説明しているが、時間領域における係数値セットを更新するように構成されるフィルタ更新モジュールUM10の代替実装形態も、明確に企図され、本明細書によって開示されている。時間領域BSS方法は、置換のあいまいさの影響を受けないが、一般に、周波数領域BSS方法よりも長いフィルタの使用を伴い、実際には扱いにくいことがある。
BSS方法を使用して適応するフィルタは一般に、良好な分離を達成するが、そのようなアルゴリズムも、特に音源が遠くにある場合に、分離信号にさらなる残響をもたらす傾向がある。特定の到来方向において単位利得を強制する幾何学的制約を追加することによって、適応BSS解の空間的応答を制御するのが望ましいことがある。しかしながら、上述のように、単一の到来方向に対してフィルタ応答を調整するのは、残響環境では不十分であり得る。さらに、BSS適応において(ヌルビーム方向ではなく)ビーム方向を強制しようとすると、問題が生じかねない。
フィルタ更新モジュールUM10は、方向に対する適応値セット(adapted set of values)の特定された応答に基づいて、複数の第1の係数の適応値セットおよび複数の第2の係数の適応値セットのうちの少なくとも1つを調整するように構成される。この特定された応答は、指定の特性を有する応答に基づいており、異なる周波数において異なる値を有し得る。一例では、特定された応答は、最大応答である(たとえば、指定の特性は最大値である)。調整される係数セットjごとに、また調整される範囲内の各周波数ωおいて、たとえば、この最大応答Rj(ω)は、次のような式により、その周波数における適応セットの複数の応答のうちの最大値として表され得る。
ここでWは、適応値の行列(たとえば、FIR多項式行列)であり、Wjmは、行jおよび列mにおける行列Wの要素を示し、列ベクトルDθ(ω)の各要素mは、次の式で表され得る距離θの遠距離場音源から受信した信号に関する周波数ωにおける位相遅延を示している。
別の例では、特定された応答は、最小応答(たとえば、各周波数における適応セットの複数の応答の中の最小値)である。
一例では、式(3)は、範囲[−π,+π]においてθの64個の均一に離間した値について評価される。他の例では、式(3)は、θの異なる数の値(たとえば、16個または32個の均一に離間した値、5度または10度の増分による値、など)について、不均一な間隔で(たとえば、横方向の範囲において、縦方向における範囲よりも高い分解能で、またはその逆)、かつ/または異なる関心領域で(たとえば、[−π,0]、[−π/2,+π/2]、[−π,+π/2])評価され得る。均一のマイクロフォン間の間隔dを有するマイクロフォンの線形アレイの場合、係数pos(m)は(m−1)dと表すことができ、それにより、ベクトルDθ(ω)の各要素mは次のように表すことができる。
式(3)が最大値を有する方向θの値は、周波数ωの値が異なる場合には異なると予想され得る。音源方向(たとえば、DA10および/またはDA20)は、式(3)が評価されるθの値の中に含まれてよく、あるいは、それらの値とは別個であってもよい(たとえば、音源方向が、式(3)が評価されるθの値の隣接するものの間の角度を示している場合)ことに留意されたい。
図7Aは、フィルタ更新モジュールUM10の実装形態UM20のブロック図を示している。フィルタ更新モジュールUM10は、出力信号OS10−1およびOS10−2からの情報に基づいて係数値CV10および係数値CV20を適応させて、対応する適応値セットAV10およびAV20を生成するように構成された適応モジュールAPM10を含む。たとえば、適応モジュールAPM10は、本明細書で説明するBSS方法のいずれか(たとえば、ICA、IVA)を実行するように実装され得る。
フィルタ更新モジュールUM20はまた、調整モジュールAJM10を含み、調整モジュールAJM10は、(たとえば、上記の式(3)による)方向に対する適応値セットAV10の最大応答に基づいて、適応値AV10を調整して、更新値セットUV10を生成するように構成される。この場合、フィルタ更新モジュールUM20は、更新値UV20としてそのような調整をせずに適応値AV20を生成するように構成される。(本明細書で開示する構成の範囲は、係数値CV20が適応せず、調整されないという点で、装置A100とは異なる装置も含むことに留意されたい。そのような構成は、たとえば、信号が残響をほとんどまたはまったく伴わずに直接経路を介して対応する音源から到来する状況で使用され得る。)
調整モジュールAJM10は、適応値セットを、方向に対する各周波数における所望の利得応答(たとえば、最大の単位利得応答)を有するようにセットを正規化することによって調整するように実装され得る。そのような場合、調整モジュールAJM10は、適応係数値セットj(たとえば、適応値AV10)の各値を、セットの最大応答Rj(ω)で割って、対応する更新係数値セット(たとえば、更新値UV10)を取得するように実装され得る。
調整モジュールAJM10は、適応値セットを、方向に対する各周波数における所望の利得応答(たとえば、最大の単位利得応答)を有するようにセットを正規化することによって調整するように実装され得る。そのような場合、調整モジュールAJM10は、適応係数値セットj(たとえば、適応値AV10)の各値を、セットの最大応答Rj(ω)で割って、対応する更新係数値セット(たとえば、更新値UV10)を取得するように実装され得る。
所望の利得応答が単位利得応答以外である場合、調整モジュールAJM10は、適応値および/または正規化値に利得係数を適用することを調整演算が含むように実装可能であり、ここで、利得係数値の値が周波数とともに変化して、所望の利得応答を記述する(たとえば、音源のピッチ周波数のハーモニックを選好し、かつ/または干渉物によって支配され得る1つもしくは複数の周波数を減衰させる)。特定された応答が最小応答である場合、調整モジュールAJM10は、適応セットを、(たとえば、各周波数の)最小応答を減算することによって、または方向に対する各周波数における所望の利得応答(たとえば、最小のゼロの利得応答)を有するようにセットを再マッピングすることによって調整するように実装され得る。
係数値セットのうちの2つ以上について、また場合によってはすべてについて(たとえば、少なくとも、位置特定された音源に関連しているフィルタについて)そのような正規化を実行するように調整モジュールAJM10を実装するのが望ましいことがある。図7Bは、調整モジュールAJM10の実装形態AJM12を含むフィルタ更新モジュールUM20の実装形態UM22のブロック図を示しており、AJM12はまた、方向に対する適応値セットAV20の最大応答に基づいて適応値AV20を調整して、更新値セットUV20を生成するように構成される。
そのようなそれぞれの調整は、追加の適応フィルタに(たとえば、適応行列Wの他の行に)同じ方法で拡張され得ることを理解されたい。たとえば、図2に示すフィルタ更新モジュールUM12は、4つの係数値セットCV10、CV20、CV30、およびCV40を適応させて、4つの対応する適応値セットを生成するように構成された適応モジュールAPM10の一実装形態と、対応する適応値セットの最大応答に基づいて、更新値セットUV30およびUV40の一方または両方の各々を生成するように構成された調整モジュールAJM12の一実装形態とを含むように、フィルタ更新モジュール22の一実装形態として構成され得る。
従来のオーディオ処理解は、雑音基準の計算と、計算された雑音基準を適用する後処理ステップとを含み得る。本明細書で説明する適応解は、後処理への依存を弱め、フィルタ適応への依存を強めて、干渉する点音源を除去することによって干渉除去と残響除去とを改善するように実装され得る。残響は、周波数によって変化する利得応答を有する伝達関数(たとえば、室内応答伝達関数)と考えてよく、減衰する周波数成分もあれば、増幅する周波数成分もある。たとえば、室内のジオメトリは、様々な周波数における信号の相対強度に影響を与えることがあり、いくつかの周波数が支配的になり得る。ある周波数から別の周波数に変化する方向において(すなわち、各周波数における主要ビームの方向において)所望の利得応答を有するようにフィルタを抑制することによって、本明細書で説明する正規化演算は、異なる周波数における空間内で信号のエネルギーが拡散する度合いの差異を補償することによって、信号の残響除去に寄与し得る。
最良の分離および残響除去の結果を達成するために、一部の到来角度範囲内で音源から到来するエネルギーを通過させ、他の角度で干渉音源から到来するエネルギーをブロックする空間的応答を有するように、フィルタバンクBK10のフィルタを構成するのが望ましいことがある。本明細書で説明するように、BSS適応を使用して、フィルタが初期解の近傍でより良い解を発見できるように、フィルタ更新モジュールUM10を構成するのが望ましいことがある。しかしながら、所望の音源に向けられた主要ビームを維持する制約なしに、フィルタ適応は、類似の方向からの干渉音源が(たとえば、干渉音源からエネルギーを除去する広いヌルビームを作ることによって)主要ビームを損なうのを許容し得る。
フィルタ更新モジュールUM10は、制約付きBSSを介して適応ヌルビームフォーミングを使用して、音源位置特定解からの大きい逸脱を防ぐ一方、小さい位置特定誤差を訂正することができるように構成され得る。しかしながら、フィルタが異なる音源に方向を変えるのを防ぐフィルタ更新ルールに関する空間制約を課すのが望ましいこともある。たとえば、フィルタを適応させるプロセスが、干渉音源の到来方向にヌル制約を含めるのが望ましいことがある。そのような制約が、ビームパターンが低周波数において当該干渉方向に方位を変えるのを防ぐのが望ましいことがある。
適応プロセスに1つまたは複数の幾何学的制約を含めることによって制約付きBSS方法を使用するようにフィルタ更新モジュールUM10を実装する(たとえば、適応モジュールAPM10を実装する)のが望ましいことがある。そのような制約は、空間制約または方向制約とも呼ばれ、適応プロセスが、ビームパターンにおける指定ビームまたはヌルビームの方向を変えるのを抑制する。たとえば、方向DA10および/または方向DA20に基づく空間制約を課すようにフィルタ更新モジュールUM10を実装する(たとえば、適応モジュールAPM10を実装する)のが望ましいことがある。
制約付きBSS適応の一例では、フィルタ適応モジュールAM10は、指向性行列D(ω)に基づく正則化項J(ω)を追加することによって音源方向ビームおよび/またはヌルビームに関する幾何学的制約を課すように構成される。そのような項は、J(ω)=||W(ω)D(ω)−C(ω)||2のような最小2乗基準として表すことができ、ここで、|| ||2はフロベニウスノルムを示し、C(ω)は、所望のビームパターンの選択を設定するM×M対角行列である。
空間制約がヌルビームのみ強制するのが望ましいことがあり、その理由は、音源ビームも強制しようとすると、フィルタ適応プロセスにとって問題が生じかねないことにある。1つのそのような場合、制約行列C(ω)はdiag(W(ω)D(ω))に等しく、その結果、音源フィルタごとに干渉方向にヌルが強制される。そのような制約は、他のフィルタの音源方向でヌルビームを強制することによって(たとえば、他の音源方向でのフィルタの応答を、主要ビーム方向での応答に対して減衰させることによって)、フィルタの主要ビームを維持し、その結果、フィルタ適応プロセスが、所望の音源のエネルギーを任意の他のフィルタに注ぐことが防止される。空間制約はまた、各フィルタが別の音源に切り替えるのを抑制する。
学習ルールに従って適応と制約の強制とのバランスをとるために、周波数ωごとに同調し得る同調係数S(ω)を正則化項J(ω)が含むのが望ましいこともある。そのような場合、正則化項は、J(ω)=S(ω)||W(ω)D(ω)−C(ω)||2と表すことができ、次のような制約を使用して実施され得る。
初期方位を維持することによって、そのような空間制約は、所望の音源ビームに対するヌルビームのより積極的な同調を可能にし得る。たとえば、そのような同調は、主要ビームをシャープ化して、所望の音源の方向に非常に近い方向にある干渉音源の抑制を可能にすることを含み得る。積極的な同調はサイドローブを生成し得るが、全体的な分離パフォーマンスは、サイドローブにおける干渉エネルギーの欠如を利用する適応解の能力により向上し得る。そのような応答性は、固定ビームフォーミングでは得られず、一般に、分布雑音成分がすべての方向から到来しているとの想定に基づいて動作する。
上述のように、図5は、2つの指向性音源がマイクロフォンアレイから2.5メートルのところで、アレイに対して互いから約15度離れたところに位置する場合におけるフィルタバンクBK12の一例の適応フィルタの各々のビームパターンを示している。この特殊解は、正規化されておらず、いずれの方向にも単位利得を有さないものであり、広いヌルビームを示す制約なしのBSS解の一例である。上の図の各々に示すビームパターンでは、2つの音源のうちの1つが除去される。下の図の各々に示すビームパターンでは、2つの音源の両方がブロックされていて、ビームは非常に広い。
図8および図9は、2つの係数値セット(それぞれ左列および右列)のビームパターンの一例を示しており、上のプロットは、フィルタ方位モジュールOM10によって生成されるフィルタのビームパターンを示しており、下のプロットは、(たとえば、上記の式(4)による)本明細書で説明する幾何学的制約付きBSS方法を使用したフィルタ更新モジュールUM10による適応後のビームパターンを示しいる。 図8は、アレイから2.5メートルのところで、40〜60度の間隔をあけて位置する2つの音源(話者)の場合を示しており、図9は、アレイから2.5メートルのところで、15度の間隔をあけて位置する2つの音源(話者)の場合を示している。これらの図では、高および低の利得応答振幅(たとえば、ビームおよびヌルビーム)が黒で示され、中域の利得応答振幅が白で示され、ビームおよびヌルビームのおおよその方向がそれぞれ太い実線および破線で示されている。
BSS逆混合行列の一部のみを適応させるようにフィルタ更新モジュールUM10を実装する(たとえば、適応モジュールAPM10を実装する)のが望ましいことがある。たとえば、フィルタバンクBK10のフィルタのうちの1つまたは複数を固定するのが望ましいことがある。そのような制約は、(たとえば、上記の式(2)に示すように)フィルタ適応プロセスが係数行列Wの対応する行を変えるのを防止することによって実施され得る。
一例では、そのような制約は、固定される各フィルタに対応する(たとえば、フィルタ方位モジュールOM10によって生成される)初期係数値セットを維持するために、適応プロセスの開始時から適用される。そのような実装形態は、たとえば、静止した干渉物にビームパターンが向けられているフィルタにとって適切であり得る。別の例では、そのような制約は後で、適応係数値セットのさらなる適応を防止するために(たとえば、フィルタが収束したことが検出されたときに)適用される。そのような実装形態は、たとえば、安定した残響環境における静止した干渉物にビームパターンが向けられているフィルタにとって適切であり得る。正規化フィルタ係数値セットが固定されると、セットが固定されている間は調整モジュールAJM10はそれらの値の調整を実行する必要がないが、調整モジュールAJM10は他の係数値セットを(たとえば、調整モジュールAJM10によるそれらの適応に応答して)引き続き調整できることに留意されたい。
代替または追加として、周波数範囲の一部分のみでフィルタのうちの1つまたは複数を適応させるようにフィルタ更新モジュールUM10を実装する(たとえば、適応モジュールAPM10を実装する)のが望ましいことがある。フィルタのそのような固定化は、当該範囲から外れた周波数に(たとえば、上記の式(2)におけるωの値に)対応するフィルタ係数値を適応させないことによって達成され得る。
有用な情報を含む周波数範囲でのみ、フィルタのうちの1つまたは複数(場合によってはすべて)の各々を適応させ、別の周波数範囲でフィルタを固定するのが望ましいことがある。適応する周波数範囲は、マイクロフォンアレイから話者までの予想される距離、マイクロフォン間の距離(例:たとえば空間エイリアシングを理由に、どのみち空間フィルタ処理が失敗する周波数でフィルタを適応させるのを回避するため)、部屋のジオメトリ、および/または室内のデバイスの配置などの要素に基づき得る。たとえば、入力信号は、特定の周波数範囲(たとえば、高周波数範囲)では、当該範囲で適切なBSS学習をサポートするのに十分な情報を含んでいないことがあるそのような場合、適応なしにこの範囲で初期の(あるいは直近の)フィルタ係数値を引き続き使用するのが望ましいことがある。
音源がアレイから3〜4メートル以上離れているとき、一般的に、音源によって放出される高周波エネルギーで、マイクロフォンに到着するものはほとんどない。そのような場合に、フィルタ適応を適切にサポートする情報は、高周波数範囲ではほとんど得られないことがあるので、高周波数でフィルタを固定し、低周波数でのみそれらを適応させるのが望ましいことがある。
図10は、指定された低周波数範囲におけるフィルタ係数値に限定されるそのような部分的BSS適応の前(上のプロット)および後(下のプロット)の2つのフィルタのビームパターンの例を示している。この特定の場合において、適応は、140個の周波数ビンのうち、低い方の64個(たとえば、0〜4kHzの範囲では約0〜1800Hzの帯域、または0〜8kHzの範囲では約0〜3650Hzの帯域)に制限される。
追加または代替として、どの周波数を適応させるかの決定は、周波数帯域で現在利用可能なエネルギーの量および/またはマイクロフォンアレイから現在の話者までの推定距離などの要素に従って、実行時間中に変わることがあり、フィルタが異なれば異なり得る。たとえば、ある時間には最大2kHz(または3kHzもしくは5kHz)の周波数でフィルタを適応させ、別の時間には最大4kHz(または5kHz、8kHzもしくは10kHz)の周波数でフィルタを適応させることが望ましいことがある。特定の周波数で固定され、すでに調整されている(たとえば、正規化されている)フィルタ係数値を調整モジュールAJM10が調整する必要はないが、調整モジュールAJM10は他の周波数で係数値を(たとえば、適応モジュールAPM10によるそれらの適応に応答して)引き続き調整できることに留意されたい。
フィルタバンクBK10は、更新係数値(たとえば、UV10およびUV20)をマルチチャネル信号の対応するチャネルに適用する。更新係数値は、(たとえば、調整モジュールAJM10による)本明細書で説明する調整後の(たとえば、適応モジュールAPM10によって適応する)逆混合行列Wの対応する行の値であり、そのような値が本明細書で説明するように固定されている場合は除く。各更新係数値セットは一般に、複数のフィルタを記述する。たとえば、各更新係数値セットは、逆混合行列Wの対応する行の要素ごとにフィルタを記述し得る。
図11Aは、フィルタバンクBK10のフィードフォワード実装形態BK20のブロック図を示している。フィルタバンクBK20は、入力チャネルMCS10−1およびMCS10−2をフィルタ処理して第1の出力信号OS10−1を生成するように構成される第1のフィードフォワードフィルタFF10Aと、入力チャネルMCS10−1およびMCS10−2をフィルタ処理して第2の出力信号OS10−2を生成するように構成される第2のフィードフォワードフィルタFF10Bとを含む。
図11Bは、フィードフォワードフィルタFF10Aの実装形態FF12Aのブロック図を示しており、これは、第1の入力チャネルMCS10−1をフィルタ処理するように構成された直接フィルタFD10Aと、第2の入力チャネルMCS10−2をフィルタ処理するように構成されたクロスフィルタFC10Aと、2つのフィルタ処理済み信号を合算して第1の出力信号OS10−1を生成するように構成された加算器A10とを含む。図11Cは、フィードフォワードフィルタFF10Bの対応する実装形態FF12Bのブロック図を示しており、これは、第2の入力チャネルMCS10−2をフィルタ処理するように構成された直接フィルタFD10Bと、第1の入力チャネルMCS10−1をフィルタ処理するように構成されたクロスフィルタFC10Bと、2つのフィルタ処理済み信号を合算して第2の出力信号OS10−2を生成するように構成された加算器A20とを含む。
フィルタバンクBK20は、フィルタFF10AおよびフィルタFF10Bが、適応逆混合行列Wのそれぞれの行に対応する更新係数値セットを適用するように実装され得る。1つのそのような例では、FF12AのフィルタFD10AおよびFC10Aは、係数値がそれぞれ(場合によっては調整モジュールAJM10による調整後の)適応逆混合行列Wの要素w11およびw12であるFIRフィルタとして実装され、FF12BのフィルタFC10BおよびFD10Bは、係数値がそれぞれ(場合によっては調整モジュールAJM10による調整後の)適応逆混合行列Wの要素w21およびw22であるFIRフィルタとして実装される。
一般に、フィードフォワードFF10AおよびFF10Bの各々(たとえば、クロスフィルタFC10AおよびクロスフィルタFC10Bのうちの各々、ならびに直接フィルタFD10Aおよび直接フィルタFD10Bのうちの各々)は、有限インパルス応答(FIR)フィルタとして実装され得る。図12は、複数であるq個の係数C10−1、C10−2、...、C10−qを入力信号に適用して出力信号を生成するように構成されるFIRフィルタFIR10のブロック図を示しており、ここでフィルタ更新モジュールUM10が、本明細書で説明するように係数の初期値および更新値を生成するように構成される。フィルタFIR10はまた、(q−1)個の遅延要素(たとえば、DL1、DL2)と(q−1)個の加算器(たとえば、AD1、AD2)とを含む。
本明細書で説明するフィルタバンクBK10はまた、3つ、4つ、またはそれよりも多くのチャネルを有するように実装され得る。図13は、N個の入力チャネルMCS10−1、MCS10−2、MCS10−3、...、MCS10−Nをフィルタ処理するように構成されるフィードフォワードフィルタFF12Aの実装形態FF14Aのブロック図を示しており、ここでNは2よりも大きい整数(たとえば、3または4)である。フィルタFF14Aは、第1の入力チャネルMCS10−1をフィルタ処理するように構成された直接フィルタFD10A、入力チャネルMCS10−2〜MCS10−Nのうちの対応する1つをフィルタ処理するように各々構成された(N−1)個のクロスフィルタFC10A(1)、FC10A(2)、...、FC10A(N−1)、およびN個のフィルタ処理済み信号を加算して出力信号OS10−1を生成するように構成された(N−1)個の加算器AD10、AD10−1、AD10−2、...、(または、たとえば、(N−1)入力加算器)のインスタンスを含む。
1つのそのような例では、フィルタFF14AのフィルタFD10A、FC10A(1)、FC10A(2)、...、FC10A(N−1)は、係数値がそれぞれ、適応逆混合行列Wの要素w11、w12、w13、...、w1N(たとえば、場合によっては調整モジュールAJM10による調整後の適応行列Wの第1の行)であるFIRフィルタとして実装される。フィルタバンクBK10の対応する実装形態は、フィルタFF14Aと同様のいくつかのフィルタを含むことができ、各々が(場合によっては調整モジュールAJM10による調整後の)適応行列Wの対応する行の係数値をそれぞれの入力チャネルMCS10−1〜MCS10−Nにそのような方法で適用して、対応する出力信号を生成するように構成される。
フィルタバンクBK10は、時間領域または周波数領域、たとえば変換領域で信号をフィルタ処理するように実装され得る。そのようなフィルタ処理が実行され得る変換領域の例には、変形離散コサイン(MDCT)領域およびフーリエ変換、たとえば離散フーリエ変換(DFT)、離散時間短時間フーリエ変換(DT−STFT:discrete-time short-time)、高速フーリエ変換(FFT)がある。
本明細書で説明する特定の例に加えて、フィルタバンクBK10は、(たとえば、FIRフィルタを使用して)マルチチャネル入力信号に適応逆混合行列Wを適用する既知の方法に従って実装され得る。フィルタバンクBK10は、値が初期化され更新される同じ領域(たとえば、時間領域もしくは周波数領域)または異なる領域でマルチチャネル信号に係数値を適用するように実装され得る。本明細書で説明するように、適応行列の少なくとも1つの行からの値は、方向に対する最大応答に基づいて、そのような適用の前に調整される。
図14は、周波数領域(たとえば、DFTまたはMDCT領域)で初期係数値CV10、CV20の更新を実行するように構成される装置A100の実装形態A200のブロック図を示している。この例では、フィルタバンクBK10は、時間領域でマルチチャネル信号MCS10に更新係数値UV10、UV20を適用するように構成される。装置A200は、更新係数値UV10、UV20を周波数領域から時間領域に変換するように構成される逆変換モジュールIM10と、出力信号OS10−1、OS10−2を時間領域から周波数領域に変換するように構成される変換モジュールXM10とを含む。装置A200はまた、2つ以上の入力および/または出力チャネルをサポートするように実装され得ることに明確に留意されたい。たとえば、装置A200は、図2に示す装置A110の一実装形態として実装可能であり、それにより、逆変換モジュールIM10は、更新値UV10、UV20、UV30、およびUV40を変換するように構成され、変換モジュールXM10は、信号OS10−1、OS10−2、OS10−3、およびOS10−4を変換するように構成される。
本明細書で説明するように、フィルタ方位モジュールOM10は、推定音源方向に基づいてフィルタバンクBK10の初期条件を生成し、フィルタ更新モジュールUM10は、フィルタ係数を更新して、改善された解に収束させる。初期条件の質は、推定音源方向(たとえば、DA10およびDA20)の正確性に依存し得る。
一般に、各推定音源方向(たとえば、DA10および/またはDA20)は、測定、計算、予測、推定および/または選択が可能であり、所望の音源、干渉音源、または反射からの音源の到来方向を示すことができる。フィルタ方位モジュールOM10は、別のモジュールまたはデバイスから(たとえば、音源位置特定モジュールから)推定音源方向を受信するように構成され得る。そのようなモジュールまたはデバイスは、(たとえば、顔および/または運動の検出を実行することによる)カメラからの画像情報および/または超音波反射からの測距情報に基づいて推定音源方向を生成するように構成され得る。そのようなモジュールまたはデバイスはまた、音源の数を推定するように、かつ/または動いている1つもしくは複数の音源を追跡するように構成され得る。図15Aは、そのような画像情報をキャプチャするために使用され得るカメラCM10を有するアレイR100の4マイクロフォン実装形態R104の構成の一例の上面図を示している。
代替的に、装置A100は、マルチチャネル信号MCS10内の情報および/またはフィルタバンクBK10によって生成される出力信号内の情報に基づいて、推定音源方向(たとえば、DA10およびDA20)を計算するように構成される方向推定モジュールDM10を含むように実装され得る。そのような場合、方向推定モジュールDM10はまた、上記のように画像情報および/または測距情報に基づいて推定音源方向を計算するように実装され得る。たとえば、方向推定モジュールDM10は、マルチチャネル信号MCS10に適用される、一般化された相互相関(GCC)アルゴリズム、またはビームフォーマアルゴリズムを使用して音源DOAを推定するように実装され得る。
図16は、マルチチャネル信号MCS10内の情報に基づいて推定音源方向DA10およびDA20を計算するように構成される方向推定モジュールDM10のインスタンスを含む装置A100の実装形態A120のブロック図を示している。この場合、方向推定モジュールDM10およびフィルタバンクBK10は、同じ領域で動作する(たとえば、周波数領域信号としてマルチチャネル信号MCS10を受信し処理する)ように実装される。図17は、装置A120およびA200の実装形態A220のブロック図を示しており、ここでは、方向推定モジュールDM10は、変換モジュールXM20から周波数領域におけるマルチチャネル信号MCS10からの情報を受信するように構成される。
一例では、方向推定モジュールDM10は、位相変換を使用したステアード応答パワー(SRP−PHAT:steered response power using the phase transform)アルゴリズムを使用して、マルチチャネル信号MCS10内の情報に基づいて推定音源方向を計算するように実装される。SRP−PHATアルゴリズムは、最尤音源位置特定から得られるもので、出力信号の相関が最大となる時間遅延を特定する。相互相関は、各ビンで電力によって正規化され、それによりロバストネスが改善される。残響環境では、SRP−PHATは、競合する音源位置特定方法よりも良い結果をもたらすことが予想され得る。
これらの式では、Pはセンサの数(すなわち、入力チャネルの数)を示し、αは利得係数を示し、τは音源からの伝搬の時間を示す。
この例では、複合ノイズベクトルNc(ω)=S(ω)H(ω)+N(ω)は、下記のゼロ平均、周波数独立、結合ガウス分布(zero-mean, frequency-independent, joint Gaussian distribution)を有すると想定され得る。
ここで、0<γ<1は設計定数であり、式(4)の右側を最大化する時間遅延τiは音源の到来方向を示している。
各プロットにおいて、各線は範囲内の異なる周波数に対応し、各プロットはマイクロフォンアレイの縦方向を中心として対称的である(すなわち、θ=0)。左上のプロットは、アレイから4メートルの距離にある2つの音源のヒストグラムを示している。右上のプロットは、アレイから4メートルの距離にある2つの近接した音源のヒストグラムを示している。左下のプロットは、アレイから2.5メートルの距離にある2つの音源のヒストグラムを示している。右下のプロットは、アレイから2.5メートルの距離にある2つの近接した音源のヒストグラムを示している。これらのプロットの各々が、全周波数にわたる単一のピークとしてではなく、重心によって特徴付けられ得る角度範囲として、推定音源方向を示していることが確認され得る。
別の例では、方向推定モジュールDM10は、ブラインド音源分離(BSS)アルゴリズムを使用して、マルチチャネル信号MCS10内の情報に基づいて推定音源方向を計算するように実装される。BSS方法は、干渉音源からエネルギーを除去する信頼できるヌルビームを発生させる傾向があり、これらのヌルビームの方向は、対応する音源の到来方向を示すのに使用され得る。方向推定モジュールDM10のそのような実装形態は、次のような式に従い、マイクロフォンjおよびj’のアレイの軸に対する周波数fにおける音源iの到来方向(DOA)を計算するように実装され得る。
ここでWは、逆混合行列を示し、pjおよびpj’は、それぞれマイクロフォンjおよびj’の空間的座標を示している。この場合、本明細書で説明するフィルタ更新モジュールUM10によって更新されるフィルタとは別個に方向推定モジュールDM10のBSSフィルタ(たとえば、逆混合行列W)を実装するのが望ましいことがある。
図19は、4つのヒストグラムからなる一セットの一例を示しており、各ヒストグラムは、4行逆混合行列Wの対応するインスタンスの(アレイ軸に対する)各入射角に式(5)がマッピングする周波数ビンの数を示しており、ここでWは、マルチチャネル信号MCS10内の情報に基づいており、本明細書で説明するIVA適応ルールに従って方向推定モジュールDM10の一実装形態によって計算される。この例では、入力マルチチャネル信号は、約40〜60度の角度によって分離される2つのアクティブな音源からのエネルギーを含む。左上のプロットは、(音源1の方法を示す)IVA出力1のヒストグラムを示しており、右上のプロットは、(音源2の方法を示す)IVA出力2のヒストグラムを示している。これらのプロットの各々が、全周波数にわたる単一のピークとしてではなく、重心によって特徴付けられ得る角度範囲として、推定音源方向を示していることが確認され得る。下のプロットは、IVA出力3および4のヒストグラムを示しており、これらは、両方の音源からのエネルギーをブロックし、残響からのエネルギーを含んでいる。
図20は、2つのアクティブな音源が約15度の角度によって分離される一例について、類似のIVA逆混合行列の対応するチャネルに関するヒストグラムの別のセットを示している。図19のように、左上のプロットは(音源1の方向を示す)IVA出力1のヒストグラムを示し、右上のプロットは(音源2の方向を示す)IVA出力2のヒストグラムを示し、下のプロットは(残響エネルギーを示す)IVA出力3および4のヒストグラムを示している。
別の例では、方向推定モジュールDM10は、複数の異なる周波数成分の各々についてマルチチャネル信号MCS10のチャネル間の位相差に基づいて推定音源方向を計算するように実装される。(たとえば、図15Bに示す平面波面の想定が有効になるように)遠距離場に点音源が1つあり、残響がない理想的な場合、位相差と周波数との比は周波数に対して一定である。
ここでcは音速(約340m/秒)を示し、dはマイクロフォン間の距離を示し、Δψiは2つのマイクロフォンチャネルの対応する位相推定間のラジアンの差を示し、fiは、位相推定が対応する周波数成分(たとえば、対応するFFTサンプルの周波数、または対応するサブバンドの中心周波数もしくはエッジ周波数)である。
装置A100は、フィルタ適応モジュールAM10が話者の頭部の動きなど、音響環境における小さい変化に対処するように構成されるように実装され得る。話者が移動して室内の異なる場所から話す場合のように、変化が大きい場合、方向推定モジュールDM10が音源の変化に伴って到来方向を更新し、フィルタ方位モジュールOM10がその方向でビームを取得して(たとえば、発生させて、または取り出して)新しい対応する初期係数値セットを生成する(すなわち、新しい音源方向に従って対応する係数値をリセットする)ように装置A100を実装するのが望ましいことがある。そのような場合、フィルタ方位モジュールOM10が、一度に2つ以上の新しい初期係数値セット生成するのが望ましいことがある。たとえば、フィルタ方位モジュールOM10が、少なくとも、推定音源方向に現在関連するフィルタに関して、新しい初期係数値セットを生成するのが望ましいことがある。次いで、本明細書で説明するようにフィルタ更新モジュールUM10によって新しい初期係数値は更新される。
リアルタイム音源追跡をサポートするために、音源から信号成分のDOAを迅速に識別するように方向推定モジュールDM10(または推定音源方向を提示する別の音源位置特定モジュールもしくはデバイス)を実装するのが望ましいことがある。そのようなモジュールまたはデバイスが、記録されている音響シーンに存在する音源の数を推定し、かつ/または音源追跡および/もしくは測距を実行するのが望ましいことがある。音源追跡は、推定音源方向を周波数分布やピッチ周波数などの顕著な特徴と関連付けて、モジュールまたはデバイスが特定の音源を、その方向が別の音源の方向と交差した後も経時的に引き続き追跡できるようにすることを含み得る。
たった2つの音源が追跡されるとしても、少なくとも4つの入力チャネルを有するように装置A100を実装するのが望ましいことがある。たとえば、4マイクロフォンのアレイを使用して、2マイクロフォンのアレイが提供できるビームよりも狭いビームを取得することができる。
(たとえば、方向推定モジュールDM10によって示されているように)音源の数よりもフィルタの数の方が多い場合、雑音推定に追加フィルタを使用するのが望ましいことがある。たとえば、フィルタ方位モジュールOM10がフィルタを各推定音源方向(たとえば、方向DA10およびDA20)に関連付けたことに伴い、音源が存在しない固定方向に各残存フィルタを向けるのが望ましいことがある。マイクロフォンアレイの軸が関心領域に対して直角であるアプリケーションの場合、この固定方向は(縦方向とも呼ばれる)アレイ軸の方向であってよく、その理由は、一般にこの場合にアレイ縦方向のいずれからもターゲット音源信号が生じないことにある。
1つのそのような例では、フィルタ方位モジュールOM10は、1つまたは複数の非音源フィルタ(すなわち、各推定音源方向が対応フィルタに関連付けられた後も残っているフィルタバンクBK10の1つまたは複数のフィルタ)の各々のビームをアレイ縦方向に、あるいは信号音源から離れたところに向けることによって、1つまたは複数の雑音基準の発生をサポートするように実装される。これらのフィルタの出力を、雑音低減演算で残響基準として使用して、さらなる残響除去(たとえば、さらに6dB)を行うことができる。結果として生じる知覚的影響は、話者が室内のある程度離れたところではなくマイクロフォンに向かって直接話しているような感じであり得る。
図21は、フィルタバンクBK10の4チャネル実装形態(たとえば、フィルタバンクBK12)の第3および第4のフィルタのビームパターンの一例を示しており、ここでは、第3のフィルタ(プロットA)がアレイの一方の縦方向(+/−pi方向)に固定され、第4のフィルタ(プロットB)がアレイの他方の縦方向(ゼロ方向)に固定されている。そのような固定方位は、フィルタバンクの第1および第2のフィルタの各々が、推定音源方向DA10およびDA20のうちの対応する1つに向けられている場合に使用され得る。
図22は、フィルタ方位モジュールOM12の実装形態OM22を含む装置A110の実装形態A140のブロック図を示しており、OM22は、(図21に示すように)マイクロフォンアレイの一方の縦方向に向けられた応答を有する係数値CV30を生成するように、またマイクロフォンアレイの他方の縦方向に向けられた応答を有する係数値CV40を生成するように構成される。装置A140はまた、フィルタ更新モジュールUM12の実装形態UM22を含み、UM22は、係数値セットCV30およびCV40を、それらを更新せずに(たとえば、それらを適応させずに)フィルタバンクBK12に渡すように構成される。音源フィルタの縦方向でヌルビームを強制する(たとえば本明細書で説明する)制約を含むようにフィルタ更新モジュールUM22の適応ルールを構成するのが望ましいことがある。
装置A140はまた、雑音低減モジュールNR10を含み、NR10は、固定フィルタの出力信号(たとえば、OS10−3およびOS10−4)の少なくとも1つからの情報に基づいて、音源フィルタの出力信号(たとえば、OS10−1およびOS10−2)の少なくとも1つに対して雑音低減演算を実行して、対応する残響除去信号を生成するように構成される。この特定の例では、雑音低減モジュールNR10は、各音源出力信号に対してそのような演算を実行して、対応する残響除去信号DS10−1およびDS10−2を生成するように実装される。
雑音低減モジュールNR10は、周波数領域演算(たとえば、スペクトル減算またはウィーナーフィルタ処理)として雑音低減を実行するように実装され得る。たとえば、雑音低減モジュールNR10は、音源出力信号から残響除去信号を、(残響基準とも呼ばれる)固定出力信号の平均を減算することによって、対応する音源方向に最も近い縦方向に関連する残響基準を減算することによって、または対応する音源方向から最も遠い縦方向に関連する残響基準を減算することによって生成するように実装され得る。装置A140はまた、残響除去信号を周波数領域から時間領域に変換するように構成される逆変換モジュールを含むように実装され得る。
装置A140はまた、ボイスアクティビティ検出(VAD)指示を使用して、後処理アグレッシブネス(post-processing aggressiveness)を制御するように実装され得る。たとえば、雑音低減モジュールNR10は、ボイス非アクティビティの間隔に、残響基準として(固定フィルタの出力信号ではなく、またはそれに加えて)1つまたは複数の他の音源フィルタの各々の出力信号を使用するように実装され得る。装置A140は、別のモジュールまたはデバイスからVAD指示を受信するように実装され得る。代替的に、装置A140は、フィルタバンクBK12の出力信号のうちの1つまたは複数からの情報に基づいて出力チャネルごとにVAD指示を発生させるように構成されるVADモジュールを含むように実装され得る。1つのそのような例では、VADモジュールは、特定の音源出力信号から、各々の他の音源出力信号(すなわち、推定音源方向に関連するフィルタバンクBK12の各々の個別のフィルタの出力)および各々の非音源出力信号(すなわち、非音源方向で固定されているフィルタバンクBK12の各フィルタの出力)の総電力を減算することによって、VAD指示を発生させるように実装される。任意のVAD指示の係数値CV10およびCV20の適応を個別に実行するようにフィルタ更新モジュールUM22を構成するのが望ましいことがある。
(たとえば、方向推定DM10によって検出される)音源の数に基づいて、実行時のフィルタバンクBK10におけるフィルタの数を変更するように装置A100を実装することが可能である。そのような場合、装置A100が、本明細書で論じるように、1つの縦方向で固定された1つの追加フィルタ、または縦方向の各々で固定された2つの追加フィルタを含むようにフィルタバンクBK10を構成するのが望ましいことがある。
要約すれば、フィルタ更新モジュールUM10によって適用される制約は、方向に対する各周波数で単位利得応答を有するように1つまたは複数の音源フィルタを正規化すること、それぞれの音源方向でヌルビームを強制するようにフィルタ適応を制約すること、および/またはいくつかの周波数範囲でフィルタ係数値を固定し、他の周波数範囲でフィルタ係数値を適応させることを含み得る。追加または代替として、装置A100は、入力チャネルの数(たとえば、センサの数)が音源の推定数を超えるときに超過フィルタを縦ルック方向で固定するように実装され得る。
一例では、フィルタ更新モジュールUM10は、フィルタ更新命令の一セットを実行するように構成されたデジタル信号プロセッサ(DSP)として実装され、結果として生じる適応正規化フィルタ解は、マルチチャネル信号への適用のために、フィールドプログラマブルゲートアレイ(FPGA)におけるフィルタバンクBK10の一実装形態にロードされる。別の例では、DSPは、フィルタ更新とマルチチャネル信号へのフィルタの適用の両方を実行する。
図23は、タスクT100、T200、T300、T400、およびT500を含む、一般的構成によるマルチチャネル信号を処理する方法M100のフローチャートを示している。(たとえば、フィルタバンクBK10の実装形態を参照して本明細書で説明したように)タスクT100は、マルチチャネル信号からの情報に基づく第1の信号に複数の第1の係数を適用して、第1の出力信号を生成し、タスクT200は、マルチチャネル信号からの情報に基づく第2の信号に複数の第2の係数を適用して、第2の出力信号を生成する。(たとえば、フィルタ方位モジュールOM10の実装形態を参照して本明細書で説明したように)タスクT300は、第1の音源方向に基づいて、複数の第1の係数の初期値セットを生成し、タスクT400は、第1の音源方向とは異なる第2の音源方向に基づいて、複数の第2の係数の初期値セットを生成する。タスクT500は、第1および第2の出力信号からの情報に基づいて、複数の第1および第2の係数の初期値を更新し、複数の第1の係数の初期値セットを前記更新することは、(たとえば、フィルタ更新モジュールUM10の実装形態を参照して本明細書で説明したように)方向に対する複数の第1の係数の初期値セットの指定の特性を有する応答(たとえば、最大応答)に基づく。図24は、(たとえば、方向推定モジュールDM10の実装形態を参照して本明細書で説明したように)マルチチャネル信号内の情報に基づいて第1および第2の音源方向を推定するタスクT600を含む方法M100の実装形態M120のフローチャートを示している。
図25Aは、別の一般的構成による、マルチチャネル信号を処理するための装置MF100のブロック図を示している。(たとえば、フィルタバンクBK10の実装形態を参照して本明細書で説明したように)装置MF100は、マルチチャネル信号からの情報に基づく第1の信号に複数の第1の係数を適用して、第1の出力信号を生成し、マルチチャネル信号からの情報に基づく第2の信号に複数の第2の係数を適用して、第2の出力信号を生成するための手段F100を含む。(たとえば、フィルタ方位モジュールOM10の実装形態を参照して本明細書で説明したように)装置MF100はまた、第1の音源方向に基づいて、複数の第1の係数の初期値セットを生成し、第1の音源方向とは異なる第2の音源方向に基づいて、複数の第2の係数の初期値セットを生成するための手段F300を含む。装置MF100はまた、第1および第2の出力信号からの情報に基づいて、複数の第1および第2の係数の初期値を更新するための手段F500を含み、複数の第1の係数の初期値セットを前記更新することは、(たとえば、フィルタ更新モジュールUM10の実装形態を参照して本明細書で説明したように)方向に対する複数の第1の係数の初期値セットの指定の特性を有する応答(たとえば、最大応答)に基づく。図25Bは、(たとえば、方向推定モジュールDM10の実装形態を参照して本明細書で説明したように)マルチチャネル信号内の情報に基づいて第1および第2の音源方向を推定するための手段F600を含む装置MF100の実装形態MF120のブロック図を示している。
マイクロフォンアレイR100を使用して、特定の音源方向で空間的焦点を提供することができる。アレイ開口(線形アレイの場合、アレイの両端マイクロフォン間の距離)、マイクロフォンの数、およびマイクロフォンの相対配置はすべて、空間分離能力に影響を与え得る。図26Aは、8センチメートルの均一間隔を有するアレイR100の4マイクロフォン実装形態を使用して取得されたビームパターンの一例を示している。図26Bは、4センチメートルの均一間隔を有するアレイR100の4マイクロフォン実装形態を使用して取得されたビームパターンの一例を示している。これらの図では、周波数範囲は0〜4キロヘルツであり、z軸は利得応答を示している。上記のように、アレイ軸に対して到来方向(角度)が示されている。
不均一なマイクロフォン間隔は、小さい間隔と大きい間隔の両方を含むことができ、これにより、広い周波数範囲にわたり分離性能を等化することができる。たとえば、そのような不均一間隔を使用して、様々な周波数において同様の幅を有するビームを実現できる。
約500〜4000Hzの範囲内で信号分離にシャープな空間ビームを提供するために、隣接するマイクロフォン間における不均一間隔と、記録される音響シーンに直角に向けられた少なくとも20センチメートルの開口とを有するようにアレイR100を実装するのが望ましいことがある。一例では、アレイR100の4マイクロフォン実装形態は、20センチメートルの開口と、それぞれの隣接するマイクロフォンペア間における4センチメートル、6センチメートル、および10センチメートルの不均一間隔とを有する。図26Cは、そのような間隔およびそのようなアレイを使用して取得される対応するビームパターンの一例を示しており、ここで周波数範囲は0〜4キロヘルツであり、z軸は利得応答を示し、アレイ軸に対して到来方向(角度)が示されている。不均一なアレイは低周波数において、4センチメートルのアレイよりも良好な分離をもたらすこと、およびこのビームパターンには、8センチメートルのアレイのビームパターンで見られる高周波数アーティファクトが欠けていることが確認され得る。
そのような不均一に離間した20cm開口線形アレイで本明細書で説明する装置A100の実装形態を使用して、干渉除去および最大18〜20dBの残響除去が、話者たちが2〜3メートルの距離で肩を並べて立っていても、アーティファクトをほとんど伴わずに500〜4000Hzの帯域で取得でき、ロバストな音響のズームイン効果がもたらされ得る。3メートルを超えると、直接経路対残響比の低下、および低周波電力の増加により、後処理の歪みが増すが、音響のズームイン効果は(たとえば15dBまで)依然可能である。したがって、特に500Hz未満かつ2kHz超でそのような方法を再構成音声スペクトル技法と組み合わせて、「対面による会話」サウンド効果をもたらすのが望ましいことがある。500Hz未満で干渉を除去するために、より大きいマイクロフォン間隔が一般に利用される。
図26A〜図26Cは、全方向マイクロフォンのアレイを使用して取得されたビームパターンを示しているが、本明細書で説明する原理は、指向性マイクロフォンのアレイに拡張されてもよい。図27Aは、一般的な単方向マイクロフォン応答の図を示している。この特定の例は、約283度の方向で到来する信号成分に対する約0.65の感度を有するマイクロフォン応答を示している。図27Bは、アレイ軸に対して直角である関心領域が識別されるそのようなマイクロフォンの不均一に離間した線形アレイの図を示している。アレイR100のそのような実装形態を使用して、2〜4メートルの距離でロバストな音響のズームイン効果をサポートすることができる。3メートルを超えると、そのようなアレイで18dBのズームイン効果を取得することが可能であり得る。
マイクロフォンの指向性を考慮して指向性ベクトル(または「ステアリングベクトル」)を調整するのが望ましいことがある。1つのそのような例では、フィルタ方位モジュールOM10は、上記の式(1)の行列Dの各列jがDmj(ω)=νmj(ω,θj)×exp(−i×cos(θj)×pos(m)×ω/c)と表されるように実装され、ここでνmj(ω,θj)は、周波数ωおよび入射角θjにおけるマイクロフォンmの相対反応を示す指向性係数である。そのような場合、マイクロフォンの指向性を考慮して(たとえば、同様の係数によって)コヒーレンス関数Γを調整するのが望ましいこともある。別の例では、フィルタ更新モジュールUM10は、式(3)に示す最大応答Rj(ω)が代わりに次のように表されるように実装される。
ここでνm(ω,θ)は、周波数ωおよび入射角θにおけるマイクロフォンmの相対応答を示す指向性係数である。
マルチマイクロフォンオーディオ感知デバイスD10の動作中、マイクロフォンアレイR100は、各チャネルが音響環境に対するマイクロフォンのうちの対応する1つの応答に基づく、マルチチャネル信号を生成する。単一のマイクロフォンを使用してキャプチャされ得るよりも完全な音響環境表現を集合的に提供するために、対応するチャネルが互いに異なるように、1つのマイクロフォンが別のマイクロフォンよりも直接的に特定の音を受信し得る。
アレイR100は、装置A100によって処理されるマルチチャネル信号MCS10を生成するために、マイクロフォンによって生成された信号に対して1つまたは複数の処理演算を実行することが望ましいことがある。図28Aは、(限定はしないが)インピーダンス整合、アナログデジタル変換、利得制御、ならびに/またはアナログおよび/もしくはデジタル領域におけるフィルタ処理を含み得る、1つまたは複数のそのような演算を実行するように構成されたオーディオ前処理段AP10を含むアレイR100の実装形態R200のブロック図を示している。
図28Bは、アレイR200の実装形態R210のブロック図を示している。アレイR210は、アナログ前処理段P10aおよびP10bを含むオーディオ前処理段AP10の実装形態AP20を含む。一例では、段P10aおよびP10bは、対応するマイクロフォン信号に対して(たとえば、50Hz、100Hz、または200Hzのカットオフ周波数をもつ)高域フィルタ処理演算を実行するように各々構成される。
アレイR100は、マルチチャネル信号をデジタル信号として、すなわち、サンプルのシーケンスとして生成することが望ましいことがある。アレイR210は、たとえば、対応するアナログチャネルをサンプリングするように各々構成されるアナログデジタル変換器(ADC)C10aおよびC10bを含む。音響アプリケーションの典型的なサンプリングレートには、8kHz、12kHz、16kHz、および約8から約16kHzまでの範囲内の他の周波数があるが、約44.1、48、および192kHzと同程度のサンプリングレートも使用され得る。この特定の例では、アレイR210はまた、対応するデジタル化チャネルに対して1つまたは複数の前処理演算(たとえば、エコー消去、雑音低減、および/またはスペクトル整形)を実行して、マルチチャネル信号MCS10の対応するチャネルMCS10−1、MCS10−2を生成するように各々構成されるデジタル前処理段P20aおよびP20bを含む。追加または代替として、デジタル前処理段P20aおよびP20bは、対応するデジタル化チャネルに対して周波数変換(たとえば、FFT、またはMDCT演算)を実行して、対応する周波数領域におけるマルチチャネル信号MCS10の対応するチャネルMCS10−1、MCS10−2を生成するように実装され得る。図28Aおよび図28Bは2チャネル実装形態を示しているが、同じ原理が任意の数のマイクロフォンおよびマルチチャネル信号MCS10の対応するチャネル(たとえば、本明細書で説明するアレイR100の3チャネル、4チャネル、または5チャネル実装形態)に拡張され得ることが理解されよう。
アレイR100の各マイクロフォンは、全方向、双方向、または単方向(たとえば、カージオイド)である応答を有し得る。アレイR100において使用され得る様々なタイプのマイクロフォンには、(限定はしないが)圧電マイクロフォン、ダイナミックマイクロフォン、およびエレクトレットマイクロフォンがある。遠距離場の適用例では、アレイR100の隣接するマイクロフォン間における中心間間隔は、一般に、約4〜10センチメートルの範囲内であるが、隣接するマイクロフォンペアの少なくともいくつかの間におけるより大きい間隔(たとえば、最大20、30、または40センチメートル以上)も、フラットパネルテレビジョンディスプレイのようなデバイス内で可能である。アレイR100のマイクロフォンは、(均一または不均一なマイクロフォン間隔を有する)線に沿って、あるいは代替的に、それらの中心が2次元形状(たとえば、三角形)または3次元形状の頂点に存在するように構成され得る。
マイクロフォンは、より一般的には、音響以外の放射または放出に反応するトランスデューサとして実装され得ることに明確に留意されたい。1つのそのような例では、マイクロフォンペアは、超音波トランスデューサ(たとえば、15、20、25、30、40、または50キロヘルツ以上よりも大きい音響周波数に反応するトランスデューサ)のペアとして実装される。
マルチチャネル信号MCSを生成するように構成されたアレイR100のインスタンスと、マルチチャネル信号MCSを処理するように構成された装置A100のインスタンスとを含む図1Bに示すようなオーディオ感知デバイスD10を生成するのが望ましいことがある。一般に、デバイスD10は、本明細書で開示するマイクロフォンアレイR100の実装形態のうちのいずれかのインスタンスと、本明細書で開示する装置A100(またはMF100)の実装形態のうちのいずれかのインスタンスとを含み、本明細書で開示するオーディオ感知デバイスのいずれもデバイスD10のインスタンスとして実装され得る。そのようなアレイを含むように実装可能で、オーディオ記録および/またはボイス通信アプリケーションのために使用され得るオーディオ感知デバイスの例には、テレビジョンディスプレイ、セットトップボックスならびにオーディオおよび/またはビデオ会議デバイスがある。
図29Aは、デバイスD10の一実装形態である通信デバイスD20のブロック図を示している。デバイスD20は、本明細書で説明する装置A100(またはMF100)の一実装形態を含むチップまたはチップセットCS10(たとえば、移動局モデム(MSM)チップセット)を含む。チップ/チップセットCS10は、装置A100またはMF100の演算の全部または一部を(たとえば、命令として)実行するように構成され得る1つまたは複数のプロセッサを含み得る。チップ/チップセットCS10はまた、アレイR100の処理要素(たとえば、本明細書で説明するオーディオ前処理段AP10の要素)を含み得る。
チップ/チップセットCS10は、(たとえば、アンテナC40を介して)無線周波(RF)通信信号を受信し、RF信号内で符号化されたオーディオ信号を復号し、(たとえば、ラウドスピーカーSP10を介して)再生するように構成される受信機を含む。チップ/チップセットCS10はまた、装置A100によって生成された出力信号に基づくオーディオ信号を符号化し、符号化オーディオ信号を記述しているRF通信信号を(たとえば、アンテナC40を介して)送信するように構成された送信機を含み得る。たとえば、チップ/チップセットCS10の1つまたは複数のプロセッサは、符号化オーディオ信号が雑音低減信号に基づくように、マルチチャネル信号の1つまたは複数のチャネルに対して上記で説明した雑音低減演算を実行するように構成され得る。この例では、デバイスD20はまた、ユーザ制御と対話とをサポートするためのキーパッドC10とディスプレイC20とを含む。
図33は、デバイスD20のインスタンスとして実装され得るハンドセットH100(たとえば、スマートフォン)の正面図、背面図、および側面図を示している。ハンドセットH100は、正面に構成された2つのボイスマイクロフォンMV10−1およびMV10−3と、正面の上部隅に位置する誤差マイクロフォンME10と、背面に構成されたボイスマイクロフォンMV10−2、雑音基準マイクロフォンMR10、およびカメラレンズとを含む。ラウドスピーカーLS10は、誤差マイクロフォンME10の近くの正面の上部中央に構成され、(たとえば、スピーカーフォンアプリケーションのための)2つの他のラウドスピーカーLS20L、LS20Rも設けられる。そのようなハンドセットのマイクロフォン間の最大距離は、一般に約10または12センチメートルである。
図29Bは、デバイスD10の一実装形態である別の通信デバイスD30のブロック図を示している。デバイスD30は、本明細書で説明する装置A100(またはMF100)の一実装形態を含むチップまたはチップセットCS20を含む。チップ/チップセットCS20は、装置A100またはMF100の演算の全部または一部を(たとえば、命令として)実行するように構成され得る1つまたは複数のプロセッサを含み得る。チップ/チップセットCS20はまた、アレイR100の処理要素(たとえば、本明細書で説明するオーディオ前処理段AP10の要素)を含み得る。
デバイスD30は、ネットワークとの(たとえば、ローカルエリアネットワークおよび/またはワイドエリアネットワークとの)データ通信をサポートするように構成されるネットワークインターフェースNI10を含む。インターフェースNI10がそのような通信に使用するプロトコルは、(たとえば、IEEE802.2規格のいずれかによって記述されている)イーサネット(登録商標)、(たとえば、IEEE802.11規格またはIEEE802.16規格のいずれかによって記述されている)ワイヤレスローカルエリアネットワーク、Bluetooth(登録商標)(たとえば、ワシントン州カークランドのBluetooth SIG,Inc.のBluetooth Core Specificationバージョン4.0[Classic Bluetooth、Bluetooth高速、およびBluetooth低エネルギープロトコルを含む]に記述されているヘッドセットまたは他のプロファイル)、Peanut(カリフォルニア州サンディエゴのQUALCOMM Incorporated)、および/または(たとえば、カリフォルニア州サンラモンのZigBee(登録商標) AllianceのZigBee(登録商標) 2007 Specificationおよび/またはZigBee(登録商標) RF4CE Specificationに記述されている)ZigBee(登録商標)を含み得る。一例では、ネットワークインターフェースNI10は、(たとえば、ボイスオーバーインターネットプロトコル、すなわち「VoIP」プロトコルを使用した)マイクロフォンMC10およびMC20ならびにラウドスピーカーSP10を介したボイス通信アプリケーションをサポートするように構成される。デバイスD30はまた、(たとえば、ハンドヘルド遠隔制御装置から受信した赤外線信号を介して、かつ/またはボイスコマンドの認識を介して)デバイスD30のユーザ制御をサポートするように構成されたユーザインターフェースUI10を含む。デバイスD30はまた、1人または複数のユーザにビデオコンテンツを表示するように構成されたディスプレイパネルP10を含む。
マルチチャネル記録信号内の残響エネルギーは、所望の音源とアレイR100との間の距離が増加するにつれて増加する傾向がある。装置A100を適用することが望ましいことがある別の適用例は、オーディオおよび/またはビデオ会議である。図30A〜図30Dは、デバイスD10の会議実装形態のいくつかの例の上面図を示している。図30Aは、アレイR100の3マイクロフォン実装形態(マイクロフォンMC10、MC20、およびMC30)を含む。図30Bは、アレイR100の4マイクロフォン実装形態(マイクロフォンMC10、MC20、MC30、およびMC40)を含む。図30Cは、アレイR100の5マイクロフォン実装形態(マイクロフォンMC10、MC20、MC30、MC40、およびMC50)を含む。図30Dは、アレイR100の6マイクロフォン実装形態(マイクロフォンMC10、MC20、MC30、MC40、MC50、およびMC60)を含む。アレイR100のマイクロフォンの各々を正多角形の対応する頂点に配置することが望ましいことがある。遠端オーディオ信号の再生のためのラウドスピーカーSP10は(たとえば、図30Aに示すように)デバイス内に含まれ得、かつ/またはそのようなラウドスピーカーは、(たとえば、音響的フィードバックを低減するために)デバイスとは別に配置され得る。
デバイスD10の会議実装形態が、2つ以上の空間セクタ(たとえば、90度、120度、150度、または180度の重複するセクタまたは重複しないセクタ)の各々について装置A100の一実装形態の別個のインスタンスを実行するのが望ましいことがある。そのような場合、またデバイスは、遠端への送信の前に様々な残響除去された音声信号を合成(たとえば、混合)することが望ましいことがある。
デバイスD10の(たとえば、デバイスD30の)会議適用例の別の例では、アレイR100の水平線形実装形態がテレビジョンまたはセットトップボックスのフロントパネル内に含まれる。そのようなデバイスは、アレイの前のエリア内で、かつアレイから約1メートル〜3または4メートル離れた位置から話す人(たとえば、テレビジョンを見ている視聴者)からの近端音源信号の位置を特定し、残響を除去することによって、電話通信をサポートするように構成され得る。
図31Aは、ディスプレイパネルP10と、均一な間隔で線形的に配置された4つのマイクロフォンMC10、MC20、MC30、およびMC40を含むアレイR100の一実装形態とを含む、デバイスD10の実装形態DS10(たとえば、テレビジョンまたはコンピュータモニタ)の図を示している。図31Bは、ディスプレイパネルP10と、不均一な間隔で線形的に配置された4つのマイクロフォンMC10、MC20、MC30、およびMC40を含むアレイR100の一実装形態とを含む、デバイスD10の実装形態DS20(たとえば、テレビジョンまたはコンピュータモニタ)の図を示している。また、デバイスDS10およびDS20のいずれも、本明細書で説明するデバイスD30の一実装形態として実現され得る。本明細書で開示するシステム、方法、および装置の適用範囲は、本明細書で言及する特定の例に限定されないことが明確に開示される。
本明細書で開示する方法および装置は、概して任意のオーディオ感知適用例、特に遠距離場音源からの信号成分の感知において適用され得る。本明細書で開示する構成の範囲は、符号分割多元接続(CDMA)オーバージエアインターフェースを採用するように構成されたワイヤレステレフォニー通信システムに常駐する通信デバイスを含む。とはいえ、本明細書で説明した特徴を有する方法および装置は、ワイヤードおよび/またはワイヤレス(たとえば、CDMA、TDMA、FDMA、および/またはTD−SCDMA)送信チャネルを介したボイスオーバIP(VoIP)を採用するシステムなど、当業者に知られている広範囲の技術を採用する様々な通信システムのいずれにも常駐し得ることが、当業者には理解されよう。
本明細書で開示した通信デバイスは、パケット交換式であるネットワーク(たとえば、VoIPなどのプロトコルに従ってオーディオ送信を搬送するように構成されたワイヤードおよび/またはワイヤレスネットワーク)および/または回線交換式であるネットワークにおける使用に適応し得ることが明確に企図され、本明細書によって開示される。また、本明細書で開示した通信デバイスは、狭帯域コーディングシステム(たとえば、約4または5キロヘルツの可聴周波数範囲を符号化するシステム)での使用、ならびに/または全帯域広帯域コーディングシステムおよびスプリットバンド広帯域コーディングシステムを含む、広帯域コーディングシステム(たとえば、5キロヘルツを超える可聴周波数を符号化するシステム)での使用に適応し得ることが明確に企図され、本明細書によって開示される。
説明した構成の前述の提示は、本明細書で開示する方法および他の構造を当業者が製造または使用できるように行ったものである。本明細書で図示および説明したフローチャート、ブロック図、および他の構造は例にすぎず、これらの構造の他の変形態も開示の範囲内である。これらの構成に対する様々な変更が可能であり、本明細書で提示した一般的原理は他の構成にも同様に適用できる。したがって、本開示は、上記に示した構成に限定されるものではなく、原開示の一部をなす、出願した添付の特許請求の範囲を含む、本明細書において任意の方法で開示した原理および新規の特徴に一致する最も広い範囲が与えられるべきである。
情報および信号は、多種多様な技術および技法のいずれかを使用して表され得ることを当業者なら理解されよう。たとえば、上記の説明全体にわたって言及され得るデータ、命令、コマンド、情報、信号、ビット、およびシンボルは、電圧、電流、電磁波、磁界または磁性粒子、光場または光学粒子、あるいはそれらの任意の組合せによって表され得る。
本明細書で開示した構成の実装形態の重要な設計要件は、圧縮されたオーディオもしくはオーディオビジュアル情報(たとえば、本明細書で識別される例のうちの1つなど、圧縮形式に従って符号化されるファイルまたはストリーム)の再生などの計算集約的適用例、または広帯域通信(たとえば、12、16、44.1、48、または192kHzなど、8キロヘルツよりも高いサンプリングレートにおけるボイス通信)の適用例では特に、(一般に百万命令毎秒またはMIPSで測定される)処理遅延および/または計算複雑さを最小にすることを含み得る。
マルチマイクロフォン処理システムの目的は、全体で10〜12dBの雑音低減を達成すること、所望の話者の移動中にボイスレベルおよびカラーを保持すること、アグレッシブな雑音除去、音声の残響除去の代わりに雑音が背景に移動されたという知覚を取得すること、および/またはよりアグレッシブな雑音低減のための後処理のオプションを可能にすることを含み得る。
本明細書で開示した装置(たとえば、装置A100およびMF100)は、意図された適用例に好適と見なされる、ソフトウェアとの、かつ/またはファームウェアとのハードウェアの任意の組合せで実装され得る。たとえば、そのような装置の要素は、たとえば、同じチップ上に、またはチップセット中の2つ以上のチップ間に常駐する電子デバイスおよび/または光デバイスとして作製され得る。そのようなデバイスの一例は、トランジスタまたは論理ゲートなどの論理要素の固定アレイまたはプログラマブルアレイであり、装置の要素のいずれも1つまたは複数のそのようなアレイとして実装され得る。装置の要素のうちの任意の2つ以上、さらにはすべてが、同じ1つまたは複数のアレイ内に実装され得る。そのような1つまたは複数のアレイは、1つまたは複数のチップ内(たとえば、2つ以上のチップを含むチップセット内)に実装され得る。
本明細書で開示する装置の様々な実装形態の1つまたは複数の要素は、全体または一部が、マイクロプロセッサ、組込みプロセッサ、IPコア、デジタル信号プロセッサ、FPGA(フィールドプログラマブルゲートアレイ)、ASSP(特定用途向け標準製品)、およびASIC(特定用途向け集積回路)などの論理要素の1つまたは複数の固定アレイまたはプログラマブルアレイ上で実行するように構成された命令の1つまたは複数のセットとして実装され得る。本明細書で開示した装置の実装形態の様々な要素のいずれも、1つまたは複数のコンピュータ(たとえば、「プロセッサ」とも呼ばれる、命令の1つまたは複数のセットまたはシーケンスを実行するようにプログラムされた1つまたは複数のアレイを含む機械)としても実施でき、これらの要素のうちの任意の2つ以上、さらにはすべてが、同じそのような1つまたは複数のコンピュータ内に実装され得る。
本明細書で開示したプロセッサまたは処理するための他の手段は、たとえば、同じチップ上に、またはチップセット中の2つ以上のチップ間に常駐する1つまたは複数の電子デバイスおよび/または光デバイスとして作製され得る。そのようなデバイスの一例は、トランジスタまたは論理ゲートなどの論理要素の固定アレイまたはプログラマブルアレイであり、これらの要素のいずれも1つまたは複数のそのようなアレイとして実装され得る。そのような1つまたは複数のアレイは、1つまたは複数のチップ内(たとえば、2つ以上のチップを含むチップセット内)に実装され得る。そのようなアレイの例には、マイクロプロセッサ、組込みプロセッサ、IPコア、DSP、FPGA、ASSP、およびASICなどの論理要素の固定アレイまたはプログラマブルアレイがある。本明細書で開示したプロセッサまたは処理するための他の手段は、1つまたは複数のコンピュータ(たとえば、命令の1つまたは複数のセットまたはシーケンスを実行するようにプログラムされた1つまたは複数のアレイを含む機械)あるいは他のプロセッサとしても実施され得る。本明細書で説明したプロセッサは、プロセッサが組み込まれているデバイスまたはシステム(たとえば、オーディオ感知デバイス)の別の動作に関係するタスクなど、本明細書で説明するマルチチャネル指向性オーディオ処理プロシージャに直接関係しないタスクを実施し、あるいはそのプロシージャに直接関係しない命令の他のセットを実行するために使用することが可能である。また、本明細書で開示した方法の一部はオーディオ感知デバイスのプロセッサによって実行され、その方法の別の一部は1つまたは複数の他のプロセッサの制御下で実行されることが可能である。
本明細書で開示した構成に関して説明した様々な例示的なモジュール、論理ブロック、回路、およびテストならびに他の動作は、電子ハードウェア、コンピュータソフトウェア、またはその両方の組合せとして実装され得ることを、当業者なら諒解されよう。そのようなモジュール、論理ブロック、回路、および動作は、本明細書で開示した構成を生成するように設計された、汎用プロセッサ、デジタル信号プロセッサ(DSP)、ASICまたはASSP、FPGAまたは他のプログラマブル論理デバイス、個別ゲートまたはトランジスタ論理、個別ハードウェア構成要素、あるいはそれらの任意の組合せを用いて実装または実行され得る。たとえば、そのような構成は、少なくとも部分的に、ハードワイヤード回路として、特定用途向け集積回路へと作製された回路構成として、あるいは不揮発性記憶装置にロードされるファームウェアプログラム、または汎用プロセッサもしくは他のデジタル信号処理ユニットなどの論理要素のアレイによって実行可能な命令である機械可読コードとしてデータ記憶媒体からロードされるかもしくはデータ記憶媒体にロードされるソフトウェアプログラムとして実装され得る。汎用プロセッサはマイクロプロセッサとすることができるが、代替として、プロセッサは任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態機械とすることができる。プロセッサは、コンピューティングデバイスの組合せ、たとえば、DSPとマイクロプロセッサとの組合せ、複数のマイクロプロセッサ、DSPコアと連携する1つまたは複数のマイクロプロセッサ、あるいは任意の他のそのような構成として実装することもできる。ソフトウェアモジュールは、RAM(ランダムアクセスメモリ)、ROM(読取り専用メモリ)、フラッシュRAMなどの不揮発性RAM(NVRAM)、消去可能プログラマブルROM(EPROM)、電気的消去可能プログラマブルROM(EEPROM)、レジスタ、ハードディスク、リムーバブルディスク、またはCD−ROMなど、非一時的記憶媒体中に、あるいは当技術分野で知られている任意の他の形態の記憶媒体中に常駐し得る。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるように、プロセッサに結合される。代替として、記憶媒体はプロセッサに一体化することができる。プロセッサおよび記憶媒体はASIC中に常駐することができる。ASICは、ユーザ端末内に常駐することができる。代替として、プロセッサおよび記憶媒体は、ユーザ端末内に個別構成要素として常駐することもできる。
本明細書で開示する様々な方法(たとえば、方法M100、および本明細書で説明する様々な装置の動作の説明によって開示する他の方法)は、プロセッサなどの論理要素のアレイによって実行でき、本明細書で説明する装置の様々な要素は、そのようなアレイ上で実行するように設計されたモジュールとして実装され得ることに留意されたい。本明細書で使用する「モジュール」または「サブモジュール」という用語は、ソフトウェア、ハードウェアまたはファームウェアの形態でコンピュータ命令(たとえば、論理式)を含む任意の方法、装置、デバイス、ユニットまたはコンピュータ可読データ記憶媒体を指すことができる。複数のモジュールまたはシステムを1つのモジュールまたはシステムに結合することができ、1つのモジュールまたはシステムを、同じ機能を実行する複数のモジュールまたはシステムに分離することができることを理解されたい。ソフトウェアまたは他のコンピュータ実行可能命令で実装した場合、プロセスの要素は本質的に、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを用いて関連するタスクを実行するコードセグメントである。「ソフトウェア」という用語は、ソースコード、アセンブリ言語コード、機械コード、バイナリコード、ファームウェア、マクロコード、マイクロコード、論理要素のアレイによって実行可能な命令の1つまたは複数のセットまたはシーケンス、およびそのような例の任意の組合せを含むことを理解されたい。プログラムまたはコードセグメントは、プロセッサ可読記憶媒体に記憶され得、あるいは搬送波に埋め込まれたコンピュータデータ信号によって伝送媒体または通信リンクを介して送信され得る。
本明細書で開示する方法、方式、および技法の実装形態は、(たとえば、本明細書に記載する1つまたは複数のコンピュータ可読媒体中で)論理要素のアレイ(たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械)を含む機械によって読取り可能および/または実行可能な命令の1つまたは複数のセットとしても有形に実施され得る。「コンピュータ可読媒体」という用語は、情報を記憶または転送することができる、揮発性、不揮発性、取外し可能および取外し不可能な媒体を含む任意の媒体を含み得る。コンピュータ可読媒体の例は、電子回路、半導体メモリデバイス、ROM、フラッシュメモリ、消去可能ROM(EROM)、フロッピー(登録商標)ディスケットまたは他の磁気ストレージ、CD−ROM/DVDまたは他の光ストレージ、ハードディスク、光ファイバー媒体、無線周波(RF)リンク、あるいは所望の情報を記憶するために使用され得、アクセスされ得る、任意の他の媒体を含む。コンピュータデータ信号は、電子ネットワークチャネル、光ファイバー、エアリンク、電磁リンク、RFリンクなどの伝送媒体を介して伝播することができるどんな信号をも含み得る。コードセグメントは、インターネットまたはイントラネットなどのコンピュータネットワークを介してダウンロードされ得る。いずれの場合も、本開示の範囲は、そのような実施形態によって限定されると解釈すべきではない。
本明細書で説明した方法のタスクの各々は、ハードウェアで直接実施され得るか、プロセッサによって実行されるソフトウェアモジュールで実施され得るか、またはその2つの組合せで実施され得る。本明細書で開示する方法の実装形態の典型的な適用例では、論理要素のアレイ(たとえば、論理ゲート)は、この方法の様々なタスクのうちの1つ、複数、さらにはすべてを実行するように構成される。タスクのうちの1つまたは複数(場合によってはすべて)は、論理要素のアレイ(たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械)を含む機械(たとえば、コンピュータ)によって読取り可能かつ/または実行可能であるコンピュータプログラム製品(たとえば、ディスク、フラッシュメモリカードまたは他の不揮発性メモリカード、半導体メモリチップなど、1つまたは複数のデータ記憶媒体など)に実施されたコード(たとえば、命令の1つまたは複数のセット)としても実装され得る。本明細書で開示した方法の実装形態のタスクは、2つ以上のそのようなアレイまたは機械によっても実行され得る。これらまたは他の実装形態では、タスクは、セルラー電話など、ワイヤレス通信用のデバイス、またはそのような通信機能を有する他のデバイス内で実行され得る。そのようなデバイスは、(たとえば、VoIPなどの1つまたは複数のプロトコルを使用して)回線交換および/またはパケット交換ネットワークと通信するように構成され得る。たとえば、そのようなデバイスは、符号化フレームを受信および/または送信するように構成されたRF回路を含み得る。
本明細書で開示する様々な方法は、通信デバイスによって実行され得ること、および本明細書で説明する様々な装置は、そのようなデバイスに含まれ得ることが明確に開示される。典型的なリアルタイム(たとえば、オンライン)適用例は、そのようなデバイスを使用して行われる電話会話である。
1つまたは複数の例示的な実施形態では、本明細書で説明した動作は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。ソフトウェアで実装する場合、そのような動作は、1つまたは複数の命令またはコードとしてコンピュータ可読媒体に記憶され得るか、あるいはコンピュータ可読媒体を介して送信され得る。「コンピュータ可読媒体」という用語は、コンピュータ可読記憶媒体と通信(たとえば、伝送)媒体の両方を含む。限定ではなく、例として、コンピュータ可読記憶媒体は、(限定はしないが、ダイナミックまたはスタティックRAM、ROM、EEPROM、および/またはフラッシュRAMを含み得る)半導体メモリ、または強誘電体メモリ、磁気抵抗メモリ、オボニックメモリ、高分子メモリ、または相変化メモリなどの記憶要素のアレイ、CD−ROMまたは他の光ディスクストレージ、ならびに/あるいは磁気ディスクストレージまたは他の磁気ストレージデバイスを備えることができる。そのような記憶媒体は、コンピュータによってアクセスされ得る命令またはデータ構造の形態で情報を記憶し得る。通信媒体は、ある場所から別の場所へのコンピュータプログラムの転送を容易にする任意の媒体を含む、命令またはデータ構造の形態で所望のプログラムコードを搬送するために使用され得、コンピュータによってアクセスされ得る、任意の媒体を備えることができる。同様に、いかなる接続も適切にコンピュータ可読媒体と称される。たとえば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線(DSL)、または赤外線、無線、および/またはマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバケーブル、ツイストペア、DSL、または赤外線、無線、および/またはマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。本明細書で使用するディスク(disk)およびディスク(disc)は、コンパクトディスク(disc)(CD)、レーザディスク(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピーディスク(disk)およびBlu−ray(登録商標) Disc(Blu−Ray Disc Association、カリフォルニア州ユニヴァーサルシティー)を含み、ディスク(disk)は、通常、データを磁気的に再生し、ディスク(disc)はデータをレーザで光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲内に含めるべきである。
本明細書で説明した音響信号処理装置(たとえば、装置A100またはMF100)は、いくつかの動作を制御するために音声入力を受容し、あるいは背景雑音から所望の雑音を分離することから利益を得ることがある、通信デバイスなどの電子デバイスに組み込まれ得る。多くの適用例では、複数の方向から発生した背景音から明瞭な所望の音を強調または分離することから利益を得ることがある。そのような適用例は、ボイス認識および検出、音声強調および分離、ボイスアクティブ化制御などの機能を組み込んだ電子デバイスまたはコンピューティングデバイスにおけるヒューマンマシンインターフェースを含み得る。限られた処理機能のみを提供するデバイスに適したそのような音響信号処理装置を実装することが望ましいことがある。
本明細書で説明したモジュール、要素、およびデバイスの様々な実装形態の要素は、たとえば、同じチップ上にまたはチップセット中の2つ以上のチップ間に常駐する電子デバイスおよび/または光デバイスとして作製され得る。そのようなデバイスの一例は、トランジスタまたはゲートなど、論理要素の固定アレイまたはプログラマブルアレイである。本明細書で説明した装置の様々な実装形態の1つまたは複数の要素は、全体または一部が、マイクロプロセッサ、組込みプロセッサ、IPコア、デジタル信号プロセッサ、FPGA、ASSP、およびASICなどの論理要素の1つまたは複数の固定アレイまたはプログラマブルアレイ上で実行するように構成された命令の1つまたは複数のセットとして実装され得る。
本明細書で説明した装置の一実装形態の1つまたは複数の要素は、装置が組み込まれているデバイスまたはシステムの別の動作に関係するタスクなど、装置の動作に直接関係しないタスクを実施し、あるいは装置の動作に直接関係しない命令の他のセットを実行するために使用することが可能である。また、そのような装置の実装形態の1つまたは複数の要素は、共通の構造(たとえば、異なる要素に対応するコードの部分を異なる時間に実行するために使用されるプロセッサ、異なる要素に対応するタスクを異なる時間に実施するために実行される命令のセット、あるいは、異なる要素向けの動作を異なる時間に実行する電子デバイスおよび/または光デバイスの構成)を有することが可能である。
Claims (50)
- マルチチャネル信号を処理するための装置であって、
(A)前記マルチチャネル信号に基づく第1の信号に複数の第1の係数を適用して、第1の出力信号を生成するように構成された第1のフィルタと、(B)前記マルチチャネル信号に基づく第2の信号に複数の第2の係数を適用して、第2の出力信号を生成するように構成された第2のフィルタとを有するフィルタバンクと、
第1の音源方向に基づいて、前記複数の第1の係数の初期値セットを生成するように、また前記第1の音源方向とは異なる第2の音源方向に基づいて、前記複数の第2の係数の初期値セットを生成するように構成されたフィルタ方位モジュールと、
(A)対応する方向における複数の応答に基づいて、指定の特性を有する応答を特定し、(B)前記指定の特性を有する前記応答に基づいて前記複数の第1の係数の前記初期値セットを更新するように構成されたフィルタ更新モジュールと
を備える装置。 - 前記複数の応答の各応答は、前記複数の第1の係数の前記初期値セットに基づく値セットの、前記対応する方向における応答である、請求項1に記載の装置。
- 前記複数の第1の係数の前記初期値セットを前記更新することは、前記第1および第2の出力信号からの情報に基づいて前記複数の第1の係数の前記初期値セットを適応させることを含む、請求項1に記載の装置。
- 前記複数の第1の係数の前記初期値セットを前記更新することは、前記複数の第1の係数の適応値セットを生成するために、前記第1および第2の出力信号からの情報に基づいて前記複数の第1の係数の前記初期値セットを適応させることを含む、請求項1に記載の装置。
- 前記指定の特性は、前記複数の応答のうちの最大値である、請求項1に記載の装置。
- 前記フィルタ更新モジュールは、複数の周波数の各周波数における値を有する特定された応答を計算するように構成され、
前記特定された応答を前記計算することは、前記複数の周波数の各周波数において前記特定することを実行することを含み、
前記複数の周波数の各周波数において、前記特定された応答の前記値は、前記周波数における前記複数の応答のうちの指定の特性を有する前記応答である、請求項1に記載の装置。 - 前記複数の周波数の各周波数において、前記特定された応答の前記値は、前記周波数における前記複数の応答のうちの最大値である、請求項6に記載の装置。
- 前記複数の周波数の第1の周波数における前記特定された応答の前記値は、第1の方向における応答であり、
前記複数の周波数の第2の周波数における前記特定された応答の前記値は、前記第1の方向とは異なる第2の方向における応答である、請求項6に記載の装置。 - 前記複数の第1の係数の前記初期値セットを前記更新することは、前記複数の第1の係数の更新値セットを生成するために、前記特定された応答に基づいて、前記複数の第1の係数の前記適応値セットを調整することを含む、請求項6に記載の装置。
- 前記調整することは、前記複数の第1の係数の前記更新値セットを生成するために、前記特定された応答に基づいて、前記複数の第1の係数の前記適応値セットを正規化することを含む、請求項9に記載の装置。
- 前記複数の第1の係数の前記適応値セットは、(A)前記複数の周波数の第1の周波数に対応する第1の複数の適応値と、(B)前記複数の周波数の前記第1の周波数とは異なる前記複数の周波数の第2の周波数に対応する第2の複数の適応値とを含み、
前記調整することは、(A)前記複数の周波数の前記第1に対応する前記特定された応答の前記値に基づいて、前記第1の複数の適応値の各値を正規化することと、(B)前記複数の周波数の前記第2に対応する前記特定された応答の前記値に基づいて、前記第2の複数の適応値の各値を正規化することとを備える、請求項9に記載の装置。 - 前記複数の第1の係数の前記更新値セットの各値は、前記複数の第1の係数の前記初期値セットの異なる値に、また前記マルチチャネル信号の周波数成分に対応し、
第1の周波数範囲における周波数成分に対応する前記複数の第1の係数の前記更新値セットの各値は、前記複数の第1の係数の前記初期値セットの前記対応する値と同じ値を有する、請求項9に記載の装置。 - 前記第1および第2の係数の各々は、前記マルチチャネル信号の複数の周波数成分のうちの1つに対応する、請求項1に記載の装置。
- 前記複数の第1の係数の前記初期値セットは、前記第1の音源方向に向けられたビームを記述する、請求項1に記載の装置。
- 前記フィルタ更新モジュールは、前記第1および第2の出力信号の周波数成分に非線形有界関数を適用した結果に従って、前記複数の第1の係数の前記初期値セットを更新するように構成される、請求項1に記載の装置。
- 前記フィルタ更新モジュールは、ブラインド音源分離学習ルールに従って、前記複数の第1の係数の前記初期値セットを更新するように構成される、請求項1に記載の装置。
- 前記複数の第1の係数の前記初期値セットを前記更新することは、空間制約に基づいており、
前記空間制約は、前記第2の音源方向に基づく、請求項1に記載の装置。 - 前記複数の第1の係数の前記初期値セットを前記更新することは、前記第1の音源方向における前記複数の第1の係数の応答に対して、前記第2の音源方向における前記複数の第1の係数の応答を減衰させることを含む、請求項1に記載の装置。
- 前記装置は、前記マルチチャネル信号内の情報に基づいて、前記第1の音源方向を計算するように構成された方向推定モジュールを備える、請求項1に記載の装置。
- 前記装置は、複数のマイクロフォンを含むマイクロフォンアレイを備え、
前記マルチチャネル信号の各チャネルは、前記複数のマイクロフォンのうちの異なる対応するマイクロフォンによって生成された信号に基づいており、
前記マイクロフォンアレイは、少なくとも20センチメートルの開口を有する、請求項1に記載の装置。 - 前記装置は、複数のマイクロフォンを含むマイクロフォンアレイを備え、
前記マルチチャネル信号の各チャネルは、前記複数のマイクロフォンのうちの異なる対応するマイクロフォンによって生成された信号に基づいており、
前記マイクロフォンアレイの隣接するマイクロフォンの第1のペア間の距離は、前記マイクロフォンアレイの隣接するマイクロフォンの第2のペア間の距離とは異なる、請求項1に記載の装置。 - 前記フィルタバンクは、前記マルチチャネル信号に複数の第3の係数を適用して、第3の出力信号を生成するように構成された第3のフィルタを含み、
前記装置は、前記第3の出力信号からの情報に基づいて、前記第1の出力信号に対して雑音低減演算を実行して、残響除去信号を生成するように構成された雑音低減モジュールを含む、請求項1に記載の装置。 - 前記マルチチャネル信号の各チャネルは、アレイの複数のマイクロフォンのうちの対応するマイクロフォンによって生成された信号に基づいており、
前記フィルタ方位モジュールは、前記アレイの軸の方向に基づいて、前記複数の第3の係数の値セットを生成するように構成される、請求項22に記載の装置。 - 前記フィルタ更新モジュールは、周波数領域において前記複数の第1の係数の前記初期値セットを更新するように構成され、
前記フィルタバンクは、時間領域において前記第1の信号に前記複数の第1の係数を適用するように構成される、請求項1に記載の装置。 - マルチチャネル信号を処理する方法であって、
前記マルチチャネル信号に基づく第1の信号に複数の第1の係数を適用して、第1の出力信号を生成することと、
前記マルチチャネル信号に基づく第2の信号に複数の第2の係数を適用して、第2の出力信号を生成することと、
第1の音源方向に基づいて、前記複数の第1の係数の初期値セットを生成することと、
前記第1の音源方向とは異なる第2の音源方向に基づいて、前記複数の第2の係数の初期値セットを生成することと、
対応する方向における複数の応答に基づいて、指定の特性を有する応答を特定することと、
前記指定の特性を有する前記応答に基づいて、前記複数の第1の係数の前記初期値セットを更新することと
を備える方法。 - 前記複数の応答の各応答は、前記複数の第1の係数の前記初期値セットに基づく値セットの、前記対応する方向における応答である、請求項25に記載の方法。
- 前記複数の第1の係数の前記初期値セットを前記更新することは、前記第1および第2の出力信号からの情報に基づいて前記複数の第1の係数の前記初期値セットを適応させることを含む、請求項25に記載の方法。
- 前記複数の第1の係数の前記初期値セットを前記更新することは、前記複数の第1の係数の適応値セットを生成するために、前記第1および第2の出力信号からの情報に基づいて前記複数の第1の係数の前記初期値セットを適応させることを含む、請求項25に記載の方法。
- 前記指定の特性は、前記複数の応答のうちの最大値である、請求項25に記載の方法。
- 前記方法は、複数の周波数の各周波数における値を有する特定された応答を計算することを含み、
前記特定された応答を前記計算することは、前記複数の周波数の各周波数において前記特定することを実行することを含み、
前記複数の周波数の各周波数において、前記特定された応答の前記値は、前記周波数における前記複数の応答のうちの指定の特性を有する前記応答である、請求項25に記載の方法。 - 前記複数の周波数の各周波数において、前記特定された応答の前記値は、前記周波数における前記複数の応答のうちの最大値である、請求項30に記載の方法。
- 前記複数の周波数の第1の周波数における前記特定された応答の前記値は、第1の方向における応答であり、
前記複数の周波数の第2の周波数における前記特定された応答の前記値は、前記第1の方向とは異なる第2の方向における応答である、請求項30に記載の方法。 - 前記複数の第1の係数の前記初期値セットを前記更新することは、前記複数の第1の係数の更新値セットを生成するために、前記特定された応答に基づいて、前記複数の第1の係数の前記適応値セットを調整することを含む、請求項30に記載の方法。
- 前記調整することは、前記複数の第1の係数の前記更新値セットを生成するために、前記特定された応答に基づいて、前記複数の第1の係数の前記適応値セットを正規化することを含む、請求項33に記載の方法。
- 前記複数の第1の係数の前記適応値セットは、(A)前記複数の周波数の第1の周波数に対応する第1の複数の適応値と、(B)前記複数の周波数の前記第1の周波数とは異なる前記複数の周波数の第2の周波数に対応する第2の複数の適応値とを含み、
前記調整することは、(A)前記複数の周波数の前記第1に対応する前記特定された応答の前記値に基づいて、前記第1の複数の適応値の各値を正規化することと、(B)前記複数の周波数の前記第2に対応する前記特定された応答の前記値に基づいて、前記第2の複数の適応値の各値を正規化することとを備える、請求項33に記載の方法。 - 前記複数の第1の係数の前記更新値セットの各値は、前記複数の第1の係数の前記初期値セットの異なる値に、また前記マルチチャネル信号の周波数成分に対応し、
第1の周波数範囲における周波数成分に対応する前記複数の第1の係数の前記更新値セットの各値は、前記複数の第1の係数の前記初期値セットの前記対応する値と同じ値を有する、請求項33に記載の方法。 - 前記第1および第2の係数の各々は、前記マルチチャネル信号の複数の周波数成分のうちの1つに対応する、請求項25に記載の方法。
- 前記複数の第1の係数の前記初期値セットは、前記第1の音源方向に向けられたビームを記述する、請求項25に記載の方法。
- 前記複数の第1の係数の前記初期値セットを前記更新することは、前記第1および第2の出力信号の周波数成分に非線形有界関数を適用した結果に従って実行される、請求項25に記載の方法。
- 前記複数の第1の係数の前記初期値セットを更新することは、ブラインド音源分離学習ルールに従って実行される、請求項25に記載の方法。
- 前記複数の第1の係数の前記初期値セットを前記更新することは、空間制約に基づいており、
前記空間制約は、前記第2の音源方向に基づく、請求項25に記載の方法。 - 前記複数の第1の係数の前記初期値セットを前記更新することは、前記第1の音源方向における前記複数の第1の係数の応答に対して、前記第2の音源方向における前記複数の第1の係数の応答を減衰させることを含む、請求項25に記載の方法。
- 前記方法は、前記マルチチャネル信号内の情報に基づいて、前記第1の音源方向を計算することを含む、請求項25に記載の方法。
- 前記マルチチャネル信号の各チャネルは、マイクロフォンアレイの前記複数のマイクロフォンのうちの異なる対応するマイクロフォンによって生成された信号に基づいており、
前記マイクロフォンアレイは、少なくとも20センチメートルの開口を有する、請求項25に記載の方法。 - 前記マルチチャネル信号の各チャネルは、マイクロフォンアレイの前記複数のマイクロフォンのうちの異なる対応するマイクロフォンによって生成された信号に基づいており、
前記マイクロフォンアレイの隣接するマイクロフォンの第1のペア間の距離は、前記マイクロフォンアレイの隣接するマイクロフォンの第2のペア間の距離とは異なる、請求項25に記載の方法。 - 前記方法は、
前記マルチチャネル信号に複数の第3の係数を適用して、第3の出力信号を生成することと、
前記第3の出力信号からの情報に基づいて、前記第1の出力信号に対して雑音低減演算を実行して、残響除去信号を生成することと
を含む、請求項25に記載の方法。 - 前記マルチチャネル信号の各チャネルは、アレイの複数のマイクロフォンのうちの対応するマイクロフォンによって生成された信号に基づいており、
前記方法は、前記アレイの軸の方向に基づいて、前記複数の第3の係数の値セットを生成することを含む、請求項46に記載の方法。 - 前記更新することは、周波数領域において前記複数の第1の係数の前記初期値セットを更新することを含み、
前記第1の信号に前記複数の第1の係数を前記適用することは、時間領域において実行される、請求項25に記載の方法。 - マルチチャネル信号を処理するための装置であって、前記方法は、
前記マルチチャネル信号に基づく第1の信号に複数の第1の係数を適用して、第1の出力信号を生成し、前記マルチチャネル信号に基づく第2の信号に複数の第2の係数を適用して、第2の出力信号を生成するための手段と、
第1の音源方向に基づいて、前記複数の第1の係数の初期値セットを生成し、前記第1の音源方向とは異なる第2の音源方向に基づいて、前記複数の第2の係数の初期値セットを生成するための手段と、
対応する方向における複数の応答に基づいて、指定の特性を有する応答を特定するための手段と、
前記指定の特性を有する前記応答に基づいて、前記複数の第1の係数の前記初期値セットを更新するための手段と
を備える、装置。 - 有形特徴を備える非一時的コンピュータ可読記憶媒体であって、前記有形特徴が、プロセッサによって読み取られたとき、前記プロセッサに、
前記マルチチャネル信号に基づく第1の信号に複数の第1の係数を適用して、第1の出力信号を生成することと、
前記マルチチャネル信号に基づく第2の信号に複数の第2の係数を適用して、第2の出力信号を生成することと、
第1の音源方向に基づいて、前記複数の第1の係数の初期値セットを生成することと、
前記第1の音源方向とは異なる第2の音源方向に基づいて、前記複数の第2の係数の初期値セットを生成することと、
対応する方向における複数の応答に基づいて、指定の特性を有する応答を特定することと、
前記指定の特性を有する前記応答に基づいて、前記複数の第1の係数の前記初期値セットを更新することと
を行わせる、コンピュータ可読記憶媒体。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US40592210P | 2010-10-22 | 2010-10-22 | |
US61/405,922 | 2010-10-22 | ||
US13/243,492 US9100734B2 (en) | 2010-10-22 | 2011-09-23 | Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation |
US13/243,492 | 2011-09-23 | ||
PCT/US2011/055441 WO2012054248A1 (en) | 2010-10-22 | 2011-10-07 | Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013543987A true JP2013543987A (ja) | 2013-12-09 |
Family
ID=45973046
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013534943A Pending JP2013543987A (ja) | 2010-10-22 | 2011-10-07 | 遠距離場マルチ音源追跡および分離のためのシステム、方法、装置およびコンピュータ可読媒体 |
Country Status (6)
Country | Link |
---|---|
US (1) | US9100734B2 (ja) |
EP (1) | EP2630807A1 (ja) |
JP (1) | JP2013543987A (ja) |
KR (1) | KR20130084298A (ja) |
CN (1) | CN103181190A (ja) |
WO (1) | WO2012054248A1 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2019198306A1 (ja) * | 2018-04-12 | 2021-02-12 | 日本電信電話株式会社 | 推定装置、学習装置、推定方法、学習方法及びプログラム |
JP2021081654A (ja) * | 2019-11-21 | 2021-05-27 | パナソニックIpマネジメント株式会社 | 音響クロストーク抑圧装置および音響クロストーク抑圧方法 |
WO2021166808A1 (ja) * | 2020-02-18 | 2021-08-26 | Kddi株式会社 | 複数のマイクロフォンの収音信号をミキシングする装置、方法及びコンピュータ可読記憶媒体 |
JP7549742B2 (ja) | 2020-10-22 | 2024-09-11 | グーグル エルエルシー | マルチチャネル音声アクティビティ検出 |
Families Citing this family (57)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8759661B2 (en) | 2010-08-31 | 2014-06-24 | Sonivox, L.P. | System and method for audio synthesizer utilizing frequency aperture arrays |
JP2012238964A (ja) * | 2011-05-10 | 2012-12-06 | Funai Electric Co Ltd | 音分離装置、及び、それを備えたカメラユニット |
US8653354B1 (en) * | 2011-08-02 | 2014-02-18 | Sonivoz, L.P. | Audio synthesizing systems and methods |
US8971546B2 (en) | 2011-10-14 | 2015-03-03 | Sonos, Inc. | Systems, methods, apparatus, and articles of manufacture to control audio playback devices |
US9291697B2 (en) | 2012-04-13 | 2016-03-22 | Qualcomm Incorporated | Systems, methods, and apparatus for spatially directive filtering |
US8880395B2 (en) * | 2012-05-04 | 2014-11-04 | Sony Computer Entertainment Inc. | Source separation by independent component analysis in conjunction with source direction information |
JP2013235050A (ja) * | 2012-05-07 | 2013-11-21 | Sony Corp | 情報処理装置及び方法、並びにプログラム |
US9258644B2 (en) * | 2012-07-27 | 2016-02-09 | Nokia Technologies Oy | Method and apparatus for microphone beamforming |
FR2996043B1 (fr) | 2012-09-27 | 2014-10-24 | Univ Bordeaux 1 | Procede et dispositif pour separer des signaux par filtrage spatial a variance minimum sous contrainte lineaire |
EP2738762A1 (en) * | 2012-11-30 | 2014-06-04 | Aalto-Korkeakoulusäätiö | Method for spatial filtering of at least one first sound signal, computer readable storage medium and spatial filtering system based on cross-pattern coherence |
CN104853671B (zh) * | 2012-12-17 | 2019-04-30 | 皇家飞利浦有限公司 | 使用非干扰性音频分析生成信息的睡眠呼吸暂停诊断系统 |
GB201309781D0 (en) | 2013-05-31 | 2013-07-17 | Microsoft Corp | Echo cancellation |
CN104681034A (zh) * | 2013-11-27 | 2015-06-03 | 杜比实验室特许公司 | 音频信号处理 |
EP2884491A1 (en) * | 2013-12-11 | 2015-06-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Extraction of reverberant sound using microphone arrays |
US9817634B2 (en) * | 2014-07-21 | 2017-11-14 | Intel Corporation | Distinguishing speech from multiple users in a computer interaction |
GB201414352D0 (en) * | 2014-08-13 | 2014-09-24 | Microsoft Corp | Reversed echo canceller |
KR102262853B1 (ko) * | 2014-09-01 | 2021-06-10 | 삼성전자주식회사 | 복수의 마이크를 포함하는 전자 장치 및 이의 운용 방법 |
EP3295681B1 (en) * | 2015-05-15 | 2021-06-30 | Harman International Industries, Inc. | Acoustic echo cancelling system and method |
US9734845B1 (en) * | 2015-06-26 | 2017-08-15 | Amazon Technologies, Inc. | Mitigating effects of electronic audio sources in expression detection |
EP3320311B1 (en) | 2015-07-06 | 2019-10-09 | Dolby Laboratories Licensing Corporation | Estimation of reverberant energy component from active audio source |
US10244317B2 (en) | 2015-09-22 | 2019-03-26 | Samsung Electronics Co., Ltd. | Beamforming array utilizing ring radiator loudspeakers and digital signal processing (DSP) optimization of a beamforming array |
US10969316B2 (en) | 2015-09-24 | 2021-04-06 | Frito-Lay North America, Inc. | Quantitative in-situ texture measurement apparatus and method |
US10070661B2 (en) * | 2015-09-24 | 2018-09-11 | Frito-Lay North America, Inc. | Feedback control of food texture system and method |
US11243190B2 (en) | 2015-09-24 | 2022-02-08 | Frito-Lay North America, Inc. | Quantitative liquid texture measurement method |
US10598648B2 (en) | 2015-09-24 | 2020-03-24 | Frito-Lay North America, Inc. | Quantitative texture measurement apparatus and method |
US10107785B2 (en) | 2015-09-24 | 2018-10-23 | Frito-Lay North America, Inc. | Quantitative liquid texture measurement apparatus and method |
US9541537B1 (en) | 2015-09-24 | 2017-01-10 | Frito-Lay North America, Inc. | Quantitative texture measurement apparatus and method |
US9996316B2 (en) * | 2015-09-28 | 2018-06-12 | Amazon Technologies, Inc. | Mediation of wakeword response for multiple devices |
CN105427860B (zh) * | 2015-11-11 | 2019-09-03 | 百度在线网络技术(北京)有限公司 | 远场语音识别方法和装置 |
CN105702261B (zh) * | 2016-02-04 | 2019-08-27 | 厦门大学 | 带相位自校正功能的声聚焦麦克风阵列长距离拾音装置 |
WO2017147325A1 (en) | 2016-02-25 | 2017-08-31 | Dolby Laboratories Licensing Corporation | Multitalker optimised beamforming system and method |
CN106019232B (zh) * | 2016-05-11 | 2018-07-10 | 北京地平线信息技术有限公司 | 声源定位系统和方法 |
CN109310525B (zh) | 2016-06-14 | 2021-12-28 | 杜比实验室特许公司 | 媒体补偿通过和模式切换 |
US20170365255A1 (en) * | 2016-06-15 | 2017-12-21 | Adam Kupryjanow | Far field automatic speech recognition pre-processing |
CN105976822B (zh) * | 2016-07-12 | 2019-12-03 | 西北工业大学 | 基于参数化超增益波束形成器的音频信号提取方法及装置 |
JP7404067B2 (ja) | 2016-07-22 | 2023-12-25 | ドルビー ラボラトリーズ ライセンシング コーポレイション | ライブ音楽実演のマルチメディア・コンテンツのネットワーク・ベースの処理および配送 |
US10431211B2 (en) | 2016-07-29 | 2019-10-01 | Qualcomm Incorporated | Directional processing of far-field audio |
EP3285500B1 (en) * | 2016-08-05 | 2021-03-10 | Oticon A/s | A binaural hearing system configured to localize a sound source |
CN109413543B (zh) * | 2017-08-15 | 2021-01-19 | 音科有限公司 | 一种源信号提取方法、系统和存储介质 |
CN107396158A (zh) * | 2017-08-21 | 2017-11-24 | 深圳创维-Rgb电子有限公司 | 一种声控交互装置、声控交互方法和电视机 |
CN107785029B (zh) * | 2017-10-23 | 2021-01-29 | 科大讯飞股份有限公司 | 目标语音检测方法及装置 |
US10388268B2 (en) * | 2017-12-08 | 2019-08-20 | Nokia Technologies Oy | Apparatus and method for processing volumetric audio |
CN110136733B (zh) * | 2018-02-02 | 2021-05-25 | 腾讯科技(深圳)有限公司 | 一种音频信号的解混响方法和装置 |
US10522167B1 (en) * | 2018-02-13 | 2019-12-31 | Amazon Techonlogies, Inc. | Multichannel noise cancellation using deep neural network masking |
EP3579020B1 (de) * | 2018-06-05 | 2021-03-31 | Elmos Semiconductor SE | Verfahren zur erkennung eines hindernisses mit hilfe von reflektierten ultraschallwellen |
CN110888112B (zh) * | 2018-09-11 | 2021-10-22 | 中国科学院声学研究所 | 一种基于阵列信号的多目标定位识别方法 |
US20200184994A1 (en) * | 2018-12-07 | 2020-06-11 | Nuance Communications, Inc. | System and method for acoustic localization of multiple sources using spatial pre-filtering |
US11049509B2 (en) | 2019-03-06 | 2021-06-29 | Plantronics, Inc. | Voice signal enhancement for head-worn audio devices |
CN110133572B (zh) * | 2019-05-21 | 2022-08-26 | 南京工程学院 | 一种基于Gammatone滤波器和直方图的多声源定位方法 |
CN110211601B (zh) * | 2019-05-21 | 2020-05-08 | 出门问问信息科技有限公司 | 一种空域滤波器参数矩阵的获取方法、装置及系统 |
TWI699090B (zh) * | 2019-06-21 | 2020-07-11 | 宏碁股份有限公司 | 訊號處理裝置、訊號處理方法及非暫態電腦可讀取記錄媒體 |
CN110415718B (zh) * | 2019-09-05 | 2020-11-03 | 腾讯科技(深圳)有限公司 | 信号生成的方法、基于人工智能的语音识别方法及装置 |
US10735887B1 (en) * | 2019-09-19 | 2020-08-04 | Wave Sciences, LLC | Spatial audio array processing system and method |
CN112037813B (zh) * | 2020-08-28 | 2023-10-13 | 南京大学 | 一种针对大功率目标信号的语音提取方法 |
AU2022364987A1 (en) * | 2021-10-12 | 2024-02-22 | Qsc, Llc | Multi-source audio processing systems and methods |
CN114550734A (zh) * | 2022-03-02 | 2022-05-27 | 上海又为智能科技有限公司 | 音频增强方法和装置、计算机存储介质 |
CN114636971B (zh) * | 2022-04-26 | 2022-08-16 | 海南浙江大学研究院 | 一种水听器阵列数据远场信号分离方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000047699A (ja) * | 1998-07-31 | 2000-02-18 | Toshiba Corp | 雑音抑圧処理装置および雑音抑圧処理方法 |
JP2004258422A (ja) * | 2003-02-27 | 2004-09-16 | Japan Science & Technology Agency | 音源情報を用いた音源分離・抽出方法および装置 |
JP2007513530A (ja) * | 2003-08-27 | 2007-05-24 | 株式会社ソニー・コンピュータエンタテインメント | 音声入力システム |
JP2008145610A (ja) * | 2006-12-07 | 2008-06-26 | Univ Of Tokyo | 音源分離定位方法 |
JP2008219458A (ja) * | 2007-03-05 | 2008-09-18 | Kobe Steel Ltd | 音源分離装置,音源分離プログラム及び音源分離方法 |
US20090164212A1 (en) * | 2007-12-19 | 2009-06-25 | Qualcomm Incorporated | Systems, methods, and apparatus for multi-microphone based speech enhancement |
JP2009533912A (ja) * | 2006-04-13 | 2009-09-17 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 音声信号相関分離器、マルチチャンネル音声信号プロセッサ、音声信号プロセッサ、入力音声信号から出力音声信号を導き出すための方法およびコンピュータプログラム |
WO2010005050A1 (ja) * | 2008-07-11 | 2010-01-14 | 日本電気株式会社 | 信号分析装置、信号制御装置及びその方法と、プログラム |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1997011527A1 (en) * | 1995-09-22 | 1997-03-27 | Philips Electronics N.V. | Transmission system using time dependent filter banks |
EP1081985A3 (en) | 1999-09-01 | 2006-03-22 | Northrop Grumman Corporation | Microphone array processing system for noisy multipath environments |
JP3910898B2 (ja) | 2002-09-17 | 2007-04-25 | 株式会社東芝 | 指向性設定装置、指向性設定方法及び指向性設定プログラム |
US7174022B1 (en) | 2002-11-15 | 2007-02-06 | Fortemedia, Inc. | Small array microphone for beam-forming and noise suppression |
WO2007118583A1 (en) | 2006-04-13 | 2007-10-25 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio signal decorrelator |
US8233353B2 (en) | 2007-01-26 | 2012-07-31 | Microsoft Corporation | Multi-sensor sound source localization |
US8131542B2 (en) | 2007-06-08 | 2012-03-06 | Honda Motor Co., Ltd. | Sound source separation system which converges a separation matrix using a dynamic update amount based on a cost function |
US8391507B2 (en) | 2008-08-22 | 2013-03-05 | Qualcomm Incorporated | Systems, methods, and apparatus for detection of uncorrelated component |
US8724829B2 (en) | 2008-10-24 | 2014-05-13 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for coherence detection |
JP2010187363A (ja) | 2009-01-16 | 2010-08-26 | Sanyo Electric Co Ltd | 音響信号処理装置及び再生装置 |
DK2211563T3 (da) | 2009-01-21 | 2011-12-19 | Siemens Medical Instr Pte Ltd | Fremgangsmåde og apparat til blind kildeadskillelse til forbedring af interferensestimering ved binaural Weiner-filtrering |
US8583428B2 (en) * | 2010-06-15 | 2013-11-12 | Microsoft Corporation | Sound source separation using spatial filtering and regularization phases |
-
2011
- 2011-09-23 US US13/243,492 patent/US9100734B2/en not_active Expired - Fee Related
- 2011-10-07 WO PCT/US2011/055441 patent/WO2012054248A1/en active Application Filing
- 2011-10-07 KR KR1020137012859A patent/KR20130084298A/ko not_active Application Discontinuation
- 2011-10-07 JP JP2013534943A patent/JP2013543987A/ja active Pending
- 2011-10-07 EP EP11770982.4A patent/EP2630807A1/en not_active Withdrawn
- 2011-10-07 CN CN2011800510507A patent/CN103181190A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000047699A (ja) * | 1998-07-31 | 2000-02-18 | Toshiba Corp | 雑音抑圧処理装置および雑音抑圧処理方法 |
JP2004258422A (ja) * | 2003-02-27 | 2004-09-16 | Japan Science & Technology Agency | 音源情報を用いた音源分離・抽出方法および装置 |
JP2007513530A (ja) * | 2003-08-27 | 2007-05-24 | 株式会社ソニー・コンピュータエンタテインメント | 音声入力システム |
JP2009533912A (ja) * | 2006-04-13 | 2009-09-17 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 音声信号相関分離器、マルチチャンネル音声信号プロセッサ、音声信号プロセッサ、入力音声信号から出力音声信号を導き出すための方法およびコンピュータプログラム |
JP2008145610A (ja) * | 2006-12-07 | 2008-06-26 | Univ Of Tokyo | 音源分離定位方法 |
JP2008219458A (ja) * | 2007-03-05 | 2008-09-18 | Kobe Steel Ltd | 音源分離装置,音源分離プログラム及び音源分離方法 |
US20090164212A1 (en) * | 2007-12-19 | 2009-06-25 | Qualcomm Incorporated | Systems, methods, and apparatus for multi-microphone based speech enhancement |
JP2011508533A (ja) * | 2007-12-19 | 2011-03-10 | クゥアルコム・インコーポレイテッド | マルチマイクロホンベースのスピーチ強調のためのシステム、方法、および装置 |
WO2010005050A1 (ja) * | 2008-07-11 | 2010-01-14 | 日本電気株式会社 | 信号分析装置、信号制御装置及びその方法と、プログラム |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2019198306A1 (ja) * | 2018-04-12 | 2021-02-12 | 日本電信電話株式会社 | 推定装置、学習装置、推定方法、学習方法及びプログラム |
JP2021081654A (ja) * | 2019-11-21 | 2021-05-27 | パナソニックIpマネジメント株式会社 | 音響クロストーク抑圧装置および音響クロストーク抑圧方法 |
JP7486145B2 (ja) | 2019-11-21 | 2024-05-17 | パナソニックIpマネジメント株式会社 | 音響クロストーク抑圧装置および音響クロストーク抑圧方法 |
WO2021166808A1 (ja) * | 2020-02-18 | 2021-08-26 | Kddi株式会社 | 複数のマイクロフォンの収音信号をミキシングする装置、方法及びコンピュータ可読記憶媒体 |
JP2021132261A (ja) * | 2020-02-18 | 2021-09-09 | Kddi株式会社 | 複数のマイクロフォンの収音信号をミキシングする装置、プログラム及び方法 |
JP7217716B2 (ja) | 2020-02-18 | 2023-02-03 | Kddi株式会社 | 複数のマイクロフォンの収音信号をミキシングする装置、プログラム及び方法 |
US12022267B2 (en) | 2020-02-18 | 2024-06-25 | Kddi Corporation | Apparatus, method and computer-readable storage medium for mixing collected sound signals of microphones |
JP7549742B2 (ja) | 2020-10-22 | 2024-09-11 | グーグル エルエルシー | マルチチャネル音声アクティビティ検出 |
Also Published As
Publication number | Publication date |
---|---|
US20120099732A1 (en) | 2012-04-26 |
US9100734B2 (en) | 2015-08-04 |
KR20130084298A (ko) | 2013-07-24 |
EP2630807A1 (en) | 2013-08-28 |
WO2012054248A1 (en) | 2012-04-26 |
CN103181190A (zh) | 2013-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2013543987A (ja) | 遠距離場マルチ音源追跡および分離のためのシステム、方法、装置およびコンピュータ可読媒体 | |
US10979805B2 (en) | Microphone array auto-directive adaptive wideband beamforming using orientation information from MEMS sensors | |
CN108370470B (zh) | 会议系统以及会议系统中的语音获取方法 | |
JP6121481B2 (ja) | マルチマイクロフォンを用いた3次元サウンド獲得及び再生 | |
JP5323995B2 (ja) | マルチチャネル信号の残響除去のためのシステム、方法、装置、およびコンピュータ可読媒体 | |
US8965546B2 (en) | Systems, methods, and apparatus for enhanced acoustic imaging | |
US9984702B2 (en) | Extraction of reverberant sound using microphone arrays | |
US9485574B2 (en) | Spatial interference suppression using dual-microphone arrays | |
CN102164328B (zh) | 一种用于家庭环境的基于传声器阵列的音频输入系统 | |
Thiergart et al. | Geometry-based spatial sound acquisition using distributed microphone arrays | |
US9143856B2 (en) | Apparatus and method for spatially selective sound acquisition by acoustic triangulation | |
US8098844B2 (en) | Dual-microphone spatial noise suppression | |
US8787587B1 (en) | Selection of system parameters based on non-acoustic sensor information | |
US8180067B2 (en) | System for selectively extracting components of an audio input signal | |
CN110140359B (zh) | 使用波束形成的音频捕获 | |
US8615392B1 (en) | Systems and methods for producing an acoustic field having a target spatial pattern | |
CN111078185A (zh) | 录制声音的方法及设备 | |
US11483646B1 (en) | Beamforming using filter coefficients corresponding to virtual microphones | |
WO2007059255A1 (en) | Dual-microphone spatial noise suppression | |
Sadeghi et al. | A proposed method to improve the WER of an ASR system in the noisy reverberant room | |
Riaz | Adaptive blind source separation based on intensity vector statistics | |
Hafizovic et al. | Speech enhancement based on a simplified generalized sidelobe canceller structure |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140708 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141008 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150414 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20150929 |