JP6246792B2

JP6246792B2 - ユーザのグループのうちのアクティブに話しているユーザを識別するための装置及び方法

Info

Publication number: JP6246792B2
Application number: JP2015511561A
Authority: JP
Inventors: キム、レ−ホン; シン、ジョンウォン; ビッサー、エリック
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2012-05-11
Filing date: 2013-05-06
Publication date: 2017-12-13
Anticipated expiration: 2033-05-06
Also published as: IN2014MN02083A; IN2014MN02078A; KR101882053B1; WO2013169618A1; EP2847764A1; CN104254819A; WO2013169621A1; EP2847763B1; US20130304476A1; CN104246878A; KR20150016494A; EP2847763A1; US9736604B2; US20130301837A1; JP2015516093A; CN104254819B; EP2847764B1; CN104246878B

Description

関連出願の相互参照
[0001]本出願は、２０１２年５月１１日に出願され、「ＡＵＤＩＯＵＳＥＲＩＮＴＥＲＡＣＴＩＯＮＲＥＣＯＧＮＩＴＩＯＮＡＮＤＣＯＮＴＥＸＴＲＥＦＩＮＥＭＥＮＴ」と題する米国仮特許出願第６１／６４５，８１８号に対する米国特許法第１１９条（ｅ）項の利益に基づく優先権を主張し、２０１２年１１月１２日に出願され、「ＡＵＤＩＯＵＳＥＲＩＮＴＥＲＡＣＴＩＯＮＲＥＣＯＧＮＩＴＩＯＮＡＮＤＣＯＮＴＥＸＴＲＥＦＩＮＥＭＥＮＴ」と題する米国非仮特許出願第１３／６７４，６９０号に対する優先権を主張するものであり、これらの出願の内容は、参照により本明細書に明確に組み込まれる。

[0002]相当量の有用な情報が、様々な時点でユーザが見ている方向を判断することから導出されることがあり、この情報は、様々な計算システムとのユーザの対話を改良するために使用され得る。したがって、視覚ベースの方式を使用する（すなわち、いくつかの様々な手段のいずれかを使用して目を追跡する）大量の注視追跡調査がすでに行われていることは意外ではない。しかしながら、ユーザの注視方向を把握することは、ユーザの関心の１つの次元に関する意味情報を与えるにすぎず、音声によってたいてい与えられる文脈情報を考慮していない。言い換えれば、様々な異なるユーザアプリケーションにおいて、音声追跡と注視追跡とを組み合わせた場合に、より豊かで、より意味のある情報が得られることになる。

[0003]文脈情報（すなわち、ユーザによって送られているか、または受信されている非視覚情報）が、オーディオベースの方式を使用して判断される。受信側におけるオーディオユーザ対話は、特定の人物または特定の音源の方にオーディオビームを誘導することによって、改良され得る。したがって、本明細書で説明する技法は、たとえば会話の文脈をユーザがより明確に理解することを可能にし得る。これらの利益を達成するために、１つまたは複数の誘導可能マイクロフォンアレイからの入力および固定マイクロフォンアレイからの入力が、オーディオベースの文脈情報（または場合によっては、視覚ベースの意味情報）が提示されている場所で誰が話しているかに対して、ある人物が誰を見ているか、またはある人物が何に注目しているかを判断するために使用され得る。

[0004]様々な実装形態では、２つの異なるタイプのマイクロフォンアレイデバイス（ＭＡＤ）が使用される。第１のタイプのＭＡＤは、ユーザの両目に対して既知の方位でユーザによって装着される誘導可能マイクロフォンアレイ（本明細書では誘導可能アレイとも呼ばれる）であり、複数のユーザが、誘導可能アレイをそれぞれ装着することができる。第２のタイプのＭＡＤは、ユーザ（ユーザのうちの１人または複数は、誘導可能アレイを使用している）と同じ音響空間に配置された固定位置マイクロフォンアレイ（本明細書では固定アレイとも呼ばれる）である。

[0005]いくつかの実装形態では、誘導可能マイクロフォンアレイは、アクティブノイズ制御（ＡＮＣ）ヘッドセットまたは補聴器の一部であり得る。たとえば、会合またはグループにおける異なるユーザまたは話者（本明細書では参加者とも呼ばれる）にそれぞれ関連付けられる複数の誘導可能アレイがあり得る。そのような状況では、固定マイクロフォンアレイが、固定アレイに対して様々な人々が位置する方向に対応するオーディオビームを使用してグループ会合中に話したり聞いたりしている様々な人々を区別するために使用されることになる。

[0006]固定アレイの区別された話者のオーディオビームと、誘導可能アレイの出力との間の相関または類似性が評価される。相関は、類似性測定の一例であるが、いくつかの類似性測定または判断技法のいずれかが使用され得る。

[0007]一実装形態では、固定アレイの区別された参加者のオーディオビームと誘導可能アレイの出力との間の類似性測定は、様々な参加者が話し、またはオーディオベースの情報を提示する中で、時間の経過に伴う参加者の注視方向を含む参加者間の社会的対話を追跡するために使用され得る。

[0008]一実装形態では、固定アレイの区別された参加者のオーディオビームと誘導可能アレイの出力との間の類似性測定は、たとえば、ターゲット参加者にズームインするために使用され得る。このズーミングは、ひいては、あるユーザ（その時点では聞き手である）が、オーディオベースの情報を提供している（すなわち、話している）別の人物を注視しているときの、ノイズフィルタ処理および増幅の改良につながる可能性がある。

[0009]一実装形態では、固定アレイの区別された参加者のオーディオビームと誘導可能アレイの出力との間の類似性測定は、ターゲット参加者向けのより良いビームを適応的に形成し、実質的に、ユーザの各々の互いに対する物理的方位をより的確に判断するために使用され得る。

[0010]この概要は、詳細な説明において以下でさらに述べる簡略化した形態の概念の選択を紹介するために提供する。この概要は、特許請求された主題の主要な特徴または本質的特徴を識別するためのものではなく、特許請求された主題の範囲を限定するために使用されるものでもない。

[0011]上記の概要ならびに例示的な実施形態についての以下の詳細な説明は、添付の図面と併せ読めば、よりよく理解される。実施形態を例示する目的で、図面には、実施形態の例示的な構造が示されているが、実施形態は、開示される特定の方法および手段に限定されない。

[0012]固定マクロフォンアレイとともに文脈情報を判断するために使用され得る誘導可能マイクロフォンアレイをそれぞれ装着しているユーザのグループの図。 [0013]誘導可能マイクロフォンアレイと固定マイクロフォンアレイとを使用してユーザ対話を判断する方法の実装形態の動作フロー。 [0014]誘導可能マイクロフォンアレイと固定マイクロフォンアレイとを使用してユーザ対話を判断する方法の別の実装形態の動作フロー。 [0015]ユーザ識別情報およびユーザがどの方向を見ているかに関する指示を提供し得る例示的なディスプレイの図。 [0016]生成され表示されることがあり、様々なユーザ対話と会合データとを示すユーザインターフェースの図。 [0017]生成され（たとえば、スマートフォンディスプレイ上に）表示されることがあり、（たとえば、会合中の）様々なユーザ対話を示すユーザインターフェースの例示的なディスプレイの図。 [0018]様々なトピックに関する様々なユーザ対話を示す例示的なディスプレイの図。 [0019]時間の経過に伴う様々なユーザ対話を示す例示的なディスプレイの図。 [0020]時間の経過に伴う様々なユーザ対話を示す別の例示的なディスプレイの図。 [0021]相互相関を使用して類似性を測定する方法の実装形態の動作フロー。 [0022]クロスキュムラントを使用して類似性を測定する方法の実装形態の動作フロー。 [0023]時間領域最小２乗適合を使用して類似性を測定する方法の実装形態の動作フロー。 [0024]周波数領域最小２乗適合を使用して類似性を測定する方法の実装形態の動作フロー。 [0025]板倉−斉藤距離を使用して類似性を測定する方法の実装形態の動作フロー。 [0026]特徴ベースの方式を使用して類似性を測定する方法の実装形態の動作フロー。 [0027]例示的なユーザインターフェースディスプレイを示す図。 [0028]ディスプレイ上の協調的ズーミングを示す例示的なユーザインターフェースディスプレイを示す図。 [0029]ターゲット参加者にズームするための方法の実装形態の動作フロー。 [0030]追加の候補眺め方向を有する例示的なユーザインターフェースディスプレイを示す図。 [0031]ターゲット話者向けのビームを適応的に精製するための方法の実装形態の動作フロー。 [0032]マイクロフォンペアに対する平面波伝搬の遠距離モデルを示す図。 [0033]線形アレイ内の複数のマイクロフォンペアを示す図。 [0034]４つの異なるＤＯＡに関する、アンラップされた（ｕｎｗｒａｐｐｅｄ）位相遅延帯に対する周波数のプロットを示す図。同じＤＯＡに関する、ラップされた位相遅延帯に対する周波数のプロットを示す図。 [0035]２つのＤＯＡ候補に関して測定された位相遅延値および算出された値の一例を示す図。 [0036]テレビジョンスクリーンの上部ふちに沿って配置されたマイクロフォンの線形アレイを示す図。 [0037]フレームに関するＤＯＡ差異を算出する一例を示す図。 [0038]ＤＯＡ推定値を算出する一例を示す図。 [0039]各周波数に関するＤＯＡ推定値を識別する一例を示す図。 [0040]所与の周波数に関する最善のマイクロフォンペアと最善のＤＯＡ候補とを識別するための算出された尤度を使用する一例を示す図。 [0041]尤度算出の一例を示す図。 [0042]スピーカーフォン応用の一例を示す図。 [0043]マイクロフォンアレイの平面内の３６０°範囲へのペアワイズＤＯＡ推定値のマッピングを示す図。 [0044]ＤＯＡ推定値内のあいまいさを示す図。ＤＯＡ推定値内のあいまいさを示す図。 [0045]観測されたＤＯＡの記号とｘ−ｙ平面のクワドラント（ｑｕａｄｒａｎｔｓ）との間の関係を示す図。 [0046]ソースがマイクロフォンの面の上部に配置された一例を示す図。ソースがマイクロフォンの面の上部に配置された一例を示す図。ソースがマイクロフォンの面の上部に配置された一例を示す図。ソースがマイクロフォンの面の上部に配置された一例を示す図。 [0047]非直交軸に沿ったマイクロフォンペアの一例を示す図。 [0048]直交ｘ軸およびｙ軸に関するＤＯＡ推定値を取得するための、図４１のアレイの使用の一例を示す図。 [0049]（たとえば、図４５に示す）２対のマイクロフォンアレイに関するペアワイズ正規化ビーム形成／ヌルビーム形成（ＢＦＮＦ）の例を示す図。（たとえば、図４５に示す）２対のマイクロフォンアレイに関するペアワイズ正規化ビーム形成／ヌルビーム形成（ＢＦＮＦ）の例を示す図。２対のマイクロフォンアレイを示す図。 [0050]ペアワイズ正規化最小分散無歪応答（ｍｉｎｉｍｕｍｖａｒｉａｎｃｅｄｉｓｔｏｒｔｉｏｎｌｅｓｓｒｅｓｐｏｎｓｅ）（ＭＶＤＲ）ＢＦＮＦの一例を示す図。 [0051]行列Ａ^HＡが悪条件でない、周波数に関するペアワイズＢＦＮＦの一例を示す図。 [0052]ステアリングベクトル（ｓｔｅｅｒｉｎｇｖｅｃｔｏｒｓ）の例を示す図。 [0053]本明細書で説明するソース方向（ｓｏｕｒｃｅｄｉｒｅｃｔｉｏｎ）推定値の積分方法のフローチャート。

[0054]その文脈によって明確に限定されない限り、「信号」という用語は、本明細書では、ワイヤ、バス、または他の伝送媒体上に表されたメモリ位置（もしくは、メモリ位置のセット）の状態を含む、その通常の意味のいずれをも示すために使用される。その文脈によって明確に限定されない限り、「発生させること（generating）」という用語は、本明細書では、計算すること（computing）または別様に生成すること（producing）など、その通常の意味のいずれをも示すために使用される。その文脈によって明確に限定されない限り、「算出すること（calculating）」という用語は、本明細書では、複数の値から計算すること（computing）、評価すること、推定すること、および／または選択することなど、その通常の意味のいずれをも示すのに使用される。その文脈によって明確に限定されない限り、「取得すること（obtaining）」という用語は、算出すること（calculating）、導出すること、（たとえば、外部デバイスから）受信すること、および／または（たとえば、記憶要素のアレイから）検索することなど、それの通常の意味のいずれをも示すのに使用される。その文脈によって明確に限定されない限り、「選択すること（selecting）」という用語は、２つ以上のセットのうちの少なくとも１つ、およびすべてよりも少数を識別すること、指示すること、適用すること、ならびに／または使用することなど、その通常の意味のいずれをも示すのに使用される。「備える（comprising）」という用語は、本明細書と特許請求の範囲とにおいて使用される場合、他の要素または演算を除外するものではない。「に基づく」（「ＡはＢに基づく」など）という用語は、（ｉ）「から導出される」（たとえば、「ＢはＡのプリカーサー（precursor）である」）、（ｉｉ）「少なくとも〜に基づく」（たとえば、「Ａは少なくともＢに基づく」）、および特定の文脈で適当な場合に、（ｉｉｉ）「に等しい」（たとえば、「ＡはＢに等しい」または「ＡはＢと同じである」）という場合を含む、それの通常の意味のいずれをも示すのに使用される。同様に、「に応答して」という用語は、「少なくとも〜に応答して」を含む、その通常の意味のいずれをも示すために使用される。

[0055]マルチマイクロフォンオーディオ感知デバイスのマイクロフォンの「位置」への言及は、文脈によって別段に規定されていない限り、マイクロフォンの音響的に敏感な面の中心の位置を示す。「チャネル」という用語は、特定の文脈に応じて、時々、信号経路を示すのに使用され、また他のときには、そのような経路によって搬送される信号を示すのに使用される。別段に規定されていない限り、「一連」という用語は、２つ以上のアイテムのシーケンスを示すのに使用される。「対数」という用語は、１０を底とする対数を示すのに使用されるが、他の底へのそのような演算の拡張は本開示の範囲内である。「周波数成分」という用語は、（たとえば、高速フーリエ変換によって生成される）信号の周波数領域表現のサンプル（または「ビン」）、あるいは信号のサブバンド（たとえば、バーク尺度またはメル尺度サブバンド）など、信号の周波数または周波数帯域のセットのうちの１つを示すのに使用される。

[0056]別段に規定されていない限り、特定の特徴を有する装置の動作のいかなる開示も、類似の特徴を有する方法を開示する（その逆も同様）ことをも明確に意図され、特定の構成による装置の動作のいかなる開示も、類似の構成による方法を開示する（その逆も同様）ことをも明確に意図される。「構成」という用語は、その特定の文脈によって示されるように、方法、装置、および／またはシステムに関して使用され得る。「方法」、「処理」、「プロセス」、および「技法」という用語は、具体的な文脈によって別段に規定されていない限り、一般的に、互換的に使用される。「装置」および「デバイス」という用語も、特定の文脈によって別段に規定されていない限り、一般的に、互換的に使用される。「要素」および「モジュール」という用語は、一般に、より大きい構成の一部分を示すのに使用される。その文脈によって明確に限定されない限り、「システム」という用語は、本明細書では、「共通の目的を果たすために相互作用する要素のグループ」を含む、その通常の意味のいずれをも示すのに使用される。

[0057]文書の一部分の参照による任意の組込みは、その部分内で言及された用語または変数の定義が、文書中の他の場所に現れ、ならびに組み込まれた部分で参照される任意の図に現れた場合、そのような定義を組み込んでいることも理解されたい。定冠詞によって最初に導入されない限り、請求要素を修正するのに使用される順序を示す用語（たとえば、「第１の」、「第２の」、「第３の」など）は、それ自体、別のものに関する請求要素の優先順位または順序を示しておらず、請求要素を、（順序を示す用語の使用を別にすれば）同じ名前を有する別の請求要素から区別しているだけである。その文脈によって明確に限定されない限り、「複数」および「セット」という用語の各々は、本明細書では、１よりも大きい整数量を示すのに使用される。

[0058]音声センサおよび様々な位置ベースの算出結果および得られた対話の改良を使用して、その時点で提示されているオーディオベースの情報（たとえば、会話の文脈および／または音源の正体）をより明確に理解するために、ユーザがある人物（または音源）の方に誘導することを可能にする、視覚、聴覚ベースの結合方式が、本明細書で説明される。

[0059]たとえば、固定アレイの区別された話者のオーディオビームと誘導可能アレイの出力との間の相関または類似性が、話者間の社会的対話を追跡するために使用され得る。相関は、類似性測定の一例にすぎず、任意の類似性測定または判断技法が使用されてよい。

[0060]より詳細には、ユーザ（本明細書では話者または参加者とも呼ばれる）のグループの社会的対話または社会的ネットワーキングの分析が、固定アレイの区別された話者のオーディオビームとグループの各ユーザにそれぞれ関連する各誘導可能アレイの出力との間の相関または他の類似性の測定に応答して生成された接続グラフを使用して実行され表示され得る。したがって、たとえば、誰が提示に積極的に関与したかに関する、またはより一般的にユーザの注目を維持する上での提示の有効性に関する有用な情報を導出するために、会合参加者間の接続グラフを使用して、参加者のグループ会合で自動社会的ネットワーク分析が実行され得る。

[0061]図１は、ユーザと同じ空間（たとえば、部屋）にある固定位置マクロフォンアレイ１５０とともに文脈情報を判断するために使用され得る誘導可能マイクロフォンアレイ１１０をそれぞれ装着しているユーザのグループの図１００である。図１に示すように、部屋（または他の画定された空間）にいるユーザグループの各ユーザ１０５は、（たとえば、適応ノイズ制御（ＡＮＣ）を実行する能力を含み得るヘッドセットとして）誘導可能マイクロフォンアレイを装着しており、固定位置マイクロフォンアレイ１５０は部屋に（たとえば、テーブルに、電話に、など）位置する。固定位置マイクロフォンアレイ１５０は、たとえば、ビデオゲームプラットフォーム、タブレット、ノートブック、もしくはスマートフォンなどの電子デバイスの一部であってよく、または独立型のデバイスもしくは実装形態であってよい。代替または追加として、固定位置マイクロフォンアレイ１５０は、分散型マイクロフォンアレイ（すなわち、分散型マイクロフォン）を備え得る。

[0062]ヘッドセットを装着しているユーザ１０５は、ユーザの物理的視覚（または「眺め」）方向に向けられた自身の誘導可能（たとえば、装着可能）マイクロフォンアレイから固定ビームパターン１２０を生成することができる。ユーザが自身の頭を動かすと、ビームパターンのユーザの眺め方向も変化する。アクティブな話者の位置は、固定マイクロフォンアレイを使用して判断され得る。誘導可能マイクロフォンアレイからのビームフォーミングされた出力（または任意のタイプの空間フィルタ処理済み出力）を各アクティブな話者に対応する固定マクロフォンアレイ出力と相関付けること、あるいはこれらの出力の類似性を判断することによって、ユーザが見ている（たとえば、注目している、耳を傾けている、など）人物の識別情報が判断され得る。各ヘッドセットは、ヘッドセットおよび／または固定アレイの間のビームの相関または類似性を分析するために、（たとえば、集中型ローカルまたはリモートコンピューティングデバイスにおける）主プロセッサと（たとえば、ワイヤレス通信リンクを介して）通信しているプロセッサを有し得る。

[0063]言い換えれば、任意の時点の固定ビームパターンが、固定マイクロフォンアレイ出力と相関付けられ得るユーザの物理的眺め方向に基づいて形成され、それにより、ターゲットユーザの社会的対話の視覚的指示を（たとえば、ハンドセット、ラップトップ、タブレット、コンピュータ、ネットブック、またはモバイルコンピューティングデバイスなどの任意のタイプのコンピューティングデバイスのディスプレイに表示される）接続グラフ１３０を介して提供することができる。したがって、誘導可能マイクロフォンアレイからのビームフォーミングされた出力を、アクティブな話している各ユーザに対応する固定マクロフォンアレイ出力と相関付けることによって、社会的対話またはネットワーク分析の追跡が実行され表示され得る。その上、眺め方向誘導可能マイクロフォンアレイからのビームフォーミングされた出力と、各アクティブな話者に対応する位置固定マイクロフォンアレイ出力との間の類似性をチェックすることによって、ユーザが見ているか、または注目している人物が識別され、ズームされ得る。

[0064]図２は、誘導可能マイクロフォンアレイと固定マイクロフォンアレイとを使用してユーザ対話を判断する方法２００の実装形態の動作フローである。２１０において、誘導可能マイクロフォンアレイおよび固定マイクロフォンアレイはそれぞれ、ほぼ同時に音声を受信する（ただし、小さい変動が検出され、ユーザの相対位置を算出するために使用されることがある）。２２０において、ビームフォーミングされた出力などの空間フィルタ処理済み出力が、誘導可能マイクロフォンアレイの各々および固定マイクロフォンアレイによって生成される。２３０において、各誘導可能マイクロフォンアレイの空間フィルタ処理済み出力が、固定マイクロフォンアレイの空間フィルタ処理済み出力と比較される。類似性または相関を判断するための既知の技法が使用され得る。２４０において、本明細書でさらに説明するように、２３０から取得された類似性または相関の情報が使用されてユーザ対話情報を判断および／または表示することができる。

[0065]図３は、誘導可能マイクロフォンアレイと固定位置マイクロフォンアレイとを使用してユーザ対話を判断する方法３００の別の実装形態の動作フローである。複数のユーザの各々は、ＡＮＣヘッドセットなど、そのような各ユーザの視覚注視方向に対応する既知の方位を有する誘導可能ステレオマイクロフォンアレイを有する。３０５において、（ＡＮＣヘッドセットにおける）誘導可能アレイの各々は固定側面ビームフォーミングを提供し、この場合に３１０において、ビームフォーミングされた出力（または任意のタイプの空間フィルタ処理済み出力）がユーザ眺め方向で（すなわち、誘導可能アレイのユーザが見ている方向で）生成される。

[0066]関連プロセッサを有する（たとえばスマートフォンにおける）固定マイクロフォンアレイは、固定マイクロフォンアレイの周りの３次元（３Ｄ）で３２０において到来方向（ＤＯＡ）推定を実行し、３２５においてアクティブな話者を区別する。３７０においてアクティブな話者の数が判断され、３８０において（たとえば、識別番号によって識別される）アクティブな話者ごとの個別の出力が生成される。一実装形態では、３３０において話者認識およびアクティブな話者のラベリングが実行され得る。

[0067]３４０において、固定アレイの区別された話者と、誘導可能アレイの出力との間の類似性が測定される。測定された類似性とＤＯＡ推定と話者ＩＤとを使用して、３５０において（話者識別情報（ＩＤ）または参加者ＩＤによる）ユーザ対話の視覚化が生成され表示され得る。３６０において各ユーザの眺め方向が、たとえば、スマートフォン座標として固定アレイに提供され得る。

[0068]以下を表示する接続グラフ（対話グラフとも呼ばれる）が生成され得る。（ａ）誰が誰に話しているか、および／もしくは耳を傾けているか、および／もしくは誰を見ているか、（ｂ）誰がグループの議論を支配および／もしくは主導しているか、ならびに／または（ｃ）誰が退屈しているか、参加していないか、および／もしくは静かであるか、など。その会合および将来の会合の効率性を支援するために、リアルタイムの会合分析が実行され得る。たとえば、会合の時間、場所（たとえば、会合場所）、話者の識別情報または参加者の識別情報、会合のトピックまたは主題、および参加者の数などの情報が表示され、分析で使用され得る。

[0069]図４は、ユーザ識別情報およびユーザがどの方向を見ているかに関する指示を提供し得る例示的なディスプレイ４０３の図４００である。ユーザ識別情報（参加者ＩＤ４０６）は、ユーザが見ている方向（参加者眺め方向４１０）とともに表示される。会合中、たとえば、参加者眺め方向４１０のこのディスプレイが生成され、会合の管理者または主導者または監督者などの利害関係者に提供されることがあり、それにより利害関係者は、会合中の様々な時間に参加者が誰を見ているかを把握することができる。図４０３では、ただ１つの参加者ＩＤ４０６および参加者眺め方向４１０が示されているが、これは限定されることが意図されていない。利害関係者は、２人以上の参加者に関するそのような情報を受信することがあり、そのような情報は、実装形態に応じて１つまたは複数のディスプレイに同時に表示され得る。ディスプレイ４０３上の表示用に生成されたデータは、メモリに記憶され、後に検索され表示され、かつリアルタイムで表示され得る。

[0070]図５は、生成され、ディスプレイ４１８上に表示されることがあり、様々なユーザ対話と会合データとを示すユーザインターフェースの図４１５である。話している参加者の識別子（ＩＤ）４２０、聞いている参加者のＩＤ４２２、および／または参加していない（たとえば、その時点で聞いていない、所定の時間量を超えて、もしくは会合の少なくとも一定の割合を聞いていない、話している参加者以外の場所を見ている、もしくは別の所定の場所もしくは方向を見ている、など）参加者のＩＤ４２４などの様々なタイプの情報が生成され、（たとえば、会合中にリアルタイムで）表示され得る。たとえば、会合中に、このディスプレイ４１０８は生成され、会合の管理者または主導者または監督者などの利害関係者に提供され得る。

[0071]会合時間４２６、会合場所４２８、会合の長さ４３０（すなわち、持続時間）、会合のトピック４３２、および会合参加者の数４３４などの追加のデータがディスプレイ４１８上に表示され得る。このデータの一部または全部が表示され得る。追加または代替として、すべての参加者のＩＤおよび本明細書でさらに説明するように生成され得る他の統計など、実装形態に応じて他のデータが表示され得る。ディスプレイ４１８上の表示用に生成された情報およびデータは、メモリに記憶され、後に検索され表示され、かつリアルタイムで表示され得る。

[0072]参加者は、会合で聞いているだけである（話していない）場合でも、参加者のマイクロフォン（誘導可能マイクロフォンアレイ）が依然として、参加者が聞いている間に見ている方向で音声を拾っているので、参加していることになることに留意されたい。したがって、参加者が話さない場合でも、参加者が聞いていることに関連付けられる分析すべき音声がなお存在することになる。

[0073]会合中の様々なユーザ対話を示すユーザインターフェースが生成され、（たとえば、スマートフォンディスプレイまたはハンドセット、ラップトップ、タブレット、コンピュータ、ネットブックもしくはモバイルコンピューティングデバイスに関連するディスプレイなどの他のコンピューティングデバイスディスプレイ上に）表示され得る。図４は、生成され（たとえば、スマートフォンディスプレイ４４３上に）表示されることがあり、（たとえば、会合中の）様々なユーザ対話を示すユーザインターフェース４４０の例示的なディスプレイの図である。この例では、各矢印４５４の方向は、誰が誰を見ているかを示している（この例では、ただ１つの矢印４５４が示されているが、実装形態および特定の時間におけるユーザ対話に応じて複数のそのような矢印が示され得る）。各矢印の厚さは、（たとえば、接続時間などに基づく）対話の相対的強さを示している。ある人物との間で矢印がないことは、そのユーザがグループ会合に関与していないことを示す。ユーザに関して、グループ会合の参加率を示すパーセンテージの数字が表示され得る。会合の主導者であることを識別するために、インジケータ４４８が表示されてよく、それぞれ、議論のうちのどれだけがある人物に向けられ、議論のうちのどれだけがその人物から向けられているかを示すパーセンテージ４５０、４５２が判断され、表示され得る。一実装形態では、参加者のグループの主導者を示すために色または強調が使用されてよい。

[0074]図６の例では、ジョンおよびマークは、比較的大きい厚い矢印４４６によって示されるように、沢山対話している。メアリーは静かにしている。（上記で図４および図５に関して、また本明細書の他の箇所で説明しているような）リアルタイム会合分析が、会合の効率性を支援するために実行され得る。たとえば、メアリーは会話の外にいるように見えるので、ジョンは（たとえば、メアリーに質問することによって）メアリーに参加するよう促し得る。

[0075]たとえば、グループの動きまたはトピックの動きを評価するために、ある時間期間に（たとえば、１カ月、１年などの間に）社会的対話プロットが累積され得る。図７は、様々なトピック４６４に関する様々なユーザ対話を示す例示的なディスプレイ４６２の図４６０である。この情報は、１つまたは複数の会合中に捕捉され、１つのメモリ（または複数のメモリ）に記憶され、後で（たとえば、データの履歴分析中に）１つまたは複数のフォーマットに表示され得る。ここでは、各参加者ＩＤ４６６が、様々なトピック４６４に関する各人の参加率４６８とともに列挙されている。

[0076]したがって、たとえば、ジェーンは「Ｄｅｓｉｇｎ」に関する会合で２０％の参加率、「ＣｏｄｅＷａｌｋｔｈｒｏｕｇｈ」に関する会合で４０％の参加率、そして「Ｄｏｃｕｍｅｎｔａｔｉｏｎ」に関する会合で１０％の参加率を有する。このデータは、たとえば、特定のトピックにどの参加者が最も適しているか、もしくは興味を持っているか、または特定のトピックに関してどの参加者がより多くの働きかけを必要とし得るかを判断するために使用され得る。参加率は、会合で話している時間量、会合で注目している時間量、会合で聞いている時間量などのような、本明細書で説明する１つまたは複数のデータ項目に基づいて判断され得る。図７にパーセンテージが示されているが、参加レベルまたは参加率の相対的な強さおよび／または弱さを識別するために、任意の相対的な測定、番号付け、または指示のシステムまたは技法が使用され得る。

[0077]どのユーザが特定のトピックに最も参加したかを示し、それにより、たとえばそのトピックに関する潜在的主導者を示す例示的なインジケータとして、図４６０では「Ｌ」が使用される。色、強調、または特定のシンボルなど、任意のインジケータが使用され得る。この例では、ジョンがＤｅｓｉｇｎに最も参加しており、ジェーンがＣｏｄｅＷａｌｋｔｈｒｏｕｇｈに最も参加しており、メアリーがＤｏｃｕｍｅｎｔａｔｉｏｎに最も参加している。したがって、これらの者はそれぞれのトピックの潜在的主導者と識別され得る。

[0078]さらに、１人または複数の会合参加者に関して、対話履歴による個人的時系列が生成され得る。したがって、会合中の単一のスナップショットまたは時間期間が捕捉され、分析され、それに関する情報が（リアルタイムまたは後にオフラインで）表示され得るだけではなく、時間の経過に伴う履歴も（たとえば、スマートフォンなどのコンピューティングデバイスまたはハンドセット、ラップトップ、タブレット、コンピュータ、ネットブックもしくはモバイルコンピューティングデバイスなどの任意のタイプのコンピューティングデバイスのメモリに）記憶され、分析され、（たとえば、スマートフォンなどのコンピューティングデバイスまたはハンドセット、ラップトップ、タブレット、コンピュータ、ネットブックもしくはモバイルコンピューティングデバイスなどの任意のタイプのコンピューティングデバイスのカレンダーまたは他のディスプレイに）表示され得る。

[0079]図８は、たとえば１つまたは複数の会合の後の履歴分析に使用され得る、時間の経過に伴う様々なユーザ対話を示す例示的なディスプレイ４７２の図４７０である。ここで、会合の日付および会合のトピックなどの情報とともに、ユーザ識別子４７４が提供される。このディスプレイ４７２上の情報４７８は、時間４７６の経過に伴って提供される。ディスプレイ４７２は、その時間期間または時点にユーザが誰を見ていたか、そのときにユーザが話していたかどうか、およびその時間期間または時点にユーザを見ていた会合参加者のパーセンテージなど、時間期間または時点ごとの情報４７８を示している。この情報４７８は、会合中の所定の時間に（たとえば、１分ごとに、５分ごとに、など）判断されるか、またはたとえば特定の時間期間にわたる平均または他の加重判断として判断され得る。この情報は、単に一例として提供されており、限定的であることは意図されておらず、追加または代替の情報が情報４７８として生成され、表示され得る。

[0080]図８に表示された情報は、会合分析およびユーザ分析に使用され得る。このようにして、図８では、ユーザであるジェーンが通常、ジェーンが話していないときにはメアリーまたはマークを見ているが、ジェーンが、ジェーンが話しているときにはジョンを見ていると判断され得る。図８はまた、ジェーンが話していないときに、ジェーンを見ている参加者のパーセンテージがゼロであるが、ジェーンが話しているときにこのパーセンテージが上昇することを示している。

[0081]対話統計も生成され、記憶され、分析され、表示され得る。たとえば、人々の間の対話の展開が追跡され、表示され得る。データが古くなるにつれて、関連性が低下し、直近のデータが最も高く重み付けされる（逆もまた同様）ように、時間の経過に伴う再帰的重み付けが使用され得る（たとえば、０．９＊履歴データ＋０．１＊最新のデータ）。このようにして、ユーザは、ユーザまたは他の人々がどの人々と、他の人々とよりも強くつながっているかを理解することが可能であり得る。より正確な対話情報を提供するために、追加の統計が分析に入れられ得る。たとえば、追加の（たとえば、より正確な）対話情報を提供するために、会合、履歴、および／または参加者対話データ（とともに）電子メール交換または他の通信から取得された対話情報が使用され得る。

[0082]図９は、時間の経過に伴う様々なユーザ対話を示す別の例示的なディスプレイ４８２の図４８０である。ここでは、ユーザであるジェーンが、対話スケール４８８および時間期間とともに識別される。図４８０は、他のユーザＩＤ４８４と過去の月４８６の記載とを示している。この例における対話スケールは、０〜１０の範囲があり、０は対話なしを表し、１０は、月４８６の各々における識別されたユーザとジェーンとの間の非常に強い対話を表す。この情報が履歴データとして生成され、提供され、たとえば、会合の参加者または主導者または監督者によって使用されて、時間の経過に伴う様々なユーザ対話を見て分析し、たとえば誰がいつ誰と最も強く対話しているかを把握することができる。

[0083]別の例として、遠隔地にいる生徒が積極的に参加しているかどうかを判断するために、オンライン学習監視が実行され得る。同様に、考えられる音声事象場所の間でユーザが見ている場所の即時認識があり得る、参加者の対話によるビデオゲーム用のアプリケーションも企図される。

[0084]図１０は、方法５００の実装形態の動作フローであり、例示的な測定として相互相関を使用するが、任意の類似性測定技法が使用され得る。５０３において、固定マイクロフォンアレイは、アクティブな話者の数Ｎとアクティブな話者の区別された音声信号とを提供する。１つの信号（音声）が固定マイクロフォンアレイによって受信される。固定マイクロフォンアレイの出力はビームを備え、各参加者に１つのビームが対応する。したがって、各参加者に個別の出力が関連付けられる。５１０において、誘導可能マイクロフォンアレイはユーザの眺め方向を提供する。ユーザごとに、個人ユーザの出力が、固定マイクロフォンアレイから出力されたビームフォーム（または他の空間フィルタ処理済み出力）の各々と相関付けられる。

[0085]５１５において、この情報を使用して位置マッピングが生成され得る。いつユーザが誰かの方に向いてその人達を見るかに関する情報が活用され得る。５０６に示すような周知の典型的な相関式が図示のように使用されてよく、ここでＥは期待値に等しく、ｃは相関値である。最大ピークがあるときはいつでも、それは強い相関の角度である。一実装形態では、物理的制約またはシステムの複雑性を使用して、最大許容時間シフトがあらかじめ判断され得る。たとえば、誘導可能マイクロフォンと固定マイクロフォンとの間の時間遅延が、誘導可能アレイを装着しているユーザのみがアクティブであるときに測定され使用され得る。従来型フレーム長２０ｍｓがほぼ７メートルに対応することに留意されたい。角度θは、聞いているユーザに対してアクティブな話者が位置する相対角度である。５１３において、固定アレイと誘導可能アレイとの間で角度θが判断され得る。

[0086]図１１は、類似性を測定する方法５２０の実装形態の動作フローであり、例示的な測定としてクロスキュムラントを使用するが、任意の類似性測定技法が使用され得る。５２３において、固定マイクロフォンアレイは、アクティブな話者の数Ｎとアクティブな話者の区別された音声信号とを提供する。１つの信号（音声）が固定マイクロフォンアレイによって受信される。固定マイクロフォンアレイの出力はビームを備え、各参加者に１つのビームが対応する。したがって、各参加者に個別の出力が関連付けられる。５３０において、誘導可能マイクロフォンアレイはユーザの眺め方向を提供する。ユーザごとに、個人ユーザの出力が、固定マイクロフォンアレイから出力されたビームフォーム（または他の空間フィルタ処理済み出力）の各々と相関付けられる。

[0087]５２５において、この情報を使用して位置マッピングが生成され得る。いつユーザが誰かの方に向いてその人達を見るかに関する情報が活用され得る。５２６に示す周知の典型的なキュムラント式が図示のように使用されてよく、ここでＥは期待値に等しく、ｃは相関値である。最大ピークがあるときはいつでも、それは強い相関の角度である。角度θは、聞いているユーザに対してアクティブな話者が位置する相対角度である。５１３において、固定アレイと誘導可能アレイとの間で角度θが判断され得る。

[0088]任意の類似性または相関の技法が使用され得ることに留意されたい。考えられる類似性測定に関して、限定されないが、以下の周知の技法など、事実上任意の距離メトリックが使用され得る。（１）許容時間調整を伴う最小２乗適合：時間領域または周波数領域、（２）特徴ベースの方式：線形予測コーディング（ＬＰＣ）またはメル周波数ケプストラル係数（ＭＦＣＣ）を使用、および（３）高位ベースの方式：クロスキュムラント、実証的カルバックライブラーダイバージェンス、または板倉−斉藤距離。

[0089]図１２は、時間領域最小２乗適合を使用して類似性を測定する方法５４０の実装形態の動作フロー図であり、図１３は、周波数領域最小２乗適合を使用して類似性を測定する方法５５０の実装形態の動作フロー図である。時間領域最小２乗適合を使用する方法５４０は、５２６のキュムラント式を使用する代わりに、５４２に示す時間領域式が図示のように使用され得ることを除いて、上述した図１１の方法５２０と同様である。同様に、方法５５０は、図１１の方法５２０と同様であるが、エネルギー正規化を使用する代わりに、５５２に示す周波数領域式とともに高速フーリエ変換（ＦＦＴ）を使用する。

[0090]図１４は、板倉−斉藤距離を使用して類似性を測定する方法５６０の実装形態の動作フローである。この技法は図１３のＦＦＴ技法に類似しているが、５６２に示す式を使用する。図１５は、特徴ベースの方式を使用して類似性を測定する方法５７０の実装形態の動作フローである。特徴抽出が、５７３および５７５に示されるように実行され、図１０の他の動作５０３、５１０、５１３、および５１５、ならびに５７２に示す式とともに使用される。

[0091]一実装形態では、固定マイクロフォンアレイの区別された話者のオーディオビームと誘導可能マイクロフォンアレイの出力との間の相関または類似性が、ターゲット話者にズームするために使用され得る。このタイプの協調的ズーミングは、所望の話者にズームするためのユーザインターフェースを提供することができる。

[0092]言い換えれば、協調的ズーミングが実行されてよく、この場合、ターゲット話者を見るだけでターゲット話者にズームするためのユーザインターフェースが、複数のデバイスを有する複数のユーザに提供される。複数のデバイスのすべての利用可能なリソースが協調的ズーミングのために結合され、それによりターゲット人物の眺め方向を改良することができるように、ヘッドセットまたはハンドセットのいずれかを介してターゲット人物においてビームフォーミングが生成され得る。

[0093]たとえば、ユーザはターゲット人物を見ることがあり、ヘッドセットまたはハンドセットのいずれか（どちらの方がターゲット人物に近い場合でも）を使用することによってターゲット人物においてビームフォーミングが生成され得る。これは、２つのマイクロフォンを有する隠しカメラを含むデバイスを使用することによって達成され得る。複数のデバイスの複数のユーザがターゲット人物を見ているとき、カメラは視覚的にその人物に焦点を当てることができる。さらに、デバイスは、（たとえば、すべての）利用可能なマイクロフォンを使用してターゲット人物の眺め方向を改良することによって、その人物に可聴的に焦点を当てる（すなわち、ズームインする）ことができる。

[0094]さらに、ターゲット人物は、他の話者をヌル化し、ターゲット人物の音声を改良することによって、可聴的にズームインされ得る。この改良も、ヘッドセットまたはハンドセット（どちらの方がターゲット人物に近い場合でも）を使用して行われ得る。

[0095]例示的なユーザインターフェースディスプレイ６００が図１６に示されている。（たとえば、スマートフォンディスプレイ６１０または他のディスプレイデバイスに表示される）ディスプレイは、アクティブユーザ位置６２０と関連エネルギー６３０とを示す。図１７は、ディスプレイ上に協調的ズーミングを示す例示的なユーザインターフェースディスプレイを示しており、ここでは、初期ディスプレイ６５０からディスプレイ６６０に示すように話者１がズームインされる。

[0096]図１８は、ターゲット人物にズームするための方法７００の実装形態の動作フローである。図３の場合のように、７１０において、（ＡＮＣヘッドセットにおける）誘導可能アレイ７０５は、固定側面ビームフォーミングを提供し、ビームフォーミングされた出力がユーザ眺め方向で（すなわち、誘導可能アレイのユーザが見ている方向で）生成される。７２０において、関連プロセッサを有する（たとえばスマートフォンにおける）固定マイクロフォンアレイ７０７は、固定マイクロフォンアレイの周りの３次元でＤＯＡ推定を実行し、アクティブな話者を区別する。アクティブな話者の数が判断され、（たとえば、識別番号によって識別される）アクティブな話者ごとの個別の出力が生成される。

[0097]一実装形態では、７３０において話者認識およびアクティブな話者のラベリングが実行され得る。７５０において、固定アレイの区別された発話者と誘導可能アレイの出力との間で、相関または類似性が判断される。７６０において、相関または類似性の測定と話者のＩＤとを使用して、ターゲットユーザが検出され、局在化され、ズームされ得る。

[0098]ユーザは、２つのマイクロフォンを有する隠しカメラなどのデバイスに置き換えられてよく、ターゲット人物を見るだけで、聴覚ならびに視覚によるズーミングによりターゲット人物に焦点が当てられ得る。

[0099]複数のデバイスを有するカムコーダアプリケーションが企図される。眺め方向が知られており、他のデバイスのすべての利用可能なマイクロフォンが使用されて、眺め方向源を改良することができる。

[00100]一実装形態では、固定アレイの区別された話者のオーディオビームと誘導可能アレイの出力との間の相関または類似性が使用されて、ターゲットユーザ向けのより良いビームを適応的に形成することができる。このようにして、固定マイクロフォンビームフォーマが適応的に精製されてよく、その結果、新しい眺め方向が固定ビームフォーマによって適応的に生成され得る。

[00101]たとえば、ヘッドセットマイクロフォンアレイのビームフォーマ出力が、固定マイクロフォンアレイのビームフォーマの眺め方向を精製するために参照として使用され得る。ヘッドセットビームフォーマ出力と最新の固定マイクロフォンアレイビームフォーマ出力との間の相関または類似性が、ヘッドセットビームフォーマ出力と眺め方向が若干移動した固定マイクロフォンアレイビームフォーマ出力との間の相関または類似性と比較され得る。

[00102]図１９は、追加の候補眺め方向８１０を有する例示的なユーザインターフェースディスプレイ８００を示している。図１９に示すように、ヘッドセットビームフォーマ出力と元の固定マイクロフォンビームフォーマ出力８２０との間の相関または類似性を活用することによって、固定ビームフォーマによる新しい候補眺め方向が生成され得る。この技法を使用して、ヘッドセットマイクロフォンビームフォーマ出力が、固定マイクロフォンビームフォーマの眺め方向を精製するために参照として使用され得る。たとえば、図１９の話者１が話していることがあり、話者１が話すとき新しい候補眺め方向が適応的に形成され得る。

[00103]図２０は、ターゲット発話者向けのビームを適応的に精製するための方法９００の実装形態の動作フローである。図３の場合のように、９１０において、（たとえば、ＡＮＣヘッドセットにおける）誘導可能アレイ９０５は、固定側面ビームフォーミングを提供し、ビームフォーミングされた出力がユーザ眺め方向で（すなわち、誘導可能アレイのユーザが見ている方向で）生成される。９２０において、関連プロセッサを有する（たとえばスマートフォンにおける）固定マイクロフォンアレイ９０７は、固定マイクロフォンアレイの周りの３次元でＤＯＡ推定を実行し、アクティブな話者を区別する。アクティブな話者の数が判断され、（たとえば、識別番号によって識別される）アクティブな話者ごとの個別の出力が生成される。図１８の場合と同様に、９５０において、固定アレイの区別された発話者と誘導可能アレイの出力との間で、相関または類似性が判断される。

[00104]図２０では続いて９６０において、判断された相関または類似性が使用されて、アクティブなユーザのＤＯＡの近くで角分解能を高め、アクティブな話者の区別が再び実行される。９７０において、高められた角分解能と誘導可能アレイの出力とを使用して、固定アレイの区別された話者と誘導可能アレイの出力との間で、別の相関または類似性の測定が判断される。次いで、９８０において、この相関または類似性の測定が使用されて、ターゲット話者にズームすることができる。

[00105]背景雑音および反響下で十分に頑強な同時の複数の音事象に関して、音声信号の各フレームに関する３次元到来方向（ＤＯＡ）を推定する方法を提供することは困難である。頑強さは信頼性が高い周波数ビンの数を最大化することによって取得され得る。マイクロフォン形状に対する特定の制約が回避され得るように、そのような方法が任意に成形されたマイクロフォンアレイ形状に適していることが望ましい場合がある。本明細書で説明されるペアワイズ１Ｄ方式は、任意の形状に適切に組み込まれることが可能である。

[00106]解決策は、そのような汎用スピーカーフォン応用または遠距離応用に関して実施され得る。そのような方式は、マイクロフォン配置制約なしに動作するように実施され得る。そのような方式はまた、（たとえば、より広いマイクロフォン間距離を有するマイクロフォン対の使用をサポートすることによって）最高でナイキスト周波数まで、かつより低い周波数に至るまで利用可能な周波数ビンを使用して、ソースを追跡するために実施され得る。追跡のために単一の対に限定するのではなく、そのような方式は、すべての利用可能な対の間で最善の対を選択するために実施され得る。そのような方式は、最高で３メートルから５メートル以上までの遠距離シナリオにおいてすら、ソース追跡をサポートして、より高いＤＯＡ分解能を提供するために使用され得る。他の潜在的な特徴は、アクティブなソースの正確な２Ｄ表現を取得することを含む。最善の結果のために、各ソースがスパース広帯域音源（sparse broadband audio source）であり、各周波数ビンがわずか１つのソースによってほぼ支配されていることが望ましい場合がある。

[00107]特定のＤＯＡの点音源から直接的にマイクロフォンの対によって受信された信号の場合、各周波数成分に関する位相遅延は異なり、マイクロフォン同士の間の間隔にも依存する。特定の周波数ビンにおける位相遅延の観測された値は、複素ＦＦＴ係数の実数項に対する複素ＦＦＴ係数の虚数項の比率の逆タンジェントとして算出され得る。図２１に示すように、特定の周波数ｆにおける位相遅延値Δφ_fは、

として、遠距離（すなわち、平面波）仮定下でソースＤＯＡに関係し得、式中、ｄは、マイクロフォン同士の間の距離を（ｍで）示し、θは、アレイ軸に直行する方向に対する到来角（半径）を示し、ｆは、周波数を（Ｈｚで）示し、ｃは、音速を（メートル毎秒で）示す。反響を伴わない、理想的な単一点音源の場合、周波数Δφ／ｆに対する位相遅延の比率は、すべての周波数にわたって同じ値

を有することになる。

[00108]そのような方式は、信号の波長がマイクロフォン同士の間の距離ｄの二倍である周波数として画定され得る、マイクロフォン対に関する空間的エイリアシング周波数によって実際には制限される。空間的エイリアシングは、特定のマイクロフォン対に関して信頼性が高い位相遅延測定値を提供するために使用され得る周波数の範囲に上限を課す位相ラッピングを引き起こす。図２３は、４つの異なるＤＯＡに関する、アンラップされた位相遅延に対する周波数のプロットを示し、図２４は、同じＤＯＡに関する、ラップされた位相遅延に対する周波数のプロットを示し、この場合、（すなわち、第１のラッピングが生じるまで）各プロットの初期部は太字で示される。測定された位相をアンラップすることによって、位相遅延測定値の有用な周波数範囲の拡大を試みることは一般に信頼性がない。

[00109]位相アンラップの代わりに、提案される方式は、測定された（たとえば、ラップされた）位相遅延をＤＯＡ候補のインベントリの各々に関するラップされた位相遅延の事前算出された値と比較する。図２５は、（雑音のある）測定された位相遅延値（灰色）、およびインベントリの２個のＤＯＡ候補に関する位相遅延値の角度に対する周波数プロット（実線および破線）を含むそのような一例を示し、この場合、位相はｐｉから-ｐｉの範囲にラップされる。次いで、ＤＯＡ候補θ_iごとに、周波数成分の範囲ｆに関して、ｉ番目のＤＯＡ候補に関する位相遅延値Δφ_{i_f}と観測された位相遅延値Δφ_{ob_f}との間の対応する誤差ｅ_iを算出して、最低誤差に対応するＤＯＡ候補値を識別することによって、観測された信号に最も整合するＤＯＡ候補が判断され得る。一例では、誤差ｅ_iは、

として、すなわち、周波数成分の所望の範囲または他のセットＦに関して観測された位相遅延値と候補位相遅延値との間の平方差の和

として表現される。各ＤＯＡ候補θ_iに関する位相遅延値Δφ_{i_f}は、ｃおよびｄの知られている値、ならびに周波数成分の所望の範囲ｆに従って、実行時間前に（たとえば、設計または製造の間に）算出されて、デバイスの使用の間にストレージから取り出されることが可能である。そのような事前算出されたインベントリは、所望の角度範囲および分解能（たとえば、１度、２度、５度、もしくは１０度など、均一分解能、または所望の不均一分解能）、ならびに（やはり均一または不均一であってよい）所望の周波数範囲および分解能をサポートするように構成され得る。

[00110]雑音に対する頑強さを高めるために、可能な限り多くの周波数ビンにわたって誤差ｅ_iを算出することが望まれる場合がある。たとえば、誤差算出が空間的エイリアシング周波数を超える周波数ビンからの項を含むことが望まれる場合がある。実際的な応用では、最大周波数ビンは、利用可能なメモリ、計算上の複雑さ、高周波数での剛体による強い反射などを含み得る、他の要因によって限定される場合がある。

[00111]音声信号は、一般に、時間周波数領域内でスパースである。ソースが周波数領域内で独立する場合、２つのソースは同時に追跡され得る。ソースが時間領域内で独立する場合、２つのソースは同じ周波数で追跡され得る。アレイが、任意の時点で区別されることになる異なるソース方向の数に少なくとも等しい、いくつかのマイクロフォンを含むことが望ましい場合がある。マイクロフォンは、（たとえば、セルラー電話もしくは専用の会議デバイスに関して一般的であるように）全方向性であってよく、または（セットトップボックスなどのデバイスに関して一般的であるように）方向性であってもよい。

[00112]そのようなマルチチャネル処理は、一般に、たとえば、スピーカーフォン応用に関するソース追跡に適用可能である。そのような技法は、受信されたマルチチャネル信号のフレームに関するＤＯＡ推定値を算出するために使用され得る。そのような方式は、各周波数ビンにおいて、位相遅延によって示される、観測された角度に対する各候補角度に関する誤差を算出することができる。その周波数ビンにおけるターゲット角は、最低誤差を有する候補である。一例では、次いで、その候補に関する尤度の測度を得るために、誤差が周波数ビンにわたって合計される。別の例では、すべての周波数ビンにわたって最も頻繁に発生するターゲットＤＯＡ候補のうちの１つまたは複数が、所与のフレームに関する１つのＤＯＡ推定値（または、複数のＤＯＡ推定値）として識別される。

[00113]そのような方法は、（たとえば、１つ未満のフレームの遅延を伴う）同時追跡結果を取得するために適用され得る。遅延は、ＦＦＴサイズおよび重複の程度に依存する。たとえば、５０％の重複と１６ｋＨｚのサンプリング周波数とを有する５１２ポイントＦＦＴの場合、結果として生じる２５６サンプル遅延は１６ミリ秒に対応する。そのような方法は、一般に、最高で２から３メートルのソースアレイ距離まで、または最高で５メートルまでさえ、ソース方向の区別をサポートするために使用され得る。

[00114]誤差はまた、分散（たとえば、個々の誤差が予測される値からそれる程度）と見なされてもよい。（たとえば、ＦＦＴを適用することによって）時間領域受信信号を周波数領域に変換することは、各ビン内のスペクトルを平均化する効果を有する。サブバンド表現（たとえば、メル尺度またはバーク尺度）が使用される場合、この平均化はなお一層明らかになる。加えて、（たとえば、一次無限インパルス応答フィルタなど、再帰的スムーザ（recursive smoother）として適用することによって）ＤＯＡ推定値に関して時間領域平滑化を実行することが望ましい場合がある。

[00115]（たとえば、二分木などの検索方策を使用すること、および／または、１つもしくは複数の前のフレームからのＤＯＡ候補選択など、知られている情報を適用することによって、）誤差算出演算の計算上の複雑さを削減することが望ましい場合がある。

[00116]方向性情報は位相遅延の点から測定され得るが、一般に、ソースＤＯＡを示す結果を得ることが所望される。結果として、位相遅延ではなく、ＤＯＡの点から、誤差を算出することが望ましい場合がある。

[00117]ＤＯＡに関する誤差ｅ_iの式は、

などのＤＯＡの関数として観測されたラップされた位相遅延に関する式が、位相ラッピングによるニア不連続性（near discontinuities）を除いて、

などのＤＯＡの関数としてアンラップされた位相遅延に関する対応する式に等しいと仮定することによって導出され得る。誤差ｅ_iは、次いで、

として表現されることが可能であり、式中、周波数ｆにおいて観測された位相遅延と候補位相遅延との間の差は、ＤＯＡに関して、

として表現される。

[00118]周波数ｆにおいて観測されたＤＯＡθ_{ob_f}とＤＯＡ候補θ_i

との間の差の式を取得するために使用される以下の一次近似：

を得るために、テイラー級数展開を実行する。この式は、ＤＯＡ

に関する誤差ｅ_iを表現するために、アンラップされた位相遅延に対する観測されたラップされた位相遅延の仮定される等値を用いて使用されることが可能であり、式中、［Ψ_{f_wr}（θ_ob），Ψ_{f_wr}（θ_i）］の値は［Δφ_{ob_f}，Δφ_{i_f}］と定義される。

[00119]縦方向（θ＝＋／−９０°）においてゼロを用いた分割を回避する目的で、代わりに、以下のように、二次近似を使用して、そのような展開を実行することが望ましい場合がある。

式中、Ａ＝（πｆｄｓｉｎθ_i）／ｃ、Ｂ＝（−２πｆｄｃｏｓθ_i）／ｃ、および

である。上の一次例にあるように、この式は、観測されたラップされた位相遅延値と候補のラップされた位相遅延値の関数に応じて、ＤＯＡに関する誤差ｅ_iを表現するために、アンラップされた位相遅延に対して観測されたラップされた位相遅延の仮定される等値を用いて使用され得る。

[00120]図２７に示すように、受信された信号の所与のフレームに関する、観測されたＤＯＡと候補ＤＯＡとの間の差は、受信されたマイクロフォン信号（たとえば、∀ｆ∈Ｆ）の複数の周波数ｆの各々において、かつ複数のＤＯＡ候補θ_iの各々に関して、そのような様式で算出され得る。図２８に示すように、所与のフレームに関するＤＯＡ推定値は、誤差ｅ_iを取得するために、フレーム内のすべての周波数ビンにわたって各候補に関して平方差を合計して、最低誤差を有するＤＯＡ候補を選択することによって判断され得る。あるいは、図２９に示すように、そのような差は、各周波数において最も整合する（すなわち、最低平方差）ＤＯＡ候補を識別するために使用され得る。フレームに関するＤＯＡ推定値は、次いで、すべての周波数ビンにわたって最も頻度の高いＤＯＡとして判断され得る。

[00121]図３１に示すように、誤差項は、各候補角度ｉと、各フレームｋとに関する周波数のセットＦの各々に関して算出され得る。算出されたＤＯＡ差または誤差に関してソースアクティビティの尤度を示すことが望ましい場合がある。そのような尤度Ｌの一例は、特定のフレーム、周波数、および角度に関して、

として表現され得る。

[00122]この式（１）の場合、特定の周波数における非常に良好な一致は、対応する尤度に他のすべての尤度を支配させる場合がある。この感受性を削減するために、以下の式にあるように、規制項λを含めることが望ましい場合がある。

[00123]周波数のセットＦに関する和が雑音によって支配されたビンからの結果を含み得るように、音声は時間と周波数の両方においてスパースになる傾向がある。以下の式にあるように、バイアス項βを含めることが望ましい場合がある。

周波数および／または時間にわたって変化し得るバイアス項は、仮定される雑音分布（たとえば、ガウス）に基づき得る。加えて、またはその代わりに、バイアス項は、（たとえば、ノイズオンリー初期フレームからの）初期の雑音推定値に基づき得る。加えて、またはその代わりに、バイアス項は、たとえば、音声アクティビティ検知モジュールによって示されるように、ノイズオンリーフレームからの情報に基づいて動的に更新され得る。

[00124]ターゲット優勢周波数ビンだけが推定値に寄与するため、雑音および反響に対して頑強であるフレームごとのＤＯＡ推定値θ_{est_k}＝ｍａｘ_iΣ_f∈FＬ（ｉ，ｆ，ｋ）を取得するために、周波数特定尤度結果は（フレーム、角度）平面上に投影され得る。この和では、誤差が大きな項は、ゼロに近接する値を有し、したがって、推定値に対する有効性はより低くなる。一部の周波数ビン内で方向性音源が優勢である場合、それらの周波数ビンにおける誤差値は、その角度に関してゼロに近くなる。また、他の周波数内で別の方向性音源が優勢である場合、それらの他の周波数ビンにおける誤差値は、その他の角度に関してゼロに近くなる。

[00125]尤度結果はまた、（たとえば、音声アクティビティ検知に関する）方向性メンバーシップ（ｍｅｍｂｅｒｓｈｉｐ）に基づいて、周波数ビンごとの尤度情報を示すように、（フレーム、周波数）平面上に投影され得る。この尤度は、音声アクティビティの尤度を示すために使用され得る。加えて、またはその代わりに、そのような情報は、たとえば、その到来方向に従って、フレームおよび／もしくは周波数成分を分類することによって、受信された信号の時間ならびに／または周波数選択的マスキングをサポートするために使用され得る。

[00126]アングログラム表現は、スペクトログラム表現に類似する。アングログラムは、各フレームにおいて、各周波数において現在のＤＯＡ候補の尤度をプロットすることによって取得され得る。

[00127]空間的エイリアシングは、広い間隔を有するマイクロフォン対の場合、低周波数で開始するため、そのような対は、一般に、高周波数には適さない。しかしながら、本明細書で説明するＤＯＡ推定方式は、位相ラッピングが始まる周波数を超える、最高でナイキスト周波数（すなわち、サンプリングレートの半分）まですら、位相遅延測定の使用を可能にする。空間的エイリアシング制約を緩和することによって、そのような方式は、より大きいマイクロフォン間間隔を有するマイクロフォン対を使用することを可能にする。大きなマイクロフォン間距離を有するアレイは、一般に、小さなマイクロフォン間距離を有するアレイよりも、低周波数でより良好な方向性を提供するため、より大きなアレイを使用することは、一般に、有用な位相遅延測定の範囲を、同様に、より低い周波数に広げる。

[00128]本明細書で説明するＤＯＡ推定原理は、（たとえば、図２２に示す）線形アレイの複数のマイクロフォン対まで拡張され得る。遠距離シナリオに関するそのような応用の一例は、（たとえば、図２６に示す）テレビジョンまたは他の大型ビデオディスプレイスクリーンのふちに沿って配置されたマイクロフォンの線形アレイである。図２２および図２６の例にあるように、マイクロフォン同士の間に不均一（たとえば、対数的）間隔を有するようにそのようなアレイを構成することが望ましい場合がある。

[00129]遠距離ソースの場合、線形アレイの複数のマイクロフォン対は、本質的に同じＤＯＡを有することになる。したがって、１つのオプションは、アレイ内の２つ以上の対からのＤＯＡ推定値の平均としてＤＯＡを推定することである。しかしながら、平均化方式は、対のうちの１つの不整合によってすら影響を受ける場合があり、これはＤＯＡ推定精度を低下させる可能性がある。あるいは、異なる周波数帯域に関して異なるマイクロフォン対が選択され得るように、アレイのマイクロフォンの２つ以上の対の中から、各周波数に関する最善のマイクロフォン対（たとえば、その周波数で最低誤差ｅ_iを提示する対）を選択することが望ましい場合がある。マイクロフォン対の空間的エイリアシング周波数において、誤差は大きくなる。結果として、そのような方式は、周波数がそのラッピング周波数に近いとき、マイクロフォン対を自動的に回避し、したがって、ＤＯＡ推定値において関連する不確実さを回避する傾向にある。より高い周波数ビンの場合、マイクロフォン同士の間により短い距離を有する対は、一般に、より良好な推定値を提供することになり、自動的に有利であり得るのに対して、より低い周波数ビンの場合、マイクロフォン同士の間により長い距離を有する対は、一般に、より良好な推定値を提供することになり、自動的に有利であり得る。図２２に示した４個のマイクロフォンの例では、マイクロフォンの６つの異なる対（すなわち、

）が可能である。

[00130]一例では、各軸に関する最善の対は、各周波数ｆに関してＰｘＩ値を算出することによって選択され、この場合、Ｐは対の数であり、Ｉはインベントリのサイズであり、各値ｅ_piは、（対ｐおよび周波数ｆに関して）観測された角度θ_pfと候補角度θ_ifとの間の平方絶対差である。各周波数ｆに関して、最低誤差値ｅ_piに対応する対ｐが選択される。この誤差値はまた、（図３０に示すように）周波数ｆにおける最善のＤＯＡ候補θ_iを示す。

[00131]マイクロフォン対によって受信された信号は、マイクロフォン対の軸に関して、最高で１８０度までの範囲にわたって推定されたＤＯＡを提供するために、本明細書で説明するように処理され得る。所望の角度スパン（ａｎｇｕｌａｒｓｐａｎ）および分解能は、（たとえば、均一（線形）または不均一（非線形）、選択された当該セクタに限定されるなど）その範囲内で任意であってよい。加えて、またはその代わりに、所望の周波数スパンおよび分解能は、（たとえば、線形、対数的、メル尺度、バーク尺度など）任意であってよい。

[00132]図２２に示すモデルでは、マイクロフォン対からの０および＋／−９０度の間の各ＤＯＡ推定値は、その対の軸に対して直交である平面に対する角度を示す。そのような推定値は、対の軸周囲の円錐形を記述し、この円錐形の表面に沿ったソースの実際の方向は不確定である。たとえば、単一のマイクロフォン対からのＤＯＡ推定値は、ソースがマイクロフォン対の前にあるか、あるいは後にあるかを示さない。したがって、周波数の範囲にわたってＤＯＡ推定性能を改善するために、線形アレイ内で２個を超えるマイクロフォンが使用されるが、線形アレイによってサポートされるＤＯＡ推定の範囲は、一般に、１８０度に限定される。

[00133]本明細書で説明するＤＯＡ推定原理はまた、マイクロフォンの２次元（２Ｄ）アレイに拡張され得る。たとえば、２Ｄアレイは、ソースＤＯＡ推定の範囲を最高で完全な３６０°まで拡張する（たとえば、レーダ走査および生体医学走査などの応用におけるのと類似の範囲を提供する）ために使用され得る。そのようなアレイは、たとえば、１つまたは複数のソースに対する電話の任意の配置に関してすら良好な性能をサポートするためにスピーカーフォン応用において使用され得る。

[00134]２Ｄアレイの複数のマイクロフォン対は、一般に、遠距離点音源に関してすら同じＤＯＡを共有しないことになる。たとえば、（たとえば、ｚ軸内の）アレイの平面に対するソース高さは、２Ｄ追跡において重要な役割を果たし得る。図３２は、マイクロフォン軸によって画定されるｘ−ｙ平面が、電話が配置される表面（たとえば、テーブルトップ）に平行なスピーカーフォン応用の一例を示す。この例では、ソースは、ｘ軸に沿っているが、ｚ軸の方向にオフセットである位置から話している（たとえば、話者の口がテーブルトップ上にある）人物である。マイクロフォンアレイによって画定されるｘ−ｙ平面に関して、ソースの方向は、図３２に示すように、ｘ軸に沿っている。ｙ軸に沿ったマイクロフォン対は、ｘ−ｚ平面からゼロ度として、ソースのＤＯＡを推定する。しかしながら、ｘ−ｙ平面上のスピーカーの高さにより、ｘ軸に沿ったマイクロフォン対は、ソースのＤＯＡを、ｘ軸に沿ってではなく、ｘ軸から３０°（すなわち、ｙ−ｚ平面から６０度）と推定する。図３４および図３５は、マイクロフォン軸に関して推定されたスピーカー方向にあいまいさを生じさせる、このＤＯＡ推定値と関連付けられる乱信号円錐域の２つのビューを示す。

[00135]式中、θ₁およびθ₂が、それぞれ、対１および２に関して推定されたＤＯＡである、

などの式は、ＤＯＡのすべての対を３個のマイクロフォンが配置された面内の３６０°範囲に投影するために使用され得る。そのような投影は、高さの差にかかわらず、アクティブなスピーカーの追跡方向がマイクロフォンアレイ周囲の３６０°範囲を超えることを可能にするために使用され得る。図３２のＤＯＡ推定（０°，６０°）をｘ−ｙ平面に投影するための上の式の適用は、図３３に示すような２７０°の結合された方向性推定値（たとえば、アジマス）にマップされ得る

を生成する。

[00136]一般的な使用事例では、ソースは、マイクロフォン軸上に投影されない方向内に配置されることになる。図３７〜図４０は、ソースＳ０１がマイクロフォンの面の上部に配置された一例を示す。この例では、ソース信号のＤＯＡは点（ｘ，ｙ，ｚ）＝（５，２，５）を通過する。図３７は、＋ｚ方向から見たｘ−ｙ平面を示す。図３８および図４０は、マイクロフォンＭＣ３０の方向から見たｘ−ｚ平面を示し、図３９は、マイクロフォンＭＣ１０の方向から見たｙ−ｚ平面を示す。図３７の影付き領域は、ｙ軸マイクロフォン対ＭＣ２０〜ＭＣ３０によって観測された、ＤＯＡθ₁に関連する乱信号円錐域ＣＹを示し、図３８の影付き領域は、ｘ軸マイクロフォン対ＭＣ１０〜ＭＣ２０によって観測されたＤＯＡθ₂に関連する乱信号円錐域ＣＸを示す。図３９で、影付き領域は、円錐域ＣＹを示し、破線の円はソースを通過し、かつｘ軸に対して直交な円錐域ＣＸの交差を示す。円錐域ＣＹとのその交差を示す、この円上の２つの点は、ソースの候補位置である。同様に、図４０で、影付き領域は、円錐域ＣＸを示し、破線の円は、ソースを通過し、かつｙ軸に対して直交な平面との円錐域ＣＹの交差を示し、円錐域ＣＸとの交差を示す、この円上の２つの点は、ソースの候補位置である。この２Ｄ事例では、ソースがｘ−ｙ面の上にあるかまたは下にあるかに関してあいまいさが残ることを理解されよう。

[00137]図３７〜図４０に示す例の場合、ｘ軸マイクロフォン対ＭＣ１０〜ＭＣ２０によって観測されたＤＯＡは、

であり、ｙ軸マイクロフォン対ＭＣ２０〜ＭＣ３０によって観測されたＤＯＡは

である。これらの方向をｘ−ｙ平面に投影するために式（４）を使用することは、所与のソース位置（ｘ，ｙ，ｚ）＝（５，２，５）に対応する、それぞれ、ｘおよびｙ軸に対する所望の角度の大きさ（２１．８°、６８．２°）を生成する。観測された角度の信号は、図３６に示すように、ソースが配置されるｘ−ｙクワドラントを示す。

[00138]実際に、上下の混乱を除いて、２Ｄマイクロフォンアレイによって、ほぼ３Ｄ情報が与えられる。たとえば、マイクロフォン対ＭＣ１０〜ＭＣ２０およびＭＣ２０〜ＭＣ３０によって観測された到来方向は、ｘ−ｙ平面に対するソースの上昇の角度の大きさを推定するためにも使用され得る。ｄがマイクロフォンＭＣ２０からソースまでのベクトルを示す場合、ｘ軸、ｙ軸、およびｘ−ｙ平面上へのベクトルｄの投影の長さは、それぞれ、ｄｓｉｎ（θ₂）、ｄｓｉｎ（θ₁）、および

として表現され得る。上昇の角度の大きさは、次いで、

として推定され得る。

[00139]図３２〜３３、および図３７〜４０の特定の例におけるマイクロフォン対は直交軸を有するが、非直交軸を有するマイクロフォン対の場合、それらの非直交軸に対するＤＯＡ推定値を投影するために、式（４）が使用され得、その点から、直交軸に関して結合された方向性推定値の表現を得ることは容易であることに留意されたい。図４１は、対ＭＣ２０〜ＭＣ３０の軸１がｘ−ｙ面にあり、かつスキュー角θ₀だけｙ軸に対して歪んでいるマイクロフォンアレイＭＣ１０〜ＭＣ２０〜ＭＣ３０の一例を示す。

[00140]図４２は、図４１に示したアレイからの観測値（θ₁，θ₂）を用いて、直交軸ｘおよびｙに関するｘ−ｙ平面内の結合された方向性推定値を取得する一例を示す。ｄがマイクロフォンＭＣ２０からソースまでのベクトルを示す場合、ｘ軸および軸１上へのベクトルｄの投影の長さは、それぞれ、ｄｓｉｎ（θ₂）およびｄｓｉｎ（θ₁）として表現され得る。ベクトル（ｘ，ｙ）は、ｘ−ｙ平面上へのベクトルｄの投影を示す。ｘの推定値は知られており、その推定値は依然としてｙの値を推定する。

[00141]ｙの推定は、軸１上へのベクトル（ｘ，ｙ）の投影ｐ₁＝（ｄｓｉｎθ₁ｓｉｎθ₀、ｄｓｉｎθ₁ｃｏｓθ₀）を使用して実行され得る。ベクトル（ｘ，ｙ）とベクトルｐ₁との間の差がｐ₁に対して直交であることを観測して、

としてｙを算出する。直交ｘおよびｙ軸に対するｘ−ｙ平面の所望の到来角度は、この場合、

としてそれぞれ表現され得る。

[00142]２ＤアレイへのＤＯＡ推定の展開は、一般に、スピーカーフォン応用に適切であり、スピーカーフォン応用にとって十分である。しかしながら、Ｎ次元アレイへのさらなる展開も可能であり、簡単な様式で実行され得る。１つのターゲットが優勢である追跡応用の場合、Ｎ次元を表すためにＮ個の対を選択することが望まれる場合がある。特定のマイクロフォン対に関して２Ｄ結果が取得されると、自由度を高めるために別の利用可能な対が利用され得る。たとえば、図３７〜４２は、ｘ−ｙ平面に投影されるソース方向の推定値を得るために、ｘ−ｙ平面の異なるマイクロフォン対から観測されたＤＯＡ推定値を使用することを例示する。同じように、ｘ軸マイクロフォン対およびｚ軸マイクロフォン対（または、ｘ−ｚ平面の他の対）から観測されたＤＯＡ推定値は、ｘ−ｚ平面に投影されたソース方向の推定値、同様に、ｙ−ｚ平面、または３つ以上のマイクロフォンを交差する任意の他の平面に関する推定値を取得するために使用され得る。

[00143]異なる次元からのＤＯＡ誤差の推定値は、たとえば、

などの式を使用して、結合された尤度推定値を得るために使用されることが可能であり、式中、θ_0,iは、対ｉに関して選択されたＤＯＡ候補を示す。乱信号円錐域のうちの１つだけに近く、したがって、誤ったピークを示す可能性がある推定値に優先して、異なる誤差の中の最大値を使用することは、両方の観測値の乱信号円錐域に近い推定値の選択を促すために望ましい場合がある。そのような結合された結果は、本明細書で説明する（フレーム、角度）平面、および／または本明細書で説明する（フレーム、周波数）プロットを取得するために使用され得る。

[00144]本明細書で説明するＤＯＡ推定原理は、複数の話者の中からの選択をサポートするために使用され得る。たとえば、複数のソースの位置は、特定の話者の手動選択（たとえば、特定の対応するユーザを選択するために特定のボタンを押下すること）または特定の話者の（たとえば、話者認識による）自動的選択と結合され得る。１つのそのような応用では、電話は、その所有者の音声を認識して、他のソースの方向に優先して、その音声に対応する方向を自動的に選択するように構成される。

[00145]ソースＤＯＡは、１Ｄ、たとえば、−９０°から＋９０°で容易に画定され得る。任意の相対的位置で２個を超えるマイクロフォンの場合、上で説明した１Ｄの単純な展開、たとえば、２Ｄの２対事例では（θ１，θ２）、３Ｄの３対事例では（θ１，θ２，θ３）などを使用することが提案される。

[00146]主な問題は、対にされた１ＤＤＯＡ推定値をそのように結合するために、空間フィルタリングをどのように適用するかである。この場合、各対に関するステアリングベクトルを拡大することによって、図４３に示すビーム形成器／ヌル形成器（ＢＦＮＦ）を適用することができる。この図では、Ａ^Hは、Ａの共役転置を示し、ｘは、マイクロフォンチャネルを示し、ｙは空間フィルタリングされたチャネルを示す。図４３に示す疑似逆演算Ａ⁺＝（Ａ^HＡ）^-1Ａ^Hを使用することは、非正方行列の使用を可能にする。例えば図４５に例示する、３個のマイクロフォン事例（すなわち、２個のマイクロフォン対）の場合、追加の行が行列を非正方にするように、行の数は、３の代わりに、２^*２＝４である。

[00147]図４３に示す方式は頑強な１ＤＤＯＡ推定に基づくため、マイクロフォン形状の完全な知識は必要とされず、同時にすべてのマイクロフォンを使用するＤＯＡ推定も必要とされない。そのような方式は、本明細書で説明するアングログラムベースのＤＯＡ推定に使用するのに好適であるが、任意の他の１ＤＤＯＡ推定方法も使用され得る。図４４は、空間的エイリアシング周波数における悪条件の反転を防ぐための正規化係数をやはり含む、図４３に示すＢＦＮＦＢＦ１０の一例を示す。

[00148]図４６は、従来の方式とは異なってステアリングベクトル（アレイマニホールドベクトル）が取得される、ペアワイズ（ＰＷ）正規化ＭＶＤＲ（最小分散無歪応答）ＢＦＮＦの一例を示す。この場合、２個の対同士の間のマイクロフォンの共有による共通チャネルが推定される。測定によって、またはシンク関数を使用した理論算出によって、雑音コヒーレンス行列（noise coherence matrix）Γが取得され得る。図４３、図４４、および図４６の例は、Ｎ≦Ｍになるように、ソースの任意の数Ｎに一般化され得、式中、Ｍはマイクロフォンの数であることに留意されたい。

[00149]図４７は、条件数または行列の行列式を使用して判断され得る、行列Ａ^HＡが悪条件でない場合に使用され得る別の例を示す。行列が悪条件である場合、行列Ａ^HＡが悪条件でない他の周波数ビンを空間フィルタリングするための方法を適用し続けると同時に、ソースチャネルとして使用するために、その周波数ビンに関して１個のマイクロフォン信号を迂回することが望ましい場合がある。このオプションは正規化のための分母を算出するための計算を省く。図４３〜４７の方法は、各周波数ビンにおいて独立して適用され得るＢＦＮＦ技法を示す。ステアリングベクトルは、本明細書で説明する各周波数およびマイクロフォン対に関するＤＯＡ推定値を使用して構築される。たとえば、ＤＯＡθｉ、周波数ｆ、およびマクロフォン数ｍ（１または２）に関する対ｐならびにソースｎ用のステアリングベクトルの各要素は、

と算出され得、式中、ｌ_pは、対ｐのマイクロフォン同士の間の距離を示し、ωは、周波数ビン番号を示し、ｆ_sはサンプリング周波数を示す。図４８は、図４５に示すアレイのステアリングベクトルの例を示す。

[00150]ＰＷＢＦＮＦ方式は、最高で利用可能な自由度まで干渉の直接経路を抑圧（平滑軌道仮定を伴わない瞬時抑圧、方向マスキングを使用した追加の雑音抑圧利得、帯域幅拡大を使用した追加の雑音抑圧利得）するために使用され得る。クワドラントフレームワークのシングルチャネル後処理は、定常雑音および雑音基準処理のために使用され得る。

[00151]瞬時抑圧を取得すること、また音楽雑音などのアーティファクトの最小化を実現することが望ましい場合がある。ＢＦＮＦに関して利用可能な自由度を最大限に使用することが望ましい場合がある。１個のＤＯＡがすべての周波数にわたって固定されてよく、または周波数にわたる若干不整合な整合は許可されてよい。現在のフレームだけが使用され得るか、またはフィードフォワードネットワーク（feed-forward network）が実施され得る。ＢＦＮＦは、（たとえば、悪条件の周波数を除く）最高でナイキストレートまでの範囲ですべての周波数に関して設定され得る。（たとえば、アグレッシブネス（aggressiveness）の平滑な自然の継ぎ目のない遷移を得るために）自然マスキング方式が使用され得る。

[00152]図４９は、本明細書で説明する積分方法に関する一例のフローチャートを示す。この方法は、位相遅延推定のためのインベントリ整合タスクと、ＤＯＡ誤差分散値を取得するための分散算出タスクと、次元整合および／または対選択タスクと、選択されたＤＯＡ候補に関するＤＯＡ誤差分散をソースアクティビティ尤度推定値にマッピングするためのタスクとを含む。ペアワイズＤＯＡ推定結果はまた、１つもしくは複数のアクティブ話者を追跡するため、ペアワイズ空間フィルタリング演算を実行するため、ならびにあるいは時間および／または周波数選択マスキングを実行するために使用され得る。アクティビティ尤度推定および／または空間フィルタリング演算はまた、シングルチャネル雑音抑圧動作をサポートするための雑音推定値を取得するために使用され得る。

[00153]本明細書で開示した方法および装置は、概して任意の送受信および／または音声感知応用、特にそのような応用のモバイル事例または他の持ち運び可能事例において適用され得る。たとえば、本明細書で開示した構成の範囲は、符号分割多元接続（ＣＤＭＡ）オーバージエアインターフェースを用いるように構成されたワイヤレステレフォニー通信システム内に常駐する通信デバイスを含む。とはいえ、本明細書で説明した特徴を有する方法および装置は、ワイヤードおよび／またはワイヤレス（たとえば、ＣＤＭＡ、ＴＤＭＡ、ＦＤＭＡ、および／またはＴＤ−ＳＣＤＭＡ）送信チャネルを介したボイスオーバＩＰ（ＶｏＩＰ）を用いるシステムなど、当業者に知られている広範囲の技術を用いる様々な通信システムのいずれの中にも常駐し得ることが、当業者には理解されよう。

[00154]本明細書で開示した通信デバイスは、パケット交換式であるネットワーク（たとえば、ＶｏＩＰなどのプロトコルに従ってオーディオ送信を搬送するように構成されたワイヤードおよび／もしくはワイヤレスネットワーク）ならびに／または回線交換式であるネットワークにおける使用に適応され得ることが明確に企図され、本明細書によって開示される。また、本明細書で開示した通信デバイスは、狭帯域コーディングシステム（たとえば、約４または５キロヘルツの可聴周波数範囲を符号化するシステム）での使用、ならびに／または全帯域広帯域コーディングシステムおよびスプリットバンド広帯域コーディングシステムを含む、広帯域コーディングシステム（たとえば、５キロヘルツを超える可聴周波数を符号化するシステム）での使用に適応し得ることが明確に企図され、本明細書によって開示される。

[00155]本明細書で説明した通信デバイスの送信機および／または受信機とともに使用され得る、またはそれらとともに使用するように適応され得るコーデックの例としては、「ＥｎｈａｎｃｅｄＶａｒｉａｂｌｅＲａｔｅＣｏｄｅｃ，ＳｐｅｅｃｈＳｅｒｖｉｃｅＯｐｔｉｏｎｓ３，６８，ａｎｄ７０ｆｏｒＷｉｄｅｂａｎｄＳｐｒｅａｄＳｐｅｃｔｒｕｍＤｉｇｉｔａｌＳｙｓｔｅｍｓ」と題するＴｈｉｒｄＧｅｎｅｒａｔｉｏｎＰａｒｔｎｅｒｓｈｉｐＰｒｏｊｅｃｔ２（３ＧＰＰ２）文書Ｃ．Ｓ００１４−Ｃ、ｖ１．０、２００７年２月（ｗｗｗ．３ｇｐｐ．ｏｒｇでオンライン入手可能）に記載されているＥｎｈａｎｃｅｄＶａｒｉａｂｌｅＲａｔｅＣｏｄｅｃ、「ＳｅｌｅｃｔａｂｌｅＭｏｄｅＶｏｃｏｄｅｒ（ＳＭＶ）ＳｅｒｖｉｃｅＯｐｔｉｏｎｆｏｒＷｉｄｅｂａｎｄＳｐｒｅａｄＳｐｅｃｔｒｕｍＣｏｍｍｕｎｉｃａｔｉｏｎＳｙｓｔｅｍｓ」と題する３ＧＰＰ２文書Ｃ．Ｓ００３０−０、ｖ３．０、２００４年１月（ｗｗｗ．３ｇｐｐ．ｏｒｇでオンライン入手可能）に記載されているＳｅｌｅｃｔａｂｌｅＭｏｄｅＶｏｃｏｄｅｒ音声コーデック、文書ＥＴＳＩＴＳ１２６０９２Ｖ６．０．０（ＥｕｒｏｐｅａｎＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＳｔａｎｄａｒｄｓＩｎｓｔｉｔｕｔｅ（ＥＴＳＩ）、ＳｏｐｈｉａＡｎｔｉｐｏｌｉｓＣｅｄｅｘ、ＦＲ、２００４年１２月）に記載されているＡｄａｐｔｉｖｅＭｕｌｔｉＲａｔｅ（ＡＭＲ）音声コーデック、および文書ＥＴＳＩＴＳ１２６１９２Ｖ６．０．０．（ＥＴＳＩ、２００４年１２月）に記載されているＡＭＲＷｉｄｅｂａｎｄ音声コーデックがある。そのようなコーデックは、たとえば、受信されたワイヤレス通信信号からの再生されたオーディオ信号を回復するために使用され得る。

[00156]説明した構成の提示は、本明細書で開示した方法および他の構造を当業者が製造または使用できるように提供されたものである。本明細書で図示および説明したフローチャート、ブロック図、および他の構造は例にすぎず、これらの構造の他の変形態も本開示の範囲内である。これらの構成に対する様々な変更が可能であり、本明細書で提示した一般原理は他の構成にも同様に適用され得る。したがって、本開示は、上記に示した構成に限定されることが意図されず、原開示の一部をなす、出願した添付の特許請求の範囲を含む、本明細書において任意の方法で開示した原理および新規の特徴に一致する最も広い範囲が与えられるべきである。

[00157]情報および信号は、多種多様な技術および技法のいずれかを使用して表され得ることを当業者なら理解されよう。たとえば、上の説明全体にわたって言及され得るデータ、命令、コマンド、情報、信号、ビット、およびシンボルは、電圧、電流、電磁波、磁界もしくは磁性粒子、光場もしくは光学粒子、またはそれらの任意の組合せによって表され得る。

[00158]本明細書で開示した構成の実装形態の重要な設計要件は、圧縮されたオーディオもしくはオーディオビジュアル情報（たとえば、本明細書で識別される例のうちの１つなど、圧縮形式に従って符号化されるファイルまたはストリーム）の再生などの計算集約的適用例、または広帯域通信（たとえば、１２、１６、３２、４４．１、４８、または１９２ｋＨｚなど、８キロヘルツよりも高いサンプリングレートにおける音声通信）の応用では特に、（一般に百万命令毎秒またはＭＩＰＳで測定される）処理遅延および／または計算複雑さを最小にすることを含み得る。

[00159]本明細書で開示した装置（たとえば、本明細書で説明した技法を実行するように構成された任意の装置）は、意図された応用に適すると見なされる、ソフトウェアとの、および／またはファームウェアとのハードウェアの任意の組合せで実装され得る。たとえば、そのような装置の要素は、たとえば、同じチップ上に、またはチップセット中の２つ以上のチップ間に常駐する電子デバイスおよび／または光デバイスとして作製され得る。そのようなデバイスの一例は、トランジスタもしくは論理ゲートなどの論理要素の固定アレイまたはプログラマブルアレイであり、これらの要素のいずれも１つもしくは複数のそのようなアレイとして実装され得る。これらの要素のうちの任意の２つ以上、さらにはすべてが、同じ１つまたは複数のアレイ内に実装され得る。そのような１つまたは複数のアレイは、１つまたは複数のチップ内（たとえば、２つ以上のチップを含むチップセット内）に実装され得る。

[00160]本明細書で開示した装置の様々な実装形態の１つまたは複数の要素は、全体または一部が、マイクロプロセッサ、組込みプロセッサ、ＩＰコア、デジタル信号プロセッサ、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）、ＡＳＳＰ（特定用途向け標準製品）、およびＡＳＩＣ（特定用途向け集積回路）などの論理要素の１つもしくは複数の固定アレイまたはプログラマブルアレイ上で実行するように構成された命令の１つもしくは複数のセットとして実装され得る。本明細書で開示した装置の実装形態の様々な要素のいずれも、１つもしくは複数のコンピュータ（たとえば、「プロセッサ」とも呼ばれる、命令の１つもしくは複数のセットまたはシーケンスを実行するようにプログラムされた１つもしくは複数のアレイを含む機械）としても実施されることが可能であり、これらの要素のうちの任意の２つ以上、さらにはすべてが、同じそのような１つもしくは複数のコンピュータ内に実装され得る。

[00161]本明細書で開示したプロセッサまたは処理するための他の手段は、たとえば、同じチップ上に、またはチップセット中の２つ以上のチップ間に常駐する１つもしくは複数の電子デバイスおよび／または光デバイスとして作製され得る。そのようなデバイスの一例は、トランジスタもしくは論理ゲートなどの論理要素の固定アレイまたはプログラマブルアレイであり、これらの要素のいずれも１つもしくは複数のそのようなアレイとして実装され得る。そのような１つまたは複数のアレイは、１つまたは複数のチップ内（たとえば、２つ以上のチップを含むチップセット内）に実装され得る。そのようなアレイの例としては、マイクロプロセッサ、組込みプロセッサ、ＩＰコア、ＤＳＰ、ＦＰＧＡ、ＡＳＳＰ、およびＡＳＩＣなど、論理要素の固定アレイまたはプログラマブルアレイがある。本明細書で開示さしたプロセッサまたは処理するための他の手段は、１つまたは複数のコンピュータ（たとえば、命令の１つもしくは複数のセットまたはシーケンスを実行するようにプログラムされた、１つもしくは複数のアレイを含む機械）、あるいは他のプロセッサとしても実施され得る。本明細書で説明したプロセッサは、プロセッサが組み込まれているデバイスまたはシステム（たとえば、オーディオ感知デバイス）の別の演算に関係するタスクなど、本明細書で説明した実装形態の手順に直接関係しないタスクを実施するか、または命令の他のセットを実行するために使用されることが可能である。また、本明細書で開示した方法の一部はオーディオ感知デバイスのプロセッサによって実行され、その方法の別の一部は１つまたは複数の他のプロセッサの制御下で実行されることが可能である。

[00162]本明細書で開示した構成に関して説明した様々な例示的なモジュール、論理ブロック、回路、およびテストならびに他の動作は、電子ハードウェア、コンピュータソフトウェア、またはその両方の組合せとして実装され得ることを、当業者は諒解されよう。そのようなモジュール、論理ブロック、回路、および動作は、本明細書で開示した構成を生成するように設計された、汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、ＡＳＩＣもしくはＡＳＳＰ、ＦＰＧＡもしくは他のプログラマブル論理デバイス、個別ゲートもしくはトランジスタ論理、個別ハードウェア構成要素、またはそれらの任意の組合せを用いて実装または実施され得る。たとえば、そのような構成は、少なくとも部分的に、ハードワイヤード回路として、特定用途向け集積回路へと作製された回路構成として、あるいは不揮発性記憶装置にロードされるファームウェアプログラム、または汎用プロセッサもしくは他のデジタル信号処理ユニットなどの論理要素のアレイによって実行可能な命令である機械可読コードとしてデータ記憶媒体からロードされるかもしくはデータ記憶媒体にロードされるソフトウェアプログラムとして実装され得る。汎用プロセッサはマイクロプロセッサであってよいが、代替として、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態機械であってよい。プロセッサは、コンピューティングデバイスの組合せ、たとえば、ＤＳＰおよびマイクロプロセッサの組合せ、複数のマイクロプロセッサ、ＤＳＰコアと連係する１つもしくは複数のマイクロプロセッサ、またはいかなる他のそのような構成としても実施され得る。ソフトウェアモジュールは、ＲＡＭ（ランダムアクセスメモリ）、ＲＯＭ（読取り専用メモリ）、フラッシュＲＡＭなどの不揮発性ＲＡＭ（ＮＶＲＡＭ）、消去可能プログラマブルＲＯＭ（ＥＰＲＯＭ）、電気的消去可能プログラマブルＲＯＭ（ＥＥＰＲＯＭ（登録商標））、レジスタ、ハードディスク、リムーバブルディスク、もしくはＣＤ−ＲＯＭなど、非一時的記憶媒体中に、または当技術分野で知られている任意の他の形態の記憶媒体中に常駐し得る。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるように、プロセッサに結合される。代替として、記憶媒体はプロセッサと一体であってもよい。プロセッサおよび記憶媒体はＡＳＩＣ内に存在し得る。ＡＳＩＣはユーザ端末内に常駐し得る。代替として、プロセッサおよび記憶媒体は、ユーザ端末中に個別コンポーネントとして常駐し得る。

[00163]本明細書で開示した様々な方法は、プロセッサなどの論理要素のアレイによって実行され得、本明細書で説明した装置の様々な要素は、そのようなアレイ上で実行するように設計されたモジュールとして実装され得ることに留意されたい。本明細書で使用する「モジュール」または「サブモジュール」という用語は、ソフトウェア、ハードウェアまたはファームウェアの形態でコンピュータ命令（たとえば、論理式）を含む任意の方法、装置、デバイス、ユニットまたはコンピュータ可読データ記憶媒体を指し得る。複数のモジュールまたはシステムを１つのモジュールまたはシステムに結合することができ、１つのモジュールまたはシステムを、同じ機能を実行する複数のモジュールまたはシステムに分離することができることを理解されたい。ソフトウェアまたは他のコンピュータ実行可能命令で実装されるとき、プロセスの要素は本質的に、ルーチン、プログラム、オブジェクト、構成要素、データ構造などを用いてなど、関連するタスクを実施するコードセグメントである。「ソフトウェア」という用語は、ソースコード、アセンブリ言語コード、機械コード、バイナリコード、ファームウェア、マクロコード、マイクロコード、論理要素のアレイによって実行可能な命令の１つもしくは複数のセットまたはシーケンス、およびそのような例の任意の組合せを含むことを理解されたい。プログラムまたはコードセグメントは、プロセッサ可読媒体に記憶されてよく、または、搬送波に埋め込まれたコンピュータデータ信号によって伝送媒体または通信リンクを介して送信されてよい。

[00164]本明細書で説明した方法のタスクの各々は、ハードウェアで直接実施され得るか、プロセッサによって実行されるソフトウェアモジュールで実施され得るか、またはその２つの組合せで実施され得る。本明細書で開示した方法の実装形態の典型的な応用では、論理要素のアレイ（たとえば、論理ゲート）は、この方法の様々なタスクのうちの１つ、複数、さらにはすべてを実施するように構成される。タスクのうちの１つもしくは複数（場合によってはすべて）は、論理要素のアレイ（たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械）を含む機械（たとえば、コンピュータ）によって読取り可能かつ／あるいは実行可能である、コンピュータプログラム製品（たとえば、ディスク、フラッシュメモリカードまたは他の不揮発性メモリカード、半導体メモリチップなど、１つもしくは複数のデータ記憶媒体）に実施されたコード（たとえば、命令の１つまたは複数のセット）としても実装され得る。本明細書で開示した方法の実装形態のタスクは、２つ以上のそのようなアレイまたは機械によっても実施され得る。これらまたは他の実装形態では、タスクは、セルラー電話など、ワイヤレス通信用のデバイス内、またはそのような通信機能を有する他のデバイス内で実施され得る。そのようなデバイスは、（たとえば、ＶｏＩＰなどの１つまたは複数のプロトコルを使用して）回線交換および／またはパケット交換ネットワークと通信するように構成され得る。たとえば、そのようなデバイスは、符号化フレームを受信および／または送信するように構成されたＲＦ回路を含み得る。

[00165]本明細書で開示した様々な方法は、ハンドセット、ヘッドセット、または携帯情報端末（ＰＤＡ）などのポータブル通信デバイスによって実行されてよく、本明細書で説明した様々な装置は、そのようなデバイス内に含まれ得ることが明確に開示される。

[00166]１つまたは複数の例示的な実施形態では、本明細書で説明した動作は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。ソフトウェアで実装する場合、そのような動作は、１つもしくは複数の命令またはコードとしてコンピュータ可読媒体に記憶され得るか、あるいはコンピュータ可読媒体を介して送信され得る。「コンピュータ可読媒体」という用語は、コンピュータ可読記憶媒体と通信（たとえば、伝送）媒体の両方を含む。限定ではなく例として、コンピュータ可読記憶媒体は、（限定はしないが、ダイナミックもしくはスタティックＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、および／またはフラッシュＲＡＭを含み得る）半導体メモリ、または強誘電体メモリ、磁気抵抗メモリ、オボニックメモリ、高分子メモリ、または相変化メモリなどの記憶要素のアレイ、ＣＤ−ＲＯＭまたは他の光ディスクストレージ、ならびに／あるいは磁気ディスクストレージまたは他の磁気ストレージデバイスを備えることができる。そのような記憶媒体は、コンピュータによってアクセスされ得る命令またはデータ構造の形態で情報を記憶し得る。通信媒体は、ある場所から別の場所へのコンピュータプログラムの転送を容易にする任意の媒体を含む、命令またはデータ構造の形態で所望のプログラムコードを搬送するために使用され得、かつコンピュータによってアクセスされ得る、任意の媒体を備えることができる。同様に、いかなる接続も適切にコンピュータ可読媒体と称される。たとえば、ソフトウェアが、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ）、または赤外線、無線、および／もしくはマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、あるいは他のリモートソースから送信される場合、同軸ケーブル、光ファイバーケーブル、ツイストペア、ＤＳＬ、または赤外線、無線、および／もしくはマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。本明細書で使用するディスク（disk）およびディスク（disc）は、コンパクトディスク（disc）（ＣＤ）、レーザディスク（登録商標）（disc）、光ディスク（disc）、デジタル多用途ディスク（disc）（ＤＶＤ）、フロッピー（登録商標）ディスク（disk）およびブルーレイ（登録商標）ディスク（disc）（Ｂｌｕ−Ｒａｙ（登録商標）ＤｉｓｃＡｓｓｏｃｉａｔｉｏｎ、ＵｎｉｖｅｒｓａｌＣｉｔｙ、ＣＡ）を含み、ディスク（disk）は、通常、データを磁気的に再生し、ディスク（disc）はデータをレーザで光学的に再生する。上記のこの組合せもコンピュータ可読媒体の範囲内に含まれるべきである。

[00167]本明細書で説明した音響信号処理装置は、いくつかの動作を制御するために音声入力を受容し、あるいは背景雑音から所望の雑音を分離することから利益を得ることが可能な、通信デバイスなどの電子デバイスに組み込まれ得る。多くの応用では、複数の方向から発生した背景音から明瞭な所望の音を強調または分離することから利益を得ることができる。そのような応用は、音声認識および検出、音声強調および分離、音声アクティブ化制御などの機能を組み込んだ電子デバイスまたはコンピューティングデバイスにおける人間機械インターフェースを含み得る。限られた処理機能のみを提供するデバイスに適したそのような音響信号処理装置を実装することが望ましい場合がある。

[00168]本明細書で説明した装置の一実装形態の１つまたは複数の要素は、装置が組み込まれているデバイスまたはシステムの別の動作に関係するタスクなど、装置の動作に直接関係しないタスクを実施し、あるいは装置の動作に直接関係しない命令の他のセットを実行するために使用されることが可能である。また、そのような装置の実装形態の１つもしくは複数の要素は、共通の構造（たとえば、異なる要素に対応するコードの部分を異なる時間に実行するために使用されるプロセッサ、異なる要素に対応するタスクを異なる時間に実施するために実行される命令のセット、または、異なる要素向けの動作を異なる時間に実施する電子デバイスおよび／もしくは光デバイスの構成）を有することが可能である。

[00169]本開示の前述の説明は、いかなる当業者でも本開示を作成または使用することができるように提供される。本開示への様々な修正は当業者には容易に明らかとなり、本明細書で定義した一般原理は、本開示の範囲から逸脱することなく他の変形形態に適用され得る。したがって、本開示は、本明細書で説明した例および設計に限定されるものではなく、本明細書で開示した原理および新規の特徴に合致する最も広い範囲を与えられるべきである。

[00170]例示的な実装形態は、１つまたは複数の独立型コンピュータシステムの文脈で、本開示の主題の態様を利用することに言及し得るが、主題は、そのように限定されるのではなく、ネットワークまたは分散コンピューティング環境など、任意のコンピューティング環境に関連して実施され得る。またさらに、本開示の主題の態様は、複数の処理チップまたはデバイスにおいてあるいはそれらにわたって実装され得、同様に複数のデバイスにわたって記憶が実施され得る。たとえば、そのようなデバイスは、ＰＣ、ネットワークサーバ、およびハンドヘルドデバイスを含み得る。

[00171]主題は構造機能および／または方法論的な行為に固有の言語で記載されているが、添付の特許請求の範囲において定義される主題は必ずしも上記の特定の特徴または行為に限定されるとは限らないことを理解されたい。むしろ、上記の特定の特徴および行為は、特許請求の範囲を実施することの例示的な形態として開示される。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
［Ｃ１］複数の参加者間の社会的対話を追跡するシステムであって、
第１の空間フィルタ処理済み出力を出力するように適合され、複数の誘導可能ビームフォーマから複数の第２の空間フィルタ処理済み出力を受信するように構成された固定ビームフォーマと、各誘導可能ビームフォーマは、前記第２の空間フィルタ処理済み出力のうちの対応する１つを出力し、前記参加者のうちの異なる１人に関連付けられる、
前記第１の空間フィルタ処理済み出力と前記第２の空間フィルタ処理済み出力の各々との間の類似性を判断することが可能であり、前記第１の空間フィルタ処理済み出力と前記第２の空間フィルタ処理済み出力の各々との間の前記類似性に基づいて、前記参加者間の前記社会的対話を判断することが可能であるプロセッサとを備えるシステム。
［Ｃ２］前記固定ビームフォーマは固定マイクロフォンアレイを備え、前記誘導可能ビームフォーマの各々は誘導可能マイクロフォンアレイを備える、Ｃ１に記載のシステム。
［Ｃ３］前記固定ビームフォーマおよび前記プロセッサはモバイルデバイス内に備えられる、Ｃ１に記載のシステム。
［Ｃ４］前記固定ビームフォーマおよび前記プロセッサは、ハンドセット、ラップトップ、タブレット、コンピュータ、およびネットブックを備えるグループの中からの１つの中に備えられる、Ｃ１に記載のシステム。
［Ｃ５］前記複数の誘導可能ビームフォーマの各々は、それぞれのデバイス内に備えられ、各それぞれのデバイスは、前記参加者のうちの異なる１人に関連付けられることが可能である、Ｃ１に記載のシステム。
［Ｃ６］各それぞれのデバイスは、前記関連付けられた参加者によって装着されるヘッドセットを備える、Ｃ５に記載のシステム。
［Ｃ７］前記参加者間の前記社会的対話を表示することが可能であるユーザインターフェースをさらに備える、Ｃ１に記載のシステム。
［Ｃ８］ユーザインターフェースディスプレイが、一度に前記複数の参加者をグラフィカルに表示することが可能である、Ｃ７に記載のシステム。
［Ｃ９］前記ユーザインターフェースディスプレイは、前記ユーザインターフェースを介して前記参加者のうちの１人にズームインして、前記ズームインされた参加者の改良された音声を提供することが可能である、Ｃ８に記載のシステム。
［Ｃ１０］前記固定ビームフォーマの前記第１の空間フィルタ処理済み出力は、前記複数の誘導可能ビームフォーマの前記第２の空間フィルタ処理済み出力のうちの少なくとも１つに基づいて精製される、Ｃ１に記載のシステム。
［Ｃ１１］前記プロセッサは、（１）前記固定ビームフォーマの前記第１の空間フィルタ処理済み出力と前記複数の誘導可能ビームフォーマの前記第２の空間フィルタ処理済み出力のうちの前記少なくとも１つとの間の前記類似性を、（２）移動した眺め方向を有する固定ビームフォーマの前記第１の空間フィルタ処理済み出力と前記複数の誘導可能ビームフォーマの前記第２の空間フィルタ処理済み出力のうちの前記少なくとも１つとの間の前記類似性と比較するように適合される、Ｃ１に記載のシステム。
［Ｃ１２］オーディオビームフォーミングに基づいて参加者間の前記社会的対話を追跡することが可能なモバイルデバイスをさらに備える、Ｃ１に記載のシステム。
［Ｃ１３］前記プロセッサは、前記固定ビームフォーマの前記第１の空間フィルタ処理済み出力と前記誘導可能ビームフォーマの前記第２の空間フィルタ処理済み出力のうちの選択された１つとの間の相関を実行するように構成される、Ｃ１に記載のシステム。
［Ｃ１４］前記固定ビームフォーマは、第１のモバイルデバイス内に備えられ、選択された誘導可能ビームフォーマは、前記第１のモバイルデバイスとは異なる第２のモバイルデバイス内に備えられる、Ｃ１３に記載のシステム。
［Ｃ１５］前記類似性は、相関、時間領域もしくは周波数領域における許容時間調整を伴う最小２乗適合、線形予測コーディング（ＬＰＣ）もしくはメル周波数ケプストラル係数（ＭＦＣＣ）を使用する特徴ベースの方式、またはクロスキュムラント、実証的カルバックライブラーダイバージェンスもしくは板倉−斉藤距離を使用する高位ベースの方式のうちの１つを使用して判断される、Ｃ１に記載のシステム。
［Ｃ１６］前記プロセッサは、前記参加者のうちの少なくとも１人の位置を判断するようにさらに構成される、Ｃ１に記載のシステム。
［Ｃ１７］固定マイクロフォンアレイの出力と誘導可能マイクロフォンアレイの出力との間の類似性を判断するためのシステムであって、
前記固定マイクロフォンアレイからの第１の空間フィルタ処理済み出力と前記誘導可能マイクロフォンアレイからの第２の空間フィルタ処理済み出力とを受信するように構成され、前記第１の空間フィルタ処理済み出力と前記第２の空間フィルタ処理済み出力とを比較して、前記固定マイクロフォンアレイの前記出力と前記誘導可能マイクロフォンアレイの前記出力との間の前記類似性を判断するようにさらに構成されたプロセッサと、
前記類似性を出力するように構成された出力デバイスと
を備えるシステム。
［Ｃ１８］各空間フィルタ処理済み出力は、ビームフォーミングされた出力を備える、Ｃ１７に記載のシステム。
［Ｃ１９］前記プロセッサは、前記受信し比較することを複数回、複数の誘導可能マイクロフォンアレイの各々につき１回、繰り返すようにさらに構成される、Ｃ１７に記載のシステム。
［Ｃ２０］前記プロセッサおよび前記出力デバイスは、ハンドセット、ラップトップ、タブレット、コンピュータ、およびネットブックを備えるグループの中からの１つの中に備えられる、Ｃ１７に記載のシステム。
［Ｃ２１］前記プロセッサは、
前記固定マイクロフォンアレイの周りの到来方向を推定し、
前記到来方向を使用してアクティブな話者を判断し、前記到来方向を使用して前記アクティブな話者の出力を区別し、
前記第１の空間フィルタ処理済み出力と、前記第２の空間フィルタ処理済み出力と、前記アクティブな話者の前記出力とを使用して、前記誘導可能マイクロフォンアレイの前記出力と前記固定マイクロフォンアレイの前記出力との間の前記類似性を判断するようにさらに構成される、Ｃ１７に記載のシステム。
［Ｃ２２］前記到来方向を推定することは３次元（３Ｄ）で実行され得る、Ｃ２１に記載のシステム。
［Ｃ２３］前記第２の空間フィルタ処理済み出力はアクティブな話者の眺め方向にある、Ｃ２１に記載のシステム。
［Ｃ２４］前記第２の空間フィルタ処理済み出力は、アクティブノイズ制御（ＡＮＣ）ヘッドセットからの固定側面ビームフォーミングによって生成される、Ｃ２１に記載のシステム。
［Ｃ２５］前記プロセッサは、
複数の誘導可能マイクロフォンアレイから複数の空間フィルタ処理済み出力を受信し、各誘導可能マイクロフォンアレイは、異なるアクティブな話者に対応する、
前記アクティブな話者を識別し、前記到来方向を使用して前記アクティブな話者の前記出力を区別し、
前記誘導可能マイクロフォンアレイの前記出力と、前記固定マイクロフォンアレイの、前記アクティブな話者に対応する前記区別された出力との間の前記類似性を判断するようにさらに構成される、Ｃ２１に記載のシステム。
［Ｃ２６］前記固定マイクロフォンアレイは、アクティブな話者の数と各アクティブな話者に関する区別された音声信号とを提供するように構成され、前記誘導可能マイクロフォンアレイは、各アクティブな話者の眺め方向を提供し、前記類似性を判断することは、
各アクティブな話者に関して、
前記アクティブな話者に関する前記区別された音声信号と前記アクティブな話者の前記眺め方向とを使用して相互相関式の最大ピークを発見することと、
前記最大ピークを使用するための強い相関の角度を判断することと、ここにおいて、強い相関の前記角度は、前記固定マイクロフォンアレイと前記アクティブな話者の前記誘導可能マイクロフォンアレイとの間の角度に対応する、を備える、Ｃ２５に記載のシステム。
［Ｃ２７］前記類似性を判断することは、相関、時間領域もしくは周波数領域における許容時間調整を伴う最小２乗適合、線形予測コーディング（ＬＰＣ）もしくはメル周波数ケプストラル係数（ＭＦＣＣ）を使用する特徴ベースの方式、またはクロスキュムラント、実証的カルバックライブラーダイバージェンスもしくは板倉−斉藤距離を使用する高位ベースの方式のうちの１つを使用する、Ｃ２５に記載のシステム。
［Ｃ２８］複数の参加者間の社会的対話を追跡するための方法であって、
固定ビームフォーマから、第１の空間フィルタ処理済み出力を出力することと、
複数の誘導可能ビームフォーマから、複数の第２の空間フィルタ処理済み出力を出力することと、各誘導可能ビームフォーマは、前記第２の空間フィルタ処理済み出力のうちの対応する１つを出力し、前記参加者のうちの異なる１人に関連付けられる、
前記第１の空間フィルタ処理済み出力と前記第２の空間フィルタ処理済み出力の各々との間の類似性を判断することと、
プロセッサを利用して、前記第１の空間フィルタ処理済み出力と前記第２の空間フィルタ処理済み出力の各々との間の前記類似性に基づいて、前記参加者間の前記社会的対話を判断することとを備える方法。
［Ｃ２９］前記固定ビームフォーマは固定マイクロフォンアレイを備え、前記誘導可能ビームフォーマの各々は誘導可能マイクロフォンアレイを備える、Ｃ２８に記載の方法。
［Ｃ３０］前記固定ビームフォーマおよび前記プロセッサはモバイルデバイス内に備えられる、Ｃ２８に記載の方法。
［Ｃ３１］前記固定ビームフォーマおよび前記プロセッサは、ハンドセット、ラップトップ、タブレット、コンピュータ、およびネットブックを備えるグループの中からの１つの中に備えられる、Ｃ２８に記載の方法。
［Ｃ３２］前記複数の誘導可能ビームフォーマの各々は、それぞれのデバイス内に備えられ、各それぞれのデバイスは、前記参加者のうちの異なる１人に関連付けられることが可能である、Ｃ２８に記載の方法。
［Ｃ３３］各それぞれのデバイスは、前記関連付けられた参加者によって装着されるヘッドセットを備える、Ｃ３２に記載の方法。
［Ｃ３４］前記参加者間の前記社会的対話を表示することをさらに備える、Ｃ２８に記載の方法。
［Ｃ３５］前記表示することは、一度に前記複数の参加者をグラフィカルに表示することをさらに備える、Ｃ３４に記載の方法。
［Ｃ３６］前記表示することは、ユーザインターフェースを介して前記参加者のうちの１人にズームインして、前記ズームインされた参加者の改良された音声を提供することをさらに備える、Ｃ３５に記載の方法。
［Ｃ３７］前記固定ビームフォーマの前記第１の空間フィルタ処理済み出力を、前記複数の誘導可能ビームフォーマの前記第２の空間フィルタ処理済み出力のうちの少なくとも１つに基づいて精製することをさらに備える、Ｃ２８に記載の方法。
［Ｃ３８］（１）前記固定ビームフォーマの前記第１の空間フィルタ処理済み出力と前記複数の誘導可能ビームフォーマの前記第２の空間フィルタ処理済み出力のうちの前記少なくとも１つとの間の前記類似性を、（２）移動した眺め方向を有する固定ビームフォーマの前記第１の空間フィルタ処理済み出力と前記複数の誘導可能ビームフォーマの前記第２の空間フィルタ処理済み出力のうちの前記少なくとも１つとの間の前記類似性と比較することをさらに備える、Ｃ２８に記載の方法。
［Ｃ３９］オーディオビームフォーミングに基づいて参加者間の前記社会的対話を追跡することをさらに備える、Ｃ２８に記載の方法。
［Ｃ４０］前記固定ビームフォーマの前記第１の空間フィルタ処理済み出力と前記誘導可能ビームフォーマの前記第２の空間フィルタ処理済み出力のうちの選択された１つとの間の相関を実行することをさらに備える、Ｃ２８に記載の方法。
［Ｃ４１］前記固定ビームフォーマは、第１のモバイルデバイス内に備えられ、選択された誘導可能ビームフォーマは、前記第１のモバイルデバイスとは異なる第２のモバイルデバイス内に備えられる、Ｃ４０に記載の方法。
［Ｃ４２］前記類似性は、時間領域もしくは周波数領域における許容時間調整を伴う最小２乗適合、線形予測コーディング（ＬＰＣ）もしくはメル周波数ケプストラル係数（ＭＦＣＣ）を使用する特徴ベースの方式、またはクロスキュムラント、実証的カルバックライブラーダイバージェンスもしくは板倉−斉藤距離を使用する高位ベースの方式のうちの１つを使用して判断される、Ｃ２８に記載の方法。
［Ｃ４３］前記参加者のうちの少なくとも１人の位置を判断することをさらに備える、Ｃ２８に記載の方法。
［Ｃ４４］固定マイクロフォンアレイの出力と誘導可能マイクロフォンアレイの出力との間の類似性を判断するための方法であって、
前記固定マイクロフォンアレイから第１の空間フィルタ処理済み出力を受信することと、
誘導可能マイクロフォンアレイから第２の空間フィルタ処理済み出力を受信することと、
前記第１の空間フィルタ処理済み出力と前記第２の空間フィルタ処理済み出力とを比較することと、
前記比較に基づいて前記固定マイクロフォンアレイの前記出力と前記誘導可能マイクロフォンアレイの前記出力との間の前記類似性を判断することと、
前記類似性を出力することと
を備える方法。
［Ｃ４５］各空間フィルタ処理済み出力は、ビームフォーミングされた出力を備える、Ｃ４４に記載の方法。
［Ｃ４６］前記受信し比較することを複数回、複数の誘導可能マイクロフォンアレイの各々につき１回、繰り返すことをさらに備える、Ｃ４４に記載の方法。
［Ｃ４７］前記固定マイクロフォンアレイは、ハンドセット、ラップトップ、タブレット、コンピュータ、およびネットブックを備えるグループの中からの１つの中に備えられる、Ｃ４４に記載の方法。
［Ｃ４８］前記固定マイクロフォンアレイの周りの到来方向を推定することと、
前記到来方向を使用してアクティブな話者を判断することと、
前記到来方向を使用して前記アクティブな話者の出力を区別することと、
前記第１の空間フィルタ処理済み出力と、前記第２の空間フィルタ処理済み出力と、前記アクティブな話者の前記出力とを使用して、前記誘導可能マイクロフォンアレイの前記出力と前記固定マイクロフォンアレイの前記出力との間の前記類似性を判断することとをさらに備える、Ｃ４４に記載の方法。
［Ｃ４９］前記到来方向を推定することは３次元（３Ｄ）で実行され得る、Ｃ４８に記載の方法。
［Ｃ５０］前記第２の空間フィルタ処理済み出力はアクティブな話者の眺め方向にある、Ｃ４８に記載の方法。
［Ｃ５１］前記第２の空間フィルタ処理済み出力は、アクティブノイズ制御（ＡＮＣ）ヘッドセットからの固定側面ビームフォーミングによって生成される、Ｃ４８に記載の方法。
［Ｃ５２］複数の誘導可能マイクロフォンアレイから複数の空間フィルタ処理済み出力を受信することと、各誘導可能マイクロフォンアレイは、異なるアクティブな話者に対応する、
前記アクティブな話者を識別し、前記到来方向を使用して前記アクティブな話者の前記出力を区別することと、
前記誘導可能マイクロフォンアレイの前記出力と、前記固定マイクロフォンアレイの、前記アクティブな話者に対応する前記区別された出力との間の類似性を判断することとをさらに備える、Ｃ４８に記載の方法。
［Ｃ５３］アクティブな話者の数と各アクティブな話者に関する区別された音声信号とを提供することと、各アクティブな話者の眺め方向を提供することとをさらに備え、ここにおいて、前記類似性を判断することは、各アクティブな話者に関して、
前記アクティブな話者に関する前記区別された音声信号と前記アクティブな話者の前記眺め方向とを使用して相互相関式の最大ピークを発見することと、
前記最大ピークを使用するための強い相関の角度を判断することと、ここにおいて、強い相関の前記角度は、前記固定マイクロフォンアレイと前記アクティブな話者の前記誘導可能マイクロフォンアレイとの間の角度に対応する、を備える、Ｃ５２に記載の方法。
［Ｃ５４］前記類似性を判断することは、相関、時間領域もしくは周波数領域における許容時間調整を伴う最小２乗適合、線形予測コーディング（ＬＰＣ）もしくはメル周波数ケプストラル係数（ＭＦＣＣ）を使用する特徴ベースの方式、またはクロスキュムラント、実証的カルバックライブラーダイバージェンスもしくは板倉−斉藤距離を使用する高位ベースの方式のうちの１つを使用する、Ｃ５２に記載の方法。
［Ｃ５５］複数の参加者間の社会的対話を追跡するための装置であって、
第１の空間フィルタ処理済み出力を出力するための手段と、
複数の第２の空間フィルタ処理済み出力を出力するための手段と、前記第２の空間フィルタ処理済み出力の各々は、前記参加者のうちの異なる１人に関連付けられる、
前記第１の空間フィルタ処理済み出力と前記第２の空間フィルタ処理済み出力の各々との間の類似性を判断するための手段と、
前記第１の空間フィルタ処理済み出力と前記第２の空間フィルタ処理済み出力の各々との間の前記類似性に基づいて、前記参加者間の前記社会的対話を判断するための手段とを備える装置。
［Ｃ５６］前記手段はモバイルデバイス内に備えられる、Ｃ５５に記載の装置。
［Ｃ５７］前記手段は、ハンドセット、ラップトップ、タブレット、コンピュータ、およびネットブックを備えるグループの中からの１つの中に備えられる、Ｃ５５に記載の装置。
［Ｃ５８］前記参加者間の前記社会的対話を表示するための手段をさらに備える、Ｃ５５に記載の装置。
［Ｃ５９］一度に前記複数の参加者をグラフィカルに表示するための手段をさらに備える、Ｃ５８に記載の装置。
［Ｃ６０］ユーザインターフェースを介して前記参加者のうちの１人にズームインして、前記ズームインされた参加者の改良された音声を提供するための手段をさらに備える、Ｃ５９に記載の装置。
［Ｃ６１］前記第２の空間フィルタ処理済み出力のうちの少なくとも１つに基づいて前記第１の空間フィルタ処理済み出力を精製するための手段をさらに備える、Ｃ５５に記載の装置。
［Ｃ６２］（１）前記第１の空間フィルタ処理済み出力と前記第２の空間フィルタ処理済み出力のうちの前記少なくとも１つとの間の前記類似性を、（２）移動した眺め方向を有する第１の空間フィルタ処理済み出力と前記第２の空間フィルタ処理済み出力のうちの前記少なくとも１つとの間の前記類似性と比較するための手段をさらに備える、Ｃ５５に記載の装置。
［Ｃ６３］オーディオビームフォーミングに基づいて参加者間の前記社会的対話を追跡するための手段をさらに備える、Ｃ５５に記載の装置。
［Ｃ６４］前記第１の空間フィルタ処理済み出力と前記第２の空間フィルタ処理済み出力のうちの選択された１つとの間の相関を実行するための手段をさらに備える、Ｃ５５に記載の装置。
［Ｃ６５］前記類似性は、相関、時間領域もしくは周波数領域における許容時間調整を伴う最小２乗適合、線形予測コーディング（ＬＰＣ）もしくはメル周波数ケプストラル係数（ＭＦＣＣ）を使用する特徴ベースの方式、またはクロスキュムラント、実証的カルバックライブラーダイバージェンスもしくは板倉−斉藤距離を使用する高位ベースの方式のうちの１つを使用して判断される、Ｃ５５に記載の装置。
［Ｃ６６］前記参加者のうちの少なくとも１人の位置を判断するための手段をさらに備える、Ｃ５５に記載の装置。
［Ｃ６７］固定マイクロフォンアレイの出力と誘導可能マイクロフォンアレイの出力との間の類似性を判断するための装置であって、
前記固定マイクロフォンアレイから第１の空間フィルタ処理済み出力を受信するための手段と、
前記誘導可能マイクロフォンアレイから第２の空間フィルタ処理済み出力を受信するための手段と、
前記第１の空間フィルタ処理済み出力と前記第２の空間フィルタ処理済み出力とを比較するための手段と、
前記比較に基づいて前記固定マイクロフォンアレイの前記出力と前記誘導可能マイクロフォンアレイの前記出力との間の前記類似性を判断するための手段と、
前記類似性を出力するための手段と
を備える装置。
［Ｃ６８］各空間フィルタ処理済み出力は、ビームフォーミングされた出力を備える、Ｃ６７に記載の装置。
［Ｃ６９］前記受信し比較することを複数回、複数の誘導可能マイクロフォンアレイの各々につき１回、繰り返すための手段をさらに備える、Ｃ６７に記載の装置。
［Ｃ７０］受信するための前記手段は、ハンドセット、ラップトップ、タブレット、コンピュータ、およびネットブックを備えるグループの中からの１つの中に備えられる、Ｃ６７に記載の装置。
［Ｃ７１］前記固定マイクロフォンアレイの周りの到来方向を推定するための手段と、
前記到来方向を使用してアクティブな話者を判断するための手段と、
前記到来方向を使用して前記アクティブな話者の出力を区別するための手段と、
前記第１の空間フィルタ処理済み出力と、前記第２の空間フィルタ処理済み出力と、前記アクティブな話者の前記出力とを使用して、前記誘導可能マイクロフォンアレイの前記出力と前記固定マイクロフォンアレイの前記出力との間の前記類似性を判断するための手段とをさらに備える、Ｃ６７に記載の装置。
［Ｃ７２］前記到来方向を推定するための前記手段は、３次元（３Ｄ）で前記推定を実行することが可能である、Ｃ７１に記載の装置。
［Ｃ７３］前記第２の空間フィルタ処理済み出力はアクティブな話者の眺め方向にある、Ｃ７１に記載の装置。
［Ｃ７４］前記第２の空間フィルタ処理済み出力は、アクティブノイズ制御（ＡＮＣ）ヘッドセットからの固定側面ビームフォーミングによって生成される、Ｃ７１に記載の装置。
［Ｃ７５］複数の誘導可能マイクロフォンアレイから複数の空間フィルタ処理済み出力を受信するための手段と、各誘導可能マイクロフォンアレイは、異なるアクティブな話者に対応する、
前記アクティブな話者を識別し、前記到来方向を使用して前記アクティブな話者の前記出力を区別するための手段と、
前記誘導可能マイクロフォンアレイの前記出力と、前記固定マイクロフォンアレイの、前記アクティブな話者に対応する前記区別された出力との間の前記類似性を判断するための手段とをさらに備える、Ｃ７１に記載の装置。
［Ｃ７６］アクティブな話者の数と前記アクティブな話者の各々に関する区別された音声信号とを提供するための手段と、前記アクティブな話者の各々の眺め方向を提供するための手段とをさらに備え、ここにおいて、前記類似性を判断することは、前記アクティブな話者の各々に関して、
前記アクティブな話者に関する前記区別された音声信号と前記アクティブな話者の前記眺め方向とを使用して相互相関式の最大ピークを発見することと、
前記最大ピークを使用するための強い相関の角度を判断することと、ここにおいて、強い相関の前記角度は、前記固定マイクロフォンアレイと前記アクティブな話者の前記誘導可能マイクロフォンアレイとの間の角度に対応する、を備える、Ｃ７５に記載の装置。
［Ｃ７７］前記類似性を判断することは、相関、時間領域もしくは周波数領域における許容時間調整を伴う最小２乗適合、線形予測コーディング（ＬＰＣ）もしくはメル周波数ケプストラル係数（ＭＦＣＣ）を使用する特徴ベースの方式、またはクロスキュムラント、実証的カルバックライブラーダイバージェンスもしくは板倉−斉藤距離を使用する高位ベースの方式のうちの１つを使用する、Ｃ７５に記載の装置。
［Ｃ７８］プロセッサに、
固定ビームフォーマから、第１の空間フィルタ処理済み出力を受信させ、
複数の誘導可能ビームフォーマから、複数の第２の空間フィルタ処理済み出力を受信させ、各誘導可能ビームフォーマは、前記第２の空間フィルタ処理済み出力のうちの対応する１つを出力し、前記参加者のうちの異なる１人に関連付けられる、
前記第１の空間フィルタ処理済み出力と前記第２の空間フィルタ処理済み出力の各々との間の類似性を判断させ、
プロセッサを利用して、前記第１の空間フィルタ処理済み出力と前記第２の空間フィルタ処理済み出力の各々との間の前記類似性に基づいて、前記参加者間の社会的対話を判断させるためのコンピュータ可読命令を備える非一時的コンピュータ可読媒体。
［Ｃ７９］前記固定ビームフォーマは固定マイクロフォンアレイを備え、前記誘導可能ビームフォーマの各々は誘導可能マイクロフォンアレイを備える、Ｃ７８に記載のコンピュータ可読媒体。
［Ｃ８０］前記固定ビームフォーマおよび前記プロセッサはモバイルデバイス内に備えられる、Ｃ７８に記載のコンピュータ可読媒体。
［Ｃ８１］前記固定ビームフォーマおよび前記プロセッサは、ハンドセット、ラップトップ、タブレット、コンピュータ、およびネットブックを備えるグループの中からの１つの中に備えられる、Ｃ７８に記載のコンピュータ可読媒体。
［Ｃ８２］前記複数の誘導可能ビームフォーマの各々は、それぞれのデバイス内に備えられ、各それぞれのデバイスは、前記参加者のうちの異なる１人に関連付けられることが可能である、Ｃ７８に記載のコンピュータ可読媒体。
［Ｃ８３］それぞれのデバイスは、前記関連付けられた参加者によって装着されるヘッドセットを備える、Ｃ８２に記載のコンピュータ可読媒体。
［Ｃ８４］前記プロセッサに、前記参加者間の前記社会的対話を表示させるための命令をさらに備える、Ｃ７８に記載のコンピュータ可読媒体。
［Ｃ８５］前記プロセッサに、一度に前記複数の参加者をグラフィカルに表示させるための命令をさらに備える、Ｃ８４に記載のコンピュータ可読媒体。
［Ｃ８６］前記プロセッサに、ユーザインターフェースを介して前記参加者のうちの１人にズームインさせて、前記ズームインされた参加者の改良された音声を提供させるための命令をさらに備える、Ｃ８５に記載のコンピュータ可読媒体。
［Ｃ８７］前記プロセッサに、前記固定ビームフォーマの前記第１の空間フィルタ処理済み出力を、前記複数の誘導可能ビームフォーマの前記第２の空間フィルタ処理済み出力のうちの少なくとも１つに基づいて精製させるための命令をさらに備える、Ｃ７８に記載のコンピュータ可読媒体。
［Ｃ８８］前記プロセッサに、（１）前記固定ビームフォーマの前記第１の空間フィルタ処理済み出力と前記複数の誘導可能ビームフォーマの前記第２の空間フィルタ処理済み出力のうちの前記少なくとも１つとの間の前記類似性を、（２）移動した眺め方向を有する固定ビームフォーマの前記第１の空間フィルタ処理済み出力と前記複数の誘導可能ビームフォーマの前記第２の空間フィルタ処理済み出力のうちの前記少なくとも１つとの間の前記類似性と比較させるための命令をさらに備える、Ｃ７８に記載のコンピュータ可読媒体。
［Ｃ８９］前記プロセッサに、オーディオビームフォーミングに基づいて参加者間の前記社会的対話を追跡させるための命令をさらに備える、Ｃ７８に記載のコンピュータ可読媒体。
［Ｃ９０］前記プロセッサに、前記固定ビームフォーマの前記第１の空間フィルタ処理済み出力と前記誘導可能ビームフォーマの前記第２の空間フィルタ処理済み出力のうちの選択された１つとの間の相関を実行させるための命令をさらに備える、Ｃ７８に記載のコンピュータ可読媒体。
［Ｃ９１］前記固定ビームフォーマは、第１のモバイルデバイス内に備えられ、選択された誘導可能ビームフォーマは、前記第１のモバイルデバイスとは異なる第２のモバイルデバイス内に備えられる、Ｃ９０に記載のコンピュータ可読媒体。
［Ｃ９２］前記類似性は、時間領域もしくは周波数領域における許容時間調整を伴う最小２乗適合、線形予測コーディング（ＬＰＣ）もしくはメル周波数ケプストラル係数（ＭＦＣＣ）を使用する特徴ベースの方式、またはクロスキュムラント、実証的カルバックライブラーダイバージェンスもしくは板倉−斉藤距離を使用する高位ベースの方式のうちの１つを使用して判断される、Ｃ７８に記載のコンピュータ可読媒体。
［Ｃ９３］前記プロセッサに、前記参加者のうちの少なくとも１人の位置を判断させるための命令をさらに備える、Ｃ７８に記載のコンピュータ可読媒体。
［Ｃ９４］プロセッサに、
固定マイクロフォンアレイから第１の空間フィルタ処理済み出力を受信させ、
誘導可能マイクロフォンアレイから第２の空間フィルタ処理済み出力を受信させ、
前記第１の空間フィルタ処理済み出力と前記第２の空間フィルタ処理済み出力とを比較させ、
前記比較に基づいて前記固定マイクロフォンアレイの前記出力と前記誘導可能マイクロフォンアレイの前記出力との間の類似性を判断させ、
前記類似性を出力させる
ためのコンピュータ可読命令を備える非一時的コンピュータ可読媒体。
［Ｃ９５］各空間フィルタ処理済み出力は、ビームフォーミングされた出力を備える、Ｃ９４に記載のコンピュータ可読媒体。
［Ｃ９６］前記プロセッサに、前記受信し比較することを複数回、複数の誘導可能マイクロフォンアレイの各々につき１回、繰り返させるための命令をさらに備える、Ｃ９４に記載のコンピュータ可読媒体。
［Ｃ９７］前記プロセッサは、ハンドセット、ラップトップ、タブレット、コンピュータ、およびネットブックを備えるグループの中からの１つの中に備えられる、Ｃ９４に記載のコンピュータ可読媒体。
［Ｃ９８］前記プロセッサに、
前記固定マイクロフォンアレイの周りの到来方向を推定させ、
前記到来方向を使用してアクティブな話者を判断させ、
前記到来方向を使用して前記アクティブな話者の出力を区別させ、
前記第１の空間フィルタ処理済み出力と、前記第２の空間フィルタ処理済み出力と、前記アクティブな話者の前記出力とを使用して、前記誘導可能マイクロフォンアレイの前記出力と前記固定マイクロフォンアレイの前記出力との間の前記類似性を判断させるための命令をさらに備える、Ｃ９４に記載のコンピュータ可読媒体。
［Ｃ９９］前記プロセッサに、３次元（３Ｄ）で前記到来方向を推定させるための命令をさらに備える、Ｃ９８に記載のコンピュータ可読媒体。
［Ｃ１００］前記第２の空間フィルタ処理済み出力はアクティブな話者の眺め方向にある、Ｃ９８に記載のコンピュータ可読媒体。
［Ｃ１０１］前記第２の空間フィルタ処理済み出力は、アクティブノイズ制御（ＡＮＣ）ヘッドセットからの固定側面ビームフォーミングによって生成される、Ｃ９８に記載のコンピュータ可読媒体。
［Ｃ１０２］前記プロセッサに、
複数の誘導可能マイクロフォンアレイから複数の空間フィルタ処理済み出力を受信させ、各誘導可能マイクロフォンアレイは、異なるアクティブな話者に対応する、
前記アクティブな話者を識別させ、前記到来方向を使用して前記アクティブな話者の前記出力を区別させ、
前記誘導可能マイクロフォンアレイの前記出力と、前記固定マイクロフォンアレイの、前記アクティブな話者に対応する前記区別された出力との間の前記類似性を判断させるための命令をさらに備える、Ｃ９８に記載のコンピュータ可読媒体。
［Ｃ１０３］前記プロセッサに、アクティブな話者の数と前記アクティブな話者の各々に関する区別された音声信号とを提供させ、前記アクティブな話者の各々の眺め方向を提供させるための命令をさらに備え、ここにおいて、前記類似性を判断することは、前記アクティブな話者の各々に関して、
前記アクティブな話者に関する前記区別された音声信号と前記アクティブな話者の前記眺め方向とを使用して相互相関式の最大ピークを発見することと、
前記最大ピークを使用するための強い相関の角度を判断することと、ここにおいて、強い相関の前記角度は、前記固定マイクロフォンアレイと前記アクティブな話者の前記誘導可能マイクロフォンアレイとの間の角度に対応する、を備える、Ｃ１０２に記載のコンピュータ可読媒体。
［Ｃ１０４］前記類似性を判断することは、相関、時間領域もしくは周波数領域における許容時間調整を伴う最小２乗適合、線形予測コーディング（ＬＰＣ）もしくはメル周波数ケプストラル係数（ＭＦＣＣ）を使用する特徴ベースの方式、またはクロスキュムラント、実証的カルバックライブラーダイバージェンスもしくは板倉−斉藤距離を使用する高位ベースの方式のうちの１つを使用する、Ｃ１０２に記載のコンピュータ可読媒体。

Claims

ユーザのグループのうちのアクティブに話しているユーザを識別するための装置であって、
空間フィルタ処理済み出力の第１のセットを提供し、前記空間フィルタ処理済み出力の第１のセットは、前記ユーザのグループのうちの複数のアクティブに話しているユーザに対応する、
複数の誘導可能マイクロフォンアレイから空間フィルタ処理済み出力の第２のセットを受信する、ここにおいて、前記複数の誘導可能マイクロフォンアレイは、前記ユーザによって装着されたときに、前記ユーザの物理的視覚方向に向けられることが可能である、
ように構成された固定マイクロフォンアレイと、前記複数の誘導可能マイクロフォンアレイの各々は、前記ユーザのグループのそれぞれのユーザに関連付けられる、
前記空間フィルタ処理済み出力の第１のセットと前記空間フィルタ処理済み出力の第２のセットとの間の類似性を判断し、
前記類似性に基づいて複数の話者識別情報（ＩＤ）を出力する
ように構成されたプロセッサと
を備え、前記複数の話者ＩＤの各話者ＩＤは、前記ユーザのグループのうちの異なるアクティブに話しているユーザに対応する、装置。
前記プロセッサは、前記空間フィルタ処理済み出力の第２のセットのうちの少なくとも１つの空間フィルタ処理済み出力に基づいて、前記固定マイクロフォンアレイの前記空間フィルタ処理済み出力の第１のセットを精製するようにさらに構成される、請求項１に記載の装置。
前記プロセッサは、前記固定マイクロフォンアレイの前記空間フィルタ処理済み出力の第１のセットと前記誘導可能マイクロフォンアレイの第１の誘導可能マイクロフォンアレイからの特定の空間フィルタ処理済み出力との間の相関を計算するようにさらに構成される、請求項１に記載の装置。
前記固定マイクロフォンアレイは、第１のモバイルデバイス内に含まれ、前記複数の誘導可能マイクロフォンアレイのうちの第１の誘導可能マイクロフォンアレイは、前記第１のモバイルデバイスとは異なる第２のモバイルデバイス内に含まれる、請求項１に記載の装置。
前記プロセッサは、相関、時間領域もしくは周波数領域における許容時間調整を伴う最小２乗適合、線形予測コーディング（ＬＰＣ）もしくはメル周波数ケプストラル係数（ＭＦＣＣ）を使用する特徴ベースの方式、またはクロスキュムラント、実証的カルバックライブラーダイバージェンスもしくは板倉−斉藤距離を使用する高位ベースの方式のうちの少なくとも１つに基づいて前記類似性を判断するようにさらに構成される、請求項１に記載の装置。
前記プロセッサは、前記ユーザのグループのうちの少なくとも１人のユーザの位置を判断するようにさらに構成される、請求項１に記載の装置。
前記固定マイクロフォンアレイは、
前記複数の誘導可能マイクロフォンアレイから受信された前記空間フィルタ処理済み出力の第２のセットに対応する複数の到来方向（ＤＯＡ）推定を実行し、
前記複数のＤＯＡ推定に基づいて前記ユーザのグループからの第１のアクティブに話しているユーザを判断し、
前記第１のアクティブに話しているユーザに対応する特定の空間フィルタ処理済み出力を生成する
ようにさらに構成され、前記特定の空間フィルタ処理済み出力は、前記空間フィルタ処理済み出力の第１のセットに含まれる、請求項１に記載の装置。
前記プロセッサは、前記類似性を判断することに関連して、
前記複数の誘導可能マイクロフォンアレイからの前記空間フィルタ処理済み出力の第２のセットの各それぞれの空間フィルタ処理済み出力と前記第１のアクティブに話しているユーザに対応する前記特定の空間フィルタ処理済み出力を比較する
ように構成される、請求項７に記載の装置。
前記空間フィルタ処理済み出力の第２のセットの各それぞれの空間フィルタ処理済み出力と前記特定の空間フィルタ処理済み出力を比較するために、前記プロセッサは、
前記特定の空間フィルタ処理済み出力と前記空間フィルタ処理済み出力の第２のセットの各それぞれの空間フィルタ処理済み出力との間の相互相関を実行し、
前記相互相関に基づいて、前記特定の空間フィルタ処理済み出力と前記複数の誘導可能マイクロフォンアレイの第１の誘導可能マイクロフォンアレイのそれぞれの空間フィルタ処理済み出力との間の相互相関ピークを判断し、
前記相互相関ピークに関連付けられた相関の角度を判断する
ように構成され、前記相関の角度は、前記固定マイクロフォンアレイと前記第１の誘導可能マイクロフォンアレイとの間の角度に対応する、請求項８に記載の装置。
ユーザのグループのうちのアクティブに話しているユーザを識別するための方法であって、
固定マイクロフォンアレイから空間フィルタ処理済み出力の第１のセットを受信することと、前記空間フィルタ処理済み出力の第１のセットは、前記ユーザのグループのうちの複数のアクティブに話しているユーザに対応する、
複数の誘導可能マイクロフォンアレイから、空間フィルタ処理済み出力の第２のセットを受信することと、ここにおいて、前記複数の誘導可能マイクロフォンアレイは、前記ユーザによって装着されたときに、前記ユーザの物理的視覚方向に向けられることが可能であり、前記複数の誘導可能マイクロフォンアレイの各々は、前記ユーザのグループのそれぞれのユーザに関連付けられる、
プロセッサが、前記空間フィルタ処理済み出力の第１のセットと前記空間フィルタ処理済み出力の第２のセットとの間の類似性を判断することと、
前記類似性に基づいて複数の話者識別情報（ＩＤ）を出力することと、前記複数の話者ＩＤの各話者ＩＤは、前記ユーザのグループのうちの異なるアクティブに話しているユーザに対応する、
を備える方法。
前記プロセッサが、前記空間フィルタ処理済み出力の第２のセットからの少なくとも１つの空間フィルタ処理済み出力に基づいて、前記固定マイクロフォンアレイの前記空間フィルタ処理済み出力の第１のセットを精製することをさらに備える、請求項１０に記載の方法。
前記類似性を判断することは、前記固定マイクロフォンアレイの前記空間フィルタ処理済み出力の第１のセットと前記誘導可能マイクロフォンアレイの第１の誘導可能マイクロフォンアレイからの特定の空間フィルタ処理済み出力との間の相関を計算することを備える、請求項１０に記載の方法。
前記プロセッサは、時間領域もしくは周波数領域における許容時間調整を伴う最小２乗適合、線形予測コーディング（ＬＰＣ）もしくはメル周波数ケプストラル係数（ＭＦＣＣ）を使用する特徴ベースの方式、またはクロスキュムラント、実証的カルバックライブラーダイバージェンスもしくは板倉−斉藤距離を使用する高位ベースの方式のうちの少なくとも１つに基づいて前記類似性をさらに判断する、請求項１０に記載の方法。
前記類似性に基づいて前記ユーザのグループのうちの第１のユーザの位置を判断することをさらに備える、請求項１０に記載の方法。
請求項１０〜１４のいずれか一項に記載の方法をプロセッサに実行させるためのコンピュータ可読命令を備える非一時的コンピュータ可読媒体。