JP6193349B2

JP6193349B2 - 音場のジェスチャー操作のためのシステム、方法、装置、およびコンピュータ可読媒体

Info

Publication number: JP6193349B2
Application number: JP2015503373A
Authority: JP
Inventors: シャン、ペイ; ビッサー、エリック
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2012-04-02
Filing date: 2013-03-20
Publication date: 2017-09-06
Anticipated expiration: 2033-03-20
Also published as: WO2013151789A1; KR20150002736A; KR101797804B1; CN110286758A; US20130259238A1; EP2834996B1; EP2834996A1; JP2015518207A; IN2014MN01835A; CN104247456B; US11818560B2; US20200077193A1; US20240098420A1; CN104247456A; US10448161B2

Description

米国特許法第１１９条に基づく優先権の主張
[0001]本特許出願は、２０１２年４月２日に出願され、本出願の譲受人に譲渡された「ＳＹＳＴＥＭＳ，ＭＥＴＨＯＤＳ，ＡＰＰＡＲＡＴＵＳ，ＡＮＤＣＯＭＰＵＴＥＲ−ＲＥＡＤＡＢＬＥＭＥＤＩＡＦＯＲＧＥＳＴＵＲＡＬＭＡＮＩＰＵＬＡＴＩＯＮＯＦＡＳＯＵＮＤＦＩＥＬＤ」と題する仮出願第６１／６１９，２０２号の優先権を主張する。

[0002]本開示は、ジェスチャー駆動による音響場変更（gesture-driven acoustic field modification）に関する。

[0003]適度な量の要素を有する拡声器アレイ（loudspeaker arrays）は、様々な音場変更（sound field modifications）を実施するのに使うことができる。たとえば、拡声器ビームフォーマは、音ビーム（a sound beam）を異なる方向にステアリングし、かつ／または音響ヌルビーム（acoustic null beams）を作成するのに使うことができる。別の例では、拡声器アレイは、波動場合成（wavefield synthesis）を使って、現実の音場の現実的な波面を再合成するように駆動され得る。波動場合成は、米国特許出願公開第２００６／００９８８３０Ａ１号（Ｒｏｅｄｅｒら）、第２００７／０２６９０６２Ａ１号（Ｒｏｄｉｇａｓｔら）、および第２００８／０１０１６１６Ａ１号（Ｍｅｌｃｈｉｏｒら）のような文書に記載されている。拡声器アレイの他の創造的使用は、サラウンド音（surround sound）、拡張音像などのような効果を与えることを含む。

[0004]一般的構成による信号処理の方法は、方向制御可能なトランスデューサ（a directionally controllable transducer）を駆動して、ビームを含む音場（a sound field）を生成することと、ジェスチャーの表現（a representation of a gesture）に応答してコマンドを生成することと、前記コマンドに応答してフィルタ構成（a filter configuration）を生成することと、入力信号に空間的指向性フィルタ（a spatially directive filter）を適用して、マルチチャネル信号を生成することとを含む。この方法において、空間的指向性フィルタはフィルタ構成に基づき、ジェスチャーはビームの方向およびビームの幅のうち少なくとも１つにおける変化を指示し、コマンドは、指示された変化を実施するためのコマンドである。また、具体的な特徴を読み取る機械にそのような方法を実施させる具体的な特徴（tangible features）を有するコンピュータ可読記憶媒体（たとえば、非一時的媒体）が開示される。

[0005]別の一般的構成による信号処理のための装置は、方向制御可能なトランスデューサを駆動して、ビームを生成するための手段と、ジェスチャーの表現に応答して、コマンドを生成するための手段と、前記コマンドに応答して、フィルタ構成を生成するための手段と、入力信号に対して空間的指向性フィルタリング動作を実施して、マルチチャネル信号を生成するための手段とを含む。この装置において、空間的指向性フィルタはフィルタ構成に基づき、ジェスチャーはビームの方向およびビームの幅のうち少なくとも１つにおける変化を指示し、コマンドは、指示された変化を実施するためのコマンドである。

[0006]別の一般的構成による信号処理のための装置は、方向制御可能なトランスデューサを駆動して、ビームを生成するように構成されたオーディオ出力段と、ジェスチャーの表現に応答して、コマンドを生成するように構成されたジェスチャーインタープリタと、前記コマンドに応答して、フィルタ構成を生成するように構成されたコマンドインタープリタと、入力信号に空間的指向性フィルタを適用して、マルチチャネル信号を生成するように構成されたシンセサイザとを含む。この装置において、空間的指向性フィルタはフィルタ構成に基づき、ジェスチャーはビームの方向およびビームの幅のうち少なくとも１つにおける変化を指示し、コマンドは、指示された変化を実施するためのコマンドである。

[0007]円錐型拡声器の例を示す図。 [0008]方形拡声器の例を示す図。 [0009]図１Ａに示す１２個の拡声器からなるアレイの例を示す図。 [0010]図１Ｂに示す１２個の拡声器からなるアレイの例を示す図。 [0011]ユーザによる遮断ジェスチャーの例を示す図。ユーザによる遮断ジェスチャーの例を示す図。 [0012]ユーザによる別の遮断ジェスチャー（a blocking gesture）の例を示す図。ユーザによる別の遮断ジェスチャーの例を示す図。 [0013]ユーザによる別の遮断ジェスチャーの例を示す図。ユーザによる別の遮断ジェスチャーの例を示す図。 [0014]ユーザによる方向転換ジェスチャー（a redirection gesture）の例を示す図。ユーザによる方向転換ジェスチャーの例を示す図。 [0015]ユーザによる耳を覆うジェスチャー（an ear-cupping gesture）の例を示す図。ユーザによる耳を覆うジェスチャーの例を示す図。 [0016]一般的構成による方法Ｍ１００のフローチャート。 [0017]方法Ｍ１００の実装形態Ｍ１１０のフローチャート。 [0018]方法Ｍ１１０の実装形態Ｍ１２０のフローチャート。 [0019]ジェスチャー表現からコマンドへのマッピングの例を示す図。ジェスチャー表現からコマンドへのマッピングの例を示す図。ジェスチャー表現からコマンドへのマッピングの例を示す図。 [0020]遮断ジェスチャーに対するシステムの応答を示す図。 [0021]方向転換ジェスチャーに対するシステムの応答を示す図。 [0022]耳を覆うジェスチャーに対するシステムの応答を示す図。 [0023]ユーザによるグローバルな抑制ジェスチャー（a global suppression gesture）の例を示す図。 [0024]ジェスチャー特徴候補（gesture feature candidates）の３つの例を示す図。 [0025]タスクＴ４００によって構成される空間的指向性フィルタの周波数ドメイン実装形態ＳＤＦ１０のブロック図。 [0026]空間的指向性フィルタの均等時間ドメイン実装形態（an equivalent time-domain implementation）ＳＤＦ２０のブロック図。 [0027]４つの異なる配向角向けの４要素アレイ（a four-element array for four different orientation angles）に対するＤＳＢフィルタの方向に関する振幅特性（magnitude response）の例を示す図。４つの異なる配向角向けの４要素アレイに対するＤＳＢフィルタの方向に関する振幅特性の例を示す図。４つの異なる配向角向けの４要素アレイに対するＤＳＢフィルタの方向に関する振幅特性の例を示す図。４つの異なる配向角向けの４要素アレイに対するＤＳＢフィルタの方向に関する振幅特性の例を示す図。 [0028]図１９ＡのＤＳＢフィルタの重み付き変更のためのビームパターンの例を示す図。図１９ＢのＤＳＢフィルタの重み付き変更（weighted modifications）のためのビームパターンの例を示す図。 [0029]フィルタの配向角が３０度である、８要素アレイ向けのＤＳＢフィルタのビームパターンの例を示す図。フィルタの配向角が６０度である、８要素アレイ向けのＤＳＢフィルタのビームパターンの例を示す図。 [0030]図２１ＡのＤＳＢフィルタの重み付き変更のためのビームパターンの例を示す図。図２１ＢのＤＳＢフィルタの重み付き変更のためのビームパターンの例を示す図。 [0031]３つの選択可能な固定空間セクタ（fixed spatial sectors）を有する方式の例を示す図。５つの選択可能な固定空間セクタを有する方式の例を示す図。 [0032]タスクＴ３００の実装形態によって参照することができるテーブルの例を示す図。 [0033]シンセサイザＳＹ１０の実装形態ＳＹ２０のブロック図。 [0034]９つのフィルタ構成からなるセットについてのビームパターンを示す図。 [0035]６つのフィルタ構成からなるセットについてのビームパターンを示す図。 [0036]対をなすＢＦＮＦ動作（pairwise BFNF operations）の態様を示す図。対をなすＢＦＮＦ動作の態様を示す図。対をなすＢＦＮＦ動作の態様を示す図。対をなすＢＦＮＦ動作の態様を示す図。 [0037]一般的構成による装置Ａ１００のブロック図。 [0038]装置Ａ１００の実装形態Ａ１１０のブロック図。 [0039]装置Ａ１１０の実装形態Ａ１２０のブロック図。 [0040]装置Ａ１００の実装形態Ａ１０５のブロック図。 [0041]一般的構成による装置ＭＦ１００のブロック図。 [0042]装置ＭＦ１００の実装形態ＭＦ１１０のブロック図。 [0043]装置ＭＦ１１０の実装形態ＭＦ１２０のブロック図。 [0044]拡声器の均一線形アレイ（a uniform linear array）を示す図。 [0045]拡声器の間に対称的なオクターブ間隔（symmetrical octave spacing）を有する均一線形アレイの一例を示す図。 [0046]非対称のオクターブ間隔を有する均一線形アレイの例を示す図。 [0047]均一間隔を有する曲線アレイ（a curved array having uniform spacing）の例を示す図。 [0048]ラップトップコンピュータＤ７１０を示す図。 [0049]ディスプレイデバイスＴＶ１０を示す図。 [0050]ディスプレイデバイスＴＶ２０を示す図。 [0051]拡張アレイ（an expanded array）の例の平面図。拡張アレイの別の例の平面図。 [0052]アレイの正面図。別のアレイの正面図。 [0053]ＰＢＥ処理の前後の音楽信号の周波数スペクトルの例を示す図。

[0054]拡声器アレイは、リスニングゾーンを発生するのに使うことができる。拡声器の線形、円形、または平面アレイを使って、（たとえば、波動場合成を使って）現実的な音場の波面を合成することが可能である。線形アレイを用いると、ある方向にビームされるように、再現された音場をステアリングし、他の方向のエネルギーをはるかに低くすることも可能である。本開示は、ジェスチャー認識（gesture recognition）を音場変更（sound field modification）と統合するシステムについて記載する。そのような統合システムは、そのような音場発生および／または変更を表現的ジェスチャーで駆動するのに使うことができ、そうすることによって不慣れなユーザ（a naive user）も、表現的アクションで音放射（sound radiation）を遮断し、または音ビームを方向づけるようなアクションを開始することができる。

[0055]文脈によって明確に限定されない限り、「信号」という用語は、本明細書では、ワイヤ、バス、または他の伝送媒体上に表されたメモリ位置（またはメモリ位置のセット）の状態を含む、その通常の意味のいずれをも示すために使用される。その文脈によって明確に限定されない限り、「発生（generating）」という用語は、本明細書では、計算（computing）または別様の生成（producing）など、その通常の意味のいずれをも示すのに使用される。その文脈によって明確に限定されない限り、「算出（calculating）」という用語は、本明細書では、計算（computing）、評価、推定、および／または複数の値からの選択など、その通常の意味のいずれをも示すのに使用される。それの文脈によって明確に限定されない限り、「取得（obtaining）」という用語は、算出（calculating）、導出、（たとえば、外部デバイスからの）受信、および／または（たとえば、記憶要素のアレイからの）検索など、それの通常の意味のいずれをも示すのに使用される。文脈によって明確に限定されない限り、「選択（selecting）」という用語は、２つ以上のセットのうちの少なくとも１つ、かつすべてよりも少数を識別、指示、適用、および／または使用することなど、その通常の意味のいずれをも示すのに使用される。「備える（comprising）」という用語は、本明細書と特許請求の範囲とにおいて使用される場合、他の要素または動作を除外するものではない。「に基づく」（「ＡはＢに基づく」など）という用語は、（ｉ）「から導出される」（たとえば、「ＢはＡの前の形（a precursor）である」）、（ｉｉ）「少なくとも〜に基づく」（たとえば、「Ａは少なくともＢに基づく」）、および特定の文脈で適当な場合に、（ｉｉｉ）「に等しい」（たとえば、「ＡはＢに等しい」）という場合を含む、その通常の意味のいずれをも示すのに使用される。同様に、「に応答して(in response to)」という用語は、「少なくとも〜に応答して」を含む、その通常の意味のいずれをも示すのに使用される。

[0056]マルチマイクロフォン・オーディオ感知デバイスのマイクロフォンの「ロケーション（location）」への言及は、文脈によって別段に規定されていない限り、マイクロフォンの音響的に敏感な面の中心のロケーションを示す。「チャネル」という用語は、特定の文脈に応じて、時々、信号経路を示すのに使用され、また他のときには、そのような経路によって搬送される信号を示すのに使用される。別段に規定されていない限り、「一連（series）」という用語は、２つ以上のアイテムのシーケンスを示すのに使用される。「対数(logarithm)」という用語は、１０を底とする対数（base-ten logarithm）を示すのに使用されるが、他の底へのそのような演算の拡張は本開示の範囲内である。「周波数成分（frequency component）」という用語は、（たとえば、高速フーリエ変換によって生成される）信号の周波数ドメイン表現のサンプル、または信号のサブバンド（たとえば、バーク尺度またはメル尺度サブバンド（a Bark scale or mel scale subband））など、信号の周波数または周波数帯域のセットのうちの１つを示すのに使用される。

[0057]別段に規定されていない限り、特定の特徴を有する装置の動作のいかなる開示も、類似の特徴を有する方法を開示する（その逆も同様）ことをも明確に意図し、かつ特定の構成による装置の動作のいかなる開示も、類似の構成による方法を開示する（その逆も同様）ことをも明確に意図する。「構成（configuration）」という用語は、その具体的な文脈（particular context）によって示されるように、方法、装置、および／またはシステムに関して使用され得る。「方法」、「処理」、「手順」、および「技法」という用語は、具体的な文脈によって別段に規定されていない限り、一般的、および互換的に使用される。「装置」および「デバイス」という用語も、具体的な文脈によって別段に規定されていない限り、一般的、および互換的に使用される。「要素（element）」および「モジュール」という用語は、一般に、より大きな構成の一部を示すのに使用される。文脈によって明確に限定されない限り、「システム」という用語は、本明細書では、「共通の目的を果たすために相互作用する要素のグループ」を含む、その通常の意味のいずれをも示すのに使用される。文書の一部分の参照による任意の組込みは、その部分内で言及された用語または変数の定義が、文書中の他の場所に現れ、ならびに組み込まれた部分で参照される図に現れた場合、そのような定義を組み込んでいることも理解されたい。

[0058]放出される音場の近距離場および遠距離場の領域において（in the near-field and far-field regions）、波面は、それぞれ球面および平面であると仮定することができる。近距離場は、音響受信機（たとえば、マイクロフォンアレイ）から１波長未満離れている空間の領域として定義され得る。この定義では、領域の境界までの距離は、周波数に反比例して変化する。たとえば、２００、７００、および２０００ヘルツの周波数では、１波長境界までの距離は、それぞれ約１７０、４９、および１７センチメートルである。代わりに、近距離場／遠距離場の境界がマイクロフォンアレイから特定の距離（たとえば、アレイのマイクロフォンからまたはアレイの重心から５０センチメートル、またはアレイのマイクロフォンからまたはアレイの重心から１メートルもしくは１．５メートル）にあると見なすことが有用であることがある。特定のコンテキストによって別段に規定されていない限り、本明細書では遠距離場の近似が想定される。

[0059]図１Ａは、円錐型拡声器の例を示し、図１Ｂは、方形拡声器（たとえば、オランダ、アイントホーフェンのＮＸＰセミコンダクターズのＲＡ１１ｘ１５ｘ３．５）の例を示す。図１Ｃは、図１Ａに示す１２個の拡声器からなるアレイの例を示し、図１Ｄは、図１Ｂに示す１２個の拡声器からなるアレイの例を示す。図１Ｃおよび図１Ｄの例は、たとえば、拡声器間距離（inter-loudspeaker distance）が２．６ｃｍであり、アレイの長さ（３１．２ｃｍ）が典型的なラップトップコンピュータの幅とほぼ等しくなるように実装することができるが、これらの例は、これらの特定の寸法に限定されるのではなく、本明細書に記載する原理は、どの寸法の方向制御可能なトランスデューサ（たとえば、拡声器アレイ）でも実現することができる。

[0060]そのような拡声器アレイを含むレンダリングシステム用の構成パラメータは通常、記述的ではなくむしろ、文字通りに（たとえば、科学用語で）表される。そのような構成パラメータは、ビームフォーマが音をステアリングするべき角度と、ビームの幅と、音のボリュームとを含み得る（たとえば、米国特許出願公開第２０１０／００９８２７５Ａ１号（Ｍｅｔｃａｌｆ）の図１１参照）。そのようなパラメータは、研究者の観点からは、すでに高度に抽象化されたものであるが、電話またはタブレットもしくはラップトップコンピュータなどのデバイスにおいてアレイを使おうとするユーザよりも、試験技術者に適し得る。

[0061]そのような拡声器アレイが、パーソナルコンピューティングデバイス（たとえば、ラップトップ、ネットブック、もしくはタブレットコンピュータ、スマートフォン、セットトップボックスもしくはビデオ再生デバイス、ゲーム機など）またはテレビディスプレイに統合または結合されているとき、ユーザが、アレイの動作をリアルタイムで調整できることが望ましい場合がある。ただし、消費者アプリケーションの場合、音場が変化されることになる度にアレイの詳細な構成パラメータを決定し、指定するようユーザに要求するのは避けることが望ましい場合があり、よりユーザフレンドリーなソリューション（たとえば、単純であり、より記述的なユーザインターフェース）および統合システムが望ましい場合がある。たとえば、ユーザが何をしているかに応答してアレイをリアルタイムで調整するインターフェースを実装することが望ましい場合がある。

[0062]音場変更のための従来の手法は、ユーザに、リモートコントロール上のボタンを見つけ、画面上のユーザインターフェースを操作するために閲覧を中断し、かつ／または音声コマンドを学習するよう要求するものであった。本開示は、音生成（sound production）を制御するための異なる感覚情報（sensory information）の統合について記載する。表現的ジェスチャーに適切に応答するようにシステムを構成することによって、新たなユーザ経験が遂行され、音場変更アルゴリズムおよび拡声器アレイハードウェアの能力のより優れた利用法が探求され得る。

[0063]ユーザが、特定の方向からの音を聞きたくない場合、所望の変化を示すためのアクションは、ユーザが、音を遮断するかのように、自分の片手または両手を上げることであり得る。そのようなアクションは、開いた掌を外に向けて（with the open palm facing outward）片手を上げ、守備または防御ジェスチャーをとるジェスチャーとして特徴づけることができる。連続する図２Ａおよび図２Ｂは、どのようにしてユーザがそのようなジェスチャーを経時的に実施し得るかの一例を示す。音が望まれないことを示すための別のアクションは、ユーザが、開いた手を外側に向かって動かす（move an open hand outwardly）もの（たとえば、外部の音を遮断し、または押しのけるかのように、ユーザから離れていく手の移動）であり得る。連続する図３Ａ〜図３Ｂおよび図４Ａ〜図４Ｂは、ユーザがそのようなジェスチャーを経時的にどのように実施し得るかの２つの例を示す。そのように、開いた掌を外に向けて片手を差し出すジェスチャーは、「聞く耳をもたない（talk-to-the-hand）」ジェスチャーと呼ばれ得る。

[0064]ユーザが、音ビームを異なる方向に動かしたい場合、所望の変化を示すためのアクションは、ユーザが、自分の両手を互いの方に（toward each other）（たとえば、音ビームをつかむ（grasp the sound beam）かのように）動かし、次いで、両手をそろえて（in unison）所望の方向に動かすものであり得る。連続する図５Ａおよび図５Ｂは、どのようにしてユーザがそのようなジェスチャーを経時的に実施し得るかの一例を示す。

[0065]ユーザが、特定の方向の音をはっきりと聞くことができず、音場の焦点を自分の耳に合わせたい場合、所望の変化を示すためのアクションは、ユーザが片手を耳にかぶせ（cup a hand over the ear）、場合によっては自分の頭もその耳の方向に傾けるものであり得る。そのようなアクションは、片手をユーザの耳の方に持ち上げ（たとえば、片手をユーザの顔の横に持ち上げ）、掌を前に向け、場合によっては指を少し前に曲げた（たとえば、手で耳を覆った）ジェスチャーとして特徴づけられ得る。図６Ａおよび図６Ｂは、そのようなジェスチャーの進行を経時的に示す。

[0066]最上位レベルにおいて、音場変更のための統合システムは、「認識→分析→合成」パラダイムに従って実現することができる。そのような構造は、ユーザによって指示される所望の変化を認識し、現在のコンテキストにおいて、指示された変化を分析し、指示された変化を実施するように変更された音場を合成するように設計され得る。デバイスは、表現的な人間のジェスチャーを取り込むのに使うことができ、そのジェスチャーは次いで、可能なパターンのうちの１つに解釈される。別個のパターンに従って、決定が行われ、対応する音場が合成される。一般に合成は、ジェスチャーの細部からのさらなる情報に基づき、細部は、手の位置、正確な配向（orientation）の識別などを含み得る。一例では、システムは、第１の方向でのエネルギーの集中を含む音場を生成するように、（たとえば、図１Ｃまたは図１Ｄに示す）拡声器アレイを駆動し、音場内で実施されるジェスチャーを認識し、ここでジェスチャーは、拡声器アレイの平面での第２の方向を示す。

[0067]図７Ａは、音場生成タスクＴ１００と、ジェスチャー解釈タスクＴ２００と、コマンド解釈タスクＴ３００と、信号合成タスクＴ４００とを含む、一般的構成によるオーディオ信号処理の方法Ｍ１００のフローチャートを示す。音場生成タスクＴ１００は、方向制御可能なトランスデューサ（たとえば、拡声器のアレイ）を駆動して、ビームを含む音場を生成する。ビームとは、トランスデューサに対する特定の角度または空間方向に沿ったエネルギーの集中と定義される。たとえば、タスクＴ１００は、本明細書において論じるように、時間ドメイン内および／または周波数ドメイン内でのビームフォーミング動作として実装され得る。

[0068]ジェスチャー解釈タスクＴ２００は、ビームの方向およびビームの幅のうち少なくとも１つにおける変化を実施するためのコマンドを生成する。タスクＴ２００は、このコマンドを、変化を指示するジェスチャーの表現に応答して生成する。タスクＴ２００は、表現からコマンドへのマッピングに従ってコマンドを生成するように実装することができ、マッピングは、ルックアップテーブルまたは同様の構造において実施され得る。図８〜図１０は、そのようなマッピングの例を示す。

[0069]タスクＴ２００によって生成されたコマンドに応答して、コマンド解釈タスクＴ３００は、フィルタ構成を生成する。フィルタ構成は、時間ドメイン内および／または周波数ドメイン内での空間的指向性フィルタリング動作（たとえば、ビームフォーミング動作）を記述するフィルタ係数セットを含み得る。あるいは、フィルタ構成は、そのようなフィルタ係数セットに対する変更を記述することができる。

[0070]信号合成タスクＴ４００は、フィルタ構成に基づく空間的指向性フィルタを入力信号に適用することによって、マルチチャネル信号を生成する。たとえば、タスクＴ４００は、時間ドメイン内および／または周波数ドメイン内でのビームフォーミング動作として実装され得る。

[0071]タスクＴ１００は、方向制御可能なトランスデューサを駆動して、ビームを含む音場を生成する。タスクＴ１００は一般に、ビームフォーマや波動場合成（wavefield synthesis）（ＷＦＳ）レンダリング技法など、空間的指向性フィルタ（a spatially directive filter）によって生成されるマルチチャネル信号に基づいてトランスデューサを駆動するように実装される。たとえば、駆動信号は、方法Ｍ１００の以前の実行における信号合成タスクＴ４００のインスタンスによって生成されたマルチチャネル信号に基づき得る。トランスデューサが拡声器のアレイであるケースでは、駆動信号が、各チャネルがアレイの特定の対応する拡声器を駆動するようなマルチチャネル信号であることが典型的である。

[0072]生成された音場の所望の方向に（たとえば、ビームの方向に）強め合う干渉を誘発する（induce constructive interference）とともに、生成された音場の他の方向に（たとえば、ビームの主ローブの外の方向に）弱め合う干渉を誘発する（inducing destructive interference）ための駆動信号を生成するように、タスクＴ１００を実装することが望ましい場合がある。たとえば、タスクＴ１００は、トランスデューサを駆動して、所望の方向に集中された音響エネルギーのビームを作成するように、および他の方向にビーム応答の谷間を作成するように実装され得る。図１８Ａ〜図２２Ｂは、ビームパターンの例を示すが、これらについては後でより詳しく論じる。

[0073]概して、タスクＴ１００は、隣接し合う拡声器の間の均一または均一でない間隔を有する線形拡声器アレイ、または拡声器の非線形（たとえば、成形した（shaped））アレイを駆動するように実装され得る。トランスデューサのいくつかの部分（たとえば、拡声器アレイのサブアレイ）を、異なる周波数範囲向けに異なるように駆動するように、タスクＴ１００を実装することも可能である。そのような実装形態は、広帯域再現（wideband reproduction）のためのより良好な指向性を提供し得る。１つのそのような例において、タスクＴ１００は、第１の周波数範囲を有する第１の駆動信号で拡声器アレイを駆動するように、および第１の周波数範囲よりも低い第２の周波数範囲を有する第２の駆動信号で、そのアレイの交互の拡声器（alternate loudspeakers of the array）を駆動するように実装される。

[0074]ジェスチャー解釈タスクＴ２００は、ジェスチャー表現を対応するコマンドにマップするルックアップテーブルまたは同様の構造へのインデックスとしてジェスチャー表現を適用することによって、指示された変化を実施するためのコマンドを生成するように実装され得る。表現されるジェスチャーから対応するコマンドへのそのようなマッピングのいくつかの例について、以下で論じる。

[0075]Ａ）遮断または押し出すジェスチャー（a blocking or pushing gesture）（たとえば、「聞く耳をもたない」ジェスチャー）の表現は、ビームの強度（intensity）をユーザの方向において低下させるための、または（たとえば、図１１に示すように）音場において局所的ヌル（a local null）を作成するためのコマンドにマップされ得る。そうではなく、ユーザが、局所的音レベル（local sound level）を上げたい場合、所望の変化を指示するためのアクションは、ユーザが、手招きジェスチャー（a beckoning gesture）を行うことであり得る。そのようなジェスチャーは、掌をユーザに向けて（with the palm facing toward the user）手を上げ（その配向は、たとえば、ユーザの顔に対する、親指の外側位置によって示すことができる）、それと組み合わせて、手の指を掌の内側の方に曲げたものとして特徴づけられ得る。あるいは、手招きジェスチャーは、開いた掌を内側にして手を上げること（as a raised and open palm-inward hand）と、手のサイズの減少および／または手の距離の増加との組合せとして特徴づけられ得る。手招きまたは引寄せジェスチャー（pulling gesture）の表現は、音場内の局所的ビームを作成するための、または既存のビームの強度をユーザの方向において減少させるためのコマンドにマップされ得る。図８は、そのようなマッピングの例を行ＧＡ１−ＣＡ１およびＧＡ２−ＣＡ２に示す。

[0076]Ｂ）ユーザが、音ビームを異なる方向に動かしたい場合、所望の変化を指示するためのアクションは、ユーザが、自分の両手を互いの方に（たとえば、音ビームをつかむ（grasp the sound beam）かのように）動かし、次いで、両手をそろえて所望の方向に動かすものであり得る。連続する図５Ａおよび図５Ｂは、どのようにしてユーザがそのようなジェスチャーを経時的に実施し得るかの一例を示す。あるいは、そのような所望の変化は、（たとえば、覆うモーション（a cupping motion）で）両手を合わせ（bringing the hands together）、次いで両手を一緒に新たな位置に移し、次いで両手を互いから離す（あるいは、新たな位置である程度の期間、たとえば１または２秒間、両手を握り合わせる（holding the hands together））という連続を含むジェスチャーによって指示することができる。そのようなジェスチャーの片手バージョンは、開いた掌を外に向けた手（an open-palm-outward hand）（場合によっては、指を掌の内側に向けて曲げる（fingers curling inward toward the palm）モーションが続く）が、次いで、所望の方向を示すために片側または反対側に移動されるように見えるものとして特徴づけられ得る。そのようなジェスチャーの別の片手バージョンは、手を閉じ、次いで閉じた手を新たな位置に移動し、次いで手を開く（あるいは、手を、新たな位置である程度の期間、たとえば１または２秒間、静止させておく）という連続を含む。そのような方向を変えるジェスチャー（a redirecting gesture）の表現は、ビームを、元の方向から（たとえば、図１２に示すように）指示された方向にステアリングするための（たとえば、移すための）コマンドにマップされ得る。図８は、そのようなマッピングの例を行ＧＢ１−ＣＢ１およびＧＢ２−ＣＢ２に示す。

[0077]Ｃ）ユーザが、ビームを、（たとえば、通話のプライバシーを高めるために）ユーザ自身の方向に集束させたい場合、所望の変化を指示するためのアクションは、ユーザが、自分の両手の間を水平方向に広くあけて見せ（show his hands spaced wide apart in a horizontal direction）、次いで、両手を合わせることであり得る。そのようなジェスチャーの表現は、ユーザの方向にビームを作成し、入力信号をそのビームに制限し、またはユーザの方向での既存のビームの幅を削減するためのコマンドにマップされ得る。同様に、両手を水平方向に互いから離すジェスチャー（a gesture of moving the hands away from each other in a horizontal direction）は、音ビームの幅を増大するための所望の変化を指示することができ、そのようなコマンドにマップされ得る。図８は、そのようなマッピングの例を行ＧＣ１−ＣＣ１およびＧＣ２−ＣＣ２に示す。図１０は、そのようなマッピングの代替例を行ＧＣ１ａ−ＣＣ１ａ、ＧＣ１ｂ−ＣＣ１ｂ、ＧＣ２ａ−ＣＣ２ａ、およびＧＣ２ｂ−ＣＣ２ｂに示す。

[0078]Ｄ）ユーザが、特定の方向の音をはっきりと聞くことができず、音場を自分の方向に集束させ、または場合によっては音場を（たとえば、雑音のある環境において）より明瞭にさせたい場合、所望の変化を指示するためのアクションは、ユーザが自分の手を自分の耳にかぶせ、かつ場合によっては、自分の頭をその方向に傾けることであり得る。そのようなアクションは、片手をユーザの耳の方に持ち上げ（たとえば、片手をユーザの顔の横に持ち上げ）、掌を前に向け、場合によっては指を少し前に曲げた（with the fingers partially curled forward）（たとえば、手で耳を覆った）ジェスチャーとして特徴づけられ得る。図６Ａおよび図６Ｂは、そのようなジェスチャーの進行を経時的に示す。そのようなジェスチャーの表現は、（たとえば、局所的ボリュームを増大するために）耳の方向のビームを作成し、もしくは強め、既存のビームを耳に向け直し、または場合によっては、たとえば図１３に示すように、音場のレベルをその方向にブーストするためのコマンドにマップされ得る。代替または追加として、そのようなジェスチャーの表現は、音場のダイナミックレンジを局所的もしくはグローバルに圧縮するための、および／または音場の認知されるラウドネスを（たとえば、低音ブースティングおよび／または心理音響的低音強調（psychoacoustic bass enhancement）（ＰＢＥ）により）局所的もしくはグローバルに強調するためのコマンドにマップされ得る。図８は、そのようなマッピングの例を行ＧＤ１−ＣＤ１に示す。

[0079]逆に、ユーザが、そのような集束を逆転（reverse）させたい場合、所望の変化を指示するためのアクションは、ユーザが、消去または振り払うジェスチャー（an erasing or waving-away gesture）を行うことであり得る。そのようなジェスチャーは、立てた手を、開いた掌を外側にして（as a raised hand held with the open palm outward）（一般に、指はそろえるのではなくばらばらにして）持ち上げ、手のつけ根のピボットの辺りで前後に動かす（すなわち、上腕をその軸の辺りで前後に回転することによって移動される）ものと特徴づけることができる。そのようなジェスチャーの表現は、局所的ボリューム、ダイナミックレンジ、およびまたはラウドネス補償動作（loudness compensation operation）をデフォルトレベルに戻すためのコマンドにマップされ得る。図８は、そのようなマッピングの例を行ＧＤ２−ＣＤ２に示す。

[0080]Ｅ）ユーザが、音場全体のボリュームを増大させたい場合、所望の変化を指示するためのアクションは、ユーザが、両方の手を一緒に（掌を上に、または掌を下にして）上げることであってよく、そのようなジェスチャーの表現は、音場の全体的ボリュームを増大するためのコマンドにマップされ得る。同様に、ユーザが、音場全体のボリュームを低下させたい場合、所望の変化を指示するためのアクションは、ユーザが、両方の手を一緒に（たとえば、図１４の例に示すように、掌を下にして）下げることであってよく、そのようなジェスチャーの表現は、音場の全体的ボリュームを低下するためのコマンドにマップされ得る。図８は、そのようなマッピングの例を行ＧＥ１−ＣＥ１およびＧＥ２−ＣＥ２に示す。

[0081]Ｆ）ユーザが、（少なくともユーザの方向の）ボリュームを低下させ、または音場のダイナミックレンジを圧縮したい場合、所望の変化を指示するためのアクションは、ユーザが、両手を互いの方に垂直方向に移動させ、または一方の手を耳に当てると同時に他方の手を下げることであり得る。そのようなジェスチャーの表現は、（局所的またはグローバルに）ボリュームを低下させ、または音場のダイナミックレンジを圧縮するためのコマンドにマップされ得る。図８は、そのようなマッピングの例を行ＧＦ１−ＣＦ１に示す。図９は、そのようなマッピングの別の例を、行ＧＦ３−ＣＦ３示す。

[0082]同様に、ユーザが、（少なくともユーザの方向の）ボリュームを増大させ、または音場のダイナミックレンジを拡張したい場合、所望の変化を指示するためのアクションは、ユーザが、両手を互いから垂直方向に離し（move the hands away from each other in a vertical direction）、または一方の手を耳に当てると同時に他方の手を上げることであり得る。そのようなジェスチャーの表現は、（局所的またはグローバルに）ボリュームを増大させ、または音場のダイナミックレンジを拡張するためのコマンドにマップされ得る。図８は、そのようなマッピングの例を行ＧＦ２−ＣＦ２に示す。図９は、そのようなマッピングの別の例を行ＧＦ４−ＣＦ４に示す。

[0083]Ｇ）ユーザが、他の帯域のレベルに対して、音場の周波数帯のレベルを（たとえば、等化のために）増大または低下させたい場合、所望の変化を指示するためのアクションは、ユーザが、一方の手を耳に当てながら、他方の手を、掌を外側にしてまっすぐ持ち上げ、この手を、それぞれ、ユーザの視点から、それぞれ、時計回りまたは反時計回りに（たとえば、ノブまたはハンドルを回すかのように）回転することであり得る。そのようなジェスチャーの表現は、特定の周波数帯のレベルを増大または低下させるためのコマンドにマップされ得る。レベルが調整されるべきである周波数帯（たとえば、低音、中音域、高音（bass, midrange, treble））は、回転する手の高さによって指示することができる（たとえば、高く上げた手は高音を指示し、低く上げた手は低音を指示する）。図９は、そのようなマッピングの例を、行ＧＧ１ａ−ＣＧ１ａ、ＧＧ２ａ−ＣＧ２ａ、ＧＧ１ｂ−ＣＧ１ｂ、ＧＧ２ｂ−ＣＧ２ｂ、ＧＧ１ｃ−ＣＧ１ｃ、およびＧＧ２ｃ−ＣＧ２ｃに示す。

[0084]Ｈ）ユーザが、現在の音場構成に対する変化を不可に（disable）したい場合、所望の変化を指示するためのアクションは、ユーザが、開いた手を、掌を外にして差し出し、その手を時計回りに回転させながらその手を閉じることであり得る。そのようなロックジェスチャー（a locking gesture）の表現は、現在の音場構成に対する変化を不可にするための、または特定の変化（たとえば、ビーム方向の変化）を不可にし、他の変化（たとえば、局所的音レベルの変化）を許可するためのコマンドにマップされ得る。同様に、ユーザが、現在の音場構成に対する変化を可能にしたい場合、所望の変化を指示するためのアクションは、ユーザが、閉じた手を差し出し、その手を反時計回りに回転させながらその手を開くことであり得る。そのようなアンロックジェスチャー（an unlocking gesture）の表現は、現在の音場構成に対する変化を可能にするためのコマンドにマップされ得る。図９は、そのようなマッピングの例を、行ＧＨ１−ＣＨ１およびＧＨ２−ＣＨ２に示す。

[0085]特定の実装形態における異なるジェスチャー表現に関連付けられたアクションの範囲は、上記でおよび／または図８〜図１０で説明した例のうちどの１つまたは複数を含んでもよい。追加または代替として、これらのアクションのうちいくつかは、グローバルに適用することができる（たとえば、ボリューム、周波数分散（frequency distribution）、および／またはダイナミックレンジの制御）。

[0086]後で論じるように、表現されるジェスチャーは、手の動き以外のアクション、または手の動きに加えてのアクションを含み得る。たとえば、ユーザの顔の表情、頭の位置および／もしくは配向（orientation）、ならびに／または視線の方向（gaze direction）および手の動きを追跡し、それに従って音場を変えるように（たとえば、音ビームをステアリングするように）、方法Ｍ１００を実装することが望ましい場合がある。

[0087]ジェスチャー解釈タスクＴ２００は、コンテキスト依存であり得る。たとえば、タスクＴ２００は、現在のコンテキストに適したジェスチャーの表現にのみ応答して、コマンドを生成するように実装され得る。１つのそのような例において、タスクＴ２００は、システムがすでにミュートされた状態（a muted state）にあるとき、ボリュームを低下するためのジェスチャーの表現を無視するように実装される。別のそのような例では、タスクＴ２００は、システムがすでにその方向において遮断された状態（a blocked state）にあるとき、遮断ジェスチャー（a blocking gesture）の表現を無視するように実装される。

[0088]ジェスチャー表現から、対応するコマンドへのマッピングも、コンテキスト依存であり得る。たとえば、タスクＴ２００は、ジェスチャー表現が受信されたときに存在するコンテキストに依存して、２つ以上の異なるコマンドを、同じジェスチャー表現に関連付けるように実装され得る。追加または代替として、コンテキストは、コマンドが局所的に（たとえば、ユーザの方向にのみ）、またはグローバルに適用されるべきかを指示し得る。

[0089]方法Ｍ１００は、別の動作またはデバイスからジェスチャー表現を取得するように実装され得る。あるいは、方法Ｍ１００は、取り込まれたシーンの分析を実施することによって、ジェスチャーの表現を生成するように実装され得る。図７Ｂは、取り込まれたシーンを分析してジェスチャーの表現を生成するシーン分析タスクＴＡ１０を含む、方法Ｍ１００の実装形態Ｍ１１０のフローチャートを示す。

[0090]図７Ｃは、ジェスチャーを含むシーンを取り込むシーン取込みタスク（a scene capture task）ＴＣ１０も含む、方法Ｍ１１０の実装形態Ｍ１２０のフローチャートを示す。シーン取込みタスクＴＣ１０は、シーンを記録するのに、様々な取込みモダリティ（capture modalities）（たとえば、イメージングおよび／または測距（ranging））のうちどの１つまたは複数を使うように実装されてもよい。たとえば、タスクＴＣ１０は、ジェスチャーを含む１つの画像または画像シーケンス（a sequence of images）（たとえば、ビデオシーケンス）を記録するように実装され得る。

[0091]そのような取込みは、（たとえば、色および／または輝度の違いに基づく画像分割（image segmentation）のための）可視光および／もしくは赤外線による光撮像（optical imaging）ならびに／またはレーザ距離測定を含み得る。タスクＴＣ１０は、画像シーケンスを取り込むのに、カメラに基づく撮像システムを使うように実装されてよく、タスクＴＡ１０は、そのシーケンス内のオブジェクトと動きとを認識するのに、画像処理技法を使うように実装されてよい。たとえば、タスクＴＣ１０は、（たとえば、パーソナルコンピューティングデバイス内または上に搭載されたウェブカム（a webcam）を使って）音場内のユーザの画像シーケンスを取り込むように実装され得る。２つ以上のカメラを用いて、タスクＴＣ１０およびＴＡ１０は、それぞれ、３次元撮像および分析を実施するように実装することさえもできる（たとえば、２次元認識動作に、深度情報（depth information）を追加する）。

[0092]追加または代替として、タスクＴＣ１０は、超音波を使ってそのような取込みを実施するように実装され得る。１つのそのような例において、超音波トランスデューサのアレイが、（たとえば、測距による）空間撮像（spatial imaging）を実施するのに使われる。超音波アレイにおけるトランスデューサの十分な密度のゆえに（with a sufficient density）、そのような空間撮像の解像度は、細部（minute details）の識別をサポートするのに十分高くなり得る。追加または代替として、タスクＴＣ１０は、（たとえば、米国特許出願公開第２０１０／０２０２６５６Ａ１号（Ｒａｍａｋｒｉｓｈｎａｎら）に記載されている）超音波ドップラー技法を使うことによって、移動情報を取り込むように実装され得る。

[0093]追加または代替として、タスクＴＣ１０は、構造化放出（structured emission of sound）を使って測距を実施するように実装され得る。たとえば、タスクＴＣ１０は、（たとえば、米国特許出願公開第２０１２／０００１８７５Ａ１号（Ｌｉら、２０１２年１月５日公開）に記載されている）スペクトル拡散超音波など、音の構造化放出を使って測距を実施するように実装され得る。そのような測距は、取り込まれたシーンの深度撮像（depth imaging）および／または深度分割（depth segmentation）をサポートするのに使うことができる。

[0094]音の構造化放出の利用への追加または代替として、タスクＴＣ１０は、距離マッピング（distance mapping）、深度撮像、および／または深度分割のために、光の構造化放出を使うように実装され得る。そのような実装形態は、既知のパターン（たとえば、ストライプおよび／またはドットのパターンなど、周期的な光パターン（a periodic pattern of light））をシーン上に投影することと、照明されるシーンの画像を取り込み、そのパターンの変形を判断することによって、シーン中の表面点の深度（the depths of surface points）を推定することとを含み得る。そのような手法は、光を放出するためのレーザ（たとえば、赤外線レーザ）と、放出される光にパターンを組み付けるための回折格子（a diffraction grating）（たとえば、ホログラム）と、照明されるシーンの画像を取り込むための画像検出器とを使うことができる。そのようなケースでは、タスクＴＡ１０は、（たとえば、ワシントン州レドモンドのマイクロソフトのＫｉｎｅｃｔセンサーによって実施されるように）視野内のオブジェクトによって反射される投射パターン（the projected pattern）の画像を分析するように実装され得る。

[0095]これらの取込みモダリティのうち任意の１つまたは複数とともに（またはその代わりに）取込みタスクＴＣ１０によって使うことができる他の取込み手法には、ジェスチャーグローブ（a gesture glove）および／または他のコントローラの使用があり、この使用は、重力軸（たとえば、地球の表面に対して垂直な軸）または磁気軸（たとえば、地球の磁気軸）など、外部基準方向（an external reference direction）に対して、コントローラの現在の空間配向（a current spatial orientation）を示す、コントローラ内の配向センサーによって示される移動を追跡することを含み得る。そのような配向センサー（an orientation sensor）は、ジャイロスコープおよび／または加速度計など、１つまたは複数の慣性センサーを含み得る。ジャイロスコープは、１つの軸の周りの配向、または２つもしくは３つの（一般に直交）軸の各々の周りの配向の変化（たとえば、ピッチ、ロールおよび／またはツイストの変化）を検出するために角運動量（angular momentum）の原理を使用する。マイクロ電気機械システム（ＭＥＭＳ）デバイスとして作製され得るジャイロスコープの例には、振動ジャイロスコープ（vibratory gyroscopes）がある。加速度計は、１つの軸に沿った加速度、または２つもしくは３つの（一般に直交）軸の各々に沿った加速度を検出し、移動の方向を取り込むのに使うことができる。加速度計も、ＭＥＭＳデバイスとして作製され得る。また、ジャイロスコープと加速度計とを単一のセンサーに組み合わせることが可能である。追加または代替として、配向センサーは、１つまたは複数の磁界センサー（たとえば、磁力計）を含み得、磁界センサーは、１つの軸に沿った磁界強度、または２つもしくは３つの（一般に直交）軸の各々に沿った磁界強度を測定する。一例では、コントローラは、（たとえば、地球の）磁気軸に対する、デバイスの現在の配向を示す磁界センサーを含む。

[0096]シーン分析タスクＴＡ１０は、取り込まれたシーンを分析して、ジェスチャーの表現を生成する。取り込まれたシーンのそのような分析は、（たとえば、色による、および／または深度による）画像分割、皮膚色検出、および／またはバックグラウンド除去（background subtraction）など、１つまたは複数の画像分析動作を含み得る。シーン分析タスクＴＡ１０は、ビデオシーケンスの隣接し合うフレームの間の差分画像（difference images）の算出など、経時的な変化を検出するための１つまたは複数の動作も含み得る。

[0097]タスクＴＡ１０は、特徴抽出および特徴分類など、分析されるシーンに対して１つまたは複数のサブタスクを実施するように実装され得る。特徴抽出は、取り込まれたシーンを分析して、ユーザの手、指、頭、顔、目、体、および／または肩などの対象領域（regions of interest）を検出し、突き止める（locate）ことを含み得る。そのような分析は、たとえば片手または各手の軌道、頭の回転および／または傾きなど、検出された特徴の配向および／または（たとえば、画像シーケンス内の）経時的な変化を識別することも含み得る。

[0098]タスクＴＡ１０によるシーン分析は、１つまたは複数のモーメント（たとえば、Ｈｕ不変モーメント（Hu invariant moments））を算出すること、（たとえば、指先検出のために）ｋ曲率（k-curvature）を算出すること、幾何学的形状記述子を算出すること、および／または領域を１組のテンプレートのうち１つまたは複数と突き合わせることなど、検出された領域の特徴づけも含み得る。そのような分析動作は、手の検出、指抽出のための凸包（convex hull）、コーナー検出、凸面検出（convexity detection）、体部分のラベルづけのための骨格登録、骨格モデルへのマッピング、および／または深度分割を含み得る。

[0099]タスクＴＡ１０は、一致の測度（a measure of the match）（たとえば、類似性測度）が、候補依存であり得る閾値を上回る場合、特徴を、（たとえば、最大の類似性測度により）ジェスチャー特徴候補のセット中で最も近いものとして分類することなどの特徴分類を含み得る。特徴の１つまたは複数の側面は、たとえば、形状、位置（たとえば、ユーザの両手の、互いとの空間関係、ならびに／またはユーザの手とユーザの顔および／もしくは目との空間関係）、距離（たとえば、測距によって、および／または検出された特徴のサイズによって検出される）、配向（たとえば、手または頭の傾き、指す方向）、および平行移動（translation）（たとえば、左、右、上、および／または下への移動）のうちの１つまたは複数を含み得る。図１５は、ジェスチャー特徴候補の３つの例を示す。

[00100]特徴検出は、過去および／または今後の取込みにも基づき得る。たとえば、タスクＴＡ１０は、隣接する取込みフレーム（a capture frame）内の近くのロケーションで同じ特徴が検出された場合、取込みフレーム内の特定の特徴の検出が、より見込みがあると見なされ得るように実装され得る。

[00101]タスクＴＡ１０は、複数の候補ジェスチャー表現のうち１つまたは複数を選択することによって、ジェスチャー認識を実施するように実装され得る。そのようなジェスチャー認識は、一致の測度（たとえば、類似性測度）が、候補依存であり得る閾値を上回る場合、ジェスチャーを、（たとえば、最大の類似性測度により）ジェスチャー候補のセットの中で最も近いものとして分類することを含み得る。そのような分類は、シーンまたはフレーム内の個々の特徴からジェスチャー要素を認識するための、および／またはジェスチャー要素のシーケンスを経時的に認識するための、隠れマルコフモデルまたは他のパターン認識アルゴリズムに基づき得る。追加のアプリケーションは、ジェスチャー認識に応答して、（たとえば、音および／またはディスプレイアイコンによる）メニューナビゲーションおよび／またはユーザインターフェース・フィードバックのための複合ジェスチャー（たとえば、２つ以上のジェスチャーのシーケンス）を含み得る。

[00102]タスクＴＡ１０は、ジェスチャーを、ジェスチャー要素のシーケンス（たとえば、検出された特徴）として認識するように実装され得る。そのようなシーケンスは、ジェスチャー要素の特定の移動も含み得る。上述したように、ハンドジェスチャーは、カメラで認識され、かつ／または超音波アレイで追跡され得る。たとえば、図２Ａ〜図２Ｂに示すジェスチャーは、開いた掌を外に向けて上げた手（a raised open-palm-outward hand）（たとえば、ユーザの顔に対する、親指の内側の位置で示すことができる）のように見えるものとして、および／または、手のサイズが増し、かつ／もしくは手の距離が低下する、開いた掌を外に向けて上げた手のように見えるものとして、特徴づけることができる。手の動きの他の例には、時計回りまたは反時計回りの回転、横移動（lateral movement）、垂直移動（vertical movement）、センサーに向かう、またはセンサーから離れる移動、および両手の相対移動（たとえば、両手が同じ方向に動く、両手が互いの方に／から離れて動く）がある。手の形状の変化は、つかむことと、放すこととを含み得る。ジェスチャーは、（たとえば、ダイナミックレンジおよび／またはボリュームの制御のために）ユーザの頭の回転、およびユーザの頭の横の傾きのうち、少なくとも１つを含み得る。

[00103]タスクＴＡ１０は、コンポーネントジェスチャー要素から、合成ジェスチャー（たとえば、経時的に提示される異なる要素のシーケンスを含むジェスチャー）を認識するように実装され得る。候補ジェスチャー表現のセットは、手を耳に（たとえば、一方の手を耳に、および他方の手を、上／下または内／外に動かして、ボリュームまたはダイナミックレンジの変化を示す）当てることを含むジェスチャーなど、両方の手、手と頭、および／または手と体のジェスチャーも含み得る。

[00104]タスクＴＡ１０は、特定のジェスチャーを、要素の１つまたは複数の側面における経時的な変化と組み合わせた、ジェスチャー要素の初期状態の組合せとして検出するように実装され得る。観察結果（observations）のシーケンスをジェスチャー状態のシーケンス（たとえば、シーケンスの初期、中間、および最後の画像）と突き合わせるのに、隠れマルコフモデルが使われ得る。タスクＴＡ１０は、ジェスチャーシーケンスが指定期間（たとえば、２〜３秒）内に完了されたことを検証するために追跡を行うことを含み得る。

[00105]表現されるべきジェスチャーのうち少なくともいくつかに対して、シーン分析動作（たとえば、タスクＴＡ１０）は、取り込まれたシーンから、関連付けられた量を抽出することを含み得る。たとえば、そのような動作は、ジェスチャー要素が（たとえば、センサーに対して）上／下、左右、および／または接近／後退方向に動く程度、または２つの動いているジェスチャー要素（たとえば、ユーザの両手）の間の初期の分離および／もしくは最終の分離の程度を量子化するように実装され得る。そのような定量化は、たとえば、対応する１つのアクションまたは複数のアクションの１つまたは複数のパラメータの各々についての値を決定することが望ましい場合がある。そのような量子化可能パラメータは、強調されるべき周波数範囲のボリューム、ロケーションおよび／または帯域幅、ビーム方向の変化、ビーム幅、ダイナミックレンジ拡張または圧縮、時間におけるエコー深度などを含み得る。

[00106]そのようなパラメータ値は、（たとえば、タスクＴ４００によって）ボリュームやダイナミックレンジなどのレベルを調整するように適用することができる。第１の例において、タスクＴＡ１０は、（たとえば、手の）初期位置に対する距離に従って、指示された量を判断する。そのようなハンドジェスチャーは、ベースレベルを確立するために手を止めることを含んでよく、タスクＴＡ１０は、ジェスチャーに関連した方向（たとえば、上／下、左／右、内／外）で、手の最終位置の距離を測定するように実装することができる。第２の例において、タスクＴＡ１０は、基準位置（a reference position）に対する距離に従って、指示された量を判断する。たとえば、ユーザの手の基準位置は、ユーザの頭に対して確立され得る。１つのそのような例において、顎レベルにある手は、範囲の中央値に関連付けられ、上限および下限は、それぞれ、そのレベルより約２５〜３０センチメートル上および下である。基準とのそのような関連付けは、他の構成パラメータにも使うことができる。たとえば、所望のビーム幅は、現在のビーム幅に関連付けられた、肩幅だけ離して置かれた両手（the hands held shoulder width apart）の基準位置に相対して示すことができる。

[00107]あるいは、パラメータ（たとえば、ボリューム、ビーム幅、ダイナミックレンジ）の範囲は、ユーザの位置における推定された対応する距離として決定することができる。たとえば、タスクＴＡ１０は、両手の間の観測された距離または角度を、深度センサー（depth sensor）からの、両手の観測された距離と組み合わせて、ユーザの位置における両手の間の対応する距離を決定するように実装され得る。ユーザまでの距離は、たとえば頭または手のサイズ、肩幅（shoulder span）など、視覚的手がかり（visual cues）から推定することもできる。

[00108]ジェスチャー解釈タスクＴ２００によって生成されたコマンドに応答して、コマンド解釈タスクＴ３００は、フィルタ構成を生成する。上述したように、たとえば、タスクＴ２００によって生成されたコマンドの範囲は、次のうちどの１つまたは複数を含んでもよい。

[00109]（たとえば、方向制御可能なトランスデューサの軸に対して）指示された方向において音ビームを作成または消去する。

[00110]音ビームの幅、ボリューム、ダイナミックレンジ、および／または（たとえば、方向制御可能なトランスデューサの軸に対して）方向を変化させる。

[00111]周波数に対して音ビームのエネルギー分散（energy distribution）を変化させる（たとえば、等化または低音ブースティング）。

[00112]（たとえば、方向制御可能なトランスデューサの軸に対して）指示された方向の音ヌル（a sound null）を作成または消去する。

[00113]音ヌルの幅、深度、および／または方向を（たとえば、方向制御可能なトランスデューサの軸に対して）変化させる。

[00114]現在の音場構成をロックまたはアンロックする。

[00115]追加または代替として、タスクＴ２００は、ボリューム、周波数分散、および／またはダイナミックレンジの制御など、音場全体に適用されるべきコマンドを生成することができる。

[00116]信号合成タスクＴ４００は、フィルタ構成に基づく空間的指向性フィルタを入力信号に適用することによって、マルチチャネル信号を生成する。図１６は、タスクＴ４００によって、入力信号ＳＳ１０と、フィルタ構成の係数ｗ₁〜ｗ_Nのうち対応する１つとの積として、マルチチャネル信号ＭＣＳ１０の各チャネルＭＣＳ１０−１〜ＭＣＳ１０−Ｎを生成するように構成された空間的指向性フィルタの周波数ドメイン実装形態ＳＤＦ１０のブロック図を示す。そのような乗算は、順次（すなわち、次々と）および／または並列に（すなわち、一度に２つ以上）実施することができる。図１７は、タスクＴ４００によって、入力信号ＳＳ１０およびフィルタ構成のフィルタ係数セットｗ₁〜ｗ_Nの対応する１つの畳込み（a convolution）として、マルチチャネル信号ＭＣＳ１０の各チャネルＭＣＳ１０−１〜ＭＣＳ１０−Ｎを生成するように構成された空間的指向性フィルタの均等時間ドメイン実装形態ＳＤＦ２０のブロック図を示す。

[00117]マルチチャネル信号の各チャネルを発生するためのフィルタ構成に従って入力信号を重み付けおよび／または遅延することによって、タスクＴ４００のそのような実装形態は、生成された音場の所望の空間分散を取得するのに使うことができる。たとえば、空間的指向性フィルタは、得られる音場の所望の方向に（たとえば、ビームの方向に）強め合う干渉を誘発するとともに、音場の他の方向に（たとえば、ビームの主ローブの外の方向に）弱め合う干渉を誘発するためのマルチチャネル信号を生成するように構成され得る。後で説明するように、タスクＴ４００のそのような実装形態によって生成されたマルチチャネル信号は、トランスデューサを駆動して、所望の方向に集中された音響エネルギーのビームを作成するのに、および他の方向にビーム応答の谷間を作成するのに使うことができる。

[00118]タスクＴ３００は、マルチチャネル信号の各チャネルがそれぞれのフェーズ（すなわち、時間）遅延を有するようなフェーズドアレイ技法に従って、フィルタ構成を生成するように実装され得る。そのような技法の一例は、遅延和ビームフォーミング（a delay-sum beamforming）（ＤＳＢ）フィルタである。そのようなケースでは、空間的指向性フィルタは、入力信号にそれぞれの時間遅延を適用して、信号ＭＣＳ１０の各チャネルを生成することによって、音場を所望の方向に向けるように構成され得る。均一間隔の線形拡声器アレイを駆動するのにマルチチャネル信号が使われるケースでは、たとえば、空間的指向性フィルタのチャネル係数ｗ₁〜ｗ_Nは、周波数ドメインにおけるＤＳＢフィルタリング動作についての以下の式によって算出することができる。

１≦ｎ≦Ｎであり、ｄは、アレイ中の隣接し合う拡声器の放射表面の中心の間の間隔であり、Ｎは、駆動されるべき拡声器の数（アレイ中の拡声器の数以下であり得る）であり、ｆは周波数ビンインデックスであり、ｃは音の速さであり、

は、アレイの軸に対する、ビームの所望の角度（たとえば、音場の主ローブの所望の方向）である。フィルタ構成の均等時間ドメイン実装形態の場合、要素ｗ₁〜ｗ_Nは、対応する遅延として実装され得る。いずれのドメインでも、タスクＴ４００は、信号ＭＣＳ１０の各チャネルを１／Ｎだけ（by a factor of 1/N）スケーリングする（または、等価には、入力信号ＳＳ１０を１／Ｎだけスケーリングする）ことによる、信号ＭＣＳ１０の正規化も含み得る。

[00119]間隔ｄが波長λの半分に等しい周波数ｆ₁について（λ＝ｃ／ｆ₁の場合）、式（１）は、以下の式に帰着する。

図１８Ａ、図１８Ｂ、図１９Ａ、および図１９Ｂは、４要素アレイ用の周波数ｆ₁における、そのようなＤＳＢフィルタの、方向に対する振幅特性（ビームパターンともいう）の例を示し、ここでフィルタの配向角（すなわち、各図の三角形で示される角度

）は、それぞれ、３０、４５、６０、および７５度である。

[00120]図１８Ａ、図１８Ｂ、図１９Ａ、および図１９Ｂに示すフィルタビームパターンは、ｃ／２ｄ以外の周波数では異なり得ることに留意されたい。空間エイリアシング（spatial aliasing）を避けるために、入力信号の最大周波数をｃ／２ｄに制限する（すなわち、間隔ｄが、信号の最短波長の半分以下になるように）ことが望ましい場合がある。高周波数を含むソース成分を方向づけるために、より間隔が狭いアレイを使うことが望ましい場合がある。

[00121]方向選択的トランスデューサ（a directionally selective transducer）の部分（たとえば、拡声器アレイのサブアレイ）が、異なる周波数範囲に対しては異なるように駆動され得るように、空間的指向性フィルタを適用して、複数のマルチチャネル信号を生成するように、タスクＴ４００を実装することも可能である。そのような実装形態は、広帯域再現のためのより良好な指向性を提供し得る。１つのそのような例において、タスクＴ４００は、ｃ／４ｄの最大周波数に制限される入力信号の周波数帯から、（たとえば、空間的指向性フィルタのチャネルｗ₁〜ｗ_Nの交互のもの（alternate ones）を使って）第２の、Ｎ／２チャネルのマルチチャネル信号を生成するように実装され、この第２のマルチチャネル信号は、拡声器アレイの交互の拡声器（alternate loudspeakers）（すなわち、２ｄの有効間隔を有するサブアレイ）を駆動するのに使われる。

[00122]マルチチャネル信号のチャネルに、異なるそれぞれの重みを加えるようにフィルタ構成を実装することが望ましい場合がある。たとえば、フィルタ構成が、フィルタ係数に適用される空間ウィンドウイング関数（a spatial windowing function）を含むことが望ましい場合がある。空間ウィンドウイング関数の使用は、（たとえば、主ローブを広げることによって）副ローブの規模（sidelobe magnitude）と角度解像度の両方を削減する傾向がある。そのようなウィンドウイング関数の例には、限定なしで、三角および二乗余弦（triangular and raised cosine）（たとえば、ＨａｎｎまたはＨａｍｍｉｎｇ）ウィンドウがある。

[00123]一例では、タスクＴ３００は、ソース空間的指向性フィルタの各チャネルの係数ｗ_nが、空間ウィンドウイング関数のそれぞれの因子ｓ_nを含むようなフィルタ構成を生成するように実装される。そのようなケースにおいて、式（１）および（２）は、それぞれ、以下の式に変更することができる。

図２０Ａおよび図２０Ｂは、それぞれ、図１９Ａおよび図１９Ｂの４要素ＤＳＢフィルタ用の周波数ｆ₁におけるビームパターンの例を示し、そのような変更により、重みｓ₁〜ｓ₄は、それぞれ、値（２／３、４／３、４／３、２／３）を有する。

[00124]より多くの拡声器を有するアレイは、より多くの自由度を可能にし、一般に、より狭い主ローブを取得するのに使うことができる。図２１Ａおよび図２１Ｂは、それぞれ、フィルタの配向角が３０度および６０度である、８要素アレイ向けのＤＳＢフィルタのビームパターンの例を示す。図２２Ａおよび図２２Ｂは、それぞれ、図２１Ａおよび図２１Ｂの８要素ＤＳＢフィルタについてのビームパターンの例を示し、以下のＨａｍｍｉｎｇウィンドウイング関数によって定義される重みｓ₁〜ｓ₈が、空間的指向性フィルタの対応するチャネルの係数に加えられる。

[00125]タスクＴ３００は、セット（たとえば、あらかじめ算出されたビーム構成のセット）から適切な構成を選択することによって、（たとえば、上の式（１）〜（４）のうちいずれかによる）直接算出によって、および／または既存のフィルタ構成を変更することによって、フィルタ構成を生成するように実装され得る。特定のコマンド向けの適切なフィルタ構成は、システムの現在の状態またはコンテキストに依存して変わり得る。たとえば、タスクＴ３００によって生成されるべき適切なフィルタ構成は、合成タスクＴ４００によって空間的指向性フィルタに現在適用されているフィルタ構成に依存し得る。したがって、現在の音場構成のコンテキストにおいてコマンドを解釈して、生成するべき適切なフィルタ構成を決定するように、タスクＴ３００を実装することが望ましい場合がある。

[00126]現在のコンテキストは、ビームの現在の方向、幅、ボリューム、ダイナミックレンジ、および／または周波数分散などの側面を含み得る。現在のコンテキストの他の側面は、音場についてのボリューム、ダイナミックレンジ、および／または周波数分散の現在の全体的レベルと、ユーザのロケーション（たとえば、トランスデューサの軸に対する角度）と、場合によっては１人または複数の他のユーザの各々のロケーションとを含み得る。

[00127]目標のユーザ環境の角度幅（angular span）を、いくつかの離散空間セクタ（discrete spatial sectors）としてモデル化することが望ましい場合がある。図２３Ａおよび図２３Ｂは、拡声器アレイＲ１０の前の空間が、それぞれ、３つの空間セクタおよび５つの空間セクタに分割される例を示す。そのようなモデルの他の例における空間セクタの総数は、４、６、７、８、９、およびそれ以上を含む。そのようなケースでは、タスクＴ３００は、指示されたセクタに関連付けられたフィルタ構成を生成するように実装され得る。

[00128]図２４は、９つのフィルタ構成からなるセットについてのビームパターンを示す。この図における各パターンについての尺度および配向は、図１８Ａ〜図２２Ｂのパターンについてと同じであり、各パターンは、指示された角度で配向されるとともに拡声器の均一間隔の線形アレイを駆動する８チャネルＤＳＢフィルタに対応する。目標の幅（target span）が、それぞれ、３０、４５、６０、７５、９０、１０５、１２０、１３５、および１５０度を中心とする９つのセクタに分割される例の場合、タスクＴ３００は、空間的指向性フィルタにおいて現在適用されているフィルタ構成に関して、これらのフィルタ構成のうち適切な１つを、「ビームを左に動かす」または「ビームを右に動かす」ためのコマンドに応答して生成するように構成され得る。

[00129]タスクＴ２００によって生成されたコマンドの範囲が、音ビームの幅を変えるためのコマンドを含むアプリケーションの場合、タスクＴ３００は、図２３Ｃの例に示すテーブルを参照するように実装され得る。このテーブルにおいて、シンボル「↓↓」、「↓」、「↑」、および「↑↑」は、「ビーム幅を最小まで削減する」、「ビーム幅を削減する」、「ビーム幅を増大する」、および「ビーム幅を最大まで増大する」というコマンドを示す。空間的指向性フィルタにおいて現在適用されているフィルタ構成のビーム幅が狭いとき、タスクＴ３００は、ビーム幅を削減するためのコマンドは無効である（invalid）と判断する。同様に、空間的指向性フィルタにおいて現在適用されているフィルタ構成のビーム幅が広いとき、タスクＴ３００は、ビーム幅を増大するためのコマンドは無効であると判断する。無効コマンド（invalid commands）は、無視されてもよいし、または（たとえば、ディスプレイ画面上に）エラー指示をトリガしてもよい。他のケースでは、タスクＴ３００は、空間的指向性フィルタにおいて現在適用されているフィルタ構成に関連付けられたビーム幅に対して、所望のビーム幅を与えるためのフィルタ構成を生成する。

[00130]図２５は、６つのフィルタ構成からなるセットについてのビームパターンを示す。この図における各パターンについての尺度および配向は、図１８Ａ〜図２２Ｂのパターンについてと同じである。パターンＡ〜Ｆの各々は、６０度に配向されるとともに拡声器の均一間隔の線形アレイを駆動するＤＳＢフィルタに対応し、パターンは、ビーム幅の昇順に並べられている(arranged in order of increasing beam width)。現在のビーム方向が６０度である例の場合、タスクＴ３００は、空間的指向性フィルタにおいて現在適用されているフィルタ構成に関して、これらのフィルタ構成のうち適切な１つを、ビーム幅を増大または低下するためのコマンドに応答して生成するように構成され得る。この特定の例において、パターンＡ〜Ｆは、それぞれ、８要素ＤＳＢフィルタ、三角ウィンドウをもつ８要素ＤＳＢフィルタ、Ｈａｍｍｉｎｇウィンドウをもつ８要素ＤＳＢフィルタ、４要素ＤＳＢフィルタ（たとえば、８要素アレイの交互の拡声器を駆動するための）、三角ウィンドウをもつ４要素ＤＳＢフィルタ、およびＨａｍｍｉｎｇウィンドウをもつ４要素ＤＳＢフィルタに対応する。

[00131]超指向性ビームフォーマアルゴリズム（a superdirective beamformer algorithm）に従って算出されたフィルタ構成を生成するように、タスクＴ３００を実装することが望ましい場合があり、このアルゴリズムは、所望の方向の利得を最大限にし、他のすべての方向にわたる平均利得を最小限にする。超指向性ビームフォーマの例には、最小分散無ひずみ応答（the minimum variance distortionless response）（ＭＶＤＲ）ビームフォーマ（相互共分散行列（cross-covariance matrix））、および線形制約最小分散（the linearly constrained minimum variance）（ＬＣＭＶ）ビームフォーマがある。汎用サイドローブキャンセラ（generalized sidelobe canceller）（ＧＳＣ）技法など、他の固定または適応ビームフォーミング技法も、タスクＴ３００によって生成されたフィルタ構成のうち１つまたは複数を算出するのに使うことができる。

[00132]ＭＶＤＲビームフォーマの設計目標は、Ｗ^Hｄ＝１を条件とするｍｉｎ_WＷ^HΦ_XXＷという制約で、出力信号電力を最小限にすることであり、ここでＷはフィルタ係数行列を示し、Φ_XXは、拡声器信号の、正規化された相互電力スペクトル密度行列（the normalized cross-power spectral density matrix）を示し、ｄはステアリングベクトルを示す。そのようなビーム設計は、

と表すことができ、ここでｄ^Tは、

と表すことができる線形アレイについての遠距離場のモデル（a farfield model）であり、Γｖ_nｖ_mは、その対角線要素が１であり、

と表すことができるコヒーレンス行列（a coherence matrix）である。
これらの等式において、μは正則化パラメータ（a regularization parameter）（たとえば、安定因数（a stability factor））を示し、θ₀はビーム方向を示し、ｆ_sはサンプリングレートを示し、Ωは信号の角度周波数（angular frequency）を示し、ｃは音の速度を示し、ｌは、隣接し合う拡声器の放射表面の中心の間の距離を示し、ｌ_nmは、拡声器ｎおよびｍの放射表面の中心の間の距離を示し、Φ_VVは、雑音の、正規化された相互電力スペクトル密度行列を示し、σ²はトランスデューサ雑音電力を示す。

[00133]タスクＴ３００およびＴ４００は、均一間隔をもつ線形拡声器アレイ、均一でない間隔をもつ線形拡声器アレイ、または２つ以上の軸を有するアレイなど、非線形（たとえば、成形した）アレイを駆動するのに使用するためのマルチチャネル信号を生成するように実装され得る。これらのタスクは、たとえば、波面伝播のＨｕｙｇｅｎｓ原理に基づく波動場合成（a wave field synthesis）（ＷＦＳ）技法など、他の方向場発生原理（other directional field generation principles）に従って実装することもできる。

[00134]拡声器アレイが非線形であり、不均一な間隔を有し、かつ／または２つ以上の軸を有する実装形態の場合、フィルタ係数値を算出するのに、ペアをなすビームフォーミングヌル形成（a pairwise beamforming-nullforming）（ＢＦＮＦ）構成を使うようにタスクＴ３００を実装することが望ましい場合がある。そのような技法は、係数をペアごとに計算し、拡声器は２つ以上の異なるペアの間で共有され得る。図２６Ａ〜図２７の方法は、各周波数ビンにおいて別個に適用することができるＢＦＮＦ技法を実証する。

[00135]この場合、図２６Ａに示すように、ステアリングベクトルを各ペアに対して拡大し、ここでλは条件づけ因子（a conditioning factor）である。拡声器番号ｍ（ペアの中で１または２）、周波数ｆ、ビーム方向θ_iに対するソースｎおよびペアｐについてのステアリングベクトルの各要素は、

と算出することができ、ここでｌ_pは、ペアｐの拡声器の間の距離を示し、ωは周波数ビン数を示し、ｆ_sはサンプリング周波数を示す。（この特定の例は、３つの音場のサポートも示し、各音場は、異なる入力オーディオ信号に基づくとともに異なる方向に集中され、本明細書に記載するジェスチャー制御を、異なるユーザ向けに別個にサポートするのに使うことができる。）図２６Ａに示す擬似逆演算（a pseudo-inverse operation）を使うことにより、非正方行列の使用が可能になる。図２６Ｂに示した３つの拡声器のケース（すなわち、２つの拡声器ペア）の場合、たとえば、追加行により行列が非正方となるような、３ではなく２＊２＝４という行数（the number of rows 2＊2=4 instead of 3）である。この手法は堅牢な１−ＤＤＯＡ推定に基づくので、アレイジオメトリ（array geometry）の完全な知識は要求されず、すべての拡声器を同時に使う音場方向推定（sound field direction estimation）も要求されない。図２６Ｃは、（たとえば、空間エイリアシング周波数における悪い状態の反転（an ill-conditioned inversion）を防止するために）正規化も含む、図２６Ａに示すＢＦＮＦの例を示す。

[00136]図２７は、ステアリングベクトル（アレイ多様体ベクトル）が取得される方法が従来の手法とは異なる、ペアごとの正規化された（pair-wise normalized）ＭＶＤＲ（最小分散無ひずみ応答）ＢＦＮＦの例を示す。この場合、共通チャネルは、２つのペアの間での拡声器の共有により、排除される（eliminated）。雑音コヒーレンス行列Γは、測定によっても、またはシンク関数（a sinc function）を使う論理的算出によっても取得され得る。

[00137]方法Ｍ１００は、初期のジェスチャー（たとえば、つかむ、開いた手を回転させる）および／またはジェスチャー制御モードに入るための音声コマンドの認識を含むように実装され得る。方法Ｍ１００は、ユーザ識別および／または位置特定のために顔および／または音声認識を含むように実装され得る。方法Ｍ１００は、タスクＴ２００によって生成されたコマンドについてのフィードバック（たとえば、ビーム強度、ビーム方向、ビーム幅、ダイナミックレンジなどの変化を表示するためのバーまたはダイヤル）を与えるためのオンスクリーンのディスプレイ（on-screen display）（ＯＳＤ）能力を含み得る。

[00138]方法Ｍ１００は、マスキング信号を発生することを含むように実装され得る。そのようなマスキングは、たとえば、音遮断ジェスチャー（a sound-blocking gesture）とともに、遮断された音を不明瞭にするのに、またはビーム集束化ジェスチャー（a beam-focusing gesture）とともに、他の方向の音をマスキングするのに使うことができる。マスキング信号は、白色雑音またはピンク雑音信号などの雑音信号であり得る。あるいは、マスキング信号は、バブル雑音信号（a babble noise signal）など、周波数特性が時間とともに変わる音楽信号または雑音信号でもよい。そのような代替マスキング信号の使用は、白色またはピンク雑音信号よりも、居合わせた人を比較的いらつかせず、および／またはユーザにとって比較的気が散るものではない可能性がある。

[00139]ビーム集束化ジェスチャーの場合、方法Ｍ１００は、ユーザの方向以外の方向での音場のスペクトルが雑音のよう（noise-like）（たとえば、ほぼ白色）であるような音場を生成することが望ましい場合がある。たとえば、マスキング成分のスペクトルが、ソース成分のスペクトルを補完することが望ましい場合がある。

[00140]マスキング音場（a masking sound field）（やはり指向性（directional）であり得る）の発生を含むアプリケーションの場合、ジェスチャーは、マスキング場の１つまたは複数の側面（たとえば、マスキング音場の作成、消去、方向制御、レベル制御、および／または品質管理）を制御するための応答にも関連付けられ得る。

[00141]発生された音場は、２つ以上のビーム（たとえば、２つ以上の発生された音場の重ね合わせ）を含み得る。たとえば、方法Ｍ１００のインスタンスは、これらのインスタンスによって生成されたそれぞれのマルチチャネル信号が同じトランスデューサを駆動するのに使われるように、２人以上のユーザの各々に対して実施することができる。

[00142]図２８Ａは、オーディオ出力段ＡＯ１０と、ジェスチャーインタープリタＧＩ１０と、コマンドインタープリタＣＩ１０と、シンセサイザＳＹ１０とを含む、一般的構成による装置Ａ１００のブロック図を示す。オーディオ出力段ＡＯ１０は、（たとえば、タスクＴ１００を参照して本明細書に記載したように）方向制御可能なトランスデューサを駆動してビームを生成するように構成される。ジェスチャーインタープリタＧＩ１０は、（たとえば、タスクＴ２００を参照して本明細書に記載したように）ジェスチャーの表現に応答してコマンドを生成するように構成される。コマンドインタープリタＣＩ１０は、（たとえば、タスクＴ３００を参照して本明細書に記載したように）コマンドに応答してフィルタ構成を生成するように構成される。シンセサイザＳＹ１０は、（たとえば、タスクＴ４００を参照して本明細書に記載したように）入力信号に空間的指向性フィルタを適用して、マルチチャネル信号を生成するように構成され、空間的指向性フィルタはフィルタ構成に基づく。

[00143]ジェスチャーインタープリタＧＩ１０は、ジェスチャー表現を、本明細書に記載したように、ジェスチャー表現を対応するコマンドに関連付けるテーブルへのインデックスとして使うように実装され得る。ジェスチャー表現のうち少なくともいくつかには、本明細書に記載するように、指示された変化を量子化するパラメータ値が伴い得る。以下のジェスチャーのうちどれに対しても、たとえば、ジェスチャーインタープリタＧＩ１０は、対応するコマンドの１つまたは複数のパラメータについての関連付けられた値を受信するように実装することができ、すなわち、音遮断ジェスチャーの場合は、遮断する方向および／または減衰の程度であり、ミューティング・ジェスチャー（muting gesture）の場合は減衰の程度であり、ビーム方向転換ジェスチャーの場合は目的地方向および／またはビーム幅であり、ビーム集束ジェスチャーの場合はビーム幅であり、手の上げ／下げジェスチャーの場合は減衰または増幅の程度、増大または減衰するべき周波数帯であり、圧縮／拡張ジェスチャーの場合は圧縮または拡張の程度である。

[00144]装置Ａ１００は、認識されたジェスチャーによって示される２つ以上の固定選択肢から自動的に選択される方向に音場が集中されるように実装され得る。たとえば、装置Ａ１００は、左ゾーン、中心ゾーン、および右ゾーンのうち１つに対応する方向に音場が集中されるように実装され得る。そのようなケースでは、装置Ａ１００は、選択されるべき各方向についての１組の因子（たとえば、フィルタ係数）を含むフィルタ構成が、コマンドインタープリタＣＩ１０によって選択し、ランタイムにシンセサイザＳＹ１０によってソース信号に適用するために、オフラインで（たとえば、設計および／または製造中に）算出されるように実装され得る。そのようなケースにおける左、中心、および右ゾーンについての対応するそれぞれの方向の一例は、（４５、９０、１３５）度である。他の例は、限定なしで、（３０、９０、１５０）および（６０、９０、１２０）度を含む。図２３Ａおよび図２３Ｂはそれぞれ、３つおよび５つの選択可能な固定空間セクタを有する方式の例を示す。コマンドインタープリタＣＩ１０のそのような実装形態は、推定されたユーザ範囲に従って、選択された方向についての異なるソースビーム幅から選択をするように構成され得る。たとえば、ユーザがアレイからより離れているとき、より細いビームが選択されてよい（たとえば、異なる範囲におけるユーザの位置において、同様のビーム幅を取得するために）。

[00145]図２８Ｂは、シーンアナライザＳＡ１０を含む装置Ａ１００の実装形態Ａ１１０のブロック図を示す。シーンアナライザＳＡ１０は、（たとえば、タスクＴＡ１０を参照して本明細書に記載したように）取り込まれたシーンを分析して、ジェスチャーの表現を生成するように構成される。たとえば、シーンアナライザＳＡ１０は、画像分割、皮膚色検出、および／またはバックグラウンド除去など、取り込まれたシーンに対して１つもしくは複数の画像分析動作、および／またはビデオシーケンスの隣接し合うフレームの間の差分画像の算出など、経時的な変化を検出するための１つもしくは複数の動作を実施するように実装され得る。

[00146]シーンアナライザＳＡ１０は、本明細書に記載した特徴抽出および／または分類など、１つまたは複数のタスクを、分析されるシーンに対して実施するように実装され得る。シーンアナライザＳＡ１０は、本明細書に記載するように、特定のジェスチャーを、要素の１つまたは複数の側面における経時的な変化と組み合わせた、ジェスチャー要素の初期状態の組合せとして検出するように実装され得る。シーンアナライザＳＡ１０は、ジェスチャーを、本明細書に記載したジェスチャー候補のセットのうち、最も近いものとして分類するように実装され得る。

[00147]図２８Ｃは、（たとえば、タスクＴＣ１０を参照して本明細書に記載したように）ジェスチャーを含むシーンを取り込む取込みデバイスＣＤ１０を含む、装置Ａ１１０の実装形態Ａ１２０のブロック図を示す。取込みデバイスＣＤ１０は、音場が生成されたシーン中の、時間に伴う変化（たとえば、動き）を記録するように構成および配置される。上述したように、そのようなデバイスは、限定なしで、１つもしくは複数の可視光および／もしくは赤外線カメラ、１つもしくは複数の超音波トランスデューサ、ならびに／または１つもしくは複数の構造化光スキャナを含み得る。一例では、取込みデバイスＣＤ１０は、ポータブル・コンピュータ（たとえば、ラップトップ、デスクトップ、ノートブック、またはタブレットコンピュータ）のウェブカムを含む。別の例では、取込みデバイスＣＤ１０は、スマートフォンのカメラを含む。

[00148]図２８Ｄは、拡声器アレイＲ１０を含む、装置Ａ１００の実装形態Ａ１０５のブロック図を示す。この例では、オーディオ出力段ＡＯ１０は、シンセサイザＳＹ１０によって生成されたマルチチャネル信号の対応するチャネルに基づいて、拡声器アレイＲ１０（または別の方向選択的トランスデューサ）を駆動するための駆動信号を生成するようにも配置される。

[00149]シンセサイザＳＹ１０は、１つまたは複数の他のオーディオ処理動作を入力信号に対して実施して、駆動信号を生成するようにも実装され得る。そのような動作は、チャネルのうち１つまたは複数（場合によっては、すべて）を増幅および／またはフィルタリングすることを含み得る。同様に、マルチチャネル信号に逆フィルタを適用して、異なる周波数におけるアレイ応答の違いを補償するように、オーディオ出力段ＡＯ１０を実装すること、および／またはアレイの様々な拡声器の応答の間の違いを補償するように、オーディオ出力段ＡＯ１０を実装することが望ましい場合がある。代替または追加として、拡声器アレイに（および／または拡声器アレイにつながるオーディオ周波数送信経路に）一致するインピーダンスを与える（provide impedance matching to）ように、オーディオ出力段ＡＯ１０を実装することが望ましい場合がある。

[00150]いくつかのジェスチャーの場合、装置Ａ１００が、空間的に焦点を合わせて、パラメータ（たとえば、ボリューム、ダイナミックレンジ、および／または周波数分散）を調整することが望ましい場合がある。他のジェスチャーの場合、装置Ａ１００が、そのようなパラメータを音場全体にわたって調整することが望ましい場合がある。図２３Ｄは、そのような調整を、グローバルにおよび局所的にサポートするのに使うことができるシンセサイザＳＹ１０の実装形態ＳＹ２０のブロック図を示す。シンセサイザＳＹ２０は、入力オーディオ信号の１つまたは複数のパラメータ（たとえば、ボリューム、ダイナミックレンジ、周波数分散）を調整するように構成されたシングルチャネルフィルタＳＣＦ１０を含む。そのような調整は、コマンドインタープリタＣＩ１０によって与えられる構成（たとえば、１つまたは複数のフィルタ係数）に従って実施することができる。シンセサイザＳＹ２０は、本明細書に記載する空間的指向性フィルタＳＤＦ１０（またはＳＤＦ２０）のインスタンスも含み、これは、フィルタＳＣＦ１０によって生成された信号を受信し、（たとえば、タスクＴ４００を参照して）本明細書に記載したように、対応するマルチチャネル駆動信号を生成する。

[00151]図２９Ａは、一般的構成による装置ＭＦ１００のブロック図を示す。装置ＭＦ１００は、（たとえば、タスクＴ１００を参照して本明細書に記載したように）方向制御可能なトランスデューサを駆動して、ビームを生成するための手段Ｆ１００を含む。装置ＭＦ１００は、（たとえば、タスクＴ２００を参照して本明細書に記載したように）ジェスチャーの表現に応答してコマンドを生成するための手段Ｆ２００も含み、ジェスチャーは、ビームの方向およびビームの幅のうち少なくとも１つにおける変化を指示し、コマンドは、指示された変化を実施するためのコマンドである。装置ＭＦ１００は、（たとえば、タスクＴ３００を参照して本明細書に記載したように）前記コマンドに応答してフィルタ構成を生成するための手段Ｆ３００も含む。装置ＭＦ１００は、（たとえば、タスクＴ４００を参照して本明細書に記載したように）空間的指向性フィルタリング動作を入力信号に対して実施して、マルチチャネル信号を生成するための手段Ｆ４００も含み、空間的指向性フィルタリング動作はフィルタ構成に基づく。

[00152]図２９Ｂは、（たとえば、タスクＴＡ１０を参照して本明細書に記載したように）取り込まれたシーンを分析して、ジェスチャー表現を生成するための手段ＦＡ１００を含む装置ＭＦ１００の実装形態ＭＦ１１０のブロック図を示す。図２９Ｂは、（たとえば、タスクＴＣ１０を参照して本明細書に記載したように）ジェスチャーを含むシーンを取り込むための手段ＦＣ１００を含む、装置ＭＦ１１０の実装形態ＭＦ１２０のブロック図を示す。

[00153]本明細書に記載した原理は、（たとえば、図１Ｃ、図１Ｄ、および図３０Ａに示すような）拡声器の均一な線形アレイとの使用に限定されないことを明白に指摘しておく。たとえば、指向性マスキング（directional masking）は、隣接し合う拡声器の間の均一でない間隔を有する線形アレイとも使うことができる。図３０Ｂは、拡声器の間の対称的なオクターブ間隔を有する、そのようなアレイの一例を示し、図３０Ｃは、非対称なオクターブ間隔を有するそのようなアレイの別の例を示す。さらに、そのような原理は、線形アレイとの使用に限定されるのではなく、均一間隔（たとえば、図３０Ｄに示すように）であってもまたは均一でない（たとえば、オクターブ）間隔であっても、単純曲線に沿って要素が配置されるアレイとも使うことができる。本明細書において述べた同じ原理は、同じまたは異なる（たとえば、直交）直線または曲線軸に沿って複数のアレイを有するアプリケーションにおける各アレイにも別々に当てはまる。

[00154]図３１Ｂは、装置Ａ１００の実装形態によって駆動されるべき拡声器ＬＳＬ１０−ＬＳＲ１０のアレイの例を示す。この例では、アレイは、ディスプレイデバイスＴＶ１０（たとえば、テレビまたはコンピュータモニタ）のディスプレイ画面ＳＣ２０の下に配置される。図３１Ｃは、そのようなディスプレイデバイスＴＶ２０のディスプレイ画面ＳＣ２０の両側にあるアレイＬＳＬ１０−ＬＳＲ１０の例を示す。図３１Ａは、装置Ａ１００の実装形態によって駆動される３つの拡声器ＬＳ１０、ＬＳ２０、ＬＳ３０からなるアレイを含むラップトップコンピュータＤ７１０を示す。図３１Ａに示すラップトップコンピュータＤ７１０は、（たとえば、下部パネルＰＬ２０のキーボードの後ろおよび／もしくは横に、ならびに／または上部パネルＰＬ１０のディスプレイ画面ＳＣ１０のマージンに）そのようなアレイを含むようにも構成され得る。そのような拡声器アレイはまた、１つまたは複数の別個のキャビネットで囲まれるか、または自動車などの車両の内部に設置され得る。

[00155]線形アレイの例では、正面方向においてゼロ度に向けられた主ビームは、後ろ方向（たとえば、１８０度）でも聞き取れると予想され得る。そのような現象は、拡声器またはマイクロフォンからなる線形アレイのコンテキストに共通であり、「混乱の円錐」問題（a “cone of confusion” problem）とも呼ばれる。

[00156]１８０度の範囲での指向性音場発生（directional sound field generation）の特定の例が示されているが、本明細書に記載した原理は、平面での（たとえば、２次元での）どの所望の角度範囲にわたる指向性も与えるように拡張することができる。そのような拡張は、適切に置かれた拡声器をアレイに追加することを含み得る。たとえば、前後方向でもマスクするための前後のアレイを（a front-back array）提供するように、アレイに拡声器を追加することが望ましい場合がある。図３２Ａおよび図３２Ｂは、それぞれ、そのような拡張アレイ（an expanded array）の、２つの例ＲＬ２００およびＲＬ２５０の平面図を示す。

[00157]そのような原理は、空間（３Ｄ）におけるどの所望の角度範囲にわたる指向性マスキングを提供するように拡張することもできる。図３２Ｃおよび図３３は、それぞれ、左右と上下方向の両方で指向性マスキングを提供するのに使うことができる、２つのアレイＲＬ３００およびＲＬ４００の正面図を示す。さらなる例としては、（たとえば、４＊パイのラジアン（4*pi radians）という、完全なプライバシーゾーンのために）３６０度までの範囲での指向性マスキングのための球面のまたは他の３Ｄアレイがある。

[00158]ブロードバンド信号のための空間パターンを生成するのに、ビームフォーミング技法が使われるとき、トランスデューサアレイジオメトリ（the transducer array geometry）の選択は、低周波数と高周波数との間のトレードオフを伴う。ビームフォーマによる低周波数の直接ハンドリングを強調するために、比較的大きい拡声器間隔が好まれる。同時に、拡声器の間の間隔が大きすぎる場合、高周波数で所望の効果を再現するためのアレイの能力は、より低いエイリアシング閾値によって制限される。空間エイリアシングを避けるために、アレイによって再現されるべき最も高い周波数成分の波長は、隣接し合う拡声器の間の距離の２倍よりも大きくなるべきである。

[00159]消費者デバイスがますます小さくなると、形状因子（the form factor）は、拡声器アレイの配置に制約を課し得る。たとえば、ラップトップ、ネットブック、もしくはタブレットコンピュータまたは高解像度ビデオディスプレイは、内蔵型拡声器アレイを有することが望ましい場合がある。サイズの制約により、拡声器は、小さくなり、所望の低音領域を再現することができなくなる可能性がある。あるいは、低音領域を再現するのに十分大きいように円錐距離が増加した拡声器が使われてもよい。ただし、小さい形状因子デバイスでは、そのような物理的により大きい拡声器は、依然として間隔があまりにも密であり、低周波数でのビームフォーミングまたは他の音響撮像をサポートすることができない。さらに、これらのより大きい拡声器の円錐距離の増大により、実際には高周波数成分に対するビームフォーミング品質が低下し得る。したがって、ビームフォーミングが利用される、間隔が狭い拡声器アレイにおいて低音信号を生成するための処理を提供することが望ましい場合がある。

[00160]信号の比較的高い高調波（higher harmonics）をリッスンすると、失われた基底音（the missing fundamentals）を聞いている錯覚が生じ得るという、音響心理現象が存在する。したがって、小さい拡声器から低音成分の感覚を達成する１つのやり方は、低音成分から比較的高い高調波を発生し、実際の低音成分ではなく高調波をプレイバックすることである。比較的高い高調波に代えて、実際の低周波数信号が存在しない低音の音響心理感覚（「心理音響的低音強調（psychoacoustic bass enhancement）」、すなわちＰＢＥともいう）を達成するためのアルゴリズムの記載は、たとえば、米国特許第５，９３０，３７３号（Ｓｈａｓｈｏｕａら、１９９９年７月２７日発行）ならびに米国特許出願公開第２００６／０１５９２８３Ａ１号（Ｍａｔｈｅｗら、２００６年７月２０日公開）、第２００９／０１４７９６３Ａ１号（Ｓｍｉｔｈ、２００９年６月１１日公開）、および第２０１０／０１５８２７２Ａ１号（Ｖｉｃｋｅｒｓ、２０１０年６月２４日公開）に見ることができる。そのような強調は、統合された１つの拡声器または複数の拡声器を、物理的に小さくなるように制限する形状因子を有するデバイスで、低周波数音を再現するために特に有用であり得る。

[00161]図３４は、ＰＢＥ処理の前後の音楽信号の周波数スペクトルの例を示す。この図において、背景（黒い）領域および約２００〜５００Ｈｚにおいて可視的な線は、元の信号を示し、前景（白い）領域は、強調された信号を示す。低周波数帯（たとえば、２００Ｈｚを下回る）では、ＰＢＥ動作は、実際の低音の１０ｄＢ前後で減衰することがわかり得る。ただし、約２００Ｈｚ〜６００Ｈｚにある強調された比較的高い高調波により、強調された音楽信号は、小さいスピーカを使って再現されると、元の信号よりも多くの低音を有するものと認知される。

[00162]低周波数の再現許容限界（low-frequency reproducibility limits）の影響を低下させるだけではなく、低周波数での指向性損失の影響を低下させるのにも、ＰＢＥを適用することが望ましい場合がある。たとえば、ＰＢＥをビームフォーミングと組み合わせて、ビームフォーマによってステアリング可能な範囲での低周波数コンテンツの認知を生じることが望ましい場合がある。強調された信号から、指向性ビームを生成するのに拡声器アレイを使用すると、そのような強調のないオーディオ信号からの出力よりもはるかに低い認知された周波数範囲を有する出力が得られる。さらに、強調された信号をステアリングするのに、より緩和されたビームフォーマ設計を使うことが可能になり、この設計は、アーティファクト（artifacts）および／または計算の複雑度の低減をサポートし、小さい拡声器からなるアレイでの低音成分のより効率的なステアリングを可能にすることができる。同時に、そのようなシステムは、小さい拡声器を、低周波数信号による損傷（damage）（たとえば、ガラガラ音（rumble））から保護することができる。本明細書に記載するジェスチャーによる音場制御と組み合わせることができる、そのような強調技法の追加記述は、たとえば、「ＳＹＳＴＥＭＳ，ＭＥＴＨＯＤＳ，ＡＮＤＡＰＰＡＲＡＴＵＳＦＯＲＥＮＨＡＮＣＥＤＡＣＯＵＳＴＩＣＩＭＡＧＩＮＧ」と題する米国特許出願公開第２０１２／００２０４８０Ａ１号（Ｖｉｓｓｅｒら、２０１２年１月２６日公開）に見ることができる。

[00163]本明細書で開示した方法および装置は、概して任意の送受信および／またはオーディオ感知適用例において適用され、そのような適用例のモバイルまたは場合によってはポータブルインスタンスを含み、かつ／または遠距離場の音源からの信号成分を感知し得る。たとえば、本明細書で開示した構成の範囲は、符号分割多元接続（ＣＤＭＡ）無線インターフェース（over-the-air interface）を採用するように構成されたワイヤレス・テレフォニー通信システム中に常駐する通信デバイスを含む。とはいえ、本明細書で説明した特徴を有する方法および装置は、ワイヤードおよび／またはワイヤレス（たとえば、ＣＤＭＡ、ＴＤＭＡ、ＦＤＭＡ、および／またはＴＤ−ＳＣＤＭＡ）送信チャネルを介したボイス・オーバＩＰ（ＶｏＩＰ）を採用するシステムなど、当業者に知られている広範囲の技術を採用する様々な通信システムのいずれにも常駐し得ることが、当業者には理解されよう。

[00164]本明細書で開示した通信デバイスは、パケット交換式であるネットワーク（たとえば、ＶｏＩＰなどのプロトコルに従ってオーディオ送信を搬送するように構成されたワイヤードおよび／またはワイヤレスネットワーク）および／または回線交換式であるネットワークにおける使用に適応し得ることが明確に企図され、本明細書によって開示される。また、本明細書で開示した通信デバイスは、狭帯域コーディングシステム（たとえば、約４または５キロヘルツの可聴周波数レンジを符号化するシステム）での使用、および／または全帯域の広帯域コーディングシステムおよびスプリットバンド（split-band）の広帯域コーディングシステムを含む、広帯域コーディングシステム（たとえば、５キロヘルツを超える可聴周波数を符号化するシステム）での使用に適応され得ることが明確に企図され、本明細書によって開示される。

[00165]説明した構成の前述の提示は、本明細書で開示する方法および他の構造を当業者が製作または使用できるように与えたものである。本明細書で図示および説明したフローチャート、ブロック図、および他の構造は例にすぎず、これらの構造の他の変形形態も本開示の範囲内である。これらの構成に対する様々な変更が可能であり、本明細書で提示した一般原理は他の構成にも同様に適用され得る。したがって、本開示は、上記に示した構成に限定されるものではなく、原開示の一部をなす、出願した添付の特許請求の範囲を含む、本明細書において任意の方法で開示した原理および新規の特徴に一致する最も広い範囲が与えられるべきである。

[00166]情報および信号は、多種多様な技術および技法のいずれかを使用して表され得ることを当業者なら理解されよう。たとえば、上記の説明全体にわたって言及され得るデータ、命令、コマンド、情報、信号、ビット、およびシンボルは、電圧、電流、電磁波、磁界もしくは磁性粒子、光場もしくは光学粒子、またはそれらの任意の組合せによって表され得る。

[00167]本明細書で開示した構成の実装形態の重要な設計要件は、圧縮されたオーディオまたはオーディオビジュアル情報（たとえば、本明細書で識別される例のうちの１つなど、圧縮形式に従って符号化されるファイルまたはストリーム）の再生などの計算集約的適用例、または広帯域通信（たとえば、１２、１６、３２、４４．１、４８、または１９２ｋＨｚなど、８キロヘルツよりも高いサンプリングレートにおける音声通信）の適用例では特に、（一般に百万命令毎秒またはＭＩＰＳで測定される）処理遅延および／または計算複雑さを最小にすることを含み得る。

[00168]本明細書で開示した装置（たとえば、装置Ａ１００、Ａ１０５、Ａ１１０、Ａ１２０、ＭＦ１００、ＭＦ１１０、およびＭＦ１２０）は、意図された適用例に好適と見なされる、ハードウェアと、ソフトウェアとの、および／またはファームウェアとの任意の組合せで実装され得る。たとえば、そのような装置の要素は、たとえば、同じチップ上に、またはチップセット中の２つ以上のチップ間に常駐する電子デバイスおよび／または光デバイスとして作製され得る。そのようなデバイスの一例は、トランジスタまたは論理ゲートなどの論理要素の固定アレイまたはプログラマブルアレイであり、これらの要素のいずれも１つまたは複数のそのようなアレイとして実装され得る。これらの装置の要素のうちの任意の２つ以上、またはさらにはすべてが、同じ１つまたは複数のアレイ内に実装され得る。そのような１つまたは複数のアレイは、１つまたは複数のチップ内（たとえば、２つ以上のチップを含むチップセット内）に実装され得る。

[00169]本明細書で開示した装置の様々な実装形態の１つまたは複数の要素は、全体または一部を、マイクロプロセッサ、組込みプロセッサ、ＩＰコア、デジタル信号プロセッサ、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）、ＡＳＳＰ（特定用途向け標準製品）、およびＡＳＩＣ（特定用途向け集積回路）などの論理要素の１つまたは複数の固定アレイまたはプログラマブルアレイ上で実行するように構成された命令の１つまたは複数のセットとしても実装され得る。本明細書で開示した装置の実装形態の様々な要素のいずれも、１つまたは複数のコンピュータ（たとえば、「プロセッサ」とも呼ばれる、命令の１つまたは複数のセットまたはシーケンスを実行するようにプログラムされた１つまたは複数のアレイを含む機械）としても実施され得、これらの要素のうちの任意の２つ以上、またはさらにはすべてが、同じそのような１つまたは複数のコンピュータ内に実装され得る。

[00170]本明細書で開示したプロセッサまたは処理するための他の手段は、たとえば、同じチップ上に、またはチップセット中の２つ以上のチップ間に常駐する１つまたは複数の電子デバイスおよび／または光デバイスとして作製され得る。そのようなデバイスの一例は、トランジスタまたは論理ゲートなどの論理要素の固定アレイまたはプログラマブルアレイであり、これらの要素のいずれも１つまたは複数のそのようなアレイとして実装され得る。そのような１つまたは複数のアレイは、１つまたは複数のチップ内（たとえば、２つ以上のチップを含むチップセット内）に実装され得る。そのようなアレイの例には、マイクロプロセッサ、組込みプロセッサ、ＩＰコア、ＤＳＰ、ＦＰＧＡ、ＡＳＳＰ、およびＡＳＩＣなど、論理要素の固定アレイまたはプログラマブルアレイがある。本明細書で開示されるプロセッサまたは処理するための他の手段は、１つまたは複数のコンピュータ（たとえば、命令の１つまたは複数のセットまたはシーケンスを実行するようにプログラムされた１つまたは複数のアレイを含む機械）、または他のプロセッサとしても実装され得る。本明細書で説明したプロセッサは、プロセッサが組み込まれているデバイスまたはシステム（たとえば、オーディオ感知デバイス）の別の動作に関係するタスクなど、本明細書で説明したジェスチャー制御手順に直接関係しないタスクを実施するかまたは命令の他のセットを実行するために使用することが可能である。また、本明細書で開示した方法の一部はオーディオ感知デバイスのプロセッサによって実施され、その方法の別の一部は１つまたは複数の他のプロセッサの制御下で実施されることが可能である。

[00171]本明細書で開示される構成に関して説明した様々な例示的なモジュール、論理ブロック、回路、およびテストならびに他の動作は、電子ハードウェア、コンピュータソフトウェア、またはその両方の組合せとして実装され得ることが、当業者には諒解されよう。そのようなモジュール、論理ブロック、回路、および動作は、本明細書で開示した構成を生成するように設計された、汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、ＡＳＩＣもしくはＡＳＳＰ、ＦＰＧＡもしくは他のプログラマブル論理デバイス、個別ゲートもしくはトランジスタ論理、個別ハードウェア構成要素、またはそれらの任意の組合せを用いて実装または実施され得る。たとえば、そのような構成は、少なくとも部分的に、ハードワイヤード回路として、特定用途向け集積回路へと作製された回路構成として、または不揮発性記憶装置にロードされるファームウェアプログラム、もしくは汎用プロセッサまたは他のデジタル信号処理ユニットなどの論理要素のアレイによって実行可能な命令である機械可読コードとしてデータ記憶媒体からロードされるかまたはデータ記憶媒体にロードされるソフトウェアプログラムとして実装され得る。汎用プロセッサはマイクロプロセッサであり得るが、代替として、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態機械であり得る。プロセッサは、コンピューティングデバイスの組合せ、たとえば、ＤＳＰとマイクロプロセッサとの組合せ、複数のマイクロプロセッサ、ＤＳＰコアと連携する１つもしくは複数のマイクロプロセッサ、または任意の他のそのような構成として実装することもできる。ソフトウェアモジュールは、ＲＡＭ（ランダムアクセスメモリ）、ＲＯＭ（読取り専用メモリ）、フラッシュＲＡＭなどの不揮発性ＲＡＭ（ＮＶＲＡＭ）、消去可能プログラマブルＲＯＭ（ＥＰＲＯＭ）、電気的消去可能プログラマブルＲＯＭ（ＥＥＰＲＯＭ（登録商標））、レジスタ、ハードディスク、リムーバブルディスク、またはＣＤ−ＲＯＭなど、非一時的記憶媒体中に、または当技術分野で知られている任意の他の形態の記憶媒体中に常駐し得る。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、かつ記憶媒体に情報を書き込むことができるように、プロセッサに結合される。代替として、記憶媒体はプロセッサと一体であってもよい。プロセッサおよび記憶媒体はＡＳＩＣ中に常駐し得る。ＡＳＩＣはユーザ端末内に常駐し得る。代替として、プロセッサおよび記憶媒体は、ユーザ端末内に個別構成要素として常駐することもできる。

[00172]本明細書で開示した様々な方法（たとえば、方法Ｍ１００、Ｍ１１０、Ｍ１２０、およびそれらの実装形態）は、プロセッサなどの論理要素のアレイによって実施され得、本明細書で説明した装置の様々な要素は、そのようなアレイ上で実行するように設計されたモジュールとして実装され得ることに留意されたい。本明細書で使用する「モジュール」または「サブモジュール」という用語は、ソフトウェア、ハードウェアまたはファームウェアの形態でコンピュータ命令（たとえば、論理式）を含む任意の方法、装置、デバイス、ユニットまたはコンピュータ可読データ記憶媒体を指し得る。複数のモジュールまたはシステムを１つのモジュールまたはシステムに結合することができ、かつ１つのモジュールまたはシステムを、同じ機能を実施する複数のモジュールまたはシステムに分離することができることを理解されたい。ソフトウェアまたは他のコンピュータ実行可能命令で実装されるとき、プロセスの要素は本質的に、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを用いて関連するタスクを実施するコードセグメントである。「ソフトウェア」という用語は、ソースコード、アセンブリ言語コード、機械コード、バイナリコード、ファームウェア、マクロコード、マイクロコード、論理要素のアレイによって実行可能な命令の任意の１つまたは複数のセットまたはシーケンス、およびそのような例の任意の組合せを含むことを理解されたい。プログラムまたはコードセグメントは、プロセッサ可読記憶媒体に記憶され得、または搬送波に埋め込まれたコンピュータデータ信号によって伝送媒体または通信リンクを介して送信され得る。

[00173]本明細書で開示する方法、方式、および技法の実装形態は、（たとえば、本明細書に記載する１つまたは複数のコンピュータ可読媒体中で）論理要素のアレイ（たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械）を含む機械によって読取り可能および／または実行可能な命令の１つまたは複数のセットとしても具体的に（tangibly）実施され得る。「コンピュータ可読媒体」という用語は、情報を記憶または転送することができる、揮発性、不揮発性、取外し可能および取外し不可能な媒体を含む、任意の媒体を含み得る。コンピュータ可読媒体の例は、電子回路、半導体メモリデバイス、ＲＯＭ、フラッシュメモリ、消去可能ＲＯＭ（ＥＲＯＭ）、フロッピー（登録商標）ディスケットもしくは他の磁気ストレージ、ＣＤ−ＲＯＭ／ＤＶＤもしくは他の光ストレージ、ハードディスク、光ファイバー媒体、無線周波（ＲＦ）リンク、または所望の情報を記憶するために使用され得、かつアクセスされ得る、任意の他の媒体を含む。コンピュータデータ信号は、電子ネットワークチャネル、光ファイバー、無線リンク、電磁リンク、ＲＦリンクなどの伝送媒体を介して伝播することができる、任意の信号を含み得る。コードセグメントは、インターネットまたはイントラネットなどのコンピュータネットワークを介してダウンロードされ得る。いずれの場合も、本開示の範囲は、そのような実施形態によって限定されると解釈すべきではない。

[00174]本明細書で説明した方法のタスクの各々は、ハードウェアで直接実施され得るか、プロセッサによって実行されるソフトウェアモジュールで実施され得るか、またはその２つの組合せで実施され得る。本明細書で開示する方法の実装形態の典型的な適用例では、論理要素のアレイ（たとえば、論理ゲート）は、この方法の様々なタスクのうちの１つ、複数、またはさらにはすべてを実施するように構成される。タスクのうちの１つまたは複数（場合によってはすべて）は、論理要素のアレイ（たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械）を含む機械（たとえば、コンピュータ）によって読取り可能および／または実行可能であるコンピュータプログラム製品（たとえば、ディスク、フラッシュメモリカードまたは他の不揮発性メモリカード、半導体メモリチップなど、１つまたは複数のデータ記憶媒体など）に実施されたコード（たとえば、命令の１つまたは複数のセット）としても実装され得る。本明細書で開示した方法の実装形態のタスクは、２つ以上のそのようなアレイまたは機械によっても実施され得る。これらまたは他の実装形態では、タスクは、セルラー電話など、ワイヤレス通信用のデバイス、またはそのような通信機能を有する他のデバイス内で実施され得る。そのようなデバイスは、（たとえば、ＶｏＩＰなどの１つまたは複数のプロトコルを使用して）回線交換および／またはパケット交換ネットワークと通信するように構成され得る。たとえば、そのようなデバイスは、符号化フレームを受信および／または送信するように構成されたＲＦ回路を含み得る。

[00175]本明細書で開示される様々な方法は、ハンドセット、ヘッドセット、または携帯情報端末（ＰＤＡ）などのポータブル通信デバイスによって実施されてよく、本明細書で説明した様々な装置は、そのようなデバイス内に含まれ得ることが明確に開示される。典型的なリアルタイム（たとえば、オンライン）アプリケーションは、そのようなモバイルデバイスを使用して行われる、電話による会話である。

[00176]１つまたは複数の例示的な実施形態では、本明細書で説明した動作は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。ソフトウェアで実施される場合、そのような動作は、１つまたは複数の命令またはコードとしてコンピュータ可読媒体に記憶され得るか、またはコンピュータ可読媒体を介して送信され得る。「コンピュータ可読媒体」という用語は、コンピュータ可読記憶媒体と通信（たとえば、伝送）媒体の両方を含む。限定ではなく例として、コンピュータ可読記憶媒体は、（限定はしないが、ダイナミックまたはスタティックＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、および／またはフラッシュＲＡＭを含み得る）半導体メモリ、または強誘電体メモリ、磁気抵抗メモリ、オボニック（ovonic）メモリ、高分子（polymeric）メモリ、または相変化（phase-change）メモリなどの記憶要素のアレイ、ＣＤ−ＲＯＭもしくは他の光ディスクストレージ、および／または磁気ディスクストレージもしくは他の磁気ストレージデバイスを備えることができる。そのような記憶媒体は、コンピュータによってアクセスされ得る命令またはデータ構造の形態で情報を記憶し得る。通信媒体は、ある場所から別の場所へのコンピュータプログラムの転送を容易にする任意の媒体を含む、命令またはデータ構造の形態で所望のプログラムコードを搬送するために使用され得、コンピュータによってアクセスされ得る、任意の媒体を備えることができる。同様に、いかなる接続も適切にコンピュータ可読媒体と称される。たとえば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ）、または赤外線、無線、および／またはマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバケーブル、ツイストペア、ＤＳＬ、または赤外線、無線、および／またはマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。本明細書で使用するディスク（disk）およびディスク（disc）は、コンパクトディスク（disc）（ＣＤ）、レーザーディスク（登録商標）（disc）、光ディスク（disc）、デジタル多用途ディスク（disc）（ＤＶＤ）、フロッピーディスク（disk）およびブルーレイ（登録商標）ディスク（disc）（Ｂｌｕ−ＲａｙＤｉｓｃＡｓｓｏｃｉａｔｉｏｎ、カリフォルニア州ユニヴァーサルシティー）を含み、ディスク（disk）は、通常、データを磁気的に再生し、ディスク（disc）はデータをレーザで光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲内に含めるべきである。

[00177]本明細書で説明した音響信号処理装置（たとえば、装置Ａ１００、Ａ１０５、Ａ１１０、Ａ１２０、ＭＦ１００、ＭＦ１１０、またはＭＦ１２０）は、いくつかの動作を制御するために音声入力を受容し、または背景雑音から所望の雑音を分離することから利益を得ることがある、通信デバイスなどの電子デバイスに組み込まれ得る。多くの適用例において、複数の方向から発生した背景音から、明瞭な所望の音を強調または分離することから利益を得ることができる。そのような適用例は、音声認識および検出、音声強調および分離、音声により有効になる制御などの機能を組み込んだ、電子デバイスまたはコンピューティングデバイスにおけるヒューマン・マシン・インターフェースを含み得る。そのような音響信号処理装置を、限定された処理機能のみを与えるデバイスに適するように実装するのが望ましいことがある。

[00178]本明細書で説明したモジュール、要素、およびデバイスの様々な実装形態の要素は、たとえば、同じチップ上に、またはチップセット中の２つ以上のチップ上に常駐する、電子デバイスおよび／または光デバイスとして作製され得る。そのようなデバイスの一例は、トランジスタまたはゲートなど、論理要素の固定アレイまたはプログラマブルアレイである。本明細書で説明した装置の様々な実装形態の１つまたは複数の要素は、全体または一部が、マイクロプロセッサ、組込みプロセッサ、ＩＰコア、デジタル信号プロセッサ、ＦＰＧＡ、ＡＳＳＰ、およびＡＳＩＣのような論理要素の１つまたは複数の固定アレイまたはプログラマブルアレイ上で実行されるように構成された、命令の１つまたは複数のセットとしても実装され得る。

[00179]本明細書で説明した装置の一実装形態の１つまたは複数の要素は、装置が組み込まれているデバイスまたはシステムの別の動作に関係するタスクなど、装置の動作に直接関係しないタスクを実施し、または装置の動作に直接関係しない命令の他のセットを実行するために使用することが可能である。また、そのような装置の実装形態の１つまたは複数の要素は、共通の構造（たとえば、異なる要素に対応するコードの部分を異なる時間に実行するために使用されるプロセッサ、異なる要素に対応するタスクを異なる時間に実施するために実行される命令のセット、または、異なる要素向けの動作を異なる時間に実施する電子デバイスおよび／もしくは光デバイスの構成）を有することが可能である。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
［Ｃ１］
信号処理の方法であって、
方向制御可能なトランスデューサを駆動して、ビームを含む音場を生成することと、
ジェスチャーの表現に応答して、コマンドを生成することと、
前記コマンドに応答して、フィルタ構成を生成することと、
入力信号に空間的指向性フィルタを適用して、マルチチャネル信号を生成することであって、前記空間的指向性フィルタが前記フィルタ構成に基づくことと
を備え、
前記ジェスチャーが、前記ビームの方向および前記ビームの幅のうち少なくとも１つにおける変化を指示し、前記コマンドが、前記指示された変化を実施するためのコマンドである、方法。
［Ｃ２］
前記コマンドを前記生成することが、前記表現からの情報に基づいて、（Ａ）前記ビームの前記幅を増大するためのコマンドと、（Ｂ）前記ビームの前記幅を低下するためのコマンドとを含む複数のコマンドから、前記コマンドを選択することを備える、Ｃ１に記載の信号処理の方法。
［Ｃ３］
前記コマンドを前記生成することが、前記表現からの情報に基づいて、（Ａ）前記ビームの前記方向を、前記ビームの第１のサイド上にある第１の方向に変えるためのコマンドと、（Ｂ）前記ビームの前記方向を、前記第１のサイドとは反対側の、前記ビームの第２のサイド上にある第２の方向に変えるためのコマンドとを含む複数のコマンドから、前記コマンドを選択することを備える、Ｃ１および２のいずれかに記載の信号処理の方法。
［Ｃ４］
前記フィルタ構成を前記生成することが、前記ビームの現在の方向および前記ビームの現在の幅のうち少なくとも一方の指示に基づく、Ｃ１から３のいずれかに記載の信号処理の方法。
［Ｃ５］
前記フィルタ構成を前記生成することが、ユーザの現在のロケーションの指示に基づく、Ｃ１から４のいずれかに記載の信号処理の方法。
［Ｃ６］
前記フィルタ構成を前記生成することが、前記コマンドに従って、複数のフィルタ構成から前記フィルタ構成を選択することを備える、Ｃ１から５のいずれかに記載の信号処理の方法。
［Ｃ７］
前記複数のフィルタ構成のうちの第１のフィルタ構成が、前記複数のフィルタ構成のうちの第２のフィルタ構成とは異なる、前記空間的指向性フィルタの複数の出力チャネルの間のフェーズ関係を記述する、Ｃ６に記載の信号処理の方法。
［Ｃ８］
前記ジェスチャーの前記表現が、前記音場内で前記ジェスチャーを実施するユーザの画像シーケンスに基づく、Ｃ１から７のいずれかに記載の信号処理の方法。
［Ｃ９］
前記画像シーケンスが、前記ユーザの片手に投射される光パターンの画像を含む、Ｃ８に記載の信号処理の方法。
［Ｃ１０］
前記ジェスチャーが、ユーザの片手の横移動を含む、Ｃ１から９のいずれかに記載の信号処理の方法。
［Ｃ１１］
前記ジェスチャーが、ユーザの片手の握りモーションを含む、Ｃ１から１０のいずれかに記載の信号処理の方法。
［Ｃ１２］
前記ジェスチャーが、ユーザの両方の手の、互いの方への移動を含む、Ｃ１から１０のいずれかに記載の信号処理の方法。
［Ｃ１３］
前記ジェスチャーが、ユーザの両方の手の、互いから離れる移動を含む、Ｃ１から１０のいずれかに記載の信号処理の方法。
［Ｃ１４］
前記ジェスチャーが、ユーザの両方の手の、同じ横方向の移動を含む、Ｃ１から１０のいずれかに記載の信号処理の方法。
［Ｃ１５］
信号処理のための装置であって、
方向制御可能なトランスデューサを駆動して、ビームを生成するための手段と、
ジェスチャーの表現に応答して、コマンドを生成するための手段と、
前記コマンドに応答して、フィルタ構成を生成するための手段と、
入力信号に対して空間的指向性フィルタリング動作を実施して、マルチチャネル信号を生成するための手段であって、前記空間的指向性フィルタリング動作が前記フィルタ構成に基づく、手段と
を備え、
前記ジェスチャーが、前記ビームの方向および前記ビームの幅のうち少なくとも１つにおける変化を指示し、前記コマンドが、前記指示された変化を実施するためのコマンドである、信号処理のための装置。
［Ｃ１６］
前記コマンドを生成するための前記手段が、前記表現からの情報に基づいて、（Ａ）前記ビームの前記幅を増大するためのコマンドと、（Ｂ）前記ビームの前記幅を低下するためのコマンドとを含む複数のコマンドから、前記コマンドを選択するための手段を備える、Ｃ１５に記載の信号処理のための装置。
［Ｃ１７］
前記コマンドを生成するための前記手段が、前記表現からの情報に基づいて、（Ａ）前記ビームの前記方向を、前記ビームの第１のサイド上にある第１の方向に変えるためのコマンドと、（Ｂ）前記ビームの前記方向を、前記第１のサイドとは反対側の、前記ビームの第２のサイド上にある第２の方向に変えるためのコマンドとを含む複数のコマンドから、前記コマンドを選択するための手段を備える、Ｃ１５および１６のいずれかに記載の信号処理のための装置。
［Ｃ１８］
前記フィルタ構成を生成するための前記手段が、前記ビームの現在の方向および前記ビームの現在の幅のうち少なくとも一方の指示に基づいて、前記フィルタ構成を生成するように構成される、Ｃ１５から１７のいずれかに記載の信号処理のための装置。
［Ｃ１９］
前記フィルタ構成を生成するための前記手段が、ユーザの現在のロケーションの指示に基づいて、前記フィルタ構成を生成するように構成される、Ｃ１５から１８のいずれかに記載の信号処理のための装置。
［Ｃ２０］
前記フィルタ構成を生成するための前記手段が、前記コマンドに従って、複数のフィルタ構成から前記フィルタ構成を選択するための手段を備える、Ｃ１５から１９のいずれかに記載の信号処理のための装置。
［Ｃ２１］
前記複数のフィルタ構成のうちの第１のフィルタ構成が、前記複数のフィルタ構成のうちの第２のフィルタ構成とは異なる、前記空間的指向性フィルタの複数の出力チャネルの間のフェーズ関係を記述する、Ｃ２０に記載の信号処理のための装置。
［Ｃ２２］
前記ジェスチャーの前記表現が、前記音場内で前記ジェスチャーを実施するユーザの画像シーケンスに基づく、Ｃ１５から２１のいずれかに記載の信号処理のための装置。
［Ｃ２３］
前記画像シーケンスが、前記ユーザの片手に投射される光パターンの画像を含む、Ｃ２２に記載の信号処理のための装置。
［Ｃ２４］
前記ジェスチャーが、ユーザの片手の横移動を含む、Ｃ１５から２３のいずれかに記載の信号処理のための装置。
［Ｃ２５］
前記ジェスチャーが、ユーザの片手の握りモーションを含む、Ｃ１５から２４のいずれかに記載の信号処理のための装置。
［Ｃ２６］
前記ジェスチャーが、ユーザの両方の手の、互いの方への移動を含む、Ｃ１５から２４のいずれかに記載の信号処理のための装置。
［Ｃ２７］
前記ジェスチャーが、ユーザの両方の手の、互いから離れる移動を含む、Ｃ１５から２４のいずれかに記載の信号処理のための装置。
［Ｃ２８］
前記ジェスチャーが、ユーザの両方の手の、同じ横方向の移動を含む、Ｃ１５から２４のいずれかに記載の信号処理のための装置。
［Ｃ２９］
信号処理のための装置であって、
方向制御可能なトランスデューサを駆動して、ビームを生成するように構成されたオーディオ出力段と、
ジェスチャーの表現に応答して、コマンドを生成するように構成されたジェスチャーインタープリタと、
前記コマンドに応答して、フィルタ構成を生成するように構成されたコマンドインタープリタと、
入力信号に空間的指向性フィルタを適用して、マルチチャネル信号を生成するように構成されたシンセサイザであって、前記空間的指向性フィルタが前記フィルタ構成に基づく、シンセサイザと
を備え、
前記ジェスチャーが、前記ビームの方向および前記ビームの幅のうち少なくとも１つにおける変化を指示し、前記コマンドが、前記指示された変化を実施するためのコマンドである、装置。
［Ｃ３０］
前記ジェスチャーインタープリタが、前記表現からの情報に基づいて、前記ビームの前記幅を増大するためのコマンドと、前記ビームの前記幅を低下するためのコマンドとを含む複数のコマンドから、前記コマンドを選択することによって、前記コマンドを生成するように構成される、Ｃ２９に記載の装置。
［Ｃ３１］
前記ジェスチャーインタープリタが、前記表現からの情報に基づいて、（Ａ）前記ビームの前記方向を、前記ビームの第１のサイド上にある第１の方向に変えるためのコマンドと、（Ｂ）前記ビームの前記方向を、前記第１のサイドとは反対側の、前記ビームの第２のサイド上にある第２の方向に変えるためのコマンドとを含む複数のコマンドから、前記コマンドを選択することによって、前記コマンドを生成するように構成される、Ｃ２９および３０のいずれかに記載の装置。
［Ｃ３２］
前記コマンドインタープリタが、前記ビームの現在の方向および前記ビームの現在の幅のうち少なくとも一方の指示に基づいて、前記フィルタ構成を生成するように構成される、Ｃ２９から３１のいずれかに記載の装置。
［Ｃ３３］
前記コマンドインタープリタが、ユーザの現在のロケーションの指示に基づいて、前記フィルタ構成を生成するように構成される、Ｃ２９から３２のいずれかに記載の装置。
［Ｃ３４］
前記コマンドインタープリタが、前記コマンドに従って、複数のフィルタ構成から前記フィルタ構成を選択することによって、前記フィルタ構成を生成するように構成される、Ｃ２９から３３のいずれかに記載の装置。
［Ｃ３５］
前記複数のフィルタ構成のうちの第１のフィルタ構成が、前記複数のフィルタ構成のうちの第２のフィルタ構成とは異なる、前記シンセサイザの複数の出力チャネルの間のフェーズ関係を記述する、Ｃ３４に記載の装置。
［Ｃ３６］
前記オーディオ出力段が、前記方向制御可能なトランスデューサを駆動して、前記ビームを含む音場を生成するように構成され、
前記ジェスチャーの前記表現が、前記音場内で前記ジェスチャーを実施するユーザの画像シーケンスに基づく、Ｃ２９から３５のいずれかに記載の装置。
［Ｃ３７］
前記画像シーケンスが、前記ユーザの片手に投射される光パターンの画像を含む、Ｃ３６に記載の装置。
［Ｃ３８］
前記ジェスチャーが、ユーザの片手の横移動を含む、Ｃ２９から３７のいずれかに記載の装置。
［Ｃ３９］
前記ジェスチャーが、ユーザの片手の握りモーションを含む、Ｃ２９から３８のいずれかに記載の装置。
［Ｃ４０］
前記ジェスチャーが、ユーザの両方の手の、互いの方への移動を含む、Ｃ２９から３８のいずれかに記載の装置。
［Ｃ４１］
前記ジェスチャーが、ユーザの両方の手の、互いから離れる移動を含む、Ｃ２９から３８のいずれかに記載の装置。
［Ｃ４２］
前記ジェスチャーが、ユーザの両方の手の、同じ横方向の移動を含む、Ｃ２９から３８のいずれかに記載の装置。
［Ｃ４３］
具体的な特徴を有する非一時的コンピュータ可読媒体であって、前記具体的な特徴が、前記具体的な特徴を読み取る機械に、
方向制御可能なトランスデューサを駆動して、ビームを含む音場を生成させ、
ジェスチャーの表現に応答して、コマンドを生成させ、
前記コマンドに応答して、フィルタ構成を生成させ、
入力信号に空間的指向性フィルタを適用して、マルチチャネル信号を生成させ、前記空間的指向性フィルタが前記フィルタ構成に基づき、
前記ジェスチャーが、前記ビームの方向および前記ビームの幅のうち少なくとも１つにおける変化を指示し、前記コマンドが、前記指示された変化を実施するためのコマンドである、非一時的コンピュータ可読媒体。
［Ｃ４４］
具体的な特徴を有し、前記具体的な特徴が、前記具体的な特徴を読み取る機械に、Ｃ１から１４のいずれか一項に記載の信号処理の方法を実施させる、コンピュータ可読媒体。

Claims

信号処理の方法であって、
カメラを使用してハンドジェスチャーの表現を検出することと、
前記ハンドジェスチャーの前記表現に応答して、コマンドを生成することと、
前記コマンドに応答して空間的指向性フィルタ向けのフィルタ構成を生成することと、
マルチチャネル信号に前記空間的指向性フィルタを適用することによってビームの幅に変化を生成することと、
前記ビームを含む音場を作成するために前記マルチチャネル信号で方向制御可能なトランスデューサのアレイを駆動することと
を備える、方法。
前記コマンドを前記生成することが、前記表現からの情報に基づいて、（Ａ）前記ビームの前記幅を増大するためのコマンドと、（Ｂ）前記ビームの前記幅を低下するためのコマンドとを含む複数のコマンドから、前記コマンドを選択することを備える、請求項１に記載の信号処理の方法。
前記コマンドを前記生成することが、前記表現からの情報に基づいて、（Ａ）前記ビームの方向を、前記ビームの第１のサイド上にある第１の方向に変えるためのコマンドと、（Ｂ）前記ビームの前記方向を、前記第１のサイドとは反対側の、前記ビームの第２のサイド上にある第２の方向に変えるためのコマンドとを含む複数のコマンドから、前記コマンドを選択することを備える、請求項１に記載の信号処理の方法。
前記フィルタ構成を前記生成することが、前記ビームの現在の方向および前記ビームの現在の幅のうち少なくとも一方の指示に基づく、請求項１に記載の信号処理の方法。
前記フィルタ構成を前記生成することが、ユーザの現在のロケーションの指示に基づく、請求項１に記載の信号処理の方法。
前記フィルタ構成を前記生成することが、前記コマンドに従って、複数のフィルタ構成から前記フィルタ構成を選択することを備える、請求項１に記載の信号処理の方法。
前記複数のフィルタ構成のうちの第１のフィルタ構成が、前記複数のフィルタ構成のうちの第２のフィルタ構成とは異なる、前記空間的指向性フィルタの複数の出力チャネルの間のフェーズ関係を記述する、請求項６に記載の信号処理の方法。
前記ハンドジェスチャーの前記表現が、前記音場内で前記ハンドジェスチャーを実施するユーザの画像シーケンスに基づく、請求項１に記載の信号処理の方法。
前記画像シーケンスが、前記ユーザの片手に投射される光パターンの画像を含む、請求項８に記載の信号処理の方法。
前記ハンドジェスチャーが、ユーザの片手の横移動を含む、請求項１に記載の信号処理の方法。
前記ハンドジェスチャーが、ユーザの片手の握りモーションを含む、請求項１に記載の信号処理の方法。
前記ハンドジェスチャーが、ユーザの両方の手の、互いの方への移動を含む、請求項１に記載の信号処理の方法。
前記ハンドジェスチャーが、ユーザの両方の手の、互いから離れる移動を含む、請求項１に記載の信号処理の方法。
前記ハンドジェスチャーが、ユーザの両方の手の、同じ横方向の移動を含む、請求項１に記載の信号処理の方法。
信号処理のための装置であって、
少なくとも１つの画像を使用してハンドジェスチャーの表現を検出するための手段と、
前記ハンドジェスチャーの前記表現に応答して、コマンドを生成するための手段と、
前記コマンドに応答して空間的指向性フィルタ向けのフィルタ構成を生成するための手段と、
マルチチャネル信号に前記空間的指向性フィルタを適用することによってビームの幅に変化を生成するための手段と、
前記ビームを含む音場を作成するために前記マルチチャネル信号で方向制御可能なトランスデューサのアレイを駆動するための手段と
を備える、信号処理のための装置。
前記コマンドを生成するための前記手段が、前記表現からの情報に基づいて、（Ａ）前記ビームの前記幅を増大するためのコマンドと、（Ｂ）前記ビームの前記幅を低下するためのコマンドとを含む複数のコマンドから、前記コマンドを選択するための手段を備える、請求項１５に記載の信号処理のための装置。
前記コマンドを生成するための前記手段が、前記表現からの情報に基づいて、（Ａ）前記ビームの方向を、前記ビームの第１のサイド上にある第１の方向に変えるためのコマンドと、（Ｂ）前記ビームの前記方向を、前記第１のサイドとは反対側の、前記ビームの第２のサイド上にある第２の方向に変えるためのコマンドとを含む複数のコマンドから、前記コマンドを選択するための手段を備える、請求項１５に記載の信号処理のための装置。
前記フィルタ構成を生成するための前記手段が、前記ビームの現在の方向および前記ビームの現在の幅のうち少なくとも一方の指示に基づいて、前記フィルタ構成を生成するように構成される、請求項１５に記載の信号処理のための装置。
前記フィルタ構成を生成するための前記手段が、ユーザの現在のロケーションの指示に基づいて、前記フィルタ構成を生成するように構成される、請求項１５に記載の信号処理のための装置。
前記フィルタ構成を生成するための前記手段が、前記コマンドに従って、複数のフィルタ構成から前記フィルタ構成を選択するための手段を備える、請求項１５に記載の信号処理のための装置。
前記複数のフィルタ構成のうちの第１のフィルタ構成が、前記複数のフィルタ構成のうちの第２のフィルタ構成とは異なる、前記空間的指向性フィルタの複数の出力チャネルの間のフェーズ関係を記述する、請求項２０に記載の信号処理のための装置。
前記ハンドジェスチャーの前記表現が、音場内で前記ハンドジェスチャーを実施するユーザの画像シーケンスに基づく、請求項１５に記載の信号処理のための装置。
前記画像シーケンスが、前記ユーザの片手に投射される光パターンの画像を含む、請求項２２に記載の信号処理のための装置。
前記ハンドジェスチャーが、ユーザの片手の横移動を含む、請求項１５に記載の信号処理のための装置。
前記ハンドジェスチャーが、ユーザの片手の握りモーションを含む、請求項１５に記載の信号処理のための装置。
前記ハンドジェスチャーが、ユーザの両方の手の、互いの方への移動を含む、請求項１５に記載の信号処理のための装置。
前記ハンドジェスチャーが、ユーザの両方の手の、互いから離れる移動を含む、請求項１５に記載の信号処理のための装置。
前記ハンドジェスチャーが、ユーザの両方の手の、同じ横方向の移動を含む、請求項１５に記載の信号処理のための装置。
信号処理のための装置であって、
ハンドジェスチャーの表現を検出するように構成されたカメラと、
前記ハンドジェスチャーの前記表現に応答して、コマンドを生成するように構成されたジェスチャーインタープリタと、
前記コマンドに応答して空間的指向性フィルタ向けのフィルタ構成を生成するように構成されたコマンドインタープリタと、
マルチチャネル信号に前記空間的指向性フィルタを適用することによってビームの幅に変化を生成するように構成されたシンセサイザと
前記ビームを含む音場を作成するために前記マルチチャネル信号で方向制御可能なトランスデューサのアレイを駆動するように構成されたオーディオ出力段と
を備える、装置。
前記ジェスチャーインタープリタが、前記表現からの情報に基づいて、前記ビームの前記幅を増大するためのコマンドと、前記ビームの前記幅を低下するためのコマンドとを含む複数のコマンドから、前記コマンドを選択することによって、前記コマンドを生成するように構成される、請求項２９に記載の装置。
前記ジェスチャーインタープリタが、前記表現からの情報に基づいて、（Ａ）前記ビームの方向を、前記ビームの第１のサイド上にある第１の方向に変えるためのコマンドと、（Ｂ）前記ビームの前記方向を、前記第１のサイドとは反対側の、前記ビームの第２のサイド上にある第２の方向に変えるためのコマンドとを含む複数のコマンドから、前記コマンドを選択することによって、前記コマンドを生成するように構成される、請求項２９に記載の装置。
前記コマンドインタープリタが、前記ビームの現在の方向および前記ビームの現在の幅のうち少なくとも一方の指示に基づいて、前記フィルタ構成を生成するように構成される、請求項２９記載の装置。
前記コマンドインタープリタが、ユーザの現在のロケーションの指示に基づいて、前記フィルタ構成を生成するように構成される、請求項２９に記載の装置。
前記コマンドインタープリタが、前記コマンドに従って、複数のフィルタ構成から前記フィルタ構成を選択することによって、前記フィルタ構成を生成するように構成される、請求項２９に記載の装置。
前記複数のフィルタ構成のうちの第１のフィルタ構成が、前記複数のフィルタ構成のうちの第２のフィルタ構成とは異なる、前記シンセサイザの複数の出力チャネルの間のフェーズ関係を記述する、請求項３４に記載の装置。
前記オーディオ出力段が、前記方向制御可能なトランスデューサを駆動して、前記ビームを含む音場を生成するように構成され、
前記ハンドジェスチャーの前記表現が、前記音場内で前記ハンドジェスチャーを実施するユーザの画像シーケンスに基づく、請求項２９に記載の装置。
前記画像シーケンスが、前記ユーザの片手に投射される光パターンの画像を含む、請求項３６に記載の装置。
前記ハンドジェスチャーが、ユーザの片手の横移動を含む、請求項２９に記載の装置。
前記ハンドジェスチャーが、ユーザの片手の握りモーションを含む、請求項２９に記載の装置。
前記ハンドジェスチャーが、ユーザの両方の手の、互いの方への移動を含む、請求項２９に記載の装置。
前記ハンドジェスチャーが、ユーザの両方の手の、互いから離れる移動を含む、請求項２９に記載の装置。
前記ハンドジェスチャーが、ユーザの両方の手の、同じ横方向の移動を含む、請求項２９に記載の装置。
具体的な特徴を有する非一時的コンピュータ可読媒体であって、前記具体的な特徴が、前記具体的な特徴を読み取る機械に、
カメラを使用してハンドジェスチャーの表現を検出させ、
前記ハンドジェスチャーの前記表現に応答して、コマンドを生成させ、
前記コマンドに応答して空間的指向性フィルタ向けのフィルタ構成を生成させ、
マルチチャネル信号に前記空間的指向性フィルタを適用することによってビームの幅に変化を生成させ、
前記ビームを含む音場を作成するために前記マルチチャネル信号で方向制御可能なトランスデューサのアレイを駆動させる、非一時的コンピュータ可読媒体。
前記空間的指向性フィルタを前記適用することは、前記フィルタ構成に基づく、請求項１に記載の方法。
前記空間的指向性フィルタを前記適用することは、前記フィルタ構成に基づく、請求項１５に記載の装置。
前記空間的指向性フィルタを前記適用することは、前記フィルタ構成に基づく、請求項２９に記載の装置。
前記空間的指向性フィルタを前記適用することは、前記フィルタ構成に基づく、請求項４３に記載のコンピュータ可読媒体。
前記ジェスチャーインタープリタおよび前記シンセサイザがプロセッサに統合される、請求項２９に記載の装置。
前記方向制御可能なトランスデューサをさらに備える、請求項２９に記載の装置。