JP6195843B2

JP6195843B2 - ジェスチャ制御音声ユーザインタフェース

Info

Publication number: JP6195843B2
Application number: JP2014547239A
Authority: JP
Inventors: シャン、ペイ; ネルソン、フゥイ−ヤ・リャオ
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2011-12-19
Filing date: 2012-11-01
Publication date: 2017-09-13
Anticipated expiration: 2032-11-01
Also published as: IN2014MN00973A; WO2013095783A2; KR101708101B1; US20130154930A1; WO2013095783A3; KR20140107484A; EP2795432A2; CN103999021B; US9563278B2; JP2015506035A; CN103999021A

Description

Ｕ．Ｓ．Ｃ．§１１９に基づく優先権の主張
本特許出願は、これの譲受人に対して譲渡されおり、ここにおける引用によってここにおいて明示で組み入れられている、“Multi-Sensor Controlled 3-D Audio Interface”（マルチセンサ制御３Ｄ音声インタフェース）という題名の米国仮特許出願第６１／５７７，４８９号（出願日：２０１１年１２月１９日）に対する優先権を主張するものである。

本開示は、概して、人間と機械のインタフェースに関するものである。より具体的には、本開示は、ジェスチャに基づくインタフェースに関するものである。

スマート機器、例えば、スマート携帯電話、は、精巧なインタフェースをしばしば提供する。これらのインタフェース設計の多くは、タッチ画面及び視覚によるフィードバックに焦点が合わせられている。今日では、マルチなタッチ画面を有するスマート機器、例えば、ｉＰｈｏｎｅ及びｉＰａｄ、が幅広く使用されておりかつ人気がある。タッチ画面は、非常に多様なインタフェースを提供し、ソフトウェアボタン、スライダ及び数多くの入力をユーザが取り扱うことで機器を制御する。しかしながら、幾つかの状況では、そのような詳細な視覚によるインタフェースは理想的でないことがある。例えば、車を運転しているときには、安全性が非常に重要であり、ユーザは機器でなく道路を見ているべきである。他の例は、ホータブルな機器で音楽を聞きながらのジョギングである。この状況では、ユーザは、歌の選択又はボリュームの調整のためにディスプレイの画面を見るのを要求されたくないであろう。

この概要は、すべての企図される実施形態の広範な概略ではなく、又、全実施形態の主要な又は非常に重要な要素を特定するわけではないこと、及びいずれの実施形態の適用範囲も詳述はせず及び全実施形態の適用範囲を詳述するわけではないことが意図される。それの唯一の目的は、後述されるより詳細な発明を実施するための形態の準備段階として、１つ以上の実施形態の幾つかの概念を簡略化された形で提示することである。

電子機器のための改良されたユーザインタフェースが開示される。ユーザインタフェースは、ユーザに提示された音声キュー（ａｕｄｉｏｃｕｅ）をジェスチャに基づいて選択することを可能にする。音声キューは、ユーザの周囲の空間において音声で認識することが可能であり、音声キューの各々は、空間内のその他の音声キューと別個の位置における指向性音（directional sound）として認識することができる。特定の音声キューの選択は、電子機器に対して行われる１つ以上のユーザの動きに基づいて行われる。音声キューの選択は、電子機器及び／又はその他の関連機器の動作を制御するために使用することができる。
ここにおいて開示されるインタフェース技法の一態様により、ポータブルの電子機器を、ユーザによって認識される音声キューを提示し及び音声キューを選択するためのユーザのジェスチャを検知するように構成することができる。

他の態様により、装置は、回路と、ユーザインタフェースと、セレクタと、を含む。回路は、ユーザの周囲の空間において音声で認識可能である音声キューを生成するよう構成される。各々の音声キューは、空間内のその他の音声キューと別個の位置における指向性音としてユーザによって認識されるために生成される。ユーザインタフェースは、音声キューに反応して行われた、装置に対するユーザの動きを検知するように構成され、セレクタは、ユーザの動きに基づいて音声キューのうちの少なくとも１つを選択するように構成される。

さらなる態様により、装置は、ユーザの周囲の空間において音声で認識可能である音声キューを生成するための手段を含む。各々の音声キューは、空間内のその他の音声キューと別個の位置における指向性音としてユーザによって認識されるために生成される。装置は、音声キューに反応して行われた、装置に対するユーザの動きを検知するための手段と、ユーザの動きに基づいて音声キューのうちの少なくとも１つを選択するための手段とも含む。

さらなる態様により、１つ以上のプロセッサによって実行可能な命令の組を具現化するコンピュータによって読み取り可能な媒体は、ユーザの周囲の空間において音声で認識可能な音声キューを生成するためのコードを格納する。音声キューの各々は、空間内のその他の音声キューと別個の位置における指向性音としてユーザによって認識されるために生成される。媒体は、音声キューに反応して行われた、ポータブル機器に対するユーザの動きを検知するためのコード、及びユーザの動きに基づいて音声キューのうちの少なくとも１つを選択するためのコードも格納する。

さらなる態様により、電子機器においてユーザインタフェースを提供する方法は、ユーザの周囲の空間において音声で認識可能である音声キューを電子機器によって生成することを含む。各々の音声キューは、空間内のその他の音声キューと別個の位置における指向性音としてユーザによって認識されるために生成される。方法は、音声キューに反応して行われた、装置に対するユーザの動きを検知することと、ユーザの動きに基づいて音声キューのうちの少なくとも１つを選択することとも含む。

以下の図及び詳細な発明を実施するための形態を検討した時点で、その他の態様、特徴、及び利点が当業者に明らかになるであろう。すべての該追加の特徴、態様、及び利点はこの説明内に含まれており、添付される請求項によって保護されることが意図される。

図面は、例示することのみを目的とするものであることが理解されるべきである。さらに、図内のコンポーネントは、必ずしも一定の比率ではなく、ここにおいて説明される技法及び機器の原理を例示することが強調される。図内において、同様の参照数字は、異なる図全体を通じての対応する部分を示す。
ユーザの周囲の空間において提示される音声キューの組を例示する上から見た透視図であり、ユーザが手によるジェスチャでキューのうちの１つを選択している。ユーザによるタッチ画面のスワイプを検知することによって音声キューを選択するように構成された典型的なポータブルの電子機器を例示した図である。機器の近くでのユーザの動きを検知することによって音声キューを選択するように構成された典型的な電子機器を例示した図である。ユーザによる機器の握りを検知することによって音声キューを選択するように構成された典型的なポータブルな電子機器を例示した図である。システムによって生成された音声キューのユーザによる選択を検知するために静止機器の近傍においてポータブルな機器を採用する典型的なシステムを例示した図である。ユーザによって選択された音声キューに基づいて機器を制御する典型的な方法のフローチャートを示す。空間的音声キューを生成する典型的な方法のフローチャートを示す。ユーザのジェスチャを検知した結果として空間的音声フィードバックキューを生成する典型的な方法のフローチャートを示す。ユーザによって選択された空間的音声キューを検知するための典型的な装置の幾つかのコンポーネントを例示したブロック図である。空間的音声キューを出力し、ユーザによって選択された空間的音声キューを検知し及び空間的音声フィードバックキューを出力するための典型的な装置の幾つかのコンポーネントを例示したブロック図である。空間的音声キューを出力し、ユーザによって選択された空間的音声キューを検知し及び空間的音声フィードバックキューを出力するための第１の典型的なシステムの幾つかのコンポーネントを例示したブロック図であり、空間的な音声は有線のヘッドフォンを通じて出力される。空間的音声キューを出力し、ユーザによって選択された空間的音声キューを検知し及び空間的音声フィードバックキューを出力するための第２の典型的なシステムの幾つかのコンポーネントを例示したブロック図であり、空間的な音声はサラウンドスピーカシステムを通じて出力される。空間的音声キューを出力し、ユーザによって選択された空間的音声キューを検知し及び空間的音声フィードバックキューを出力するための第３の典型的なシステムの幾つかのコンポーネントを例示したブロック図であり、空間的な音声は１つ以上の無線スピーカ装置を通じて出力される。空間的音声キューに反応しておこなわれたユーザの動きを検知するためのポータブル機器及び静止機器を採用する第１の典型的なシステムの幾つかのコンポーネントを例示したブロック図である。空間的音声キューに反応しておこなわれたユーザの動きを検知するためのポータブル機器及び静止機器を採用する第２の典型的なシステムの幾つかのコンポーネントを例示したブロック図である。

以下の発明を実施するための形態は、図面を参照し及び組み入れており、１つ以上の特定の構成について説明及び例示するものである。これらの構成は、限定するためでなく具体例を示すため及び教示するためのみに提供されており、開示される事柄を当業者が実践するのを可能にする上で十分な詳細さで示され及び説明される。従って、簡潔さを目的として、本説明は、当業者にとって既知である一定の情報は省略してある。

語句“典型的な”は、“１つの例、事例、又は実例を提供すること”を意味するために本開示全体を通じて使用される。ここにおいて“典型的な”として説明されるいずれの事柄も、その他のアプローチ法又は特徴よりも好ましい又は有利であるとは必ずしも解釈されるべきではない。

概して、本開示は、空間的な音声ユーザインタフェースを視覚的なユーザインタフェースの代替として又は追加として有する電子機器について説明するものであり、例えば、ハンドヘルド機器を含む。空間的音声を用いることで、機器は、周囲の物理的空間内の特定の位置においてユーザによって認識される音声キューを生成する。音声キューは、二次元（２Ｄ）空間又は三次元（３Ｄ）空間内の異なる地点において提示及び配置することができる。２Ｄ又は３Ｄ空間は物理的空間であることが当業者によって理解されるべきである。音声キューは、貴重な情報、例えば、機器内の音楽ファイルの所在場所、等を表現することができる。ここでは、特定の空間的音声キューを選択するために、ジェスチャによって、例えば、タッチ画面をスワイプ（ｓｗｉｐｅ）するか又はキューの方向を指し示すことによってそのキューを選択することができる。該ジェスチャを検知するために装備された機器は、異なるタイプのセンサを含むことができ、ユーザが空間的音声キューを聞いて選択することによって情報および機器をナビゲート及び制御するのを可能にする。

空間的音声は、視覚表示されるユーザインタフェース（ＵＩ）情報の代替環境を提供することができ、情報、例えば、階層的メニュー、メディアコンテンツのコレクションのインデックス、ナビゲーション用の仮想マップ、等を音声で提示することができる。空間的音声ＵＩは、空間的音声を代替の提示環境として使用することができ、及び、該環境においてナビゲーションするために及び制御のための入力を行うために異なるタイプのセンサを利用することができる。

図１は、ポータブル電子機器によってユーザ１２の周囲で空間的に提示される音声キュー１８ａ乃至ｆの組を例示した、上から見た透視図である。示される例では、空間的音声キューは、ヘッドセット１６を通じてユーザによって聞かれる。ユーザ１２は、ヘッドセット１６を通じて、音声キュー１８ａ乃至ｆは示されるようにユーザの周囲に配置されているとして認識する。機器１４は、音声キュー１８ａ乃至ｆに反応して行われた、機器に対するユーザの動きを検知するように構成される。機器１４は、ユーザの動きを検知して検知された動きを提示された音声キューのうちの１つ以上とマッチさせることによって、いずれの音声キューが選択されているかをユーザのジェスチャに基づいて決定することができる。このようにして、デバイス１４は、ユーザ１２がユーザの動き、例えば、手でのジェスチャによって音声キューを選択するのを可能にする。

ポータブル機器１４は、ソフトウェアプログラミング及び／又はハードウェア設計を通じて、ここにおいて説明される機能を実行するように構成されたハンドヘルド機器、例えば、無線通信機器、例えば、スマートフォン、携帯電話、パーソナルデジタルアシスタント（ＰＤＡ）、等、であることができる。機器１４は、ＭＰ３プレーヤー、ゲーム機器、ラップトップコンピュータ、ノートパッドコンピュータ、パーソナルステレオ、ステレオシステム、等であることができる。機器１４は、代替として、幾つかの配備では非ポータブル機器であることができる。
図２は、図１の機器１４として使用することができる典型的なポータブル電子機器５０を例示する。電子機器５０は、機器５０に含まれているタッチ画面５２でのユーザのスワイプを検知することによって音声キューを選択するように構成される。ユーザは、電子機器５０を手５４で保持し、１本の指、例えば、親指５６、を、タッチ画面上で音声キューを認識した方向にスワイプすることができる。機器５２は、スワイプの方向を決定し、スワイプ方向を提示された音声キューのうちの１つ以上とマッチさせ、それによっていずれの音声キューをユーザが選択しているかを決定する。

機器５０は、ポータブル機器の方位にかかわらず、タッチ画面におけるスワイプの絶対的方向を入手するための重力センサ及び／又はコンパスを含むこともできる。機器５０は、ポケット内でのタッチ画面ジェスチャにとって有用である。

図１の機器１４は、ポータブル機器に含まれている近接場センサ、例えば、超音波トランスデューサ、によってユーザのジェスチャを認識することによってユーザによって選択された音声キューを代替で／追加で決定することができる。該機器は図３に示され、典型的な電子機器１００の近くでのユーザの動きを検知することによってユーザによって選択された音声キューを決定するように構成された電子機器１００を例示する。機器１００は、図１の機器１４として使用することができる。機器は、表示画面１０２と、複数の近接場動きセンサ、例えば、超音波トランシーバ（示されていない）と、を含む。動きセンサは、機器１００に対するユーザの動き、例えば、選択された音声によるキューの方向への手１０４の動き、を検知する。機器１００は、センサデータから、ユーザの動きの方向を決定し、提示された音声キューのうちの１つ以上とその方向をマッチさせ、それによってユーザがいずれの音声キューを選択中であるかを決定する。

図１の機器１４は、ポータブル機器に組み込まれている近距離タッチセンサでユーザのジェスチャを認識することによってユーザによって選択された音声キューを代替で／追加で決定することができる。該機器は、図４に示され、それは、ユーザによる機器１５０の握りを検知することによって音声キューを選択するように構成された典型的なポータブル電子機器１５０を例示する。機器１５０は、図１の機器１４として使用することができる。機器は、機器の本体に取り付けられた複数のセンサ、例えば、誘導型センサ（示されていない）を含む。

センサは、ユーザによる機器１５０へのタッチを検知する。例えば、ユーザは、機器１５０を手で握り１５２、機器１５０の周囲の一定の位置に指を置く。機器１５０は、検知されたタッチ／握りから、選択された音声キューの方向を決定する。次に、機器１５０は、提示された音声によるキューのうちの１つ以上にその方向をマッチさせ、それによってユーザがいずれの音声キューを選択中であるかを決定する。

図１の機器１４は、外部のスピーカ配列とポータブル機器に配置されたセンサとの間の超音波信号、赤外線信号、音声信号又は同様の無線信号の三角測量によってユーザが選択した音声キューを代替で／追加で決定することができ、このため、ポータブル機器の方位を決定することができる。このように、このアプローチ法を用いることによって、ユーザは、ポータブル機器で空間的音声キューの認識された方向を指し示すことができ、指し示す方位を検知することができ、このため、選択された音声キューをシステムによって識別することができる。
該システムは図５に示され、それは、静止機器２０２の近傍でポータブル機器２０４を採用する典型的なシステム２００を例示する。システム２００は、空間的音声キューを生成し、ユーザによる音声キューのうちの幾つかの選択を検知するように構成される。示される例では、静止機器２０２は、超音波信号を出すスピーカの配列を含む。ポータブル機器２０４は、超音波信号に応答してマイク信号を生成する複数のマイク（示されてない）を含む。システム２００は、マイク信号に基づいて機器２０２、２０４に対するユーザの動きを検知するように構成されたプロセッサを含む。従って、ユーザは、ポータブル機器２０４を手２０６で握り、手を動かすことによって空間的音声キューのうちの１つ以上を選択することができる。

図６は、ユーザによって選択された音声キューに基づいて、機器、例えば、図１乃至５に示される機器１４、５０、１００、１５０又はシステム２００のうちのいずれか、を制御する典型的な方法のフローチャート２５０を示す。ボックス２５２において、電子機器は、ユーザの周囲の空間において音声で認識可能である音声キューを生成する。音声キューの各々は、空間内のその他の音声キューと別個の位置における指向性音としてユーザによって認識されるために生成される。

図７において描かれる方法と関係してさらに説明されるように、音声キューレンダリングエンジン６５４（図１０）は、空間的音声キュー（ＳＡＣ）生成器によって生成された空間的音声キューの位置及び音タイプ情報に基づいて音声出力信号を生成する。音声レンダリングエンジン６５４は、１つ以上の頭に関連する伝達関数（ＨＲＴＦ）フィルタを適用して音声信号を入力し及びそれらを処理することによって空間的音声キューの空間での動き及び局在化を実装する。知られているように、空間内の特定の地点から来たように思える２つの耳で聞こえる音を合成するために２つの耳に関する一対のＨＲＴＦを使用することができる。例えば、ＨＲＴＦフィルタで音をフィルタリングし、時の経過に従って異なるＨＲＴＦ係数を素早く内挿することによって音の連続的な動きを実装することができる。特定の位置から移動する又は発生する音声キューを認識するために空間的音声キュー生成器に関して提供された位置情報をＨＲＴＦフィルタに適用することができる。従って、聴く人がその聴く人の周囲の空間内を移動する空間的音声キューを表現する音声出力を認識するようにＳＡＣ生成器からの空間的音声キューをレンダリングすることができる。

ボックス２５４において、電子機器は、空間的音声キューに反応して行われた、電子機器に対するユーザの動きを検知する。空間的音声キューによって展開された選択肢を聞いた後は、ユーザは、異なる方法で選択を行うことができる。音声キューの選択を行う際のユーザの動きを検知するために次の方法のうちのいずれか又はそれらの組み合わせを使用することができる。
１．ポケット内タッチ画面ジェスチャ：この方法は、例えば、図２に示されるようにタッチ画面を使用する。この方法は、ユーザがタッチ画面を見る必要がないため“ポケット内”と呼ばれ、“ポケット内”、すなわち、ユーザの視界外で行うことができる。ポケット内選択では、１本以上の指が機器のタッチ画面に触れてスワイプし、空間内の方向が示される。スワイプ方向は、スワイプの方向に沿ってメニュー項目（空間的音声キュー）が選択されることを示す。メニュー項目は、空間内の別個の指向性音としてユーザによって認識可能な空間的音声キューとして提示される。このため、ユーザは、キューを聞き次第、選択するためにキューの認識された位置の方にスワイプすることができる。このスワイプ方向は、調整センサ、例えば、機器内に含まれている重力センサ及びコンパス、によってより正確にすることができる。これらのセンサがスワイプ行動を補正することによって、ハンドヘルド機器の方位にかかわらず、絶対的なスワイプ方向を得ることができる。
２．超音波ジェスチャ：機器内の超音波トランスデューサ（送信機と受信機の両方）によって、ユーザが機器に触らずにジェスチャを認識することができる。この方法の一例が図３に示される。機器の近傍における１つの地点から他の地点への手のジェスチャを超音波センサによって検知することができ、ユーザの手によるジェスチャの方向を与える空間内動きベクトルを示すことができる。ベクトルの方位は、希望される空間的な音声によるキューの選択を指し示し、機器の動作をさらに制御するための選択イベントをトリガすることができる。
３．近距離タッチ検知：近距離検知技法は、誘導型タッチセンサを使用することができ、このため、ハンドヘルド機器は、機器のどの部分が握られており及び触れられているかを検知することができる。例えば、機器の縁に沿って超音波センサを配置することができ、このため、機器のどこに触れられていても、強力な超音波エコーとして検知され、それがどのように触れられており及び握られているかを示すマップが機器の周囲において作製される。該タッチ情報を用いることで、特定の音声キューに対応するユーザの握りを検知するために触れられているポイント及び縁を連続的にモニタリングすることができる。さらに、タッチ／握り情報を音声空間内で音波化することができ、空間的音声キューとしてユーザに提示されたメニュー／コンテンツ選択情報と音声的にオーバーレイすることができる。１回又は複数回の軽打、又は指圧が例えば、ユーザの“マウスのクリック”による選択を示すことができる。この方法を使用するように構成された機器の例が図４に示される。

４．アクセサリ補助選択：空間的音声キューを提示するために使用される音声空間は、空間的にフィルタリングされたヘッドフォン信号又はステレオスピーカ又はスピーカの配列を有するフィールド内で生成された仮想空間として実現することができる。組み込み式超音波トランスデューサを有する小型のスピーカ配列等の機器の場合、システムは。例えば、超音波三角測量を用いて位置及びユーザインタフェース動作を正確に決定することができる。上述される超音波ジェスチャ法に関して使用されるアルゴリズムと類似のそれらを用いてジェスチャを検知するためにスピーカ配列における複数のマイク及びスピーカを使用することができる。例えば、それらの配列は、指し示している物体、例えば、指し示している指又は機器の位置を検知するために使用することができる。超音波マイク信号から導き出された位置情報は、ユーザによる音声キューの選択を決定するために使用することができる。この方法を使用するように構成されたデバイスの例が図５に示される。

一例として、この技法では、ユーザは、超音波マイクを有する自己のポータブル機器を指し示すことができ、スピーカ配列装置がスピーカを通じて超音波信号を出す。スピーカと機器のマイクの間での三角測量によって、ハンドヘルド機器の方位を算出することができる。代替配備では、ハンドヘルド機器は、超音波送信機を有することができ、スピーカ配列は、三角測量決定を完遂させるために機器からの超音波送信を聴くための１つ以上のマイクを有することができる。ポータブル機器の指し示す方向はこのようにして決定することができる。ユーザによる音声キューの選択を決定するために、機器の検知された指向方向と提示中の空間的音声キューの位置とのマッチングを行うことができる。

スピーカ配列装置は、ハンドヘルド機器に配線するか又は機器と無線通信することができる。この構成では、ユーザインタフェース処理は、配列及び／又はハンドヘルド機器上で行うことができる。シグナリング／センサ周波数範囲は超音波には限定されない。例えば、代替構成では、複数のマイク技術によるオーディオサウンドを使用することができる。しかしながら、この構成では、ユーザは、局在化及び方向の決定のために使用することが意図される音を聞くことができる。
ボックス２５６において、機器は、ユーザがどの音声キューを選択したかを決定するために検知されたユーザの動きを解析する。検知された動きは、ユーザの動き又はジェスチャの方向を決定するために解析することができる。動き又はジェスチャの方向は、機器によって維持される仮想座標格子上にベクトルとしてマッピングすることができる。機器は、各々の提示された音声キューの位置を座標格子上にマッピングする。ジェスチャベクトルによって描かれたラインと仮想座標系内での音声キューの座標位置の各々との間の最小距離を計算することができる。ラインに最も近い音声キュー、例えば、最小距離が最も小さい距離を有するそれ、は、選択された空間的音声キューとして決定される。このようにして、ユーザの動きの方向は、提示された音声キューのうちの１つ以上とマッチさせることができ、それによって選択された音声キューが示される。調整センサ、例えば、デバイスに含まれる重力センサ及びコンパス、からのデータを使用することによって絶対的ジェスチャ方向を決定することができる。ジェスチャ中の機器の方位を与えるこれらのセンサからのデータを使用することで、ジェスチャベクトルの座標を変換することによってユーザのジェスチャの絶対的方向を得ることができる。この方法により、ハンドヘルド機器の方位にかかわらずジェスチャの絶対的方向を決定することができる。

ボックス２５８において、検知されたユーザの動きに基づいて、空間的音声フィードバックキューが機器によって生成される。空間的音声フィードバックキューは、検知されたユーザの動きの方向に対応するためにユーザの周囲の空間において音で認識できるようにするために生成される。図８によって描かれる方法と関連させてさらに説明されるように、音声フィードバックキューレンダリングエンジン６６０（図１０）は、フィードバック空間的音声キュー（ＦＳＡＣ）生成器によって生成された空間的音声フィードバックキュー位置及び音タイプの情報に基づいて音声出力信号を生成する。音声フィードバックキューレンダリングエンジン６６０は、１つ以上のＨＲＴＦフィルタを入力音声信号に適用してそれらを処理することによって音声フィードバック出力の空間的動き及び局在化を実装する。例えば、ＨＲＴＦフィルタで音をフィルタリングし、時の経過に従って異なるＨＲＴＦ係数を素早く内挿することによって音の連続的な動きを実装することができる。空間的フィードバック音声キューのために提供された位置情報をＨＲＴＦフィルタに適用することで、特定の位置から移動する又は発する音声フィードバックキューの認識を生成することができる。従って、聴く人が周囲の空間内を移動するとしてフィードバック音声出力を認識するようにＦＳＡＣ生成器からの空間的フィードバック音声キューをレンダリングすることができる。
ボックス２６０において、ユーザによって選択された空間的音声キューによって機器の動作に影響を与える及び／又は制御することができる。例えば、選択された音声キューに応答して、機器は、ある曲を再生のために選択すること、停止させること、ボリュームを上げること、あるビデオを再生すること、等を行うことができる。これを完遂させるために、ユーザによって選択されたと決定された空間的音声キューに基づいて１つ以上の制御信号が機器によって生成され、それは、提示された空間的音声キューに反応して行われた検知されたユーザのジェスチャに基づく。

図７は、空間的音声キューを生成する典型的な方法のフローチャート３００を示す。ブロック３０４において、空間的音声キューを示す音声メニューがアプリケーションから空間的音声キュー（ＳＡＣ）生成器に送信される。メニューは、音声キュー、及び各空間的音声キューと関連付けられた位置及び音のタイプを識別する。位置は、システムによって維持される仮想座標格子内の２Ｄ又は３Ｄの座標位置であることができる。ＳＡＣ生成器は、図１０に示されるように、音声キューレンダリングエンジン６５４の一部としてソフトウェア内に実装することができる。
ブロック３０６において、ＳＡＣ生成器は、音声メニューを空間的音声キューに変換する。各空間的音声キューは、聴く人の空間内の特定の位置に対応する。特定のメニュー項目に関して選択される空間的音声キューは、聴く人の空間内の複数の位置に対応する空間的音声キューから選択することができる。空間的音声キューの各々は、聴く人の空間内の各々の個別の位置に対応する。

ブロック３０８において、音声レンダリングエンジン、例えば、図１０の音声キューレンダリングエンジン６５４は、空間的音声キューに対応する１つ以上の音源を音声素材データベース６５６からフェッチする。各音源は、デジタル化された音声のスニペット（ｓｎｉｐｐｅｔ）を格納する音声ファイルであることができる。格納された音源は、入力音声信号として音声キューレンダリングエンジン６５４に提供される音声摘要、録音された音、合成された音、等のデータベース６５６内に格納することができる（図１０）。音源は、異なる音声形式、例えば、ＭＩＤＩ、ＭＰ３、ＡＡＣ、ＷＡＶファイル、等で格納することができる。音声キューレンダリングエンジン６５４は、音声出力コンポーネントによって再生することができる該当する形式に音源を変換することができる。音源の形式は、音声キューレンダリングエンジン６５４によって処理される前は非圧縮パルスコード変調（ＰＣＭ）データであることができる。ＭＩＤＩ、ＭＰ３、ＡＡＣ、ＷＡＶ又はその他の形式である音源は、音声キューレンダリングエンジン６５４によってＰＣＭデータに復号することができる。ＰＣＭデータは、例えば、ＨＲＴＦフィルタを用いて音声キューレンダリングエンジン６５４によってフィルタリングされる。出力された音源が聴く人によって認識される特定の位置は、ＨＲＴＦフィルタに適用される空間的音声キュー情報の設計によって決まる。

判断ブロック３１０において、音声キューレンダリングエンジン６５４は、空間的音声キューがレンダリングされるべき対象となる音声出力デバイスのタイプを決定する。ここにおいて開示される例では、音声出力デバイスは、ヘッドセット、サラウンドスピーカシステム、又は無線スピーカシステムであることができる。
音声出力デバイスがヘッドセットである場合は、方法はブロック３１２に進み、音声キューレンダリングエンジン６５４及び関連付けられた音声処理回路６５７、６６４（図１０）は、空間的音声キューを、ヘッドフォンに基づく空間的音声出力信号としてレンダリングする。レンダリングすることは、デジタル音声のデジタル−アナログ（Ｄ／Ａ）変換、増幅、フィルタリング、空間フィルタリング、例えば、ＨＲＴＦフィルタリング、及びヘッドフォンを用いて空間音声キューを提示するために必要なその他のあらゆる音声処理を含むことができる。ブロック３１４において、空間音声出力信号は、ヘッドセット内のヘッドフォンスピーカに出力される。

音声出力デバイスがサラウンドサウンドスピーカシステムである場合は、方法はブロック３１６に進み、音声キューレンダリングエンジン６５４及び関連付けられた音声処理回路６５７、６６４（図１０）は、空間的音声キューを、マルチチャネル空間的音声出力信号としてレンダリングする。レンダリングすることは、デジタル音声のＤ／Ａ変換、増幅、フィルタリング、空間フィルタリング、例えば、ＨＲＴＦフィルタリング、及びヘッドフォンを用いて空間音声キューを提示するために必要なその他のあらゆる音声処理を含むことができる。ブロック３１８において、空間音声出力信号は、サラウンドサウンドスピーカに出力される。

音声出力デバイスが１つ以上の無線オーディオスピーカである場合は、方法はブロック３２０に進み、音声キューレンダリングエンジン６５４及び関連付けられた音声処理回路６５７、６６４（図１０）は、空間的音声キューを、１つ以上の無線チャネルでの送信に適したデジタル化された空間出力信号としてレンダリングする。レンダリングすることは、増幅、フィルタリング、空間フィルタリング、例えば、ＨＲＴＦフィルタリング、及び無線音声チャネルを用いて空間的音声キューを提示するために必要なその他のあらゆる音声処理を含むことができる。ブロック３２２において、デジタル化された空間音声出力信号が無線チャネルを通じて出力される。

図８は、ユーザのジェスチャを検知した結果として空間的音声フィードバックキューを生成する典型的な方法のフローチャート４００を示す。ブロック４０２において、検知されたユーザの動きを識別する信号がユーザインタフェースからフィードバック空間的音声キュー（ＦＳＡＣ）生成器に送信される。ＦＳＡＣ生成器は、図１０の音声フィードバックキューレンダリングエンジン６６０の一部としてソフトウェア内に実装することができる。ユーザ動き信号は、ユーザの動きの位置及び方向を識別する。位置は、システムによって維持される仮想座標格子内の２Ｄ又は３Ｄ座標位置であることができ、方向は、座標格子内の方向又はベクトルを識別する２Ｄ又は３Ｄ座標を含むことができる。ユーザ動き信号は、システムによって提示されるべき１つ以上のフィードバック空間的音声キューと関連付けられた位置、方向及び音のタイプを選択するために使用される。

ブロック４０４において、ＦＳＡＣ生成器は、ユーザ動き信号を１つ以上のフィードバック空間的音声キューに変換する。各音声フィードバックキューは、ユーザ動き信号によって識別された、聴く人の空間内の特定の位置に対応する。特定のユーザの動きに関して選択された音声フィードバックキューは、動きの検知された方向に対応することができる。幾つかの構成では、検知されたユーザのジェスチャの結果として単一の空間的音声フィードバックキューのみが生成される。その他の構成では、検知されたユーザの動きに関して複数の空間的音声フィードバックキューを生成することができる。複数の音声フィードバックキューは、順に又は同時に提示することができ、このため、ユーザの動きを追跡するために数多くの音声キューが生成され、これらのキューは位置及び時空間において非常に密であるため連続した音声イベントとして認識することができる。

ブロック４０６において、音声フィードバックキューレンダリングエンジン、例えば、図１０の音声キューレンダリングエンジン６６０は、音声フィードバックキューに対応する音源を音声フィードバック素材データベース６６２からフェッチする。各音源は、デジタル化された音声のスニペットを格納する音声ファイルであることができる。フェッチされる特定の音源は、ユーザインタフェースからのユーザ動き信号によって示される音タイプフィールドから決定することができる。格納された音源は、入力音声信号として音声キューレンダリングエンジン６６０に提供される音声摘要、録音された音、合成された音、等のデータベース６６２内に格納することができる。音源は、異なる音声形式、例えば、ＭＩＤＩ、ＭＰ３、ＡＡＣ、ＷＡＶファイル、等で格納することができる。音声フィードバックキューレンダリングエンジン６６０は、音声出力コンポーネントによって再生することができる該当する形式に音源を変換することができる。音源の形式は、音声フィードバックキューレンダリングエンジン６６０によって処理される前は非圧縮パルスコード変調（ＰＣＭ）データであることができる。ＭＩＤＩ、ＭＰ３、ＡＡＣ、ＷＡＶ又はその他の形式である音源は、音声フィードバックキューレンダリングエンジン６６０によってＰＣＭデータに復号することができる。ＰＣＭデータは、例えば、ＨＲＴＦフィルタを用いて音声フィードバックキューレンダリングエンジン６６０によってフィルタリングされる。出力された音源が聴く人によって認識される特定の位置は、ＨＲＴＦフィルタに適用される空間的音声キュー情報の設計によって決まる。

判断ブロック４０８において、音声フィードバックキューレンダリングエンジン６６０は、音声フィードバックキューがレンダリングされるべき対象となる音声出力デバイスのタイプを決定する。ここにおいて開示される例では、音声出力デバイスは、ヘッドセット、サラウンドスピーカシステム、又は無線スピーカシステムであることができる。
音声出力デバイスがヘッドセットである場合は、方法はブロック４１０に進み、音声フィードバックキューレンダリングエンジン６６０及び関連付けられた音声処理回路６５７、６６４（図１０）は、空間的音声フィードバックキューを、ヘッドフォンに基づく空間音声出力信号としてレンダリングする。レンダリングすることは、デジタル音声のＤ／Ａ変換、増幅、フィルタリング、空間フィルタリング、例えば、ＨＲＴＦフィルタリング、及びヘッドセットを用いてフィードバック音声キューを提示するために必要なその他のあらゆる音声処理を含むことができる。ブロック４１２において、空間的音声フィードバック出力信号は、ヘッドセット内のヘッドフォンスピーカに出力される。

音声出力デバイスがサラウンドサウンドスピーカシステムである場合は、方法はブロック４１４に進み、音声フィードバックキューレンダリングエンジン６６０及び関連付けられた音声処理回路６５７、６６４（図１０）は、空間的音声フィードバックキューを、マルチチャネル空間的音声出力信号としてレンダリングする。レンダリングすることは、デジタル音声のＤ／Ａ変換、増幅、フィルタリング、空間フィルタリング、及びサラウンドサウンドスピーカシステムを用いてフィードバック空間的音声キューを提示するために必要なその他のあらゆる音声処理を含むことができる。ブロック４１６において、空間的音声フィードバック出力信号は、サラウンドサウンドスピーカに出力される。

音声出力デバイスが１つ以上の無線オーディオスピーカである場合は、方法はブロック４１８に進み、音声フィードバックキューレンダリングエンジン６６０及び関連付けられた音声処理回路６５７、６６４（図１０）は、空間的音声フィードバックキューを、１つ以上の無線チャネルでの送信に適したデジタル化された空間出力信号としてレンダリングする。レンダリングすることは、増幅、フィルタリング、空間フィルタリング、及び無線音声チャネルを用いてフィードバック空間音声キューを提示するために必要なその他のあらゆる音声処理を含むことができる。ブロック４２０において、デジタル化された空間的音声フィードバック出力信号が無線チャネルを通じて出力される。

図９は、ユーザによって選択された空間的音声キューを検知するための典型的な装置５００の幾つかのコンポーネントを例示したブロック図である。装置５００は、図１乃至５に示される機器１４、５０、１００、１５０又はシステム２００のうちのいずれかに含めることができる。装置５００は、音声出力回路５２０と、ユーザインタフェース（ＵＩ）５２４と、セレクタ５２２と、センサ５２６と、を含む。

音声出力回路５２０は、ユーザの周囲の空間において音で認識可能である空間的音声キューを生成するように構成される。これを完遂させるために、音声出力回路５２０は、音声信号をスピーカ５２８に出力し、それは、機器５００の外部に示されているが、音声出力回路５２０内に含めることができる。スピーカ５２８は、音声信号を音声キューの空間音に変換する。各音声キューは、空間内のその他の音声キューと別個の位置において指向性音としてユーザによって認識されるために生成される。音声出力回路５２０は、空間的音声キューを表現する音声信号を出力するために図６のボックス２５２の機能及び／又は図７の方法を実装するハードウェアコンポーネント又はハードウェアコンポーネントとソフトウェアコンポーネントの組み合わせを含むことができる。

ＵＩ５２４は、音声キューに反応して行われた、装置５００に対するユーザの動きを検知するように構成される。ＵＩ５２４は、タッチ画面及び／又はその他のセンサ、例えば、図２乃至５に関連して説明されるそれら、を含むことができる。ユーザの動きを検知するために、図６のボックス２５４の機能を実装するハードウェア又はハードウェアコンポーネントとソフトウェアコンポーネントの組み合わせを含むことができる。

セレクタ５２２は、検知されたユーザの動きに基づいて音声キューのうちの少なくとも１つを選択するように構成される。セレクタ５２２は、ユーザの動きの検知された方向を提示される音声キューのうちの１つ以上にマッチさせることによってこれを行うことができる。セレクタ５２２は、とりわけユーザの動きの方向を決定するためにＵＩ５２４からの検知された動きを解析する。これを完遂するために、セレクタ５２２は、図６のボックス２５６の機能を実装するハードウェア又はハードウェアコンポーネントとソフトウェアコンポーネントの組み合わせを含むことができる。

音声出力回路５２０は、ＵＩ５２４によって検知されたユーザの動きに基づいて１つ以上の空間的音声フィードバックキューを生成するようにさらに構成することができる。空間的音声フィードバックキューは、ユーザの動きの検知された方向に対応するためにユーザによって音で認識可能である。これを完遂するために、音声出力回路５２０は、空間的音声フィードバックキューを表現する音声信号を出力するために図６のボックス２５８の機能及び／又は図８の方法を実装するハードウェア又はハードウェアコンポーネントとソフトウェアコンポーネントの組み合わせを含むことができる。

センサ５２６は、装置５００の方位を検知するための１つ以上のセンサを含む。センサ５２６は、例えば、重力センサ及び／又はコンパスを含むことができる。センサ出力、例えば、コンパス及び／又は重力センサ出力、は、図６のボックス２５６と関連させて説明されるように、装置５００の方位にかかわらず、ユーザの動き、例えば、指向性スワイプ、の絶対的方向を決定するために使用することができる。
図１０は、空間的音声キューを出力し、ユーザによって選択された空間的音声キューを検知し及び空間的音声フィードバックキューを出力するための典型的な装置６５０の幾つかのコンポーネントを例示したより詳細なブロック図である。装置６５０は、図１乃至５に示される機器１４、５０、１００、１５０又はシステム２００のうちのいずれかに含めることができる。装置６５０は、アプリケーション６５２と、ユーザジェスチャ検知器６５８と、音声出力回路５２０と、出力スピーカ５２８と、を含む。音声出力回路５２０は、音声キューレンダリングエンジン６５４と、音声素材データベース６５６と、サウンドミキサ６５７と、音声フィードバックキューレンダリングエンジン６６０と、音声フィードバック素材のデータベース６６２と、音声処理回路６６４と、を含む。

アプリケーション６５２は、音声メニューを生成する装置６５０で実行するソフトウェアアプリケーションであることができる。音声メニューは、１つ以上の空間的音声キューを識別し、アプリケーションから音声キューレンダリングエンジン６５４に含まれる空間的音声キュー（ＳＡＣ）生成器に送信される。メニューは、空間的音声キュー及び各空間的音声キューと関連付けられた位置及び音のタイプを識別する。位置は、システムによって維持される仮想座標格子内の２Ｄ又は３Ｄの座標位置であることができる。
空間的音声キューは、ここにおける引用によってここに組み入れられている関連する米国特許出願第１２／９０５，３４０号において記述されるように、階層的に構成し、タグポイントを用いて聴く人の空間内に提示することができる。
音声キューレンダリングエンジン６５４、音声フィードバックキューレンダリングエンジン６６０、音声素材データベース６５６、及び音声フィードバック素材データベース６６２の機能は、図７と関連させて上述されている。

ユーザジェスチャ検知器６５８は、ＵＩ５２４と、セレクタ５２２と、センサ５２６と、を含むことができる。ユーザ動き信号は、ユーザジェスチャ検知器６５８によって、音声フィードバックキューレンダリングエンジン６６０に含まれているＦＳＡＣ生成器に出力される。

サウンドミキサ６５７は、ＨＲＴＦフィルタリングされたＰＣＭ音声を音声キュー及び音声フィードバックキューレンダリングエンジン６５４、６６０から受信し、様々な利得を適用するためのデジタル音声ミキシング技法、例えば、信号加重、を用いて信号をミックスする。この方法により、音声フィードバックキューは、提示された空間音声キュー群上に知覚的にオーバーレイすることができる。
音声処理回路６６４は、希望される音を生成するためにスピーカ５２８への入力として適した１つ以上の音声信号にミキサ出力を変換するためにオーディオサウンドミキサ６５７の出力に関して要求される音声処理を行う。処理は、デジタル音声のＤ／Ａ変換、増幅、フィルタリング、平衡化、ステレオチャネル化、及びスピーカ５２８を用いて空間的音声キュー及びフィードバックキューを提示するために必要なその他の音声処理を含むことができる。
スピーカ５２８は、あらゆる適切な音トランスデューサであることができ、ここにおいて開示されるスピーカと、ヘッドセットと、サラウンドスピーカシステムと、無線スピーカシステムと、を含む。

音声キューレンダリングエンジン６５４、音声フィードバックキューレンダリングエンジン６６０、サウンドミキサ６５７、ＳＡＣ生成器、ＦＳＡＣ生成器及びユーザジェスチャ検知器６５８及び音声処理回路６６４の少なくとも一部分は、プログラミングコードを実行する１つ以上のプロセッサによって実装することができる。プロセッサは、マイクロプロセッサ、例えば、ＡＲＭ７、デジタル信号プロセッサ（ＤＳＰ）、１つ以上の特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、複合プログラマブルロジックデバイス（ＣＰＬＤ）、ディスクリートロジック、又はそれらの適切な組み合わせであることができる。
図１１は、空間的音声キューを出力し、ユーザによって選択された空間音声キューを検知し、及び空間的音声フィードバックキューを出力するための第１の典型的なシステム７００の幾つかのコンポーネントを例示したブロック図であり、空間的音声は、有線ヘッドフォン７０４を通じて出力される。システムアーキテクチャ７００は、図１乃至１０に関連して上述される機器１４、５０、１００、１５０、２０４、装置５００、６５０の機能及び／又は方法を実装するように構成することができる。
システム７００は、装置７０２、例えば、ポータブル電子メディアデバイス、及びヘッドセット７０４、を含む。装置７０２は、音声回路７０６と、プロセッサ７０８と、ユーザインタフェース（ＵＩ）７１０と、メモリ７１２と、１つ以上のセンサ７１４と、を含む。ＵＩ７１０は、１つ以上のセンサ７２０と、タッチ画面７２２と、を含む。

メモリ７１２は、図１乃至１０と関連させてここにおいて開示される機能の多く、例えば、アプリケーション６５２の機能及び音声回路５２０のほとんどの機能、を実装するためにプロセッサ７０８によって実行可能なソフトウェア／ファームウェア及びデータを格納することができる。ＵＩ７１０は、センサ７２０、例えば、ここにおいて説明される超音波センサと、提示された空間的音声キューに反応して行われるユーザのジェスチャを検知するためのタッチ画面７２２と、を含むことができる。センサ７１４は、ここにおいて上述されるように、装置７０２の方位を決定するための重力センサとコンパスと、を含むことができる。

プロセッサ７０８は、マイクロプロセッサ、例えば、ＡＲＭ７、デジタル信号プロセッサ（ＤＳＰ）、１つ以上の特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、複合プログラマブルロジックデバイス（ＣＰＬＤ）、ディスクリートロジック、又はそれらの適切な組み合わせであることができる。

音声回路７０６は、ヘッドセット７０４への出力に適するように音声を処理するための音声ハードウェア及び／又はソフトウェアを含むことができる。例えば、音声回路７０６は、ヘッドセット７０４を駆動するためのマルチチャネルＤ／Ａコンバータ（ＤＡＣ）と、左チャネル増幅器と、右チャネル増幅器と、を含むことができる。増幅器は、ヘッドフォン高インピーダンス（ＨＰＨ）増幅器であることができる。

図１２は、空間的音声キューを出力し、ユーザによって選択された空間的音声キューを検知し、及び空間的音声フィードバックキューを出力するための第２の典型的なシステム７５０の幾つかのコンポーネントを例示したブロック図であり、空間的音声は、サラウンドスピーカシステム７５４を通じて出力される。システムアーキテクチャ７５０は、図１乃至１０に関連して上述される機器１４、５０、１００、１５０、２０４、装置５００、６５０の機能及び／又は方法を実装するように構成することができる。
システム７５０は、装置７５２、例えば、ポータブル電子メディアデバイスと、サラウンドスピーカシステム７５４と、を含む。装置７５２は、音声回路７５６と、プロセッサ７５８と、ユーザインタフェース（ＵＩ）７６０と、メモリ７６２と、１つ以上のセンサ７６４と、を含む。ＵＩ７６０は、１つ以上のセンサ７６６と、タッチ画面７６８と、を含む。

メモリ７６２は、図１乃至１０と関連させてここにおいて開示される機能の多く、例えば、アプリケーション６５２の機能及び音声回路５２０のほとんどの機能、を実装するためにプロセッサ７５８によって実行可能なソフトウェア／ファームウェア及びデータを格納することができる。ＵＩ７６０は、センサ７６６、例えば、ここにおいて説明される超音波センサと、提示された空間的音声キューに反応して行われるユーザのジェスチャを検知するためのタッチ画面７６８と、を含むことができる。センサ７６４は、ここにおいて上述されるように、装置７５２の方位を決定するための重力センサとコンパスと、を含むことができる。

プロセッサ７５８は、マイクロプロセッサ、例えば、ＡＲＭ７、デジタル信号プロセッサ（ＤＳＰ）、１つ以上の特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、複合プログラマブルロジックデバイス（ＣＰＬＤ）、ディスクリートロジック、又はそれらの適切な組み合わせであることができる。

音声回路７５６は、サラウンドスピーカシステム７５４への出力に適するように音声を処理するための音声ハードウェア及び／又はソフトウェアを含むことができる。例えば、音声回路７５６は、マルチチャネルＤ／Ａコンバータ（ＤＡＣ）と、フィルタと、チャネル増幅器と、を含むことができる。

サラウンドスピーカシステム２０６は、聴く人を物理的に囲う複数のスピーカ７５５を提供する。スピーカ７５５は、増幅器から出力された電子信号をそれぞれ音に変換するためのあらゆる適切な音声トランスデューサである。

図１３は、空間的音声キューを出力し、ユーザによって選択された空間的音声キューを検知し、及び空間的音声フィードバックキューを出力するための第３の典型的なシステム８００の幾つかのコンポーネントを例示したブロック図であり、空間的音声は、１つ以上の無線スピーカ装置８０４、８０６を通じて出力される。システムアーキテクチャ８００は、図１乃至１０に関連して上述される機器１４、５０、１００、１５０、２０４、装置５００、６５０の機能及び／又は方法を実装するように構成することができる。
システム８００は、装置８０２、例えば、ポータブル電子メディアデバイスと、無線スピーカ装置８０４、８０６と、を含む。装置８０２は、音声回路８０８と、プロセッサ８１０と、ユーザインタフェース（ＵＩ）８１２と、メモリ８１４と、１つ以上のセンサ８１６と、を含む。ＵＩ８１２は、１つ以上のセンサ８２０と、タッチ画面８２２と、を含む。

メモリ８１４は、図１乃至１０と関連させてここにおいて開示される機能の多く、例えば、アプリケーション６５２の機能及び音声回路５２０のほとんどの機能、を実装するためにプロセッサ８１０によって実行可能なソフトウェア／ファームウェア及びデータを格納することができる。ＵＩ８１２は、センサ８２０、例えば、ここにおいて説明される超音波センサと、提示された空間的音声キューに反応して行われるユーザのジェスチャを検知するためのタッチ画面８２２と、を含むことができる。センサ８１６は、ここにおいて上述されるように、装置８０２の方位を決定するための重力センサとコンパスと、を含むことができる。

プロセッサ８１０は、マイクロプロセッサ、例えば、ＡＲＭ７、デジタル信号プロセッサ（ＤＳＰ）、１つ以上の特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、複合プログラマブルロジックデバイス（ＣＰＬＤ）、ディスクリートロジック、又はそれらの適切な組み合わせであることができる。

音声回路８０８は、無線インタフェース８１８による無線送信に適するように音声を処理するための音声ハードウェア及び／又はソフトウェアを含むことができる。無線インタフェース８１８は、トランシーバを含み、無線スピーカ装置８０４、８０６との無線通信を提供する。あらゆる適切な無線技術を装置８０２とともに採用することができるが、無線インタフェース８１８は、アンテナと、Ｂｌｕｅｔｏｏｔｈ（登録商標）ＲＦトランシーバと、ベースバンドプロセッサと、プロトコルスタックと、必要な場合は装置８０２の音声回路８０８、プロセッサ８１０及びその他のコンポーネントに接続するためのハードウェアインタフェースとソフトウェアインタフェースと、を含む少なくともＢｌｕｅｔｏｏｔｈコアシステムを提供する市販のＢｌｕｅｔｏｏｔｈモジュールを含むことができる。
音声信号は、例えば、www.ｂｌｕｅｔｏｏｔｈ．ｃｏｍにおいて入手可能なＢｌｕｅｔｏｏｔｈ仕様によって定義されるプロトコルを用いて、ＰＣＭ音声として無線チャネルを通じてスピーカ装置８０４、８０６に送信することができる。Ｂｌｕｅｔｏｏｔｈ仕様は、具体的な音声信号送信ガイドラインを提供する。特に、Ｂｌｕｅｔｏｏｔｈ仕様は、Ｂｌｕｅｔｏｏｔｈネットワークを通じて高質のステレオ又はモノ音声を無線で配信するためのプロトコル及び手順を定義するＡｄｖａｎｃｅｄＡｕｄｉｏＤｉｓｔｒｉｂｕｔｉｏｎＰｒｏｆｉｌｅ（Ａ２ＤＰ）を提供する。Ａ２ＤＰは、システム８００とともに使用することができる。
無線スピーカ装置８０４、８０６は、市販のＢｌｕｅｔｏｏｔｈスピーカであることができる。各スピーカ装置８０４、８０６は、同装置の無線インタフェース８１８から送信された音声信号を受信するための無線インタフェース（示されてない）と、スピーカと、を含む。スピーカ装置８０４、８０６は、各々、Ｄ／Ａコンバータ（ＤＡＣ）と、音声増幅器（示されていない）と、スピーカ８０４、８０６での出力のためにＰＣＭ音声をアナログ音声信号に変換するためのその他の音声処理回路と、も含む。あらゆる適切な数のスピーカ装置を使用することができる。

図１１乃至１３にそれぞれ示される装置７０２、７５２及び８０２の機能及び特徴は、各々レンダリングされてフォーマット化されたヘッドセット７０４、サラウンドサウンドスピーカシステム７５４、及び無線スピーカ装置８０４、８０７６に空間音声出力信号を提供するめの複数の、任意選択可能な出力インタフェースを有するように構成された単一のデバイスに結合することができる。
図１４は、空間的音声キューに反応して行われたユーザの動きを検知するためのポータブル機器８５４及び静止機器８５２を採用する第１の典型的なシステム８５０の幾つかのコンポーネントを例示したブロック図である。システムアーキテクチャ８５０は、図５乃至１０に関連させて上述される機器２０２、２０４、装置５００、６５０の機能及び／又は方法を実装するように構成することができる。

静止機器８５２は、超音波信号を出すように構成されたスピーカ８５６ａ−ｆの配列を含む。ポータブル機器８５４は、超音波信号に応答してマイク信号を生成するためのマイク８５８ａ−ｄを含む。システム８５０は、マイク信号に基づいてユーザの動きを検知するように構成される。システム８５０は、ポータブル機器８５４の方位を決定することができるようにするために、スピーカ配列８５６ａ−ｆとポータブル機器８５４のマイク８５８ａ−ｄとの間での超音波信号の三角測量によってユーザが選択した音声キューを決定する。２つのアンカーポイント、例えば、配列上の２つの送信機、の距離が知られている場合は、それらから遠隔機器までの距離は、信号を出して反響時間を測定することによって、又は、発信時間と同期させ、遠隔機器の受信時間に基づいて遅延を計算することによって、測定することができる。送信機から受信機までの絶対的時間遅延を測定できるときには標準的な三角測量が使用される。しかしながら、幾つかのシステムでは、送信機と受信機が独立しており、従って、（同じ機器の）受信機間の時間オフセットしか測定することができない。この場合は、送信機の位置を導き出すために機器内の追加の受信機が要求される。例えば、送信タイミングが受信機に知られているときに送信機の２Ｄ位置を得るためには２つの受信機が要求される。送信タイミングを受信機が知らないときには、３つの受信機が要求される。

従って、このアプローチ法を使用することで、ユーザは、空間的音声キューの認識された方向をポータブル機器で指し示すことができ、指し示す方位を検知することができるため、選択された音声キューをシステム８５０によって識別することができる。スピーカ配列８５６ａ−ｆ及びマイク８５８ａ−ｄの代わりに該当するトランスデューサを用いることで超音波信号以外の信号を使用することができ、例えば、赤外線音声信号、等を使用することができる。

図１５は、空間的音声キューに反応して行われたユーザの動きを検知するためのポータブル機器９０４及び静止機器９０２を含む第２の典型的なシステム９００の幾つかのコンポーネントを例示したブロック図である。システムアーキテクチャ９０２は、図５乃至１０に関連させて上述される機器２０２、２０４、装置５００、６５０の機能及び／又は方法を実装するように構成することができる。

図１４のシステム８５０とは対照的に、ポータブル機器９０４は、超音波信号を出すように構成されたスピーカ９０６ａ−ｄの配列を含み、静止機器９０２は、超音波信号に応答してマイク信号を生成する複数のマイク９０８ａ−ｆを含む。図１４のシステム８５０と同様に、システム９００は、マイク信号に基づいてユーザの動きを検知するように構成される。システム９００は、ポータブル機器９０４の方位を決定することができるようにするために、スピーカ配列９０６ａ−ｄと静止機器９０２のマイク９０８ａ−ｆとの間での超音波信号の三角測量によってユーザが選択した音声キューを決定する。

システム８５０、９００では、静止機器は、空間的音声インタフェースを提示し及び音声キューに反応したユーザの動きを解析している間にポータブル機器に関して静止しているだけでよい。その他の時点では、静止機器は静止している必要がない。

ここにおいて説明されるシステム及び装置は、１つ以上の複数の選択メニュー又はデータデータ選択の配列が視覚による画面の代わりに音声空間で音で聞こえる状態で提示されるようなコンポーネントを含むことができる。例えば、異なるジャンルの音楽、異なるアーティスト別に分類された音楽、又は携帯電話内の連絡先を、３Ｄ音声アルゴリズムを実行するヘッドフォンを着用しているユーザの“周囲に”空間配置することができる。

ここにおいて説明されるインタフェース技法は、少なくとも次の利点を提供する。すなわち、ユーザは、コマンドを入力するためにタッチ画面を見る必要がない、便利で楽しいハンドヘルド機器との新しい対話方法、幾つかの状況における安全性の向上、及び新しいゲーム。

ここにおいて説明されるシステム、装置、機器、ユーザインタフェース及びそれらの各々のコンポーネントの機能、及び方法のステップとモジュールは、ハードウェア、ソフトウェア／ファームウェアを実行するデジタルハードウェア、又はそれらのあらゆる適切な組み合わせにおいて実装することができる。ソフトウェア／ファームウェアは、１つ以上のデジタル回路、例えば、マイクロプロセッサ、ＤＳＰ、埋め込み型コントローラ、又は知的所有権（ｉｎｔｅｌｌｅｃｔｕａｌｐｒｏｐｅｒｔｙ）（ＩＰ）コア、によって実行可能な命令（例えば、プログラミングコードセグメント）の組を有するプログラムであることができる。機能は、ソフトウェア／ファームウェア内に実装された場合は、１つ以上のコンピュータによって読み取り可能な媒体において命令又はコードとして格納することができる。コンピュータによって読み取り可能な媒体は、コンピュータ記憶媒体を含むことができる。記憶媒体は、コンピュータによってアクセスすることができるあらゆる利用可能な媒体であることができる。一例として、及び制限することなしに、該コンピュータによって読み取り可能な媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＣＤ−ＲＯＭ又はその他の光ディスク記憶装置、磁気ディスク記憶装置、その他の磁気記憶デバイス、又は希望されるプログラムコードを命令又はデータ構造の形態で搬送又は格納するために使用することができ及びコンピュータによってアクセスすることができるその他の媒体、を備えることができる。ここにおいて用いられるときのディスク（ｄｉｓｋ及びｄｉｓｃ）は、コンパクトディスク（ＣＤ）（ｄｉｓｃ）と、レーザディスク（ｄｉｓｃ）と、光ディスク（ｄｉｓｃ）と、デジタルバーサタイルディスク（ＤＶＤ）（ｄｉｓｃ）と、フロッピー（登録商標）ディスク（ｄｉｓｋ）と、ｂｌｕ−ｒａｙディスク（ｄｉｓｃ）と、を含み、ここで、ｄｉｓｋは、通常は磁気的にデータを複製し、ｄｉｓｃは、レーザを用いて光学的にデータを複製する。上記の組み合わせも、コンピュータによって読み取り可能な媒体の適用範囲内に含められるべきである。

ユーザインタフェース、システム、デバイス、装置、コンポーネント及び方法の幾つかの例が開示されている。上記は例であり、可能な統合は、ここにおいて説明されるものに限定されない。さらに、これらの例に対する様々な変更が可能であり、ここにおいて提示される原理は、その他のシステムにも同様に応用することができる。例えば、ここにおいて開示される原理は、デバイス、例えば、パソコン、娯楽カウンセル（ｃｏｕｎｓｅｌ）、ビデオゲーム、等に応用することができる。さらに、様々なコンポーネント及び／又は方法上のステップ／ブロックは、請求項の範囲を逸脱することなしに具体的に開示される配備以外のそれらで実装することができる。

従って、これらの教示に鑑みてその他の実施形態及び変更が当業者にとって容易に明らかになるであろう。従って、次の請求項は、上記の明細書及び添付図面と関連させてすべての該実施形態及び変更を網羅することが意図される。
以下に本願出願当初の特許請求の範囲を付記する。
[Ｃ１] 装置であって、
ユーザの周囲の空間において音声で認識可能である複数の音声キューを生成するように構成された回路であって、前記音声キューの各々は、前記空間内のその他の音声キューと別個の位置において指向性音として前記ユーザによって認識されるために生成される回路と、
前記音声キューに反応して行われた、前記装置に対するユーザの動きを検知するように構成されたユーザインタフェースと、
前記ユーザの動きに基づいて前記音声キューのうちの少なくとも１つを選択するように構成されたセレクタと、を備える、装置。
[Ｃ２] 前記セレクタは、前記音声キューのうちの１つ以上に前記ユーザの動きの方向をマッチさせるＣ１に記載の装置。
[Ｃ３] 前記回路は、前記ユーザインタフェースによって検知された前記ユーザの動きに基づいて音声フィードバックキューを生成するようにさらに構成され、前記音声フィードバックキューは、前記ユーザの動きの前記方向に対応するために前記ユーザの周囲の前記空間において音声で認識可能であるＣ１に記載の装置。
[Ｃ４] 前記装置は、タッチ画面をさらに備え、前記ユーザの動きは、前記装置の前記タッチ画面全体における指向性スワイプであるＣ１に記載の装置。
[Ｃ５] 前記装置の方位を検知するように構成された１つ以上のセンサをさらに備えるＣ１に記載の装置。
[Ｃ６] 前記センサからの出力に基づいて、前記装置の前記方位にかかわらず、ユーザの指向性スワイプの絶対的方向を決定するように構成されたプロセッサをさらに備えるＣ５に記載の装置。
[Ｃ７] 前記ユーザインタフェースは、前記ユーザの動きを検知するように構成された１つ以上の超音波トランスデューサを含むＣ１に記載の装置。
[Ｃ８] 前記超音波トランスデューサは、前記装置の周囲に沿って配置されるＣ７に記載の装置。
[Ｃ９] 超音波信号を出すように構成されたスピーカ配列と、
前記超音波信号に応答してマイク信号を生成する複数のマイクを含むポータブル機器と、
前記マイク信号に基づいて前記ユーザの動きを検知するように構成されたプロセッサと、をさらに備えるＣ１に記載の装置。
[Ｃ１０] 前記プロセッサは、前記マイク信号に基づいて前記ポータブル機器の方位を決定するようにも構成されるＣ９に記載の装置。
[Ｃ１１] 超音波信号を出すように構成されたスピーカ配列を含むポータブル機器と、
前記超音波信号に応答してマイク信号を生成する複数のマイクと、
前記マイク信号に基づいて前記ユーザの動きを検知するように構成されたプロセッサと、をさらに備えるＣ１に記載の装置。
[Ｃ１２] 前記プロセッサは、前記マイク信号に基づいて前記ポータブルデバイスの前記方位を決定するようにも構成されるＣ１１に記載の装置。
[Ｃ１３] 装置であって、
ユーザの周囲の空間において音声で認識可能である複数の音声キューを生成するための手段であって、前記音声キューの各々は、前記空間内のその他の音声キューと別個の位置において指向性音として前記ユーザによって認識されるために生成される手段と、
前記音声キューに反応して行われた、前記装置に対するユーザの動きを検知するための手段と、
前記ユーザの動きに基づいて前記音声キューのうちの少なくとも１つを選択するための手段と、を備える、装置。
[Ｃ１４] 前記音声キューのうちの１つ以上に前記ユーザの動きの方向をマッチさせるための手段をさらに備えるＣ１３に記載の装置。
[Ｃ１５] 前記検知手段によって検知された前記ユーザの動きに基づいて音声フィードバックキューを生成するための手段であって、前記音声フィードバックキューは、前記ユーザの動きの前記方向に対応するために前記ユーザの周囲の前記空間において音声で認識可能である手段、をさらに備えるＣ１３に記載の装置。
[Ｃ１６] 前記装置は、前記装置に含まれるタッチ画面全体における指向性スワイプを検知するための手段をさらに備えるＣ１３に記載の装置。
[Ｃ１７] 前記装置の方位を検知するための手段をさらに備えるＣ１３に記載の装置。
[Ｃ１８] 前記装置の前記方位にかかわらず、ユーザの指向性スワイプの絶対的方向を決定するための手段をさらに備えるＣ１７に記載の装置。
[Ｃ１９] 超音波センサを用いて前記ユーザの動きを検知するための手段をさらに備えるＣ１３に記載の装置。
[Ｃ２０] 超音波信号を出すための手段と、
前記超音波信号に応答してマイク信号を生成するための手段と、
前記マイク信号に基づいて前記ユーザの動きを検知するための手段と、をさらに備えるＣ１３に記載の装置。
[Ｃ２１] 前記マイク信号に基づいてポータブル機器の前記方位を決定するための手段をさらに備えるＣ２０に記載の装置。
[Ｃ２２] １つ以上のプロセッサによって実行可能である命令の組を具現化した非一時的なコンピュータによって読み取り可能な媒体であって、
ユーザの周囲の空間において音声で認識可能である複数の音声キューを生成するためのコードであって、前記音声キューの各々は、前記空間内のその他の音声キューと別個の位置において指向性音として前記ユーザによって認識されるために生成されるコードと、
前記音声キューに反応して行われた、ポータブル機器に対するユーザの動きを検知するためのコードと、
前記ユーザの動きに基づいて前記音声キューのうちの少なくとも１つを選択するためのコードと、を備える、非一時的なコンピュータによって読み取り可能な媒体。
[Ｃ２３] 前記音声キューのうちの１つ以上に前記ユーザの動きの方向をマッチさせるためのコードをさらに備えるＣ２２に記載のコンピュータによって読み取り可能な媒体。
[Ｃ２４] 検知されたユーザの動きに基づいて音声フィードバックキューを生成するためのコードをさらに備え、前記音声フィードバックキューは、前記ユーザの動きの前記方向に対応するために前記ユーザの周囲の前記空間において音声で認識可能であるＣ２２に記載のコンピュータによって読み取り可能な媒体。
[Ｃ２５] 前記ポータブル機器に含まれるタッチ画面全体における指向性スワイプを決定するためのコードをさらに備えるＣ２２に記載のコンピュータによって読み取り可能な媒体。
[Ｃ２６] 前記ポータブル機器の方位を検知するためのコードをさらに備えるＣ２２に記載のコンピュータによって読み取り可能な媒体。
[Ｃ２７] 前記ポータブル機器の前記方位にかかわらず、ユーザの指向性スワイプの絶対的方向を決定するためのコードをさらに備えるＣ２６に記載のコンピュータによって読み取り可能な媒体。
[Ｃ２８] 超音波センサを用いて前記ユーザの動きを検知するためのコードをさらに備えるＣ２２に記載のコンピュータによって読み取り可能な媒体。
[Ｃ２９] 超音波信号を出すためのコードと、
前記超音波信号に応答してマイク信号を生成するためのコードと、
前記マイク信号に基づいて前記ユーザの動きを検知するためのコードと、をさらに備えるＣ２２に記載のコンピュータによって読み取り可能な媒体。
[Ｃ３０] 前記マイク信号に基づいて前記ポータブル機器の前記方位を決定するためのコードをさらに備えるＣ２９に記載のコンピュータによって読み取り可能な媒体。
[Ｃ３１] 電子機器においてユーザインタフェースを提供する方法であって、
前記電子機器によって、ユーザの周囲の空間において音声で認識可能である複数の音声キューを生成することであって、前記音声キューの各々は、前記空間内のその他の音声キューと別個の位置において指向性音として前記ユーザによって認識されるために生成されることと、
前記電子機器は、前記音声キューに反応して行われた、前記電子機器に対するユーザの動きを検知することと、
前記ユーザの動きに基づいて前記音声キューのうちの少なくとも１つを選択することと、を備える、方法。
[Ｃ３２] 前記音声キューのうちの１つ以上に前記ユーザの動きの方向をマッチさせることをさらに備えるＣ３１に記載の方法。
[Ｃ３３] 検知されたユーザの動きに基づいて音声フィードバックキューを生成することをさらに備え、前記音声フィードバックキューは、前記ユーザの動きの前記方向に対応するために前記ユーザの周囲の前記空間において音声で認識可能であるＣ３１に記載の方法。
[Ｃ３４] 前記電子デバイスに含まれるタッチ画面全体における指向性スワイプを検知することをさらに備えるＣ３１に記載の方法。
[Ｃ３５] 前記電子デバイスの方位を検知することをさらに備えるＣ３１に記載の方法。
[Ｃ３６] 前記電子デバイスの前記方位にかかわらず、ユーザの指向性スワイプの絶対的方向を決定することをさらに備えるＣ３５に記載の方法。
[Ｃ３７] 超音波センサを用いて前記ユーザの動きを検知することをさらに備えるＣ３１に記載の方法。
[Ｃ３８] 超音波信号を出すことと、
前記超音波信号に応答してマイク信号を生成することと、
前記マイク信号に基づいて前記ユーザの動きを検知することと、をさらに備えるＣ３１に記載の方法。
[Ｃ３９] 前記マイク信号に基づいて前記電子機器の前記方位を決定することをさらに備えるＣ３８に記載の方法。

Claims

装置であって、
ユーザの周囲の空間において音声で認識可能である複数の音声キューを生成するための手段であって、前記音声キューの各々は、前記空間内のその他の音声キューと別個の位置において指向性音として前記ユーザによって認識されるために生成される手段と、
前記音声キューに反応して行われた、前記装置に対するユーザの動きを前記ユーザが前記装置に触らずに検知するための手段と、
前記ユーザの動きのベクトルと前記音声キューの位置との間の距離に基づいて前記音声キューのうちの少なくとも１つを選択するための手段と、
を備え、
前記ユーザの動きを前記ユーザが前記装置に触らずに検知するための手段は近接場動きセンサを備え、前記近接場動きセンサは、前記装置に対する前記ユーザの動きの方向を与える空間内動きベクトルを検知し、
前記音声キューのうちの少なくとも１つを選択するための手段は、前記ユーザの動きのベクトルと、前記音声キューの各々の位置とを、前記装置によって維持される仮想座標格子上にマッピングし、前記ユーザの動きのベクトルによって描かれたラインと、前記仮想座標格子内での前記音声キューの座標位置の各々と、の間の最小距離を算出するための手段を含む、装置。
前記検知手段によって検知された前記ユーザの動きに基づいて音声フィードバックキューを生成するための手段であって、前記音声フィードバックキューは、前記ユーザの動きの方向に対応するために前記ユーザの周囲の前記空間において音声で認識可能である手段、をさらに備える請求項１に記載の装置。
前記装置は、タッチ画面を含み、前記タッチ画面全体における指向性スワイプを検知するための手段をさらに備える請求項１に記載の装置。
前記近接場動きセンサの１つとしての超音波センサを用いて前記ユーザの動きを検知するための手段をさらに備える請求項１に記載の装置。
超音波信号を出すための手段と、
前記超音波信号に応答してマイク信号を生成するための手段と、
前記マイク信号に基づいて前記ユーザの動きを検知するための手段と、をさらに備え、
前記装置は、前記マイク信号の三角測量に基づいてポータブル機器の方位を決定するための手段をさらに備える請求項１に記載の装置。
前記音声キューの各々は、１つ以上の頭に関連する伝達関数フィルタを使用して生成される請求項１に記載の装置。
電子機器においてユーザインタフェースを提供する方法であって、
前記電子機器によって、ユーザの周囲の空間において音声で認識可能である複数の音声キューを生成することであって、前記音声キューの各々は、前記空間内のその他の音声キューと別個の位置において指向性音として前記ユーザによって認識されるために生成されることと、
前記電子機器は、前記音声キューに反応して行われた、前記電子機器に対するユーザの動きを前記ユーザが前記電子機器に触らずに検知することと、
前記ユーザの動きのベクトルと前記音声キューの位置との間の距離に基づいて前記音声キューのうちの少なくとも１つを選択することと、を備え、
前記ユーザの動きを前記ユーザが前記電子機器に触らずに検知することは、近接場動きセンサによって、前記電子機器に対する前記ユーザの動きの方向を与える空間内動きベクトルを検知することを備え、
前記音声キューのうちの少なくとも１つを選択することは、前記ユーザの動きのベクトルと、前記音声キューの各々の位置とを、前記電子機器によって維持される仮想座標格子上にマッピングし、前記ユーザの動きのベクトルによって描かれたラインと、前記仮想座標格子内での前記音声キューの座標位置の各々と、の間の最小距離を算出することを含む、方法。
検知されたユーザの動きに基づいて音声フィードバックキューを生成することをさらに備え、前記音声フィードバックキューは、前記ユーザの動きの方向に対応するために前記ユーザの周囲の前記空間において音声で認識可能である請求項７に記載の方法。
前記電子機器は、タッチ画面を含み、前記方法は、前記タッチ画面全体における指向性スワイプを検知することをさらに備える請求項７に記載の方法。
前記近接場動きセンサの１つとしての超音波センサを用いて前記ユーザの動きを検知することをさらに備える請求項７に記載の方法。
超音波信号を出すことと、
前記超音波信号に応答してマイク信号を生成することと、
前記マイク信号に基づいて前記ユーザの動きを検知することと、をさらに備え、
前記方法は、前記マイク信号の三角測量に基づいて前記電子機器の方位を決定することをさらに備える請求項７に記載の方法。
前記音声キューの各々は、１つ以上の頭に関連する伝達関数フィルタを使用して生成される請求項７に記載の方法。
請求項７〜請求項１２のいずれか１項に記載の方法を実施するためのコードを備えた、１つ以上のプロセッサによって実行可能な命令の組を具現化する非一時的なコンピュータによって読み取り可能な媒体。