JP6195843B2 - ジェスチャ制御音声ユーザインタフェース - Google Patents

ジェスチャ制御音声ユーザインタフェース Download PDF

Info

Publication number
JP6195843B2
JP6195843B2 JP2014547239A JP2014547239A JP6195843B2 JP 6195843 B2 JP6195843 B2 JP 6195843B2 JP 2014547239 A JP2014547239 A JP 2014547239A JP 2014547239 A JP2014547239 A JP 2014547239A JP 6195843 B2 JP6195843 B2 JP 6195843B2
Authority
JP
Japan
Prior art keywords
user
audio
voice
cue
cues
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014547239A
Other languages
English (en)
Other versions
JP2015506035A5 (ja
JP2015506035A (ja
Inventor
シャン、ペイ
ネルソン、フゥイ−ヤ・リャオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2015506035A publication Critical patent/JP2015506035A/ja
Publication of JP2015506035A5 publication Critical patent/JP2015506035A5/ja
Application granted granted Critical
Publication of JP6195843B2 publication Critical patent/JP6195843B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/1613Constructional details or arrangements for portable computers
    • G06F1/1633Constructional details or arrangements of portable computers not specific to the type of enclosures covered by groups G06F1/1615 - G06F1/1626
    • G06F1/1684Constructional details or arrangements related to integrated I/O peripherals not covered by groups G06F1/1635 - G06F1/1675
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/0346Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of the device orientation or free movement in a 3D space, e.g. 3D mice, 6-DOF [six degrees of freedom] pointers using gyroscopes, accelerometers or tilt-sensors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/0354Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of 2D relative movements between the device, or an operating part thereof, and a plane or surface, e.g. 2D mice, trackballs, pens or pucks
    • G06F3/03547Touch pads, in which fingers can move on a surface
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04815Interaction with a metaphor-based environment or interaction object displayed as three-dimensional, e.g. changing the user viewpoint with respect to the environment or object
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Stereophonic System (AREA)
  • Telephone Function (AREA)

Description

U.S.C.§119に基づく優先権の主張
本特許出願は、これの譲受人に対して譲渡されおり、ここにおける引用によってここにおいて明示で組み入れられている、“Multi-Sensor Controlled 3-D Audio Interface”(マルチセンサ制御3D音声インタフェース)という題名の米国仮特許出願第61/577,489号(出願日:2011年12月19日)に対する優先権を主張するものである。
本開示は、概して、人間と機械のインタフェースに関するものである。より具体的には、本開示は、ジェスチャに基づくインタフェースに関するものである。
スマート機器、例えば、スマート携帯電話、は、精巧なインタフェースをしばしば提供する。これらのインタフェース設計の多くは、タッチ画面及び視覚によるフィードバックに焦点が合わせられている。今日では、マルチなタッチ画面を有するスマート機器、例えば、iPhone及びiPad、が幅広く使用されておりかつ人気がある。タッチ画面は、非常に多様なインタフェースを提供し、ソフトウェアボタン、スライダ及び数多くの入力をユーザが取り扱うことで機器を制御する。しかしながら、幾つかの状況では、そのような詳細な視覚によるインタフェースは理想的でないことがある。例えば、車を運転しているときには、安全性が非常に重要であり、ユーザは機器でなく道路を見ているべきである。他の例は、ホータブルな機器で音楽を聞きながらのジョギングである。この状況では、ユーザは、歌の選択又はボリュームの調整のためにディスプレイの画面を見るのを要求されたくないであろう。
この概要は、すべての企図される実施形態の広範な概略ではなく、又、全実施形態の主要な又は非常に重要な要素を特定するわけではないこと、及びいずれの実施形態の適用範囲も詳述はせず及び全実施形態の適用範囲を詳述するわけではないことが意図される。それの唯一の目的は、後述されるより詳細な発明を実施するための形態の準備段階として、1つ以上の実施形態の幾つかの概念を簡略化された形で提示することである。
電子機器のための改良されたユーザインタフェースが開示される。ユーザインタフェースは、ユーザに提示された音声キュー(audio cue)をジェスチャに基づいて選択することを可能にする。音声キューは、ユーザの周囲の空間において音声で認識することが可能であり、音声キューの各々は、空間内のその他の音声キューと別個の位置における指向性音(directional sound)として認識することができる。特定の音声キューの選択は、電子機器に対して行われる1つ以上のユーザの動きに基づいて行われる。音声キューの選択は、電子機器及び/又はその他の関連機器の動作を制御するために使用することができる。
ここにおいて開示されるインタフェース技法の一態様により、ポータブルの電子機器を、ユーザによって認識される音声キューを提示し及び音声キューを選択するためのユーザのジェスチャを検知するように構成することができる。
他の態様により、装置は、回路と、ユーザインタフェースと、セレクタと、を含む。回路は、ユーザの周囲の空間において音声で認識可能である音声キューを生成するよう構成される。各々の音声キューは、空間内のその他の音声キューと別個の位置における指向性音としてユーザによって認識されるために生成される。ユーザインタフェースは、音声キューに反応して行われた、装置に対するユーザの動きを検知するように構成され、セレクタは、ユーザの動きに基づいて音声キューのうちの少なくとも1つを選択するように構成される。
さらなる態様により、装置は、ユーザの周囲の空間において音声で認識可能である音声キューを生成するための手段を含む。各々の音声キューは、空間内のその他の音声キューと別個の位置における指向性音としてユーザによって認識されるために生成される。装置は、音声キューに反応して行われた、装置に対するユーザの動きを検知するための手段と、ユーザの動きに基づいて音声キューのうちの少なくとも1つを選択するための手段とも含む。
さらなる態様により、1つ以上のプロセッサによって実行可能な命令の組を具現化するコンピュータによって読み取り可能な媒体は、ユーザの周囲の空間において音声で認識可能な音声キューを生成するためのコードを格納する。音声キューの各々は、空間内のその他の音声キューと別個の位置における指向性音としてユーザによって認識されるために生成される。媒体は、音声キューに反応して行われた、ポータブル機器に対するユーザの動きを検知するためのコード、及びユーザの動きに基づいて音声キューのうちの少なくとも1つを選択するためのコードも格納する。
さらなる態様により、電子機器においてユーザインタフェースを提供する方法は、ユーザの周囲の空間において音声で認識可能である音声キューを電子機器によって生成することを含む。各々の音声キューは、空間内のその他の音声キューと別個の位置における指向性音としてユーザによって認識されるために生成される。方法は、音声キューに反応して行われた、装置に対するユーザの動きを検知することと、ユーザの動きに基づいて音声キューのうちの少なくとも1つを選択することとも含む。
以下の図及び詳細な発明を実施するための形態を検討した時点で、その他の態様、特徴、及び利点が当業者に明らかになるであろう。すべての該追加の特徴、態様、及び利点はこの説明内に含まれており、添付される請求項によって保護されることが意図される。
図面は、例示することのみを目的とするものであることが理解されるべきである。さらに、図内のコンポーネントは、必ずしも一定の比率ではなく、ここにおいて説明される技法及び機器の原理を例示することが強調される。図内において、同様の参照数字は、異なる図全体を通じての対応する部分を示す。
ユーザの周囲の空間において提示される音声キューの組を例示する上から見た透視図であり、ユーザが手によるジェスチャでキューのうちの1つを選択している。 ユーザによるタッチ画面のスワイプを検知することによって音声キューを選択するように構成された典型的なポータブルの電子機器を例示した図である。 機器の近くでのユーザの動きを検知することによって音声キューを選択するように構成された典型的な電子機器を例示した図である。 ユーザによる機器の握りを検知することによって音声キューを選択するように構成された典型的なポータブルな電子機器を例示した図である。 システムによって生成された音声キューのユーザによる選択を検知するために静止機器の近傍においてポータブルな機器を採用する典型的なシステムを例示した図である。 ユーザによって選択された音声キューに基づいて機器を制御する典型的な方法のフローチャートを示す。 空間的音声キューを生成する典型的な方法のフローチャートを示す。 ユーザのジェスチャを検知した結果として空間的音声フィードバックキューを生成する典型的な方法のフローチャートを示す。 ユーザによって選択された空間的音声キューを検知するための典型的な装置の幾つかのコンポーネントを例示したブロック図である。 空間的音声キューを出力し、ユーザによって選択された空間的音声キューを検知し及び空間的音声フィードバックキューを出力するための典型的な装置の幾つかのコンポーネントを例示したブロック図である。 空間的音声キューを出力し、ユーザによって選択された空間的音声キューを検知し及び空間的音声フィードバックキューを出力するための第1の典型的なシステムの幾つかのコンポーネントを例示したブロック図であり、空間的な音声は有線のヘッドフォンを通じて出力される。 空間的音声キューを出力し、ユーザによって選択された空間的音声キューを検知し及び空間的音声フィードバックキューを出力するための第2の典型的なシステムの幾つかのコンポーネントを例示したブロック図であり、空間的な音声はサラウンドスピーカシステムを通じて出力される。 空間的音声キューを出力し、ユーザによって選択された空間的音声キューを検知し及び空間的音声フィードバックキューを出力するための第3の典型的なシステムの幾つかのコンポーネントを例示したブロック図であり、空間的な音声は1つ以上の無線スピーカ装置を通じて出力される。 空間的音声キューに反応しておこなわれたユーザの動きを検知するためのポータブル機器及び静止機器を採用する第1の典型的なシステムの幾つかのコンポーネントを例示したブロック図である。 空間的音声キューに反応しておこなわれたユーザの動きを検知するためのポータブル機器及び静止機器を採用する第2の典型的なシステムの幾つかのコンポーネントを例示したブロック図である。
以下の発明を実施するための形態は、図面を参照し及び組み入れており、1つ以上の特定の構成について説明及び例示するものである。これらの構成は、限定するためでなく具体例を示すため及び教示するためのみに提供されており、開示される事柄を当業者が実践するのを可能にする上で十分な詳細さで示され及び説明される。従って、簡潔さを目的として、本説明は、当業者にとって既知である一定の情報は省略してある。
語句“典型的な”は、“1つの例、事例、又は実例を提供すること”を意味するために本開示全体を通じて使用される。ここにおいて“典型的な”として説明されるいずれの事柄も、その他のアプローチ法又は特徴よりも好ましい又は有利であるとは必ずしも解釈されるべきではない。
概して、本開示は、空間的な音声ユーザインタフェースを視覚的なユーザインタフェースの代替として又は追加として有する電子機器について説明するものであり、例えば、ハンドヘルド機器を含む。空間的音声を用いることで、機器は、周囲の物理的空間内の特定の位置においてユーザによって認識される音声キューを生成する。音声キューは、二次元(2D)空間又は三次元(3D)空間内の異なる地点において提示及び配置することができる。2D又は3D空間は物理的空間であることが当業者によって理解されるべきである。音声キューは、貴重な情報、例えば、機器内の音楽ファイルの所在場所、等を表現することができる。ここでは、特定の空間的音声キューを選択するために、ジェスチャによって、例えば、タッチ画面をスワイプ(swipe)するか又はキューの方向を指し示すことによってそのキューを選択することができる。該ジェスチャを検知するために装備された機器は、異なるタイプのセンサを含むことができ、ユーザが空間的音声キューを聞いて選択することによって情報および機器をナビゲート及び制御するのを可能にする。
空間的音声は、視覚表示されるユーザインタフェース(UI)情報の代替環境を提供することができ、情報、例えば、階層的メニュー、メディアコンテンツのコレクションのインデックス、ナビゲーション用の仮想マップ、等を音声で提示することができる。空間的音声UIは、空間的音声を代替の提示環境として使用することができ、及び、該環境においてナビゲーションするために及び制御のための入力を行うために異なるタイプのセンサを利用することができる。
図1は、ポータブル電子機器によってユーザ12の周囲で空間的に提示される音声キュー18a乃至fの組を例示した、上から見た透視図である。示される例では、空間的音声キューは、ヘッドセット16を通じてユーザによって聞かれる。ユーザ12は、ヘッドセット16を通じて、音声キュー18a乃至fは示されるようにユーザの周囲に配置されているとして認識する。機器14は、音声キュー18a乃至fに反応して行われた、機器に対するユーザの動きを検知するように構成される。機器14は、ユーザの動きを検知して検知された動きを提示された音声キューのうちの1つ以上とマッチさせることによって、いずれの音声キューが選択されているかをユーザのジェスチャに基づいて決定することができる。このようにして、デバイス14は、ユーザ12がユーザの動き、例えば、手でのジェスチャによって音声キューを選択するのを可能にする。
ポータブル機器14は、ソフトウェアプログラミング及び/又はハードウェア設計を通じて、ここにおいて説明される機能を実行するように構成されたハンドヘルド機器、例えば、無線通信機器、例えば、スマートフォン、携帯電話、パーソナルデジタルアシスタント(PDA)、等、であることができる。機器14は、MP3プレーヤー、ゲーム機器、ラップトップコンピュータ、ノートパッドコンピュータ、パーソナルステレオ、ステレオシステム、等であることができる。機器14は、代替として、幾つかの配備では非ポータブル機器であることができる。
図2は、図1の機器14として使用することができる典型的なポータブル電子機器50を例示する。電子機器50は、機器50に含まれているタッチ画面52でのユーザのスワイプを検知することによって音声キューを選択するように構成される。ユーザは、電子機器50を手54で保持し、1本の指、例えば、親指56、を、タッチ画面上で音声キューを認識した方向にスワイプすることができる。機器52は、スワイプの方向を決定し、スワイプ方向を提示された音声キューのうちの1つ以上とマッチさせ、それによっていずれの音声キューをユーザが選択しているかを決定する。
機器50は、ポータブル機器の方位にかかわらず、タッチ画面におけるスワイプの絶対的方向を入手するための重力センサ及び/又はコンパスを含むこともできる。機器50は、ポケット内でのタッチ画面ジェスチャにとって有用である。
図1の機器14は、ポータブル機器に含まれている近接場センサ、例えば、超音波トランスデューサ、によってユーザのジェスチャを認識することによってユーザによって選択された音声キューを代替で/追加で決定することができる。該機器は図3に示され、典型的な電子機器100の近くでのユーザの動きを検知することによってユーザによって選択された音声キューを決定するように構成された電子機器100を例示する。機器100は、図1の機器14として使用することができる。機器は、表示画面102と、複数の近接場動きセンサ、例えば、超音波トランシーバ(示されていない)と、を含む。動きセンサは、機器100に対するユーザの動き、例えば、選択された音声によるキューの方向への手104の動き、を検知する。機器100は、センサデータから、ユーザの動きの方向を決定し、提示された音声キューのうちの1つ以上とその方向をマッチさせ、それによってユーザがいずれの音声キューを選択中であるかを決定する。
図1の機器14は、ポータブル機器に組み込まれている近距離タッチセンサでユーザのジェスチャを認識することによってユーザによって選択された音声キューを代替で/追加で決定することができる。該機器は、図4に示され、それは、ユーザによる機器150の握りを検知することによって音声キューを選択するように構成された典型的なポータブル電子機器150を例示する。機器150は、図1の機器14として使用することができる。機器は、機器の本体に取り付けられた複数のセンサ、例えば、誘導型センサ(示されていない)を含む。
センサは、ユーザによる機器150へのタッチを検知する。例えば、ユーザは、機器150を手で握り152、機器150の周囲の一定の位置に指を置く。機器150は、検知されたタッチ/握りから、選択された音声キューの方向を決定する。次に、機器150は、提示された音声によるキューのうちの1つ以上にその方向をマッチさせ、それによってユーザがいずれの音声キューを選択中であるかを決定する。
図1の機器14は、外部のスピーカ配列とポータブル機器に配置されたセンサとの間の超音波信号、赤外線信号、音声信号又は同様の無線信号の三角測量によってユーザが選択した音声キューを代替で/追加で決定することができ、このため、ポータブル機器の方位を決定することができる。このように、このアプローチ法を用いることによって、ユーザは、ポータブル機器で空間的音声キューの認識された方向を指し示すことができ、指し示す方位を検知することができ、このため、選択された音声キューをシステムによって識別することができる。
該システムは図5に示され、それは、静止機器202の近傍でポータブル機器204を採用する典型的なシステム200を例示する。システム200は、空間的音声キューを生成し、ユーザによる音声キューのうちの幾つかの選択を検知するように構成される。示される例では、静止機器202は、超音波信号を出すスピーカの配列を含む。ポータブル機器204は、超音波信号に応答してマイク信号を生成する複数のマイク(示されてない)を含む。システム200は、マイク信号に基づいて機器202、204に対するユーザの動きを検知するように構成されたプロセッサを含む。従って、ユーザは、ポータブル機器204を手206で握り、手を動かすことによって空間的音声キューのうちの1つ以上を選択することができる。
図6は、ユーザによって選択された音声キューに基づいて、機器、例えば、図1乃至5に示される機器14、50、100、150又はシステム200のうちのいずれか、を制御する典型的な方法のフローチャート250を示す。ボックス252において、電子機器は、ユーザの周囲の空間において音声で認識可能である音声キューを生成する。音声キューの各々は、空間内のその他の音声キューと別個の位置における指向性音としてユーザによって認識されるために生成される。
図7において描かれる方法と関係してさらに説明されるように、音声キューレンダリングエンジン654(図10)は、空間的音声キュー(SAC)生成器によって生成された空間的音声キューの位置及び音タイプ情報に基づいて音声出力信号を生成する。音声レンダリングエンジン654は、1つ以上の頭に関連する伝達関数(HRTF)フィルタを適用して音声信号を入力し及びそれらを処理することによって空間的音声キューの空間での動き及び局在化を実装する。知られているように、空間内の特定の地点から来たように思える2つの耳で聞こえる音を合成するために2つの耳に関する一対のHRTFを使用することができる。例えば、HRTFフィルタで音をフィルタリングし、時の経過に従って異なるHRTF係数を素早く内挿することによって音の連続的な動きを実装することができる。特定の位置から移動する又は発生する音声キューを認識するために空間的音声キュー生成器に関して提供された位置情報をHRTFフィルタに適用することができる。従って、聴く人がその聴く人の周囲の空間内を移動する空間的音声キューを表現する音声出力を認識するようにSAC生成器からの空間的音声キューをレンダリングすることができる。
ボックス254において、電子機器は、空間的音声キューに反応して行われた、電子機器に対するユーザの動きを検知する。空間的音声キューによって展開された選択肢を聞いた後は、ユーザは、異なる方法で選択を行うことができる。音声キューの選択を行う際のユーザの動きを検知するために次の方法のうちのいずれか又はそれらの組み合わせを使用することができる。
1.ポケット内タッチ画面ジェスチャ:この方法は、例えば、図2に示されるようにタッチ画面を使用する。この方法は、ユーザがタッチ画面を見る必要がないため“ポケット内”と呼ばれ、“ポケット内”、すなわち、ユーザの視界外で行うことができる。ポケット内選択では、1本以上の指が機器のタッチ画面に触れてスワイプし、空間内の方向が示される。スワイプ方向は、スワイプの方向に沿ってメニュー項目(空間的音声キュー)が選択されることを示す。メニュー項目は、空間内の別個の指向性音としてユーザによって認識可能な空間的音声キューとして提示される。このため、ユーザは、キューを聞き次第、選択するためにキューの認識された位置の方にスワイプすることができる。このスワイプ方向は、調整センサ、例えば、機器内に含まれている重力センサ及びコンパス、によってより正確にすることができる。これらのセンサがスワイプ行動を補正することによって、ハンドヘルド機器の方位にかかわらず、絶対的なスワイプ方向を得ることができる。
2.超音波ジェスチャ:機器内の超音波トランスデューサ(送信機と受信機の両方)によって、ユーザが機器に触らずにジェスチャを認識することができる。この方法の一例が図3に示される。機器の近傍における1つの地点から他の地点への手のジェスチャを超音波センサによって検知することができ、ユーザの手によるジェスチャの方向を与える空間内動きベクトルを示すことができる。ベクトルの方位は、希望される空間的な音声によるキューの選択を指し示し、機器の動作をさらに制御するための選択イベントをトリガすることができる。
3.近距離タッチ検知:近距離検知技法は、誘導型タッチセンサを使用することができ、このため、ハンドヘルド機器は、機器のどの部分が握られており及び触れられているかを検知することができる。例えば、機器の縁に沿って超音波センサを配置することができ、このため、機器のどこに触れられていても、強力な超音波エコーとして検知され、それがどのように触れられており及び握られているかを示すマップが機器の周囲において作製される。該タッチ情報を用いることで、特定の音声キューに対応するユーザの握りを検知するために触れられているポイント及び縁を連続的にモニタリングすることができる。さらに、タッチ/握り情報を音声空間内で音波化することができ、空間的音声キューとしてユーザに提示されたメニュー/コンテンツ選択情報と音声的にオーバーレイすることができる。1回又は複数回の軽打、又は指圧が例えば、ユーザの“マウスのクリック”による選択を示すことができる。この方法を使用するように構成された機器の例が図4に示される。
4.アクセサリ補助選択:空間的音声キューを提示するために使用される音声空間は、空間的にフィルタリングされたヘッドフォン信号又はステレオスピーカ又はスピーカの配列を有するフィールド内で生成された仮想空間として実現することができる。組み込み式超音波トランスデューサを有する小型のスピーカ配列等の機器の場合、システムは。例えば、超音波三角測量を用いて位置及びユーザインタフェース動作を正確に決定することができる。上述される超音波ジェスチャ法に関して使用されるアルゴリズムと類似のそれらを用いてジェスチャを検知するためにスピーカ配列における複数のマイク及びスピーカを使用することができる。例えば、それらの配列は、指し示している物体、例えば、指し示している指又は機器の位置を検知するために使用することができる。超音波マイク信号から導き出された位置情報は、ユーザによる音声キューの選択を決定するために使用することができる。この方法を使用するように構成されたデバイスの例が図5に示される。
一例として、この技法では、ユーザは、超音波マイクを有する自己のポータブル機器を指し示すことができ、スピーカ配列装置がスピーカを通じて超音波信号を出す。スピーカと機器のマイクの間での三角測量によって、ハンドヘルド機器の方位を算出することができる。代替配備では、ハンドヘルド機器は、超音波送信機を有することができ、スピーカ配列は、三角測量決定を完遂させるために機器からの超音波送信を聴くための1つ以上のマイクを有することができる。ポータブル機器の指し示す方向はこのようにして決定することができる。ユーザによる音声キューの選択を決定するために、機器の検知された指向方向と提示中の空間的音声キューの位置とのマッチングを行うことができる。
スピーカ配列装置は、ハンドヘルド機器に配線するか又は機器と無線通信することができる。この構成では、ユーザインタフェース処理は、配列及び/又はハンドヘルド機器上で行うことができる。シグナリング/センサ周波数範囲は超音波には限定されない。例えば、代替構成では、複数のマイク技術によるオーディオサウンドを使用することができる。しかしながら、この構成では、ユーザは、局在化及び方向の決定のために使用することが意図される音を聞くことができる。
ボックス256において、機器は、ユーザがどの音声キューを選択したかを決定するために検知されたユーザの動きを解析する。検知された動きは、ユーザの動き又はジェスチャの方向を決定するために解析することができる。動き又はジェスチャの方向は、機器によって維持される仮想座標格子上にベクトルとしてマッピングすることができる。機器は、各々の提示された音声キューの位置を座標格子上にマッピングする。ジェスチャベクトルによって描かれたラインと仮想座標系内での音声キューの座標位置の各々との間の最小距離を計算することができる。ラインに最も近い音声キュー、例えば、最小距離が最も小さい距離を有するそれ、は、選択された空間的音声キューとして決定される。このようにして、ユーザの動きの方向は、提示された音声キューのうちの1つ以上とマッチさせることができ、それによって選択された音声キューが示される。調整センサ、例えば、デバイスに含まれる重力センサ及びコンパス、からのデータを使用することによって絶対的ジェスチャ方向を決定することができる。ジェスチャ中の機器の方位を与えるこれらのセンサからのデータを使用することで、ジェスチャベクトルの座標を変換することによってユーザのジェスチャの絶対的方向を得ることができる。この方法により、ハンドヘルド機器の方位にかかわらずジェスチャの絶対的方向を決定することができる。
ボックス258において、検知されたユーザの動きに基づいて、空間的音声フィードバックキューが機器によって生成される。空間的音声フィードバックキューは、検知されたユーザの動きの方向に対応するためにユーザの周囲の空間において音で認識できるようにするために生成される。図8によって描かれる方法と関連させてさらに説明されるように、音声フィードバックキューレンダリングエンジン660(図10)は、フィードバック空間的音声キュー(FSAC)生成器によって生成された空間的音声フィードバックキュー位置及び音タイプの情報に基づいて音声出力信号を生成する。音声フィードバックキューレンダリングエンジン660は、1つ以上のHRTFフィルタを入力音声信号に適用してそれらを処理することによって音声フィードバック出力の空間的動き及び局在化を実装する。例えば、HRTFフィルタで音をフィルタリングし、時の経過に従って異なるHRTF係数を素早く内挿することによって音の連続的な動きを実装することができる。空間的フィードバック音声キューのために提供された位置情報をHRTFフィルタに適用することで、特定の位置から移動する又は発する音声フィードバックキューの認識を生成することができる。従って、聴く人が周囲の空間内を移動するとしてフィードバック音声出力を認識するようにFSAC生成器からの空間的フィードバック音声キューをレンダリングすることができる。
ボックス260において、ユーザによって選択された空間的音声キューによって機器の動作に影響を与える及び/又は制御することができる。例えば、選択された音声キューに応答して、機器は、ある曲を再生のために選択すること、停止させること、ボリュームを上げること、あるビデオを再生すること、等を行うことができる。これを完遂させるために、ユーザによって選択されたと決定された空間的音声キューに基づいて1つ以上の制御信号が機器によって生成され、それは、提示された空間的音声キューに反応して行われた検知されたユーザのジェスチャに基づく。
図7は、空間的音声キューを生成する典型的な方法のフローチャート300を示す。ブロック304において、空間的音声キューを示す音声メニューがアプリケーションから空間的音声キュー(SAC)生成器に送信される。メニューは、音声キュー、及び各空間的音声キューと関連付けられた位置及び音のタイプを識別する。位置は、システムによって維持される仮想座標格子内の2D又は3Dの座標位置であることができる。SAC生成器は、図10に示されるように、音声キューレンダリングエンジン654の一部としてソフトウェア内に実装することができる。
ブロック306において、SAC生成器は、音声メニューを空間的音声キューに変換する。各空間的音声キューは、聴く人の空間内の特定の位置に対応する。特定のメニュー項目に関して選択される空間的音声キューは、聴く人の空間内の複数の位置に対応する空間的音声キューから選択することができる。空間的音声キューの各々は、聴く人の空間内の各々の個別の位置に対応する。
ブロック308において、音声レンダリングエンジン、例えば、図10の音声キューレンダリングエンジン654は、空間的音声キューに対応する1つ以上の音源を音声素材データベース656からフェッチする。各音源は、デジタル化された音声のスニペット(snippet)を格納する音声ファイルであることができる。格納された音源は、入力音声信号として音声キューレンダリングエンジン654に提供される音声摘要、録音された音、合成された音、等のデータベース656内に格納することができる(図10)。音源は、異なる音声形式、例えば、MIDI、MP3、AAC、WAVファイル、等で格納することができる。音声キューレンダリングエンジン654は、音声出力コンポーネントによって再生することができる該当する形式に音源を変換することができる。音源の形式は、音声キューレンダリングエンジン654によって処理される前は非圧縮パルスコード変調(PCM)データであることができる。MIDI、MP3、AAC、WAV又はその他の形式である音源は、音声キューレンダリングエンジン654によってPCMデータに復号することができる。PCMデータは、例えば、HRTFフィルタを用いて音声キューレンダリングエンジン654によってフィルタリングされる。出力された音源が聴く人によって認識される特定の位置は、HRTFフィルタに適用される空間的音声キュー情報の設計によって決まる。
判断ブロック310において、音声キューレンダリングエンジン654は、空間的音声キューがレンダリングされるべき対象となる音声出力デバイスのタイプを決定する。ここにおいて開示される例では、音声出力デバイスは、ヘッドセット、サラウンドスピーカシステム、又は無線スピーカシステムであることができる。
音声出力デバイスがヘッドセットである場合は、方法はブロック312に進み、音声キューレンダリングエンジン654及び関連付けられた音声処理回路657、664(図10)は、空間的音声キューを、ヘッドフォンに基づく空間的音声出力信号としてレンダリングする。レンダリングすることは、デジタル音声のデジタル−アナログ(D/A)変換、増幅、フィルタリング、空間フィルタリング、例えば、HRTFフィルタリング、及びヘッドフォンを用いて空間音声キューを提示するために必要なその他のあらゆる音声処理を含むことができる。ブロック314において、空間音声出力信号は、ヘッドセット内のヘッドフォンスピーカに出力される。
音声出力デバイスがサラウンドサウンドスピーカシステムである場合は、方法はブロック316に進み、音声キューレンダリングエンジン654及び関連付けられた音声処理回路657、664(図10)は、空間的音声キューを、マルチチャネル空間的音声出力信号としてレンダリングする。レンダリングすることは、デジタル音声のD/A変換、増幅、フィルタリング、空間フィルタリング、例えば、HRTFフィルタリング、及びヘッドフォンを用いて空間音声キューを提示するために必要なその他のあらゆる音声処理を含むことができる。ブロック318において、空間音声出力信号は、サラウンドサウンドスピーカに出力される。
音声出力デバイスが1つ以上の無線オーディオスピーカである場合は、方法はブロック320に進み、音声キューレンダリングエンジン654及び関連付けられた音声処理回路657、664(図10)は、空間的音声キューを、1つ以上の無線チャネルでの送信に適したデジタル化された空間出力信号としてレンダリングする。レンダリングすることは、増幅、フィルタリング、空間フィルタリング、例えば、HRTFフィルタリング、及び無線音声チャネルを用いて空間的音声キューを提示するために必要なその他のあらゆる音声処理を含むことができる。ブロック322において、デジタル化された空間音声出力信号が無線チャネルを通じて出力される。
図8は、ユーザのジェスチャを検知した結果として空間的音声フィードバックキューを生成する典型的な方法のフローチャート400を示す。ブロック402において、検知されたユーザの動きを識別する信号がユーザインタフェースからフィードバック空間的音声キュー(FSAC)生成器に送信される。FSAC生成器は、図10の音声フィードバックキューレンダリングエンジン660の一部としてソフトウェア内に実装することができる。ユーザ動き信号は、ユーザの動きの位置及び方向を識別する。位置は、システムによって維持される仮想座標格子内の2D又は3D座標位置であることができ、方向は、座標格子内の方向又はベクトルを識別する2D又は3D座標を含むことができる。ユーザ動き信号は、システムによって提示されるべき1つ以上のフィードバック空間的音声キューと関連付けられた位置、方向及び音のタイプを選択するために使用される。
ブロック404において、FSAC生成器は、ユーザ動き信号を1つ以上のフィードバック空間的音声キューに変換する。各音声フィードバックキューは、ユーザ動き信号によって識別された、聴く人の空間内の特定の位置に対応する。特定のユーザの動きに関して選択された音声フィードバックキューは、動きの検知された方向に対応することができる。幾つかの構成では、検知されたユーザのジェスチャの結果として単一の空間的音声フィードバックキューのみが生成される。その他の構成では、検知されたユーザの動きに関して複数の空間的音声フィードバックキューを生成することができる。複数の音声フィードバックキューは、順に又は同時に提示することができ、このため、ユーザの動きを追跡するために数多くの音声キューが生成され、これらのキューは位置及び時空間において非常に密であるため連続した音声イベントとして認識することができる。
ブロック406において、音声フィードバックキューレンダリングエンジン、例えば、図10の音声キューレンダリングエンジン660は、音声フィードバックキューに対応する音源を音声フィードバック素材データベース662からフェッチする。各音源は、デジタル化された音声のスニペットを格納する音声ファイルであることができる。フェッチされる特定の音源は、ユーザインタフェースからのユーザ動き信号によって示される音タイプフィールドから決定することができる。格納された音源は、入力音声信号として音声キューレンダリングエンジン660に提供される音声摘要、録音された音、合成された音、等のデータベース662内に格納することができる。音源は、異なる音声形式、例えば、MIDI、MP3、AAC、WAVファイル、等で格納することができる。音声フィードバックキューレンダリングエンジン660は、音声出力コンポーネントによって再生することができる該当する形式に音源を変換することができる。音源の形式は、音声フィードバックキューレンダリングエンジン660によって処理される前は非圧縮パルスコード変調(PCM)データであることができる。MIDI、MP3、AAC、WAV又はその他の形式である音源は、音声フィードバックキューレンダリングエンジン660によってPCMデータに復号することができる。PCMデータは、例えば、HRTFフィルタを用いて音声フィードバックキューレンダリングエンジン660によってフィルタリングされる。出力された音源が聴く人によって認識される特定の位置は、HRTFフィルタに適用される空間的音声キュー情報の設計によって決まる。
判断ブロック408において、音声フィードバックキューレンダリングエンジン660は、音声フィードバックキューがレンダリングされるべき対象となる音声出力デバイスのタイプを決定する。ここにおいて開示される例では、音声出力デバイスは、ヘッドセット、サラウンドスピーカシステム、又は無線スピーカシステムであることができる。
音声出力デバイスがヘッドセットである場合は、方法はブロック410に進み、音声フィードバックキューレンダリングエンジン660及び関連付けられた音声処理回路657、664(図10)は、空間的音声フィードバックキューを、ヘッドフォンに基づく空間音声出力信号としてレンダリングする。レンダリングすることは、デジタル音声のD/A変換、増幅、フィルタリング、空間フィルタリング、例えば、HRTFフィルタリング、及びヘッドセットを用いてフィードバック音声キューを提示するために必要なその他のあらゆる音声処理を含むことができる。ブロック412において、空間的音声フィードバック出力信号は、ヘッドセット内のヘッドフォンスピーカに出力される。
音声出力デバイスがサラウンドサウンドスピーカシステムである場合は、方法はブロック414に進み、音声フィードバックキューレンダリングエンジン660及び関連付けられた音声処理回路657、664(図10)は、空間的音声フィードバックキューを、マルチチャネル空間的音声出力信号としてレンダリングする。レンダリングすることは、デジタル音声のD/A変換、増幅、フィルタリング、空間フィルタリング、及びサラウンドサウンドスピーカシステムを用いてフィードバック空間的音声キューを提示するために必要なその他のあらゆる音声処理を含むことができる。ブロック416において、空間的音声フィードバック出力信号は、サラウンドサウンドスピーカに出力される。
音声出力デバイスが1つ以上の無線オーディオスピーカである場合は、方法はブロック418に進み、音声フィードバックキューレンダリングエンジン660及び関連付けられた音声処理回路657、664(図10)は、空間的音声フィードバックキューを、1つ以上の無線チャネルでの送信に適したデジタル化された空間出力信号としてレンダリングする。レンダリングすることは、増幅、フィルタリング、空間フィルタリング、及び無線音声チャネルを用いてフィードバック空間音声キューを提示するために必要なその他のあらゆる音声処理を含むことができる。ブロック420において、デジタル化された空間的音声フィードバック出力信号が無線チャネルを通じて出力される。
図9は、ユーザによって選択された空間的音声キューを検知するための典型的な装置500の幾つかのコンポーネントを例示したブロック図である。装置500は、図1乃至5に示される機器14、50、100、150又はシステム200のうちのいずれかに含めることができる。装置500は、音声出力回路520と、ユーザインタフェース(UI)524と、セレクタ522と、センサ526と、を含む。
音声出力回路520は、ユーザの周囲の空間において音で認識可能である空間的音声キューを生成するように構成される。これを完遂させるために、音声出力回路520は、音声信号をスピーカ528に出力し、それは、機器500の外部に示されているが、音声出力回路520内に含めることができる。スピーカ528は、音声信号を音声キューの空間音に変換する。各音声キューは、空間内のその他の音声キューと別個の位置において指向性音としてユーザによって認識されるために生成される。音声出力回路520は、空間的音声キューを表現する音声信号を出力するために図6のボックス252の機能及び/又は図7の方法を実装するハードウェアコンポーネント又はハードウェアコンポーネントとソフトウェアコンポーネントの組み合わせを含むことができる。
UI 524は、音声キューに反応して行われた、装置500に対するユーザの動きを検知するように構成される。UI 524は、タッチ画面及び/又はその他のセンサ、例えば、図2乃至5に関連して説明されるそれら、を含むことができる。ユーザの動きを検知するために、図6のボックス254の機能を実装するハードウェア又はハードウェアコンポーネントとソフトウェアコンポーネントの組み合わせを含むことができる。
セレクタ522は、検知されたユーザの動きに基づいて音声キューのうちの少なくとも1つを選択するように構成される。セレクタ522は、ユーザの動きの検知された方向を提示される音声キューのうちの1つ以上にマッチさせることによってこれを行うことができる。セレクタ522は、とりわけユーザの動きの方向を決定するためにUI 524からの検知された動きを解析する。これを完遂するために、セレクタ522は、図6のボックス256の機能を実装するハードウェア又はハードウェアコンポーネントとソフトウェアコンポーネントの組み合わせを含むことができる。
音声出力回路520は、UI 524によって検知されたユーザの動きに基づいて1つ以上の空間的音声フィードバックキューを生成するようにさらに構成することができる。空間的音声フィードバックキューは、ユーザの動きの検知された方向に対応するためにユーザによって音で認識可能である。これを完遂するために、音声出力回路520は、空間的音声フィードバックキューを表現する音声信号を出力するために図6のボックス258の機能及び/又は図8の方法を実装するハードウェア又はハードウェアコンポーネントとソフトウェアコンポーネントの組み合わせを含むことができる。
センサ526は、装置500の方位を検知するための1つ以上のセンサを含む。センサ526は、例えば、重力センサ及び/又はコンパスを含むことができる。センサ出力、例えば、コンパス及び/又は重力センサ出力、は、図6のボックス256と関連させて説明されるように、装置500の方位にかかわらず、ユーザの動き、例えば、指向性スワイプ、の絶対的方向を決定するために使用することができる。
図10は、空間的音声キューを出力し、ユーザによって選択された空間的音声キューを検知し及び空間的音声フィードバックキューを出力するための典型的な装置650の幾つかのコンポーネントを例示したより詳細なブロック図である。装置650は、図1乃至5に示される機器14、50、100、150又はシステム200のうちのいずれかに含めることができる。装置650は、アプリケーション652と、ユーザジェスチャ検知器658と、音声出力回路520と、出力スピーカ528と、を含む。音声出力回路520は、音声キューレンダリングエンジン654と、音声素材データベース656と、サウンドミキサ657と、音声フィードバックキューレンダリングエンジン660と、音声フィードバック素材のデータベース662と、音声処理回路664と、を含む。
アプリケーション652は、音声メニューを生成する装置650で実行するソフトウェアアプリケーションであることができる。音声メニューは、1つ以上の空間的音声キューを識別し、アプリケーションから音声キューレンダリングエンジン654に含まれる空間的音声キュー(SAC)生成器に送信される。メニューは、空間的音声キュー及び各空間的音声キューと関連付けられた位置及び音のタイプを識別する。位置は、システムによって維持される仮想座標格子内の2D又は3Dの座標位置であることができる。
空間的音声キューは、ここにおける引用によってここに組み入れられている関連する米国特許出願第12/905,340号において記述されるように、階層的に構成し、タグポイントを用いて聴く人の空間内に提示することができる。
音声キューレンダリングエンジン654、音声フィードバックキューレンダリングエンジン660、音声素材データベース656、及び音声フィードバック素材データベース662の機能は、図7と関連させて上述されている。
ユーザジェスチャ検知器658は、UI 524と、セレクタ522と、センサ526と、を含むことができる。ユーザ動き信号は、ユーザジェスチャ検知器658によって、音声フィードバックキューレンダリングエンジン660に含まれているFSAC生成器に出力される。
サウンドミキサ657は、HRTFフィルタリングされたPCM音声を音声キュー及び音声フィードバックキューレンダリングエンジン654、660から受信し、様々な利得を適用するためのデジタル音声ミキシング技法、例えば、信号加重、を用いて信号をミックスする。この方法により、音声フィードバックキューは、提示された空間音声キュー群上に知覚的にオーバーレイすることができる。
音声処理回路664は、希望される音を生成するためにスピーカ528への入力として適した1つ以上の音声信号にミキサ出力を変換するためにオーディオサウンドミキサ657の出力に関して要求される音声処理を行う。処理は、デジタル音声のD/A変換、増幅、フィルタリング、平衡化、ステレオチャネル化、及びスピーカ528を用いて空間的音声キュー及びフィードバックキューを提示するために必要なその他の音声処理を含むことができる。
スピーカ528は、あらゆる適切な音トランスデューサであることができ、ここにおいて開示されるスピーカと、ヘッドセットと、サラウンドスピーカシステムと、無線スピーカシステムと、を含む。
音声キューレンダリングエンジン654、音声フィードバックキューレンダリングエンジン660、サウンドミキサ657、SAC生成器、FSAC生成器及びユーザジェスチャ検知器658及び音声処理回路664の少なくとも一部分は、プログラミングコードを実行する1つ以上のプロセッサによって実装することができる。プロセッサは、マイクロプロセッサ、例えば、ARM7、デジタル信号プロセッサ(DSP)、1つ以上の特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、複合プログラマブルロジックデバイス(CPLD)、ディスクリートロジック、又はそれらの適切な組み合わせであることができる。
図11は、空間的音声キューを出力し、ユーザによって選択された空間音声キューを検知し、及び空間的音声フィードバックキューを出力するための第1の典型的なシステム700の幾つかのコンポーネントを例示したブロック図であり、空間的音声は、有線ヘッドフォン704を通じて出力される。システムアーキテクチャ700は、図1乃至10に関連して上述される機器14、50、100、150、204、装置500、650の機能及び/又は方法を実装するように構成することができる。
システム700は、装置702、例えば、ポータブル電子メディアデバイス、及びヘッドセット704、を含む。装置702は、音声回路706と、プロセッサ708と、ユーザインタフェース(UI)710と、メモリ712と、1つ以上のセンサ714と、を含む。UI710は、1つ以上のセンサ720と、タッチ画面722と、を含む。
メモリ712は、図1乃至10と関連させてここにおいて開示される機能の多く、例えば、アプリケーション652の機能及び音声回路520のほとんどの機能、を実装するためにプロセッサ708によって実行可能なソフトウェア/ファームウェア及びデータを格納することができる。UI710は、センサ720、例えば、ここにおいて説明される超音波センサと、提示された空間的音声キューに反応して行われるユーザのジェスチャを検知するためのタッチ画面722と、を含むことができる。センサ714は、ここにおいて上述されるように、装置702の方位を決定するための重力センサとコンパスと、を含むことができる。
プロセッサ708は、マイクロプロセッサ、例えば、ARM7、デジタル信号プロセッサ(DSP)、1つ以上の特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、複合プログラマブルロジックデバイス(CPLD)、ディスクリートロジック、又はそれらの適切な組み合わせであることができる。
音声回路706は、ヘッドセット704への出力に適するように音声を処理するための音声ハードウェア及び/又はソフトウェアを含むことができる。例えば、音声回路706は、ヘッドセット704を駆動するためのマルチチャネルD/Aコンバータ(DAC)と、左チャネル増幅器と、右チャネル増幅器と、を含むことができる。増幅器は、ヘッドフォン高インピーダンス(HPH)増幅器であることができる。
図12は、空間的音声キューを出力し、ユーザによって選択された空間的音声キューを検知し、及び空間的音声フィードバックキューを出力するための第2の典型的なシステム750の幾つかのコンポーネントを例示したブロック図であり、空間的音声は、サラウンドスピーカシステム754を通じて出力される。システムアーキテクチャ750は、図1乃至10に関連して上述される機器14、50、100、150、204、装置500、650の機能及び/又は方法を実装するように構成することができる。
システム750は、装置752、例えば、ポータブル電子メディアデバイスと、サラウンドスピーカシステム754と、を含む。装置752は、音声回路756と、プロセッサ758と、ユーザインタフェース(UI)760と、メモリ762と、1つ以上のセンサ764と、を含む。UI760は、1つ以上のセンサ766と、タッチ画面768と、を含む。
メモリ762は、図1乃至10と関連させてここにおいて開示される機能の多く、例えば、アプリケーション652の機能及び音声回路520のほとんどの機能、を実装するためにプロセッサ758によって実行可能なソフトウェア/ファームウェア及びデータを格納することができる。UI760は、センサ766、例えば、ここにおいて説明される超音波センサと、提示された空間的音声キューに反応して行われるユーザのジェスチャを検知するためのタッチ画面768と、を含むことができる。センサ764は、ここにおいて上述されるように、装置752の方位を決定するための重力センサとコンパスと、を含むことができる。
プロセッサ758は、マイクロプロセッサ、例えば、ARM7、デジタル信号プロセッサ(DSP)、1つ以上の特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、複合プログラマブルロジックデバイス(CPLD)、ディスクリートロジック、又はそれらの適切な組み合わせであることができる。
音声回路756は、サラウンドスピーカシステム754への出力に適するように音声を処理するための音声ハードウェア及び/又はソフトウェアを含むことができる。例えば、音声回路756は、マルチチャネルD/Aコンバータ(DAC)と、フィルタと、チャネル増幅器と、を含むことができる。
サラウンドスピーカシステム206は、聴く人を物理的に囲う複数のスピーカ755を提供する。スピーカ755は、増幅器から出力された電子信号をそれぞれ音に変換するためのあらゆる適切な音声トランスデューサである。
図13は、空間的音声キューを出力し、ユーザによって選択された空間的音声キューを検知し、及び空間的音声フィードバックキューを出力するための第3の典型的なシステム800の幾つかのコンポーネントを例示したブロック図であり、空間的音声は、1つ以上の無線スピーカ装置804、806を通じて出力される。システムアーキテクチャ800は、図1乃至10に関連して上述される機器14、50、100、150、204、装置500、650の機能及び/又は方法を実装するように構成することができる。
システム800は、装置802、例えば、ポータブル電子メディアデバイスと、無線スピーカ装置804、806と、を含む。装置802は、音声回路808と、プロセッサ810と、ユーザインタフェース(UI)812と、メモリ814と、1つ以上のセンサ816と、を含む。UI812は、1つ以上のセンサ820と、タッチ画面822と、を含む。
メモリ814は、図1乃至10と関連させてここにおいて開示される機能の多く、例えば、アプリケーション652の機能及び音声回路520のほとんどの機能、を実装するためにプロセッサ810によって実行可能なソフトウェア/ファームウェア及びデータを格納することができる。UI812は、センサ820、例えば、ここにおいて説明される超音波センサと、提示された空間的音声キューに反応して行われるユーザのジェスチャを検知するためのタッチ画面822と、を含むことができる。センサ816は、ここにおいて上述されるように、装置802の方位を決定するための重力センサとコンパスと、を含むことができる。
プロセッサ810は、マイクロプロセッサ、例えば、ARM7、デジタル信号プロセッサ(DSP)、1つ以上の特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、複合プログラマブルロジックデバイス(CPLD)、ディスクリートロジック、又はそれらの適切な組み合わせであることができる。
音声回路808は、無線インタフェース818による無線送信に適するように音声を処理するための音声ハードウェア及び/又はソフトウェアを含むことができる。無線インタフェース818は、トランシーバを含み、無線スピーカ装置804、806との無線通信を提供する。あらゆる適切な無線技術を装置802とともに採用することができるが、無線インタフェース818は、アンテナと、Bluetooth(登録商標) RFトランシーバと、ベースバンドプロセッサと、プロトコルスタックと、必要な場合は装置802の音声回路808、プロセッサ810及びその他のコンポーネントに接続するためのハードウェアインタフェースとソフトウェアインタフェースと、を含む少なくともBluetoothコアシステムを提供する市販のBluetoothモジュールを含むことができる。
音声信号は、例えば、www.bluetooth.comにおいて入手可能なBluetooth仕様によって定義されるプロトコルを用いて、PCM音声として無線チャネルを通じてスピーカ装置804、806に送信することができる。Bluetooth仕様は、具体的な音声信号送信ガイドラインを提供する。特に、Bluetooth仕様は、Bluetoothネットワークを通じて高質のステレオ又はモノ音声を無線で配信するためのプロトコル及び手順を定義するAdvanced Audio Distribution Profile(A2DP)を提供する。A2DPは、システム800とともに使用することができる。
無線スピーカ装置804、806は、市販のBluetoothスピーカであることができる。各スピーカ装置804、806は、同装置の無線インタフェース818から送信された音声信号を受信するための無線インタフェース(示されてない)と、スピーカと、を含む。スピーカ装置804、806は、各々、D/Aコンバータ(DAC)と、音声増幅器(示されていない)と、スピーカ804、806での出力のためにPCM音声をアナログ音声信号に変換するためのその他の音声処理回路と、も含む。あらゆる適切な数のスピーカ装置を使用することができる。
図11乃至13にそれぞれ示される装置702、752及び802の機能及び特徴は、各々レンダリングされてフォーマット化されたヘッドセット704、サラウンドサウンドスピーカシステム754、及び無線スピーカ装置804、8076に空間音声出力信号を提供するめの複数の、任意選択可能な出力インタフェースを有するように構成された単一のデバイスに結合することができる。
図14は、空間的音声キューに反応して行われたユーザの動きを検知するためのポータブル機器854及び静止機器852を採用する第1の典型的なシステム850の幾つかのコンポーネントを例示したブロック図である。システムアーキテクチャ850は、図5乃至10に関連させて上述される機器202、204、装置500、650の機能及び/又は方法を実装するように構成することができる。
静止機器852は、超音波信号を出すように構成されたスピーカ856a−fの配列を含む。ポータブル機器854は、超音波信号に応答してマイク信号を生成するためのマイク858a−dを含む。システム850は、マイク信号に基づいてユーザの動きを検知するように構成される。システム850は、ポータブル機器854の方位を決定することができるようにするために、スピーカ配列856a−fとポータブル機器854のマイク858a−dとの間での超音波信号の三角測量によってユーザが選択した音声キューを決定する。2つのアンカーポイント、例えば、配列上の2つの送信機、の距離が知られている場合は、それらから遠隔機器までの距離は、信号を出して反響時間を測定することによって、又は、発信時間と同期させ、遠隔機器の受信時間に基づいて遅延を計算することによって、測定することができる。送信機から受信機までの絶対的時間遅延を測定できるときには標準的な三角測量が使用される。しかしながら、幾つかのシステムでは、送信機と受信機が独立しており、従って、(同じ機器の)受信機間の時間オフセットしか測定することができない。この場合は、送信機の位置を導き出すために機器内の追加の受信機が要求される。例えば、送信タイミングが受信機に知られているときに送信機の2D位置を得るためには2つの受信機が要求される。送信タイミングを受信機が知らないときには、3つの受信機が要求される。
従って、このアプローチ法を使用することで、ユーザは、空間的音声キューの認識された方向をポータブル機器で指し示すことができ、指し示す方位を検知することができるため、選択された音声キューをシステム850によって識別することができる。スピーカ配列856a−f及びマイク858a−dの代わりに該当するトランスデューサを用いることで超音波信号以外の信号を使用することができ、例えば、赤外線音声信号、等を使用することができる。
図15は、空間的音声キューに反応して行われたユーザの動きを検知するためのポータブル機器904及び静止機器902を含む第2の典型的なシステム900の幾つかのコンポーネントを例示したブロック図である。システムアーキテクチャ902は、図5乃至10に関連させて上述される機器202、204、装置500、650の機能及び/又は方法を実装するように構成することができる。
図14のシステム850とは対照的に、ポータブル機器904は、超音波信号を出すように構成されたスピーカ906a−dの配列を含み、静止機器902は、超音波信号に応答してマイク信号を生成する複数のマイク908a−fを含む。図14のシステム850と同様に、システム900は、マイク信号に基づいてユーザの動きを検知するように構成される。システム900は、ポータブル機器904の方位を決定することができるようにするために、スピーカ配列906a−dと静止機器902のマイク908a−fとの間での超音波信号の三角測量によってユーザが選択した音声キューを決定する。
システム850、900では、静止機器は、空間的音声インタフェースを提示し及び音声キューに反応したユーザの動きを解析している間にポータブル機器に関して静止しているだけでよい。その他の時点では、静止機器は静止している必要がない。
ここにおいて説明されるシステム及び装置は、1つ以上の複数の選択メニュー又はデータデータ選択の配列が視覚による画面の代わりに音声空間で音で聞こえる状態で提示されるようなコンポーネントを含むことができる。例えば、異なるジャンルの音楽、異なるアーティスト別に分類された音楽、又は携帯電話内の連絡先を、3D音声アルゴリズムを実行するヘッドフォンを着用しているユーザの“周囲に”空間配置することができる。
ここにおいて説明されるインタフェース技法は、少なくとも次の利点を提供する。すなわち、ユーザは、コマンドを入力するためにタッチ画面を見る必要がない、便利で楽しいハンドヘルド機器との新しい対話方法、幾つかの状況における安全性の向上、及び新しいゲーム。
ここにおいて説明されるシステム、装置、機器、ユーザインタフェース及びそれらの各々のコンポーネントの機能、及び方法のステップとモジュールは、ハードウェア、ソフトウェア/ファームウェアを実行するデジタルハードウェア、又はそれらのあらゆる適切な組み合わせにおいて実装することができる。ソフトウェア/ファームウェアは、1つ以上のデジタル回路、例えば、マイクロプロセッサ、DSP、埋め込み型コントローラ、又は知的所有権(intellectual property)(IP)コア、によって実行可能な命令(例えば、プログラミングコードセグメント)の組を有するプログラムであることができる。機能は、ソフトウェア/ファームウェア内に実装された場合は、1つ以上のコンピュータによって読み取り可能な媒体において命令又はコードとして格納することができる。コンピュータによって読み取り可能な媒体は、コンピュータ記憶媒体を含むことができる。記憶媒体は、コンピュータによってアクセスすることができるあらゆる利用可能な媒体であることができる。一例として、及び制限することなしに、該コンピュータによって読み取り可能な媒体は、RAM、ROM、EEPROM、CD−ROM又はその他の光ディスク記憶装置、磁気ディスク記憶装置、その他の磁気記憶デバイス、又は希望されるプログラムコードを命令又はデータ構造の形態で搬送又は格納するために使用することができ及びコンピュータによってアクセスすることができるその他の媒体、を備えることができる。ここにおいて用いられるときのディスク(disk及びdisc)は、コンパクトディスク(CD)(disc)と、レーザディスク(disc)と、光ディスク(disc)と、デジタルバーサタイルディスク(DVD)(disc)と、フロッピー(登録商標)ディスク(disk)と、blu−rayディスク(disc)と、を含み、ここで、diskは、通常は磁気的にデータを複製し、discは、レーザを用いて光学的にデータを複製する。上記の組み合わせも、コンピュータによって読み取り可能な媒体の適用範囲内に含められるべきである。
ユーザインタフェース、システム、デバイス、装置、コンポーネント及び方法の幾つかの例が開示されている。上記は例であり、可能な統合は、ここにおいて説明されるものに限定されない。さらに、これらの例に対する様々な変更が可能であり、ここにおいて提示される原理は、その他のシステムにも同様に応用することができる。例えば、ここにおいて開示される原理は、デバイス、例えば、パソコン、娯楽カウンセル(counsel)、ビデオゲーム、等に応用することができる。さらに、様々なコンポーネント及び/又は方法上のステップ/ブロックは、請求項の範囲を逸脱することなしに具体的に開示される配備以外のそれらで実装することができる。
従って、これらの教示に鑑みてその他の実施形態及び変更が当業者にとって容易に明らかになるであろう。従って、次の請求項は、上記の明細書及び添付図面と関連させてすべての該実施形態及び変更を網羅することが意図される。
以下に本願出願当初の特許請求の範囲を付記する。
[C1] 装置であって、
ユーザの周囲の空間において音声で認識可能である複数の音声キューを生成するように構成された回路であって、前記音声キューの各々は、前記空間内のその他の音声キューと別個の位置において指向性音として前記ユーザによって認識されるために生成される回路と、
前記音声キューに反応して行われた、前記装置に対するユーザの動きを検知するように構成されたユーザインタフェースと、
前記ユーザの動きに基づいて前記音声キューのうちの少なくとも1つを選択するように構成されたセレクタと、を備える、装置。
[C2] 前記セレクタは、前記音声キューのうちの1つ以上に前記ユーザの動きの方向をマッチさせるC1に記載の装置。
[C3] 前記回路は、前記ユーザインタフェースによって検知された前記ユーザの動きに基づいて音声フィードバックキューを生成するようにさらに構成され、前記音声フィードバックキューは、前記ユーザの動きの前記方向に対応するために前記ユーザの周囲の前記空間において音声で認識可能であるC1に記載の装置。
[C4] 前記装置は、タッチ画面をさらに備え、前記ユーザの動きは、前記装置の前記タッチ画面全体における指向性スワイプであるC1に記載の装置。
[C5] 前記装置の方位を検知するように構成された1つ以上のセンサをさらに備えるC1に記載の装置。
[C6] 前記センサからの出力に基づいて、前記装置の前記方位にかかわらず、ユーザの指向性スワイプの絶対的方向を決定するように構成されたプロセッサをさらに備えるC5に記載の装置。
[C7] 前記ユーザインタフェースは、前記ユーザの動きを検知するように構成された1つ以上の超音波トランスデューサを含むC1に記載の装置。
[C8] 前記超音波トランスデューサは、前記装置の周囲に沿って配置されるC7に記載の装置。
[C9] 超音波信号を出すように構成されたスピーカ配列と、
前記超音波信号に応答してマイク信号を生成する複数のマイクを含むポータブル機器と、
前記マイク信号に基づいて前記ユーザの動きを検知するように構成されたプロセッサと、をさらに備えるC1に記載の装置。
[C10] 前記プロセッサは、前記マイク信号に基づいて前記ポータブル機器の方位を決定するようにも構成されるC9に記載の装置。
[C11] 超音波信号を出すように構成されたスピーカ配列を含むポータブル機器と、
前記超音波信号に応答してマイク信号を生成する複数のマイクと、
前記マイク信号に基づいて前記ユーザの動きを検知するように構成されたプロセッサと、をさらに備えるC1に記載の装置。
[C12] 前記プロセッサは、前記マイク信号に基づいて前記ポータブルデバイスの前記方位を決定するようにも構成されるC11に記載の装置。
[C13] 装置であって、
ユーザの周囲の空間において音声で認識可能である複数の音声キューを生成するための手段であって、前記音声キューの各々は、前記空間内のその他の音声キューと別個の位置において指向性音として前記ユーザによって認識されるために生成される手段と、
前記音声キューに反応して行われた、前記装置に対するユーザの動きを検知するための手段と、
前記ユーザの動きに基づいて前記音声キューのうちの少なくとも1つを選択するための手段と、を備える、装置。
[C14] 前記音声キューのうちの1つ以上に前記ユーザの動きの方向をマッチさせるための手段をさらに備えるC13に記載の装置。
[C15] 前記検知手段によって検知された前記ユーザの動きに基づいて音声フィードバックキューを生成するための手段であって、前記音声フィードバックキューは、前記ユーザの動きの前記方向に対応するために前記ユーザの周囲の前記空間において音声で認識可能である手段、をさらに備えるC13に記載の装置。
[C16] 前記装置は、前記装置に含まれるタッチ画面全体における指向性スワイプを検知するための手段をさらに備えるC13に記載の装置。
[C17] 前記装置の方位を検知するための手段をさらに備えるC13に記載の装置。
[C18] 前記装置の前記方位にかかわらず、ユーザの指向性スワイプの絶対的方向を決定するための手段をさらに備えるC17に記載の装置。
[C19] 超音波センサを用いて前記ユーザの動きを検知するための手段をさらに備えるC13に記載の装置。
[C20] 超音波信号を出すための手段と、
前記超音波信号に応答してマイク信号を生成するための手段と、
前記マイク信号に基づいて前記ユーザの動きを検知するための手段と、をさらに備えるC13に記載の装置。
[C21] 前記マイク信号に基づいてポータブル機器の前記方位を決定するための手段をさらに備えるC20に記載の装置。
[C22] 1つ以上のプロセッサによって実行可能である命令の組を具現化した非一時的なコンピュータによって読み取り可能な媒体であって、
ユーザの周囲の空間において音声で認識可能である複数の音声キューを生成するためのコードであって、前記音声キューの各々は、前記空間内のその他の音声キューと別個の位置において指向性音として前記ユーザによって認識されるために生成されるコードと、
前記音声キューに反応して行われた、ポータブル機器に対するユーザの動きを検知するためのコードと、
前記ユーザの動きに基づいて前記音声キューのうちの少なくとも1つを選択するためのコードと、を備える、非一時的なコンピュータによって読み取り可能な媒体。
[C23] 前記音声キューのうちの1つ以上に前記ユーザの動きの方向をマッチさせるためのコードをさらに備えるC22に記載のコンピュータによって読み取り可能な媒体。
[C24] 検知されたユーザの動きに基づいて音声フィードバックキューを生成するためのコードをさらに備え、前記音声フィードバックキューは、前記ユーザの動きの前記方向に対応するために前記ユーザの周囲の前記空間において音声で認識可能であるC22に記載のコンピュータによって読み取り可能な媒体。
[C25] 前記ポータブル機器に含まれるタッチ画面全体における指向性スワイプを決定するためのコードをさらに備えるC22に記載のコンピュータによって読み取り可能な媒体。
[C26] 前記ポータブル機器の方位を検知するためのコードをさらに備えるC22に記載のコンピュータによって読み取り可能な媒体。
[C27] 前記ポータブル機器の前記方位にかかわらず、ユーザの指向性スワイプの絶対的方向を決定するためのコードをさらに備えるC26に記載のコンピュータによって読み取り可能な媒体。
[C28] 超音波センサを用いて前記ユーザの動きを検知するためのコードをさらに備えるC22に記載のコンピュータによって読み取り可能な媒体。
[C29] 超音波信号を出すためのコードと、
前記超音波信号に応答してマイク信号を生成するためのコードと、
前記マイク信号に基づいて前記ユーザの動きを検知するためのコードと、をさらに備えるC22に記載のコンピュータによって読み取り可能な媒体。
[C30] 前記マイク信号に基づいて前記ポータブル機器の前記方位を決定するためのコードをさらに備えるC29に記載のコンピュータによって読み取り可能な媒体。
[C31] 電子機器においてユーザインタフェースを提供する方法であって、
前記電子機器によって、ユーザの周囲の空間において音声で認識可能である複数の音声キューを生成することであって、前記音声キューの各々は、前記空間内のその他の音声キューと別個の位置において指向性音として前記ユーザによって認識されるために生成されることと、
前記電子機器は、前記音声キューに反応して行われた、前記電子機器に対するユーザの動きを検知することと、
前記ユーザの動きに基づいて前記音声キューのうちの少なくとも1つを選択することと、を備える、方法。
[C32] 前記音声キューのうちの1つ以上に前記ユーザの動きの方向をマッチさせることをさらに備えるC31に記載の方法。
[C33] 検知されたユーザの動きに基づいて音声フィードバックキューを生成することをさらに備え、前記音声フィードバックキューは、前記ユーザの動きの前記方向に対応するために前記ユーザの周囲の前記空間において音声で認識可能であるC31に記載の方法。
[C34] 前記電子デバイスに含まれるタッチ画面全体における指向性スワイプを検知することをさらに備えるC31に記載の方法。
[C35] 前記電子デバイスの方位を検知することをさらに備えるC31に記載の方法。
[C36] 前記電子デバイスの前記方位にかかわらず、ユーザの指向性スワイプの絶対的方向を決定することをさらに備えるC35に記載の方法。
[C37] 超音波センサを用いて前記ユーザの動きを検知することをさらに備えるC31に記載の方法。
[C38] 超音波信号を出すことと、
前記超音波信号に応答してマイク信号を生成することと、
前記マイク信号に基づいて前記ユーザの動きを検知することと、をさらに備えるC31に記載の方法。
[C39] 前記マイク信号に基づいて前記電子機器の前記方位を決定することをさらに備えるC38に記載の方法。

Claims (13)

  1. 装置であって、
    ユーザの周囲の空間において音声で認識可能である複数の音声キューを生成するための手段であって、前記音声キューの各々は、前記空間内のその他の音声キューと別個の位置において指向性音として前記ユーザによって認識されるために生成される手段と、
    前記音声キューに反応して行われた、前記装置に対するユーザの動きを前記ユーザが前記装置に触らずに検知するための手段と、
    前記ユーザの動きのベクトルと前記音声キューの位置との間の距離に基づいて前記音声キューのうちの少なくとも1つを選択するための手段と、
    を備え、
    前記ユーザの動きを前記ユーザが前記装置に触らずに検知するための手段は近接場動きセンサを備え、前記近接場動きセンサは、前記装置に対する前記ユーザの動きの方向を与える空間内動きベクトルを検知
    前記音声キューのうちの少なくとも1つを選択するための手段は、前記ユーザの動きのベクトルと、前記音声キューの各々の位置とを、前記装置によって維持される仮想座標格子上にマッピングし、前記ユーザの動きのベクトルによって描かれたラインと、前記仮想座標格子内での前記音声キューの座標位置の各々と、の間の最小距離を算出するための手段を含む、装置。
  2. 前記検知手段によって検知された前記ユーザの動きに基づいて音声フィードバックキューを生成するための手段であって、前記音声フィードバックキューは、前記ユーザの動きの方向に対応するために前記ユーザの周囲の前記空間において音声で認識可能である手段、をさらに備える請求項1に記載の装置。
  3. 前記装置は、タッチ画面を含み、前記タッチ画面全体における指向性スワイプを検知するための手段をさらに備える請求項1に記載の装置。
  4. 前記近接場動きセンサの1つとしての超音波センサを用いて前記ユーザの動きを検知するための手段をさらに備える請求項1に記載の装置。
  5. 超音波信号を出すための手段と、
    前記超音波信号に応答してマイク信号を生成するための手段と、
    前記マイク信号に基づいて前記ユーザの動きを検知するための手段と、をさらに備え、
    前記装置は、前記マイク信号の三角測量に基づいてポータブル機器の方位を決定するための手段をさらに備える請求項1に記載の装置。
  6. 前記音声キューの各々は、1つ以上の頭に関連する伝達関数フィルタを使用して生成される請求項1に記載の装置。
  7. 電子機器においてユーザインタフェースを提供する方法であって、
    前記電子機器によって、ユーザの周囲の空間において音声で認識可能である複数の音声キューを生成することであって、前記音声キューの各々は、前記空間内のその他の音声キューと別個の位置において指向性音として前記ユーザによって認識されるために生成されることと、
    前記電子機器は、前記音声キューに反応して行われた、前記電子機器に対するユーザの動きを前記ユーザが前記電子機器に触らずに検知することと、
    前記ユーザの動きのベクトルと前記音声キューの位置との間の距離に基づいて前記音声キューのうちの少なくとも1つを選択することと、を備え、
    前記ユーザの動きを前記ユーザが前記電子機器に触らずに検知することは、近接場動きセンサによって、前記電子機器に対する前記ユーザの動きの方向を与える空間内動きベクトルを検知することを備え、
    前記音声キューのうちの少なくとも1つを選択することは、前記ユーザの動きのベクトルと、前記音声キューの各々の位置とを、前記電子機器によって維持される仮想座標格子上にマッピングし、前記ユーザの動きのベクトルによって描かれたラインと、前記仮想座標格子内での前記音声キューの座標位置の各々と、の間の最小距離を算出することを含む、方法。
  8. 検知されたユーザの動きに基づいて音声フィードバックキューを生成することをさらに備え、前記音声フィードバックキューは、前記ユーザの動きの方向に対応するために前記ユーザの周囲の前記空間において音声で認識可能である請求項に記載の方法。
  9. 前記電子機器は、タッチ画面を含み、前記方法は、前記タッチ画面全体における指向性スワイプを検知することをさらに備える請求項に記載の方法。
  10. 前記近接場動きセンサの1つとしての超音波センサを用いて前記ユーザの動きを検知することをさらに備える請求項に記載の方法。
  11. 超音波信号を出すことと、
    前記超音波信号に応答してマイク信号を生成することと、
    前記マイク信号に基づいて前記ユーザの動きを検知することと、をさらに備え、
    前記方法は、前記マイク信号の三角測量に基づいて前記電子機器の方位を決定することをさらに備える請求項に記載の方法。
  12. 前記音声キューの各々は、1つ以上の頭に関連する伝達関数フィルタを使用して生成される請求項に記載の方法。
  13. 請求項請求項12のいずれか1項に記載の方法を実施するためのコードを備えた、1つ以上のプロセッサによって実行可能な命令の組を具現化する非一時的なコンピュータによって読み取り可能な媒体。
JP2014547239A 2011-12-19 2012-11-01 ジェスチャ制御音声ユーザインタフェース Active JP6195843B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201161577489P 2011-12-19 2011-12-19
US61/577,489 2011-12-19
US13/664,281 US9563278B2 (en) 2011-12-19 2012-10-30 Gesture controlled audio user interface
US13/664,281 2012-10-30
PCT/US2012/063077 WO2013095783A2 (en) 2011-12-19 2012-11-01 Gesture controlled audio user interface

Publications (3)

Publication Number Publication Date
JP2015506035A JP2015506035A (ja) 2015-02-26
JP2015506035A5 JP2015506035A5 (ja) 2015-11-26
JP6195843B2 true JP6195843B2 (ja) 2017-09-13

Family

ID=48609617

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014547239A Active JP6195843B2 (ja) 2011-12-19 2012-11-01 ジェスチャ制御音声ユーザインタフェース

Country Status (7)

Country Link
US (1) US9563278B2 (ja)
EP (1) EP2795432A2 (ja)
JP (1) JP6195843B2 (ja)
KR (1) KR101708101B1 (ja)
CN (1) CN103999021B (ja)
IN (1) IN2014MN00973A (ja)
WO (1) WO2013095783A2 (ja)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8326951B1 (en) 2004-06-05 2012-12-04 Sonos, Inc. Establishing a secure wireless network with minimum human intervention
US9779750B2 (en) 2004-07-30 2017-10-03 Invention Science Fund I, Llc Cue-aware privacy filter for participants in persistent communications
US9704502B2 (en) * 2004-07-30 2017-07-11 Invention Science Fund I, Llc Cue-aware privacy filter for participants in persistent communications
EP2798472A4 (en) * 2011-12-29 2015-08-19 Intel Corp AUDIOPIPELINE FOR AUDIOVER DISTRIBUTION ON SOC PLATFORMS
US10140088B2 (en) * 2012-02-07 2018-11-27 Nokia Technologies Oy Visual spatial audio
US9632683B2 (en) * 2012-11-08 2017-04-25 Nokia Technologies Oy Methods, apparatuses and computer program products for manipulating characteristics of audio objects by using directional gestures
US9866964B1 (en) * 2013-02-27 2018-01-09 Amazon Technologies, Inc. Synchronizing audio outputs
CN103402156B (zh) * 2013-07-25 2016-05-25 瑞声科技(南京)有限公司 声学系统
US10219094B2 (en) 2013-07-30 2019-02-26 Thomas Alan Donaldson Acoustic detection of audio sources to facilitate reproduction of spatial audio spaces
US10225680B2 (en) * 2013-07-30 2019-03-05 Thomas Alan Donaldson Motion detection of audio sources to facilitate reproduction of spatial audio spaces
EP2866182A1 (en) * 2013-10-25 2015-04-29 Nokia Technologies OY Providing contextual information
EP3090321A4 (en) * 2014-01-03 2017-07-05 Harman International Industries, Incorporated Gesture interactive wearable spatial audio system
US9739883B2 (en) 2014-05-16 2017-08-22 Elwha Llc Systems and methods for ultrasonic velocity and acceleration detection
US9437002B2 (en) 2014-09-25 2016-09-06 Elwha Llc Systems and methods for a dual modality sensor system
US9618618B2 (en) 2014-03-10 2017-04-11 Elwha Llc Systems and methods for ultrasonic position and motion detection
US9026914B1 (en) 2014-05-28 2015-05-05 Google Inc. Multi-sound audio interface system
US9886236B2 (en) 2014-05-28 2018-02-06 Google Llc Multi-dimensional audio interface system
US9392368B2 (en) * 2014-08-25 2016-07-12 Comcast Cable Communications, Llc Dynamic positional audio
KR102329193B1 (ko) * 2014-09-16 2021-11-22 삼성전자주식회사 화면 정보를 소리로 출력하는 방법 및 이를 지원하는 전자 장치
US10048835B2 (en) 2014-10-31 2018-08-14 Microsoft Technology Licensing, Llc User interface functionality for facilitating interaction between users and their environments
JP6642989B2 (ja) * 2015-07-06 2020-02-12 キヤノン株式会社 制御装置、制御方法及びプログラム
US9995823B2 (en) 2015-07-31 2018-06-12 Elwha Llc Systems and methods for utilizing compressed sensing in an entertainment system
US10206040B2 (en) * 2015-10-30 2019-02-12 Essential Products, Inc. Microphone array for generating virtual sound field
US9483693B1 (en) * 2015-11-25 2016-11-01 Clover Network, Inc. Free-hand character recognition on a touch screen POS terminal
US10134422B2 (en) * 2015-12-01 2018-11-20 Qualcomm Incorporated Determining audio event based on location information
CN105607738B (zh) * 2015-12-22 2018-09-25 小米科技有限责任公司 确定单手模式的方法及装置
US10303422B1 (en) 2016-01-05 2019-05-28 Sonos, Inc. Multiple-device setup
EP3458872B1 (en) * 2016-05-19 2021-04-07 Harman International Industries, Incorporated Gesture-enabled audio device with visible feedback
KR20180020517A (ko) 2016-08-18 2018-02-28 엘지전자 주식회사 이동 단말기
US11076261B1 (en) 2016-09-16 2021-07-27 Apple Inc. Location systems for electronic device communications
JP2018092012A (ja) * 2016-12-05 2018-06-14 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
KR20180084550A (ko) 2017-01-17 2018-07-25 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
GB2562036A (en) * 2017-04-24 2018-11-07 Nokia Technologies Oy Spatial audio processing
EP3777244A4 (en) * 2018-04-08 2021-12-08 DTS, Inc. EXTRACTION OF AMBISONIC DEPTHS
CN112166350B (zh) * 2018-06-05 2023-12-05 谷歌有限责任公司 智能设备中的超声感测的系统和方法
US11113092B2 (en) * 2019-02-08 2021-09-07 Sony Corporation Global HRTF repository
US11451907B2 (en) 2019-05-29 2022-09-20 Sony Corporation Techniques combining plural head-related transfer function (HRTF) spheres to place audio objects
US11347832B2 (en) 2019-06-13 2022-05-31 Sony Corporation Head related transfer function (HRTF) as biometric authentication
US11036464B2 (en) * 2019-09-13 2021-06-15 Bose Corporation Spatialized augmented reality (AR) audio menu
US11146908B2 (en) 2019-10-24 2021-10-12 Sony Corporation Generating personalized end user head-related transfer function (HRTF) from generic HRTF
US11070930B2 (en) 2019-11-12 2021-07-20 Sony Corporation Generating personalized end user room-related transfer function (RRTF)
EP3879702A1 (en) * 2020-03-09 2021-09-15 Nokia Technologies Oy Adjusting a volume level
US11563783B2 (en) * 2020-08-14 2023-01-24 Cisco Technology, Inc. Distance-based framing for an online conference session
US11392250B1 (en) 2020-12-31 2022-07-19 Apple Inc. Ultrasonic touch sensing parasitic wave rejection
CN117499850B (zh) * 2023-12-26 2024-05-28 荣耀终端有限公司 一种音频数据播放方法及电子设备

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3834848B2 (ja) 1995-09-20 2006-10-18 株式会社日立製作所 音情報提供装置、及び音情報選択方法
JPH09114543A (ja) 1995-10-02 1997-05-02 Xybernaut Corp ハンドフリーコンピュータ装置
US20070177804A1 (en) 2006-01-30 2007-08-02 Apple Computer, Inc. Multi-touch gesture dictionary
IL127569A0 (en) * 1998-09-16 1999-10-28 Comsense Technologies Ltd Interactive toys
JP3285835B2 (ja) 1998-12-25 2002-05-27 三菱電機株式会社 メニュー選択装置
GB2374772B (en) 2001-01-29 2004-12-29 Hewlett Packard Co Audio user interface
JP4624577B2 (ja) 2001-02-23 2011-02-02 富士通株式会社 複数のセンサによるヒューマンインタフェースシステム
US6798429B2 (en) * 2001-03-29 2004-09-28 Intel Corporation Intuitive mobile device interface to virtual spaces
FI20010958A0 (fi) 2001-05-08 2001-05-08 Nokia Corp Menetelmä ja järjestely laajennetun käyttöliittymän muodostamiseksi
GB0311177D0 (en) * 2003-05-15 2003-06-18 Qinetiq Ltd Non contact human-computer interface
JP3898673B2 (ja) 2003-07-18 2007-03-28 株式会社タムラ製作所 音声通信システム、方法及びプログラム並びに音声再生装置
JP2006287878A (ja) 2005-04-05 2006-10-19 Matsushita Electric Ind Co Ltd 携帯電話端末
US7953236B2 (en) 2005-05-06 2011-05-31 Microsoft Corporation Audio user interface (UI) for previewing and selecting audio streams using 3D positional audio techniques
WO2007117418A2 (en) * 2006-03-31 2007-10-18 Wms Gaming Inc. Portable wagering game with vibrational cues and feedback mechanism
CN101449236A (zh) * 2006-05-23 2009-06-03 索尼爱立信移动通讯股份有限公司 菜单导航的声音反馈
US7596765B2 (en) 2006-05-23 2009-09-29 Sony Ericsson Mobile Communications Ab Sound feedback on menu navigation
US8421642B1 (en) * 2006-08-24 2013-04-16 Navisense System and method for sensorized user interface
US8942764B2 (en) * 2007-10-01 2015-01-27 Apple Inc. Personal media device controlled via user initiated movements utilizing movement based interfaces
US20090166098A1 (en) 2007-12-31 2009-07-02 Apple Inc. Non-visual control of multi-touch device
TW200934212A (en) 2008-01-16 2009-08-01 Asustek Comp Inc Mobile digital device with intuitive browsing and operating method thereof
US9454256B2 (en) * 2008-03-14 2016-09-27 Apple Inc. Sensor configurations of an input device that are switchable based on mode
JP5628144B2 (ja) * 2008-03-18 2014-11-19 エリプティック・ラボラトリーズ・アクシェルスカブElliptic Laboratories As 目的物及び動作検出
GB0810179D0 (en) * 2008-06-04 2008-07-09 Elliptic Laboratories As Object location
JP5219205B2 (ja) 2008-10-24 2013-06-26 清水建設株式会社 移動体位置検出システム
US9037468B2 (en) * 2008-10-27 2015-05-19 Sony Computer Entertainment Inc. Sound localization for user in motion
JP5245808B2 (ja) 2008-12-25 2013-07-24 ヤマハ株式会社 ポインティングシステム
US9389829B2 (en) * 2009-04-09 2016-07-12 Aliphcom Spatial user interface for audio system
US8923995B2 (en) 2009-12-22 2014-12-30 Apple Inc. Directional audio interface for portable media device
JP5488011B2 (ja) 2010-02-04 2014-05-14 ソニー株式会社 通信制御装置、通信制御方法及びプログラム
JP2011211312A (ja) 2010-03-29 2011-10-20 Panasonic Corp 音像定位処理装置及び音像定位処理方法
US8935438B1 (en) * 2011-06-28 2015-01-13 Amazon Technologies, Inc. Skin-dependent device components

Also Published As

Publication number Publication date
IN2014MN00973A (ja) 2015-04-24
WO2013095783A2 (en) 2013-06-27
KR101708101B1 (ko) 2017-02-27
US20130154930A1 (en) 2013-06-20
WO2013095783A3 (en) 2013-08-22
KR20140107484A (ko) 2014-09-04
EP2795432A2 (en) 2014-10-29
CN103999021B (zh) 2017-12-08
US9563278B2 (en) 2017-02-07
JP2015506035A (ja) 2015-02-26
CN103999021A (zh) 2014-08-20

Similar Documents

Publication Publication Date Title
JP6195843B2 (ja) ジェスチャ制御音声ユーザインタフェース
JP6494286B2 (ja) 車載ジェスチャ相互作用空間オーディオシステム
JP6328711B2 (ja) ナビゲーションサウンドスケーピング
CN109804559B (zh) 空间音频系统中的增益控制
EP2737727B1 (en) Method and apparatus for processing audio signals
US9632586B2 (en) Audio driver user interface
US20150186109A1 (en) Spatial audio user interface apparatus
JP2016506639A (ja) サウンドの触知可能な制御を提供するための方法および装置
CN108353244A (zh) 差分头部追踪装置
US20190149919A1 (en) Distributed Audio Capture and Mixing Controlling
EP3642643A1 (en) Sound source distance estimation
CN106658344A (zh) 一种全息音频渲染控制方法
JP6034715B2 (ja) 動作検出装置およびプログラム
JP2008021186A (ja) 音響による位置通知方法、および同方法を用いた情報処理システム
Lee et al. Sonicstrument: A Musical Interface with Stereotypical Acoustic Transducers.
JP2014099073A (ja) 電子機器、その制御方法及びプログラム
KR102379734B1 (ko) 사운드 생성 방법 및 이를 수행하는 장치들
US20210274304A1 (en) Information processing apparatus, information processing system, information processing method, and program
Suh et al. SoniControl: Gesture Recognition System for Electric Guitar Using VLF Beacon Signals
JP2013223098A (ja) 音声処理装置、音声処理方法および音声処理プログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151005

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151005

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160727

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160816

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170328

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170628

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170718

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170816

R150 Certificate of patent or registration of utility model

Ref document number: 6195843

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250