JP2016512632A - 音声およびジェスチャー・コマンド領域を割り当てるためのシステムおよび方法 - Google Patents
音声およびジェスチャー・コマンド領域を割り当てるためのシステムおよび方法 Download PDFInfo
- Publication number
- JP2016512632A JP2016512632A JP2015558234A JP2015558234A JP2016512632A JP 2016512632 A JP2016512632 A JP 2016512632A JP 2015558234 A JP2015558234 A JP 2015558234A JP 2015558234 A JP2015558234 A JP 2015558234A JP 2016512632 A JP2016512632 A JP 2016512632A
- Authority
- JP
- Japan
- Prior art keywords
- user input
- user
- voice
- application
- input command
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000003993 interaction Effects 0.000 claims abstract description 14
- 238000013507 mapping Methods 0.000 claims description 8
- 238000012544 monitoring process Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000008571 general function Effects 0.000 description 1
- 238000002329 infrared spectrum Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000002211 ultraviolet spectrum Methods 0.000 description 1
- 238000001429 visible spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Abstract
ユーザー音声および空中ジェスチャー・コマンドを受領するためのユーザー入力コマンド領域を割り当て、コンピューティング装置の複数のアプリケーションのユーザー対話および制御を許容するためのシステムおよび方法。システムは、前記複数のアプリケーションのそれぞれについてコンピューティング環境内の三次元ユーザー入力コマンド領域を割り当てることをユーザーに許容するよう構成されている音声および空中ジェスチャー捕捉システムを含む。音声および空中ジェスチャー捕捉システムは、コンピューティング環境内の一つまたは複数のセンサーによって捕捉されたデータを受領し、該データに基づいてユーザー入力を識別するよう構成される。ユーザー入力は、一つまたは複数のユーザー入力コマンド領域内でのユーザー発話および/または空中ジェスチャー・コマンドを含む。音声および空中ジェスチャー捕捉システムはさらに、識別されたユーザー入力コマンド領域に基づいてユーザー入力に対応するアプリケーションを識別し、前記ユーザー入力に基づく、識別されたアプリケーションとのユーザー対話を許容するよう構成されている。
Description
本開示は、ユーザー・インターフェースに関し、より詳細には、コンピューティング環境における複数のアプリケーションと対話し、これを制御するために音声および空中ジェスチャー・コマンド領域を割り当てるためのシステムおよび方法に関する。
現在のコンピューティング・システムは、ディスプレイ内でユーザーに対してかなりの量の情報を呈示する手段を提供する。一般に、コンピューティング・システムのグラフィカル・ユーザー・インターフェース(GUI)は、コンテンツ・フレームまたは「ウィンドー」内でユーザーに対して情報を呈示する。一般に、各ウィンドーは、情報を表示してもよく、および/またはコンピューティング・システム上で実行される対応するアプリケーションと対話してこれを制御するためのインターフェースを含んでいてもよい。たとえば、あるウィンドーはワードプロセシング・アプリケーションに対応し、進行中の手紙を表示しもよく、その間、別のウィンドーがウェブ・ブラウザーに対応し、ウェブ・ページを表示してもよく、その間、別のウィンドーがメディア・プレーヤー・アプリケーションに対応し、ビデオを表示してもよい。
ウィンドーは、比喩的に「デスクトップ」と称される領域においてユーザーのコンピュータ・ディスプレイ上に呈示されてもよい。現在のコンピューティング・システムはユーザーがディスプレイ上で複数の開いたウィンドーを維持することを許容する。そのため、各ウィンドーに関連する情報が常時、容易にユーザーにとって利用可能となる。複数のウィンドーが同時に表示されるとき、該複数のウィンドーは同時に独立して表示されてもよく、あるいは部分的にまたは完全に互いに重なり合ってもよい。ディスプレイ上に複数のウィンドーを表示する結果として、ウィンドーでちらかった表示になることがあり、各ウィンドーに関連するコンテンツを制御するためにユーザーが絶えず各ウィンドーを操作することを要求することがある。
ディスプレイ内の複数のウィンドーの管理および該複数のウィンドーとのユーザー対話はユーザーによって実行される空中ジェスチャー入力技術を組み込むコンピューティング・システムではさらに複雑にされうる。いくつかの現在のコンピューティング・システムは、コンピューティング・システム上のアプリケーションと対話してこれを制御するために、ユーザーによって実行される空中ジェスチャーを通じてユーザー入力を受け入れる。一般に、これらのユーザーによって実行される空中ジェスチャーは、(タッチスクリーン・ジェスチャーに対し)空中ジェスチャー〔エア・ジェスチャー〕と称される。
いくつかの場合には、無関係な空中ジェスチャーが、複数の実行中アプリケーションの一つとの望まれない対話および入力を引き起こすことがある。これは、ユーザーがマルチウィンドーのディスプレイにおいて空中ジェスチャーを試み、複数の開いているウィンドーの一つとだけ対話することを意図しているときに特に当てはまりうる。たとえば、ユーザーが、追加的な開いているウィンドーをもつディスプレイ上で、現在開いているメディア・プレーヤー・ウィンドー上での楽曲の再生を制御することを望むことがありうる。ユーザーは、あらかじめ定義された動きでユーザーの手を振るなど、メディア・プレーヤーのための「再生」コマンドに関連付けられている空中ジェスチャーを実行してもよい。しかしながら、同じ空中ジェスチャーが別のアプリケーションについての異なるコマンドを表わすことがありうる。たとえば、メディア・プレーヤー上で「再生」コマンドを表わす空中ジェスチャーは、ウェブ・ブラウザーについての「終了」コマンドを表わすことがありうる。よって、マルチ・ウィンドー・ディスプレイのために、ユーザーの空中ジェスチャーは、ユーザーが制御しようと意図している特定のアプリケーションに関して、曖昧になることがある。コンピューティング・システムは、ユーザーの空中ジェスチャーがメディア・プレーヤーを制御するよう意図されたものであることを認識できないことがあり、ユーザーの空中ジェスチャーに異なる、意図されないアプリケーションを制御させることがありうる。これはユーザーにとって特にいらだたしいこととなり、所望されるアプリケーションおよびプログラムを制御するためにコンピューティング・システムとより多大なユーザー対話を要求することがありうる。
特許請求される主題の特徴および利点は、それと整合する実施形態の以下の詳細な説明から明白となるであろう。該説明は、付属の図面を参照して考慮されるべきである。
本開示と整合する音声および空中ジェスチャー・コマンド領域を割り当てるためのシステムのある実施形態を示すブロック図である。
本開示と整合する音声および空中ジェスチャー・コマンド領域を割り当てるためのシステムの別の実施形態を示すブロック図である。
図1のシステムをより詳細に示すブロック図である。
本開示と整合する、表示された複数のウィンドーならびに該複数のウィンドーと対話するための割り当てられた音声および空中ジェスチャー・コマンド領域をもつ例示的なグラフィカル・ユーザー・インターフェース(GUI)を含む電子ディスプレイを示す図である。
本開示のさまざまな実施形態と整合する、図4の電子ディスプレイおよびGUIおよび割り当てられた音声および空中ジェスチャー・コマンド領域ならびにコマンド領域を介してGUIと対話するユーザーを含む、コンピューティング環境の斜視図である。
本開示と整合する、音声および空中ジェスチャー・コマンド領域を割り当てるためのある実施形態を示す流れ図である。
概観として、本開示は概して、ユーザー音声および空中ジェスチャー・コマンドを受領するためのユーザー入力コマンド領域を割り当て、割り当てられたユーザー入力コマンド領域に基づいて複数のアプリケーションのユーザー対話および制御を許容するためのシステムおよび方法に向けられる。システムは、コンピューティング環境内のGUIを介して一つまたは複数のアプリケーションとのユーザー対話をモニタリングするよう構成された音声および空中ジェスチャー捕捉システムを含む。GUIはたとえば、電子ディスプレイ上で呈示される複数の開いたウィンドーを含んでいてもよく、各ウィンドーは開いている、実行中のアプリケーションに対応する。音声および空中ジェスチャー捕捉システムは、ユーザーが、たとえば前記複数のウィンドーのそれぞれに対応する一つまたは複数のアプリケーションのためのユーザー入力コマンド領域を割り当てることを許容するよう構成されている。ここで、各ユーザー入力コマンド領域は、コンピューティング環境内で、少なくとも前記電子ディスプレイとの関係で三次元空間を定義する。
音声および空中ジェスチャー捕捉システムは、コンピューティング環境内の一つまたは複数のセンサーによって捕捉されたデータを受領するよう構成されている。ここで、前記データは、一つまたは複数のユーザー入力コマンド領域内のユーザー発話および/または空中ジェスチャー・コマンドを含む。音声および空中ジェスチャー捕捉システムはさらに、捕捉されたデータの解析に基づいてユーザー入力を識別するよう構成されている。より具体的には、音声および空中ジェスチャー捕捉システムは、ユーザーによって実行された特定の音声および/または空中ジェスチャー・コマンドならびに該音声および/または空中ジェスチャー・コマンドが行なわれた対応するユーザー入力コマンド領域を識別するよう構成されている。音声および空中ジェスチャー捕捉システムはさらに、少なくとも部分的には、識別されたユーザー入力コマンド領域に基づいて前記ユーザー入力に対応するアプリケーションを識別し、ユーザーが前記ユーザー入力に基づいて、識別されたアプリケーションと対話し、これを制御することを許容するよう構成されている。
本開示と整合するシステムは、ユーザーに、コンピューティング環境内の割り当てられたユーザー入力コマンド領域によって、多様なアプリケーションを管理し、これと対話する改善された手段を提供する。たとえば、電子ディスプレイ上に呈示される複数のウィンドーの同時表示をもつGUIとのユーザー対話の場合、システムは、各ウィンドーに関連付けられたアプリケーションを制御する効率的かつ効果的な手段を提供するよう構成される。特に、システムは、ユーザーがディスプレイ上に呈示される各ウィンドーに対応する三次元のコマンド領域を割り当てることを許容するよう構成される。それによりユーザーは、対応する三次元のコマンド領域内で実行される音声および/または空中ジェスチャー・コマンドに基づいて、各ウィンドーおよび関連付けられているアプリケーションと対話し、これを制御しうる。よって、本開示と整合するシステムは、ユーザーが、割り当てられたユーザー入力コマンド領域の一つの中で音声および/または空中ジェスチャー・コマンドを実行することによって、多様な異なるウィンドーを制御するために同じ音声および/または空中ジェスチャー・コマンドを利用することを許容する。
図1に目を転じると、本開示と整合するシステム10のある実施形態が概括的に示されている。システムは、コンピューティング装置12、音声および空中ジェスチャー捕捉システム14、一つまたは複数のセンサー16および電子ディスプレイ18を含む。本稿でより詳細に述べるように、音声および空中ジェスチャー捕捉システム14は、コンピューティング環境をモニタリングし、コンピューティング環境内の電子ディスプレイ18上に呈示されるグラフィカル・ユーザー・インターフェース(GUI)でのユーザー入力および対話を識別するよう構成されている。より具体的には、音声および空中ジェスチャー捕捉システム14は、ユーザーが、電子ディスプレイ18上に呈示されたGUIの複数の開いたウィンドーを効率的かつ効果的に管理することを許容する。ここで、各ウィンドーは、コンピューティング装置12の開いている実行中のアプリケーションに対応する。
音声および空中ジェスチャー捕捉システム14は、ユーザーが複数のウィンドーのそれぞれについてユーザー入力コマンド領域を割り当てることを許容するよう構成される。ここで、各ユーザー入力コマンド領域は、コンピューティング環境内で、少なくとも電子ディスプレイ18との関係で三次元空間を定義する(図4、図5に示す)。音声および空中ジェスチャー捕捉システム14は、コンピューティング環境内の一つまたは複数のセンサー16によって捕捉されたデータを受領するよう構成される。一つまたは複数のセンサー16は、コンピューティング環境の一つまたは複数の割り当てられたユーザー入力コマンド領域内のユーザー発話および空中ジェスチャー・コマンドの少なくとも一つを捕捉するよう構成されていてもよい。これについては、本稿でより詳細に述べる。
前記一つまたは複数のセンサー16によって捕捉されたデータを受信し、処理すると、音声および空中ジェスチャー捕捉システム14は、捕捉されたデータに基づいてユーザー入力を識別するよう構成されている。識別されたユーザー入力は、ユーザーによって実行された特定の音声および/または空中ジェスチャー・コマンドならびに該音声および/または空中ジェスチャー・コマンドが行なわれた対応するユーザー入力コマンド領域を含んでいてもよい。音声および空中ジェスチャー捕捉システム14はさらに、少なくとも部分的には、識別されたユーザー入力コマンド領域に基づいて前記ユーザー入力に対応するウィンドーを識別し、ユーザーが前記ユーザー入力に基づいて、識別されたウィンドーおよび関連付けられたアプリケーションと対話し、これを制御することを許容するよう構成されている。
コンピューティング装置12、音声および空中ジェスチャー捕捉システム14、一つまたは複数のセンサー16および電子ディスプレイ18は、任意の既知の有線または無線通信伝送プロトコルを介して互いと通信するよう構成されていてもよい。
一般に理解されるところでは、コンピューティング装置12は、ハードウェア・コンポーネントおよび/またはソフトウェア・コンポーネントを含んでいてもよく、それによりコンピューティング装置12はゲーム・アプリケーション、非ゲーム・アプリケーションなどといったアプリケーションを実行するために使用されうる。本稿に記載されるいくつかの実施形態では、一つまたは複数の実行中のアプリケーションは、電子ディスプレイ18のユーザー・インターフェース上に呈示される関連付けられたウィンドーを含んでいてもよい。コンピューティング装置12は、パーソナル・コンピュータ(PC)(たとえばデスクトップまたはノートブック・コンピュータ)、タブレット・コンピュータ、ネットブック・コンピュータ、スマートフォン、携帯型ビデオ・ゲーム機、ビデオ・ゲーム・コンソール、携帯情報端末(PDA: portable digital assistant)、携帯型メディア・プレーヤー(PMP: portable media player)、電子書籍、モバイル・インターネット・デバイス、パーソナル・ナビゲーション装置および他のコンピューティング装置を含みうるが、それに限られない。
電子ディスプレイ18は、コンピューティング装置12および音声および空中ジェスチャー捕捉システム14から入力を受領し、該入力に関係した視覚的および/または聴覚的情報を提供するよう構成されたいかなるオーディオビジュアル・ディスプレイ装置を含んでいてもよい。たとえば、電子ディスプレイ18は、コンピューティング装置12上で実行される一つまたは複数のアプリケーションの、音声および空中ジェスチャー捕捉システム14からのユーザー入力に基づくビジュアルおよび/またはオーディオを提供するよう構成される。電子ディスプレイ18は、テレビジョン、モニタ、電子看板、高精細度テレビジョン(HDTV)などを含みうるが、それに限られない。
図示した実施形態では、音声および空中ジェスチャー捕捉システム14、一つまたは複数のセンサー16および電子ディスプレイ18は互いから別個である。他の実施形態では、当業者によって一般に理解されるように、コンピューティング装置12は任意的に、図2のシステム10aにおいて示されているように、一つまたは複数のセンサー16および/または電子ディスプレイ18を含んでいてもよい。一つまたは複数のセンサー16および/または電子ディスプレイ18をコンピューティング装置12の外部の要素ではなくコンピューティング装置12の一部として任意的に含むことは、図2では破線で示されている。さらに、一般に理解されるように、音声および空中ジェスチャー捕捉システム14はコンピューティング装置12から別個であってもよい。
図3に目を転じると、図1のシステム10がより詳細に示されている。先述したように、音声および空中ジェスチャー捕捉システム14は、少なくとも一つのセンサー16から捕捉されたデータを受領するよう構成されている。図のように、システム10は、コンピューティング環境内の少なくとも一のユーザーのさまざまな属性を捕捉するよう構成された多様なセンサーを含んでいてもよい。さまざまな属性とは、たとえば、ユーザーの身体の一つまたは複数の部分の動きを含むユーザーの物理的特徴およびユーザーからの声の入力を含む可聴特徴などである。たとえば、図示した実施形態では、システム10は、コンピューティング環境およびその中の一または複数のユーザーのデジタル画像を捕捉するよう構成された少なくとも一つのカメラ20と、一または複数のユーザーの声データを含む環境の音データを捕捉するよう構成されている少なくとも一つのマイクロフォン22とを含む。
図3はさらに、図1の音声および空中ジェスチャー捕捉システム14をより詳細に示している。図3に示される音声および空中ジェスチャー捕捉システム14は、本開示と整合する音声および空中ジェスチャー捕捉システム14の一例であることは理解されるはずである。よって、本開示と整合する音声および空中ジェスチャー捕捉システムは、図示されているより多数または少数のコンポーネントを有していてもよく、二つ以上のコンポーネントを組み合わせてもよく、あるいはそれらのコンポーネントの異なる構成または配置を有していてもよい。図3に示されるさまざまなコンポーネントは、一つまたは複数の信号処理および/または特定用途向け集積回路を含め、ハードウェア、ソフトウェアまたはハードウェアとソフトウェアの組み合わせにおいて実装されてもよい。
図のように、カメラ20およびマイクロフォン22は、音声および空中ジェスチャー捕捉システム14のカメラおよびオーディオ・フレームワーク・モジュール24に入力を提供するよう構成されている。カメラおよびオーディオ・フレームワーク・モジュール24は、一般によく定義され、少なくともカメラ20およびマイクロフォン22を制御するよう動作可能なカスタムの、独自の、既知のおよび/またはのちに開発される画像処理および/またはオーディオ・コード(または命令セット)を含んでいてもよい。たとえば、カメラおよびオーディオ・フレームワーク・モジュール24は、カメラ20およびマイクロフォン22に、画像、コンピューティング環境内のオブジェクトおよびユーザーへの距離および/または音を捕捉し、記録させてもよく、画像および/または音を処理してもよく、画像および/または音を再生させてもよい、など。カメラおよびオーディオ・フレームワーク・モジュール24は、音声および空中ジェスチャー捕捉システム14に依存して、より具体的には、音声および空中ジェスチャー捕捉システム14および/またはコンピューティング装置12において実行されているオペレーティング・システム(OS)に依存して変わりうる。
音声および空中ジェスチャー捕捉システム14はさらに、センサー16の少なくとも一つによって捕捉されたデータを受領し、捕捉されたデータに基づいてユーザー入力28を確立するよう構成されている発話およびジェスチャー認識モジュール26を含む。図示した実施形態では、発話およびジェスチャー認識モジュール26は、前記少なくとも一つのカメラ20によって捕捉される一つまたは複数のデジタル画像を受領するよう構成されている。カメラ20は、コンピューティング環境および該コンピューティング環境内の一または複数のユーザーを表わすデジタル画像を捕捉するための任意の装置(既知のまたはのちに発見されるもの)を含む。
たとえば、カメラ20は、スチール・カメラ(すなわち、スチール写真を捕捉するよう構成されたカメラ)またはビデオ・カメラ(すなわち、複数のフレームにおいて複数の動いている画像を捕捉するよう構成されたカメラ)を含みうる。カメラ20は、可視スペクトルにおいてまたは電磁スペクトルの他の部分(たとえば赤外スペクトル、紫外スペクトルなどだがこれに限られない)を用いて画像を捕捉するよう構成されていてもよい。カメラ20はさらに、本稿でのちにより詳細に述べる、たとえば奥行き値を決定するための任意の技法(既知のまたはのちに発見されるもの)によって決定される奥行き値のような奥行き情報をもつデジタル画像を捕捉するよう構成されていてもよい。たとえば、カメラ20は、コンピューティング環境内のシーンの奥行き画像を捕捉するよう構成されていてもよい奥行きカメラを含んでいてもよい。カメラ20は、シーンの奥行き画像を捕捉するよう構成された三次元(3D)カメラおよび/またはRGBカメラを含んでいてもよい。
カメラ20は、コンピューティング装置12および/または音声および空中ジェスチャー捕捉システム14内に組み込まれてもよく、あるいはコンピューティング装置12および/または音声および空中ジェスチャー捕捉システム14と有線または無線通信を介して通信するよう構成されている別個の装置であってもよい。カメラ120の具体例は、コンピュータ、ビデオ・モニタなどに付随しうるような有線(たとえばユニバーサル・シリアル・バス(USB)、イーサネット(登録商標)、ファイアワイヤなど)または無線(たとえば、WiFi、ブルートゥースなど)のウェブ・カメラ、モバイル装置カメラ(たとえば、先に論じた例示的なコンピューティング装置などに統合されている携帯電話またはスマートフォンのカメラ)、統合されたラップトップ・コンピュータ・カメラ、統合されたタブレット・コンピュータ・カメラなどを含んでいてもよい。
ある例示的な実施形態では、システム10は、コンピューティング環境内の単一のカメラ20であって、たとえば電子ディスプレイ18に隣接するなど所望される位置に位置され(図5に示す)、電子ディスプレイ18に近接したコンピューティング環境および該コンピューティング環境内の一または複数のユーザーの画像を捕捉するよう構成されているものを含んでいてもよい。他の実施形態では、システム10は、コンピューティング環境内のさまざまな位置に位置される、該環境内の一または複数のユーザーの画像を異なるアングルから捕捉してたとえば奥行き情報の決定において使われる視覚的ステレオを取得する複数のカメラ20を含んでいてもよい。
カメラ20からの画像を受領すると、発話およびジェスチャー認識モジュール26は、カメラ20によって与えられた画像内のユーザーの身体の一つまたは複数の部分を識別し、そのような識別された身体部分の動きを追跡してユーザーによって実行される一つまたは複数の空中ジェスチャーを決定するよう構成されていてもよい。たとえば、発話およびジェスチャー認識モジュール26は、一般によく定義され、画像(たとえばRGBカラー画像だがそれに限られない)を受領し、少なくともある程度まで該画像におけるユーザーの手を識別し、一連の画像を通じて検出された手を追跡して手の動きに基づいて空中ジェスチャーを判別するよう動作可能なカスタムの、独自の、既知のおよび/またはのちに開発される識別および/または検出コード(または命令セット)、ハードウェアおよび/またはファームウェアを含んでいてもよい。発話およびジェスチャー認識モジュール26は、頭、胴体、腕、手、脚、足を含む多様な身体部分および領域の動きと、シーン内でのユーザーの全体的な位置とを識別し、追跡するよう構成されていてもよい。
発話およびジェスチャー認識モジュール26はさらに、ユーザーの識別された身体部分の動きが発生したコンピューティング環境内での特定の空間的領域を識別するよう構成されていてもよい。たとえば、発話およびジェスチャー認識モジュール26は、一般によく定義され、少なくともある程度まで、ユーザーの手のような識別されたユーザー身体部分の動きが発生した複数のユーザー入力コマンド領域のうちの一つを識別するよう動作可能なカスタムの、独自の、既知のおよび/またはのちに開発される空間的認識コード(または命令セット)、ハードウェアおよび/またはファームウェアを含んでいてもよい。
発話およびジェスチャー認識モジュール26はさらに、少なくとも一つのマイクロフォン22によって捕捉されたコンピューティング環境内のユーザーの声データを受領するよう構成されている。マイクロフォン22は、一または複数の人物の声データを捕捉するための任意の装置(既知のまたはのちに発見されるもの)を含み、前記一または複数の人物の音声解析のための十分なデジタル分解能を有していてもよい。マイクロフォン22がコンピューティング装置12および/または音声および空中ジェスチャー捕捉システム14内に組み込まれてもよく、あるいは任意の既知の有線または無線の通信を介してメディア音声および空中ジェスチャー捕捉システム14と通信するよう構成されている別個の装置であってもよいことを注意しておくべきである。
マイクロフォン22からの音声データを受領すると、発話およびジェスチャー認識モジュール26は、任意の既知の発話解析方法を使って、音声データの特定の主題を識別するよう構成されていてもよい。たとえば、発話およびジェスチャー認識モジュール26は、一般によく定義され、音声データを受領して発話をテキスト・データに変換するよう動作可能なカスタムの、独自の、既知のおよび/またはのちに開発される発話認識および特徴コード(または命令セット)、ハードウェアおよび/またはファームウェアを含んでいてもよい。発話およびジェスチャー認識モジュール26は、当業者によって一般に理解されるように、電子ディスプレイ上のGUIの一つまたは複数のウィンドーとの対話のためにユーザーからの一つまたは複数の話されたコマンドを識別するよう構成されていてもよい。
発話およびジェスチャー認識モジュール26はさらに、ユーザーの声入力がその中で投射されたまたは発生したコンピューティング環境内の特定の空間的領域を識別するよう構成されていてもよい。たとえば、発話およびジェスチャー認識モジュール26は、一般によく定義され、少なくともある程度まで、ユーザーの声入力がそのほうにまたはその中で投射された、複数のユーザー入力コマンド領域のうちの一つを識別するよう動作可能なカスタムの、独自の、既知のおよび/またはのちに開発される空間的認識コード(または命令セット)、ハードウェアおよび/またはファームウェアを含んでいてもよい。
ある実施形態では、システム10は、コンピューティング環境内の声データを捕捉するよう構成された単一のマイクロフォンを含んでいてもよい。他の実施形態では、システム10は、コンピューティング環境を通じて位置される諸マイクロフォンのアレイを含んでいてもよい。各マイクロフォンは、コンピューティング環境の特定の領域の声データを捕捉するよう構成され、それにより空間的認識を可能にする。たとえば、第一のマイクロフォンは電子ディスプレイ18のある側に位置されディスプレイ18のその側のほうに向けられた声入力のみを捕捉するよう構成されていてもよい。同様に、第二のマイクロフォンはディスプレイ18の反対側に位置されディスプレイの該反対側のほうに向けられた声入力のみを捕捉するよう構成されていてもよい。
センサー16からの画像および/または声データを含む捕捉されたデータを受領し、解析すると、発話およびジェスチャー認識モジュール26は、捕捉されたデータの解析に基づいて、ユーザー入力28を生成するよう構成されている。ユーザー入力28は、ユーザー動きに基づく識別された空中ジェスチャー、空中ジェスチャーが発生した対応するユーザー入力コマンド領域、音声コマンドおよび音声コマンドがそのほうに向けられたまたはその中で発生した対応するユーザー入力コマンド領域を含みうるが、それに限られない。
音声およびジェスチャー捕捉システム14はさらに、ユーザーが、電子ディスプレイ18上に呈示される各ウィンドーおよび関連付けられたアプリケーションと対話することを許容するよう構成されているアプリケーション制御モジュール30を含む。より具体的には、アプリケーション制御モジュール30は、発話および認識モジュール26からのユーザー入力28を受領して、該ユーザー入力28に基づいて制御されるべき一つまたは複数のアプリケーションを識別するよう構成されている。
図のように、音声およびジェスチャー捕捉システム14は、コンピューティング装置12上で実行されるよう構成されている複数のアプリケーションまたは機能のうちの対応する一つのためにユーザーがユーザー入力コマンド領域を割り当てることを許容するよう構成されている入力マッピング・モジュール32を含む。たとえば、入力マッピング・モジュール32は、一般によく定義され、ユーザーが、コンピューティング環境のあらかじめ定義されたユーザー入力コマンド領域をアプリケーション・データベース34からの対応するアプリケーションに割り当てることを許容するよう動作可能なカスタムの、独自の、既知のおよび/またはのちに開発されるトレーニング・コード(または命令セット)、ハードウェアおよび/またはファームウェアを含んでいてもよい。それにより、割り当てられたユーザー入力コマンド領域内のいかなるユーザー入力(たとえば音声および/または空中ジェスチャー・コマンド)の結果として対応するアプリケーションの一つまたは複数のパラメータの制御が行なわれる。
アプリケーション制御モジュール30は、受領されたユーザー入力28に関係したデータを、入力マッピング・モジュール32に記憶された一つまたは複数の割り当てプロファイル33(1)〜33(n)に関連付けられたデータと比較して、ユーザー入力28に関連付けられたアプリケーションを識別するよう構成されていてもよい。特に、アプリケーション制御モジュール30は、マッチするユーザー入力コマンド領域をもつプロファイルを見出すために、ユーザー入力28の識別されたユーザー入力コマンド領域を、割り当てプロファイル33(1)〜33(n)と比較するよう構成されていてもよい。各割り当てプロファイル33は、一般に、コンピューティング環境の複数のユーザー入力コマンド領域のうちの一つと、該一つの入力コマンド領域が割り当てられている対応するアプリケーションとに関係したデータを含んでいてもよい。たとえば、コンピューティング環境は六つの異なるユーザー入力コマンド領域を含んでいてもよく、各コマンド領域が別個のアプリケーションと関連付けられていてもよい。よって、特定のユーザー入力コマンド領域内で実行されるいかなる音声および/または空中ジェスチャーも、その特定のユーザー入力コマンド領域と関連付けられたアプリケーションのパラメータを制御するだけである。
任意の既知のまたはのちに発見されるマッチング技法によって入力マッピング・モジュール32においてマッチするプロファイルを見出したら、アプリケーション制御モジュール30は、マッチするプロファイルのデータに基づいて、アプリケーション・データベース34から、音声および/またはジェスチャー・コマンドが発生したユーザー入力コマンド領域が割り当てられているアプリケーションを識別するよう構成されている。アプリケーション制御モジュール30はさらに、ユーザー入力28(たとえば音声および/または空中ジェスチャー・コマンド)に基づく、実行中のアプリケーションの一つまたは複数のパラメータのユーザー制御を許容するよう構成されている。一般に理解されるように、各アプリケーションは、該アプリケーションのさまざまなパラメータを制御するために、対応する音声およびジェスチャー・データベース36からの既知の音声およびジェスチャー・コマンドのあらかじめ決定された集合を有していてもよい。
音声および空中ジェスチャー捕捉システム14はさらに、一つまたは複数の実行中のアプリケーションを制御するためのユーザー入力コマンドを含む、アプリケーション制御モジュール30からの入力を受領し、電子ディスプレイ18にオーディオビジュアル信号を提供し、実行中のアプリケーションに関連付けられたウィンドーのユーザー対話および制御を許容するよう構成されたディスプレイ・レンダリング・モジュール38を含む。音声および空中ジェスチャー捕捉システム14はさらに、音声および空中ジェスチャー捕捉システム14およびそれに含まれるモジュールの一つまたは複数に関連する動作を実行するよう構成されている一つまたは複数のプロセッサ40を含んでいてもよい。
ここで図4および図5に目を転じると、コンピューティング環境100のある実施形態が概括的に示されている。図4は、複数のウィンドー104(1)〜104(n)が表示されている例示的なグラフィカル・ユーザー・インターフェース(GUI)102を有する電子ディスプレイ18のある実施形態の正面図を描いている。先述したように、各ウィンドー104は一般にコンピューティング装置102上で実行されているアプリケーションに対応する。たとえば、ウィンドー104(1)はメディア・プレーヤー・アプリケーションに対応してもよく、ウィンドー104(2)はビデオ・ゲーム・アプリケーションに対応してもよく、ウィンドー104(3)はウェブ・ブラウザーに対応してもよく、ウィンドー104(n)はワードプロセシング・アプリケーションに対応してもよい。コンピューティング装置12上で実行されるよう構成されたいくつかのアプリケーションは、ディスプレイ18上に呈示される関連付けられたウィンドーを含まないことがあることを注意しておくべきである。よって、いくつかのユーザー入力コマンド領域はそのようなアプリケーションに割り当てられていてもよい。
図のように、ユーザー入力コマンド領域A〜Dはコンピューティング環境100内に含まれる。先述したように、ユーザー入力コマンド領域A〜Dは一般に、電子ディスプレイ18および一つまたは複数のセンサー16との関係で三次元の(図5に示される)空間を定義し、ユーザーはその中で、一つまたは複数のアプリケーションおよび対応するウィンドー104(1)〜104(n)を制御するために特定の音声および空中ジェスチャー・コマンドを実行しうる。
図5は、図4のコンピューティング環境100の斜視図が概括的に示されている。図のように、コンピューティング環境100は、複数のウィンドー104(1)〜104(n)が呈示されているGUI 102を有する電子ディスプレイ18を含む。一つまたは複数のセンサー16(カメラ20およびマイクロフォン22の形の)は、コンピューティング環境100内のユーザー動きおよび/または発話を捕捉するよう、コンピューティング環境100内に位置されている。コンピューティング環境100はさらに、割り当てられた音声および空中ジェスチャー・コマンド領域A〜Eと、コマンド領域A〜Eを介してマルチウィンドーGUI 102と対話するユーザー106とを含んでいる。図のように、各ユーザー入力コマンド領域A〜Eは、コンピューティング環境100内で、少なくとも電子ディスプレイ18との関連で三次元空間を定義する。先述したように、ユーザーが電子ディスプレイ上の特定のウィンドー104と対話することを望むとき、ユーザーは、その特定のウィンドー104に関連付けられた割り当てられたユーザー入力コマンド領域A〜E内で一つまたは複数の音声および/または空中ジェスチャー・コマンドを実行するだけでよい。
たとえば、ユーザー106は、ウィンドー104(1)のメディア・プレーヤー・アプリケーションと対話し、ウィンドー104(3)のウェブ・ブラウザーと対話することを欲していることがある。ユーザーは、すでに音声および空中ジェスチャー捕捉システム14を利用して、先述したように、ユーザー入力コマンド領域Cをウィンドー104(1)に対応するものとして、ユーザー入力コマンド領域Eをウィンドー104(3)に対応するものとして割り当てていることがありうる。ユーザーは、コンピューティング環境100内で、話してもよいし、および/または腕および手のような身体の一つまたは複数の部分を用いて一つまたは複数の動作を実行してもよい。特に、ユーザー106は、ユーザー入力コマンド領域Cに向かう方向にあらかじめ定義された音声コマンドを話し、ユーザー入力コマンド領域E内であらかじめ定義された空中ジェスチャー(たとえば腕を上に振り上げる)を実行してもよい。
先述したように、カメラ20およびマイクロフォン22が、ユーザーの音声および/または空中ジェスチャー・コマンドに関係したデータを捕捉するよう構成されている。音声および空中ジェスチャー捕捉システム14は、捕捉されたデータを受領して処理し、ユーザー106によって実行されたあらかじめ定義された音声および空中ジェスチャー・コマンドおよびユーザーの音声および空中ジェスチャー・コマンドが実行された特定のユーザー入力コマンド領域(それぞれ領域CおよびE)を含むユーザー入力を識別するよう構成されている。一方、音声および空中ジェスチャー捕捉システム14は、識別されたユーザー入力コマンド領域(それぞれ領域CおよびE)に対応するウィンドー104(1)および104(3)を識別し、さらに前記ユーザー入力に基づいて、ユーザー106が、ウィンドー104(1)および104(3)に関連付けられたアプリケーション(たとえばそれぞれメディア・プレーヤーおよびウェブ・ブラウザー)の一つまたは複数のパラメータを制御できるようにするよう構成されている。
図示した実施形態では、ユーザー入力コマンド領域A〜Eは、電子ディスプレイ18のすべての側(たとえば、上下左右)および電子ディスプレイ18の中央に位置されている。他の実施形態では、音声および空中ジェスチャー捕捉システム14は、電子ディスプレイ18との関係で多様な異なる寸法および位置において複数の異なるユーザー入力コマンド領域を割り当てるよう構成されていてもよく、図4および図5に描かれた構成に限定されないことを注意しておくべきである。
ここで図6に目を転じると、音声および空中ジェスチャー・コマンド領域を割り当てる方法600のある実施形態のフローチャートが概括的に示されている。本方法は、コンピューティング環境と、ユーザー・インターフェースと対話しようとしているその中の少なくとも一のユーザーとをモニタリングすることを含む(動作610)。コンピューティング環境は、ユーザー・インターフェースが表示される電子ディスプレイを含んでいてもよい。ユーザー・インターフェースは、複数の開いているウィンドーを有していてもよく、それぞれの開いているウィンドーは開いている実行中のアプリケーションに対応していてもよい。本方法はさらに、ユーザーの発話および/またはユーザー・インターフェースとの空中ジェスチャー対話に関係したデータを捕捉することを含む(動作620)。該データは、コンピューティング環境内の一つまたは複数のセンサーによって捕捉されてもよく、該データは、一つまたは複数の割り当てられたユーザー入力コマンド領域内でのユーザーの発話および/または空中ジェスチャー・コマンドを含む。各ユーザー入力コマンド領域は、コンピューティング環境内で、少なくとも前記電子ディスプレイとの関係で三次元空間を定義する。
本方法はさらに、捕捉されたデータの解析に基づいて、ユーザー入力と、複数のユーザー入力コマンド領域のうちの一つとを識別することを含む(動作630)。ユーザー入力は、ユーザーによって実行された識別された音声および/または空中ジェスチャー・コマンドと、識別された音声および/または空中ジェスチャー・コマンドが発生した対応するユーザー入力コマンド領域とを含む。本方法はさらに、少なくとも部分的には前記識別されたユーザー入力コマンド領域に基づいて、電子ディスプレイ上に呈示された関連付けられているアプリケーションを識別することを含む(動作640)。本方法はさらに、前記ユーザー入力に基づく、識別された関連付けられたアプリケーションのユーザー制御を提供することを含む。
図6はさまざまな実施形態に基づく方法動作を示しているものの、いかなる実施形態でも、これらの動作の全部が必要なわけではないことは理解しておくものとする。実際、本稿においては、本開示の他の実施形態では図6に描かれる諸動作は、どの図面にも具体的に示されないがそれでも本開示と完全に整合する仕方で組み合わされてもよいことが十分に考えられている。よって、一つの図面に厳密には示されていない特徴および/または動作に向けられる請求項が、本開示の範囲および内容に含まれると見なされる。
加えて、上記実施形態についての動作はさらに上記の図面および付随する例を参照して記述されてきた。図面のいくつかは、論理的な流れを含むことがある。本稿に呈示されるそのような図面は特定の論理的な流れを含むことがあるが、かかる論理的な流れは単に本稿に記載される一般的な機能がどのように実装されることができるかの例を与えるものであることは理解できる。さらに、与えられた論理的な流れは、特に断わりのない限り、必ずしも、呈示された順序で実行される必要はない。加えて、与えられた論理的な流れは、ハードウェア要素、プロセッサによって実行されるソフトウェア要素またはそれらの任意の組み合わせによって実装されうる。これらの実施形態はこのコンテキストに限定されない。
本稿での任意の実施形態において使われるところでは、用語「モジュール」は、上述した動作のいずれかを実行するよう構成されたソフトウェア、ファームウェアおよび/または回路を指しうる。ソフトウェアは、ソフトウェア・パッケージ、コード、命令、命令セットおよび/またはデータであって、非一時的なコンピュータ可読記憶媒体上に記録されたものとして具現されてもよい。ファームウェアはコード、命令または命令セットおよび/またはデータであって、メモリ・デバイス中に固定構成(たとえば不揮発性)とされたものとして具現されてもよい。「回路」は、本稿の任意の実施形態において使われるところでは、たとえば、単独でまたは任意の組み合わせにおいて、固定結線の回路、一つまたは複数の個別の命令処理コアを有するコンピュータ・プロセッサのようなプログラム可能な回路、状態機械回路および/またはプログラム可能な回路によって実行される命令を記憶するファームウェアを含んでいてもよい。諸モジュールは、まとめてまたは個々に、より大きなシステム、たとえば集積回路、システムオンチップ(SoC)、デスクトップ・コンピュータ、ラップトップ・コンピュータ、タブレット・コンピュータ、サーバー、スマートフォンなどの一部をなす回路として具現されてもよい。
本稿に記載される動作の任意のものは、一つまたは複数のプロセッサによって実行されたときに上記の諸方法を実行する命令を個々にまたは組み合わせにおいて記憶している一つまたは複数の記憶媒体を含むシステムにおいて実装されてもよい。ここで、前記プロセッサは、たとえば、サーバーCPU、モバイル装置CPUおよび/または他のプログラム可能な回路を含んでいてもよい。
また、本稿に記載される動作は、二つ以上の異なる物理的な位置にある処理構造のような、複数の物理的な装置を横断して分散されてもよいことが意図されている。記憶媒体は、いかなる型の有体の媒体を含んでいてもよく、たとえばハードディスク、フロッピー(登録商標)ディスク、光ディスク、コンパクトディスク読み出し専用メモリ(CD-ROM)、コンパクトディスク書き換え可能型(CD-RW)および光磁気ディスクを含む任意の型のディスク、読み出し専用メモリ(ROM)、動的および静的RAMのようなランダム・アクセス・メモリ(RAM)、消去可能なプログラム可能な読み出し専用メモリ(EPROM)、電気的に消去可能なプログラム可能な読み出し専用メモリ(EEPROM)、フラッシュメモリ、ソリッドステートディスク(SSD)のような半導体デバイス、磁気または光カードまたは電子的な命令を記憶するのに好適な任意の型の媒体を含んでいてもよい。他の実施形態は、プログラム可能な制御装置によって実行されるソフトウェア・モジュールとして実装されてもよい。記憶媒体は非一時的であってもよい。
本稿で述べたように、さまざまな実施形態は、ハードウェア要素、ソフトウェア要素または両者の組み合わせを使って実装されてもよい。ハードウェア要素の例は、プロセッサ、マイクロプロセッサ、回路、回路要素(たとえば、トランジスタ、抵抗器、キャパシタ、インダクタなど)、集積回路、特定用途向け集積回路(ASIC)、プログラム可能型論理デバイス(PLD)、デジタル信号プロセッサ(DSP)、フィールド・プログラム可能型ゲート・アレイ(FPGA)、論理ゲート、レジスタ、半導体デバイス、チップ、マイクロチップ、チップセットなどを含んでいてもよい。
本明細書を通じた「一つの実施形態」または「ある実施形態」への言及は、その実施形態との関連で記述される特定の特徴、構造または特性が少なくとも一つの実施形態に含まれることを意味する。よって、本明細書を通じた随所で「一つの実施形態において」または「ある実施形態において」という句が出現することは、必ずしも全部が同じ実施形態を指すのではない。さらに、該特定の特徴、構造または特性は、一つまたは複数の実施形態においていかなる好適な仕方で組み合わされてもよい。
以下の例はさらなる実施形態に関する。一例では、音声および空中ジェスチャー・コマンド領域を割り当てるための装置が提供される。該装置は、コンピューティング環境およびその中の少なくとも一のユーザーに関係した少なくとも一つのセンサーによって捕捉されるデータを受領し、捕捉されたデータに基づいてユーザーの一つまたは複数の属性を同定するよう構成された認識モジュールを含んでいてもよい。認識モジュールはさらに、前記ユーザー属性に基づいてユーザー入力を確立するよう構成されていてもよい。ここで、前記ユーザー入力は、音声コマンドおよび空中ジェスチャー・コマンドならびに該音声または空中ジェスチャー・コマンドが発生した、複数のユーザー入力コマンド領域のうちの対応する一つのうちの少なくとも一つを含む。本装置はさらに、前記ユーザー入力および前記ユーザー入力によって制御されるべきアプリケーションを受領して、少なくとも部分的には前記ユーザー入力が発生したユーザー入力コマンド領域に基づいて、解析するよう構成されたアプリケーション制御モジュールを含んでいてもよい。アプリケーション制御モジュールはさらに、前記ユーザー入力に基づいて、ユーザーの、識別されたアプリケーションとの対話および該アプリケーションの一つまたは複数のパラメータの制御を許容するよう構成されている。
上記の例示的な装置はさらに、前記少なくとも一つのセンサーが、前記コンピューティング環境およびその中の前記少なくとも一のユーザーの一つまたは複数の画像を捕捉するよう構成されたカメラであるよう構成されていてもよい。この構成において本例示的な装置はさらに、前記認識モジュールが、捕捉された画像に基づいて一つまたは複数のユーザー身体部分の動きを識別して追跡し、識別されたユーザー身体部分動きに対応する一つまたは複数の空中ジェスチャー・コマンドを判別し、各空中ジェスチャー・コマンドが行なわれた対応するユーザー入力コマンド領域を識別するよう構成されているよう構成されていてもよい。
上記の例示的な装置はさらに、単独でまたは上記のさらなる構成との組み合わせにおいて、前記少なくとも一つのセンサーが前記コンピューティング環境内のユーザーの声データを捕捉するよう構成されているマイクロフォンであるよう構成されていてもよい。この構成において本例示的な装置はさらに、前記認識モジュールが、捕捉された声に基づいてユーザーからの一つまたは複数の音声コマンドを識別し、各音声コマンドが発生したまたはそのほうに向けられていた対応するユーザー入力コマンド領域を識別するよう構成されているよう構成されていてもよい。
上記の例示的な装置はさらに、単独でまたは上記のさらなる構成との組み合わせにおいて、ユーザーが、前記複数のユーザー入力コマンド領域の一つを複数のアプリケーションのうちの対応する一つに割り当てることを許容するよう構成されている入力マッピング・モジュールを含んでいてもよい。この構成において、本例示的な装置はさらに、前記入力マッピング・モジュールが、一つまたは複数の割り当てプロファイルを含み、各割り当てプロファイルは、前記複数のユーザー入力コマンド領域の一つと、該一つのユーザー入力コマンド領域が割り当てられている対応するアプリケーションとに関係するデータを含むよう構成されていてもよい。この構成において、本例示的な装置はさらに、前記アプリケーション制御モジュールが、前記認識モジュールから受領されたユーザー入力を、前記割り当てプロファイルのそれぞれと比較して、前記ユーザー入力に関連付けられたアプリケーションを識別するよう構成されていてもよい。この構成において、本例示的な装置は、前記アプリケーション制御モジュールが、前記ユーザー入力の識別されたユーザー入力コマンド領域を、前記割り当てプロファイルの各プロファイルのユーザー入力コマンド領域と比較し、該比較に基づいてマッチする割り当てプロファイルを識別するよう構成されているよう構成されていてもよい。
上記の例示的な装置はさらに、単独でまたは上記のさらなる構成との組み合わせにおいて、各ユーザー入力コマンド領域が前記コンピューティング環境内の三次元空間を含み、マルチウィンドー・ユーザー・インターフェースが呈示される電子ディスプレイとの関係において位置付けされるよう構成されていてもよい。ここで、ウィンドーのいくつかはアプリケーションに対応する。
もう一つの例では、音声および空中ジェスチャー・コマンド領域を割り当てるための方法が提供される。該方法は、コンピューティング環境および該コンピューティング環境内の、ユーザー・インターフェースと対話しようとしている少なくとも一のユーザーをモニタリングする段階と、前記コンピューティング環境内の少なくとも一つのセンサーによって捕捉されるデータを受領する段階と、捕捉されたデータに基づいて前記コンピューティング環境内の前記少なくとも一のユーザーの一つまたは複数の属性を識別する段階と、前記ユーザー属性に基づいてユーザー入力を確立する段階であって、前記ユーザー入力は、音声コマンドおよび空中ジェスチャー・コマンドならびに該音声または空中ジェスチャー・コマンドが発生した、複数のユーザー入力コマンド領域のうちの対応する一つのうちの少なくとも一つを含む、段階と、少なくとも部分的には前記対応するユーザー入力コマンド領域に基づいて、前記ユーザー入力によって制御されるべきアプリケーションを識別する段階とを含んでいてもよい。
上記の例示的な方法はさらに、前記ユーザー入力に基づいた、識別された関連付けられたアプリケーションの一つまたは複数のパラメータのユーザー制御を許容する段階を含んでいてもよい。
上記の例示的な方法はさらに、単独でまたは上記のさらなる構成との組み合わせにおいて、ユーザーが、前記複数のユーザー入力コマンド領域の一つを複数のアプリケーションのうちの対応する一つに割り当てる段階と、前記複数のユーザー入力コマンド領域の前記一つと、該ユーザー入力コマンド領域が割り当てられている対応するアプリケーションとに関係するデータを有する割り当てプロファイルを生成する段階とを含んでいてもよい。この構成において、本例示的な方法はさらに、前記ユーザー入力によって制御されるべきアプリケーションを識別する前記段階が、ユーザー入力を、アプリケーションおよび該アプリケーションに割り当てられている前記複数のユーザー入力コマンド領域のうちの一つに関係したデータを有する複数の割り当てプロファイルと比較して、該比較に基づいて前記ユーザー入力にマッチするデータを有する割り当てプロファイルを識別する段階とを含む。この構成において、本例示的な方法はさらに、マッチする割り当てプロファイルを識別する前記段階が、前記ユーザー入力の識別されたユーザー入力コマンド領域を、前記割り当てプロファイルの各プロファイルのユーザー入力コマンド領域と比較し、マッチするユーザー入力コマンド領域を有する割り当てプロファイルを識別することを含むよう構成されていてもよい。
もう一つの例では、機械によって実行されたときに、該機械に、上記の例示的な方法のいずれかの動作を実行させる命令を記憶している少なくとも一つのコンピュータ・アクセス可能媒体が提供される。
もう一つの例では、上記の例示的な方法のいずれかを実行するよう構成されたシステムが提供される。
もう一つの例では、音声および空中ジェスチャー・コマンド領域を割り当てるためのシステムが提供される。本システムは、コンピューティング環境および該コンピューティング環境内の、ユーザー・インターフェースと対話しようとしている少なくとも一のユーザーをモニタリングする手段と、前記コンピューティング環境内の少なくとも一つのセンサーによって捕捉されるデータを受領する手段と、捕捉されたデータに基づいて前記コンピューティング環境内の前記少なくとも一のユーザーの一つまたは複数の属性を識別し、前記ユーザー属性に基づいてユーザー入力を確立する手段であって、前記ユーザー入力は、音声コマンドおよび空中ジェスチャー・コマンドならびに該音声または空中ジェスチャー・コマンドが発生した、複数のユーザー入力コマンド領域のうちの対応する一つのうちの少なくとも一つを含む、手段と、少なくとも部分的には前記対応するユーザー入力コマンド領域に基づいて、前記ユーザー入力によって制御されるべきアプリケーションを識別する手段とを含んでいてもよい。
上記の例示的なシステムはさらに、前記ユーザー入力に基づいた、識別された関連付けられたアプリケーションの一つまたは複数のパラメータのユーザー制御を許容する手段を含んでいてもよい。
上記の例示的なシステムはさらに、単独でまたは上記のさらなる構成との組み合わせにおいて、前記複数のユーザー入力コマンド領域の一つを複数のアプリケーションのうちの対応する一つに割り当てる手段と、前記複数のユーザー入力コマンド領域の前記一つと、該ユーザー入力コマンド領域が割り当てられている対応するアプリケーションとに関係するデータを有する割り当てプロファイルを生成する手段とを含んでいてもよい。この構成において、本例示的なシステムはさらに、前記ユーザー入力によって制御されるべきアプリケーションの前記識別が、ユーザー入力を、アプリケーションおよび該アプリケーションに割り当てられている前記複数のユーザー入力コマンド領域のうちの一つに関係したデータを有する複数の割り当てプロファイルと比較する手段と、該比較に基づいて前記ユーザー入力にマッチする割り当てプロファイルを識別する手段とを含む。この構成において、本例示的なシステムはさらに、マッチする割り当てプロファイルの前記識別が、前記ユーザー入力の識別されたユーザー入力コマンド領域を、前記割り当てプロファイルの各プロファイルのユーザー入力コマンド領域と比較し、マッチするユーザー入力コマンド領域を有する割り当てプロファイルを識別することを含む。
本稿で用いられた用語および表現は、限定ではなく説明の用語として使われており、そのような用語および表現の使用において、図示および記載された特徴(またはその一部)のいかなる等価物をも排除する意図はない。請求項の範囲内でさまざまな修正が可能であることが認識される。よって、請求項は、そのようなすべての等価物をカバーすることが意図されている。
Claims (17)
- 音声および空中ジェスチャー・コマンド領域を割り当てるための装置であって、該装置は:
コンピューティング環境およびその中の少なくとも一のユーザーに関係した少なくとも一つのセンサーによって捕捉されたデータを受領し、前記捕捉されたデータに基づいて前記ユーザーの一つまたは複数の属性を識別し、前記ユーザー属性に基づいてユーザー入力を確立するよう構成された認識モジュールであって、前記ユーザー入力は、音声コマンドおよび空中ジェスチャー・コマンドならびに該音声または空中ジェスチャー・コマンドが発生した、複数のユーザー入力コマンド領域のうちの対応する一つのうちの少なくとも一つを含む、認識モジュールと;
前記ユーザー入力および前記ユーザー入力によって制御されるべきアプリケーションを受領して、少なくとも部分的には前記ユーザー入力が発生した前記ユーザー入力コマンド領域に基づいて、解析し、前記ユーザー入力に基づいて、ユーザーの、前記識別されたアプリケーションとの対話および該アプリケーションの一つまたは複数のパラメータの制御を許容するよう構成されたアプリケーション制御モジュールとを有する、
装置。 - 前記少なくとも一つのセンサーが、前記コンピューティング環境および前記少なくとも一のユーザーの一つまたは複数の画像を捕捉するよう構成されたカメラである、請求項1記載の装置。
- 前記認識モジュールが、前記捕捉された画像に基づいて一つまたは複数のユーザー身体部分の動きを識別して追跡し、前記識別されたユーザー身体部分動きに対応する一つまたは複数の空中ジェスチャー・コマンドを判別し、各空中ジェスチャー・コマンドが発生した対応するユーザー入力コマンド領域を識別するよう構成されている、請求項2記載の装置。
- 前記少なくとも一つのセンサーが前記コンピューティング環境内の前記ユーザーの声データを捕捉するよう構成されているマイクロフォンである、請求項1記載の装置。
- 前記認識モジュールが、前記捕捉された声に基づいて前記ユーザーからの一つまたは複数の音声コマンドを識別し、各音声コマンドが発生したまたはそのほうに向けられていた対応するユーザー入力コマンド領域を識別するよう構成されている、請求項4記載の装置。
- ユーザーが、前記複数のユーザー入力コマンド領域の一つを複数のアプリケーションのうちの対応する一つに割り当てることを許容するよう構成されている入力マッピング・モジュールをさらに有する、請求項1記載の装置。
- 前記入力マッピング・モジュールが、一つまたは複数の割り当てプロファイルを有しており、各割り当てプロファイルは、前記複数のユーザー入力コマンド領域の一つと、該一つのユーザー入力コマンド領域が割り当てられている対応するアプリケーションとに関係するデータを含む、請求項6記載の装置。
- 前記アプリケーション制御モジュールが、前記認識モジュールから受領されたユーザー入力を、前記割り当てプロファイルのそれぞれと比較して、前記ユーザー入力に関連付けられたアプリケーションを識別するよう構成されている、請求項7記載の装置。
- 前記アプリケーション制御モジュールが、前記ユーザー入力の識別されたユーザー入力コマンド領域を、前記割り当てプロファイルの各プロファイルのユーザー入力コマンド領域と比較し、該比較に基づいてマッチする割り当てプロファイルを識別するよう構成されている、請求項8記載の装置。
- 各ユーザー入力コマンド領域が前記コンピューティング環境内の三次元空間を含み、マルチウィンドー・ユーザー・インターフェースが呈示される電子ディスプレイとの関係において位置付けされ、前記ウィンドーのいくつかは関連付けられたアプリケーションに対応する、請求項1ないし9のうちいずれか一項記載の装置。
- 音声および空中ジェスチャー・コマンド領域を割り当てる方法であって、該方法は:
コンピューティング環境および該コンピューティング環境内の、ユーザー・インターフェースと対話しようとしている少なくとも一のユーザーをモニタリングする段階と;
前記コンピューティング環境内の少なくとも一つのセンサーによって捕捉されたデータを受領する段階と;
前記捕捉されたデータに基づいて前記コンピューティング環境内の前記少なくとも一のユーザーの一つまたは複数の属性を識別し、前記ユーザー属性に基づいてユーザー入力を確立する段階であって、前記ユーザー入力は、音声コマンドおよび空中ジェスチャー・コマンドならびに該音声または空中ジェスチャー・コマンドが発生した、複数のユーザー入力コマンド領域のうちの対応する一つのうちの少なくとも一つを含む、段階と;
少なくとも部分的には前記対応するユーザー入力コマンド領域に基づいて、前記ユーザー入力によって制御されるべきアプリケーションを識別する段階とを含む、
方法。 - 前記ユーザー入力に基づいた、前記識別された関連付けられたアプリケーションの一つまたは複数のパラメータのユーザー制御を許容する段階をさらに含む、請求項11記載の方法。
- 前記複数のユーザー入力コマンド領域の一つを複数のアプリケーションのうちの対応する一つに割り当てる段階と;
前記複数のユーザー入力コマンド領域の前記一つと、該ユーザー入力コマンド領域が割り当てられている前記対応するアプリケーションとに関係するデータを有する割り当てプロファイルを生成する段階とをさらに含む、
請求項11記載の方法。 - 前記ユーザー入力によって制御されるべきアプリケーションを識別する前記段階が:
ユーザー入力を、アプリケーションおよび該アプリケーションに割り当てられている前記複数のユーザー入力コマンド領域のうちの一つに関係したデータを有する複数の割り当てプロファイルと比較する段階と;
該比較に基づいて前記ユーザー入力にマッチするデータを有する割り当てプロファイルを識別する段階とを含む、
請求項13記載の方法。 - マッチする割り当てプロファイルを識別する前記段階が、前記ユーザー入力の識別されたユーザー入力コマンド領域を、前記割り当てプロファイルの各プロファイルのユーザー入力コマンド領域と比較し、マッチするユーザー入力コマンド領域を有する割り当てプロファイルを識別する段階を含む、
請求項14記載の方法。 - 機械によって実行されたときに、該機械に、請求項11ないし15のうちいずれか一項記載の方法を実行させる命令を記憶している少なくとも一つのコンピュータ・アクセス可能媒体。
- 請求項11ないし15のうちいずれか一項記載の方法を実行するよう構成されているシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/840,525 | 2013-03-15 | ||
US13/840,525 US20140282273A1 (en) | 2013-03-15 | 2013-03-15 | System and method for assigning voice and gesture command areas |
PCT/US2014/020479 WO2014149700A1 (en) | 2013-03-15 | 2014-03-05 | System and method for assigning voice and gesture command areas |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016512632A true JP2016512632A (ja) | 2016-04-28 |
Family
ID=51534552
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015558234A Pending JP2016512632A (ja) | 2013-03-15 | 2014-03-05 | 音声およびジェスチャー・コマンド領域を割り当てるためのシステムおよび方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20140282273A1 (ja) |
EP (1) | EP2972685A4 (ja) |
JP (1) | JP2016512632A (ja) |
KR (1) | KR101688359B1 (ja) |
CN (1) | CN105074620B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10298732B2 (en) | 2016-07-27 | 2019-05-21 | Kyocera Corporation | Electronic device having a non-contact detection sensor and control method |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150277699A1 (en) * | 2013-04-02 | 2015-10-01 | Cherif Atia Algreatly | Interaction method for optical head-mounted display |
US20140380198A1 (en) * | 2013-06-24 | 2014-12-25 | Xiaomi Inc. | Method, device, and terminal apparatus for processing session based on gesture |
US10533850B2 (en) | 2013-07-12 | 2020-01-14 | Magic Leap, Inc. | Method and system for inserting recognized object data into a virtual world |
US20150199017A1 (en) * | 2014-01-10 | 2015-07-16 | Microsoft Corporation | Coordinated speech and gesture input |
US10003840B2 (en) | 2014-04-07 | 2018-06-19 | Spotify Ab | System and method for providing watch-now functionality in a media content environment |
US20150317680A1 (en) | 2014-05-05 | 2015-11-05 | Spotify Ab | Systems and methods for delivering media content with advertisements based on playlist context and advertisement campaigns |
KR101556521B1 (ko) * | 2014-10-06 | 2015-10-13 | 현대자동차주식회사 | 휴먼 머신 인터페이스 장치, 그를 가지는 차량 및 그 제어 방법 |
US10248728B1 (en) * | 2014-12-24 | 2019-04-02 | Open Invention Network Llc | Search and notification procedures based on user history information |
US10956936B2 (en) | 2014-12-30 | 2021-03-23 | Spotify Ab | System and method for providing enhanced user-sponsor interaction in a media environment, including support for shake action |
US20160189222A1 (en) * | 2014-12-30 | 2016-06-30 | Spotify Ab | System and method for providing enhanced user-sponsor interaction in a media environment, including advertisement skipping and rating |
US20160209968A1 (en) * | 2015-01-16 | 2016-07-21 | Microsoft Technology Licensing, Llc | Mapping touch inputs to a user input module |
US10379639B2 (en) | 2015-07-29 | 2019-08-13 | International Business Machines Corporation | Single-hand, full-screen interaction on a mobile device |
WO2017115692A1 (ja) * | 2015-12-28 | 2017-07-06 | アルプス電気株式会社 | 手書き入力装置、情報入力方法及びプログラム |
CN109074819B (zh) * | 2016-04-29 | 2023-05-16 | 维塔驰有限公司 | 基于操作-声音的多模式命令的优选控制方法及应用其的电子设备 |
US10133474B2 (en) | 2016-06-16 | 2018-11-20 | International Business Machines Corporation | Display interaction based upon a distance of input |
CN106681496A (zh) * | 2016-12-07 | 2017-05-17 | 南京仁光电子科技有限公司 | 基于多侦测面的控制方法和装置 |
US11507191B2 (en) | 2017-02-17 | 2022-11-22 | Microsoft Technology Licensing, Llc | Remote control of applications |
US11221823B2 (en) | 2017-05-22 | 2022-01-11 | Samsung Electronics Co., Ltd. | System and method for context-based interaction for electronic devices |
EP3681678A4 (en) | 2017-09-18 | 2020-11-18 | Samsung Electronics Co., Ltd. | METHOD OF DYNAMIC INTERACTION AND ELECTRONIC DEVICE THEREFORE |
CN108826598A (zh) * | 2018-05-04 | 2018-11-16 | 北京车和家信息技术有限公司 | 空调控制方法、装置及车辆 |
US10877568B2 (en) * | 2018-12-19 | 2020-12-29 | Arizona Board Of Regents On Behalf Of Arizona State University | Three-dimensional in-the-air finger motion based user login framework for gesture interface |
US11289089B1 (en) * | 2020-06-23 | 2022-03-29 | Amazon Technologies, Inc. | Audio based projector control |
US11878244B2 (en) * | 2020-09-10 | 2024-01-23 | Holland Bloorview Kids Rehabilitation Hospital | Customizable user input recognition systems |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002311990A (ja) * | 2000-12-19 | 2002-10-25 | Hewlett Packard Co <Hp> | 音声制御式機器の活動化方法およびシステム |
JP2003223188A (ja) * | 2002-01-29 | 2003-08-08 | Toshiba Corp | 音声入力システム、音声入力方法及び音声入力プログラム |
WO2010035491A1 (ja) * | 2008-09-29 | 2010-04-01 | パナソニック株式会社 | ユーザインターフェース装置、ユーザインターフェース方法、及び記録媒体 |
US20110119640A1 (en) * | 2009-11-19 | 2011-05-19 | Microsoft Corporation | Distance scalable no touch computing |
JP2011192081A (ja) * | 2010-03-15 | 2011-09-29 | Canon Inc | 情報処理装置及びその制御方法 |
WO2012040030A2 (en) * | 2010-09-20 | 2012-03-29 | Kopin Corporation | Bluetooth or other wireless interface with power management for head mounted display |
JP2012533134A (ja) * | 2009-07-13 | 2012-12-20 | マイクロソフト コーポレーション | ユーザーから学習した入力を介し視覚表示を実写のようにする方法及びシステム |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6154723A (en) * | 1996-12-06 | 2000-11-28 | The Board Of Trustees Of The University Of Illinois | Virtual reality 3D interface system for data creation, viewing and editing |
US6584439B1 (en) * | 1999-05-21 | 2003-06-24 | Winbond Electronics Corporation | Method and apparatus for controlling voice controlled devices |
US6219645B1 (en) * | 1999-12-02 | 2001-04-17 | Lucent Technologies, Inc. | Enhanced automatic speech recognition using multiple directional microphones |
KR100987650B1 (ko) * | 2001-05-14 | 2010-10-13 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 콘텐트의 실시간 스트림들과의 상호 작용을 위한 디바이스 |
US8947347B2 (en) * | 2003-08-27 | 2015-02-03 | Sony Computer Entertainment Inc. | Controlling actions in a video game unit |
US7518631B2 (en) * | 2005-06-28 | 2009-04-14 | Microsoft Corporation | Audio-visual control system |
US7899673B2 (en) * | 2006-08-09 | 2011-03-01 | Microsoft Corporation | Automatic pruning of grammars in a multi-application speech recognition interface |
US8253770B2 (en) * | 2007-05-31 | 2012-08-28 | Eastman Kodak Company | Residential video communication system |
WO2009045861A1 (en) * | 2007-10-05 | 2009-04-09 | Sensory, Incorporated | Systems and methods of performing speech recognition using gestures |
US8875026B2 (en) * | 2008-05-01 | 2014-10-28 | International Business Machines Corporation | Directed communication in a virtual environment |
US8649533B2 (en) * | 2009-10-02 | 2014-02-11 | Ford Global Technologies, Llc | Emotive advisory system acoustic environment |
US9400548B2 (en) * | 2009-10-19 | 2016-07-26 | Microsoft Technology Licensing, Llc | Gesture personalization and profile roaming |
US8659658B2 (en) * | 2010-02-09 | 2014-02-25 | Microsoft Corporation | Physical interaction zone for gesture-based user interfaces |
US8751215B2 (en) * | 2010-06-04 | 2014-06-10 | Microsoft Corporation | Machine based sign language interpreter |
US8296151B2 (en) * | 2010-06-18 | 2012-10-23 | Microsoft Corporation | Compound gesture-speech commands |
US8473289B2 (en) * | 2010-08-06 | 2013-06-25 | Google Inc. | Disambiguating input based on context |
KR101789619B1 (ko) * | 2010-11-22 | 2017-10-25 | 엘지전자 주식회사 | 멀티미디어 장치에서 음성과 제스쳐를 이용한 제어 방법 및 그에 따른 멀티미디어 장치 |
US20120134507A1 (en) * | 2010-11-30 | 2012-05-31 | Dimitriadis Dimitrios B | Methods, Systems, and Products for Voice Control |
US9354310B2 (en) * | 2011-03-03 | 2016-05-31 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for source localization using audible sound and ultrasound |
US20120259638A1 (en) * | 2011-04-08 | 2012-10-11 | Sony Computer Entertainment Inc. | Apparatus and method for determining relevance of input speech |
US8885882B1 (en) * | 2011-07-14 | 2014-11-11 | The Research Foundation For The State University Of New York | Real time eye tracking for human computer interaction |
KR101262700B1 (ko) * | 2011-08-05 | 2013-05-08 | 삼성전자주식회사 | 음성 인식 및 모션 인식을 이용하는 전자 장치의 제어 방법 및 이를 적용한 전자 장치 |
US20130103446A1 (en) * | 2011-10-20 | 2013-04-25 | Microsoft Corporation | Information sharing democratization for co-located group meetings |
US9020825B1 (en) * | 2012-09-25 | 2015-04-28 | Rawles Llc | Voice gestures |
US9575562B2 (en) * | 2012-11-05 | 2017-02-21 | Synaptics Incorporated | User interface systems and methods for managing multiple regions |
US9218052B2 (en) * | 2013-03-14 | 2015-12-22 | Samsung Electronics Co., Ltd. | Framework for voice controlling applications |
-
2013
- 2013-03-15 US US13/840,525 patent/US20140282273A1/en not_active Abandoned
-
2014
- 2014-03-05 CN CN201480009014.8A patent/CN105074620B/zh active Active
- 2014-03-05 EP EP14769838.5A patent/EP2972685A4/en not_active Withdrawn
- 2014-03-05 JP JP2015558234A patent/JP2016512632A/ja active Pending
- 2014-03-05 KR KR1020157021980A patent/KR101688359B1/ko active IP Right Grant
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002311990A (ja) * | 2000-12-19 | 2002-10-25 | Hewlett Packard Co <Hp> | 音声制御式機器の活動化方法およびシステム |
JP2003223188A (ja) * | 2002-01-29 | 2003-08-08 | Toshiba Corp | 音声入力システム、音声入力方法及び音声入力プログラム |
WO2010035491A1 (ja) * | 2008-09-29 | 2010-04-01 | パナソニック株式会社 | ユーザインターフェース装置、ユーザインターフェース方法、及び記録媒体 |
JP2012533134A (ja) * | 2009-07-13 | 2012-12-20 | マイクロソフト コーポレーション | ユーザーから学習した入力を介し視覚表示を実写のようにする方法及びシステム |
US20110119640A1 (en) * | 2009-11-19 | 2011-05-19 | Microsoft Corporation | Distance scalable no touch computing |
JP2011192081A (ja) * | 2010-03-15 | 2011-09-29 | Canon Inc | 情報処理装置及びその制御方法 |
WO2012040030A2 (en) * | 2010-09-20 | 2012-03-29 | Kopin Corporation | Bluetooth or other wireless interface with power management for head mounted display |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10298732B2 (en) | 2016-07-27 | 2019-05-21 | Kyocera Corporation | Electronic device having a non-contact detection sensor and control method |
US10536571B2 (en) | 2016-07-27 | 2020-01-14 | Kyocera Corporation | Electronic device having a non-contact detection sensor and control method |
Also Published As
Publication number | Publication date |
---|---|
US20140282273A1 (en) | 2014-09-18 |
EP2972685A1 (en) | 2016-01-20 |
EP2972685A4 (en) | 2016-11-23 |
CN105074620A (zh) | 2015-11-18 |
KR101688359B1 (ko) | 2016-12-20 |
KR20150130986A (ko) | 2015-11-24 |
CN105074620B (zh) | 2018-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2016512632A (ja) | 音声およびジェスチャー・コマンド領域を割り当てるためのシステムおよび方法 | |
US11516040B2 (en) | Electronic device and method for controlling thereof | |
US10056096B2 (en) | Electronic device and method capable of voice recognition | |
US11354825B2 (en) | Method, apparatus for generating special effect based on face, and electronic device | |
US20210168330A1 (en) | Display apparatus and control methods thereof | |
EP3341851B1 (en) | Gesture based annotations | |
US10346014B2 (en) | System and method for provisioning a user interface for scaling and tracking | |
US10438588B2 (en) | Simultaneous multi-user audio signal recognition and processing for far field audio | |
US20150088515A1 (en) | Primary speaker identification from audio and video data | |
US10685666B2 (en) | Automatic gain adjustment for improved wake word recognition in audio systems | |
US20140281975A1 (en) | System for adaptive selection and presentation of context-based media in communications | |
US20140379351A1 (en) | Speech detection based upon facial movements | |
US10440497B2 (en) | Multi-modal dereverbaration in far-field audio systems | |
US10831440B2 (en) | Coordinating input on multiple local devices | |
US11019162B2 (en) | System and method for provisioning a user interface for sharing | |
WO2020220809A1 (zh) | 目标对象的动作识别方法、装置和电子设备 | |
KR20210124313A (ko) | 인터랙티브 대상의 구동 방법, 장치, 디바이스 및 기록 매체 | |
KR20200054354A (ko) | 전자 장치 및 그 제어 방법 | |
WO2017052880A1 (en) | Augmented reality with off-screen motion sensing | |
TWI544367B (zh) | 手勢辨識與控制方法及其裝置 | |
WO2020061792A1 (en) | Real-time multi-view detection of objects in multi-camera environments | |
US20140152540A1 (en) | Gesture-based computer control | |
WO2014149700A1 (en) | System and method for assigning voice and gesture command areas | |
WO2020192247A1 (zh) | 人机交互方法及系统、介质和计算机系统 | |
US20240056761A1 (en) | Three-dimensional (3d) sound rendering with multi-channel audio based on mono audio input |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160713 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160726 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161021 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20170214 |