JP2016512632A

JP2016512632A - 音声およびジェスチャー・コマンド領域を割り当てるためのシステムおよび方法

Info

Publication number: JP2016512632A
Application number: JP2015558234A
Authority: JP
Inventors: ジェイ．アンダーソン，グレン
Original assignee: インテルコーポレイション
Priority date: 2013-03-15
Filing date: 2014-03-05
Publication date: 2016-04-28
Also published as: US20140282273A1; EP2972685A1; EP2972685A4; CN105074620A; KR101688359B1; KR20150130986A; CN105074620B

Abstract

ユーザー音声および空中ジェスチャー・コマンドを受領するためのユーザー入力コマンド領域を割り当て、コンピューティング装置の複数のアプリケーションのユーザー対話および制御を許容するためのシステムおよび方法。システムは、前記複数のアプリケーションのそれぞれについてコンピューティング環境内の三次元ユーザー入力コマンド領域を割り当てることをユーザーに許容するよう構成されている音声および空中ジェスチャー捕捉システムを含む。音声および空中ジェスチャー捕捉システムは、コンピューティング環境内の一つまたは複数のセンサーによって捕捉されたデータを受領し、該データに基づいてユーザー入力を識別するよう構成される。ユーザー入力は、一つまたは複数のユーザー入力コマンド領域内でのユーザー発話および／または空中ジェスチャー・コマンドを含む。音声および空中ジェスチャー捕捉システムはさらに、識別されたユーザー入力コマンド領域に基づいてユーザー入力に対応するアプリケーションを識別し、前記ユーザー入力に基づく、識別されたアプリケーションとのユーザー対話を許容するよう構成されている。

Description

本開示は、ユーザー・インターフェースに関し、より詳細には、コンピューティング環境における複数のアプリケーションと対話し、これを制御するために音声および空中ジェスチャー・コマンド領域を割り当てるためのシステムおよび方法に関する。

現在のコンピューティング・システムは、ディスプレイ内でユーザーに対してかなりの量の情報を呈示する手段を提供する。一般に、コンピューティング・システムのグラフィカル・ユーザー・インターフェース（GUI）は、コンテンツ・フレームまたは「ウィンドー」内でユーザーに対して情報を呈示する。一般に、各ウィンドーは、情報を表示してもよく、および／またはコンピューティング・システム上で実行される対応するアプリケーションと対話してこれを制御するためのインターフェースを含んでいてもよい。たとえば、あるウィンドーはワードプロセシング・アプリケーションに対応し、進行中の手紙を表示しもよく、その間、別のウィンドーがウェブ・ブラウザーに対応し、ウェブ・ページを表示してもよく、その間、別のウィンドーがメディア・プレーヤー・アプリケーションに対応し、ビデオを表示してもよい。

ウィンドーは、比喩的に「デスクトップ」と称される領域においてユーザーのコンピュータ・ディスプレイ上に呈示されてもよい。現在のコンピューティング・システムはユーザーがディスプレイ上で複数の開いたウィンドーを維持することを許容する。そのため、各ウィンドーに関連する情報が常時、容易にユーザーにとって利用可能となる。複数のウィンドーが同時に表示されるとき、該複数のウィンドーは同時に独立して表示されてもよく、あるいは部分的にまたは完全に互いに重なり合ってもよい。ディスプレイ上に複数のウィンドーを表示する結果として、ウィンドーでちらかった表示になることがあり、各ウィンドーに関連するコンテンツを制御するためにユーザーが絶えず各ウィンドーを操作することを要求することがある。

ディスプレイ内の複数のウィンドーの管理および該複数のウィンドーとのユーザー対話はユーザーによって実行される空中ジェスチャー入力技術を組み込むコンピューティング・システムではさらに複雑にされうる。いくつかの現在のコンピューティング・システムは、コンピューティング・システム上のアプリケーションと対話してこれを制御するために、ユーザーによって実行される空中ジェスチャーを通じてユーザー入力を受け入れる。一般に、これらのユーザーによって実行される空中ジェスチャーは、（タッチスクリーン・ジェスチャーに対し）空中ジェスチャー〔エア・ジェスチャー〕と称される。

いくつかの場合には、無関係な空中ジェスチャーが、複数の実行中アプリケーションの一つとの望まれない対話および入力を引き起こすことがある。これは、ユーザーがマルチウィンドーのディスプレイにおいて空中ジェスチャーを試み、複数の開いているウィンドーの一つとだけ対話することを意図しているときに特に当てはまりうる。たとえば、ユーザーが、追加的な開いているウィンドーをもつディスプレイ上で、現在開いているメディア・プレーヤー・ウィンドー上での楽曲の再生を制御することを望むことがありうる。ユーザーは、あらかじめ定義された動きでユーザーの手を振るなど、メディア・プレーヤーのための「再生」コマンドに関連付けられている空中ジェスチャーを実行してもよい。しかしながら、同じ空中ジェスチャーが別のアプリケーションについての異なるコマンドを表わすことがありうる。たとえば、メディア・プレーヤー上で「再生」コマンドを表わす空中ジェスチャーは、ウェブ・ブラウザーについての「終了」コマンドを表わすことがありうる。よって、マルチ・ウィンドー・ディスプレイのために、ユーザーの空中ジェスチャーは、ユーザーが制御しようと意図している特定のアプリケーションに関して、曖昧になることがある。コンピューティング・システムは、ユーザーの空中ジェスチャーがメディア・プレーヤーを制御するよう意図されたものであることを認識できないことがあり、ユーザーの空中ジェスチャーに異なる、意図されないアプリケーションを制御させることがありうる。これはユーザーにとって特にいらだたしいこととなり、所望されるアプリケーションおよびプログラムを制御するためにコンピューティング・システムとより多大なユーザー対話を要求することがありうる。

特許請求される主題の特徴および利点は、それと整合する実施形態の以下の詳細な説明から明白となるであろう。該説明は、付属の図面を参照して考慮されるべきである。
本開示と整合する音声および空中ジェスチャー・コマンド領域を割り当てるためのシステムのある実施形態を示すブロック図である。本開示と整合する音声および空中ジェスチャー・コマンド領域を割り当てるためのシステムの別の実施形態を示すブロック図である。図１のシステムをより詳細に示すブロック図である。本開示と整合する、表示された複数のウィンドーならびに該複数のウィンドーと対話するための割り当てられた音声および空中ジェスチャー・コマンド領域をもつ例示的なグラフィカル・ユーザー・インターフェース（GUI）を含む電子ディスプレイを示す図である。本開示のさまざまな実施形態と整合する、図４の電子ディスプレイおよびGUIおよび割り当てられた音声および空中ジェスチャー・コマンド領域ならびにコマンド領域を介してGUIと対話するユーザーを含む、コンピューティング環境の斜視図である。本開示と整合する、音声および空中ジェスチャー・コマンド領域を割り当てるためのある実施形態を示す流れ図である。

概観として、本開示は概して、ユーザー音声および空中ジェスチャー・コマンドを受領するためのユーザー入力コマンド領域を割り当て、割り当てられたユーザー入力コマンド領域に基づいて複数のアプリケーションのユーザー対話および制御を許容するためのシステムおよび方法に向けられる。システムは、コンピューティング環境内のGUIを介して一つまたは複数のアプリケーションとのユーザー対話をモニタリングするよう構成された音声および空中ジェスチャー捕捉システムを含む。GUIはたとえば、電子ディスプレイ上で呈示される複数の開いたウィンドーを含んでいてもよく、各ウィンドーは開いている、実行中のアプリケーションに対応する。音声および空中ジェスチャー捕捉システムは、ユーザーが、たとえば前記複数のウィンドーのそれぞれに対応する一つまたは複数のアプリケーションのためのユーザー入力コマンド領域を割り当てることを許容するよう構成されている。ここで、各ユーザー入力コマンド領域は、コンピューティング環境内で、少なくとも前記電子ディスプレイとの関係で三次元空間を定義する。

音声および空中ジェスチャー捕捉システムは、コンピューティング環境内の一つまたは複数のセンサーによって捕捉されたデータを受領するよう構成されている。ここで、前記データは、一つまたは複数のユーザー入力コマンド領域内のユーザー発話および／または空中ジェスチャー・コマンドを含む。音声および空中ジェスチャー捕捉システムはさらに、捕捉されたデータの解析に基づいてユーザー入力を識別するよう構成されている。より具体的には、音声および空中ジェスチャー捕捉システムは、ユーザーによって実行された特定の音声および／または空中ジェスチャー・コマンドならびに該音声および／または空中ジェスチャー・コマンドが行なわれた対応するユーザー入力コマンド領域を識別するよう構成されている。音声および空中ジェスチャー捕捉システムはさらに、少なくとも部分的には、識別されたユーザー入力コマンド領域に基づいて前記ユーザー入力に対応するアプリケーションを識別し、ユーザーが前記ユーザー入力に基づいて、識別されたアプリケーションと対話し、これを制御することを許容するよう構成されている。

本開示と整合するシステムは、ユーザーに、コンピューティング環境内の割り当てられたユーザー入力コマンド領域によって、多様なアプリケーションを管理し、これと対話する改善された手段を提供する。たとえば、電子ディスプレイ上に呈示される複数のウィンドーの同時表示をもつGUIとのユーザー対話の場合、システムは、各ウィンドーに関連付けられたアプリケーションを制御する効率的かつ効果的な手段を提供するよう構成される。特に、システムは、ユーザーがディスプレイ上に呈示される各ウィンドーに対応する三次元のコマンド領域を割り当てることを許容するよう構成される。それによりユーザーは、対応する三次元のコマンド領域内で実行される音声および／または空中ジェスチャー・コマンドに基づいて、各ウィンドーおよび関連付けられているアプリケーションと対話し、これを制御しうる。よって、本開示と整合するシステムは、ユーザーが、割り当てられたユーザー入力コマンド領域の一つの中で音声および／または空中ジェスチャー・コマンドを実行することによって、多様な異なるウィンドーを制御するために同じ音声および／または空中ジェスチャー・コマンドを利用することを許容する。

図１に目を転じると、本開示と整合するシステム１０のある実施形態が概括的に示されている。システムは、コンピューティング装置１２、音声および空中ジェスチャー捕捉システム１４、一つまたは複数のセンサー１６および電子ディスプレイ１８を含む。本稿でより詳細に述べるように、音声および空中ジェスチャー捕捉システム１４は、コンピューティング環境をモニタリングし、コンピューティング環境内の電子ディスプレイ１８上に呈示されるグラフィカル・ユーザー・インターフェース（GUI）でのユーザー入力および対話を識別するよう構成されている。より具体的には、音声および空中ジェスチャー捕捉システム１４は、ユーザーが、電子ディスプレイ１８上に呈示されたGUIの複数の開いたウィンドーを効率的かつ効果的に管理することを許容する。ここで、各ウィンドーは、コンピューティング装置１２の開いている実行中のアプリケーションに対応する。

音声および空中ジェスチャー捕捉システム１４は、ユーザーが複数のウィンドーのそれぞれについてユーザー入力コマンド領域を割り当てることを許容するよう構成される。ここで、各ユーザー入力コマンド領域は、コンピューティング環境内で、少なくとも電子ディスプレイ１８との関係で三次元空間を定義する（図４、図５に示す）。音声および空中ジェスチャー捕捉システム１４は、コンピューティング環境内の一つまたは複数のセンサー１６によって捕捉されたデータを受領するよう構成される。一つまたは複数のセンサー１６は、コンピューティング環境の一つまたは複数の割り当てられたユーザー入力コマンド領域内のユーザー発話および空中ジェスチャー・コマンドの少なくとも一つを捕捉するよう構成されていてもよい。これについては、本稿でより詳細に述べる。

前記一つまたは複数のセンサー１６によって捕捉されたデータを受信し、処理すると、音声および空中ジェスチャー捕捉システム１４は、捕捉されたデータに基づいてユーザー入力を識別するよう構成されている。識別されたユーザー入力は、ユーザーによって実行された特定の音声および／または空中ジェスチャー・コマンドならびに該音声および／または空中ジェスチャー・コマンドが行なわれた対応するユーザー入力コマンド領域を含んでいてもよい。音声および空中ジェスチャー捕捉システム１４はさらに、少なくとも部分的には、識別されたユーザー入力コマンド領域に基づいて前記ユーザー入力に対応するウィンドーを識別し、ユーザーが前記ユーザー入力に基づいて、識別されたウィンドーおよび関連付けられたアプリケーションと対話し、これを制御することを許容するよう構成されている。

コンピューティング装置１２、音声および空中ジェスチャー捕捉システム１４、一つまたは複数のセンサー１６および電子ディスプレイ１８は、任意の既知の有線または無線通信伝送プロトコルを介して互いと通信するよう構成されていてもよい。

一般に理解されるところでは、コンピューティング装置１２は、ハードウェア・コンポーネントおよび／またはソフトウェア・コンポーネントを含んでいてもよく、それによりコンピューティング装置１２はゲーム・アプリケーション、非ゲーム・アプリケーションなどといったアプリケーションを実行するために使用されうる。本稿に記載されるいくつかの実施形態では、一つまたは複数の実行中のアプリケーションは、電子ディスプレイ１８のユーザー・インターフェース上に呈示される関連付けられたウィンドーを含んでいてもよい。コンピューティング装置１２は、パーソナル・コンピュータ（PC）（たとえばデスクトップまたはノートブック・コンピュータ）、タブレット・コンピュータ、ネットブック・コンピュータ、スマートフォン、携帯型ビデオ・ゲーム機、ビデオ・ゲーム・コンソール、携帯情報端末（PDA: portable digital assistant）、携帯型メディア・プレーヤー（PMP: portable media player）、電子書籍、モバイル・インターネット・デバイス、パーソナル・ナビゲーション装置および他のコンピューティング装置を含みうるが、それに限られない。

電子ディスプレイ１８は、コンピューティング装置１２および音声および空中ジェスチャー捕捉システム１４から入力を受領し、該入力に関係した視覚的および／または聴覚的情報を提供するよう構成されたいかなるオーディオビジュアル・ディスプレイ装置を含んでいてもよい。たとえば、電子ディスプレイ１８は、コンピューティング装置１２上で実行される一つまたは複数のアプリケーションの、音声および空中ジェスチャー捕捉システム１４からのユーザー入力に基づくビジュアルおよび／またはオーディオを提供するよう構成される。電子ディスプレイ１８は、テレビジョン、モニタ、電子看板、高精細度テレビジョン（HDTV）などを含みうるが、それに限られない。

図示した実施形態では、音声および空中ジェスチャー捕捉システム１４、一つまたは複数のセンサー１６および電子ディスプレイ１８は互いから別個である。他の実施形態では、当業者によって一般に理解されるように、コンピューティング装置１２は任意的に、図２のシステム１０ａにおいて示されているように、一つまたは複数のセンサー１６および／または電子ディスプレイ１８を含んでいてもよい。一つまたは複数のセンサー１６および／または電子ディスプレイ１８をコンピューティング装置１２の外部の要素ではなくコンピューティング装置１２の一部として任意的に含むことは、図２では破線で示されている。さらに、一般に理解されるように、音声および空中ジェスチャー捕捉システム１４はコンピューティング装置１２から別個であってもよい。

図３に目を転じると、図１のシステム１０がより詳細に示されている。先述したように、音声および空中ジェスチャー捕捉システム１４は、少なくとも一つのセンサー１６から捕捉されたデータを受領するよう構成されている。図のように、システム１０は、コンピューティング環境内の少なくとも一のユーザーのさまざまな属性を捕捉するよう構成された多様なセンサーを含んでいてもよい。さまざまな属性とは、たとえば、ユーザーの身体の一つまたは複数の部分の動きを含むユーザーの物理的特徴およびユーザーからの声の入力を含む可聴特徴などである。たとえば、図示した実施形態では、システム１０は、コンピューティング環境およびその中の一または複数のユーザーのデジタル画像を捕捉するよう構成された少なくとも一つのカメラ２０と、一または複数のユーザーの声データを含む環境の音データを捕捉するよう構成されている少なくとも一つのマイクロフォン２２とを含む。

図３はさらに、図１の音声および空中ジェスチャー捕捉システム１４をより詳細に示している。図３に示される音声および空中ジェスチャー捕捉システム１４は、本開示と整合する音声および空中ジェスチャー捕捉システム１４の一例であることは理解されるはずである。よって、本開示と整合する音声および空中ジェスチャー捕捉システムは、図示されているより多数または少数のコンポーネントを有していてもよく、二つ以上のコンポーネントを組み合わせてもよく、あるいはそれらのコンポーネントの異なる構成または配置を有していてもよい。図３に示されるさまざまなコンポーネントは、一つまたは複数の信号処理および／または特定用途向け集積回路を含め、ハードウェア、ソフトウェアまたはハードウェアとソフトウェアの組み合わせにおいて実装されてもよい。

図のように、カメラ２０およびマイクロフォン２２は、音声および空中ジェスチャー捕捉システム１４のカメラおよびオーディオ・フレームワーク・モジュール２４に入力を提供するよう構成されている。カメラおよびオーディオ・フレームワーク・モジュール２４は、一般によく定義され、少なくともカメラ２０およびマイクロフォン２２を制御するよう動作可能なカスタムの、独自の、既知のおよび／またはのちに開発される画像処理および／またはオーディオ・コード（または命令セット）を含んでいてもよい。たとえば、カメラおよびオーディオ・フレームワーク・モジュール２４は、カメラ２０およびマイクロフォン２２に、画像、コンピューティング環境内のオブジェクトおよびユーザーへの距離および／または音を捕捉し、記録させてもよく、画像および／または音を処理してもよく、画像および／または音を再生させてもよい、など。カメラおよびオーディオ・フレームワーク・モジュール２４は、音声および空中ジェスチャー捕捉システム１４に依存して、より具体的には、音声および空中ジェスチャー捕捉システム１４および／またはコンピューティング装置１２において実行されているオペレーティング・システム（OS）に依存して変わりうる。

音声および空中ジェスチャー捕捉システム１４はさらに、センサー１６の少なくとも一つによって捕捉されたデータを受領し、捕捉されたデータに基づいてユーザー入力２８を確立するよう構成されている発話およびジェスチャー認識モジュール２６を含む。図示した実施形態では、発話およびジェスチャー認識モジュール２６は、前記少なくとも一つのカメラ２０によって捕捉される一つまたは複数のデジタル画像を受領するよう構成されている。カメラ２０は、コンピューティング環境および該コンピューティング環境内の一または複数のユーザーを表わすデジタル画像を捕捉するための任意の装置（既知のまたはのちに発見されるもの）を含む。

たとえば、カメラ２０は、スチール・カメラ（すなわち、スチール写真を捕捉するよう構成されたカメラ）またはビデオ・カメラ（すなわち、複数のフレームにおいて複数の動いている画像を捕捉するよう構成されたカメラ）を含みうる。カメラ２０は、可視スペクトルにおいてまたは電磁スペクトルの他の部分（たとえば赤外スペクトル、紫外スペクトルなどだがこれに限られない）を用いて画像を捕捉するよう構成されていてもよい。カメラ２０はさらに、本稿でのちにより詳細に述べる、たとえば奥行き値を決定するための任意の技法（既知のまたはのちに発見されるもの）によって決定される奥行き値のような奥行き情報をもつデジタル画像を捕捉するよう構成されていてもよい。たとえば、カメラ２０は、コンピューティング環境内のシーンの奥行き画像を捕捉するよう構成されていてもよい奥行きカメラを含んでいてもよい。カメラ２０は、シーンの奥行き画像を捕捉するよう構成された三次元（3D）カメラおよび／またはRGBカメラを含んでいてもよい。

カメラ２０は、コンピューティング装置１２および／または音声および空中ジェスチャー捕捉システム１４内に組み込まれてもよく、あるいはコンピューティング装置１２および／または音声および空中ジェスチャー捕捉システム１４と有線または無線通信を介して通信するよう構成されている別個の装置であってもよい。カメラ１２０の具体例は、コンピュータ、ビデオ・モニタなどに付随しうるような有線（たとえばユニバーサル・シリアル・バス（USB）、イーサネット（登録商標）、ファイアワイヤなど）または無線（たとえば、WiFi、ブルートゥースなど）のウェブ・カメラ、モバイル装置カメラ（たとえば、先に論じた例示的なコンピューティング装置などに統合されている携帯電話またはスマートフォンのカメラ）、統合されたラップトップ・コンピュータ・カメラ、統合されたタブレット・コンピュータ・カメラなどを含んでいてもよい。

ある例示的な実施形態では、システム１０は、コンピューティング環境内の単一のカメラ２０であって、たとえば電子ディスプレイ１８に隣接するなど所望される位置に位置され（図５に示す）、電子ディスプレイ１８に近接したコンピューティング環境および該コンピューティング環境内の一または複数のユーザーの画像を捕捉するよう構成されているものを含んでいてもよい。他の実施形態では、システム１０は、コンピューティング環境内のさまざまな位置に位置される、該環境内の一または複数のユーザーの画像を異なるアングルから捕捉してたとえば奥行き情報の決定において使われる視覚的ステレオを取得する複数のカメラ２０を含んでいてもよい。

カメラ２０からの画像を受領すると、発話およびジェスチャー認識モジュール２６は、カメラ２０によって与えられた画像内のユーザーの身体の一つまたは複数の部分を識別し、そのような識別された身体部分の動きを追跡してユーザーによって実行される一つまたは複数の空中ジェスチャーを決定するよう構成されていてもよい。たとえば、発話およびジェスチャー認識モジュール２６は、一般によく定義され、画像（たとえばRGBカラー画像だがそれに限られない）を受領し、少なくともある程度まで該画像におけるユーザーの手を識別し、一連の画像を通じて検出された手を追跡して手の動きに基づいて空中ジェスチャーを判別するよう動作可能なカスタムの、独自の、既知のおよび／またはのちに開発される識別および／または検出コード（または命令セット）、ハードウェアおよび／またはファームウェアを含んでいてもよい。発話およびジェスチャー認識モジュール２６は、頭、胴体、腕、手、脚、足を含む多様な身体部分および領域の動きと、シーン内でのユーザーの全体的な位置とを識別し、追跡するよう構成されていてもよい。

発話およびジェスチャー認識モジュール２６はさらに、ユーザーの識別された身体部分の動きが発生したコンピューティング環境内での特定の空間的領域を識別するよう構成されていてもよい。たとえば、発話およびジェスチャー認識モジュール２６は、一般によく定義され、少なくともある程度まで、ユーザーの手のような識別されたユーザー身体部分の動きが発生した複数のユーザー入力コマンド領域のうちの一つを識別するよう動作可能なカスタムの、独自の、既知のおよび／またはのちに開発される空間的認識コード（または命令セット）、ハードウェアおよび／またはファームウェアを含んでいてもよい。

発話およびジェスチャー認識モジュール２６はさらに、少なくとも一つのマイクロフォン２２によって捕捉されたコンピューティング環境内のユーザーの声データを受領するよう構成されている。マイクロフォン２２は、一または複数の人物の声データを捕捉するための任意の装置（既知のまたはのちに発見されるもの）を含み、前記一または複数の人物の音声解析のための十分なデジタル分解能を有していてもよい。マイクロフォン２２がコンピューティング装置１２および／または音声および空中ジェスチャー捕捉システム１４内に組み込まれてもよく、あるいは任意の既知の有線または無線の通信を介してメディア音声および空中ジェスチャー捕捉システム１４と通信するよう構成されている別個の装置であってもよいことを注意しておくべきである。

マイクロフォン２２からの音声データを受領すると、発話およびジェスチャー認識モジュール２６は、任意の既知の発話解析方法を使って、音声データの特定の主題を識別するよう構成されていてもよい。たとえば、発話およびジェスチャー認識モジュール２６は、一般によく定義され、音声データを受領して発話をテキスト・データに変換するよう動作可能なカスタムの、独自の、既知のおよび／またはのちに開発される発話認識および特徴コード（または命令セット）、ハードウェアおよび／またはファームウェアを含んでいてもよい。発話およびジェスチャー認識モジュール２６は、当業者によって一般に理解されるように、電子ディスプレイ上のGUIの一つまたは複数のウィンドーとの対話のためにユーザーからの一つまたは複数の話されたコマンドを識別するよう構成されていてもよい。

発話およびジェスチャー認識モジュール２６はさらに、ユーザーの声入力がその中で投射されたまたは発生したコンピューティング環境内の特定の空間的領域を識別するよう構成されていてもよい。たとえば、発話およびジェスチャー認識モジュール２６は、一般によく定義され、少なくともある程度まで、ユーザーの声入力がそのほうにまたはその中で投射された、複数のユーザー入力コマンド領域のうちの一つを識別するよう動作可能なカスタムの、独自の、既知のおよび／またはのちに開発される空間的認識コード（または命令セット）、ハードウェアおよび／またはファームウェアを含んでいてもよい。

ある実施形態では、システム１０は、コンピューティング環境内の声データを捕捉するよう構成された単一のマイクロフォンを含んでいてもよい。他の実施形態では、システム１０は、コンピューティング環境を通じて位置される諸マイクロフォンのアレイを含んでいてもよい。各マイクロフォンは、コンピューティング環境の特定の領域の声データを捕捉するよう構成され、それにより空間的認識を可能にする。たとえば、第一のマイクロフォンは電子ディスプレイ１８のある側に位置されディスプレイ１８のその側のほうに向けられた声入力のみを捕捉するよう構成されていてもよい。同様に、第二のマイクロフォンはディスプレイ１８の反対側に位置されディスプレイの該反対側のほうに向けられた声入力のみを捕捉するよう構成されていてもよい。

センサー１６からの画像および／または声データを含む捕捉されたデータを受領し、解析すると、発話およびジェスチャー認識モジュール２６は、捕捉されたデータの解析に基づいて、ユーザー入力２８を生成するよう構成されている。ユーザー入力２８は、ユーザー動きに基づく識別された空中ジェスチャー、空中ジェスチャーが発生した対応するユーザー入力コマンド領域、音声コマンドおよび音声コマンドがそのほうに向けられたまたはその中で発生した対応するユーザー入力コマンド領域を含みうるが、それに限られない。

音声およびジェスチャー捕捉システム１４はさらに、ユーザーが、電子ディスプレイ１８上に呈示される各ウィンドーおよび関連付けられたアプリケーションと対話することを許容するよう構成されているアプリケーション制御モジュール３０を含む。より具体的には、アプリケーション制御モジュール３０は、発話および認識モジュール２６からのユーザー入力２８を受領して、該ユーザー入力２８に基づいて制御されるべき一つまたは複数のアプリケーションを識別するよう構成されている。

図のように、音声およびジェスチャー捕捉システム１４は、コンピューティング装置１２上で実行されるよう構成されている複数のアプリケーションまたは機能のうちの対応する一つのためにユーザーがユーザー入力コマンド領域を割り当てることを許容するよう構成されている入力マッピング・モジュール３２を含む。たとえば、入力マッピング・モジュール３２は、一般によく定義され、ユーザーが、コンピューティング環境のあらかじめ定義されたユーザー入力コマンド領域をアプリケーション・データベース３４からの対応するアプリケーションに割り当てることを許容するよう動作可能なカスタムの、独自の、既知のおよび／またはのちに開発されるトレーニング・コード（または命令セット）、ハードウェアおよび／またはファームウェアを含んでいてもよい。それにより、割り当てられたユーザー入力コマンド領域内のいかなるユーザー入力（たとえば音声および／または空中ジェスチャー・コマンド）の結果として対応するアプリケーションの一つまたは複数のパラメータの制御が行なわれる。

アプリケーション制御モジュール３０は、受領されたユーザー入力２８に関係したデータを、入力マッピング・モジュール３２に記憶された一つまたは複数の割り当てプロファイル３３（１）〜３３（ｎ）に関連付けられたデータと比較して、ユーザー入力２８に関連付けられたアプリケーションを識別するよう構成されていてもよい。特に、アプリケーション制御モジュール３０は、マッチするユーザー入力コマンド領域をもつプロファイルを見出すために、ユーザー入力２８の識別されたユーザー入力コマンド領域を、割り当てプロファイル３３（１）〜３３（ｎ）と比較するよう構成されていてもよい。各割り当てプロファイル３３は、一般に、コンピューティング環境の複数のユーザー入力コマンド領域のうちの一つと、該一つの入力コマンド領域が割り当てられている対応するアプリケーションとに関係したデータを含んでいてもよい。たとえば、コンピューティング環境は六つの異なるユーザー入力コマンド領域を含んでいてもよく、各コマンド領域が別個のアプリケーションと関連付けられていてもよい。よって、特定のユーザー入力コマンド領域内で実行されるいかなる音声および／または空中ジェスチャーも、その特定のユーザー入力コマンド領域と関連付けられたアプリケーションのパラメータを制御するだけである。

任意の既知のまたはのちに発見されるマッチング技法によって入力マッピング・モジュール３２においてマッチするプロファイルを見出したら、アプリケーション制御モジュール３０は、マッチするプロファイルのデータに基づいて、アプリケーション・データベース３４から、音声および／またはジェスチャー・コマンドが発生したユーザー入力コマンド領域が割り当てられているアプリケーションを識別するよう構成されている。アプリケーション制御モジュール３０はさらに、ユーザー入力２８（たとえば音声および／または空中ジェスチャー・コマンド）に基づく、実行中のアプリケーションの一つまたは複数のパラメータのユーザー制御を許容するよう構成されている。一般に理解されるように、各アプリケーションは、該アプリケーションのさまざまなパラメータを制御するために、対応する音声およびジェスチャー・データベース３６からの既知の音声およびジェスチャー・コマンドのあらかじめ決定された集合を有していてもよい。

音声および空中ジェスチャー捕捉システム１４はさらに、一つまたは複数の実行中のアプリケーションを制御するためのユーザー入力コマンドを含む、アプリケーション制御モジュール３０からの入力を受領し、電子ディスプレイ１８にオーディオビジュアル信号を提供し、実行中のアプリケーションに関連付けられたウィンドーのユーザー対話および制御を許容するよう構成されたディスプレイ・レンダリング・モジュール３８を含む。音声および空中ジェスチャー捕捉システム１４はさらに、音声および空中ジェスチャー捕捉システム１４およびそれに含まれるモジュールの一つまたは複数に関連する動作を実行するよう構成されている一つまたは複数のプロセッサ４０を含んでいてもよい。

ここで図４および図５に目を転じると、コンピューティング環境１００のある実施形態が概括的に示されている。図４は、複数のウィンドー１０４（１）〜１０４（ｎ）が表示されている例示的なグラフィカル・ユーザー・インターフェース（GUI）１０２を有する電子ディスプレイ１８のある実施形態の正面図を描いている。先述したように、各ウィンドー１０４は一般にコンピューティング装置１０２上で実行されているアプリケーションに対応する。たとえば、ウィンドー１０４（１）はメディア・プレーヤー・アプリケーションに対応してもよく、ウィンドー１０４（２）はビデオ・ゲーム・アプリケーションに対応してもよく、ウィンドー１０４（３）はウェブ・ブラウザーに対応してもよく、ウィンドー１０４（ｎ）はワードプロセシング・アプリケーションに対応してもよい。コンピューティング装置１２上で実行されるよう構成されたいくつかのアプリケーションは、ディスプレイ１８上に呈示される関連付けられたウィンドーを含まないことがあることを注意しておくべきである。よって、いくつかのユーザー入力コマンド領域はそのようなアプリケーションに割り当てられていてもよい。

図のように、ユーザー入力コマンド領域Ａ〜Ｄはコンピューティング環境１００内に含まれる。先述したように、ユーザー入力コマンド領域Ａ〜Ｄは一般に、電子ディスプレイ１８および一つまたは複数のセンサー１６との関係で三次元の（図５に示される）空間を定義し、ユーザーはその中で、一つまたは複数のアプリケーションおよび対応するウィンドー１０４（１）〜１０４（ｎ）を制御するために特定の音声および空中ジェスチャー・コマンドを実行しうる。

図５は、図４のコンピューティング環境１００の斜視図が概括的に示されている。図のように、コンピューティング環境１００は、複数のウィンドー１０４（１）〜１０４（ｎ）が呈示されているGUI １０２を有する電子ディスプレイ１８を含む。一つまたは複数のセンサー１６（カメラ２０およびマイクロフォン２２の形の）は、コンピューティング環境１００内のユーザー動きおよび／または発話を捕捉するよう、コンピューティング環境１００内に位置されている。コンピューティング環境１００はさらに、割り当てられた音声および空中ジェスチャー・コマンド領域Ａ〜Ｅと、コマンド領域Ａ〜Ｅを介してマルチウィンドーGUI １０２と対話するユーザー１０６とを含んでいる。図のように、各ユーザー入力コマンド領域Ａ〜Ｅは、コンピューティング環境１００内で、少なくとも電子ディスプレイ１８との関連で三次元空間を定義する。先述したように、ユーザーが電子ディスプレイ上の特定のウィンドー１０４と対話することを望むとき、ユーザーは、その特定のウィンドー１０４に関連付けられた割り当てられたユーザー入力コマンド領域Ａ〜Ｅ内で一つまたは複数の音声および／または空中ジェスチャー・コマンドを実行するだけでよい。

たとえば、ユーザー１０６は、ウィンドー１０４（１）のメディア・プレーヤー・アプリケーションと対話し、ウィンドー１０４（３）のウェブ・ブラウザーと対話することを欲していることがある。ユーザーは、すでに音声および空中ジェスチャー捕捉システム１４を利用して、先述したように、ユーザー入力コマンド領域Ｃをウィンドー１０４（１）に対応するものとして、ユーザー入力コマンド領域Ｅをウィンドー１０４（３）に対応するものとして割り当てていることがありうる。ユーザーは、コンピューティング環境１００内で、話してもよいし、および／または腕および手のような身体の一つまたは複数の部分を用いて一つまたは複数の動作を実行してもよい。特に、ユーザー１０６は、ユーザー入力コマンド領域Ｃに向かう方向にあらかじめ定義された音声コマンドを話し、ユーザー入力コマンド領域Ｅ内であらかじめ定義された空中ジェスチャー（たとえば腕を上に振り上げる）を実行してもよい。

先述したように、カメラ２０およびマイクロフォン２２が、ユーザーの音声および／または空中ジェスチャー・コマンドに関係したデータを捕捉するよう構成されている。音声および空中ジェスチャー捕捉システム１４は、捕捉されたデータを受領して処理し、ユーザー１０６によって実行されたあらかじめ定義された音声および空中ジェスチャー・コマンドおよびユーザーの音声および空中ジェスチャー・コマンドが実行された特定のユーザー入力コマンド領域（それぞれ領域ＣおよびＥ）を含むユーザー入力を識別するよう構成されている。一方、音声および空中ジェスチャー捕捉システム１４は、識別されたユーザー入力コマンド領域（それぞれ領域ＣおよびＥ）に対応するウィンドー１０４（１）および１０４（３）を識別し、さらに前記ユーザー入力に基づいて、ユーザー１０６が、ウィンドー１０４（１）および１０４（３）に関連付けられたアプリケーション（たとえばそれぞれメディア・プレーヤーおよびウェブ・ブラウザー）の一つまたは複数のパラメータを制御できるようにするよう構成されている。

図示した実施形態では、ユーザー入力コマンド領域Ａ〜Ｅは、電子ディスプレイ１８のすべての側（たとえば、上下左右）および電子ディスプレイ１８の中央に位置されている。他の実施形態では、音声および空中ジェスチャー捕捉システム１４は、電子ディスプレイ１８との関係で多様な異なる寸法および位置において複数の異なるユーザー入力コマンド領域を割り当てるよう構成されていてもよく、図４および図５に描かれた構成に限定されないことを注意しておくべきである。

ここで図６に目を転じると、音声および空中ジェスチャー・コマンド領域を割り当てる方法６００のある実施形態のフローチャートが概括的に示されている。本方法は、コンピューティング環境と、ユーザー・インターフェースと対話しようとしているその中の少なくとも一のユーザーとをモニタリングすることを含む（動作６１０）。コンピューティング環境は、ユーザー・インターフェースが表示される電子ディスプレイを含んでいてもよい。ユーザー・インターフェースは、複数の開いているウィンドーを有していてもよく、それぞれの開いているウィンドーは開いている実行中のアプリケーションに対応していてもよい。本方法はさらに、ユーザーの発話および／またはユーザー・インターフェースとの空中ジェスチャー対話に関係したデータを捕捉することを含む（動作６２０）。該データは、コンピューティング環境内の一つまたは複数のセンサーによって捕捉されてもよく、該データは、一つまたは複数の割り当てられたユーザー入力コマンド領域内でのユーザーの発話および／または空中ジェスチャー・コマンドを含む。各ユーザー入力コマンド領域は、コンピューティング環境内で、少なくとも前記電子ディスプレイとの関係で三次元空間を定義する。

本方法はさらに、捕捉されたデータの解析に基づいて、ユーザー入力と、複数のユーザー入力コマンド領域のうちの一つとを識別することを含む（動作６３０）。ユーザー入力は、ユーザーによって実行された識別された音声および／または空中ジェスチャー・コマンドと、識別された音声および／または空中ジェスチャー・コマンドが発生した対応するユーザー入力コマンド領域とを含む。本方法はさらに、少なくとも部分的には前記識別されたユーザー入力コマンド領域に基づいて、電子ディスプレイ上に呈示された関連付けられているアプリケーションを識別することを含む（動作６４０）。本方法はさらに、前記ユーザー入力に基づく、識別された関連付けられたアプリケーションのユーザー制御を提供することを含む。

図６はさまざまな実施形態に基づく方法動作を示しているものの、いかなる実施形態でも、これらの動作の全部が必要なわけではないことは理解しておくものとする。実際、本稿においては、本開示の他の実施形態では図６に描かれる諸動作は、どの図面にも具体的に示されないがそれでも本開示と完全に整合する仕方で組み合わされてもよいことが十分に考えられている。よって、一つの図面に厳密には示されていない特徴および／または動作に向けられる請求項が、本開示の範囲および内容に含まれると見なされる。

加えて、上記実施形態についての動作はさらに上記の図面および付随する例を参照して記述されてきた。図面のいくつかは、論理的な流れを含むことがある。本稿に呈示されるそのような図面は特定の論理的な流れを含むことがあるが、かかる論理的な流れは単に本稿に記載される一般的な機能がどのように実装されることができるかの例を与えるものであることは理解できる。さらに、与えられた論理的な流れは、特に断わりのない限り、必ずしも、呈示された順序で実行される必要はない。加えて、与えられた論理的な流れは、ハードウェア要素、プロセッサによって実行されるソフトウェア要素またはそれらの任意の組み合わせによって実装されうる。これらの実施形態はこのコンテキストに限定されない。

本稿での任意の実施形態において使われるところでは、用語「モジュール」は、上述した動作のいずれかを実行するよう構成されたソフトウェア、ファームウェアおよび／または回路を指しうる。ソフトウェアは、ソフトウェア・パッケージ、コード、命令、命令セットおよび／またはデータであって、非一時的なコンピュータ可読記憶媒体上に記録されたものとして具現されてもよい。ファームウェアはコード、命令または命令セットおよび／またはデータであって、メモリ・デバイス中に固定構成（たとえば不揮発性）とされたものとして具現されてもよい。「回路」は、本稿の任意の実施形態において使われるところでは、たとえば、単独でまたは任意の組み合わせにおいて、固定結線の回路、一つまたは複数の個別の命令処理コアを有するコンピュータ・プロセッサのようなプログラム可能な回路、状態機械回路および／またはプログラム可能な回路によって実行される命令を記憶するファームウェアを含んでいてもよい。諸モジュールは、まとめてまたは個々に、より大きなシステム、たとえば集積回路、システムオンチップ（SoC）、デスクトップ・コンピュータ、ラップトップ・コンピュータ、タブレット・コンピュータ、サーバー、スマートフォンなどの一部をなす回路として具現されてもよい。

本稿に記載される動作の任意のものは、一つまたは複数のプロセッサによって実行されたときに上記の諸方法を実行する命令を個々にまたは組み合わせにおいて記憶している一つまたは複数の記憶媒体を含むシステムにおいて実装されてもよい。ここで、前記プロセッサは、たとえば、サーバーCPU、モバイル装置CPUおよび／または他のプログラム可能な回路を含んでいてもよい。

また、本稿に記載される動作は、二つ以上の異なる物理的な位置にある処理構造のような、複数の物理的な装置を横断して分散されてもよいことが意図されている。記憶媒体は、いかなる型の有体の媒体を含んでいてもよく、たとえばハードディスク、フロッピー（登録商標）ディスク、光ディスク、コンパクトディスク読み出し専用メモリ（CD-ROM）、コンパクトディスク書き換え可能型（CD-RW）および光磁気ディスクを含む任意の型のディスク、読み出し専用メモリ（ROM）、動的および静的RAMのようなランダム・アクセス・メモリ（RAM）、消去可能なプログラム可能な読み出し専用メモリ（EPROM）、電気的に消去可能なプログラム可能な読み出し専用メモリ（EEPROM）、フラッシュメモリ、ソリッドステートディスク（SSD）のような半導体デバイス、磁気または光カードまたは電子的な命令を記憶するのに好適な任意の型の媒体を含んでいてもよい。他の実施形態は、プログラム可能な制御装置によって実行されるソフトウェア・モジュールとして実装されてもよい。記憶媒体は非一時的であってもよい。

本稿で述べたように、さまざまな実施形態は、ハードウェア要素、ソフトウェア要素または両者の組み合わせを使って実装されてもよい。ハードウェア要素の例は、プロセッサ、マイクロプロセッサ、回路、回路要素（たとえば、トランジスタ、抵抗器、キャパシタ、インダクタなど）、集積回路、特定用途向け集積回路（ASIC）、プログラム可能型論理デバイス（PLD）、デジタル信号プロセッサ（DSP）、フィールド・プログラム可能型ゲート・アレイ（FPGA）、論理ゲート、レジスタ、半導体デバイス、チップ、マイクロチップ、チップセットなどを含んでいてもよい。

本明細書を通じた「一つの実施形態」または「ある実施形態」への言及は、その実施形態との関連で記述される特定の特徴、構造または特性が少なくとも一つの実施形態に含まれることを意味する。よって、本明細書を通じた随所で「一つの実施形態において」または「ある実施形態において」という句が出現することは、必ずしも全部が同じ実施形態を指すのではない。さらに、該特定の特徴、構造または特性は、一つまたは複数の実施形態においていかなる好適な仕方で組み合わされてもよい。

以下の例はさらなる実施形態に関する。一例では、音声および空中ジェスチャー・コマンド領域を割り当てるための装置が提供される。該装置は、コンピューティング環境およびその中の少なくとも一のユーザーに関係した少なくとも一つのセンサーによって捕捉されるデータを受領し、捕捉されたデータに基づいてユーザーの一つまたは複数の属性を同定するよう構成された認識モジュールを含んでいてもよい。認識モジュールはさらに、前記ユーザー属性に基づいてユーザー入力を確立するよう構成されていてもよい。ここで、前記ユーザー入力は、音声コマンドおよび空中ジェスチャー・コマンドならびに該音声または空中ジェスチャー・コマンドが発生した、複数のユーザー入力コマンド領域のうちの対応する一つのうちの少なくとも一つを含む。本装置はさらに、前記ユーザー入力および前記ユーザー入力によって制御されるべきアプリケーションを受領して、少なくとも部分的には前記ユーザー入力が発生したユーザー入力コマンド領域に基づいて、解析するよう構成されたアプリケーション制御モジュールを含んでいてもよい。アプリケーション制御モジュールはさらに、前記ユーザー入力に基づいて、ユーザーの、識別されたアプリケーションとの対話および該アプリケーションの一つまたは複数のパラメータの制御を許容するよう構成されている。

上記の例示的な装置はさらに、前記少なくとも一つのセンサーが、前記コンピューティング環境およびその中の前記少なくとも一のユーザーの一つまたは複数の画像を捕捉するよう構成されたカメラであるよう構成されていてもよい。この構成において本例示的な装置はさらに、前記認識モジュールが、捕捉された画像に基づいて一つまたは複数のユーザー身体部分の動きを識別して追跡し、識別されたユーザー身体部分動きに対応する一つまたは複数の空中ジェスチャー・コマンドを判別し、各空中ジェスチャー・コマンドが行なわれた対応するユーザー入力コマンド領域を識別するよう構成されているよう構成されていてもよい。

上記の例示的な装置はさらに、単独でまたは上記のさらなる構成との組み合わせにおいて、前記少なくとも一つのセンサーが前記コンピューティング環境内のユーザーの声データを捕捉するよう構成されているマイクロフォンであるよう構成されていてもよい。この構成において本例示的な装置はさらに、前記認識モジュールが、捕捉された声に基づいてユーザーからの一つまたは複数の音声コマンドを識別し、各音声コマンドが発生したまたはそのほうに向けられていた対応するユーザー入力コマンド領域を識別するよう構成されているよう構成されていてもよい。

上記の例示的な装置はさらに、単独でまたは上記のさらなる構成との組み合わせにおいて、ユーザーが、前記複数のユーザー入力コマンド領域の一つを複数のアプリケーションのうちの対応する一つに割り当てることを許容するよう構成されている入力マッピング・モジュールを含んでいてもよい。この構成において、本例示的な装置はさらに、前記入力マッピング・モジュールが、一つまたは複数の割り当てプロファイルを含み、各割り当てプロファイルは、前記複数のユーザー入力コマンド領域の一つと、該一つのユーザー入力コマンド領域が割り当てられている対応するアプリケーションとに関係するデータを含むよう構成されていてもよい。この構成において、本例示的な装置はさらに、前記アプリケーション制御モジュールが、前記認識モジュールから受領されたユーザー入力を、前記割り当てプロファイルのそれぞれと比較して、前記ユーザー入力に関連付けられたアプリケーションを識別するよう構成されていてもよい。この構成において、本例示的な装置は、前記アプリケーション制御モジュールが、前記ユーザー入力の識別されたユーザー入力コマンド領域を、前記割り当てプロファイルの各プロファイルのユーザー入力コマンド領域と比較し、該比較に基づいてマッチする割り当てプロファイルを識別するよう構成されているよう構成されていてもよい。

上記の例示的な装置はさらに、単独でまたは上記のさらなる構成との組み合わせにおいて、各ユーザー入力コマンド領域が前記コンピューティング環境内の三次元空間を含み、マルチウィンドー・ユーザー・インターフェースが呈示される電子ディスプレイとの関係において位置付けされるよう構成されていてもよい。ここで、ウィンドーのいくつかはアプリケーションに対応する。

もう一つの例では、音声および空中ジェスチャー・コマンド領域を割り当てるための方法が提供される。該方法は、コンピューティング環境および該コンピューティング環境内の、ユーザー・インターフェースと対話しようとしている少なくとも一のユーザーをモニタリングする段階と、前記コンピューティング環境内の少なくとも一つのセンサーによって捕捉されるデータを受領する段階と、捕捉されたデータに基づいて前記コンピューティング環境内の前記少なくとも一のユーザーの一つまたは複数の属性を識別する段階と、前記ユーザー属性に基づいてユーザー入力を確立する段階であって、前記ユーザー入力は、音声コマンドおよび空中ジェスチャー・コマンドならびに該音声または空中ジェスチャー・コマンドが発生した、複数のユーザー入力コマンド領域のうちの対応する一つのうちの少なくとも一つを含む、段階と、少なくとも部分的には前記対応するユーザー入力コマンド領域に基づいて、前記ユーザー入力によって制御されるべきアプリケーションを識別する段階とを含んでいてもよい。

上記の例示的な方法はさらに、前記ユーザー入力に基づいた、識別された関連付けられたアプリケーションの一つまたは複数のパラメータのユーザー制御を許容する段階を含んでいてもよい。

上記の例示的な方法はさらに、単独でまたは上記のさらなる構成との組み合わせにおいて、ユーザーが、前記複数のユーザー入力コマンド領域の一つを複数のアプリケーションのうちの対応する一つに割り当てる段階と、前記複数のユーザー入力コマンド領域の前記一つと、該ユーザー入力コマンド領域が割り当てられている対応するアプリケーションとに関係するデータを有する割り当てプロファイルを生成する段階とを含んでいてもよい。この構成において、本例示的な方法はさらに、前記ユーザー入力によって制御されるべきアプリケーションを識別する前記段階が、ユーザー入力を、アプリケーションおよび該アプリケーションに割り当てられている前記複数のユーザー入力コマンド領域のうちの一つに関係したデータを有する複数の割り当てプロファイルと比較して、該比較に基づいて前記ユーザー入力にマッチするデータを有する割り当てプロファイルを識別する段階とを含む。この構成において、本例示的な方法はさらに、マッチする割り当てプロファイルを識別する前記段階が、前記ユーザー入力の識別されたユーザー入力コマンド領域を、前記割り当てプロファイルの各プロファイルのユーザー入力コマンド領域と比較し、マッチするユーザー入力コマンド領域を有する割り当てプロファイルを識別することを含むよう構成されていてもよい。

もう一つの例では、機械によって実行されたときに、該機械に、上記の例示的な方法のいずれかの動作を実行させる命令を記憶している少なくとも一つのコンピュータ・アクセス可能媒体が提供される。

もう一つの例では、上記の例示的な方法のいずれかを実行するよう構成されたシステムが提供される。

もう一つの例では、音声および空中ジェスチャー・コマンド領域を割り当てるためのシステムが提供される。本システムは、コンピューティング環境および該コンピューティング環境内の、ユーザー・インターフェースと対話しようとしている少なくとも一のユーザーをモニタリングする手段と、前記コンピューティング環境内の少なくとも一つのセンサーによって捕捉されるデータを受領する手段と、捕捉されたデータに基づいて前記コンピューティング環境内の前記少なくとも一のユーザーの一つまたは複数の属性を識別し、前記ユーザー属性に基づいてユーザー入力を確立する手段であって、前記ユーザー入力は、音声コマンドおよび空中ジェスチャー・コマンドならびに該音声または空中ジェスチャー・コマンドが発生した、複数のユーザー入力コマンド領域のうちの対応する一つのうちの少なくとも一つを含む、手段と、少なくとも部分的には前記対応するユーザー入力コマンド領域に基づいて、前記ユーザー入力によって制御されるべきアプリケーションを識別する手段とを含んでいてもよい。

上記の例示的なシステムはさらに、前記ユーザー入力に基づいた、識別された関連付けられたアプリケーションの一つまたは複数のパラメータのユーザー制御を許容する手段を含んでいてもよい。

上記の例示的なシステムはさらに、単独でまたは上記のさらなる構成との組み合わせにおいて、前記複数のユーザー入力コマンド領域の一つを複数のアプリケーションのうちの対応する一つに割り当てる手段と、前記複数のユーザー入力コマンド領域の前記一つと、該ユーザー入力コマンド領域が割り当てられている対応するアプリケーションとに関係するデータを有する割り当てプロファイルを生成する手段とを含んでいてもよい。この構成において、本例示的なシステムはさらに、前記ユーザー入力によって制御されるべきアプリケーションの前記識別が、ユーザー入力を、アプリケーションおよび該アプリケーションに割り当てられている前記複数のユーザー入力コマンド領域のうちの一つに関係したデータを有する複数の割り当てプロファイルと比較する手段と、該比較に基づいて前記ユーザー入力にマッチする割り当てプロファイルを識別する手段とを含む。この構成において、本例示的なシステムはさらに、マッチする割り当てプロファイルの前記識別が、前記ユーザー入力の識別されたユーザー入力コマンド領域を、前記割り当てプロファイルの各プロファイルのユーザー入力コマンド領域と比較し、マッチするユーザー入力コマンド領域を有する割り当てプロファイルを識別することを含む。

本稿で用いられた用語および表現は、限定ではなく説明の用語として使われており、そのような用語および表現の使用において、図示および記載された特徴（またはその一部）のいかなる等価物をも排除する意図はない。請求項の範囲内でさまざまな修正が可能であることが認識される。よって、請求項は、そのようなすべての等価物をカバーすることが意図されている。

Claims

音声および空中ジェスチャー・コマンド領域を割り当てるための装置であって、該装置は：
コンピューティング環境およびその中の少なくとも一のユーザーに関係した少なくとも一つのセンサーによって捕捉されたデータを受領し、前記捕捉されたデータに基づいて前記ユーザーの一つまたは複数の属性を識別し、前記ユーザー属性に基づいてユーザー入力を確立するよう構成された認識モジュールであって、前記ユーザー入力は、音声コマンドおよび空中ジェスチャー・コマンドならびに該音声または空中ジェスチャー・コマンドが発生した、複数のユーザー入力コマンド領域のうちの対応する一つのうちの少なくとも一つを含む、認識モジュールと；
前記ユーザー入力および前記ユーザー入力によって制御されるべきアプリケーションを受領して、少なくとも部分的には前記ユーザー入力が発生した前記ユーザー入力コマンド領域に基づいて、解析し、前記ユーザー入力に基づいて、ユーザーの、前記識別されたアプリケーションとの対話および該アプリケーションの一つまたは複数のパラメータの制御を許容するよう構成されたアプリケーション制御モジュールとを有する、
装置。
前記少なくとも一つのセンサーが、前記コンピューティング環境および前記少なくとも一のユーザーの一つまたは複数の画像を捕捉するよう構成されたカメラである、請求項１記載の装置。
前記認識モジュールが、前記捕捉された画像に基づいて一つまたは複数のユーザー身体部分の動きを識別して追跡し、前記識別されたユーザー身体部分動きに対応する一つまたは複数の空中ジェスチャー・コマンドを判別し、各空中ジェスチャー・コマンドが発生した対応するユーザー入力コマンド領域を識別するよう構成されている、請求項２記載の装置。
前記少なくとも一つのセンサーが前記コンピューティング環境内の前記ユーザーの声データを捕捉するよう構成されているマイクロフォンである、請求項１記載の装置。
前記認識モジュールが、前記捕捉された声に基づいて前記ユーザーからの一つまたは複数の音声コマンドを識別し、各音声コマンドが発生したまたはそのほうに向けられていた対応するユーザー入力コマンド領域を識別するよう構成されている、請求項４記載の装置。
ユーザーが、前記複数のユーザー入力コマンド領域の一つを複数のアプリケーションのうちの対応する一つに割り当てることを許容するよう構成されている入力マッピング・モジュールをさらに有する、請求項１記載の装置。
前記入力マッピング・モジュールが、一つまたは複数の割り当てプロファイルを有しており、各割り当てプロファイルは、前記複数のユーザー入力コマンド領域の一つと、該一つのユーザー入力コマンド領域が割り当てられている対応するアプリケーションとに関係するデータを含む、請求項６記載の装置。
前記アプリケーション制御モジュールが、前記認識モジュールから受領されたユーザー入力を、前記割り当てプロファイルのそれぞれと比較して、前記ユーザー入力に関連付けられたアプリケーションを識別するよう構成されている、請求項７記載の装置。
前記アプリケーション制御モジュールが、前記ユーザー入力の識別されたユーザー入力コマンド領域を、前記割り当てプロファイルの各プロファイルのユーザー入力コマンド領域と比較し、該比較に基づいてマッチする割り当てプロファイルを識別するよう構成されている、請求項８記載の装置。
各ユーザー入力コマンド領域が前記コンピューティング環境内の三次元空間を含み、マルチウィンドー・ユーザー・インターフェースが呈示される電子ディスプレイとの関係において位置付けされ、前記ウィンドーのいくつかは関連付けられたアプリケーションに対応する、請求項１ないし９のうちいずれか一項記載の装置。
音声および空中ジェスチャー・コマンド領域を割り当てる方法であって、該方法は：
コンピューティング環境および該コンピューティング環境内の、ユーザー・インターフェースと対話しようとしている少なくとも一のユーザーをモニタリングする段階と；
前記コンピューティング環境内の少なくとも一つのセンサーによって捕捉されたデータを受領する段階と；
前記捕捉されたデータに基づいて前記コンピューティング環境内の前記少なくとも一のユーザーの一つまたは複数の属性を識別し、前記ユーザー属性に基づいてユーザー入力を確立する段階であって、前記ユーザー入力は、音声コマンドおよび空中ジェスチャー・コマンドならびに該音声または空中ジェスチャー・コマンドが発生した、複数のユーザー入力コマンド領域のうちの対応する一つのうちの少なくとも一つを含む、段階と；
少なくとも部分的には前記対応するユーザー入力コマンド領域に基づいて、前記ユーザー入力によって制御されるべきアプリケーションを識別する段階とを含む、
方法。
前記ユーザー入力に基づいた、前記識別された関連付けられたアプリケーションの一つまたは複数のパラメータのユーザー制御を許容する段階をさらに含む、請求項１１記載の方法。
前記複数のユーザー入力コマンド領域の一つを複数のアプリケーションのうちの対応する一つに割り当てる段階と；
前記複数のユーザー入力コマンド領域の前記一つと、該ユーザー入力コマンド領域が割り当てられている前記対応するアプリケーションとに関係するデータを有する割り当てプロファイルを生成する段階とをさらに含む、
請求項１１記載の方法。
前記ユーザー入力によって制御されるべきアプリケーションを識別する前記段階が：
ユーザー入力を、アプリケーションおよび該アプリケーションに割り当てられている前記複数のユーザー入力コマンド領域のうちの一つに関係したデータを有する複数の割り当てプロファイルと比較する段階と；
該比較に基づいて前記ユーザー入力にマッチするデータを有する割り当てプロファイルを識別する段階とを含む、
請求項１３記載の方法。
マッチする割り当てプロファイルを識別する前記段階が、前記ユーザー入力の識別されたユーザー入力コマンド領域を、前記割り当てプロファイルの各プロファイルのユーザー入力コマンド領域と比較し、マッチするユーザー入力コマンド領域を有する割り当てプロファイルを識別する段階を含む、
請求項１４記載の方法。
機械によって実行されたときに、該機械に、請求項１１ないし１５のうちいずれか一項記載の方法を実行させる命令を記憶している少なくとも一つのコンピュータ・アクセス可能媒体。
請求項１１ないし１５のうちいずれか一項記載の方法を実行するよう構成されているシステム。