JP2023042181A

JP2023042181A - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP2023042181A
Application number: JP2021149348A
Authority: JP
Inventors: 正明小林; Masaaki Kobayashi
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2021-09-14
Filing date: 2021-09-14
Publication date: 2023-03-27
Also published as: US20230079969A1

Abstract

【課題】オブジェクトの動きの認識結果を操作に利用する状況下において、操作の誤認識の発生をより抑制可能とする。【解決手段】ＧＰＵ１０５は、オブジェクトの動きを解析する。ＣＰＵ１０１は、検出された音を解析することで当該音を識別する。ＣＰＵ１０１は、上記オブジェクトの動きの解析結果を含む動き情報と、上記音の識別結果を含む音識別情報と、の組み合わせに応じた処理を実行する。【選択図】図２

Description

本開示は、情報処理装置、情報処理方法、及びプログラムに関する。

従来の情報処理装置は、キーボードやマウス、スティック型のコントローラなど、物理的なスイッチを伴う入力デバイスを利用して操作するのが一般的であった。これに対して、近年は、撮像画像からのジェスチャ認識による操作や、音声認識を利用した操作等のような、物理的なスイッチを介さない操作方法が実用化されてきている。
特に、近年では、ＨＭＤ（ＨｅａｄＭｏｕｎｔｅｄＤｉｓｐｌａｙ）型のＸＲ情報処理端末が普及し始めている。ＸＲとは、ＶＲ（ＶｉｒｔｕａｌＲｅａｌｉｔｙ、仮想現実）、ＡＲ（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ，拡張現実）、ＭＲ（ＭｉｘｅｄＲｅａｌｉｔｙ，複合現実）を総称する言葉である。ＨＭＤ型のＸＲ情報処理端末を使用する場合には、コントローラを手に持って操作を行うことが多いが、アプリケーションによっては、コントローラを手に持って操作を行うことがユーザにとって不便であったり、そもそも難しい場合もある。一方で、情報処理装置の計算能力とオブジェクト検出技術の向上に伴い、コントローラを使わずに、撮像画像からのジェスチャ認識等をリアルタイムで実行することで情報処理端末を操作することが可能になりつつある。非特許文献１には、指とその動き（ジェスチャ操作）を認識し、当該認識の結果を情報処理端末の操作に応用する技術の一例が開示されている。

ＭｅｄｉａＰｉｐｅＨａｎｄｓ：Ｏｎ－ｄｅｖｉｃｅＲｅａｌ－ｔｉｍｅＨａｎｄＴｒａｃｋｉｎｇＦａｎＺｈａｎｇＶａｌｅｎｔｉｎＢａｚａｒｅｖｓｋｙＡｎｄｒｅｙＶａｋｕｎｏｖＡｎｄｒｅｉＴｋａｃｈｅｎｋａＧｅｏｒｇｅＳｕｎｇＣｈｕｏ－ＬｉｎｇＣｈａｎｇＭａｔｔｈｉａｓＧｒｕｎｄｍａｎｎ，ＣＶＰＲＷｏｒｋｓｈｏｐｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎｆｏｒＡｕｇｍｅｎｔｅｄａｎｄＶｉｒｔｕａｌＲｅａｌｉｔｙ，Ｓｅａｔｔｌｅ，ＷＡ，ＵＳＡ，２０２０

一方で、手や指等のオブジェクトの動きをジェスチャとして認識されて当該認識の結果を操作に利用される状況下では、ユーザが操作を意図していないオブジェクトの動きがジェスチャとして誤認識されることで、誤動作が誘発される場合がある。

本発明は上記の問題を鑑み、オブジェクトの動きの認識結果を操作に利用する状況下において、操作の誤認識の発生をより抑制可能とすることを目的とする。

本発明に係る情報処理装置は、オブジェクトの動きを解析する動き解析手段と、検出された音を解析することで当該音を識別する音識別手段と、前記オブジェクトの動きの解析結果を含む動き情報と、前記音の識別結果を含む音識別情報と、の組み合わせに応じた処理を実行する制御手段と、を備えることを特徴とする。

本発明によれば、オブジェクトの動きの認識結果を操作に利用する状況下において、操作の誤認識の発生をより抑制することが可能となる。

情報処理装置の構成の一例を示した図である。情報処理装置の処理の一例を示したフローチャートである。画像情報と音識別情報との組合せに応じた動作の一例を示した図である。マーカーコードの一例を示した図である。画像情報と音識別情報との組合せに応じた動作の一例を示した図である。情報処理装置の処理の一例を示したフローチャートである。画像情報と音識別情報との組合せに応じた動作の一例を示した図である。情報処理装置の処理の一例を示したフローチャートである。情報処理装置の処理の一例を示したフローチャートである。画像情報と音識別情報との組合せに応じた動作の一例を示した図である。情報処理装置の処理の一例を示したフローチャートである。画像情報と音識別情報との組合せに応じた動作の一例を示した図である。画像からのオブジェクトの検出に係る手法の一例を示した図である。システムモーダルなウィンドウの一例を示した図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

＜第１の実施形態＞
本開示の第１の実施形態として、撮像画像からオブジェクトを検出し、検出された複数のオブジェクト間の接触判定と、ユーザが発声した音声等のような音の解析結果とを利用した、情報処理装置の操作を実現するための仕組みの一例について説明する。
なお、本実施形態では、便宜上、情報処理装置がＨＭＤ型のＸＲ情報処理端末であり、情報処理端末のＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）上で動画プレイヤーのアプリケーションが実行され、ユーザが動画を視聴しながら操作を行うものとする。また、ＨＭＤ型の情報処理端末は、筐体に、表示パネル、モーションセンサ、カメラモジュール、マイク、通信モジュール、バッテリー、及びシステム基盤が内蔵されているものとする。また、カメラモジュールは、ＨＭＤがユーザの頭部に装着された場合における、当該ユーザの視線が向けられる方向を撮像するように、当該ＨＭＤの筐体に支持されているものとする。すなわち、本実施形態においては、上記カメラモジュールが、ユーザの視線が向けられた方向を撮像する「撮像装置」の一例に相当する。

（構成）
図１（ａ）を参照して、本実施形態に係る情報処理装置（ＨＭＤ型のＸＲ情報処理端末）の構成の一例について説明する。なお、図１（ｂ）に示す構成については、第３の実施形態とあわせて別途後述する。

本実施形態に係る情報処理装置は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１０１と、不揮発性メモリ１０２と、メモリ１０３と、ＵＩデバイス接続部１０４と、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１０５とを含む。また、情報処理装置は、画像取得部１０６と、音声取得部１０７と、動き・姿勢検出部１０８とを含む。情報処理装置に含まれる各構成要素は、バス１００を介して相互にデータを送受信可能に接続される。すなわち、バス１００は、情報処理装置内のデータの流れを司る。

ＣＰＵ１０１は、内蔵されたソフトウェアを実行し、情報処理装置の各構成要素の動作を制御する。
不揮発性メモリ１０２は、プログラム及びデータを記憶する記憶領域である。
メモリ１０３は、プログラムやデータを一時的に記憶する記憶領域である。例えば、メモリ１０３は、情報処理装置の起動時に不揮発性メモリ１０２に格納されたプログラムやデータがロードされる。また、メモリ１０３は、取得された画像のデータや生成された画像のデータを記憶してもよい。また、メモリ１０３は、ＣＰＵ１０１のワークエリアとしても機能する。
ＵＩデバイス接続部１０４は、ＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ）を実現するための各種デバイスの接続に係るインタフェースである。本実施形態では、ＵＩデバイス接続部１０４は、通信モジュールを介して、無線通信によりコントローラのからの入力を受け付けるものとする。
ＧＰＵ１０５は、ＣＧ等の各種画像を生成するための処理を実行するプロセッサである。ＧＰＵ１０５は、生成した画像データを表示パネル等の出力装置に転送することで、当該出力装置に当該画像データに基づく画像を表示させる。

画像取得部１０６は、カメラモジュールに接続され、当該カメラモジュールからデジタルの画像データ（例えば、ＲＧＢの画像データ）を取得する。なお、前述したように、カメラモジュールは、ＨＭＤ型の情報処理端末として構成された情報処理装置の筐体に支持され、当該情報処理装置を装着したユーザの視線が向けられた方向を撮像するものとする。
音声取得部１０７は、マイクロフォン等の集音デバイスに接続され、当該集音デバイスから集音結果に応じたデジタルの音（例えば、ユーザが発声した音声や周囲の環境音等）のデータを取得する。
動き・姿勢検出部１０８は、モーションセンサ等のような情報処理装置の筐体の動きや姿勢（傾き）の変化を検知するセンサに接続され、当該センサから出力される情報に基づき、当該筐体の動きや姿勢の変化を検出する。このように動き・姿勢検出部１０８が情報処理装置の動きや姿勢の変化を検出することで、当該情報処理装置を装着したユーザの動きにあわせてＧＰＵ１０５がＣＧオブジェクトをレンダリングし、その結果に応じた画像を表示パネルに表示させることが可能となる。これにより、例えば、ユーザの視線が向けられた方向が変化した場合に、視線が向けられた方向に応じて、ＣＧ等の仮想オブジェクトの見え方を制御することで、所謂ＸＲ（例えば、ＶＲ、ＡＲ、及びＭＲ等）を実現することが可能となる。

（処理）
次いで、図２を参照して、本実施形態に係る情報処理装置の処理の一例について、特に、複数のオブジェクト間の接触判定と、ユーザが発声した音声等の音の解析結果とを利用した当該情報処理装置の操作の実現に係るフレームごとの動作に着目して説明する。

Ｓ２０００において、画像取得部１０６は、カメラモジュールの撮像結果に応じた画像のデータを取得する。具体的な一例として、画像取得部１０６は、カメラモジュールから所定のフレームレート（例えば、１／６０秒単位）で撮像結果に応じた画像のデータを取得してもよい。なお、情報処理装置は、カメラモジュールからの画像のデータの取得が完了するまでは、次の処理の実行を待つ。これにより、カメラモジュールと情報処理装置との間の処理の同期がとられることとなる。

Ｓ２０１０において、ＧＰＵ１０５は、Ｓ２０００において取得したデータが示す画像から第１のオブジェクトを検出する（換言すると、第１のオブジェクトを識別する）。本実施形態では、ＧＰＵ１０５は、ユーザの右手の指を第１のオブジェクトとして、当該右手の指を示す第１の矩形の領域を、取得したデータが示す画像から検出するものとする。
ここで、図１３を参照して、画像からのオブジェクトの検出に係る手法の一例について説明する。図１３に示す例では、画像取得部１０６による右手指と左手首の検出結果の一例が模式的に示されている。具体的には、図１３に示す例では、右手指が検出された位置が矩形の領域により示されている。なお、画像に撮像されたオブジェクトの検出方法については、既存の技術を適用することが可能であるため、詳細な説明は省略する。

Ｓ２０２０において、ＧＰＵ１０５は、取得したデータが示す画像から第２のオブジェクトを検出する（換言すると、第２のオブジェクトを識別する）。本実施形態では、ＧＰＵ１０５は、ユーザの左手首を第２のオブジェクトとして、当該左手首を示す第２の矩形の領域を、取得したデータが示す画像から検出するものとする。例えば、図１３に示す例では、左手首が検出された位置が矩形の領域により示されている。

Ｓ２０３０において、ＧＰＵ１０５は、仮想空間の画像（例えば、ＣＧ）の描画を行い、描画された当該画像を当該ＧＰＵ１０５に接続された表示パネルに表示させる。本実施形態では、ＧＰＵ１０５は、Ｓ２０１０において検出された第１のオブジェクト（右手指）と、Ｓ２０２０において検出された第２のオブジェクト（左手首）とを仮想空間に描画するものとする。これにより、例えば、第１のオブジェクト及び第２のオブジェクトそれぞれの検出結果と仮想空間の画像とが合成された画像が描画される。なお、この際に描画される第１のオブジェクト及び第２のオブジェクトそれぞれの画像については、カメラモジュールによる撮像結果に応じた実写の画像であってもよいし、ＣＧモデルのような仮想的な画像であってもよい。
また、ＧＰＵ１０５は、第１のオブジェクトや第２のオブジェクトに対してあたかも装着されているかのように、他の仮想オブジェクトを重畳させてもよい。具体的な一例として、ＧＰＵ１０５は、第２のオブジェクトである左手首に対して、腕時計型のデバイスが装着されているように、当該デバイスを示す仮想オブジェクトを重畳させてもよい。また、ＧＰＵ１０５は、第１のオブジェクトや第２のオブジェクトの検出結果を示す情報を描画してもよい。例えば、図１３に示す例のように、ＧＰＵ１０５は、第１のオブジェクト（右手指）及び第２のオブジェクト（左手首）それぞれが検出された位置を矩形の領域を描画することで示している。

Ｓ２０４０において、ＧＰＵ１０５は、第１のオブジェクトと第２のオブジェクトとが接触したか否かを判定する。
ＧＰＵ１０５は、Ｓ２０４０において第１のオブジェクトと第２のオブジェクトとが接触したと判定した場合には、処理をＳ２０５０に進める。
これに対して、ＧＰＵ１０５は、Ｓ２０４０において第１のオブジェクトと第２のオブジェクトとが接触していないと判定した場合には、処理をＳ２０００に進める。この場合には、Ｓ２０００以降の処理が改めて実行されることとなる。
なお、第１のオブジェクトと第２のオブジェクトとの接触判定については、例えば、第１の矩形と第２の矩形とが画像上でオーバーラップするか否かに応じて行われてもよい。この場合には、第１の矩形と第２の矩形とが画像上でオーバーラップする場合には接触と判定され、そうでない場合には非接触と判定されることとなる。

Ｓ２０５０において、音声取得部１０７は、情報処理装置の周囲の音の集音結果に応じた当該音のデータ（以降では、「音響データ」とも称する）を音情報として取得する。なお、本実施形態では、図２に示す処理フローとは別に、リングバッファに３秒分の音響データが常に記録され続けており、Ｓ２０５０の処理が実行されたタイミングで、直近の３秒分のデジタルの音響データが取得されるものとする。

Ｓ２０６０において、ＣＰＵ１０１は、Ｓ２０５０において取得された音情報に対して解析処理（例えば、音響解析処理や音声認識処理等）を施すことで、集音された音を識別し、当該音の識別結果を示す音識別情報を生成する。具体的な一例として、ＣＰＵ１０１は、デジタルの音響データが示す音のうち音声に相当する部分に対して音声認識処理を施すことで、発声された単語を認識し、当該単語の認識結果を含む音識別情報を生成してもよい。また、この際に、ＣＰＵ１０１は、自然言語処理等の所謂言語解析処理に基づき、発声された一連の単語のうち同義語に相当する複数の単語ついては同じ意味を示す情報として扱われるように識別してもよい。なお、音の識別方法や音声の認識方法等については特に限定されず、既存の技術を適用することが可能であるため、詳細な説明は省略する。また、図３に示す例では、本実施形態に係る技術の特徴をよりわかりやすくするために、識別の対象となる音が音声であり、音識別情報として、当該音声の識別結果を示す音声識別情報が生成されるものとする。

Ｓ２０７０において、ＣＰＵ１０１は、第１のオブジェクト及び第２のオブジェクトそれぞれの動きの解析結果（例えば、オブジェクト間の接触の検出結果）に応じた情報と、Ｓ２０６０において取得された音声識別情報との組み合わせに応じた処理を実行する。

例えば、図３は、第１のオブジェクト及び第２のオブジェクトそれぞれの動きの解析結果に応じた情報と音声識別情報との組み合わせに応じて実行される処理の一例について、特に、動画プレイヤーのコマンドが実行される場合に着目して示している。
具体的には、「画像情報」の列には、撮像画像からの検出の対象（換言すると、識別の対象）となる２つのオブジェクトと、当該２つのオブジェクトの動きによる条件とが規定されている。具体的には、「オブジェクト１」及び「オブジェクト２」の列には、撮像画像からの検出対象となる２つのオブジェクト（第１のオブジェクト及び第２のオブジェクト）が規定されている。また、「条件」の列には、検出対象となるオブジェクトの動きが示されている。すなわち、図３に示す例では、撮像画像からの「右手指」と「左手首」との「接触」の検出結果が、動画プレイヤーのコマンドを実行するためのトリガの１つとして利用される。
また、「音声識別情報」の列には、前述した音声識別情報として利用される音声が示されている。例えば、図３に示す例では、「次」、「前」、「一時停止」、「ストップ」、「早送り」、「巻き戻し」、及び「逆再生」という音声が、動画プレイヤーのコマンドを実行するためのトリガの１つとなる音声識別情報として利用される。
また、「動作」の列には、「画像情報」と「音声識別情報」との組み合わせごとにあらかじめ対応付けられた、動画プレイヤーのコマンド（すなわち、実行される処理）が示されている。なお、コマンド実行の詳細については、所謂動画プレイヤーとしては一般的であるため説明を省略する。
「音声識別情報」の列に示された「その他」は、識別不能だった音や、音声識別情報として利用されない音等が該当する。また、「その他」には、無音が含まれてもよい。すなわち、右手指と左手首との接触が検出されたとしても、音声が識別不能な場合、音声識別情報として利用されない音が検出された場合、及び音声が検出されていない場合においては、音楽プレイヤーの動作の制御としては何もされないこととなる。

ここで、改めて図２を参照する。Ｓ２０８０において、ＣＰＵ１０１は、終了指示があるか否かを判定する。具体的な一例として、ＣＰＵ１０１は、Ｓ２０７０において「終了コマンド」が実行されたか否かを判定し、「終了コマンド」が実行された場合に終了指示があると判定してもよい。
ＣＰＵ１０１は、Ｓ２０８０において終了指示がないと判定した場合には、処理をＳ２０１０に進める。この場合には、Ｓ２０１０以降の処理が改めて実行されることとなる。
これに対して、ＣＰＵ１０１は、Ｓ２０８０において終了指示があると判定した場合には、図２に示す一連の処理を終了する。

本実施形態では、ＨＭＤの筐体に支持されたカメラモジュールにより取得される画像は、当該ＨＭＤを装着したユーザの視線が向けられる方向の撮像結果に応じた画像となる。そのため、ユーザは、より現実的な操作に近い画像を見ながら各種の操作を行うことが可能となる。
なお、ジェスチャのような画像の解析結果を利用した判定では、ユーザが操作を意図していない動作がジェスチャとして誤認識される場合があり、この誤認識により誤操作が誘発されることがある。また、音声認識によるコマンドの判定では、通常の会話に含まれるワードが認識されることで、ユーザが意図していないにも関わらず操作のためのコマンドと認識されて誤操作につながる場合がある。
これに対して、本実施形態においては、上述したように、音声認識によるコマンドの判定に対して、画像の解析結果を利用したオブジェクトの動きの判定（例えば、オブジェクトの接触判定）を組み合わせることで、コマンドの実行に係る判定が行われる。これにより、コマンドの起動条件がより厳しくなり、誤操作の発生を抑制することが可能となる。特に、本実施形態に係る技術に依れば、例えば、オブジェクトの接触判定に対して、確実に接触したことまでは判定せずに、オブジェクトがオーバーラップするか否かという多少の曖昧性を持たせた判定を適用したとして、誤操作の発生を抑制する効果が期待できる。

なお、図２及び図３を参照して説明した例では、対象となるオブジェクト間が接触中に取得された音声が解析の対象となっているが、本実施形態に係る情報処理装置の動作を限定するものではない。具体的な一例として、Ｓ２０４０の処理において、オブジェクト間の接触状態が解除されたとしても、一度接触したことが検出された場合には、解除後においても所定の期間（例えば、３秒間）については、オブジェクト間が接触している状態とみなされてもよい。この場合には、オブジェクト間の接触が検出された場合に、オブジェクト間の接触があったことを記録しておくことで、所定の期間内にオブジェクト間の接触があったか否かにより、接触判定が行われてもよい。

また、図２及び図３を参照して説明した例では、音声情報（音情報）の解析に際して、候補ワードの如何に関わらず音声識別情報を生成していたが、本実施形態に係る情報処理装置の動作を限定するものではない。具体的な一例として、音情報の解析に際して、あらかじめ規定された候補（例えば、図３に音識別情報として例示されたワード）に変換できるかを判定し、変換できる場合に音識別情報が生成されてもよい。

また、図２及び図３を参照して説明した例では、画像の解析結果を利用したオブジェクトの動きの判定と、音声認識によるコマンドの判定との組み合わせにより、コマンドを実行するか否かが判定されていた。一方で、これらの情報に加えて、他の情報が組み合わされることで、コマンドを実行するか否かの判定が行われてもよい。具体的な一例として、画像の解析結果を利用したオブジェクトの動きの判定と、音声認識によるコマンドの判定とに加えて、一般的なコントローラを使用した操作が組み合わされることで、コマンドを実行するか否かの判定が行われてもよい。

また、上述した例では、情報処理装置にカメラモジュール、マイクロフォン、及び表示パネルが内蔵されていたが、必ずしも本実施形態に係る情報処理装置の構成を限定するものではない。具体的な一例として、カメラモジュール、マイクロフォン、及び表示パネルのうちの少なくともいずれかが、情報処理装置に対して外付けされるデバイスとして実現されてもよい。また、本実施形態に係る情報処理装置は、表示パネルとしてシースルーのディスプレイが適用されることで、所謂ＡＲを実現するためのデバイスとして構成されていてもよい。なお、ＡＲを実現する場合には、実空間に対して仮想的な情報を重畳させることとなるため、仮想空間の描画に係る処理が行われなくともよい。

また、本実施形態では、左手首や右手指のような身体の部位を、接触等の動きの検出対象とするオブジェクトとしているが、身体の部位に限らず他のオブジェクトが検出対象（識別対象）とされてもよい。
具体的な一例として、図４に例示するようなマーカーコードを実空間に配置し、右手指と当該マーカーコードとが接触したか否かが判定されてもよい。なお、マーカーコードとは、そのユニークな形状からコード（例えば、数値等）に変換可能な画像である。
また、図５は、第１のオブジェクト及び第２のオブジェクトそれぞれの動きの解析結果に応じた情報と音声識別情報との組み合わせに応じて実行される処理の他の一例について示している。図５に示す例では、第２のオブジェクトとして、マーカー１またはマーカー２を検出し、検出されたマーカーをコードに変換することで、当該コードにより検出されたマーカーがマーカー１とマーカー２とのいずれを識別することとなる。なお、マーカーコードの生成方法については多様な方式があるが、本実施形態ではマーカーコードの生成方法については特に限定はされない。また、この場合には、Ｓ２０３０の処理において、実空間に設置されたマーカーコード上に仮想的なオブジェクト（例えば、仮想的なボタン）が重畳された仮想空間画像が描画されてもよい。

また、上述した例では、音声の認識に際してユーザの識別については言及していないが、音声の認識に際して、例えば、音声の解析結果を利用することで、ユーザの識別が行われてもよい。この場合には、例えば、対象となるユーザ以外の他のユーザの音声が認識された場合には、当該音声の検出結果については音識別情報としての利用対象から除外されてもよい。

＜第２の実施形態＞
本開示の第２の実施形態として、本開示に係る技術をアプリケーションの起動中のシステムの操作に適用する場合の一例について説明する。なお、本実施形態においては、構成や動作について、前述した第１の実施形態と異なる部分に着目して説明し、前述した第１の実施形態と実質的に同様の部分については詳細な説明は省略するものとする。

図６を参照して、本実施形態に係る情報処理装置の処理の一例について説明する。
Ｓ６０００において、ＣＰＵ１０１は、終了指示があるか否かを判定する。具体的な一例として、ＣＰＵ１０１は、後述するＳ６０７０の処理において終了指示がなされた場合、または、外部からの終了信号が受信された場合に、終了指示があると判定してもよい。なお、外部からの終了信号とは、例えば、機器の電源ボタンが押下された場合に発せられる信号に相当する。
ＣＰＵ１０１は、Ｓ６０００において終了指示がないと判定した場合には、処理をＳ２０００に進める。この場合には、Ｓ２０００以降の処理が実行されることとなる。
これに対して、ＣＰＵ１０１は、Ｓ６０００において終了指示があると判定した場合には、図６に示す一連の処理を終了することとなる。

Ｓ２０００において、画像取得部１０６は、カメラモジュールの撮像結果に応じた画像のデータを取得する。なお、同処理については、図２を参照して説明した例と実質的に同様である。
Ｓ６００１において、ＧＰＵ１０５は、インデックス値ｉ＝０とすることで、当該インデックス値ｉを初期化する。
Ｓ６００２において、ＧＰＵ１０５は、画像から検出する第１のオブジェクトと第２のオブジェクトとの組み合わせについて規定された組み合わせリストから、第１のオブジェクトの種別情報と第２のオブジェクトの種別情報とを取得する。なお、オブジェクトの種別情報とは、対象となるオブジェクトがどのような種別であるかを示す情報であり、例えば、対象となるオブジェクトが身体の部位の場合には、左手首、右手指等のような当該部位を示す情報が含まれ得る。また、上記組み合わせリストについては、図７を参照して詳細を別途後述する。

Ｓ６０１０において、ＧＰＵ１０５は、Ｓ２０００において取得したデータが示す画像から第１のオブジェクトを検出する。
また、Ｓ６０２０において、ＧＰＵ１０５は、Ｓ２０００において取得したデータが示す画像から第２のオブジェクトを検出する。
そのうえで、Ｓ２０４０において、ＧＰＵ１０５は、第１のオブジェクトと第２のオブジェクトとが接触したか否かを判定する。
ＧＰＵ１０５は、Ｓ２０４０において第１のオブジェクトと第２のオブジェクトとが接触したと判定した場合には、処理をＳ２０５０に進める。
これに対して、ＧＰＵ１０５は、Ｓ２０４０において第１のオブジェクトと第２のオブジェクトとが接触していないと判定した場合には、処理をＳ６０８０に進める。

Ｓ２０５０において、音声取得部１０７は、情報処理装置の周囲の音の集音結果に応じた音響データを音情報として取得する。
Ｓ６０６０において、ＣＰＵ１０１は、Ｓ２０５０において取得された音情報に対して解析処理（例えば、音響解析処理や音声認識処理等）を施すことで、集音された音を識別し、当該音の識別結果を示す音識別情報を生成する。本実施形態では、ＣＰＵ１０１は、音情報が示す音が指で手首を叩くときに発せられる接触音であるか否かを判定する。なお、当該接触音については、一種類には限定されず、多様なバリエーションが識別の対象として含まれていてもよい。具体的な一例として、指が肌に接触する際に発せられる音や、指が服に接触する際に発せられる音が、上記接触音として判定されてもよい。
Ｓ６０７０において、ＣＰＵ１０１は、第１のオブジェクト及び第２のオブジェクトそれぞれの動きの解析結果に応じた情報と、Ｓ６０６０において取得された音識別情報との組み合わせに応じた処理を実行する。

例えば、図７は、第１のオブジェクト及び第２のオブジェクトそれぞれの動きの解析結果に応じた情報と音識別情報との組み合わせに応じて実行される処理の一例について、特に、システムの操作が行われる場合に着目して示している。
具体的には、「画像情報」の列には、撮像画像からの検出の対象となる２つのオブジェクトと、当該２つのオブジェクトの動作とが規定されている。「オブジェクト１」及び「オブジェクト２」の列には、撮像画像からの検出対象となる２つのオブジェクト（第１のオブジェクト及び第２のオブジェクト）が規定されている。本実施形態では、第１のオブジェクトとして、「右手指」及び「左手指」のそれぞれが検出の対象となっており、第２のオブジェクトとして、「左手首」、「左前腕」、及び「右手首」のそれぞれが検出の対象となっている。また、「条件」の列には、検出対象となるオブジェクトの動きが示されている。すなわち、図７に示す例では、「右手指」及び「左手指」のいずれかと、「左手首」、「左前腕」、及び「右手首」のいずれかとの「接触」の検出結果が、システムの操作におけるトリガの１つとして利用される。
また、「音声識別情報」の列には、前述した音識別情報として利用される音が示されている。本実施形態では、第１のオブジェクトと第２のオブジェクトとが接触する際に発せられる「タップ音」が、システムの操作におけるトリガの１つとなる音識別情報として利用される。

続いて、「動作」の列に規定された各動作について説明する。
「システムメニューウィンドウ表示モードに切り替え」として規定された動作は、実行中のアプリケーションを一時停止し、システムモーダルなウィンドウを表示させる動作である。例えば、図１４は、システムモーダルなウィンドウの一例として、電源オフ等のようなシステムに関する動作の指示を受け付けるためのメニューコマンドが表示されたウィンドウが仮想空間に表示された状態を模式的に示している。
図１４に示す例では、ユーザは、仮想空間に表示されたメニューコマンドのうち所望の動作に対応付けられたメニューコマンドをタッチすることで、システムの操作を行うこととなる。なお、この際に、音声の認識結果がユーザからの操作の認識に利用されなくてもよい。また、他の一例として、ユーザがメニューコマンドを音声として発声することで、当該音声の認識結果に基づき、発声されたメニューコマンドが実行されてもよい。この場合には、タッチ操作等のオブジェクトの動作の認識結果がユーザからの操作の認識に利用されなくてもよい。

「システムメニューウィンドウ非表示モードに切り替え」として規定された動作は、開いていたメニューウィンドウを閉じ、一時停止していたアプリケーションを再開する動作である。
「シースルーモードトグル」として規定された動作は、画面の表示状態を「シースルーモード」に切り替えたり、「シースルーモード」から元の状態に切り替えたりするための動作である。すなわち、「シースルーモード」でない状態（切り替え前の元の状態）からは「シースルーモード」への切り替えが行われ、「シースルーモード」の状態からは元の状態への切り替えが行われる。

「シャッター」は、現在表示中のＶＲシーンデータをファイルとして保存する動作である。ファイルとして保存されるデータについては、対象となるＶＲシーンデータを画像として表示できればよく、３Ｄデータ、１８０度画角のシーンを再現可能な正距円筒画像、及び注視している領域の透視投影画像等が例として挙げられる。

「一時停止」は、アプリケーションの動作を一時的に停止する。音声識別情報がなしのケースでは、音情報が無音、またはリストに存在せず識別されなかった音声であっても、オブジェクト１とオブジェクト２との接触がなされたと判定された場合には、規定された動作が実行されることを示している。

ここで、改めて図６を参照する。Ｓ６０８０において、ＣＰＵ１０１は、部位組あわせリストに規定された第１のオブジェクトと第２のオブジェクトとの組み合わせ全てについて、Ｓ６００２～Ｓ２０４０の処理の試行が行われたか否かを判定する。
ＣＰＵ１０１は、Ｓ６０８０において組あわせリストに規定された第１のオブジェクトと第２のオブジェクトとの組み合わせ全てについて、Ｓ６００２～Ｓ２０４０の処理の試行が行われたと判定した場合には、処理をＳ６０００に進める。この場合には、Ｓ６０００の処理として示した終了判定が行われ、終了指示がなかった場合にはＳ２０００以降の処理が改めて実行されることとなる。
ＣＰＵ１０１は、Ｓ６０８０において組あわせリストに規定された第１のオブジェクトと第２のオブジェクトとの組み合わせ全てについて、Ｓ６００２～Ｓ２０４０の処理の試行が行われていないと判定した場合には、処理をＳ６０９０に進める。
Ｓ６０９０において、ＣＰＵ１０１は、インデックス値ｉをインクリメントする。そして、ＣＰＵ１０１は、インクリメントされたインデックス値ｉに基づき、Ｓ６００２以降の処理を改めて実行することとなる。このようにして、Ｓ６００２～Ｓ６０９０の処理のループにより、組みあわせリストに規定された一連のオブジェクトそれぞれについて検出が行われることとなる。

なお、本実施形態では、終了指示が図６に示す処理フローに基づきなされる場合について説明したが、例えば、ＵＩデバイス接続経由で、本体に設置された電源ボタンが押下されたことが検出された場合に、終了指示がなされたものとみなされてもよい。
また、本実施形態では、メニューウィンドウがシステムモーダルなウィンドウであるものとして各種説明を行ったが、必ずしも本実施形態に係る情報処理装置の動作を限定するものではない。具体的な一例として、アプリケーションの操作が同時に可能であってもよく、また、対象となるウィンドウがメニューウィンドウでなくてもよい。すなわち、オブジェクト検出と音の識別（例えば、音声識別）との２つのトリガにより入力モードが切り替えられるようなケースであればよい。また、入力モードが切り替わった後には、オブジェクト検出と音の識別とのうちのいずれか一方による操作が可能となる。また、入力モードの切り替えに伴い、タッチ操作のみにより操作が可能となった場合や、音声等の音のみにより操作が可能となった場合には、ユーザがその状態を識別可能となるように画面等に情報が表示されることが好ましい。

＜第３の実施形態＞
本開示の第３の実施形態として、動画プレイヤーのアプリケーションにより動画を表示しながら、ユーザからの操作を受け付ける場合の一例について説明する。なお、本実施形態においては、構成や動作について、前述した第１の実施形態と異なる部分に着目して説明し、前述した第１の実施形態と実質的に同様の部分については詳細な説明は省略するものとする。

まず、図１（ｂ）を参照して、本実施形態に係る情報処理装置の構成の一例について説明する。図１（ｂ）に示す構成は、距離情報取得部１０９が追加されている点で、図１（ａ）に示す構成と異なる。
距離情報取得部１０９は、情報処理装置（ＨＭＤ）と被写体との間の距離を取得する。距離情報取得部１０９は、例えば、ＴｏＦ（ＴｉｍｅＯｆＦｌｉｇｈｔ）センサにより実現され、深度の測定結果が二次元的に配置されたマップを取得するように構成されていてもよい。なお、距離情報取得部１０９は、得られる二次元のマップの画角が、画像取得部１０６により得られる画像の画角と略一致するように、情報処理装置に配設されているものとする。

次いで、図８を参照して、本実施形態に係る情報処理装置の処理の一例について説明する。
Ｓ２０００において、画像取得部１０６は、カメラモジュールの撮像結果に応じた画像のデータを取得する。
Ｓ２０１０において、ＧＰＵ１０５は、Ｓ２０００において取得したデータが示す画像から第１のオブジェクトを検出する。
Ｓ８０１５において、距離情報取得部１０９は、第１のオブジェクトの３次元位置を取得する。具体的には、距離情報取得部１０９は、Ｓ２０１０において検出した第１のオブジェクトの画像中における２次元位置と、深度の２次元マップとを照合することで、当該第１のオブジェクトの３次元位置を取得する。
Ｓ２０２０において、ＧＰＵ１０５は、取得したデータが示す画像から第２のオブジェクトを検出する。
Ｓ８０２５において、距離情報取得部１０９は、第２のオブジェクトの３次元位置を取得する。具体的には、距離情報取得部１０９は、Ｓ２０２０において検出した第２のオブジェクトの画像中における２次元位置と、深度の２次元マップとを照合することで、当該第２のオブジェクトの３次元位置を取得する。
Ｓ２０３０において、ＧＰＵ１０５は、仮想空間の画像（例えば、ＣＧ）の描画を行い、描画された当該画像を当該ＧＰＵ１０５に接続された表示パネルに表示させる。

Ｓ８０４０において、ＧＰＵ１０５は、第１のオブジェクトと第２のオブジェクトとが接触したか否かを判定する。
ＧＰＵ１０５は、Ｓ８０４０において第１のオブジェクトと第２のオブジェクトとが接触したと判定した場合には、処理をＳ２０５０に進める。
これに対して、ＧＰＵ１０５は、Ｓ８０４０において第１のオブジェクトと第２のオブジェクトとが接触していないと判定した場合には、処理をＳ２０００に進める。この場合には、Ｓ２０００以降の処理が改めて実行されることとなる。
なお、第１のオブジェクトと第２のオブジェクトとの接触判定については、例えば、第１のオブジェクトと第２のオブジェクトとが互いに近傍に位置するか否か（例えば、互いの距離が３ｃｍ以内であるか等）に応じて行われてもよい。すなわち、ＧＰＵ１０５は、第１のオブジェクトと第２のオブジェクトとの間の相対的な位置関係の変化に応じて、当該第１のオブジェクトと当該第２のオブジェクトとの接触の有無を判定してもよい。
なお、Ｓ２０５０以降の処理については、図２を参照して説明した例と実質的に同様である。

以上説明したように、本実施形態に係る情報処理装置は、オブジェクトとの間の距離の測定結果に応じた３次元情報を利用することで、２つのオブジェクトの接触を３次元位置の近さに基づき判定する。これにより、２つのオブジェクトそれぞれの動きに応じた操作の判定に係る精度をより向上させる効果が期待できる。なお、対象となる２つのオブジェクトの位置については、オブジェクトの加速度や速度の検出結果を利用することで、補正または推定がなされてもよい。これにより、例えば、位置検出の対象となるオブジェクトとカメラモジュール（または、測距センサ）との間に障害物が介在するような状況下においても、当該オブジェクトの位置の推定に係る精度の低下を防止する効果が期待できる。

なお、本実施形態では、測距センサとしてＴｏＦセンサが利用される場合の一例について説明したが、情報処理装置とオブジェクトとの間の距離を測定または推定することが可能であれば、そのための構成や手法については特に限定はされない。具体的な一例として、測距のためのデバイスとしてステレオカメラモジュールを適用し、撮像結果に応じたステレオ画像の視差を利用した所謂三角測量により、情報処理装置と被写体（オブジェクト）との間の距離が測定されてもよい。また、他の一例として、検出対象となる各オブジェクトの大きさを情報としてあらかじめ記憶しておくことで、検出されたオブジェクトの大きさに基づき、当該オブジェクトとの間の距離が推定されてもよい。

また、本実施形態では、第１の実施形態と同様に、画像取得部１０６を介してカメラモジュールから取得された画像（例えば、ＲＧＢ画像）を利用してオブジェクトの検出が行われる場合について説明した。一方で、オブジェクトを検出することが可能であれば、当該検出のための構成や手法については特に限定はされない。具体的な一例として、ＴｏＦセンサ等の距離情報取得部１０９により取得されたオブジェクトと間の距離（深度）の測距結果が二次元的に配置されたマップ等のような、非ＲＧＢ画像情報がオブジェクトの検出や認識に利用されてもよい。

また、本実施形態では、動画プレイヤーのアプリケーションの操作を行う場合に着目して、オブジェクトの３次元位置を得ることで同操作を実現する場合の一例について説明したが、当該操作の手法の適用対象は当該アプリケーションのみには限定されない。具体的な一例として、前述した第２の実施形態のように、システムの操作に対して、本実施形態にて説明した手法が適用されてもよい。具体的な一例として、システムウィンドウの表示や、入力モードの切り替えに係る操作を、本実施形態にて説明した手法に基づき実現してもよい。なお、入力モードの切り替えが行われる場合には、入力モードが切り替わったことを示す情報が、文字やアイコン等により仮想空間画像の一部に描画されることで、ユーザの利便性をより向上させる効果が期待できる。

＜第４の実施形態＞
本開示の第２の実施形態として、動画プレイヤーのアプリケーションを利用して動画を表示しながら、ユーザからの操作を受け付ける場合の他の一例について説明する。なお、本実施形態においては、構成や動作について、前述した第３の実施形態と異なる部分に着目して説明し、前述した第３の実施形態と実質的に同様の部分については詳細な説明は省略するものとする。

本実施形態では、検出対象となる複数のオブジェクトのうち少なくとも一部のオブジェクトについて画像情報からの検出を行わずに、当該オブジェクトとして仮想空間内に存在する仮想的なオブジェクトが利用される場合の一例について説明する。なお、以降の説明では、便宜上、第２のオブジェクトとして仮想空間内に存在する仮想オブジェクトが利用されるものとする。この場合には、第２のオブジェクトについては、仮想オブジェクトであるため、当該仮想オブジェクトを表示させるための情報として、当該仮想オブジェクトの座標（換言すると、位置情報）が保持されている。本実施形態に係る情報処理装置は、この仮想オブジェクトの座標を利用することで、当該仮想オブジェクト（例えば、第２のオブジェクト）が存在すべき位置を認識する。

図９を参照して、本実施形態に係る情報処理装置の処理の一例について説明する。
なお、図９に示す例は、Ｓ２０２０の処理が削除され、Ｓ２０３０の処理がＳ９０３０として示す処理に置き換えられている点で、図８に示す例と異なる。そこで、以降では、図９に示す例について、図８に示す例と異なる部分に着目して説明するものとする。

Ｓ８０２５において、ＧＰＵ１０５は、第２のオブジェクトの３次元的な位置を取得する。なお、本実施形態では、第２のオブジェクトは、ボタンを模した仮想的なオブジェクトであるものとする。そのため、ＧＰＵ１０５は、例えば、仮想的なオブジェクトである第２のオブジェクトを表示するための情報として保持される座標に基づき、当該第２のオブジェクトの３次元的な位置を取得してもよい。
Ｓ９０３０において、ＧＰＵ１０５は、第２のオブジェクトを含む仮想空間画像の描画を行い、描画された当該画像を当該ＧＰＵ１０５に接続された表示パネルに表示させる。具体的には、ＧＰＵ１０５は、Ｓ８０２５において取得した３時点位置にボタンを模した仮想的なオブジェクトである第２のオブジェクトが配置された仮想空間画像を描画する。

Ｓ９０７０において、ＣＰＵ１０１は、第１のオブジェクト及び第２のオブジェクトそれぞれの動きの解析結果（例えば、オブジェクト間の接触の検出結果）に応じた情報と、Ｓ２０６０において取得された音声識別情報との組み合わせに応じた処理を実行する。

例えば、図１０は、第１のオブジェクト及び第２のオブジェクトそれぞれの動きの解析結果に応じた情報と音声識別情報との組み合わせに応じて実行される処理の他の一例について、特に、動画プレイヤーのコマンドが実行される場合に着目して示している。なお、本実施形態は、第２のオブジェクトがボタンを模した仮想的なオブジェクトである点で第３の実施形態と異なり、その他の動作については第３の実施形態と実質的に同様である。

以上説明したように、本実施形態では、動きの検出対象となる複数のオブジェクトのうち一方が物理的に存在するオブジェクトであり、他方が仮想的なオブジェクトであっても、接触判定と音の識別との結果の組み合わせに対応する動作を実行することが可能となる。
なお、本実施形態では、仮想的なオブジェクトが１つである場合の一例について説明したが、複数の仮想的なオブジェクトが動きの検出対象となってもよい。具体的な一例として、複数の仮想的なオブジェクト（例えば、ボタン）が第２のオブジェクトの候補として設定され、いずれの仮想オブジェクトが第１のオブジェクトとの接触判定の対象となったかに応じて、実行される動作が決定されてもよい。これにより、接触判定の対象となる第１のオブジェクトと第２のオブジェクトとの組み合わせのパターンが増えるため、より多様な動作を実行対象とすることが可能となる。

また、仮想的なオブジェクトとしてボタンを模したオブジェクトが適用される場合の一例について説明したが、ボタンに限らず、他の形状のオブジェクトや他の種類のオブジェクトが適用されてもよい。具体的な一例として、現実には存在しない、中空に浮く半透明のキューブ状や球状の仮想的なオブジェクトが適用されてもよい。このような場合には、例えば、オブジェクト内に手等の部位が挿入された場合に、当該部位と当該オブジェクトとが接触したものと判定されてもよい。

また、所謂ＶＲが適用される場合には、実空間に存在するオブジェクトについても、仮想空間画像に仮想的なオブジェクトとして描画される場合がある。このような場合には、描画される仮想的なオブジェクトの座標に基づき、当該仮想的なオブジェクトに対応する実空間に存在するオブジェクトの位置や動きが認識されてもよい。すなわち、このような場合には、第１のオブジェクトと第２のオブジェクトとの双方を仮想的なオブジェクトとして、各オブジェクトの座標に基づき、これらのオブジェクトそれぞれの動き（例えば、オブジェクト間の接触）の検出や解析が行われてもよい。

また、本実施形態では、ユーザが発声した音声の識別結果が音識別情報として利用される場合について説明したが、音声に限らず他の音の識別結果が利用されてもよい。具体的な一例として、フィンガースナップの音を識別の対象として、当該音が検出された場合に、あらかじめ対応付けられた動作が実行されてもよい。また、このように音声以外の音を識別の対象とする場合には、どのような音がどのような動作に対応付けられているかが示されたガイドオブジェクトが、仮想空間画像に描画されることで、ユーザの利便性を向上させる効果が期待できる。

＜第５の実施形態＞
本開示の第５の実施形態として、動画プレイヤーのアプリケーションを利用して動画を表示しながら、ユーザからの操作を受け付ける場合の他の一例について説明する。なお、本実施形態においては、構成や動作について、前述した第１の実施形態と異なる部分に着目して説明し、前述した第１の実施形態と実質的に同様の部分については詳細な説明は省略するものとする。

図１１を参照して、本実施形態に係る情報処理装置の処理の一例について説明する。
Ｓ２０００において、画像取得部１０６は、カメラモジュールの撮像結果に応じた画像のデータを取得する。
Ｓ１１１０において、ＧＰＵ１０５は、Ｓ２０００において取得したデータが示す画像からオブジェクトを検出する。なお、検出対象となるオブジェクトについては、図１２に示す表の「オブジェクト」の列に一例が示されている。なお、図１２については詳細を別途後述する。
Ｓ１１２０において、ＧＰＵ１０５は、Ｓ１１１０におけるオブジェクトの検出結果を利用して、当該オブジェクトの動きを検出する。具体的な一例として、ＧＰＵ１０５は、ブロックマッチングと称される技術に基づき対象となるオブジェクトの動きを探索し、当該探索の結果に基づき、オブジェクトの動きベクトルを当該オブジェクトの動きの検出結果として取得してもよい。なお、ブロックマッチングによるオブジェクトの動きの探索については、既存の技術を適用することが可能であるため、詳細な説明は省略する。例えば、６０ｆｐｓの画像が取得され、直近３秒間のオブジェクトの動きベクトルが取得される場合には、当該オブジェクトについて１８０本の動きベクトルが取得されることとなる。

Ｓ２０３０、Ｓ２０５０、及びＳ２０６０の処理については、図２を参照して説明した例と同様のため詳細な説明は省略する。
Ｓ１１７０において、ＣＰＵ１０１は、オブジェクトの動きの解析結果に応じた情報と、Ｓ２０６０において取得された音声識別情報との組み合わせに応じた処理を実行する。

例えば、図１２は、オブジェクトの動きの解析結果に応じた情報と音声識別情報との組み合わせに応じて実行される処理の一例について、特に、動画プレイヤーのコマンドが実行される場合に着目して示している。
具体的には、「画像情報」の列には、撮像画像からの検出の対象となるオブジェクトと、当該オブジェクトの動きとが規定されている。
また、「音声識別情報」の列には、前述した音声識別情報として利用される音声が示されている。
また、「動作」の列には、「画像情報」と「音声識別情報」との組み合わせごとにあらかじめ対応付けられた、動画プレイヤーのコマンド（すなわち、実行される処理）が示されている。

ここで、改めて図１１を参照する。Ｓ２０８０以降の処理については、図２を参照して説明した例と同様である。すなわち、終了指示があるか否かの判定が行われ、終了指示があると判定された場合には、図１１に示す一連の処理が終了される。

なお、オブジェクトの動作の解析結果と、音声等の音の識別結果とのいずれか一方のみがユーザによる操作の認識に利用される場合には、通常の会話や身振り手振りが、ユーザが意図していないにも関わらず当該ユーザの操作として誤認識される場合がある。これに対して、本実施形態に係る手法に依れば、オブジェクトの動作の解析結果と、音声等の音の識別結果との双方がユーザによる操作の認識に利用されるため、いずれか一方が利用される場合に比べて、誤操作の発生を抑制することが可能となる。

＜その他の実施形態＞
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記録媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読み出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１０１ＣＰＵ
１０５ＧＰＵ
１０６画像取得部
１０７音声取得部

Claims

オブジェクトの動きを解析する動き解析手段と、
検出された音を解析することで当該音を識別する音識別手段と、
前記オブジェクトの動きの解析結果を含む動き情報と、前記音の識別結果を含む音識別情報と、の組み合わせに応じた処理を実行する制御手段と、
を備えることを特徴とする情報処理装置。
前記動き解析手段は、前記オブジェクトの動きの解析結果から、複数のオブジェクトの相対的な位置関係の変化を示す情報を取得し、
前記制御手段は、前記複数のオブジェクトの相対的な位置関係の変化を示す情報を含む前記動き情報と、前記音識別情報と、の組み合わせに応じた処理を実行する
ことを特徴とする、請求項１に記載の情報処理装置。
前記動き解析手段は、前記オブジェクトの動きの解析結果から、複数のオブジェクト間の接触の有無を示す情報を取得し、
前記制御手段は、前記複数のオブジェクト間の接触の有無を示す情報を含む前記動き情報と、前記音識別情報と、の組み合わせに応じた処理を実行する
ことを特徴とする、請求項１または２に記載の情報処理装置。
前記動き解析手段は、複数のオブジェクトそれぞれの実空間における３次元位置の近さに基づき当該複数のオブジェクト間が接触したか否かを判定することを特徴とする、請求項３に記載の情報処理装置。
前記複数のオブジェクトのうち、少なくとも一部のオブジェクトは仮想空間内に設定された仮想オブジェクトであることを特徴とする、請求項３または４に記載の情報処理装置。
前記オブジェクトを識別するオブジェクト識別手段を備え、
前記制御手段は、前記オブジェクトの識別結果を含むオブジェクト識別情報と、前記動き情報と、前記音識別情報と、の組み合わせに応じた処理を実行する
ことを特徴とする、請求項１乃至５のいずれか１項に記載の情報処理装置。
前記音識別手段は、検出された音から複数のオブジェクトの接触音を識別し、
前記制御手段は、前記動き情報と、前記複数のオブジェクトの接触音の識別結果を含む前記音識別情報と、の組み合わせに応じた処理を実行する
ことを特徴とする、請求項１乃至６のいずれか１項に記載の情報処理装置。
前記音識別手段は、音声として発声された単語の音情報を認識し、
前記制御手段は、前記動き情報と、前記単語の音情報の認識結果を含む前記音識別情報と、の組み合わせに応じた処理を実行する
ことを特徴とする、請求項１乃至６のいずれか１項に記載の情報処理装置。
オブジェクトの情報を含むデータを取得するデータ取得手段を備え、
前記動き解析手段は、前記データから前記オブジェクトの動きを解析する
ことを特徴とする、請求項１乃至８のいずれか１項に記載の情報処理装置。
前記データは、ユーザの頭部から当該ユーザの視線が向けられた方向が撮像された画像のデータであり、
前記動き解析手段は、前記画像から撮像されたオブジェクトを検出することで、当該オブジェクトの動きを解析する
ことを特徴とする、請求項９に記載の情報処理装置。
前記情報処理装置は、ユーザの頭部に装着されるＨＭＤ型の情報処理端末であり、
前記画像のデータは、前記情報処理端末の筐体に支持された撮像装置による、前記ユーザの視線が向けられた方向の撮像結果に応じた画像のデータである
ことを特徴とする、請求項１０に記載の情報処理装置。
オブジェクトの位置情報を取得する位置情報取得手段を備え、
前記動き解析手段は、前記オブジェクトの前記位置情報の変化を解析し、
前記制御手段は、前記オブジェクトの前記位置情報の変化の解析結果を含む前記動き情報と、前記音識別情報と、の組み合わせに応じた処理を実行する
ことを特徴とする、請求項１乃至８のいずれか１項に記載の情報処理装置。
前記動き解析手段は、身体の部位を前記オブジェクトとして、当該部位の動きを解析し、
前記制御手段は、前記部位の動きの解析結果を含む前記動き情報と、前記音識別情報と、の組み合わせに応じた処理を実行する
ことを特徴とする、請求項１乃至１２のいずれか１項に記載の情報処理装置。
前記オブジェクトの検出結果をＣＧと合成して表示装置に表示させる表示手段を備えることを特徴とする、請求項１乃至１３のいずれか１項に記載の情報処理装置。
前記音識別手段は、ユーザにより発生された音声を認識し、当該音声の認識結果に基づき当該ユーザを識別し、
前記制御手段は、対象となるユーザ以外の他のユーザの音声については、前記音識別情報としての利用の対象から除外する
ことを特徴とする、請求項１乃至１４のいずれか１項に記載の情報処理装置。
情報処理装置が実行する情報処理方法であって、
オブジェクトの動きを解析する動き解析ステップと、
検出された音を解析することで当該音を識別する音識別ステップと、
前記オブジェクトの動きの解析結果を含む動き情報と、前記音の識別結果を含む音識別情報と、の組み合わせに応じた処理を実行する制御ステップと、
を含むことを特徴とする情報処理方法。
コンピュータを、請求項１乃至１５のいずれか１項に記載の情報処理装置の各手段として機能させるためのプログラム。