JP6848881B2

JP6848881B2 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP6848881B2
Application number: JP2017556364A
Authority: JP
Inventors: 佑輔中川; 真一河野
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2015-12-16
Filing date: 2016-09-23
Publication date: 2021-03-24
Anticipated expiration: 2036-09-23
Also published as: CN108431728A; US20180336008A1; US10725733B2; JPWO2017104207A1; WO2017104207A1

Description

本開示は、情報処理装置、情報処理方法、及びプログラムに関する。

ＰＣ（Personal Computer）やゲーム機器等のような所謂情報処理装置の動作を制御するために、ユーザからの入力を取得するための入力インターフェースとして多様な方式のものが提案されている。特に近年では、音響解析や画像解析等の技術の発展に伴い、ユーザが発話した音声やユーザの動作を認識することで、当該発話や動作の認識結果を、情報処理装置の制御に利用する技術も各種提案されている。例えば、特許文献１には、ユーザの動作（所謂ジェスチャ）を認識するための技術の一例が開示されている。

また、上述したような各種入力インターフェースを複数組み合わせることも可能である。具体的な一例として、ユーザの発話に基づく音声認識の開始や終了の制御に、ジェスチャの検出結果を利用することで、マウスやコントローラ等の入力デバイスを介した操作に比べて、より直感的な操作を実現することも可能となる。

特開２０１２−８７７２号公報

一方で、ジェスチャの検出結果に基づく操作の認識には、マウスやコントローラ等の入力デバイスを介した操作に比べて、より時間を要する場合がある。そのため、例えば、ジェスチャの検出結果を、音声等のような他の入力情報の取得に利用するような状況下において、当該ジェスチャが示す操作を認識するための処理時間により、当該入力情報の取得が開始されるタイミングに遅延が生じる場合がある。

そこで、本開示では、ジェスチャの認識に伴う遅延の影響をより緩和することが可能な、情報処理装置、情報処理方法、及びプログラムを提案する。

本開示によれば、ジェスチャの検出結果に応じた第１の入力情報に基づく、以降に入力される前記ジェスチャに応じた操作の予測結果を取得する取得部と、前記操作の予測結果に応じて、前記第１の入力情報に対応付けられた第２の入力情報の取得に関する処理を制御する制御部と、を備える、情報処理装置が提供される。

また、本開示によれば、プロセッサが、ジェスチャの検出結果に応じた第１の入力情報に基づく、以降に入力される前記ジェスチャに応じた操作の予測結果を取得することと、
前記操作の予測結果に応じて、前記第１の入力情報に対応付けられた第２の入力情報の取得に関する処理を制御することと、を含む、情報処理方法が提供される。

また、本開示によれば、コンピュータに、ジェスチャの検出結果に応じた第１の入力情報に基づく、以降に入力される前記ジェスチャに応じた操作の予測結果を取得することと、前記操作の予測結果に応じて、前記第１の入力情報に対応付けられた第２の入力情報の取得に関する処理を制御することと、を実行させる、プログラムが提供される。

以上説明したように本開示によれば、ジェスチャの認識に伴う遅延の影響をより緩和することが可能な、情報処理装置、情報処理方法、及びプログラムが提供される。

なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の一実施形態に係る入出力装置の概略的な構成の一例について説明するための説明図である。ユーザの手の動作を検出するための入力装置の一例について説明するための説明図である。同実施形態に係る情報処理システムのシステム構成の一例について説明するための説明図である。同実施形態に係る情報処理システムが提供するユーザインタフェースの一例について説明するための説明図である。同実施形態に係る情報処理システムが提供するユーザインタフェースの一例について説明するための説明図である。同実施形態に係る情報処理システムの技術的課題について説明するための説明図である。同実施形態に係る情報処理システムの動作原理について説明するための説明図である。同実施形態に係る情報処理システムの機能構成の一例について示したブロック図である。同実施形態に係る情報処理システムの一連の動作の流れの一例について示したフローチャートである。同実施形態の実施例に係る情報処理装置の動作の一例について説明するための説明図である。同実施形態の実施例に係る情報処理装置の動作の他の一例について説明するための説明図である。同実施形態の実施例に係る情報処理装置の動作の他の一例について説明するための説明図である。同実施形態の実施例に係る情報処理装置の動作の他の一例について説明するための説明図である。同実施形態の変形例１に係る情報処理システムの一連の処理の流れの一例について示したフローチャートである。同実施形態の変形例２に係る情報処理装置の動作の一例について説明するための説明図である。同実施形態の変形例２に係る情報処理装置の動作の他の一例について説明するための説明図である。同実施形態にかかる情報処理装置のハードウェア構成例を示すブロック図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

なお、説明は以下の順序で行うものとする。
１．概要
１．１．入出力装置の構成
１．２．システム構成
１．３．ユーザインタフェース
１．４．技術的課題
２．技術的特徴
２．１．動作原理
２．２．機能構成
２．３．処理
２．４．実施例
２．５．変形例１：機械学習との組み合わせの一例
２．６．変形例２：予測に係る動作の最適化
３．ハードウェア構成例
４．むすび

＜＜１．概要＞＞
まず、本開示の一実施形態の概要について説明したうえで、本実施形態の技術的課題について説明する。

＜１．１．入出力装置の構成＞
まず、図１を参照して本実施形態に係る入出力装置の概略的な構成の一例について説明する。図１は、本実施形態に係る入出力装置の概略的な構成の一例について説明するための説明図である。

図１に示すように、本実施形態に係る入出力装置２０は、表示部２０１と、集音部２０３とを含む。また、本実施形態に係る入出力装置２０は、所謂頭部装着型の表示装置（ＨＭＤ：Head Mounted Display）として構成されている。即ち、入出力装置２０は、ユーザの頭部に装着されることで、当該ユーザの眼前に、画像を表示するための表示部２０１（例えば、表示パネル）を保持するように構成されている。

なお、入出力装置２０として適用可能な頭部装着型の表示装置（ＨＭＤ）には、所謂、没入型ＨＭＤ、シースルー型ＨＭＤ、ビデオシースルー型ＨＭＤ、及び網膜投射型ＨＭＤが含まれる。

没入型ＨＭＤは、ユーザの頭部または顔部に装着された場合に、ユーザの眼を覆うように装着され、ユーザの眼前にディスプレイ等の表示部が保持される。そのため、没入型ＨＭＤを装着したユーザは、外部の風景（即ち、現実世界の風景）を直接視野に入れることが困難であり、表示部に表示された映像のみが視界に入ることとなる。このような構成により、没入型ＨＭＤは、画像を視聴しているユーザに対して没入感を与えることが可能となる。

シースルー型ＨＭＤは、例えば、ハーフミラーや透明な導光板を用いて、透明な導光部等からなる虚像光学系をユーザの眼前に保持し、当該虚像光学系の内側に画像を表示させる。そのため、シースルー型ＨＭＤを装着したユーザは、虚像光学系の内側に表示された画像を視聴している間も、外部の風景を視野に入れることが可能となる。なお、シースルー型ＨＭＤの具体的な一例として、メガネのレンズに相当する部分を虚像光学系として構成した、所謂メガネ型のウェアラブルデバイスが挙げられる。

ビデオシースルー型ＨＭＤは、没入型ＨＭＤと同様に、ユーザの眼を覆うように装着され、ユーザの眼前にディスプレイ等の表示部が保持される。一方で、ビデオシースルー型ＨＭＤは、周囲の風景を撮像するための撮像部を有し、当該撮像部により撮像されたユーザの視線方向の風景の画像を表示部に表示させる。このような構成により、ビデオシースルー型ＨＭＤを装着したユーザは、外部の風景を直接視野に入れることは困難ではあるが、表示部に表示された画像により、外部の風景を確認することが可能となる。

網膜投射型ＨＭＤは、ユーザの眼前に投影部が保持されており、当該投影部からユーザの眼に向けて、外部の風景に対して画像が重畳するように当該画像が投影される。より具体的には、網膜投射型ＨＭＤでは、ユーザの眼の網膜に対して、投影部から画像が直接投射され、当該画像が網膜上で結像する。このような構成により、近視や遠視のユーザの場合においても、より鮮明な映像を視聴することが可能となる。また、網膜投射型ＨＭＤを装着したユーザは、投影部から投影される画像を視聴している間も、外部の風景を視野に入れることが可能となる。

また、本実施形態に係る入出力装置２０は、例えば、加速度センサや、角速度センサ（ジャイロセンサ）が設けられ、当該入出力装置２０を装着したユーザの頭部の動き（頭部の姿勢）を検出可能に構成されていてもよい。具体的な一例として、入出力装置２０は、ユーザの頭部の動きとして、ヨー（yaw）方向、ピッチ（pitch）方向、及びロール（roll）方向それぞれの成分を検出する。そして、入出力装置２０は、検出したユーザの頭部の動きに基づき、当該ユーザの視線が示す方向（以降では、「視線方向」と称する場合がある）の変化を認識し、認識した視線方向の変化に応じた画像を当該ユーザに提示する。このような構成に基づき、例えば、ユーザの視線方向の変化に応じて仮想空間内の映像をユーザに提示することで、当該ユーザに対して、あたかも当該仮想空間内にいるような没入感を与えることが可能となる。

また、本実施形態に係る入出力装置２０は、集音部２０３によりユーザが発話した音声を集音可能に構成されている。このような構成により、例えば、音声認識技術に基づきユーザが発話した音声が示す内容（即ち、ユーザが指示する内容）を認識し、当該認識結果を各種制御に利用することも可能となる。

また、本実施形態に係る入出力装置２０は、ユーザの手等の部位の動作を認識するための情報を取得可能に構成されていてもよい。

具体的な一例として、入出力装置２０は、静止画像や動画像等の画像情報を取得するための撮像部と連携して動作してもよい。この場合には、入出力装置２０は、当該撮像部により撮像されたユーザの部位の画像を、当該部位の動作を認識するための情報として取得してもよい。なお、当該撮像部は、対象となる部位の画像を撮像可能であれば、その構成は特に限定されない。具体的な一例として、入出力装置２０の前面に対して、前方側を撮像するように撮像部が設けられていてもよい。このような構成により、入出力装置２０は、例えば、当該撮像部により撮像された、当該入出力装置２０を装着したユーザの前方側に位置する当該ユーザの手の画像を、当該手の動作を認識するための情報として取得することが可能となる。また他の一例として、当該撮像部が、入出力装置２０とは別体として設けられていてもよい。このような構成により、入出力装置２０は、例えば、ユーザに対して所定の方向（例えば、略前方）に設置された撮像部から、撮像されたユーザの画像を、当該ユーザの動作（もしくは、当該ユーザの部位の動作）を認識するための情報として取得することも可能となる。

また、他の一例として、入出力装置２０は、ユーザの手等の部位の動作を検出するためのセンサ等の検知部を含む入力装置と連携して動作してもよい。例えば、図２は、ユーザの手の動作を検出するための入力装置の一例について説明するための説明図である。図２に示すように、入力装置２１は、筐体がユーザの手により把持されることで、当該ユーザに保持される。また、入力装置２１は、加速度センサがジャイロセンサ（角速度センサ）等のような筐体の位置や向きの変化を検出するための検出部を備えている。このような構成により、入力装置２１は、筐体の位置や向きの変化の検出結果を、当該筐体を把持する手の位置や向きの変化を示す情報（即ち、当該手の動きを認識するための情報）として取得することが可能となる。また、外部に設けられた撮像部により、当該入力装置２１の画像を撮像することで、当該画像を当該入力装置２１の動作（ひいては、当該入力装置２１を把持する手の動作）を認識するための情報として利用することも可能となる。

以上のような構成により、入出力装置２０により取得された情報に基づき、ユーザの部位の動き（所謂ジェスチャ）を認識するこが可能となるため、例えば、ユーザの部位の動きの認識結果を各種制御に利用することも可能となる。

以上、図１及び図２を参照して本実施形態に係る入出力装置の概略的な構成の一例について説明した。なお、上記に説明した入出力装置２０の構成はあくまで一例であり、ユーザの動作を検出することが可能であれば、入出力装置２０の構成は必ずしも図１を参照して説明した例には限定されない。

＜１．２．システム構成＞
次いで、図３を参照して、本実施形態に係る情報処理システム１のシステム構成の一例について説明する。図３は、本実施形態に係る情報処理システム１のシステム構成の一例について説明するための説明図である。

図３に示すように、本実施形態に係る情報処理システム１は、入出力装置２０と、コンテンツ制御装置３０と、音響処理装置４０とを含む。図３に示す例では、入出力装置２０とコンテンツ制御装置３０とは、ネットワークＮ１を介して相互に通信可能に接続されている。同様に、コンテンツ制御装置３０と音響処理装置４０とは、ネットワークＮ２を介して相互に通信可能に接続されている。ネットワークＮ１及びＮ２は、例えば、インターネット、専用線、ＬＡＮ（Local Area Network）、または、ＷＡＮ（Wide Area Network）等により構成され得る。なお、異なる装置間を接続するネットワークであれば、ネットワークＮ１及びＮ２それぞれの態様は特に限定されない。

コンテンツ制御装置３０は、入出力装置２０に対してコンテンツを提供するための構成である。例えば、コンテンツ制御装置３０は、入出力装置２０を介したユーザからの指示に基づき、コンテンツを再生し、再生結果に応じた映像や音響等の出力情報を入出力装置２０に出力する。また、コンテンツ制御装置３０は、入出力装置２０を介したユーザからの入力を示す情報（例えば、視線方向を示す情報、音声の集音結果、ジェスチャの検出結果等）を取得し、取得した情報に基づき、入出力装置２０に対する映像や音響等の出力情報の出力を制御してよい。

なお、コンテンツ制御装置３０は、コンテンツの種別や内容に応じて各種処理を実行してもよい。例えば、コンテンツ制御装置３０は、所謂仮想現実（ＶＲ：Virtual Reality）技術に基づき、人工的に構築される仮想空間（換言すると、仮想空間の映像や音響）を、入出力装置２０を介してユーザに提示してもよい。また、他の一例として、コンテンツ制御装置３０は、所謂拡張現実（ＡＲ：Augmented Reality）技術に基づき、仮想的に生成されるオブジェクト（即ち、仮想オブジェクト）が実空間上のオブジェクトに重畳されるように、当該仮想オブジェクトを、入出力装置２０を介してユーザに提示してもよい。

また、コンテンツ制御装置３０は、入出力装置２０を介したユーザからの入力を受けて、当該入力に基づきコンテンツを再生し、当該コンテンツの再生結果を、入出力装置２０を介してユーザに提示してもよい。具体的な一例として、コンテンツ制御装置３０は、入出力装置２０から取得した情報に基づきユーザの視線方向の変化を認識し、ＶＲ技術に基づき当該視線方向が示す仮想空間内の映像を生成してもよい。これにより、コンテンツ制御装置３０は、生成した仮想空間内の映像を、ユーザの視線方向の変化に応じた映像として、入出力装置２０を介して当該ユーザに提示することが可能となる。また、他の一例として、コンテンツ制御装置３０は、入出力装置２０から取得した情報に基づきユーザの手の動き（即ち、ジェスチャ）を認識し、認識結果に基づいて当該ジェスチャに対応する処理を実行してもよい。

音響処理装置４０は、入力された音響情報に対して各種音響解析を施すための構成である。例えば、音響処理装置４０は、ユーザが発話した音声の集音結果を取得し、当該集音結果に対して音声認識技術や自然言語処理技術に基づく解析処理を施すことで、当該ユーザが発話した内容を認識してもよい。なお、ユーザが発話した内容の認識結果（即ち、音声認識処理の結果）は、上述したコンテンツ制御装置３０により、例えば、コンテンツの再生等の各種処理の実行に利用されてもよい。

以上、図３を参照して、本実施形態に係る情報処理システム１のシステム構成の一例について説明した。なお、上述した情報処理システム１のシステム構成はあくまで一例であり、必ずしも図３に示す例には限定されない。具体的な一例として、入出力装置２０と、コンテンツ制御装置３０と、音響処理装置４０とが一体的に構成されていてもよい。また、コンテンツ制御装置３０と音響処理装置４０とが、情報処理装置１０として一体的に構成されていてもよい。

＜１．３．ユーザインタフェース＞
次いで、図４及び図５を参照して、本実施形態に係る情報処理システム１が提供するユーザインタフェースの一例について説明する。図４及び図５は、本実施形態に係る情報処理システム１が提供するユーザインタフェースの一例について説明するための説明図であり、入出力装置２０を介してユーザに仮想空間を提示する状況を想定したユーザインタフェースの一例を示している。

図４及び図５に示す例では、ユーザは、自身の身体の少なくとも一部の部位（例えば、手）を使用した所謂ジェスチャ入力と、発話による所謂音声入力とにより、情報処理システム１に対して各種情報を入力する（即ち、各種操作を行う）。

より具体的には、図４及び図５に示す例では、情報処理システム１は、ユーザに提示される画像中の一部に、音声認識を開始するためのオブジェクト（例えば、アイコン）Ｖ１１を提示している。また、情報処理システム１は、ユーザによる手を用いたジェスチャを検出すると、検出したジェスチャの内容に応じて、仮想空間に形成された仮想的な手（即ち、手のオブジェクト）Ｕ１１を提示する。このような構成により、ユーザは、自身の手を用いたジェスチャ入力により、仮想空間における仮想的な手Ｕ１１を操作することで、当該手Ｕ１１を介して仮想空間内の各種オブジェクト（例えば、オブジェクトＶ１１）に対して操作を行うことが可能となる。なお、仮想的な手Ｕ１１が「第１の表示オブジェクト」の一例に相当する。また、オブジェクトＶ１１が「第２の表示オブジェクト」の一例に相当する。

そして、情報処理システム１は、ユーザから入力されたジェスチャの検出結果に基づき、仮想空間内において手Ｕ１１によりオブジェクトＶ１１に対して操作が行われたことを認識した場合に、当該オブジェクトＶ１１に関連付けられた処理（即ち、音声認識）を開始する。例えば、図４に示す例では、情報処理システム１は、ユーザから入力されたジェスチャの検出結果に基づき、手Ｕ１１によりオブジェクトＶ１１が把持されたことを認識した場合に、当該オブジェクトＶ１１に関連付けられた音声認識を開始する。また、図５に示す例では、情報処理システム１は、ユーザから入力されたジェスチャの検出結果に基づき、オブジェクトＶ１１に対して手Ｕ１１が重ねられたこと（換言すると、手Ｕ１１の位置がオブジェクトＶ１１の位置と略一致したこと）を認識した場合に、当該オブジェクトＶ１１に関連付けられた音声認識を開始する。

このように、各種認識処理に基づき、ユーザの身体性を活かしたユーザインタフェースを提供することで、当該ユーザは、直感的かつ素早い動作により、音声認識等の各種処理を起動することが可能となる。

＜１．４．技術的課題＞
次いで、図６を参照して、本実施形態に係る情報処理システム１の技術的課題について説明する。図６は、本実施形態に係る情報処理システム１の技術的課題について説明するための説明図である。なお、本説明では、図５を参照して前述したように、ユーザが手を用いたジェスチャ入力により、仮想空間内において手Ｕ１１を所定の位置（例えば、オブジェクトＶ１１が提示された位置）に動かすことで音声認識を開始する場合に着目して、本実施形態に係る情報処理システム１の技術的課題について説明する

図６において、横軸は時間ｔを示している。また、時間軸を基準として、下側に、ユーザの操作内容と、当該操作のタイミングとを時間軸に沿って示し、上側に、当該ユーザの操作を受けたシステムの処理の内容と、当該処理のタイミングとを時間軸に沿って示している。

例えば、図６に示す例では、タイミングｔ１１においてユーザがジェスチャ入力により仮想空間内の手Ｕ１１を動かし始め、タイミングｔ１２において手Ｕ１１が所定の位置（例えば、オブジェクトＶ１１の位置）に到達している。その後、タイミングｔ１３において、システムは、ユーザから入力されたジェスチャの解析結果に基づき、手Ｕ１１が所定の位置に移動したことを検知する。そして、システムは、手Ｕ１１が所定の位置に移動したことの検知結果に基づき、ユーザが音声認識処理の開始を指示していることを認識し、当該認識結果に基づき、タイミングｔ１５において音声認識を開始する。

このように、システムが、ジェスチャ入力に基づくユーザの操作を認識し、当該操作の認識結果に基づき音声認識処理を開始するまでには、実際にはシステム的な遅延（例えば、ジェスチャの認識に係る処理等による遅延）が生じる場合がある。特に、ジェスチャの検出結果に基づく操作の認識には、マウスやコントローラ等の入力デバイスを介した操作に比べて、より時間を要する場合がある。そのため、ユーザがジェスチャ入力を行ったことで音声認識が可能となったものと認識するタイミングと、実際にシステムが音声認識を開始するタイミングとの間にギャップが生じる場合がある。

例えば、図６に示す例では、システムがジェスチャ入力に基づくユーザの操作を認識してから音声認識を開始するまでの間のタイミングｔ１４において、ユーザが音声認識のための発話を開始している。このような場合には、システムは、タイミングｔ１４からタイミングｔ１５までの期間の音声、即ち、発話の冒頭の部分の取得に失敗し、結果として音声認識に失敗する場合がある。

そこで、本開示では、ジェスチャの検出結果を、音声等のような他の入力情報の取得に利用するような状況下においても、ジェスチャの認識に伴う遅延の影響をより緩和し、より好適な態様で当該他の入力情報の取得を可能とするための仕組みについて提案する。

＜２．技術的特徴＞
以下に、本実施形態に係る情報処理システム１の技術的特徴について説明する。

＜２．１．動作原理＞
まず、図７を参照して、本実施形態に係る情報処理システム１の動作原理について説明する。図７は、本実施形態に係る情報処理システム１の動作原理について説明するための説明図である。なお、本説明では、図６に示した例と同様に、ユーザが手を用いたジェスチャ入力により、仮想空間内において手Ｕ１１を所定の位置（例えば、オブジェクトＶ１１が提示された位置）に動かすことで音声認識を開始する場合に着目して、本実施形態に係る情報処理システム１の動作原理について説明する

図７において、横軸は時間ｔを示している。また、時間軸を基準として、下側に、ユーザの操作の内容と、当該操作のタイミングを時間軸に沿って示し、上側に、当該ユーザの操作を受けたシステムの処理の内容と、当該処理のタイミングとを時間軸に沿って示している。

図７に示す例では、タイミングｔ２１においてユーザがジェスチャにより仮想空間内の手Ｕ１１を動かし始め、タイミングｔ２３において手Ｕ１１が所定の位置（例えば、オブジェクトＶ１１の位置）に到達したものとする。このとき、システム（即ち、情報処理システム１）は、仮想空間内における手Ｕ１１の動き、または、実空間上におけるユーザの手の動きの検出結果に基づき、以降の手Ｕ１１の動き（換言すると、以降の操作）を予測（推定）する。例えば、図７に示す例では、情報処理システム１は、タイミングｔ２３よりも早いタイミングｔ２２において、手Ｕ１１が所定の位置に移動することを予測することとなる。

そして、情報処理システム１は、手Ｕ１１が所定の位置に移動することを予測した場合に、当該予測結果に基づき音声認識のための音響の取得に係る処理（ひいては、音声認識処理）を開始する。そのため、図７に示す例では、実際に仮想空間内において手Ｕ１１が所定の位置に到達するタイミングｔ２３以前に、以降に入力されるジェスチャに基づくユーザの操作が予測され、当該操作の予測結果に基づき、タイミングｔ２４において、音声認識の処理が開始される。

ここで、図６及び図７を比較するとわかるように、本実施形態に係る情報処理システム１は、図６に示す例に比べて、より早いタイミングで音声認識処理を開始することが可能となる。そのため、情報処理システム１は、例えば、図７に示すように、ユーザが音声認識のための発話を開始するタイミングｔ２５よりも、より早いタイミングｔ２４において、音声認識処理を開始することが可能となる。即ち、本実施形態に係る情報処理システム１に依れば、ジェスチャの検出結果を、音声等のような他の入力情報の取得に利用するような状況下においても、ジェスチャの認識に伴う遅延の影響をより緩和し、より好適な態様で当該他の入力情報を取得することが可能となる。

＜２．２．機能構成＞
次いで、図８を参照して、本実施形態に係る情報処理システム１の機能構成の一例について説明する。図８は、本実施形態に係る情報処理システム１の機能構成の一例について示したブロック図である。なお本説明では、本実施形態に係る情報処理システム１の特徴をよりわかりやすくするために、図３に示したコンテンツ制御装置３０と音響処理装置４０とが、情報処理装置１０として一体的に構成され、当該情報処理装置１０と入出力装置２０とが連携して動作するものとして説明する。

図８に示すように、本実施形態に係る情報処理システム１は、入出力装置２０と、情報処理装置１０と、記憶部１３とを含む。

記憶部１３は、情報処理装置１０が、入出力装置２０を介してユーザにコンテンツを提供するための各種情報を記憶するための構成である。例えば、記憶部１３には、コンテンツのデータが記憶されていてもよい。また、記憶部１３には、情報処理装置１０が入出力装置２０を介してユーザにコンテンツを提供するためのプログラム（アプリケーション）のデータ（例えば、ライブラリ等）や、各種制御情報（例えば、設定ファイル等）が記憶されていてもよい。

ここで、入出力装置２０の構成に着目する。入出力装置２０は、表示部２０１と、音響出力部２０２と、集音部２０３とを含む。表示部２０１及び集音部２０３は、図１を参照して説明した表示部２０１及び集音部２０３に相当する。また、音響出力部２０２は、所謂スピーカ等のような音響デバイスにより構成され、音声や音響を出力する。

また、入出力装置２０は、検知部２０５及び撮像部２０７のうち少なくともいずれかを含んでもよい。検知部２０５及び撮像部２０７は、ユーザの頭部や手等の部位の動作を検出するための構成である。

例えば、検知部２０５は、加速度センサがジャイロセンサ（角速度センサ）等のような各種センサを含み、当該センサによりユーザの部位の位置や向きの変化を検出し、当該検出結果を当該部位の動作を認識するための情報として取得する。より具体的には、検知部２０５は、例えば、入出力装置２０の筐体の位置や向きの変化を検出し、当該検出結果を、当該入出力装置２０を装着するユーザの頭部の動作を認識するための情報として取得してもよい。

また、他の一例として、検知部２０５は、ユーザの手に装着された（もしくは、手に把持された）装置のセンサによる当該装置の位置や向きの変化の検出結果を、ユーザの手の動作の認識するための情報として取得してもよい。

また、撮像部２０７は、ユーザの手等の部位を被写体として画像を撮像することで、当該画像を、当該画像中に被写体として撮像された部位の動作を認識するための情報として取得する。また、撮像部２０７は、所謂デプスセンサ等のように、被写体の奥行き方向を検知可能に構成されてもよい。また、撮像部２０７は、ユーザの眼の画像を撮像することで、当該画像を、所謂アイトラッキング技術に基づきユーザの視線方向を検出するための情報として取得してもよい。

次いで、情報処理装置１０の構成に着目する。情報処理装置１０は、出力制御部１０１と、音響処理部１０３と、ジェスチャ認識処理部１０５と、制御部１１０とを含む。また、制御部１１０は、コンテンツ制御部１１１と、予測部１１３と、タイミング制御部１１５とを含む。

出力制御部１０１は、入出力装置２０を介したユーザへの情報の提示を制御するための構成である。例えば、出力制御部１０１は、後述する制御部１１０（より具体的には、コンテンツ制御部１１１）によるコンテンツの再生結果に基づき、画像を表示部２０１に表示させる。これにより、例えば、当該コンテンツにより提供される仮想空間内の映像が、表示部２０１を介してユーザに提示される。また、出力制御部１０１は、制御部１１０によるコンテンツの再生結果に基づき、音声等の音響を音響出力部２０２に出力させる。これにより、例えば、当該コンテンツにより提供される仮想空間内の音響が、音響出力部２０２を介してユーザに提示される。

音響処理部１０３は、集音部２０３から音響（例えば、音声等）の集音結果を取得し、当該集音結果に対して各種音響解析処理を施す。より具体的な一例として、音響処理部１０３は、音響の集音結果に対して所謂音声認識処理を施すことで、当該音響を文字情報に変換してもよい。また、このとき音響処理部１０３は、音響の集音結果に対して、所謂ビームフォーミング処理等の音響解析処理を施すことで、ユーザの音声以外の他の音響（所謂、雑音）を抑制し、当該音響解析処理の結果に対して音声認識処理を施してもよい。そして、音響処理部１０３は、音声認識等の音響処理の結果を制御部１１０に出力する。

また、音響処理部１０３は、後述する制御部１１０（より具体的には、タイミング制御部１１５）からの制御に基づき、音声認識の対象となる音響（換言すると、音響の集音結果）の取得に係る処理のタイミングや、音声認識等の音響解析の処理のタイミングが制御されてもよい。

ジェスチャ認識処理部１０５は、入出力装置２０により取得された情報に基づき、ユーザの手等の部位の動作（即ち、ジェスチャ）を認識するための構成である。

例えば、ジェスチャ認識処理部１０５は、検知部２０５から、入出力装置２０の筐体の位置や向きの変化の検出結果に基づく、当該入出力装置２０を装着するユーザの頭部の動作を認識するための情報を取得してもよい。これにより、ジェスチャ認識処理部１０５は、検知部２０５から取得した情報に基づき、ユーザの頭部の動作（例えば、位置や向きの変化）を認識し、ひいては、当該頭部の動作の認識結果に基づき、ユーザの視線方向を特定することも可能となる。

また、ジェスチャ認識処理部１０５は、検知部２０５から、ユーザの手に装着された装置のセンサによる当該装置の位置や向きの変化の検出結果に基づく、当該手の動作の認識するための情報を取得してもよい。これにより、ジェスチャ認識処理部１０５は、検知部２０５から取得した情報に基づき、ユーザの手の動作（即ち、位置や向きの変化）を認識することが可能となる。

また、他の一例として、ジェスチャ認識処理部１０５は、撮像部２０７により撮像された画像を取得し、取得した画像に対して画像解析処理を施すことで当該画像中に撮像された部位の動作を認識してもよい。また、このときジェスチャ認識処理部１０５は、所謂デプスセンサとして構成された撮像部２０７により撮像された画像に基づき、当該画像中に撮像された部位の奥行き方向の位置を認識してもよい。

より具体的には、ジェスチャ認識処理部１０５は、取得した画像中から対象となる部位（例えば、手）の形状的な特徴を抽出することで、当該抽出結果に基づき、当該画像中に撮像された部位を抽出する。これにより、ジェスチャ認識処理部１０５は、撮像部２０７に対する当該部位の相対的な位置及び向きを認識することが可能となる。また、ジェスチャ認識処理部１０５は、撮像部２０７の位置や向きを認識することで、当該撮像部２０７に撮像された画像中の部位の絶対位置を認識してもよい。例えば、ジェスチャ認識処理部１０５は、入出力装置２０の位置や向きの認識結果（換言すると、ユーザの視線方向の認識結果）に基づき、当該入出力装置２０に設置された撮像部２０７の位置や向きを認識することが可能である。

また、ジェスチャ認識処理部１０５は、撮像部２０７からユーザの眼の画像の撮像結果を取得し、取得した画像を基に、所謂アイトラッキング技術に基づき、ユーザの眼の動作を認識してもよい。このとき、ジェスチャ認識処理部１０５は、ユーザの頭部の動作の認識結果と、ユーザの眼の動作の認識結果とに基づき、ユーザの視線方向をより詳細に特定してもよい。

また、他の一例として、ジェスチャ認識処理部１０５は、取得した画像に対して画像解析を施すことで、当該画像から抽出された部位（例えば、手）の形状の変化を、当該部位の動作として認識してもよい。

そして、ジェスチャ認識処理部１０５は、ユーザの頭部や手等の部位の動作やユーザの眼の動作の認識結果を示す情報を制御部１１０に出力する。これにより、制御部１１０は、当該部位の動作の認識結果や、眼の動作の認識結果等に基づき、ユーザによる操作の内容（換言すると、ユーザからの指示の内容）を認識することが可能となる。

コンテンツ制御部１１１は、前述したコンテンツ制御装置３０に相当する構成である。具体的には、コンテンツ制御部１１１は、入出力装置２０を介したユーザからの指示に基づき、対応するコンテンツのデータを記憶部１３から読み出し、当該コンテンツを再生する。そして、コンテンツ制御部１１１は、当該コンテンツの再生結果に基づく画像や音響等の出力情報を、出力制御部１０１に出力する。

また、このときコンテンツ制御部１１１は、再生対象となるコンテンツの種別や内容に応じて、ＶＲ技術やＡＲ技術等に基づく処理を実行してもよい。

また、コンテンツ制御部１１１は、ジェスチャ認識処理部１０５から、ユーザの頭部や手等の部位の動作の認識結果や、眼の動作の認識結果を示す情報を取得し、取得した情報に基づき、ユーザによる操作の内容を認識してもよい。

例えば、コンテンツ制御部１１１は、ユーザの頭部の動作の認識結果に基づき、当該ユーザの視線方向の変化を認識してもよい。また、このときコンテンツ制御部１１１は、ユーザの頭部の動作の認識結果と、当該ユーザの眼の動作の認識結果とを組み合わせることで、当該ユーザの視線方向の変化をより詳細に認識してもよい。そして、コンテンツ制御部１１１は、例えば、ＶＲ技術に基づき、ユーザの視線方向が示す仮想空間上の映像を生成し、生成した仮想空間内の映像を、出力制御部１０１に出力してもよい。このような構成により、例えば、ユーザは、見回すように視線方向を移動させることで、自身の視線方向に応じた仮想空間内の映像を、入出力装置２０を介して視認することが可能となる。

また、コンテンツ制御部１１１は、ユーザの手の動作の認識結果に基づき、当該手を使用した操作の内容（例えば、ジェスチャ入力に基づくユーザの指示内容）を認識し、認識結果に応じた処理を実行してもよい。

具体的な一例として、コンテンツ制御部１１１は、ＶＲ技術に基づき、仮想空間内におけるユーザの手Ｕ１１による仮想オブジェクトＶ１１に対する操作の内容を認識し、当該操作の内容に応じた処理を実行してもよい。また、他の一例として、コンテンツ制御部１１１は、ＡＲ技術に基づき、ユーザに提示した仮想オブジェクトに対する、ユーザの手（実空間上の手）による操作の内容を認識し、当該操作の内容に応じた処理を実行してもよい。また、他の一例として、コンテンツ制御部１１１は、ユーザの手の形状を認識し、当該形状の認識結果に応じた処理を実行してもよい。

予測部１１３は、ジェスチャ認識処理部１０５から、ユーザの頭部や手等の部位の動作や、ユーザの眼の動作等のジェスチャの認識結果を示す情報を取得し、取得した情報に基づき、以降に入力されるジェスチャ（ひいては、ジェスチャに基づく操作）を予測する。

例えば、予測部１１３は、ユーザの手の位置や向きの変化に基づき、手が移動する方向や速度を認識し、認識結果に基づき、以降における当該手の動作や、当該手の移動先（即ち、位置）を予測してもよい。また、予測部１１３は、ユーザの手の形状の変化に基づき、変化後の当該手の形状を予測してもよい。また、予測部１１３は、ユーザの手の位置、向き、動作、及び形状等のうち少なくともいずれかの変化を観測データとしてカルマンフィルタ等を適用することで、以降における当該手の位置、向き、動作、形状等を予測してもよい。これは、ユーザの頭部の動作や、ユーザの眼の動作等を対象とした場合についても同様である。

また、他の一例として、予測部１１３は、ユーザから入力されたジェスチャの認識結果に基づくオブジェクトの動作に応じて、以降における当該オブジェクトの動作（ひいては、当該オブジェクトを動作させるための操作の内容）を予測してもよい。

具体的な一例として、予測部１１３は、ユーザにより入力されたジェスチャの認識結果に応じた仮想空間における仮想的な手Ｕ１１の位置や向きの変化に基づき、手Ｕ１１が移動する方向や速度を認識し、認識結果に基づき、以降における当該手Ｕ１１の移動先を予測してもよい。また、予測部１１３は、仮想的な手Ｕ１１の形状の変化に基づき、変化後の当該手の形状を予測してもよい。また、予測部１１３は、仮想的な手Ｕ１１の位置、向き、形状等の変化を観測データとしてカルマンフィルタ等を適用することで、以降における当該手Ｕ１１の位置、向き、形状等を予測してもよい。

以上のようにして、予測部１１３は、ユーザにより入力されたジェスチャ（例えば、頭部や手等の部位の動作）の認識結果、または、当該認識結果に基づくオブジェクトの動作に応じて、以降に入力されるジェスチャに基づく操作を予測する。そして、予測部１１３は、操作の予測結果を示す情報をタイミング制御部１１５に出力する。

タイミング制御部１１５は、予測部１１３から、以降に入力されるジェスチャに基づく操作の予測結果を示す情報を取得し、当該予測結果に基づき、各種処理の実行を制御する。例えば、タイミング制御部１１５は、当該予測結果が示す操作が、音声認識処理の実行を指示するための操作であることを認識した場合には、当該操作の実行に先駆けて音声認識処理（もしくは、音声認識のための音響の取得に係る処理）の開始を、音響処理部１０３に指示する。また、タイミング制御部１１５は、音声認識処理の開始を指示した後に、続いて取得した予測結果が示す操作が、音声認識処理の実行を指示するための操作でないことを認識した場合（即ち、従前の予測が外れた場合）には、当該音声認識処理の終了を音響処理部１０３に指示してもよい。

なお、予測部１１３及びタイミング制御部１１５の動作、即ち、ユーザの動作の予測に係る処理と、当該予測結果に基づく各種処理の制御に係る処理とのより具体的な一例については、実施例として別途後述する。

以上、図８を参照して、本実施形態に係る情報処理システム１の機能構成の一例について説明した。なお、上記に説明した機能構成はあくまで一例であり、必ずしも図８に示す例には限定されない。具体的な一例として、前述したように、情報処理装置１０と入出力装置２０とが一体的に構成されていてもよい。また、他の一例として、情報処理装置１０の各構成のうち一部の構成が、情報処理装置１０の外部に設けられていてもよい。より具体的な一例として、制御部１１０に相当する構成（即ち、コンテンツ制御部１１１、予測部１１３、タイミング制御部１１５）のうち少なくとも一部が、情報処理装置１０とネットワークを介して接続されたサーバに設けられていてもよい。

＜２．３．処理＞
次いで、図９を参照して、本実施形態に係る情報処理システム１の一連の動作の流れの一例について、特に、情報処理装置１０の動作に着目して説明する。図９は、本実施形態に係る情報処理システム１の一連の動作の流れの一例について示したフローチャートである。なお、本説明では、情報処理装置１０が、ユーザの頭部や手等の部位の動作の認識結果に基づき、以降に入力されるジェスチャ（即ち、当該部位の動作）に基づく操作を予測する場合に着目して、情報処理システム１の一連の動作の流れの一例について説明する。

ジェスチャ認識処理部１０５は、検知部２０５による検知結果を示す情報や、撮像部２０７により撮像された画像に基づき、ユーザの頭部や手等の部位の動作を認識し、認識結果を示す情報を制御部１１０に出力する。制御部１１０は、ユーザの頭部や手等の部位の動作の認識結果を示す情報に基づき、以降に入力されるジェスチャ（即ち、部位の動作）に基づく操作を予測する（Ｓ１０１）。

そして、制御部１１０は、操作の予測結果が音声認識を開始するための所定の条件を満たしており（Ｓ１０３、ＹＥＳ）、かつ、音声認識処理が開始されていない場合には（Ｓ１０９、ＮＯ）、当該音声認識処理の開始を音響処理部１０３に指示する。この指示を受けて、音響処理部１０３は、集音部２０３からの音響（例えば、音声等）の集音結果の取得や、当該集音結果に基づく音声認識処理を開始する（Ｓ１１１）。なお、このとき既に集音結果の取得に係る処理や音声認識処理が開始されている場合には（Ｓ１０９、ＹＥＳ）、制御部１１０は、音響処理部１０３に対して音声認識処理の開始を指示しなくてもよい。

また、制御部１１０は、操作の予測結果が所定の条件を満たしておらず（Ｓ１０３、ＮＯ）、かつ、従前の予測結果に基づき音声認識処理が開始されている場合には（Ｓ１０５、ＹＥＳ）には、当該音声認識処理の終了を音響処理部１０３に指示する。この指示を受けて、音響処理部１０３は、集音部２０３からの音響の集音結果の取得や、当該集音結果に対する音声認識処理を終了する（Ｓ１０７）。なお、このとき、集音結果の取得に係る処理や音声認識処理が開始されていない場合には（Ｓ１０５、ＮＯ）、制御部１１０は、音響処理部１０３に対して音声認識処理の終了を指示しなくてもよい。

制御部１１０は、以上の動作を、ユーザにより入力されたジェスチャに基づく操作（即ち、頭部や手等の部位の動作の認識結果に基づく操作）が、当該ユーザが音声認識の開始を指示していることを示す所定の条件を満たすまで継続する（ステップＳ１１３、ＮＯ）。そして、制御部１１０は、ユーザにより入力されたジェスチャに基づく操作が所定の条件を満たした場合には（Ｓ１１３、ＹＥＳ）、実行された音声認識処理の結果に応じた処理を実行する（Ｓ１１５）。

なお、ステップＳ１１５以降においては、開始された音声認識処理を終了させるための仕組みについては、特に限定されない。具体的な一例として、情報処理装置１０は、ユーザからの明示的な指示を受けて、音響処理部１０３に対して音声認識処理の終了を指示してもよい。また、他の一例として、情報処理装置１０は、無音区間の検出等によりユーザの発話が終了したことを検知した場合に、音響処理部１０３に対して音声認識処理の終了を指示してもよい。

なお、ステップＳ１０１〜Ｓ１１３で示された一連の処理においては、情報処理装置１０は、ステップＳ１０７で示された処理においてのみ、音響処理部１０３に対して音声認識処理の終了を指示するように構成されていてもよい。この場合には、情報処理装置１０は、ユーザから音声認識処理の終了を明示的に指示された場合においても、ステップＳ１０７で示された処理が実行されない限りは、音響処理部１０３に音声認識処理を継続させてもよい。

以上、図９を参照して、本実施形態に係る情報処理システム１の一連の動作の流れの一例について、特に、情報処理装置１０の動作に着目して説明した。

＜２．４．実施例＞
次いで、本実施形態に係る情報処理システム１の実施例として、情報処理装置１０が、ジェスチャ入力に基づく操作を予測し、予測結果に応じて処理を実行する動作の一例について説明する。

（オブジェクトとの距離に基づく予測）
例えば、図１０は、本実施形態の実施例に係る情報処理装置１０の動作の一例について説明するための説明図である。図１０は、図５を参照して説明した例のように、ユーザが、ジェスチャ入力により仮想空間内の仮想的な手Ｕ１１を操作し、当該手Ｕ１１をオブジェクトＶ１１に重ねることで、音声認識処理の開始を指示する場合の一例を示している。図１０に示す例では、情報処理装置１０は、手Ｕ１１とオブジェクトＶ１１との間の距離ｄ０を算出する。そして、情報処理装置１０は、距離ｄ０の算出結果に基づき、以降に入力されるジェスチャに応じて、手Ｕ１１がオブジェクトＶ１１の位置に移動するか否か（ひいては、手Ｕ１１によりオブジェクトＶ１１に対して操作が行われるか否か）を予測する。

より具体的には、情報処理装置１０は、手Ｕ１１とオブジェクトＶ１１との間の距離ｄ０が、所定の距離ｄ１以下となった場合には、手Ｕ１１によりオブジェクトＶ１１に対して操作が行われるものと予測する。換言すると、図１０において、情報処理装置１０は、参照符号Ｖ１３で示された領域内に手Ｕ１１が進入したことを認識した場合に、当該手Ｕ１１によりオブジェクトＶ１１に対して操作が行われるものと予測する。

そして、情報処理装置１０は、手Ｕ１１によりオブジェクトＶ１１に対して操作が行われることを予測した場合に、当該オブジェクトＶ１１に関連付けられた音声認識処理を開始する。

なお、図１０に示す例では、手Ｕ１１とオブジェクトＶ１１との間の距離ｄ０が、距離ｄ１以下となり、音声認識処理が起動されたとしても、以降に、手Ｕ１１がオブジェクトＶ１１の位置に移動しない状況も想定され得る。このような状況を想定し、例えば、情報処理装置１０は、手Ｕ１１とオブジェクトＶ１１との間の距離ｄ０が、距離ｄ１を超えたことを認識した場合に、実行中の音声認識処理を終了してもよい。また、この場合には、情報処理装置１０は、終了させた音声認識処理の結果に基づく処理を実行しなくてもよいし、当該認識結果を棄却してもよい。

（速度ベクトルに基づく予測）
また、図１１は、本実施形態の実施例に係る情報処理装置１０の動作の他の一例について説明するための説明図である。図１１は、図５を参照して説明した例のように、ユーザが、ジェスチャ入力により仮想空間内の仮想的な手Ｕ１１を操作し、当該手Ｕ１１をオブジェクトＶ１１に重ねることで、音声認識処理の開始を指示する場合の一例を示している。図１１に示す例では、情報処理装置１０は、手Ｕ１１の動く方向と、当該手Ｕ１１の動く速度とに基づき速度ベクトルＶ１を算出する。そして、情報処理装置１０は、速度ベクトルＶ１の算出結果に基づき、以降に入力されるジェスチャに応じて、手Ｕ１１がオブジェクトＶ１１の位置に移動するか否か（ひいては、手Ｕ１１によりオブジェクトＶ１１に対して操作が行われるか否か）を予測する。

例えば、図１１に示す角度θは、手Ｕ１１とオブジェクトＶ１１とを結ぶ直線と、当該手Ｕ１１が移動する方向との間の角度を示している。即ち、この角度θが小さいほど、手Ｕ１１は、オブジェクトＶ１１の方向に向けて移動している可能性が高くなる。このような特性を利用し、情報処理装置１０は、速度ベクトルＶ１の向いている方向（換言すると、角度θ）と、当該速度ベクトルＶ１の大きさ（即ち、手Ｕ１１の移動速度）とに基づき、以降に手Ｕ１１が移動する位置（即ち、手Ｕ１１の移動先）を予測する。これにより、情報処理装置１０は、手Ｕ１１の移動先の予測結果に基づき、当該手Ｕ１１によりオブジェクトＶ１１に対して操作が行われるか否かを予測することが可能となる。

なお、図１１に示す例では、速度ベクトルＶ１に基づく手Ｕ１１の移動先の予測結果に基づき音声認識処理が起動されたとしても、以降に、手Ｕ１１がオブジェクトＶ１１の位置に移動しない状況も想定され得る。このような状況を想定し、例えば、情報処理装置１０は、新たに算出された速度ベクトルＶ１に基づき、手Ｕ１１がオブジェクトＶ１１から離間することを認識した場合に、実行中の音声認識処理を終了してもよい。また、この場合には、情報処理装置１０は、終了させた音声認識処理の結果に基づく処理を実行しなくてもよいし、当該認識結果を棄却してもよい。

（形状に基づく予測）
また、図１２は、本実施形態の実施例に係る情報処理装置１０の動作の他の一例について説明するための説明図である。図１２は、ユーザは、ジェスチャ入力により仮想空間内の仮想的な手Ｕ１１を操作し、当該手Ｕ１１によりオブジェクトＶ１１を掴むことで、音声認識処理の開始を指示する場合の一例を示している。図１２に示す例では、情報処理装置１０は、手Ｕ１１の形状を認識し、当該形状の認識結果に応じて、以降に入力されるジェスチャに応じて、手Ｕ１１の形状がオブジェクトＶ１１を掴む形状になるか否か（ひいては、手Ｕ１１によりオブジェクトＶ１１に対して操作が行われるか否か）を予測する。

具体的には、情報処理装置１０は、手Ｕ１１の形状の認識結果と、所定の形状（即ち、手Ｕ１１がオブジェクトを掴む際の形状）との類似度を算出する。より具体的な一例として、情報処理装置１０は、手Ｕ１１の形状の認識結果に基づき特徴量を算出し、所定の形状を示す特徴量との比較結果に基づき類似度を算出してもよい。そして、情報処理装置１０は、類似度の算出結果が閾値以上となったことを認識した場合（例えば、手Ｕ１１の形状が、オブジェクトを掴む際の形状に概ね類似している場合）に、手Ｕ１１によりオブジェクトＶ１１に対して操作が行われるものと予測する。

なお、図１２に示す例では、手Ｕ１１の形状の予測結果に基づき音声認識処理が起動されたとしても、以降に、手Ｕ１１の形状が、所定の形状（例えば、オブジェクトを掴む形状）とならない状況も想定され得る。このような状況を想定し、例えば、情報処理装置１０は、手Ｕ１１の形状の認識結果と、所定の形状との類似度が閾値未満となったことを認識した場合に、実行中の音声認識処理を終了すればよい。また、この場合には、情報処理装置１０は、終了させた音声認識処理の結果に基づく処理を実行しなくてもよいし、当該認識結果を棄却してもよい。

（カルマンフィルタに基づく予測）
また、図１３は、本実施形態の実施例に係る情報処理装置１０の動作の他の一例について説明するための説明図である。図１３は、図５を参照して説明した例のように、ユーザが、ジェスチャ入力により仮想空間内の仮想的な手Ｕ１１を操作し、当該手Ｕ１１をオブジェクトＶ１１に重ねることで、音声認識処理の開始を指示する場合の一例を示している。図１３に示す例では、情報処理装置１０は、仮想的な手Ｕ１１の位置や向きの変化を観測データとしてカルマンフィルタを適用することで、以降に入力されるジェスチャに応じて、手Ｕ１１がオブジェクトＶ１１の位置に移動するか否か（ひいては、手Ｕ１１によりオブジェクトＶ１１に対して操作が行われるか否か）を予測する。

例えば、図１３において、参照符号Ｖ１５は、カルマンフィルタの適用結果に基づく、手Ｕ１１の移動先の予測結果を示している。即ち、図１３に示すように、情報処理装置１０は、手Ｕ１１の移動先の予測結果Ｖ１５が、オブジェクトＶ１１の位置と略一致する場合に、手Ｕ１１によりオブジェクトＶ１１に対して操作が行われるものと予測する。

なお、図１３に示す例では、図１０及び図１１に示す例と同様に、以降に、手Ｕ１１がオブジェクトＶ１１の位置に移動しない状況も想定され得る。このような状況を想定し、例えば、情報処理装置１０は、カルマンフィルタの適用結果に基づく手Ｕ１１の移動先の予測結果を基に、手Ｕ１１がオブジェクトＶ１１の位置に移動しないことを予測した時点で、実行中の音声認識処理を終了すればよい。また、この場合には、情報処理装置１０は、終了させた音声認識処理の結果に基づく処理を実行しなくてもよいし、当該認識結果をは棄却してもよい。

以上、図１０〜図１３を参照して、本実施形態に係る情報処理システム１の実施例として、情報処理装置１０が、ジェスチャ入力に基づく操作を予測し、予測結果に応じて処理を実行する動作の一例について説明した。なお、上記に説明した例はあくまで一例であり、情報処理装置１０が、ジェスチャの認識結果に基づき、以降に入力されるジェスチャに基づく操作を予測可能であれば、その方法は特に限定されない。また、上記に説明した予測方法の例のうち２以上の予測方法を組み合わせてもよい。例えば、情報処理装置１０は、手Ｕ１１とオブジェクトＶ１１の距離ｄ０の算出結果と、手Ｕ１１の速度ベクトルＶ１の算出結果とを利用することで、手Ｕ１１がオブジェクトＶ１１の位置に移動するか否かの予測の精度を向上させてもよい。

また、情報処理装置１０は、ジェスチャ入力に基づく操作の予測結果に応じて各種情報をユーザに通知してもよい。例えば、情報処理装置１０は、ジェスチャ入力に基づく操作の予測結果に基づき、音声認識のための音響の取得状況や、当該音声認識の状況を、入出力装置２０を介してユーザに通知してもよい。より具体的な一例として、情報処理装置１０は、ジェスチャ入力に基づく操作の予測結果に基づき、音声認識を開始した場合に、当該音声認識を開始したことを示す情報をユーザに通知してもよい。なお、情報処理装置１０が、情報を通知する方法や、通知するための媒体は特に限定されない。具体的な一例として、情報処理装置１０は、入出力装置２０を介してユーザに提示する画像（画面）上に、通知対象となる情報を視覚化した表示情報を提示することで、ユーザに対して情報を通知してもよい。また、他の一例として、情報処理装置１０は、通知対象となる情報を示す音声や音響を、スピーカ等の音響デバイスを介して出力することで、ユーザに対して情報を通知してもよい。

また、上述した例では、ＶＲ技術に基づき、仮想的な手Ｕ１１によるオブジェクトＶ１１に対する操作を予測する場合に着目して説明したが、必ずしも同態様のみには限定されない。具体的な一例として、ＡＲ技術に基づき、実空間上に重畳された仮想的なオブジェクトに対する、実空間における手等の部位による操作を予測する場合についても同様の制御を行うことが可能である。即ち、情報処理装置１０は、手等の部位の動作を予測し、予測結果に応じて、当該オブジェクトに関連付けられた処理を実行してもよい。

＜２．５．変形例１：機械学習との組み合わせの一例＞
次いで、本実施形態の変形例１として、音声認識処理の結果を所謂機械学習の教師データとして蓄積する場合における制御の一例について説明する。

前述したように、本実施形態に係る情報処理システム１では、ジェスチャ入力に基づく操作を予測し、予測結果に応じて、音声認識処理の実行を指示する操作が実際に行われる前に、音声認識処理を先行して開始する。一方で、必ずしも予測通りの操作が行われるとは限らず、予測が外れた場合には、先行して開始された音声認識処理の結果は使用されない場合がある。この使用されなかった音声認識処理の結果は、実際にはユーザが音声による情報の入力を意図していないときに取得されたデータとなる。そのため、このような音声認識処理の結果を示すデータが、機械学習の教師データとして蓄積されると、当該教師データが所謂ノイズとなり、機械学習の結果に基づく予測の精度を低下させる場合も想定される。

そこで、変形例１として、ジェスチャ入力に基づく操作の予測結果に基づき取得された音声認識処理の結果を示すデータのうち、実際に使用されなかったデータが教師データとして蓄積されないように制御するための仕組みの一例について説明する。

例えば、図１４は、本実施形態の変形例１に係る情報処理システム１の一連の処理の流れの一例について示したフローチャートである。図１４に示すように、変形例１に係る情報処理システム１では、参照符号Ｓ２１３及びＳ２１７として示した、予備フラグの設定及び棄却に係る処理が追加されている点で、前述した実施形態に係る情報処理システム１の動作（図９参照）と異なる。そこで、本説明では、変形例１に係る情報処理システム１の一連の処理の流れの一例について、特に、前述した実施形態に係る情報処理システム１と異なる部分に着目して説明する。なお、前述した実施形態に係る情報処理システム１と実質的に同様の処理については、詳細な説明は省略する。

図１４に示すように、変形例１に係る情報処理システム１では、情報処理装置１０の制御部１１０は、ジェスチャ認識処理部１０５からユーザの頭部や手等の部位の動作の認識結果を示す情報を取得し、当該情報に基づき、以降に入力されるジェスチャに基づく操作を予測する（Ｓ２０１）。そして、制御部１１０は、操作の予測結果が音声認識を開始するための所定の条件を満たしており（Ｓ２０３、ＹＥＳ）、かつ、音声認識処理が開始されていない場合には（Ｓ２０９、ＮＯ）、当該音声認識処理の開始を音響処理部１０３に指示する（Ｓ２１１）。ここまでの動作については、前述した実施形態に係る情報処理装置１０と同様である。

また、変形例１に係る制御部１１０は、音響処理部１０３に対して音声認識処理の開始を指示した場合には、当該音声認識処理の結果を示すデータに対して予備フラグを設定する（Ｓ２１３）。そして、制御部１１０は、ユーザにより入力されたジェスチャに基づく操作が所定の条件を満たした場合には（Ｓ２１５、ＹＥＳ）、実行された音声認識処理の結果を示すデータに対して設定された予備フラグを棄却し（Ｓ２１７）、当該音声認識処理の結果に応じた処理を実行する（Ｓ２１９）。なお、予備フラグの設定に係る条件が、「第１の条件」の一例に相当する。また、予備フラグの棄却に係る条件が、「第２の条件」の一例に相当する。

一方で、制御部１１０は、操作の予測結果が所定の条件を満たしておらず（Ｓ２０３、ＮＯ）、かつ、従前の予測結果に基づき音声認識処理が開始されている場合には（Ｓ２０５、ＹＥＳ）には、当該音声認識処理の終了を音響処理部１０３に指示する（Ｓ２０７）。この場合には、実行された音声認識処理の結果を示すデータに対して、予備フラグが設定されたままとなる。

そして、本実施形態に係る情報処理装置１０は、音声認識処理の結果として取得された各データのうち、予備フラグが設定されていないデータのみを教師データとして蓄積し、予備フラグが設定されたデータについては教師データとして蓄積しない。

以上のような構成により、変形例１に係る情報処理装置１０は、音声認識処理の結果が使用されなかったデータ、即ち、ユーザが意図せずに取得されたデータが、機械学習の教師データとして蓄積される事態の発生を防止することが可能となる。

以上、本実施形態の変形例１として、音声認識処理の結果を所謂機械学習の教師データとして蓄積する場合における制御の一例について説明した。

＜２．６．変形例２：予測に係る処理の最適化＞
次いで、本実施形態の変形例２として、ジェスチャ入力に基づく操作の予測に係る処理を最適化するための制御の一例について説明する。

ジェスチャ入力等のようにユーザの動作の認識結果を当該ユーザからの入力情報として利用する場合には、マウスやコントローラ等の入力デバイスを介した操作に比べて、取得される入力情報に、ユーザの身体的特徴や癖等の影響によるばらつきが生じる場合がある。特に、本実施形態に係る情報処理システム１では、例えば、ジェスチャ入力に基づく操作を予測することで、実際に操作が行われる前に音声認識処理等を先行して起動する。そのため、例えば、ユーザの身体的特徴や癖等が操作の予測に影響し、ユーザの意図に反して音声認識処理が起動される状況や、予測よりもユーザが早く発話を開始し、結果として音声認識に失敗する場合が想定され得る。このような状況下においては、例えば、先行して起動された音声認識処理の結果が、情報処理装置１０により使用されない事態や、音声認識処理の結果がユーザの意図に沿わずに棄却される事態等の発生が想定される。

そこで、変形例２に係る情報処理装置１０は、操作の予測結果に基づき起動した音声認識処理の結果を使用しない事態や、ユーザにより音声認識処理の結果が棄却される事態が頻発した場合には、操作を予測するための基準（即ち、距離、速度ベクトル、類似度等のパラメータに対する判定基準）を制御する。なお、以降の説明では、このジェスチャ入力に基づく操作を予測するための基準を、「予測量」とも称する。また、ジェスチャ入力に基づく操作を予測するための基準（即ち、予測量）が、「第３の条件」の一例に相当する。また、以降に詳細を後述する、予測量を制御するための条件が、「第４の条件」の一例に相当する。

例えば、図１５は、本実施形態の変形例２に係る情報処理装置１０の動作の一例について説明するための説明図である。なお、本説明では、図５を参照して説明した例のように、ユーザが、ジェスチャ入力により仮想空間内の仮想的な手Ｕ１１を操作し、当該手Ｕ１１をオブジェクトＶ１１に重ねることで、音声認識処理の開始を指示するものとする。また、図１５に示す例では、情報処理装置１０は、図１０を参照して説明した例と同様に、手Ｕ１１とオブジェクトＶ１１との間の距離ｄ０の算出結果に基づき、以降に入力されるジェスチャに応じて、手Ｕ１１がオブジェクトＶ１１の位置に移動するか否か（ひいては、手Ｕ１１によりオブジェクトＶ１１に対して操作が行われるか否か）を予測する。そして、情報処理装置１０は、手Ｕ１１によりオブジェクトＶ１１に対して操作が行われることを予測した場合（即ち、手Ｕ１１がオブジェクトＶ１１に重られることを予測した場合）に、音声認識処理を開始する。

例えば、情報処理装置１０は、手Ｕ１１とオブジェクトＶ１１との間の距離ｄ０が、所定の距離ｄ１以下となった場合（即ち、領域Ｖ１３１に手Ｕ１１が進入した場合）に、手Ｕ１１によりオブジェクトＶ１１に対して操作が行われるものと予測し、音声認識を開始しているものとする。

このとき、情報処理装置１０は、実行した音声認識処理に対して、当該音声認識処理の結果を使用しなかった頻度や、ユーザにより当該音声認識処理の結果が棄却された頻度（以降では、これらを総じて「棄却率」とも称する）を監視する。そして、情報処理装置１０は、棄却率の監視結果に応じて、予測量を制御する。

具体的な一例として、図１５に示す例の場合には、情報処理装置１０は、棄却率が閾値を超えた場合（即ち、音声認識処理の結果が棄却される頻度が増大した場合）に、距離ｄ０の算出結果に基づき、手Ｕ１１がオブジェクトＶ１１の位置に移動することを予測するための予測量を、距離ｄ１から、当該距離ｄ１よりも長い距離ｄ２に変更する。このような制御により、情報処理装置１０は、領域Ｖ１３１よりもより広い領域Ｖ１３３に手Ｕ１１が進入した場合に、手Ｕ１１によりオブジェクトＶ１１に対して操作が行われるものと予測することとなる。そのため、予測量の変更前に比べて、音声認識処理がより開始されやすくなる。

また、他の一例として、情報処理装置１０は、距離ｄ０の算出結果に基づき、手Ｕ１１がオブジェクトＶ１１の位置に移動することを予測するための予測量を、より小さい値となるように（例えば、距離ｄ１からより短い距離となるように）制御してもよい。このような制御により、予測量の変更前に比べて、音声認識処理がより開始されにくくなる。

また、情報処理装置１０は、予測量の変更後も棄却率の監視を継続し、予測量の変更前と変更後との間で棄却率を比較することで、当該比較結果に応じて当該予測量をさらに制御してもよい。具体的な一例として、情報処理装置１０は、予測量の変更前の棄却率に比べて変更後の棄却率が増大した場合には、当該予測量を変更前の値に戻してもよい。また、予測量の変更前の棄却率に比べて変更後の棄却率が減少した場合には、当該予測量を維持してもよいし、変更前の予測量との差がさらに増大するように当該予測量を変更してもよい。なお、情報処理装置１０は、予測量を制御する範囲をあらかじめ制限することで、当該予測量が過度に大きくなる事態（ひいては、音声認識が過度に起動しやすくなる事態）や、当該予測量が過度に小さくなる事態（ひいては、音声認識が過度に起動しにくくなる事態）の発生を防止してもよい。

また、情報処理装置１０は、予測量を示す情報をユーザが識別できるように提示してもよい。例えば、情報処理装置１０は、予測量の制御結果に基づき、図１５に示す領域Ｖ１３１（または、Ｖ１３３）を識別可能に提示した表示情報を、ユーザに提示してもよい。このような構成により、ユーザは、音声認識等の各種処理が、どのような操作により開始されるかを視覚的に認識することが可能となる。また、情報処理装置１０による制御により予測量が変化した場合においても、ユーザは、変化後の予測量を視覚的に認識することが可能となる。なお、情報処理装置１０が、情報を通知する方法や、通知するための媒体が特に限定されないことは言うまでもない。

また、予測量を制御する契機は、必ずしも上記に示す例には限定されない。例えば、情報処理装置１０は、各種状態の検出結果に応じて、予測量を動的に制御してもよい。

具体的な一例として、情報処理装置１０は、前述した予備フラグが設定されている期間中の状態に応じて、予測量を制御してもよい。

より具体的には、予備フラグが設定された期間中における音声認識処理の結果に文字が含まれている場合（即ち、音声が認識された場合）には、ユーザが発話している状態であることが予測される。そのため、この場合には、情報処理装置１０は、音声認識処理がより起動しやすくなるように予測量を制御してもよい。例えば、図１５に示す例の場合には、情報処理装置１０は、距離ｄ０の算出結果に基づき、手Ｕ１１がオブジェクトＶ１１の位置に移動することを予測するための予測量を、より大きい値となるように（例えば、距離ｄ１及びｄ２のうち、より長い距離ｄ２となるように）制御してもよい。このような制御により、予測量の変更前に比べて、音声認識処理がより開始されにくくなる。

また、予備フラグが設定された期間中における音声認識処理の結果に文字が含まれていない場合には、ユーザが発話していない状態であることが予測される。そのため、この場合には、情報処理装置１０は、音声認識処理がより起動しにくくなるように予測量を制御してもよい。例えば、図１５に示す例の場合には、情報処理装置１０は、距離ｄ０の算出結果に基づき、手Ｕ１１がオブジェクトＶ１１の位置に移動することを予測するための予測量を、より小さい値となるように（例えば、距離ｄ１及びｄ２のうち、より短い距離ｄ１となるように）制御してもよい。このような制御により、予測量の変更前に比べて、音声認識処理がより開始されにくくなる。

また、他の一例として、情報処理装置１０は、ユーザの操作状態に応じて、予測量を制御してもよい。例えば、図１６は、本実施形態の変形例２に係る情報処理装置１０の動作の他の一例について説明するための説明図である。図１６は、ユーザが左右の手それぞれを使用したジェスチャ入力により、仮想空間内における仮想的な左手Ｕ１１と右手Ｕ１３とをそれぞれ操作することで、仮想空間内のオブジェクトを操作する場合の一例を示している。なお、本説明では、図５を参照して説明した例のように、ユーザが、ジェスチャ入力により仮想空間内の仮想的な手Ｕ１１（もしくは、手Ｕ１３）を操作し、当該手Ｕ１１をオブジェクトＶ１１に重ねることで、音声認識処理の開始を指示するものとする。また、図１５に示す例と同様に、手Ｕ１１（もしくは、手Ｕ１３）とオブジェクトＶ１１との間の距離ｄ０の算出結果に基づき、以降に入力されるジェスチャに応じて、手Ｕ１１がオブジェクトＶ１１の位置に移動するか否か（ひいては、手Ｕ１１によりオブジェクトＶ１１に対して操作が行われるか否か）を予測する。

図１６に示す例では、情報処理装置１０は、仮想的な左手Ｕ１１及び右手Ｕ１３のうち、オブジェクトＶ１１のより近くに位置する左手Ｕ１１により、当該オブジェクトＶ１１に対して操作が行われることを想定し、左手Ｕ１１側を、動作の予測の対象とする。このとき、情報処理装置１０は、予測の対象とは異なる右手Ｕ１３の状態（例えば、動作）に応じて、予測量を制御してもよい。

より具体的には、右手Ｕ１３の動きが大きい場合には、手を激しく動かすような操作（例えば、ゲームの操作等）を行っている場合が想定され、当該操作とは異なる音声認識処理の開始に係る操作（即ち、オブジェクトＶ１１に対する操作）が行われる可能性が低いものと推測することが可能である。そのため、例えば、情報処理装置１０は、予測の対象とは異なる右手Ｕ１３の動く速さ、動く頻度、及び動作範囲の少なくともいずれかが閾値以上の場合には、音声認識処理がより起動しにくくなるように予測量を制御してもよい。より具体的には、情報処理装置１０は、距離ｄ０の算出結果に基づき、手Ｕ１１がオブジェクトＶ１１の位置に移動することを予測するための予測量を、より小さい値となるように（例えば、距離ｄ１及びｄ２のうち、より短い距離ｄ１となるように）制御してもよい。このような制御により、予測量の変更前に比べて、音声認識処理がより開始されにくくなる。

また、右手Ｕ１３の動きが小さい場合には、特に他の操作を行っていない場合が想定され、右手Ｕ１３を動きが大きい場合に比べて、音声認識処理の開始に係る操作（即ち、オブジェクトＶ１１に対する操作）が行われる可能性が高いものと推測することが可能である。そのため、例えば、情報処理装置１０は、予測の対象とは異なる右手Ｕ１３の動く速さ、動く頻度、及び動作範囲の少なくともいずれかが閾値未満の場合には、音声認識処理がより起動しやすくなるように予測量を制御してもよい。より具体的には、情報処理装置１０は、距離ｄ０の算出結果に基づき、手Ｕ１１がオブジェクトＶ１１の位置に移動することを予測するための予測量を、より大きい値となるように（例えば、距離ｄ１及びｄ２のうち、より長い距離ｄ２となるように）制御してもよい。このような制御により、予測量の変更前に比べて、音声認識処理がより開始されやすくなる。

以上、図１５及び図１６を参照して、本実施形態の変形例２として、ジェスチャ入力に基づく操作を予測に係る動作を最適化するための制御の一例について説明した。

＜３．ハードウェア構成例＞
次に、図１７を参照して、本開示の一実施形態にかかる情報処理装置１０のハードウェア構成について説明する。図１７は、本開示の一実施形態にかかる情報処理装置１０のハードウェア構成例を示すブロック図である。

図１７に示すように、情報処理装置１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇｕｎｉｔ）９０１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９０３、およびＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９０５を含む。また、情報処理装置１０は、ホストバス９０７、ブリッジ９０９、外部バス９１１、インターフェース９１３、入力装置９１５、出力装置９１７、ストレージ装置９１９、ドライブ９２１、接続ポート９２３、通信装置９２５を含んでもよい。さらに、情報処理装置１０は、必要に応じて、撮像装置９３３、およびセンサ９３５を含んでもよい。情報処理装置１０は、ＣＰＵ９０１に代えて、またはこれとともに、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）またはＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）と呼ばれるような処理回路を有してもよい。

ＣＰＵ９０１は、演算処理装置および制御装置として機能し、ＲＯＭ９０３、ＲＡＭ９０５、ストレージ装置９１９、またはリムーバブル記録媒体９２７に記録された各種プログラムに従って、情報処理装置１０内の動作全般またはその一部を制御する。ＲＯＭ９０３は、ＣＰＵ９０１が使用するプログラムや演算パラメータなどを記憶する。ＲＡＭ９０５は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一次記憶する。ＣＰＵ９０１、ＲＯＭ９０３、およびＲＡＭ９０５は、ＣＰＵバスなどの内部バスにより構成されるホストバス９０７により相互に接続されている。さらに、ホストバス９０７は、ブリッジ９０９を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス９１１に接続されている。なお、前述した制御部１１０は、例えば、ＣＰＵ９０１により実現され得る。

入力装置９１５は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチおよびレバーなど、ユーザによって操作される装置である。入力装置９１５は、ユーザの音声を検出するマイクを含んでもよい。入力装置９１５は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置１０の操作に対応した携帯電話などの外部接続機器９２９であってもよい。入力装置９１５は、ユーザが入力した情報に基づいて入力信号を生成してＣＰＵ９０１に出力する入力制御回路を含む。ユーザは、この入力装置９１５を操作することによって、情報処理装置１０に対して各種のデータを入力したり処理動作を指示したりする。また、後述する撮像装置９３３も、ユーザの手の動きなどを撮像することによって、入力装置として機能し得る。なお、前述した集音部２０３は、例えば、入力装置９１５により実現され得る。

出力装置９１７は、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。出力装置９１７は、例えば、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）、ＰＤＰ（ＰｌａｓｍａＤｉｓｐｌａｙＰａｎｅｌ）、有機ＥＬ（Ｅｌｅｃｔｒｏ−Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ、プロジェクタなどの表示装置、ホログラムの表示装置、スピーカおよびヘッドホンなどの音声出力装置、ならびにプリンタ装置などでありうる。出力装置９１７は、情報処理装置１０の処理により得られた結果を、テキストまたは画像などの映像として出力したり、音声または音響などを出力したりする。また、出力装置９１７は、周囲を明るくするためライトなどを含んでもよい。なお、前述した表示部２０１や音響出力部２０２は、例えば、出力装置９１７により実現され得る。

ストレージ装置９１９は、情報処理装置１０の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置９１９は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）などの磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。このストレージ装置９１９は、ＣＰＵ９０１が実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。なお、前述した記憶部１３は、例えば、ストレージ装置９１９により実現され得る。

ドライブ９２１は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体９２７のためのリーダライタであり、情報処理装置１０に内蔵、あるいは外付けされる。ドライブ９２１は、装着されているリムーバブル記録媒体９２７に記録されている情報を読み出して、ＲＡＭ９０５に出力する。また、ドライブ９２１は、装着されているリムーバブル記録媒体９２７に記録を書き込む。

接続ポート９２３は、機器を情報処理装置１０に直接接続するためのポートである。接続ポート９２３は、例えば、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（ＳｍａｌｌＣｏｍｐｕｔｅｒＳｙｓｔｅｍＩｎｔｅｒｆａｃｅ）ポートなどでありうる。また、接続ポート９２３は、ＲＳ−２３２Ｃポート、光オーディオ端子、ＨＤＭＩ（登録商標）（Ｈｉｇｈ−ＤｅｆｉｎｉｔｉｏｎＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅ）ポートなどであってもよい。接続ポート９２３に外部接続機器９２９を接続することで、情報処理装置１０と外部接続機器９２９との間で各種のデータが交換されうる。

通信装置９２５は、例えば、通信ネットワーク９３１に接続するための通信デバイスなどで構成された通信インターフェースである。通信装置９２５は、例えば、有線または無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、またはＷＵＳＢ（ＷｉｒｅｌｅｓｓＵＳＢ）用の通信カードなどでありうる。また、通信装置９２５は、光通信用のルータ、ＡＤＳＬ（ＡｓｙｍｍｅｔｒｉｃＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）用のルータ、または、各種通信用のモデムなどであってもよい。通信装置９２５は、例えば、インターネットや他の通信機器との間で、ＴＣＰ／ＩＰなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置９２５に接続される通信ネットワーク９３１は、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内ＬＡＮ、赤外線通信、ラジオ波通信または衛星通信などである。

撮像装置９３３は、例えば、ＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）またはＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）などの撮像素子、および撮像素子への被写体像の結像を制御するためのレンズなどの各種の部材を用いて実空間を撮像し、撮像画像を生成する装置である。撮像装置９３３は、静止画を撮像するものであってもよいし、また動画を撮像するものであってもよい。なお、前述した撮像部２０７は、例えば、撮像装置９３３により実現され得る。

センサ９３５は、例えば、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、音センサなどの各種のセンサである。センサ９３５は、例えば情報処理装置１０の筐体の姿勢など、情報処理装置１０自体の状態に関する情報や、情報処理装置１０の周辺の明るさや騒音など、情報処理装置１０の周辺環境に関する情報を取得する。また、センサ９３５は、ＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）信号を受信して装置の緯度、経度および高度を測定するＧＰＳセンサを含んでもよい。なお、前述した検知部２０５は、例えば、センサ９３５により実現され得る。

以上、情報処理装置１０のハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。かかる構成は、実施する時々の技術レベルに応じて適宜変更されうる。

また、コンピュータに内蔵されるプロセッサ、メモリ、及びストレージなどのハードウェアを、上記した情報処理装置１０が有する構成と同等の機能を発揮させるためのプログラムも作成可能である。また、当該プログラムを記録した、コンピュータに読み取り可能な記憶媒体も提供され得る。

＜４．むすび＞
以上、説明したように、本実施形態に係る情報処理システム１において、情報処理装置１０は、ジェスチャの検出結果に応じた入力情報に基づき、以降に入力されるジェスチャに応じた操作を予測する。そして、情報処理装置１０は、操作の予測結果に基づき、音声等のような他の入力情報の取得に関する処理を制御する。このような構成により、本実施形態に係る情報処理システム１は、例えば、音声認識のための音響の取得に係る処理（ひいては、音声認識処理）を、予測した操作が実際に行われる前に先行して開始することが可能となる。そのため、情報処理システム１は、例えば、音声認識を開始するための操作が行われてから、音声認識のための音響の取得に係る処理を開始する場合に比べて、音声認識処理をより早いタイミングで開始することが可能となる。即ち、本実施形態に係る情報処理システム１に依れば、ジェスチャの検出結果を、音声等のような他の入力情報の取得に利用するような状況下においても、ジェスチャの認識に伴う遅延の影響をより緩和し、より好適な態様で当該他の入力情報を取得することが可能となる。

なお、上述した例では、音声認識に係る処理の一例として、音声の取得とあわせて当該音声に基づく音声認識処理が開始される場合について説明したが、音声認識の対象となる音声を先行して取得できれば、必ずしも音声認識処理が実行されるタイミングは限定されない。例えば、情報処理システム１は、ジェスチャに応じた操作の予測結果に基づき音響の記録（録音）を開始し、一連の音響が記憶された後に、記憶された当該音響に基づく音声認識処理を事後的に実行してもよい。

また、ジェスチャに応じた操作の予測結果に基づき、情報の取得に係る処理や、当該情報を利用した処理を制御することが可能であれば、取得される情報の種別は特に限定されない。具体的な一例として、情報処理システム１は、ジェスチャに応じた操作の予測結果に基づき、静止画像や動画像等の画像の取得に係る処理や、当該画像を利用した認識処理（例えば、顔認識等）を制御してもよい。

また、上述した例では、ユーザの頭部や手等の部位を利用したジェスチャ入力に着目して説明した。一方で、ユーザが身体の一部の動作を直接的または間接的に検出し、検出結果を入力情報として利用することが可能であれば、上述した本実施形態に係る情報処理システム１の仕組みの適用先は、必ずしも上述した例には限定されない。具体的な一例として、タッチパネルに対して指やスタイラス等の操作体により、所謂スワイプやピンチ等のジェスチャを行うような場合においても、本実施形態に係る情報処理システム１の仕組みを適用することが可能である。この場合には、例えば、情報処理装置１０は、タッチパネルによる、指やスタイラス等の操作体の検出結果に基づき、当該操作体の動作を認識し、当該動作の認識結果に基づき、以降に当該操作体により入力されるジェスチャに応じた操作を予測する。そして、情報処理装置１０は、操作体の動作の予測結果に応じて、音声や画像等の入力情報の取得に係る処理（ひいては、当該入力情報に基づく認識処理）を制御すればよい。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）
ジェスチャの検出結果に応じた第１の入力情報に基づく、以降に入力される前記ジェスチャに応じた操作の予測結果を取得する取得部と、
前記操作の予測結果に応じて、前記第１の入力情報に対応付けられた第２の入力情報の取得に関する処理を制御する制御部と、
を備える、情報処理装置。
（２）
前記第２の入力情報は、音響情報であり、
前記制御部は、前記操作の予測結果に応じて、前記音響情報の取得と、取得される前記音響情報に基づく処理と、のうち少なくともいずれかに関する処理を制御する、
前記（１）に記載の情報処理装置。
（３）
前記制御部は、前記操作の予測結果に応じて、前記音響情報に基づく認識に関する処理を制御する、前記（２）に記載の情報処理装置。
（４）
前記制御部は、前記音響情報に基づく認識に関する処理として、ユーザが発話した音声に基づく音声認識に関する処理を制御する、前記（３）に記載の情報処理装置。
（５）
前記制御部は、
前記操作の予測結果が第１の条件を満たす場合にフラグを設定し、当該操作の予測結果が第２の条件を満たす場合に設定された前記フラグを解除し、
前記フラグの設定状況に応じて、前記音声認識に関する処理を制御する、
前記（４）に記載の情報処理装置。
（６）
前記制御部は、前記フラグの設定状況に応じて、前記音声認識の結果に応じた機械学習に関する処理を制御する、前記（５）に記載の情報処理装置。
（７）
前記制御部は、前記操作の予測結果に応じて、前記第２の入力情報の取得に関する処理の開始タイミングを制御する、前記（１）〜（６）のいずれか一項に記載の情報処理装置。
（８）
前記制御部は、前記第２の入力情報の取得に関する処理の状態に応じた情報を所定の通知部に通知させる、前記（１）〜（７）のいずれか一項に記載の情報処理装置。
（９）
前記制御部は、前記操作の予測結果が所定の条件を満たすか否かを判定し、当該判定の結果に基づき、前記第２の入力情報の取得に関する処理を制御する、前記（１）〜（８）のいずれか一項に記載の情報処理装置。
（１０）
前記制御部は、前記操作の予測結果が、前記所定の条件である第３の条件を満たすか否かを判定するための閾値を、第４の条件に基づき制御する、前記（９）に記載の情報処理装置。
（１１）
前記制御部は、前記第４の条件として、前記第２の入力情報の取得に関する処理の過去の実行結果に基づき、前記閾値を制御する、前記（１０）に記載の情報処理装置。
（１２）
前記制御部は、前記第４の条件として、所定の期間中に前記第２の入力情報として取得された音響情報に対する音声認識処理の結果に基づき、前記閾値を制御する、前記（１０）に記載の情報処理装置。
（１３）
前記制御部は、前記第４の条件として、ジェスチャの検出対象となる操作体とは異なる他の操作体の動きの検出結果に基づき、前記閾値を制御する、前記（１０）に記載の情報処理装置。
（１４）
前記制御部は、前記閾値を示す情報を所定の通知部に通知させる、前記（１０）〜（１３）のいずれか一項に記載の情報処理装置。
（１５）
前記制御部は、前記操作の予測結果が前記所定の条件を満たすと判定した場合に、前記第２の入力情報の取得に関する処理を実行し、当該操作の予測結果が前記所定の条件を満たさないと判定した場合に、実行中の当該処理を終了する、前記（９）〜（１４）のいずれか一項に記載の情報処理装置。
（１６）
前記第１の入力情報は、ユーザの所定の部位の認識結果に基づく情報である、前記（１）〜（１５）のいずれか一項に記載の情報処理装置。
（１７）
前記取得部は、前記第１の入力情報に応じた前記部位の形状、動作、位置、及び向きのうちの少なくともいずれかの認識結果に基づく、前記操作の予測結果を取得する、前記（１６）に記載の情報処理装置。
（１８）
前記取得部は、前記第１の入力情報に基づく表示オブジェクトの態様に応じた、前記操作の予測結果を取得する、前記（１）〜（１５）のいずれか一項に記載の情報処理装置。
（１９）
前記取得部は、前記表示オブジェクトの前記態様である当該表示オブジェクトの動き及び形状のうちの少なくともいずれかに応じた、前記操作の予測結果を取得する、前記（１８）に記載の情報処理装置。
（２０）
前記制御部は、前記操作の予測結果に基づく前記表示オブジェクトが移動する位置の推定結果に応じて、前記第２の入力情報の取得に関する動作を制御する、
前記（１８）または（１９）に記載の情報処理装置。
（２１）
前記制御部は、前記操作の予測結果に基づき推定される前記表示オブジェクトが移動する位置と、所定の領域と、の間の位置関係に応じて、前記第２の入力情報の取得に関する動作を制御する、前記（２０）に記載の情報処理装置。
（２２）
前記制御部は、前記操作の予測結果に基づき推定される第１の表示オブジェクトが移動する位置と、前記第１の表示オブジェクトとは異なる第２の表示オブジェクトと、の間の位置関係に応じて、前記第２の入力情報の取得に関する動作を制御する、前記（２０）に記載の情報処理装置。
（２３）
プロセッサが、
ジェスチャの検出結果に応じた第１の入力情報に基づく、以降に入力される前記ジェスチャに応じた操作の予測結果を取得することと、
前記操作の予測結果に応じて、前記第１の入力情報に対応付けられた第２の入力情報の取得に関する処理を制御することと、
を含む、情報処理方法。
（２４）
コンピュータに、
ジェスチャの検出結果に応じた第１の入力情報に基づく、以降に入力される前記ジェスチャに応じた操作の予測結果を取得することと、
前記操作の予測結果に応じて、前記第１の入力情報に対応付けられた第２の入力情報の取得に関する処理を制御することと、
を実行させる、プログラム。

１情報処理システム
１０情報処理装置
１０１出力制御部
１０３音響処理部
１０５ジェスチャ認識処理部
１１０制御部
１１１コンテンツ制御部
１１３予測部
１１５タイミング制御部
１３記憶部
２０入出力装置
２０１表示部
２０２音響出力部
２０３集音部
２０５検知部
２０７撮像部
３０コンテンツ制御装置
４０音響処理装置

Claims

ジェスチャの検出結果に応じた第１の入力情報に基づく、以降に入力される前記ジェスチャに応じた操作の予測結果を取得する取得部と、
前記操作の予測結果に応じて、前記第１の入力情報に対応付けられた第２の入力情報の取得に関する処理を制御する制御部と、
を備え、
前記第２の入力情報は、音響情報であり、
前記制御部は、
前記操作の予測結果に応じて、前記音響情報の取得と、取得される前記音響情報に基づく認識に関する処理と、のうち少なくともいずれかに関する処理を制御し、
取得される前記音響情報に基づく認識に関する処理として、ユーザが発話した音声に基づく音声認識に関する処理を制御するとき、
前記操作の予測結果が第１の条件を満たす場合にフラグを設定し、当該操作の予測結果が第２の条件を満たす場合に設定された前記フラグを解除し、
前記フラグの設定状況に応じて、前記音声認識に関する処理を制御する、情報処理装置。
前記制御部は、前記フラグの設定状況に応じて、前記音声認識の結果に応じた機械学習に関する処理を制御する、請求項１に記載の情報処理装置。
ジェスチャの検出結果に応じた第１の入力情報に基づく、以降に入力される前記ジェスチャに応じた操作の予測結果を取得する取得部と、
前記操作の予測結果に応じて、前記第１の入力情報に対応付けられた第２の入力情報の取得に関する処理を制御する制御部と、
を備え、
前記制御部は、
前記操作の予測結果が所定の条件を満たすか否かを判定し、当該判定の結果に基づき、前記第２の入力情報の取得に関する処理を制御する場合、
前記操作の予測結果が、前記所定の条件である第３の条件を満たすか否かを判定するための閾値を、第４の条件に基づき制御する、情報処理装置。
前記制御部は、前記第４の条件として、前記第２の入力情報の取得に関する処理の過去の実行結果に基づき、前記閾値を制御する、請求項３に記載の情報処理装置。
前記制御部は、前記第４の条件として、所定の期間中に前記第２の入力情報として取得された音響情報に対する音声認識処理の結果に基づき、前記閾値を制御する、請求項３に記載の情報処理装置。
前記制御部は、前記第４の条件として、ジェスチャの検出対象となる操作体とは異なる他の操作体の動きの検出結果に基づき、前記閾値を制御する、請求項３に記載の情報処理装置。
前記制御部は、前記閾値を示す情報を所定の通知部に通知させる、請求項３乃至請求項６の何れか１項に記載の情報処理装置。
ジェスチャの検出結果に応じた第１の入力情報に基づく、以降に入力される前記ジェスチャに応じた操作の予測結果を取得する取得部と、
前記操作の予測結果に応じて、前記第１の入力情報に対応付けられた第２の入力情報の取得に関する処理を制御する制御部と、
を備え、
前記制御部は、
前記操作の予測結果が所定の条件を満たすか否かを判定し、当該判定の結果に基づき、前記第２の入力情報の取得に関する処理を制御するとき、
前記操作の予測結果が前記所定の条件を満たすと判定した場合に、前記第２の入力情報の取得に関する処理を実行し、当該操作の予測結果が前記所定の条件を満たさないと判定した場合に、実行中の当該処理を終了する、情報処理装置。
ジェスチャの検出結果に応じた第１の入力情報に基づく、以降に入力される前記ジェスチャに応じた操作の予測結果を取得する取得部と、
前記操作の予測結果に応じて、前記第１の入力情報に対応付けられた第２の入力情報の取得に関する処理を制御する制御部と、
を備え、
前記取得部は、前記第１の入力情報に基づく表示オブジェクトの態様に応じた、前記操作の予測結果を取得し、
前記制御部は、
前記操作の予測結果に基づく前記表示オブジェクトが移動する位置の推定結果に応じて、前記第２の入力情報の取得に関する動作を制御する場合、
前記操作の予測結果に基づき推定される前記表示オブジェクトが移動する位置と、所定の領域と、の間の位置関係に応じて、前記第２の入力情報の取得に関する動作を制御する、情報処理装置。
ジェスチャの検出結果に応じた第１の入力情報に基づく、以降に入力される前記ジェスチャに応じた操作の予測結果を取得する取得部と、
前記操作の予測結果に応じて、前記第１の入力情報に対応付けられた第２の入力情報の取得に関する処理を制御する制御部と、
を備え、
前記取得部は、前記第１の入力情報に基づく表示オブジェクトの態様に応じた、前記操作の予測結果を取得し、
前記制御部は、
前記操作の予測結果に基づく前記表示オブジェクトが移動する位置の推定結果に応じて、前記第２の入力情報の取得に関する動作を制御する場合、
前記操作の予測結果に基づき推定される第１の表示オブジェクトが移動する位置と、前記第１の表示オブジェクトとは異なる第２の表示オブジェクトと、の間の位置関係に応じて、前記第２の入力情報の取得に関する動作を制御する、情報処理装置。
前記取得部は、前記表示オブジェクトの前記態様である当該表示オブジェクトの動き及び形状のうちの少なくともいずれかに応じた、前記操作の予測結果を取得する、請求項９又は請求項１０に記載の情報処理装置。
前記制御部は、前記操作の予測結果に応じて、前記第２の入力情報の取得に関する処理の開始タイミングを制御する、請求項１乃至請求項１１の何れか１項に記載の情報処理装置。
前記制御部は、前記第２の入力情報の取得に関する処理の状態に応じた情報を所定の通知部に通知させる、請求項１乃至請求項１２の何れか１項に記載の情報処理装置。
前記制御部は、前記操作の予測結果が所定の条件を満たすか否かを判定し、当該判定の結果に基づき、前記第２の入力情報の取得に関する処理を制御する、請求項１又は請求項２に記載の情報処理装置。
前記制御部は、前記操作の予測結果が、前記所定の条件である第３の条件を満たすか否かを判定するための閾値を、第４の条件に基づき制御する、請求項１４に記載の情報処理装置。
前記制御部は、前記第４の条件として、前記第２の入力情報の取得に関する処理の過去の実行結果に基づき、前記閾値を制御する、請求項１５に記載の情報処理装置。
前記制御部は、前記第４の条件として、所定の期間中に前記第２の入力情報として取得された音響情報に対する音声認識処理の結果に基づき、前記閾値を制御する、請求項１５に記載の情報処理装置。
前記制御部は、前記第４の条件として、ジェスチャの検出対象となる操作体とは異なる他の操作体の動きの検出結果に基づき、前記閾値を制御する、請求項１５に記載の情報処理装置。
前記制御部は、前記閾値を示す情報を所定の通知部に通知させる、請求項１５乃至請求項１８の何れか１項に記載の情報処理装置。
前記制御部は、前記操作の予測結果が前記所定の条件を満たすと判定した場合に、前記第２の入力情報の取得に関する処理を実行し、当該操作の予測結果が前記所定の条件を満たさないと判定した場合に、実行中の当該処理を終了する、請求項１４乃至請求項１９の何れか１項に記載の情報処理装置。
前記第１の入力情報は、ユーザの所定の部位の認識結果に基づく情報である、請求項１乃至請求項２０の何れか１項に記載の情報処理装置。
前記取得部は、前記第１の入力情報に応じた前記部位の形状、動作、位置、及び向きのうちの少なくともいずれかの認識結果に基づく、前記操作の予測結果を取得する、請求項２１に記載の情報処理装置。
プロセッサが、
ジェスチャの検出結果に応じた第１の入力情報に基づく、以降に入力される前記ジェスチャに応じた操作の予測結果を取得することと、
前記操作の予測結果に応じて、前記第１の入力情報に対応付けられた第２の入力情報の取得に関する処理を制御することと、
を含み、
前記第２の入力情報は、音響情報であり、
前記プロセッサが、
前記操作の予測結果に応じて、前記音響情報の取得と、取得される前記音響情報に基づく認識に関する処理と、のうち少なくともいずれかに関する処理を制御することと、
取得される前記音響情報に基づく認識に関する処理として、ユーザが発話した音声に基づく音声認識に関する処理を制御するとき、
前記操作の予測結果が第１の条件を満たす場合にフラグを設定し、当該操作の予測結果が第２の条件を満たす場合に設定された前記フラグを解除することと、
前記フラグの設定状況に応じて、前記音声認識に関する処理を制御することと、
を含む、情報処理方法。
コンピュータに、
ジェスチャの検出結果に応じた第１の入力情報に基づく、以降に入力される前記ジェスチャに応じた操作の予測結果を取得することと、
前記操作の予測結果に応じて、前記第１の入力情報に対応付けられた第２の入力情報の取得に関する処理を制御することと、
を実行させ、
前記第２の入力情報は、音響情報であり、
前記コンピュータに、
前記操作の予測結果に応じて、前記音響情報の取得と、取得される前記音響情報に基づく認識に関する処理と、のうち少なくともいずれかに関する処理を制御することと、
取得される前記音響情報に基づく認識に関する処理として、ユーザが発話した音声に基づく音声認識に関する処理を制御するとき、
前記操作の予測結果が第１の条件を満たす場合にフラグを設定し、当該操作の予測結果が第２の条件を満たす場合に設定された前記フラグを解除することと、
前記フラグの設定状況に応じて、前記音声認識に関する処理を制御することと、
を実行させる、プログラム。