JP2017228080A

JP2017228080A - 情報処理装置、情報処理方法、及び、プログラム

Info

Publication number: JP2017228080A
Application number: JP2016123593A
Authority: JP
Inventors: 真一河野; Shinichi Kono; 拓也生江; Takuya Namae; 賢次杉原; Kenji Sugihara; 遼深澤; Ryo Fukazawa; 佐藤　大輔; Daisuke Sato; 大輔佐藤
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2016-06-22
Filing date: 2016-06-22
Publication date: 2017-12-28
Also published as: CN109313532A; CN109313532B; US10788902B2; US20190138117A1; WO2017221720A1

Abstract

【課題】三次元空間において指されている位置に対応する画像内の指示位置を簡単に補正する。
【解決手段】情報処理装置は、三次元空間において指示オブジェクトにより指されている位置である空間指示位置を検出する指示位置検出部と、ユーザが発する音声であるユーザ音声に基づいて、前記空間指示位置に対応する画像内の指示位置である画像指示位置を補正する指示位置補正部とを備える。本技術は、例えば、ＶＲ（Virtual Reality）を用いたＨＭＤ（Head Mount Display）に適用できる。
【選択図】図１

Description

本技術は、情報処理装置、情報処理方法、及び、プログラムに関し、特に、三次元空間において指されている位置に対応する画像内の指示位置を補正する場合に用いて好適な情報処理装置、情報処理方法、及び、プログラムに関する。

従来、ユーザの指等により指されていると認識した対象の名称等を音声で通知し、ユーザに確認する技術が提案されている（例えば、特許文献１参照）。

また、従来、手書きされた図形又は文字を認識することにより得られる図形又は文字の候補と、ユーザが発した音声を認識することにより得られる図形又は文字の候補とを比較することにより、図形又は文字を選択する技術が提案されている（例えば、特許文献２参照）。

特開２０１３−８８９０６号公報特開２００７−４８１７７号公報

しかしながら、特許文献１及び２では、三次元空間において指されている位置に対応する画像内の指示位置を補正することは検討されていない。

そこで、本技術は、三次元空間において指されている位置に対応する画像内の指示位置を簡単に補正することができるようにようするものである。

本技術の一側面の情報処理装置は、三次元空間において指示オブジェクトにより指されている位置である空間指示位置を検出する指示位置検出部と、ユーザが発する音声であるユーザ音声に基づいて、前記空間指示位置に対応する画像内の指示位置である画像指示位置を補正する指示位置補正部とを備える。

前記指示位置補正部には、前記ユーザ音声に基づく前記画像内の位置に前記画像指示位置を補正させることができる。

前記指示位置補正部には、バーチャルリアリティにより前記ユーザが視認する前記画像内の前記画像指示位置を補正させることができる。

前記指示位置補正部には、前記ユーザが前記ユーザ音声を発しているときの前記空間指示位置に対応する前記画像指示位置を補正させることができる。

前記指示位置検出部には、三次元空間において前記指示オブジェクトにより指されている第１の対象に対応する前記画像内の対象である指示対象を検出させ、前記指示位置補正部には、前記指示対象が前記ユーザ音声に基づく第２の対象と一致する場合、前記指示対象を補正せず、前記指示対象が前記第２の対象と一致しない場合、前記第２の対象に対応する前記画像内の対象を前記指示対象に補正する補正処理を行わせることができる。

前記指示対象を確認するための音声である確認音声の出力を制御する出力制御部をさらに設け、前記指示位置補正部には、前記確認音声に対する前記ユーザ音声に基づいて、前記補正処理を行わせることができる。

前記確認音声を、前記指示対象を識別するための情報の入力を促す音声とすることができる。

前記出力制御部には、前記補正処理後に前記指示対象が変化した場合、前記指示対象に関する情報を所定の言語で通知する音声情報の出力を制御させることができる。

前記音声情報には、前記指示対象の視認可能なコンテンツを示すコンテンツ情報を含めることができる。

前記コンテンツ情報には、前記指示対象の名称、前記指示対象の種類、及び、前記指示対象が視覚的に表しているもののうち少なくとも１つを示させることができる。

前記出力制御部には、前記補正処理後に前記指示対象が変化した場合、前記指示対象の変化を通知する通知音を出力するように制御させることができる。

前記出力制御部には、前記指示対象が移動した方向により異なる前記通知音を出力するように制御させることができる。

前記指示対象に関する情報を前記所定の言語に翻訳する翻訳部をさらに設けることができる。

前記画像内の物体の検出を行う物体検出部をさらに設けることができる。

前記指示オブジェクトを、ユーザの体の一部とすることができる。

前記ユーザ音声を認識する音声認識部をさらに設けることができる。

本技術の一側面の情報処理方法は、三次元空間において指示オブジェクトにより指されている位置である空間指示位置を検出する指示位置検出ステップと、ユーザが発する音声であるユーザ音声に基づいて、前記空間指示位置に対応する画像内の指示位置である画像指示位置を補正する指示位置補正ステップとを含む。

本技術の一側面のプログラムは、三次元空間において指示オブジェクトにより指されている位置である空間指示位置を検出する指示位置検出ステップと、ユーザが発する音声であるユーザ音声に基づいて、前記空間指示位置に対応する画像内の指示位置である画像指示位置を補正する指示位置補正ステップとを含む処理をコンピュータに実行させる。

本技術の一側面においては、三次元空間において指示オブジェクトにより指されている位置である空間指示位置が検出され、ユーザが発する音声であるユーザ音声に基づいて、前記空間指示位置に対応する画像内の指示位置である画像指示位置が補正される。

本技術の一側面によれば、三次元空間において指されている位置に対応する画像内の指示位置を簡単に補正することができる。

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

本技術を適用した情報処理システムの一実施の形態を示すブロック図である。情報処理システムにより実行される情報処理を説明するためのフローチャートである。指差しモード処理の詳細を説明するためのフローチャートである。指示方向情報取得処理の詳細を説明するためのフローチャートである。指示方向画像の撮影範囲の例を示す図である。指示方向平面画像の生成方法を説明するための図である。指示方向平面画像の例を示す図である。指示方向情報リストの例を示す図である。発話時指示方向情報取得処理の詳細を説明するためのフローチャートである。発話時指示方向平面縮小画像の生成方法を説明するための図である。発話時指示方向平面縮小画像の生成方法を説明するための図である。発話時指示方向情報リストの例を示す図である。発話時指示方向平面縮小画像の例を示す図である。音声案内処理の詳細を説明するためのフローチャートである。コンピュータの構成例を示すブロック図である。

以下、発明を実施するための形態（以下、「実施形態」と記述する）について図面を用いて詳細に説明する。なお、説明は以下の順序で行う。
１．実施の形態
２．変形例

＜１．実施の形態＞
｛情報処理システム１０の構成例｝
まず、図１を参照して、本技術を適用した情報処理システム１０の構成例について説明する。

情報処理システム１０は、例えばユーザにより装着又は携帯され、三次元空間においてユーザが指で指していると認識している対象を認識し、その対象に関するコンテンツ情報を所定の言語の音声で通知するシステムである。ここで、情報処理システム１０が認識する対象は、ユーザが指していると認識している対象であり、実際に指で指されている対象とは異なる場合がある。

なお、以下、ユーザが指していると認識している対象、及び、ユーザが実際に指している対象を指示対象と称する。また、以下、ユーザが指していると認識している対象とユーザが実際に指している対象とを区別する場合、前者をユーザ認識指示対象と称し、後者を現実指示対象と称する。

また、コンテンツ情報とは、物体の視認可能なコンテンツを示す情報のことである。例えば、コンテンツ情報は、物体の名称、物体の種類、及び、物体が視覚的に表しているもの（以下、視覚コンテンツと称する）のうち少なくとも１つを示す。ここで、視覚コンテンツとは、例えば、物体に表示されている画像（動画、静止画、絵等）、文字、及び、マーク、並びに、物体の形状や動きにより表される文字、マーク、及び、メッセージ等である。また、物体が人である場合、視認可能なコンテンツには、例えば、ボディランゲージや交通整理の手信号等のジェスチャ、表情等が含まれる。

情報処理システム１０は、音声入力部１１、情報取得部１２、情報処理部１３、及び、出力部１４を備える。

音声入力部１１は、例えば、マイクロフォンにより構成される。音声入力部１１は、例えば、ユーザの口の近くに配置され、ユーザが発した音声（以下、ユーザ音声と称する）を検出し、ユーザ音声を示す音声信号を情報処理部１３に供給する。

情報取得部１２は、例えば、指輪型の形状を有し、ユーザが指差すときに用いる指（例えば、人差し指）に装着される。情報取得部１２は、撮影部２１及びセンサ部２２を備える。

撮影部２１は、ユーザが指により指している方向（以下、指示方向と称する）を撮影し、その結果得られる画像（以下、指示方向画像と称する）を情報処理部１３に供給する。

センサ部２２は、例えば、ユーザの指によるジェスチャ、指の位置、指示方向等を検出するためのセンサ（例えば、加速度センサ、ジャイロセンサ等）を備える。また、センサ部２２は、例えば、指示方向にある物体までの距離を測定するセンサ（例えば、距離センサ等）を備える。そして、センサ部２２は、各センサの検出結果を示すセンサ信号を情報処理部１３に供給する。

情報処理部１３は、例えば、スマートフォン、タブレット、ウエアラブルデバイス等の携帯型の情報端末により構成される。情報処理部１３は、指示位置検出部３１、指示位置補正部３２、物体検出部３３、距離算出部３４、画像処理部３５、翻訳部３６、情報生成部３７、音声認識部３８、出力制御部３９、及び、通信部４０を備える。

指示位置検出部３１は、センサ部２２からのセンサ情報に基づいて、ユーザにより指されている位置及び対象の検出を行う。

指示位置補正部３２は、ユーザ音声に基づいて、ユーザにより指されている位置及び対象の検出結果の補正を行う。

物体検出部３３は、指示方向画像内の物体の検出を行う。

距離算出部３４は、例えば、物体検出部３３により検出された各物体間の距離を算出する。また、距離算出部３４は、例えば、センサ部２２からのセンサ情報及び指示方向画像に基づいて、ユーザの目と物体との間の距離、ユーザの目と指との間の距離を算出する。

画像処理部３５は、指示方向画像の指示方向平面画像への変換、及び、指示方向平面画像の発話時指示方向平面縮小画像への変換等の画像処理を行う。なお、指示方向平面画像及び発話時指示方向平面縮小画像の詳細は後述する。

翻訳部３６は、２以上の言語間の翻訳を行う。

情報生成部３７は、ユーザが指している方向に存在する物体に関する情報を示す指示方向情報リスト及び発話時指示方向情報リスト等を生成する。なお、指示方向情報リスト及び発話時指示方向情報リストの詳細は後述する。また、情報生成部３７は、ユーザに音声により通知する情報を生成する。

音声認識部３８は、ユーザ音声の認識を行う。

出力制御部３９は、出力部１４による音声の出力を制御する。

通信部４０は、音声入力部１１、情報取得部１２、及び、出力部１４との間の通信を行う。なお、通信部４０の通信方式は、所定の方式に限定されるものではなく、有線又は無線の各種の通信方式の中から任意の方式を採用することができる。また、音声入力部１１、情報取得部１２、及び、出力部１４との間の通信方式を、それぞれ異なる方式に設定することが可能である。

出力部１４は、音声の出力が可能な装置により構成される。例えば、出力部１４は、スピーカ、ヘッドフォン、イヤフォン、音源等により構成される。

なお、例えば、音声入力部１１、情報処理部１３、及び、出力部１４を一体化するようにしてもよい。一体化した装置は、例えば、ネックバンド型のウエアラブルデバイスにより構成される。

｛情報処理システム１０の処理｝
次に、図２乃至図１４を参照して、情報処理システム１０の処理について説明する。

まず、図２のフローチャートを参照して、情報処理システム１０により実行される情報処理について説明する。なお、この処理は、例えば、情報処理部１３の図示せぬ電源がオンされたとき開始され、電源がオフされたとき終了する。

ステップＳ１において、指示位置検出部３１は、ユーザが指差しているか否かを判定する。具体的には、指示位置検出部３１は、センサ部２２からのセンサ信号に基づいて、ユーザの指によるジェスチャの検出を行う。なお、ジェスチャの検出方法には、任意の方法を採用することができる。そして、指示位置検出部３１は、検出したジェスチャに基づいて、ユーザが指差しているか否かを判定する。ステップＳ１の判定処理は、ユーザが指差していると判定されるまで、例えば、所定の間隔で繰り返し実行される。そして、ユーザが指差していると判定された場合、処理はステップＳ２に進む。

ステップＳ２において、情報処理システム１０は、指差しモード処理を実行する。ここで、図３のフローチャートを参照して、指差しモード処理の詳細について説明する。

ステップＳ５１において、情報処理部１３は、指示方向情報取得処理を実行する。ここで、図４のフローチャートを参照して、指示方向情報取得処理の詳細について説明する。

ステップＳ１０１において、物体検出部３３は、指示方向画像内の物体を検出する。具体的には、物体検出部３３は、撮影部２１から指示方向画像を取得し、画像認識を行うことにより、指示方向画像内の物体、すなわち、ユーザが指により指した方向の所定の範囲内に存在する物体を検出する。また、物体検出部３３は、検出した物体の指示方向画像内の位置及びサイズ、物体の種類、物体の視覚コンテンツ、物体の視覚的な特徴（例えば、色、形等）等を検出する。さらに、物体検出部３３は、視覚コンテンツが表す情報の認識を行う。例えば、物体検出部３３は、視覚コンテンツに含まれる画像、文字列、マーク、メッセージ等の具体的な内容を認識する。

なお、物体検出部３３の物体の検出方法には、任意の方法を採用することができる。

また、以下、図５に模式的に示される繁華街の風景のうち範囲Ｄ１内の画像が指示方向画像として得られた場合について説明する。なお、この図では、ビルの看板等の図示が省略されている。

ステップＳ１０２において、指示位置検出部３１は、ユーザが指している対象（指示対象）を検出する。例えば、指示位置検出部３１は、指示方向画像の中央に物体検出部３３により検出された物体が存在する場合、その物体を指示対象として検出する。一方、指示位置検出部３１は、指示方向画像の中央に物体検出部３３により検出された物体が存在しない場合、指示方向画像の中心に最も近い物体を指示対象として検出する。

なお、以下、指示位置検出部３１により検出された指示対象をシステム認識指示対象と称する。システム認識指示対象は、基本的にユーザが実際に指している対象（現実指示対象）とほぼ一致するが、ユーザが指していると認識している対象（ユーザ認識指示対象）とは一致しない場合がある。

ステップＳ１０３において、距離算出部３４は、指示方向画像内の物体までの最短距離を算出する。具体的には、距離算出部３４は、センサ情報及び指示方向画像に基づいて、指示方向画像内の物体のうちユーザの目から最も近い部分（以下、最短位置と称する）とユーザの目との間の距離（以下、最短物体距離と称する）を算出する。

ここで、図６を参照して、最短物体距離の算出方法の具体例について説明する。図６は、指示方向画像内に写っているビル１０１及び看板１０２を上方から見た模式図である。位置Ｐ１は、ユーザの目の位置を示している。

距離算出部３４は、ビル１０１及び看板１０２のうち位置Ｐ１から最も近い部分を検出する。これにより、例えば、看板１０２の左前方の隅の位置Ｐ２が位置Ｐ１から最も近い部分（最短位置）として検出される。そして、距離算出部３４は、位置Ｐ１と位置Ｐ２の間の距離ｄ１を最短物体距離として算出する。

なお、最短物体距離の算出方法には、任意の方法を採用することができる。

ステップＳ１０４において、画像処理部３５は、指示方向平面画像を生成する。例えば、画像処理部３５は、指示方向に対して垂直な平面であって最短位置を通る平面上に指示方向画像を投影した画像を、指示方向平面画像として生成する。

例えば、上述した図６の例では、最短位置Ｐ２を通る平面Ｆ１上に指示方向画像を投影した画像が、指示方向平面画像として得られる。

図７は、指示方向平面画像の具体例を模式的に示している。図７の指示方向平面画像１２１には、看板１３１、窓１３２、及び、看板１３３乃至看板１３７が写っている。なお、指示方向平面画像１２１はモノクロで示されているが、実際には各物体には色が付いている。各物体の主要な部分の色については後述する。

看板１３１、窓１３２、看板１３３は、左から右に水平方向に並んでいる。看板１３４乃至看板１３６は、看板１３１、窓１３２、看板１３３の下に、左から右に水平方向に並んでいる。看板１３４は、看板１３１と窓１３２の下にある。看板１３５は、看板１３３の下にある。看板１３６は、看板１３３の下にあり、看板１３３より右にはみ出している。看板１３７は、看板１３５の下にある。

看板１３１は、長方形であり、胴体が黄色の犬の画像（絵）が表示されている。

窓１３２は、ほぼ正方形であり、枠の色はグレーである。

看板１３３は、長方形であり、オレンジの背景の上に、黒の韓国語の文字列が表示されている。韓国語の文字列は、”家庭料理の味”を意味する。

看板１３４は、長方形であり、グレーの背景の上に、黒の韓国語の文字列が表示されている。韓国語の文字列は、”当ビル５Ｆ”を意味する。

看板１３５は、長方形であり、白の背景の上に、青の数字”７０８０”が表示されている。

看板１３６は、長方形であり、白の背景の上に、黒の韓国語の文字列が表示されている。韓国語の文字列は、”レストラン”を意味する。

看板１３７は、長方形であり、薄青色の背景の上に、黒の韓国語の文字列が表示されている。韓国語の文字列は、”スポーツ用品”を意味する。

また、画像処理部３５は、物体検出部３３により検出された指示方向画像内の各物体の位置及びサイズを指示方向平面画像内における位置及びサイズに変換する。

なお、以下、図７の指示方向平面画像１２１が得られた場合について、各処理の具体例を説明する。

ステップＳ１０５において、指示位置検出部３１は、指示方向平面画像においてユーザにより指されている位置（指示位置）を検出する。例えば、指示位置検出部３１は、指示方向平面画像におけるシステム認識指示対象の中心を検出し、検出した位置を指示方向平面画像における指示位置に設定する。

ステップＳ１０６において、情報生成部３７は、指示方向情報リストを生成する。指示方向情報リストは、指示方向画像において検出された各物体に関する情報をリストにしたものであり、指示方向画像を変換した指示方向平面画像に基づいて生成される。

図８は、図７の指示方向平面画像１２１に基づいて生成される指示方向情報リストの例を示している。

指示方向情報リストは、ＩＤ、位置、サイズ、物体の種類、コンテンツの種類、詳細情報、隣接する物体の項目を含んでいる。詳細情報は、コンテンツ情報、翻訳情報、色の項目を含んでいる。隣接する物体は、上、下、左、右の項目を含んでいる。

ＩＤは、各物体を一意に識別するために各物体に付与される。この例では、看板１３１、窓１３２、看板１３３乃至１３７に、ＩＤ１乃至ＩＤ７がそれぞれ付与されている。

位置は、各物体の指示方向平面画像内の位置を示す。例えば、指示方向平面画像内における各物体の中心の座標が設定される。

サイズは、各物体の指示方向平面画像内のサイズを示す。例えば、指示方向平面画像内における各物体の垂直方向の長さの最大値、及び、水平方向の長さの最大値が設定される。

物体の種類は、物体検出部３３により検出された物体の種類を示す。例えば、看板１３１及び看板１３３乃至１３７の物体の種類は”看板”となり、窓１３２の物体の種類は”窓”となる。

コンテンツの種類は、基本的に、物体検出部３３により検出された各物体の視覚コンテンツの種類を示す。ただし、視覚コンテンツを有していない物体については、視覚コンテンツの種類は”物体”に設定される。例えば、看板１３１のコンテンツの種類は”画像”となる。また、例えば、看板１３３、１３４及び１３７のコンテンツの種類は”文”となり、看板１３５及び１３６のコンテンツの種類は”単語”となる。なお、視覚コンテンツが文字列である場合、文字列に含まれる単語が１つのみのとき、コンテンツの種類は”単語”に設定され、文字列に含まれる単語が２つ以上のとき、コンテンツの種類は”文”に設定される。窓１３２は、視覚コンテンツを有していないため、コンテンツの種類は”物体”に設定される。

コンテンツ情報には、コンテンツの種類が”物体”である物体の場合、すなわち、視覚コンテンツを有していない物体の場合、物体の種類が設定される。一方、コンテンツの種類が”物体”以外の物体の場合、すなわち、視覚コンテンツを有している物体の場合、視覚コンテンツの内容が設定される。

例えば、看板１３１は、視覚コンテンツとして画像を有しているので、画像の内容である”犬”がコンテンツ情報に設定される。窓１３２は、視覚コンテンツを有していないので、物体の種類である”窓”がコンテンツ情報に設定される。看板１３３乃至看板１３７は、視覚コンテンツとして文又は単語を有しているので、その文又は単語が原語（この例の場合、韓国語）のままコンテンツ情報に設定される。すなわち、本明細書において、看板１３３乃至看板１３７のコンテンツ情報は、それぞれ”看板１３３の原語情報”、”看板１３４の原語情報”、”看板１３５の原語情報”、”看板１３６の原語情報”、”看板１３７の原語情報”として定義されると見做されてよい。

翻訳情報には、翻訳部３６がコンテンツ情報をユーザに通知する言語（以下、ユーザ言語と称する）に翻訳した情報が設定される。ここで、ユーザ言語は、ユーザ音声の言語と同一であると見做されてよい。

色には、各物体に含まれる色のうち特徴的な色が設定される。

隣接する物体には、指示方向平面画像において各物体の上、下、左、右に隣接する物体のＩＤが設定される。例えば、ＩＤ５の看板１３５の上下左右には、それぞれ、看板１３３、看板１３７、看板１３４、看板１３６が隣接しているので、隣接する物体の上、下、左、右には、それぞれＩＤ３、ＩＤ７、ＩＤ４、ＩＤ６が設定されている。

その後、指示方向情報取得処理は終了する。

図３に戻り、ステップＳ５２において、指示位置検出部３１は、指差しモードの解除が指示されたか否かを判定する。具体的には、指示位置検出部３１は、図２のステップＳ１の処理と同様に、センサ部２２からのセンサ信号に基づいて、ユーザの指によるジェスチャの検出を行い、指差しモードの解除を指示するジェスチャが行われているか否かを検出する。指差しモードの解除を指示するジェスチャは、例えば、指差しのジェスチャを止めるだけでもよいし、或いは、所定の指の形を作るようにしてもよい。そして、指示位置検出部３１は、指差しモードの解除を指示するジェスチャが行われていない場合、指差しモードの解除が指示されていないと判定し、処理はステップＳ５３に進む。

ステップＳ５３において、指示位置検出部３１は、ユーザが指している位置が静止しているか否かを判定する。例えば、指示位置検出部３１は、センサ部２２からのセンサ情報に基づいて、ユーザの指の移動範囲が所定の範囲内である状態の継続時間を測定する。指示位置検出部３１は、ユーザの指の移動範囲が所定の範囲内である状態の継続時間が所定の時間未満である場合、ユーザが指している位置が静止していないと判定し、処理はステップＳ５１に戻る。

その後、ステップＳ５２において、指差しモードの解除が指示されたと判定されるか、ステップＳ５３において、ユーザが指している位置が静止していると判定されるまで、ステップＳ５１乃至Ｓ５３の処理が繰り返し実行される。そして、処理が繰り返される毎に、システム認識指示対象、指示方向平面画像、指示方向平面画像内の指示位置、及び、指示方向情報リストが更新される。

一方、ステップＳ５３において、指示位置検出部３１は、ユーザの指の移動範囲が所定の範囲内である状態の継続時間が所定の時間以上である場合、ユーザが指している位置が静止していると判定し、処理はステップＳ５４に進む。

ステップＳ５４において、情報処理システム１０は、ユーザが指している対象を確認するための音声（以下、確認音声と称する）を出力する。具体的には、まず、情報生成部３７は、ユーザが指している対象を確認するための質問文を作成する。

ここで、情報生成部３７は、例えば、システム認識指示対象のコンテンツの種類に基づいて、質問文を作成する。例えば、コンテンツの種類が画像である場合、「何の画像を指していますか？」という質問文が作成される。コンテンツの種類が文である場合、「何の文を指していますか？」という質問文が作成される。コンテンツの種類が単語である場合、「何の単語を指していますか？」という質問文が作成される。コンテンツの種類が物体である場合、「何の物体を指していますか？」という質問文が作成される。

なお、以上の質問文は、その一例であり、必要に応じて変更することが可能である。例えば、コンテンツの種類ではなく、物体の種類に基づいて質問文を作成するようにしてもよい。また、例えば、物体の種類とコンテンツの種類の両方に基づいて質問文を作成するようにしてもよい。さらに、例えば、物体の種類及びコンテンツの種類に関わらず、「何を指していますか？」等の同じ質問文を作成するようにしてもよい。

ただし、質問文は、ユーザ認識指示対象を他の物体と識別できる程度の情報をユーザから確実に得られるように、ユーザ認識指示対象を識別するための情報の入力を促す文章であることが望ましい。例えば、「何を指していますか？」と質問した場合、ユーザが「看板」と答えると、情報処理システム１０は、ユーザがどの看板を指しているのか認識することができない。これに対して、例えば、「何の単語を指していますか？」と質問した場合、ユーザは看板に表示されている単語を答えると想定され、情報処理システム１０は、ユーザの回答に基づいて、ユーザ認識指示対象を容易に識別できるようになる。

そして、出力部１４は、出力制御部３９の下に、質問文を示す確認音声を出力する。

ステップＳ５５において、音声認識部３８は、音声認識を開始する。

ステップＳ５６において、音声認識部３８は、音声入力部１１からの音声信号に基づいて、所定の時間内に音声入力が開始されたか否かを判定する。所定の時間内に音声入力が開始されたと判定された場合、処理はステップＳ５７に進む。

ステップＳ５７において、情報処理システム１０は、発話時指示方向情報取得処理を実行する。ここで、図９のフローチャートを参照して、発話時指示方向情報取得処理の詳細について説明する。

ステップＳ１５１において、指示位置検出部３１は、発話時のユーザの指の位置と向きを検出する。具体的には、指示位置検出部３１は、図２のステップＳ１の処理と同様に、センサ部２２からのセンサ信号に基づいて、ユーザの指によるジェスチャの検出を行い、ユーザの指先の位置と向きを検出する。また、指示位置検出部３１は、検出したユーザの指先の位置と向きを基準指位置及び基準指方向に設定する。なお、この基準指位置及び基準指方向により、発話時に三次元空間においてユーザが指している位置を求めることができる。

なお、基準指位置及び基準指方向を検出するタイミングは、例えば、発話の開始時、発話開始から所定の時間経過後、発話の終了時等、ユーザが発話している間の所定のタイミングに設定される。或いは、例えば、発話中のユーザの指先の位置及び向きを記憶しておき、発話中にユーザの指の動きが最も小さいと判定されたタイミングにおいて、基準指位置及び基準指方向を検出するようにしてもよい。

ステップＳ１５２において、音声認識部３８は、音声入力が終了したか否かを判定する。まだ音声入力が継続していると判定された場合、処理はステップＳ１５３に進む。

ステップＳ１５３において、音声認識部３８は、音声入力が開始されてから所定の時間が経過したか否かを判定する。音声入力が開始されてからまだ所定の時間が経過していないと判定された場合、処理はステップＳ１５２に戻る。

その後、ステップＳ１５２において、音声入力が終了したと判定されるか、ステップＳ１５３において、音声入力が開始されてから所定の時間が経過したと判定されるまで、ステップＳ１５２及びステップＳ１５３の処理が繰り返し実行される。

一方、ステップＳ１５２において、音声認識部３８は、無音期間が所定の時間継続した場合、音声入力が終了したと判定し、処理はステップＳ１５４に進む。

また、ステップＳ１５３において、音声入力が開始されてから所定の時間が経過したと判定された場合、処理はステップＳ１５４に進む。これは、音声入力が所定の時間以上継続して実行された場合である。

ステップＳ１５４において、音声認識部３８は、音声認識を停止する。

ステップＳ１５５において、音声認識部３８は、音声認識に成功したか否かを判定する。音声認識部３８は、音声入力部１１からの音声信号に基づいてユーザ音声の内容を認識できた場合、音声認識に成功したと判定し、処理はステップＳ１５６に進む。

ステップＳ１５６において、指示位置補正部３２は、ユーザが指していると認識している対象（ユーザ認識指示対象）を検索する。例えば、指示位置補正部３２は、最新の指示方向情報リストの各物体の翻訳情報に含まれるテキスト情報の中から、ユーザ音声から取得されるテキスト情報と類似するテキスト情報を検索する。すなわち、指示位置補正部３２は、最新の指示方向情報リストの中から、ユーザ音声の内容と類似する翻訳情報データ（コンテンツ情報をユーザ言語に翻訳したデータ）を有する物体の検索を行う。

そして、指示位置補正部３２は、ユーザ音声の内容と類似する翻訳情報データを有する物体が１つのみである場合、その物体をユーザ認識指示対象として検出する。例えば、ユーザが”７０８０”と発話した場合、翻訳情報データが”７０８０”の物体は看板１３５のみであるので、看板１３５がユーザ認識指示対象として検出される。

一方、指示位置補正部３２は、ユーザ音声の内容と類似する翻訳情報データを有する物体を検出できなかった場合、又は、ユーザ音声の内容と類似する翻訳情報データを有する物体を２つ以上検出した場合、ユーザ認識指示対象の検出に失敗したと判定する。

ステップＳ１５７において、指示位置補正部３２は、ユーザが指していると認識している対象（ユーザ認識指示対象）を検出できたか否かを判定する。ユーザが指していると認識している対象を検出できたと判定された場合、処理はステップＳ１５８に進む。

ステップＳ１５８において、指示位置補正部３２は、指示方向平面画像内の指示位置を補正する。

具体的には、指示位置補正部３２は、ユーザ認識指示対象と最新のシステム認識指示対象が一致する場合、システム認識指示対象を補正しない。一方、指示位置補正部３２は、ユーザ認識指示対象と最新のシステム認識指示対象が一致しない場合、システム認識指示対象をユーザ認識指示対象に補正する。そして、指示位置補正部３２は、この時点のシステム認識指示対象を基準指示対象に設定する。

これにより、ユーザに指し直しをさせなることなく、ユーザが指していると認識している対象（ユーザ認識指示対象）と、情報処理システム１０がユーザにより指されていると認識している対象（システム認識指示対象）とを一致させることができる。

また、ユーザは、指示方向にある物体の中から任意の物体を基準指示対象に設定できるので、例えば、物体の種類若しくは名称等が分かる物体、又は、視覚コンテンツの内容を理解できる物体を基準指示対象に設定することができる。例えば、図７の例において、ユーザが韓国語を理解できない場合、ユーザは、韓国語が表示されていない看板１３１、窓１３２、及び、看板１３５の中から基準指示対象を設定することができる。

また、指示位置補正部３２は、指示方向平面画像における基準指示対象の中心を検出し、検出した位置を現在の指示位置に補正するとともに、基準指示位置に設定する。この基準指示位置は、ステップＳ１５１で設定された基準指位置及び基準指方向により求められる、確認音声に対する発話時の三次元空間における指示位置（以下、空間指示位置とも称する）に対応する指示方向平面画像内の指示位置（以下、画像指示位置とも称する）となる。

このように、空間指示位置に対応する画像指示位置を簡単にユーザが望むように補正することができる。

ステップＳ１５９において、距離算出部３４は、ユーザの目から指までの距離を算出する。具体的には、距離算出部３４は、ユーザの目とステップＳ１５１の処理で検出した発話時のユーザの指先との間の距離を算出する。例えば、距離算出部３４は、図１０に示されるように、ユーザの目の位置Ｐ１と指先の位置Ｐ３との間の距離ｄ２（以下、目−指間距離ｄ２と称する）を算出する。

なお、距離の算出方法には、任意の方法を採用することができる。

ステップＳ１６０において、画像処理部３５は、縮小率を算出する。例えば、図１０の例の場合、縮小率ｒは、最小物体距離ｄ１及び目−指間距離ｄ２に基づいて、次式（１）により算出される。

ｒ＝ｄ２／ｄ１・・・（１）

ステップＳ１６１において、画像処理部３５は、発話時指示方向平面縮小画像を生成する。具体的には、画像処理部３５は、最新の指示方向平面画像をステップＳ１６０の処理で算出した縮小率により縮小し、ユーザの指先を通り指示方向平面画像に平行な平面上に投影することにより、発話時指示方向平面縮小画像を生成する。

例えば、図１１に示されるように、指示方向平面画像１２１を縮小し、ユーザの指先の位置Ｐ３を通り指示方向平面画像１２１に平行な平面上に投影することにより、発話時指示方向平面縮小画像１５１が生成される。

また、画像処理部３５は、指示方向平面画像内の各物体の位置及びサイズを指示方向平面縮小画像における位置及びサイズに変換する。さらに、画像処理部３５は、指示方向平面画像内の指示位置を指示方向平面縮小画像内における指示位置に変換する。

ステップＳ１６２において、情報処理システム１０は、発話時指示方向情報リストを生成する。具体的には、距離算出部３４は、指示方向平面縮小画像において隣接する物体間の距離を算出する。情報生成部３７は、最新の指示方向情報リストの各物体の位置及びサイズを、指示方向平面縮小画像における位置及びサイズに置換する。また、情報生成部３７は、距離算出部３４により算出された各物体間の距離を最新の指示方向情報リストに追加する。これにより、発話時指示方向情報リストが生成される。

図１２は、図８の指示方向情報リストに基づいて生成される発話時指示方向情報リストの例を示している。なお、図１２において、物体の種類、コンテンツの種類、及び、詳細情報の項目の図示は省略している。

この発話時指示方向情報リストを図８の指示方向情報リストと比較すると、位置及びサイズのデータが異なり、隣接する物体までの距離の項目が追加されている点が異なる。

具体的には、発話時指示方向情報リストにおいては、各物体の位置及びサイズが、発話時指示方向平面縮小画像における位置及びサイズに設定される。

隣接する物体までの距離には、発話時指示方向平面縮小画像において各物体の上、下、左、右に隣接する物体までの距離が設定される。例えば、ＩＤ１の看板１３１の下には看板１３４が隣接しているため、ＩＤ１の隣接する物体までの距離の”下”の欄のｄ１＿ｄには、看板１３１と看板１３４との間の距離が設定される。また、例えば、ＩＤ１の看板１３１の右には窓１３２が隣接しているため、ＩＤ１の隣接する物体までの距離の”右”の欄のｄ１＿ｒには、看板１３１と窓１３２との間の距離が設定される。

なお、例えば、物体Ａの上又は下に隣接する物体Ｂまでの距離として、物体Ａの中心と物体Ｂの中心間の上下方向（垂直方向）の距離が設定される。また、例えば、物体Ａの左又は右に隣接する物体Ｃまでの距離として、物体Ａの中心と物体Ｃの中心間の左右方向（水平方向）の距離が算出される。

この隣接する物体までの距離のデータにより、例えば、ユーザの指をどの方向にどれだけ動かせば、隣接する物体を指すことができるか把握することができる。

例えば、図１３に示されるように、発話時指示方向平面縮小画像１５１において、看板１３５の中心である位置Ｐ３が指示位置に設定されている場合について説明する。例えば、ユーザの指を上方向に距離ｄ５＿ｕだけ移動させれば、看板１３５の上に隣接する看板１３３の垂直方向の略中心を指すことができることが分かる。ユーザの指を下方向に距離ｄ５＿ｄだけ移動させれば、看板１３５の下に隣接する看板１３７の垂直方向の略中心を指すことができることが分かる。ユーザの指を左方向に距離ｄ５＿ｌだけ移動させれば、看板１３５の左に隣接する看板１３４の水平方向の略中心を指すことができることが分かる。ユーザの指を右方向に距離ｄ５＿ｒだけ移動させれば、看板１３５の右に隣接する看板１３６の水平方向の略中心を指すことができることが分かる。

ステップＳ１６２の処理の後、発話時指示方向情報取得処理は終了する。

一方、ステップＳ１５７において、ユーザが指していると認識している対象を検出できなかったと判定された場合、処理はステップＳ１６３に進む。

また、ステップＳ１５５において、音声認識に失敗したと判定された場合、処理はステップＳ１６３に進む。

ステップＳ１６３において、情報処理システム１０は、ユーザが指している対象の確認に失敗したことを通知する。例えば、出力部１４は、出力制御部３９の制御の下に、ユーザが指している対象の確認に失敗したことを通知する音声を出力する。

その後、発話時指示方向情報取得処理は終了する。

図３に戻り、ステップＳ５８において、指示位置補正部３２は、ユーザが指している対象を確認できたか否かを判定する。ユーザが指している対象を確認できたと判定された場合、処理はステップＳ５９に進む。

ステップＳ５９において、情報処理システム１０は、音声案内処理を実行する。ここで、図１４のフローチャートを参照して、音声案内処理の詳細について説明する。

ステップＳ２０１において、指示位置検出部３１は、ユーザの指が動いたか否かを判定する。具体的には、指示位置検出部３１は、センサ部２２からのセンサ信号に基づいて、ユーザの指の動きを検出する。そして、指示位置検出部３１が、ユーザの指が動いたと判定した場合、処理はステップＳ２０２に進む。

ステップＳ２０２において、指示位置検出部３１は、ユーザが指している対象（指示対象）が変化したか否かを判定する。具体的には、指示位置検出部３１は、センサ部２２からのセンサ信号に基づいて、基準指位置及び基準指方向を基準とする現在のユーザの指の位置及び向きを検出する。また、指示位置検出部３１は、検出した現在のユーザの位置及び向きに基づいて、発話時指示方向平面画像における現在の指示位置の基準指示位置からの移動量及び移動方向を算出する。そして、指示位置検出部３１は、算出した指示位置の移動量及び移動方向、並びに、発話時指示方向情報リストに基づいて、現在ユーザが指している対象（指示対象）を検出する。そして、指示位置検出部３１は、今回検出した指示対象が前回検出した指示対象と異なる場合、ユーザが指している対象が変化したと判定し、処理はステップＳ２０３に進む。

ステップＳ２０３において、出力制御部３９は、ユーザが指している対象（指示対象）に関する情報を取得する。例えば、出力制御部３９は、発話時指示方向情報リストから現在の指示対象の翻訳情報データを取得する。

ステップＳ２０４において、出力制御部３９は、前回の音声案内から所定の時間が経過しているか否かを判定する。前回の音声案内から所定の時間が経過していると判定された場合、処理はステップＳ２０５に進む。なお、指差しモード処理が開始されてから初めて音声案内を行う場合も、前回の音声案内から所定の時間が経過していると判定され、処理はステップＳ２０５に進む。

ステップＳ２０５において、情報処理システム１０は、ユーザが指している対象（指示対象）に関する情報を音声で案内する。

例えば、まず、出力部１４は、出力制御部３９の制御の下に、指示対象が変化したことを通知するための音である通知音を出力する。なお、例えば、指示対象が移動した方向（例えば、上、下、左、右）により異なる通知音を出力するようにしてもよい。また、例えば、現在の指示対象が基準指示対象から何個離れた物体であるかにより、異なる通知音を出力するようにしてもよい。例えば、現在の指示対象が、基準指示対象に隣接する物体と基準指示対象から２個離れた物体とで、異なる通知音を出力するようにしてもよい。

なお、通知音を変化させる方法には、任意の方法を採用することができる。例えば、出力制御部３９は、音階、音質、音量等の少なくとも１つを変化させることにより、通知音を変化させる。

また、例えば、通知音の代わりに、装置の振動等により指示対象が変化したことを通知するようにしてもよい。さらに、例えば、指示対象が移動した方向を、「上」「左」等の具体的な音声により通知するようにしてもよい。

これにより、ユーザは、基準指示対象を基準にして、現在情報処理システム１０が認識している指示対象を正確に認識することができる。従って、ユーザと情報処理システム１０との間の指示対象の認識のズレが防止される。

次に、出力部１４は、出力制御部３９の制御の下に、例えば、現在の指示対象の翻訳情報データを通知する音声情報を出力する。例えば、現在の指示対象が図７の看板１３７である場合、看板１３７の翻訳情報データである”スポーツ用品”の音声が音声情報として出力される。

これにより、ユーザは、現在の指示対象に理解できない韓国語で情報が表示されていても、その情報を自分が理解できる言語、すなわちユーザ言語で得ることができる。

また、例えば、遠くにある物体、小さな物体、周囲に物体が密集している中の物体等を、離れた位置から直接触れずに指等により正確に指すことは、ユーザにとって難しい。従って、例えば、図７の例において、ユーザが所望の看板と異なる看板を指差すことにより、異なる看板の音声情報が出力される場合が想定されるが、ユーザが韓国語を知らなければ、そのことに気づくことは難しい。また、例えば、ユーザは、自分が指差している位置に確信が持てない場合、出力される音声情報が、本当に自分が得たい情報であるのかを確信することができない。

一方、情報処理システム１０を用いれば、ユーザと情報処理システム１０との間の指示対象の認識のズレが防止されるため、ユーザは確実に自分が得たい対象に関する情報を得ることができる。また、ユーザは、自分が指差している位置に確信が持てるため、出力される音声情報が、自分が得たい対象に関する情報であるという確信を持つことができる。

なお、指示対象が変化した場合に、通知音を出力した後、すぐに音声情報を出力せずに、指示対象が所定の時間変化しないとき、すなわち、ユーザが指している対象が定まったとき、音声情報を出力するようにしてもよい。これにより、ユーザは、基準対象から２つ以上離れた位置にある物体の音声情報を聞きたい場合に、その間にある物体の音声情報を聞く必要がなくなる。また、音声情報が出力されなくても通知音は出力されるので、ユーザは、自分が指している対象が変わったことを確実に認識することができる。

また、例えば、指示対象のコンテンツ情報と翻訳情報データを音声情報に含めるようにしてもよい。すなわち、指示対象の原語によるコンテンツ情報とユーザ言語によるコンテンツ情報を音声情報に含めるようにしてもよい。これにより、ユーザは、指示対象のコンテンツ情報の原語による発音等を知ることができる。

その後、音声案内処理は終了する。

一方、ステップＳ２０４において、前回の音声案内からまだ所定の時間が経過していないと判定された場合、ステップＳ２０５の処理はスキップされ、音声案内処理は終了する。

また、ステップＳ２０２において、ユーザが指している対象が変化していないと判定された場合、ステップＳ２０３乃至Ｓ２０５の処理はスキップされ、音声案内処理は終了する。

さらに、ステップＳ２０１において、ユーザの指が動いていないと判定された場合、ステップＳ２０２乃至Ｓ２０５の処理はスキップされ、音声案内処理は終了する。

図３に戻り、ステップＳ６０において、ステップＳ５２の処理と同様に、指差しモードの解除が指示されたか否かが判定される。指差しモードの解除が指示されていないと判定された場合、処理はステップＳ５９に戻る。

その後、ステップＳ６０において、指差しモードの解除が指示されたと判定されるまで、ステップＳ５９及びＳ６０の処理が繰り返し実行される。

一方、ステップＳ６０において、指差しモードの解除が指示されたと判定された場合、指差しモード処理は終了する。

また、ステップＳ５６において、所定の時間内に音声入力が開始されなかったと判定された場合、処理はステップＳ６１に進む。

ステップＳ６１において、音声認識部３８は、音声認識を停止する。

その後、処理はステップＳ６２に進む。

一方、ステップＳ５８において、ユーザが指している対象を確認できなかったと判定された場合、処理はステップＳ６２に進む。

ステップＳ６２において、ステップＳ５２の処理と同様に、指差しモードの解除が指示されたか否かが判定される。指差しモードの解除が指示されていないと判定された場合、処理はステップＳ５１に戻る。

その後、ステップＳ５１以降の処理が実行される。

一方、ステップＳ６２において、指差しモードの解除が指示されたと判定された場合、指差しモード処理は終了する。

図２に戻り、ステップＳ２の処理の後、処理はステップＳ１に戻り、ステップＳ１以降の処理が実行される。

以上のようにして、ユーザ音声に基づいてシステム認識指示対象を補正することにより、ユーザ認識指示対象とシステム認識指示対象とをユーザに指し直しさせることなく簡単かつ迅速に一致させることができる。すなわち、ユーザと情報処理システム１０との間でユーザが指している位置の認識を簡単かつ迅速に合わせることができる。

また、ユーザは、基準指示対象を基準にして情報処理システム１０が認識している指示対象を正確に把握することができ、ユーザと情報処理システム１０との間の指示対象の認識のズレを防止することができる。

さらに、指示対象のコンテンツ情報がユーザの理解できる言語による音声で出力されるので、例えば、視覚コンテンツがユーザの理解できない言語で表示されていても、ユーザはその内容を容易に知ることができる。

＜２．変形例＞
以下、上述した本技術の実施の形態の変形例について説明する。

｛本技術の適用範囲に関する変形例｝
本技術の適用範囲は、上述した例に限定されるものではない。

例えば、本技術において、指示対象となる物体は、必ずしも１つの物体全体である必要はなく、物体の一部であってもよい。例えば、１つの看板に複数の文字列や画像が表示されている場合、そのうちの一部を指示対象に指定できるようにしてもよい。また、例えば、ビル等の大きな対象の一部を指示対象に指定できるようにしてもよい。

また、例えば、本技術は、指示オブジェクトによる指示位置のキャリブレーションにも適用することが可能である。

例えば、ユーザのジェスチャにより画像内において操作用オブジェクト（例えば、ポインタ等）を動かす場合の操作用オブジェクトの位置のキャリブレーションに本技術を適用することができる。例えば、ＨＭＤ（Head Mount Display）等においてＶＲ（Virtual Reality）によりユーザにより視認されている画像（以下、ＶＲ画像と称する）内の操作用オブジェクト、スマートテレビの画面内の操作用オブジェクトの位置のキャリブレーションに本技術を適用することができる。

例えば、操作用オブジェクトがユーザの人差し指の指先の動きに合わせてＶＲ画像内を動く場合について説明する。この場合、指示オブジェクトは人差し指となり、三次元空間における指示位置（空間指示位置）は人差し指の指先となる。

例えば、ユーザは、人差し指を三次元空間内の所望の位置に静止した状態で、その状態における空間指示位置に対応付けたい操作用オブジェクトのＶＲ画像内の指示位置（画像指示位置）を音声で入力することにより、操作用オブジェクトの位置のキャリブレーションを行う。例えば、ユーザが「センター」という音声を入力することにより、発話時の空間指示位置がＶＲ画像の中央に対応するように操作用オブジェクトの座標系（画像指示位置の座標系）が補正される。また、操作用オブジェクトの指示位置（画像指示位置）がＶＲ画像の中央になるように操作用オブジェクトの位置が補正される。

なお、例えば、ＶＲ画像内の具体的な座標を音声により入力して、操作用オブジェクトの位置のキャリブレーションを行うようにしてもよい。

また、例えば、操作用オブジェクトの位置を固定したまま、ＶＲ画像の範囲を動かすことにより、ＶＲ画像に対する操作用オブジェクトの指示位置を補正することも可能である。例えば、ユーザがＶＲ画像内の具体的な位置を音声で入力することにより、操作用オブジェクトの位置を固定したまま、ユーザにより指示されたＶＲ画像内の位置が操作用オブジェクトの指示位置と一致するようにＶＲ画像の範囲を動かすようにしてもよい。

これにより、空間指示位置に対応する画像指示位置をユーザの所望の位置に簡単に補正することができる。

さらに、このキャリブレーションの技術は、例えば、ＡＲ（Augmented Reality）の操作用オブジェクトの位置のキャリブレーションにも適用することができる。

また、以上の説明では、本技術を適用する状況として、遠方の看板等を指す場合を例に挙げたが、本技術は、指示オブジェクトを用いて非接触で所望の位置を指す様々な状況において適用することが可能である。例えば、博物館等のショーケース内の所望の位置を指す場合、立ち入り規制により近づけない場所内の所望の位置を指す場合、展望台から見える風景の所望の位置を指す場合、汚染等により直接触れることができない物体の所望の位置を指す場合、接触が禁止されている物体の所望の位置を指す場合、講演会等で離れた位置から所望の位置を指す場合等が挙げられる。

さらに、本技術は、例えば、直接対象に触れて所望の位置を指す場合にも適用することができる。例えば、ディスプレイ等の表示装置の画面に直接指等を接触して、画面に表示されている画像内の所望の位置を指す場合にも、本技術を適用することができる。特に、画像が小さいため個々の対象を正確に指すことが困難な場合に、本技術を適用する効果は大きくなる。なお、この場合、空間指示位置と画像指示位置とは、ほぼ一致する。

また、本技術は、三次元空間において指示オブジェクトにより指されている位置（空間指示位置）を検出し、空間指示位置に対応する画像内の位置（画像指示位置）を設定する各種の機器に適用することができる。そのような機器として、例えば、ウエアラブルデバイス、ＶＲデバイス、ＡＲデバイス、スマートテレビ、デジタルサイネージ、プロジェクタ、スマートフォン、タブレット等が挙げられる。

さらに、本技術において用いられる画像の種類は、特に限定されるものではない。例えば、動画、静止画、２次元画像、３次元画像、全方位画像等の任意の種類の画像において画像指示位置を設定する場合に、本技術を適用することができる。

｛システムの構成例に関する変形例｝
図１の情報処理システム１０の構成例は、その一例であり、必要に応じて変更することが可能である。

例えば、情報処理部１３の一部の機能を、音声入力部１１、情報取得部１２、又は、出力部１４に設けるようにしてもよい。また、例えば、音声入力部１１、情報取得部１２、情報処理部１３、及び、出力部１４のうち２つ以上を一体化するようにしてもよい。さらに、例えば、情報処理システム１０の構成要素を、音声入力部１１、情報取得部１２、情報処理部１３、及び、出力部１４と異なる組み合わせにより構成するようにしてもよい。

また、例えば、情報処理システム１０の一部の機能を外部に設けるようにしてもよい。

｛指示対象の検出方法に関する変形例｝
以上の説明では、ユーザの指に装着した情報取得部１２の撮影部２１により撮影された指示方向画像に基づいて、ユーザの指により指されている指示対象を検出する例を示したが、他の方法により指示対象を検出するようにしてもよい。

例えば、ユーザが指している方向を示す指示方向画像を撮影する撮影部をユーザの指以外の部位（例えば、頭部等）に装着するとともに、ユーザを撮影する撮影部を別に設けるようにしてもよい。この場合、例えば、指示位置検出部３１は、ユーザを撮影した画像に基づいて、ユーザの指の位置や向き等を検出することにより、三次元空間においてユーザが指している方向（以下、空間指示方向と称する）を検出する。また、指示位置検出部３１は、空間指示方向に基づいて、指示方向画像内においてユーザが指している指示対象を検出する。

なお、指示方向画像を撮影する撮影部をユーザの指以外の部位に装着した場合、撮影方向とユーザが指している方向が一致しない場合が生じる。これに対して、例えば、指示位置検出部３１は、ＳＬＡＭ（Simultaneous Localization and Mapping）を用いて、指示方向画像に基づいてユーザの周辺の空間マップを作成し、空間マップ及び空間指示方向に基づいて、指示対象を検出することが可能である。

また、例えば、指示方向画像を撮影する撮影部を、ユーザに装着せずに、ユーザとは別に設けるようにしてもよい。

｛指示オブジェクトに関する変形例｝
本技術に適用可能な指示オブジェクトには、所望の位置を指すことができるものであれば任意のものを採用することができる。例えば、ユーザの指以外の体の一部、例えば、目（視線）、頭部、顔、顔の一部、腕、腕の一部等を指示オブジェクトに用い、それらの部位を用いたジェスチャ等により、所望の位置を指すようにしてもよい。また、例えば、レーザポインタ等のポインティングデバイスやＶＲ（Virtual Reality）デバイス等のデバイスを指示オブジェクトに用いるようにしてもよい。なお、ＶＲデバイスを指示オブジェクトに用いる場合、例えば、ＶＲデバイスの向きにより所望の位置を指すことができる。

｛指示方向情報リスト及び発話時指示方向情報リストに関する変形例｝
指示方向情報リスト及び発話時指示方向情報リストの項目は、上述した例に限定されるものではなく、必要に応じて変更することが可能である。例えば、詳細情報に、各物体の色以外の視覚的な特徴（例えば、形状等）を含めるようにしてもよい。

また、以上の説明では、指示方向情報リストの翻訳情報のデータを用いて、ユーザ認識指示対象を検索する例を示したが、他のデータを用いるようにしてもよい。例えば、「指している物体は何色ですか？」、「指している物体の形を教えてください」等の物体の視覚的な特徴を尋ねる確認音声を出力し、物体の視覚的な特徴に基づいて、指示方向情報リストからユーザ認識指示対象を検索するようにしてもよい。また、例えば、指示方向情報リストの２種類以上のデータを組み合わせて、ユーザ認識指示対象を検索するようにしてもよい。

さらに、物体の種類やコンテンツの種類の分類方法は、上述した例に限定されるものではなく、必要に応じて変更することが可能である。

また、例えば、指示方向情報リスト及び発話時指示方向情報リストに斜め方向に隣接する物体に関する情報を追加して、指示対象の斜め方向の移動を検出できるようにしてもよい。

｛その他の変形例｝
以上の説明では、指示対象のコンテンツ情報を韓国語からユーザ言語に翻訳する例を示したが、翻訳する言語の組み合わせは、この例に限定されるものではない。また、例えば、翻訳先の言語（ユーザに通知する言語）をユーザが設定できるようにしてもよい。

また、例えば、コンテンツ情報を音声ではなく、例えば、コンテンツ情報のテキストデータをディスプレイ等に表示するようにしてもよい。

さらに、例えば、指示対象のコンテンツ情報を見やすくするために、指示対象及びその周辺を拡大表示するようにしてもよい。これにより、例えば、指示対象が看板である場合、看板が遠くにある、看板の文字が小さい、看板の照り返しが強い、周囲が暗い等により看板の視認性が悪い場合に、視認性を高めることができる。

さらに、以上の説明では、指示オブジェクトを用いて所望の対象を指すユーザと、情報処理システム１０にユーザ音声を入力するユーザが同一である例を示したが、必ずしも同一である必要はない。例えば、情報処理システム１０を装着しているユーザＡと異なるユーザＢが、ユーザ音声を入力するようにしてもよい。この場合、例えば、ユーザＡが、ユーザＢによる音声入力を許可する指令を情報処理システム１０に与えるようにしてもよい。この指令は、例えば、ユーザＡが音声コマンドにより入力するようにしてもよい。

また、例えば、ユーザＢが別のシステムを装着し、ユーザＡとユーザＢのシステム間で連携して、所望の対象を指示するジェスチャとユーザ音声の組み合わせを取得するようにしてもよい。

｛コンピュータの構成例｝
上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

図１５は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

コンピュータにおいて、ＣＰＵ（Central Processing Unit）３０１，ＲＯＭ（Read Only Memory）３０２，ＲＡＭ（Random Access Memory）３０３は、バス３０４により相互に接続されている。

バス３０４には、さらに、入出力インタフェース３０５が接続されている。入出力インタフェース３０５には、入力部３０６、出力部３０７、記憶部３０８、通信部３０９、及びドライブ３１０が接続されている。

入力部３０６は、キーボード、マウス、マイクロフォンなどよりなる。出力部３０７は、ディスプレイ、スピーカなどよりなる。記憶部３０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部３０９は、ネットワークインタフェースなどよりなる。ドライブ３１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア３１１を駆動する。

以上のように構成されるコンピュータでは、ＣＰＵ３０１が、例えば、記憶部３０８に記憶されているプログラムを、入出力インタフェース３０５及びバス３０４を介して、ＲＡＭ３０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（ＣＰＵ３０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア３１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブルメディア３１１をドライブ３１０に装着することにより、入出力インタフェース３０５を介して、記憶部３０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部３０９で受信し、記憶部３０８にインストールすることができる。その他、プログラムは、ＲＯＭ３０２や記憶部３０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、複数のコンピュータが連携して上述した処理を行うようにしてもよい。そして、上述した処理を行う単数又は複数のコンピュータにより、コンピュータシステムが構成される。

また、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

さらに、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

また、例えば、本技術は以下のような構成も取ることができる。

（１）
三次元空間において指示オブジェクトにより指されている位置である空間指示位置を検出する指示位置検出部と、
ユーザが発する音声であるユーザ音声に基づいて、前記空間指示位置に対応する画像内の指示位置である画像指示位置を補正する指示位置補正部と
を備える情報処理装置。
（２）
前記指示位置補正部は、前記ユーザ音声に基づく前記画像内の位置に前記画像指示位置を補正する
前記（１）に記載の情報処理装置。
（３）
前記指示位置補正部は、バーチャルリアリティにより前記ユーザが視認する前記画像内の前記画像指示位置を補正する
前記（２）に記載の情報処理装置。
（４）
前記指示位置補正部は、前記ユーザが前記ユーザ音声を発しているときの前記空間指示位置に対応する前記画像指示位置を補正する
前記（１）乃至（３）のいずれかに記載の情報処理装置。
（５）
前記指示位置検出部は、三次元空間において前記指示オブジェクトにより指されている第１の対象に対応する前記画像内の対象である指示対象を検出し、
前記指示位置補正部は、前記指示対象が前記ユーザ音声に基づく第２の対象と一致する場合、前記指示対象を補正せず、前記指示対象が前記第２の対象と一致しない場合、前記第２の対象に対応する前記画像内の対象を前記指示対象に補正する補正処理を行う
前記（１）に記載の情報処理装置。
（６）
前記指示対象を確認するための音声である確認音声の出力を制御する出力制御部を
さらに備え、
前記指示位置補正部は、前記確認音声に対する前記ユーザ音声に基づいて、前記補正処理を行う
前記（５）に記載の情報処理装置。
（７）
前記確認音声は、前記指示対象を識別するための情報の入力を促す音声である
前記（６）に記載の情報処理装置。
（８）
前記出力制御部は、前記補正処理後に前記指示対象が変化した場合、前記指示対象に関する情報を所定の言語で通知する音声情報の出力を制御する
前記（５）乃至（７）のいずれかに記載の情報処理装置。
（９）
前記音声情報は、前記指示対象の視認可能なコンテンツを示すコンテンツ情報を含む
前記（８）に記載の情報処理装置。
（１０）
前記コンテンツ情報は、前記指示対象の名称、前記指示対象の種類、及び、前記指示対象が視覚的に表しているもののうち少なくとも１つを示す
前記（９）に記載の情報処理装置。
（１１）
前記出力制御部は、前記補正処理後に前記指示対象が変化した場合、前記指示対象の変化を通知する通知音を出力するように制御する
前記（８）乃至（１０）のいずれかに記載の情報処理装置。
（１２）
前記出力制御部は、前記指示対象が移動した方向により異なる前記通知音を出力するように制御する
前記（１１）に記載の情報処理装置。
（１３）
前記指示対象に関する情報を前記所定の言語に翻訳する翻訳部を
さらに備える前記（８）乃至（１２）のいずれかに記載の情報処理装置。
（１４）
前記画像内の物体の検出を行う物体検出部を
さらに備える前記（５）乃至（１３）のいずれかに記載の情報処理装置。
（１５）
前記指示オブジェクトは、ユーザの体の一部である
前記（１）乃至（１４）のいずれかに記載の情報処理装置。
（１６）
前記ユーザ音声を認識する音声認識部を
さらに備える前記（１）乃至（１５）のいずれかに記載の情報処理装置。
（１７）
三次元空間において指示オブジェクトにより指されている位置である空間指示位置を検出する指示位置検出ステップと、
ユーザが発する音声であるユーザ音声に基づいて、前記空間指示位置に対応する画像内の指示位置である画像指示位置を補正する指示位置補正ステップと
を含む情報処理方法。
（１８）
三次元空間において指示オブジェクトにより指されている位置である空間指示位置を検出する指示位置検出ステップと、
ユーザが発する音声であるユーザ音声に基づいて、前記空間指示位置に対応する画像内の指示位置である画像指示位置を補正する指示位置補正ステップと
を含む処理をコンピュータに実行させるためのプログラム。

１０情報処理システム，１１音声入力部，１２情報取得部，１３情報処理部，１４出力部，２１撮影部，２２センサ部，３１指示位置検出部，３２指示位置補正部，３３物体検出部，３４距離算出部，３５画像処理部，３６翻訳部，３７情報生成部，３８音声認識部，３９出力制御部

Claims

三次元空間において指示オブジェクトにより指されている位置である空間指示位置を検出する指示位置検出部と、
ユーザが発する音声であるユーザ音声に基づいて、前記空間指示位置に対応する画像内の指示位置である画像指示位置を補正する指示位置補正部と
を備える情報処理装置。
前記指示位置補正部は、前記ユーザ音声に基づく前記画像内の位置に前記画像指示位置を補正する
請求項１に記載の情報処理装置。
前記指示位置補正部は、バーチャルリアリティにより前記ユーザが視認する前記画像内の前記画像指示位置を補正する
請求項２に記載の情報処理装置。
前記指示位置補正部は、前記ユーザが前記ユーザ音声を発しているときの前記空間指示位置に対応する前記画像指示位置を補正する
請求項１に記載の情報処理装置。
前記指示位置検出部は、三次元空間において前記指示オブジェクトにより指されている第１の対象に対応する前記画像内の対象である指示対象を検出し、
前記指示位置補正部は、前記指示対象が前記ユーザ音声に基づく第２の対象と一致する場合、前記指示対象を補正せず、前記指示対象が前記第２の対象と一致しない場合、前記第２の対象に対応する前記画像内の対象を前記指示対象に補正する補正処理を行う
請求項１に記載の情報処理装置。
前記指示対象を確認するための音声である確認音声の出力を制御する出力制御部を
さらに備え、
前記指示位置補正部は、前記確認音声に対する前記ユーザ音声に基づいて、前記補正処理を行う
請求項５に記載の情報処理装置。
前記確認音声は、前記指示対象を識別するための情報の入力を促す音声である
請求項６に記載の情報処理装置。
前記出力制御部は、前記補正処理後に前記指示対象が変化した場合、前記指示対象に関する情報を所定の言語で通知する音声情報の出力を制御する
請求項５に記載の情報処理装置。
前記音声情報は、前記指示対象の視認可能なコンテンツを示すコンテンツ情報を含む
請求項８に記載の情報処理装置。
前記コンテンツ情報は、前記指示対象の名称、前記指示対象の種類、及び、前記指示対象が視覚的に表しているもののうち少なくとも１つを示す
請求項９に記載の情報処理装置。
前記出力制御部は、前記補正処理後に前記指示対象が変化した場合、前記指示対象の変化を通知する通知音を出力するように制御する
請求項８に記載の情報処理装置。
前記出力制御部は、前記指示対象が移動した方向により異なる前記通知音を出力するように制御する
請求項１１に記載の情報処理装置。
前記指示対象に関する情報を前記所定の言語に翻訳する翻訳部を
さらに備える請求項８に記載の情報処理装置。
前記画像内の物体の検出を行う物体検出部を
さらに備える請求項５に記載の情報処理装置。
前記指示オブジェクトは、ユーザの体の一部である
請求項１に記載の情報処理装置。
前記ユーザ音声を認識する音声認識部を
さらに備える請求項１に記載の情報処理装置。
三次元空間において指示オブジェクトにより指されている位置である空間指示位置を検出する指示位置検出ステップと、
ユーザが発する音声であるユーザ音声に基づいて、前記空間指示位置に対応する画像内の指示位置である画像指示位置を補正する指示位置補正ステップと
を含む情報処理方法。
三次元空間において指示オブジェクトにより指されている位置である空間指示位置を検出する指示位置検出ステップと、
ユーザが発する音声であるユーザ音声に基づいて、前記空間指示位置に対応する画像内の指示位置である画像指示位置を補正する指示位置補正ステップと
を含む処理をコンピュータに実行させるためのプログラム。