JP2017228080A - 情報処理装置、情報処理方法、及び、プログラム - Google Patents

情報処理装置、情報処理方法、及び、プログラム Download PDF

Info

Publication number
JP2017228080A
JP2017228080A JP2016123593A JP2016123593A JP2017228080A JP 2017228080 A JP2017228080 A JP 2017228080A JP 2016123593 A JP2016123593 A JP 2016123593A JP 2016123593 A JP2016123593 A JP 2016123593A JP 2017228080 A JP2017228080 A JP 2017228080A
Authority
JP
Japan
Prior art keywords
instruction
user
target
image
pointing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016123593A
Other languages
English (en)
Inventor
真一 河野
Shinichi Kono
真一 河野
拓也 生江
Takuya Namae
拓也 生江
賢次 杉原
Kenji Sugihara
賢次 杉原
遼 深澤
Ryo Fukazawa
遼 深澤
佐藤 大輔
Daisuke Sato
大輔 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2016123593A priority Critical patent/JP2017228080A/ja
Priority to CN201780036694.6A priority patent/CN109313532B/zh
Priority to PCT/JP2017/021271 priority patent/WO2017221720A1/ja
Priority to US16/307,320 priority patent/US10788902B2/en
Publication of JP2017228080A publication Critical patent/JP2017228080A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/0346Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of the device orientation or free movement in a 3D space, e.g. 3D mice, 6-DOF [six degrees of freedom] pointers using gyroscopes, accelerometers or tilt-sensors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/038Control and interface arrangements therefor, e.g. drivers or device-embedded control circuitry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/038Control and interface arrangements therefor, e.g. drivers or device-embedded control circuitry
    • G06F3/0383Signal control means within the pointing device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/041Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
    • G06F3/0416Control or interface arrangements specially adapted for digitisers
    • G06F3/0418Control or interface arrangements specially adapted for digitisers for error correction or compensation, e.g. based on parallax, calibration or alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/041Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
    • G06F3/042Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means by opto-electronic means
    • G06F3/0425Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means by opto-electronic means using a single imaging device like a video camera for tracking the absolute position of a single or a plurality of objects with respect to an imaged reference surface, e.g. video camera imaging a display or a projection screen, a table or a wall surface, on which a computer generated image is displayed or projected
    • G06F3/0426Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means by opto-electronic means using a single imaging device like a video camera for tracking the absolute position of a single or a plurality of objects with respect to an imaged reference surface, e.g. video camera imaging a display or a projection screen, a table or a wall surface, on which a computer generated image is displayed or projected tracking fingers with respect to a virtual keyboard projected or printed on the surface
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/162Interface to dedicated audio devices, e.g. audio drivers, interface to CODECs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Position Input By Displaying (AREA)

Abstract

【課題】三次元空間において指されている位置に対応する画像内の指示位置を簡単に補正する。
【解決手段】情報処理装置は、三次元空間において指示オブジェクトにより指されている位置である空間指示位置を検出する指示位置検出部と、ユーザが発する音声であるユーザ音声に基づいて、前記空間指示位置に対応する画像内の指示位置である画像指示位置を補正する指示位置補正部とを備える。本技術は、例えば、VR(Virtual Reality)を用いたHMD(Head Mount Display)に適用できる。
【選択図】図1

Description

本技術は、情報処理装置、情報処理方法、及び、プログラムに関し、特に、三次元空間において指されている位置に対応する画像内の指示位置を補正する場合に用いて好適な情報処理装置、情報処理方法、及び、プログラムに関する。
従来、ユーザの指等により指されていると認識した対象の名称等を音声で通知し、ユーザに確認する技術が提案されている(例えば、特許文献1参照)。
また、従来、手書きされた図形又は文字を認識することにより得られる図形又は文字の候補と、ユーザが発した音声を認識することにより得られる図形又は文字の候補とを比較することにより、図形又は文字を選択する技術が提案されている(例えば、特許文献2参照)。
特開2013−88906号公報 特開2007−48177号公報
しかしながら、特許文献1及び2では、三次元空間において指されている位置に対応する画像内の指示位置を補正することは検討されていない。
そこで、本技術は、三次元空間において指されている位置に対応する画像内の指示位置を簡単に補正することができるようにようするものである。
本技術の一側面の情報処理装置は、三次元空間において指示オブジェクトにより指されている位置である空間指示位置を検出する指示位置検出部と、ユーザが発する音声であるユーザ音声に基づいて、前記空間指示位置に対応する画像内の指示位置である画像指示位置を補正する指示位置補正部とを備える。
前記指示位置補正部には、前記ユーザ音声に基づく前記画像内の位置に前記画像指示位置を補正させることができる。
前記指示位置補正部には、バーチャルリアリティにより前記ユーザが視認する前記画像内の前記画像指示位置を補正させることができる。
前記指示位置補正部には、前記ユーザが前記ユーザ音声を発しているときの前記空間指示位置に対応する前記画像指示位置を補正させることができる。
前記指示位置検出部には、三次元空間において前記指示オブジェクトにより指されている第1の対象に対応する前記画像内の対象である指示対象を検出させ、前記指示位置補正部には、前記指示対象が前記ユーザ音声に基づく第2の対象と一致する場合、前記指示対象を補正せず、前記指示対象が前記第2の対象と一致しない場合、前記第2の対象に対応する前記画像内の対象を前記指示対象に補正する補正処理を行わせることができる。
前記指示対象を確認するための音声である確認音声の出力を制御する出力制御部をさらに設け、前記指示位置補正部には、前記確認音声に対する前記ユーザ音声に基づいて、前記補正処理を行わせることができる。
前記確認音声を、前記指示対象を識別するための情報の入力を促す音声とすることができる。
前記出力制御部には、前記補正処理後に前記指示対象が変化した場合、前記指示対象に関する情報を所定の言語で通知する音声情報の出力を制御させることができる。
前記音声情報には、前記指示対象の視認可能なコンテンツを示すコンテンツ情報を含めることができる。
前記コンテンツ情報には、前記指示対象の名称、前記指示対象の種類、及び、前記指示対象が視覚的に表しているもののうち少なくとも1つを示させることができる。
前記出力制御部には、前記補正処理後に前記指示対象が変化した場合、前記指示対象の変化を通知する通知音を出力するように制御させることができる。
前記出力制御部には、前記指示対象が移動した方向により異なる前記通知音を出力するように制御させることができる。
前記指示対象に関する情報を前記所定の言語に翻訳する翻訳部をさらに設けることができる。
前記画像内の物体の検出を行う物体検出部をさらに設けることができる。
前記指示オブジェクトを、ユーザの体の一部とすることができる。
前記ユーザ音声を認識する音声認識部をさらに設けることができる。
本技術の一側面の情報処理方法は、三次元空間において指示オブジェクトにより指されている位置である空間指示位置を検出する指示位置検出ステップと、ユーザが発する音声であるユーザ音声に基づいて、前記空間指示位置に対応する画像内の指示位置である画像指示位置を補正する指示位置補正ステップとを含む。
本技術の一側面のプログラムは、三次元空間において指示オブジェクトにより指されている位置である空間指示位置を検出する指示位置検出ステップと、ユーザが発する音声であるユーザ音声に基づいて、前記空間指示位置に対応する画像内の指示位置である画像指示位置を補正する指示位置補正ステップとを含む処理をコンピュータに実行させる。
本技術の一側面においては、三次元空間において指示オブジェクトにより指されている位置である空間指示位置が検出され、ユーザが発する音声であるユーザ音声に基づいて、前記空間指示位置に対応する画像内の指示位置である画像指示位置が補正される。
本技術の一側面によれば、三次元空間において指されている位置に対応する画像内の指示位置を簡単に補正することができる。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
本技術を適用した情報処理システムの一実施の形態を示すブロック図である。 情報処理システムにより実行される情報処理を説明するためのフローチャートである。 指差しモード処理の詳細を説明するためのフローチャートである。 指示方向情報取得処理の詳細を説明するためのフローチャートである。 指示方向画像の撮影範囲の例を示す図である。 指示方向平面画像の生成方法を説明するための図である。 指示方向平面画像の例を示す図である。 指示方向情報リストの例を示す図である。 発話時指示方向情報取得処理の詳細を説明するためのフローチャートである。 発話時指示方向平面縮小画像の生成方法を説明するための図である。 発話時指示方向平面縮小画像の生成方法を説明するための図である。 発話時指示方向情報リストの例を示す図である。 発話時指示方向平面縮小画像の例を示す図である。 音声案内処理の詳細を説明するためのフローチャートである。 コンピュータの構成例を示すブロック図である。
以下、発明を実施するための形態(以下、「実施形態」と記述する)について図面を用いて詳細に説明する。なお、説明は以下の順序で行う。
1.実施の形態
2.変形例
<1.実施の形態>
{情報処理システム10の構成例}
まず、図1を参照して、本技術を適用した情報処理システム10の構成例について説明する。
情報処理システム10は、例えばユーザにより装着又は携帯され、三次元空間においてユーザが指で指していると認識している対象を認識し、その対象に関するコンテンツ情報を所定の言語の音声で通知するシステムである。ここで、情報処理システム10が認識する対象は、ユーザが指していると認識している対象であり、実際に指で指されている対象とは異なる場合がある。
なお、以下、ユーザが指していると認識している対象、及び、ユーザが実際に指している対象を指示対象と称する。また、以下、ユーザが指していると認識している対象とユーザが実際に指している対象とを区別する場合、前者をユーザ認識指示対象と称し、後者を現実指示対象と称する。
また、コンテンツ情報とは、物体の視認可能なコンテンツを示す情報のことである。例えば、コンテンツ情報は、物体の名称、物体の種類、及び、物体が視覚的に表しているもの(以下、視覚コンテンツと称する)のうち少なくとも1つを示す。ここで、視覚コンテンツとは、例えば、物体に表示されている画像(動画、静止画、絵等)、文字、及び、マーク、並びに、物体の形状や動きにより表される文字、マーク、及び、メッセージ等である。また、物体が人である場合、視認可能なコンテンツには、例えば、ボディランゲージや交通整理の手信号等のジェスチャ、表情等が含まれる。
情報処理システム10は、音声入力部11、情報取得部12、情報処理部13、及び、出力部14を備える。
音声入力部11は、例えば、マイクロフォンにより構成される。音声入力部11は、例えば、ユーザの口の近くに配置され、ユーザが発した音声(以下、ユーザ音声と称する)を検出し、ユーザ音声を示す音声信号を情報処理部13に供給する。
情報取得部12は、例えば、指輪型の形状を有し、ユーザが指差すときに用いる指(例えば、人差し指)に装着される。情報取得部12は、撮影部21及びセンサ部22を備える。
撮影部21は、ユーザが指により指している方向(以下、指示方向と称する)を撮影し、その結果得られる画像(以下、指示方向画像と称する)を情報処理部13に供給する。
センサ部22は、例えば、ユーザの指によるジェスチャ、指の位置、指示方向等を検出するためのセンサ(例えば、加速度センサ、ジャイロセンサ等)を備える。また、センサ部22は、例えば、指示方向にある物体までの距離を測定するセンサ(例えば、距離センサ等)を備える。そして、センサ部22は、各センサの検出結果を示すセンサ信号を情報処理部13に供給する。
情報処理部13は、例えば、スマートフォン、タブレット、ウエアラブルデバイス等の携帯型の情報端末により構成される。情報処理部13は、指示位置検出部31、指示位置補正部32、物体検出部33、距離算出部34、画像処理部35、翻訳部36、情報生成部37、音声認識部38、出力制御部39、及び、通信部40を備える。
指示位置検出部31は、センサ部22からのセンサ情報に基づいて、ユーザにより指されている位置及び対象の検出を行う。
指示位置補正部32は、ユーザ音声に基づいて、ユーザにより指されている位置及び対象の検出結果の補正を行う。
物体検出部33は、指示方向画像内の物体の検出を行う。
距離算出部34は、例えば、物体検出部33により検出された各物体間の距離を算出する。また、距離算出部34は、例えば、センサ部22からのセンサ情報及び指示方向画像に基づいて、ユーザの目と物体との間の距離、ユーザの目と指との間の距離を算出する。
画像処理部35は、指示方向画像の指示方向平面画像への変換、及び、指示方向平面画像の発話時指示方向平面縮小画像への変換等の画像処理を行う。なお、指示方向平面画像及び発話時指示方向平面縮小画像の詳細は後述する。
翻訳部36は、2以上の言語間の翻訳を行う。
情報生成部37は、ユーザが指している方向に存在する物体に関する情報を示す指示方向情報リスト及び発話時指示方向情報リスト等を生成する。なお、指示方向情報リスト及び発話時指示方向情報リストの詳細は後述する。また、情報生成部37は、ユーザに音声により通知する情報を生成する。
音声認識部38は、ユーザ音声の認識を行う。
出力制御部39は、出力部14による音声の出力を制御する。
通信部40は、音声入力部11、情報取得部12、及び、出力部14との間の通信を行う。なお、通信部40の通信方式は、所定の方式に限定されるものではなく、有線又は無線の各種の通信方式の中から任意の方式を採用することができる。また、音声入力部11、情報取得部12、及び、出力部14との間の通信方式を、それぞれ異なる方式に設定することが可能である。
出力部14は、音声の出力が可能な装置により構成される。例えば、出力部14は、スピーカ、ヘッドフォン、イヤフォン、音源等により構成される。
なお、例えば、音声入力部11、情報処理部13、及び、出力部14を一体化するようにしてもよい。一体化した装置は、例えば、ネックバンド型のウエアラブルデバイスにより構成される。
{情報処理システム10の処理}
次に、図2乃至図14を参照して、情報処理システム10の処理について説明する。
まず、図2のフローチャートを参照して、情報処理システム10により実行される情報処理について説明する。なお、この処理は、例えば、情報処理部13の図示せぬ電源がオンされたとき開始され、電源がオフされたとき終了する。
ステップS1において、指示位置検出部31は、ユーザが指差しているか否かを判定する。具体的には、指示位置検出部31は、センサ部22からのセンサ信号に基づいて、ユーザの指によるジェスチャの検出を行う。なお、ジェスチャの検出方法には、任意の方法を採用することができる。そして、指示位置検出部31は、検出したジェスチャに基づいて、ユーザが指差しているか否かを判定する。ステップS1の判定処理は、ユーザが指差していると判定されるまで、例えば、所定の間隔で繰り返し実行される。そして、ユーザが指差していると判定された場合、処理はステップS2に進む。
ステップS2において、情報処理システム10は、指差しモード処理を実行する。ここで、図3のフローチャートを参照して、指差しモード処理の詳細について説明する。
ステップS51において、情報処理部13は、指示方向情報取得処理を実行する。ここで、図4のフローチャートを参照して、指示方向情報取得処理の詳細について説明する。
ステップS101において、物体検出部33は、指示方向画像内の物体を検出する。具体的には、物体検出部33は、撮影部21から指示方向画像を取得し、画像認識を行うことにより、指示方向画像内の物体、すなわち、ユーザが指により指した方向の所定の範囲内に存在する物体を検出する。また、物体検出部33は、検出した物体の指示方向画像内の位置及びサイズ、物体の種類、物体の視覚コンテンツ、物体の視覚的な特徴(例えば、色、形等)等を検出する。さらに、物体検出部33は、視覚コンテンツが表す情報の認識を行う。例えば、物体検出部33は、視覚コンテンツに含まれる画像、文字列、マーク、メッセージ等の具体的な内容を認識する。
なお、物体検出部33の物体の検出方法には、任意の方法を採用することができる。
また、以下、図5に模式的に示される繁華街の風景のうち範囲D1内の画像が指示方向画像として得られた場合について説明する。なお、この図では、ビルの看板等の図示が省略されている。
ステップS102において、指示位置検出部31は、ユーザが指している対象(指示対象)を検出する。例えば、指示位置検出部31は、指示方向画像の中央に物体検出部33により検出された物体が存在する場合、その物体を指示対象として検出する。一方、指示位置検出部31は、指示方向画像の中央に物体検出部33により検出された物体が存在しない場合、指示方向画像の中心に最も近い物体を指示対象として検出する。
なお、以下、指示位置検出部31により検出された指示対象をシステム認識指示対象と称する。システム認識指示対象は、基本的にユーザが実際に指している対象(現実指示対象)とほぼ一致するが、ユーザが指していると認識している対象(ユーザ認識指示対象)とは一致しない場合がある。
ステップS103において、距離算出部34は、指示方向画像内の物体までの最短距離を算出する。具体的には、距離算出部34は、センサ情報及び指示方向画像に基づいて、指示方向画像内の物体のうちユーザの目から最も近い部分(以下、最短位置と称する)とユーザの目との間の距離(以下、最短物体距離と称する)を算出する。
ここで、図6を参照して、最短物体距離の算出方法の具体例について説明する。図6は、指示方向画像内に写っているビル101及び看板102を上方から見た模式図である。位置P1は、ユーザの目の位置を示している。
距離算出部34は、ビル101及び看板102のうち位置P1から最も近い部分を検出する。これにより、例えば、看板102の左前方の隅の位置P2が位置P1から最も近い部分(最短位置)として検出される。そして、距離算出部34は、位置P1と位置P2の間の距離d1を最短物体距離として算出する。
なお、最短物体距離の算出方法には、任意の方法を採用することができる。
ステップS104において、画像処理部35は、指示方向平面画像を生成する。例えば、画像処理部35は、指示方向に対して垂直な平面であって最短位置を通る平面上に指示方向画像を投影した画像を、指示方向平面画像として生成する。
例えば、上述した図6の例では、最短位置P2を通る平面F1上に指示方向画像を投影した画像が、指示方向平面画像として得られる。
図7は、指示方向平面画像の具体例を模式的に示している。図7の指示方向平面画像121には、看板131、窓132、及び、看板133乃至看板137が写っている。なお、指示方向平面画像121はモノクロで示されているが、実際には各物体には色が付いている。各物体の主要な部分の色については後述する。
看板131、窓132、看板133は、左から右に水平方向に並んでいる。看板134乃至看板136は、看板131、窓132、看板133の下に、左から右に水平方向に並んでいる。看板134は、看板131と窓132の下にある。看板135は、看板133の下にある。看板136は、看板133の下にあり、看板133より右にはみ出している。看板137は、看板135の下にある。
看板131は、長方形であり、胴体が黄色の犬の画像(絵)が表示されている。
窓132は、ほぼ正方形であり、枠の色はグレーである。
看板133は、長方形であり、オレンジの背景の上に、黒の韓国語の文字列が表示されている。韓国語の文字列は、”家庭料理の味”を意味する。
看板134は、長方形であり、グレーの背景の上に、黒の韓国語の文字列が表示されている。韓国語の文字列は、”当ビル5F”を意味する。
看板135は、長方形であり、白の背景の上に、青の数字”7080”が表示されている。
看板136は、長方形であり、白の背景の上に、黒の韓国語の文字列が表示されている。韓国語の文字列は、”レストラン”を意味する。
看板137は、長方形であり、薄青色の背景の上に、黒の韓国語の文字列が表示されている。韓国語の文字列は、”スポーツ用品”を意味する。
また、画像処理部35は、物体検出部33により検出された指示方向画像内の各物体の位置及びサイズを指示方向平面画像内における位置及びサイズに変換する。
なお、以下、図7の指示方向平面画像121が得られた場合について、各処理の具体例を説明する。
ステップS105において、指示位置検出部31は、指示方向平面画像においてユーザにより指されている位置(指示位置)を検出する。例えば、指示位置検出部31は、指示方向平面画像におけるシステム認識指示対象の中心を検出し、検出した位置を指示方向平面画像における指示位置に設定する。
ステップS106において、情報生成部37は、指示方向情報リストを生成する。指示方向情報リストは、指示方向画像において検出された各物体に関する情報をリストにしたものであり、指示方向画像を変換した指示方向平面画像に基づいて生成される。
図8は、図7の指示方向平面画像121に基づいて生成される指示方向情報リストの例を示している。
指示方向情報リストは、ID、位置、サイズ、物体の種類、コンテンツの種類、詳細情報、隣接する物体の項目を含んでいる。詳細情報は、コンテンツ情報、翻訳情報、色の項目を含んでいる。隣接する物体は、上、下、左、右の項目を含んでいる。
IDは、各物体を一意に識別するために各物体に付与される。この例では、看板131、窓132、看板133乃至137に、ID1乃至ID7がそれぞれ付与されている。
位置は、各物体の指示方向平面画像内の位置を示す。例えば、指示方向平面画像内における各物体の中心の座標が設定される。
サイズは、各物体の指示方向平面画像内のサイズを示す。例えば、指示方向平面画像内における各物体の垂直方向の長さの最大値、及び、水平方向の長さの最大値が設定される。
物体の種類は、物体検出部33により検出された物体の種類を示す。例えば、看板131及び看板133乃至137の物体の種類は”看板”となり、窓132の物体の種類は”窓”となる。
コンテンツの種類は、基本的に、物体検出部33により検出された各物体の視覚コンテンツの種類を示す。ただし、視覚コンテンツを有していない物体については、視覚コンテンツの種類は”物体”に設定される。例えば、看板131のコンテンツの種類は”画像”となる。また、例えば、看板133、134及び137のコンテンツの種類は”文”となり、看板135及び136のコンテンツの種類は”単語”となる。なお、視覚コンテンツが文字列である場合、文字列に含まれる単語が1つのみのとき、コンテンツの種類は”単語”に設定され、文字列に含まれる単語が2つ以上のとき、コンテンツの種類は”文”に設定される。窓132は、視覚コンテンツを有していないため、コンテンツの種類は”物体”に設定される。
コンテンツ情報には、コンテンツの種類が”物体”である物体の場合、すなわち、視覚コンテンツを有していない物体の場合、物体の種類が設定される。一方、コンテンツの種類が”物体”以外の物体の場合、すなわち、視覚コンテンツを有している物体の場合、視覚コンテンツの内容が設定される。
例えば、看板131は、視覚コンテンツとして画像を有しているので、画像の内容である”犬”がコンテンツ情報に設定される。窓132は、視覚コンテンツを有していないので、物体の種類である”窓”がコンテンツ情報に設定される。看板133乃至看板137は、視覚コンテンツとして文又は単語を有しているので、その文又は単語が原語(この例の場合、韓国語)のままコンテンツ情報に設定される。すなわち、本明細書において、看板133乃至看板137のコンテンツ情報は、それぞれ”看板133の原語情報”、”看板134の原語情報”、”看板135の原語情報”、”看板136の原語情報”、”看板137の原語情報”として定義されると見做されてよい。
翻訳情報には、翻訳部36がコンテンツ情報をユーザに通知する言語(以下、ユーザ言語と称する)に翻訳した情報が設定される。ここで、ユーザ言語は、ユーザ音声の言語と同一であると見做されてよい。
色には、各物体に含まれる色のうち特徴的な色が設定される。
隣接する物体には、指示方向平面画像において各物体の上、下、左、右に隣接する物体のIDが設定される。例えば、ID5の看板135の上下左右には、それぞれ、看板133、看板137、看板134、看板136が隣接しているので、隣接する物体の上、下、左、右には、それぞれID3、ID7、ID4、ID6が設定されている。
その後、指示方向情報取得処理は終了する。
図3に戻り、ステップS52において、指示位置検出部31は、指差しモードの解除が指示されたか否かを判定する。具体的には、指示位置検出部31は、図2のステップS1の処理と同様に、センサ部22からのセンサ信号に基づいて、ユーザの指によるジェスチャの検出を行い、指差しモードの解除を指示するジェスチャが行われているか否かを検出する。指差しモードの解除を指示するジェスチャは、例えば、指差しのジェスチャを止めるだけでもよいし、或いは、所定の指の形を作るようにしてもよい。そして、指示位置検出部31は、指差しモードの解除を指示するジェスチャが行われていない場合、指差しモードの解除が指示されていないと判定し、処理はステップS53に進む。
ステップS53において、指示位置検出部31は、ユーザが指している位置が静止しているか否かを判定する。例えば、指示位置検出部31は、センサ部22からのセンサ情報に基づいて、ユーザの指の移動範囲が所定の範囲内である状態の継続時間を測定する。指示位置検出部31は、ユーザの指の移動範囲が所定の範囲内である状態の継続時間が所定の時間未満である場合、ユーザが指している位置が静止していないと判定し、処理はステップS51に戻る。
その後、ステップS52において、指差しモードの解除が指示されたと判定されるか、ステップS53において、ユーザが指している位置が静止していると判定されるまで、ステップS51乃至S53の処理が繰り返し実行される。そして、処理が繰り返される毎に、システム認識指示対象、指示方向平面画像、指示方向平面画像内の指示位置、及び、指示方向情報リストが更新される。
一方、ステップS53において、指示位置検出部31は、ユーザの指の移動範囲が所定の範囲内である状態の継続時間が所定の時間以上である場合、ユーザが指している位置が静止していると判定し、処理はステップS54に進む。
ステップS54において、情報処理システム10は、ユーザが指している対象を確認するための音声(以下、確認音声と称する)を出力する。具体的には、まず、情報生成部37は、ユーザが指している対象を確認するための質問文を作成する。
ここで、情報生成部37は、例えば、システム認識指示対象のコンテンツの種類に基づいて、質問文を作成する。例えば、コンテンツの種類が画像である場合、「何の画像を指していますか?」という質問文が作成される。コンテンツの種類が文である場合、「何の文を指していますか?」という質問文が作成される。コンテンツの種類が単語である場合、「何の単語を指していますか?」という質問文が作成される。コンテンツの種類が物体である場合、「何の物体を指していますか?」という質問文が作成される。
なお、以上の質問文は、その一例であり、必要に応じて変更することが可能である。例えば、コンテンツの種類ではなく、物体の種類に基づいて質問文を作成するようにしてもよい。また、例えば、物体の種類とコンテンツの種類の両方に基づいて質問文を作成するようにしてもよい。さらに、例えば、物体の種類及びコンテンツの種類に関わらず、「何を指していますか?」等の同じ質問文を作成するようにしてもよい。
ただし、質問文は、ユーザ認識指示対象を他の物体と識別できる程度の情報をユーザから確実に得られるように、ユーザ認識指示対象を識別するための情報の入力を促す文章であることが望ましい。例えば、「何を指していますか?」と質問した場合、ユーザが「看板」と答えると、情報処理システム10は、ユーザがどの看板を指しているのか認識することができない。これに対して、例えば、「何の単語を指していますか?」と質問した場合、ユーザは看板に表示されている単語を答えると想定され、情報処理システム10は、ユーザの回答に基づいて、ユーザ認識指示対象を容易に識別できるようになる。
そして、出力部14は、出力制御部39の下に、質問文を示す確認音声を出力する。
ステップS55において、音声認識部38は、音声認識を開始する。
ステップS56において、音声認識部38は、音声入力部11からの音声信号に基づいて、所定の時間内に音声入力が開始されたか否かを判定する。所定の時間内に音声入力が開始されたと判定された場合、処理はステップS57に進む。
ステップS57において、情報処理システム10は、発話時指示方向情報取得処理を実行する。ここで、図9のフローチャートを参照して、発話時指示方向情報取得処理の詳細について説明する。
ステップS151において、指示位置検出部31は、発話時のユーザの指の位置と向きを検出する。具体的には、指示位置検出部31は、図2のステップS1の処理と同様に、センサ部22からのセンサ信号に基づいて、ユーザの指によるジェスチャの検出を行い、ユーザの指先の位置と向きを検出する。また、指示位置検出部31は、検出したユーザの指先の位置と向きを基準指位置及び基準指方向に設定する。なお、この基準指位置及び基準指方向により、発話時に三次元空間においてユーザが指している位置を求めることができる。
なお、基準指位置及び基準指方向を検出するタイミングは、例えば、発話の開始時、発話開始から所定の時間経過後、発話の終了時等、ユーザが発話している間の所定のタイミングに設定される。或いは、例えば、発話中のユーザの指先の位置及び向きを記憶しておき、発話中にユーザの指の動きが最も小さいと判定されたタイミングにおいて、基準指位置及び基準指方向を検出するようにしてもよい。
ステップS152において、音声認識部38は、音声入力が終了したか否かを判定する。まだ音声入力が継続していると判定された場合、処理はステップS153に進む。
ステップS153において、音声認識部38は、音声入力が開始されてから所定の時間が経過したか否かを判定する。音声入力が開始されてからまだ所定の時間が経過していないと判定された場合、処理はステップS152に戻る。
その後、ステップS152において、音声入力が終了したと判定されるか、ステップS153において、音声入力が開始されてから所定の時間が経過したと判定されるまで、ステップS152及びステップS153の処理が繰り返し実行される。
一方、ステップS152において、音声認識部38は、無音期間が所定の時間継続した場合、音声入力が終了したと判定し、処理はステップS154に進む。
また、ステップS153において、音声入力が開始されてから所定の時間が経過したと判定された場合、処理はステップS154に進む。これは、音声入力が所定の時間以上継続して実行された場合である。
ステップS154において、音声認識部38は、音声認識を停止する。
ステップS155において、音声認識部38は、音声認識に成功したか否かを判定する。音声認識部38は、音声入力部11からの音声信号に基づいてユーザ音声の内容を認識できた場合、音声認識に成功したと判定し、処理はステップS156に進む。
ステップS156において、指示位置補正部32は、ユーザが指していると認識している対象(ユーザ認識指示対象)を検索する。例えば、指示位置補正部32は、最新の指示方向情報リストの各物体の翻訳情報に含まれるテキスト情報の中から、ユーザ音声から取得されるテキスト情報と類似するテキスト情報を検索する。すなわち、指示位置補正部32は、最新の指示方向情報リストの中から、ユーザ音声の内容と類似する翻訳情報データ(コンテンツ情報をユーザ言語に翻訳したデータ)を有する物体の検索を行う。
そして、指示位置補正部32は、ユーザ音声の内容と類似する翻訳情報データを有する物体が1つのみである場合、その物体をユーザ認識指示対象として検出する。例えば、ユーザが”7080”と発話した場合、翻訳情報データが”7080”の物体は看板135のみであるので、看板135がユーザ認識指示対象として検出される。
一方、指示位置補正部32は、ユーザ音声の内容と類似する翻訳情報データを有する物体を検出できなかった場合、又は、ユーザ音声の内容と類似する翻訳情報データを有する物体を2つ以上検出した場合、ユーザ認識指示対象の検出に失敗したと判定する。
ステップS157において、指示位置補正部32は、ユーザが指していると認識している対象(ユーザ認識指示対象)を検出できたか否かを判定する。ユーザが指していると認識している対象を検出できたと判定された場合、処理はステップS158に進む。
ステップS158において、指示位置補正部32は、指示方向平面画像内の指示位置を補正する。
具体的には、指示位置補正部32は、ユーザ認識指示対象と最新のシステム認識指示対象が一致する場合、システム認識指示対象を補正しない。一方、指示位置補正部32は、ユーザ認識指示対象と最新のシステム認識指示対象が一致しない場合、システム認識指示対象をユーザ認識指示対象に補正する。そして、指示位置補正部32は、この時点のシステム認識指示対象を基準指示対象に設定する。
これにより、ユーザに指し直しをさせなることなく、ユーザが指していると認識している対象(ユーザ認識指示対象)と、情報処理システム10がユーザにより指されていると認識している対象(システム認識指示対象)とを一致させることができる。
また、ユーザは、指示方向にある物体の中から任意の物体を基準指示対象に設定できるので、例えば、物体の種類若しくは名称等が分かる物体、又は、視覚コンテンツの内容を理解できる物体を基準指示対象に設定することができる。例えば、図7の例において、ユーザが韓国語を理解できない場合、ユーザは、韓国語が表示されていない看板131、窓132、及び、看板135の中から基準指示対象を設定することができる。
また、指示位置補正部32は、指示方向平面画像における基準指示対象の中心を検出し、検出した位置を現在の指示位置に補正するとともに、基準指示位置に設定する。この基準指示位置は、ステップS151で設定された基準指位置及び基準指方向により求められる、確認音声に対する発話時の三次元空間における指示位置(以下、空間指示位置とも称する)に対応する指示方向平面画像内の指示位置(以下、画像指示位置とも称する)となる。
このように、空間指示位置に対応する画像指示位置を簡単にユーザが望むように補正することができる。
ステップS159において、距離算出部34は、ユーザの目から指までの距離を算出する。具体的には、距離算出部34は、ユーザの目とステップS151の処理で検出した発話時のユーザの指先との間の距離を算出する。例えば、距離算出部34は、図10に示されるように、ユーザの目の位置P1と指先の位置P3との間の距離d2(以下、目−指間距離d2と称する)を算出する。
なお、距離の算出方法には、任意の方法を採用することができる。
ステップS160において、画像処理部35は、縮小率を算出する。例えば、図10の例の場合、縮小率rは、最小物体距離d1及び目−指間距離d2に基づいて、次式(1)により算出される。
r=d2/d1 ・・・(1)
ステップS161において、画像処理部35は、発話時指示方向平面縮小画像を生成する。具体的には、画像処理部35は、最新の指示方向平面画像をステップS160の処理で算出した縮小率により縮小し、ユーザの指先を通り指示方向平面画像に平行な平面上に投影することにより、発話時指示方向平面縮小画像を生成する。
例えば、図11に示されるように、指示方向平面画像121を縮小し、ユーザの指先の位置P3を通り指示方向平面画像121に平行な平面上に投影することにより、発話時指示方向平面縮小画像151が生成される。
また、画像処理部35は、指示方向平面画像内の各物体の位置及びサイズを指示方向平面縮小画像における位置及びサイズに変換する。さらに、画像処理部35は、指示方向平面画像内の指示位置を指示方向平面縮小画像内における指示位置に変換する。
ステップS162において、情報処理システム10は、発話時指示方向情報リストを生成する。具体的には、距離算出部34は、指示方向平面縮小画像において隣接する物体間の距離を算出する。情報生成部37は、最新の指示方向情報リストの各物体の位置及びサイズを、指示方向平面縮小画像における位置及びサイズに置換する。また、情報生成部37は、距離算出部34により算出された各物体間の距離を最新の指示方向情報リストに追加する。これにより、発話時指示方向情報リストが生成される。
図12は、図8の指示方向情報リストに基づいて生成される発話時指示方向情報リストの例を示している。なお、図12において、物体の種類、コンテンツの種類、及び、詳細情報の項目の図示は省略している。
この発話時指示方向情報リストを図8の指示方向情報リストと比較すると、位置及びサイズのデータが異なり、隣接する物体までの距離の項目が追加されている点が異なる。
具体的には、発話時指示方向情報リストにおいては、各物体の位置及びサイズが、発話時指示方向平面縮小画像における位置及びサイズに設定される。
隣接する物体までの距離には、発話時指示方向平面縮小画像において各物体の上、下、左、右に隣接する物体までの距離が設定される。例えば、ID1の看板131の下には看板134が隣接しているため、ID1の隣接する物体までの距離の”下”の欄のd1_dには、看板131と看板134との間の距離が設定される。また、例えば、ID1の看板131の右には窓132が隣接しているため、ID1の隣接する物体までの距離の”右”の欄のd1_rには、看板131と窓132との間の距離が設定される。
なお、例えば、物体Aの上又は下に隣接する物体Bまでの距離として、物体Aの中心と物体Bの中心間の上下方向(垂直方向)の距離が設定される。また、例えば、物体Aの左又は右に隣接する物体Cまでの距離として、物体Aの中心と物体Cの中心間の左右方向(水平方向)の距離が算出される。
この隣接する物体までの距離のデータにより、例えば、ユーザの指をどの方向にどれだけ動かせば、隣接する物体を指すことができるか把握することができる。
例えば、図13に示されるように、発話時指示方向平面縮小画像151において、看板135の中心である位置P3が指示位置に設定されている場合について説明する。例えば、ユーザの指を上方向に距離d5_uだけ移動させれば、看板135の上に隣接する看板133の垂直方向の略中心を指すことができることが分かる。ユーザの指を下方向に距離d5_dだけ移動させれば、看板135の下に隣接する看板137の垂直方向の略中心を指すことができることが分かる。ユーザの指を左方向に距離d5_lだけ移動させれば、看板135の左に隣接する看板134の水平方向の略中心を指すことができることが分かる。ユーザの指を右方向に距離d5_rだけ移動させれば、看板135の右に隣接する看板136の水平方向の略中心を指すことができることが分かる。
ステップS162の処理の後、発話時指示方向情報取得処理は終了する。
一方、ステップS157において、ユーザが指していると認識している対象を検出できなかったと判定された場合、処理はステップS163に進む。
また、ステップS155において、音声認識に失敗したと判定された場合、処理はステップS163に進む。
ステップS163において、情報処理システム10は、ユーザが指している対象の確認に失敗したことを通知する。例えば、出力部14は、出力制御部39の制御の下に、ユーザが指している対象の確認に失敗したことを通知する音声を出力する。
その後、発話時指示方向情報取得処理は終了する。
図3に戻り、ステップS58において、指示位置補正部32は、ユーザが指している対象を確認できたか否かを判定する。ユーザが指している対象を確認できたと判定された場合、処理はステップS59に進む。
ステップS59において、情報処理システム10は、音声案内処理を実行する。ここで、図14のフローチャートを参照して、音声案内処理の詳細について説明する。
ステップS201において、指示位置検出部31は、ユーザの指が動いたか否かを判定する。具体的には、指示位置検出部31は、センサ部22からのセンサ信号に基づいて、ユーザの指の動きを検出する。そして、指示位置検出部31が、ユーザの指が動いたと判定した場合、処理はステップS202に進む。
ステップS202において、指示位置検出部31は、ユーザが指している対象(指示対象)が変化したか否かを判定する。具体的には、指示位置検出部31は、センサ部22からのセンサ信号に基づいて、基準指位置及び基準指方向を基準とする現在のユーザの指の位置及び向きを検出する。また、指示位置検出部31は、検出した現在のユーザの位置及び向きに基づいて、発話時指示方向平面画像における現在の指示位置の基準指示位置からの移動量及び移動方向を算出する。そして、指示位置検出部31は、算出した指示位置の移動量及び移動方向、並びに、発話時指示方向情報リストに基づいて、現在ユーザが指している対象(指示対象)を検出する。そして、指示位置検出部31は、今回検出した指示対象が前回検出した指示対象と異なる場合、ユーザが指している対象が変化したと判定し、処理はステップS203に進む。
ステップS203において、出力制御部39は、ユーザが指している対象(指示対象)に関する情報を取得する。例えば、出力制御部39は、発話時指示方向情報リストから現在の指示対象の翻訳情報データを取得する。
ステップS204において、出力制御部39は、前回の音声案内から所定の時間が経過しているか否かを判定する。前回の音声案内から所定の時間が経過していると判定された場合、処理はステップS205に進む。なお、指差しモード処理が開始されてから初めて音声案内を行う場合も、前回の音声案内から所定の時間が経過していると判定され、処理はステップS205に進む。
ステップS205において、情報処理システム10は、ユーザが指している対象(指示対象)に関する情報を音声で案内する。
例えば、まず、出力部14は、出力制御部39の制御の下に、指示対象が変化したことを通知するための音である通知音を出力する。なお、例えば、指示対象が移動した方向(例えば、上、下、左、右)により異なる通知音を出力するようにしてもよい。また、例えば、現在の指示対象が基準指示対象から何個離れた物体であるかにより、異なる通知音を出力するようにしてもよい。例えば、現在の指示対象が、基準指示対象に隣接する物体と基準指示対象から2個離れた物体とで、異なる通知音を出力するようにしてもよい。
なお、通知音を変化させる方法には、任意の方法を採用することができる。例えば、出力制御部39は、音階、音質、音量等の少なくとも1つを変化させることにより、通知音を変化させる。
また、例えば、通知音の代わりに、装置の振動等により指示対象が変化したことを通知するようにしてもよい。さらに、例えば、指示対象が移動した方向を、「上」「左」等の具体的な音声により通知するようにしてもよい。
これにより、ユーザは、基準指示対象を基準にして、現在情報処理システム10が認識している指示対象を正確に認識することができる。従って、ユーザと情報処理システム10との間の指示対象の認識のズレが防止される。
次に、出力部14は、出力制御部39の制御の下に、例えば、現在の指示対象の翻訳情報データを通知する音声情報を出力する。例えば、現在の指示対象が図7の看板137である場合、看板137の翻訳情報データである”スポーツ用品”の音声が音声情報として出力される。
これにより、ユーザは、現在の指示対象に理解できない韓国語で情報が表示されていても、その情報を自分が理解できる言語、すなわちユーザ言語で得ることができる。
また、例えば、遠くにある物体、小さな物体、周囲に物体が密集している中の物体等を、離れた位置から直接触れずに指等により正確に指すことは、ユーザにとって難しい。従って、例えば、図7の例において、ユーザが所望の看板と異なる看板を指差すことにより、異なる看板の音声情報が出力される場合が想定されるが、ユーザが韓国語を知らなければ、そのことに気づくことは難しい。また、例えば、ユーザは、自分が指差している位置に確信が持てない場合、出力される音声情報が、本当に自分が得たい情報であるのかを確信することができない。
一方、情報処理システム10を用いれば、ユーザと情報処理システム10との間の指示対象の認識のズレが防止されるため、ユーザは確実に自分が得たい対象に関する情報を得ることができる。また、ユーザは、自分が指差している位置に確信が持てるため、出力される音声情報が、自分が得たい対象に関する情報であるという確信を持つことができる。
なお、指示対象が変化した場合に、通知音を出力した後、すぐに音声情報を出力せずに、指示対象が所定の時間変化しないとき、すなわち、ユーザが指している対象が定まったとき、音声情報を出力するようにしてもよい。これにより、ユーザは、基準対象から2つ以上離れた位置にある物体の音声情報を聞きたい場合に、その間にある物体の音声情報を聞く必要がなくなる。また、音声情報が出力されなくても通知音は出力されるので、ユーザは、自分が指している対象が変わったことを確実に認識することができる。
また、例えば、指示対象のコンテンツ情報と翻訳情報データを音声情報に含めるようにしてもよい。すなわち、指示対象の原語によるコンテンツ情報とユーザ言語によるコンテンツ情報を音声情報に含めるようにしてもよい。これにより、ユーザは、指示対象のコンテンツ情報の原語による発音等を知ることができる。
その後、音声案内処理は終了する。
一方、ステップS204において、前回の音声案内からまだ所定の時間が経過していないと判定された場合、ステップS205の処理はスキップされ、音声案内処理は終了する。
また、ステップS202において、ユーザが指している対象が変化していないと判定された場合、ステップS203乃至S205の処理はスキップされ、音声案内処理は終了する。
さらに、ステップS201において、ユーザの指が動いていないと判定された場合、ステップS202乃至S205の処理はスキップされ、音声案内処理は終了する。
図3に戻り、ステップS60において、ステップS52の処理と同様に、指差しモードの解除が指示されたか否かが判定される。指差しモードの解除が指示されていないと判定された場合、処理はステップS59に戻る。
その後、ステップS60において、指差しモードの解除が指示されたと判定されるまで、ステップS59及びS60の処理が繰り返し実行される。
一方、ステップS60において、指差しモードの解除が指示されたと判定された場合、指差しモード処理は終了する。
また、ステップS56において、所定の時間内に音声入力が開始されなかったと判定された場合、処理はステップS61に進む。
ステップS61において、音声認識部38は、音声認識を停止する。
その後、処理はステップS62に進む。
一方、ステップS58において、ユーザが指している対象を確認できなかったと判定された場合、処理はステップS62に進む。
ステップS62において、ステップS52の処理と同様に、指差しモードの解除が指示されたか否かが判定される。指差しモードの解除が指示されていないと判定された場合、処理はステップS51に戻る。
その後、ステップS51以降の処理が実行される。
一方、ステップS62において、指差しモードの解除が指示されたと判定された場合、指差しモード処理は終了する。
図2に戻り、ステップS2の処理の後、処理はステップS1に戻り、ステップS1以降の処理が実行される。
以上のようにして、ユーザ音声に基づいてシステム認識指示対象を補正することにより、ユーザ認識指示対象とシステム認識指示対象とをユーザに指し直しさせることなく簡単かつ迅速に一致させることができる。すなわち、ユーザと情報処理システム10との間でユーザが指している位置の認識を簡単かつ迅速に合わせることができる。
また、ユーザは、基準指示対象を基準にして情報処理システム10が認識している指示対象を正確に把握することができ、ユーザと情報処理システム10との間の指示対象の認識のズレを防止することができる。
さらに、指示対象のコンテンツ情報がユーザの理解できる言語による音声で出力されるので、例えば、視覚コンテンツがユーザの理解できない言語で表示されていても、ユーザはその内容を容易に知ることができる。
<2.変形例>
以下、上述した本技術の実施の形態の変形例について説明する。
{本技術の適用範囲に関する変形例}
本技術の適用範囲は、上述した例に限定されるものではない。
例えば、本技術において、指示対象となる物体は、必ずしも1つの物体全体である必要はなく、物体の一部であってもよい。例えば、1つの看板に複数の文字列や画像が表示されている場合、そのうちの一部を指示対象に指定できるようにしてもよい。また、例えば、ビル等の大きな対象の一部を指示対象に指定できるようにしてもよい。
また、例えば、本技術は、指示オブジェクトによる指示位置のキャリブレーションにも適用することが可能である。
例えば、ユーザのジェスチャにより画像内において操作用オブジェクト(例えば、ポインタ等)を動かす場合の操作用オブジェクトの位置のキャリブレーションに本技術を適用することができる。例えば、HMD(Head Mount Display)等においてVR(Virtual Reality)によりユーザにより視認されている画像(以下、VR画像と称する)内の操作用オブジェクト、スマートテレビの画面内の操作用オブジェクトの位置のキャリブレーションに本技術を適用することができる。
例えば、操作用オブジェクトがユーザの人差し指の指先の動きに合わせてVR画像内を動く場合について説明する。この場合、指示オブジェクトは人差し指となり、三次元空間における指示位置(空間指示位置)は人差し指の指先となる。
例えば、ユーザは、人差し指を三次元空間内の所望の位置に静止した状態で、その状態における空間指示位置に対応付けたい操作用オブジェクトのVR画像内の指示位置(画像指示位置)を音声で入力することにより、操作用オブジェクトの位置のキャリブレーションを行う。例えば、ユーザが「センター」という音声を入力することにより、発話時の空間指示位置がVR画像の中央に対応するように操作用オブジェクトの座標系(画像指示位置の座標系)が補正される。また、操作用オブジェクトの指示位置(画像指示位置)がVR画像の中央になるように操作用オブジェクトの位置が補正される。
なお、例えば、VR画像内の具体的な座標を音声により入力して、操作用オブジェクトの位置のキャリブレーションを行うようにしてもよい。
また、例えば、操作用オブジェクトの位置を固定したまま、VR画像の範囲を動かすことにより、VR画像に対する操作用オブジェクトの指示位置を補正することも可能である。例えば、ユーザがVR画像内の具体的な位置を音声で入力することにより、操作用オブジェクトの位置を固定したまま、ユーザにより指示されたVR画像内の位置が操作用オブジェクトの指示位置と一致するようにVR画像の範囲を動かすようにしてもよい。
これにより、空間指示位置に対応する画像指示位置をユーザの所望の位置に簡単に補正することができる。
さらに、このキャリブレーションの技術は、例えば、AR(Augmented Reality)の操作用オブジェクトの位置のキャリブレーションにも適用することができる。
また、以上の説明では、本技術を適用する状況として、遠方の看板等を指す場合を例に挙げたが、本技術は、指示オブジェクトを用いて非接触で所望の位置を指す様々な状況において適用することが可能である。例えば、博物館等のショーケース内の所望の位置を指す場合、立ち入り規制により近づけない場所内の所望の位置を指す場合、展望台から見える風景の所望の位置を指す場合、汚染等により直接触れることができない物体の所望の位置を指す場合、接触が禁止されている物体の所望の位置を指す場合、講演会等で離れた位置から所望の位置を指す場合等が挙げられる。
さらに、本技術は、例えば、直接対象に触れて所望の位置を指す場合にも適用することができる。例えば、ディスプレイ等の表示装置の画面に直接指等を接触して、画面に表示されている画像内の所望の位置を指す場合にも、本技術を適用することができる。特に、画像が小さいため個々の対象を正確に指すことが困難な場合に、本技術を適用する効果は大きくなる。なお、この場合、空間指示位置と画像指示位置とは、ほぼ一致する。
また、本技術は、三次元空間において指示オブジェクトにより指されている位置(空間指示位置)を検出し、空間指示位置に対応する画像内の位置(画像指示位置)を設定する各種の機器に適用することができる。そのような機器として、例えば、ウエアラブルデバイス、VRデバイス、ARデバイス、スマートテレビ、デジタルサイネージ、プロジェクタ、スマートフォン、タブレット等が挙げられる。
さらに、本技術において用いられる画像の種類は、特に限定されるものではない。例えば、動画、静止画、2次元画像、3次元画像、全方位画像等の任意の種類の画像において画像指示位置を設定する場合に、本技術を適用することができる。
{システムの構成例に関する変形例}
図1の情報処理システム10の構成例は、その一例であり、必要に応じて変更することが可能である。
例えば、情報処理部13の一部の機能を、音声入力部11、情報取得部12、又は、出力部14に設けるようにしてもよい。また、例えば、音声入力部11、情報取得部12、情報処理部13、及び、出力部14のうち2つ以上を一体化するようにしてもよい。さらに、例えば、情報処理システム10の構成要素を、音声入力部11、情報取得部12、情報処理部13、及び、出力部14と異なる組み合わせにより構成するようにしてもよい。
また、例えば、情報処理システム10の一部の機能を外部に設けるようにしてもよい。
{指示対象の検出方法に関する変形例}
以上の説明では、ユーザの指に装着した情報取得部12の撮影部21により撮影された指示方向画像に基づいて、ユーザの指により指されている指示対象を検出する例を示したが、他の方法により指示対象を検出するようにしてもよい。
例えば、ユーザが指している方向を示す指示方向画像を撮影する撮影部をユーザの指以外の部位(例えば、頭部等)に装着するとともに、ユーザを撮影する撮影部を別に設けるようにしてもよい。この場合、例えば、指示位置検出部31は、ユーザを撮影した画像に基づいて、ユーザの指の位置や向き等を検出することにより、三次元空間においてユーザが指している方向(以下、空間指示方向と称する)を検出する。また、指示位置検出部31は、空間指示方向に基づいて、指示方向画像内においてユーザが指している指示対象を検出する。
なお、指示方向画像を撮影する撮影部をユーザの指以外の部位に装着した場合、撮影方向とユーザが指している方向が一致しない場合が生じる。これに対して、例えば、指示位置検出部31は、SLAM(Simultaneous Localization and Mapping)を用いて、指示方向画像に基づいてユーザの周辺の空間マップを作成し、空間マップ及び空間指示方向に基づいて、指示対象を検出することが可能である。
また、例えば、指示方向画像を撮影する撮影部を、ユーザに装着せずに、ユーザとは別に設けるようにしてもよい。
{指示オブジェクトに関する変形例}
本技術に適用可能な指示オブジェクトには、所望の位置を指すことができるものであれば任意のものを採用することができる。例えば、ユーザの指以外の体の一部、例えば、目(視線)、頭部、顔、顔の一部、腕、腕の一部等を指示オブジェクトに用い、それらの部位を用いたジェスチャ等により、所望の位置を指すようにしてもよい。また、例えば、レーザポインタ等のポインティングデバイスやVR(Virtual Reality)デバイス等のデバイスを指示オブジェクトに用いるようにしてもよい。なお、VRデバイスを指示オブジェクトに用いる場合、例えば、VRデバイスの向きにより所望の位置を指すことができる。
{指示方向情報リスト及び発話時指示方向情報リストに関する変形例}
指示方向情報リスト及び発話時指示方向情報リストの項目は、上述した例に限定されるものではなく、必要に応じて変更することが可能である。例えば、詳細情報に、各物体の色以外の視覚的な特徴(例えば、形状等)を含めるようにしてもよい。
また、以上の説明では、指示方向情報リストの翻訳情報のデータを用いて、ユーザ認識指示対象を検索する例を示したが、他のデータを用いるようにしてもよい。例えば、「指している物体は何色ですか?」、「指している物体の形を教えてください」等の物体の視覚的な特徴を尋ねる確認音声を出力し、物体の視覚的な特徴に基づいて、指示方向情報リストからユーザ認識指示対象を検索するようにしてもよい。また、例えば、指示方向情報リストの2種類以上のデータを組み合わせて、ユーザ認識指示対象を検索するようにしてもよい。
さらに、物体の種類やコンテンツの種類の分類方法は、上述した例に限定されるものではなく、必要に応じて変更することが可能である。
また、例えば、指示方向情報リスト及び発話時指示方向情報リストに斜め方向に隣接する物体に関する情報を追加して、指示対象の斜め方向の移動を検出できるようにしてもよい。
{その他の変形例}
以上の説明では、指示対象のコンテンツ情報を韓国語からユーザ言語に翻訳する例を示したが、翻訳する言語の組み合わせは、この例に限定されるものではない。また、例えば、翻訳先の言語(ユーザに通知する言語)をユーザが設定できるようにしてもよい。
また、例えば、コンテンツ情報を音声ではなく、例えば、コンテンツ情報のテキストデータをディスプレイ等に表示するようにしてもよい。
さらに、例えば、指示対象のコンテンツ情報を見やすくするために、指示対象及びその周辺を拡大表示するようにしてもよい。これにより、例えば、指示対象が看板である場合、看板が遠くにある、看板の文字が小さい、看板の照り返しが強い、周囲が暗い等により看板の視認性が悪い場合に、視認性を高めることができる。
さらに、以上の説明では、指示オブジェクトを用いて所望の対象を指すユーザと、情報処理システム10にユーザ音声を入力するユーザが同一である例を示したが、必ずしも同一である必要はない。例えば、情報処理システム10を装着しているユーザAと異なるユーザBが、ユーザ音声を入力するようにしてもよい。この場合、例えば、ユーザAが、ユーザBによる音声入力を許可する指令を情報処理システム10に与えるようにしてもよい。この指令は、例えば、ユーザAが音声コマンドにより入力するようにしてもよい。
また、例えば、ユーザBが別のシステムを装着し、ユーザAとユーザBのシステム間で連携して、所望の対象を指示するジェスチャとユーザ音声の組み合わせを取得するようにしてもよい。
{コンピュータの構成例}
上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
図15は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)301,ROM(Read Only Memory)302,RAM(Random Access Memory)303は、バス304により相互に接続されている。
バス304には、さらに、入出力インタフェース305が接続されている。入出力インタフェース305には、入力部306、出力部307、記憶部308、通信部309、及びドライブ310が接続されている。
入力部306は、キーボード、マウス、マイクロフォンなどよりなる。出力部307は、ディスプレイ、スピーカなどよりなる。記憶部308は、ハードディスクや不揮発性のメモリなどよりなる。通信部309は、ネットワークインタフェースなどよりなる。ドライブ310は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア311を駆動する。
以上のように構成されるコンピュータでは、CPU301が、例えば、記憶部308に記憶されているプログラムを、入出力インタフェース305及びバス304を介して、RAM303にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU301)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア311に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブルメディア311をドライブ310に装着することにより、入出力インタフェース305を介して、記憶部308にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部309で受信し、記憶部308にインストールすることができる。その他、プログラムは、ROM302や記憶部308に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、複数のコンピュータが連携して上述した処理を行うようにしてもよい。そして、上述した処理を行う単数又は複数のコンピュータにより、コンピュータシステムが構成される。
また、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
さらに、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
また、例えば、本技術は以下のような構成も取ることができる。
(1)
三次元空間において指示オブジェクトにより指されている位置である空間指示位置を検出する指示位置検出部と、
ユーザが発する音声であるユーザ音声に基づいて、前記空間指示位置に対応する画像内の指示位置である画像指示位置を補正する指示位置補正部と
を備える情報処理装置。
(2)
前記指示位置補正部は、前記ユーザ音声に基づく前記画像内の位置に前記画像指示位置を補正する
前記(1)に記載の情報処理装置。
(3)
前記指示位置補正部は、バーチャルリアリティにより前記ユーザが視認する前記画像内の前記画像指示位置を補正する
前記(2)に記載の情報処理装置。
(4)
前記指示位置補正部は、前記ユーザが前記ユーザ音声を発しているときの前記空間指示位置に対応する前記画像指示位置を補正する
前記(1)乃至(3)のいずれかに記載の情報処理装置。
(5)
前記指示位置検出部は、三次元空間において前記指示オブジェクトにより指されている第1の対象に対応する前記画像内の対象である指示対象を検出し、
前記指示位置補正部は、前記指示対象が前記ユーザ音声に基づく第2の対象と一致する場合、前記指示対象を補正せず、前記指示対象が前記第2の対象と一致しない場合、前記第2の対象に対応する前記画像内の対象を前記指示対象に補正する補正処理を行う
前記(1)に記載の情報処理装置。
(6)
前記指示対象を確認するための音声である確認音声の出力を制御する出力制御部を
さらに備え、
前記指示位置補正部は、前記確認音声に対する前記ユーザ音声に基づいて、前記補正処理を行う
前記(5)に記載の情報処理装置。
(7)
前記確認音声は、前記指示対象を識別するための情報の入力を促す音声である
前記(6)に記載の情報処理装置。
(8)
前記出力制御部は、前記補正処理後に前記指示対象が変化した場合、前記指示対象に関する情報を所定の言語で通知する音声情報の出力を制御する
前記(5)乃至(7)のいずれかに記載の情報処理装置。
(9)
前記音声情報は、前記指示対象の視認可能なコンテンツを示すコンテンツ情報を含む
前記(8)に記載の情報処理装置。
(10)
前記コンテンツ情報は、前記指示対象の名称、前記指示対象の種類、及び、前記指示対象が視覚的に表しているもののうち少なくとも1つを示す
前記(9)に記載の情報処理装置。
(11)
前記出力制御部は、前記補正処理後に前記指示対象が変化した場合、前記指示対象の変化を通知する通知音を出力するように制御する
前記(8)乃至(10)のいずれかに記載の情報処理装置。
(12)
前記出力制御部は、前記指示対象が移動した方向により異なる前記通知音を出力するように制御する
前記(11)に記載の情報処理装置。
(13)
前記指示対象に関する情報を前記所定の言語に翻訳する翻訳部を
さらに備える前記(8)乃至(12)のいずれかに記載の情報処理装置。
(14)
前記画像内の物体の検出を行う物体検出部を
さらに備える前記(5)乃至(13)のいずれかに記載の情報処理装置。
(15)
前記指示オブジェクトは、ユーザの体の一部である
前記(1)乃至(14)のいずれかに記載の情報処理装置。
(16)
前記ユーザ音声を認識する音声認識部を
さらに備える前記(1)乃至(15)のいずれかに記載の情報処理装置。
(17)
三次元空間において指示オブジェクトにより指されている位置である空間指示位置を検出する指示位置検出ステップと、
ユーザが発する音声であるユーザ音声に基づいて、前記空間指示位置に対応する画像内の指示位置である画像指示位置を補正する指示位置補正ステップと
を含む情報処理方法。
(18)
三次元空間において指示オブジェクトにより指されている位置である空間指示位置を検出する指示位置検出ステップと、
ユーザが発する音声であるユーザ音声に基づいて、前記空間指示位置に対応する画像内の指示位置である画像指示位置を補正する指示位置補正ステップと
を含む処理をコンピュータに実行させるためのプログラム。
10 情報処理システム, 11 音声入力部, 12 情報取得部, 13 情報処理部, 14 出力部, 21 撮影部, 22 センサ部, 31 指示位置検出部, 32 指示位置補正部, 33 物体検出部, 34 距離算出部, 35 画像処理部, 36 翻訳部, 37 情報生成部, 38 音声認識部, 39 出力制御部

Claims (18)

  1. 三次元空間において指示オブジェクトにより指されている位置である空間指示位置を検出する指示位置検出部と、
    ユーザが発する音声であるユーザ音声に基づいて、前記空間指示位置に対応する画像内の指示位置である画像指示位置を補正する指示位置補正部と
    を備える情報処理装置。
  2. 前記指示位置補正部は、前記ユーザ音声に基づく前記画像内の位置に前記画像指示位置を補正する
    請求項1に記載の情報処理装置。
  3. 前記指示位置補正部は、バーチャルリアリティにより前記ユーザが視認する前記画像内の前記画像指示位置を補正する
    請求項2に記載の情報処理装置。
  4. 前記指示位置補正部は、前記ユーザが前記ユーザ音声を発しているときの前記空間指示位置に対応する前記画像指示位置を補正する
    請求項1に記載の情報処理装置。
  5. 前記指示位置検出部は、三次元空間において前記指示オブジェクトにより指されている第1の対象に対応する前記画像内の対象である指示対象を検出し、
    前記指示位置補正部は、前記指示対象が前記ユーザ音声に基づく第2の対象と一致する場合、前記指示対象を補正せず、前記指示対象が前記第2の対象と一致しない場合、前記第2の対象に対応する前記画像内の対象を前記指示対象に補正する補正処理を行う
    請求項1に記載の情報処理装置。
  6. 前記指示対象を確認するための音声である確認音声の出力を制御する出力制御部を
    さらに備え、
    前記指示位置補正部は、前記確認音声に対する前記ユーザ音声に基づいて、前記補正処理を行う
    請求項5に記載の情報処理装置。
  7. 前記確認音声は、前記指示対象を識別するための情報の入力を促す音声である
    請求項6に記載の情報処理装置。
  8. 前記出力制御部は、前記補正処理後に前記指示対象が変化した場合、前記指示対象に関する情報を所定の言語で通知する音声情報の出力を制御する
    請求項5に記載の情報処理装置。
  9. 前記音声情報は、前記指示対象の視認可能なコンテンツを示すコンテンツ情報を含む
    請求項8に記載の情報処理装置。
  10. 前記コンテンツ情報は、前記指示対象の名称、前記指示対象の種類、及び、前記指示対象が視覚的に表しているもののうち少なくとも1つを示す
    請求項9に記載の情報処理装置。
  11. 前記出力制御部は、前記補正処理後に前記指示対象が変化した場合、前記指示対象の変化を通知する通知音を出力するように制御する
    請求項8に記載の情報処理装置。
  12. 前記出力制御部は、前記指示対象が移動した方向により異なる前記通知音を出力するように制御する
    請求項11に記載の情報処理装置。
  13. 前記指示対象に関する情報を前記所定の言語に翻訳する翻訳部を
    さらに備える請求項8に記載の情報処理装置。
  14. 前記画像内の物体の検出を行う物体検出部を
    さらに備える請求項5に記載の情報処理装置。
  15. 前記指示オブジェクトは、ユーザの体の一部である
    請求項1に記載の情報処理装置。
  16. 前記ユーザ音声を認識する音声認識部を
    さらに備える請求項1に記載の情報処理装置。
  17. 三次元空間において指示オブジェクトにより指されている位置である空間指示位置を検出する指示位置検出ステップと、
    ユーザが発する音声であるユーザ音声に基づいて、前記空間指示位置に対応する画像内の指示位置である画像指示位置を補正する指示位置補正ステップと
    を含む情報処理方法。
  18. 三次元空間において指示オブジェクトにより指されている位置である空間指示位置を検出する指示位置検出ステップと、
    ユーザが発する音声であるユーザ音声に基づいて、前記空間指示位置に対応する画像内の指示位置である画像指示位置を補正する指示位置補正ステップと
    を含む処理をコンピュータに実行させるためのプログラム。
JP2016123593A 2016-06-22 2016-06-22 情報処理装置、情報処理方法、及び、プログラム Pending JP2017228080A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2016123593A JP2017228080A (ja) 2016-06-22 2016-06-22 情報処理装置、情報処理方法、及び、プログラム
CN201780036694.6A CN109313532B (zh) 2016-06-22 2017-06-08 信息处理设备、信息处理方法和程序
PCT/JP2017/021271 WO2017221720A1 (ja) 2016-06-22 2017-06-08 情報処理装置、情報処理方法、及び、プログラム
US16/307,320 US10788902B2 (en) 2016-06-22 2017-06-08 Information processing device and information processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016123593A JP2017228080A (ja) 2016-06-22 2016-06-22 情報処理装置、情報処理方法、及び、プログラム

Publications (1)

Publication Number Publication Date
JP2017228080A true JP2017228080A (ja) 2017-12-28

Family

ID=60783299

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016123593A Pending JP2017228080A (ja) 2016-06-22 2016-06-22 情報処理装置、情報処理方法、及び、プログラム

Country Status (4)

Country Link
US (1) US10788902B2 (ja)
JP (1) JP2017228080A (ja)
CN (1) CN109313532B (ja)
WO (1) WO2017221720A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108771864A (zh) * 2018-05-17 2018-11-09 东莞市华睿电子科技有限公司 一种双vr设备参与虚拟游戏pk前的虚拟场景配置方法
JP2020194517A (ja) * 2019-05-21 2020-12-03 雄史 高田 翻訳システムおよび翻訳システムセット
WO2024071006A1 (ja) * 2022-09-27 2024-04-04 本田技研工業株式会社 情報処理装置、情報処理方法、およびプログラム

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109313506B (zh) * 2016-06-22 2022-03-08 索尼公司 信息处理装置、信息处理方法和程序
EP3866161A1 (en) 2018-10-09 2021-08-18 Sony Group Corporation Information processing device, information processing method, and program
US20240202470A1 (en) * 2022-12-16 2024-06-20 Snap Inc. Generating augmented reality content including translations

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06131437A (ja) * 1992-10-20 1994-05-13 Hitachi Ltd 複合形態による操作指示方法
JP4708913B2 (ja) 2005-08-12 2011-06-22 キヤノン株式会社 情報処理方法及び情報処理装置
EP2672880B1 (en) * 2011-02-09 2019-05-22 Apple Inc. Gaze detection in a 3d mapping environment
CN103858074B (zh) * 2011-08-04 2018-10-19 视力移动技术有限公司 经由3d显示器与装置交互的系统和方法
US20130144583A1 (en) * 2011-09-02 2013-06-06 Saudi Arabia Oil Company Hyper-dimensional simulation for reservoir engineering and geosciences
CN103035222A (zh) * 2011-10-10 2013-04-10 台达电子工业股份有限公司 用以调整电视墙的声控系统
JP5866728B2 (ja) 2011-10-14 2016-02-17 サイバーアイ・エンタテインメント株式会社 画像認識システムを備えた知識情報処理サーバシステム
KR20140073730A (ko) 2012-12-06 2014-06-17 엘지전자 주식회사 이동 단말기 및 이동 단말기 제어방법
US20140258942A1 (en) * 2013-03-05 2014-09-11 Intel Corporation Interaction of multiple perceptual sensing inputs
CN104065798B (zh) * 2013-03-21 2016-08-03 华为技术有限公司 声音信号处理方法及设备
KR20150066883A (ko) * 2013-12-09 2015-06-17 삼성전자주식회사 이미지 처리 방법 및 장치
US9311525B2 (en) * 2014-03-19 2016-04-12 Qualcomm Incorporated Method and apparatus for establishing connection between electronic devices
US10311115B2 (en) 2014-05-15 2019-06-04 Huawei Technologies Co., Ltd. Object search method and apparatus
US9824499B2 (en) * 2015-06-23 2017-11-21 Microsoft Technology Licensing, Llc Mixed-reality image capture

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108771864A (zh) * 2018-05-17 2018-11-09 东莞市华睿电子科技有限公司 一种双vr设备参与虚拟游戏pk前的虚拟场景配置方法
CN108771864B (zh) * 2018-05-17 2021-08-10 北京热带雨林互动娱乐有限公司 一种双vr设备参与虚拟游戏pk前的虚拟场景配置方法
JP2020194517A (ja) * 2019-05-21 2020-12-03 雄史 高田 翻訳システムおよび翻訳システムセット
WO2024071006A1 (ja) * 2022-09-27 2024-04-04 本田技研工業株式会社 情報処理装置、情報処理方法、およびプログラム

Also Published As

Publication number Publication date
CN109313532A (zh) 2019-02-05
CN109313532B (zh) 2022-05-06
US10788902B2 (en) 2020-09-29
US20190138117A1 (en) 2019-05-09
WO2017221720A1 (ja) 2017-12-28

Similar Documents

Publication Publication Date Title
WO2017221720A1 (ja) 情報処理装置、情報処理方法、及び、プログラム
CN105324811B (zh) 语音到文本转换
CN112106114A (zh) 程序、记录介质、增强现实感呈现装置及增强现实感呈现方法
CN103105926A (zh) 多传感器姿势识别
US10887719B2 (en) Apparatus and associated methods for presentation of spatial audio
US11397320B2 (en) Information processing apparatus, information processing system, and non-transitory computer readable medium
KR20140125183A (ko) 프로젝터 장착 안경 및 그 제어 방법
US10970932B2 (en) Provision of virtual reality content
JP2007025963A (ja) 視線測定装置および視線測定プログラム、ならびに、視線校正データ生成プログラム
CN109784128A (zh) 具有文本及语音处理功能的混合现实智能眼镜
US20190333496A1 (en) Spatialized verbalization of visual scenes
KR102330218B1 (ko) 발달장애인의 언어 훈련을 위한 가상현실 교육 시스템 및 방법
KR20200079748A (ko) 발달장애인의 언어 훈련을 위한 가상현실 교육 시스템 및 방법
JP6885402B2 (ja) 情報処理装置、情報処理方法、及び、プログラム
JP6374203B2 (ja) 表示システム及びプログラム
US10545716B2 (en) Information processing device, information processing method, and program
JP6217696B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN111212323A (zh) 音视频合成的方法、装置、电子设备及介质
US20220269889A1 (en) Visual tag classification for augmented reality display
US11282228B2 (en) Information processing device, information processing method, and program
US20240079031A1 (en) Authoring tools for creating interactive ar experiences
US20240037777A1 (en) Information processing apparatus, information processing system, information processing method, and non-transitory computer readable medium
US20230059119A1 (en) Information processing device, control method, and non-transitory computer-readable medium
US20210217412A1 (en) Information processing apparatus, information processing system, information processing method, and program
KR20230090932A (ko) 전자 장치 및 그 제어 방법