JP6848881B2 - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
JP6848881B2
JP6848881B2 JP2017556364A JP2017556364A JP6848881B2 JP 6848881 B2 JP6848881 B2 JP 6848881B2 JP 2017556364 A JP2017556364 A JP 2017556364A JP 2017556364 A JP2017556364 A JP 2017556364A JP 6848881 B2 JP6848881 B2 JP 6848881B2
Authority
JP
Japan
Prior art keywords
information
result
information processing
prediction result
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017556364A
Other languages
English (en)
Other versions
JPWO2017104207A1 (ja
Inventor
佑輔 中川
佑輔 中川
真一 河野
真一 河野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of JPWO2017104207A1 publication Critical patent/JPWO2017104207A1/ja
Application granted granted Critical
Publication of JP6848881B2 publication Critical patent/JP6848881B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/038Control and interface arrangements therefor, e.g. drivers or device-embedded control circuitry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04817Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance using icons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/96Management of image or video recognition tasks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Description

本開示は、情報処理装置、情報処理方法、及びプログラムに関する。
PC(Personal Computer)やゲーム機器等のような所謂情報処理装置の動作を制御するために、ユーザからの入力を取得するための入力インターフェースとして多様な方式のものが提案されている。特に近年では、音響解析や画像解析等の技術の発展に伴い、ユーザが発話した音声やユーザの動作を認識することで、当該発話や動作の認識結果を、情報処理装置の制御に利用する技術も各種提案されている。例えば、特許文献1には、ユーザの動作(所謂ジェスチャ)を認識するための技術の一例が開示されている。
また、上述したような各種入力インターフェースを複数組み合わせることも可能である。具体的な一例として、ユーザの発話に基づく音声認識の開始や終了の制御に、ジェスチャの検出結果を利用することで、マウスやコントローラ等の入力デバイスを介した操作に比べて、より直感的な操作を実現することも可能となる。
特開2012−8772号公報
一方で、ジェスチャの検出結果に基づく操作の認識には、マウスやコントローラ等の入力デバイスを介した操作に比べて、より時間を要する場合がある。そのため、例えば、ジェスチャの検出結果を、音声等のような他の入力情報の取得に利用するような状況下において、当該ジェスチャが示す操作を認識するための処理時間により、当該入力情報の取得が開始されるタイミングに遅延が生じる場合がある。
そこで、本開示では、ジェスチャの認識に伴う遅延の影響をより緩和することが可能な、情報処理装置、情報処理方法、及びプログラムを提案する。
本開示によれば、ジェスチャの検出結果に応じた第1の入力情報に基づく、以降に入力される前記ジェスチャに応じた操作の予測結果を取得する取得部と、前記操作の予測結果に応じて、前記第1の入力情報に対応付けられた第2の入力情報の取得に関する処理を制御する制御部と、を備える、情報処理装置が提供される。
また、本開示によれば、プロセッサが、ジェスチャの検出結果に応じた第1の入力情報に基づく、以降に入力される前記ジェスチャに応じた操作の予測結果を取得することと、
前記操作の予測結果に応じて、前記第1の入力情報に対応付けられた第2の入力情報の取得に関する処理を制御することと、を含む、情報処理方法が提供される。
また、本開示によれば、コンピュータに、ジェスチャの検出結果に応じた第1の入力情報に基づく、以降に入力される前記ジェスチャに応じた操作の予測結果を取得することと、前記操作の予測結果に応じて、前記第1の入力情報に対応付けられた第2の入力情報の取得に関する処理を制御することと、を実行させる、プログラムが提供される。
以上説明したように本開示によれば、ジェスチャの認識に伴う遅延の影響をより緩和することが可能な、情報処理装置、情報処理方法、及びプログラムが提供される。
なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の一実施形態に係る入出力装置の概略的な構成の一例について説明するための説明図である。 ユーザの手の動作を検出するための入力装置の一例について説明するための説明図である。 同実施形態に係る情報処理システムのシステム構成の一例について説明するための説明図である。 同実施形態に係る情報処理システムが提供するユーザインタフェースの一例について説明するための説明図である。 同実施形態に係る情報処理システムが提供するユーザインタフェースの一例について説明するための説明図である。 同実施形態に係る情報処理システムの技術的課題について説明するための説明図である。 同実施形態に係る情報処理システムの動作原理について説明するための説明図である。 同実施形態に係る情報処理システムの機能構成の一例について示したブロック図である。 同実施形態に係る情報処理システムの一連の動作の流れの一例について示したフローチャートである。 同実施形態の実施例に係る情報処理装置の動作の一例について説明するための説明図である。 同実施形態の実施例に係る情報処理装置の動作の他の一例について説明するための説明図である。 同実施形態の実施例に係る情報処理装置の動作の他の一例について説明するための説明図である。 同実施形態の実施例に係る情報処理装置の動作の他の一例について説明するための説明図である。 同実施形態の変形例1に係る情報処理システムの一連の処理の流れの一例について示したフローチャートである。 同実施形態の変形例2に係る情報処理装置の動作の一例について説明するための説明図である。 同実施形態の変形例2に係る情報処理装置の動作の他の一例について説明するための説明図である。 同実施形態にかかる情報処理装置のハードウェア構成例を示すブロック図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
なお、説明は以下の順序で行うものとする。
1.概要
1.1.入出力装置の構成
1.2.システム構成
1.3.ユーザインタフェース
1.4.技術的課題
2.技術的特徴
2.1.動作原理
2.2.機能構成
2.3.処理
2.4.実施例
2.5.変形例1:機械学習との組み合わせの一例
2.6.変形例2:予測に係る動作の最適化
3.ハードウェア構成例
4.むすび
<<1.概要>>
まず、本開示の一実施形態の概要について説明したうえで、本実施形態の技術的課題について説明する。
<1.1.入出力装置の構成>
まず、図1を参照して本実施形態に係る入出力装置の概略的な構成の一例について説明する。図1は、本実施形態に係る入出力装置の概略的な構成の一例について説明するための説明図である。
図1に示すように、本実施形態に係る入出力装置20は、表示部201と、集音部203とを含む。また、本実施形態に係る入出力装置20は、所謂頭部装着型の表示装置(HMD:Head Mounted Display)として構成されている。即ち、入出力装置20は、ユーザの頭部に装着されることで、当該ユーザの眼前に、画像を表示するための表示部201(例えば、表示パネル)を保持するように構成されている。
なお、入出力装置20として適用可能な頭部装着型の表示装置(HMD)には、所謂、没入型HMD、シースルー型HMD、ビデオシースルー型HMD、及び網膜投射型HMDが含まれる。
没入型HMDは、ユーザの頭部または顔部に装着された場合に、ユーザの眼を覆うように装着され、ユーザの眼前にディスプレイ等の表示部が保持される。そのため、没入型HMDを装着したユーザは、外部の風景(即ち、現実世界の風景)を直接視野に入れることが困難であり、表示部に表示された映像のみが視界に入ることとなる。このような構成により、没入型HMDは、画像を視聴しているユーザに対して没入感を与えることが可能となる。
シースルー型HMDは、例えば、ハーフミラーや透明な導光板を用いて、透明な導光部等からなる虚像光学系をユーザの眼前に保持し、当該虚像光学系の内側に画像を表示させる。そのため、シースルー型HMDを装着したユーザは、虚像光学系の内側に表示された画像を視聴している間も、外部の風景を視野に入れることが可能となる。なお、シースルー型HMDの具体的な一例として、メガネのレンズに相当する部分を虚像光学系として構成した、所謂メガネ型のウェアラブルデバイスが挙げられる。
ビデオシースルー型HMDは、没入型HMDと同様に、ユーザの眼を覆うように装着され、ユーザの眼前にディスプレイ等の表示部が保持される。一方で、ビデオシースルー型HMDは、周囲の風景を撮像するための撮像部を有し、当該撮像部により撮像されたユーザの視線方向の風景の画像を表示部に表示させる。このような構成により、ビデオシースルー型HMDを装着したユーザは、外部の風景を直接視野に入れることは困難ではあるが、表示部に表示された画像により、外部の風景を確認することが可能となる。
網膜投射型HMDは、ユーザの眼前に投影部が保持されており、当該投影部からユーザの眼に向けて、外部の風景に対して画像が重畳するように当該画像が投影される。より具体的には、網膜投射型HMDでは、ユーザの眼の網膜に対して、投影部から画像が直接投射され、当該画像が網膜上で結像する。このような構成により、近視や遠視のユーザの場合においても、より鮮明な映像を視聴することが可能となる。また、網膜投射型HMDを装着したユーザは、投影部から投影される画像を視聴している間も、外部の風景を視野に入れることが可能となる。
また、本実施形態に係る入出力装置20は、例えば、加速度センサや、角速度センサ(ジャイロセンサ)が設けられ、当該入出力装置20を装着したユーザの頭部の動き(頭部の姿勢)を検出可能に構成されていてもよい。具体的な一例として、入出力装置20は、ユーザの頭部の動きとして、ヨー(yaw)方向、ピッチ(pitch)方向、及びロール(roll)方向それぞれの成分を検出する。そして、入出力装置20は、検出したユーザの頭部の動きに基づき、当該ユーザの視線が示す方向(以降では、「視線方向」と称する場合がある)の変化を認識し、認識した視線方向の変化に応じた画像を当該ユーザに提示する。このような構成に基づき、例えば、ユーザの視線方向の変化に応じて仮想空間内の映像をユーザに提示することで、当該ユーザに対して、あたかも当該仮想空間内にいるような没入感を与えることが可能となる。
また、本実施形態に係る入出力装置20は、集音部203によりユーザが発話した音声を集音可能に構成されている。このような構成により、例えば、音声認識技術に基づきユーザが発話した音声が示す内容(即ち、ユーザが指示する内容)を認識し、当該認識結果を各種制御に利用することも可能となる。
また、本実施形態に係る入出力装置20は、ユーザの手等の部位の動作を認識するための情報を取得可能に構成されていてもよい。
具体的な一例として、入出力装置20は、静止画像や動画像等の画像情報を取得するための撮像部と連携して動作してもよい。この場合には、入出力装置20は、当該撮像部により撮像されたユーザの部位の画像を、当該部位の動作を認識するための情報として取得してもよい。なお、当該撮像部は、対象となる部位の画像を撮像可能であれば、その構成は特に限定されない。具体的な一例として、入出力装置20の前面に対して、前方側を撮像するように撮像部が設けられていてもよい。このような構成により、入出力装置20は、例えば、当該撮像部により撮像された、当該入出力装置20を装着したユーザの前方側に位置する当該ユーザの手の画像を、当該手の動作を認識するための情報として取得することが可能となる。また他の一例として、当該撮像部が、入出力装置20とは別体として設けられていてもよい。このような構成により、入出力装置20は、例えば、ユーザに対して所定の方向(例えば、略前方)に設置された撮像部から、撮像されたユーザの画像を、当該ユーザの動作(もしくは、当該ユーザの部位の動作)を認識するための情報として取得することも可能となる。
また、他の一例として、入出力装置20は、ユーザの手等の部位の動作を検出するためのセンサ等の検知部を含む入力装置と連携して動作してもよい。例えば、図2は、ユーザの手の動作を検出するための入力装置の一例について説明するための説明図である。図2に示すように、入力装置21は、筐体がユーザの手により把持されることで、当該ユーザに保持される。また、入力装置21は、加速度センサがジャイロセンサ(角速度センサ)等のような筐体の位置や向きの変化を検出するための検出部を備えている。このような構成により、入力装置21は、筐体の位置や向きの変化の検出結果を、当該筐体を把持する手の位置や向きの変化を示す情報(即ち、当該手の動きを認識するための情報)として取得することが可能となる。また、外部に設けられた撮像部により、当該入力装置21の画像を撮像することで、当該画像を当該入力装置21の動作(ひいては、当該入力装置21を把持する手の動作)を認識するための情報として利用することも可能となる。
以上のような構成により、入出力装置20により取得された情報に基づき、ユーザの部位の動き(所謂ジェスチャ)を認識するこが可能となるため、例えば、ユーザの部位の動きの認識結果を各種制御に利用することも可能となる。
以上、図1及び図2を参照して本実施形態に係る入出力装置の概略的な構成の一例について説明した。なお、上記に説明した入出力装置20の構成はあくまで一例であり、ユーザの動作を検出することが可能であれば、入出力装置20の構成は必ずしも図1を参照して説明した例には限定されない。
<1.2.システム構成>
次いで、図3を参照して、本実施形態に係る情報処理システム1のシステム構成の一例について説明する。図3は、本実施形態に係る情報処理システム1のシステム構成の一例について説明するための説明図である。
図3に示すように、本実施形態に係る情報処理システム1は、入出力装置20と、コンテンツ制御装置30と、音響処理装置40とを含む。図3に示す例では、入出力装置20とコンテンツ制御装置30とは、ネットワークN1を介して相互に通信可能に接続されている。同様に、コンテンツ制御装置30と音響処理装置40とは、ネットワークN2を介して相互に通信可能に接続されている。ネットワークN1及びN2は、例えば、インターネット、専用線、LAN(Local Area Network)、または、WAN(Wide Area Network)等により構成され得る。なお、異なる装置間を接続するネットワークであれば、ネットワークN1及びN2それぞれの態様は特に限定されない。
コンテンツ制御装置30は、入出力装置20に対してコンテンツを提供するための構成である。例えば、コンテンツ制御装置30は、入出力装置20を介したユーザからの指示に基づき、コンテンツを再生し、再生結果に応じた映像や音響等の出力情報を入出力装置20に出力する。また、コンテンツ制御装置30は、入出力装置20を介したユーザからの入力を示す情報(例えば、視線方向を示す情報、音声の集音結果、ジェスチャの検出結果等)を取得し、取得した情報に基づき、入出力装置20に対する映像や音響等の出力情報の出力を制御してよい。
なお、コンテンツ制御装置30は、コンテンツの種別や内容に応じて各種処理を実行してもよい。例えば、コンテンツ制御装置30は、所謂仮想現実(VR:Virtual Reality)技術に基づき、人工的に構築される仮想空間(換言すると、仮想空間の映像や音響)を、入出力装置20を介してユーザに提示してもよい。また、他の一例として、コンテンツ制御装置30は、所謂拡張現実(AR:Augmented Reality)技術に基づき、仮想的に生成されるオブジェクト(即ち、仮想オブジェクト)が実空間上のオブジェクトに重畳されるように、当該仮想オブジェクトを、入出力装置20を介してユーザに提示してもよい。
また、コンテンツ制御装置30は、入出力装置20を介したユーザからの入力を受けて、当該入力に基づきコンテンツを再生し、当該コンテンツの再生結果を、入出力装置20を介してユーザに提示してもよい。具体的な一例として、コンテンツ制御装置30は、入出力装置20から取得した情報に基づきユーザの視線方向の変化を認識し、VR技術に基づき当該視線方向が示す仮想空間内の映像を生成してもよい。これにより、コンテンツ制御装置30は、生成した仮想空間内の映像を、ユーザの視線方向の変化に応じた映像として、入出力装置20を介して当該ユーザに提示することが可能となる。また、他の一例として、コンテンツ制御装置30は、入出力装置20から取得した情報に基づきユーザの手の動き(即ち、ジェスチャ)を認識し、認識結果に基づいて当該ジェスチャに対応する処理を実行してもよい。
音響処理装置40は、入力された音響情報に対して各種音響解析を施すための構成である。例えば、音響処理装置40は、ユーザが発話した音声の集音結果を取得し、当該集音結果に対して音声認識技術や自然言語処理技術に基づく解析処理を施すことで、当該ユーザが発話した内容を認識してもよい。なお、ユーザが発話した内容の認識結果(即ち、音声認識処理の結果)は、上述したコンテンツ制御装置30により、例えば、コンテンツの再生等の各種処理の実行に利用されてもよい。
以上、図3を参照して、本実施形態に係る情報処理システム1のシステム構成の一例について説明した。なお、上述した情報処理システム1のシステム構成はあくまで一例であり、必ずしも図3に示す例には限定されない。具体的な一例として、入出力装置20と、コンテンツ制御装置30と、音響処理装置40とが一体的に構成されていてもよい。また、コンテンツ制御装置30と音響処理装置40とが、情報処理装置10として一体的に構成されていてもよい。
<1.3.ユーザインタフェース>
次いで、図4及び図5を参照して、本実施形態に係る情報処理システム1が提供するユーザインタフェースの一例について説明する。図4及び図5は、本実施形態に係る情報処理システム1が提供するユーザインタフェースの一例について説明するための説明図であり、入出力装置20を介してユーザに仮想空間を提示する状況を想定したユーザインタフェースの一例を示している。
図4及び図5に示す例では、ユーザは、自身の身体の少なくとも一部の部位(例えば、手)を使用した所謂ジェスチャ入力と、発話による所謂音声入力とにより、情報処理システム1に対して各種情報を入力する(即ち、各種操作を行う)。
より具体的には、図4及び図5に示す例では、情報処理システム1は、ユーザに提示される画像中の一部に、音声認識を開始するためのオブジェクト(例えば、アイコン)V11を提示している。また、情報処理システム1は、ユーザによる手を用いたジェスチャを検出すると、検出したジェスチャの内容に応じて、仮想空間に形成された仮想的な手(即ち、手のオブジェクト)U11を提示する。このような構成により、ユーザは、自身の手を用いたジェスチャ入力により、仮想空間における仮想的な手U11を操作することで、当該手U11を介して仮想空間内の各種オブジェクト(例えば、オブジェクトV11)に対して操作を行うことが可能となる。なお、仮想的な手U11が「第1の表示オブジェクト」の一例に相当する。また、オブジェクトV11が「第2の表示オブジェクト」の一例に相当する。
そして、情報処理システム1は、ユーザから入力されたジェスチャの検出結果に基づき、仮想空間内において手U11によりオブジェクトV11に対して操作が行われたことを認識した場合に、当該オブジェクトV11に関連付けられた処理(即ち、音声認識)を開始する。例えば、図4に示す例では、情報処理システム1は、ユーザから入力されたジェスチャの検出結果に基づき、手U11によりオブジェクトV11が把持されたことを認識した場合に、当該オブジェクトV11に関連付けられた音声認識を開始する。また、図5に示す例では、情報処理システム1は、ユーザから入力されたジェスチャの検出結果に基づき、オブジェクトV11に対して手U11が重ねられたこと(換言すると、手U11の位置がオブジェクトV11の位置と略一致したこと)を認識した場合に、当該オブジェクトV11に関連付けられた音声認識を開始する。
このように、各種認識処理に基づき、ユーザの身体性を活かしたユーザインタフェースを提供することで、当該ユーザは、直感的かつ素早い動作により、音声認識等の各種処理を起動することが可能となる。
<1.4.技術的課題>
次いで、図6を参照して、本実施形態に係る情報処理システム1の技術的課題について説明する。図6は、本実施形態に係る情報処理システム1の技術的課題について説明するための説明図である。なお、本説明では、図5を参照して前述したように、ユーザが手を用いたジェスチャ入力により、仮想空間内において手U11を所定の位置(例えば、オブジェクトV11が提示された位置)に動かすことで音声認識を開始する場合に着目して、本実施形態に係る情報処理システム1の技術的課題について説明する
図6において、横軸は時間tを示している。また、時間軸を基準として、下側に、ユーザの操作内容と、当該操作のタイミングとを時間軸に沿って示し、上側に、当該ユーザの操作を受けたシステムの処理の内容と、当該処理のタイミングとを時間軸に沿って示している。
例えば、図6に示す例では、タイミングt11においてユーザがジェスチャ入力により仮想空間内の手U11を動かし始め、タイミングt12において手U11が所定の位置(例えば、オブジェクトV11の位置)に到達している。その後、タイミングt13において、システムは、ユーザから入力されたジェスチャの解析結果に基づき、手U11が所定の位置に移動したことを検知する。そして、システムは、手U11が所定の位置に移動したことの検知結果に基づき、ユーザが音声認識処理の開始を指示していることを認識し、当該認識結果に基づき、タイミングt15において音声認識を開始する。
このように、システムが、ジェスチャ入力に基づくユーザの操作を認識し、当該操作の認識結果に基づき音声認識処理を開始するまでには、実際にはシステム的な遅延(例えば、ジェスチャの認識に係る処理等による遅延)が生じる場合がある。特に、ジェスチャの検出結果に基づく操作の認識には、マウスやコントローラ等の入力デバイスを介した操作に比べて、より時間を要する場合がある。そのため、ユーザがジェスチャ入力を行ったことで音声認識が可能となったものと認識するタイミングと、実際にシステムが音声認識を開始するタイミングとの間にギャップが生じる場合がある。
例えば、図6に示す例では、システムがジェスチャ入力に基づくユーザの操作を認識してから音声認識を開始するまでの間のタイミングt14において、ユーザが音声認識のための発話を開始している。このような場合には、システムは、タイミングt14からタイミングt15までの期間の音声、即ち、発話の冒頭の部分の取得に失敗し、結果として音声認識に失敗する場合がある。
そこで、本開示では、ジェスチャの検出結果を、音声等のような他の入力情報の取得に利用するような状況下においても、ジェスチャの認識に伴う遅延の影響をより緩和し、より好適な態様で当該他の入力情報の取得を可能とするための仕組みについて提案する。
<2.技術的特徴>
以下に、本実施形態に係る情報処理システム1の技術的特徴について説明する。
<2.1.動作原理>
まず、図7を参照して、本実施形態に係る情報処理システム1の動作原理について説明する。図7は、本実施形態に係る情報処理システム1の動作原理について説明するための説明図である。なお、本説明では、図6に示した例と同様に、ユーザが手を用いたジェスチャ入力により、仮想空間内において手U11を所定の位置(例えば、オブジェクトV11が提示された位置)に動かすことで音声認識を開始する場合に着目して、本実施形態に係る情報処理システム1の動作原理について説明する
図7において、横軸は時間tを示している。また、時間軸を基準として、下側に、ユーザの操作の内容と、当該操作のタイミングを時間軸に沿って示し、上側に、当該ユーザの操作を受けたシステムの処理の内容と、当該処理のタイミングとを時間軸に沿って示している。
図7に示す例では、タイミングt21においてユーザがジェスチャにより仮想空間内の手U11を動かし始め、タイミングt23において手U11が所定の位置(例えば、オブジェクトV11の位置)に到達したものとする。このとき、システム(即ち、情報処理システム1)は、仮想空間内における手U11の動き、または、実空間上におけるユーザの手の動きの検出結果に基づき、以降の手U11の動き(換言すると、以降の操作)を予測(推定)する。例えば、図7に示す例では、情報処理システム1は、タイミングt23よりも早いタイミングt22において、手U11が所定の位置に移動することを予測することとなる。
そして、情報処理システム1は、手U11が所定の位置に移動することを予測した場合に、当該予測結果に基づき音声認識のための音響の取得に係る処理(ひいては、音声認識処理)を開始する。そのため、図7に示す例では、実際に仮想空間内において手U11が所定の位置に到達するタイミングt23以前に、以降に入力されるジェスチャに基づくユーザの操作が予測され、当該操作の予測結果に基づき、タイミングt24において、音声認識の処理が開始される。
ここで、図6及び図7を比較するとわかるように、本実施形態に係る情報処理システム1は、図6に示す例に比べて、より早いタイミングで音声認識処理を開始することが可能となる。そのため、情報処理システム1は、例えば、図7に示すように、ユーザが音声認識のための発話を開始するタイミングt25よりも、より早いタイミングt24において、音声認識処理を開始することが可能となる。即ち、本実施形態に係る情報処理システム1に依れば、ジェスチャの検出結果を、音声等のような他の入力情報の取得に利用するような状況下においても、ジェスチャの認識に伴う遅延の影響をより緩和し、より好適な態様で当該他の入力情報を取得することが可能となる。
<2.2.機能構成>
次いで、図8を参照して、本実施形態に係る情報処理システム1の機能構成の一例について説明する。図8は、本実施形態に係る情報処理システム1の機能構成の一例について示したブロック図である。なお本説明では、本実施形態に係る情報処理システム1の特徴をよりわかりやすくするために、図3に示したコンテンツ制御装置30と音響処理装置40とが、情報処理装置10として一体的に構成され、当該情報処理装置10と入出力装置20とが連携して動作するものとして説明する。
図8に示すように、本実施形態に係る情報処理システム1は、入出力装置20と、情報処理装置10と、記憶部13とを含む。
記憶部13は、情報処理装置10が、入出力装置20を介してユーザにコンテンツを提供するための各種情報を記憶するための構成である。例えば、記憶部13には、コンテンツのデータが記憶されていてもよい。また、記憶部13には、情報処理装置10が入出力装置20を介してユーザにコンテンツを提供するためのプログラム(アプリケーション)のデータ(例えば、ライブラリ等)や、各種制御情報(例えば、設定ファイル等)が記憶されていてもよい。
ここで、入出力装置20の構成に着目する。入出力装置20は、表示部201と、音響出力部202と、集音部203とを含む。表示部201及び集音部203は、図1を参照して説明した表示部201及び集音部203に相当する。また、音響出力部202は、所謂スピーカ等のような音響デバイスにより構成され、音声や音響を出力する。
また、入出力装置20は、検知部205及び撮像部207のうち少なくともいずれかを含んでもよい。検知部205及び撮像部207は、ユーザの頭部や手等の部位の動作を検出するための構成である。
例えば、検知部205は、加速度センサがジャイロセンサ(角速度センサ)等のような各種センサを含み、当該センサによりユーザの部位の位置や向きの変化を検出し、当該検出結果を当該部位の動作を認識するための情報として取得する。より具体的には、検知部205は、例えば、入出力装置20の筐体の位置や向きの変化を検出し、当該検出結果を、当該入出力装置20を装着するユーザの頭部の動作を認識するための情報として取得してもよい。
また、他の一例として、検知部205は、ユーザの手に装着された(もしくは、手に把持された)装置のセンサによる当該装置の位置や向きの変化の検出結果を、ユーザの手の動作の認識するための情報として取得してもよい。
また、撮像部207は、ユーザの手等の部位を被写体として画像を撮像することで、当該画像を、当該画像中に被写体として撮像された部位の動作を認識するための情報として取得する。また、撮像部207は、所謂デプスセンサ等のように、被写体の奥行き方向を検知可能に構成されてもよい。また、撮像部207は、ユーザの眼の画像を撮像することで、当該画像を、所謂アイトラッキング技術に基づきユーザの視線方向を検出するための情報として取得してもよい。
次いで、情報処理装置10の構成に着目する。情報処理装置10は、出力制御部101と、音響処理部103と、ジェスチャ認識処理部105と、制御部110とを含む。また、制御部110は、コンテンツ制御部111と、予測部113と、タイミング制御部115とを含む。
出力制御部101は、入出力装置20を介したユーザへの情報の提示を制御するための構成である。例えば、出力制御部101は、後述する制御部110(より具体的には、コンテンツ制御部111)によるコンテンツの再生結果に基づき、画像を表示部201に表示させる。これにより、例えば、当該コンテンツにより提供される仮想空間内の映像が、表示部201を介してユーザに提示される。また、出力制御部101は、制御部110によるコンテンツの再生結果に基づき、音声等の音響を音響出力部202に出力させる。これにより、例えば、当該コンテンツにより提供される仮想空間内の音響が、音響出力部202を介してユーザに提示される。
音響処理部103は、集音部203から音響(例えば、音声等)の集音結果を取得し、当該集音結果に対して各種音響解析処理を施す。より具体的な一例として、音響処理部103は、音響の集音結果に対して所謂音声認識処理を施すことで、当該音響を文字情報に変換してもよい。また、このとき音響処理部103は、音響の集音結果に対して、所謂ビームフォーミング処理等の音響解析処理を施すことで、ユーザの音声以外の他の音響(所謂、雑音)を抑制し、当該音響解析処理の結果に対して音声認識処理を施してもよい。そして、音響処理部103は、音声認識等の音響処理の結果を制御部110に出力する。
また、音響処理部103は、後述する制御部110(より具体的には、タイミング制御部115)からの制御に基づき、音声認識の対象となる音響(換言すると、音響の集音結果)の取得に係る処理のタイミングや、音声認識等の音響解析の処理のタイミングが制御されてもよい。
ジェスチャ認識処理部105は、入出力装置20により取得された情報に基づき、ユーザの手等の部位の動作(即ち、ジェスチャ)を認識するための構成である。
例えば、ジェスチャ認識処理部105は、検知部205から、入出力装置20の筐体の位置や向きの変化の検出結果に基づく、当該入出力装置20を装着するユーザの頭部の動作を認識するための情報を取得してもよい。これにより、ジェスチャ認識処理部105は、検知部205から取得した情報に基づき、ユーザの頭部の動作(例えば、位置や向きの変化)を認識し、ひいては、当該頭部の動作の認識結果に基づき、ユーザの視線方向を特定することも可能となる。
また、ジェスチャ認識処理部105は、検知部205から、ユーザの手に装着された装置のセンサによる当該装置の位置や向きの変化の検出結果に基づく、当該手の動作の認識するための情報を取得してもよい。これにより、ジェスチャ認識処理部105は、検知部205から取得した情報に基づき、ユーザの手の動作(即ち、位置や向きの変化)を認識することが可能となる。
また、他の一例として、ジェスチャ認識処理部105は、撮像部207により撮像された画像を取得し、取得した画像に対して画像解析処理を施すことで当該画像中に撮像された部位の動作を認識してもよい。また、このときジェスチャ認識処理部105は、所謂デプスセンサとして構成された撮像部207により撮像された画像に基づき、当該画像中に撮像された部位の奥行き方向の位置を認識してもよい。
より具体的には、ジェスチャ認識処理部105は、取得した画像中から対象となる部位(例えば、手)の形状的な特徴を抽出することで、当該抽出結果に基づき、当該画像中に撮像された部位を抽出する。これにより、ジェスチャ認識処理部105は、撮像部207に対する当該部位の相対的な位置及び向きを認識することが可能となる。また、ジェスチャ認識処理部105は、撮像部207の位置や向きを認識することで、当該撮像部207に撮像された画像中の部位の絶対位置を認識してもよい。例えば、ジェスチャ認識処理部105は、入出力装置20の位置や向きの認識結果(換言すると、ユーザの視線方向の認識結果)に基づき、当該入出力装置20に設置された撮像部207の位置や向きを認識することが可能である。
また、ジェスチャ認識処理部105は、撮像部207からユーザの眼の画像の撮像結果を取得し、取得した画像を基に、所謂アイトラッキング技術に基づき、ユーザの眼の動作を認識してもよい。このとき、ジェスチャ認識処理部105は、ユーザの頭部の動作の認識結果と、ユーザの眼の動作の認識結果とに基づき、ユーザの視線方向をより詳細に特定してもよい。
また、他の一例として、ジェスチャ認識処理部105は、取得した画像に対して画像解析を施すことで、当該画像から抽出された部位(例えば、手)の形状の変化を、当該部位の動作として認識してもよい。
そして、ジェスチャ認識処理部105は、ユーザの頭部や手等の部位の動作やユーザの眼の動作の認識結果を示す情報を制御部110に出力する。これにより、制御部110は、当該部位の動作の認識結果や、眼の動作の認識結果等に基づき、ユーザによる操作の内容(換言すると、ユーザからの指示の内容)を認識することが可能となる。
コンテンツ制御部111は、前述したコンテンツ制御装置30に相当する構成である。具体的には、コンテンツ制御部111は、入出力装置20を介したユーザからの指示に基づき、対応するコンテンツのデータを記憶部13から読み出し、当該コンテンツを再生する。そして、コンテンツ制御部111は、当該コンテンツの再生結果に基づく画像や音響等の出力情報を、出力制御部101に出力する。
また、このときコンテンツ制御部111は、再生対象となるコンテンツの種別や内容に応じて、VR技術やAR技術等に基づく処理を実行してもよい。
また、コンテンツ制御部111は、ジェスチャ認識処理部105から、ユーザの頭部や手等の部位の動作の認識結果や、眼の動作の認識結果を示す情報を取得し、取得した情報に基づき、ユーザによる操作の内容を認識してもよい。
例えば、コンテンツ制御部111は、ユーザの頭部の動作の認識結果に基づき、当該ユーザの視線方向の変化を認識してもよい。また、このときコンテンツ制御部111は、ユーザの頭部の動作の認識結果と、当該ユーザの眼の動作の認識結果とを組み合わせることで、当該ユーザの視線方向の変化をより詳細に認識してもよい。そして、コンテンツ制御部111は、例えば、VR技術に基づき、ユーザの視線方向が示す仮想空間上の映像を生成し、生成した仮想空間内の映像を、出力制御部101に出力してもよい。このような構成により、例えば、ユーザは、見回すように視線方向を移動させることで、自身の視線方向に応じた仮想空間内の映像を、入出力装置20を介して視認することが可能となる。
また、コンテンツ制御部111は、ユーザの手の動作の認識結果に基づき、当該手を使用した操作の内容(例えば、ジェスチャ入力に基づくユーザの指示内容)を認識し、認識結果に応じた処理を実行してもよい。
具体的な一例として、コンテンツ制御部111は、VR技術に基づき、仮想空間内におけるユーザの手U11による仮想オブジェクトV11に対する操作の内容を認識し、当該操作の内容に応じた処理を実行してもよい。また、他の一例として、コンテンツ制御部111は、AR技術に基づき、ユーザに提示した仮想オブジェクトに対する、ユーザの手(実空間上の手)による操作の内容を認識し、当該操作の内容に応じた処理を実行してもよい。また、他の一例として、コンテンツ制御部111は、ユーザの手の形状を認識し、当該形状の認識結果に応じた処理を実行してもよい。
予測部113は、ジェスチャ認識処理部105から、ユーザの頭部や手等の部位の動作や、ユーザの眼の動作等のジェスチャの認識結果を示す情報を取得し、取得した情報に基づき、以降に入力されるジェスチャ(ひいては、ジェスチャに基づく操作)を予測する。
例えば、予測部113は、ユーザの手の位置や向きの変化に基づき、手が移動する方向や速度を認識し、認識結果に基づき、以降における当該手の動作や、当該手の移動先(即ち、位置)を予測してもよい。また、予測部113は、ユーザの手の形状の変化に基づき、変化後の当該手の形状を予測してもよい。また、予測部113は、ユーザの手の位置、向き、動作、及び形状等のうち少なくともいずれかの変化を観測データとしてカルマンフィルタ等を適用することで、以降における当該手の位置、向き、動作、形状等を予測してもよい。これは、ユーザの頭部の動作や、ユーザの眼の動作等を対象とした場合についても同様である。
また、他の一例として、予測部113は、ユーザから入力されたジェスチャの認識結果に基づくオブジェクトの動作に応じて、以降における当該オブジェクトの動作(ひいては、当該オブジェクトを動作させるための操作の内容)を予測してもよい。
具体的な一例として、予測部113は、ユーザにより入力されたジェスチャの認識結果に応じた仮想空間における仮想的な手U11の位置や向きの変化に基づき、手U11が移動する方向や速度を認識し、認識結果に基づき、以降における当該手U11の移動先を予測してもよい。また、予測部113は、仮想的な手U11の形状の変化に基づき、変化後の当該手の形状を予測してもよい。また、予測部113は、仮想的な手U11の位置、向き、形状等の変化を観測データとしてカルマンフィルタ等を適用することで、以降における当該手U11の位置、向き、形状等を予測してもよい。
以上のようにして、予測部113は、ユーザにより入力されたジェスチャ(例えば、頭部や手等の部位の動作)の認識結果、または、当該認識結果に基づくオブジェクトの動作に応じて、以降に入力されるジェスチャに基づく操作を予測する。そして、予測部113は、操作の予測結果を示す情報をタイミング制御部115に出力する。
タイミング制御部115は、予測部113から、以降に入力されるジェスチャに基づく操作の予測結果を示す情報を取得し、当該予測結果に基づき、各種処理の実行を制御する。例えば、タイミング制御部115は、当該予測結果が示す操作が、音声認識処理の実行を指示するための操作であることを認識した場合には、当該操作の実行に先駆けて音声認識処理(もしくは、音声認識のための音響の取得に係る処理)の開始を、音響処理部103に指示する。また、タイミング制御部115は、音声認識処理の開始を指示した後に、続いて取得した予測結果が示す操作が、音声認識処理の実行を指示するための操作でないことを認識した場合(即ち、従前の予測が外れた場合)には、当該音声認識処理の終了を音響処理部103に指示してもよい。
なお、予測部113及びタイミング制御部115の動作、即ち、ユーザの動作の予測に係る処理と、当該予測結果に基づく各種処理の制御に係る処理とのより具体的な一例については、実施例として別途後述する。
以上、図8を参照して、本実施形態に係る情報処理システム1の機能構成の一例について説明した。なお、上記に説明した機能構成はあくまで一例であり、必ずしも図8に示す例には限定されない。具体的な一例として、前述したように、情報処理装置10と入出力装置20とが一体的に構成されていてもよい。また、他の一例として、情報処理装置10の各構成のうち一部の構成が、情報処理装置10の外部に設けられていてもよい。より具体的な一例として、制御部110に相当する構成(即ち、コンテンツ制御部111、予測部113、タイミング制御部115)のうち少なくとも一部が、情報処理装置10とネットワークを介して接続されたサーバに設けられていてもよい。
<2.3.処理>
次いで、図9を参照して、本実施形態に係る情報処理システム1の一連の動作の流れの一例について、特に、情報処理装置10の動作に着目して説明する。図9は、本実施形態に係る情報処理システム1の一連の動作の流れの一例について示したフローチャートである。なお、本説明では、情報処理装置10が、ユーザの頭部や手等の部位の動作の認識結果に基づき、以降に入力されるジェスチャ(即ち、当該部位の動作)に基づく操作を予測する場合に着目して、情報処理システム1の一連の動作の流れの一例について説明する。
ジェスチャ認識処理部105は、検知部205による検知結果を示す情報や、撮像部207により撮像された画像に基づき、ユーザの頭部や手等の部位の動作を認識し、認識結果を示す情報を制御部110に出力する。制御部110は、ユーザの頭部や手等の部位の動作の認識結果を示す情報に基づき、以降に入力されるジェスチャ(即ち、部位の動作)に基づく操作を予測する(S101)。
そして、制御部110は、操作の予測結果が音声認識を開始するための所定の条件を満たしており(S103、YES)、かつ、音声認識処理が開始されていない場合には(S109、NO)、当該音声認識処理の開始を音響処理部103に指示する。この指示を受けて、音響処理部103は、集音部203からの音響(例えば、音声等)の集音結果の取得や、当該集音結果に基づく音声認識処理を開始する(S111)。なお、このとき既に集音結果の取得に係る処理や音声認識処理が開始されている場合には(S109、YES)、制御部110は、音響処理部103に対して音声認識処理の開始を指示しなくてもよい。
また、制御部110は、操作の予測結果が所定の条件を満たしておらず(S103、NO)、かつ、従前の予測結果に基づき音声認識処理が開始されている場合には(S105、YES)には、当該音声認識処理の終了を音響処理部103に指示する。この指示を受けて、音響処理部103は、集音部203からの音響の集音結果の取得や、当該集音結果に対する音声認識処理を終了する(S107)。なお、このとき、集音結果の取得に係る処理や音声認識処理が開始されていない場合には(S105、NO)、制御部110は、音響処理部103に対して音声認識処理の終了を指示しなくてもよい。
制御部110は、以上の動作を、ユーザにより入力されたジェスチャに基づく操作(即ち、頭部や手等の部位の動作の認識結果に基づく操作)が、当該ユーザが音声認識の開始を指示していることを示す所定の条件を満たすまで継続する(ステップS113、NO)。そして、制御部110は、ユーザにより入力されたジェスチャに基づく操作が所定の条件を満たした場合には(S113、YES)、実行された音声認識処理の結果に応じた処理を実行する(S115)。
なお、ステップS115以降においては、開始された音声認識処理を終了させるための仕組みについては、特に限定されない。具体的な一例として、情報処理装置10は、ユーザからの明示的な指示を受けて、音響処理部103に対して音声認識処理の終了を指示してもよい。また、他の一例として、情報処理装置10は、無音区間の検出等によりユーザの発話が終了したことを検知した場合に、音響処理部103に対して音声認識処理の終了を指示してもよい。
なお、ステップS101〜S113で示された一連の処理においては、情報処理装置10は、ステップS107で示された処理においてのみ、音響処理部103に対して音声認識処理の終了を指示するように構成されていてもよい。この場合には、情報処理装置10は、ユーザから音声認識処理の終了を明示的に指示された場合においても、ステップS107で示された処理が実行されない限りは、音響処理部103に音声認識処理を継続させてもよい。
以上、図9を参照して、本実施形態に係る情報処理システム1の一連の動作の流れの一例について、特に、情報処理装置10の動作に着目して説明した。
<2.4.実施例>
次いで、本実施形態に係る情報処理システム1の実施例として、情報処理装置10が、ジェスチャ入力に基づく操作を予測し、予測結果に応じて処理を実行する動作の一例について説明する。
(オブジェクトとの距離に基づく予測)
例えば、図10は、本実施形態の実施例に係る情報処理装置10の動作の一例について説明するための説明図である。図10は、図5を参照して説明した例のように、ユーザが、ジェスチャ入力により仮想空間内の仮想的な手U11を操作し、当該手U11をオブジェクトV11に重ねることで、音声認識処理の開始を指示する場合の一例を示している。図10に示す例では、情報処理装置10は、手U11とオブジェクトV11との間の距離d0を算出する。そして、情報処理装置10は、距離d0の算出結果に基づき、以降に入力されるジェスチャに応じて、手U11がオブジェクトV11の位置に移動するか否か(ひいては、手U11によりオブジェクトV11に対して操作が行われるか否か)を予測する。
より具体的には、情報処理装置10は、手U11とオブジェクトV11との間の距離d0が、所定の距離d1以下となった場合には、手U11によりオブジェクトV11に対して操作が行われるものと予測する。換言すると、図10において、情報処理装置10は、参照符号V13で示された領域内に手U11が進入したことを認識した場合に、当該手U11によりオブジェクトV11に対して操作が行われるものと予測する。
そして、情報処理装置10は、手U11によりオブジェクトV11に対して操作が行われることを予測した場合に、当該オブジェクトV11に関連付けられた音声認識処理を開始する。
なお、図10に示す例では、手U11とオブジェクトV11との間の距離d0が、距離d1以下となり、音声認識処理が起動されたとしても、以降に、手U11がオブジェクトV11の位置に移動しない状況も想定され得る。このような状況を想定し、例えば、情報処理装置10は、手U11とオブジェクトV11との間の距離d0が、距離d1を超えたことを認識した場合に、実行中の音声認識処理を終了してもよい。また、この場合には、情報処理装置10は、終了させた音声認識処理の結果に基づく処理を実行しなくてもよいし、当該認識結果を棄却してもよい。
(速度ベクトルに基づく予測)
また、図11は、本実施形態の実施例に係る情報処理装置10の動作の他の一例について説明するための説明図である。図11は、図5を参照して説明した例のように、ユーザが、ジェスチャ入力により仮想空間内の仮想的な手U11を操作し、当該手U11をオブジェクトV11に重ねることで、音声認識処理の開始を指示する場合の一例を示している。図11に示す例では、情報処理装置10は、手U11の動く方向と、当該手U11の動く速度とに基づき速度ベクトルV1を算出する。そして、情報処理装置10は、速度ベクトルV1の算出結果に基づき、以降に入力されるジェスチャに応じて、手U11がオブジェクトV11の位置に移動するか否か(ひいては、手U11によりオブジェクトV11に対して操作が行われるか否か)を予測する。
例えば、図11に示す角度θは、手U11とオブジェクトV11とを結ぶ直線と、当該手U11が移動する方向との間の角度を示している。即ち、この角度θが小さいほど、手U11は、オブジェクトV11の方向に向けて移動している可能性が高くなる。このような特性を利用し、情報処理装置10は、速度ベクトルV1の向いている方向(換言すると、角度θ)と、当該速度ベクトルV1の大きさ(即ち、手U11の移動速度)とに基づき、以降に手U11が移動する位置(即ち、手U11の移動先)を予測する。これにより、情報処理装置10は、手U11の移動先の予測結果に基づき、当該手U11によりオブジェクトV11に対して操作が行われるか否かを予測することが可能となる。
そして、情報処理装置10は、手U11によりオブジェクトV11に対して操作が行われることを予測した場合に、当該オブジェクトV11に関連付けられた音声認識処理を開始する。
なお、図11に示す例では、速度ベクトルV1に基づく手U11の移動先の予測結果に基づき音声認識処理が起動されたとしても、以降に、手U11がオブジェクトV11の位置に移動しない状況も想定され得る。このような状況を想定し、例えば、情報処理装置10は、新たに算出された速度ベクトルV1に基づき、手U11がオブジェクトV11から離間することを認識した場合に、実行中の音声認識処理を終了してもよい。また、この場合には、情報処理装置10は、終了させた音声認識処理の結果に基づく処理を実行しなくてもよいし、当該認識結果を棄却してもよい。
(形状に基づく予測)
また、図12は、本実施形態の実施例に係る情報処理装置10の動作の他の一例について説明するための説明図である。図12は、ユーザは、ジェスチャ入力により仮想空間内の仮想的な手U11を操作し、当該手U11によりオブジェクトV11を掴むことで、音声認識処理の開始を指示する場合の一例を示している。図12に示す例では、情報処理装置10は、手U11の形状を認識し、当該形状の認識結果に応じて、以降に入力されるジェスチャに応じて、手U11の形状がオブジェクトV11を掴む形状になるか否か(ひいては、手U11によりオブジェクトV11に対して操作が行われるか否か)を予測する。
具体的には、情報処理装置10は、手U11の形状の認識結果と、所定の形状(即ち、手U11がオブジェクトを掴む際の形状)との類似度を算出する。より具体的な一例として、情報処理装置10は、手U11の形状の認識結果に基づき特徴量を算出し、所定の形状を示す特徴量との比較結果に基づき類似度を算出してもよい。そして、情報処理装置10は、類似度の算出結果が閾値以上となったことを認識した場合(例えば、手U11の形状が、オブジェクトを掴む際の形状に概ね類似している場合)に、手U11によりオブジェクトV11に対して操作が行われるものと予測する。
そして、情報処理装置10は、手U11によりオブジェクトV11に対して操作が行われることを予測した場合に、当該オブジェクトV11に関連付けられた音声認識処理を開始する。
なお、図12に示す例では、手U11の形状の予測結果に基づき音声認識処理が起動されたとしても、以降に、手U11の形状が、所定の形状(例えば、オブジェクトを掴む形状)とならない状況も想定され得る。このような状況を想定し、例えば、情報処理装置10は、手U11の形状の認識結果と、所定の形状との類似度が閾値未満となったことを認識した場合に、実行中の音声認識処理を終了すればよい。また、この場合には、情報処理装置10は、終了させた音声認識処理の結果に基づく処理を実行しなくてもよいし、当該認識結果を棄却してもよい。
(カルマンフィルタに基づく予測)
また、図13は、本実施形態の実施例に係る情報処理装置10の動作の他の一例について説明するための説明図である。図13は、図5を参照して説明した例のように、ユーザが、ジェスチャ入力により仮想空間内の仮想的な手U11を操作し、当該手U11をオブジェクトV11に重ねることで、音声認識処理の開始を指示する場合の一例を示している。図13に示す例では、情報処理装置10は、仮想的な手U11の位置や向きの変化を観測データとしてカルマンフィルタを適用することで、以降に入力されるジェスチャに応じて、手U11がオブジェクトV11の位置に移動するか否か(ひいては、手U11によりオブジェクトV11に対して操作が行われるか否か)を予測する。
例えば、図13において、参照符号V15は、カルマンフィルタの適用結果に基づく、手U11の移動先の予測結果を示している。即ち、図13に示すように、情報処理装置10は、手U11の移動先の予測結果V15が、オブジェクトV11の位置と略一致する場合に、手U11によりオブジェクトV11に対して操作が行われるものと予測する。
そして、情報処理装置10は、手U11によりオブジェクトV11に対して操作が行われることを予測した場合に、当該オブジェクトV11に関連付けられた音声認識処理を開始する。
なお、図13に示す例では、図10及び図11に示す例と同様に、以降に、手U11がオブジェクトV11の位置に移動しない状況も想定され得る。このような状況を想定し、例えば、情報処理装置10は、カルマンフィルタの適用結果に基づく手U11の移動先の予測結果を基に、手U11がオブジェクトV11の位置に移動しないことを予測した時点で、実行中の音声認識処理を終了すればよい。また、この場合には、情報処理装置10は、終了させた音声認識処理の結果に基づく処理を実行しなくてもよいし、当該認識結果をは棄却してもよい。
以上、図10〜図13を参照して、本実施形態に係る情報処理システム1の実施例として、情報処理装置10が、ジェスチャ入力に基づく操作を予測し、予測結果に応じて処理を実行する動作の一例について説明した。なお、上記に説明した例はあくまで一例であり、情報処理装置10が、ジェスチャの認識結果に基づき、以降に入力されるジェスチャに基づく操作を予測可能であれば、その方法は特に限定されない。また、上記に説明した予測方法の例のうち2以上の予測方法を組み合わせてもよい。例えば、情報処理装置10は、手U11とオブジェクトV11の距離d0の算出結果と、手U11の速度ベクトルV1の算出結果とを利用することで、手U11がオブジェクトV11の位置に移動するか否かの予測の精度を向上させてもよい。
また、情報処理装置10は、ジェスチャ入力に基づく操作の予測結果に応じて各種情報をユーザに通知してもよい。例えば、情報処理装置10は、ジェスチャ入力に基づく操作の予測結果に基づき、音声認識のための音響の取得状況や、当該音声認識の状況を、入出力装置20を介してユーザに通知してもよい。より具体的な一例として、情報処理装置10は、ジェスチャ入力に基づく操作の予測結果に基づき、音声認識を開始した場合に、当該音声認識を開始したことを示す情報をユーザに通知してもよい。なお、情報処理装置10が、情報を通知する方法や、通知するための媒体は特に限定されない。具体的な一例として、情報処理装置10は、入出力装置20を介してユーザに提示する画像(画面)上に、通知対象となる情報を視覚化した表示情報を提示することで、ユーザに対して情報を通知してもよい。また、他の一例として、情報処理装置10は、通知対象となる情報を示す音声や音響を、スピーカ等の音響デバイスを介して出力することで、ユーザに対して情報を通知してもよい。
また、上述した例では、VR技術に基づき、仮想的な手U11によるオブジェクトV11に対する操作を予測する場合に着目して説明したが、必ずしも同態様のみには限定されない。具体的な一例として、AR技術に基づき、実空間上に重畳された仮想的なオブジェクトに対する、実空間における手等の部位による操作を予測する場合についても同様の制御を行うことが可能である。即ち、情報処理装置10は、手等の部位の動作を予測し、予測結果に応じて、当該オブジェクトに関連付けられた処理を実行してもよい。
<2.5.変形例1:機械学習との組み合わせの一例>
次いで、本実施形態の変形例1として、音声認識処理の結果を所謂機械学習の教師データとして蓄積する場合における制御の一例について説明する。
前述したように、本実施形態に係る情報処理システム1では、ジェスチャ入力に基づく操作を予測し、予測結果に応じて、音声認識処理の実行を指示する操作が実際に行われる前に、音声認識処理を先行して開始する。一方で、必ずしも予測通りの操作が行われるとは限らず、予測が外れた場合には、先行して開始された音声認識処理の結果は使用されない場合がある。この使用されなかった音声認識処理の結果は、実際にはユーザが音声による情報の入力を意図していないときに取得されたデータとなる。そのため、このような音声認識処理の結果を示すデータが、機械学習の教師データとして蓄積されると、当該教師データが所謂ノイズとなり、機械学習の結果に基づく予測の精度を低下させる場合も想定される。
そこで、変形例1として、ジェスチャ入力に基づく操作の予測結果に基づき取得された音声認識処理の結果を示すデータのうち、実際に使用されなかったデータが教師データとして蓄積されないように制御するための仕組みの一例について説明する。
例えば、図14は、本実施形態の変形例1に係る情報処理システム1の一連の処理の流れの一例について示したフローチャートである。図14に示すように、変形例1に係る情報処理システム1では、参照符号S213及びS217として示した、予備フラグの設定及び棄却に係る処理が追加されている点で、前述した実施形態に係る情報処理システム1の動作(図9参照)と異なる。そこで、本説明では、変形例1に係る情報処理システム1の一連の処理の流れの一例について、特に、前述した実施形態に係る情報処理システム1と異なる部分に着目して説明する。なお、前述した実施形態に係る情報処理システム1と実質的に同様の処理については、詳細な説明は省略する。
図14に示すように、変形例1に係る情報処理システム1では、情報処理装置10の制御部110は、ジェスチャ認識処理部105からユーザの頭部や手等の部位の動作の認識結果を示す情報を取得し、当該情報に基づき、以降に入力されるジェスチャに基づく操作を予測する(S201)。そして、制御部110は、操作の予測結果が音声認識を開始するための所定の条件を満たしており(S203、YES)、かつ、音声認識処理が開始されていない場合には(S209、NO)、当該音声認識処理の開始を音響処理部103に指示する(S211)。ここまでの動作については、前述した実施形態に係る情報処理装置10と同様である。
また、変形例1に係る制御部110は、音響処理部103に対して音声認識処理の開始を指示した場合には、当該音声認識処理の結果を示すデータに対して予備フラグを設定する(S213)。そして、制御部110は、ユーザにより入力されたジェスチャに基づく操作が所定の条件を満たした場合には(S215、YES)、実行された音声認識処理の結果を示すデータに対して設定された予備フラグを棄却し(S217)、当該音声認識処理の結果に応じた処理を実行する(S219)。なお、予備フラグの設定に係る条件が、「第1の条件」の一例に相当する。また、予備フラグの棄却に係る条件が、「第2の条件」の一例に相当する。
一方で、制御部110は、操作の予測結果が所定の条件を満たしておらず(S203、NO)、かつ、従前の予測結果に基づき音声認識処理が開始されている場合には(S205、YES)には、当該音声認識処理の終了を音響処理部103に指示する(S207)。この場合には、実行された音声認識処理の結果を示すデータに対して、予備フラグが設定されたままとなる。
そして、本実施形態に係る情報処理装置10は、音声認識処理の結果として取得された各データのうち、予備フラグが設定されていないデータのみを教師データとして蓄積し、予備フラグが設定されたデータについては教師データとして蓄積しない。
以上のような構成により、変形例1に係る情報処理装置10は、音声認識処理の結果が使用されなかったデータ、即ち、ユーザが意図せずに取得されたデータが、機械学習の教師データとして蓄積される事態の発生を防止することが可能となる。
以上、本実施形態の変形例1として、音声認識処理の結果を所謂機械学習の教師データとして蓄積する場合における制御の一例について説明した。
<2.6.変形例2:予測に係る処理の最適化>
次いで、本実施形態の変形例2として、ジェスチャ入力に基づく操作の予測に係る処理を最適化するための制御の一例について説明する。
ジェスチャ入力等のようにユーザの動作の認識結果を当該ユーザからの入力情報として利用する場合には、マウスやコントローラ等の入力デバイスを介した操作に比べて、取得される入力情報に、ユーザの身体的特徴や癖等の影響によるばらつきが生じる場合がある。特に、本実施形態に係る情報処理システム1では、例えば、ジェスチャ入力に基づく操作を予測することで、実際に操作が行われる前に音声認識処理等を先行して起動する。そのため、例えば、ユーザの身体的特徴や癖等が操作の予測に影響し、ユーザの意図に反して音声認識処理が起動される状況や、予測よりもユーザが早く発話を開始し、結果として音声認識に失敗する場合が想定され得る。このような状況下においては、例えば、先行して起動された音声認識処理の結果が、情報処理装置10により使用されない事態や、音声認識処理の結果がユーザの意図に沿わずに棄却される事態等の発生が想定される。
そこで、変形例2に係る情報処理装置10は、操作の予測結果に基づき起動した音声認識処理の結果を使用しない事態や、ユーザにより音声認識処理の結果が棄却される事態が頻発した場合には、操作を予測するための基準(即ち、距離、速度ベクトル、類似度等のパラメータに対する判定基準)を制御する。なお、以降の説明では、このジェスチャ入力に基づく操作を予測するための基準を、「予測量」とも称する。また、ジェスチャ入力に基づく操作を予測するための基準(即ち、予測量)が、「第3の条件」の一例に相当する。また、以降に詳細を後述する、予測量を制御するための条件が、「第4の条件」の一例に相当する。
例えば、図15は、本実施形態の変形例2に係る情報処理装置10の動作の一例について説明するための説明図である。なお、本説明では、図5を参照して説明した例のように、ユーザが、ジェスチャ入力により仮想空間内の仮想的な手U11を操作し、当該手U11をオブジェクトV11に重ねることで、音声認識処理の開始を指示するものとする。また、図15に示す例では、情報処理装置10は、図10を参照して説明した例と同様に、手U11とオブジェクトV11との間の距離d0の算出結果に基づき、以降に入力されるジェスチャに応じて、手U11がオブジェクトV11の位置に移動するか否か(ひいては、手U11によりオブジェクトV11に対して操作が行われるか否か)を予測する。そして、情報処理装置10は、手U11によりオブジェクトV11に対して操作が行われることを予測した場合(即ち、手U11がオブジェクトV11に重られることを予測した場合)に、音声認識処理を開始する。
例えば、情報処理装置10は、手U11とオブジェクトV11との間の距離d0が、所定の距離d1以下となった場合(即ち、領域V131に手U11が進入した場合)に、手U11によりオブジェクトV11に対して操作が行われるものと予測し、音声認識を開始しているものとする。
このとき、情報処理装置10は、実行した音声認識処理に対して、当該音声認識処理の結果を使用しなかった頻度や、ユーザにより当該音声認識処理の結果が棄却された頻度(以降では、これらを総じて「棄却率」とも称する)を監視する。そして、情報処理装置10は、棄却率の監視結果に応じて、予測量を制御する。
具体的な一例として、図15に示す例の場合には、情報処理装置10は、棄却率が閾値を超えた場合(即ち、音声認識処理の結果が棄却される頻度が増大した場合)に、距離d0の算出結果に基づき、手U11がオブジェクトV11の位置に移動することを予測するための予測量を、距離d1から、当該距離d1よりも長い距離d2に変更する。このような制御により、情報処理装置10は、領域V131よりもより広い領域V133に手U11が進入した場合に、手U11によりオブジェクトV11に対して操作が行われるものと予測することとなる。そのため、予測量の変更前に比べて、音声認識処理がより開始されやすくなる。
また、他の一例として、情報処理装置10は、距離d0の算出結果に基づき、手U11がオブジェクトV11の位置に移動することを予測するための予測量を、より小さい値となるように(例えば、距離d1からより短い距離となるように)制御してもよい。このような制御により、予測量の変更前に比べて、音声認識処理がより開始されにくくなる。
また、情報処理装置10は、予測量の変更後も棄却率の監視を継続し、予測量の変更前と変更後との間で棄却率を比較することで、当該比較結果に応じて当該予測量をさらに制御してもよい。具体的な一例として、情報処理装置10は、予測量の変更前の棄却率に比べて変更後の棄却率が増大した場合には、当該予測量を変更前の値に戻してもよい。また、予測量の変更前の棄却率に比べて変更後の棄却率が減少した場合には、当該予測量を維持してもよいし、変更前の予測量との差がさらに増大するように当該予測量を変更してもよい。なお、情報処理装置10は、予測量を制御する範囲をあらかじめ制限することで、当該予測量が過度に大きくなる事態(ひいては、音声認識が過度に起動しやすくなる事態)や、当該予測量が過度に小さくなる事態(ひいては、音声認識が過度に起動しにくくなる事態)の発生を防止してもよい。
また、情報処理装置10は、予測量を示す情報をユーザが識別できるように提示してもよい。例えば、情報処理装置10は、予測量の制御結果に基づき、図15に示す領域V131(または、V133)を識別可能に提示した表示情報を、ユーザに提示してもよい。このような構成により、ユーザは、音声認識等の各種処理が、どのような操作により開始されるかを視覚的に認識することが可能となる。また、情報処理装置10による制御により予測量が変化した場合においても、ユーザは、変化後の予測量を視覚的に認識することが可能となる。なお、情報処理装置10が、情報を通知する方法や、通知するための媒体が特に限定されないことは言うまでもない。
また、予測量を制御する契機は、必ずしも上記に示す例には限定されない。例えば、情報処理装置10は、各種状態の検出結果に応じて、予測量を動的に制御してもよい。
具体的な一例として、情報処理装置10は、前述した予備フラグが設定されている期間中の状態に応じて、予測量を制御してもよい。
より具体的には、予備フラグが設定された期間中における音声認識処理の結果に文字が含まれている場合(即ち、音声が認識された場合)には、ユーザが発話している状態であることが予測される。そのため、この場合には、情報処理装置10は、音声認識処理がより起動しやすくなるように予測量を制御してもよい。例えば、図15に示す例の場合には、情報処理装置10は、距離d0の算出結果に基づき、手U11がオブジェクトV11の位置に移動することを予測するための予測量を、より大きい値となるように(例えば、距離d1及びd2のうち、より長い距離d2となるように)制御してもよい。このような制御により、予測量の変更前に比べて、音声認識処理がより開始されにくくなる。
また、予備フラグが設定された期間中における音声認識処理の結果に文字が含まれていない場合には、ユーザが発話していない状態であることが予測される。そのため、この場合には、情報処理装置10は、音声認識処理がより起動しにくくなるように予測量を制御してもよい。例えば、図15に示す例の場合には、情報処理装置10は、距離d0の算出結果に基づき、手U11がオブジェクトV11の位置に移動することを予測するための予測量を、より小さい値となるように(例えば、距離d1及びd2のうち、より短い距離d1となるように)制御してもよい。このような制御により、予測量の変更前に比べて、音声認識処理がより開始されにくくなる。
また、他の一例として、情報処理装置10は、ユーザの操作状態に応じて、予測量を制御してもよい。例えば、図16は、本実施形態の変形例2に係る情報処理装置10の動作の他の一例について説明するための説明図である。図16は、ユーザが左右の手それぞれを使用したジェスチャ入力により、仮想空間内における仮想的な左手U11と右手U13とをそれぞれ操作することで、仮想空間内のオブジェクトを操作する場合の一例を示している。なお、本説明では、図5を参照して説明した例のように、ユーザが、ジェスチャ入力により仮想空間内の仮想的な手U11(もしくは、手U13)を操作し、当該手U11をオブジェクトV11に重ねることで、音声認識処理の開始を指示するものとする。また、図15に示す例と同様に、手U11(もしくは、手U13)とオブジェクトV11との間の距離d0の算出結果に基づき、以降に入力されるジェスチャに応じて、手U11がオブジェクトV11の位置に移動するか否か(ひいては、手U11によりオブジェクトV11に対して操作が行われるか否か)を予測する。
図16に示す例では、情報処理装置10は、仮想的な左手U11及び右手U13のうち、オブジェクトV11のより近くに位置する左手U11により、当該オブジェクトV11に対して操作が行われることを想定し、左手U11側を、動作の予測の対象とする。このとき、情報処理装置10は、予測の対象とは異なる右手U13の状態(例えば、動作)に応じて、予測量を制御してもよい。
より具体的には、右手U13の動きが大きい場合には、手を激しく動かすような操作(例えば、ゲームの操作等)を行っている場合が想定され、当該操作とは異なる音声認識処理の開始に係る操作(即ち、オブジェクトV11に対する操作)が行われる可能性が低いものと推測することが可能である。そのため、例えば、情報処理装置10は、予測の対象とは異なる右手U13の動く速さ、動く頻度、及び動作範囲の少なくともいずれかが閾値以上の場合には、音声認識処理がより起動しにくくなるように予測量を制御してもよい。より具体的には、情報処理装置10は、距離d0の算出結果に基づき、手U11がオブジェクトV11の位置に移動することを予測するための予測量を、より小さい値となるように(例えば、距離d1及びd2のうち、より短い距離d1となるように)制御してもよい。このような制御により、予測量の変更前に比べて、音声認識処理がより開始されにくくなる。
また、右手U13の動きが小さい場合には、特に他の操作を行っていない場合が想定され、右手U13を動きが大きい場合に比べて、音声認識処理の開始に係る操作(即ち、オブジェクトV11に対する操作)が行われる可能性が高いものと推測することが可能である。そのため、例えば、情報処理装置10は、予測の対象とは異なる右手U13の動く速さ、動く頻度、及び動作範囲の少なくともいずれかが閾値未満の場合には、音声認識処理がより起動しやすくなるように予測量を制御してもよい。より具体的には、情報処理装置10は、距離d0の算出結果に基づき、手U11がオブジェクトV11の位置に移動することを予測するための予測量を、より大きい値となるように(例えば、距離d1及びd2のうち、より長い距離d2となるように)制御してもよい。このような制御により、予測量の変更前に比べて、音声認識処理がより開始されやすくなる。
以上、図15及び図16を参照して、本実施形態の変形例2として、ジェスチャ入力に基づく操作を予測に係る動作を最適化するための制御の一例について説明した。
<3.ハードウェア構成例>
次に、図17を参照して、本開示の一実施形態にかかる情報処理装置10のハードウェア構成について説明する。図17は、本開示の一実施形態にかかる情報処理装置10のハードウェア構成例を示すブロック図である。
図17に示すように、情報処理装置10は、CPU(Central Processing unit)901、ROM(Read Only Memory)903、およびRAM(Random Access Memory)905を含む。また、情報処理装置10は、ホストバス907、ブリッジ909、外部バス911、インターフェース913、入力装置915、出力装置917、ストレージ装置919、ドライブ921、接続ポート923、通信装置925を含んでもよい。さらに、情報処理装置10は、必要に応じて、撮像装置933、およびセンサ935を含んでもよい。情報処理装置10は、CPU901に代えて、またはこれとともに、DSP(Digital Signal Processor)またはASIC(Application Specific Integrated Circuit)と呼ばれるような処理回路を有してもよい。
CPU901は、演算処理装置および制御装置として機能し、ROM903、RAM905、ストレージ装置919、またはリムーバブル記録媒体927に記録された各種プログラムに従って、情報処理装置10内の動作全般またはその一部を制御する。ROM903は、CPU901が使用するプログラムや演算パラメータなどを記憶する。RAM905は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一次記憶する。CPU901、ROM903、およびRAM905は、CPUバスなどの内部バスにより構成されるホストバス907により相互に接続されている。さらに、ホストバス907は、ブリッジ909を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス911に接続されている。なお、前述した制御部110は、例えば、CPU901により実現され得る。
入力装置915は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチおよびレバーなど、ユーザによって操作される装置である。入力装置915は、ユーザの音声を検出するマイクを含んでもよい。入力装置915は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置10の操作に対応した携帯電話などの外部接続機器929であってもよい。入力装置915は、ユーザが入力した情報に基づいて入力信号を生成してCPU901に出力する入力制御回路を含む。ユーザは、この入力装置915を操作することによって、情報処理装置10に対して各種のデータを入力したり処理動作を指示したりする。また、後述する撮像装置933も、ユーザの手の動きなどを撮像することによって、入力装置として機能し得る。なお、前述した集音部203は、例えば、入力装置915により実現され得る。
出力装置917は、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。出力装置917は、例えば、LCD(Liquid Crystal Display)、PDP(Plasma Display Panel)、有機EL(Electro−Luminescence)ディスプレイ、プロジェクタなどの表示装置、ホログラムの表示装置、スピーカおよびヘッドホンなどの音声出力装置、ならびにプリンタ装置などでありうる。出力装置917は、情報処理装置10の処理により得られた結果を、テキストまたは画像などの映像として出力したり、音声または音響などを出力したりする。また、出力装置917は、周囲を明るくするためライトなどを含んでもよい。なお、前述した表示部201や音響出力部202は、例えば、出力装置917により実現され得る。
ストレージ装置919は、情報処理装置10の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置919は、例えば、HDD(Hard Disk Drive)などの磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。このストレージ装置919は、CPU901が実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。なお、前述した記憶部13は、例えば、ストレージ装置919により実現され得る。
ドライブ921は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体927のためのリーダライタであり、情報処理装置10に内蔵、あるいは外付けされる。ドライブ921は、装着されているリムーバブル記録媒体927に記録されている情報を読み出して、RAM905に出力する。また、ドライブ921は、装着されているリムーバブル記録媒体927に記録を書き込む。
接続ポート923は、機器を情報処理装置10に直接接続するためのポートである。接続ポート923は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)ポートなどでありうる。また、接続ポート923は、RS−232Cポート、光オーディオ端子、HDMI(登録商標)(High−Definition Multimedia Interface)ポートなどであってもよい。接続ポート923に外部接続機器929を接続することで、情報処理装置10と外部接続機器929との間で各種のデータが交換されうる。
通信装置925は、例えば、通信ネットワーク931に接続するための通信デバイスなどで構成された通信インターフェースである。通信装置925は、例えば、有線または無線LAN(Local Area Network)、Bluetooth(登録商標)、またはWUSB(Wireless USB)用の通信カードなどでありうる。また、通信装置925は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、または、各種通信用のモデムなどであってもよい。通信装置925は、例えば、インターネットや他の通信機器との間で、TCP/IPなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置925に接続される通信ネットワーク931は、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内LAN、赤外線通信、ラジオ波通信または衛星通信などである。
撮像装置933は、例えば、CCD(Charge Coupled Device)またはCMOS(Complementary Metal Oxide Semiconductor)などの撮像素子、および撮像素子への被写体像の結像を制御するためのレンズなどの各種の部材を用いて実空間を撮像し、撮像画像を生成する装置である。撮像装置933は、静止画を撮像するものであってもよいし、また動画を撮像するものであってもよい。なお、前述した撮像部207は、例えば、撮像装置933により実現され得る。
センサ935は、例えば、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、音センサなどの各種のセンサである。センサ935は、例えば情報処理装置10の筐体の姿勢など、情報処理装置10自体の状態に関する情報や、情報処理装置10の周辺の明るさや騒音など、情報処理装置10の周辺環境に関する情報を取得する。また、センサ935は、GPS(Global Positioning System)信号を受信して装置の緯度、経度および高度を測定するGPSセンサを含んでもよい。なお、前述した検知部205は、例えば、センサ935により実現され得る。
以上、情報処理装置10のハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。かかる構成は、実施する時々の技術レベルに応じて適宜変更されうる。
また、コンピュータに内蔵されるプロセッサ、メモリ、及びストレージなどのハードウェアを、上記した情報処理装置10が有する構成と同等の機能を発揮させるためのプログラムも作成可能である。また、当該プログラムを記録した、コンピュータに読み取り可能な記憶媒体も提供され得る。
<4.むすび>
以上、説明したように、本実施形態に係る情報処理システム1において、情報処理装置10は、ジェスチャの検出結果に応じた入力情報に基づき、以降に入力されるジェスチャに応じた操作を予測する。そして、情報処理装置10は、操作の予測結果に基づき、音声等のような他の入力情報の取得に関する処理を制御する。このような構成により、本実施形態に係る情報処理システム1は、例えば、音声認識のための音響の取得に係る処理(ひいては、音声認識処理)を、予測した操作が実際に行われる前に先行して開始することが可能となる。そのため、情報処理システム1は、例えば、音声認識を開始するための操作が行われてから、音声認識のための音響の取得に係る処理を開始する場合に比べて、音声認識処理をより早いタイミングで開始することが可能となる。即ち、本実施形態に係る情報処理システム1に依れば、ジェスチャの検出結果を、音声等のような他の入力情報の取得に利用するような状況下においても、ジェスチャの認識に伴う遅延の影響をより緩和し、より好適な態様で当該他の入力情報を取得することが可能となる。
なお、上述した例では、音声認識に係る処理の一例として、音声の取得とあわせて当該音声に基づく音声認識処理が開始される場合について説明したが、音声認識の対象となる音声を先行して取得できれば、必ずしも音声認識処理が実行されるタイミングは限定されない。例えば、情報処理システム1は、ジェスチャに応じた操作の予測結果に基づき音響の記録(録音)を開始し、一連の音響が記憶された後に、記憶された当該音響に基づく音声認識処理を事後的に実行してもよい。
また、ジェスチャに応じた操作の予測結果に基づき、情報の取得に係る処理や、当該情報を利用した処理を制御することが可能であれば、取得される情報の種別は特に限定されない。具体的な一例として、情報処理システム1は、ジェスチャに応じた操作の予測結果に基づき、静止画像や動画像等の画像の取得に係る処理や、当該画像を利用した認識処理(例えば、顔認識等)を制御してもよい。
また、上述した例では、ユーザの頭部や手等の部位を利用したジェスチャ入力に着目して説明した。一方で、ユーザが身体の一部の動作を直接的または間接的に検出し、検出結果を入力情報として利用することが可能であれば、上述した本実施形態に係る情報処理システム1の仕組みの適用先は、必ずしも上述した例には限定されない。具体的な一例として、タッチパネルに対して指やスタイラス等の操作体により、所謂スワイプやピンチ等のジェスチャを行うような場合においても、本実施形態に係る情報処理システム1の仕組みを適用することが可能である。この場合には、例えば、情報処理装置10は、タッチパネルによる、指やスタイラス等の操作体の検出結果に基づき、当該操作体の動作を認識し、当該動作の認識結果に基づき、以降に当該操作体により入力されるジェスチャに応じた操作を予測する。そして、情報処理装置10は、操作体の動作の予測結果に応じて、音声や画像等の入力情報の取得に係る処理(ひいては、当該入力情報に基づく認識処理)を制御すればよい。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
ジェスチャの検出結果に応じた第1の入力情報に基づく、以降に入力される前記ジェスチャに応じた操作の予測結果を取得する取得部と、
前記操作の予測結果に応じて、前記第1の入力情報に対応付けられた第2の入力情報の取得に関する処理を制御する制御部と、
を備える、情報処理装置。
(2)
前記第2の入力情報は、音響情報であり、
前記制御部は、前記操作の予測結果に応じて、前記音響情報の取得と、取得される前記音響情報に基づく処理と、のうち少なくともいずれかに関する処理を制御する、
前記(1)に記載の情報処理装置。
(3)
前記制御部は、前記操作の予測結果に応じて、前記音響情報に基づく認識に関する処理を制御する、前記(2)に記載の情報処理装置。
(4)
前記制御部は、前記音響情報に基づく認識に関する処理として、ユーザが発話した音声に基づく音声認識に関する処理を制御する、前記(3)に記載の情報処理装置。
(5)
前記制御部は、
前記操作の予測結果が第1の条件を満たす場合にフラグを設定し、当該操作の予測結果が第2の条件を満たす場合に設定された前記フラグを解除し、
前記フラグの設定状況に応じて、前記音声認識に関する処理を制御する、
前記(4)に記載の情報処理装置。
(6)
前記制御部は、前記フラグの設定状況に応じて、前記音声認識の結果に応じた機械学習に関する処理を制御する、前記(5)に記載の情報処理装置。
(7)
前記制御部は、前記操作の予測結果に応じて、前記第2の入力情報の取得に関する処理の開始タイミングを制御する、前記(1)〜(6)のいずれか一項に記載の情報処理装置。
(8)
前記制御部は、前記第2の入力情報の取得に関する処理の状態に応じた情報を所定の通知部に通知させる、前記(1)〜(7)のいずれか一項に記載の情報処理装置。
(9)
前記制御部は、前記操作の予測結果が所定の条件を満たすか否かを判定し、当該判定の結果に基づき、前記第2の入力情報の取得に関する処理を制御する、前記(1)〜(8)のいずれか一項に記載の情報処理装置。
(10)
前記制御部は、前記操作の予測結果が、前記所定の条件である第3の条件を満たすか否かを判定するための閾値を、第4の条件に基づき制御する、前記(9)に記載の情報処理装置。
(11)
前記制御部は、前記第4の条件として、前記第2の入力情報の取得に関する処理の過去の実行結果に基づき、前記閾値を制御する、前記(10)に記載の情報処理装置。
(12)
前記制御部は、前記第4の条件として、所定の期間中に前記第2の入力情報として取得された音響情報に対する音声認識処理の結果に基づき、前記閾値を制御する、前記(10)に記載の情報処理装置。
(13)
前記制御部は、前記第4の条件として、ジェスチャの検出対象となる操作体とは異なる他の操作体の動きの検出結果に基づき、前記閾値を制御する、前記(10)に記載の情報処理装置。
(14)
前記制御部は、前記閾値を示す情報を所定の通知部に通知させる、前記(10)〜(13)のいずれか一項に記載の情報処理装置。
(15)
前記制御部は、前記操作の予測結果が前記所定の条件を満たすと判定した場合に、前記第2の入力情報の取得に関する処理を実行し、当該操作の予測結果が前記所定の条件を満たさないと判定した場合に、実行中の当該処理を終了する、前記(9)〜(14)のいずれか一項に記載の情報処理装置。
(16)
前記第1の入力情報は、ユーザの所定の部位の認識結果に基づく情報である、前記(1)〜(15)のいずれか一項に記載の情報処理装置。
(17)
前記取得部は、前記第1の入力情報に応じた前記部位の形状、動作、位置、及び向きのうちの少なくともいずれかの認識結果に基づく、前記操作の予測結果を取得する、前記(16)に記載の情報処理装置。
(18)
前記取得部は、前記第1の入力情報に基づく表示オブジェクトの態様に応じた、前記操作の予測結果を取得する、前記(1)〜(15)のいずれか一項に記載の情報処理装置。
(19)
前記取得部は、前記表示オブジェクトの前記態様である当該表示オブジェクトの動き及び形状のうちの少なくともいずれかに応じた、前記操作の予測結果を取得する、前記(18)に記載の情報処理装置。
(20)
前記制御部は、前記操作の予測結果に基づく前記表示オブジェクトが移動する位置の推定結果に応じて、前記第2の入力情報の取得に関する動作を制御する、
前記(18)または(19)に記載の情報処理装置。
(21)
前記制御部は、前記操作の予測結果に基づき推定される前記表示オブジェクトが移動する位置と、所定の領域と、の間の位置関係に応じて、前記第2の入力情報の取得に関する動作を制御する、前記(20)に記載の情報処理装置。
(22)
前記制御部は、前記操作の予測結果に基づき推定される第1の表示オブジェクトが移動する位置と、前記第1の表示オブジェクトとは異なる第2の表示オブジェクトと、の間の位置関係に応じて、前記第2の入力情報の取得に関する動作を制御する、前記(20)に記載の情報処理装置。
(23)
プロセッサが、
ジェスチャの検出結果に応じた第1の入力情報に基づく、以降に入力される前記ジェスチャに応じた操作の予測結果を取得することと、
前記操作の予測結果に応じて、前記第1の入力情報に対応付けられた第2の入力情報の取得に関する処理を制御することと、
を含む、情報処理方法。
(24)
コンピュータに、
ジェスチャの検出結果に応じた第1の入力情報に基づく、以降に入力される前記ジェスチャに応じた操作の予測結果を取得することと、
前記操作の予測結果に応じて、前記第1の入力情報に対応付けられた第2の入力情報の取得に関する処理を制御することと、
を実行させる、プログラム。
1 情報処理システム
10 情報処理装置
101 出力制御部
103 音響処理部
105 ジェスチャ認識処理部
110 制御部
111 コンテンツ制御部
113 予測部
115 タイミング制御部
13 記憶部
20 入出力装置
201 表示部
202 音響出力部
203 集音部
205 検知部
207 撮像部
30 コンテンツ制御装置
40 音響処理装置

Claims (24)

  1. ジェスチャの検出結果に応じた第1の入力情報に基づく、以降に入力される前記ジェスチャに応じた操作の予測結果を取得する取得部と、
    前記操作の予測結果に応じて、前記第1の入力情報に対応付けられた第2の入力情報の取得に関する処理を制御する制御部と、
    を備え
    前記第2の入力情報は、音響情報であり、
    前記制御部は、
    前記操作の予測結果に応じて、前記音響情報の取得と、取得される前記音響情報に基づく認識に関する処理と、のうち少なくともいずれかに関する処理を制御し、
    取得される前記音響情報に基づく認識に関する処理として、ユーザが発話した音声に基づく音声認識に関する処理を制御するとき、
    前記操作の予測結果が第1の条件を満たす場合にフラグを設定し、当該操作の予測結果が第2の条件を満たす場合に設定された前記フラグを解除し、
    前記フラグの設定状況に応じて、前記音声認識に関する処理を制御する、情報処理装置。
  2. 前記制御部は、前記フラグの設定状況に応じて、前記音声認識の結果に応じた機械学習に関する処理を制御する、請求項に記載の情報処理装置。
  3. ジェスチャの検出結果に応じた第1の入力情報に基づく、以降に入力される前記ジェスチャに応じた操作の予測結果を取得する取得部と、
    前記操作の予測結果に応じて、前記第1の入力情報に対応付けられた第2の入力情報の取得に関する処理を制御する制御部と、
    を備え、
    前記制御部は、
    前記操作の予測結果が所定の条件を満たすか否かを判定し、当該判定の結果に基づき、前記第2の入力情報の取得に関する処理を制御する場合、
    前記操作の予測結果が、前記所定の条件である第3の条件を満たすか否かを判定するための閾値を、第4の条件に基づき制御する、情報処理装置。
  4. 前記制御部は、前記第4の条件として、前記第2の入力情報の取得に関する処理の過去の実行結果に基づき、前記閾値を制御する、請求項に記載の情報処理装置。
  5. 前記制御部は、前記第4の条件として、所定の期間中に前記第2の入力情報として取得された音響情報に対する音声認識処理の結果に基づき、前記閾値を制御する、請求項に記載の情報処理装置。
  6. 前記制御部は、前記第4の条件として、ジェスチャの検出対象となる操作体とは異なる他の操作体の動きの検出結果に基づき、前記閾値を制御する、請求項に記載の情報処理装置。
  7. 前記制御部は、前記閾値を示す情報を所定の通知部に通知させる、請求項乃至請求項の何れか1項に記載の情報処理装置。
  8. ジェスチャの検出結果に応じた第1の入力情報に基づく、以降に入力される前記ジェスチャに応じた操作の予測結果を取得する取得部と、
    前記操作の予測結果に応じて、前記第1の入力情報に対応付けられた第2の入力情報の取得に関する処理を制御する制御部と、
    を備え、
    前記制御部は、
    前記操作の予測結果が所定の条件を満たすか否かを判定し、当該判定の結果に基づき、前記第2の入力情報の取得に関する処理を制御するとき、
    前記操作の予測結果が前記所定の条件を満たすと判定した場合に、前記第2の入力情報の取得に関する処理を実行し、当該操作の予測結果が前記所定の条件を満たさないと判定した場合に、実行中の当該処理を終了する、情報処理装置。
  9. ジェスチャの検出結果に応じた第1の入力情報に基づく、以降に入力される前記ジェスチャに応じた操作の予測結果を取得する取得部と、
    前記操作の予測結果に応じて、前記第1の入力情報に対応付けられた第2の入力情報の取得に関する処理を制御する制御部と、
    を備え、
    前記取得部は、前記第1の入力情報に基づく表示オブジェクトの態様に応じた、前記操作の予測結果を取得し、
    前記制御部は、
    前記操作の予測結果に基づく前記表示オブジェクトが移動する位置の推定結果に応じて、前記第2の入力情報の取得に関する動作を制御する場合、
    前記操作の予測結果に基づき推定される前記表示オブジェクトが移動する位置と、所定の領域と、の間の位置関係に応じて、前記第2の入力情報の取得に関する動作を制御する、情報処理装置。
  10. ジェスチャの検出結果に応じた第1の入力情報に基づく、以降に入力される前記ジェスチャに応じた操作の予測結果を取得する取得部と、
    前記操作の予測結果に応じて、前記第1の入力情報に対応付けられた第2の入力情報の取得に関する処理を制御する制御部と、
    を備え、
    前記取得部は、前記第1の入力情報に基づく表示オブジェクトの態様に応じた、前記操作の予測結果を取得し、
    前記制御部は、
    前記操作の予測結果に基づく前記表示オブジェクトが移動する位置の推定結果に応じて、前記第2の入力情報の取得に関する動作を制御する場合、
    前記操作の予測結果に基づき推定される第1の表示オブジェクトが移動する位置と、前記第1の表示オブジェクトとは異なる第2の表示オブジェクトと、の間の位置関係に応じて、前記第2の入力情報の取得に関する動作を制御する、情報処理装置。
  11. 前記取得部は、前記表示オブジェクトの前記態様である当該表示オブジェクトの動き及び形状のうちの少なくともいずれかに応じた、前記操作の予測結果を取得する、請求項9又は請求項10に記載の情報処理装置。
  12. 前記制御部は、前記操作の予測結果に応じて、前記第2の入力情報の取得に関する処理の開始タイミングを制御する、請求項1乃至請求項11の何れか1項に記載の情報処理装置。
  13. 前記制御部は、前記第2の入力情報の取得に関する処理の状態に応じた情報を所定の通知部に通知させる、請求項1乃至請求項12の何れか1項に記載の情報処理装置。
  14. 前記制御部は、前記操作の予測結果が所定の条件を満たすか否かを判定し、当該判定の結果に基づき、前記第2の入力情報の取得に関する処理を制御する、請求項1又は請求項に記載の情報処理装置。
  15. 前記制御部は、前記操作の予測結果が、前記所定の条件である第3の条件を満たすか否かを判定するための閾値を、第4の条件に基づき制御する、請求項14に記載の情報処理装置。
  16. 前記制御部は、前記第4の条件として、前記第2の入力情報の取得に関する処理の過去の実行結果に基づき、前記閾値を制御する、請求項15に記載の情報処理装置。
  17. 前記制御部は、前記第4の条件として、所定の期間中に前記第2の入力情報として取得された音響情報に対する音声認識処理の結果に基づき、前記閾値を制御する、請求項15に記載の情報処理装置。
  18. 前記制御部は、前記第4の条件として、ジェスチャの検出対象となる操作体とは異なる他の操作体の動きの検出結果に基づき、前記閾値を制御する、請求項15に記載の情報処理装置。
  19. 前記制御部は、前記閾値を示す情報を所定の通知部に通知させる、請求項15乃至請求項18の何れか1項に記載の情報処理装置。
  20. 前記制御部は、前記操作の予測結果が前記所定の条件を満たすと判定した場合に、前記第2の入力情報の取得に関する処理を実行し、当該操作の予測結果が前記所定の条件を満たさないと判定した場合に、実行中の当該処理を終了する、請求項14乃至請求項19の何れか1項に記載の情報処理装置。
  21. 前記第1の入力情報は、ユーザの所定の部位の認識結果に基づく情報である、請求項1乃至請求項20の何れか1項に記載の情報処理装置。
  22. 前記取得部は、前記第1の入力情報に応じた前記部位の形状、動作、位置、及び向きのうちの少なくともいずれかの認識結果に基づく、前記操作の予測結果を取得する、請求項21に記載の情報処理装置。
  23. プロセッサが、
    ジェスチャの検出結果に応じた第1の入力情報に基づく、以降に入力される前記ジェスチャに応じた操作の予測結果を取得することと、
    前記操作の予測結果に応じて、前記第1の入力情報に対応付けられた第2の入力情報の取得に関する処理を制御することと、
    を含み、
    前記第2の入力情報は、音響情報であり、
    前記プロセッサが、
    前記操作の予測結果に応じて、前記音響情報の取得と、取得される前記音響情報に基づく認識に関する処理と、のうち少なくともいずれかに関する処理を制御することと、
    取得される前記音響情報に基づく認識に関する処理として、ユーザが発話した音声に基づく音声認識に関する処理を制御するとき、
    前記操作の予測結果が第1の条件を満たす場合にフラグを設定し、当該操作の予測結果が第2の条件を満たす場合に設定された前記フラグを解除することと、
    前記フラグの設定状況に応じて、前記音声認識に関する処理を制御することと、
    を含む、情報処理方法。
  24. コンピュータに、
    ジェスチャの検出結果に応じた第1の入力情報に基づく、以降に入力される前記ジェスチャに応じた操作の予測結果を取得することと、
    前記操作の予測結果に応じて、前記第1の入力情報に対応付けられた第2の入力情報の取得に関する処理を制御することと、
    を実行させ
    前記第2の入力情報は、音響情報であり、
    前記コンピュータに、
    前記操作の予測結果に応じて、前記音響情報の取得と、取得される前記音響情報に基づく認識に関する処理と、のうち少なくともいずれかに関する処理を制御することと、
    取得される前記音響情報に基づく認識に関する処理として、ユーザが発話した音声に基づく音声認識に関する処理を制御するとき、
    前記操作の予測結果が第1の条件を満たす場合にフラグを設定し、当該操作の予測結果が第2の条件を満たす場合に設定された前記フラグを解除することと、
    前記フラグの設定状況に応じて、前記音声認識に関する処理を制御することと、
    を実行させる、プログラム。
JP2017556364A 2015-12-16 2016-09-23 情報処理装置、情報処理方法、及びプログラム Active JP6848881B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2015244868 2015-12-16
JP2015244868 2015-12-16
PCT/JP2016/078107 WO2017104207A1 (ja) 2015-12-16 2016-09-23 情報処理装置、情報処理方法、及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2017104207A1 JPWO2017104207A1 (ja) 2018-11-08
JP6848881B2 true JP6848881B2 (ja) 2021-03-24

Family

ID=59055966

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017556364A Active JP6848881B2 (ja) 2015-12-16 2016-09-23 情報処理装置、情報処理方法、及びプログラム

Country Status (4)

Country Link
US (1) US10725733B2 (ja)
JP (1) JP6848881B2 (ja)
CN (1) CN108431728A (ja)
WO (1) WO2017104207A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10288435B2 (en) * 2013-05-24 2019-05-14 Rakuten, Inc. Information processing apparatus, information processing method, and information processing program
US11572653B2 (en) * 2017-03-10 2023-02-07 Zyetric Augmented Reality Limited Interactive augmented reality
US10896545B1 (en) * 2017-11-29 2021-01-19 Facebook Technologies, Llc Near eye display interface for artificial reality applications
CN116248937A (zh) 2018-03-26 2023-06-09 索尼公司 信息处理装置及信息处理方法
US10860088B2 (en) * 2018-05-03 2020-12-08 Microsoft Technology Licensing, Llc Method and system for initiating application and system modal control based on hand locations
US10635895B2 (en) * 2018-06-27 2020-04-28 Facebook Technologies, Llc Gesture-based casting and manipulation of virtual content in artificial-reality environments
US10712901B2 (en) 2018-06-27 2020-07-14 Facebook Technologies, Llc Gesture-based content sharing in artificial reality environments
US10783712B2 (en) 2018-06-27 2020-09-22 Facebook Technologies, Llc Visual flairs for emphasizing gestures in artificial-reality environments
CN109065055B (zh) * 2018-09-13 2020-12-11 三星电子(中国)研发中心 基于声音生成ar内容的方法、存储介质和装置
CN111462548A (zh) * 2019-01-21 2020-07-28 北京字节跳动网络技术有限公司 一种段落点读方法、装置、设备和可读介质
US10921879B2 (en) * 2019-06-07 2021-02-16 Facebook Technologies, Llc Artificial reality systems with personal assistant element for gating user interface elements
KR20190104282A (ko) * 2019-08-20 2019-09-09 엘지전자 주식회사 영상 기반으로 정보를 제공하는 방법 및 이를 위한 이동 단말
CN112783321A (zh) 2019-11-08 2021-05-11 苹果公司 使用多个传感器的基于机器学习的手势识别
WO2021091604A1 (en) * 2019-11-08 2021-05-14 Apple Inc. Machine-learning based gesture recognition using multiple sensors
EP4009143A1 (en) * 2020-12-03 2022-06-08 XRSpace CO., LTD. Operating method by gestures in extended reality and head-mounted display system
US11954248B1 (en) * 2023-03-17 2024-04-09 Microsoft Technology Licensing, Llc. Pose prediction for remote rendering

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4012143B2 (ja) * 2003-12-16 2007-11-21 キヤノン株式会社 情報処理装置およびデータ入力方法
JP4845183B2 (ja) * 2005-11-21 2011-12-28 独立行政法人情報通信研究機構 遠隔対話方法及び装置
JP2009069202A (ja) * 2007-09-10 2009-04-02 Teac Corp 音声処理装置
JP2011204019A (ja) * 2010-03-25 2011-10-13 Sony Corp ジェスチャ入力装置、ジェスチャ入力方法およびプログラム
JP5757063B2 (ja) * 2010-03-29 2015-07-29 ソニー株式会社 情報処理装置および方法、並びにプログラム
US8782138B2 (en) * 2010-05-10 2014-07-15 Marko Anderson Predictive data objects
JP2011257943A (ja) * 2010-06-08 2011-12-22 Canon Inc ジェスチャ操作入力装置
JP5601045B2 (ja) * 2010-06-24 2014-10-08 ソニー株式会社 ジェスチャ認識装置、ジェスチャ認識方法およびプログラム
WO2013033842A1 (en) * 2011-09-07 2013-03-14 Tandemlaunch Technologies Inc. System and method for using eye gaze information to enhance interactions
JP6316540B2 (ja) * 2012-04-13 2018-04-25 三星電子株式会社Samsung Electronics Co.,Ltd. カメラ装置及びその制御方法
US9182233B2 (en) * 2012-05-17 2015-11-10 Robert Bosch Gmbh System and method for autocompletion and alignment of user gestures
CN104412200B (zh) * 2012-06-28 2017-05-10 日本电气株式会社 信息处理设备及其控制方法
KR101418552B1 (ko) * 2012-12-20 2014-07-16 주식회사 팬택 디밍 상태를 위한 사용자 인터페이스 장치 및 그 방법
JP6192104B2 (ja) * 2013-09-13 2017-09-06 国立研究開発法人情報通信研究機構 テキスト編集装置及びプログラム
JP6427755B2 (ja) * 2014-02-24 2018-11-28 パナソニックIpマネジメント株式会社 データ入力装置、データ入力方法、プログラム及び車載機
JP2015175983A (ja) * 2014-03-14 2015-10-05 キヤノン株式会社 音声認識装置、音声認識方法及びプログラム

Also Published As

Publication number Publication date
CN108431728A (zh) 2018-08-21
US20180336008A1 (en) 2018-11-22
JPWO2017104207A1 (ja) 2018-11-08
WO2017104207A1 (ja) 2017-06-22
US10725733B2 (en) 2020-07-28

Similar Documents

Publication Publication Date Title
JP6848881B2 (ja) 情報処理装置、情報処理方法、及びプログラム
US11093045B2 (en) Systems and methods to augment user interaction with the environment outside of a vehicle
JP6635049B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP7092028B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP7092108B2 (ja) 情報処理装置、情報処理方法、及びプログラム
WO2016151956A1 (ja) 情報処理システムおよび情報処理方法
US20190286216A1 (en) Attention-based rendering and fidelity
CN108369451B (zh) 信息处理装置、信息处理方法及计算机可读存储介质
EP3677993A1 (en) Information processing device, information processing method, and program
US10771707B2 (en) Information processing device and information processing method
JP6627775B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP2016156877A (ja) 情報処理装置、情報処理方法およびプログラム
US11487355B2 (en) Information processing apparatus and information processing method
JP7156301B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP2016180778A (ja) 情報処理システムおよび情報処理方法
US20220230659A1 (en) System for non-verbal hands-free user input

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190208

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20190214

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190222

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20190515

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190522

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190910

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190910

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210215

R151 Written notification of patent or utility model registration

Ref document number: 6848881

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151