JP2023042181A - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
JP2023042181A
JP2023042181A JP2021149348A JP2021149348A JP2023042181A JP 2023042181 A JP2023042181 A JP 2023042181A JP 2021149348 A JP2021149348 A JP 2021149348A JP 2021149348 A JP2021149348 A JP 2021149348A JP 2023042181 A JP2023042181 A JP 2023042181A
Authority
JP
Japan
Prior art keywords
information
sound
information processing
motion
objects
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021149348A
Other languages
English (en)
Inventor
正明 小林
Masaaki Kobayashi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2021149348A priority Critical patent/JP2023042181A/ja
Priority to US17/929,615 priority patent/US20230079969A1/en
Publication of JP2023042181A publication Critical patent/JP2023042181A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/223Analysis of motion using block-matching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)

Abstract

【課題】オブジェクトの動きの認識結果を操作に利用する状況下において、操作の誤認識の発生をより抑制可能とする。【解決手段】GPU105は、オブジェクトの動きを解析する。CPU101は、検出された音を解析することで当該音を識別する。CPU101は、上記オブジェクトの動きの解析結果を含む動き情報と、上記音の識別結果を含む音識別情報と、の組み合わせに応じた処理を実行する。【選択図】図2

Description

本開示は、情報処理装置、情報処理方法、及びプログラムに関する。
従来の情報処理装置は、キーボードやマウス、スティック型のコントローラなど、物理的なスイッチを伴う入力デバイスを利用して操作するのが一般的であった。これに対して、近年は、撮像画像からのジェスチャ認識による操作や、音声認識を利用した操作等のような、物理的なスイッチを介さない操作方法が実用化されてきている。
特に、近年では、HMD(Head Mounted Display)型のXR情報処理端末が普及し始めている。XRとは、VR(Virtual Reality、仮想現実)、AR(Augmented Reality,拡張現実)、MR(Mixed Reality,複合現実)を総称する言葉である。HMD型のXR情報処理端末を使用する場合には、コントローラを手に持って操作を行うことが多いが、アプリケーションによっては、コントローラを手に持って操作を行うことがユーザにとって不便であったり、そもそも難しい場合もある。一方で、情報処理装置の計算能力とオブジェクト検出技術の向上に伴い、コントローラを使わずに、撮像画像からのジェスチャ認識等をリアルタイムで実行することで情報処理端末を操作することが可能になりつつある。非特許文献1には、指とその動き(ジェスチャ操作)を認識し、当該認識の結果を情報処理端末の操作に応用する技術の一例が開示されている。
MediaPipe Hands: On-device Real-time Hand TrackingFan Zhang Valentin Bazarevsky Andrey VakunovAndrei Tkachenka George Sung Chuo-Ling Chang Matthias Grundmann,CVPR Workshop on Computer Vision for Augmented and Virtual Reality, Seattle, WA, USA, 2020
一方で、手や指等のオブジェクトの動きをジェスチャとして認識されて当該認識の結果を操作に利用される状況下では、ユーザが操作を意図していないオブジェクトの動きがジェスチャとして誤認識されることで、誤動作が誘発される場合がある。
本発明は上記の問題を鑑み、オブジェクトの動きの認識結果を操作に利用する状況下において、操作の誤認識の発生をより抑制可能とすることを目的とする。
本発明に係る情報処理装置は、オブジェクトの動きを解析する動き解析手段と、検出された音を解析することで当該音を識別する音識別手段と、前記オブジェクトの動きの解析結果を含む動き情報と、前記音の識別結果を含む音識別情報と、の組み合わせに応じた処理を実行する制御手段と、を備えることを特徴とする。
本発明によれば、オブジェクトの動きの認識結果を操作に利用する状況下において、操作の誤認識の発生をより抑制することが可能となる。
情報処理装置の構成の一例を示した図である。 情報処理装置の処理の一例を示したフローチャートである。 画像情報と音識別情報との組合せに応じた動作の一例を示した図である。 マーカーコードの一例を示した図である。 画像情報と音識別情報との組合せに応じた動作の一例を示した図である。 情報処理装置の処理の一例を示したフローチャートである。 画像情報と音識別情報との組合せに応じた動作の一例を示した図である。 情報処理装置の処理の一例を示したフローチャートである。 情報処理装置の処理の一例を示したフローチャートである。 画像情報と音識別情報との組合せに応じた動作の一例を示した図である。 情報処理装置の処理の一例を示したフローチャートである。 画像情報と音識別情報との組合せに応じた動作の一例を示した図である。 画像からのオブジェクトの検出に係る手法の一例を示した図である。 システムモーダルなウィンドウの一例を示した図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
<第1の実施形態>
本開示の第1の実施形態として、撮像画像からオブジェクトを検出し、検出された複数のオブジェクト間の接触判定と、ユーザが発声した音声等のような音の解析結果とを利用した、情報処理装置の操作を実現するための仕組みの一例について説明する。
なお、本実施形態では、便宜上、情報処理装置がHMD型のXR情報処理端末であり、情報処理端末のOS(Operating System)上で動画プレイヤーのアプリケーションが実行され、ユーザが動画を視聴しながら操作を行うものとする。また、HMD型の情報処理端末は、筐体に、表示パネル、モーションセンサ、カメラモジュール、マイク、通信モジュール、バッテリー、及びシステム基盤が内蔵されているものとする。また、カメラモジュールは、HMDがユーザの頭部に装着された場合における、当該ユーザの視線が向けられる方向を撮像するように、当該HMDの筐体に支持されているものとする。すなわち、本実施形態においては、上記カメラモジュールが、ユーザの視線が向けられた方向を撮像する「撮像装置」の一例に相当する。
(構成)
図1(a)を参照して、本実施形態に係る情報処理装置(HMD型のXR情報処理端末)の構成の一例について説明する。なお、図1(b)に示す構成については、第3の実施形態とあわせて別途後述する。
本実施形態に係る情報処理装置は、CPU(Central Processing Unit)101と、不揮発性メモリ102と、メモリ103と、UIデバイス接続部104と、GPU(Graphics Processing Unit)105とを含む。また、情報処理装置は、画像取得部106と、音声取得部107と、動き・姿勢検出部108とを含む。情報処理装置に含まれる各構成要素は、バス100を介して相互にデータを送受信可能に接続される。すなわち、バス100は、情報処理装置内のデータの流れを司る。
CPU101は、内蔵されたソフトウェアを実行し、情報処理装置の各構成要素の動作を制御する。
不揮発性メモリ102は、プログラム及びデータを記憶する記憶領域である。
メモリ103は、プログラムやデータを一時的に記憶する記憶領域である。例えば、メモリ103は、情報処理装置の起動時に不揮発性メモリ102に格納されたプログラムやデータがロードされる。また、メモリ103は、取得された画像のデータや生成された画像のデータを記憶してもよい。また、メモリ103は、CPU101のワークエリアとしても機能する。
UIデバイス接続部104は、UI(User Interface)を実現するための各種デバイスの接続に係るインタフェースである。本実施形態では、UIデバイス接続部104は、通信モジュールを介して、無線通信によりコントローラのからの入力を受け付けるものとする。
GPU105は、CG等の各種画像を生成するための処理を実行するプロセッサである。GPU105は、生成した画像データを表示パネル等の出力装置に転送することで、当該出力装置に当該画像データに基づく画像を表示させる。
画像取得部106は、カメラモジュールに接続され、当該カメラモジュールからデジタルの画像データ(例えば、RGBの画像データ)を取得する。なお、前述したように、カメラモジュールは、HMD型の情報処理端末として構成された情報処理装置の筐体に支持され、当該情報処理装置を装着したユーザの視線が向けられた方向を撮像するものとする。
音声取得部107は、マイクロフォン等の集音デバイスに接続され、当該集音デバイスから集音結果に応じたデジタルの音(例えば、ユーザが発声した音声や周囲の環境音等)のデータを取得する。
動き・姿勢検出部108は、モーションセンサ等のような情報処理装置の筐体の動きや姿勢(傾き)の変化を検知するセンサに接続され、当該センサから出力される情報に基づき、当該筐体の動きや姿勢の変化を検出する。このように動き・姿勢検出部108が情報処理装置の動きや姿勢の変化を検出することで、当該情報処理装置を装着したユーザの動きにあわせてGPU105がCGオブジェクトをレンダリングし、その結果に応じた画像を表示パネルに表示させることが可能となる。これにより、例えば、ユーザの視線が向けられた方向が変化した場合に、視線が向けられた方向に応じて、CG等の仮想オブジェクトの見え方を制御することで、所謂XR(例えば、VR、AR、及びMR等)を実現することが可能となる。
(処理)
次いで、図2を参照して、本実施形態に係る情報処理装置の処理の一例について、特に、複数のオブジェクト間の接触判定と、ユーザが発声した音声等の音の解析結果とを利用した当該情報処理装置の操作の実現に係るフレームごとの動作に着目して説明する。
S2000において、画像取得部106は、カメラモジュールの撮像結果に応じた画像のデータを取得する。具体的な一例として、画像取得部106は、カメラモジュールから所定のフレームレート(例えば、1/60秒単位)で撮像結果に応じた画像のデータを取得してもよい。なお、情報処理装置は、カメラモジュールからの画像のデータの取得が完了するまでは、次の処理の実行を待つ。これにより、カメラモジュールと情報処理装置との間の処理の同期がとられることとなる。
S2010において、GPU105は、S2000において取得したデータが示す画像から第1のオブジェクトを検出する(換言すると、第1のオブジェクトを識別する)。本実施形態では、GPU105は、ユーザの右手の指を第1のオブジェクトとして、当該右手の指を示す第1の矩形の領域を、取得したデータが示す画像から検出するものとする。
ここで、図13を参照して、画像からのオブジェクトの検出に係る手法の一例について説明する。図13に示す例では、画像取得部106による右手指と左手首の検出結果の一例が模式的に示されている。具体的には、図13に示す例では、右手指が検出された位置が矩形の領域により示されている。なお、画像に撮像されたオブジェクトの検出方法については、既存の技術を適用することが可能であるため、詳細な説明は省略する。
S2020において、GPU105は、取得したデータが示す画像から第2のオブジェクトを検出する(換言すると、第2のオブジェクトを識別する)。本実施形態では、GPU105は、ユーザの左手首を第2のオブジェクトとして、当該左手首を示す第2の矩形の領域を、取得したデータが示す画像から検出するものとする。例えば、図13に示す例では、左手首が検出された位置が矩形の領域により示されている。
S2030において、GPU105は、仮想空間の画像(例えば、CG)の描画を行い、描画された当該画像を当該GPU105に接続された表示パネルに表示させる。本実施形態では、GPU105は、S2010において検出された第1のオブジェクト(右手指)と、S2020において検出された第2のオブジェクト(左手首)とを仮想空間に描画するものとする。これにより、例えば、第1のオブジェクト及び第2のオブジェクトそれぞれの検出結果と仮想空間の画像とが合成された画像が描画される。なお、この際に描画される第1のオブジェクト及び第2のオブジェクトそれぞれの画像については、カメラモジュールによる撮像結果に応じた実写の画像であってもよいし、CGモデルのような仮想的な画像であってもよい。
また、GPU105は、第1のオブジェクトや第2のオブジェクトに対してあたかも装着されているかのように、他の仮想オブジェクトを重畳させてもよい。具体的な一例として、GPU105は、第2のオブジェクトである左手首に対して、腕時計型のデバイスが装着されているように、当該デバイスを示す仮想オブジェクトを重畳させてもよい。また、GPU105は、第1のオブジェクトや第2のオブジェクトの検出結果を示す情報を描画してもよい。例えば、図13に示す例のように、GPU105は、第1のオブジェクト(右手指)及び第2のオブジェクト(左手首)それぞれが検出された位置を矩形の領域を描画することで示している。
S2040において、GPU105は、第1のオブジェクトと第2のオブジェクトとが接触したか否かを判定する。
GPU105は、S2040において第1のオブジェクトと第2のオブジェクトとが接触したと判定した場合には、処理をS2050に進める。
これに対して、GPU105は、S2040において第1のオブジェクトと第2のオブジェクトとが接触していないと判定した場合には、処理をS2000に進める。この場合には、S2000以降の処理が改めて実行されることとなる。
なお、第1のオブジェクトと第2のオブジェクトとの接触判定については、例えば、第1の矩形と第2の矩形とが画像上でオーバーラップするか否かに応じて行われてもよい。この場合には、第1の矩形と第2の矩形とが画像上でオーバーラップする場合には接触と判定され、そうでない場合には非接触と判定されることとなる。
S2050において、音声取得部107は、情報処理装置の周囲の音の集音結果に応じた当該音のデータ(以降では、「音響データ」とも称する)を音情報として取得する。なお、本実施形態では、図2に示す処理フローとは別に、リングバッファに3秒分の音響データが常に記録され続けており、S2050の処理が実行されたタイミングで、直近の3秒分のデジタルの音響データが取得されるものとする。
S2060において、CPU101は、S2050において取得された音情報に対して解析処理(例えば、音響解析処理や音声認識処理等)を施すことで、集音された音を識別し、当該音の識別結果を示す音識別情報を生成する。具体的な一例として、CPU101は、デジタルの音響データが示す音のうち音声に相当する部分に対して音声認識処理を施すことで、発声された単語を認識し、当該単語の認識結果を含む音識別情報を生成してもよい。また、この際に、CPU101は、自然言語処理等の所謂言語解析処理に基づき、発声された一連の単語のうち同義語に相当する複数の単語ついては同じ意味を示す情報として扱われるように識別してもよい。なお、音の識別方法や音声の認識方法等については特に限定されず、既存の技術を適用することが可能であるため、詳細な説明は省略する。また、図3に示す例では、本実施形態に係る技術の特徴をよりわかりやすくするために、識別の対象となる音が音声であり、音識別情報として、当該音声の識別結果を示す音声識別情報が生成されるものとする。
S2070において、CPU101は、第1のオブジェクト及び第2のオブジェクトそれぞれの動きの解析結果(例えば、オブジェクト間の接触の検出結果)に応じた情報と、S2060において取得された音声識別情報との組み合わせに応じた処理を実行する。
例えば、図3は、第1のオブジェクト及び第2のオブジェクトそれぞれの動きの解析結果に応じた情報と音声識別情報との組み合わせに応じて実行される処理の一例について、特に、動画プレイヤーのコマンドが実行される場合に着目して示している。
具体的には、「画像情報」の列には、撮像画像からの検出の対象(換言すると、識別の対象)となる2つのオブジェクトと、当該2つのオブジェクトの動きによる条件とが規定されている。具体的には、「オブジェクト1」及び「オブジェクト2」の列には、撮像画像からの検出対象となる2つのオブジェクト(第1のオブジェクト及び第2のオブジェクト)が規定されている。また、「条件」の列には、検出対象となるオブジェクトの動きが示されている。すなわち、図3に示す例では、撮像画像からの「右手指」と「左手首」との「接触」の検出結果が、動画プレイヤーのコマンドを実行するためのトリガの1つとして利用される。
また、「音声識別情報」の列には、前述した音声識別情報として利用される音声が示されている。例えば、図3に示す例では、「次」、「前」、「一時停止」、「ストップ」、「早送り」、「巻き戻し」、及び「逆再生」という音声が、動画プレイヤーのコマンドを実行するためのトリガの1つとなる音声識別情報として利用される。
また、「動作」の列には、「画像情報」と「音声識別情報」との組み合わせごとにあらかじめ対応付けられた、動画プレイヤーのコマンド(すなわち、実行される処理)が示されている。なお、コマンド実行の詳細については、所謂動画プレイヤーとしては一般的であるため説明を省略する。
「音声識別情報」の列に示された「その他」は、識別不能だった音や、音声識別情報として利用されない音等が該当する。また、「その他」には、無音が含まれてもよい。すなわち、右手指と左手首との接触が検出されたとしても、音声が識別不能な場合、音声識別情報として利用されない音が検出された場合、及び音声が検出されていない場合においては、音楽プレイヤーの動作の制御としては何もされないこととなる。
ここで、改めて図2を参照する。S2080において、CPU101は、終了指示があるか否かを判定する。具体的な一例として、CPU101は、S2070において「終了コマンド」が実行されたか否かを判定し、「終了コマンド」が実行された場合に終了指示があると判定してもよい。
CPU101は、S2080において終了指示がないと判定した場合には、処理をS2010に進める。この場合には、S2010以降の処理が改めて実行されることとなる。
これに対して、CPU101は、S2080において終了指示があると判定した場合には、図2に示す一連の処理を終了する。
本実施形態では、HMDの筐体に支持されたカメラモジュールにより取得される画像は、当該HMDを装着したユーザの視線が向けられる方向の撮像結果に応じた画像となる。そのため、ユーザは、より現実的な操作に近い画像を見ながら各種の操作を行うことが可能となる。
なお、ジェスチャのような画像の解析結果を利用した判定では、ユーザが操作を意図していない動作がジェスチャとして誤認識される場合があり、この誤認識により誤操作が誘発されることがある。また、音声認識によるコマンドの判定では、通常の会話に含まれるワードが認識されることで、ユーザが意図していないにも関わらず操作のためのコマンドと認識されて誤操作につながる場合がある。
これに対して、本実施形態においては、上述したように、音声認識によるコマンドの判定に対して、画像の解析結果を利用したオブジェクトの動きの判定(例えば、オブジェクトの接触判定)を組み合わせることで、コマンドの実行に係る判定が行われる。これにより、コマンドの起動条件がより厳しくなり、誤操作の発生を抑制することが可能となる。特に、本実施形態に係る技術に依れば、例えば、オブジェクトの接触判定に対して、確実に接触したことまでは判定せずに、オブジェクトがオーバーラップするか否かという多少の曖昧性を持たせた判定を適用したとして、誤操作の発生を抑制する効果が期待できる。
なお、図2及び図3を参照して説明した例では、対象となるオブジェクト間が接触中に取得された音声が解析の対象となっているが、本実施形態に係る情報処理装置の動作を限定するものではない。具体的な一例として、S2040の処理において、オブジェクト間の接触状態が解除されたとしても、一度接触したことが検出された場合には、解除後においても所定の期間(例えば、3秒間)については、オブジェクト間が接触している状態とみなされてもよい。この場合には、オブジェクト間の接触が検出された場合に、オブジェクト間の接触があったことを記録しておくことで、所定の期間内にオブジェクト間の接触があったか否かにより、接触判定が行われてもよい。
また、図2及び図3を参照して説明した例では、音声情報(音情報)の解析に際して、候補ワードの如何に関わらず音声識別情報を生成していたが、本実施形態に係る情報処理装置の動作を限定するものではない。具体的な一例として、音情報の解析に際して、あらかじめ規定された候補(例えば、図3に音識別情報として例示されたワード)に変換できるかを判定し、変換できる場合に音識別情報が生成されてもよい。
また、図2及び図3を参照して説明した例では、画像の解析結果を利用したオブジェクトの動きの判定と、音声認識によるコマンドの判定との組み合わせにより、コマンドを実行するか否かが判定されていた。一方で、これらの情報に加えて、他の情報が組み合わされることで、コマンドを実行するか否かの判定が行われてもよい。具体的な一例として、画像の解析結果を利用したオブジェクトの動きの判定と、音声認識によるコマンドの判定とに加えて、一般的なコントローラを使用した操作が組み合わされることで、コマンドを実行するか否かの判定が行われてもよい。
また、上述した例では、情報処理装置にカメラモジュール、マイクロフォン、及び表示パネルが内蔵されていたが、必ずしも本実施形態に係る情報処理装置の構成を限定するものではない。具体的な一例として、カメラモジュール、マイクロフォン、及び表示パネルのうちの少なくともいずれかが、情報処理装置に対して外付けされるデバイスとして実現されてもよい。また、本実施形態に係る情報処理装置は、表示パネルとしてシースルーのディスプレイが適用されることで、所謂ARを実現するためのデバイスとして構成されていてもよい。なお、ARを実現する場合には、実空間に対して仮想的な情報を重畳させることとなるため、仮想空間の描画に係る処理が行われなくともよい。
また、本実施形態では、左手首や右手指のような身体の部位を、接触等の動きの検出対象とするオブジェクトとしているが、身体の部位に限らず他のオブジェクトが検出対象(識別対象)とされてもよい。
具体的な一例として、図4に例示するようなマーカーコードを実空間に配置し、右手指と当該マーカーコードとが接触したか否かが判定されてもよい。なお、マーカーコードとは、そのユニークな形状からコード(例えば、数値等)に変換可能な画像である。
また、図5は、第1のオブジェクト及び第2のオブジェクトそれぞれの動きの解析結果に応じた情報と音声識別情報との組み合わせに応じて実行される処理の他の一例について示している。図5に示す例では、第2のオブジェクトとして、マーカー1またはマーカー2を検出し、検出されたマーカーをコードに変換することで、当該コードにより検出されたマーカーがマーカー1とマーカー2とのいずれを識別することとなる。なお、マーカーコードの生成方法については多様な方式があるが、本実施形態ではマーカーコードの生成方法については特に限定はされない。また、この場合には、S2030の処理において、実空間に設置されたマーカーコード上に仮想的なオブジェクト(例えば、仮想的なボタン)が重畳された仮想空間画像が描画されてもよい。
また、上述した例では、音声の認識に際してユーザの識別については言及していないが、音声の認識に際して、例えば、音声の解析結果を利用することで、ユーザの識別が行われてもよい。この場合には、例えば、対象となるユーザ以外の他のユーザの音声が認識された場合には、当該音声の検出結果については音識別情報としての利用対象から除外されてもよい。
<第2の実施形態>
本開示の第2の実施形態として、本開示に係る技術をアプリケーションの起動中のシステムの操作に適用する場合の一例について説明する。なお、本実施形態においては、構成や動作について、前述した第1の実施形態と異なる部分に着目して説明し、前述した第1の実施形態と実質的に同様の部分については詳細な説明は省略するものとする。
図6を参照して、本実施形態に係る情報処理装置の処理の一例について説明する。
S6000において、CPU101は、終了指示があるか否かを判定する。具体的な一例として、CPU101は、後述するS6070の処理において終了指示がなされた場合、または、外部からの終了信号が受信された場合に、終了指示があると判定してもよい。なお、外部からの終了信号とは、例えば、機器の電源ボタンが押下された場合に発せられる信号に相当する。
CPU101は、S6000において終了指示がないと判定した場合には、処理をS2000に進める。この場合には、S2000以降の処理が実行されることとなる。
これに対して、CPU101は、S6000において終了指示があると判定した場合には、図6に示す一連の処理を終了することとなる。
S2000において、画像取得部106は、カメラモジュールの撮像結果に応じた画像のデータを取得する。なお、同処理については、図2を参照して説明した例と実質的に同様である。
S6001において、GPU105は、インデックス値i=0とすることで、当該インデックス値iを初期化する。
S6002において、GPU105は、画像から検出する第1のオブジェクトと第2のオブジェクトとの組み合わせについて規定された組み合わせリストから、第1のオブジェクトの種別情報と第2のオブジェクトの種別情報とを取得する。なお、オブジェクトの種別情報とは、対象となるオブジェクトがどのような種別であるかを示す情報であり、例えば、対象となるオブジェクトが身体の部位の場合には、左手首、右手指等のような当該部位を示す情報が含まれ得る。また、上記組み合わせリストについては、図7を参照して詳細を別途後述する。
S6010において、GPU105は、S2000において取得したデータが示す画像から第1のオブジェクトを検出する。
また、S6020において、GPU105は、S2000において取得したデータが示す画像から第2のオブジェクトを検出する。
そのうえで、S2040において、GPU105は、第1のオブジェクトと第2のオブジェクトとが接触したか否かを判定する。
GPU105は、S2040において第1のオブジェクトと第2のオブジェクトとが接触したと判定した場合には、処理をS2050に進める。
これに対して、GPU105は、S2040において第1のオブジェクトと第2のオブジェクトとが接触していないと判定した場合には、処理をS6080に進める。
S2050において、音声取得部107は、情報処理装置の周囲の音の集音結果に応じた音響データを音情報として取得する。
S6060において、CPU101は、S2050において取得された音情報に対して解析処理(例えば、音響解析処理や音声認識処理等)を施すことで、集音された音を識別し、当該音の識別結果を示す音識別情報を生成する。本実施形態では、CPU101は、音情報が示す音が指で手首を叩くときに発せられる接触音であるか否かを判定する。なお、当該接触音については、一種類には限定されず、多様なバリエーションが識別の対象として含まれていてもよい。具体的な一例として、指が肌に接触する際に発せられる音や、指が服に接触する際に発せられる音が、上記接触音として判定されてもよい。
S6070において、CPU101は、第1のオブジェクト及び第2のオブジェクトそれぞれの動きの解析結果に応じた情報と、S6060において取得された音識別情報との組み合わせに応じた処理を実行する。
例えば、図7は、第1のオブジェクト及び第2のオブジェクトそれぞれの動きの解析結果に応じた情報と音識別情報との組み合わせに応じて実行される処理の一例について、特に、システムの操作が行われる場合に着目して示している。
具体的には、「画像情報」の列には、撮像画像からの検出の対象となる2つのオブジェクトと、当該2つのオブジェクトの動作とが規定されている。「オブジェクト1」及び「オブジェクト2」の列には、撮像画像からの検出対象となる2つのオブジェクト(第1のオブジェクト及び第2のオブジェクト)が規定されている。本実施形態では、第1のオブジェクトとして、「右手指」及び「左手指」のそれぞれが検出の対象となっており、第2のオブジェクトとして、「左手首」、「左前腕」、及び「右手首」のそれぞれが検出の対象となっている。また、「条件」の列には、検出対象となるオブジェクトの動きが示されている。すなわち、図7に示す例では、「右手指」及び「左手指」のいずれかと、「左手首」、「左前腕」、及び「右手首」のいずれかとの「接触」の検出結果が、システムの操作におけるトリガの1つとして利用される。
また、「音声識別情報」の列には、前述した音識別情報として利用される音が示されている。本実施形態では、第1のオブジェクトと第2のオブジェクトとが接触する際に発せられる「タップ音」が、システムの操作におけるトリガの1つとなる音識別情報として利用される。
続いて、「動作」の列に規定された各動作について説明する。
「システムメニューウィンドウ表示モードに切り替え」として規定された動作は、実行中のアプリケーションを一時停止し、システムモーダルなウィンドウを表示させる動作である。例えば、図14は、システムモーダルなウィンドウの一例として、電源オフ等のようなシステムに関する動作の指示を受け付けるためのメニューコマンドが表示されたウィンドウが仮想空間に表示された状態を模式的に示している。
図14に示す例では、ユーザは、仮想空間に表示されたメニューコマンドのうち所望の動作に対応付けられたメニューコマンドをタッチすることで、システムの操作を行うこととなる。なお、この際に、音声の認識結果がユーザからの操作の認識に利用されなくてもよい。また、他の一例として、ユーザがメニューコマンドを音声として発声することで、当該音声の認識結果に基づき、発声されたメニューコマンドが実行されてもよい。この場合には、タッチ操作等のオブジェクトの動作の認識結果がユーザからの操作の認識に利用されなくてもよい。
「システムメニューウィンドウ非表示モードに切り替え」として規定された動作は、開いていたメニューウィンドウを閉じ、一時停止していたアプリケーションを再開する動作である。
「シースルーモードトグル」として規定された動作は、画面の表示状態を「シースルーモード」に切り替えたり、「シースルーモード」から元の状態に切り替えたりするための動作である。すなわち、「シースルーモード」でない状態(切り替え前の元の状態)からは「シースルーモード」への切り替えが行われ、「シースルーモード」の状態からは元の状態への切り替えが行われる。
「シャッター」は、現在表示中のVRシーンデータをファイルとして保存する動作である。ファイルとして保存されるデータについては、対象となるVRシーンデータを画像として表示できればよく、3Dデータ、180度画角のシーンを再現可能な正距円筒画像、及び注視している領域の透視投影画像等が例として挙げられる。
「一時停止」は、アプリケーションの動作を一時的に停止する。音声識別情報がなしのケースでは、音情報が無音、またはリストに存在せず識別されなかった音声であっても、オブジェクト1とオブジェクト2との接触がなされたと判定された場合には、規定された動作が実行されることを示している。
ここで、改めて図6を参照する。S6080において、CPU101は、部位組あわせリストに規定された第1のオブジェクトと第2のオブジェクトとの組み合わせ全てについて、S6002~S2040の処理の試行が行われたか否かを判定する。
CPU101は、S6080において組あわせリストに規定された第1のオブジェクトと第2のオブジェクトとの組み合わせ全てについて、S6002~S2040の処理の試行が行われたと判定した場合には、処理をS6000に進める。この場合には、S6000の処理として示した終了判定が行われ、終了指示がなかった場合にはS2000以降の処理が改めて実行されることとなる。
CPU101は、S6080において組あわせリストに規定された第1のオブジェクトと第2のオブジェクトとの組み合わせ全てについて、S6002~S2040の処理の試行が行われていないと判定した場合には、処理をS6090に進める。
S6090において、CPU101は、インデックス値iをインクリメントする。そして、CPU101は、インクリメントされたインデックス値iに基づき、S6002以降の処理を改めて実行することとなる。このようにして、S6002~S6090の処理のループにより、組みあわせリストに規定された一連のオブジェクトそれぞれについて検出が行われることとなる。
なお、本実施形態では、終了指示が図6に示す処理フローに基づきなされる場合について説明したが、例えば、UIデバイス接続経由で、本体に設置された電源ボタンが押下されたことが検出された場合に、終了指示がなされたものとみなされてもよい。
また、本実施形態では、メニューウィンドウがシステムモーダルなウィンドウであるものとして各種説明を行ったが、必ずしも本実施形態に係る情報処理装置の動作を限定するものではない。具体的な一例として、アプリケーションの操作が同時に可能であってもよく、また、対象となるウィンドウがメニューウィンドウでなくてもよい。すなわち、オブジェクト検出と音の識別(例えば、音声識別)との2つのトリガにより入力モードが切り替えられるようなケースであればよい。また、入力モードが切り替わった後には、オブジェクト検出と音の識別とのうちのいずれか一方による操作が可能となる。また、入力モードの切り替えに伴い、タッチ操作のみにより操作が可能となった場合や、音声等の音のみにより操作が可能となった場合には、ユーザがその状態を識別可能となるように画面等に情報が表示されることが好ましい。
<第3の実施形態>
本開示の第3の実施形態として、動画プレイヤーのアプリケーションにより動画を表示しながら、ユーザからの操作を受け付ける場合の一例について説明する。なお、本実施形態においては、構成や動作について、前述した第1の実施形態と異なる部分に着目して説明し、前述した第1の実施形態と実質的に同様の部分については詳細な説明は省略するものとする。
まず、図1(b)を参照して、本実施形態に係る情報処理装置の構成の一例について説明する。図1(b)に示す構成は、距離情報取得部109が追加されている点で、図1(a)に示す構成と異なる。
距離情報取得部109は、情報処理装置(HMD)と被写体との間の距離を取得する。距離情報取得部109は、例えば、ToF(Time Of Flight)センサにより実現され、深度の測定結果が二次元的に配置されたマップを取得するように構成されていてもよい。なお、距離情報取得部109は、得られる二次元のマップの画角が、画像取得部106により得られる画像の画角と略一致するように、情報処理装置に配設されているものとする。
次いで、図8を参照して、本実施形態に係る情報処理装置の処理の一例について説明する。
S2000において、画像取得部106は、カメラモジュールの撮像結果に応じた画像のデータを取得する。
S2010において、GPU105は、S2000において取得したデータが示す画像から第1のオブジェクトを検出する。
S8015において、距離情報取得部109は、第1のオブジェクトの3次元位置を取得する。具体的には、距離情報取得部109は、S2010において検出した第1のオブジェクトの画像中における2次元位置と、深度の2次元マップとを照合することで、当該第1のオブジェクトの3次元位置を取得する。
S2020において、GPU105は、取得したデータが示す画像から第2のオブジェクトを検出する。
S8025において、距離情報取得部109は、第2のオブジェクトの3次元位置を取得する。具体的には、距離情報取得部109は、S2020において検出した第2のオブジェクトの画像中における2次元位置と、深度の2次元マップとを照合することで、当該第2のオブジェクトの3次元位置を取得する。
S2030において、GPU105は、仮想空間の画像(例えば、CG)の描画を行い、描画された当該画像を当該GPU105に接続された表示パネルに表示させる。
S8040において、GPU105は、第1のオブジェクトと第2のオブジェクトとが接触したか否かを判定する。
GPU105は、S8040において第1のオブジェクトと第2のオブジェクトとが接触したと判定した場合には、処理をS2050に進める。
これに対して、GPU105は、S8040において第1のオブジェクトと第2のオブジェクトとが接触していないと判定した場合には、処理をS2000に進める。この場合には、S2000以降の処理が改めて実行されることとなる。
なお、第1のオブジェクトと第2のオブジェクトとの接触判定については、例えば、第1のオブジェクトと第2のオブジェクトとが互いに近傍に位置するか否か(例えば、互いの距離が3cm以内であるか等)に応じて行われてもよい。すなわち、GPU105は、第1のオブジェクトと第2のオブジェクトとの間の相対的な位置関係の変化に応じて、当該第1のオブジェクトと当該第2のオブジェクトとの接触の有無を判定してもよい。
なお、S2050以降の処理については、図2を参照して説明した例と実質的に同様である。
以上説明したように、本実施形態に係る情報処理装置は、オブジェクトとの間の距離の測定結果に応じた3次元情報を利用することで、2つのオブジェクトの接触を3次元位置の近さに基づき判定する。これにより、2つのオブジェクトそれぞれの動きに応じた操作の判定に係る精度をより向上させる効果が期待できる。なお、対象となる2つのオブジェクトの位置については、オブジェクトの加速度や速度の検出結果を利用することで、補正または推定がなされてもよい。これにより、例えば、位置検出の対象となるオブジェクトとカメラモジュール(または、測距センサ)との間に障害物が介在するような状況下においても、当該オブジェクトの位置の推定に係る精度の低下を防止する効果が期待できる。
なお、本実施形態では、測距センサとしてToFセンサが利用される場合の一例について説明したが、情報処理装置とオブジェクトとの間の距離を測定または推定することが可能であれば、そのための構成や手法については特に限定はされない。具体的な一例として、測距のためのデバイスとしてステレオカメラモジュールを適用し、撮像結果に応じたステレオ画像の視差を利用した所謂三角測量により、情報処理装置と被写体(オブジェクト)との間の距離が測定されてもよい。また、他の一例として、検出対象となる各オブジェクトの大きさを情報としてあらかじめ記憶しておくことで、検出されたオブジェクトの大きさに基づき、当該オブジェクトとの間の距離が推定されてもよい。
また、本実施形態では、第1の実施形態と同様に、画像取得部106を介してカメラモジュールから取得された画像(例えば、RGB画像)を利用してオブジェクトの検出が行われる場合について説明した。一方で、オブジェクトを検出することが可能であれば、当該検出のための構成や手法については特に限定はされない。具体的な一例として、ToFセンサ等の距離情報取得部109により取得されたオブジェクトと間の距離(深度)の測距結果が二次元的に配置されたマップ等のような、非RGB画像情報がオブジェクトの検出や認識に利用されてもよい。
また、本実施形態では、動画プレイヤーのアプリケーションの操作を行う場合に着目して、オブジェクトの3次元位置を得ることで同操作を実現する場合の一例について説明したが、当該操作の手法の適用対象は当該アプリケーションのみには限定されない。具体的な一例として、前述した第2の実施形態のように、システムの操作に対して、本実施形態にて説明した手法が適用されてもよい。具体的な一例として、システムウィンドウの表示や、入力モードの切り替えに係る操作を、本実施形態にて説明した手法に基づき実現してもよい。なお、入力モードの切り替えが行われる場合には、入力モードが切り替わったことを示す情報が、文字やアイコン等により仮想空間画像の一部に描画されることで、ユーザの利便性をより向上させる効果が期待できる。
<第4の実施形態>
本開示の第2の実施形態として、動画プレイヤーのアプリケーションを利用して動画を表示しながら、ユーザからの操作を受け付ける場合の他の一例について説明する。なお、本実施形態においては、構成や動作について、前述した第3の実施形態と異なる部分に着目して説明し、前述した第3の実施形態と実質的に同様の部分については詳細な説明は省略するものとする。
本実施形態では、検出対象となる複数のオブジェクトのうち少なくとも一部のオブジェクトについて画像情報からの検出を行わずに、当該オブジェクトとして仮想空間内に存在する仮想的なオブジェクトが利用される場合の一例について説明する。なお、以降の説明では、便宜上、第2のオブジェクトとして仮想空間内に存在する仮想オブジェクトが利用されるものとする。この場合には、第2のオブジェクトについては、仮想オブジェクトであるため、当該仮想オブジェクトを表示させるための情報として、当該仮想オブジェクトの座標(換言すると、位置情報)が保持されている。本実施形態に係る情報処理装置は、この仮想オブジェクトの座標を利用することで、当該仮想オブジェクト(例えば、第2のオブジェクト)が存在すべき位置を認識する。
図9を参照して、本実施形態に係る情報処理装置の処理の一例について説明する。
なお、図9に示す例は、S2020の処理が削除され、S2030の処理がS9030として示す処理に置き換えられている点で、図8に示す例と異なる。そこで、以降では、図9に示す例について、図8に示す例と異なる部分に着目して説明するものとする。
S8025において、GPU105は、第2のオブジェクトの3次元的な位置を取得する。なお、本実施形態では、第2のオブジェクトは、ボタンを模した仮想的なオブジェクトであるものとする。そのため、GPU105は、例えば、仮想的なオブジェクトである第2のオブジェクトを表示するための情報として保持される座標に基づき、当該第2のオブジェクトの3次元的な位置を取得してもよい。
S9030において、GPU105は、第2のオブジェクトを含む仮想空間画像の描画を行い、描画された当該画像を当該GPU105に接続された表示パネルに表示させる。具体的には、GPU105は、S8025において取得した3時点位置にボタンを模した仮想的なオブジェクトである第2のオブジェクトが配置された仮想空間画像を描画する。
S9070において、CPU101は、第1のオブジェクト及び第2のオブジェクトそれぞれの動きの解析結果(例えば、オブジェクト間の接触の検出結果)に応じた情報と、S2060において取得された音声識別情報との組み合わせに応じた処理を実行する。
例えば、図10は、第1のオブジェクト及び第2のオブジェクトそれぞれの動きの解析結果に応じた情報と音声識別情報との組み合わせに応じて実行される処理の他の一例について、特に、動画プレイヤーのコマンドが実行される場合に着目して示している。なお、本実施形態は、第2のオブジェクトがボタンを模した仮想的なオブジェクトである点で第3の実施形態と異なり、その他の動作については第3の実施形態と実質的に同様である。
以上説明したように、本実施形態では、動きの検出対象となる複数のオブジェクトのうち一方が物理的に存在するオブジェクトであり、他方が仮想的なオブジェクトであっても、接触判定と音の識別との結果の組み合わせに対応する動作を実行することが可能となる。
なお、本実施形態では、仮想的なオブジェクトが1つである場合の一例について説明したが、複数の仮想的なオブジェクトが動きの検出対象となってもよい。具体的な一例として、複数の仮想的なオブジェクト(例えば、ボタン)が第2のオブジェクトの候補として設定され、いずれの仮想オブジェクトが第1のオブジェクトとの接触判定の対象となったかに応じて、実行される動作が決定されてもよい。これにより、接触判定の対象となる第1のオブジェクトと第2のオブジェクトとの組み合わせのパターンが増えるため、より多様な動作を実行対象とすることが可能となる。
また、仮想的なオブジェクトとしてボタンを模したオブジェクトが適用される場合の一例について説明したが、ボタンに限らず、他の形状のオブジェクトや他の種類のオブジェクトが適用されてもよい。具体的な一例として、現実には存在しない、中空に浮く半透明のキューブ状や球状の仮想的なオブジェクトが適用されてもよい。このような場合には、例えば、オブジェクト内に手等の部位が挿入された場合に、当該部位と当該オブジェクトとが接触したものと判定されてもよい。
また、所謂VRが適用される場合には、実空間に存在するオブジェクトについても、仮想空間画像に仮想的なオブジェクトとして描画される場合がある。このような場合には、描画される仮想的なオブジェクトの座標に基づき、当該仮想的なオブジェクトに対応する実空間に存在するオブジェクトの位置や動きが認識されてもよい。すなわち、このような場合には、第1のオブジェクトと第2のオブジェクトとの双方を仮想的なオブジェクトとして、各オブジェクトの座標に基づき、これらのオブジェクトそれぞれの動き(例えば、オブジェクト間の接触)の検出や解析が行われてもよい。
また、本実施形態では、ユーザが発声した音声の識別結果が音識別情報として利用される場合について説明したが、音声に限らず他の音の識別結果が利用されてもよい。具体的な一例として、フィンガースナップの音を識別の対象として、当該音が検出された場合に、あらかじめ対応付けられた動作が実行されてもよい。また、このように音声以外の音を識別の対象とする場合には、どのような音がどのような動作に対応付けられているかが示されたガイドオブジェクトが、仮想空間画像に描画されることで、ユーザの利便性を向上させる効果が期待できる。
<第5の実施形態>
本開示の第5の実施形態として、動画プレイヤーのアプリケーションを利用して動画を表示しながら、ユーザからの操作を受け付ける場合の他の一例について説明する。なお、本実施形態においては、構成や動作について、前述した第1の実施形態と異なる部分に着目して説明し、前述した第1の実施形態と実質的に同様の部分については詳細な説明は省略するものとする。
図11を参照して、本実施形態に係る情報処理装置の処理の一例について説明する。
S2000において、画像取得部106は、カメラモジュールの撮像結果に応じた画像のデータを取得する。
S1110において、GPU105は、S2000において取得したデータが示す画像からオブジェクトを検出する。なお、検出対象となるオブジェクトについては、図12に示す表の「オブジェクト」の列に一例が示されている。なお、図12については詳細を別途後述する。
S1120において、GPU105は、S1110におけるオブジェクトの検出結果を利用して、当該オブジェクトの動きを検出する。具体的な一例として、GPU105は、ブロックマッチングと称される技術に基づき対象となるオブジェクトの動きを探索し、当該探索の結果に基づき、オブジェクトの動きベクトルを当該オブジェクトの動きの検出結果として取得してもよい。なお、ブロックマッチングによるオブジェクトの動きの探索については、既存の技術を適用することが可能であるため、詳細な説明は省略する。例えば、60fpsの画像が取得され、直近3秒間のオブジェクトの動きベクトルが取得される場合には、当該オブジェクトについて180本の動きベクトルが取得されることとなる。
S2030、S2050、及びS2060の処理については、図2を参照して説明した例と同様のため詳細な説明は省略する。
S1170において、CPU101は、オブジェクトの動きの解析結果に応じた情報と、S2060において取得された音声識別情報との組み合わせに応じた処理を実行する。
例えば、図12は、オブジェクトの動きの解析結果に応じた情報と音声識別情報との組み合わせに応じて実行される処理の一例について、特に、動画プレイヤーのコマンドが実行される場合に着目して示している。
具体的には、「画像情報」の列には、撮像画像からの検出の対象となるオブジェクトと、当該オブジェクトの動きとが規定されている。
また、「音声識別情報」の列には、前述した音声識別情報として利用される音声が示されている。
また、「動作」の列には、「画像情報」と「音声識別情報」との組み合わせごとにあらかじめ対応付けられた、動画プレイヤーのコマンド(すなわち、実行される処理)が示されている。
ここで、改めて図11を参照する。S2080以降の処理については、図2を参照して説明した例と同様である。すなわち、終了指示があるか否かの判定が行われ、終了指示があると判定された場合には、図11に示す一連の処理が終了される。
なお、オブジェクトの動作の解析結果と、音声等の音の識別結果とのいずれか一方のみがユーザによる操作の認識に利用される場合には、通常の会話や身振り手振りが、ユーザが意図していないにも関わらず当該ユーザの操作として誤認識される場合がある。これに対して、本実施形態に係る手法に依れば、オブジェクトの動作の解析結果と、音声等の音の識別結果との双方がユーザによる操作の認識に利用されるため、いずれか一方が利用される場合に比べて、誤操作の発生を抑制することが可能となる。
<その他の実施形態>
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記録媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読み出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
101 CPU
105 GPU
106 画像取得部
107 音声取得部

Claims (17)

  1. オブジェクトの動きを解析する動き解析手段と、
    検出された音を解析することで当該音を識別する音識別手段と、
    前記オブジェクトの動きの解析結果を含む動き情報と、前記音の識別結果を含む音識別情報と、の組み合わせに応じた処理を実行する制御手段と、
    を備えることを特徴とする情報処理装置。
  2. 前記動き解析手段は、前記オブジェクトの動きの解析結果から、複数のオブジェクトの相対的な位置関係の変化を示す情報を取得し、
    前記制御手段は、前記複数のオブジェクトの相対的な位置関係の変化を示す情報を含む前記動き情報と、前記音識別情報と、の組み合わせに応じた処理を実行する
    ことを特徴とする、請求項1に記載の情報処理装置。
  3. 前記動き解析手段は、前記オブジェクトの動きの解析結果から、複数のオブジェクト間の接触の有無を示す情報を取得し、
    前記制御手段は、前記複数のオブジェクト間の接触の有無を示す情報を含む前記動き情報と、前記音識別情報と、の組み合わせに応じた処理を実行する
    ことを特徴とする、請求項1または2に記載の情報処理装置。
  4. 前記動き解析手段は、複数のオブジェクトそれぞれの実空間における3次元位置の近さに基づき当該複数のオブジェクト間が接触したか否かを判定することを特徴とする、請求項3に記載の情報処理装置。
  5. 前記複数のオブジェクトのうち、少なくとも一部のオブジェクトは仮想空間内に設定された仮想オブジェクトであることを特徴とする、請求項3または4に記載の情報処理装置。
  6. 前記オブジェクトを識別するオブジェクト識別手段を備え、
    前記制御手段は、前記オブジェクトの識別結果を含むオブジェクト識別情報と、前記動き情報と、前記音識別情報と、の組み合わせに応じた処理を実行する
    ことを特徴とする、請求項1乃至5のいずれか1項に記載の情報処理装置。
  7. 前記音識別手段は、検出された音から複数のオブジェクトの接触音を識別し、
    前記制御手段は、前記動き情報と、前記複数のオブジェクトの接触音の識別結果を含む前記音識別情報と、の組み合わせに応じた処理を実行する
    ことを特徴とする、請求項1乃至6のいずれか1項に記載の情報処理装置。
  8. 前記音識別手段は、音声として発声された単語の音情報を認識し、
    前記制御手段は、前記動き情報と、前記単語の音情報の認識結果を含む前記音識別情報と、の組み合わせに応じた処理を実行する
    ことを特徴とする、請求項1乃至6のいずれか1項に記載の情報処理装置。
  9. オブジェクトの情報を含むデータを取得するデータ取得手段を備え、
    前記動き解析手段は、前記データから前記オブジェクトの動きを解析する
    ことを特徴とする、請求項1乃至8のいずれか1項に記載の情報処理装置。
  10. 前記データは、ユーザの頭部から当該ユーザの視線が向けられた方向が撮像された画像のデータであり、
    前記動き解析手段は、前記画像から撮像されたオブジェクトを検出することで、当該オブジェクトの動きを解析する
    ことを特徴とする、請求項9に記載の情報処理装置。
  11. 前記情報処理装置は、ユーザの頭部に装着されるHMD型の情報処理端末であり、
    前記画像のデータは、前記情報処理端末の筐体に支持された撮像装置による、前記ユーザの視線が向けられた方向の撮像結果に応じた画像のデータである
    ことを特徴とする、請求項10に記載の情報処理装置。
  12. オブジェクトの位置情報を取得する位置情報取得手段を備え、
    前記動き解析手段は、前記オブジェクトの前記位置情報の変化を解析し、
    前記制御手段は、前記オブジェクトの前記位置情報の変化の解析結果を含む前記動き情報と、前記音識別情報と、の組み合わせに応じた処理を実行する
    ことを特徴とする、請求項1乃至8のいずれか1項に記載の情報処理装置。
  13. 前記動き解析手段は、身体の部位を前記オブジェクトとして、当該部位の動きを解析し、
    前記制御手段は、前記部位の動きの解析結果を含む前記動き情報と、前記音識別情報と、の組み合わせに応じた処理を実行する
    ことを特徴とする、請求項1乃至12のいずれか1項に記載の情報処理装置。
  14. 前記オブジェクトの検出結果をCGと合成して表示装置に表示させる表示手段を備えることを特徴とする、請求項1乃至13のいずれか1項に記載の情報処理装置。
  15. 前記音識別手段は、ユーザにより発生された音声を認識し、当該音声の認識結果に基づき当該ユーザを識別し、
    前記制御手段は、対象となるユーザ以外の他のユーザの音声については、前記音識別情報としての利用の対象から除外する
    ことを特徴とする、請求項1乃至14のいずれか1項に記載の情報処理装置。
  16. 情報処理装置が実行する情報処理方法であって、
    オブジェクトの動きを解析する動き解析ステップと、
    検出された音を解析することで当該音を識別する音識別ステップと、
    前記オブジェクトの動きの解析結果を含む動き情報と、前記音の識別結果を含む音識別情報と、の組み合わせに応じた処理を実行する制御ステップと、
    を含むことを特徴とする情報処理方法。
  17. コンピュータを、請求項1乃至15のいずれか1項に記載の情報処理装置の各手段として機能させるためのプログラム。
JP2021149348A 2021-09-14 2021-09-14 情報処理装置、情報処理方法、及びプログラム Pending JP2023042181A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021149348A JP2023042181A (ja) 2021-09-14 2021-09-14 情報処理装置、情報処理方法、及びプログラム
US17/929,615 US20230079969A1 (en) 2021-09-14 2022-09-02 Information processing apparatus, information processing method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021149348A JP2023042181A (ja) 2021-09-14 2021-09-14 情報処理装置、情報処理方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2023042181A true JP2023042181A (ja) 2023-03-27

Family

ID=85480236

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021149348A Pending JP2023042181A (ja) 2021-09-14 2021-09-14 情報処理装置、情報処理方法、及びプログラム

Country Status (2)

Country Link
US (1) US20230079969A1 (ja)
JP (1) JP2023042181A (ja)

Also Published As

Publication number Publication date
US20230079969A1 (en) 2023-03-16

Similar Documents

Publication Publication Date Title
US11494000B2 (en) Touch free interface for augmented reality systems
US8823642B2 (en) Methods and systems for controlling devices using gestures and related 3D sensor
KR101688355B1 (ko) 다수의 지각 감지 입력의 상호작용
CN107665042B (zh) 增强的虚拟触摸板和触摸屏
WO2018150831A1 (ja) 情報処理装置、情報処理方法及び記録媒体
US10372229B2 (en) Information processing system, information processing apparatus, control method, and program
CN111158469A (zh) 视角切换方法、装置、终端设备及存储介质
CN111045511B (zh) 基于手势的操控方法及终端设备
JPH10301675A (ja) マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法
KR20190099347A (ko) 입력 표시 장치, 입력 표시 방법, 및 프로그램
US11886643B2 (en) Information processing apparatus and information processing method
WO2019155735A1 (ja) 情報処理装置、情報処理方法及びプログラム
KR20180094875A (ko) 정보 처리 장치, 정보 처리 방법, 및 프로그램
JP2004192653A (ja) マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法
CN109960404B (zh) 一种数据处理方法及装置
JP2023042181A (ja) 情報処理装置、情報処理方法、及びプログラム
US11755124B1 (en) System for improving user input recognition on touch surfaces
JPH05108302A (ja) 音声と指示動作を用いた情報入力方法
KR20070060885A (ko) 다양한 인식 기술을 이용한 입력 인터페이스 제공 방법
US11054941B2 (en) Information processing system, information processing method, and program for correcting operation direction and operation amount
JP2021009552A (ja) 情報処理装置、情報処理方法およびプログラム
US20240053832A1 (en) Information processing apparatus, information processing method, and non-transitory computer readable medium
US20240118751A1 (en) Information processing device and information processing method
EP4345584A1 (en) Control device, control method, and program
JP2023168746A (ja) 情報処理装置、情報処理システム、情報処理方法、プログラム