JP2016200858A - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
JP2016200858A
JP2016200858A JP2015078328A JP2015078328A JP2016200858A JP 2016200858 A JP2016200858 A JP 2016200858A JP 2015078328 A JP2015078328 A JP 2015078328A JP 2015078328 A JP2015078328 A JP 2015078328A JP 2016200858 A JP2016200858 A JP 2016200858A
Authority
JP
Japan
Prior art keywords
information processing
user
processing apparatus
unit
orientation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015078328A
Other languages
English (en)
Other versions
JP2016200858A5 (ja
JP6592940B2 (ja
Inventor
清士 吉川
Kiyoshi Yoshikawa
清士 吉川
大久保 厚志
Atsushi Okubo
厚志 大久保
健 宮下
Takeshi Miyashita
健 宮下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2015078328A priority Critical patent/JP6592940B2/ja
Priority to PCT/JP2016/001296 priority patent/WO2016163068A1/en
Priority to US15/529,580 priority patent/US10332519B2/en
Priority to CN201680020146.XA priority patent/CN107430857B/zh
Priority to EP16714027.6A priority patent/EP3281087A1/en
Publication of JP2016200858A publication Critical patent/JP2016200858A/ja
Publication of JP2016200858A5 publication Critical patent/JP2016200858A5/ja
Application granted granted Critical
Publication of JP6592940B2 publication Critical patent/JP6592940B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/0346Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of the device orientation or free movement in a 3D space, e.g. 3D mice, 6-DOF [six degrees of freedom] pointers using gyroscopes, accelerometers or tilt-sensors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/038Control and interface arrangements therefor, e.g. drivers or device-embedded control circuitry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Geometry (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Position Input By Displaying (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Image Analysis (AREA)

Abstract

【課題】ユーザの身体のうち少なくとも一部の部位の位置の推定精度を向上させる情報処理装置、情報処理方法及びプログラムを提供する。
【解決手段】ユーザUaの体肢のうち少なくとも前腕に相当する部位U11a、肘に相当する部位U13a、肩に相当する部位U15aの、位置及び向きのうち少なくともいずれかを示す位置情報の時系列に沿った変化に基づき、ユーザの体幹のうち少なくとも口元に相当する部位U21aの位置を推定する推定部を備える。
【選択図】図2

Description

本開示は、情報処理装置、情報処理方法、及びプログラムに関する。
近年、テレビ受像機のような各種家電機器や、カーナビゲーションシステムのような車載機器等のような各種機器を操作するためのユーザインタフェース(UI:User Interface)は多様化してきている。このようなUIの中には、ユーザが、音声や視線の動き等により指示内容を提示することで、ボタンやタッチパネル等のような操作デバイスによる直接的な操作を介することなく、各種機器の操作を可能としたものもある。
特開2011−41096号公報
また、近年では、各種機器が利用される状況も多様化してきており、例えば、1つの機器を複数のユーザが使用するといった状況も想定され得る。このような状況下で使用を想定して、音声や視線の動き等に基づき各種機器を操作可能とするUIとして、操作者であるユーザにより提示される、音声や視線の動き等の情報を精度よく検出するための仕組みについても検討されている。例えば、特許文献1には、ユーザの位置の推定結果に応じて、マイク等のような集音部の指向性を制御することで、当該ユーザからの音声をよりよい品質で集音可能とするための技術の一例が開示されている。
一方で、上記に説明したような、ユーザにより提示される音声や視線の動き等の情報の検出精度をより向上させるために、当該ユーザの口元や眼等のような、当該情報の発信元となる部位の位置を精度よく推定することが可能な仕組みが求められている。
そこで、本開示では、ユーザの身体のうち少なくとも一部の部位の位置の推定精度をより向上させることが可能な、情報処理装置、情報処理方法、及びプログラムを提案する。
本開示によれば、ユーザの体肢のうち少なくとも一部の第1の部位の、位置及び向きのうち少なくともいずれかを示す位置情報の時系列に沿った変化に基づき、当該ユーザの体幹のうち少なくとも一部の第2の部位の位置を推定する推定部を備える、情報処理装置が提供される。
また、本開示によれば、プロセッサが、ユーザの体肢のうち少なくとも一部の第1の部位の、位置及び向きのうち少なくともいずれかを示す位置情報の時系列に沿った変化に基づき、当該ユーザの体幹のうち少なくとも一部の第2の部位の位置を推定することを含む、情報処理方法が提供される。
また、本開示によれば、コンピュータに、ユーザの体肢のうち少なくとも一部の第1の部位の、位置及び向きのうち少なくともいずれかを示す位置情報の時系列に沿った変化に基づき、当該ユーザの体幹のうち少なくとも一部の第2の部位の位置を推定することを実行させる、プログラムが提供される。
以上説明したように本開示によれば、ユーザの身体のうち一部の部位の位置の推定精度をより向上させることが可能な、情報処理装置、情報処理方法、及びプログラムが提供される。
なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の一実施形態に係る情報処理装置の概略的な構成の一例について説明するための説明図である。 センサボックスの構成及び動作の概要について説明するための説明図である。 ユーザの身体のうち所定の部位の位置や向きを認識する方法の一例について説明するための説明図である。 同実施形態に係る情報処理装置の概要について説明するための説明図である。 体幹及び体肢に対応する部分を模式的に示した図である。 同実施形態に係る情報処理装置の機能構成の一例を示したブロック図である。 対象世界モデル更新部の動作の概要について説明するための説明図である。 人間モデルのデータ構造の一例について説明するための説明図である。 同実施形態に係る情報処理装置の一連の処理の流れの一例を示したフローチャートである。 変形例1に係る情報処理装置の動作の一例について説明するための説明図である。 変形例1に係る情報処理装置の動作の他の一例について説明するための説明図である。 変形例1に係る情報処理装置の動作の他の一例について説明するための説明図である。 変形例2に係る情報処理装置の概要について説明するための説明図である。 変形例2に係る情報処理装置の概要について説明するための説明図である。 変形例3に係る情報処理装置の概要について説明するための説明図である。 変形例3に係る情報処理装置の概要について説明するための説明図である。 同実施形態に係る情報処理装置のハードウェア構成の一例を示した図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
なお、説明は以下の順序で行うものとする。
1.概略的構成
2.機能構成
3.処理
4.変形例
4.1.変形例1:指向性制御の一例
4.2.変形例2:システム構成の一例
4.3.変形例3:車載装置への適用例
5.ハードウェア構成
6.まとめ
<1.概略的構成>
まず、図1を参照して、本開示の一実施形態に係る情報処理装置の概略的な構成の一例について説明する。図1は、本実施形態に係る情報処理装置1の概略的な構成の一例について説明するための説明図である。図1に示すように、本実施形態に係る情報処理装置1は、センサボックス20a及び20bと、表示情報を提示するための出力部30と、情報処理装置1の各種動作を制御する制御部が設けられた本体10とを含む。なお、以降の説明では、センサボックス20a及び20bを特に区別しない場合には、単に「センサボックス20」と称する場合がある。
出力部30は、所謂プロジェクタとして構成されており、所定の投影面に対して、提示対象となる表示情報(例えば、操作画面)を投影することで、ユーザに当該表示情報を提示する。例えば、図1に示す例では、出力部30は、所謂単焦点プロジェクタとして構成されており、参照符号90で示された壁面に対して、操作画面等の表示情報を投影することで、当該表示情報をユーザに提示している。なお、以降の説明では、出力部30により情報(即ち、表示情報)が投影される領域(即ち、投影面)を、「領域R10」と称する場合がある。
また、情報処理装置1は、ユーザが、指差し等のように腕や手を用いた動作(ジェスチャ)や、音声入力により操作可能に構成されている。センサボックス20は、ユーザによる腕や手を用いた動作(ジェスチャ)や音声入力等のように、当該ユーザが情報処理装置1を操作するために提示する情報を認識するための構成である。なお、図1に示す例では、センサボックス20として、センサボックス20a及び20bの2つが設けられているが、必ずしも同構成に限定するものではなく、センサボックス20の数は特に限定されない。
ここで、図2を参照して、センサボックス20の概略的な構成及び動作の概要について説明する。図2は、センサボックス20の構成及び動作の概要について説明するための説明図であり、図1に示す情報処理装置1を、鉛直方向の上部から見下ろした場合における当該情報処理装置1の概略的な構成の一例を示している。なお、図2では、説明をわかりやすくするために、情報処理装置1の構成のうち、センサボックス20a及び20bと、出力部30とを提示し、その他の構成については図示を省略している。
図2に示すように、センサボックス20は、検知部21と、集音部23とを含む。
集音部23は、所謂マイクロフォン等のようにユーザからの音声入力を集音するための集音デバイスとして構成され得る。即ち、集音部23は、ユーザからの音声入力を、音響情報として集音する。
また、集音部23は、所謂指向性デバイスとして構成されており、音響情報を集音する領域の指向性を制御可能に構成されている。例えば、図2において、参照符号R23aは、センサボックス20aに設けられた集音部23が音響情報を集音する領域の向き及び広さ(即ち、指向性)を模式的に示している。同様に、参照符号R23bは、センサボックス20bに設けられた集音部23が音響情報を集音する領域の向き及び広さを模式的に示している。なお、以降では、参照符号R23aで示された領域を「集音領域R23a」と称する場合がある。同様に、参照符号R23bで示された領域を「集音領域R23b」と称する場合がある。また、集音領域R23a及びR23bを特に区別しない場合には、単に「集音領域R23」と称する場合がある。
なお、詳細は後述するが、本実施形態に係る情報処理装置1は、ユーザの口元の位置を推定し、推定結果に基づき、集音部23が推定された口元の位置を向くように当該集音部23の指向性を制御する。このような構成により、集音部23は、対象となるユーザ(例えば、操作者として認識されたユーザ)からの音声入力を精度よく集音することが可能となる。
特に、図1及び図2に示すように、ユーザが複数存在するような状況下において、一方のユーザUaから音声入力を集音する場合には、他方のユーザUbからの音声入力が雑音として作用する場合がある。このような状況下においても、集音部23がユーザUaの口元の方向を向くように当該集音部23の指向性が制御されることで、当該集音部23は、ユーザUbからの音声入力の影響を抑制し、ユーザUaからの音声入力を精度よく集音することが可能となる。
検知部21は、ユーザによる腕や手等の部位を用いた動作、即ち、当該部位の位置や向きを検出するための、各種情報を取得する。
例えば、図2に示す例では、情報処理装置1(具体的には、本体10に設けられた制御部)は、検知部21による検知結果に基づき、ユーザの前腕に相当する部位U11の位置や向きの変化を時系列に沿って検出し、当該検出結果に基づき、当該部位U11を用いたユーザの動作を認識する。
例えば、図2において、参照符号U11aは、ユーザUaの前腕に相当する部位を示しており、参照符号L1aは、当該部位U11aの軸(長軸)を模式的に示している。即ち、情報処理装置1は、検知部21による検知結果に基づき、部位U11aの位置や向きを検出し、当該結果に応じて軸L1aを特定することで、ユーザが部位U11により指し示す、領域R10の位置(ひいては、領域R10中に表示された表示情報)を特定することが可能となる。また、情報処理装置1は、時系列に沿った部位U11aの位置や向きの変化の認識結果を、所定の動作(ジェスチャ)に対応する部位U11の位置や向きの変化のパターン(以降では、「動作パターン」と称する場合がある)と照合することで、当該部位U11aを用いたユーザUaの動作(ジェスチャ)を認識することが可能となる。
同様に、参照符号U11bは、ユーザUbの前腕に相当する部位を示しており、参照符号L1bは、当該部位U11bの軸(長軸)を模式的に示している。即ち、情報処理装置1は、部位U11bの位置や向きの検出結果に基づき、ユーザUbが部位U11bにより指し示す領域R10の位置や、当該部位U11aを用いた動作(ジェスチャ)を認識する
検知部21は、ステレオイメージセンサ等のような、所謂測距センサにより構成され得る。図2において、参照符号R21aは、センサボックス20aに設けられた検知部21の検出範囲の向き及び広さを模式的に示している。同様に、参照符号R21bは、センサボックス20bに設けられた検知部21の検出範囲の向き及び広さを模式的に示している。なお、以降の説明では、検出範囲R21a及びR21bを特に区別しない場合には、単に「検出範囲R21」と称する場合がある。
ここで、図3を参照して、検知部21として測距センサを適用した場合に、検知部21による検知結果に基づき、ユーザの身体のうち所定の部位の位置や向きを認識する方法の一例について説明する。図3は、ユーザの身体のうち所定の部位の位置や向きを認識する方法の一例について説明するための説明図である。
例えば、検知部21に、検出範囲R21中を走査させながら、当該検出範囲R21に存在するユーザとの間の距離を検出させ、当該検知部21による各検出結果をマッピングすると、図3に示すような、各検出結果を示す点情報の集合が得られる。なお、以降では、図3に示すように、検知部21による検出結果を示す点情報の集合を、「ポイントクラウド」と称する場合がある。
情報処理装置1は、検知部21による検出結果に基づき取得したポイントクラウドのうち、例えば、各点情報の位置関係(分布の傾向)や、各点情報の時系列に沿った動きの傾向等に基づき、同じ物体と思われる点情報の集合を塊としてまとめる。情報処理装置1は、このようにして取得された各塊の中から、各塊の形状的な特徴、各塊間の位置関係、及び各塊の位置及び向きの変化等に基づき、所定の部位に相当する塊を抽出する。また、このとき、情報処理装置1は、例えば、各塊に含まれる点情報に対して主成分分析を施すことで、当該塊に含まれる点情報に基づく主成分(分散の最も大きい軸)を主軸として検出し、当該主軸の検出結果に基づき、塊の形状や向き(主軸の向き)を特定してもよい。
以上のような処理により、情報処理装置1は、例えば、図3に示すように、ユーザの右腕の前腕に相当する部位U11に対応する長尺状の塊と、当該長尺状の塊の主軸L1とを、ポイントクラウド中から抽出することが可能となる。同様にして、情報処理装置1は、ユーザの左腕の前腕に相当する部位U11’に対応する長尺状の塊と、当該長尺状の塊の主軸L1’とを、ポイントクラウド中から抽出することも可能であることは言うまでもない。
なお、情報処理装置1が、ユーザの所定の部位(例えば、図2における前腕に相当する部位U11)の位置や向きを認識することができれば、検知部21の構成は、上記に説明した所謂測距センサには限定されない。具体的な一例として、検知部21は、被写体の画像を撮像するための撮像部として構成されていてもよい。この場合には、情報処理装置1は、検知部21により撮像されたユーザの画像に対して画像解析を施すことで、所定の部位(例えば、前腕に相当する部位U11)の位置や向きを検出してもよい。
また、情報処理装置1が、ユーザの所定の部位の位置や向きを認識できれば、当該認識のための情報を取得する主体は、必ずしもセンサボックス20に設けられた検知部21には限定されない。例えば、情報処理装置1は、ユーザの所定の部位に装着された所謂ウェアラブルデバイスの検出結果に基づき、当該所定の部位の位置や向きを認識してもよい。
具体的な一例として、ウェアラブルデバイスに、GPS(Global Positioning System)や、加速度センサや角速度センサ等の各種センサ等の検出デバイスを設け、情報処理装置1は、当該検出デバイスの検出結果を利用してもよい。この場合には、情報処理装置1は、当該検出デバイスの検出結果に基づき、ウェアラブルデバイスの位置や向きを認識し、当該ウェアラブルデバイスの位置や向きの認識結果に基づき、ウェアラブルデバイスが装着された腕の位置や向きを認識すればよい。
また、他の一例として、ユーザの所定の部位の位置や向きの認識に、光学センサや赤外線センサ等のような、特定の検出範囲へのユーザ(換言すると、腕等の部位)の進入を検知するセンサを用いてもよい。具体的には、検出範囲が互いに異なる複数のセンサを設けることで、情報処理装置1は、各センサの検出結果に基づき、ユーザの腕等の部位が、いずれのセンサの検出範囲に位置しているかを認識することが可能となる。
また、本実施形態に係る情報処理装置1は、ユーザの所定の部位U11の位置や向きの認識結果に基づき、当該ユーザの他の部位の位置や向きを推定する。例えば、図4は、本実施形態に係る情報処理装置1の概要について説明するための説明図であり、情報処理装置1が、部位U11の認識結果に基づき、他の部位の位置や向きを推定するための処理の一例について説明するための図である。
例えば、図4に示す例では、情報処理装置1は、ユーザの前腕に相当する部位U11の位置や向きの認識結果に基づき、当該ユーザの口元に相当する部位U21の位置や向きを推定している。
具体的には、情報処理装置1は、前腕に相当する部位U11の位置や向きの時系列に沿った変化に基づき、当該部位U11の可動範囲を認識し、認識した可動範囲に基づき、部位U11の動作の基点となる肘に相当する部位U13の位置や向きを推定する。換言すると、情報処理装置1は、前腕に相当する部位U11の動きの軌跡(即ち、部位U11の位置や向きの履歴)に基づき、当該部位U11の可動範囲を認識し、認識した可動範囲に基づき、肘に相当する部位U13の位置や向きを推定する。また、情報処理装置1は、肘に相当する部位U13の位置や向きの時系列に沿った変化に基づき、当該部位U13の可動範囲を推定し、推定した可動範囲に基づき、部位U13の動作の基点となる肩に相当する部位U15の位置や向きを推定する。換言すると、情報処理装置1は、肘に相当する部位U13の動きの軌跡(即ち、部位U13の位置や向きの履歴)に基づき、当該部位U13の可動範囲を認識し、認識した可動範囲に基づき、肩に相当する部位U15の位置や向きを推定する。そして、情報処理装置1は、肩に相当する部位U15の位置や向きの推定結果に基づき、口元に相当する部位U21の位置を推定する。
また、このとき情報処理装置1は、他の方の腕についても同様にして、肩に相当する部位U15’の位置や向きを推定し、当該推定結果を、口元に相当する部位U21の推定に利用することで、当該部位U21の推定の精度を向上させてもよい。
なお、図4に示す例はあくまで一例であり、情報処理装置1が、ユーザの一部の部位(例えば、部位U11)の位置や向きの認識結果に基づき、他の部位(例えば、部位U21)の位置や向きが推定できれば、対象となる部位は特に限定されない。
なお、情報処理装置1が位置や向きの推定対象とする部位は、ユーザの身体のうち、相対的に動きのより小さい部位が望ましい。推定対象となる部位としては、例えば、ユーザの体幹に含まれる、うち少なくとも一部の部位が挙げられる。
なお、本説明では、体幹とは、身体のうち、体肢を除いた部分を示すものとする。体幹には、例えば、頭部、頸部、胸部、腹部、骨盤部、及び尾部が含まれる。また、体肢とは、体幹から延びる手足に相当し、前肢(上肢)及び後肢(下肢)が含まれる。例えば、図5は、本説明において体幹及び体肢と称する部分を模式的に示した図である。図5において、参照符号U10で示された部分が体肢に相当し、参照符号U20で示された部分が体幹に相当する。
また、情報処理装置1が、検知部21の検出結果に基づく認識の対象とする部位(即ち、他の部位の位置や向きを推定するために利用する部位)は、ユーザの身体のうち、相対的に動きのより大きい部位が望ましい。認識の対象となる部位としては、例えば、ユーザの体肢に含まれる、少なくとも一部の部位が挙げられる。また、他の一例として、可動範囲が所定の閾値以上(例えば、90度以上)の部位が、検知部21の検出結果に基づく認識の対象とされてもよい。また、他の一例として、動きの自由度として少なくとも2自由度を有する部位が、検知部21の検出結果に基づく認識の対象とされてもよい。
以上のようにして、情報処理装置1は、ユーザの口元の位置を推定し、集音部23の集音領域R23推定した口元の方向を向くように、当該集音部23の指向性を制御する。
例えば、図2に示す例の場合には、情報処理装置1は、ユーザUaの前腕に相当する部位U11aの位置及び向きの変化に基づき、肘に相当する部位U13a及び肩に相当する部位U15aの位置及び向きを、それぞれ順次推定する。そして、情報処理装置1は、肩に相当する部位U15aの推定結果に基づき、口元に相当する部位U21aの位置及び向きを推定し、センサボックス20aの集音部23の集音領域R23aが当該部位U21aの方向を向くように、当該集音部23の指向性を制御する。これにより、情報処理装置1は、センサボックス20aの集音部23により、ユーザUaからの音声入力を精度よく集音することが可能となる。
同様に、情報処理装置1は、ユーザUbの前腕に相当する部位U11bの位置及び向きの変化に基づき、肘に相当する部位U13b及び肩に相当する部位U15bの位置及び向きを、それぞれ順次推定する。そして、情報処理装置1は、肩に相当する部位U15bの推定結果に基づき、口元に相当する部位U21bの位置及び向きを推定し、センサボックス20bの集音部23の集音領域R23bが当該部位U21bの方向を向くように、当該集音部23の指向性を制御する。これにより、情報処理装置1は、センサボックス20bの集音部23により、ユーザUbからの音声入力を精度よく集音することが可能となる。
以上のようにして、情報処理装置1は、ユーザによる腕や手を用いた動作を認識し、認識結果に応じて、ユーザが指し示す領域R10中に表示された表示情報(各種コンテンツの表示オブジェクト)や、当該表示情報に対する操作の内容を認識する。また、情報処理装置1は、ユーザから発話された音声を集音し、集音した音声に対して所謂音声認識技術を適用することで、ユーザから音声入力により指示された内容を認識する。そして、情報処理装置1は、認識したユーザ操作に応じて各種処理(例えば、アプリケーション)を実行し、実行結果に応じて領域R10に表示された表示情報が更新されるように、出力部30の動作を制御する。
以上、図1〜図5を参照して、本実施形態に係る情報処理装置1の概要について説明した。
なお、上記に説明した例は、あくまで一例であり、情報処理装置1による指向性制御の対象は、必ずしもマイクロフォン等のような集音部23には限定されない。
具体的な一例として、上記に説明した部位の推定と、当該推定結果に基づく指向性制御を、所謂、ユーザの視線の認識に係る処理に応用してもよい。この場合には、例えば、情報処理装置1は、ユーザの前腕に相当する部位U11の位置及び向きの認識結果に基づき、肘、肩の順で位置及び向きを順次推定し、当該推定結果に基づき、ユーザの眼の位置及び向きを推定してもよい。そして、情報処理装置1は、被写体を撮像する撮像部の撮像領域が、ユーザの眼の方向を向くように、当該撮像部の向きを制御してもよい。
これにより、情報処理装置1は、ユーザの視線を認識するために、当該ユーザの眼の近傍の領域のみを撮像することが可能となり、画角の狭い撮像部を使用した場合においても、当該ユーザの視線を認識することが可能となる。また、当該情報処理装置1は、ユーザの眼の近傍のみを撮像することが可能となるため、当該眼の近傍を含むより広い領域を撮像する場合に比べて、視線認識のための画像処理の負荷を低減することが可能となる。
同様にして、上記に説明した部位の推定と、当該推定結果に基づく指向性制御を、所謂、ユーザの顔認識に係る処理に応用してもよい。この場合には、例えば、情報処理装置1は、ユーザの前腕に相当する部位U11の位置及び向きの認識結果に基づき、肩に相当する部位U15の位置及び向きを推定し、当該推定結果に基づき、ユーザの顔の位置及び向きを推定すればよい。そして、情報処理装置1は、被写体を撮像する撮像部の撮像領域が、ユーザの顔の方向を向くように、当該撮像部の向きを制御してもよい。
また、他の一例として、上記に説明した部位の推定と、当該推定結果に基づく指向性制御を、所謂、スピーカ等の音響デバイスの指向性制御に係る処理に応用してもよい。この場合には、例えば、情報処理装置1は、ユーザの前腕に相当する部位U11の位置及び向きの認識結果に基づき、肩に相当する部位U15の位置及び向きを推定し、当該推定結果に基づき、ユーザの耳の位置及び向きを推定してもよい。そして、情報処理装置1は、スピーカ等の音響デバイスが音響情報を出力する方向が、ユーザの耳の方向を向くように、当該音響デバイスの指向性を制御してもよい。
これにより、情報処理装置1は、ユーザが複数存在するような状況下においても、特定のユーザが音響情報を認識できるように、当該ユーザに向けて音響情報を出力することが可能となる。
<2.機能構成>
次に、図6を参照して、本実施形態に係る情報処理装置1の機能構成の一例について説明する。図6は、本実施形態に係る情報処理装置1の機能構成の一例を示したブロック図であり、図1に示した情報処理装置1の機能構成の一例を示している。
図6に示すように、本実施形態に係る情報処理装置1は、制御部11と、センサボックス20a及び20bと、出力部30と、記憶部40とを含む。なお、センサボックス20a及び20bと、出力部30とは、図2を参照して説明したセンサボックス20a及び20bと、出力部30とにそれぞれ対応している。そのため、センサボックス20a及び20bと、出力部30とについては、詳細な説明は省略する。なお、本説明では、図2に示す例と同様に、センサボックス20(例えば、センサボックス20a及び20bのそれぞれ)は、検知部21と、集音部23とを含むものとする。
図6に示すように、制御部11は、対象認識部12と、音声認識部13と、対象世界モデル更新部14と、指向性制御部15と、入力解析部16と、処理実行部17と、出力制御部18とを含む。
対象認識部12は、各センサボックス20の検知部21から、当該検知部21の検出範囲R21中に存在するオブジェクト(例えば、ユーザの身体の少なくとも一部)の検知結果を取得する。対象認識部12は、取得した検知結果を解析することで、対象となる部位の情報を抽出し、抽出結果に基づき当該部位の位置や向きを認識する。
なお、検知部21による検知結果に基づき、対象となる部位の位置や向きを認識する方法については、図3を参照して前述した通りである。即ち、図3に示す例の場合には、対象認識部12は、測距センサとして構成された検知部21の検知結果に基づき、ユーザの前腕に相当する部位U11の位置や向きを認識する。なお、以降の説明では、対象認識部12は、検知部21による検知結果に基づき、ユーザの前腕に相当する部位U11の位置や向きを認識するものとする。
そして、対象認識部12は、対象となる部位U11の位置や向きの認識結果を示す制御情報を、検知部21ごと(もしくは、センサボックス20ごと)に、対象世界モデル更新部14に出力する。
音声認識部13は、各センサボックスの集音部23から、集音された音響情報を取得する。音声認識部13は、取得した音響情報から音声区間を検出し、当該音響情報から当該音声区間に相当する部分(即ち、音響信号)を音声入力として抽出する。音声認識部13は、抽出した音声入力を、所謂音声認識技術に基づき解析することで、文字情報に変換する。
そして、音声認識部13は、音声認識技術に基づく解析の結果(以降では、「音声認識の結果」と称する場合がある)、即ち、音声入力が変換された文字情報を、集音部23ごと(もしくは、センサボックス20ごと)に、対象世界モデル更新部14に出力する。
対象世界モデル更新部14は、対象認識部12から、対象となる部位U11の位置や向きの認識結果を示す制御情報を、検知部21ごとに取得する。
なお、このとき検知部21ごとに取得される制御情報が示す、部位U11の位置や向きは、当該検知部21に対する部位U11の相対的な位置関係を示している。そこで、対象世界モデル更新部14は、各検知部21の位置や向き(具体的には、検知部21ごとの検出範囲R21の位置関係)に基づき、検知部21ごとの部位U11の認識結果を統合し、各検知部21が配置された空間中における当該部位U11の絶対位置を認識する。
なお、各検知部21間の位置関係については、対象世界モデル更新部14は、事前のキャリブレーションや、ユーザからのデータ入力等に基づき、あらかじめ認識すればよい。また、他の一例として、対象世界モデル更新部14は、各センサ間の位置関係を、各種センサの検知結果や、撮像部により撮像された画像の解析等に基づき、自動的に認識してもよい。
ここで、図7を参照して、対象世界モデル更新部14の動作の概要について説明する。図7は、対象世界モデル更新部14の動作の概要について説明するための説明図である。図7において、センサA〜Cは、例えば、センサボックス20ごとに設けられた検知部21を模式的に示している。また、参照符号P1〜P5は、各センサの検出対象となるオブジェクト(例えば、ユーザの身体の少なくとも一部)を模式的に示している。
図7に示す例では、センサAの検出範囲中には、オブジェクトP1及びP2が存在している。また、センサBの検出範囲中には、オブジェクトP2、P3、及びP4が存在している。このとき、オブジェクトP2は、センサA及びB双方の検出範囲中に存在していることとなる。同様に、センサCの検出範囲中には、オブジェクトP4及びP5が存在している。このとき、オブジェクトP2は、センサA及びB双方の検出範囲中に存在していることとなる。
また、図7において、参照符号D10aで示されたデータは、センサAの検知結果に基づき認識されたオブジェクトと、当該オブジェクトの位置情報とを示している。なお、このとき認識される各オブジェクトの位置情報は、センサAを基準とした相対的な位置情報(即ち、相対空間座標)に相当する。また、以降の説明では、参照符号D10aで示されたデータを、センサAに対応する「対象世界モデルD10a」と称する場合がある。
例えば、対象世界モデルD10aにおいて、識別子「IDA001」で示された、相対空間座標(Xa1,Ya1,Za1)に位置するオブジェクトは、図7中のオブジェクトP1を示している。また、識別子「IDA002」で示された、相対空間座標(Xa2,Ya2,Za2)に位置するオブジェクトは、図7中のオブジェクトP2を示している。
また、参照符号D10bで示されたデータは、センサBの検知結果に基づき認識されたオブジェクトと、当該オブジェクトの位置情報とを示した、センサBに対応する対象世界モデルD10bに相当する。即ち、対象世界モデルD10bにおいて、識別子「IDB001」で示されたデータはオブジェクトP2に対応している。同様に、識別子「IDB002」で示されたデータはオブジェクトP3に対応し、識別子「IDB003」で示されたデータはオブジェクトP4に対応している。
同様に、参照符号D10cで示されたデータは、センサCの検知結果に基づき認識されたオブジェクトと、当該オブジェクトの位置情報とを示した、センサCに対応する対象世界モデルD10cに相当する。即ち、対象世界モデルD10cにおいて、識別子「IDC001」で示されたデータはオブジェクトP4に対応し、識別子「IDC002」で示されたデータはオブジェクトP5に対応している。
なお、以降の説明では、対象世界モデルD10a〜D10cを特に区別せずに、単に、センサごとの対象世界モデルを示す場合には、「対象世界モデルD10」と称する場合がある。また、センサごとの対象世界モデルD10が、対象認識部12により、検知部21ごとの、対象となる部位U11の位置や向きの認識結果を示す制御情報に相当する。
対象世界モデル更新部14は、検知部21ごと(即ち、センサごと)に取得された対象世界モデルD10を、あらかじめ認識した各検知部21間の位置関係に基づき統合し、各検知部21が配置された空間中における絶対位置を示す、対象世界モデルD30を生成または更新する。
具体的な一例として、対象世界モデル更新部14は、各検知部21間の位置関係に基づき、各検知部21それぞれの検出範囲R21を、各検知部21が配置された空間中の位置(絶対位置)としてマッピングする。なお、以降では、各検知部21が配置された空間中の座標を、「絶対空間座標」と称する場合がある。
そして、対象世界モデル更新部14は、検知部21ごとの対象世界モデルD10に基づき、各検知部21により検知されたオブジェクトを、絶対空間座標中にマッピングする。なお、このとき対象世界モデル更新部14は、各検知部21間の位置関係に基づき、互いに異なる検知部21間で検出された各オブジェクトの情報の中から、同一のオブジェクトを示す情報を関連付ける。
例えば、図7に示す例の場合には、対象世界モデル更新部14は、センサA及びB間の位置関係に基づき、対象世界モデルD10a中の「識別子IDA002」で示されたオブジェクトと、対象世界モデルD10b中の「識別子IDB001」で示されたオブジェクトとが、同一のオブジェクトであることを認識する。そのため、対象世界モデル更新部14は、「識別子IDA002」で示されたオブジェクトと、「識別子IDB001」で示されたオブジェクトとを、対象オブジェクトとして、共通のオブジェクトP2を示す情報に関連付けている。
同様に、対象世界モデル更新部14は、センサB及びC間の位置関係に基づき、対象世界モデルD10b中の「識別子IDB003」で示されたオブジェクトと、対象世界モデルD10c中の「識別子IDC001」で示されたオブジェクトとが、同一のオブジェクトであることを認識する。そのため、対象世界モデル更新部14は、「識別子IDB003」で示されたオブジェクトと、「識別子IDC001」で示されたオブジェクトとを、対象オブジェクトとして、共通のオブジェクトP4を示す情報に関連付けている。
以上のようにして、対象世界モデル更新部14は、検知部21ごとに逐次取得された対象世界モデルD10を、各検知部21間の位置関係に基づき統合することで対象世界モデルD30を生成または更新し、当該対象世界モデルD30を時系列に沿って蓄積する。このようにして時系列に沿って蓄積された対象世界モデルD30中には、例えば、対象となる部位(例えば、前腕に相当する部位U11)の位置や向きの時系列に沿った変化が示されていることとなる
なお、人間の部位の中には、例えば、右腕と左腕とのように、互いに形状が類似する部位が存在する。一方で、このように互いに形状が類似する部位は、当該部位の位置や向きの認識結果(または推定結果)のみでは、判別が困難な場合がある。そこで、対象世界モデル更新部14は、当該部位の時系列に沿った動きの特性(例えば、動きのベクトル、速度、加速度等)に基づき、互いに形状が類似する部位を判別してもよい。
具体的な一例として、右腕と左腕とでは、左右の動きの速度や加速度の変化が互いに異なる傾向にある。そのため、対象世界モデル更新部14は、腕と認識した部位の動きの速度や加速度の変化に基づき、当該部位が右腕及び左腕のいずれに相当するかを判別してもよい。
また、他の一例として、右腕と左腕とでは、可動範囲(例えば、体幹に対する可動範囲)が互いに異なる傾向にある。そのため、対象世界モデル更新部14は、腕と認識した部位のベクトルの変化に基づき、当該部位が右腕及び左腕のいずれに相当するかを判別してもよい。
また、対象世界モデル更新部14は、時系列に沿って蓄積された対象世界モデルD30に基づき、対象となる部位の可動範囲を認識し、認識した可動範囲に基づき、当該部位の動作の基点となる他の部位の位置や向きを推定する。
例えば、図3を参照して前述した例では、対象世界モデル更新部14は、前腕に相当する部位U11の可動範囲に基づき、当該部位U11の動作の基点となる肘に相当する部位U13の位置や向きを推定する。また、対象世界モデル更新部14は、肘に相当する部位U13の位置や向きの時系列に沿った変化に基づき、当該部位U13の可動範囲を推定し、推定した可動範囲に基づき、部位U13の動作の基点となる肩に相当する部位U15の位置や向きを推定する。また、対象世界モデル更新部14は、肩に相当する部位U15の位置や向きの推定結果に基づき、口元に相当する部位U21の位置を推定する。
そして、対象世界モデル更新部14は、他の部位(例えば、図3に示す、部位U13、U15、及びU21)の位置や向きの推定結果に基づき、対象世界モデルD30を更新する。これにより、対象世界モデルD30中に、他の部位の位置や向きを示す情報が記録される。なお、対象世界モデル更新部14のうち、特に、当該他の部位の位置や向きを推定する部分が、「推定部」の一例に相当する。
以上のようにして、対象世界モデル更新部14は、対象世界モデルD30を生成または更新する。なお、対象世界モデル更新部14は、生成または更新した当該対象世界モデルD30を、例えば、記憶部40に記憶させる。
また、対象世界モデル更新部14は、対象世界モデルD30に基づく各部位間の位置関係に基づき、各部位の時系列に沿った位置や向きを示す情報を、ユーザの身体を示すモデルに合わせこむことで、ユーザごとに統合したデータを生成する。なお、以降では、各部位の時系列に沿った位置や向きを示す情報が、ユーザごとに統合されたデータを、「人間モデルD50」と称する場合がある。
例えば、図8は、ユーザごとに生成される人間モデルのデータ構造の一例について説明するための説明図である。
図8に示すように、人間モデルD50には、ヘッダD51と、部位ごとの時系列に沿った位置や向きの変化を示すデータD55とが関連付けられる。データD55には、認識または推定された部位ごとに、当該部位の位置や向きを示す位置情報D551が時系列に沿って関連付けられる。
また、ヘッダD51には、人間モデルD50の管理情報が格納される。当該管理情報には、各人間モデルD50を識別するための識別情報や、人間モデルD50中に含まれる各データ(例えば、データD55)を抽出するための情報(例えば、アドレス)等が含まれる。
なお、このとき対象世界モデル更新部14は、対象世界モデルD30に基づく各部位間の位置関係や、各部位の検出結果に応じて認識される状況に応じて、各部位が、同じユーザの部位に相当するか、互いに異なるユーザの部位に相当するかを判別する。
具体的な一例として、対象世界モデル更新部14は、右腕の前腕に相当する部位U11と、左腕の前腕に相当する部位U11’との距離が閾値以上離間している場合に、当該部位U11及びU11’を互いに異なるユーザの部位であるものと判別する。
また、他の一例として、対象世界モデル更新部14は、右腕の前腕に相当する部位U11が複数存在する場合には、当該複数の部位U11それぞれを、互いに異なるユーザの部位であるものと判別する。
また、対象世界モデル更新部14は、対象世界モデルD30に基づき、部位ごとに時系列に沿った動きを追跡し、当該追跡結果に応じて、検出された各部位が、同じユーザの部位に相当するか、互いに異なるユーザの部位に相当するかを判別してもよい。
以上のようにして、対象世界モデル更新部14は、対象世界モデルD30に含まれる各部位の情報を、ユーザごとに統合して、人間モデルD50を生成または更新する。
また、人間モデルD50は、音声入力が変換された文字情報等のように、対応するユーザからの入力データD53が関連付けられてもよい。
この場合には、例えば、対象世界モデル更新部14は、後述する指向性制御部15から、各集音部23の集音領域R23の向きや広さ(即ち、当該集音部23の指向性)を示す情報を取得し、ユーザごとに推定された口元の位置と照合する。これにより、対象世界モデル更新部14は、各集音部23の指向性が、どのユーザの方向を向いているかを認識する。即ち、対象世界モデル更新部14は、各集音部23が、どのユーザの音声を集音しているかを認識することが可能となる。
そして、対象世界モデル更新部14は、音声認識部13から集音部23ごとに取得した、音声認識の結果を示す情報D531(例えば、音声入力が変換された文字情報)を、当該集音部23の指向性が向いているユーザに対応する人間モデルD50に、入力データD53として時系列に沿って関連付ければよい。
以上のようにして、対象世界モデル更新部14は、対象世界モデルD30に基づく各部位間の位置関係に基づき、各部位の時系列に沿った位置や向きを示す情報を、ユーザごとに統合することで、人間モデルD50をユーザごとに生成または更新する。そして、対象世界モデル更新部14は、ユーザごとに生成または更新した当該人間モデルD50を、記憶部40に記憶させる。
指向性制御部15は、記憶部40に記憶された人間モデルD50に基づき、指向性デバイスの指向性を制御する。例えば、図6に示す例では、指向性制御部15は、各センサボックス20の集音部23の指向性を制御する。
具体的には、指向性制御部15は、記憶部40にユーザごとに記憶された人間モデルD50の更新状況を監視することで、ユーザごとに、口元に相当する部位U21の位置や向きを認識する。そして、指向性制御部15は、例えば、ユーザごとに認識した部位U21の位置や向きに基づき、各集音部23の集音領域R23の向きが、認識した部位U21の方向を向くように、当該集音部23の動作を制御する。また、このとき、指向性制御部15は、部位U21の位置や向きの認識結果に応じて、各集音部23の集音領域R23の広さを制御してもよい。
また、指向性制御部15は、各集音部23の指向性の制御結果(即ち、各集音部23の集音領域R23の向きや広さ)を示す情報を、対象世界モデル更新部14に通知してもよい。これにより、対象世界モデル更新部14は、各集音部23の指向性が、どのユーザの方向を向いているかを認識することが可能となる。
入力解析部16は、記憶部40に記憶された人間モデルD50に基づき、各ユーザが情報処理装置1に対して行った操作の内容を認識するための構成である。
具体的には、入力解析部16は、記憶部40にユーザごとに記憶された人間モデルD50の更新状況を監視することで、ユーザごとに、前腕に相当する部位U11の位置や向きの変化を認識し、当該認識結果に基づき当該ユーザによる操作の内容を認識する。
この場合には、入力解析部16は、例えば、後述する出力制御部18から、操作画面中における各表示情報の位置を示す情報を事前に取得する。なお、出力部30が、図1及ぶ図2に示すように、所謂プロジェクタとして構成されている場合には、本説明におかえる操作画面は、例えば、図1及び図2に示す領域R10に相当する。
そして、入力解析部16は、部位U11の位置や向きの変化の認識結果と、出力制御部18から取得した操作画面中における各表示情報の位置を示す情報とを照合することで、ユーザが部位U11により指し示す操作画面中の位置(即ち、操作画面中に表示された表示情報)を特定する。これにより、入力解析部16は、操作画面中に表示された表示情報の中から、ユーザが操作対象として指定した表示情報を特定することが可能となり、ひいては、当該表示情報に対応するコンテンツが操作対象となっていることを認識することが可能となる。
なお、出力部30が、図1及び図2に示すように、所謂プロジェクタとして構成されている場合には、例えば、入力解析部16は、所謂測距センサ等により投影面90の位置を検出することで、領域R10が投影される位置を認識すればよい。
また、出力部30は、所謂液晶ディスプレイ(LCD:Liquid Crystal Display)装置、有機EL(OLED:Organic Light Emitting Diode)ディスプレイなどのデバイスとして構成されていてもよい。なお、この場合には、情報処理装置1の本体10に対する出力部30の相対的な位置に基づき、当該出力部30の画面の位置を認識できることは言うまでもない。
また、入力解析部16は、部位U11の時系列に沿った位置や向きの変化の認識結果を、所定の動作(ジェスチャ)に対応する動作パターンと照合することで、当該部位U11を用いたユーザの動作(ジェスチャ)を認識する。これにより、入力解析部16は、ユーザが行った操作の内容を認識することが可能となる。
そして、入力解析部16は、認識した操作内容が、操作対象の表示位置や表示態様を変更するための操作であると認識した場合には、当該操作対象と操作内容とを示す情報を出力制御部18に出力する。これにより、出力制御部18は、取得した操作対象及び操作内容を示す情報に基づき、当該操作対象の表示位置や表示態様を、当該操作内容に応じて制御することで、操作画面を更新することが可能となる。
また、入力解析部16は、認識した操作内容が、操作対象となるコンテンツの機能を実行するための操作であると認識した場合には、対象となる当該機能を特定し、特定した機能を示す情報を処理実行部17に出力する。この出力を受けて、処理実行部17は、入力解析部16に指定された機能(例えば、アプリケーション)を実行することとなる。
また、他の一例として、入力解析部16は、記憶部40にユーザごとに記憶された人間モデルD50から、入力データD53を抽出し、抽出した入力データD53に基づき、ユーザによる操作の内容を認識してもよい。そこで、以下に、入力データD53として、音声認識の結果を抽出した場合を例に、入力解析部16の動作の一例について説明する。
入力解析部16は、入力データD53から抽出した音声認識の結果(即ち、音声入力が変換された文字情報)に対して、所謂自然言語処理技術に基づく解析(例えば、字句解析(形態素解析)、構文解析、及び意味解析等)を施す。これにより、入力解析部16は、抽出した音声認識の結果に対する、自然言語処理技術に基づく解析の結果に基づき、ユーザからの指示内容を認識することが可能となる。
そして、入力解析部16は、認識した指示内容が、操作画面の更新に関する指示であると認識した場合には、当該指示内容を示す情報を出力制御部18に出力する。これにより、出力制御部18は、取得した指示内容を示す情報に基づき、操作画面を更新することが可能となる。
また、入力解析部16は、認識した指示内容が、所定の機能を実行するための指示であると認識した場合には、当該機能を示す情報を処理実行部17に出力する。この出力を受けて、処理実行部17は、入力解析部16に指定された機能(例えば、アプリケーション)を実行することとなる。
処理実行部17は、入力解析部16から指定された機能(例えば、アプリケーション)を実行するためのデータ(例えば、ライブラリ)を、所定の記憶領域から読み出す。なお、各機能を実行するためのデータについては、例えば、記憶部40に記憶させておけばよい。もちろん、処理実行部17が、各機能を実行するためのデータを読み出し可能であれば、当該データが記憶される場所は特に限定されない。
そして、処理実行部17は、読み出したデータに基づき、取得したパラメータを入力として指定された機能を実行し、当該機能の実行結果を出力制御部18に出力する。
出力制御部18は、操作画面を生成または更新し、当該操作画面を出力部30に出力させるための構成である。
出力制御部18は、処理実行部17から各種機能の実行結果を受けて、当該実行結果が提示された、当該機能に対応する表示情報(例えば、操作インタフェース等)を操作画面中に提示する。これにより、操作画面が更新される。
また、出力制御部18は、入力解析部16から操作画面の更新に係る指示内容を示す情報(例えば、操作対象を操作内容を示す情報)を取得した場合には、当該指示内容に基づき操作画面を生成または更新する。
そして、出力制御部18は、生成または更新された操作画面を出力部30に出力させる。これにより、ユーザは、自身の操作に基づく結果を、出力部30により出力された操作が画面を介して認識することが可能となる。
また、出力制御部18は、操作画面中における各表示情報の位置を示す情報を入力解析部16に出力してもよい。これにより、入力解析部16は、操作画面中における各表示情報の位置を認識することが可能となる。
以上、図6〜図8を参照して、本実施形態に係る情報処理装置1の機能構成の一例について説明した。
なお、図6に示した情報処理装置1の機能構成はあくまで一例であり、上記に説明した情報処理装置1の各機能を実現可能であれば、その構成は、図6に示す例には限定されない。具体的な一例として、センサボックス20や出力部30が、情報処理装置1に対して、外部装置として外付けされていてもよい。また、他の一例として、制御部11の各構成のうち、少なくとも一部の構成が、センサボックス20や、出力部30に設けられていてもよい。また、制御部11の各構成のうち、少なくとも一部の構成が、外部装置(例えば、サーバ等)に設けられていてもよい。また、検知部21と集音部23とは、必ずしも同一筐体内(例えば、センサボックス20内)に設けられている必要は無く、互いに異なる筐体内に設けられていてもよい。
<3.処理>
次に、図9を参照して、本実施形態に係る情報処理装置1の一連の処理の流れの一例について、特に、情報処理装置1による集音部23の指向性の制御に着目して説明する。図9は、本実施形態に係る情報処理装置1の一連の処理の流れの一例を示したフローチャートである。
(ステップS101)
対象認識部12は、各センサボックス20の検知部21から、当該検知部21の検出範囲R21中に存在するオブジェクト(例えば、ユーザの身体の少なくとも一部)の検知結果を取得する。対象認識部12は、取得した検知結果を解析することで、例えば、前腕に相当する部位U11の情報を抽出し、抽出結果に基づき当該部位U11の位置や向きを認識する。
そして、対象認識部12は、前腕に相当する部位U11の位置や向きの認識結果を示す制御情報を、検知部21ごと(もしくは、センサボックス20ごと)に、対象世界モデル更新部14に出力する。
対象世界モデル更新部14は、対象認識部12から、対象となる部位U11の位置や向きの認識結果を示す制御情報(即ち、対象世界モデルD10)を、検知部21ごとに取得する。
対象世界モデル更新部14は、検知部21ごと(即ち、センサごと)に取得された対象世界モデルD10を、あらかじめ認識した各検知部21間の位置関係に基づき統合し、各検知部21が配置された空間中における絶対位置を示す、対象世界モデルD30を生成または更新する。
具体的な一例として、対象世界モデル更新部14は、各検知部21間の位置関係に基づき、各検知部21それぞれの検出範囲R21を、各検知部21が配置された空間中の位置(絶対位置)としてマッピングする。
そして、対象世界モデル更新部14は、検知部21ごとの対象世界モデルD10に基づき、各検知部21により検知された部位を、絶対空間座標中にマッピングする。なお、このとき対象世界モデル更新部14は、各検知部21間の位置関係に基づき、互いに異なる検知部21間で検出された各部位の情報の中から、同一の部位を示す情報を関連付ける。
以上のようにして、対象世界モデル更新部14は、検知部21ごとに逐次取得された対象世界モデルD10を、各検知部21間の位置関係に基づき統合することで対象世界モデルD30を生成または更新し、当該対象世界モデルD30を時系列に沿って蓄積する。
(ステップS103)
また、対象世界モデル更新部14は、検知された前腕に相当する部位U11の時系列に沿った動きの特性(例えば、動きのベクトル、速度、加速度等)に基づき、当該部位U11が、左右の腕のいずれに相当するかを推定する。
具体的な一例として、対象世界モデル更新部14は、腕と認識した部位の動きの速度や加速度の変化に基づき、当該部位が右腕及び左腕のいずれに相当するかを判別してもよい。また、他の一例として、対象世界モデル更新部14は、腕と認識した部位のベクトルの変化に基づき、当該部位が右腕及び左腕のいずれに相当するかを判別してもよい。なお、ステップS103として示した処理は、ステップS101や、後述するステップS105及びS107に係る処理と並行して実行されてもよい。
(ステップS105)
また、対象世界モデル更新部14は、時系列に沿って蓄積された対象世界モデルD30に基づき、対象となる部位の可動範囲を認識し、認識した可動範囲に基づき、当該部位の動作の基点となる他の部位の位置や向きを推定する。
例えば、対象世界モデル更新部14は、前腕に相当する部位U11の可動範囲に基づき、当該部位U11の動作の基点となる肘に相当する部位U13の位置や向きを推定する。
(ステップS107)
また、対象世界モデル更新部14は、肘に相当する部位U13の位置や向きの時系列に沿った変化に基づき、当該部位U13の可動範囲を推定し、推定した可動範囲に基づき、部位U13の動作の基点となる肩に相当する部位U15の位置や向きを推定する。
(ステップS109)
次いで、対象世界モデル更新部14は、肩に相当する部位U15の位置や向きの推定結果に基づき、口元に相当する部位U21の位置を推定する。
(ステップS111)
そして、対象世界モデル更新部14は、他の部位(例えば、図3に示す、部位U13、U15、及びU21)の位置や向きの推定結果に基づき、対象世界モデルD30を更新する。これにより、対象世界モデルD30中に、他の部位の位置や向きを示す情報が記録される。
以上のようにして、対象世界モデル更新部14は、対象世界モデルD30を生成または更新する。なお、対象世界モデル更新部14は、生成または更新した当該対象世界モデルD30を、例えば、記憶部40に記憶させる。
また、対象世界モデル更新部14は、対象世界モデルD30に基づく各部位間の位置関係に基づき、各部位の時系列に沿った位置や向きを示す情報を、ユーザの身体を示すモデルに合わせこむことで、ユーザごとに統合した人間モデルD50を生成する。
なお、このとき対象世界モデル更新部14は、対象世界モデルD30に基づく各部位間の位置関係や、各部位の検出結果に応じて認識される状況に応じて、各部位が、同じユーザの部位に相当するか、互いに異なるユーザの部位に相当するかを判別する。
具体的な一例として、対象世界モデル更新部14は、右腕の前腕に相当する部位U11と、左腕の前腕に相当する部位U11’との距離が閾値以上離間している場合に、当該部位U11及びU11’を互いに異なるユーザの部位であるものと判別する。
また、他の一例として、対象世界モデル更新部14は、右腕の前腕に相当する部位U11が複数存在する場合には、当該複数の部位U11それぞれを、互いに異なるユーザの部位であるものと判別する。
また、対象世界モデル更新部14は、対象世界モデルD30に基づき、部位ごとに時系列に沿った動きを追跡し、当該追跡結果に応じて、検出された各部位が、同じユーザの部位に相当するか、互いに異なるユーザの部位に相当するかを判別してもよい。
以上のようにして、対象世界モデル更新部14は、対象世界モデルD30に含まれる各部位の情報を、ユーザごとに統合して、人間モデルD50を生成または更新する。そして、対象世界モデル更新部14は、ユーザごとに生成または更新した当該人間モデルD50を、記憶部40に記憶させる。
(ステップS113)
指向性制御部15は、記憶部40に記憶された人間モデルD50に基づき、各センサボックス20の集音部23等のような、所定の指向性デバイスの指向性を制御する。
具体的には、指向性制御部15は、記憶部40にユーザごとに記憶された人間モデルD50の更新状況を監視することで、ユーザごとに、口元に相当する部位U21の位置や向きを認識する。そして、指向性制御部15は、例えば、ユーザごとに認識した部位U21の位置や向きに基づき、各集音部23の集音領域R23の向きが、認識した部位U21の方向を向くように、当該集音部23の動作を制御する。また、このとき、指向性制御部15は、部位U21の位置や向きの認識結果に応じて、各集音部23の集音領域R23の広さを制御してもよい。
(ステップS115)
以上のようにして、一連の処理の終了が指示されない限り(ステップS115、NO)、情報処理装置1は、各ユーザの口元に相当する部位U21の位置や向きの変化を逐次監視し、監視結果に基づき各集音部23の指向性を制御する。このような構成により、集音部23は、対象となるユーザ(例えば、操作者として認識されたユーザ)からの音声入力を精度よく集音することが可能となる。
そして、一連の処理の終了が指示されると(ステップS115、YES)、情報処理装置1は、上記に説明した、ユーザの各部位の位置や向きの認識及び推定に係る処理や、各集音部23の指向性の制御に係る処理を終了する。
以上、図9を参照して、本実施形態に係る情報処理装置1の一連の処理の流れの一例について説明した。
<4.変形例>
次に、本実施形態に係る情報処理装置1の変形例について説明する。
[4.1.変形例1:指向性制御の一例]
まず、変形例1として、本実施形態に係る情報処理装置1による指向性制御の一例について説明する。
例えば、図10は、変形例1に係る情報処理装置1の動作の一例について説明するための説明図であり、情報処理装置1が、ユーザUa及びUbそれぞれの口元の位置の推定結果に応じて、各集音部23の集音領域R23の広さを制御する場合の一例を示している。
前述したように、本実施形態に係る情報処理装置1は、検知部21による検知結果に基づき認識した部位(例えば、前腕)の、時系列に沿った位置や向きの変化に基づき、他の部位(例えば、肘、肩、口元等)の位置や向きを推定する。そのため、本実施形態に係る情報処理装置1では、例えば、前腕に相当する部位U11の位置や向きの認識結果を示すサンプルデータが多いほど(特に、位置や向きの変化が大きいほど)、肘に相当する部位U13の位置や向きの推定結果の信頼度が向上する。
一方で、本実施形態に係る情報処理装置1では、上記に説明した制御の特性上、例えば、前腕に相当する部位U11の位置や向きの認識結果を示すサンプルデータが少ない場合には、肘に相当する部位U13の位置や向きの推定結果の信頼度が低くなる場合もある。このことは、肘に相当する部位U13の推定結果に基づき、肩に相当する部位U15の位置や向きを推定する場合や、肩に相当する部位U15の位置や向きの推定結果に基づき、口元に相当する部位U21の位置や向きを推定する場合についても同様である。
そこで、図10に示す例では、情報処理装置1は、指向性制御の基準となる部位の位置や向きの推定結果の信頼度に応じて、対象となるデバイス(例えば、集音部23)の指向性を制御している。例えば、図10に示す例では、ユーザUaの口元の位置及び向きの推定結果は、ユーザUbの口元の位置の推定結果よりも信頼度がより高い場合について示している。
図10に示す例では、情報処理装置1は、ユーザUaの口元の位置及び向きの推定結果の信頼度が高いため、当該ユーザUaからの音声入力を集音させる、センサボックス20a側の集音部23の集音領域R23aの広さがより狭くなるように、当該集音部23の指向性を制御している。これにより、情報処理装置1は、ユーザUaからの音声入力を、センサボックス20a側の集音部23を介してより精度よく集音することが可能となる。
また、情報処理装置1は、ユーザUbの口元の位置及び向きの推定結果の信頼度が低いため、当該ユーザUbからの音声入力を集音させる、センサボックス20b側の集音部23の集音領域R23bの広さがより広くなるように、当該集音部23の指向性を制御している。これにより、情報処理装置1は、ユーザUbの口元の実際の位置及び向きが、推定結果と異なるような場合においても、当該ユーザUbからの音声入力を、センサボックス20b側の集音部23を介して集音することが可能となる。
また、情報処理装置1は、口元の位置の推定結果の信頼度を示す情報をユーザに提示してもよい。例えば、図10に示す例では、情報処理装置1は、ユーザUa及びUbそれぞれの口元の位置の推定結果の信頼度を示す表示情報v21及びv21aを、領域R10に投影することで各ユーザに提示している。
具体的には、図10に示す例では、情報処理装置1は、口元の位置の推定結果の信頼度が高いほど、対応する表示情報がより小さく提示されるように、当該表示情報の表示を制御する。
より具体的には、情報処理装置1は、ユーザUaの口元の位置及び向きの推定結果の信頼度が高いため、当該ユーザUaからの音声入力を集音させるセンサボックス20aに対応する表示情報v21aを、信頼度に応じてより小さくなるように提示している。これにより、各ユーザは、例えば、ユーザUaの口元の位置及び向きの推定結果の信頼度が高く、センサボックス20a側の集音部23の集音領域R23aがより狭くなるように、当該集音部23の指向性が制御されていることを、視覚的に認識することが可能となる。
また、情報処理装置1は、ユーザUbの口元の位置及び向きの推定結果の信頼度が低いため、当該ユーザUaからの音声入力を集音させるセンサボックス20bに対応する表示情報v21bを、信頼度に応じてより大きくなるように提示している。これにより、各ユーザは、例えば、ユーザUbの口元の位置及び向きの推定結果の信頼度が低く、センサボックス20b側の集音部23の集音領域R23bがより広くなるように、当該集音部23の指向性が制御されていることを、視覚的に認識することが可能となる。
また、図11及び図12は、変形例1に係る情報処理装置1の動作の他の一例について説明するための説明図である。図11及び図12に示す例では、情報処理装置1は、ユーザUa及びUbのうち、操作を行っているユーザが特定できたか否かに応じて、センサボックス20a及び20bそれぞれの集音部23の指向性を制御している。
なお、情報処理装置1は、ユーザUa及びUbそれぞれの対象となる部位(例えば、前腕)の位置や向きの変化の検出結果に応じて、ユーザUa及びUbのうちいずれが操作を行っているかを認識してもよい。この場合には、情報処理装置1は、例えば、対象となる部位の位置や向きが、所定の閾値より大きく変化している側のユーザを操作者として認識してもよい。
また、情報処理装置1は、例えば、ユーザUa及びUbそれぞれからの音声入力の取得状況に応じて、ユーザUa及びUbのうちいずれが操作を行っているかを認識してもよい。この場合には、情報処理装置1は、音声入力が取得された側のユーザを操作者として認識してもよい。なお、このとき情報処理装置1は、例えば、各集音部23の集音領域R23の向きと、各集音部23からの音響情報の集音状況(即ち、音声入力が集音されたか否か)に応じて、各ユーザからの音声入力の取得状況を認識すればよい。
ここで、図11を参照する。図11は、情報処理装置1が、複数人のユーザUa及びUbが存在することを認識し、かつ、ユーザUaが操作者であるものと認識できた場合の一例について示している。なお、図11において、参照符号R23aは、センサボックス20a側の集音部23の集音領域を示している。同様に、参照符号R23bは、センサボックス20b側の集音部23の集音領域を示している。
図11に示す例では、情報処理装置1は、集音領域R23a及びR23bそれぞれの広さを狭め、当該集音領域R23a及びR23bそれぞれが、操作者であるユーザUa側を向くように、センサボックス20a及び20bそれぞれの集音部23の指向性を制御している。このような制御により、情報処理装置1は、操作者であるユーザUaからの音声入力の認識精度を向上させることが可能となる。
次いで、図12を参照する。図12は、情報処理装置1が、複数人のユーザUa及びUbが存在することを認識できたが、ユーザUa及びUbのうちいずれが操作者であるかを認識することが困難な場合について示している。具体的な一例として、ユーザUa及びUbの双方が発話している状況下では、情報処理装置1が、ユーザUa及びUbのうちいずれが操作者であるかを認識することが困難な場合がある。なお、図12における、参照符号R23a及びR23bは、図11に示す例と同様である。
図12に示す例では、情報処理装置1は、集音領域R23a及びR23bの広さがより広くなるように、センサボックス20a及び20bそれぞれの集音部23の指向性を制御している。このような制御により、情報処理装置1は、ユーザUa及びUbのいずれか、または双方が発話したとしても、発話者であるユーザからの音声入力を集音することが可能となる。
また、他の一例として、情報処理装置1は、ユーザUa及びUbのうちいずれが操作者であるかを認識することが困難な場合には、各集音部23がそれぞれ異なるユーザから音声入力を集音するように、各集音部23の指向性を制御してもよい。なお、この場合には、図10を参照して説明したように、ユーザごとの対象となる部位の位置や向きの推定結果の信頼度に応じて、各集音部23の集音領域R23の広さを制御してもよい。
なお、上記に説明した例は、あくまで一例であり、情報処理装置1が、所定の部位の位置や向きの推定結果に応じて、所定のデバイスの指向性を制御できれば、その制御の内容や、制御対象となるデバイスの種別は特に限定されない。
以上、変形例1として、図10〜図12を参照して、本実施形態に係る情報処理装置1による指向性制御の一例について説明した。
[4.2.変形例2:システム構成の一例]
次に、変形例2として、本実施形態に係る情報処理装置のシステム構成の一例について、図13及び図14を参照して説明する。図13及び図14は、変形例2に係る情報処理装置の概要について説明するための説明図である。なお、以降の説明では、変形例2に係る情報処理装置を、前述した実施形態に係る情報処理装置1と区別するために、「情報処理装置1’」と称する場合がある。
例えば、図13は、変形例2に係る情報処理装置1’の概略的な構成の一例について示している。図13に示すように、変形例2に係る情報処理装置1’は、センサボックス20と、表示情報を提示するための出力部30と、情報処理装置1’の各種動作を制御する制御部が設けられた本体10とを含む。なお、図13に示した、本体10、センサボックス20、及び出力部30は、図1を参照して説明した情報処理装置1における、本体10、センサボックス20、及び出力部30に相当する。なお、本説明では、センサボックス20は、前述した実施形態に係る情報処理装置1(図1及び図2参照)と同様に、ユーザの身体の少なくとも一部の部位の位置や向きを検知するための検知部21と、ユーザからの音声入力を集音するための集音部23とを含むものとする。
図13に示す例では、情報処理装置1’は、例えば、テーブル140等の上方に、当該テーブル140の天面側を向くように設置される。情報処理装置1’は、テーブル140の天面を投影面として、出力部30に表示情報を投影させることで、ユーザに対して当該表示情報を提示し、投影された表示情報に対する、情報処理装置1’を使用するユーザからの操作を受け付ける。なお、参照符号R10は、出力部30により情報(即ち、表示情報)が投影される領域(即ち、投影面)を示している。
センサボックス20に設けられた集音部23は、所謂マイクロフォンのような、ユーザが発する音声や、情報処理装置1’が置かれている環境の環境音等の音響情報を集音するための集音デバイスにより構成され得る。
また、センサボックス20に設けられた検知部21は、情報処理装置1’を使用するユーザの操作内容や、テーブル140に置かれている物体の形状や模様などを認識する。例えば、図13に示す例では、検知部21は、テーブル140の上方から当該テーブル140の天面上に向けて検知範囲が形成されるように設置される。すなわち、検知部21は、情報が表示される対象となるテーブル140とは離隔して設けられる。
検知部21は、前述した実施形態に係る情報処理装置1と同様に、所謂測距センサにより構成され得る。また、他の一例として、検知部21は、例えば1つの撮像光学系(例えば、一連のレンズ群)でテーブル140を撮像するカメラや、2つの撮像光学系でテーブル140を撮像して奥行き方向の情報を記録することが可能なステレオカメラにより構成されてもよい。なお、本説明では、検知部21は、所謂ステレオカメラとして構成されているものとして説明する。
検知部21としてステレオカメラが用いられる場合には、そのステレオカメラには、例えば可視光カメラや赤外線カメラ等が適用され得る。検知部21してステレオカメラが用いられることで、検知部21は、深度情報を取得することが可能となる。検知部21が、深度情報を取得することで、情報処理装置1’は、例えばテーブル140の上に置かれた手や物体等の実オブジェクトを検出することが可能となる。また検知部21が、深度情報を取得することで、情報処理装置1’は、テーブル140へのユーザの手のような操作体の接触及び近接や、テーブル140からの操作体の離脱を検出することが可能となる。
このような構成により、情報処理装置1’は、テーブル140の天面上の領域R10に投影された表示情報に対して、ユーザが手等の操作体による操作を認識し、当該操作の内容に応じて各種機能を実行することが可能となる。
また、情報処理装置1’は、上記に説明した検知部21による検知結果に基づき、領域R10に投影された表示情報を操作するために、検知部21の検知領域R21内を動作する手や腕等のような部位の位置や向きを認識することが可能である。即ち、変形例2に係る情報処理装置1’は、前述した実施形態に係る情報処理装置1(図1及び図2参照)と同様に、例えば、前腕に相当する部位U11の時系列に沿った位置や向きの変化に基づき、口元に相当する部位U21の位置や向きを推定することが可能である。
例えば、図14は、変形例2に係る情報処理装置1’の概要について説明するための説明図であり、テーブル140の天面を鉛直方向の上部から見下ろした場合における、領域R10とユーザとの間の位置関係の一例を示している。
図14に示すように、ユーザUbが、領域R10に投影された表示情報を手や腕等の操作体により操作をした場合に、情報処理装置1’は、検知部21による検知結果に基づき、当該ユーザUbの前腕に相当する部位U11の位置や向きを認識できる。これにより、情報処理装置1’は、当該部位U11の位置や向きの認識結果に基づき、当該ユーザの口元に相当する部位U21の位置や向きを推定すること可能となる。
具体的には、情報処理装置1’は、前腕に相当する部位U11の位置や向きの時系列に沿った変化に基づき、当該部位U11の可動範囲を認識し、認識した可動範囲に基づき、部位U11の動作の基点となる肘に相当する部位U13の位置や向きを推定する。また、情報処理装置1’は、肘に相当する部位U13の位置や向きの時系列に沿った変化に基づき、当該部位U13の可動範囲を推定し、推定した可動範囲に基づき、部位U13の動作の基点となる肩に相当する部位U15の位置や向きを推定する。そして、情報処理装置1’は、肩に相当する部位U15の位置や向きの推定結果に基づき、口元に相当する部位U21の位置を推定することが可能となる。
そして、情報処理装置1’は、口元に相当する部位U21の位置や向きの推定結果に基づき、集音部23の集音領域R23が当該部位U21の方向を向くように、集音部23の指向性を制御してもよい。
特に、図13及び図14に示した、変形例2に係る情報処理装置1’では、検知部21の検知結果に基づき位置や向きを認識可能な部位が、例えば、前腕に相当する部位U11等に限定され、口元に相当する部位U21等を直接認識することが困難な場合がある。このような状況下においても、変形例2に係る情報処理装置1’は、当該部位U11の位置や向きの認識結果に基づき、直接認識することが困難な口元に相当する部位U21の位置や向きを推定し、当該推定結果に基づき集音部23の指向性を制御することが可能となる。
以上、変形例2として、図13及び図14を参照して、本実施形態に係る情報処理装置のシステム構成の一例について説明した。
[4.3.変形例3:車載装置への適用例]
次に、変形例3として、本実施形態に係る情報処理装置1の適用例として、情報処理装置1を車載装置に適用した場合の一例について、図15及び図16を参照して説明する。図15及び図16は、変形例3に係る情報処理装置1の概要について説明するための説明図である。
例えば、図15は、変形例3に係る情報処理装置1の概略的な構成の一例について示している。変形例3に係る情報処理装置1は、ユーザが視線を動かすことで、当該視線の動きに基づき操作可能に構成されている。
図15において、参照符号31は、変形例3に係る情報処理装置1が、ユーザの視線の動きを検出するために、当該ユーザの眼の近傍の領域を撮像するための撮像部を示している。そのため、撮像部31は、視線の変化を認識可能なフレームレートで画像を撮像できる性能を有していることが望ましい。なお、参照符号R30は、撮像部31の撮像領域を模式的に示している。
また、参照符号25a及び25bは、変形例3に係る情報処理装置1が、ユーザの腕の動きを認識するために、ユーザの腕や身体(特に上半身)を撮像するための撮像部を示している
例えば、撮像部25aは、運転席に座ったユーザUaの上半身の画像を、当該ユーザUaの前方から撮像できるように配置されている。参照符号R25aは、撮像部25aの撮像領域を模式的に示している。なお、撮像部25aは、運転席に座ったユーザUaの上半身、特に、腕や肩を撮像領域R25a中に収められる程度の画角を有していることが望ましい。
また、撮像部25bは、運転席に座ったユーザUaの画像を、鉛直方向の上方から撮像できるように配置されている。参照符号R25bは、撮像部25bの撮像領域を模式的に示している。なお、撮像部25bは、運転席に座りハンドルを握るユーザUaの腕を撮像領域R25b中に収められる程度の画角を有していることが望ましい。
以上のような構成に基づき、変形例3に係る情報処理装置1は、撮像部25a及び25bそれぞれに撮像された画像に基づき、ユーザUaの腕の位置や向きの時系列に沿った変化を認識する。また、情報処理装置1は、ユーザUaの腕の位置や向きの変化の認識結果に基づき、当該ユーザUaの肩の位置を推定し、次いで、肩の位置の推定結果に基づき、ユーザUaの眼の位置を推定する。
そして、情報処理装置1は、ユーザUaの眼の位置の推定結果に基づき、撮像部31の撮像領域R30がユーザUaの眼の方向を向くように、当該撮像部31の向きを制御する。
このような構成により、変形例3に係る情報処理装置1は、撮像部31として比較的画角の狭い撮像デバイスを適用することが可能となる。また、変形例3に係る情報処理装置1は、撮像部31により、撮像される領域を比較的狭く絞り込むことが可能なため、より広い範囲の画像を撮像する場合に比べて、当該画像から視線の変化を認識するための解析に係る処理の負荷を軽減することが可能となる。
なお、図15に示す例では、撮像部25a及び25bにより撮像された画像は、ユーザUaの腕の位置及び向きの時系列に沿った変化を認識するために用いられる。そのため、撮像部25a及び25bとしては、ユーザUaの腕の位置及び向きの変化を認識できる程度のフレームレートで画像を撮像できる性能があればよく、必ずしも高フレームレートのものを用いる必要はない。
また、図15に示した撮像部25a及び25bの設置例は、あくまで一例であり、撮像された画像に基づきユーザUaの腕の位置及び向きの変化を認識できれば、当該画像を撮像するための撮像部の設置位置は特に限定されない。
例えば、図16は、ユーザUaの腕の位置及び向きの変化を認識するための画像を撮像する撮像部の設置例を示している。図16に示す例では、ユーザの首元に設置されるウェアラブルデバイス27に、当該ユーザの腕の画像を撮像するための撮像部29が設けられている。参照符号R29は、撮像部29の撮像領域を模式的に示している。
図16に示す例では、撮像部29は、ウェアラブルデバイス27により、ユーザUaの胸元の近傍に、当該ユーザUaの前方側に向けた方向を向くように保持される。これにより、撮像部29は、ユーザUaが運転席に座ってハンドルを握った場合に、当該ユーザUaの胸元の近傍から、前方に延びた当該ユーザUaの腕の画像を撮像することが可能となる。
なお、上記に説明した例では、情報処理装置1が、ユーザの眼の位置の推定結果に基づき撮像部31の指向性を制御する例について説明したが、位置や向きの推定対象となる部位や、指向性制御の対象となるデバイスは特に限定されない。
具体的な一例として、変形例3に情報処理装置1は、ユーザUaが音声入力を行うための集音部を備え、当該集音部の指向性を制御してもよい。この場合には、情報処理装置1は、ユーザUaの腕の位置や向きの時系列に沿った変化に基づき、当該ユーザUaの口元の位置を推定し、当該推定結果に基づき、集音部の集音領域がユーザUa口元の方向を向くように、当該集音部の指向性を制御してもよい。
以上、変形例3として、図15及び図16を参照して、本実施形態に係る情報処理装置1の適用例として、情報処理装置1を車載装置に適用した場合の一例について説明した。
特に、自動車内の空間は、各種検知デバイス(例えば、図15に示した撮像部25a及び25b)を設置可能な位置が限られている場合が多く、ユーザUaの眼や口元等のように特定の部位の位置や向きを直接検出することが困難な場合がある。このような状況下においても、本実施形態に係る情報処理装置1は、ユーザUaの身体のうち少なくとも一部の部位の位置や向きの時系列に沿った変化を認識できれば、当該認識結果に基づき、ユーザUaの眼や口元の位置や向きを推定することが可能となる。
なお、上記では、眼や口元等のように特定の部位の位置や向きの推定対象となるユーザUaが運転手の場合について説明したが、対象となるユーザは、必ずしも運転手に限定されるものではない。例えば、運転手以外の搭乗者の眼や口元等のように特定の部位の位置や向きの推定し、当該推定結果に基づき、撮像部や集音部等のデバイスの指向性を制御してもよい。なお、運転手以外の搭乗者を対象とする場合には、当該搭乗者の腕の位置や向きの時系列に沿った変化を検出できるように、各種検知デバイスを設置することが望ましいことは言うまでもない。具体的な一例として、車内の天井に比較的画角の広い撮像部を設け、情報処理装置1は、当該撮像部が撮像した画像に基づき、搭乗者の腕の位置や向きの変化を認識すればよい。
<5.ハードウェア構成>
次に、図17を参照して、本開示の各実施形態に係る情報処理装置1のハードウェア構成の一例について説明する。図17は、本開示の実施形態に係る情報処理装置1のハードウェア構成の一例を示した図である。
図17に示すように、本実施形態に係る情報処理装置1は、プロセッサ901と、メモリ903と、ストレージ905と、操作デバイス907と、報知デバイス909と、検知デバイス911と、集音デバイス913と、バス917とを含む。また、情報処理装置1は、通信デバイス915を含んでもよい。
プロセッサ901は、例えばCPU(Central Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)又はSoC(System on Chip)であってよく、情報処理装置1の様々な処理を実行する。プロセッサ901は、例えば、各種演算処理を実行するための電子回路により構成することが可能である。なお、前述した制御部11の各構成は、プロセッサ901により実現され得る。
メモリ903は、RAM(Random Access Memory)及びROM(Read Only Memory)を含み、プロセッサ901により実行されるプログラム及びデータを記憶する。ストレージ905は、半導体メモリ又はハードディスクなどの記憶媒体を含み得る。例えば、前述した記憶部40は、メモリ903及びストレージ905の少なくともいずれか、もしくは、双方の組み合わせにより実現され得る。
操作デバイス907は、ユーザが所望の操作を行うための入力信号を生成する機能を有する。操作デバイス907は、例えば、タッチパネルとして構成され得る。また、他の一例として、操作デバイス907は、例えばボタン、スイッチ、及びキーボードなどユーザが情報を入力するための入力部と、ユーザによる入力に基づいて入力信号を生成し、プロセッサ901に供給する入力制御回路などから構成されてよい。
報知デバイス909は、出力デバイスの一例であり、例えば、液晶ディスプレイ(LCD:Liquid Crystal Display)装置、有機EL(OLED:Organic Light Emitting Diode)ディスプレイなどのデバイスであってよい。この場合には、報知デバイス909は、画面を表示することにより、ユーザに対して所定の情報を報知することができる。また、報知デバイス909は、所謂プロジェクタのように、投影面に対して所定の情報を投影することで、当該情報をユーザに報知してもよい。なお、前述した出力部30は、報知デバイス909により実現され得る。
また、報知デバイス909は、スピーカ等のように、所定の音響信号を出力することで、所定の情報をユーザに報知するデバイスであってもよい。
また、上記に示した報知デバイス909の例はあくまで一例であり、ユーザに対して所定の情報を報知可能であれば、報知デバイス909の態様は特に限定されない。具体的な一例として、報知デバイス909は、LED(Light Emitting Diode)のように、点灯又は点滅のパターンにより、所定の情報をユーザに報知するデバイスであってもよい。また、報知デバイス909は、所謂バイブレータのように、振動することで、所定の情報をユーザに報知するデバイスであってもよい。
集音デバイス913は、マイクロフォン等のような、ユーザから発せられた音声や周囲の環境の音響を集音し、音響情報(音響信号)として取得するためのデバイスである。また、集音デバイス913は、集音された音声や音響を示すアナログの音響信号を示すデータを音響情報として取得してもよいし、当該アナログの音響信号をデジタルの音響信号に変換し、変換後のデジタルの音響信号を示すデータを音響情報として取得してもよい。なお、前述した集音部23は、集音デバイス913により実現され得る。
通信デバイス915は、情報処理装置1が備える通信手段であり、ネットワークを介して外部装置と通信する。通信デバイス915は、有線または無線用の通信インタフェースである。通信デバイス915を、無線通信インタフェースとして構成する場合には、当該通信デバイス915は、通信アンテナ、RF(Radio Frequency)回路、ベースバンドプロセッサなどを含んでもよい。
通信デバイス915は、外部装置から受信した信号に各種の信号処理を行う機能を有し、受信したアナログ信号から生成したデジタル信号をプロセッサ901に供給することが可能である。
検知デバイス911は、各種状態を検知するためのデバイスである。検知デバイス911は、例えば、ステレオイメージセンサ等のような、所謂測距センサにより構成され得る。なお、前述した検知部21は、検知デバイス911により実現され得る。
バス917は、プロセッサ901、メモリ903、ストレージ905、操作デバイス907、報知デバイス909、検知デバイス911、集音デバイス913、及び通信デバイス915を相互に接続する。バス917は、複数の種類のバスを含んでもよい。
また、コンピュータに内蔵されるプロセッサ、メモリ、及びストレージなどのハードウェアを、上記した情報処理装置1が有する構成と同等の機能を発揮させるためのプログラムも作成可能である。また、当該プログラムを記録した、コンピュータに読み取り可能な記憶媒体も提供され得る。
<6.まとめ>
以上、説明したように、本実施形態に係る情報処理装置1は、ユーザの体肢のうち少なくとも一部の部位の時系列に沿った位置や向きの変化に基づき、当該ユーザの体幹のうち少なくとも一部の部位の位置や向きを推定する。このような構成により、本実施形態に係る情報処理装置1は、特定の部位の位置や向きを直接認識することが困難な状況下においても、他の部位の位置や向きの変化の認識結果に基づき、当該特定の部位の位置や向きを推定することが可能となる。
また、本実施形態に係る情報処理装置1は、少なくとも一部の部位の位置や向きの認識結果(または、推定結果)を示すサンプルデータが多いほど、当該一部の部位の位置や向きの変化に基づく、他の部位の位置や向きの推定結果の信頼度が向上する。そのため、本実施形態に係る情報処理装置1は、ユーザの腕等の少なくとも一部の部位の位置や向きの変化を継続的に監視することで、当該ユーザの眼や口元等のような他の部位の位置や向きの推定精度をより向上させることが可能となる。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
ユーザの体肢のうち少なくとも一部の第1の部位の、位置及び向きのうち少なくともいずれかを示す位置情報の時系列に沿った変化に基づき、当該ユーザの体幹のうち少なくとも一部の第2の部位の位置を推定する推定部
を備える、情報処理装置。
(2)
前記第2の部位の位置の推定結果に基づき、所定のデバイスの指向性を制御する指向性制御部を備える、前記(1)に記載の情報処理装置。
(3)
前記デバイスは集音デバイスであり、
前記集音デバイスにより集音された音声を認識する音声認識部を備え、
前記音声認識部は、認識した前記音声の話者を、前記第2の部位の位置が推定された前記ユーザであるものと認識する、
前記(2)に記載の情報処理装置。
(4)
前記推定部は、前記第2の部位として、前記ユーザの口元の位置を推定し、
前記指向性制御部は、前記集音デバイスが当該口元の方向を向くように、当該集音デバイスの指向性を制御する、
前記(3)に記載の情報処理装置。
(5)
前記デバイスは、被写体の画像を撮像する撮像デバイスであり、
前記推定部は、前記第2の部位として、前記ユーザの顔の少なくとも一部の部位の位置を推定し、
前記指向性制御部は、前記撮像デバイスが当該一部の部位の方向を向くように、当該撮像デバイスの向きを制御する、
前記(2)に記載の情報処理装置。
(6)
前記指向性制御部は、前記第2の部位の位置の推定結果の信頼度に基づき、前記所定のデバイスの指向性を制御する、前記(2)〜(5)のいずれか一項に記載の情報処理装置。
(7)
前記第2の部位の位置の推定結果の信頼度を示す情報を、所定の出力部に出力させる出力制御部を備える、前記(1)〜(6)のいずれか一項に記載の情報処理装置。
(8)
前記推定部は、動きの自由度として少なくとも2自由度を有する前記第1の部位の前記位置情報の時系列に沿った変化に基づき、前記第2の部位の位置を推定する、前記(1)〜(7)のいずれか一項に記載の情報処理装置。
(9)
前記推定部は、可動範囲が所定の広さ以上の前記第1の部位の前記位置情報の時系列に沿った変化に基づき、前記第2の部位の位置を推定する、前記(1)〜(7)のいずれか一項に記載の情報処理装置。
(10)
前記第1の部位の、前記位置情報を検知するための検知部を備える、前記(1)〜(7)のいずれか一項に記載の情報処理装置。
(11)
前記検知部は、前記ユーザまでの距離を検知し、
前記推定部は、複数の前記距離の検知結果に基づき、前記第1の部位の前記位置情報を算出する、前記(10)に記載の情報処理装置。
(12)
前記推定部は、複数の前記距離の検知結果に対して主成分分析を施すことで、前記第1の部位の前記位置情報を算出する、前記(11)に記載の情報処理装置。
(13)
前記第1の部位は、前記ユーザの腕のうち少なくとも一部の部位である、前記(1)〜(12)のいずれか一項に記載の情報処理装置。
(14)
前記推定部は、前記第1の部位が、右腕及び左腕のうちのいずれに対応するかを推定する、前記(13)に記載の情報処理装置。
(15)
前記推定部は、前記第1の部位の速度または加速度の変化に基づき、当該第1の部位が、右腕及び左腕のうちのいずれに対応するかを推定する、前記(14)に記載の情報処理装置。
(16)
前記推定部は、前記第1の部位の可動範囲に基づき、当該第1の部位が、右腕及び左腕のうちのいずれに対応するかを推定する、前記(14)に記載の情報処理装置。
(17)
前記推定部は、前記第1の部位の動きの軌跡に基づき、前記第2の部位の位置を推定する、前記(1)〜(16)のいずれか一項に記載の情報処理装置。
(18)
プロセッサが、ユーザの体肢のうち少なくとも一部の第1の部位の、位置及び向きのうち少なくともいずれかを示す位置情報の時系列に沿った変化に基づき、当該ユーザの体幹のうち少なくとも一部の第2の部位の位置を推定する
ことを含む、情報処理方法。
(19)
コンピュータに、
ユーザの体肢のうち少なくとも一部の第1の部位の、位置及び向きのうち少なくともいずれかを示す位置情報の時系列に沿った変化に基づき、当該ユーザの体幹のうち少なくとも一部の第2の部位の位置を推定する
ことを実行させる、プログラム。
1 情報処理装置
10 本体
11 制御部
12 対象認識部
13 音声認識部
14 対象世界モデル更新部
15 指向性制御部
16 入力解析部
17 処理実行部
18 出力制御部
20 センサボックス
21 検知部
23 集音部
30 出力部
40 記憶部

Claims (19)

  1. ユーザの体肢のうち少なくとも一部の第1の部位の、位置及び向きのうち少なくともいずれかを示す位置情報の時系列に沿った変化に基づき、当該ユーザの体幹のうち少なくとも一部の第2の部位の位置を推定する推定部
    を備える、情報処理装置。
  2. 前記第2の部位の位置の推定結果に基づき、所定のデバイスの指向性を制御する指向性制御部を備える、請求項1に記載の情報処理装置。
  3. 前記デバイスは集音デバイスであり、
    前記集音デバイスにより集音された音声を認識する音声認識部を備え、
    前記音声認識部は、認識した前記音声の話者を、前記第2の部位の位置が推定された前記ユーザであるものと認識する、
    請求項2に記載の情報処理装置。
  4. 前記推定部は、前記第2の部位として、前記ユーザの口元の位置を推定し、
    前記指向性制御部は、前記集音デバイスが当該口元の方向を向くように、当該集音デバイスの指向性を制御する、
    請求項3に記載の情報処理装置。
  5. 前記デバイスは、被写体の画像を撮像する撮像デバイスであり、
    前記推定部は、前記第2の部位として、前記ユーザの顔の少なくとも一部の部位の位置を推定し、
    前記指向性制御部は、前記撮像デバイスが当該一部の部位の方向を向くように、当該撮像デバイスの向きを制御する、
    請求項2に記載の情報処理装置。
  6. 前記指向性制御部は、前記第2の部位の位置の推定結果の信頼度に基づき、前記所定のデバイスの指向性を制御する、請求項2に記載の情報処理装置。
  7. 前記第2の部位の位置の推定結果の信頼度を示す情報を、所定の出力部に出力させる出力制御部を備える、請求項1に記載の情報処理装置。
  8. 前記推定部は、動きの自由度として少なくとも2自由度を有する前記第1の部位の前記位置情報の時系列に沿った変化に基づき、前記第2の部位の位置を推定する、請求項1に記載の情報処理装置。
  9. 前記推定部は、可動範囲が所定の広さ以上の前記第1の部位の前記位置情報の時系列に沿った変化に基づき、前記第2の部位の位置を推定する、請求項1に記載の情報処理装置。
  10. 前記第1の部位の、前記位置情報を検知するための検知部を備える、請求項1に記載の情報処理装置。
  11. 前記検知部は、前記ユーザまでの距離を検知し、
    前記推定部は、複数の前記距離の検知結果に基づき、前記第1の部位の前記位置情報を算出する、請求項10に記載の情報処理装置。
  12. 前記推定部は、複数の前記距離の検知結果に対して主成分分析を施すことで、前記第1の部位の前記位置情報を算出する、請求項11に記載の情報処理装置。
  13. 前記第1の部位は、前記ユーザの腕のうち少なくとも一部の部位である、請求項1に記載の情報処理装置。
  14. 前記推定部は、前記第1の部位が、右腕及び左腕のうちのいずれに対応するかを推定する、請求項13に記載の情報処理装置。
  15. 前記推定部は、前記第1の部位の速度または加速度の変化に基づき、当該第1の部位が、右腕及び左腕のうちのいずれに対応するかを推定する、請求項14に記載の情報処理装置。
  16. 前記推定部は、前記第1の部位の可動範囲に基づき、当該第1の部位が、右腕及び左腕のうちのいずれに対応するかを推定する、請求項14に記載の情報処理装置。
  17. 前記推定部は、前記第1の部位の動きの軌跡に基づき、前記第2の部位の位置を推定する、請求項1に記載の情報処理装置。
  18. プロセッサが、ユーザの体肢のうち少なくとも一部の第1の部位の、位置及び向きのうち少なくともいずれかを示す位置情報の時系列に沿った変化に基づき、当該ユーザの体幹のうち少なくとも一部の第2の部位の位置を推定する
    ことを含む、情報処理方法。
  19. コンピュータに、
    ユーザの体肢のうち少なくとも一部の第1の部位の、位置及び向きのうち少なくともいずれかを示す位置情報の時系列に沿った変化に基づき、当該ユーザの体幹のうち少なくとも一部の第2の部位の位置を推定する
    ことを実行させる、プログラム。

JP2015078328A 2015-04-07 2015-04-07 情報処理装置、情報処理方法、及びプログラム Expired - Fee Related JP6592940B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2015078328A JP6592940B2 (ja) 2015-04-07 2015-04-07 情報処理装置、情報処理方法、及びプログラム
PCT/JP2016/001296 WO2016163068A1 (en) 2015-04-07 2016-03-09 Information processing apparatus, information processing method, and program
US15/529,580 US10332519B2 (en) 2015-04-07 2016-03-09 Information processing apparatus, information processing method, and program
CN201680020146.XA CN107430857B (zh) 2015-04-07 2016-03-09 信息处理设备、信息处理方法和程序
EP16714027.6A EP3281087A1 (en) 2015-04-07 2016-03-09 Information processing apparatus, information processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015078328A JP6592940B2 (ja) 2015-04-07 2015-04-07 情報処理装置、情報処理方法、及びプログラム

Publications (3)

Publication Number Publication Date
JP2016200858A true JP2016200858A (ja) 2016-12-01
JP2016200858A5 JP2016200858A5 (ja) 2018-03-29
JP6592940B2 JP6592940B2 (ja) 2019-10-23

Family

ID=55650632

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015078328A Expired - Fee Related JP6592940B2 (ja) 2015-04-07 2015-04-07 情報処理装置、情報処理方法、及びプログラム

Country Status (5)

Country Link
US (1) US10332519B2 (ja)
EP (1) EP3281087A1 (ja)
JP (1) JP6592940B2 (ja)
CN (1) CN107430857B (ja)
WO (1) WO2016163068A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017149273A (ja) * 2016-02-24 2017-08-31 株式会社デンソー 車載装置、車両用システム、及びプログラム

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273869B (zh) * 2017-06-29 2020-04-24 联想(北京)有限公司 手势识别控制方法和电子设备
CN108459706A (zh) * 2018-01-24 2018-08-28 重庆邮电大学 基于相对运动轨迹跟踪的Wi-Fi手势识别方法
KR20200073733A (ko) * 2018-12-14 2020-06-24 삼성전자주식회사 전자 장치의 기능 실행 방법 및 이를 사용하는 전자 장치
KR20200080047A (ko) * 2018-12-26 2020-07-06 삼성전자주식회사 진정 사용자의 손을 식별하는 방법 및 이를 위한 웨어러블 기기
KR20190089125A (ko) * 2019-07-09 2019-07-30 엘지전자 주식회사 커뮤니케이션 로봇 및 그의 구동 방법
CN113115251B (zh) * 2020-01-09 2023-10-31 博泰车联网科技(上海)股份有限公司 用于信息处理的方法、设备和计算机存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01195499A (ja) * 1988-01-30 1989-08-07 Toshiba Corp 音声入力装置
JPH08286680A (ja) * 1995-02-17 1996-11-01 Takenaka Komuten Co Ltd 音抽出装置
JPH09307868A (ja) * 1996-03-15 1997-11-28 Toshiba Corp コミュニケーション装置及びコミュニケーション方法
JP2005258860A (ja) * 2004-03-12 2005-09-22 Matsushita Electric Ind Co Ltd 複数認証方法及びその装置
JP2011156320A (ja) * 2010-02-04 2011-08-18 Panasonic Corp 生体情報検出システム
JP2012120647A (ja) * 2010-12-07 2012-06-28 Alpha Co 姿勢検出装置
JP2014056464A (ja) * 2012-09-13 2014-03-27 Univ Of Tokyo 物体認識装置、物体認識方法及び物体認識プログラム
JP2015011404A (ja) * 2013-06-26 2015-01-19 シャープ株式会社 動作認識処理装置

Family Cites Families (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6738697B2 (en) * 1995-06-07 2004-05-18 Automotive Technologies International Inc. Telematics system for vehicle diagnostics
US6176782B1 (en) * 1997-12-22 2001-01-23 Philips Electronics North America Corp. Motion-based command generation technology
JP2002197465A (ja) * 2000-03-31 2002-07-12 Fujitsu Ltd 自動口形状検出装置とそれを用いた自動単語認識装置
US9015071B2 (en) * 2000-09-08 2015-04-21 Intelligent Technologies International, Inc. Asset monitoring using the internet
US20130267194A1 (en) * 2002-06-11 2013-10-10 American Vehicular Sciences Llc Method and System for Notifying a Remote Facility of an Accident Involving a Vehicle
US8410945B2 (en) * 2002-06-11 2013-04-02 Intelligent Technologies International, Inc Atmospheric monitoring
JP4048492B2 (ja) * 2003-07-03 2008-02-20 ソニー株式会社 音声対話装置及び方法並びにロボット装置
US20050027530A1 (en) * 2003-07-31 2005-02-03 Tieyan Fu Audio-visual speaker identification using coupled hidden markov models
US7089099B2 (en) * 2004-07-30 2006-08-08 Automotive Technologies International, Inc. Sensor assemblies
JP4459788B2 (ja) * 2004-11-16 2010-04-28 パナソニック株式会社 顔特徴照合装置、顔特徴照合方法、及びプログラム
WO2007013525A1 (ja) * 2005-07-26 2007-02-01 Honda Motor Co., Ltd. 音源特性推定装置
US7969821B2 (en) * 2007-01-17 2011-06-28 Toyota Motor Engineering & Manufacturing North America, Inc. Method and system for locating a wave source within a defined area
KR101395722B1 (ko) * 2007-10-31 2014-05-15 삼성전자주식회사 마이크로폰을 이용한 음원 위치 추정 방법 및 장치
JP5176572B2 (ja) * 2008-02-05 2013-04-03 ソニー株式会社 画像処理装置および方法、並びにプログラム
US9224395B2 (en) * 2008-07-02 2015-12-29 Franklin S. Felber Voice detection for automatic volume controls and voice sensors
JP4730404B2 (ja) * 2008-07-08 2011-07-20 ソニー株式会社 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP2010165305A (ja) * 2009-01-19 2010-07-29 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
KR101581883B1 (ko) * 2009-04-30 2016-01-11 삼성전자주식회사 모션 정보를 이용하는 음성 검출 장치 및 방법
JP2011013732A (ja) * 2009-06-30 2011-01-20 Sony Corp 情報処理装置、情報処理方法、およびプログラム
JP2011041096A (ja) 2009-08-14 2011-02-24 Nec Corp 携帯端末、並びにこれに用いる集音制御方法及びプログラム
KR20110038313A (ko) * 2009-10-08 2011-04-14 삼성전자주식회사 영상촬영장치 및 그 제어방법
US8824747B2 (en) * 2010-06-29 2014-09-02 Apple Inc. Skin-tone filtering
JP5700963B2 (ja) * 2010-06-29 2015-04-15 キヤノン株式会社 情報処理装置およびその制御方法
KR101750338B1 (ko) * 2010-09-13 2017-06-23 삼성전자주식회사 마이크의 빔포밍 수행 방법 및 장치
KR101733246B1 (ko) * 2010-11-10 2017-05-08 삼성전자주식회사 얼굴 포즈를 이용한 화상 통화를 위한 화면 구성 장치 및 방법
US20120158432A1 (en) * 2010-12-15 2012-06-21 Uday Jain Patient Information Documentation And Management System
US20130030811A1 (en) * 2011-07-29 2013-01-31 Panasonic Corporation Natural query interface for connected car
US8660847B2 (en) * 2011-09-02 2014-02-25 Microsoft Corporation Integrated local and cloud based speech recognition
JP2013104938A (ja) * 2011-11-11 2013-05-30 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
US9246543B2 (en) * 2011-12-12 2016-01-26 Futurewei Technologies, Inc. Smart audio and video capture systems for data processing systems
US9408011B2 (en) * 2011-12-19 2016-08-02 Qualcomm Incorporated Automated user/sensor location recognition to customize audio performance in a distributed multi-sensor environment
US8908904B2 (en) * 2011-12-28 2014-12-09 Samsung Electrônica da Amazônia Ltda. Method and system for make-up simulation on portable devices having digital cameras
CN104380378A (zh) * 2012-05-31 2015-02-25 丰田自动车株式会社 声源检测装置、噪声模型生成装置、噪声抑制装置、声源方位推定装置、接近车辆检测装置以及噪声抑制方法
KR102206383B1 (ko) * 2012-07-09 2021-01-22 엘지전자 주식회사 음성 인식 장치 및 그 방법
EP2893532B1 (en) * 2012-09-03 2021-03-24 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for providing an informed multichannel speech presence probability estimation
JP6003472B2 (ja) * 2012-09-25 2016-10-05 富士ゼロックス株式会社 音声解析装置、音声解析システムおよびプログラム
US20140122086A1 (en) * 2012-10-26 2014-05-01 Microsoft Corporation Augmenting speech recognition with depth imaging
EP2927056A4 (en) * 2012-11-30 2016-07-06 Toyota Motor Co Ltd VEHICLE SOUND COLLECTION STRUCTURE AND SOUND COLLECTION DEVICE
KR20140117771A (ko) * 2013-03-26 2014-10-08 한국전자통신연구원 움직임 센서 기반의 휴대용 자동 통역 장치 및 그의 제어방법
JP2014219467A (ja) * 2013-05-02 2014-11-20 ソニー株式会社 音信号処理装置、および音信号処理方法、並びにプログラム
WO2014188735A1 (ja) * 2013-05-23 2014-11-27 日本電気株式会社 音声処理システム、音声処理方法、音声処理プログラム、音声処理システムを搭載した車両、および、マイク設置方法
US9747900B2 (en) * 2013-05-24 2017-08-29 Google Technology Holdings LLC Method and apparatus for using image data to aid voice recognition
KR102282366B1 (ko) * 2013-06-03 2021-07-27 삼성전자주식회사 음성 향상 방법 및 그 장치
US9747917B2 (en) * 2013-06-14 2017-08-29 GM Global Technology Operations LLC Position directed acoustic array and beamforming methods
WO2014201347A1 (en) * 2013-06-14 2014-12-18 Intercontinental Great Brands Llc Interactive video games
US9912797B2 (en) * 2013-06-27 2018-03-06 Nokia Technologies Oy Audio tuning based upon device location
EP2819429B1 (en) * 2013-06-28 2016-06-22 GN Netcom A/S A headset having a microphone
US20150279364A1 (en) * 2014-03-29 2015-10-01 Ajay Krishnan Mouth-Phoneme Model for Computerized Lip Reading
US20160039356A1 (en) * 2014-08-08 2016-02-11 General Motors Llc Establishing microphone zones in a vehicle
US20160117592A1 (en) * 2014-10-24 2016-04-28 Elwha LLC, a limited liability company of the State of Delaware Effective response protocols relating to human impairment arising from insidious heterogeneous interaction
US20160249132A1 (en) * 2015-02-23 2016-08-25 Invensense, Inc. Sound source localization using sensor fusion

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01195499A (ja) * 1988-01-30 1989-08-07 Toshiba Corp 音声入力装置
JPH08286680A (ja) * 1995-02-17 1996-11-01 Takenaka Komuten Co Ltd 音抽出装置
JPH09307868A (ja) * 1996-03-15 1997-11-28 Toshiba Corp コミュニケーション装置及びコミュニケーション方法
JP2005258860A (ja) * 2004-03-12 2005-09-22 Matsushita Electric Ind Co Ltd 複数認証方法及びその装置
JP2011156320A (ja) * 2010-02-04 2011-08-18 Panasonic Corp 生体情報検出システム
JP2012120647A (ja) * 2010-12-07 2012-06-28 Alpha Co 姿勢検出装置
JP2014056464A (ja) * 2012-09-13 2014-03-27 Univ Of Tokyo 物体認識装置、物体認識方法及び物体認識プログラム
JP2015011404A (ja) * 2013-06-26 2015-01-19 シャープ株式会社 動作認識処理装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017149273A (ja) * 2016-02-24 2017-08-31 株式会社デンソー 車載装置、車両用システム、及びプログラム

Also Published As

Publication number Publication date
US20170330569A1 (en) 2017-11-16
CN107430857B (zh) 2021-08-06
CN107430857A (zh) 2017-12-01
US10332519B2 (en) 2019-06-25
WO2016163068A1 (en) 2016-10-13
JP6592940B2 (ja) 2019-10-23
EP3281087A1 (en) 2018-02-14

Similar Documents

Publication Publication Date Title
JP6592940B2 (ja) 情報処理装置、情報処理方法、及びプログラム
US10511778B2 (en) Method and apparatus for push interaction
US20150331490A1 (en) Voice recognition device, voice recognition method, and program
EP2891954B1 (en) User-directed personal information assistant
US8588464B2 (en) Assisting a vision-impaired user with navigation based on a 3D captured image stream
JP6301159B2 (ja) 三次元指先トラッキング
WO2019037489A1 (zh) 地图显示方法、装置、存储介质及终端
JP2013054661A (ja) 情報表示システム、情報表示方法、及び情報表示用プログラム
JP6747446B2 (ja) 情報処理装置、情報処理方法、及びプログラム
KR100916836B1 (ko) 지시형 제스처를 인식하는 방법 및 장치
US10296096B2 (en) Operation recognition device and operation recognition method
KR20150038877A (ko) 사용자 입력에 대응되는 이벤트를 이용한 유저 인터페이싱 장치 및 방법
CN108369451B (zh) 信息处理装置、信息处理方法及计算机可读存储介质
JPWO2019187834A1 (ja) 情報処理装置、情報処理方法、およびプログラム
US20200341284A1 (en) Information processing apparatus, information processing method, and recording medium
JPWO2018146922A1 (ja) 情報処理装置、情報処理方法、及びプログラム
US20200372779A1 (en) Terminal device, risk prediction method, and recording medium
WO2019171685A1 (ja) 情報処理装置、情報処理方法、及び記録媒体
JP2007310914A (ja) マウス代替方法、マウス代替プログラム、および記録媒体
WO2023069988A1 (en) Anchored messages for augmented reality
JP2002323956A (ja) マウス代替方法、マウス代替プログラム、および同プログラムを記録した記録媒体
WO2019119290A1 (zh) 提示信息确定方法、装置、电子设备和计算机程序产品
US20230226460A1 (en) Information processing device, information processing method, and recording medium
WO2019054037A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2010086367A (ja) 位置情報入力装置、位置情報入力方法、プログラム、情報処理システム、及び電子装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180219

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180219

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190208

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20190214

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190416

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20190424

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190522

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190614

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190827

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190909

R151 Written notification of patent or utility model registration

Ref document number: 6592940

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees