CN107430857B - 信息处理设备、信息处理方法和程序 - Google Patents

信息处理设备、信息处理方法和程序 Download PDF

Info

Publication number
CN107430857B
CN107430857B CN201680020146.XA CN201680020146A CN107430857B CN 107430857 B CN107430857 B CN 107430857B CN 201680020146 A CN201680020146 A CN 201680020146A CN 107430857 B CN107430857 B CN 107430857B
Authority
CN
China
Prior art keywords
user
orientation
unit
information processing
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201680020146.XA
Other languages
English (en)
Other versions
CN107430857A (zh
Inventor
吉川清士
大久保厚志
宫下健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN107430857A publication Critical patent/CN107430857A/zh
Application granted granted Critical
Publication of CN107430857B publication Critical patent/CN107430857B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/0346Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of the device orientation or free movement in a 3D space, e.g. 3D mice, 6-DOF [six degrees of freedom] pointers using gyroscopes, accelerometers or tilt-sensors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/038Control and interface arrangements therefor, e.g. drivers or device-embedded control circuitry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Geometry (AREA)
  • User Interface Of Digital Computer (AREA)
  • Position Input By Displaying (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Image Analysis (AREA)

Abstract

一种设备包括电路,该电路被配置成:确定在多个人中能够区分的用户的口部的位置;以及基于所确定的用户的口部的位置来控制用于收集声音的获取条件。

Description

信息处理设备、信息处理方法和程序
相关申请的交叉引用
本申请要求于2015年4月7日提交的日本优先权专利申请JP2015-078328的权益,其全部内容通过引用并入本文中。
技术领域
本公开内容涉及信息处理设备、信息处理方法和程序。
背景技术
近年来,用于操作各种类型的家用电器例如电视接收机或各种类型装置例如车载装置如汽车导航系统等的用户接口(UI)已经多样化。在这样的UI中,用户能够通过用语音、视线移动等呈现指令内容而不是经由操作装置例如按钮、触摸面板等的直接操作来执行各种类型的装置的操作。引用列表
专利文献
专利文献1:JP2011-41096A
发明内容
技术问题
此外,近年来,使用各种类型装置的情况已经多样化,并且也可以假设多个用户使用一个装置的情况。通过假设在这样的条件下使用,也考虑用于对由作为操作者的用户呈现的信息例如语音或视线移动更准确地进行检测的机构作为使得各种类型的装置能够基于语音或视线移动进行操作的UI。例如,专利文献1公开了通过根据对用户的位置的估计结果而控制声音收集单元例如麦克风等的方向性来使得能够以更好的质量收集来自该用户的语音的技术的示例。
另一方面,如上面所描述的,为了进一步提高对由用户呈现的信息例如语音或视线移动等的检测精度,寻求能够更准确地估计成为该信息的起点的部位例如该用户的口部、眼部等的位置的机构。
因此,本公开内容提出了能够进一步提高用户身体的至少一个部分中的部位的位置的估计准确度的信息处理设备、信息处理方法和程序。
问题的解决方案
根据本公开内容的一方面,提供了一种设备,该设备包括电路,该电路被配置成:确定在多个人中能够区分的用户的口部的位置;以及基于所确定的用户的口部的位置来控制用于收集声音的获取条件。
此外,根据本公开内容的另一方面,提供了一种经由至少一个处理器执行的信息处理方法,所述方法包括:确定在多个人中能够区分的用户的口部的位置;以及基于所确定的用户的口部的位置来控制用于收集声音的获取条件。
此外,根据本公开内容的另一方面,提供了一种包含有程序的非暂态计算机可读介质,该程序在被计算机执行时使计算机执行方法,该方法包括:确定在多个人中能够区分的用户的口部的位置;以及基于所确定的用户的口部的位置来控制用于收集声音的获取条件。
本发明的有益效果
根据如上所述的本公开内容的实施方式,提供了能够进一步提高对用户身体的至少一个部分中的部位的位置的估计准确度的信息处理设备、信息处理方法和程序。
注意,上述效果不一定是限制性的,并且与上述效果一起或替代上述效果,可以表现出在本说明书中期望引入的任何效果或可以从本说明书中预期的其他效果。
附图说明
图1是用于描述根据本公开内容的实施方式的信息处理设备的示意性配置的示例的说明图。
图2是用于描述传感器盒的配置和操作的概要的说明图。
图3是用于描述识别用户身体的规定部位的位置或取向的方法的示例的说明图。
图4是用于描述根据实施方式的信息处理设备的概述的说明图。
图5是示意性地示出与身体躯干和肢体对应的部分的图。
图6是示出根据实施方式的信息处理设备的功能配置的示例的框图。
图7是用于描述目标世界模型更新单元的操作的概述的说明图。
图8是用于描述人类模型的数据结构的示例的说明图。
图9是示出根据实施方式的信息处理设备的一系列处理的流程的示例的流程图。
图10是用于描述根据修改示例1的信息处理设备的操作的示例的说明图。
图11是用于描述根据修改示例1的信息处理设备的操作的另一示例的说明图。
图12是用于描述根据修改示例1的信息处理设备的操作的另一示例的说明图。
图13是用于描述根据修改示例2的信息处理设备的概述的说明图。
图14是用于描述根据修改示例2的信息处理设备的概述的说明图。
图15是用于说明修改示例3的信息处理设备的概述的说明图。
图16是用于说明修改示例3的信息处理设备的概述的说明图。
图17是示出根据实施方式的信息处理设备的硬件配置的示例的图。
具体实施方式
在下文中,将参照附图来详细描述本公开内容的实施方式。注意,在本说明书和附图中,使用相同的附图标记来表示具有基本相同的功能和结构的结构元件,并且省略对这些结构元件的重复说明。
将按照以下顺序来给出描述。
1.示意性配置
2.功能配置
3.处理
4.修改示例
4.1.修改示例1:方向性控制的示例
4.2.修改示例2:系统配置的示例
4.3.修改示例3:车载设备的应用示例
5.硬件配置
6.概述
<1.示意性配置>
首先,将参考图1来描述根据本公开内容的实施方式的信息处理设备的示意性配置的示例。图1是用于描述根据实施方式的信息处理设备1的示意性配置的示例的说明图。如图1所示,根据实施方式的信息处理设备1包括传感器盒20a和20b、用于呈现显示信息的输出单元30以及包括有控制信息处理设备1的各种操作的控制单元的主体10。注意,在下面的描述中,在没有特别区分传感器盒20a和20b的情况下,存在将传感器盒20a和20b简称为“传感器盒20”的情况。
输出单元30被构造成所谓的投影仪并且通过将显示信息投影在规定的投影面上将该显示信息(例如操作画面)作为呈现目标呈现给用户。例如,在图1所示的示例中,输出单元30被构造成所谓的单焦点投影仪并且通过将显示信息投影在附图标记90所示的墙壁表面上将该显示信息例如操作画面呈现给用户。注意,在下面的描述中,存在由输出单元30投影有信息(即显示信息)的区域(即投影面)被称为“区域R10”的情况。
此外,信息处理设备1针对用户被构造成能够通过使用手臂或手的操作例如指向等(手势)或语音输入来进行操作。传感器盒20具有用于识别要呈现给用户的信息的配置以操作信息处理设备1,例如由用户使用手臂或手的操作例如指向等(手势)或语音输入。注意,在图1所示的示例中,尽管两个传感器盒20a和20b作为传感器盒20被包括,但不一定限于同一配置,并且没有特别限制传感器盒20的数量。
文中,将参照图2来描述传感器盒20的示意性配置和操作的概述。图2是用于描述传感器盒20的配置和操作的概述的说明图并且示出了在竖直方向上从上方俯视信息处理设备1的情况下的图1中所示的信息处理设备1的示意性配置的示例。注意,在图2中,为了容易理解本说明书,从信息处理设备1的配置中呈现了传感器盒20a、20b和输出单元30,并且省略了对除了传感器盒20a、20b和输出单元30以外的配置的图示。
如图2所示,传感器盒20包括检测单元21和声音收集单元23。
声音收集单元23可以被构造成用于收集来自用户的语音输入的声音收集装置例如所谓麦克风。也就是说,声音收集单元23收集来自用户的语音输入作为声音信息。
此外,声音收集单元23被构造成所谓的方向性装置并且被构造成使得收集声音信息的区域的方向性能够被控制。例如,在图2中,附图标记R23a示意性地示出了包括在传感器盒20a中的声音收集单元23收集声音信息的区域的取向和宽度(即方向性)。类似地,附图标记R23b示意性地示出了包括在传感器盒20b中的声音收集单元23收集声音信息的区域的取向和宽度。注意,在下文中,将存在由附图标记R23a所示的区域被称为“声音收集区域R23a”的情况。类似地,将存在由附图标记R23b所示的区域被称为“声音收集区域R23b”的情况。此外,在没有特别区分声音收集区域R23a和R23b的情况下,将存在声音收集区域R23a和R23b被简称为“声音收集区域R23”的情况。
注意,尽管下面将详细描述细节,但根据实施方式的信息处理设备1估计用户的口部的位置并且基于估计结果来控制该声音收集单元23的方向性,使得声音收集单元23面向口部的估计位置。通过这样的配置,声音收集单元23能够变得更准确地收集来自作为目标的用户(例如被识别为操作者的用户)的语音输入。
特别地,如图1和图2所示,在例如存在多个用户的条件下,在从一个用户Ua收集语音输入的情况下,将存在来自另一用户Ub的语音输入用作噪声的情况。同样在这样的条件下,通过使声音收集单元23的方向性受控制以使得该声音收集单元23面向用户Ua的口部的方向,该声音收集单元23可以抑制来自用户Ub的语音输入的影响并且更准确地收集来自用户Ua的语音输入。
检测单元21获取各种类型的信息,以用于检测由用户使用部位例如手臂或手的操作,即该部位的位置或取向。
例如,在图2所示的示例中,信息处理设备1(特别地,主体10中包括的控制单元)基于检测单元21的检测结果对与用户前臂对应的部位U11的位置或取向沿时间序列的改变进行检测并且基于该检测结果来识别使用该部位U11的用户的操作。
例如,在图2中,附图标记U11a示出与用户Ua的前臂对应的部位,而附图标记L1a示意性地示出该部位U11a的轴(长轴)。也就是说,通过基于检测单元21的检测结果对部位U11a的位置或取向进行检测并根据该结果指定轴L1a,信息处理设备1可以指定区域R10的位置(并且因此显示在区域R10内显示的信息),用户通过部位U11指示区域R10的该位置。此外,通过将部位U11a的位置或取向沿时间序列的改变的识别结果与部位U11的位置或取向的改变的图案(该图案与规定的操作(手势)对应)(下文中将存在该图案被称为“操作图案”的情况)进行对照,信息处理设备1可以识别使用该部位U11a的用户Ua的操作(手势)。
类似地,附图标记U11b示出与用户Ub的前臂对应的部位,而附图标记L1b示意性地示出该部位U11b的轴(长轴)。也就是说,信息处理设备1基于对部位U11b的位置或取向的检测结果,对用户Ub通过部位U11b指示的区域R10的位置以及使用该部位U11b的操作(手势)进行识别。
检测单元21可以由所谓测距传感器例如立体图像传感器等构成。在图2中,附图标记R21a示意性地示出包括在传感器盒20a中的检测单元21的检测范围的取向和宽度。类似地,附图标记R21b示意性地示出包括在传感器盒20b中的检测单元21的检测范围的取向和宽度。注意,在下面的描述中,在没有特别区分检测范围R21a和R21b的情况下,将存在检测范围R21a和R21b被简称为“检测范围R21”的情况。
文中,将通过参考图3来描述在应用测距传感器作为检测单元21的情况下,基于检测单元21的检测结果来识别用户身体的规定部位的位置或取向的方法的示例。图3是用于描述识别用户身体的规定部位的位置或取向的方法的示例的说明图。
例如,对与存在于检测范围R21中的用户的距离进行检测,同时在检测单元21中在该检测范围R21内进行扫描,并且当该检测单元21的每个检测结果被映射时,获得如图3所示的表示每个检测结果的点信息的集合。注意,在下文中,将存在如图3所示的表示检测单元21的检测结果的点信息的集合被称为“点云”的情况。
基于例如在基于检测单元21的检测结果获取的点云中的每个点信息的位置关系(分布的倾斜度)、沿每个点信息的时间序列的移动的倾斜度等,信息处理设备1收集被认为是同一对象的点信息的集合作为一组。基于每个组的形状特征、每个组之间的位置关系、每个组的位置和取向的改变等,信息处理设备1从这样获取的组中的每个组中提取与规定部位对应的组。此外,在此时,通过对包括在每个组中的点信息应用主成分分析,例如,信息处理设备1可以基于包括在该组中的点信息来检测主成分(具有最大散射的轴)作为主轴,并且可以基于对该主轴的检测结果来指定该组的形状或取向(主轴的取向)。
通过如上所述的处理,信息处理设备1可以例如从如图3所示的点云中提取与对应于用户右臂的前臂的部位U11对应的长型组和该长型组的主轴L1。类似地,显然地,信息处理设备1能够从点云中提取与对应于用户左臂的前臂的部位U11'对应的长型组和该长型组的主轴L1'。
注意,如果信息处理设备1可以识别用户的规定部位的位置或取向(例如与图2中的前臂对应的部位U11),则检测单元21的配置将不限于上述所谓的测距传感器)。作为特定示例,检测单元21可以被构造成用于捕获被摄体的图像的成像单元。在这种情况下,信息处理设备1可以通过对由检测单元21捕获的用户的图像应用图像分析来检测规定部位(例如与前臂对应的部位U11)的位置或取向。
此外,如果信息处理设备1可以识别用户的规定部位的位置或取向,则获取用于该识别的信息的主题不一定限于包括在传感器盒20中的检测单元21。例如,信息处理设备1可以基于在该规定部位上佩戴的所谓的可穿戴装置的检测结果来识别用户的规定部位的位置或取向。
作为特定示例,可以在可穿戴装置中包括检测装置例如全球定位系统(GPS)或各种类型的传感器例如加速度传感器或角速度传感器,并且信息处理设备1可以使用该检测装置的检测结果。在这种情况下,信息处理设备1可以基于该检测装置的检测结果来识别可穿戴装置的位置或取向并且可以基于该可穿戴装置的位置或取向的识别结果来识别佩戴有可穿戴装置的手臂的位置或取向。
此外,作为另一示例,检测用户(换言之部位例如手臂)向特定检测范围靠近的传感器例如光学传感器、红外传感器等可以用于识别用户的规定部位的位置或取向。特别地,通过包括具有相互不同的检测范围的多个传感器,信息处理设备1可以基于每个传感器的检测结果来识别部位例如用户的手臂是否位于一些传感器的检测范围内。
此外,根据实施方式的信息处理设备1基于该用户的规定部位U11的位置或取向的识别结果来估计用户的其他部位的位置或取向。例如,图4是用于描述根据实施方式的信息处理设备1的概述的说明图并且是用于描述信息处理设备1基于对部位U11的识别结果来估计其他部位的位置或取向的处理的示例的图。
例如,在图4所示的示例中,信息处理设备1基于对与该用户的前臂对应的部位U11的位置或取向的识别结果来估计与用户的口部对应的部位U21的位置或取向。
特别地,信息处理设备1基于该部位U11的位置或取向沿时间序列的改变来识别与前臂对应的部位U11的可移动范围并且基于所识别的可移动范围来估计与肘部对应的部位U13的位置或取向,该部位U13成为部位U11的移动的基点。换言之,信息处理设备1基于该部位U11的移动轨迹(即部位U11的位置或取向的历史记录)来识别与前臂对应的部位U11的可移动范围,并且基于所识别的可移动范围来估计与肘部对应的部位U13的位置或取向。此外,信息处理设备1基于该部位U13的位置或取向沿时间序列的改变来估计与肘部对应的部位U13的可移动范围,并且基于所估计的可移动范围来估计与肩部对应的部位U15的位置或取向,该部位U15成为部位U13的移动的基点。换言之,信息处理设备1基于部位U13的移动轨迹(即部位U13的位置或取向的历史)来识别与肘部对应的部位U13的可移动范围,并且基于所识别的可移动范围来估计与肩部对应的部位U15的位置或取向。此外,信息处理设备1基于与肩部对应的部分U15的位置或取向的估计结果来估计与口部对应的部位U21的位置。
此外,在此时,与另一手臂的情况类似,信息处理设备1可以通过估计与肩部对应的部位U15'的位置或取向并且使用该估计结果来估计该部位U21来提高对与口部对应的部位U21的估计的准确度。
注意,图4所示的示例仅是示例,并且如果信息处理设备1可以基于用户的一部分的部位(例如部位U11)的位置或取向的识别结果而估计另一部位(例如部位U21)的位置或取向,则将不特别地限制作为目标的部位。
此外,期望的是,作为由信息处理设备1对位置或取向的估计目标的部位成为用户身体的具有相对较小移动的部位。包括在用户身体躯干中的至少一部分的部位可以被包括例如作为成为估计目标的部位。
注意,在本说明书中,身体躯干表示身体的除了肢体以外的部分。头部、颈部、胸部、腹部、骨盆区和尾部区例如包括在身体躯干中。此外,肢体与从身体躯干延伸的手和脚对应并且包括前肢(上肢)和后肢(下肢)。例如,图5是示意性地示出本说明书中称为身体躯干和肢体的部分的图。在图5中,由附图标记U10表示的部分与肢体对应并且由附图标记U20表示的部分与身体躯干对应。
此外,期望的是,作为由信息处理设备1基于检测单元21的检测结果(即用于估计其他部位的位置或取向的部位)识别的目标的部位成为用户身体的具有相对较大的移动的部位。可以包括被包括在用户肢体中的至少一部分的部位例如作为成为识别的目标的部位。此外,作为另一示例,可以基于检测单元21的检测结果将具有规定阈值或更大阈值(例如90度或更大)的可移动范围的部位设置成识别的目标。此外,作为另一示例,例如,可以基于检测单元21的检测结果将具有至少两个自由度作为移动自由度的部位设置成识别的目标。
如上所述,信息处理设备1估计用户的口部的位置并且控制声音收集单元23的方向性,使得该声音收集单元23的声音收集区域R23面向所估计的口部的方向。
例如,在图2所示的示例的情况下,信息处理设备1基于与用户Ua的前臂对应的部位U11a的位置或取向的改变,分别按顺序对与肘部对应的部位U13a的位置或取向以及与肩部对应的部位U15a的位置或取向进行估计。此外,信息处理设备1基于与肩部对应的部位U15a的估计结果来估计与口部对应的部位U21a的位置或取向并且控制声音收集单元23的方向性,使得传感器盒20a的该声音收集单元23的声音收集区域R23a面向该部位U21a的方向。以这种方式,信息处理设备1可以通过传感器盒20a的声音收集单元23更准确地收集来自用户Ua的声音输入。
类似地,信息处理设备1基于与用户Ub的前臂对应的部位U11b的位置或取向的改变分别按顺序对与肘部对应的部位U13b的位置或取向以及与肩部对应的部位U15b的位置或取向进行估计。此外,信息处理设备1基于与肩部对应的部位U15b的估计结果来估计与口部对应的部位U21b的位置或取向并且控制声音收集单元23的方向性,使得传感器盒20b的声音收集单元23的声音收集区域R23b面向该部位U21b的方向。以这种方式,信息处理设备1可以通过传感器盒20b的声音收集单元23更准确地收集来自用户Ub的语音输入。
如上所述,信息处理设备1识别用户使用手臂或手进行的操作并且根据识别结果来识别在用户指示的区域R10内显示的显示信息(各种类型的内容的显示对象)和对该显示信息进行的操作的内容。此外,信息处理设备1通过对所收集的语音应用所谓的语音识别技术来收集从用户讲出的语音并且识别通过来自用户的语音输入所指示的内容。此外,信息处理设备1根据识别的用户操作来执行各种处理(例如应用)并且控制输出单元30的操作,使得根据执行结果来更新区域R10中显示的显示信息。
此前,参照图1至图5描述了根据实施方式的信息处理设备1的概述。
注意,上述示例仅是示例,并且信息处理设备1的方向性控制的目标不一定限于声音收集单元23例如麦克风等。
作为特定示例,可以将上述对部位的估计和基于该估计结果的方向性控制应用于与用户的视线的识别有关的所谓的处理。在这种情况下,例如,信息处理设备1可以基于与用户的前臂对应的部位U11的位置和取向的识别结果顺序地以肘部和肩部的顺序来估计位置和取向并且可以基于该估计结果来估计用户眼部的位置和取向。此外,信息处理设备1可以控制捕获被摄体的成像单元的取向,使得该成像单元的成像区域面向用户的眼部的方向。
以这种方式,信息处理设备1可以仅捕获用户眼部附近的区域,以便识别该用户的视线,并且信息处理设备1可以甚至在使用具有窄视角的成像单元的情况下识别该用户的视线。此外,因为可以仅捕获用户眼部附近的区域,所以与捕获比这些眼部附近区域更宽的区域的情况相比,该信息处理设备1可以减小视线识别的图像处理的负荷。
类似地,可以将上述对部位的估计和基于该估计结果的方向性控制应用于与用户的面部识别有关的所谓的处理。在这种情况下,例如,信息处理设备1可以基于与用户的前臂对应的部位U11的位置和取向的识别结果,对与肩部对应的部位U15的位置和取向进行估计,并且可以基于该估计结果来估计用户脸部的位置和取向。此外,信息处理设备1可以控制捕获被摄体的成像单元的取向,使得该成像单元的成像区域面向用户脸部的方向。
此外,作为另一示例,可以将上述对部位的估计和基于该估计结果的方向性控制应用于与声学装置例如扬声器的方向性控制有关的所谓的处理。在这种情况下,例如,信息处理设备1可以基于与用户的前臂对应的部位U11的位置和取向的识别结果来估计与肩部对应的部位U15的位置和取向,并且可以基于该估计结果来估计用户耳部的位置和取向。此外,信息处理设备1可以控制声学装置例如扬声器的方向性,使得该声学装置输出声音信息的方向面向用户耳部的方向。
以这种方式,信息处理设备1可以向特定用户输出声音信息,使得即使在存在多个用户的条件下,该用户也可以识别声音信息。
<2.功能配置>
接下来,将参照图6来描述根据实施方式的信息处理设备1的功能配置的示例。图6是示出根据实施方式的信息处理设备1的功能配置的示例的框图并且示出图1所示的信息处理设备1的功能配置的示例。
如图6所示,根据实施方式的信息处理设备1包括控制单元11、传感器盒20a和20b、输出单元30和存储单元40。注意,传感器盒20a和20b以及输出单元30分别与参照图2所描述的传感器盒20a和20b以及输出单元30对应。因此,将省略对传感器盒20a和20b以及输出单元30的详细描述。注意,在本说明书中,与图2所示的示例类似,传感器盒20(例如传感器盒20a和20b中的每一者)包括检测单元21和声音收集单元23。
如图6所示,控制单元11包括目标识别单元12、语音识别单元13、目标世界模型更新单元14、方向性控制单元15、输入分析单元16、处理执行单元17和输出控制单元18。
目标识别单元12从每个传感器盒20的检测单元21获取检测单元21的检测范围R21内存在的对象(例如用户身体的至少一部分)的检测结果。目标识别单元12通过分析所获取的检测结果来提取作为目标的部位的信息并且基于提取结果来识别该部位的位置或取向。
注意,基于检测单元21的检测结果来识别作为目标的部位的位置或取向的方法如先前参考图3所描述的那样。也就是说,在图3所示的示例的情况下,目标识别单元12基于构成测距传感器的检测单元21的检测结果来识别与用户前臂对应的部位U11的位置或取向。注意,在下面的描述中,目标识别单元12基于检测单元21的检测结果来识别与用户前臂对应的部位U11的位置或取向。
此外,目标识别单元12针对每个检测单元21(或用于每个传感器盒20),向目标世界模型更新单元14输出表示作为目标的部位U11的位置或取向的识别结果的控制信息。
语音识别单元13从每个传感器盒的声音收集单元23获取收集的声音信息。语音识别单元13从所获取的声音信息中检测语音段并且从该声音信息中提取与该语音段(即声音信号)对应的部分作为语音输入。语音识别单元13通过执行基于所谓的语音识别技术的分析,将所提取的语音输入转换成字符信息。
此外,语音识别单元13针对每个声音收集单元23(或针对每个传感器盒20),向目标世界模型更新单元14输出基于语音识别技术的分析的结果(在下文中存在将该结果称为“语音识别的结果”的情况),即语音输入被转换成的字符信息。
目标世界模型更新单元14针对每个检测单元21,从目标识别单元12获取表示作为目标的部位U11的位置或取向的识别结果的控制信息。
注意,在此时,针对其示出了针对每个检测单元21获取的控制信息的部位U11的位置或取向表示部位U11相对于该检测单元21的相对位置关系。因此,目标世界模型更新单元14基于每个检测单元21的位置或取向(特别地,针对每个检测单元21的检测范围R21的位置关系),针对每个检测单元21整合部位U11的识别结果并且识别该部位U11在布置有检测单元21中的每一者的空间内的绝对位置。
注意,目标世界模型更新单元14可以基于现有的对照、从用户输入的数据等预先执行对每个检测单元21之间的位置关系的识别。此外,作为另一示例,目标世界模型更新单元14可以基于各种类型的传感器的检测结果、对由成像单元捕获的图像的分析等自动识别每个传感器之间的位置关系。
文中,将参照图7来描述目标世界模型更新单元14的操作的概述。图7是用于描述目标世界模型更新单元14的操作的概述的说明图。在图7中,传感器A至C示意性地表示传感器盒20中的每一者中包括的检测单元21。此外,附图标记P1至P5示意性地表示作为每个传感器的检测目标的对象(例如用户身体的至少一部分)。
在图7所示的示例中,对象P1和P2存在于传感器A的检测范围内。此外,对象P2、P3和P4存在于传感器B的检测范围内。在此时,对象P2存在于传感器A和B二者的检测范围内。类似地,对象P4和P5存在于传感器C的检测范围内。在此时,对象P4存在于传感器B和C二者的检测范围内。
此外,在图7中,由附图标记D10a所示的数据表示基于传感器A的检测结果识别的对象以及这些对象的位置信息。注意,在此时,每个识别的对象的位置信息与参照传感器A的相对位置信息(即相对空间坐标)对应。此外,在下面的描述中,存在情况:由附图标记D10a所表示的数据被称为与传感器A对应的“目标世界模型D10a”。
例如,在目标世界模型D10a中,由标识符“IDA001”所表示的位于相对空间坐标(Xa1、Ya1、Za1)处的对象表示图7中的对象P1。此外,由标识符“IDA002”所表示的位于相对空间坐标(Xa2、Ya2、Za2)处的对象示出了图7中的对象P2。
此外,附图标记D10b所表示的数据与对应于传感器B的目标世界模型D10b对应,该目标世界模型D10b示出了基于传感器B的检测结果识别的对象以及这些对象的位置信息。也就是说,在目标世界模型D10b中,由标识符“IDB001”所示的数据与对象P2对应。类似地,由标识符“IDB002”所示的数据与对象P3对应,并且由标识符“IDB003”所示的数据与对象P4对应。
类似地,由附图标记D10c所表示的数据与对应于传感器C的目标世界模型D10c对应,该目标世界模型D10c示出了基于传感器C的检测结果识别的对象以及这些对象的位置信息。也就是说,在目标世界模型D10c中,标识符“IDC001”所示的数据与对象P4对应。标识符“IDC002”所示的数据与对象P5对应。
注意,在下面的描述中,在仅示出每个传感器的目标世界模型而没有特别区分目标世界模型D10a至D10c的情况下,将存在目标世界模型D10a至D10c被称为“目标世界模型D10”的情况。此外,针对每个传感器的目标世界模型D10与表示由目标识别单元12针对每个检测单元21提供的、作为目标的部位U11的位置或取向的识别结果的控制信息对应。
目标世界模型更新单元14基于预先识别的每个检测单元21之间的位置关系对针对检测单元21中的每一者(即针对传感器中的每一者)获取的目标世界模型D10进行整合并且生成或更新目标世界模型D30,该目标世界模型D30表示布置有检测单元21的中的每一者的空间内的绝对位置。
作为特定示例,目标世界模型更新单元14基于每个检测单元21的位置关系将检测单元21中的每一者的相应检测范围R21映射为布置有检测单元21中的每一者的空间内的位置(绝对位置)。注意,在下文中,将存在将布置有检测单元21中的每一者的空间内的坐标被称为“绝对空间坐标”的情况。
此外,目标世界模型更新单元14基于针对每个检测单元21的目标世界模型D10将由每个检测单元21检测到的对象映射在绝对空间坐标内。注意,在此时,目标世界模型更新单元14基于每个检测单元21之间的位置关系从在相互不同的检测单元21中检测到的每个对象的信息中,将表示同一对象的信息关联。
例如,在图7所示的示例的情况下,目标世界模型更新单元14基于传感器A与B之间的位置关系识别出由目标世界模型D10a内的“标识符IDA002”所表示的对象和由目标世界模型D10b内的“标识符IDB001”所表示的对象是同一对象。因此,目标世界模型更新单元14将由“标识符IDA002”所表示的对象和由“标识符IDB001”所表示的对象与表示共同对象P2的信息相关联作为目标对象。
类似地,目标世界模型更新单元14基于传感器B与C之间的位置关系识别出由目标世界模型D10b内的“标识符IDB003”所表示的对象以及由目标世界模型D10c内的“标识符IDC001”所表示的对象是同一对象。因此,目标世界模型更新单元14将由“标识符IDB003”所表示的对象和由“标识符IDC001”所表示的对象与表示共同对象P4的信息相关联作为目标对象。
如上所述,目标世界模型更新单元14通过基于每个检测单元21之间的位置关系对针对检测单元21中的每一者相继获取的目标世界模型D10进行整合来生成或更新目标世界模型D30并且沿时间序列累积该目标世界模特D30。以这种方式,例如在沿时间序列累积的目标世界模型D30中示出了作为目标的部位(例如与前臂对应的部位U11)的位置或取向沿时间序列的改变。
注意,具有相互相似的形状的部位例如右臂和左臂存在于人的部位内。另一方面,将存在仅使用这些部位的位置或取向的识别结果(或估计结果)难以确定具有相互相似形状的这样的部位的情况。因此,目标世界模型更新单元14可以基于这些部位的沿时间序列的移动的特性(例如运动矢量、速度、加速度等)来确定具有相互相似形状的部位。
作为特定示例,右臂和左臂的左右运动的速度或加速度的改变趋于彼此不同。因此,目标世界模型更新单元14可以基于该部位的移动的速度或加速度的改变来确定被识别为臂的部位是与右臂还是左臂对应。
此外,作为另一示例,在右臂和左臂中,可移动范围(例如相对于身体躯干的可移动范围)趋于彼此不同。因此,目标世界模型更新单元14可以基于该部位的向量的改变来确定被识别为臂的部位是与右臂还是左臂对应。
此外,目标世界模型更新单元14基于沿时间序列累积的目标世界模型D30来识别作为目标的部位的可移动范围,并且基于所识别的可移动范围来估计作为该部位的操作的基点的另一部位的位置或取向。
例如,在先前参照图3描述的示例中,目标世界模型更新单元14基于与前臂对应的部位U11的可移动范围来估计与肘部对应的部位U13的位置或取向,该部位U13作为该部位U11的操作的基点。此外,目标世界模型更新单元14基于与肘部对应的部位U13的位置或取向沿时间序列的改变来估计该部位U13的可移动范围并且基于所估计的可移动范围来估计与肩部对应的部位U15的位置或取向,该部位U15作为部位U13的操作的基点。此外,目标世界模型更新单元14基于与肩部对应的部位U15的位置或取向的估计结果来估计与口部对应的部位U21的位置。
此外,目标世界模型更新单元14基于对其他部位(例如图3所示的部位U13、U15和U21)的位置或取向的估计结果来更新目标世界模型D30。以这种方式,将表示其他部位的位置或取向的信息记录在目标世界模型D30内。注意,特别地,估计目标世界模型更新单元14内的这些其他部位的位置或取向的部件与“估计单元”的示例对应。
如上所述,目标世界模型更新单元14生成或更新目标世界模型D30。注意,目标世界模型更新单元14将该生成或更新的目标世界模型D30存储在例如存储单元40中。
此外,基于以目标世界模型D30为基础的每个部位之间的位置关系,目标世界模型更新单元14通过将表示每个部位的沿时间序列的位置或取向的信息与示出用户身体的模型相匹配来生成针对每个用户的整合数据。注意,在下文中,将存在表示每个部位的沿时间序列的位置或取向的信息针对每个用户已被整合的数据被称为“人类模型D50”的情况。
例如,图8是用于描述针对每个用户生成的人类模型的数据结构的示例的说明图。
如图8所示,数据头D51和表示每个部位的沿时间序列的位置或取向的改变的数据D55与人类模型D50相关联。在数据D55中,针对这些部位中的每一个,沿时间序列关联表示所识别或估计部位的位置或取向的位置信息D551。
此外,人类模型D50的管理信息存储在数据头D51中。用于识别每个人类模型D50的识别信息、用于提取包括在人类模型D50中的每个数据(例如数据D55)的信息(例如地址)等被包括在该管理信息中。
注意,在此时,目标世界模型更新单元14根据基于目标世界模型D30的每个部位之间的位置关系或根据每个部位的检测结果识别的条件,确定部位中的每个是与同一用户的部位对应还是与相互不同的用户的部位对应。
作为特定示例,在与右臂的前臂对应的部位U11和与左臂的前臂对应的部位U11'之间的距离分隔一阈值或更大的情况下,目标世界模型更新单元14确定这些部位U11和U11'是相互不同的用户的部位。
此外,作为另一示例,在存在与右臂的前臂对应的多个部位U11的情况下,目标世界模型更新单元14确定该多个部位U11中的每一个部位是相互不同的用户的部位。
此外,目标世界模型更新单元14可以基于目标世界模型D30来跟踪每个部位沿时间序列的移动,并且可以根据该跟踪结果来确定每个检测到的部位是与同一用户的部位对应还是与相互不同的用户的部位对应。
如上所述,目标世界模型更新单元14通过对包括在每个用户的目标世界模型D30中的每个部位的信息进行整合来生成或更新人类模型D50。
此外,人类模型D50可以具有来自相关联的对应用户的输入数据D53,例如语音输入已被转换成的字符信息等。
在这种情况下,例如,目标世界模型更新单元14从将在下面描述的方向性控制单元15获取表示每个声音收集单元23的声音收集区域R23的取向或宽度(即该声音收集单元23的方向性)的信息,并且将该获取的信息与针对每个用户估计的口部的位置进行对照。以这种方式,目标世界模型更新单元14识别每个声音收集单元23的方向性是否面向用户的方向。也就是说,目标世界模型更新单元14可以识别每个声音收集单元23是否正在收集用户的声音。
此外,目标世界模型更新单元14可以将针对每个声音收集单元23从语音识别单元13获取的表示语音识别结果(例如语音输入已被转换成的字符信息)的信息D531和与该声音收集单元23的方向性所面对的用户对应的人类模型D50沿时间序列相关联作为输入数据D53。
如上所述,基于以目标世界模型D30为基础的每个部位之间的位置关系,目标世界模型更新单元14通过对表示每个用户的每个部位的沿时间序列的位置或取向的信息进行整合,生成每个用户的人类模型D50。此外,目标世界模型更新单元14使针对每个用户生成或更新的该人类模型D50被存储在存储单元40中。
方向性控制单元15基于存储在存储单元40中的人类模型D50来控制方向性装置的方向性。例如,在图6所示的示例中,方向性控制单元15控制每个传感器盒20的声音收集单元23的方向性。
特别地,方向性控制单元15通过监视在存储单元40中针对每个用户存储的人类模型D50的更新状况来识别针对每个用户的与口部对应的部位U21的位置或取向。此外,方向性控制单元15基于针对每个用户识别的部位U21的位置或取向来控制声音收集单元23的操作,使得每个声音收集单元23的声音收集区域R23的取向面向所识别的部位U21的方向。此外,在此时,方向性控制单元15可以根据部位U21的位置或取向的识别结果来控制每个声音收集单元23的声音收集区域R23的宽度。
此外,方向性控制单元15可以将表示每个声音收集单元23的方向性的控制结果(即每个声音收集单元23的声音收集区域R23的取向或宽度)的信息通知给目标世界模型更新单元14。以这种方式,目标世界模型更新单元14可以识别每个声音收集单元23的方向性是否面向用户的方向。
输入分析单元16具有用于由信息处理设备1基于存储在存储单元40中的人类模型D50来识别每个用户执行的操作的内容的配置。
特别地,输入分析单元16通过监视在存储单元40中针对每个用户存储的人类模型D50的更新状况针对每个用户来识别与前臂对应的部位U11的位置或取向的改变,并且基于该识别结果来识别由该用户进行的操作的内容。
在这种情况下,输入分析单元16预先例如从下面将描述的输出控制单元18获取表示操作画面内的每个显示信息的位置的信息。注意,在输出单元30被构造成如图1和图2所示的所谓的投影仪的情况下,本说明书中的操作画面例如与如图1和图2所示的区域R10对应。
此外,输入分析单元16通过将部位U11的位置或取向的改变的识别结果和表示从输出控制单元18获取的操作画面内的每个显示信息的位置的信息进行对照,指定用户通过部位U11指示的操作画面内的位置(即在操作画面内显示的显示信息)。以这种方式,输入分析单元16可以从在操作画面内显示的显示信息中指定用户已经指定为操作目标的显示信息,因此,输入分析单元16可以识别出与该显示信息对应的内容成为操作目标。
注意,在输出单元30被构造成如图1和图2所示的所谓的投影仪的情况下,例如,输入分析单元16可以通过由所谓的测距传感器等检测投影面90的位置来识别区域R10被投影的位置。
此外,输出单元30可以被构造成装置例如所谓的液晶显示(LCD)设备或有机发光二极管(OLED)显示器。注意,在这种情况下,明显地,可以基于输出单元30相对于信息处理设备1的主体10的相对位置来识别该输出单元30的画面的位置。
此外,输入分析单元16通过将该部位U11的沿时间序列的位置或取向的改变的识别结果和与规定的操作(手势)对应的操作模式进行对照来识别用户使用部位U11的操作(手势)。以这种方式,输入分析单元16可以识别由用户执行的操作的内容。
此外,在识别出所识别的操作内容是用于更新操作目标的显示位置或显示状态的操作的情况下,输入分析单元16将表示该操作目标和操作内容的信息输出至输出控制单元18。以这种方式,基于表示所获取的操作目标和操作内容的信息,输出控制单元18可以通过根据该操作内容控制该操作目标的显示位置或显示状态来更新操作画面。
此外,在识别出所识别的操作内容是用于执行成为操作目标的内容的功能的操作的情况下,输入分析单元16指定作为目标的该功能并且将表示指定功能的信息输出至处理执行单元17。通过接收该输出,处理执行单元17执行由输入分析单元16指定的功能(例如应用程序)。
此外,作为另一示例,输入分析单元16可以从在存储单元40中针对每个用户存储的人类模型D50提取输入数据D53,并且可以基于提取的输入数据D53来识别由用户进行的操作的内容。因此,在下文中,将使用提取语音识别的结果作为输入数据D53的情况的示例来描述输入分析单元16的操作的示例。
输入分析单元16将基于所谓的自然语言处理技术的分析(例如词法分析(形态分析)、语法分析、语义分析等)应用于从输入数据D53中提取的语音识别的结果(即语音输入已被转换成的字符信息)。以这种方式,输入分析单元16可以基于针对所提取的语音识别的结果的以自然语言处理技术为基础的分析的结果,识别来自用户的指令内容。
此外,在识别出所识别的指令内容是与操作画面的更新有关的指令的情况下,输入分析单元16将表示该指令内容的信息输出至输出控制单元18。以这种方式,输出控制单元18可以基于表示所获取的指令内容的信息来更新操作画面。
此外,在识别出所识别的指令内容是用于执行规定功能的指令的情况下,输入分析单元16将表示该功能的信息输出至处理执行单元17。通过接收该输出,处理执行单元17执行由输入分析单元16指定的功能(例如应用程序)。
处理执行单元17从规定的存储区域中读取用于执行从输入分析单元16指定的功能(例如应用程序)的数据(例如库)。注意,用于执行每个功能的数据可以存储在例如存储单元40中。明显地,如果处理执行单元17能够读取用于执行每个功能的数据,则不会特别限制存储该数据的位置。
此外,处理执行单元17通过基于读取的数据将获取的参数设置成输入来执行指定的功能并且将该功能的执行结果输出至输出控制单元18。
输出控制单元18具有用于生成或更新操作画面并且使输出单元30输出该操作画面的配置。
通过从处理执行单元17接收各种类型的功能的执行结果,输出控制单元18在该操作画面中呈现与由该执行结果呈现的这些功能对应的显示信息(例如操作界面等)。以这种方式,操作画面被更新。
此外,在获取表示与来自输入分析单元16的操作画面的更新有关的指令内容的信息(例如表示操作目标或操作内容的信息)的情况下,输出控制单元18基于该指令内容来产生或输出操作画面。
此外,输出控制单元18使输出单元30输出所生成或更新的操作画面。以这种方式,用户可以通过由输出单元30输出的操作经由画面来识别基于由自身进行的操作的结果。
此外,输出控制单元18可以向输入分析单元16输出表示操作画面内的每个显示信息的位置的信息。以这种方式,输入分析单元16可以识别操作画面内的每个显示信息的位置。
此前,参照图6至图8描述了根据实施方式的信息处理设备1的功能配置的示例。
注意,图6所示的信息处理设备1的功能配置仅是示例,只要能够实现上述信息处理设备1的功能中的每个功能,则该配置将不限于图6所示的示例。作为特定示例,传感器盒20和输出单元30可以作为外部设备从外部附接至信息处理设备1。此外,作为另一示例,控制单元11的配置中的每个配置中的至少一部分的配置可以包括在传感器盒20或输出单元30中。此外,控制单元11的配置中的每个配置中的至少一部分的配置可以包括在外部设备(例如服务器等)中。此外,检测单元21和声音收集单元23可以不一定包括在同一壳体中(例如在传感器盒20内)并且可以包括在相互不同的壳体中。
<3.处理>
接下来,将参照图9——特别地,通过关注由信息处理设备1对声音收集单元23的方向性的控制——来描述根据实施方式的信息处理设备1的一系列处理的流程的示例。图9是示出根据实施方式的信息处理设备1的一系列处理的流程的示例的流程图。
(步骤S101)
目标识别单元12从每个传感器盒20的检测单元21获取检测单元21的检测范围R21内存在的对象(例如用户身体的至少一部分)的检测结果。目标识别单元12例如通过分析所获取的检测结果来提取与前臂对应的部位U11的信息并且基于所提取的结果来识别该部位U11的位置或取向。
此外,目标识别单元12针对每个检测单元21(或针对每个传感器盒20),将表示与前臂对应的部位U11的位置或取向的识别结果的控制信息输出至目标世界模型更新单元14。
目标世界模型更新单元14针对每个检测单元21,从目标识别单元12获取表示作为目标的部位U11的位置或取向的识别结果的控制信息(即目标世界模型D10)。
目标世界模型更新单元14基于先前识别的每个检测单元21之间的位置关系来对针对每个检测单元21(即针对每个传感器)获取的目标世界模型D10进行整合并且生成或更新目标世界模型D30,该目标世界模型D30表示布置有每个检测单元21的空间内的绝对位置。
作为特定示例,目标世界模型更新单元14基于每个检测单元21之间的位置关系,将每个检测单元21的相应的检测范围R21映射为布置有每个检测单元21的空间内的位置(绝对位置)。
此外,目标世界模型更新单元14基于针对每个检测单元21的目标世界模型D10,将由每个检测单元21检测到的部位映射在绝对空间坐标内。注意,在此时,目标世界模型更新单元14基于每个检测单元21之间的位置关系,使来自相互不同的检测单元21中检测到的每个部位的信息中的表示相同部位的信息相关联。
如上所述,目标世界模型更新单元14通过基于每个检测单元21之间的位置关系,对针对每个检测单元21相继获取的目标世界模型D10进行整合来生成或更新目标世界模型D30,并且沿时间序列累积该目标世界模特D30。
(步骤S103)
此外,目标世界模型更新单元14基于该部位U11的沿时间序列的移动的特性(例如移动矢量、速度、加速度等)来估计与前臂对应的检测部位U11是否与左臂或右臂中的任一者对应。
作为特定示例,目标世界模型更新单元14可以基于该部位的移动的速度或加速度的改变来确定被识别为臂的部位是否与右臂和左臂中的任一者对应。此外,作为另一示例,目标世界模型更新单元14可以基于该部位的矢量的改变来确定被识别为臂的部位是否与右臂和左臂中的任一者对应。注意,步骤S103所示的处理可以和与步骤S101有关的处理或与下面将要描述的步骤S105和S107有关的处理并行执行。
(步骤S105)
此外,目标世界模型更新单元14基于沿时间序列累积的目标世界模型D30来识别作为目标的部位的可移动范围并且基于所识别的可移动范围来估计作为基点的另一部位的位置或取向。
例如,目标世界模型更新单元14基于该部位U11的可移动范围来估计与肘部对应的部位U13的位置或取向,该部位U13作为与前臂对应的部位U11的移动的基点。
(步骤S107)
此外,目标世界模型更新单元14基于该部位U13的位置或取向的沿时间序列的改变来估计与肘部对应的部位U13的可移动范围,并且基于所估计的可移动范围来估计与肩部对应的部位U15的位置或取向,该部位U15作为部位U13的移动的基点。
(步骤S109)
接下来,目标世界模型更新单元14基于与肩部对应的部位U15的位置或取向的估计结果来估计与口部对应的部位U21的位置。
(步骤S111)
然后,目标世界模型更新单元14基于其他部位(例如图3所示的部位U13、U15和U21)的位置或取向的估计结果来更新目标世界模型D30。以这种方式,表示其他部位的位置或取向的信息被记录在目标世界模型D30中。
如上所述,目标世界模型更新单元14生成或更新目标世界模型D30。注意,目标世界模型更新单元14使该生成或更新的目标世界模型D30存储在例如存储单元40中。
此外,基于以目标世界模型D30为基础的每个部位之间的位置关系,目标世界模型更新单元14通过将表示每个部位的沿时间序列的位置或取向的信息与表示用户身体的模型进行匹配来生成针对每个用户的综合人类模型D50。
注意,在此时,目标世界模型更新单元14根据基于目标世界模型D30的每个部位之间的位置关系或根据每个部位的检测结果识别的条件来确定每个部位是与同一用户的部位对应还是与相互不同的用户的部位对应。
作为特定示例,在与右臂的前臂对应的部位U11和与左臂的前臂对应的部位U11'之间的距离分隔一阈值或更大的情况下,目标世界模型更新单元14确定这些部位U11和U11'是相互不同的用户的部位。
此外,作为另一示例,在存在与右臂的前臂对应的多个部位U11的情况下,目标世界模型更新单元14确定该多个部位U11中的每个部位是相互不同的用户的部位。
此外,目标世界模型更新单元14可以基于目标世界模型D30来跟踪每个部位的沿时间序列的移动,并且可以根据跟踪结果来确定检测到的每个部位是与同一用户的部位对应还是与相互不同的用户的部位对应。
如上所述,目标世界模型更新单元14通过针对每个用户对包括在目标世界模型D30中的每个部位的信息进行整合来生成或更新人类模型D50。然后,目标世界模型更新单元14使针对每个用户生成或更新的人类模型D50存储在存储单元40中。
(步骤S113)
方向性控制单元15基于存储在存储单元40中的人类模型D50来控制规定方向性的装置例如每个传感器盒20的声音收集单元23等的方向性。
特别地,方向性控制单元15通过监视在存储单元40中针对每个用户存储的人类模型D50的更新状况,针对每个用户来识别与口部对应的部位U21的位置或取向。此外,方向性控制单元15基于针对每个用户识别的部位U21的位置或取向来控制声音收集单元23的操作,使得每个声音收集单元23的声音收集区域R23的取向面向所识别的部位U21的方向。此外,在此时,方向性控制单元15可以根据部位U21的位置或取向的识别结果来控制每个声音收集单元23的声音收集区域R23的宽度。
(步骤S115)
如上所述,只要没有指示一系列处理的结束(步骤S115:否),信息处理设备1连续地监视与每个用户的口部对应的部位U21的位置或取向的改变,并且基于监视结果来控制每个声音收集单元23的方向性。通过这样的配置,声音收集单元23可以更准确地收集来自作为目标的用户(例如被识别为操作者的用户)的语音输入。
然后,当指示了一系列处理的结束(步骤S115:是)时,信息处理设备1结束上面已经描述的与识别和估计用户的每个部位的位置或取向有关的处理以及与控制每个声音收集单元23的方向性有关的处理。
此前,参照图9描述了根据实施方式的信息处理设备1的一系列处理的流程的示例。
<4.修改示例>
接下来,将描述根据实施方式的信息处理设备1的修改示例。
{4.1.修改示例1:方向性控制的示例}
首先,作为修改示例1,对根据实施方式的信息处理设备1的方向性控制的示例进行描述。
例如,图10是用于描述根据修改示例1的信息处理设备1的操作的示例的说明图,并且示出了信息处理设备1根据用户Ua和Ub中的每个用户的口部的位置的估计结果,控制每个声音收集单元23的声音收集区域R23的宽度的情况的示例。
如先前所述,根据实施方式的信息处理设备1基于根据检测单元21的检测结果识别的部位(例如前臂)的沿时间序列的位置或取向的改变来估计其他部位(例如肘部、肩部、口部等)的位置或取向。因此,在根据实施方式的信息处理设备1中,例如,与肘部对应的部位U13的位置或取向的估计结果的可靠性随着表示与前臂对应的部位U11的位置或取向的识别结果的样本数据增加(特别是随着位置或取向的改变增加)而提高。
另一方面,在根据实施方式的信息处理设备1中,从控制的上述特性的视角来看,例如在不存在表示与前臂对应的部位U11的位置或取向的识别结果的许多样本数据的情况下,将存在与肘部对应的部位U13的位置或取向的估计结果的可靠性变低的情况。这对于以下情况也是类似的:基于与肘部对应的部位U13的估计结果来估计与肩部对应的部位U15的位置或取向的情况、以及基于与肩部对应的部位U15的位置或取向的估计结果来估计与口部对应的部位U21的位置或取向的情况。
因此,在图10所示的示例中,信息处理设备1根据作为方向性控制的参考点的部位的位置或取向的估计结果的可靠性来控制作为目标的装置(例如声音收集单元23)的方向性。例如,图10所示的示例示出了用户Ua的口部的位置或取向的估计结果的可靠性高于用户Ub的口部的位置的估计结果的可靠性的情况。
在图10所示的示例中,因为用户Ua的口部的位置和取向的估计结果的可靠性高,所以信息处理设备1控制传感器盒20a侧的声音收集单元23(其收集来自该用户Ua的语音输入)的方向性,使得该声音收集单元23的声音收集区域R23a的宽度变窄。以这种方式,信息处理设备1可以经由传感器盒20a侧的声音收集单元23更准确地收集来自用户Ua的语音输入。
此外,因为用户Ub的口部的位置和取向的估计结果的可靠性低,所以信息处理设备1控制传感器盒20b侧的声音收集单元23(其收集来自该用户Ub的语音输入)的方向性,使得声音收集单元23的声音收集区域R23b的宽度变宽。以这种方式,即使在用户Ub的口部的实际位置和取向与估计结果不同的情况下,信息处理设备1也可以经由传感器盒20b侧的声音收集单元23收集来自该用户Ub的语音输入。
此外,信息处理设备1可以向用户呈现表示口部的位置的估计结果的可靠性的信息。例如,在图10所示的示例中,信息处理设备1通过在区域R10上投影,向每个用户呈现表示用户Ua和Ub中的每个用户的口部的位置的估计结果的可靠性的显示信息v21和v21a。
特别地,在图10所示的示例中,信息处理设备1控制对应的显示信息的显示,使得该显示信息随着口部的位置的估计结果的可靠性增大而被呈现得更小。
更特别地,因为用户Ua的口部的位置和方向的估计结果的可靠性高,所以信息处理设备1呈现与从该用户Ua收集语音输入的传感器盒20a对应的显示信息v21a,以便使该显示信息V21a根据可靠性而变小。以这种方式,每个用户可以在视觉上认识到例如传感器盒20a的声音收集单元23的方向性被控制,使得用户Ua的口部的位置和取向的估计结果的可靠性为高,并且该声音收集单元23的声音收集区域R23a变窄。
因为用户Ub的口部的位置和取向的估计结果的可靠性低,所以信息处理设备1呈现与从该用户Ua收集语音输入的传感器盒20b对应的显示信息v21b,以便使该显示信息V21b根据可靠性变大。以这种方式,每个用户可以在视觉上认识到传感器盒20b的声音收集单元23的方向性被控制,使得用户Ub的口部的位置和取向的估计结果的可靠性为低,并且该声音收集单元23的声音收集区域R23b变宽。
此外,图11和图12是用于描述根据修改示例1的信息处理设备1的操作的其他示例的说明图。在图11和图12所示的示例中,信息处理设备1根据是否能够从用户Ua和Ub中指定正在执行操作的用户来控制传感器盒20a和20b中的每个传感器盒的声音收集单元23的方向性。
注意,信息处理设备1可以根据作为用户Ua和Ub中的每个用户的目标的部位(例如前臂)的位置或取向的改变的检测结果来识别用户Ua和Ub中的一者是否正在执行操作。在这种情况下,信息处理设备1例如可以识别作为目标的部位的位置或取向已经改变大于规定阈值的一侧的用户作为操作者。
此外,信息处理设备1可以例如根据对来自用户Ua和Ub中的每个用户的语音输入的获取条件来识别用户Ua和Ub中的一者是否正在执行操作。在这种情况下,信息处理设备1可以识别已获取语音输入的一侧的用户作为操作者。注意,在此时,信息处理设备1可以例如根据每个声音收集单元23的声音收集区域R23的取向和来自每个声音收集单元23的声音信息的声音收集条件(语音输入是否已被收集),识别来自每个用户的语音输入的获取条件。
文中,将参照图11。图11示出了信息处理设备1能够识别存在多个人的用户Ua和Ub并且能够识别用户Ua是操作者的情况的示例。注意,在图11中,附图标记R23a表示传感器盒20a侧的声音收集单元23的声音收集区域。类似地,附图标记R23b表示传感器盒20b侧的声音收集单元23的声音收集区域。
在图11所示的示例中,信息处理设备1缩小声音收集区域R23a和R23b中的每个声音收集区域的宽度并且控制传感器盒20a和20b中的每个传感器盒的声音收集单元23的方向性,使得这些声音收集区域R23a和R23b中的每个声音收集区域面向作为操作者的用户Ua侧。通过这样的控制,信息处理设备1可以提高来自作为操作者的用户Ua的语音输入的识别准确度。
接下来,将参照图12。图12示出了信息处理设备1能够识别存在多个人的用户Ua和Ub并且难以识别用户Ua和Ub中哪个用户是操作者的情况。作为特定示例,在用户Ua和Ub二者都在讲话的条件下,将存在信息处理设备1难以识别用户Ua和Ub中哪个用户是操作者的情况。注意,在图12中,附图标记R23a和R23b与图11所示的示例类似。
在图12所示的示例中,信息处理设备1控制传感器盒20a和20b中的每个传感器盒的声音收集单元23的方向性,使得收集区域R23a和R23b的宽度变宽。通过这样的控制,即使用户Ua和Ub中的一个或两个正在讲话,信息处理设备1也可以收集来自正在说话的用户的语音输入。
此外,作为另一示例,在难以识别用户Ua和Ub中的一者是否是操作者的情况下,信息处理设备1可以控制每个声音收集单元23的方向性,使得每个声音收集单元23收集分别来自不同的用户的语音输入。注意,在这种情况下,如参照图10所描述的那样,可以根据作为每个用户的目标的部位的位置或取向的估计结果的可靠性来控制每个声音收集单元23的声音收集区域R23的宽度。
注意,上述示例仅是示例,并且如果信息处理设备1可以根据规定部位的位置或取向的估计结果来控制规定装置的方向性,则该控制的内容以及作为控制目标的装置的类型将不特别受限制。
此前,作为修改示例1,参照图10至图12描述了根据实施方式的信息处理设备1的方向性控制的示例。
{4.2.修改示例2:系统配置的示例}
接下来,作为修改示例2,将参照图13和图14来描述根据实施方式的信息处理设备的系统配置的示例。图13和图14是用于描述根据修改示例2的信息处理设备的概述的说明图。此外,在下面的描述中,为了将根据修改示例2的信息处理设备与根据在前面描述的信息处理设备1区分开,将存在将根据修改示例2的信息处理设备称为“信息处理设备1'”的情况。
例如,图13示出了根据修改示例2的信息处理设备1'的示意性配置的示例。如图13所示,根据修改示例2的信息处理设备1'包括传感器盒20、用于呈现显示信息的输出单元30以及包括有控制单元的主体10,其中,该控制单元控制信息处理设备1'的各种类型的操作。注意,图13所示的主体10、传感器盒20和输出单元30与参照图1描述的信息处理设备1中的主体10、传感器盒20和输出单元30对应。注意,在本说明书中,与根据前述描述的信息处理设备1(参照图1和图2)类似,传感器盒20包括:检测单元21,其用于检测用户身体的至少一部分的部位的位置或取向;以及声音收集单元23,其用于收集来自用户的语音输入。
在图13所示的示例中,信息处理设备1'例如设置在桌子140等上方,以便面对该桌子140的顶表面侧。信息处理设备1'将桌子140的顶表面设置成投影面、通过向输出单元30投影显示信息向用户呈现该显示信息、并且从使用信息处理设备1'的用户接收针对投影的显示信息的操作。注意,附图标记R10示出了由输出单元30在其上投影信息(即显示信息)的区域(即投影面)。
包括在传感器盒20中的声音收集单元23可以由声音收集装置例如所谓的麦克风构成,该声音收集装置用于收集声音信息例如由用户讲出的语音或放置信息处理设备1'的环境的环境声音。
此外,包括在传感器盒20中的检测单元21识别使用信息处理设备1'的用户的操作内容、放置在桌子140上的对象的形状或图案等。例如,在图13所示的示例中,检测单元21被设置成使得从桌子140上方朝向桌子140的上表面形成检测范围。也就是说,以与作为用于显示信息的目标的桌子140分离开的形式包括检测单元21。
与根据先前描述的信息处理设备1类似,检测单元21可以由所谓的测距传感器构成。此外,作为另一示例,检测单元21可以例如由使用一个成像光学系统(例如一组透镜)捕获桌子140的摄像机或能够通过使用两个成像光学系统捕获桌子140来记录深度方向的信息的立体摄像机构成。注意,在本说明书中,检测单元21被描述为被构造成所谓的立体摄像机。
在使用立体摄像机作为检测单元21的情况下,例如可以将可视光学摄像机、红外线摄像机等应用于该立体摄像机。通过使用立体摄像机作为检测单元21,检测单元21可以获取深度信息。通过使检测单元21获取深度信息,信息处理设备1'可以检测例如放置在桌子140上的实际对象例如手或物体。此外,通过使检测单元21获取深度信息,信息处理设备1'可以检测操作体例如用户的手与桌子140的接触和接近或操作体与桌子140的分离。
通过这样的配置,信息处理设备1'可以针对投影在桌子140的顶表面上的显示信息而识别由操作体例如用户的手进行的操作,并且根据该操作的内容来执行各种类型的功能。
此外,因为投影在区域R10上的显示信息基于上述检测单元21的检测结果而被操作,所以信息处理设备1'可以识别部位例如手、手臂等的位置或取向,该部位在检测单元21的检测区域R21中进行操作。也就是说,例如与根据先前描述的信息处理设备1(参见图1和图2)类似,根据修改示例2的信息处理设备1'可以基于与前臂对应的部位U11的沿时间序列的位置或取向的改变来估计与口部对应的部位U21的位置或取向。
例如,图14是用于描述根据修改示例2的信息处理设备1'的概述的说明图,并且示出了在沿竖直方向从上方看向桌子140的顶表面的情况下的区域R10与用户之间的位置关系的示例。
如图14所示,在用户Ub通过操作体例如手或手臂来操作投影在区域R10上的显示信息的情况下,信息处理设备1'可以基于检测单元21的检测结果来识别与该用户Ub的前臂对应的部位U11的位置或取向。以这种方式,信息处理设备1'可以基于该部位U11的位置或取向的识别结果来估计与该用户的口部对应的部位U21的位置或取向。
特别地,信息处理设备1'基于该部位U11的位置或取向的沿时间序列的改变来识别与前臂对应的部位U11的可移动范围,并且基于所识别的可移动范围来估计与肘部对应的部位U13的位置或取向,该部位U13作为部位U11的移动的基点。此外,信息处理设备1'基于该部位U13的位置或取向的沿时间序列的改变来估计与肘部对应的部位U13的可移动范围,并且基于所估计的可移动范围来估计与肩部对应的部位U15的位置或取向,该部位U15作为部位U13的移动的基点。接下来,信息处理设备1'可以基于与肩部对应的部位U15的位置或取向的估计结果来估计与口部对应的部位U21的位置。
此外,信息处理设备1'可以基于部位U21的位置或取向的估计结果来控制声音收集单元23的方向性,使得声音收集单元23的声音收集区域R23面向与口部对应的部位U21的方向。
特别地,在根据修改示例2的信息处理设备1'中,如图13和图14所示的那样,能够基于检测单元21的检测结果识别位置或取向的部位被限制在与前臂等对应的部位U11,并且将存在难以直接识别与口部等对应的部位U21的情况。即使在这样的条件下,根据修改示例2的信息处理设备1'也可以基于部位U11的位置或取向的识别结果来估计难以直接识别的与口部对应的部位U21的位置或取向,并且基于该估计结果来控制声音收集单元23的方向性。
此前,作为修改示例2,参照图13和图14描述了根据实施方式的信息处理设备的系统配置的示例。
{4.3.修改示例3:车载设备的应用示例}
接下来,作为修改示例3,将参考图15和图16来描述将信息处理设备1应用于车载设备的情况的示例作为根据实施方式的信息处理设备1的应用示例。图15和图16是用于描述根据修改示例3的信息处理设备1的概述的说明图。
例如,图15示出了根据修改示例3的信息处理设备1的示意性配置的示例。根据修改示例3的信息处理设备1基于视线移动被构造成用户能够通过移动视线进行操作。
在图15中,附图标记31示出了用于捕获用户的眼部附近的区域的成像单元,以便根据修改示例3的信息处理设备1检测该用户的视线的移动。因此,期望的是,成像单元31具有能够以能够识别视线的改变的帧率捕获图像的性能。注意,附图标记R30示意性地示出了成像单元31的成像区域。
此外,附图标记25a和25b示出了用于捕获用户的手臂或身体(特别是上身)的成像单元,以便根据修改示例3的信息处理设备1识别用户的手臂的移动。
例如,成像单元25a被布置成使得可以从该用户Ua的前面捕获坐在驾驶员座椅中的用户Ua的上身的图像。附图标记R25a示意性地示出了成像单元25a的成像区域。注意,期望的是,成像单元25具有到坐在驾驶员座椅中的用户Ua的上身(特别是手臂和肩部)放置在成像区域R25a内的程度的视角。
此外,成像单元25b被布置成使得可以从上方沿竖直方向捕获坐在驾驶员座椅中的用户Ua的图像。附图标记R25b示意性地示出了成像单元25b的成像区域。注意,期望的是,成像单元25b具有到坐在驾驶员座椅中并且握持方向盘的用户Ua的手臂被放置在成像区域R25b内的程度的视角。
基于如上所述的配置,根据修改示例3的信息处理设备1基于在成像单元25a和25b中的每个成像单元中捕获的图像来识别用户Ua的手臂的位置或取向的沿时间序列的改变。此外,信息处理设备1基于用户Ua的手臂的位置或取向的改变的识别结果来估计该用户Ua的肩部的位置,并且接着基于对肩部的位置的估计结果来估计用户Ua的眼部的位置。
此外,信息处理设备1基于用户Ua的眼部的位置的估计结果来控制成像单元31的取向,使得该成像单元31的成像区域R30面向用户Ua的眼部的方向。
通过这样的配置,根据修改示例3的信息处理设备1可以将具有相对较窄视角的成像装置应用作为成像单元31。此外,因为可以通过成像单元31使捕获区域相对变窄,所以与捕获具有较宽范围的图像相比,根据修改示例3的信息处理设备1可以减小与用于识别从该图像的视线的改变的分析有关的处理的负荷。
注意,在图15所示的示例中,由成像单元25a和25b捕获的图像用于识别用户Ua的手臂的位置和取向的沿时间序列的改变。因此,如果具有能够以到可以识别用户Ua的手臂的位置和取向的改变的程度的帧速率捕获图像的性能,则可以不需要使用具有高帧速率的成像单元作为成像单元25a和25b。
此外,图15所示的成像单元25a和25b的设置示例仅是示例,并且如果可以基于这些捕获的图像来识别用户Ua的手臂的位置和取向的改变,则用于捕获图像的成像单元的设置位置将不特别受限制。
例如,图16示出了捕获用于识别用户Ua的手臂的位置和取向的改变的图像的成像单元的设置示例。在图16所示的示例中,用于捕获该用户的手臂的图像的成像单元29被包括在设置在用户的颈部上的可穿戴装置27中。附图标记R29示意性地示出了成像单元29的成像区域。
在图16所示的示例中,成像单元29被可穿戴装置27保持成面向朝向用户Ua的胸部附近的该用户Ua的前侧的方向。以这种方式,在用户Ua坐在驾驶员座椅中并且持握方向盘的情况下,成像单元29可以从该用户Ua的胸部附近捕获该用户Ua的手臂向前延伸的图像。
注意,在上述示例中,尽管描述了信息处理设备1基于用户的眼部的位置的估计结果来控制成像单元31的方向性的示例,但不特别限制作为位置或取向的估计目标的部位以及作为方向性控制的目标的装置。
作为特定示例,修改示例3中的信息处理设备1可以包括用于由用户Ua执行语音输入的声音收集单元并且可以控制该声音收集单元的方向性。在这种情况下,信息处理设备1可以基于该用户Ua的手臂的位置或取向的沿时间序列的改变来估计用户Ua的口部的位置并且可以基于该估计结果来控制声音收集单元的方向性,使得该声音收集单元的声音收集区域面向用户Ua的口部的方向。
此前,作为修改示例3,参照图15和图16描述了将信息处理设备1应用于车载设备的情况作为根据实施方式的信息处理设备1的应用示例的示例。
特别地,通常的情况是,在车辆内的空间中能够设置各种类型的检测装置(例如图15所示的成像单元25a、25b)的位置是有限的,并且存在难以直接检测特定部位例如用户Ua的眼部、口部等的位置或取向的情况。在这种条件下,如果可以识别用户Ua的身体的至少一部分的部位的位置或取向的沿时间序列的改变,则根据实施方式的信息处理设备1可以基于该识别结果来估计用户Ua的眼部或口部的位置或取向。
注意,尽管上面已经描述了作为特定部位例如眼部或口部的位置或取向的估计目标的用户Ua是驾驶员的情况,但作为目标的用户不一定受限于驾驶员。例如,可以执行对乘客而不是驾驶员的特定部位例如眼部或口部的位置或取向的估计,并且可以基于该估计结果来控制装置例如成像单元或声音收集单元的方向性。注意,明显地,在将乘客而不是驾驶员设置成目标的情况下,期望的是,设置各种类型的检测装置,使得该乘客的手臂的位置或取向的沿时间序列的改变可以被检测到。作为特定示例,具有相对较宽的视角的成像单元可以被包括在车辆内的顶部中,并且信息处理设备1可以基于由该成像单元捕获的图像来识别乘客的手臂的位置或取向的改变。
<5.硬件配置>
接下来,将参照图17来描述根据本公开内容的实施方式的信息处理设备1的硬件配置的示例。图17是示出根据本公开内容的实施方式的信息处理设备1的硬件配置的示例的图。
如图17所示,根据实施方式的信息处理设备1包括处理器901、存储器903、存储装置905、操作装置907、通知装置909、检测装置911、声音收集装置913和总线917。此外,信息处理设备1可以包括通信装置915。
处理器901可以是例如中央处理单元(CPU)、图形处理单元(GPU)、数字信号处理器(DSP)或片上系统(SoC)并且执行信息处理设备1的各种处理。处理器901可以例如由用于执行各种类型的计算处理的电子电路构成。注意,控制单元11的前述配置中的每个都可以由处理器901来实现。
存储器903包括随机存取存储器(RAM)和只读存储器(ROM)并且存储由处理器901执行的程序和数据。存储装置905可以包括存储介质例如半导体存储器或硬盘。例如,先前描述的存储单元40可以由存储器903和存储装置905中的至少一者或两者的组合来实现。
操作装置907具有生成输入信号以使用户执行期望的操作的功能。操作装置907可以被构造成例如触摸面板。此外,作为另一示例,操作装置907可以例如由用于使用户输入信息的输入单元例如按钮、开关或键盘以及输入控制电路构成,该输入控制电路基于由用户进行的输入生成输入信号并且将生成的输入信号提供给处理器901等。
通知装置909是输出装置的示例并且可以是装置例如液晶显示(LCD)装置或有机发光二极管(OLED)显示器等。在这种情况下,通知装置909可以通过显示画面来向用户通知规定的信息。此外,通知装置909可以通过将规定的信息投影在投影面例如所谓的投影仪上来向用户通知该信息。注意,前述的输出单元30可以由通知装置909来实现。
此外,通知装置909可以是通过输出规定声音信号来向用户通知规定信息的装置,例如扬声器等。
此外,通知装置909的上述示例仅是示例,并且如果能够向用户通知规定的信息,则通知装置909的状态将不受限制。作为特定示例,通知装置909可以是通过照明或闪烁图案例如发光二极管(LED)向用户通知规定信息的装置。此外,通知装置909可以是通过振动来向用户通知规定信息的装置,例如所谓的振动器。
声音收集装置913是用于收集从用户讲出的语音或周围环境的声音并且将这些获取为声音信息(声音信号)的装置。此外,声音收集装置913可以获取表示模拟声音信号的数据作为声音信息、可以将该模拟声音信号转换为数字声音信号并且可以在转换为声音信息之后获取表示数字声音信号的数据,该模拟声音信号表示收集的语音或声音。注意,前面所述的声音收集单元23可以由声音收集装置913来实现。
通信装置915是包括在信息处理设备1中的通信装置并且经由网络与外部设备进行通信。通信设备915是有线通信接口或无线通信接口。在通信装置915被构造成无线通信接口的情况下,该通信装置915可以包括通信天线、射频(RF)电路、基带处理器等。
通信设备915可以具有对从外部设备接收的信号执行各种类型的信号处理的功能并且将从接收到的模拟信号生成的数字信号供给至处理器901。
检测装置911是用于检测各种类型的条件的装置。检测装置911可以由所谓的测距传感器例如立体图像传感器等构成。注意,前述的检测单元21可以由检测装置911来实现。
总线917将处理器901、存储器903、存储装置905、操作装置907、通知装置909、检测装置911、声音收集装置913和通信装置915相互连接。总线917可以包括多种各种类型的总线。
此外,可以创建用于使硬件例如处理器、存储器和内置于计算机中的存储装置展现与上述信息处理设备1的配置相同的功能的程序。此外,还可以提供记录该程序并且能够对计算机执行读取的记录介质。
<6.概述>
此前,如上所述,根据实施方式的信息处理设备1基于用户的肢体中的至少一部分的部位的沿时间序列的位置或取向的改变来估计用户身体躯干的至少一部分的部位的位置或取向。通过这样的配置,即使在难以直接识别特定部位的位置或取向的条件下,根据实施方式的信息处理设备1也可以基于另一部位的位置或取向的改变的识别结果来估计特定部位的位置或取向。
此外,在根据实施方式的信息处理设备1中,基于至少一部分的部位的位置或取向的改变,另一部位的位置或取向的估计结果的可靠性随着表示该部分的部位的位置或取向的识别结果(或估计结果)的样本数据增加而提高。因此,通过连续地监视至少一部分的部位例如用户的手臂的位置或取向的改变,根据实施方式的信息处理设备1可以进一步提高对其他部位例如该用户的眼部或口部的位置或取向的估计准确度。
本领域技术人员应当理解,可以根据设计要求和其他因素进行各种修改、组合、子组合和变更,只要它们在所附权利要求或其等同物的范围内。
此外,本说明书中所描述的效果仅是说明性的和示范性的,而不是限制性的。换言之,根据本公开内容的技术可以连同或替代基于本说明书的效果呈现出对本领域技术人员而言明显的其他效果。
此外,本技术也可以按如下来配置。
(1)
一种设备,包括:
电路,其被配置成:
确定在多个人中能够区分的用户的口部的位置;以及
基于所确定的所述用户的口部的位置来控制用于收集声音的获取条件。
(2)
根据(1)所述的设备,其中,所述获取条件包括至少一个声音收集区域的取向或宽度。
(3)
根据(1)或(2)所述的设备,其中,
所述电路还被配置成:
检测执行手势的所述用户的身体部分;以及
确定在所述手势期间在多个点处所述用户的身体部分的至少一个部位的相对位置或相对取向,
其中,基于所述用户的身体部分的所述至少一个部位的所确定的相对位置或所确定的相对取向,将所述用户的口部的所述位置确定作为估计。
(4)
根据(1)至(3)中任一项所述的设备,其中,所检测到的身体部分包括所述用户的手臂,并且所述用户的身体部分的所述至少一个部位包括所述用户的手、前臂、肘部和肩部中的一个或更多个。
(5)
根据(1)至(4)中任一项所述的设备,其中,所述用户的身体部分的所述至少一个部位的所述相对位置或所述相对取向基于所述用户的身体部分的所述至少一个部位中的另一个部位的相对位置或相对取向来确定。
(6)
根据(1)至(5)中任一项所述的设备,其中,所确定的所述用户的口部的位置被设置成声音收集的目标位置,使得所述至少一个声音收集区域的取向指向所述目标位置。
(7)
根据(1)至(6)中任一项所述的设备,其中,所述电路还被配置成:确定在所述多个人中能够区分的多个用户中的每个用户的口部的位置。
(8)
根据(1)至(7)中任一项所述的设备,其中,所确定的所述多个用户各自的口部的位置被设置成声音收集的目标位置,使得每个声音收集区域的取向指向多个目标位置中的一个目标位置。
(9)
根据(1)至(8)中任一项所述的设备,其中,所述电路还被配置成:控制用于确定所述用户的口部的位置的成像传感器和用于根据受控的获取条件收集声音的声音传感器中的至少一个。
(10)
根据(1)至(9)中任一项所述的设备,其中,所述声音传感器的数目等于或大于所述多个用户的数目。
(11)
根据(1)至(10)中任一项所述的设备,其中,每个声音传感器收集在具有指向所述多个目标位置中的一个目标位置的取向的所述至少一个声音收集区域中的区域内的声音。
(12)
根据(1)至(11)中任一项所述的设备,其中,所述至少一个声音收集区域的获取条件基于对所述多个目标位置中的一个或更多个目标位置的估计的可靠性来确定。
(13)
根据(1)至(12)中任一项所述的设备,其中,所述多个目标位置中的所述一个或更多个目标位置的估计基于所述多个用户中的每个用户的身体部分的至少一个部位的所确定的相对位置或所确定的相对取向。
(14)
根据(1)至(13)中任一项所述的设备,其中,使用至少一个成像传感器在所检测到的所述用户的身体部分的手势期间,在多个点处确定每个用户的身体部分的所述至少一个部位的相对位置或相对取向。
(15)
根据(1)至(14)中任一项所述的设备,其中,所述多个目标位置中的所述一个或更多个目标位置的估计的可靠性基于针对与每个用户的身体部分的所述至少一个部位的相对位置或相对取向有关的每个目标位置的数据量,并且所述至少一个声音收集区域中的特定区域的宽度随着所述多个目标位置中的特定目标位置的估计的可靠性增大而减小。
(16)
根据(1)至(15)中任一项所述的设备,其中,所述电路还被配置成:显示指示对所述获取条件的控制的视觉信息。
(17)
根据(1)至(16)中任一项所述的设备,其中,指示所述获取条件的控制的视觉信息基于所述多个目标位置中的所述一个或更多个目标位置的估计的可靠性。
(18)
根据(1)至(17)中任一项所述的设备,其中,所述电路还被配置成:确定所检测到的身体部分是在用户的左侧或还是右侧。
(19)
一种经由至少一个处理器执行的信息处理方法,所述方法包括:
确定在多个人中能够区分的用户的口部的位置;以及
基于所确定的用户的口部的位置来控制用于收集声音的获取条件。
(20)
一种包含有程序的非暂态计算机可读介质,所述程序在被计算机执行时使所述计算机执行方法,所述方法包括:
确定在多个人中能够区分的用户的口部的位置;以及
基于所确定的用户的口部的位置来控制用于收集声音的获取条件。
(21)
一种信息处理设备,包括:
估计单元,其基于用户肢体的至少一部分的第一部位的表示位置和取向中的至少一个的位置信息的沿时间序列的改变,估计所述用户身体躯干的至少一部分的第二部位的位置。
(22)
根据(21)所述的信息处理设备,还包括:
方向性控制单元,其基于所述第二部位的位置的估计结果来控制规定装置的方向性。
(23)
根据(22)所述的信息处理设备,
其中,所述规定装置是声音收集装置,
其中,所述信息处理设备还包括语音识别单元,所述语音识别单元识别由所述声音收集装置收集的语音,并且
其中,所述语音识别单元识别所识别的语音的讲话者是所述第二部分的位置已被估计的用户。
(24)
根据(23)所述的信息处理设备,
其中,所述估计单元估计作为所述第二部位的所述用户的口部的位置,并且
其中,所述方向性控制单元控制所述声音收集装置的方向性,使得所述声音收集装置面向所述口部的方向。
(25)
根据(22)所述的信息处理设备,
其中,所述规定装置是捕获被摄体的图像的成像装置,
其中,所述估计单元估计作为所述第二部位的所述用户的脸部的至少一部分的部位的位置,并且
其中,所述方向性控制单元控制所述成像装置的取向,使得所述成像装置面向所述部分的部位的方向。
(26)
根据(22)至(25)中任一项所述的信息处理设备,其中,
所述方向性控制单元基于所述第二部位的位置的估计结果的可靠性来控制所述规定装置的方向性。
(27)
根据(21)至(26)中任一项所述的信息处理设备,还包括:
输出控制单元,其使规定的输出单元输出表示所述第二部位的位置的估计结果的可靠性的信息。
(28)
根据(21)至(27)中任一项所述的信息处理设备,其中,
所述估计单元基于具有至少两个自由度作为移动的自由度的所述第一部位的位置信息的沿时间序列的改变来估计所述第二部位的位置。
(29)
根据(21)至(27)中任一项所述的信息处理设备,其中,
所述估计单元基于具有规定宽度或更大宽度的可移动范围的所述第一部位的位置信息的沿时间序列的改变来估计所述第二部位的位置。
(30)
根据(21)至(27)中任一项所述的信息处理设备,还包括:
检测单元,其检测所述第一部位的位置信息。
(31)
根据(30)所述的信息处理设备,
其中,所述检测单元检测到所述用户的距离,并且
其中,所述估计单元基于多个所述距离的检测结果来计算所述第一部位的位置信息。
(32)
根据(31)所述的信息处理设备,其中,
所述估计单元通过对多个所述距离的检测结果应用主成分分析来计算所述第一部位的位置信息。
(33)
根据(21)至(32)中任一项所述的信息处理设备,其中,
所述第一部位是所述用户的手臂的至少一部分的部位。
(34)
根据(33)所述的信息处理设备,其中,
所述估计单元估计所述第一部位是否与右臂和左臂中的任一个对应。
(35)
根据(34)所述的信息处理设备,其中,
所述估计单元基于所述第一部位的速度或加速度的改变来估计所述第一部位是否与右臂和左臂中的任一个对应。
(36)
根据(34)的信息处理设备,其中,
所述估计单元基于所述第一部位的可移动范围来估计所述第一部位是否与右臂和左臂中的任一个对应。
(37)
根据(21)至(36)中任一项所述的信息处理设备,其中,
所述估计单元基于所述第一部位的移动轨迹来估计所述第二部位的位置。
(38)
一种信息处理方法,包括:
由处理器基于用户肢体的至少一部分的第一部位的表示位置和取向中的至少一个的位置信息的沿时间序列的改变,估计用户身体躯干的至少一部分的第二部位的位置。
(39)
一种用于使计算机执行以下步骤的程序:
基于用户肢体的至少一部分的第一部位的表示位置和取向中的至少一个的位置信息的沿时间序列的改变,估计用户身体躯干的至少一部分的第二部位的位置。
附图标记列表
1 信息处理设备
10 主体
11 控制单元
12 目标识别单元
13 语音识别单元
14 目标世界模型更新单元
15 方向性控制单元
16 输入分析单元
17 处理执行单元
18 输出控制单元
20 传感器盒
21 检测单元
23 声音收集单元
30 输出单元
40 存储单元

Claims (14)

1.一种设备,包括:
电路,其被配置成:
检测执行手势的多个用户中的每个用户的身体部分,其中,所检测到的身体部分包括每个用户的手臂,
确定所检测到的身体部分是左臂还是右臂,
在所述右臂的前臂和所述左臂的前臂之间的距离分隔大于等于预定阈值的情况下,确定所述右臂的前臂和所述左臂的前臂是相互不同的用户的部位,从而使得所述多个用户中的每个用户是能够区分的,
确定每个用户的口部的位置,以及
基于所确定的每个用户的口部的位置和每个用户的口部的位置的估计的可靠性来控制用于收集声音的获取条件,
其中,所述获取条件包括至少一个声音收集区域的取向或宽度,
控制所述获取条件包括引起所述至少一个声音收集区域的取向或宽度的改变,以及
所确定的所述多个用户的每个口部的位置被设置成声音收集的目标位置,使得每个声音收集区域的取向指向多个目标位置中的一个目标位置。
2.根据权利要求1所述的设备,其中,
所述电路还被配置成确定在所述手势期间在多个点处每个用户的身体部分的至少一个部位的相对位置或相对取向,
其中,基于每个用户的身体部分的所述至少一个部位的所确定的相对位置或所确定的相对取向,将每个用户的口部的位置确定作为估计。
3.根据权利要求2所述的设备,其中,每个用户的身体部分的所述至少一个部位包括每个用户的手、前臂、肘部和肩部中的一个或更多个。
4.根据权利要求3所述的设备,其中,每个用户的身体部分的所述至少一个部位的相对位置或相对取向基于每个用户的身体部分的所述至少一个部位中的另一个部位的相对位置或相对取向来确定。
5.根据权利要求1所述的设备,其中,所述电路还被配置成:控制用于确定每个用户的口部的位置的成像传感器和用于根据受控获取条件收集声音的声音传感器中的至少一个。
6.根据权利要求5所述的设备,其中,所述声音传感器的数目等于或大于所述多个用户的数目。
7.根据权利要求5所述的设备,其中,每个声音传感器收集在具有指向所述多个目标位置中的一个目标位置的取向的所述至少一个声音收集区域中的区域内的声音。
8.根据权利要求7所述的设备,其中,所述多个目标位置中的所述一个或更多个目标位置的估计基于所述多个用户中的每个用户的身体部分的至少一个部位的所确定的相对位置或所确定的相对取向。
9.根据权利要求8所述的设备,其中,使用至少一个成像传感器在所检测到的每个用户的身体部分的手势期间,在多个点处确定每个用户的身体部分的所述至少一个部位的相对位置或相对取向。
10.根据权利要求9所述的设备,其中,所述多个目标位置中的所述一个或更多个目标位置的估计的可靠性基于针对与每个用户的身体部分的所述至少一个部位的相对位置或相对取向有关的每个目标位置的数据量,并且所述至少一个声音收集区域中的特定区域的宽度随着所述多个目标位置中的特定目标位置的估计的可靠性增大而减小。
11.根据权利要求7所述的设备,其中,所述电路还被配置成:显示指示所述获取条件的控制的视觉信息。
12.根据权利要求11所述的设备,其中,指示所述获取条件的控制的视觉信息基于所述多个目标位置中的所述一个或更多个目标位置的估计的可靠性。
13.一种经由至少一个处理器执行的信息处理方法,所述方法包括:
检测执行手势的多个用户中的每个用户的身体部分,其中,所检测到的身体部分包括每个用户的手臂,
确定所检测到的身体部分是左臂还是右臂,
在所述右臂的前臂和所述左臂的前臂之间的距离分隔大于等于预定阈值的情况下,确定所述右臂的前臂和所述左臂的前臂是相互不同的用户的部位,从而使得所述多个用户中的每个用户是能够区分的,
确定每个用户的口部的位置,以及
基于所确定的每个用户的口部的位置和每个用户的口部的位置的估计的可靠性来控制用于收集声音的获取条件,
其中,所述获取条件包括至少一个声音收集区域的取向或宽度,
控制所述获取条件包括引起所述至少一个声音收集区域的取向或宽度的改变,以及
所确定的所述多个用户的每个口部的位置被设置成声音收集的目标位置,使得每个声音收集区域的取向指向多个目标位置中的一个目标位置。
14.一种其上包含有程序的非暂态计算机可读介质,所述程序在被计算机执行时使所述计算机执行方法,所述方法包括:
检测执行手势的多个用户中的每个用户的身体部分,其中,所检测到的身体部分包括每个用户的手臂,
确定所检测到的身体部分是左臂还是右臂,
在所述右臂的前臂和所述左臂的前臂之间的距离分隔大于等于预定阈值的情况下,确定所述右臂的前臂和所述左臂的前臂是相互不同的用户的部位,从而使得所述多个用户中的每个用户是能够区分的,
确定每个用户的口部的位置,以及
基于所确定的每个用户的口部的位置和每个用户的口部的位置的估计的可靠性来控制用于收集声音的获取条件,
其中,所述获取条件包括至少一个声音收集区域的取向或宽度,
控制所述获取条件包括引起所述至少一个声音收集区域的取向或宽度的改变,以及
所确定的所述多个用户的每个口部的位置被设置成声音收集的目标位置,使得每个声音收集区域的取向指向多个目标位置中的一个目标位置。
CN201680020146.XA 2015-04-07 2016-03-09 信息处理设备、信息处理方法和程序 Expired - Fee Related CN107430857B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2015-078328 2015-04-07
JP2015078328A JP6592940B2 (ja) 2015-04-07 2015-04-07 情報処理装置、情報処理方法、及びプログラム
PCT/JP2016/001296 WO2016163068A1 (en) 2015-04-07 2016-03-09 Information processing apparatus, information processing method, and program

Publications (2)

Publication Number Publication Date
CN107430857A CN107430857A (zh) 2017-12-01
CN107430857B true CN107430857B (zh) 2021-08-06

Family

ID=55650632

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680020146.XA Expired - Fee Related CN107430857B (zh) 2015-04-07 2016-03-09 信息处理设备、信息处理方法和程序

Country Status (5)

Country Link
US (1) US10332519B2 (zh)
EP (1) EP3281087A1 (zh)
JP (1) JP6592940B2 (zh)
CN (1) CN107430857B (zh)
WO (1) WO2016163068A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017149273A (ja) * 2016-02-24 2017-08-31 株式会社デンソー 車載装置、車両用システム、及びプログラム
CN107273869B (zh) * 2017-06-29 2020-04-24 联想(北京)有限公司 手势识别控制方法和电子设备
CN108459706A (zh) * 2018-01-24 2018-08-28 重庆邮电大学 基于相对运动轨迹跟踪的Wi-Fi手势识别方法
KR20200073733A (ko) * 2018-12-14 2020-06-24 삼성전자주식회사 전자 장치의 기능 실행 방법 및 이를 사용하는 전자 장치
KR20200080047A (ko) * 2018-12-26 2020-07-06 삼성전자주식회사 진정 사용자의 손을 식별하는 방법 및 이를 위한 웨어러블 기기
KR20190089125A (ko) * 2019-07-09 2019-07-30 엘지전자 주식회사 커뮤니케이션 로봇 및 그의 구동 방법
CN113115251B (zh) * 2020-01-09 2023-10-31 博泰车联网科技(上海)股份有限公司 用于信息处理的方法、设备和计算机存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002197465A (ja) * 2000-03-31 2002-07-12 Fujitsu Ltd 自動口形状検出装置とそれを用いた自動単語認識装置
CN101030370A (zh) * 2003-07-03 2007-09-05 索尼株式会社 信息处理系统和方法、及机器人装置
CN101625675A (zh) * 2008-07-08 2010-01-13 索尼株式会社 信息处理装置、信息处理方法和计算机程序
CN101782805A (zh) * 2009-01-19 2010-07-21 索尼公司 信息处理设备、信息处理方法和程序
CN102903362A (zh) * 2011-09-02 2013-01-30 微软公司 集成的本地和基于云的语音识别
CN104012074A (zh) * 2011-12-12 2014-08-27 华为技术有限公司 用于数据处理系统的智能音频和视频捕捉系统

Family Cites Families (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01195499A (ja) * 1988-01-30 1989-08-07 Toshiba Corp 音声入力装置
US6738697B2 (en) * 1995-06-07 2004-05-18 Automotive Technologies International Inc. Telematics system for vehicle diagnostics
JP3714706B2 (ja) * 1995-02-17 2005-11-09 株式会社竹中工務店 音抽出装置
US6176782B1 (en) * 1997-12-22 2001-01-23 Philips Electronics North America Corp. Motion-based command generation technology
JP3835771B2 (ja) * 1996-03-15 2006-10-18 株式会社東芝 コミュニケーション装置及びコミュニケーション方法
US9015071B2 (en) * 2000-09-08 2015-04-21 Intelligent Technologies International, Inc. Asset monitoring using the internet
US20130267194A1 (en) * 2002-06-11 2013-10-10 American Vehicular Sciences Llc Method and System for Notifying a Remote Facility of an Accident Involving a Vehicle
US8410945B2 (en) * 2002-06-11 2013-04-02 Intelligent Technologies International, Inc Atmospheric monitoring
US20050027530A1 (en) * 2003-07-31 2005-02-03 Tieyan Fu Audio-visual speaker identification using coupled hidden markov models
JP2005258860A (ja) * 2004-03-12 2005-09-22 Matsushita Electric Ind Co Ltd 複数認証方法及びその装置
US7089099B2 (en) * 2004-07-30 2006-08-08 Automotive Technologies International, Inc. Sensor assemblies
JP4459788B2 (ja) * 2004-11-16 2010-04-28 パナソニック株式会社 顔特徴照合装置、顔特徴照合方法、及びプログラム
JP4675381B2 (ja) * 2005-07-26 2011-04-20 本田技研工業株式会社 音源特性推定装置
US7969821B2 (en) * 2007-01-17 2011-06-28 Toyota Motor Engineering & Manufacturing North America, Inc. Method and system for locating a wave source within a defined area
KR101395722B1 (ko) * 2007-10-31 2014-05-15 삼성전자주식회사 마이크로폰을 이용한 음원 위치 추정 방법 및 장치
JP5176572B2 (ja) * 2008-02-05 2013-04-03 ソニー株式会社 画像処理装置および方法、並びにプログラム
US9224395B2 (en) * 2008-07-02 2015-12-29 Franklin S. Felber Voice detection for automatic volume controls and voice sensors
KR101581883B1 (ko) * 2009-04-30 2016-01-11 삼성전자주식회사 모션 정보를 이용하는 음성 검출 장치 및 방법
JP2011013732A (ja) * 2009-06-30 2011-01-20 Sony Corp 情報処理装置、情報処理方法、およびプログラム
JP2011041096A (ja) 2009-08-14 2011-02-24 Nec Corp 携帯端末、並びにこれに用いる集音制御方法及びプログラム
KR20110038313A (ko) * 2009-10-08 2011-04-14 삼성전자주식회사 영상촬영장치 및 그 제어방법
JP2011156320A (ja) * 2010-02-04 2011-08-18 Panasonic Corp 生体情報検出システム
US8824747B2 (en) * 2010-06-29 2014-09-02 Apple Inc. Skin-tone filtering
JP5700963B2 (ja) * 2010-06-29 2015-04-15 キヤノン株式会社 情報処理装置およびその制御方法
KR101750338B1 (ko) * 2010-09-13 2017-06-23 삼성전자주식회사 마이크의 빔포밍 수행 방법 및 장치
KR101733246B1 (ko) * 2010-11-10 2017-05-08 삼성전자주식회사 얼굴 포즈를 이용한 화상 통화를 위한 화면 구성 장치 및 방법
JP2012120647A (ja) * 2010-12-07 2012-06-28 Alpha Co 姿勢検出装置
US20120158432A1 (en) * 2010-12-15 2012-06-21 Uday Jain Patient Information Documentation And Management System
US20130030811A1 (en) * 2011-07-29 2013-01-31 Panasonic Corporation Natural query interface for connected car
JP2013104938A (ja) * 2011-11-11 2013-05-30 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
US9408011B2 (en) * 2011-12-19 2016-08-02 Qualcomm Incorporated Automated user/sensor location recognition to customize audio performance in a distributed multi-sensor environment
US8908904B2 (en) * 2011-12-28 2014-12-09 Samsung Electrônica da Amazônia Ltda. Method and system for make-up simulation on portable devices having digital cameras
JPWO2013179464A1 (ja) * 2012-05-31 2016-01-14 トヨタ自動車株式会社 音源検出装置、ノイズモデル生成装置、ノイズ抑圧装置、音源方位推定装置、接近車両検出装置及びノイズ抑圧方法
EP2871640B1 (en) * 2012-07-09 2021-01-06 LG Electronics, Inc. Speech recognition apparatus and method
CN104781880B (zh) * 2012-09-03 2017-11-28 弗劳恩霍夫应用研究促进协会 用于提供通知的多信道语音存在概率估计的装置和方法
JP5937469B2 (ja) * 2012-09-13 2016-06-22 国立大学法人 東京大学 物体認識装置、物体認識方法及び物体認識プログラム
JP6003472B2 (ja) * 2012-09-25 2016-10-05 富士ゼロックス株式会社 音声解析装置、音声解析システムおよびプログラム
US20140122086A1 (en) * 2012-10-26 2014-05-01 Microsoft Corporation Augmenting speech recognition with depth imaging
EP2927056A4 (en) * 2012-11-30 2016-07-06 Toyota Motor Co Ltd VEHICLE SOUND COLLECTION STRUCTURE AND SOUND COLLECTION DEVICE
KR20140117771A (ko) * 2013-03-26 2014-10-08 한국전자통신연구원 움직임 센서 기반의 휴대용 자동 통역 장치 및 그의 제어방법
JP2014219467A (ja) * 2013-05-02 2014-11-20 ソニー株式会社 音信号処理装置、および音信号処理方法、並びにプログラム
JP6439687B2 (ja) * 2013-05-23 2018-12-19 日本電気株式会社 音声処理システム、音声処理方法、音声処理プログラム、音声処理システムを搭載した車両、および、マイク設置方法
US9747900B2 (en) * 2013-05-24 2017-08-29 Google Technology Holdings LLC Method and apparatus for using image data to aid voice recognition
KR102282366B1 (ko) * 2013-06-03 2021-07-27 삼성전자주식회사 음성 향상 방법 및 그 장치
US9747917B2 (en) * 2013-06-14 2017-08-29 GM Global Technology Operations LLC Position directed acoustic array and beamforming methods
CN105307737A (zh) * 2013-06-14 2016-02-03 洲际大品牌有限责任公司 互动视频游戏
JP2015011404A (ja) * 2013-06-26 2015-01-19 シャープ株式会社 動作認識処理装置
US9912797B2 (en) * 2013-06-27 2018-03-06 Nokia Technologies Oy Audio tuning based upon device location
EP2819429B1 (en) * 2013-06-28 2016-06-22 GN Netcom A/S A headset having a microphone
US20150279364A1 (en) * 2014-03-29 2015-10-01 Ajay Krishnan Mouth-Phoneme Model for Computerized Lip Reading
US20160039356A1 (en) * 2014-08-08 2016-02-11 General Motors Llc Establishing microphone zones in a vehicle
US20160117592A1 (en) * 2014-10-24 2016-04-28 Elwha LLC, a limited liability company of the State of Delaware Effective response protocols relating to human impairment arising from insidious heterogeneous interaction
US20160249132A1 (en) * 2015-02-23 2016-08-25 Invensense, Inc. Sound source localization using sensor fusion

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002197465A (ja) * 2000-03-31 2002-07-12 Fujitsu Ltd 自動口形状検出装置とそれを用いた自動単語認識装置
CN101030370A (zh) * 2003-07-03 2007-09-05 索尼株式会社 信息处理系统和方法、及机器人装置
CN101625675A (zh) * 2008-07-08 2010-01-13 索尼株式会社 信息处理装置、信息处理方法和计算机程序
CN101782805A (zh) * 2009-01-19 2010-07-21 索尼公司 信息处理设备、信息处理方法和程序
CN102903362A (zh) * 2011-09-02 2013-01-30 微软公司 集成的本地和基于云的语音识别
CN104012074A (zh) * 2011-12-12 2014-08-27 华为技术有限公司 用于数据处理系统的智能音频和视频捕捉系统

Also Published As

Publication number Publication date
EP3281087A1 (en) 2018-02-14
CN107430857A (zh) 2017-12-01
US20170330569A1 (en) 2017-11-16
US10332519B2 (en) 2019-06-25
WO2016163068A1 (en) 2016-10-13
JP2016200858A (ja) 2016-12-01
JP6592940B2 (ja) 2019-10-23

Similar Documents

Publication Publication Date Title
CN107430857B (zh) 信息处理设备、信息处理方法和程序
CN110895671B (zh) 跌倒检测方法以及使用此方法的电子系统
CN110083202B (zh) 与近眼显示器的多模交互
US9224037B2 (en) Apparatus and method for controlling presentation of information toward human object
CN111033512A (zh) 用于基于简单的二维平面摄像装置与自主行驶车辆通信的动作控制装置
US8396252B2 (en) Systems and related methods for three dimensional gesture recognition in vehicles
CN101976330B (zh) 手势识别方法和系统
KR20130097553A (ko) 원거리 제스쳐 인식 기능을 갖는 디바이스 및 그 방법
JP2013054661A (ja) 情報表示システム、情報表示方法、及び情報表示用プログラム
EP3188128A1 (en) Information-processing device, information processing method, and program
KR20120068253A (ko) 사용자 인터페이스의 반응 제공 방법 및 장치
EP2629241A1 (en) Control of a wearable device
KR20190099537A (ko) 동작 학습 장치, 기능 판별 장치 및 기능 판별 시스템
JP2014071501A (ja) 画像処理装置、方法、及びプログラム
US20200341284A1 (en) Information processing apparatus, information processing method, and recording medium
KR20180096038A (ko) 행위 예측을 위한 다중 모션 기반 옴니뷰 기법
EP2642463A1 (en) Peripheral monitoring device for vehicle
Francis et al. Significance of hand gesture recognition systems in vehicular automation-a survey
CN106599873A (zh) 基于三维姿态信息的人物身份识别方法
JP2005056059A (ja) 撮像部を備えた頭部搭載型ディスプレイを用いた入力装置および方法
CN111801725A (zh) 图像显示控制装置及图像显示控制用程序
CN110910426A (zh) 动作过程和动作趋势识别方法、存储介质和电子装置
KR101728707B1 (ko) 글라스형 웨어러블 디바이스를 이용한 실내 전자기기 제어방법 및 제어프로그램
Minhas et al. X-EYE: A bio-smart secure navigation framework for visually impaired people
JP2017191426A (ja) 入力装置、入力制御方法、コンピュータプログラム、及び記憶媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210806

CF01 Termination of patent right due to non-payment of annual fee