CN114391163A - 手势检测系统和方法 - Google Patents
手势检测系统和方法 Download PDFInfo
- Publication number
- CN114391163A CN114391163A CN202080060445.2A CN202080060445A CN114391163A CN 114391163 A CN114391163 A CN 114391163A CN 202080060445 A CN202080060445 A CN 202080060445A CN 114391163 A CN114391163 A CN 114391163A
- Authority
- CN
- China
- Prior art keywords
- user
- appliance
- control
- image
- human user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08C—TRANSMISSION SYSTEMS FOR MEASURED VALUES, CONTROL OR SIMILAR SIGNALS
- G08C23/00—Non-electrical signal transmission systems, e.g. optical systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/0304—Detection arrangements using opto-electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G08—SIGNALLING
- G08C—TRANSMISSION SYSTEMS FOR MEASURED VALUES, CONTROL OR SIMILAR SIGNALS
- G08C17/00—Arrangements for transmitting signals characterised by the use of a wireless electrical link
- G08C17/02—Arrangements for transmitting signals characterised by the use of a wireless electrical link using a radio link
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
- G05B13/027—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G08—SIGNALLING
- G08C—TRANSMISSION SYSTEMS FOR MEASURED VALUES, CONTROL OR SIMILAR SIGNALS
- G08C2201/00—Transmission systems of control signals via wireless link
- G08C2201/30—User interface
- G08C2201/32—Remote control based on movements, attitude of remote control device
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Biodiversity & Conservation Biology (AREA)
- Automation & Control Theory (AREA)
- Computer Networks & Wireless Communication (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
一种方法包括:使用第一图像处理过程识别一个或多个第一感兴趣区域(ROI),第一图像处理过程配置成识别对应于输入图像中相应人类用户的预定部分的第一ROI;提供在输入图像中识别的相应第一ROI的缩小化副本,作为第二图像处理过程的输入,第二图像处理过程配置成识别相应人类用户的预定特征,并确定多个预定控制手势中、对应于所识别的预定特征的相应控制手势;以及根据对在输入图像中识别的相应第一ROI中识别第一控制手势,且第一控制手势满足预设标准的确定,根据第一控制手势执行控制操作。
Description
相关申请的交叉引用
本申请要求于2019年12月31日提交的第16/732,147号美国申请的权益,该美国申请的公开内容通过整体引用并入本文中。
技术领域
本公开涉及机器控制领域,尤其涉及一种使用近距离手势来控制电器的方法和系统。
背景技术
家用电器给家庭用户提供各种专用功能。每个电器具有其自己的控制用户界面,控制用户界面可通过各种输入模式操作,且每个电器通过各种输出模式给用户提供反馈。家电电器的用户界面设计是影响与家用电器交互时的使用效率和用户体验的关键。
传统的家用电器由旋钮和触摸板控制。然而,基于触摸的输入接口需要用户物理地出现在他/她想要控制的家用电器处,且需要用户方面具有一定的力量和灵巧度来准确地控制电器。行动不便的用户(例如,卧床不起的病人、坐轮椅的用户、老年用户等)可能无法容易地接触到电器的控制面板(例如,在厨房或其它小空间中)。有时,坐着的用户(例如,坐在轮椅上的用户)或身材矮小的用户(例如,儿童)可能难以伸手够到电器的控制面板。即使遥控器在某些情况下可能有所帮助,但是如果遥控器不在用户附近或在需要时找不到,用户将无法根据需要控制电器。
最近,基于语音的数字助理已引入市场来处理各种任务,例如家用电器控制、网页搜索、日历、提醒等。这种基于语音的数字助理的一个优点在于用户可以以无需动手的方式来与设备交互,其无需处理或者甚至查看设备。然而,有时,基于语音的输入接口没有用,例如,对于有语言障碍的用户,或者在噪杂的环境中。此外,语音用户界面需要复杂的自然语言处理能力,这难以根据用户的不同口音和说话习惯来完善。
因此,在嵌入式系统上提供一种以更好的精度、更快的响应速度和更长的范围来实现基于手势的控制的替代系统,将是有益的。
发明内容
虽然一些智能电器可实现基于手势的控制,但是这些特征通常使用基于红外的技术实现,因此需要用户位于距电器很短的距离内。此外,对于基于RGB图像分析的手势检测,通常需要用户位于距相机的5-6米内,原因是在该范围之外用户的手变得非常小,且图像不再能够获得用户的手的足够的视觉识别特征。虽然使用高分辨率图像可提高检测精度和范围,但是处理高分辨率图像的计算成本非常高。将图像分析转移到云服务器,既昂贵又可能导致隐私风险。
因此,需要一种在距家用电器5-6米内但不在手臂可触及家用电器的范围内,使用手势来控制计算能力有限的家用电器的方法。家用电器可快速响应用户的手势,而不存在不适当的延迟。用户能够在不是非常靠近电器的情况下做出手势。例如,用户可以在房间中间、坐在沙发上或床上,并执行手势来控制位于同一房间中、远离用户的电器。这对行动能力有限的用户特别有利,使得用户能够从房间的同一位置控制多个电器。这还有助于控制敏感或危险的电器。例如,用户可使用手势控制炉子,而无需接触炉子的任何部分,从而避免接触炉子上任何发热的表面或被热油飞溅。这在电器对接触引起的干扰敏感的情况下也有帮助(例如,用于敏感或危险宠物的智能鱼缸),且用户可以在不直接接触电器的情况下控制电器(例如,设置内部环境,并向宠物释放食物或水等)。这在由于用户的手被污染(例如,用户的手是湿的)而使得用户不想触摸电器的控制面板的情况下也有帮助,且用户可使用手势来控制电器。
在一些实施方式中,一种通过手势控制家用电器的方法包括:使用第一图像处理过程识别第一输入图像中的一个或多个第一感兴趣区域(ROI),其中,第一图像处理过程配置成识别对应于输入图像中相应人类用户的预定部分的第一ROI;提供在第一输入图像中识别的相应第一ROI的缩小化副本,作为第二图像处理过程的输入,其中,第二图像处理过程配置成识别相应人类用户的一个或多个预定特征,并确定多个预定控制手势中、对应于所识别的一个或多个预定特征的相应控制手势;以及根据对在第一输入图像中识别的相应第一ROI中识别第一控制手势,且第一控制手势满足与相应机器相关联的预设第一标准的确定,在相应机器处根据第一控制手势触发控制操作。
根据一些实施方式,提供一种计算机可读存储介质(例如,非暂时性计算机可读存储介质),计算机可读存储介质存储用于由电子设备的一个或多个处理器执行的一个或多个程序,一个或多个程序包括用于执行本文所描述的方法中的任何方法的指令。
根据一些实施方式,提供一种电子设备(例如,便携式电子设备),电子设备包括用于执行本文所描述的方法中的任何方法的器件。
根据一些实施方式,提供一种电子设备(例如,便携式电子设备),电子设备包括一个或多个处理器和存储一个或多个程序的存储器,一个或多个程序由一个或多个处理器执行,一个或多个程序包括用于执行本文所描述的方法中的任何方法的指令。
根据一些实施方式,提供一种用于电子设备的信息处理设备,信息处理设备包括用于执行本文所描述的方法中的任何方法的器件。
附图说明
通过结合附图对优选实施例的详细描述,将在下文中更清楚地理解所公开的技术的上述特征和优点以及其附加特征和优点。
为了更清楚地描述现有技术或当前公开的技术的实施例中的技术方案,下面简要地介绍描述现有技术或实施例所需的附图。显然,以下描述中的附图仅示出了当前公开的技术的一些实施例,本领域普通技术人员无需付出创造性努力即可从这些附图中获得其它附图。
图1是示出根据一些实施例的一个或多个家用电器的操作环境的框图。
图2是根据一些实施例的示例性家用电器的框图。
图3示出了根据一些实施例的用于从对图像的图像分析中确定控制手势的处理流水线。
图4示出了根据一些实施例的用于从对图像的图像分析中确定一个或多个感兴趣区域的图像处理过程。
图5示出了根据一些实施例的用于从对图像的图像分析中确定控制手势的图像处理过程。
图6是根据一些实施例的通过用户手势控制机器的方法的流程图。
图7是根据一些实施例的计算系统的框图。
在附图的多个视图中,相同的附图标记始终指示对应的部件。
具体实施方式
本文所阐述的方法和功能配置解决了上面概述的传统方法的问题和缺点,并提供下面所阐述的至少一些优点。根据本文提供的公开内容,其它优点将是显而易见的。
如技术背景部分中所讨论的,用于家用电器的传统的基于触摸的控制在许多情况下对用户不友好,原因是用户需要非常靠近电器(例如,在大多数情况下,需要用户的手与电器的控制面板接触)。当电器是热炉子时,这对用户来说比较危险。此外,有时,当用户的手被某些物质(例如,生鸡、污垢、粘液、油等)弄湿或弄脏时,使用电器上基于触摸的控制面板或遥控器(例如,点击触摸面板或遥控器上的控制按钮)可能不卫生,并导致以后对电器进行额外的清洁。
此外,基于触摸的遥控器可能丢失或在需要的时候够不到。因此,有利的是实现一种在不需要遥控器上基于触摸的输入的情况下控制电器的方法。
通常,基于语音的用户界面可用作基于触摸的控制用户界面的非触摸替代。然而,基于语音的用户界面无法在嘈杂的环境中很好地工作,例如当房子里面在进行聚会时。此外,基于语音的用户界面不能快速适应具有不同口音或者不会说基于语音的用户界面可接受的语言的新用户(例如,房子的访客)。此外,对于有语言障碍的用户(例如,说话含糊不清的中风患者,或说话不清楚的幼童,或哑巴),基于语音的用户界面将完全不起作用。
如本文所公开的,中等距离手势界面是基于语音的用户界面和基于触摸的用户界面的替代。手势用户界面提供以下优点。首先,手势对所有语言和口音的用户来说是通用的。手势在嘈杂的环境中很好地工作。对于不会说话的人(例如,会使用手语的聋人或哑巴),手势也很好地工作。
如本文所公开的,使用相机使得不仅通过手而且通过身体语言控制电器成为可能。还使得不仅通过手控制电器,而且通过头和手的相对运动控制电器成为可能。
通过在合理的距离外检测手势,中等距离相机使得用户能够站在足够远处来控制电器,这使用户更安全,并消除了用户靠近电器的需求。
在一些实施例中,当训练图像分析模型时,收集预定手势类别的手势图像数据,并使用标记的手势图像来训练三维卷积深度模型。一旦训练好,则卷积深度模块就可用于通过使用用户的输入图像来识别手势。如本文所公开的,手势识别的效率影响识别手势的速度,以及处理图像所需的计算能力。使用本文所公开的方法和系统,用于手势识别的输入图像非常小,致使不需要太多的计算能力或去到远程服务器的连接就可进行更快的识别。这降低了在电器中添加手势控制的成本,并保护用户在家中的隐私。
同样如本文所公开的,利用内置相机来采集用户的图像以控制相应的电器,是有用的。然而,有时,用户拥有多个电器,多个电器可同时采集做出手势的用户的图像。有时,并不是所有电器具有内置相机来采集手势,即使用户想要通过手势来控制所有电器。在本公开中,电器的图像采集功能可选地在多个电器(例如,具有相机的电器和不具有相机的电器)之间共享,且手势的目标电器不一定是采集该手势的视频的电器。还讨论精心设计的方法给检测到的手势确定合适的目标电器,使得手势可应用于更多的电器,而不需要所有电器具有相机和视频处理能力,且不需要用户面向特定电器或移动到特定位置以控制所期望的电器。
根据本文提供的公开内容,本文描述的方法和系统的其它优点和益处对于本领域技术人员来说是显而易见的。
现在,将详细参考实施例,实施例的示例在附图中示出。在下面的详细描述中,阐述许多具体细节,以提供对本文提出的主题的透彻理解。然而,对于本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下实施该主题。在其它实例中,没有详细描述公知的方法、过程、组件和电路,以避免不必要地模糊实施例的方面。
下面参考本申请的实施例中的附图,清楚且完整地描述本申请的实施例中的技术方案。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部实施例。由本领域普通技术人员基于本申请的实施例在不付出创造性努力的情况下获得的所有其它实施例应落入本申请的保护范围内。
图1是示出根据一些实施例的一个或多个家用电器的操作环境100的框图。
可选地,操作环境100根据客户端-服务器模型来实现。操作环境100包括智能家居环境122(例如,智能家居环境的智能厨房在图1中示出)和经由云网络110与智能家居环境122通信地耦合的服务器系统108。在一些实施例中,智能家居环境122包括一个或多个智能家用电器124。智能家用电器124的示例包括冰箱124(c)、微波炉124(b)、智能炉子124(d)、智能储存柜124(e)、智能空调124(a)、智能娱乐中心等。在一些实施例中,客户端环境100还包括用户设备104(例如,智能手机、平板电脑、个人计算机或中央通信集线器)。
作为示例,智能家居环境包括第一家用电器,例如智能空调124(a),第一家用电器位于厨房墙壁上、靠近天花板。智能家居环境还包括第二家用电器,例如冰箱124(c),第二家用电器位于两个其它智能家用电器,例如智能烤箱124(d)和智能微波炉124(b)之间,所有三个电器放置在与空调124(a)相对的厨房墙壁上。
在一些实施例中,一个或多个电器124中的相应电器包括输入/输出用户接口。可选地,输入/输出用户接口包括一个或多个输出设备,一个或多个输出设备包括一个或多个扬声器和/或一个或多个视觉显示器,其能够呈现媒体内容。可选地,输入/输出用户接口还包括一个或多个输入设备,一个或多个输入设备包括便于用户输入的用户接口组件,例如键盘、语音指令输入单元或麦克风、触摸屏显示器、触敏输入板、手势采集相机或者其它输入按钮或控件。
在一些实施例中,一个或多个电器124中的相应电器还包括传感器,传感器感测相应电器的环境信息。传感器包括但不限于一个或多个光传感器、相机(还称为图像传感器)、湿度传感器、温度传感器、运动传感器、重量传感器、光谱仪和其它传感器。在一些实施例中,与各种电器相关联的传感器用于提供用户存在信息(例如,用户在房间中的位置,用户当前正在与哪个电器交互,等等)。在一些实施例中,传感器还提供与室内环境相关的信息,例如温度、一天中的时间、照明、噪音水平、房间的活动水平。除了在电器前面执行的所识别的用户手势之外,该环境信息还可用于给电器选择合适的用户界面配置。
在一些实施例中,厨房区域中的一个或多个设备和/或电器包括相应的相机和相应的运动传感器,以检测用户的存在并采集用户的图像。用户可以在智能厨房环境中走来走去,位于用户附近的多个设备124可采集用户的图像,可选地,通过设备自己去到服务器的通信信道独立地将图像传输到服务器系统108。在一些实施例中,可选地,服务器将已训练的图像处理模型传输到一个或多个设备和/或电器,以使得智能家居环境中的一个或多个设备和/或电器能够处理在智能家居环境122中采集的图像,而不需要将图像传输到服务器。
在一些实施例中,服务器系统108包括一个或多个处理模块114、数据和模型116、去到客户端112的I/O接口以及去到外部服务118的I/O接口。面向客户端的I/O接口112便于服务器系统108处理面向客户端的输入和输出。例如,可选地,服务器基于电器所提交的图像给特定电器提供图像处理服务。数据库和模型116包括每个用户和/或用户一家人的各种用户数据,例如单个用户的帐户数据(例如,图像、年龄、性别、特征等),以及用户界面配置偏好和限制等。一个或多个处理模块114利用数据和模型116来监视用户的存在和用户执行的手势,以确定合适的控制命令和适合于该控制命令的目标电器。
在一些实施例中,服务器系统108还通过网络110与外部服务120(例如,导航服务、消息传递服务、信息服务、日历服务、家用电器控制服务、社交网络服务等)通信,以完成任务或获取信息。去到外部服务118的I/O接口有助于这种通信。
在一些实施例中,服务器系统108可以在至少一个数据处理设备和/或计算机的分布式网络上实现。在一些实施例中,服务器系统108还采用第三方服务提供商(例如,第三方云服务提供商)的各种虚拟设备和/或服务来提供服务器系统108的底层计算资源和/或基础设施资源。
通信网络110的示例包括局域网(LAN)和广域网(WAN),例如因特网。通信网络110可使用任何已知的网络协议来实施,网络协议包括各种有线或无线协议,例如以太网、通用串行总线(USB)、火线(FIREWIRE)、全球移动通信系统(GSM)、增强型数据GSM环境(EDGE)、码分多址(CDMA)、时分多址(TDMA)、蓝牙、Wi-Fi、因特网协议语音(VoIP)、Wi-MAX或任何其它合适的通信协议。
在一些实施例中,本文所公开的图像处理功能和用户界面配置调节功能由服务器108远程提供,或由智能电器在本地提供,和/或通过服务器和电器之间的合作共同提供,如本文所描述的。
如图2所示,示例性智能电器124(例如,智能空调124(a)、智能冰箱124(c)、智能烤箱124(d)或智能微波炉124(b))包括一个或多个存在传感器,例如一个或多个运动检测器101和一个或多个电器上的相机102、电器控制单元107和电器操作单元106。在一些实施例中,电器124还包括网络通信单元105,网络通信单元105经由一个或多个网络110(例如,局域网(LAN)、广域网(WAN)和/或因特网)与远程服务器108通信。在一些实施例中,电器控制单元107还包括存在检测单元113,存在检测单元113用于控制一个或多个运动检测器101和一个或多个相机102来检测用户在电器124附近的存在,且当检测到满足预设标准的用户存在时采集用户的图像。在一些实施例中,电器控制单元107还包括用于控制电器操作单元106的电器功能控制单元117。在一些实施例中,电器控制单元107还包括命令生成单元119,命令生成单元119用于基于从对用户图像的图像分析中推断得出的手势而生成针对目标电器的相应控制命令。在一些实施例中,电器控制单元107还包括协调单元121,协调单元121协调彼此相关联或彼此物理上靠近的电器的存在检测、图像采集、控制命令生成和传递功能,使得多个电器的检测、图像采集、分析和推论的结果可共享和协调,以减少能源使用,提高分析精度,减少响应时间,并改善大约在同一时间与同一房间中的多个电器交互时的总体用户体验。
在一些实施例中,电器控制单元107还包括图像处理单元115,图像处理单元115包括用于分析来自一个或多个相机102的图像序列(例如,视频的连续图像帧)的一个或多个机器学习模型,并提供从对图像执行的图像分析推断得出的手势。在一些实施例中,可选地,图像处理单元115包括在电器124处本地存在的一些组件,以及在服务器108处远程存在的一些组件。在一些实施例中,图像处理单元115完全位于服务器108上。在一些实施例中,图像处理单元115位于不远离智能家居环境定位的电子设备上(电子设备例如同样位于智能家居环境中的用户设备(例如,智能手表、智能电话、家用计算机等))。
在一些实施例中,电器124包括用于在检测到用户的存在之后使相机移动并聚焦在用户的脸上的机构。例如,电器包括用于相机的安装支架,安装支架由一个或多个马达和致动器控制,且可改变相机相对于检测到的用户的方向(例如,改变相机的倾斜和偏移)。
在一些实施例中,单个相机放置在电器的前侧(例如,靠近电器外壳的前侧的上边缘或下边缘的中心)。在一些实施例中,相机安装在具有一个或多个致动器的平台上,一个或多个致动器被控制(例如,通过由用户操作的遥控器控制,或通过电器控制单元104自动控制)以改变相机相对于参考点(例如,电器前侧处的固定点)的方向和/或位置(例如,通过改变相机前侧的平面的倾斜和偏移,或通过改变相机的锚定位置)来给电器124提供立体成像能力。在一些实施例中,两个相机放置在电器的两个相对拐角处(例如,靠近电器外壳的前侧的两个上拐角,靠近沿着外壳的前侧的对角线相对的两个拐角,等等),以给电器提供立体成像能力。在一些实施例中,并排放置的两个电器的相机用于给电器提供立体成像能力。在一些实施例中,立体成像能力用于确定用户与特定电器的距离,并选择哪个电器是用户执行检测到的手势所针对的目标电器(例如,如果用户面向多个电器的大致方向,则选择最靠近用户的电器作为目标电器)。
在一些实施例中,包括在电器上的相机102包括用于不同波长和/或强度的图像传感器,例如红外传感器、可见光传感器、夜视传感器和/或运动传感器等。在一些实施例中,相机在连续的基础上操作并产生连续的图像帧流。在一些实施例中,当在由其它相机(例如,可见光相机等)采集的图像中检测到一个或多个预定事件时,激活一些相机(例如,红外相机或微光相机)以采集图像。例如,在一些实施例中,当周围环境是弱光(例如,夜间)时,响应于通过红外相机检测到预定运动事件(例如,产生热量的对象(例如,人)超过阈值运动量(例如,间隔小于x分钟的运动)超过预定阈值时间量(例如,超过5分钟))仅激活夜视相机以采集图像。
在一些实施例中,电器124包括用户界面123,用户界面123包括各种模式的输入设备(例如,键盘、触摸屏、麦克风、杠杆、旋钮、按钮、用于采集手势的相机、触觉接口等)和各种模式的输出设备(例如,显示器、扬声器、触觉输出发生器、警报器、灯、指示器等)。
在一些实施例中,电器操作单元107包括用于执行电器的原本功能的各种硬件机构和组件(例如,对于空调器,组件包括压缩机、制冷剂、蒸发器、冷凝器、膨胀阀、风扇、空气过滤器、一个或多个传感器(例如,恒温器、湿度传感器、空气流量传感器、阀压力传感器、定时器等))。
在一些实施例中,电器控制单元107包括一个或多个处理器和存储器。存储器存储指令,当指令由一个或多个处理器执行时,指令使得处理器执行本文所描述的功能以给电器的原本功能提供控制,检测用户在电器附近的存在和意图,基于在电器附近采集的用户视频图像来确定用户的手势,识别目标电器,生成针对目标电器的控制命令,以及在同一附近的多个电器之间协调上述功能。
在一些实施例中,电器控制单元107包括存在检测单元113。存在检测单元113接收来自运动检测器101的输入,并基于运动检测器101的输出来确定由运动检测器检测的用户的距离以及确定用户的移动是朝向电器还是远离电器。例如,如果运动检测器101继续检测运动,且该运动在运动检测器的检测范围内持续至少阈值时间量(例如,20秒),则存在检测单元113激活相机(102)以开始采集电器124附近的图像。在一些实施例中,用于触发相机的用户的阈值距离与运动检测器101的运动检测范围相同。在一些实施例中,使用放置在电器124上不同位置处的两个运动检测器,或者由两个或更多个电器共享并分别位于两个或更多个电器上的运动检测器来确定在运动检测器的检测范围内检测到的用户的距离和朝向方向。在一些实施例中,一旦检测到用户的存在,并开始由相机102进行图像采集,则电器控制单元107将所采集的图像或所采集的图像的一部分发送到图像处理单元115,以用于手势分析。
在一些实施例中,最初可以在服务器上执行模型的训练,且在一段时间之后将所训练的模型发送到电器124,使得图像处理单元115在本地对新采集的图像执行图像分析。这可减少服务器负载,并提高对用户的隐私保护。
在一些实施例中,基于图像分析结果,命令生成单元119确定是否已识别手势,并确定适合于该手势的目标电器。命令生成单元119还生成用于目标电器的相应控制信号。在一些实施例中,命令生成单元119基于预设目标选择标准(例如,基于电器、用户和其它附近电器的相对位置;和基于从用户的图像中识别的手势的类型)来确定适合于所识别的手势的目标电器。
在一些实施例中,电器控制单元107包括协调单元121。协调单元121配置成基于来自分布在多个电器上的多个运动检测器的输入来协调运动检测。例如,智能空调器的运动检测器输出、智能烤箱的运动检测器输出和智能冰箱的运动检测器输出等在多个电器之间共享,使得当由多个设备之一检测到运动时,多个电器中的每个电器上的协调单元121通知其本地的存在检测单元113,且协调单元可根据运动是否足够接近自身来决定是否触发本地相机的图像采集(例如,不同运动检测器的布局在多个电器之间共享)。在一些实施例中,通过利用不同电器上的多个运动检测器,可足够早地执行运动检测,使得图像采集和用户界面重构中的延迟减少,以改善用户体验。在一些实施例中,协调单元121配置成协调来自分布在多个电器上的多个相机的图像采集。利用多个设备在不同角度采集到的图像,提高采集到面部正面的机会,这有利于手势识别。在一些实施例中,图像采集的时机编码在图像中,使得基于在一段时间内(例如,当用户在厨房中走来走去时)由位于房间中不同位置处的多个电器采集的图像来确定用户的运动和用户正在看的方向。
上面的示例仅仅是为了说明的目的而提供。下面结合图6所示的流程图阐述电器124的功能的更多细节。
图3示出了根据一些实施例的用于从对图像的图像分析中确定控制手势的处理流水线300。处理流水线300包括第一阶段处理302、第二阶段处理312和控制手势选择器320。第一阶段处理302接收输入图像304,并给第二阶段处理312提供输出,第二阶段处理312输出一组候选控制手势,且控制手势选择器320从这组候选控制手势318中选择主控制手势322。为了方便,处理流水线300被描述成由计算系统(例如,图2的电器124的图像处理单元115,或位于智能家居环境内并与电器124通信的电子设备)执行。
在一些实施例中,在第一阶段处理302期间,计算系统执行第一图像处理过程306以接收输入图像304并输出一个或多个感兴趣区域308。在一些实施例中,输入图像304由电器的相机(例如,图2的电器124的相机102)采集。一个或多个ROI 308对应于输入图像304的一部分(例如,输入图像304中、包括人类用户的上半身的那部分),且计算系统将一个或多个ROI 308存储为要(例如,通过第二阶段处理312)进一步处理的新图像。
在一些实施例中,第一图像处理过程306是使用机器学习模型识别一个或多个ROI308的实时对象检测过程。例如,第一图像处理过程306可包括使用单个卷积神经网络进行快速对象检测的只看一次(YOLO)图像检测算法。第一图像处理过程306接收输入图像304,并输出类别预测和边界框的向量(例如,对应于一个或多个ROI 308)。
在一些实施例中,输入图像304表示指向电器所处的物理环境的相机的视场的快照,且第一图像处理过程306配置成在输入图像304中、包括人类用户的上半身的一次通过区域中进行检测。为了实现这一点,第一图像处理过程306先前已使用第一组训练数据307训练,第一组训练数据307包括用人类用户的预定部分(例如,人类用户的上半身,例如人类用户的头部和肩部区域)标记的图像。因此,在计算系统执行第一阶段处理302之后,生成包括人类用户的预定部分(例如,人类用户的上半身,其包括人类用户的头部和肩部)的一个或多个ROI,并将一个或多个ROI存储在计算系统中以进行进一步处理。至于计算系统如何实现第一阶段处理302的详细信息,请参考图4和相关描述。
接下来,计算系统实施图像分析处理以确定所生成的ROI 308(例如,由第一阶段处理302生成)中的任何一个ROI是否满足进一步处理条件310。如果相应ROI 308满足进一步处理条件310,则相应ROI 308随后被馈送到第二阶段处理312以进行进一步处理。否则,计算系统丢弃相应ROI,且不执行进一步处理(311)。
在一些实施例中,确定ROI 308是否满足进一步处理条件310包括:确定(1)在ROI308中识别的人类用户的上半身包括一些特征,这些特征指示用户的面部包括在ROI 308中且当采集第一输入304时人类用户正面向预定方向(例如,面向电器)。在一些实施例中,这些特征包括一组面部标志的存在。在一些实施例中,这些特征包括在ROI 308中识别的上半身的姿势分类(例如,侧翻、俯身、直立等)。在另一实施例中,确定ROI 308是否满足进一步处理条件310包括:确定在ROI 308中识别的人类用户的上半身位于输入图像304的特定区域内(例如,在输入图像304的边缘处采集的人类用户可被认为距离太远且不进行进一步处理)。在另一实施例中,确定ROI 308满足进一步处理条件310包括:确定在ROI 308中识别的人类用户处于预定位置,例如坐着或站着(例如,基于用户在所采集的图像中的尺寸和高度确定)。在另一实施例中,确定ROI 308满足进一步处理条件310包括:确定所识别的人类用户在预定时间段内保持静止。例如,输入图像304是所采集的图像序列(例如,视频)的图像,且所采集的图像序列中的多个先前采集的图像具有相同ROI(例如,具有相同位置和尺寸),说明人类用户保持在相同位置。在另一实施例中,确定ROI 308满足进一步处理条件310包括:确定ROI 308满足任意两个或更多个上述条件的组合。
如果ROI 308满足进一步处理条件310,则计算系统随后执行第二阶段处理312以进一步处理ROI 308。在第二阶段处理312开始时,ROI 308的分辨率减小(例如,获得较小的尺寸),并作为减小的ROI 314存储在计算系统中。然后,第二图像处理过程316接收减小的ROI 314作为输入,并输出候选控制手势318。在一些实施例中,候选控制手势318包括用户的手势,例如单手手势(例如,握紧的拳头、张开的手、竖起大拇指的手势、和平手势、好的手势等)、双手手势(例如,双手合十(Namaste)手势、默克尔菱形(Merkel-Raute)手势等)或手势和其它身体语言的组合。每个候选控制手势318对应于用于控制电器的唯一数字控制命令。例如,靠近用户头部握紧的拳头可对应于关闭电器,张开的手可对应于打开电器,竖起大拇指的手势可对应于打开电器的电源,等等。
在一些实施例中,第二图像处理过程316包括基于神经网络(例如,卷积神经网络)和分类模型(例如,支持向量机)的实时一次通过对象检测模型。神经网络接收减小的ROI314,并确定相应的一组中间输出(例如,对应于用户的手势和头部位置的预定特征集),然后分类模型将这一组中间输出分类到候选控制手势318。每个ROI 308产生单个候选控制手势318。在一些实施例中,先前已使用第二组训练数据315训练第二图像处理过程316(例如,训练神经网络和分类模型两者)。例如,第二组训练数据315包括对应于减小的ROI 314的尺寸、具有标记的预定特征集(例如,用于训练神经网络)的图像,以及在标记的预定特征集到候选控制手势318(例如,用于训练分类模型)之间的映射。至于计算系统如何实现第二图像处理过程316的详细信息,请参考图5和相关描述。
在一些实施例中,给输入图像304生成多于一个候选控制手势318(例如,存在多个ROI 308,且每个ROI 308与不同的候选控制手势318相关联)。例如,如果在输入图像304中存在多个用户且每个用户表达控制手势,则可发生这种情况。然后,控制手势选择器320接收候选控制手势318,以选择控制手势作为输入图像304的主控制手势322。在一些实施例中,每个候选控制手势318与预先分配的优先级编号相关联,且确定主控制手势322包括比较不同的候选控制手势318的优先级编号。例如,如果基于减小的第一ROI 314检测到多于一个候选控制手势318,则控制手势选择器320可选择具有最高优先级编号的候选控制手势作为主控制手势322。在一些实施例中,控制手势选择器320不依赖于预先分配的优先级编号,而是基于邻近条件来确定主控制手势322,例如选择与最靠近相机的用户相关联的候选控制手势。在一些实施例中,当从多个候选控制手势中确定主控制手势时,控制手势选择器320还考虑哪个电器是控制手势最可能针对的目标电器。
图4示出了根据一些实施例的用于从对输入图像的图像分析中确定一个或多个ROI的图像处理过程400。图像处理过程400对应于图3的第一图像处理过程306。图像处理过程400是一次通过对象检测过程,且依赖于诸如神经网络的深度学习模型来检测包含人类用户的上半身(例如,包括用户头部和肩部)的ROI。
输入图像402作为输入(例如,图3的输入图像304)进入图像处理过程400中。输入图像402表示指向电器周围的物理环境的相机的视场的快照(例如,电器上的相机采集输入图像402)。在该示例中,输入图像402包括多个项目,例如三个人类用户403a-403c,两个对象403d(椅子)和403e(时钟)。在一些实施例中,图像是RGB图像。在一些实施例中,在图像中,用户的手在用户身体的前面(例如,在用户胸部的前面,或在用户的膝上等),而不是在用户躯干旁边。
图像处理过程400依赖于深度学习模型,例如已训练的CNN,以识别包括人类用户的上半身的感兴趣区域。在CNN训练期间,包括各种房间场景的训练图像被标记,以指示用户头部和肩部在训练图像中的位置,以及已训练的深度学习模型被训练,以识别人类用户的头部和肩部的存在并输出头部和肩部在输入图像中的位置。在一些实施例中,训练图像包括不同用户以不同姿势、面向不同方向和在与相机相距不同距离处拍摄的图像,以及在一天中的不同时间、在不同光照条件下等拍摄的图像。在一些实施例中,深度学习模型还被训练以输出用户的姿势(例如,用户的面向方向),使得仅当图像中的用户直立并面向相机(例如,在图像中存在头部和两个肩部)时才识别ROI。在一些实施例中,一旦由深度学习模型确定并输出用户的头部位置(例如,当在图像中存在头部和两个肩部时,深度学习模型被训练以仅输出头部位置),则图像处理过程400生成边界框(例如,边界框408a-408c)以包括所识别的区域。在一些实施例中,基于输入图像400中人类用户的上半身的尺寸来确定每个边界框的尺寸。例如,更靠近相机(因此在输入图像400中显得较大)的用户与较大的边界框(例如,边界框408a)相关联,而远离相机(因此在输入图像400中显得较小)的用户与较小的边界框(例如,边界框408c)相关联。在一些实施例中,边界框是一种框,该框具有以用户头部的顶部为中心的顶部边缘,并具有基于图像中用户头部的尺寸确定的宽度和高度(例如,头部的尺寸通常与用户的手臂长度和高度成比例,并用作包围可能发现用户的手的区域的边界框的尺寸的基本长度单位)。
最后,输入图像402的在边界框内的那部分被裁剪和统一成预定尺寸(例如,400×300像素),并被存储作为图像处理流水线400(例如,裁剪图像410)的输出(例如,图3的ROI308)。
图5示出了根据一些实施例的用于从对图像(例如,第一ROI)的图像分析中确定控制手势的图像处理过程500。图像处理过程500对应于图3的处理流水线300的第二阶段处理312。图像处理过程500从图像处理过程400的输出接收ROI(例如,满足进一步处理条件310的ROI),并输出一组候选控制信号。
在一些实施例中,图像处理过程500包括实时一次通过对象检测过程。为了提高计算效率,输入ROI 502预处理,成为所存储的ROI的降低分辨率版本。例如,所存储的ROI是400×300像素分辨率的图像,降低分辨率版本是96×96像素分辨率的图像。在一些实施例中,预处理包括通过针对图像的宽度和高度的预定下采样比率进行下采样。例如,输入ROI502a-502c各自已分别减小到减小的ROI 504a-504c。
接下来,神经网络模型(例如,深度学习模型)506接收ROI的降低分辨率版本504作为输入,以识别预定特征集508。例如,预定特征集508可指示不同的手势(例如,手势508a-508b)和手势相对于用户身体(例如,相对于用户头部)的位置。预定特征508a对应于单手手势,预定特征508b对应于双手手势,且对于ROI 502c,没有识别预定特征。在一些实施例中,第一深度学习模型506是先前通过用相应的预定特征集标记的图像来训练(例如,使用图3的第二组训练数据315训练)的神经网络。例如,每个训练图像(也是包括一只或多只手、用户头部和两个肩部的用户上半身的ROI图像的降低分辨率版本)由用户的手势类型、用户头部和手的位置来标记。一旦训练好,则神经网络模型能够输出手势类型和手在图像中相对于用户头部的位置。
在一些实施例中,一旦第一深度学习模型506提取预定特征集508,然后预定特征集508(例如,手势类型、手和头部的相对位置等)被馈送到控制手势选择器510(例如,第二深度学习模型或其它分析逻辑)。控制手势选择器510配置成接收预定特征集508并输出控制手势。如图3所描述的,控制手势表示对电器的指令,例如“打开电器”或“调节电器的功率”。在一些实施例中,控制手势选择器510包括诸如支持向量机(SVM)的分类模型。控制手势选择器510先前已训练,以基于预定特征集(508)来识别控制命令512。例如,预定特征集508a和508b使控制手势选择器510分别生成候选控制手势512a和512b。在一些实施例中,如果相机采集的同一起始图像包括多个ROI,且从多个ROI中,深度学习模块506识别多个预定特征集,则控制手势选择器510将这些不同的预定特征集映射到多个候选控制手势,多个候选控制手势基于在ROI的降低分辨率版本中识别的手的手势类型,且可选地基于原始图像中ROI的各自位置和尺寸、手的相对位置(在ROI中检测到两只手的情况下)、在ROI中手和头部的相对位置、用户和多个可能的目标电器的相对位置、候选控制手势和与所识别的目标电器相关联的控制手势之间的匹配等。
图6是根据一些实施例的通过手势控制机器(例如家用电器)的方法的流程图600。为了方便,该方法描述成由计算系统(例如,图2的电器控制单元107和/或图像处理单元115)执行。
作为第一步骤,计算系统使用第一图像处理过程识别第一输入图像(例如,当用户进入电器上的相机的视场时由电器采集的图像,或由另一设备采集并发送到电器的图像,或由电器采集并发送到相同智能家居环境中的用户设备的图像等)中的一个或多个第一ROI(例如,具有正方形、矩形或其它形状并包含预定对象的区域)(602)。例如,一个或多个第一ROI可对应于图5的ROI 502,其包括人类用户的上半身(例如,人类用户的头部和两个肩部)。第一图像处理过程配置成(例如,包括图像处理模型例如已训练的神经网络,以)识别对应于输入图像中相应人类用户的预定部分(例如,用户的包括头部和两个肩部的上半身)的ROI(604)。在一些实施例中,在如图4和相关描述中描述的实时一次通过图像检测过程中识别第一ROI,且第一图像处理过程对应于图3的第一图像处理过程306和图4的图像处理过程400。
接下来,计算系统提供在第一输入图像中识别的相应第一ROI的缩小化副本(例如,减小到预定像素分辨率的副本),作为第二图像处理过程的输入(606)。例如,相应第一ROI的缩小化副本可对应于图5的减小的ROI 503。在一些实施例中,第二图像处理过程配置成(例如,包括图像处理模型例如已训练的神经网络,以)识别相应人类用户的一个或多个预定特征(例如,图5的预定特征集508)(例如,通过神经网络来识别,神经网络受到训练以检测手和头部并识别手势类型,例如图5的第一深度学习模型506),并确定多个预定控制手势中、对应于所识别的一个或多个预定特征的相应控制手势(例如,使用分类模型,例如第二深度学习模型或控制手势选择器510中的其它分析逻辑)。在一些实施例中,第二图像处理过程是端到端过程,其接收图像(例如,第一ROI的缩小化副本)并输出控制手势。第二图像处理过程可预先使用训练数据(例如,第二组训练数据,例如用控制手势(例如,手势类型、手和头部位置等)标记的图像)来训练。在一些实施例中,第二图像处理过程对应于图3的第二图像处理过程316和图5的图像处理过程500,并包括一个或多个机器学习模型(例如,第一深度学习模型506和第二深度学习模型以及控制手势选择器510中的其它分析模型和逻辑)。
根据对在第一输入图像中识别的相应第一ROI中识别第一控制手势,且第一控制手势满足与相应机器相关联的预设第一标准(例如,相应控制手势是用于当前识别的目标电器的所有已识别控制手势中的主控制手势,如由图3的控制手势选择器320确定的)的确定,计算系统在相应机器处根据第一控制手势触发控制操作(例如,打开/关闭目标电器,调节目标电器的输出(声音、功率等),设置定时器等)的执行(例如,向目标电器发送对应于目标电器的控制命令的控制信号,在目标电器处执行控制操作,等等)。在一些实施例中,通过控制手势选择器(例如,图3的控制手势选择器320)执行对第一控制手势满足预设第一标准的确定,且在图3和相关描述中描述预设第一标准。
在一些实施例中,在提供在第一输入图像中识别的相应第一ROI的缩小化副本,作为第二图像处理过程的输入之前,计算系统确定在第一输入图像中识别的相应第一ROI满足进一步处理条件。在一些实施例中,确定在第一输入图像中识别的相应第一ROI满足进一步处理条件包括:确定相应第一ROI包括指示相应人类用户正面向预定方向(例如,面对电子设备的相机)的特征(例如,相应人类用户的面部标志(例如眼睛、鼻子、耳朵、眉毛等)的集合)。在一些实施例中,在图像或ROI中在头部附近存在两个肩部,就是用户正面向相机的指示。在一些实施例中,如果相应第一ROI不能满足进一步处理条件,则忽略相应第一ROI(例如,从存储器中移除)且不将相应第一ROI发送到第二图像处理过程。在一些实施例中,如果相应第一ROI不能满足进一步处理条件,则忽略相应第一ROI,并不通过第一图像处理过程输出相应第一ROI作为ROI。
在一些实施例中,第一图像处理过程是一次通过检测过程(例如,第一输入图像仅经过第一图像处理过程一次,并识别所有第一ROI(如果有的话),例如只看一次检测或单拍多框(Single-Shot-Multibox)检测算法)。在一些实施例中,使用第一图像处理过程识别第一输入图像中的一个或多个第一ROI包括:将第一输入图像划分成多个网格单元(例如,将第一个图像划分成10×10网格);对于多个网格单元中的相应网格单元:使用第一神经网络确定多个边界框(例如,第一神经网络已预先使用具有预定对象和边界框的标记图像来训练),多个边界框中的每个边界框包括人类用户的预测预定部分(例如,人类用户的预测上半身,例如,用头部和肩部的位置标记),其中,人类用户的预测预定部分的中心落在相应网格单元内,并且其中,多个边界框中的每个边界框与类别置信得分相关联,类别置信得分指示分类(例如对象的类型,例如人体的一部分)的置信度。在一些实施例中,第一神经网络已预先进行训练以检测人类用户的预测预定部分的那些对象的类别和人类用户的预测预定部分的定位的置信度(例如,从围绕对象的“地面真像框”来看,边界框的准确性有多高)。在一些实施例中,类别置信得分是定位置信度和分类置信度的乘积;以及识别在相应网格单元中具有最高类别置信得分的边界框(例如,通过非极大值抑制过程去除重复的边界盒,使得每个网格单元最多只能预测一个对象,其中非极大值抑制过程保留置信得分最高的边界框,并去除与置信得分最高的边界框重叠超过一定阈值的任何其它框)。在一些实施例中,基于用户头部的尺寸选择边界框的尺寸,并基于在输入图像中识别的用户头部的位置选择边界框的位置。
在一些实施例中,第二图像处理过程是一次通过对象检测过程(例如,只看一次检测或单拍多框检测算法)。在一些实施例中,使用第二图像处理过程识别对应于相应第一ROI的相应控制手势,其包括:接收多个第一ROI中相应第一ROI的缩小化副本;使用第二神经网络识别相应人类用户的相应的预定特征集;以及基于所识别的相应人类用户的预定特征集来确定相应控制手势。
在一些实施例中,相应人类用户的一个或多个预定特征包括相应人类用户的手和头部之一或手和头部两者。在一些实施例中,预定特征包括在第一ROI的缩小化副本中识别的每只手的位置和手势类型。手的相对位置与头部的位置(例如,从第一图像处理过程的输出可知)结合来确定手和头部在第一ROI中的相对位置。
在一些实施例中,识别第一控制手势包括:识别对应于相应人类用户的两只手的两个不同的手势,以及将两个不同的手势的组合映射到第一控制手势。例如,在减小的第一ROI中检测到两只张开的手,如果在头部附近检测到两只张开的手,则识别用于打开设备的控制手势;如果在头部下方检测到两只张开的手,则识别用于关闭设备的控制手势。如果在减小的第一ROI中在头部附近仅检测到单个张开的手,则识别用于暂停设备的控制手势。
在一些实施例中,确定多个预定控制手势中、对应于所识别的一个或多个预定特征的相应控制手势包括:确定相应人类用户的预定特征相对于相应人类用户的上半身(例如,头部或另一只手)的位置。
在一些实施例中,与相应机器相关联的预设第一标准包括根据对在预设时间段(例如,5秒)内由相机采集的图像序列(例如,相隔200毫秒采集的5个图像)中识别相同控制手势的确定而满足的标准。在一些实施例中,与相应机器相关联的预设第一标准包括根据对由第二图像处理过程输出的控制手势匹配与当前识别的目标电器(例如,采集图像的电器、最靠近用户的电器、用户使用另一种输入方法(例如,唤醒词)激活的电器等)相关联的一组控制手势之一的确定而满足的标准。
图7是示出代表性电器124的框图。电器124包括一个或多个处理单元(CPU)702、一个或多个网络接口704、存储器706以及用于使这些组件(有时称为芯片组)互连的一个或多个通信总线708。电器124还包括用户接口710。用户接口710包括能够呈现媒体内容的一个或多个输出设备712,一个或多个输出设备包括一个或多个扬声器和/或一个或多个视觉显示器。用户接口710还包括一个或多个输入设备714,一个或多个输入设备包括便于用户输入的用户接口组件,例如键盘、鼠标、语音命令输入单元或麦克风、触摸屏显示器、触敏输入板、手势采集相机或者其它输入按钮或控件。在一些实施例中,电器124还包括传感器,传感器感测电器124的工作环境信息。传感器包括但不限于一个或多个麦克风、一个或多个相机、环境光传感器、一个或多个加速度计、一个或多个陀螺仪、GPS定位系统、蓝牙或BLE系统、温度传感器、湿度传感器、一个或多个运动传感器、一个或多个生物传感器(例如,皮电电阻传感器、脉搏血氧计等)和其它传感器。此外,电器124包括电器操作单元106。存储器706包括高速随机存取存储器,例如DRAM、SRAM、DDR RAM或其它随机存取固态存储器件;可选地包括非易失性存储器,例如一个或多个磁盘存储器件、一个或多个光盘存储器件、一个或多个闪存器件或者一个或多个其它非易失性固态存储器件。可选地,存储器706包括远离一个或多个处理单元702布置的一个或多个存储器件。存储器706,或者替代地,存储器706内的非易失性存储器,包括非暂时性计算机可读存储介质。在一些实现方式中,存储器706或存储器706的非暂时性计算机可读存储介质存储以下程序、模块和数据结构,或存储以下程序、模块和数据结构的子集或超集:
·操作系统716,操作系统包括用于处理各种基本系统服务和用于执行硬件相关任务的程序;
·网络通信模块718,网络通信模块用于通过一个或多个网络接口704(有线或无线)将电器124连接到与一个或多个网络连接的其它计算设备(例如,服务器系统108)或移动控制设备(例如,智能手机或平板电脑);
·呈现模块720,呈现模块用于实现信息的呈现;
·输入处理模块722,输入处理模块用于检测来自一个或多个输入设备714之一的一个或多个用户输入或交互,并解释检测到的输入或交互;
·电器控制单元107,电器控制单元控制电器124,包括但不限于存在检测单元113、电器功能控制单元117、图像处理单元115、命令生成单元119、协调单元121以及用于执行本文所阐述的其它功能的其它模块。
上文识别的元件中的每一个可存储在之前提到的存储器件中的一个或多个存储器件中,且对应于用于执行上述功能的指令集。上文识别的模块或程序(即,指令集)不需要以单独的软件程序、程序、模块或数据结构来实现,因此这些模块的各种子集可以在各种实现方式中组合或以其它方式重新排列。在一些实现方式中,存储器706可选地存储上文识别的模块和数据结构的子集。此外,存储器706可选地存储上文未描述的附加模块和数据结构。
虽然上文描述了特定实施例,但是应理解,其意图不是将本申请限制于这些特定实施例。相反,本申请包括在所附的权利要求的精神和范围内的替代、修改和等同物。阐述许多具体细节,以提供对本文提出的主题的透彻理解。然而,对于本领域普通技术人员来说显而易见的是,可以在没有这些具体细节的情况下实施该主题。在其它实例中,没有详细描述公知的方法、过程、组件和电路,以避免不必要地模糊实施例的方面。
Claims (9)
1.一种方法,包括:
在具有一个或多个处理器、相机和存储器的电子设备上:
使用第一图像处理过程识别第一输入图像中的一个或多个第一感兴趣区域(ROI),其中,所述第一图像处理过程配置成识别对应于输入图像中相应人类用户的预定部分的第一ROI;
提供在所述第一输入图像中识别的相应第一ROI的缩小化副本,作为第二图像处理过程的输入,其中,所述第二图像处理过程配置成识别相应人类用户的一个或多个预定特征,并确定多个预定控制手势中、对应于所识别的一个或多个预定特征的相应控制手势;以及
根据对在所述第一输入图像中识别的相应第一ROI中识别第一控制手势,且所述第一控制手势满足与相应机器相关联的预设第一标准的确定,在所述相应机器处根据所述第一控制手势触发控制操作。
2.根据权利要求1所述的方法,包括:
在提供在所述第一输入图像中识别的相应第一ROI的缩小化副本,作为第二图像处理过程的输入之前,确定在所述第一输入图像中识别的相应第一ROI包括指示所述相应人类用户正面向预定方向的特征。
3.根据权利要求1所述的方法,其中,使用第一图像处理过程识别第一输入图像中的一个或多个第一ROI包括:
将所述第一输入图像划分成多个网格单元;
对于所述多个网格单元中的相应网格单元:
使用第一神经网络确定多个边界框,所述多个边界框中的每个边界框包括所述人类用户的预测预定部分,其中,所述人类用户的预测预定部分的中心落在所述相应网格单元内,并且其中,所述多个边界框中的每个边界框与类别置信得分相关联,所述类别置信得分指示所述人类用户的预测预定部分的分类的置信度和所述人类用户的预测预定部分的定位的置信度;和
识别在所述相应网格单元中具有最高类别置信得分的边界框。
4.根据权利要求1所述的方法,其中,使用所述第二图像处理过程识别对应于所述相应第一ROI的相应控制手势,其包括:
接收所述多个第一ROI中所述相应第一ROI的缩小化副本;
使用第二神经网络识别所述相应人类用户的相应的预定特征集;以及
基于所识别的相应人类用户的预定特征集来确定所述相应控制手势。
5.根据权利要求1所述的方法,其中,所述相应人类用户的一个或多个预定特征对应于所述相应人类用户的手和头部之一或手和头部两者。
6.根据权利要求1所述的方法,其中,识别第一控制手势包括:识别对应于所述相应人类用户的两只手的两个不同的手势,以及将所述两个不同的手势的组合映射到所述第一控制手势。
7.根据权利要求1所述的方法,其中,确定多个预定控制手势中、对应于所识别的一个或多个预定特征的相应控制手势包括:确定所述相应人类用户的所识别的一个或多个预定特征中的至少一个预定特征相对于所述相应人类用户的上半身的相应位置。
8.一种计算机可读存储介质,所述计算机可读存储介质包括指令,当所述指令由计算系统的一个或多个处理器执行时,所述指令使得所述处理器执行根据权利要求1至7中任一项所述的方法。
9.一种计算系统,包括:
一个或多个处理器;和
存储指令的存储器,当所述指令由所述一个或多个处理器执行时,所述指令使得所述处理器执行根据权利要求1至7中任一项所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/732,147 | 2019-12-31 | ||
US16/732,147 US20210201661A1 (en) | 2019-12-31 | 2019-12-31 | System and Method of Hand Gesture Detection |
PCT/CN2020/117194 WO2021135432A1 (en) | 2019-12-31 | 2020-09-23 | System and method of hand gesture detection |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114391163A true CN114391163A (zh) | 2022-04-22 |
Family
ID=76547731
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080060445.2A Pending CN114391163A (zh) | 2019-12-31 | 2020-09-23 | 手势检测系统和方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20210201661A1 (zh) |
CN (1) | CN114391163A (zh) |
WO (1) | WO2021135432A1 (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111435432B (zh) * | 2019-01-15 | 2023-05-26 | 北京市商汤科技开发有限公司 | 网络优化方法及装置、图像处理方法及装置、存储介质 |
US11157811B2 (en) * | 2019-10-28 | 2021-10-26 | International Business Machines Corporation | Stub image generation for neural network training |
KR102374211B1 (ko) * | 2019-10-28 | 2022-03-15 | 주식회사 에스오에스랩 | 객체 인식 방법 및 이를 수행하는 객체 인식 장치 |
KR102576788B1 (ko) * | 2020-08-21 | 2023-09-11 | 한국전자통신연구원 | 로봇 인터랙션 행위 생성 장치 및 방법 |
US11443541B2 (en) * | 2020-08-28 | 2022-09-13 | Sensormatic Electronics, LLC | Classification of person type in a visual medium |
US11712797B2 (en) * | 2020-09-11 | 2023-08-01 | Fanuc Corporation | Dual hand detection in teaching from demonstration |
US20220156685A1 (en) * | 2020-11-16 | 2022-05-19 | Liam A. Dugan | Methods and apparatus for reducing food waste |
CN113392821B (zh) * | 2021-08-17 | 2021-12-07 | 南昌虚拟现实研究院股份有限公司 | 动态手势识别方法、装置、电子设备及可读存储介质 |
US11875555B2 (en) * | 2021-09-30 | 2024-01-16 | Intel Corporation | Applying self-confidence in multi-label classification to model training |
US20230111327A1 (en) * | 2021-10-08 | 2023-04-13 | Motional Ad Llc | Techniques for finding and accessing vehicles |
US20230305632A1 (en) * | 2021-12-02 | 2023-09-28 | SoftEye, Inc. | Systems, apparatus, and methods for gesture-based augmented reality, extended reality |
US11792506B2 (en) * | 2022-02-09 | 2023-10-17 | Motorola Mobility Llc | Electronic devices and corresponding methods for defining an image orientation of captured images |
WO2024072410A1 (en) * | 2022-09-30 | 2024-04-04 | Innopeak Technology, Inc. | Real-time hand gesture tracking and recognition |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101534742B1 (ko) * | 2013-12-10 | 2015-07-07 | 현대자동차 주식회사 | 차량용 제스처 인식 시스템 및 그 방법 |
CN105353634B (zh) * | 2015-11-30 | 2018-05-08 | 北京地平线机器人技术研发有限公司 | 利用手势识别控制操作的家电设备与方法 |
CN107563494B (zh) * | 2017-08-01 | 2020-08-18 | 华南理工大学 | 一种基于卷积神经网络和热图的第一视角指尖检测方法 |
CN109558855B (zh) * | 2018-12-06 | 2019-10-15 | 哈尔滨拓博科技有限公司 | 一种基于手掌轮廓特征与模版匹配法相结合的空间手势识别方法 |
CN109886070A (zh) * | 2018-12-24 | 2019-06-14 | 珠海格力电器股份有限公司 | 一种设备控制方法、装置、存储介质及设备 |
-
2019
- 2019-12-31 US US16/732,147 patent/US20210201661A1/en not_active Abandoned
-
2020
- 2020-09-23 WO PCT/CN2020/117194 patent/WO2021135432A1/en active Application Filing
- 2020-09-23 CN CN202080060445.2A patent/CN114391163A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20210201661A1 (en) | 2021-07-01 |
WO2021135432A1 (en) | 2021-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114391163A (zh) | 手势检测系统和方法 | |
US11017217B2 (en) | System and method for controlling appliances using motion gestures | |
US10628714B2 (en) | Entity-tracking computing system | |
US11126257B2 (en) | System and method for detecting human gaze and gesture in unconstrained environments | |
US9552056B1 (en) | Gesture enabled telepresence robot and system | |
US10942637B2 (en) | Method and system for providing control user interfaces for home appliances | |
KR20180072978A (ko) | 홈 로봇 장치의 동작 운용 방법 및 이를 지원하는 홈 로봇 장치 | |
CN111163906B (zh) | 能够移动的电子设备及其操作方法 | |
US20180232571A1 (en) | Intelligent assistant device communicating non-verbal cues | |
TW201805744A (zh) | 控制系統、控制處理方法及裝置 | |
WO2015011703A1 (en) | Method and system for touchless activation of a device | |
KR102481486B1 (ko) | 오디오 제공 방법 및 그 장치 | |
US11373650B2 (en) | Information processing device and information processing method | |
CN108369451B (zh) | 信息处理装置、信息处理方法及计算机可读存储介质 | |
US10444852B2 (en) | Method and apparatus for monitoring in a monitoring space | |
JPWO2018087971A1 (ja) | 移動体制御装置および移動体制御プログラム | |
WO2016102759A1 (en) | Monitoring | |
CN113497912A (zh) | 通过语音和视频定位的自动取景 | |
US20150153715A1 (en) | Rapidly programmable locations in space | |
CN111919250B (zh) | 传达非语言提示的智能助理设备 | |
TW201419051A (zh) | 電腦遙控系統及方法 | |
KR20210116838A (ko) | 제스처에 기초하여, 음성 입력을 처리하는 전자 장치 및 그 동작 방법 | |
Dwiputra et al. | The b-it-bots Robo-Cup@ Home 2014 Team Description Paper | |
Athira et al. | HAND GESTURE BASED HOME AUTOMATION |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |