CN113448427B

CN113448427B - 设备控制方法、装置及系统

Info

Publication number: CN113448427B
Application number: CN202010211797.5A
Authority: CN
Inventors: 吴觊豪
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2023-09-12
Anticipated expiration: 2040-03-24
Also published as: EP4105765A1; US11880220B2; EP4105765A4; CN113448427A; WO2021190336A1; US20230108331A1

Abstract

本申请适用于智能家居技术领域，提供了一种设备控制方法、装置及系统，所述方法包括：对采集的环境图像进行识别，确定环境图像中的至少一个待识别区域，对待识别区域内的目标部位动作进行监测，若监测到目标部位动作与预先设置的激活动作一致，则对目标待识别区域中的目标部位动作进行追踪监测，若监测到目标待识别区域内的目标部位动作为预先设置的控制动作，控制终端设备执行与控制动作相对应的功能操作。通过由二段式动作组成的目标部位动作对终端设备进行控制，降低了通过用户触发一次目标部位动作即可控制终端设备的概率，降低了图像采集设备监测触发的动作的误检率，提高了图像采集设备根据用户触发的动作控制终端设备的准确度。

Description

设备控制方法、装置及系统

技术领域

本申请涉及智能家居技术领域，尤其涉及一种设备控制方法、装置及系统。

背景技术

随着终端设备的不断发展，用户不但可以通过输入设备(如鼠标、键盘和遥控器)对终端设备进行控制，还可以通过触发的手势动作对终端设备进行控制，使得终端设备可以根据手势动作执行相对应的功能操作。

在通过手势动作控制终端设备的过程中，终端设备可以连续采集多帧用户图像，然后对各帧图像中用户的手部进行识别，确定每帧图像中用户手部的姿势所对应的动作分类，再根据各动作分类预测得到用户触发的手势动作，最后根据确定的动作执行相对应的功能。

但是，在识别用户手部姿势的过程中，用户可能是无意识的误触发了不同的手部姿势，则终端设备可能会检测到用户误触发的手部姿势，造成终端设备误检率较高的问题。

发明内容

本申请提供一种设备控制方法、装置及系统，解决了现有技术中终端设备误检率较高的问题。

为达到上述目的，本申请采用如下技术方案：

第一方面，本申请实施例提供了一种设备控制方法，包括：

对采集的环境图像进行识别，确定所述环境图像中的至少一个待识别区域，所述待识别区域中包括用于控制终端设备的指定身体部位；

对所述待识别区域内的目标部位动作进行监测，所述目标部位动作为所述指定身体部位触发的动作；

若监测到所述目标部位动作与预先设置的激活动作一致，则对目标待识别区域中的目标部位动作进行追踪监测，所述目标待识别区域为与所述激活动作一致的目标部位动作所在的待识别区域；

若监测到所述目标待识别区域内的所述目标部位动作为预先设置的控制动作，则控制终端设备执行与所述控制动作相对应的功能操作。

在第一方面的第一种可能的实现方式中，所述对采集的环境图像进行识别，确定所述环境图像中的至少一个待识别区域，包括：

采集所述环境图像；

对所述环境图像中每个用户的人脸区域和身体区域进行识别；

根据多个所述人脸区域和多个所述身体区域，确定至少一个所述待识别区域。

基于第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，所述根据多个所述人脸区域和多个所述身体区域，确定至少一个所述待识别区域，包括：

对于每个用户，根据所述用户的人脸区域和身体区域，生成所述用户对应的关注区域；

根据多个所述关注区域中每两个关注区域之间的交并比，对多个所述关注区域进行聚类，得到至少一个所述待识别区域。

基于第一方面的第二种可能的实现方式，在第一方面的第三种可能的实现方式中，所述根据多个所述关注区域中每两个关注区域之间的交并比，对多个所述关注区域进行聚类，得到至少一个所述待识别区域，包括：

根据多个所述关注区域中每两个关注区域之间的交并比，对多个所述关注区域进行聚类，得到至少一个簇，所述簇中包括至少一个关注区域，若所述簇包括多个关注区域，则所述簇中的任意一个关注区域，与所述簇中其他至少一个关注区域的交并比大于预先设置的交并比阈值；

根据每个所述簇中各关注区域在所述环境图像中的位置，确定每个所述簇的区域边界；

根据每个所述簇的区域边界，生成每个所述簇分别对应的所述待识别区域。

在第一方面的第四种可能的实现方式中，所述激活动作包括动态激活动作；

所述对所述待识别区域内的目标部位动作进行监测，包括：

若所述目标部位动作触发了动作切换，且切换的动作与所述动态激活动作一致，则确定所述待识别区域内的所述目标部位动作与所述动态激活动作一致。

在第一方面的第五种可能的实现方式中，所述激活动作包括静态激活动作；

所述对所述待识别区域内的目标部位动作进行监测，包括：

若所述目标部位动作与所述静态激活动作一致，且持续时长大于预先设置的时间阈值，则确定所述指定身体部位触发了所述静态激活动作。

基于第一方面的第一种至第五种中任意一种可能的实现方式，在第一方面的第六种可能的实现方式中，所述对所述待识别区域内的目标部位动作进行监测，包括：

获取每个所述待识别区域的面积；

根据每个所述待识别区域的面积，按照从大到小的顺序对每个所述待识别区域内的所述目标部位动作进行监测。

基于第一方面的第一种至第五种中任意一种可能的实现方式，在第一方面的第七种可能的实现方式中，所述控制终端设备执行与所述控制动作相对应的功能操作，包括：

确定所述控制动作对应的功能；

根据所述控制动作对应的功能，生成控制指令；

向所述终端设备发送所述控制指令，所述控制指令用于指示所述终端设备执行与所述控制动作对应的功能操作。

基于第一方面的第一种至第五种中任意一种可能的实现方式，在第一方面的第八种可能的实现方式中，所述方法还包括：

向所述终端设备发送界面显示指令，所述界面显示指令用于指示所述终端设备显示控制界面。

第二方面，本申请实施例提供了一种设备控制装置，包括：

识别模块，用于对采集的环境图像进行识别，确定所述环境图像中的至少一个待识别区域，所述待识别区域中包括用于控制终端设备的指定身体部位；

监测模块，用于对所述待识别区域内的目标部位动作进行监测，所述目标部位动作为所述指定身体部位触发的动作；

追踪模块，用于若监测到所述目标部位动作与预先设置的激活动作一致，则对目标待识别区域中的目标部位动作进行追踪监测，所述目标待识别区域为与所述激活动作一致的目标部位动作所在的待识别区域；

控制模块，用于若监测到所述目标待识别区域内的所述目标部位动作为预先设置的控制动作，则控制终端设备执行与所述控制动作相对应的功能操作。

在第二方面的第一种可能的实现方式中，所述识别模块，具体用于采集所述环境图像；对所述环境图像中每个用户的人脸区域和身体区域进行识别；根据多个所述人脸区域和多个所述身体区域，确定至少一个所述待识别区域。

基于第二方面的第一种可能的实现方式，在第二方面的第二种可能的实现方式中，所述识别模块，还具体用于对于每个用户，根据所述用户的人脸区域和身体区域，生成所述用户对应的关注区域；根据多个所述关注区域中每两个关注区域之间的交并比，对多个所述关注区域进行聚类，得到至少一个所述待识别区域。

基于第二方面的第二种可能的实现方式，在第二方面的第三种可能的实现方式中，所述识别模块，还具体用于根据多个所述关注区域中每两个关注区域之间的交并比，对多个所述关注区域进行聚类，得到至少一个簇，所述簇中包括至少一个关注区域，若所述簇包括多个关注区域，则所述簇中的任意一个关注区域，与所述簇中其他至少一个关注区域的交并比大于预先设置的交并比阈值；根据每个所述簇中各关注区域在所述环境图像中的位置，确定每个所述簇的区域边界；根据每个所述簇的区域边界，生成每个所述簇分别对应的所述待识别区域。

在第二方面的第四种可能的实现方式中，所述激活动作包括动态激活动作；

所述监测模块，具体用于若所述目标部位动作触发了动作切换，且切换的动作与所述动态激活动作一致，则确定所述待识别区域内的所述目标部位动作与所述动态激活动作一致。

在第二方面的第五种可能的实现方式中，所述激活动作包括静态激活动作；

所述监测模块，具体用于若所述目标部位动作与所述静态激活动作一致，且持续时长大于预先设置的时间阈值，则确定所述指定身体部位触发了所述静态激活动作。

基于第二方面的第一种至第五种中任意一种可能的实现方式，在第二方面的第六种可能的实现方式中，所述监测模块，具体用于获取每个所述待识别区域的面积；根据每个所述待识别区域的面积，按照从大到小的顺序对每个所述待识别区域内的所述目标部位动作进行监测。

基于第二方面的第一种至第五种中任意一种可能的实现方式，在第二方面的第七种可能的实现方式中，所述控制模块，具体用于确定所述控制动作对应的功能；根据所述控制动作对应的功能，生成控制指令；向所述终端设备发送所述控制指令，所述控制指令用于指示所述终端设备执行与所述控制动作对应的功能操作。

基于第二方面的第一种至第五种中任意一种可能的实现方式，在第二方面的第八种可能的实现方式中，所述装置还包括：

发送模块，用于向所述终端设备发送界面显示指令，所述界面显示指令用于指示所述终端设备显示控制界面。

第三方面，本申请实施例提供了一种设备控制系统，所述设备控制系统包括：图像采集设备和终端设备，所述图像采集设备与所述终端设备连接；

所述图像采集设备用于对采集的环境图像进行识别，确定所述环境图像中的至少一个待识别区域，所述待识别区域中包括用于控制终端设备的指定身体部位；

所述图像采集设备还用于对所述待识别区域内的目标部位动作进行监测，所述目标部位动作为所述指定身体部位触发的动作；

若监测到所述目标部位动作与预先设置的激活动作一致，则所述图像采集设备还用于对目标待识别区域中的目标部位动作进行追踪监测，所述目标待识别区域为与所述激活动作一致的目标部位动作所在的待识别区域；

若监测到所述目标待识别区域内的所述目标部位动作为预先设置的控制动作，所述图像采集设备还用于控制终端设备执行与所述控制动作相对应的功能操作；

所述终端设备用于执行与所述控制动作相对应的功能操作。

第四方面，本申请实施例提供了一种图像采集设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面中任一项所述的设备控制方法。

第五方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面中任一项所述的设备控制方法。

第六方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项所述的设备控制方法。

本申请提供的设备控制方法、装置及系统，通过确定环境图像中待识别区域，并对待识别区域中指定身体部位触发的目标部位动作进行监测，若监测到目标部位动作与激活动作一致，则可以继续监测指定身体部位触发的目标部位动作是否与预先设置的控制动作一致，从而可以在目标部位动作与控制动作一致的情况下，控制终端设备执行与该控制动作相匹配的功能操作，通过监测目标部位动作是否与激活动作一致确定用户是否需要控制终端设备，若一致则再监测目标部位动作是否与控制动作一致，从而根据与控制动作一致的目标部位动作实现对终端设备的控制，实现通过由二段式动作组成的目标部位动作对终端设备进行控制，降低了通过用户触发一次目标部位动作即可控制终端设备的概率，降低了图像采集设备监测触发的动作的误检率，提高了图像采集设备根据用户触发的动作控制终端设备的准确度。

附图说明

图1是本申请实施例提供的一种设备控制方法所涉及的设备控制系统的架构示意图；

图2是本申请实施例提供的一种设备控制方法的示意性流程图；

图3是本申请实施例提供的一种确定待识别区域的示意性流程图；

图4是本申请实施例提供的一种环境图像中人脸区域的示意图；

图5是本申请实施例提供的一种环境图像中身体区域的示意图；

图6是本申请实施例提供的一种环境图像中关注区域的示意图；

图7是本申请实施例提供的一种环境图像中多个关注区域的示意图；

图8是本申请实施例提供的一种环境图像中待识别区域的示意图；

图9是是本申请实施例提供的一种监测目标部位动作的示意性流程图；

图10-a是本申请实施例提供的一种终端设备所展示的界面示意图；

图10-b是本申请实施例提供的另一种终端设备所展示的界面示意图；

图10-c是本申请实施例提供的又一种终端设备所展示的界面示意图；

图11-a是本申请实施例提供的一种手部触发的目标部位动作的示意图；

图11-b是本申请实施例提供的另一种手部触发的目标部位动作的示意图；

图11-c是是本申请实施例提供的又一种终端设备所展示的界面示意图；

图12-a是本申请实施例提供的一种手部触发的目标部位动作的示意图；

图12-b是本申请实施例提供的另一种手部触发的目标部位动作的示意图；

图12-c是是本申请实施例提供的又一种终端设备所展示的界面示意图；

图13-a是本申请实施例提供的一种手部触发的目标部位动作的示意图；

图13-b是是本申请实施例提供的又一种终端设备所展示的界面示意图；

图14是本申请实施例提供的一种手部触发的目标部位动作的示意图；

图15是本申请实施例提供的一种设备控制装置的结构框图；

图16是本申请实施例提供的另一种设备控制装置的结构框图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

以下实施例中所使用的术语只是为了描述特定实施例的目的，而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样，单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括例如“一个或多个”这种表达形式，除非其上下文中明确地有相反指示。还应当理解，在本申请实施例中，“一个或多个”是指一个、两个或两个以上；“和/或”，描述关联对象的关联关系，表示可以存在三种关系；例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。

本申请实施例提供的设备控制方法可以应用于平板电脑、可穿戴设备、车载设备、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、笔记本电脑等终端设备上，本申请实施例对终端设备的具体类型不作任何限制。

例如，所述终端设备可以是WLAN中的站点(STAION，ST)，可以是车载设备、车联网终端、膝上型计算机和电视机顶盒(set top box，STB)等。

作为示例而非限定，当所述终端设备为可穿戴设备时，该可穿戴设备还可以是应用穿戴式技术对日常穿戴进行智能化设计、开发出可以穿戴的设备的总称，如眼镜、手套、手表、服饰及鞋等。可穿戴设备即直接穿在身上，或是整合到用户的衣服或配件的一种便携式设备。可穿戴设备不仅仅是一种硬件设备，更是通过软件支持以及数据交互、云端交互来实现强大的功能。广义穿戴式智能设备包括功能全、尺寸大、可不依赖智能手机实现完整或者部分的功能，如智能手表或智能眼镜等，以及只专注于某一类应用功能，需要和其它设备如智能手机配合使用，如各类进行体征监测的智能手环、智能首饰等。

图1是本申请实施例提供的一种设备控制方法所涉及的设备控制系统的架构示意图，作为示例而非限定，参见图1，该设备控制系统可以包括：图像采集设备110和终端设备120，图像采集设备110与终端设备120连接。

其中，图像采集设备可以包括中央处理单元(Central Processing Unit，CPU)和神经网络处理单元(Neural Process Unit，NPU)，例如，图像采集设备可以为摄像头。

为例便于说明，本申请实施例以终端设备为智能电视为例进行说明，在实际应用中，终端设备还可以为其他类型的具有数据接收、发送和处理能力、以及播放能力的电子设备，本申请实施例对终端设备不做限定。

若终端设备为智能电视，则用户在观看智能电视播放的内容的过程中，可以通过做出不同的动作，控制智能电视执行不同的功能操作，进而实现不同的功能。例如，智能电视可以根据用户触发的动作，对音量大小、播放进度和播放频道进行调整。

在智能电视根据用户触发的操作实现不同功能的过程中，图像采集设备可以先对智能电视当前所在的环境进行拍摄，采集包括智能电视屏幕前的用户的环境图像，并通过图像采集设备的NPU对环境图像中的用户进行识别，确定人体所在区域；然后可以对人体关键点进行识别(例如手部)，再向图像采集设备的CPU发送识别结果，则图像采集设备的CPU可以根据该识别结果，判断用户是否触发了预先设置的激活动作或控制动作。若用户触发了激活动作或控制动作，则可以生成显示指令或控制指令，并向智能电视发送显示指令或控制指令，则智能电视可以根据显示指令显示用于控制智能电视的控制界面，或者根据控制指令执行相对应的功能操作，实现相对应的功能。

其中，该激活动作用于激活图像采集设备对用户触发的目标部位动作进行持续采集，以便图像采集设备可以根据持续采集的目标部位动作，确定用户是否触发控制动作，从而根据触发的控制动作生成控制指令，进而通过控制指令实现对智能电视的控制。

显示指令是在图像采集设备在确定用户触发的目标部位动作与激活动作一致时生成的，用于控制智能电视显示控制界面，使用户可以基于控制界面所展示的内容，继续触发与预先设置的控制操作一致的目标部位动作，从而控制智能电视实现不同的功能。

需要说明的是，在实际应用中，图像采集设备和终端设备可以分开设置，例如，摄像头和智能电视，摄像头和智能电视通过数据线连接。图像采集设备和终端设备也可以集成设置，例如，手机和设置在手机内部的摄像头，本申请实施例对图像采集设备和终端设备的设置方式不做限定。

另外，在设置图像采集设备和终端设备的过程中，图像采集设备和终端设备可以朝向同一方向，也即是，终端设备的屏幕所朝向的方向，与图像采集设备采集图像的方向一致。例如，智能电视的屏幕朝向沙发，用户可以坐在沙发上观看智能电视播放的内容，则图像采集设备也朝向沙发，从而可以对沙发所在的区域进行图像采集，得到包括用户在内的环境图像。

图2是本申请实施例提供的一种设备控制方法的示意性流程图，作为示例而非限定，该方法可以应用于上述图像采集设备中，参见图2，该方法包括：

步骤201、对采集的环境图像进行识别，确定该环境图像中的至少一个待识别区域。

其中，该待识别区域包括用于控制终端设备的指定身体部位。例如，图像采集设备可以根据用户的手势动作控制终端设备执行不同的操作，实现不同的功能，则对应的，可以将触发手势的手部作为用户的指定身体部位。

终端设备可以向用户展示不同的播放内容，则用户可以位于终端设备的屏幕的前方查看终端设备播放的内容；而与终端设备连接的图像采集设备则可以采集当前场景中包括用户在内的环境图像，并根据环境图像中用户触发的不同动作，生成不同的控制指令发送给终端设备，使得终端设备执行不同的功能，实现通过用户触发的动作控制终端设备。

具体地，图像采集设备采集到环境图像后，可以先对环境图像进行识别，确定环境图像中用户所在的区域，并对用户的指定身体部位进行识别，得到待识别区域。其中，当前场景中可以存在多个用户，则图像采集设备可以识别得到至少一个待识别区域。

在一种可能的实现方式中，图像采集设备可以采用人体识别和人脸识别的方式，分别确定环境图像中人体所在的身体区域和人脸所在的人脸区域，再根据身体区域和人脸区域进行合并，得到至少一个待识别区域。

可选的，参见图3，步骤201可以包括：步骤201a、步骤201b和步骤201c。

步骤201a、采集环境图像。

图像采集设备在对环境图像进行识别之前，可以先检测终端设备是否开始向用户展示播放内容，若检测到终端设备开始展示播放内容，图像采集设备则可以开始采集环境图像，以便在后续步骤中，可以对采集的环境图像进行识别。

需要说明的是，图像采集设备可以持续采集视频流数据，并按照预先设置的时间间隔从视频流数据中提取图像帧，从而得到多个环境图像。或者，图像采集设备可以周期性的进行拍摄，从而得到多个环境图像。

步骤201b、对环境图像中每个用户的人脸区域和身体区域进行识别。

图像采集设备在采集得到环境图像后，可以根据预先设置的检测算法，分别对环境图像中的人脸和人体进行识别，确定用户的人脸和身体所在的区域，并按照扩充比例对确定的区域进行扩充，从而得到人脸区域和身体区域。

在一种可能的实现方式中，图像采集设备可以按照预先设置的人脸识别算法和人体识别算法，通过采集面部五官的关键点可以识别得到环境图像中的人脸，并通过检测的身体轮廓，确定用户的身体所在的区域。

进一步地，由于用户在观看的过程中，部分身体部位的位置会随着用户执行的动作而发生改变，则在确定待识别区域的过程中，可以对人脸所在的区域和身体所在的区域，按照预先设置的扩充比例，对识别到的区域进行扩充，得到人脸区域和身体区域。

例如，参见图4和图5，图4中示出了识别得到的人脸所在的区域以及扩充后得到的人脸区域，图5中示出了识别得到的身体所在的区域以及扩充后得到的身体区域，若预先设置的人脸扩充比例为0.5：1.5：2.5：2.5，在识别得到如图4中人脸所在的区域(实线部分对应的区域)后，可以按照人脸所在的区域的高度，向该区域的上方扩充0.5倍高度，并向该区域的下方扩充1.5倍高度，再按照人脸所在的区域的宽度，向该区域的左右两侧分别扩充2.5倍宽度，得到虚线部分所示的人脸区域。

类似的，若预先设置的身体扩充比例为0：0：0.5：0.5，在识别得到如图5中身体所在的区域(实线部分对应的区域)后，可以按照身体所在的区域的宽度，向该区域的左右两侧分别扩充0.5倍宽度，得到虚线部分所示的身体区域。

当然，人脸扩充比例还可以为1：4：3.2：3.2或其他参数对应的比例，身体扩充比例还可以为0.5：0.5：0.5：0.5或其他参数对应的比例，本申请实施例对人脸扩充比例和身体扩充比例不做限定。

需要说明的是，在实际应用中，可能多个用户同时在观看终端设备播放的内容，则按照上述方式可以识别得到多个用户的人脸区域和身体区域，本申请实施例仅是以识别一个用户的人脸区域和身体区域为例进行说明，而对于每个用户的人脸区域和身体区域，均可采用类似的方式识别得到每个用户的人脸区域和身体区域，本申请实施例对环境图像中用户的数目不做限定。

另外，在确定人脸区域和身体区域是否属于同一用户的过程中，可以根据人脸区域和身体区域之间的位置关系进行确认。例如，若用户坐在终端设备前，则人脸区域纵向的中轴线与身体区域纵向的中轴线可以重合，且人脸区域位于身体区域上方。

步骤201c、根据多个人脸区域和多个身体区域，确定至少一个待识别区域。

图像采集设备在识别得到每个用户的人脸区域和身体区域后，可以根据每个用户对应的人脸区域和身体区域确定每个用户对应的关注区域，再对各个关注区域进行聚类，得到至少一个待识别区域。

可选的，对于每个用户，图像采集设备可以根据用户的人脸区域和身体区域，生成用户对应的关注区域，再根据多个关注区域中每两个关注区域之间的交并比，对多个关注区域进行聚类，得到至少一个待识别区域。

在一种可能的实现方式中，图像采集设备可以先从多个人脸区域和身体区域中，确定对应同一用户的人脸区域和身体区域，并在同一环境图像中显示该用户的人脸区域和身体区域，使得人脸区域和身体区域出现重叠的部分，从而可以将人脸区域和身体区域重叠的区域作为用户对应的关注区域，进而可以按照上述方式对每个用户的人脸区域和身体区域进行重叠，得到每个用户的关注区域。

在实际应用中，多个用户在观看终端设备的播放内容的过程中，多个用户可能聚集在同一区域，例如，多个用户在看电视的过程中，通常是坐在电视前的沙发上，则识别得到的多个用户的关注区域可能会出现重叠的情况，本实施例中，根据各个关注区域之间的交并比，对各个关注区域进行聚类，得到至少一个待识别区域，以减少图像采集设备进行识别的工作量。

具体实现时，图像采集设备可以根据多个关注区域中每两个关注区域之间的交并比，对多个关注区域进行聚类，得到至少一个簇，并根据每个簇中各关注区域在环境图像中的位置，确定每个簇的区域边界，再根据每个簇的区域边界，生成每个簇分别对应的待识别区域。

其中，该簇中可以包括至少一个关注区域。若簇包括多个关注区域，则该簇中的任意一个关注区域，与该簇中其他至少一个关注区域的交并比大于预先设置的交并比阈值。

例如，某个簇中包括三个关注区域，分别为第一关注区域、第二关注区域和第三关注区域，第一关注区域和第二关注区域之间的交并比大于交并比阈值，第二关注区域和第三关注区域之间的交并比大于交并比阈值，但是第一关注区域和第三关注区之间的交并比可以小于或等于交并比阈值。

在一种可能的实现方式中，图像采集设备可以从多个关注区域中选取第一关注区域和第二关注区域，然后根据第一关注区域和第二关注区域的重叠面积大小，以及第一关注区域和第二关注区域的组合面积大小进行计算，得到第一关注区域和第二关注区域之间的交并比。若该交并比大于预先设置的交并比阈值，说明第一关注区域和第二关注区域重合部分较多，可以将第一关注区域和第二关注区域聚为一类。在对每个关注区域按照上述方式进行计算后，可以得到多个关注区域中每两个关注区域之间的交并比，从而可以根据各个交并比，对至少一个关注区域进行聚类，生成至少一个待识别区域。

进一步地，在将第一关注区域和第二关注区域聚为一类，生成待识别区域的过程中，可以分别获取第一关注区域和第二关注区域在环境图像中的位置信息(如上下左右四个边界的信息)，再根据各个位置信息对应的参数值，从各个位置信息中选取参数值最大和最小的各个最值边界信息，并将各个最值边界信息所指示的位置作为第一关注区域和第二关注区域所在簇的区域边界，最后可以根据各个最值边界信息所指示的位置，生成该簇对应的待识别区域。

例如，参见图6，图6示出了识别得到的某个用户的人脸区域和身体区域，如图6所示，图中横向条纹的矩形框为用户的人脸区域，竖向条纹的矩形框为用户的身体区域，则将人脸区域和身体区域重叠后，得到横向条纹和竖向条纹重叠的部分，即为用户的关注区域。

参见图7，图7示出了多个用户分别对应的关注区域，如图7所示，图中包括图像采集设备识别得到的多个用户分别对应的关注区域(各个实线边框对应的区域)，图像采集设备在计算得到各个关注区域之间的交并比后，若任意两个关注区域之间的交并比的参数值大于预先设置的交并比阈值0.5，则确定可以对这两个关注区域进行聚类，从而得到图中虚线所示的待识别区域。

进一步地，在进行聚类的过程中，如图7所示，环境图像中可以包括6个关注区域A、B、C、D、E和F，其中A、B和C可以聚类，D和E可以聚类，F单独作为一个待识别区域，则可以将A的左侧边界作为所在簇的左侧区域边界，并将B的下侧边界作为所在簇的下侧区域边界，再将C的上侧边界和右侧边界分别作为所在簇的上侧区域边界和右侧区域边界，类似的，D的左侧边界可以作为所在簇的左侧区域边界，而E的上侧、下侧和右侧三个方向的边界可以分别作为所在簇的上侧区域边界、下侧区域边界和右侧区域边界，而F单独作为一个待识别区域，F的各个边界则可以作为对应的待识别区域的区域边界，从而可以得到如图8所示的聚类后的多个待识别区域。

需要说明的是，本申请实施例仅是以先识别得到每个用户的人脸区域和身体区域，再分别对各个用户对应的人脸区域和身体区域进行重叠，得到每个用户的关注区域的方式为例进行说明。但是在实际应用中，图像采集设备可以在识别得到一个用户的人脸区域和身体区域后，即可根据人脸区域和身体区域确定该用户对应的关注区域，本申请实施例确定关注区域的方式不做限定。

步骤202、对待识别区域内的目标部位动作进行监测。

其中，该目标部位动作为指定身体部位触发的动作，例如，若指定身体部位为用户的手部，目标部位动作则可以为手部触发的至少一个姿势动作，如手指捏合、手掌张开等姿势动作。

图像采集设备在识别得到待识别区域后，可以对待识别区域内指定身体部位触发的目标部位动作进行识别，以便在后续步骤中，可以根据识别的目标部位动作控制终端设备执行相对应的操作，从而实现相匹配的功能。

图像识别设备在对指定身体部位进行监测的过程中，可以先对指定身体部位进行识别，再对识别的指定身体部位进行监测，参见图9，步骤202可以包括：步骤202a、步骤202b、步骤202c和步骤202d。

步骤202a、对至少一个待识别区域中任意一个待识别区域进行识别，确定待识别区域内的指定身体部位。

图像采集设备在确定各个待识别区域后，可以对每个待识别区域中的指定身体部位进行识别，从而可以监测指定身体部位的触发的动作，以便在后续步骤中，可以对指定身体部位触发的目标部位动作进行识别。

例如，指定身体部位为手部，则图像采集设备可以通过神经网络处理单元，根据预先设置的算法，对每个待识别区域中的手部进行识别，根据人体关键点信息确定用户的手部所在的位置，从而识别得到待识别区域中手部所在的区域。

需要说明的是，在实际应用中，待识别区域可能是由多个用户对应的关注区域组成的，则在识别指定身体部位的过程中，可能会在同一待识别区域中识别得到多个指定身体部位，本申请实施例对待识别区域中识别得到的指定身体部位的数目不做限定。

步骤202b、持续识别指定身体部位触发的目标部位动作。

图像采集设备可以根据步骤201b中持续采集的环境图像，确定每个环境图像中识别得到的指定身体部位，并根据指定身体部位在不同环境图像中的姿势，识别得到指定身体部位所触发的目标部位动作，以便在后续步骤中，可以根据触发的目标部位动作判断是否与预先设置的激活动作一致，从而可以在后续步骤中根据判断结果执行不同的操作。

其中，激活动作可以包括动态激活动作和静态激活动作，例如，动态激活动作可以为手部在预设时长内从某一个姿势切换至另一个姿势，如手指由分开的姿势切换至捏合的姿势，或者由握拳姿势切换至手掌张开的姿势，静态激活动作可以为手部在预设时长内保持某一姿势不变。

在一种可能的实现方式中，图像采集设备可以针对持续采集的环境图像，选取预设时间段内的图像帧，通过NPU对选取的每一帧环境图像中指定身体部位的姿势进行识别，再根据识别得到的各个姿势确定指定身体部位所触发的目标部位动作。

步骤202c、若指定身体部位触发的目标部位动作与激活动作不一致，则对其他待识别区域内的指定身体部位触发的目标部位动作进行监测，直至目标待识别区域中指定身体部位触发的目标部位动作与激活动作一致，则确定指定身体部位触发激活动作。

图像采集设备可以将识别得到的目标部位动作与预先设置的激活动作进行比较，确定目标部位动作是否与激活动作一致，从而可以根据判断结果确定是否需要对下一待识别区域的目标部位动作进行监测。

若当前待识别区域中的目标部位动作与激活动作不一致，则可以对下一个待识别区域的目标部位动作进行监测。若当前待识别区域中的目标部位动作与激活动作一致，则说明用户期望控制终端设备，以对终端设备播放的内容进行调整，此时可以确定用户的指定身体部位触发了激活动作。

如前面所述，激活动作可以包括动态激活动作和静态激活动作，针对不同的激活动作，图像采集设备则可以采用不同的方式确定用户是否触发了激活动作。例如，若目标部位动作触发了动作切换，且切换的动作与动态激活动作一致，则图像采集设备可以确定待识别区域内的指定身体部位与动态激活动作一致。

针对动态激活动作，在确定指定身体部位是否触发激活动作的过程中，图像采集设备可以先对第一帧环境图像中的指定身体部位进行识别，确定指定身体部位的姿势，再对第二帧环境图像中的指定身体部位进行识别，再次确定指定身体部位的姿势，然后可以对两个图像帧中指定身体部位的姿势进行比较，判断识别得到的两个姿势是否发生了动作切换，若发生了动作切换，则可以继续将识别得到的两个姿势与预先存储的动态激活动作进行比较，确定指定身体部位触发的目标部位动作是否与动态激活动作一致，若目标部位动作与动态激活动作一致，则可以确定指定身体部位触发激活动作。

针对静态激活动作，图像采集设备也可以先持续识别指定身体部位触发的目标部位动作，先后分别对第一帧环境图像和第二帧环境图像中的指定身体部位的姿势进行识别，若识别得到的两次姿势相同，且第一帧环境图像与第二帧环境图像之间的时间间隔大于预先设置的时间阈值，也即是，若目标部位动作与静态激活动作一致，且持续时长大于预先设置的时间阈值，则可以确定指定身体部位触发了静态激活动作。

但是，若确定指定身体部位未触发静态激活动作，则说明当前待识别区域中的用户并未触发激活动作，则可以对环境图像中的下一待识别区域进行监测，以对其他待识别区域进行监测。

需要说明的是，本申请实施例仅是以第一帧环境图像和第二帧环境图像共两帧环境图像为例进行说明，但是在实际应用中，也可以通过三帧环境图像、五帧环境图像或其他数目的环境图像识别触发的目标部位动作，本申请实施例对此不做限定。

另外，在对各个待识别区域进行监测的过程中，图像采集设备可以先获取每个待识别区域的面积，再根据每个待识别区域的面积，按照从大到小的顺序对每个待识别区域内的指定身体部位触发的目标部位动作进行监测。

例如，图像采集设备识别得到如图8所示的多个待识别区域，每个待识别区域的面积大小不同，说明每个待识别区域中用户与终端设备之间的距离不同，面积越大，则用户与终端设备之间的距离越小。若待识别区域1对应的面积为1、待识别区域2对应的面积为2、以及待识别区域3对应的面积为3，则图像采集设备可以先对待识别区域3进行监测，若并未识别到触发的激活动作，则可以再对待识别区域2进行监测，若在待识别区域2中监测到触发的激活动作，则可以执行步骤203，若并未在待识别区域2中监测到触发的激活动作，则可以再对待识别区域1进行监测。

需要说明的是，在实际应用中，若对每个待识别区域均监测完毕后，仍未监测到触发的激活动作，则可以再次获取至少一帧环境图像，并对再次获取的环境图像进行监测，直至监测到触发激活动作的待识别区域。

步骤203、若监测到目标部位动作与预先设置的激活动作一致，则对目标待识别区域中的目标部位动作进行追踪监测。

其中，目标待识别区域为与激活动作一致的目标部位动作所在的待识别区域。

若图像采集设备确定某个待识别区域中的用户触发的目标部位动作为预先设置的激活动作，则可以将该待识别区域作为目标待识别区域，并对该目标待识别区域进行追踪，从而监测目标待识别区域中用户继续触发的目标部位动作，以便在后续步骤中，可以根据追踪监测的目标部位动作控制终端设备执行相对应的操作。

例如，基于步骤202d的举例，若在待识别区域2中监测到用户触发的目标部位动作为激活动作，则可以将待识别区域2作为目标待识别区域。

需要说明的是，图像采集设备在确定用户触发的目标部位动作为激活动作后，可以向终端设备发送界面显示指令，该界面显示指令用于指示终端设备显示控制界面，以提醒用户当前已经触发了激活动作，可以继续触发与控制动作一致的目标部位动作，从而实现对终端设备的控制。

例如，终端设备可以显示如图10-a至图10-c所示的界面，图10-a示出了提醒用户对终端设备的音量大小和播放进度进行调整的界面，图10-b示出了提醒用户对终端设备的播放频道进行切换的界面，图10-c示出了提醒用户对终端设备进行静音的界面。

步骤204、若监测到目标待识别区域内的目标部位动作为预先设置的控制动作，则控制终端设备执行与该控制动作相对应的功能操作。

图像采集设备在确定目标待识别区域后，可以对目标待识别区域中指定身体部位触发的目标部位动作进行进一步识别，若监测到触发的目标部位动作为控制动作，则可以生成相对应的控制指令发送给终端设备，以控制终端设备根据该控制指令执行与控制动作对应的功能操作。

在一种可能的实现方式中，图像采集设备可以根据不断获取的环境图像，持续监测目标待识别区域中的指定身体部位，并根据指定身体部位的姿势的变化，确定指定身体部位触发的目标部位动作是否与预先设置的控制动作相匹配，从而根据判断结果确定用户是否触发了控制动作。

若触发了控制动作，图像采集设备可以先根据相匹配的预先设置的控制动作，确定指定身体部位触发的目标部位动作所对应的功能，然后根据该控制动作对应的功能，生成控制指令，再向终端设备发送该控制指令，该控制指令可以用于指示终端设备执行与该控制动作对应的功能操作。

需要说明的是，终端设备在根据控制指令执行动作的过程中，还可以根据控制指令，在图10-a至图10-c中任意一个界面的基础上，显示用户触发的控制动作所对应的选项，如终端设备可以在图10-b的基础上，突出显示快进选项以表示用户触发了终端设备的快进功能。

下述基于步骤202至步骤204，举例说明了图像采集设备对环境图像中的目标部位动作进行识别的过程，参见图11-a至图11-c，针对动态激活动作进行识别的过程中，图11-a和图11-b分别示出了指定身体部位为手部时手部触发的与动态激活动作一致的目标部位动作，图11-c示出了用户触发的目标部位动作与控制动作一致时，终端设备所展示的界面。若图像采集设备监测到环境图像的手部的姿势为图11-a所示的姿势，并在下一帧环境图像中监测到手部切换为图11-b所示的姿势，也即是用户触发的目标部位动作为手指由分开状态切换为捏合状态，则可以确定用户触发了激活动作，图像采集设备可以向终端设备发送界面显示指令，使得终端设备显示图10-a所示的界面。之后，图像采集设备可以追踪用户的手部，若检测到用户手部向上下左右任意一个方向移动，且移动距离大于预先设置的距离阈值时，可以确定用户触发的目标部位动作与控制动作一致，从而可以生成并向终端设备发送控制指令，使得终端设备在执行相应操作的同时，还可以显示如图11-c所示的界面。其中，手部向上移动可以为调高终端设备的音量，向下移动可以为调低终端设备的音量，向左可以为快退播放进度，向右可以为快进播放进度。

类似的，参见图12-a至图12-c，示出了针对另一种动态激活动作进行识别的过程，图12-a和图12-b分别示出了指定身体部位为手部时手部触发的与动态激活动作一致的目标部位动作，图12-c示出了用户触发的目标部位动作与控制动作一致时，终端设备所展示的界面。若图像采集设备监测到环境图像的手部的姿势为图12-a所示的姿势，并在下一帧环境图像中监测到手部切换为图12-b所示的姿势，也即是用户触发的目标部位动作为由握拳状态切换为手掌张开状态，则可以确定用户触发了激活动作，图像采集设备可以向终端设备发送界面显示指令，使得终端设备显示图10-b所示的界面。之后，图像采集设备可以追踪用户的手部，若检测到用户手部向上下左右任意一个方向移动，且移动距离大于预先设置的距离阈值时，可以确定用户触发的目标部位动作与控制动作一致，从而可以生成并向终端设备发送控制指令，使得终端设备在执行相应操作的同时，还可以显示如图12-c所示的界面。其中，手部向上移动可以为显示频道列表，并在频道列表中向上选取播放的频道，类似的，向下移动也可以为显示频道列表，但在频道列表中向下选取播放的频道，而向左可以为切换至上一频道，向右可以为切换至下一频道。

另外，参见图13-a至图13-b，示出了针对静态激活动作进行识别的过程，图13-a示出了指定身体部位为手部时手部触发的与静态激活动作一致的目标部位动作，图13-b示出了用户在触发的目标部位动作与控制动作一致时，终端设备所展示的界面，若图像采集设备监测到环境图像的手部的姿势为图13-a所示的姿势，并在下一帧环境图像中监测到手部仍然为图13-a所示的姿势，也即是用户触发的目标部位动作为手部始终保持放置在嘴部示意安静的姿势，则可以确定用户触发了静态激活动作，图像采集设备可以向终端设备发送界面显示指令，使得终端设备显示图10-c所示的界面。之后，图像采集设备可以追踪用户的手部，而且在追踪的过程中，终端设备可以在图10-c所示的界面中显示倒计时进度条，该进度条可以围绕界面中内侧圆形图案的外围，随着倒计时的推进逐渐形成圆环，当圆环形成时，说明倒计时结束，若在倒计时过程中用户的手部始终保持如图13-a所示的姿势，则图像采集设备可以确定的目标部位动作与控制动作一致，相应的，终端设备则可以显示如图13-b所示的界面，表示已经成功触发该静态激活动作，并控制终端设备执行静音操作。

类似的，图像采集设备还可以监测到如图14所示的手部姿势，若监测到环境图像中手部的姿势为如图14所示的姿势时，可以控制设备执行暂停操作，使得终端设备当前播放的内容暂停。

当然，在实际应用中还可以包括其他动态激活动作、静态激活动作和控制动作，本申请实施例仅是以上述各个激活动作和控制动作作为示例进行描述，对激活动作、控制动作、触发激活动作的指定身体部位、以及触发控制动作的指定身体部位不做限定。

综上所述，本申请实施例提供的设备控制方法，通过确定环境图像中待识别区域，并对待识别区域中指定身体部位触发的目标部位动作进行监测，若监测到目标部位动作与激活动作一致，则可以继续监测指定身体部位触发的目标部位动作是否与预先设置的控制动作一致，从而可以在目标部位动作与控制动作一致的情况下，控制终端设备执行与该控制动作相匹配的功能操作，通过监测目标部位动作是否与激活动作一致确定用户是否需要控制终端设备，若一致则再监测目标部位动作是否与控制动作一致，从而根据与控制动作一致的目标部位动作实现对终端设备的控制，实现通过由二段式动作组成的目标部位动作对终端设备进行控制，降低了通过用户触发一次目标部位动作即可控制终端设备的概率，降低了图像采集设备监测触发的动作的误检率，提高了图像采集设备根据用户触发的动作控制终端设备的准确度。

而且，在图像采集设备采集得到环境图像中包括多个用户时，可以根据每个待识别区域的面积大小，按照从大到小的顺序从各个待识别区域中识别用户触发的与激活动作或控制动作一致的目标部位动作，避免了同时对多个用户触发的动作进行识别造成终端设备执行多个动作的情况，提高了控制终端设备的稳定性。

另外，在确定待识别区域的过程中，先根据识别得到的人脸区域和身体区域生成关注区域，可以提高识别得到指定身体部位的概率，并根据多个关注区域生成待识别区域，可以减少图像采集设备识别指定身体部位所需的工作量。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的设备控制方法，图15是本申请实施例提供的一种设备控制装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图15，该装置包括：

识别模块1501，用于对采集的环境图像进行识别，确定该环境图像中的至少一个待识别区域，该待识别区域中包括用于控制终端设备的指定身体部位；

监测模块1502，用于对该待识别区域内的目标部位动作进行监测，该目标部位动作为该指定身体部位触发的动作；

追踪模块1503，用于若监测到该目标部位动作与预先设置的激活动作一致，则对目标待识别区域中的目标部位动作进行追踪监测，该目标待识别区域为与该激活动作一致的目标部位动作所在的待识别区域；

控制模块1504，用于若监测到该目标待识别区域内的该目标部位动作为预先设置的控制动作，控制终端设备执行与该控制动作相对应的功能操作。

可选的，该识别模块1501，具体用于采集该环境图像；对该环境图像中每个用户的人脸区域和身体区域进行识别；根据多个该人脸区域和多个该身体区域，确定至少一个该待识别区域。

可选的，该识别模块1501，还具体用于对于每个用户，根据该用户的人脸区域和身体区域，生成该用户对应的关注区域；根据多个该关注区域中每两个关注区域之间的交并比，对多个该关注区域进行聚类，得到至少一个该待识别区域。

可选的，该识别模块1501，还具体用于根据多个该关注区域中每两个关注区域之间的交并比，对多个该关注区域进行聚类，得到至少一个簇，该簇中包括至少一个关注区域，若该簇包括多个关注区域，则该簇中的任意一个关注区域，与该簇中其他至少一个关注区域的交并比大于预先设置的交并比阈值；根据每个该簇中各关注区域在该环境图像中的位置，确定每个该簇的区域边界；根据每个该簇的区域边界，生成每个该簇分别对应的该待识别区域。

可选的，该激活动作包括动态激活动作；

该监测模块1502，具体用于若该目标部位动作触发了动作切换，且切换的动作与该动态激活动作一致，则确定该待识别区域内的该目标部位动作与该动态激活动作一致。

可选的，该激活动作包括静态激活动作；

该监测模块1502，具体用于若该目标部位动作与该静态激活动作一致，且持续时长大于预先设置的时间阈值，则确定该指定身体部位触发了该静态激活动作。

可选的，该监测模块1502，具体用于获取每个该待识别区域的面积；根据每个该待识别区域的面积，按照从大到小的顺序对每个该待识别区域内的该目标部位动作进行监测。

可选的，该控制模块1504，具体用于确定该控制动作对应的功能；根据该控制动作对应的功能，生成控制指令；向该终端设备发送该控制指令，该控制指令用于指示该终端设备执行与该控制动作对应的功能操作。

可选的，参见图16，该装置还包括：

发送模块1505，用于向该终端设备发送界面显示指令，该界面显示指令用于指示该终端设备显示控制界面。

综上所述，本申请实施例提供的设备控制装置，通过确定环境图像中待识别区域，并对待识别区域中指定身体部位触发的目标部位动作进行监测，若监测到目标部位动作与激活动作一致，则可以继续监测指定身体部位触发的目标部位动作是否与预先设置的控制动作一致，从而可以在目标部位动作与控制动作一致的情况下，控制终端设备执行与该控制动作相匹配的功能操作，通过监测目标部位动作是否与激活动作一致确定用户是否需要控制终端设备，若一致则再监测目标部位动作是否与控制动作一致，从而根据与控制动作一致的目标部位动作实现对终端设备的控制，实现通过由二段式动作组成的目标部位动作对终端设备进行控制，降低了通过用户触发一次目标部位动作即可控制终端设备的概率，降低了图像采集设备监测触发的动作的误检率，提高了图像采集设备根据用户触发的动作控制终端设备的准确度。

本申请实施例还提供一种图像采集设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如图2中所示的任一项所述的设备控制方法。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如图2中所示的任一项所述的设备控制方法。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到图像采集设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围，均应包含在本申请的保护范围之内。

最后应说明的是：以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种设备控制方法，其特征在于，包括：

采集环境图像；

对所述环境图像中每个用户的人脸和身体进行识别，分别对识别到的人脸所在的区域和身体所在的区域进行扩充，得到每个用户的人脸区域和身体区域；

对于每个用户，将所述用户的人脸区域和身体区域重叠的区域确定为所述用户对应的关注区域；

根据各个关注区域中每两个关注区域之间的交并比，对各所述关注区域进行聚类，得到至少一个簇，所述簇中包括至少一个关注区域，对于包括多个关注区域的簇，所述簇中的任意一个关注区域，与所述簇中至少一个其他关注区域的交并比大于预先设置的交并比阈值；

根据每个簇中各关注区域在所述环境图像中的位置，确定每个簇的区域边界；

根据每个簇的区域边界，生成每个簇对应的待识别区域，所述待识别区域中包括用于控制终端设备的指定身体部位；

2.根据权利要求1所述的方法，其特征在于，所述激活动作包括动态激活动作；

所述对所述待识别区域内的目标部位动作进行监测，包括：

3.根据权利要求1所述的方法，其特征在于，所述激活动作包括静态激活动作；

所述对所述待识别区域内的目标部位动作进行监测，包括：

4.根据权利要求1至3任一所述的方法，其特征在于，所述对所述待识别区域内的目标部位动作进行监测，包括：

获取每个所述待识别区域的面积；

5.根据权利要求1至3任一所述的方法，其特征在于，所述控制终端设备执行与所述控制动作相对应的功能操作，包括：

确定所述控制动作对应的功能；

根据所述控制动作对应的功能，生成控制指令；

6.根据权利要求1至3任一所述的方法，其特征在于，所述方法还包括：

7.一种设备控制装置，其特征在于，包括：

识别模块，用于采集环境图像；对所述环境图像中每个用户的人脸和身体进行识别，分别对识别到的人脸所在的区域和身体所在的区域进行扩充，得到每个用户的人脸区域和身体区域；对于每个用户，将所述用户的人脸区域和身体区域重叠的区域确定为所述用户对应的关注区域；根据各个关注区域中每两个关注区域之间的交并比，对各所述关注区域进行聚类，得到至少一个簇，所述簇中包括至少一个关注区域，对于包括多个关注区域的簇，所述簇中的任意一个关注区域，与所述簇中至少一个其他关注区域的交并比大于预先设置的交并比阈值；根据每个簇中各关注区域在所述环境图像中的位置，确定每个簇的区域边界；根据每个簇的区域边界，生成每个簇对应的待识别区域，所述待识别区域中包括用于控制终端设备的指定身体部位；

8.一种设备控制系统，其特征在于，所述设备控制系统包括：图像采集设备和终端设备，所述图像采集设备与所述终端设备连接；

所述图像采集设备用于采集环境图像；对所述环境图像中每个用户的人脸和身体进行识别，分别对识别到的人脸所在的区域和身体所在的区域进行扩充，得到每个用户的人脸区域和身体区域；对于每个用户，将所述用户的人脸区域和身体区域重叠的区域确定为所述用户对应的关注区域；根据各个关注区域中每两个关注区域之间的交并比，对各所述关注区域进行聚类，得到至少一个簇，所述簇中包括至少一个关注区域，对于包括多个关注区域的簇，所述簇中的任意一个关注区域，与所述簇中至少一个其他关注区域的交并比大于预先设置的交并比阈值；根据每个簇中各关注区域在所述环境图像中的位置，确定每个簇的区域边界；根据每个簇的区域边界，生成每个簇对应的待识别区域，所述待识别区域中包括用于控制终端设备的指定身体部位；

所述终端设备用于执行与所述控制动作相对应的功能操作。

9.一种图像采集设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的方法。