CN114463781A

CN114463781A - 确定触发手势的方法、装置及设备

Info

Publication number: CN114463781A
Application number: CN202210054867.XA
Authority: CN
Inventors: 贾配洋; 侯俊; 林晓帆
Original assignee: Insta360 Innovation Technology Co Ltd
Current assignee: Insta360 Innovation Technology Co Ltd
Priority date: 2022-01-18
Filing date: 2022-01-18
Publication date: 2022-05-10
Also published as: WO2023138403A1

Abstract

本申请实施例涉及人机交互技术领域，公开了一种确定触发手势的方法、装置及设备，获取视频流中时序连续的N个视频帧，对每一视频帧进行目标部件检测处理，得到至少一个目标部件的边界框，然后，根据至少一个目标部件的边界框和该视频帧，进行手势识别，确定该视频帧对应的手势，N个视频帧对应的手势构成手势序列，最后，根据手势序列，确定触发手势。即先进行目标部件(人头、人脸或人体头部加肩部)检测，然后在目标部件附近的局部区域(边界框的周围)进行手势检测识别，相比于全图手势检测识别，能够降低算力，另外，手部件的特征粒度在目标部件附近的局部区域中相对较大，使得手部件的特征明显，能促进提高各视频帧中手势检测的准确性。

Description

确定触发手势的方法、装置及设备

技术领域

本申请实施例涉及人机交互技术领域，尤其涉及一种确定触发手势的方法、装置及设备。

背景技术

随着产品智能化、电子化以及互联化的不断发展和普及，出现了很多越来越智能化的人机交互方式，以满足人们追求个性化和时尚化的需求。例如，智能手机的触屏是一种通过触摸来实现的人机交互系统。还有一些通过语音交互进行控制的产品，比如智能音响，用户只要语音输入相关指令，产品就能根据语音输入的指令执行相关的操作。在一些产品中，例如智能相机、游戏机或无人机，还可以通过手势来实现人机交互，不同的手势对应不同的指令，当产品获取到手势后，执行与该手势对应的指令。

然而，手势在图像或视频帧中通常较小、姿态灵活，不易于跟踪。在算力有限的情况下，采用手势识别模型进行全图手势检测识别，以确定用于触发产品执行相应指令的触发手势，由于识别模型压缩导致手部区域在全图中占比极小，使得手势识别模型可靠性不高，无法满足设备交互的精度及速度要求，容易出现误触发。

发明内容

本申请实施例主要解决的技术问题是提供一种确定触发手势的方法、装置及设备，能在保持算力尽可能低的情况下，提高触发手势的准确性，有效减少误触发，即实现手势触发的鲁棒性和稳定性。

为解决上述技术问题，第一方面，本申请实施例中提供给了一种确定触发手势的方法，包括：

获取视频流中时序连续的N个视频帧，其中，N是大于或等于1的整数；

对视频帧进行目标部件检测处理，得到至少一个目标部件的边界框；

根据至少一个目标部件的边界框和视频帧，进行手势识别，确定视频帧对应的手势，N个视频帧对应的手势构成手势序列；

根据手势序列，确定触发手势。

在一些实施例中，前述根据至少一个目标部件的边界框和视频帧，进行手势识别，确定视频帧对应的手势，包括：

分别对至少一个目标部件的边界框进行外扩处理，得到至少一个外扩边界框；

对视频帧中位于至少一个外扩边界框内的区域进行手部件检测处理，以获取手部件检测结果；

根据手部件检测结果，确定目标手部件；

对目标手部件进行手势分类处理，得到视频帧对应的手势。

在一些实施例中，前述根据手部件检测结果，确定目标手部件，包括：

若手部件检测结果包括一个手部件，则确定手部件为目标手部件；

若手部件检测结果包括多个手部件，则根据每个手部件的置信度、与手部件对应的目标部件之间的距离以及手部件的像素面积，计算各手部件的得分，并确定得分最高的手部件作为目标手部件。

在一些实施例中，前述根据每个手部件的置信度、与手部件对应的目标部件之间的距离以及手部件的像素面积，计算各手部件的得分，包括：

采用以下公式计算各手部件的得分；

其中，Score_i为第i个手部件的得分，i为手部件的标号，Conf_i为第i个手部件的置信度，Dist_i为第i个手部件的与目标部件之间的距离，Area_i为第i个手部件的像素面积。

在一些实施例中，前述确定触发手势，包括：

统计手势序列中各手势类别对应的手势数量，若手势数量最多的第一手势类别满足预设条件，则将属于第一手势类别的手势作为触发手势。

在一些实施例中，前述预设条件包括属于第一手势类别的手势数量占手势序列中手势总数量的百分比大于或等于百分比阈值，或，属于第一手势类别的手势数量大于或等于数量阈值。

在一些实施例中，该方法还包括：获取触发手势对应的第一目标部件；

在视频流中跟踪检测第一目标部件对应的手势，以确定新的触发手势。

为解决上述技术问题，第二方面，本申请实施例中提供给了一种交互方法，包括：

采用如上第一方面的确定触发手势的方法确定触发手势；

控制目标设备执行与触发手势对应的操作指令。

为解决上述技术问题，第三方面，本申请实施例中提供给了一种确定触发手势的装置，包括：

获取模块，用于获取视频流中时序连续的N个视频帧，其中，N是大于或等于1的整数；

检测模块，用于对视频帧进行目标部件检测处理，得到至少一个目标部件的边界框；

识别模块，用于根据至少一个目标部件的边界框和视频帧，进行手势识别，确定视频帧对应的手势，N个视频帧对应的手势构成手势序列；

确定模块，用于根据手势序列，确定触发手势。

为解决上述技术问题，第四方面，本申请实施例中提供给了一种电子设备，其特征在于，包括：

至少一个处理器，以及

与至少一个处理器通信连接的存储器，其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行第一方面的方法。

为解决上述技术问题，第五方面，本申请实施例中提供给了一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令用于使计算机执行第一方面的方法。

本申请实施例的有益效果：区别于现有技术的情况，本申请实施例提供的确定触发手势的方法，首先，获取视频流中时序连续的N个视频帧，对每一视频帧进行目标部件检测处理，得到至少一个目标部件的边界框，然后，根据至少一个目标部件的边界框和该视频帧，进行手势识别，确定该视频帧对应的手势，N个视频帧对应的手势构成手势序列，最后，根据手势序列，确定触发手势。在此方法中，先进行目标部件(人头、人脸或人体头部加肩部)检测，然后在目标部件附近的局部区域(边界框的周围)进行手势检测识别，相比于全图手势检测识别，能够降低算力，另外，手部件的特征粒度在目标部件附近的局部区域中相对较大，使得手部件的特征明显，能促进提高各视频帧中手势检测的准确性。此外，触发手势是考虑时序连续的N个视频帧中的手势得到的，相对于采用单帧的手势确定触发手势，能够提高触发手势的准确性，在一定程度上避免误触发。比如，如果用户不小心做出了某个手势，该手势在手势序列中突然出现较少次数，则将不会被认定是有效的触发手势，从而使得不会响应该手势，减少误触发的发生。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1为本申请一些实施例中通过手势实现人机交互的应用场景示意图；

图2为本申请一些实施例中确定触发手势的方法的流程示意图；

图3为本申请一些实施例中手势的示意图；

图4为本申请一些实施例中视频帧上边界框的示意图；

图5为本申请一些实施例中边界框扩展成外扩边界框的示意图；

图6为本申请一些实施例中用户在电子设备前的姿态示意图；

图7为本申请一些实施例中确定触发手势的方法的流程示意图；

图8为本申请一些实施例中确定触发手势的装置的结构示意图；

图9为本申请一些实施例中电子设备的结构示意图。

具体实施方式

下面结合具体实施例对本申请进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本申请，但不以任何形式限制本申请。应当指出的是，对本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进。这些都属于本申请的保护范围。

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，如果不冲突，本申请实施例中的各个特征可以相互结合，均在本申请的保护范围之内。另外，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。此外，本文所采用的“第一”、“第二”、“第三”等字样并不对数据和执行次序进行限定，仅是对功能和作用基本相同的相同项或相似项进行区分。

除非另有定义，本说明书所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本说明书中在本申请的说明书中所使用的术语只是为了描述具体的实施方式的目的，不是用于限制本申请。本说明书所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

此外，下面所描述的本申请各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

请参阅图1，图1为通过手势实现人机交互的应用场景示意图，该应用场景包括电子设备和至少一个用户。其中，电子设备10包括至少一个摄像头11，至少一个用户在摄像头11的视野范围内。摄像头11采集图像或视频流。当用户想要控制电子设备10启用其中的某项功能时，可以做出某种手势。

其中，电子设备10可以是具有计算处理能力的终端设备，例如设置有摄像头的电视机、电子相框、游戏盒、无人飞行器、智能小车或智能相机等。

控制电子设备10可以是控制该电子设备10中的功能组件，该功能组件可以是硬件或软件模块。在一个示例中，电子设备10可以包括但不限于于智能相机，对智能相机进行控制，可以包括但不限于于对智能相机中设置的镜头焦距控制模块、情景模式切换模块或闪光控制模块等一个或多个功能组件的控制。

具体地，以电子设备10为智能相机进行示例性说明，例如，智能相机前方有3个用户，智能相机获取视频流，视频流中的每个视频帧包括这3个用户。用户可以通过手势，控制智能相机执行相应的指令，实现人机交互，以满足用户的拍摄需求，例如，通过不同的手势，控制智能相机开启调焦或取消调焦，改变情景模式，开启手势跟踪或关闭手势跟踪等。

例如，当用户A做出“手掌张开”的手势时，智能相机通过视频流识别出该手势后，执行反映“开启跟踪用户A的头部件”的指令，当用户A做出“点赞”的手势时，智能相机通过视频流识别出该手势后，执行反映“开启调焦”的指令。从而，用户不用手动调节智能相机，在智能相机前即可通过手势进行智能控制，得到满意的合照或视频。可以理解的是，当智能相机前只有一个用户时，用户通过手势控制，即可控制智能相机为自己拍摄出满意的照片或视频，不需要额外的摄影师，简单方便，适合多场景使用。

识别视频流中的手势是手势控制中的关键因素，若识别的手势不准确，容易造成电子设备做出与手势不对应的执行，即造成误触发。在本申请发明人所知晓的技术方案中，通常采用手势识别模型进行全图手势检测识别，以确定用于触发电子设备执行相应指令的触发手势。然而，基于手势在图像或视频帧中通常较小、姿态灵活，不易于跟踪，使得手势识别模型可靠性不高，无法满足设备交互的精度及速度要求，容易出现误触发。此外，全图手势检测识别，需要较大的算力，对电子设备的硬件性能要求较高。

有鉴于此，本申请一些实施例提供了一种确定触发手势的方法，首先，获取视频流中时序连续的N个视频帧，对每一视频帧进行目标部件检测处理，得到至少一个目标部件的边界框，然后，根据至少一个目标部件的边界框和该视频帧，进行手势识别，确定该视频帧对应的手势，N个视频帧对应的手势构成手势序列，最后，根据手势序列，确定触发手势。在此方法中，先进行目标部件(人头、人脸或人体头部加肩部)检测，然后在目标部件附近的局部区域(边界框的周围)进行手势检测识别，相比于全图手势检测识别，能够降低算力，另外，手部件的特征粒度在目标部件附近的局部区域中相对较大，使得手部件的特征明显，能促进提高各视频帧中手势检测的准确性。此外，触发手势是考虑时序连续的N个视频帧中的手势得到的，相对于采用单帧的手势确定触发手势，能够提高触发手势的准确性，在一定程度上避免误触发。比如，如果用户不小心做出了某个手势或者某一帧出现了手势误分类，该手势在手势序列中突然出现较少次数，则将不会被认定是有效的触发手势，从而使得电子设备不会响应该手势，减少误触发的发生。

以下，对本申请一些实施例中确定触发手势的方法进行详细说明，请参阅图2，该方法S100包括但不限制于以下步骤：

S10：获取视频流中时序连续的N个视频帧，其中，N是大于或等于1的整数。

该视频流可由上述应用场景实施例中摄像头采集得到，可以理解的是，视频流包括多个时间上连续的视频帧。采用视频流中时序连续的N个视频帧进行手势检测识别处理。这N个视频帧包括用户的手势。

可以理解的是，摄像头前可以有一个用户或多个用户，从而，视频帧中可以包括一个用户的手势，或多个用户的手势。为了实现手势控制，从而，需要基于这N个视频帧确定有效的触发手势，以控制电子设备中的功能组件运行。

可以理解的是，手势可以是静态手势，如图3示出了一些静态手势，例如手掌手势、OK手势、点赞手势、食指手势或拳头手势等。在此，仅仅是对手势进行示例性说明，可以理解的是，用户通过手部件做出的形态和动作均可以称为手势，在本申请中，不对手势进行任何限制。

S20：对视频帧进行目标部件检测处理，得到至少一个目标部件的边界框。

由于手部件(即手)相对于人的身体较小，并且在视频帧中也通常较小，不容易跟踪识别，为了更快速有效地检测识别手部件做出的手势，对于N个视频帧中的每一个视频帧，先进行目标部件检测处理，得到至少一个目标部件的边界框。

其中，目标部件是人肢体的一部分，例如可以是头部、脸部或头部加肩部等部件。这些目标部件特征明显、易于检测识别。通过识别目标部件可以初步锁定手部件可能出现的像素范围。

本步骤中的目标部件检测处理，可以通过预先训练好的目标部件检测神经网络执行，将N个视频帧输入该训练好的神经网络，进行目标检测，就可以得到目标部件的位置信息，该目标部件的位置信息采用边界框表示。

以目标部件为头部为例，将N个视频帧输入训练好的头部检测神经网络，对于每一视频帧，训练好的头部检测神经网络均会输出视频帧上的各个头部的位置(即边界框)。如图4所示，图4示出了一视频帧上的检测结果，在视频帧中，每个人的头部在边界框之内，边界框是一个矩形框，可以用参数(x,y,w,h)表示，其中，(x,y)表示边界框的中心，w表示边界框的宽，h表示边界框的高。可以理解的是，这些参数可以是以视频帧的图像坐标系为参考确定的。边界框反映目标部件的位置。

可以理解的是，若视频帧中有1个用户，会检测出1个目标部件的边界框，若视频帧中有多个用户，会检测出多个目标部件的边界框，图4中是以视频帧中包括三个用户进行示例性说明。

S30：根据至少一个目标部件的边界框和视频帧，进行手势识别，确定视频帧对应的手势，N个视频帧对应的手势构成手势序列。

基于人体结构，可知手部件在目标部件附近，例如在目标部件的下方或上方等，从而，在视频帧中目标部件附近搜索识别手部件，进而识别手势，能够有效减少无效区域的检测识别，这里无效区域可以理解为手部件大概率不会出现的区域，例如离目标部件较远的背景区域，或，离目标部件较远的身体躯干区域。

具体地，在视频帧中，在各目标部件的边界框周围的区域，进行手势识别，从而，可以确定该视频帧对应的手势。

可以理解的是，N个视频帧均采用上述方式进行手势识别，从而，可以得到N个手势，这N个手势按视频帧的时序构成手势序列。

例如，若N为20，即采用时序连续的20个视频帧进行手势识别，得到长度为20的手势序列，手势序列可以为[OK手势，手掌手势，......，手掌手势，拳头手势]，即按时序排序，第1个为OK手势，中间18个为手掌手势，最后1个为拳头手势。

在一些实施例中，上述步骤S30具体包括：

S31：分别对至少一个目标部件的边界框进行外扩处理，得到至少一个外扩边界框。

在此实施例中，将各目标部件的边界框进行外扩处理，分别得到相应的外扩边界框。可以理解的是，该外扩边界框框住视频帧的像素区域即为最大概率会出现手部件的像素区域。

可以理解的是，外扩边界框是基于边界框进行外扩处理得到的。具体的外扩处理方式，本领域技术人员可以自行设置，例如，以边界框的中心(x,y)为中心，对边界框的4个边界进行等比例放大扩展。在一些实施例中，以边界框的中心(x,y)为中心，向四周进行外扩即可，外扩后得到的外扩边界框可以为圆形或梯形等，对外扩边界框的形状不做具体限制。

在一些实施例中，上述步骤S31具体包括：

S311：获取外扩系数，外扩系数包括顶边外扩量、底边外扩量、左边外扩量和右边外扩量，其中，顶边外扩量小于底边外扩量。

S312：将至少一个边界框的四条边分别按外扩系数进行外扩调整，得到至少一个外扩边界框。

可以理解的是，外扩系统中的顶边外扩量、底边外扩量、左边外扩量和右边外扩量可以是基于视频帧分辨率和边界框确定的像素距离。例如，外扩系数中顶边外扩量top＝0.5，底边外扩量down＝2，左边外扩量left＝2，右边外扩量right＝2。

从而，对于视频帧中的每一边界框，将边界框的四条边分别按外扩系数进行外扩调整，得到外扩边界框。具体地，如图5所示，将边界框的顶边按顶边外扩量top进行外扩，边界框的底边按底边外扩量down进行外扩，边界框的左边按左边外扩量left进行外扩，边界框的右边按右边外扩量right进行外扩，得到对应的外扩边界框。

值得说明的是，顶边外扩量小于底边外扩量。因为用户的手部件不会超过头部太多，将顶边外扩量设置小于底边外扩量，能够有效减小手部件检测的范围，并且不会发生手部件不在或不完全在外扩边界框的情况，即能够平衡手部件检测速度和准确度。

S32：对视频帧中位于至少一个外扩边界框内的区域进行手部件检测处理，以获取手部件检测结果。

当获得各外扩边界框后，对视频帧中位于各外扩边界框内的区域进行手部件检测处理，以获取手部件检测结果。这里，手部件检测处理是检测视频帧上的各外扩边界框中哪些像素是手部件，即检测定位出各手部件，手部件检测结果包括视频帧中各手部件的像素位置。

可以理解的是，本步骤中的手部件检测处理，可以通过预先训练好的手部件检测神经网络执行，将各外扩边界框截取视频帧得到的局部图像输入该训练好的手部件检测神经网络，进行目标检测，就可以得到手部件的像素位置信息。

S33：根据手部件检测结果，确定目标手部件。

可以理解的是，上述手部件检测结果中可以包括1个手部件，例如智能相机前仅有1个用户进行单手手势操作的场景。在一些场景中，手部件检测结果也可能包括多个手部件，例如多个用户在智能相机前，其中一个用户在进行手势操作(即该用户的手部件可以理解为有效手部件)，其他用户的手部件可会被检测出来(即其他用户的手部件可以理解为无效手部件)。

因此，需要从手部件检测结果中，确定有效的手部件，作为目标手部件。该目标手部件的手势，为视频帧对应的手势。

在一些实施例中，可以从手部件检测结果中各手部件的特征中，确定目标手部件。考虑到特意做出手势以控制电子设备的用户，一般会将手部件放在身体前方，使得有效的手部件更接近摄像头，摄像头更清楚的采集，从而，有效的手部件离摄像头更近，像素面积占比更大。因此，在一些实施例中，可以将像素面积占比最大的手部件作为目标手部件。或者，在一些实施例中，基于有效的手部件更加清楚，从而可以将置信度最大的手部件作为目标手部件。可以理解的是，手部件的置信度反映手部件是真实的“手”的程度。

在一些实施例中，上述步骤S33具体包括：

S331：若手部件检测结果包括一个手部件，则确定手部件为目标手部件。

可以理解的是，在智能相机前仅有1个用户进行单手手势操作的场景中，仅能检测出一个手部件，从而，确定该手部件为目标手部件。

S332：若手部件检测结果包括多个手部件，则根据每个手部件的置信度、与手部件对应的目标部件之间的距离以及手部件的像素面积，计算各手部件的得分，并确定得分最高的手部件作为目标手部件。

在手部件检测结果包括多个手部件的情况下，对于每个手部件，考虑手部件的置信度，手部件与该手部件对应的目标部件之间距离，以及手部件的像素面积，计算手部件的得分。即从上述置信度、距离和像素面积三个因素，对视频帧中的多个手部件进行打分。将得到最高的手部件作为目标手部件。

可以理解的是，特意做出手势以控制电子设备的用户，一般会将手部件放在身体前方，高度与肩部上下，使得有效的手部件更接近摄像头，摄像头更清楚的采集，从而，有效的手部件离摄像头更近，像素面积占比更大，置信度也更高，与手部件对应的目标部件之间的距离也越小。

如图6所示，图6示出了一种情况，用户A、用户B和用户C在智能相机前进行拍照、录视频或直播，视频帧中包括用户A、用户B和用户C，其中，用户A将手部件平行伸长指向智能相机做“OK手势”以希望调节焦距，用户B为了摆姿势，将手部件最大程度地举过头顶做出“V形手势”，用户C为了摆姿势，将胳膊交叉，只露出部分手部件，从而，在进行手部件检测时，用户A和用户B的手部件暴露清楚，均具有较高的置信度，用户C的手部件不完全暴露，具有较低的置信度；用户A的手部件靠近智能相机，具有较大的像素面积，用户B的手部件和用户C的手部件相对远离智能相机，具有较小的像素面积；用户A的手部件和用户C的手部件离各自的头部件具有较小的距离，用户B的手部件离其头部件具有较大的距离。若从单一因素去计算得分，无法充分反映真实情况，则无法准确确定出真正的目标手部件。

在此实施例中，从手部件的置信度、与其对应的目标部件之间的距离以及像素面积这三个因素去计算得分，得分与置信度和像素面积呈正相关，与手部件和对应的目标部件之间的距离呈反相关，能够使得得分反映真实情况，使得目标手部件更加准确。

在一些实施例中，上述步骤S332具体包括：

采用以下公式计算各手部件的得分；

其中，Score_i为第i个手部件的得分，i为手部件的标号，Conf_i为第i个手部件的置信度，Dist_i为第i个手部件的与所述目标部件之间的距离，Area_i为第i个手部件的像素面积。

相当于距离占比，

相当于像素面积占比。alp a为置信度的权重，beta为距离占比的权重，lambda为像素面积占比的权重，通过权重设置，可以设置各项对总体得分的重要性。

在此实施例中，一手部件的得分是其置信度与像素面积占比的和，再减去距离占比，其中，像素面积占比使得像素面积的权重减小，距离占比使得距离的权重减小，能够消除人体的特殊情况，使得得分更加准确，有益于精确定位目标手部件。

S34：对目标手部件进行手势分类处理，得到视频帧对应的手势。

在获取到目标手部件后，对其呈现的手势进行手势分类处理，从而，得到该视频帧对应的手势。

可以理解的是，本步骤中的手势分类处理，可以通过预先训练好的手势分类神经网络执行，将采用目标手部件的边界框截取该目标手部件的图像区域，将该目标手部件的图像区域输入上述训练好的手势分类神经网络，进行手势分类，就可以得到目标手部件的手势类别。

可以理解的是，手势分类神经网络能够检测的手势类型可以根据实际需求而进行设置，例如，训练手势分类神经网络的训练集中图像可以包括六种手势类别，分别是：手掌手势，OK手势，L形手势，V形手势，拳头手势，和其它手势等。从而，训练好的手势分类神经网络能够识别出技术人员所需要识别的手势类别。

在此实施例中，在确定视频帧对应的手势时，首先对视频帧中各目标部件的边界框进行外扩处理，得到各外扩边界框，各外扩边界框即为手部件检测处理的范围，对视频帧中位于各外扩边界框内的区域进行手部件检测处理，以获取手部件检测结果，一方面，能够减小检测范围，有益于提高检测速度，降低算力，另一方面，手部件在扩外边界框中具有相对较大的特征粒度，有益于促进手部件检测结果的准确性。另外，根据手部件检测结果，确定目标手部件，对目标手部件进行手势分类处理，得到该视频帧对应的手势，一方面，使得目标手部件为真正有效的手部件，该视频帧对应的手势更加准确，进而使得手势序列更加准确，另一方面，只需对目标手部件进行手势分类处理，相比于对每个手部件均进行手势分类处理再确定视频帧对应的手势，能够有效减少算力。

S40：根据手势序列，确定触发手势。

可以理解的是，手势序列包括时序连续的N个视频帧对应的手势。在获取到手势序列后，根据手势序列，确定用于触发电子设备执行相应指令的触发手势。

触发手势是考虑时序连续的N个视频帧中的手势得到的，相对于采用单帧的手势确定触发手势，能够提高触发手势的准确性，在一定程度上避免误触发。比如，如果用户不小心做出了某个手势，该手势在手势序列中突然出现较少次数，则将不会被认定是有效的触发手势，从而使得电子设备不会响应该手势，减少误触发的发生。

在一些实施例中，上述步骤S40具体包括：

S41：统计手势序列中各手势类别对应的手势数量，若手势数量最多的第一手势类别满足预设条件，则将属于第一手势类别的手势作为触发手势。

例如，N为20，统计结果为“手掌手势”有18个，“OK手势”有1个，“L形手势”有0个，“V形手势”有0个，“拳头手势”有0个，其中，“手掌手势”的数量最多，称为第一手势类别，该第一手势类别满足预设条件，则将属于第一手势类别的手势(即“手掌手势”)作为触发手势。

在一些实施例中，预设条件包括属于第一手势类别的手势数量占手势序列中手势总数量的百分比大于或等于百分比阈值。例如，上述第一手势类别(“手掌手势”)的数量占手势总数量20的百分比为0.9，大于百分比阈值(例如0.8)，则将“手掌手势”作为触发手势。

在一些实施例中，预设条件包括属于第一手势类别的手势数量大于或等于数量阈值。例如，上述第一手势类别(“手掌手势”)的数量18大于数量阈值(例如16)，则将“手掌手势”作为触发手势。

在此实施例中，基于单帧的目标部件检测、手部件检测结果容易出现漏检或误检，训练样本往往也无法覆盖所有的用户场景，导致单帧的手势分类结果可能会由于目标部件检测结果、手部件检测结果不够准确而偶现误识别或误分类，为防止误触发，结合统计手势序列，通过设置阈值，可以有效改善上述误触发的问题。

在一些实施例中，请参阅图7，该方法还包括：

S50：获取所述触发手势对应的第一目标部件。

S60：在所述视频流中跟踪检测所述第一目标部件对应的手势，以确定新的触发手势。

在确定触发手势后，获取触发手势对应的第一目标部件，例如，若触发手势是用户A做出的，从而，用户A的目标部件为该第一目标部件。

在后续的视频流中，跟踪检测第一目标部件对应的手势，例如，跟踪检测用户A的手势即可，具体地，在视频流的视频帧中在用户A对应的外扩边界框内检测手部件，并识别手部件的手势即可。从而，使得，电子设备前的用户谁先开启跟踪，谁优先控制，一方面，不仅使得手势控制更加稳定，减少因多个手势而导致的误触发，另一方面，在接下来的视频流中仅检测第一目标部件对应的手势，能够有效减少算力。

可以理解的是，对第一目标部件的手势进行检测，也可以采用如上实施例中的方式，例如，在开启跟踪后，检测时序连续的N个视频帧中第一目标部件的手部件，即响应跟踪第一目标部件的外扩边界框中的手部件，并对手部件进行手势分类，得到开启跟踪后的手势序列。可以理解的是，若第一目标部件的外扩边界框中出现用户的两只手部件，则可以采用如上述实施例中步骤S332中的公式计算手部件得分，将得分最高的手部件作为用于手势分类识别的手部件。

最后，根据该开启跟踪后的手势序列，确定新的触发手势。例如，对该开启跟踪后的手势序列中的手势类别进行统计，若数量最多的手势的数量占比大于等于百分比阈值或数量最多的手势的数量大于等于数量阈值，则将该数量最多的手势作为新的触发手势。

在此实施例中，在确定触发手势后，获取触发手势对应的第一目标部件，在后续的视频流中，跟踪检测第一目标部件对应的手势，使得，电子设备前的用户谁先开启跟踪，谁优先控制，一方面，不仅使得手势控制更加稳定，减少因多个手势而导致的误触发，另一方面，在接下来的视频流中仅检测第一目标部件对应的手势，能够有效减少算力。

综上所述，本申请实施例提供的确定触发手势的方法，首先，获取视频流中时序连续的N个视频帧，对每一视频帧进行目标部件检测处理，得到至少一个目标部件的边界框，然后，根据至少一个目标部件的边界框和该视频帧，进行手势识别，确定该视频帧对应的手势，N个视频帧对应的手势构成手势序列，最后，根据手势序列，确定触发手势。在此方法中，先进行目标部件(人头、人脸或人体头部加肩部)检测，然后在目标部件附近的局部区域(边界框的周围)进行手势检测识别，相比于全图手势检测识别，能够降低算力，另外，手部件的特征粒度在目标部件附近的局部区域中相对较大，使得手部件的特征明显，能促进提高各视频帧中手势检测的准确性。此外，触发手势是考虑时序连续的N个视频帧中的手势得到的，相对于采用单帧的手势确定触发手势，能够提高触发手势的准确性，在一定程度上避免误触发。比如，如果用户不小心做出了某个手势，该手势在手势序列中突然出现较少次数，则将不会被认定是有效的触发手势，从而使得不会响应该手势，减少误触发的发生。

以上介绍了本申请实施例中确定触发手势的方法，为了更好地实施本申请的方法，接下来介绍本申请实施例提供的装置。

本申请实施例提供的一种交互方法，该交互方法包括：

(1)采用如上述任意一项实施例中确定触发手势的方法确定触发手势。

(2)控制目标设备执行与该触发手势对应的操作指令。

当用户要控制一个设备启用其中的某项功能时，可以做出某种手势。设备识别采用上述任意一项实施例中确定触发手势的方法检测出该手势，并确定触发手势。该设备可以称为目标设备，控制目标设备可以是控制该设备中的功能组件，该功能组件可以是硬件或者软件模块。在一个示例中，目标设备可以包括但不限制于智能相机，对智能相机进行控制，可以包括但不限于于对智能相机中设置的镜头焦距控制模块、情景模式切换模块或闪光控制模块等一个或多个功能组件的控制。

可以理解的是，触发手势与操作指令一一对应，例如，当用户A做出“手掌张开”的手势时，智能相机通过视频流识别出触发手势后，执行反映“开启跟踪用户A的头部件”的操作指令，当用户A做出“点赞”的手势时，智能相机通过视频流识别出该触发手势后，执行反映“开启调焦”的操作指令。

因此，控制目标设备执行与该触发手势对应的操作指令，用户不用手动调节目标设备，在目标设备前即可通过手势进行智能交互控制。

请参阅图8，图8是本申请实施例提供的一种确定触发手势的装置，该装置200包括：

获取模块210，用于获取视频流中时序连续的N个视频帧，其中，N是大于或等于1的整数。

检测模块220，用于对所述视频帧进行目标部件检测处理，得到至少一个目标部件的边界框。

识别模块230，用于根据所述至少一个目标部件的边界框和所述视频帧，进行手势识别，确定所述视频帧对应的手势，所述N个视频帧对应的手势构成手势序列。

确定模块240，用于根据所述手势序列，确定触发手势。

上述装置200，通过获取视频流中时序连续的N个视频帧，对每一视频帧进行目标部件检测处理，得到至少一个目标部件的边界框，然后，根据至少一个目标部件的边界框和该视频帧，进行手势识别，确定该视频帧对应的手势，N个视频帧对应的手势构成手势序列，最后，根据手势序列，确定触发手势。在此方法中，先进行目标部件(人头、人脸或人体头部加肩部)检测，然后在目标部件附近的局部区域(边界框的周围)进行手势检测识别，相比于全图手势检测识别，能够降低算力，另外，手部件的特征粒度在目标部件附近的局部区域中相对较大，使得手部件的特征明显，能促进提高各视频帧中手势检测的准确性。此外，触发手势是考虑时序连续的N个视频帧中的手势得到的，相对于采用单帧的手势确定触发手势，能够提高触发手势的准确性，在一定程度上避免误触发。比如，如果用户不小心做出了某个手势，该手势在手势序列中突然出现较少次数，则将不会被认定是有效的触发手势，从而使得不会响应该手势，减少误触发的发生。

请参阅图9，为本申请实施例提供的一种电子设备10的硬件结构图，具体的，如图9所示，电子设备10包括通信连接的至少一个处理器12和存储器13(图9中以总线连接、一个处理器为例)。

其中，处理器12用于提供计算和控制能力，以控制电子设备10执行相应任务，控制电子设备10执行上述实施例提供的任意一种确定触发手势的方法。

可以理解的是，处理器12可以是通用处理器，包括中央处理器(CentralProcessing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

存储器13作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态性计算机可执行程序以及模块，如本发明实施例中确定触发手势的方法对应的程序指令/模块。处理器12通过运行存储在存储器13中的非暂态软件程序、指令以及模块，可以实现上述实施例提供的任意一种确定触发手势的方法。具体地，存储器13可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器13还可以包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

可以理解的是，在一些实施例中，电子设备可以为智能相机、移动终端或无人机等智能设备。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被计算机执行时使计算机执行如前述确定触发手势的方法。

需要说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；在本申请的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本申请的不同方面的许多其它变化，为了简明，它们没有在细节中提供；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种确定触发手势的方法，其特征在于，包括：

对所述视频帧进行目标部件检测处理，得到至少一个目标部件的边界框；

根据所述至少一个目标部件的边界框和所述视频帧，进行手势识别，确定所述视频帧对应的手势，所述N个视频帧对应的手势构成手势序列；

根据所述手势序列，确定触发手势。

2.根据权利要求1所述的方法，其特征在于，所述根据所述至少一个目标部件的边界框和所述视频帧，进行手势识别，确定所述视频帧对应的手势，包括：

分别对所述至少一个目标部件的边界框进行外扩处理，得到至少一个外扩边界框；

对所述视频帧中位于所述至少一个外扩边界框内的区域进行手部件检测处理，以获取手部件检测结果；

根据所述手部件检测结果，确定目标手部件；

对所述目标手部件进行手势分类处理，得到所述视频帧对应的手势。

3.根据权利要求2所述的方法，其特征在于，所述根据所述手部件检测结果，确定目标手部件，包括：

若所述手部件检测结果包括一个手部件，则确定所述手部件为所述目标手部件；

若所述手部件检测结果包括多个手部件，则根据每个所述手部件的置信度、与所述手部件对应的所述目标部件之间的距离以及所述手部件的像素面积，计算各所述手部件的得分，并确定得分最高的手部件作为所述目标手部件。

4.根据权利要求3所述的方法，其特征在于，所述根据每个所述手部件的置信度、与所述手部件对应的所述目标部件之间的距离以及所述手部件的像素面积，计算各所述手部件的得分，包括：

采用以下公式计算各所述手部件的得分；

5.根据权利要求1所述的方法，其特征在于，所述根据所述手势序列，确定触发手势，包括：

统计所述手势序列中各手势类别对应的手势数量，若手势数量最多的第一手势类别满足预设条件，则将属于所述第一手势类别的手势作为所述触发手势。

6.根据权利要求5所述的方法，其特征在于，所述预设条件包括属于所述第一手势类别的手势数量占所述手势序列中手势总数量的百分比大于或等于百分比阈值，或，属于所述第一手势类别的手势数量大于或等于数量阈值。

7.根据权利要求1所述的方法，其特征在于，还包括：

获取所述触发手势对应的第一目标部件；

在所述视频流中跟踪检测所述第一目标部件对应的手势，以确定新的触发手势。

8.一种交互方法，其特征在于，包括：

采用如权利要求1-7任意一项所述的确定触发手势的方法确定触发手势；

控制目标设备执行与所述触发手势对应的操作指令。

9.一种确定触发手势的装置，其特征在于，包括：

检测模块，用于对所述视频帧进行目标部件检测处理，得到至少一个目标部件的边界框；

识别模块，用于根据所述至少一个目标部件的边界框和所述视频帧，进行手势识别，确定所述视频帧对应的手势，所述N个视频帧对应的手势构成手势序列；

确定模块，用于根据所述手势序列，确定触发手势。

10.一种电子设备，其特征在于，包括：

至少一个处理器，以及

与所述至少一个处理器通信连接的存储器，其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1-8任一项所述的方法。