CN114816044A

CN114816044A - 确定交互手势的方法、装置及电子设备

Info

Publication number: CN114816044A
Application number: CN202210220578.2A
Authority: CN
Inventors: 马龙祥; 张伟俊
Original assignee: Insta360 Innovation Technology Co Ltd
Current assignee: Insta360 Innovation Technology Co Ltd
Priority date: 2022-03-08
Filing date: 2022-03-08
Publication date: 2022-07-29
Also published as: WO2023169282A1

Abstract

本申请实施例涉及人机交互技术领域，公开了一种确定交互手势的方法、装置及电子设备，对当前视频帧进行手部件识别处理，得到当前视频帧中的至少一个手部件检测框和与手部件检测框对应的手势识别结果；对当前视频帧与预设历史视频帧集合中视频帧对应的手部件检测框进行匹配，得到当前视频帧对应的至少一个手部件检测框序列，根据该至少一个手部件检测框序列和手部件检测框序列中手部件检测框对应的手势识别结果，确定该当前视频帧对应的交互手势。通过上述方式，将属于同一位置的手部件检测框串联起来，通过一段时间内同一位置的手势统计结果代替瞬时的手势，在实现多人交互控制的情况下，能够提高交互手势的准确性和鲁棒性，有效减少误触发。

Description

确定交互手势的方法、装置及电子设备

技术领域

本申请实施例涉及人机交互技术领域，尤其涉及一种确定交互手势的方法、装置及电子设备。

背景技术

随着产品智能化、电子化以及互联化的不断发展和普及，出现了很多越来越智能化的人机交互方式，以满足人们追求个性化和时尚化的需求。例如，智能手机的触屏是一种通过触摸来实现的人机交互系统。还有一些通过语音交互进行控制的产品，比如智能音响，用户只要语音输入相关指令，产品就能根据语音输入的指令执行相关的操作。在一些产品中，例如智能相机、游戏机或无人机，还可以通过手势来实现人机交互，不同的手势对应不同的指令，当产品获取到手势后，执行与该手势对应的指令。

然而，手势的姿态多变，单帧的手势检测结果极为依赖检测算法的准确性同时易受到外界干扰，准确性较低，容易触发错误的响应。此外，从伸出手到做出指定手势这一过程中，手势是从一非规则形态到理想状态，这一过程中的非规则形态易出现误识别，同样会导致手势识别的准确性较低，容易触发错误的响应。

发明内容

本申请实施例主要解决的技术问题是提供一种确定交互手势的方法、装置及电子设备，能够提高交互手势识别的准确性和鲁棒性，有效减少误触发。

为解决上述技术问题，第一方面，本申请实施例中提供了一种确定交互手势的方法，包括：

获取当前视频帧；

对当前视频帧进行手部件识别处理，得到当前视频帧中的至少一个手部件检测框和与手部件检测框对应的手势识别结果；

对当前视频帧与预设历史视频帧集合中视频帧对应的手部件检测框进行匹配，得到当前视频帧对应的至少一个手部件检测框序列；

根据至少一个手部件检测框序列和手部件检测框序列中手部件检测框对应的手势识别结果，确定当前视频帧对应的交互手势。

在一些实施例中，前述对当前视频帧进行手部件识别处理，得到当前视频帧中的至少一个手部件检测框和与手部件检测框对应的手势识别结果，包括：

对当前视频帧进行目标部件检测处理，得到至少一个目标部件的边界框；

分别对至少一个目标部件的边界框进行外扩处理，得到至少一个外扩边界框；

对当前视频帧中位于至少一个外扩边界框内的区域进行手部件检测处理，以获取至少一个手部件检测框；

对当前视频帧中位于至少一个手部件检测框内的手部件进行手势识别，以获取与手部件检测框对应的手势识别结果。

在一些实施例中，当前视频帧为第k视频帧；

前述对当前视频帧与预设历史视频帧集合中视频帧对应的手部件检测框进行匹配，得到当前视频帧对应的至少一个手部件检测框序列，包括：

将第k视频帧与第k-1视频帧按预设匹配规则进行手部件检测框匹配，若第k视频帧与第k-1视频帧的第一手部件检测框匹配成功，则将第k视频帧和第k-1视频帧的第一手部件检测框串联纳入第一手部件检测框序列，并将第k-1视频帧与第k-2视频帧按预设匹配规则进行手部件检测框匹配，其中，第一手部件检测框为视频帧中任意一个手部件检测框，第k-1视频帧和第k-2视频帧为预设历史视频帧集合中的视频帧；

若第k视频帧与第k-1视频帧的第一手部件检测框匹配失败，则将第k视频帧与第k-2视频帧按预设匹配规则进行手部件检测框匹配，此次类推，回溯匹配，直至匹配完预设历史视频帧集合中的视频帧。

在一些实施例中，前述对当前视频帧与预设历史视频帧集合中视频帧对应的手部件检测框进行匹配，得到当前视频帧对应的至少一个手部件检测框序列，包括：

将当前视频帧分别与预设历史视频帧集合中视频帧按预设匹配规则进行手部件检测框匹配，若预设视频帧集中任意一个目标视频帧的第一手部件检测框与当前视频帧的第一手部件检测框匹配成功，则将目标视频帧和当前视频帧的第一手部件检测框串联纳入第一手部件检测框序列，第一手部件检测框为视频帧中任意一个手部件检测框。

在一些实施例中，前述预设匹配规则包括：

若进行手部件检测框匹配的两个视频帧的第一手部件检测框的中心坐标之间的欧式距离小于或等于第一阈值，则两个视频帧的第一手部件检测框匹配成功。

在一些实施例中，前述预设匹配规则包括：

若进行手部件检测框匹配的两个视频帧的第一手部件检测框的交并比大于或等于第二阈值，则两个视频帧的第一手部件检测框匹配成功。

在一些实施例中，前述预设匹配规则包括：

若进行手部件检测匹配的两个视频帧的第一手部件检测框之间的绝对距离小于或等于第三阈值，则两个视频帧的第一手部件检测框匹配成功。

在一些实施例中，前述根据至少一个手部件检测框序列和手部件检测框序列中手部件检测框对应的手势识别结果，确定当前视频帧对应的交互手势，包括：

获取各手部件检测框序列对应的有效手势；

若各有效手势中存在一个触发手势，则确定触发手势为交互手势；

若各有效手势中存在多个触发手势，则确定最先处理获取的触发手势为交互手势；

若各有效手势中不存在触发手势，则继续处理当前视频帧的下一视频帧。

在一些实施例中，前述获取各手部件检测框序列对应的有效手势，包括：

获取第一手部件检测框序列中第一手部件检测框对应的手势识别结果与当前视频帧的第一手部件检测框对应的手势识别结果相同的第一手部件检测框的第一数量，若第一数量与预设历史视频帧集合中视频帧的数量的占比大于或等于第一占比阈值，则确定当前视频帧的第一手部件检测框对应的手势识别结果为第一手部件检测框序列对应的有效手势，其中，第一手部件检测框序列为各手部件检测框序列中的任意一个手部件检测框序列。

在一些实施例中，前述手部件检测框序列包括在当前视频帧前预设时间内、与当前视频帧的手部件检测框匹配成功的视频帧的手部件检测框；

前述获取各手部件检测框序列对应的有效手势，包括：

获取第一手部件检测框序列中第一手部件检测框对应的手势识别结果与当前视频帧的第一手部件检测框对应的手势识别结果相同的第一手部件检测框的第二数量，若第二数量与第一手部件检测框序列中手部件检测框的数量的占比大于或等于第二占比阈值，则确定当前视频帧的第一手部件检测框对应的手势识别结果为第一手部件检测框序列对应的有效手势，其中，第一手部件检测框序列为各手部件检测框序列中的任意一个手部件检测框序列。

为解决上述技术问题，第二方面，本申请实施例中提供了一种交互方法，包括：

采用第一方面中确定交互手势的方法确定交互手势；

控制目标设备执行与交互手势对应的操作指令。

为解决上述技术问题，第三方面，本申请实施例中提供了一种确定交互手势的装置，包括：

获取模块，用于获取当前视频帧；

识别模块，用于对当前视频帧进行手部件识别处理，得到当前视频帧中的至少一个手部件检测框和与手部件检测框对应的手势识别结果；

匹配模块，用于对当前视频帧与预设历史视频帧集合中视频帧对应的手部件检测框进行匹配，得到当前视频帧对应的至少一个手部件检测框序列；

确定模块，用于根据至少一个手部件检测框序列和手部件检测框序列中手部件检测框对应的手势识别结果，确定当前视频帧对应的交互手势。

为解决上述技术问题，第四方面，本申请实施例中提供了一种电子设备，包括：

至少一个处理器，以及

与至少一个处理器通信连接的存储器，其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行第一方面的方法。

为解决上述技术问题，第五方面，本申请实施例中提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令用于使计算机执行第一方面的方法。

本申请实施例的有益效果：区别于现有技术的情况，本申请实施例提供的确定交互手势的方法，对当前视频帧进行手部件识别处理，得到当前视频帧中的至少一个手部件检测框和与手部件检测框对应的手势识别结果；然后，对当前视频帧与预设历史视频帧集合中视频帧对应的手部件检测框进行匹配，得到当前视频帧对应的至少一个手部件检测框序列，最后，根据该至少一个手部件检测框序列和手部件检测框序列中手部件检测框对应的手势识别结果，确定该当前视频帧对应的交互手势。在此方法中，通过上述手部件检测框匹配得到的每一手部件检测框序列反映同一手部件(同一位置)分别在当前视频帧和预设历史视频帧集合中的位置和手势识别结果，相当于，将属于同一位置的手部件检测框串联起来，确保在当前和过去该位置的手部件属于同一人。在此基础上，根据各手部件检测框序列确定的交互手势是考虑当前视频帧和历史视频帧中同一位置的手势识别结果得到的，相当于，通过一段时间内同一位置的手势识别统计结果代替瞬时的手势识别结果，避免在用户变换手势或受外界干扰时，电子设备触发瞬时手势，生成错误的手势响应。从而，在实现多人交互控制的情况下，能够提高交互手势识别的准确性和鲁棒性，有效减少误触发。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1为本申请一些实施例中通过手势实现人机交互的应用场景示意图；

图2为本申请一些实施例中确定交互手势的方法的流程示意图；

图3为本申请一些实施例中手势的示意图；

图4为本申请一些实施例中视频帧上边界框的示意图；

图5为本申请一些实施例中确定交互手势的装置的结构示意图；

图6为本申请一些实施例中电子设备的结构示意图。

具体实施方式

下面结合具体实施例对本申请进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本申请，但不以任何形式限制本申请。应当指出的是，对本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进。这些都属于本申请的保护范围。

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，如果不冲突，本申请实施例中的各个特征可以相互结合，均在本申请的保护范围之内。另外，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。此外，本文所采用的“第一”、“第二”、“第三”等字样并不对数据和执行次序进行限定，仅是对功能和作用基本相同的相同项或相似项进行区分。

除非另有定义，本说明书所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本说明书中在本申请的说明书中所使用的术语只是为了描述具体的实施方式的目的，不是用于限制本申请。本说明书所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

此外，下面所描述的本申请各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

请参阅图1，图1为通过手势实现人机交互的应用场景示意图，该应用场景包括电子设备和至少一个用户。其中，电子设备10包括至少一个摄像头11，至少一个用户在摄像头11的视野范围内。摄像头11采集图像或视频流。当用户想要控制电子设备10启用其中的某项功能时，可以做出某种手势。

其中，电子设备10可以是具有计算处理能力的终端设备，例如设置有摄像头的视频会议机、云台相机、电视机、电子相框、游戏盒、无人飞行器、智能小车或智能相机等。

控制电子设备10可以是控制该电子设备10中的功能组件，该功能组件可以是硬件或软件模块。在一个示例中，电子设备10可以包括但不限于于智能相机，对智能相机进行控制，可以包括但不限于于对智能相机中设置的镜头焦距控制模块、情景模式切换模块或闪光控制模块等一个或多个功能组件的控制。

具体地，以电子设备10为智能相机进行示例性说明，例如，智能相机前方有3个用户，智能相机获取视频流，视频流中的每个视频帧包括这3个用户。用户可以通过手势，控制智能相机执行相应的指令，实现人机交互，以满足用户的拍摄需求，例如，通过不同的手势，控制智能相机开启调焦或取消调焦，或者通过不同的手势来改变情景模式，开启目标跟踪或关闭目标跟踪等。

例如，当用户A做出“手掌张开”的手势时，智能相机通过视频流识别出该手势后，执行反映“开启跟踪用户A的头部件”的指令，当用户B 做出“点赞”的手势时，智能相机通过视频流识别出该手势后，执行反映“开启调焦”的指令。从而，用户不用手动调节智能相机，在智能相机前即可通过手势进行智能控制，得到满意的合照或视频。可以理解的是，当智能相机前只有一个用户时，用户通过手势控制，即可控制智能相机为自己拍摄出满意的照片或视频，不需要额外的摄影师，简单方便，适合多场景使用。

识别视频流中的手势是手势控制中的关键因素，若识别的手势不准确，容易造成电子设备做出与手势不对应的执行，即造成误触发。在本申请发明人所知晓的技术方案中，通常采用单个视频帧进行手势检测识别，以确定用于触发电子设备执行相应指令的交互手势。即使用单帧图像的手势识别结果作为最终结果。

然而，手势的姿态多变，单帧的手势检测结果极为依赖检测的准确性同时易受到外界干扰，准确性较低，容易触发错误的响应。此外，从伸出手到作出指定手势这一过程中，手势是从一非规则形态到理想状态，这一过程中的非规则形态易出现误识别，同样会导致手势识别的准确性较低，容易触发错误的响应。

有鉴于此，本申请一些实施例提供了一种确定交互手势的方法，对当前视频帧进行手部件识别处理，得到当前视频帧中的至少一个手部件检测框和与手部件检测框对应的手势识别结果；然后，对当前视频帧与预设历史视频帧集合中视频帧对应的手部件检测框进行匹配，得到当前视频帧对应的至少一个手部件检测框序列，最后，根据该至少一个手部件检测框序列和手部件检测框序列中手部件检测框对应的手势识别结果，确定该当前视频帧对应的交互手势。在此方法中，通过上述手部件检测框匹配得到的每一手部件检测框序列反映同一手部件(同一位置) 分别在当前视频帧和预设历史视频帧集合中的位置和手势识别结果，相当于，将属于同一位置的手部件检测框串联起来，确保在当前和过去该位置的手部件属于同一人。在此基础上，根据各手部件检测框序列确定的交互手势是考虑当前视频帧和历史视频帧中同一位置的手势识别结果得到的，相当于，通过一段时间内同一位置的手势识别统计结果代替瞬时的手势识别结果，避免在用户变换手势或受外界干扰时，电子设备触发瞬时手势，生成错误的手势响应。从而，在实现多人交互控制的情况下，能够提高交互手势识别的准确性和鲁棒性，有效减少误触发。

以下，对本申请一些实施例中确定交互手势的方法进行详细说明，请参阅图2，该方法S100包括但不限制于以下步骤：

S10：获取当前视频帧。

摄像头采集得到视频流，该视频流包括多个时间上连续的视频帧。在视频流中当前时刻对应的视频帧即为该当前视频帧。随着时序的进行，当前视频帧是不断变化的。

可以理解的是，摄像头前可以有一个用户或多个用户，从而，视频帧中可以包括一个用户的手势，或多个用户的手势。当用户离开摄像头视野范围时，视频帧中没有用户，不包括用户的手势。

可以理解的是，手势可以是静态手势，如图3示出了一些静态手势，例如手掌手势、OK手势、点赞手势、食指手势或拳头手势等。在此，仅仅是对手势进行示例性说明，可以理解的是，用户通过手部件做出的形态和动作均可以称为手势，在本申请中，不对手势进行任何限制。

S20：对当前视频帧进行手部件识别处理，得到当前视频帧中的至少一个手部件检测框和与手部件检测框对应的手势识别结果。

可以采用预先训练好的手势识别模型对当前视频帧进行卷积下采样处理，以对手势进行定位和分类，手势的位置即手部件检测框，手势的类别即为与手部件检测框对应的手势识别结果。其中，手势识别模型可以由卷积神经网络训练得到，卷积神经网络的应用和使用是算法领域的常规技术手段，在此不再详细描述。

可以理解的是，当前视频帧中可能有0个、1个或多个手部件检测框。若当前视频帧中检测到0个手部件检测框，即不存在手部件，则跳过该当前视频帧，继续处理下一视频帧。

在一些实施例中，上述步骤S20具体包括：

S21：对当前视频帧进行目标部件检测处理，得到至少一个目标部件的边界框。

由于手部件(即手)相对于人的身体较小，并且在视频帧中也通常较小，不容易跟踪识别，为了更快速有效地检测识别手部件做出的手势，对于当前视频帧，先进行目标部件检测处理，得到至少一个目标部件的边界框。

其中，目标部件是人肢体的一部分，例如可以是头部、脸部或头部加肩部等部件。这些目标部件特征明显、易于检测识别。通过识别目标部件可以初步锁定手部件可能出现的像素范围。

本步骤中的目标部件检测处理，可以通过预先训练好的目标部件检测神经网络执行，将当前视频帧输入该训练好的目标部件检测神经网络，进行目标检测，就可以得到目标部件的位置信息，该目标部件的位置信息采用边界框表示。

以目标部件为头部为例，将当前视频帧输入训练好的头部检测神经网络，训练好的头部检测神经网络会输出当前视频帧上的各个头部的位置(即边界框)。如图4所示，图4示出了当前视频帧上的检测结果，在当前视频帧中，每个人的头部在边界框之内，边界框是一个矩形框，可以用参数(x，y，w，h)表示，其中，(x，y)表示边界框的中心，w 表示边界框的宽，h表示边界框的高。可以理解的是，这些参数可以是以当前视频帧的图像坐标系为参考确定的。边界框反映目标部件的位置。

可以理解的是，若当前视频帧中有1个用户，会检测出1个目标部件的边界框，若当前视频帧中有多个用户，会检测出多个目标部件的边界框，图4中是以视频帧中包括三个用户进行示例性说明。

S22：分别对至少一个目标部件的边界框进行外扩处理，得到至少一个外扩边界框。

基于人体结构，可知手部件在目标部件附近，例如在目标部件的下方或上方等，从而，在视频帧中目标部件附近搜索识别手部件，进而识别手势，能够有效减少无效区域的检测识别，这里无效区域可以理解为手部件大概率不会出现的区域，例如离目标部件较远的背景区域，或，离目标部件较远的身体躯干区域。

为了获取手部件大概率会出现的有效区域，具体地，将各目标部件的边界框进行外扩处理，分别得到相应的外扩边界框。可以理解的是，该外扩边界框框住视频帧的像素区域即为最大概率会出现手部件的像素区域。

可以理解的是，外扩边界框是基于边界框进行外扩处理得到的。具体的外扩处理方式，本领域技术人员可以自行设置，例如，以边界框的中心(x，y)为中心，对边界框的4个边界进行等比例放大扩展。在一些实施例中，以边界框的中心(x，y)为中心，向四周进行外扩即可，外扩后得到的外扩边界框可以为圆形或梯形等，对外扩边界框的形状不做具体限制。

在一些实施例中，当目标部件为人体时，边界框(x，y，w，h)框住人体，基于当人做手势动作时，手部件的位置不会出现在腰部以下的范围，故而，可利用此信息构建外扩边界框，外扩边界框的范围可以使用边界框的上半部分(H/2)区域作为基准，然后左右各外扩一定距离，如外扩边界框的宽度为3W，高为H/2，从而构建出一个高0.5H宽3W的外扩边界框。

在一些实施例中，当目标部件为头肩时，边界框(x，y，w，h)框住头肩，伸手做手势时，小臂必然是向上抬起超过手肘的高度，才能作出手势。基于这一特点，可使用整个边界框作为基准，向上扩高0.5H，左右各扩宽W，构建出一个高1.5H宽3W的外扩边界框。

在一些实施例中，当目标部件为头/脸区域，边界框(x，y，w，h) 框住头/脸，标准的手势会位于人脸两侧，不会与人脸重合，因此，可以以边界框为基准，向上扩H向下扩2H，左右各扩宽2W，构建出一个高 4H宽5H的外扩边界框。

S23：对当前视频帧中位于至少一个外扩边界框内的区域进行手部件检测处理，以获取至少一个手部件检测框。

当获得各外扩边界框后，对视频帧中位于各外扩边界框内的区域进行手部件检测处理，以获取手部件检测框。这里，手部件检测处理是检测视频帧上的各外扩边界框中哪些像素是手部件，即检测定位出各手部件，手部件检测框框住视频帧中各手部件的像素位置。手部件检测框也可以采用中心坐标和宽、高(x，y，w，h)表示，即手部件检测框为手部件的位置。

可以理解的是，本步骤中的手部件检测处理，可以通过预先训练好的手部件检测神经网络执行，将各外扩边界框截取视频帧得到的局部图像输入该训练好的手部件检测神经网络，进行目标检测，就可以得到手部件检测框。

S24：对当前视频帧中位于至少一个手部件检测框内的手部件进行手势识别，以获取与手部件检测框对应的手势识别结果。

在获取到当前视频帧中的各手部件检测框后，即获取到当前视频帧的各手部件后，对各手部件呈现的手势进行手势识别，从而，各手部件检测框对应的手势识别结果。该手势识别结果包括手部件的手势类别。

可以理解的是，本步骤中的手势识别，可以通过预先训练好的手势分类神经网络执行，将手部件检测框内的像素区域输入上述训练好的手势分类神经网络，进行手势识别分类，就可以得到手部件检测框对应的手势识别结果。

可以理解的是，手势分类神经网络能够检测的手势类型可以根据实际需求而进行设置，例如，训练手势分类神经网络的训练集中图像可以包括六种手势类别，分别是：手掌手势，OK手势，L形手势，V形手势，拳头手势，和其它手势等。从而，训练好的手势分类神经网络能够识别出技术人员所需要识别的手势类别。

可以理解的是，基于视频流是实时采集的，随着时序的进行，当前视频帧是不断变化的，即视频流中的每一视频帧均在某一时刻为当前视频帧，从而，对于视频流中的每一视频帧均采用上述步骤S20进行手部件识别处理，获得视频流中各视频帧中至少一个手部件检测框和与手部件检测框对应的手势识别结果。

S30：对当前视频帧与预设历史视频帧集合中视频帧对应的手部件检测框进行匹配，得到当前视频帧对应的至少一个手部件检测框序列。

可以理解的是，当摄像头前有多个用户时，视频流的视频帧中可能会检测到多个手部件。为了避免单帧检测的局限性，多帧统计会以连续多帧的统计结果作为最终的交互手势。基于每个视频帧中可能会存在多个手部件，而一般在连续数帧内(某一时期)，交互手势由一个人做出，例如，第1帧存在K、L、V这3个触发手势，分别执行对应功能，那么在此情况下，无法准确确定用户的意图，因为3个触发手势有可能是误操作带来的。因此，需要结合多个视频帧中这3个手势是否仍然一直存在确定交互手势，具体地，在后续第2，3，4，5，6，7，8，9帧中，若不连续出现这3个触发手势[K，L，V]，则说明存在误操作，一直出现的触发手势才会是用户想要触发的交互手势。此时，大多数情况下，只有一个触发手势(例如触发手势K)会连续出现，通过多帧统计即可准确确定交互手势，确定用户的控制意图。

为了捕捉到同一用户在连续帧(某一时期)做出的触发手势，避免其他人的手势对该触发手势的干扰，需要将同一个人在连续帧中的手势串联起来，形成手部件检测框序列。具体地，对当前视频帧与预设历史视频帧集合中视频帧对应的手部件检测框进行匹配，得到当前视频帧对应的至少一个手部件检测框序列。

可以理解的是，在连续多个视频帧中，各用户的位置大致不会发生变化，从而，各手部件在图像坐标系中的位置也大致不会发生变化或者变化较小，即同一手部件在连续多个视频帧中的手部件检测框偏移较小。因此，手部件检测框的匹配可以是指手部件检测框的位置偏移匹配，例如该手部件在连续两个视频帧中的手部件检测框的位置偏移在一定范围内，则认为匹配。

在一些实施例中，前述当前视频帧为第k视频帧，前述步骤S30具体包括：

S31：将第k视频帧与第k-1视频帧按预设匹配规则进行手部件检测框匹配，若第k视频帧与第k-1视频帧的第一手部件检测框匹配成功，则将第k视频帧和第k-1视频帧的第一手部件检测框串联纳入第一手部件检测框序列，并将第k-1视频帧与第k-2视频帧按预设匹配规则进行手部件检测框匹配。

其中，第一手部件检测框为视频帧中任意一个手部件检测框，第k-1 视频帧和第k-2视频帧为预设历史视频帧集合中的视频帧。

在一些实施例中，预设历史视频帧集合为时序上位于该当前视频帧之前的连续n个视频帧。

S32：若第k视频帧与第k-1视频帧的第一手部件检测框匹配失败，则将第k视频帧与第k-2视频帧按预设匹配规则进行手部件检测框匹配，此次类推，回溯匹配，直至匹配完预设历史视频帧集合中的视频帧。

将第k视频帧与第k-1视频帧按预设匹配规则进行手部件检测框匹配，将第k-1视频帧与第k-2视频帧按预设匹配规则进行手部件检测框匹配，以此类推，若当前视频帧与上一视频帧的第一手部件检测框成功匹配，将这两个第一手部件检测框串联起来，若匹配失败，则跳过该上一视频帧，将当前视频帧与上上个视频帧进行手部件检测框匹配，以此类推，最终构成一个属于同一用户的第一手部检测框序列。

可以理解的是，第一手部件检测框为视频帧中任意一个手部件检测框，因此，第一手部件检测框仅仅是名称不同，不对手部件检测框构成任何限制，对于视频帧中的任意一个手部件检测框均采用上述方式进行匹配。

在此实施例中，通过逐帧匹配的方式，将属于同一位置(同一用户) 的手部件检测框串联起来，形成手部件检测框序列，从而，有利于捕捉到同一用户在连续帧(某一时期)做出的触发手势。

在一些实施例中，前述步骤S30具体包括：

S33：将当前视频帧分别与预设历史视频帧集合中视频帧按预设匹配规则进行手部件检测框匹配，若预设视频帧集中任意一个目标视频帧的第一手部件检测框与当前视频帧的第一手部件检测框匹配成功，则将目标视频帧和当前视频帧的第一手部件检测框串联纳入第一手部件检测框序列，第一手部件检测框为视频帧中任意一个手部件检测框。

同理，第一手部件检测框为视频帧中任意一个手部件检测框，因此，第一手部件检测框仅仅是名称不同，不对手部件检测框构成任何限制，对于视频帧中的任意一个手部件检测框均采用上述方式进行匹配。

在此实施例中，通过将当前视频帧分别与预设历史视频帧集合中视频帧进行单帧匹配，将属于同一位置(同一用户)的手部件检测框串联起来，形成手部件检测框序列，从而，有利于捕捉到同一用户在连续帧 (某一时期)做出的触发手势。

在一些实施例中，前述预设匹配规则包括：若进行手部件检测框匹配的两个视频帧的第一手部件检测框的中心坐标之间的欧式距离小于或等于第一阈值，则这两个视频帧的第一手部件检测框匹配成功。

例如，进行手部件检测框匹配的两个视频帧的第一手部件检测框分别用Box_k(X_k，Y_k，W_k，H_k)和Box_k-i(X_k-i，Y_k-i，W_k-i，H_k-i)表示，Box_k的中心坐标为Center_k(X_k+0.5*W_k，Y_k+0.5*H_k)，Box_k-i的中心坐标为 Center_k-i(X_k-i+0.5*W_k-i，Y_k-i+0.5*H_k-i)。

两个中心坐标之间的欧式距离为distance＝ sqrt((center_k.x-center_k-i.x)^2+(center_k.y-center_k-i.y)^2)，第一阈值为thr1。若 distance≤thr1，则认为两个第一手部件检测框成功匹配，若distance＞ thr1，认为两个第一手部件检测框无任何关联，匹配失败。

在此实施例中，通过对比两个手部件检测框的中心坐标，即可准确确定两个手部件检测框是否匹配。

在一些实施例中，前述预设匹配规则包括：若进行手部件检测框匹配的两个视频帧的第一手部件检测框的交并比大于或等于第二阈值，则这两个视频帧的第一手部件检测框匹配成功。

进行手部件检测框匹配的两个视频帧的第一手部件检测框的交集为intersection，并集为union，则intersection＝Area(Box_k&Box_k-i)， Union＝Area(Box_k)+Area(Box_k-i)-intersection。从而，计算交并比iou＝ intersection/union。第二阈值为thr2，若iou≥thr2，则则认为两个第一手部件检测框成功匹配，若iou<thr2，认为两个第一手部件检测框无任何关联，匹配失败。

在此实施例中，通过对比两个手部件检测框的交并比，即可准确确定两个手部件检测框是否匹配。

在一些实施例中，前述预设匹配规则包括：若进行手部件检测匹配的两个视频帧的第一手部件检测框之间的绝对距离小于或等于第三阈值，则两个视频帧的第一手部件检测框匹配成功。

绝对距离为两个第一手部件检测框的四对顶点欧式距离之和乘以两个第一手部件检测框面积的比值area_ratio，其中，两个第一手部件检测框面积比值采用较大的面积比上较小的面积，保证area_ratio>＝1。从而，计算绝对距离D＝(dist_tl+dist_tr+dist_bl+dist_br)*area_ratio，其中，dist_tl、 dist_tr、dist_bl、dist_br分别为两个第一手部件检测框的四对顶点的欧式距离。第三阈值为thr3，若绝对距离D≤thr3，则认为两个第一手部件检测框成功匹配，若D>thr3，认为两个第一手部件检测框无任何关联，匹配失败。

在此实施例中，通过对比两个手部件检测框之间的绝对距离，即可准确确定两个手部件检测框是否匹配。

S40：根据至少一个手部件检测框序列和手部件检测框序列中手部件检测框对应的手势识别结果，确定当前视频帧对应的交互手势。

在获得至少一个手部件检测框序列后，基于手部件检测框序列中手部件检测框对应有手势识别结果，从而，可以根据各手部件检测框序列和对应的手势识别结果，确定当前视频帧对应的交互手势，即回溯历史视频帧中的手势识别结果，确定当前视频帧对应的交互手势，能够确定该交互手势是同一用户做出的稳定的触发手势。

在一些实施例中，前述步骤S40具体包括：

S41：获取各手部件检测框序列对应的有效手势。

S42：若各有效手势中存在一个触发手势，则确定触发手势为交互手势。

S43：若各有效手势中存在多个触发手势，则确定最先处理获取的触发手势为交互手势。

S44：若各有效手势中不存在触发手势，则继续处理当前视频帧的下一视频帧。

例如，有3个手部件检测框序列，其中，第1个手部件检测框序列为[Y，Y，Y，Y，Q，Y，Y，Q，Y，Y，Y]，其中，Y为用户想要展示的手势，Q为干扰手势，则该手部件检测框序列对应的有效手势为Y。第2个手部件检测框序列为[K，K，L，K，K，K， K，Q，K，K，K]，其中，K为用户想要展示的手势，L和Q为干扰手势，则该手部件检测框序列对应的有效手势为K。第3个手部件检测框序列为[L，L，L，K，L，L，L，L，L，L，L]，其中， L为用户想要展示的手势，K为干扰手势，则该手部件检测框序列对应的有效手势为L。

可以理解的是，若手势Y，K和L中，K属于事先设置好的触发手势集合中的手势，即K为触发手势，Y和L不为触发手势，则确定触发手势K为交互手势。若K和L属于触发手势，则算法优先处理获取到触发手势L，则确定触发手势L为交互手势。若手势Y，K和L均不属于触发手势，即不存在触发手势，则继续处理当前视频帧的下一视频帧。

在一些实施例中，前述步骤S41具体包括：

S411：获取第一手部件检测框序列中第一手部件检测框对应的手势识别结果与当前视频帧的第一手部件检测框对应的手势识别结果相同的第一手部件检测框的第一数量，若第一数量与预设历史视频帧集合中视频帧的数量的占比大于或等于第一占比阈值，则确定当前视频帧的第一手部件检测框对应的手势识别结果为第一手部件检测框序列对应的有效手势。

其中，第一手部件检测框序列为各手部件检测框序列中的任意一个手部件检测框序列。

例如，从当前视频帧开始，统计预设历史视频帧集合中N帧图像中所有的第一手部件检测框，将同一位置的第一手部件检测框串联起来，得到S(S<＝N)个第一手部件检测框。对这S个第一手部件检测框进行分类，统计S个第一手部件检测框中与当前视频帧的第一手部件检测框手势类别相同的数量记为M，当M/N大于第一占比阈值0.7时，认为过去 N帧内有超过70％的手势类别与当前视频帧的第一手部件检测框的手势类别一致，当前视频帧的第一手部件检测框的手势类别即可代表过去N 帧中用户确定要展示的手势。

相比于统计S个第一手部件检测框中出现最多的手势类别，该统计 S个第一手部件检测框中与当前视频帧的第一手部件检测框的手势类别一致的数量占比，能够有效避免当前视频帧的第一手部件检测框的手势已经发生改变而过去S个第一手部件检测框内均为其他手势导致手势类别统计滞后。

在一些实施例中，手部件检测框序列包括在当前视频帧前预设时间内、与当前视频帧的手部件检测框匹配成功的视频帧的手部件检测框。在此实施例中，预设历史视频帧为当前视频帧前预设时间内的视频帧。

前述步骤S41具体包括：

S412：获取第一手部件检测框序列中第一手部件检测框对应的手势识别结果与当前视频帧的第一手部件检测框对应的手势识别结果相同的第一手部件检测框的第二数量，若第二数量与第一手部件检测框序列中手部件检测框的数量的占比大于或等于第二占比阈值，则确定当前视频帧的第一手部件检测框对应的手势识别结果为第一手部件检测框序列对应的有效手势。

从当前视频帧开始，统计过去预设时间t秒内视频帧(预设视频帧集合)中所有的第一手部件检测框，例如t可以为1s，将同一位置的第一手部件检测框串联起来，得到R个第一手部件检测框，统计过去t秒内与当前视频帧的第一手部件检测框的手势类别相同的视频帧数的第二数量为P，当P/R大于第二占比阈值0.7时，认为过去t秒内有超过 70％的手势类别与当前视频帧的第一手部件检测框的手势类别一致，当前视频帧的第一手部件检测框的手势类别即可代表过去t秒内用户确定要展示的手势。

在此实施例中，t秒内的视频帧中与当前视频帧的第一手部件检测框匹配的第一手部件检测框的数量R不是固定的，不受帧间处理耗时及漏检的影响，使得统计结果更加稳定，即使得第一手部件检测框序列对应的有效手势更加准确。

综上所述，本申请实施例提供的确定交互手势的方法，对当前视频帧进行手部件识别处理，得到当前视频帧中的至少一个手部件检测框和与手部件检测框对应的手势识别结果；然后，对当前视频帧与预设历史视频帧集合中视频帧对应的手部件检测框进行匹配，得到当前视频帧对应的至少一个手部件检测框序列，最后，根据该至少一个手部件检测框序列和手部件检测框序列中手部件检测框对应的手势识别结果，确定该当前视频帧对应的交互手势。在此方法中，通过上述手部件检测框匹配得到的每一手部件检测框序列反映同一手部件(同一位置)分别在当前视频帧和预设历史视频帧集合中的位置和手势识别结果，相当于，将属于同一位置的手部件检测框串联起来，确保在当前和过去该位置的手部件属于同一人。在此基础上，根据各手部件检测框序列确定的交互手势是考虑当前视频帧和历史视频帧中同一位置的手势检测结果得到的，相当于，通过一段时间内同一位置的手势统计结果代替瞬时的手势，避免因用户变换手势或外界干扰时，瞬时手势触发，得到错误的手势响应。从而，在实现多人交互控制的情况下，能够提高交互手势的准确性和鲁棒性，有效减少误触发。

本申请实施例还提供的一种交互方法，该交互方法包括：

(1)采用如上述任意一项实施例中确定交互手势的方法确定交互手势。

(2)控制目标设备执行与该交互手势对应的操作指令。

当用户要控制一个设备启用其中的某项功能时，可以做出某种手势。设备识别采用上述任意一项实施例中确定交互手势的方法检测出该手势，并确定交互手势。该设备可以称为目标设备，控制目标设备可以是控制该设备中的功能组件，该功能组件可以是硬件或者软件模块。在一个示例中，目标设备可以包括但不限制于智能相机，对智能相机进行控制，可以包括但不限于于对智能相机中设置的镜头焦距控制模块、情景模式切换模块或闪光控制模块等一个或多个功能组件的控制。

可以理解的是，交互手势与操作指令一一对应，例如，当用户A做出“手掌张开”的手势时，智能相机识别出交互手势后，执行反映“开启跟踪用户A的头部件”的操作指令，当用户A做出“点赞”的手势时，智能相机识别出该交互手势后，执行反映“开启调焦”的操作指令。

因此，控制目标设备执行与该交互手势对应的操作指令，用户不用手动调节目标设备，在目标设备前即可通过手势进行智能交互控制。

以上介绍了本申请实施例中确定交互手势的方法和交互方法，为了更好地实施本申请的方法，接下来介绍本申请实施例提供的装置。

请参阅图5，图5是本申请实施例提供的一种确定交互手势的装置，该装置200包括：

获取模块210，用于获取当前视频帧。

识别模块220，用于对当前视频帧进行手部件识别处理，得到当前视频帧中的至少一个手部件检测框和与手部件检测框对应的手势识别结果。

匹配模块230，用于对当前视频帧与预设历史视频帧集合中视频帧对应的手部件检测框进行匹配，得到当前视频帧对应的至少一个手部件检测框序列。

确定模块240，用于根据至少一个手部件检测框序列和手部件检测框序列中手部件检测框对应的手势识别结果，确定当前视频帧对应的交互手势。

上述装置200，通过对当前视频帧进行手部件识别处理，得到当前视频帧中的至少一个手部件检测框和与手部件检测框对应的手势识别结果；然后，对当前视频帧与预设历史视频帧集合中视频帧对应的手部件检测框进行匹配，得到当前视频帧对应的至少一个手部件检测框序列，最后，根据该至少一个手部件检测框序列和手部件检测框序列中手部件检测框对应的手势识别结果，确定该当前视频帧对应的交互手势。在此方法中，通过上述手部件检测框匹配得到的每一手部件检测框序列反映同一手部件(同一位置)分别在当前视频帧和预设历史视频帧集合中的位置和手势识别结果，相当于，将属于同一位置的手部件检测框串联起来，确保在当前和过去该位置的手部件属于同一人。在此基础上，根据各手部件检测框序列确定的交互手势是考虑当前视频帧和历史视频帧中同一位置的手势检测结果得到的，相当于，通过一段时间内同一位置的手势统计结果代替瞬时的手势，避免因用户变换手势或外界干扰时，瞬时手势触发，得到错误的手势响应。从而，在实现多人交互控制的情况下，能够提高交互手势的准确性和鲁棒性，有效减少误触发。

请参阅图6，为本申请实施例提供的一种电子设备10的硬件结构图，具体的，如图6所示，电子设备10包括通信连接的至少一个处理器12 和存储器13(图6中以总线连接、一个处理器为例)。

其中，处理器12用于提供计算和控制能力，以控制电子设备10执行相应任务，控制电子设备10执行上述实施例提供的任意一种确定交互手势的方法。

可以理解的是，处理器12可以是通用处理器，包括中央处理器 (CentralProcessing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现场可编程门阵列 (Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

存储器13作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态性计算机可执行程序以及模块，如本发明实施例中确定交互手势的方法或交互方法对应的程序指令/模块。处理器12通过运行存储在存储器13中的非暂态软件程序、指令以及模块，可以实现上述实施例提供的任意一种确定交互手势的方法或交互方法。具体地，存储器13可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器13还可以包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

可以理解的是，在一些实施例中，电子设备可以为智能相机、移动终端或无人机等智能设备。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被计算机执行时使计算机执行如前述确定交互手势的方法或交互方法。

需要说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；在本申请的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本申请的不同方面的许多其它变化，为了简明，它们没有在细节中提供；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种确定交互手势的方法，其特征在于，包括：

获取当前视频帧；

对所述当前视频帧进行手部件识别处理，得到所述当前视频帧中的至少一个手部件检测框和与所述手部件检测框对应的手势识别结果；

对所述当前视频帧与预设历史视频帧集合中视频帧对应的手部件检测框进行匹配，得到所述当前视频帧对应的至少一个手部件检测框序列；

根据所述至少一个手部件检测框序列和所述手部件检测框序列中手部件检测框对应的手势识别结果，确定所述当前视频帧对应的交互手势。

2.根据权利要求1所述的方法，其特征在于，所述对所述当前视频帧进行手部件识别处理，得到所述当前视频帧中的至少一个手部件检测框和与所述手部件检测框对应的手势识别结果，包括：

对所述当前视频帧进行目标部件检测处理，得到至少一个目标部件的边界框；

分别对所述至少一个目标部件的边界框进行外扩处理，得到至少一个外扩边界框；

对所述当前视频帧中位于所述至少一个外扩边界框内的区域进行手部件检测处理，以获取至少一个手部件检测框；

对所述当前视频帧中位于所述至少一个手部件检测框内的手部件进行手势识别，以获取与所述手部件检测框对应的手势识别结果。

3.根据权利要求1所述的方法，其特征在于，所述当前视频帧为第k视频帧；

所述对所述当前视频帧与预设历史视频帧集合中视频帧对应的手部件检测框进行匹配，得到所述当前视频帧对应的至少一个手部件检测框序列，包括：

将所述第k视频帧与第k-1视频帧按预设匹配规则进行手部件检测框匹配，若所述第k视频帧与所述第k-1视频帧的第一手部件检测框匹配成功，则将所述第k视频帧和所述第k-1视频帧的第一手部件检测框串联纳入第一手部件检测框序列，并将所述第k-1视频帧与第k-2视频帧按所述预设匹配规则进行手部件检测框匹配，其中，所述第一手部件检测框为视频帧中任意一个手部件检测框，所述第k-1视频帧和所述第k-2视频帧为所述预设历史视频帧集合中的视频帧；

若所述第k视频帧与所述第k-1视频帧的第一手部件检测框匹配失败，则将所述第k视频帧与所述第k-2视频帧按预设匹配规则进行手部件检测框匹配，此次类推，回溯匹配，直至匹配完所述预设历史视频帧集合中的视频帧。

4.根据权利要求1所述的方法，其特征在于，所述对所述当前视频帧与预设历史视频帧集合中视频帧对应的手部件检测框进行匹配，得到所述当前视频帧对应的至少一个手部件检测框序列，包括：

将所述当前视频帧分别与所述预设历史视频帧集合中视频帧按预设匹配规则进行手部件检测框匹配，若所述预设视频帧集中任意一个目标视频帧的第一手部件检测框与所述当前视频帧的第一手部件检测框匹配成功，则将所述目标视频帧和所述当前视频帧的第一手部件检测框串联纳入第一手部件检测框序列，所述第一手部件检测框为视频帧中任意一个手部件检测框。

5.根据权利要求3或4所述的方法，其特征在于，所述预设匹配规则包括：

若进行手部件检测框匹配的两个视频帧的第一手部件检测框的中心坐标之间的欧式距离小于或等于第一阈值，则所述两个视频帧的第一手部件检测框匹配成功。

6.根据权利要求3或4所述的方法，其特征在于，所述预设匹配规则包括：

若进行手部件检测框匹配的两个视频帧的第一手部件检测框的交并比大于或等于第二阈值，则所述两个视频帧的第一手部件检测框匹配成功。

7.根据权利要求3或4所述的方法，其特征在于，所述预设匹配规则包括：

若进行手部件检测匹配的两个视频帧的第一手部件检测框之间的绝对距离小于或等于第三阈值，则所述两个视频帧的第一手部件检测框匹配成功。

8.根据权利要求1所述的方法，其特征在于，所述根据所述至少一个手部件检测框序列和所述手部件检测框序列中手部件检测框对应的手势识别结果，确定所述当前视频帧对应的交互手势，包括：

获取各所述手部件检测框序列对应的有效手势；

若各所述有效手势中存在一个触发手势，则确定所述触发手势为所述交互手势；

若各所述有效手势中存在多个触发手势，则确定最先处理获取的触发手势为所述交互手势；

若各所述有效手势中不存在触发手势，则继续处理所述当前视频帧的下一视频帧。

9.根据权利要求8所述的方法，其特征在于，所述获取各所述手部件检测框序列对应的有效手势，包括：

获取第一手部件检测框序列中第一手部件检测框对应的手势识别结果与所述当前视频帧的第一手部件检测框对应的手势识别结果相同的第一手部件检测框的第一数量，若所述第一数量与所述预设历史视频帧集合中视频帧的数量的占比大于或等于第一占比阈值，则确定所述当前视频帧的第一手部件检测框对应的手势识别结果为所述第一手部件检测框序列对应的有效手势，其中，所述第一手部件检测框序列为各所述手部件检测框序列中的任意一个手部件检测框序列。

10.根据权利要求8所述的方法，其特征在于，所述手部件检测框序列包括在所述当前视频帧前预设时间内、与所述当前视频帧的手部件检测框匹配成功的视频帧的手部件检测框；

所述获取各所述手部件检测框序列对应的有效手势，包括：

获取第一手部件检测框序列中第一手部件检测框对应的手势识别结果与所述当前视频帧的第一手部件检测框对应的手势识别结果相同的第一手部件检测框的第二数量，若所述第二数量与所述第一手部件检测框序列中手部件检测框的数量的占比大于或等于第二占比阈值，则确定所述当前视频帧的第一手部件检测框对应的手势识别结果为所述第一手部件检测框序列对应的有效手势，其中，所述第一手部件检测框序列为各所述手部件检测框序列中的任意一个手部件检测框序列。

11.一种交互方法，其特征在于，包括：

采用如权利要求1-10任意一项所述的确定交互手势的方法确定交互手势；

控制目标设备执行与所述交互手势对应的操作指令。

12.一种确定交互手势的装置，其特征在于，包括：

获取模块，用于获取当前视频帧；

识别模块，用于对所述当前视频帧进行手部件识别处理，得到所述当前视频帧中的至少一个手部件检测框和与所述手部件检测框对应的手势识别结果；

匹配模块，用于对所述当前视频帧与预设历史视频帧集合中视频帧对应的手部件检测框进行匹配，得到所述当前视频帧对应的至少一个手部件检测框序列；

确定模块，用于根据所述至少一个手部件检测框序列和所述手部件检测框序列中手部件检测框对应的手势识别结果，确定所述当前视频帧对应的交互手势。

13.一种电子设备，其特征在于，包括：

至少一个处理器，以及

与所述至少一个处理器通信连接的存储器，其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1-10任一项所述的方法。