CN109492577A

CN109492577A - 一种手势识别方法、装置及电子设备

Info

Publication number: CN109492577A
Application number: CN201811323711.7A
Authority: CN
Inventors: 宇哲伦; 冯巍; 柳政
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2018-11-08
Filing date: 2018-11-08
Publication date: 2019-03-19
Anticipated expiration: 2038-11-08
Also published as: CN109492577B

Abstract

本发明实施例提供了一种手势识别方法、装置及电子设备，该方法包括：从待处理视频中获取待处理视频帧，作为当前帧；按预设识别算法，对当前帧进行手势识别；获得从当前帧识别出的手势，作为待定手势；对与当前帧相邻的预设数量个相邻视频帧进行手势识别；判断预设数量个相邻视频帧中是否均识别出待定手势；如果是，则待定手势为识别出的有效手势。由于相邻视频帧的预设数量是根据添加特效需要在视频中的持续时长设置的，这样识别出的手势，能够满足后续添加特效的时长需要，因此，能够针对非自拍场景准确地识别出需要进行后续处理的有效手势。

Description

一种手势识别方法、装置及电子设备

技术领域

本发明涉及计算机视觉技术领域，特别是涉及一种手势识别方法、装置及电子设备。

背景技术

目前，为了对录制的视频进行后期处理，常常需要对视频中人物的手势加以识别，例如：识别出视频中的点赞或比心等手势，可以在后期制作时为这些手势追加特效，加上动画或花字字幕。

现有技术中，识别视频中人物手势的算法都是针对于自拍场景的。例如：很多直播软件和自拍软件，都可以在自拍视频时识别出一些时下流行的手势，并添加特效。在自拍场景下拍摄时，用户与终端设备之间的距离变化范围小，并且被拍摄人员能够主动找到自拍的最佳位置和角度，做好手势并准备拍摄，识别的时候，只需要使用现有的手势识别算法就能够很容易地把手势识别出来。然而，现有技术中的这种手势识别算法并不适用于非自拍场景下的手势识别。以综艺场景下录制的视频为例，录制综艺节目时，为了捕捉到更多的细节和精彩瞬间，会有几十、甚至几百个机位在不同的角度同时拍摄。后期制作的过程中，工作人员需要查找出视频原素材中的手势，以便对不同的手势追加不同的特效。

但是，综艺场景下不同机位拍摄出的视频镜头远近、位置等也不相同，而且被拍摄人员涉及到演员和观众，人员较多，不仅每个人的手势不同，手势持续的时长也不尽相同。对手势添加特效，需要手势在视频中持续一定的时长，用现有技术这种手势识别方法识别出来的手势数量很多，其中包括了一些持续时长不够而导致后续无法添加特效等处理的无效手势。

发明内容

本发明实施例的目的在于提供一种手势识别方法、装置及电子设备，能够针对非自拍场景准确地识别出需要进行后续处理的有效手势。具体技术方案如下：

第一方面，本发明实施例提供了一种手势识别方法，所述方法包括：

从待处理视频中获取待处理视频帧，作为当前帧；

按预设识别算法，对当前帧进行手势识别；

获得从当前帧识别出的手势，作为待定手势；

对与当前帧相邻的预设数量个相邻视频帧进行手势识别；所述预设数量根据添加特效需要在视频中的持续时长设置；

判断所述预设数量个相邻视频帧中是否均识别出所述待定手势；如果是，则待定手势为识别出的有效手势。

可选的，所述从待处理视频中获取待处理视频帧，作为当前帧的步骤，包括：

依据预设的抽帧间隔数量，在所述待处理视频中，每间隔预设的抽帧间隔数量个视频帧，抽取出一帧，作为待处理视频帧；

判断所述待处理视频帧的镜头类型是否为远景镜头；如果所述待处理视频帧的镜头类型为非远景镜头，则将所述待处理视频帧作为当前帧；

如果所述待处理视频帧的镜头类型为远景镜头，则丢弃该待处理视频帧。

可选的，所述按预设识别算法，对当前帧进行手势识别的步骤，包括：

将所述当前帧输入手势检测模型，进行手势检测；所述的手势检测模型，为预先训练好的卷积神经网络单次检测器，为：预先使用包含手势真实边界框坐标的多个训练样本进行训练，得到的单次检测器SSD神经网络模型；

判断所述手势检测模型是否在当前帧中检测到手势；如果是，则将检测到的包含所述手势的目标区域输入手势分类模型，进行手势分类；所述手势分类模型，为：预先使用包含手势所属的真实类别的多个训练样本进行训练，得到的训练好的卷积神经网络InceptionResnetV2模型；

如果否，则丢弃当前帧。

可选的，所述手势检测模型，采用如下步骤训练获得：

获取多个第一类训练样本；其中每个第一类训练样本包括样本图像及该样本图像中手势的真实边界框坐标；

将所述多个第一类训练样本输入待训练SSD神经网络模型；

所述待训练SSD神经网络模型输出所述样本图像中手势的预测边界框坐标；

使用该样本图像中手势的真实边界框坐标、输出的手势预测边界框坐标，和预设第一损失函数计算第一损失值；

根据第一损失值判断待训练SSD神经网络模型是否收敛；如果收敛，则待训练SSD神经网络模型为训练完成的手势检测模型；

如果未收敛，则调整待训练SSD神经网络模型的网络参数，返回所述将多个第一类训练样本输入待训练SSD神经网络模型的步骤。

可选的，所述手势分类模型，采用如下步骤训练获得:

获取多个第二类训练样本；其中每个第二类训练样本包括样本图像及该样本图像中手势所属的真实类别；

将所述多个第二类训练样本输入待训练卷积神经网络InceptionResnetV2模型；

使用待训练卷积神经网络InceptionResnetV2模型计算出所述样本图像中手势的预测类别；

使用手势所属的真实类别、计算出的预测类别，和预设第二损失函数计算第二损失值；

根据第二损失值判断待训练卷积神经网络InceptionResnetV2模型是否收敛；如果收敛，则待训练卷积神经网络InceptionResnetV2模型为训练完成的手势分类模型；

如果未收敛，则调整待训练卷积神经网络InceptionResnetV2模型的网络参数，返回所述将多个第二类训练样本输入待训练卷积神经网络InceptionResnetV2模型的步骤。

可选的，所述对与当前帧相邻的预设数量个相邻视频帧进行手势识别的步骤，包括：

从待处理视频中获取所述当前帧的预设数量个相邻视频帧；

按所述预设识别算法，对预设数量个相邻视频帧进行手势识别，获得每个相邻视频帧中的手势，作为参考手势；

所述判断所述预设数量个相邻视频帧中是否均识别出所述待定手势的步骤，包括：

判断每个参考手势是否均与所述待定手势相同；如果是，则所述预设数量个相邻视频帧中均识别出所述待定手势。

可选的，在所述判断所述预设数量个相邻视频帧中是否均识别出所述待定手势，如果是，则待定手势为识别出的有效手势的步骤后，所述方法还包括：

判断是否有已保存的历史有效手势；

如果没有已保存的历史有效手势，则将识别出的有效手势保存为一个新的历史有效手势返回所述从待处理视频中获取待处理视频帧的步骤；

如果有已保存的历史有效手势，则判断识别出的有效手势与各个历史有效手势是否为同一个有效手势；

如果识别出的有效手势与一个历史有效手势为同一个有效手势，则将识别出的有效手势与该历史有效手势合并保存为同一个历史有效手势；返回所述从待处理视频中获取待处理视频帧的步骤；

如果识别出的有效手势与各个历史有效手势都不为同一个有效手势，则将识别出的有效手势保存为一个新的历史有效手势，返回所述从待处理视频中获取待处理视频帧的步骤。

可选的，所述方法还包括：

获取保存的各个历史有效手势；

为各个历史有效手势添加特效。

第二方面，本发明实施例提供了一种手势识别装置，所述装置包括：

当前帧获取单元，用于从待处理视频中获取待处理视频帧，作为当前帧；

第一识别单元，用于使用预先训练好的识别装置，对当前帧进行手势识别；

手势获得单元，用于获得从当前帧识别出的手势，作为待定手势；

第二识别单元，用于对与当前帧相邻的预设数量个相邻视频帧进行手势识别；所述预设数量根据添加特效需要在视频中的持续时长设置；

有效手势判断单元，用于判断所述预设数量个相邻视频帧中是否均识别出所述待定手势；如果是，则待定手势为识别出的有效手势。

可选的，所述当前帧获取单元，包括：

抽取模块，用于依据预设的抽帧间隔数量，在所述待处理视频中，每间隔预设的抽帧间隔数量个视频帧，抽取出一帧，作为待处理视频帧；

第一判断模块，用于判断所述待处理视频帧的镜头类型是否为远景镜头；如果所述待处理视频帧的镜头类型为非远景镜头，则将所述待处理视频帧作为当前帧；

第一丢弃模块，用于如果所述待处理视频帧的镜头类型为远景镜头，则丢弃该待处理视频帧。

可选的，所述第一识别单元，包括：

输入模块，用于将所述当前帧输入手势检测模型，进行手势检测；所述的手势检测模型，为预先训练好的卷积神经网络单次检测器，为：预先使用包含手势真实边界框坐标的多个训练样本进行训练，得到的单次检测器SSD神经网络模型；

第二判断模块，用于判断所述手势检测模型是否在当前帧中检测到手势；如果是，则将检测到的包含所述手势的目标区域输入手势分类模型，进行手势分类；所述手势分类模型，为：预先使用包含手势所属的真实类别的多个训练样本进行训练，得到的训练好的卷积神经网络InceptionResnetV2模型；

第二丢弃模块，用于如果否，则丢弃当前帧。

可选的，所述手势检测模型，采用第一训练单元获得；

所述第一训练单元，包括：

第一样本获取模块，用于获取多个第一类训练样本；其中每个第一类训练样本包括样本图像及该样本图像中手势的真实边界框坐标；

第一样本输入模块，用于将所述多个第一类训练样本输入待训练SSD神经网络模型；

输出模块，用于所述待训练SSD神经网络模型输出所述样本图像中手势的预测边界框坐标；

第一损失值计算模块，用于使用该样本图像中手势的真实边界框坐标、输出的手势预测边界框坐标，和预设第一损失函数计算第一损失值；

第一收敛判断模块，用于根据第一损失值判断待训练SSD神经网络模型是否收敛；如果收敛，则待训练SSD神经网络模型为训练完成的手势检测模型；

第一参数调整模块，用于如果未收敛，则调整待训练SSD神经网络模型的网络参数，返回所述将多个第一类训练样本输入待训练SSD神经网络模型的步骤。

可选的，所述手势分类模型，采用第二训练单元获得；

所述第二训练单元，包括：

第二样本获取模块，用于获取多个第二类训练样本；其中每个第二类训练样本包括样本图像及该样本图像中手势所属的真实类别；

第二样本输入模块，用于将所述多个第二类训练样本输入待训练卷积神经网络InceptionResnetV2模型；

类别预测模块，用于使用待训练卷积神经网络InceptionResnetV2模型计算出所述样本图像中手势的预测类别；

第二损失值计算模块，用于使用手势所属的真实类别、计算出的预测类别，和预设第二损失函数计算第二损失值；

第二收敛判断模块，用于根据第二损失值判断待训练卷积神经网络InceptionResnetV2模型是否收敛；如果收敛，则待训练卷积神经网络InceptionResnetV2模型为训练完成的手势分类模型；

第二参数调整模块，用于如果未收敛，则调整待训练卷积神经网络InceptionResnetV2模型的网络参数，返回所述将多个第二类训练样本输入待训练卷积神经网络InceptionResnetV2模型的步骤。

可选的，所述第二识别单元，包括：

获取模块，用于从待处理视频中获取所述当前帧的预设数量个相邻视频帧；

参考手势获得模块，用于使用预先训练好的识别装置，对当前帧进行手势识别，获得每个相邻视频帧中的手势，作为参考手势；

所述有效手势判断单元，包括：

第三判断模块，用于判断每个参考手势是否均与所述待定手势相同；如果是，则所述预设数量个相邻视频帧中均识别出所述待定手势。

可选的，所述有效手势判断单元在判断所述预设数量个相邻视频帧中是否均识别出所述待定手势；如果是，则待定手势为识别出的有效手势之后，所述装置还包括：

历史有效手势判断单元，用于判断是否有已保存的历史有效手势；

第一手势保存单元，用于如果没有已保存的历史有效手势，则将识别出的有效手势保存为一个新的历史有效手势返回所述从待处理视频中获取待处理视频帧的步骤；

相同手势判断单元，用于如果有已保存的历史有效手势，则判断识别出的有效手势与各个历史有效手势是否为同一个有效手势；

手势合并单元，用于如果识别出的有效手势与一个历史有效手势为同一个有效手势，则将识别出的有效手势与该历史有效手势合并保存为同一个历史有效手势；返回所述从待处理视频中获取待处理视频帧的步骤；

第二手势保存单元，用于如果识别出的有效手势与各个历史有效手势都不为同一个有效手势，则将识别出的有效手势保存为一个新的历史有效手势，触发当前帧获取单元，执行所述从待处理视频中获取待处理视频帧的步骤。

可选的，所述装置还包括：

历史有效手势获取单元，用于获取保存的各个历史有效手势；

特效添加单元，用于为各个历史有效手势添加特效。

第三方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面任一所述的方法步骤。

本发明实施例提供的一种手势识别方法、装置及电子设备，通过将从待处理视频中获取的待处理视频帧作为当前帧，按预设的识别算法对其进行手势识别，获得从当前帧中识别出的手势，并作为待定手势，然后对与当前帧相邻的预设数量个相邻视频帧进行手势识别，判断所述预设数量个相邻视频帧中是否均识别出该待定手势，如果是，则待定手势为识别出的有效手势。由于所述预设数量是根据添加特效需要在视频中持续时长设置的，这样识别出的手势，能够满足后续添加特效的时长需要，因此，能够针对非自拍场景准确地识别出需要进行后续处理的有效手势。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1a为本发明实施例提供的一种手势识别方法的原理示意图；

图1b为本发明实施例提供的一种手势识别方法的流程示意图；

图2a为本发明实施例提供的另一种手势识别方法的原理示意图；

图2b为本发明实施例提供的另一种手势识别方法的流程示意图；

图2c为本发明实施例提供的一种相同手势合并方法的流程示意图；

图3为本发明实施例提供的一种手势识别方法的实例图；

图4为本发明实施例提供的一种手势识别装置的结构示意图；

图5为本发明实施例提供的一种电子设备示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

为了在非自拍场景下准确识别出需要进行后续处理的有效手势，本发明实施例提供了一种手势识别方法、装置及电子设备。通过将从待处理视频中抽取的待处理视频帧作为当前帧，按预设的识别算法对其进行手势识别，获得从当前帧中识别出的手势，并作为待定手势，然后对与当前帧相邻的预设数量个相邻视频帧进行手势识别，判断所述预设数量个相邻视频帧中是否均识别出该待定手势，如果是，则待定手势为识别出的有效手势。由于所述预设数量是根据添加特效需要在视频中持续时长设置的，这样识别出的手势，能够满足后续添加特效的时长需要，因此，能够针对非自拍场景准确地识别出需要进行后续处理的有效手势。

作为本发明实施例的一种实施方式，如图1a所示，本发明实施例提供的一种手势识别方法，首先根据预设的抽帧间隔，从待处理视频中获取待处理视频帧，作为当前帧；根据预设的手势识别算法，将当前帧输入预先训练好的手势识别模型，得到从当前帧中识别出的手势，作为待定手势；然后对与当前帧相邻的预设数量个相邻视频帧进行手势识别，结合该预设数量个相邻视频帧，判断待定手势是否为有效手势。

具体的，如图1b所示，该方法包括：

S101，从待处理视频中获取待处理视频帧，作为当前帧。

在本发明实施例中，待处理视频可以为预先录制好的视频。具体的，可以根据预设的抽帧间隔数量，在待处理视频中，每间隔预设抽帧间隔数量个视频帧，抽取出一帧待处理视频帧，作为当前帧。例如，可以将抽帧间隔设置为30帧，即每间隔30帧从待处理视频中抽取出一帧待处理视频帧，作为当前帧。

本发明实施例对于抽帧间隔数量不作具体限定，在不考虑算法耗费时长和误差范围的情况下，抽帧间隔的数量可以设置为任意帧。

S102，按预设识别算法，对当前帧进行手势识别。

上述预设识别算法包括手势检测和手势分类两个步骤。可选的，采用基于卷积神经网络的手势检测模型和手势分类模型，对当前帧中的手势进行识别。

S103，获得从当前帧识别出的手势，作为待定手势。

S104，对与当前帧相邻的预设数量个相邻视频帧进行手势识别。

其中，相邻视频帧的预设数量是根据所添加的特效需要在视频中持续时长而设置的。例如：根据视频中特效的持续时长，可以将预设数量设置为5帧。

具体的，获取当前帧的预设数量个相邻视频帧时，可以选取当前帧的前预设数量个相邻视频帧，也可以选取当前帧的后预设数量个相邻视频帧。例如，当前帧为待处理视频序列中的第30帧，那么选取预设数量个相邻视频帧时，可以选取待处理视频中的第25帧至第29帧，也可以选取第31帧至第35帧。本发明实施例对于上述当前帧的预设数量个相邻视频帧的选取方式不作具体限定。

S105，判断预设数量个相邻视频帧中是否均识别出待定手势；如果是，则待定手势为识别出的有效手势。

由上述实施例可见，本发明实施例提供的一种手势识别方法，通过将从待处理视频中抽取的待处理视频帧作为当前帧，按预设的识别算法对其进行手势识别，获得从当前帧中识别出的手势，并作为待定手势，然后对与当前帧相邻的预设数量个相邻视频帧进行手势识别，判断所述预设数量个相邻视频帧中是否均识别出该待定手势，如果是，则待定手势为识别出的有效手势。由于所述预设数量是根据添加特效需要在视频中持续时长设置的，这样识别出的手势，能够满足后续添加特效的时长需要，因此，能够针对非自拍场景准确地识别出需要进行后续处理的有效手势。

作为本发明实施例的一种实施方式，如图2a所示，本发明实施例提供的另一种手势识别方法，首先根据预设的抽帧间隔，从待处理视频中抽取出待处理视频帧；利用已有的镜头类型识别算法，对待处理视频帧的镜头类型进行识别，若待处理视频帧的镜头类型为非远景镜头，则将待处理视频帧作为当前帧，输入基于卷积神经网络的手势检测模型；如果在当前帧中检测出手势，则将包含该手势的目标区域输入基于卷积神经网络的手势分类模型，获得从当前帧识别出的手势，作为待定手势；然后获取该当前帧的预设数量个相邻帧，进行相同的手势识别步骤，结合各个相邻视频帧的手势识别结果，判断在当前帧中识别出的手势是否为有效手势；若为有效手势，则将相同手势合并，得到最终的手势识别结果。

具体的，如图2b所示，该方法包括：

S201，从待处理视频中抽取待处理视频帧。

S202，判断待处理视频帧的镜头类型是否为远景镜头。如果是，则执行步骤S203，丢弃待处理视频帧，返回步骤S201；如果否，则执行步骤S204。

S204，将待处理视频作为当前帧，输入手势检测模型，进行手势检测。

具体的，按照预设的抽帧间隔从待处理视频中抽取出待处理视频帧，利用已有的镜头类型识别算法对待处理视频帧的镜头类型加以识别，如果待处理视频帧的镜头类型为远景镜头，则丢弃该待处理视频帧。其中，抽帧间隔可以根据算法的耗费时长和误差范围来设定。当待处理视频的时长为1小时、抽帧间隔设置为30帧时，算法耗费的时长约为20分钟。

具体的，如果待处理视频帧的镜头类型被识别为非远景镜头，则将该待处理视频帧作为当前帧，进行手势检测。其中，非远景镜头可以包括：特写、近景镜头及中景镜头。

可选的，上述手势检测模型，为：预先训练好的卷积神经网络单次检测器，为：预先使用包含手势真实边界框坐标的多个训练样本进行训练，得到的单次检测器SSD神经网络模型。可以采用如下方法训练得到：

步骤一，获取多个第一类训练样本；其中每个第一类训练样本包括样本图像及该样本图像中手势的真实边界框坐标。

具体的，对采集到的第一类手势图像进行数据增强，包括水平翻转、尺度缩放、裁剪等操作，获得用于训练的第一类训练样本的样本图像。数据增强不仅可以增加训练样本的个数，同时构造出了更多不同尺度、不同形状的训练样本用于SSD神经网络的训练，使其具有更强的鲁棒性。

步骤二，将所述多个第一类训练样本输入待训练SSD神经网络模型。

可选的，待训练SSD神经网络模型可以为开源的预训练SSD神经网络模型。

步骤三，待训练SSD神经网络模型输出所述样本图像中手势的预测边界框坐标。

步骤四，使用该样本图像中手势的真实边界框坐标、计算获得的手势预测边界框坐标，和预设第一损失函数计算第一损失值。

具体的，预设第一损失函数可以为：

整个模型的第一损失函数L(x,c,l,g)是位置损失L_loc和置信损失L_conf的加权和。其中，置信损失正样本Pos表示与真实边界框匹配的目标预选框，N为其个数，负样本Neg表示与真实边界框不匹配的目标预选框，用来表示第i个目标预选框是否与第p类物体的第j个目标的真实边界框相匹配，匹配为1，反之为0；表示第i个目标预选框匹配到第p类物体的置信度。

位置损失表示第j个目标的真实边界框坐标与预设的目标预选框坐标之间的偏差，m∈{cx，cy，w，h}，(cx，cy)表示边界框中心点坐标，(w，h)表示边界框的宽和高。其中，表示真实边界框的中心点坐标，表示真实边界框的宽和高，表示第i个目标预选框的中心点坐标，表示第i个目标预选框的宽和高。

步骤五，根据第一损失值判断待训练SSD神经网络模型是否收敛；如果收敛，则待训练SSD神经网络模型为训练完成的手势检测模型。

步骤六，如果未收敛，则调整待训练SSD神经网络模型的网络参数，返回所述将多个第一类训练样本输入待训练SSD神经网络模型的步骤。

利用训练完成的手势检测模型对当前帧进行手势检测时，将当前帧输入该模型，该模型通过深度神经网络提取整个输入的当前帧的深度特征，针对不同尺度的深度特征图设计不同大小的目标预选框，通过提取这些目标预选框对应的深度特征图的特征来获得预测的边界框位置以及判断预选框中是否含有手势目标，最终通过非最大值抑制筛选得到最佳预测结果，作为手势检测的结果。

S205，判断手势检测模型是否在当前帧中检测到手势。如果是，则执行步骤S206，如果否，则执行步骤S210，丢弃当前帧，返回步骤S201。

判断手势检测模型是否在当前帧中检测出了手势；如果否，则表示当前帧中不存在手势，丢弃当前帧；如果是，则将检测到的包含上述手势的目标区域输入手势分类模型，进行手势分类。

可选的，上述手势分类模型，为：预先使用包含手势所属的真实类别的多个训练样本进行训练，得到的训练好的卷积神经网络InceptionResnetV2模型，可以采用如下方法训练得到：

步骤一，获取多个第二类训练样本；其中每个第二类训练样本包括样本图像及该样本图像中手势所属的真实类别。

具体的，对采集到的第二类手势图像进行水平翻转、尺度缩放、裁剪等数据增强的操作。

步骤二，将所述多个第二类训练样本输入待训练卷积神经网络InceptionResnetV2模型。

可选的，待训练卷积神经网络InceptionResnetV2模型可以为开源的预训练卷积神经网络InceptionResnetV2模型。

步骤三，使用待训练卷积神经网络InceptionResnetV2模型计算出所述样本图像中手势的预测类别。

步骤四，使用手势所属的真实类别、计算出的预测类别，和预设第二损失函数计算第二损失值。

具体的，预设第二损失函数可以为：

式中，i为第二类训练样本的个数，y_i为第i个第二类训练样本中手势所属的真实类别，y_predicted_i为第i个第二类训练样本中手势的预测类别。

步骤五，根据第二损失值判断待训练卷积神经网络InceptionResnetV2模型是否收敛；如果收敛，则待训练卷积神经网络InceptionResnetV2模型为训练完成的手势分类模型。

步骤六，如果未收敛，则调整待训练卷积神经网络InceptionResnetV2模型的网络参数，返回所述将多个第二类训练样本输入待训练卷积神经网络InceptionResnetV2模型的步骤。

S206，将当前帧输入手势分类模型，进行手势分类。

具体的，进行手势分类时，将手势检测模型检测出的含有手势的目标区域输入至手势分类模型，利用手势分类模型计算出该手势的预测类别。

图3为手势识别结果的示例图。如图所示，先将该视频帧图像输入手势检测模型，图中的矩形框即为手势检测模型的检测结果及定位结果。由于图3所示的视频帧图像中包含两个手势，因此手势检测模型框选出了两个目标区域，然后将这两个目标区域输入手势分类模型，由手势分类模型预测出两个目标区域中包含的手势属于“heart_small”类别，并计算得到这两个手势属于“heart_small”类别的置信度均为1，即完成了手势识别的过程。

S207，获得从当前帧识别出的手势，作为待定手势。

S208，对与当前帧相邻的预设数量个相邻视频帧进行手势识别。

具体的，可以从待处理视频中获取当前帧的预设数量个相邻视频帧，按所述预设识别算法，对预设数量个相邻视频帧分别进行手势识别，获得每个相邻视频帧中的手势，作为参考手势。其中，上述相邻视频帧的预设数量可以根据添加特效时，手势需要在视频中持续的时长来设置。

S209，判断预设数量个相邻视频帧中是否均识别出所述待定手势。如果是，则执行步骤S211，如果否，则执行步骤S210，丢弃当前帧，返回步骤S201。

具体的，可以从待处理视频中获取当前帧的预设数量个相邻视频帧；按照预设识别算法，对预设数量个相邻视频帧进行手势识别，获得每个相邻视频帧中的手势，作为参考手势。如果每个相邻视频帧中识别出的参考手势的边界框和类别都与待定手势的边界框和类别相同，那么待定手势就被判断为有效手势。

S211，相同手势合并。

本实施例中，从待处理视频中抽取待处理视频帧，能够加快识别速度，提高识别效率。由于远景镜头中，手势所占画面的比例很小，没有必要对远景镜头中的手势添加特效，因此本实施例中，将远景镜头丢弃，更符合添加特效的需求，进一步加快了识别速度，提高了识别效率。另外，本实施例中通过预先训练好的手势检测模型来检测当前帧中是否有手势，并用预先训练好的手势分类模型识别出手势的类型，识别过程简便，进一步加快了识别速度，提高了识别效率。

具体的手势合并的步骤如图2c所示，包括如下步骤：

S212，判断是否有已保存的历史有效手势；如果没有，执行步骤S213；如果有，执行步骤S214。

S213，将识别出的有效手势保存为一个新的历史有效手势。

S214，判断识别出的有效手势与各个历史有效手势是否为同一个有效手势；如果是，执行步骤S215；如果否，执行步骤S216。

S215，将识别出的有效手势与该历史有效手势合并保存为同一个历史有效手势。

S216，将识别出的有效手势保存为一个新的历史有效手势。

S217，返回步骤S201，从待处理视频中获取待处理视频帧。

具体的，如果在当前帧的预设数量个相邻视频帧中均识别出上述待定手势，那么待定手势即为有效手势；判断是否有已保存的历史有效手势，如果没有，那么将识别出的有效手势保存为一个新的历史有效手势，并返回从待处理中获取待处理视频帧的步骤；如果有，那么判断当前帧中识别出的有效手势与各个历史有效手势是否为同一个有效手势；如果识别出的有效手势与一个历史有效手势为同一个有效手势，则将识别出的有效手势与该历史有效手势合并保存为同一个历史有效手势；返回所述从待处理视频中获取待处理视频帧的步骤；如果识别出的有效手势与各个历史有效手势都不为同一个有效手势，则将识别出的有效手势保存为一个新的历史有效手势，返回所述从待处理视频中获取待处理视频帧的步骤。

这样在待处理视频识别完成后，需要为手势添加特效时，就可以获取保存的各个历史有效手势，为各个历史有效手势添加特效了。

本实施例中，可以将识别出的相同的有效手势进行合并，能够避免后续添加特效时，分别添加特效造成的重复操作，能够提高添加特效的效率。

本发明实施例提供的一种手势识别方法，通过将从待处理视频中获取的待处理视频帧作为当前帧，按预设的识别算法对其进行手势识别，获得从当前帧中识别出的手势，并作为待定手势，然后对与当前帧相邻的预设数量个相邻视频帧进行手势识别，判断所述预设数量个相邻视频帧中是否均识别出该待定手势，如果是，则待定手势为识别出的有效手势。由于所述预设数量是根据添加特效需要在视频中持续时长设置的，这样识别出的手势，能够满足后续添加特效的时长需要，因此，能够针对非自拍场景准确地识别出需要进行后续处理的有效手势。

作为本发明实施例的一种实施方式，如图4所示，本发明实施例提供的一种手势识别装置，包括：

当前帧获取单元410，用于从待处理视频中获取待处理视频帧，作为当前帧。

第一识别单元420，用于使用预先训练好的识别装置，对当前帧进行手势识别。

手势获得单元430，用于获得从当前帧识别出的手势，作为待定手势。

第二识别单元440，用于对与当前帧相邻的预设数量个相邻视频帧进行手势识别；预设数量根据添加特效需要在视频中的持续时长设置。

有效手势判断单元450，用于判断所述预设数量个相邻视频帧中是否均识别出所述待定手势；如果是，则待定手势为识别出的有效手势。

本发明实施例提供的一种手势识别装置，通过将从待处理视频中获取的待处理视频帧作为当前帧，按预设的识别算法对其进行手势识别，获得从当前帧中识别出的手势，并作为待定手势，然后对与当前帧相邻的预设数量个相邻视频帧进行手势识别，判断所述预设数量个相邻视频帧中是否均识别出该待定手势，如果是，则待定手势为识别出的有效手势。由于所述预设数量是根据添加特效需要在视频中持续时长设置的，这样识别出的手势，能够满足后续添加特效的时长需要，因此，能够针对非自拍场景准确地识别出需要进行后续处理的有效手势。

作为本发明实施例的一种实施方式，所述当前帧抽取单元，包括：

抽取模块，用于依据预设的抽帧间隔数量，在所述待处理视频中，每间隔预设的抽帧间隔数量个视频帧，抽取出一帧，作为待处理视频帧。

第一判断模块，用于判断所述待处理视频帧的镜头类型是否为远景镜头；如果所述待处理视频帧的镜头类型为非远景镜头，则将所述待处理视频帧作为当前帧。

作为本发明实施例的一种实施方式，所述第一识别单元，包括：

输入模块，用于将所述当前帧输入手势检测模型，进行手势检测；所述的手势检测模型，为预先训练好的卷积神经网络单次检测器，为：预先使用包含手势真实边界框坐标的多个训练样本进行训练，得到的单次检测器SSD神经网络模型。

第二判断模块，用于判断所述手势检测模型是否在当前帧中检测到手势；如果是，则将检测到的包含所述手势的目标候选区域输入手势分类模型，进行手势分类；所述手势分类模型，为：预先使用包含手势所属的真实类别的多个训练样本进行训练，得到的训练好的卷积神经网络InceptionResnetV2模型。

第二丢弃模块，用于如果否，则丢弃当前帧。

作为本发明实施例的一种实施方式，所述手势检测模型，采用第一训练单元获得。

所述第一训练单元，包括：

第一样本获取模块，用于获取多个第一类训练样本；其中每个第一类训练样本包括样本图像及该样本图像中手势的真实边界框坐标。

第一样本输入模块，用于将所述多个第一类训练样本输入待训练SSD神经网络模型。

输出模块，用于所述待训练SSD神经网络模型输出所述样本图像中手势的预测边界框坐标。

第一损失值计算模块，用于使用该样本图像中手势的真实边界框坐标、计算获得的手势预测边界框坐标，和预设第一损失函数计算第一损失值。

第一收敛判断模块，用于根据第一损失值判断待训练SSD神经网络模型是否收敛；如果收敛，则待训练SSD神经网络模型为训练完成的手势检测模型。

作为本发明实施例的一种实施方式，所述手势分类模型，采用第二训练单元获得。

所述第二训练单元，包括：

第二样本获取模块，用于获取多个第二类训练样本；其中每个第二类训练样本包括样本图像及该样本图像中手势所属的真实类别。

第二样本输入模块，用于将所述多个第二类训练样本输入待训练卷积神经网络InceptionResnetV2模型。

类别预测模块，用于使用待训练卷积神经网络InceptionResnetV2模型计算出所述样本图像中手势的预测类别。

第二损失值计算模块，用于使用手势所属的真实类别、计算出的预测类别，和预设第二损失函数计算第二损失值。

第二收敛判断模块，用于根据第二损失值判断待训练卷积神经网络InceptionResnetV2模型是否收敛；如果收敛，则待训练卷积神经网络InceptionResnetV2模型为训练完成的手势分类模型。

作为本发明实施例的一种实施方式，所述第二识别单元，包括：

获取模块，用于从待处理视频中获取所述当前帧的预设数量个相邻视频帧。

参考手势获得模块，用于使用预先训练好的识别装置，对当前帧进行手势识别，获得每个相邻视频帧中的手势，作为参考手势。

所述有效手势判断单元，包括：

作为本发明实施例的一种实施方式，所述有效手势判断单元在判断所述预设数量个相邻视频帧中是否均识别出所述待定手势；如果是，则待定手势为识别出的有效手势之后，所述装置还包括：

历史有效手势判断单元，用于判断是否有已保存的历史有效手势。

第一手势保存单元，用于如果没有已保存的历史有效手势，则将识别出的有效手势保存为一个新的历史有效手势返回所述从待处理视频中获取待处理视频帧的步骤。

相同手势判断单元，用于如果有已保存的历史有效手势，则判断识别出的有效手势与各个历史有效手势是否为同一个有效手势。

手势合并单元，用于如果识别出的有效手势与一个历史有效手势为同一个有效手势，则将识别出的有效手势与该历史有效手势合并保存为同一个历史有效手势；返回所述从待处理视频中获取待处理视频帧的步骤。

作为本发明实施例的一种实施方式，所述装置还包括：

历史有效手势获取单元，用于获取保存的各个历史有效手势。

特效添加单元，用于为各个历史有效手势添加特效。

本发明实施例还提供了一种电子设备，如图5所示，包括处理器501、通信接口502、存储器503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信，

存储器503，用于存放计算机程序；

处理器501，用于执行存储器503上所存放的程序时，实现如下步骤：

从待处理视频中获取待处理视频帧，作为当前帧；

按预设识别算法，对当前帧进行手势识别；

获得从当前帧识别出的手势，作为待定手势；

对与当前帧相邻的预设数量个相邻视频帧进行手势识别；

本发明实施例提供的一种电子设备，实现了手势识别的方法，通过将从待处理视频中获取的待处理视频帧作为当前帧，按预设的识别算法对其进行手势识别，获得从当前帧中识别出的手势，并作为待定手势，然后对与当前帧相邻的预设数量个相邻视频帧进行手势识别，判断所述预设数量个相邻视频帧中是否均识别出该待定手势，如果是，则待定手势为识别出的有效手势。由于所述预设数量是根据添加特效需要在视频中持续时长设置的，这样识别出的手势，能够满足后续添加特效的时长需要，因此，能够针对非自拍场景准确地识别出需要进行后续处理的有效手势。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种手势识别方法，其特征在于，所述方法包括：

从待处理视频中获取待处理视频帧，作为当前帧；

按预设识别算法，对当前帧进行手势识别；

获得从当前帧识别出的手势，作为待定手势；

2.根据权利要求1所述的方法，其特征在于，所述从待处理视频中获取待处理视频帧，作为当前帧的步骤，包括：

3.根据权利要求1所述的方法，其特征在于，所述按预设识别算法，对当前帧进行手势识别的步骤，包括：

如果否，则丢弃当前帧。

4.根据权利要求3所述的方法，其特征在于，所述手势检测模型，采用如下步骤训练获得：

将所述多个第一类训练样本输入待训练SSD神经网络模型；

5.根据权利要求3所述的方法，其特征在于，所述手势分类模型，采用如下步骤训练获得:

6.根据权利要求1所述的方法，其特征在于，所述对与当前帧相邻的预设数量个相邻视频帧进行手势识别的步骤，包括：

从待处理视频中获取所述当前帧的预设数量个相邻视频帧；

7.根据权利要求1所述的方法，其特征在于，

在所述判断所述预设数量个相邻视频帧中是否均识别出所述待定手势，如果是，则待定手势为识别出的有效手势的步骤后，所述方法还包括：

判断是否有已保存的历史有效手势；

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

获取保存的各个历史有效手势；

为各个历史有效手势添加特效。

9.一种手势识别装置，其特征在于，所述装置包括：

10.根据权利要求9所述的装置，其特征在于，所述当前帧获取单元，包括：

11.根据权利要求9所述的装置，其特征在于，所述第一识别单元，包括：

第二丢弃模块，用于如果否，则丢弃当前帧。

12.根据权利要求11所述的装置，其特征在于，所述手势检测模型，采用第一训练单元获得；

所述第一训练单元，包括：

13.根据权利要求11所述的装置，其特征在于，所述手势分类模型，采用第二训练单元获得；

所述第二训练单元，包括：

14.根据权利要求9所述的装置，其特征在于，所述第二识别单元，包括：

所述有效手势判断单元，包括：

15.根据权利要求9所述的装置，其特征在于，所述有效手势判断单元在判断所述预设数量个相邻视频帧中是否均识别出所述待定手势；如果是，则待定手势为识别出的有效手势之后，所述装置还包括：

16.根据权利要求15所述的装置，其特征在于，所述装置还包括：

特效添加单元，用于为各个历史有效手势添加特效。

17.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-8任一所述的方法步骤。