CN113537169B

CN113537169B - 手势识别方法、设备、存储介质和计算机程序产品

Info

Publication number: CN113537169B
Application number: CN202111083501.7A
Authority: CN
Inventors: 钱程浩; 黄雪峰; 熊海飞
Original assignee: Shenzhen Xinrun Fulian Digital Technology Co Ltd
Current assignee: Shenzhen Xinrun Fulian Digital Technology Co Ltd
Priority date: 2021-09-16
Filing date: 2021-09-16
Publication date: 2022-02-15
Anticipated expiration: 2041-09-16
Also published as: CN113537169A

Abstract

本发明公开了一种手势识别方法、设备、存储介质和计算机程序产品，所述手势识别方法包括以下步骤：获取待识别手势图像，并对所述待识别手势图像进行多层次特征提取，得到至少一张中间特征图；将各所述中间特征图进行融合，得到至少一张融合特征图；依据各所述融合特征图，对所述待识别手势图像进行手势识别，得到手势识别结果。提高了手势识别的准确率。

Description

手势识别方法、设备、存储介质和计算机程序产品

技术领域

本发明涉及手势识别领域，尤其一种手势识别方法、设备、存储介质和计算机程序产品。

背景技术

手势是一种非语言的交流形式，可用于多个领域，例如聋哑人之间的交流、机器人控制、人机交互、家庭自动化和医疗应用等。与传统手势识别方式相比，基于深度学习的手势识别方式不需要人们自己去选择和提取特征，神经网络技术这种技术具有自组织和自学习能力，具有分布性特点，能有效的抗噪声和处理不完整模式以及具有模式推广能力。基于深度学习的手势识别方法虽能够提取到更多的语义信息，有效地表征手势图像的全局语义信息，但随着特征提取层数的增加，保留下来的位置信息越来越少，对于背景或手势本身比较复杂的手势图像，手势识别的准确率较低。

发明内容

本发明的主要目的在于提供一种手势识别方法、设备、存储介质和计算机程序产品，旨在解决手势识别准确率低的技术问题。

为实现上述目的，本发明提供一种手势识别方法，所述手势识别方法包括以下步骤：

获取待识别手势图像，并对所述待识别手势图像进行多层次特征提取，得到至少一张中间特征图；

将各所述中间特征图进行融合，得到至少一张融合特征图；

依据各所述融合特征图，对所述待识别手势图像进行手势识别，得到手势识别结果。

优选地，所述依据各所述融合特征图，对所述待识别手势图像进行手势识别，得到手势识别结果步骤包括：

依据不同预设感受野大小的特征提取层，对所述融合特征图进行多尺度特征提取，得到多尺度特征提取结果；

依据所述多尺度特征提取结果对所述待识别手势图像进行手势识别，得到手势识别结果。

优选地，所述依据不同预设感受野大小的特征提取层，对所述融合特征图进行多尺度特征提取，得到多尺度特征提取结果的步骤包括：

依据所述不同预设感受野大小的特征提取层，分别对所述融合特征图进行特征提取，得到至少一张待预测特征图；

将各所述待预测特征图映射至预设张量空间，得到所述多尺度特征提取结果。

优选地，所述多尺度特征提取结果包括第一尺度特征图、第二尺度特征图以及第三尺度特征图，

所述依据不同预设感受野大小的特征提取层，对所述融合特征图进行多尺度特征提取，得到多尺度特征提取结果的步骤包括：

依据感受野大小为3×3的第一特征提取层、感受野大小为5×5的第二特征提取层和感受野大小为7×7的第三特征提取层，分别对所述融合特征图进行特征提取，得到第一待预测特征图、第二待预测特征图和第三待预测特征图；

将所述第一待预测特征图作为所述第一尺度特征图，将所述第二待预测特征图和所述第三待预测特征图映射至预设张量空间，以将所述第二待预测特征图以及所述第三待预测特征图的尺寸转换至与所述第一待预测特征图的尺寸一致，得到所述第二尺度特征图和所述第三尺度特征图。

优选地，所述依据所述多尺度特征提取结果对所述待识别手势图像进行手势识别，得到手势识别结果的步骤包括：

依据各所述融合特征图对应的多尺度特征提取结果，对所述待识别手势图像进行手势识别，得到至少一个中间手势识别结果；

依据各所述中间手势识别结果，确定所述待识别手势图像对应的目标手势识别结果。

优选地，所述中间特征图包括第一中间特征图、第二中间特征图和第三中间特征图，所述将各中间特征图进行融合，得到至少一张融合特征图步骤包括：

将所述第三中间特征图映射至与所述第二中间特征图一致的张量空间，得到第一待融合特征图；

将所述第二中间特征图与所述第一待融合特征图进行融合，得到第一融合特征图；

将所述第一融合特征图映射至与所述第一中间特征图一致的张量空间，得到第二待融合特征图；

将所述第一中间特征图与所述第二待融合特征图进行融合，得到第二融合特征图。

优选地，所述对所述待识别手势图像进行多层次特征提取，得到至少一张中间特征图的步骤包括：

将所述待识别手势图像输入预设特征提取模型，以将所述待识别手势图像依次通过所述预设特征提取模型中不同层次的预设目标特征提取层，得到各所述预设目标特征提取层的目标特征提取层输出；

将各所述目标特征提取层输出作为所述中间特征图。

此外，为实现上述目的，本发明还提供一种手势识别设备，所述手势识别设备包括：存储器、处理器以及存储在存储器上的用于实现所述手势识别方法的程序，所述存储器用于存储手势识别方法的程序；所述处理器用于执行实现所述手势识别方法的程序，以实现如上所述的手势识别方法的步骤。

此外，为实现上述目的，本发明还提供一种存储介质，所述存储介质为计算机可读存储介质，所述计算机可读存储介质上存储有基于卷积神经网络的手势识别程序，所述基于卷积神经网络的手势识别程序被处理器执行时实现如上所述的手势识别方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上所述的手势识别方法的步骤。

本发明实施例提出的一种手势识别方法、设备、存储介质和计算机程序产品，通过多层次特征提取获取更多的手势识别所需的语义信息，通过特征融合可以有效结合经过不同层次特征提取获取的手势特征信息，同时保留高层网络提取的语义信息和低层网络提取的位置信息，结合语义信息和位置信息可以大大提高对复杂手势图像进行手势识别的准确率，低层网络还通过保留了在手势图像中占比较小的目标手势的手势特征信息，有效避免在手势图像中占比较小的目标手势的手势特征信息在层层卷积、池化等操作的过程中被丢失，而无法准确识别到手势图像中占比较小的目标手势的问题，提高了手势识别的全面性和准确性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图；

图2为本发明手势识别方法的第一实施例的流程示意图；

图3为图2中步骤S30的细化流程示意图；

图4为本发明中将各所述中间特征图进行融合得到至少一张融合特征图的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。

如图1所示，该设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏（Display）、输入单元比如键盘（Keyboard），可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口（如WI-FI接口）。存储器1005可以是高速RAM存储器，也可以是稳定的存储器（non-volatile memory），例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，设备还可以包括摄像头、RF（Radio Frequency，射频）电路，传感器、音频电路、WiFi模块等等。其中，传感器比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示屏的亮度，接近传感器可在移动设备移动到耳边时，关闭显示屏和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上（一般为三轴）加速度的大小，静止时可检测出重力的大小及方向，可用于识别移动设备姿态的应用（比如横竖屏切换、相关游戏、磁力计姿态校准）、振动识别相关功能（比如计步器、敲击）等；当然，移动设备还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图1中示出的设备结构并不构成对设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及手势识别程序。

在图1所示的设备中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端（用户端），与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的手势识别程序，并执行以下所述的驾驶行为检测方法的步骤。

本申请实施例提供一种手势识别方法，在本申请手势识别方法的第一实施例中，参照图2，所述手势识别方法包括：

步骤S10，获取待识别手势图像，并对所述待识别手势图像进行多层次特征提取，得到至少一张中间特征图；

在本实施例中，需要说明的是，手势识别是通过数学算法来识别人类手势的方法，所述待识别手势图像是通过摄像头、传感器等捕捉并生成的用于手势识别的图像，并对所述待识别手势图像进行多层次特征提取，得到至少一张中间特征图，其中，多层次特征提取是指通过多层特征提取层串联成的不同高度的特征提取网络对手势图像进行一次以上特征提取的过程，用于从手势图像中提取出手势识别所需的手势特征信息，其中，所述手势特征信息包括语义信息和位置信息，具体地，每一特征提取层的参数设置可以相同或不同（例如：使用卷积神经网络对手势图像进行多次特征提取时，每一层设定的卷积核的数量、每一个卷积核的参数（如：大小、步长和填充等）等可能相同或不同），本实施例对此不加以限制，其中特征提取是使用计算机提取图像中属于特征性的信息的方法及过程，包括SIFT（Scale-invariant feature transform，尺度不变特征变换）特征提取方法、HOG（Histogram of Oriented Gradient，方向梯度直方图）特征提取方法、基于深度学习的特征提取方法等，所述中间特征图是手势图像通过每一层或多层特征提取后得到的图像数据。

具体地，获取待识别手势图像，并对所述待识别手势图像进行多层次特征提取，得到至少一张中间特征图，将所述待识别手势图像输入所述特征提取模型的最低层特征提取层，使得所述待识别手势图像从低层往高层依次通过所述特征提取模型中的每一个特征提取层进行特征提取，且每通过一个特征提取层进行特征提取后均会输出一张中间特征图。

其中，所述所述待识别手势图像从低层往高层依次通过所述特征提取模型的步骤还包括：将所述待识别手势图像输入所述特征提取模型的第一层（即最低层）进行特征提取后，得到两张一样的中间特征图，其中一张以中间特征图的形式输出，另一张则输入第二层特征提取层，除最后一层（即最高层）仅输出一张中间特征图无需再输入下一特征提取层外，其他每一层，都得到两张一样的中间特征图，一张以中间特征图的形式输出，另一张则输入下一特征提取层，通过越多的特征提取层后得到的中间特征图的层次越高，容易理解的是，与低层的中间特征图相比高层的中间特征图经过更多次的特征提取，提取到的语义信息则越多，但位置信息越少，所述特征提取模型的层数可以根据需求自行设定。

具体地，所述对所述待识别手势图像进行多层次特征提取，得到至少一张中间特征图的步骤包括：

步骤A10，将所述待识别手势图像输入预设特征提取模型，以将所述待识别手势图像依次通过所述预设特征提取模型中不同层次的预设目标特征提取层，得到各所述预设目标特征提取层的目标特征提取层输出；

步骤A20，将各所述目标特征提取层输出作为所述中间特征图。

在本实施例中，需要说明的是，所述特征提取模型包括多个特征提取层串联而成的特征提取网络，所述目标特征提取层是根据实际情况从特征提取模型中的选取的全部或部分特征提取层，例如：特征提取模型包括从10个串联的特征提取层，预设目标特征提取层可以全部的10个特征提取层，则有10个目标特征提取层输出，进而有10张中间特征图，预设目标特征提取层也可以为预设层次的特征提取层（如：第1层、第4层、第10层等），预设了几个目标特征提取层则会有与预设目标特征提取层数量相同的目标特征提取层输出，进而会有与预设目标特征提取层数量相同的中间特征图。

具体地，将所述待识别手势图像输入预设特征提取模型，以将所述待识别手势图像依次通过所述预设特征提取模型中不同层次的预设目标特征提取层，得到各所述预设目标特征提取层的目标特征提取层输出，将所述待识别手势图像通过预设特征提取模型中不同层次的特征提取层进行特征提取，每通过预设预设目标特征提取层后，将得到的目标特征提取层输出作为一张中间特征图，中间特征图的数量与预设目标特征提取层的数量相同。

容易理解的是，本实施例中的特征提取包括两层或两层以上特征提取层，特征提取层之间为串联关系，除第一层是对手势图像进行特征提取外，每后一层特征提取层的输入是前一层特征提取层输出的特征提取图，由于第一层特征提取层可能只能提取一些低级的特征如边缘、线条和角等，更多层的网路能从低级特征中迭代提取更复杂的特征，通过本实施例提出的方法，随着特征提取层层数的增加，我们可以从手势图像中提取出更多的语义信息，由此可以提高手势识别的准确性。

需要说明的是，另外地，在一种可实施的方式中，所述预设特征提取模型为基于卷积神经网络的特征提取模型，所述卷积神经网络包括一个或多个卷积层，每层卷积层都是预先设定的，由一个或多个不同的卷积核组成，每个卷积核的参数都可以通过反向传播算法进行优化更新，具体地，还可选择性地在各卷积层之间插入池化层以控制参数的数量和计算量，所述手势图像输入卷积神经网络之前，还可以对手势图像进行预处理，如尺寸调整、灰度化处理等，并将所述手势图像的像素矩阵输入卷积神经网络进行特征提取，具体地，所述将所述手势图像的像素矩阵输入卷积神经网络进行特征提取的方法包括，将手势图像的像素矩阵输入预设第一层卷积层进行特征提取得到第一中间特征图，其中所述第一中间特征图包括第一层卷积层全部卷积核对手势图像进行特征提取后得到的全部特征图，除了第一层卷积层的输入为手势图像原图的像素矩阵之外，之后每一层的输入均为前一层输出的中间特征图，即第二层卷积层是对通过所述第一层卷积层特征提取后得到的第一中间特征图进行特征提取，通过第二层卷积层进行特征提取后得到第二中间特征图，所述第二中间特征图包括第二层卷积层全部卷积核对第一中间特征图进行特征提取后得到的全部特征图，所述卷积层的层数可以根据需求自行设定。

步骤S20，将各所述中间特征图进行融合，得到至少一张融合特征图；

在本实施例中，需要说明的是，将各中间特征图进行融合的方法包括通道拼接和通道加和等，其中进行融合的各中间特征图可以是全部中间特征图或按预设规则选取的部分中间特征图，具体地，将各所述中间特征图进行融合，得到至少一张融合特征图，用于将高层网络提取的语义信息和低层网络提取的位置信息和手势图像中小尺寸特征的语义信息进行融合，得到同时具有不同尺寸特征的语义信息和位置信息的融合特征图。

具体地，所述中间特征图包括第一中间特征图、第二中间特征图和第三中间特征图，所述将各中间特征图进行融合，得到至少一张融合特征图步骤包括：

步骤B10，将所述第三中间特征图映射至与所述第二中间特征图一致的张量空间，得到第一待融合特征图；

在本实施例中，需要说明的是，所述第二中间特征图是由第一中间特征图卷积生成，所述第三特征图是由第二特征图卷积生成，其中，卷积可以是通过一个或多个卷积层，其中每个卷积层可以包括一个或多个预设参数的卷积核。

在本实施例中，将所述第三中间特征图映射至与所述第二中间特征图一致的张量空间的方法包括对第三中间特征图进行上采样等，具体地，将所述第三中间特征图映射至与所述第二中间特征图一致的张量空间，以将所述第三中间特征图的尺寸转换为与所述第二中间特征图一致的尺寸的第一待融合特征图。

步骤B20，将所述第二中间特征图与所述第一待融合特征图进行融合，得到第一融合特征图；

在本实施例中，具体地，将所述第二中间特征图与所述第一待融合特征图进行融合，得到第一融合特征图，将所述第二中间特征图与所述第一待融合特征图进行进行矩阵加和得到第一融合特征图。

步骤B30，将所述第一融合特征图映射至与所述第一中间特征图一致的张量空间，得到第二待融合特征图；

在本实施例中，具体地，将所述第一融合特征图映射至与所述第一中间特征图一致的张量空间，以将所述第一融合特征图的尺寸转换为与所述第一中间特征图一致的尺寸的第二待融合特征图。

步骤B40，将所述第一中间特征图与所述第二待融合特征图进行融合，得到第二融合特征图。

在本实施例中，具体地，将所述第一中间特征图与所述第二待融合特征图进行融合，得到第二融合特征图，将所述第一中间特征图与所述第二待融合特征图进行进行矩阵加和得到第二融合特征图，需要说明的是，在手势识别过程中按从高层中间特征图到低层中间特征图的顺序，执行两次或两次以上的特征融合操作，除第一次是对最高层的中间特征图进行上采样转换为某一较低层的中间特征图的尺寸后，再与该较低层的中间特征图进行融合，之后的每次融合都是对前一次融合得到的融合特征图进行上采样转换为某一较低层的中间特征图的尺寸后，再与该较低层的中间特征图进行融合，通过结合较高层中间特征图的语义信息和较低层中间特征图的位置信息进行手势识别，增加了手势识别的维度，提高了手势识别的准确性。

容易理解的是，融合特征图也是有层次的，较高层的融合特征图由较高层的中间特征图融合得到，语义信息较多，对手势图像中占比较大的手势特征信息识别准确率较高，但可能会丢失手势图像中占比较小的手势特征信息，较低层的融合特征图由较低层的中间特征图融合得到，包含更多位置、细节信息，虽然语义信息少、噪声多，识别准确率较低，但能识别到手势图像中占比较小的手势特征信息，保留不同层次的融合特征图，可以确保能识别到不同尺寸的手势特征信息。

其中，在一种可实施的方式中，如图4所示为本发明中将各所述中间特征图进行融合得到至少一张融合特征图的流程示意图，其中，特征层1、特征层2和特征层3为中间特征图，特征层4和特征层5为融合特征图，特征层3为最高层的中间特征图，对特征层3进行上采样至至特征层2一样的尺寸再与特征层2进行矩阵加和得到特征层4，对特征层4进行上采样至至特征层1一样的尺寸再与特征层1进行矩阵加和得到特征层5。

步骤S30，依据各所述融合特征图，对所述待识别手势图像进行手势识别，得到手势识别结果。

在本实施例中，需要说明的是，所述手势识别结果包括一个或多个手势特征分类向量的组合，其中，所述手势特征为手势的部分区域的特征，通过一个或多个手势特征的组合得到手势识别结果，例如手势识别结果可以是手指特征分类向量和手掌特征分类向量的组合、手指连接成圈特征分类向量和三个连续的手指伸直特征分类向量等，具体地，依据各所述融合特征图，对所述待识别手势图像进行手势识别，得到手势识别结果，将所述融合特征图输入对应的手势特征检测模型（如：SVM（Support Vector Machine，支持向量机）模型、softmax等）中得到手势识别结果。

具体地，在一种可实施的方式中，可以对所述融合特征图进行全连接，得到手势特征分类向量，其中，所述手势特征分类向量包括手势特征类别信息和手势特征位置信息，其中，所述手势特征类别信息包括手势特征类别和根据预设规则计算得到的手势特征为某一手势特征类别的概率，通过比对所述融合特征图为各手势特征类别的概率，将最大概率的手势特征类别确定为最终的手势特征类别，根据确定的最终的手势特征类别对所述手势特征分类向量进行激活得到手势识别结果，进一步地，将根据确定的最终的手势特征类别对所述手势特征分类向量进行激活得到手势识别结果的步骤还包括，设置手势特征类别的概率阈值，当最大概率超过预设概率阈值时，则输出对应的手势特征类别的手势识别结果，当概率未达到预设阈值时，则不输出手势特征类别，或输出无法识别手势特征类别或其他输出错误的提醒信息等。

另外地，在一种可实施的方式中，还可以将所述融合特征图输入标准手势特征分类模板进行相似度计算，输出相似度最高的手势特征类别，再通过激活函数进行激活得到手势识别结果，其中，所述相似度计算可以根据聚类分析得出的融合特征图与所述标准手势特征图的最近距离、平均距离或类型中心的距离来计算，其中，从较低层融合得到的位置信息有利于得到更准确的与标准手势特征分类模板的相似度，进而提高手势识别的准确率。

在本实施例中，通过多层次特征提取获取更多的手势识别所需的语义信息，通过特征融合可以有效结合经过不同层次特征提取获取的手势特征信息，同时保留高层网络提取的语义信息和低层网络提取的位置信息，结合语义信息和位置信息可以大大提高对复杂手势图像进行手势识别的准确率，低层网络还通过保留了在手势图像中占比较小的目标手势的手势特征信息，有效避免在手势图像中占比较小的目标手势的手势特征信息在层层卷积、池化等操作的过程中被丢失，而无法准确识别到手势图像中占比较小的目标手势的问题，提高了手势识别的全面性和准确性。

进一步地，参照图2，基于本申请中第一实施例，在本申请另一实施例中，所述依据各所述融合特征图，对所述待识别手势图像进行手势识别，得到手势识别结果的步骤包括：

步骤S31，依据不同预设感受野大小的特征提取层，对所述融合特征图进行多尺度特征提取，得到多尺度特征提取结果；

在本实施例中，需要说明的是，所述多尺度特征提取为通过不同感受野大小的特征提取层对输入的特征图进行特征提取的过程，用于对手势图像中不同尺寸的目标手势进行特征提取，其中，所述感受野是输出的特征图上的像素点在输入特征图上映射的区域大小，用来表示特征提取层对输入图像的感受范围的大小，所述感受野大小可以是3×3、4×4或11×11等，一个所述特征提取层可以包括一个或多个相同或不同大小的卷积模块（如：一个特征提取层可以包括一个3×3、两个3×3或两个3×3加一个的2×2的卷积模块），每个卷积模块包括一个或多个预设卷积核，获取至少一个预设感受野大小的特征提取层。

具体地，依据不同预设感受野大小的特征提取层，对所述融合特征图进行多尺度特征提取，得到多尺度特征提取结果，通过多个不同感受野大小的特征提取层对所述融合特征图进行特征提取，不同尺度感受野的特征提取层提取到手势图像中不同尺寸的目标手势的准确率不同，感受野较大的特征提取层对在手势图像中较大尺寸的目标手势提取到的语义信息较多，识别准确率较高，但可能无法识别到手势图像中较小尺寸的目标手势，感受野较小的特征提取层由于噪音较多，对于提取手势图像中较大尺寸的目标手势的准确率会低于感受野较小的特征提取层，但可以识别到手势图像中较小尺寸的目标手势，对手势图像中较小尺寸的目标手势的识别准确率高于感受野较大的特征提取层，通过保留不同尺度的特征提取结果，可以通过一个模型完成对在手势图像中不同占比的目标手势的识别，提高了手势识别的全面性和准确性。

具体地，所述依据不同预设感受野大小的特征提取层，对所述融合特征图进行多尺度特征提取，得到多尺度特征提取结果的步骤包括：

步骤C10，依据所述不同预设感受野大小的特征提取层，分别对所述融合特征图进行特征提取，得到至少一张待预测特征图；

在本实施例中，具体地，依据所述不同预设感受野大小的特征提取层，分别对所述融合特征图进行特征提取，得到至少一张待预测特征图，每个特征提取层对每个融合特征图进行特征提取后都会得到一张待预测特征图，以对每个融合特征图都能进行在手势图像中不同占比的目标手势的识别。

步骤C20，将各所述待预测特征图映射至预设张量空间，得到所述多尺度特征提取结果。

在本实施例中，具体地，将各所述待预测特征图映射至预设张量空间，得到所述多尺度特征提取结果，对每一张融合特征图通过不同感受野大小的特征提取层后获得的不同尺度的待预测特征图，通过上采样、卷积等方式统一到同一预设尺寸，得到各个尺度的特征提取结果，即所述多尺度特征提取结果包括所有尺度的特征提取结果。

具体地，在另一实施例中，所述多尺度特征提取结果包括第一尺度特征图、第二尺度特征图以及第三尺度特征图，

步骤D10，依据感受野大小为3×3的第一特征提取层、感受野大小为5×5的第二特征提取层和感受野大小为7×7的第三特征提取层，分别对所述融合特征图进行特征提取，得到第一待预测特征图、第二待预测特征图和第三待预测特征图；

在本实施例中，需要说明的是，所述第一特征提取层为一个感受野为3×3的卷积模块，第二特征提取层为两层感受野为3×3的卷积模块组成，第三特征提取层为三层感受野为3×3的卷积模块组成，具体地，依据感受野大小为3×3的第一特征提取层、感受野大小为5×5的第二特征提取层和感受野大小为7×7的第三特征提取层，分别对所述融合特征图进行特征提取，得到用于识别手势图像中占比较小的目标手势的第一待预测特征图、用于识别手势图像中占比中等的目标手势的第二待预测特征图和用于识别手势图像中占比较大的目标手势的第三待预测特征图。

步骤D20，将所述第一待预测特征图作为所述第一尺度特征图，将所述第二待预测特征图和所述第三待预测特征图映射至预设张量空间，以将所述第二待预测特征图以及所述第三待预测特征图的尺寸转换至与所述第一待预测特征图的尺寸一致，得到所述第二尺度特征图和所述第三尺度特征图。

在本实施例中，具体地，将所述第一待预测特征图作为所述第一尺度特征图，将所述第二待预测特征图和所述第三待预测特征图映射至预设张量空间，以将所述第二待预测特征图以及所述第三待预测特征图的尺寸转换至与所述第一待预测特征图的尺寸一致，得到所述第二尺度特征图和所述第三尺度特征图，将所述尺寸最大的第一待预测特征图作为第一尺度特征图，并根据所述第一尺度特征图的尺寸确定预设张量空间，将所述第二待预测特征图和所述第三待预测特征图上采样至与所述第一尺度特征图一样的尺寸，得到与所述第一尺度特征图尺寸一样的第二尺度特征图和与所述第一尺度特征图尺寸一样的第三尺度特征图，以最大尺寸的第一待预测特征图的尺寸为统一后的标准尺寸，可以避免缩小尺寸可能造成的信息丢失，最大限度的保留了待预测特征图的全部信息。

步骤S32，依据所述多尺度特征提取结果，对所述待识别手势图像进行手势识别，得到手势识别结果。

在本实施例中，具体地，依据所述多尺度特征提取结果，对所述待识别手势图像进行手势识别，得到手势识别结果，可以通过设置权重、模型等方式综合各多尺度特征提取结果中的语义信息和位置信息，得到最终的手势识别结果，也可以根据各多尺度特征提取结果分别对手势图像中不同占比大小的目标手势进行手势识别。

具体地，所述依据所述多尺度特征提取结果对所述待识别手势图像进行手势识别，得到手势识别结果的步骤包括：

步骤E10，依据各所述融合特征图对应的多尺度特征提取结果，对所述待识别手势图像进行手势识别，得到至少一个中间手势识别结果；

在本实施例中，需要说明的是，依据各所述融合特征图对应的多尺度特征提取结果，对所述待识别手势图像进行手势识别，得到至少一个中间手势识别结果，具体地，可以对多尺度特征提取结果中的每个尺度的特征提取结果进行全连接得到中间手势识别结果，其中，所述中间手势识别结果为手势特征分类向量，包括根据预设规则计算得到的手势特征为某一手势特征类别的概率和最大概率对应的手势特征类别；也可以输入标准手势特征分类模板进行相似度计算得到中间手势识别结果，其中，所述中间手势识别结果为手势特征分类向量，包括相似度最高的手势特征类别及其相似度，其中，不同尺度的特征提取结果之间互不影响，即所述中间手势识别结果为不同尺度感受野的特征提取层对某一融合特征图进行特征提取得到的特征向量。

步骤E20，依据各所述中间手势识别结果，确定所述待识别手势图像对应的目标手势识别结果；

在本实施例中，具体地，依据各所述中间手势识别结果，确定所述待识别手势图像对应的目标手势识别结果，将所述中间手势识别结果根据预设的规则通过预设的激活函数进行激活，确定所述待识别手势图像对应的目标手势识别结果。

在本实施例中，感受野较大的特征提取层对手势图像中占比较大的目标手势的识别的准确率高，但容易丢失在手势图像中占比较小的目标手势的手势特征信息，感受野较小的特征提取层对手势图像中占比较大的目标手势的识别准确率低于感受野较大的特征提取层，但其保留了较多的在手势图像中占比较小的目标手势的手势特征信息，因此通过使用不同感受野大小的特征提取层可以检测到手势图像中不同大小占比的目标手势，确保了对手势图像中不同大小占比的目标手势的较高的准确率，从而提高了整体手势识别的准确性。

此外，本发明实施例还提出一种手势识别设备，所述手势识别设备包括：存储器、处理器以及存储在存储器上的用于实现所述手势识别方法的程序，所述存储器用于存储手势识别方法的程序；所述处理器用于执行实现所述手势识别方法的程序，以实现如上所述的手势识别方法的步骤。

此外，本发明实施例还提出一种存储介质，所述存储介质为计算机可读存储介质，所述计算机可读存储介质上存储有基于卷积神经网络的手势识别程序，所述基于卷积神经网络的手势识别程序被处理器执行时实现如上所述的手势识别方法的步骤。

此外，本发明实施例还提出一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上所述的手势识别方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台设备设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种手势识别方法，其特征在于，所述手势识别方法包括以下步骤：

获取待识别手势图像，并对所述待识别手势图像进行多层次特征提取，得到至少一张中间特征图，所述中间特征图包括第一中间特征图、第二中间特征图和第三中间特征图，其中，所述第二中间特征图是由第一中间特征图卷积生成，所述第三中间特征图是由第二中间特征图卷积生成；

将所述第一中间特征图与所述第二待融合特征图进行融合，得到第二融合特征图；

依据各所述融合特征图，对所述待识别手势图像进行手势识别，得到手势识别结果，所述手势识别结果包括一个或多个手势特征分类向量的组合，其中，所述手势特征分类向量包括手势特征类别信息和手势特征位置信息。

2.如权利要求1所述的手势识别方法，其特征在于，所述依据各所述融合特征图，对所述待识别手势图像进行手势识别，得到手势识别结果的步骤包括：

依据所述多尺度特征提取结果，对所述待识别手势图像进行手势识别，得到手势识别结果。

3.如权利要求2所述的手势识别方法，其特征在于，所述依据不同预设感受野大小的特征提取层，对所述融合特征图进行多尺度特征提取，得到多尺度特征提取结果的步骤包括：

4.如权利要求2所述的手势识别方法，其特征在于，所述多尺度特征提取结果包括第一尺度特征图、第二尺度特征图以及第三尺度特征图，

5.如权利要求2所述的手势识别方法，其特征在于，所述依据所述多尺度特征提取结果，对所述待识别手势图像进行手势识别，得到手势识别结果的步骤包括：

6.如权利要求1所述的手势识别方法，其特征在于，所述对所述待识别手势图像进行多层次特征提取，得到至少一张中间特征图的步骤包括：

将各所述目标特征提取层输出作为所述中间特征图。

7.一种手势识别设备，其特征在于，所述手势识别设备包括：存储器、处理器以及存储在存储器上的用于实现所述手势识别方法的程序，

所述存储器用于存储手势识别方法的程序；

所述处理器用于执行实现所述手势识别方法的程序，以实现如权利要求1至6中任一项所述的手势识别方法的步骤。

8.一种存储介质，所述存储介质为计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有基于卷积神经网络的手势识别程序，所述基于卷积神经网络的手势识别程序被处理器执行时实现如权利要求1至6中任一项所述的手势识别方法的步骤。