CN111160114A

CN111160114A - 手势识别方法、装置、设备及计算机可读存储介质

Info

Publication number: CN111160114A
Application number: CN201911259417.9A
Authority: CN
Inventors: 尹海波; 金欢欢
Original assignee: Shenzhen Shuliantianxia Intelligent Technology Co Ltd
Current assignee: Shenzhen Shuliantianxia Intelligent Technology Co Ltd
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2020-05-15
Anticipated expiration: 2039-12-10
Also published as: CN111160114B

Abstract

本发明实施例涉及图像处理技术领域，具体涉及一种手势识别方法、装置、设备及计算机可读存储介质。该方法包括：获取手势图像；对手势图像进行预处理，得到特征手势图像；通过手势识别模型中的特征提取层对特征手势图像进行空洞卷积处理，得到特征手势图像的输出特征，输出特征用于表征手势图像在多个维度的特征；对输出特征进行加权运算，得到多个加权结果，每一个加权结果对应一种手势类别；将加权结果进行归一化输出，得到手势图像属于每一种手势类别的概率；将概率的最大值所对应的手势类别作为手势图像所属类别。通过上述方式，本发明实施例实现了对手势图像的识别。

Description

手势识别方法、装置、设备及计算机可读存储介质

技术领域

本发明实施例涉及图像处理技术领域，具体涉及一种手势识别方法、装置、设备及计算机可读存储介质。

背景技术

图像识别是利用计算机对图像进行处理和分析，以识别图像中各种不同目标和对象的技术。

传统的视力检测方法需要医生的深度参与，医生需要指示视标，被测试者需要口答或使用手势指出医生指示的视标方向。传统的视力检测方法在测试过程中需要医生长时间陪伴，在被测试人群较为集中的场景中，需要耗费大量的人力资源和时间成本。

发明内容

鉴于上述问题，本发明实施例提供了一种手势识别方法、装置、设备及计算机可读存储介质，克服了上述问题或者至少部分地解决了上述问题。

根据本发明实施例的一个方面，提供了一种手势识别方法，所述方法包括：

获取手势图像；

对所述手势图像进行预处理，得到特征手势图像，所述预处理包括对所述手势图像进行中心裁剪，得到标准手势图像，以及，将所述标准手势图像转换为张量数据类型；

通过手势识别模型中的特征提取层对所述特征手势图像进行空洞卷积处理，得到所述特征手势图像的输出特征，所述输出特征用于表征所述手势图像在多个维度的特征；

对所述输出特征进行加权运算，得到多个加权结果，每一个加权结果对应一种手势类别；

将所述加权结果进行归一化输出，得到所述手势图像属于每一种手势类别的概率；

将所述概率的最大值所对应的手势类别作为所述手势图像所属类别。

可选的，所述特征提取层包括空洞卷积层、激活函数层和池化层，所述通过手势识别模型中的特征提取层对所述特征手势图像进行空洞卷积处理，得到所述特征手势图像的输出特征，包括：

通过所述空洞卷积层将所述特征手势图像与多个空洞卷积核进行卷积运算，得到多个空洞卷积特征图；

通过激活函数层对每一个空洞卷积特征图进行非线性运算，得到每一个空洞卷积特征图对应的非线性卷积特征图；

通过池化层对每一个非线性卷积特征图进行池化，得到每一个非线性卷积特征图的输出特征。

在一种可选的方式中，所述通过池化层对每一个非线性卷积特征图进行池化，得到每一个非线性卷积特征图的输出特征，包括：

将每一个所述非线性卷积特征图划分为多个区域；

将每一个区域的最大值作为所述区域的表征值，以得到所述输出特征。

在一种可选的方式中，在获取手势图像之前，所述方法还包括：

构建手势识别模型；

获取多个训练图像；

对每一个训练图像进行预处理，得到每一个训练图像对应的训练特征图像；

对每一个训练特征图像的类别进行标识，得到每一个训练特征图像的标识信息，同一类别的训练特征图像对应的标识信息相同，不同类别的训练特征图像对应的标识信息不同；

将每一个训练图像的训练特征图像及其标识信息作为一组训练样本，以得到多组训练样本；

根据所述多组训练样本训练所述手势识别模型，得到训练好的手势识别模型。

在一种可选的方式中，所述根据所述多组训练样本训练所述手势识别模型，得到训练好的手势识别模型，包括：

将所述多组训练样本划分为多个批次；

通过手势识别模型中的特征提取层对第一批次的训练样本进行空洞卷积处理，得到所述第一批次的训练样本对应的样本输出特征；

通过全连接层对所述样本输出特征进行加权，得到每一组训练样本的多个样本加权结果；

将所述样本加权结果进行归一化输出，得到每一组训练样本属于每一种手势类别的样本概率；

根据所述样本概率和所述标识信息计算损失函数值；

根据所述损失函数值更新所述手势识别模型的权重；

将所述第一批次更新为所述第二批次，并执行通过手势识别模型中的特征提取层对第一批次的训练样本进行空洞卷积处理，得到所述第一批次的训练样本对应的第一特征，直至所述损失函数值最小，所述第二批次与所述第一批次为不同批次；

将所述损失函数值最小的手势识别模型作为训练好的手势识别模型。

在一种可选的方式中，所述根据所述样本概率和所述标识信息计算损失函数值，包括：

根据所述样本概率和所述标识信息计算所述第一批次的每一个训练样本的损失函数值；

将所有训练样本的损失函数值的均值作为所述第一批次的损失函数值。

在一种可选的方式中，所述根据所述损失函数值更新所述手势识别模型的权重，包括：

根据所述损失函数值计算损失函数的梯度；

根据所述梯度更新所述手势识别模型的权重。

根据本发明实施例的另一方面，提供了一种手势识别装置，所述装置包括：

获取模块，用于获取手势图像；

图像处理模块，用于对所述手势图像进行预处理，得到标准手势图像，所述预处理包括对所述手势图像进行中心裁剪；

转换模块，用于将所述手势图像转换为张量数据类型，得到特征手势图像；

特征提取模块，用于通过手势识别模型中的特征提取层对所述特征手势图像进行空洞卷积运算，得到多个卷积特征图，每一个卷积特征图包含部分手势特征；

非线性模块，用于对每一个所述卷积特征图进行非线性运算，得到相应的非线性卷积特征图；

池化模块，用于对每一个所述非线性卷积特征图进行池化，得到相应的输出特征；

加权模块，用于对所述输出特征进行加权运算，得到加权结果；

归一化模块，用于将所述加权结果进行归一化输出，得到所述手势图像属于每一类手势的概率；

确定模块，用于将所述概率的最大值所对应的手势类别作为所述手势图像所属类别。

根据本发明实施例的另一方面，提供了一种手势识别设备，包括：图像采集装置、处理器、存储器、通信接口和通信总线，所述图像采集装置、所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行上述的一种手势识别方法的步骤。

根据本发明实施例的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行上述的一种手势识别方法的步骤。

本发明实施例通过手势识别模型中的特征提取层对特征手势图像进行空洞卷积处理，得到特征手势图像的输出特征，空洞卷积处理通过空洞卷积核增加了手势图像的感受野，从而在卷积运算过程中最大限度的保留手势图像的特征，且不会增加手势识别模型的参数，从而提高了手势识别的准确度。

上述说明仅是本发明实施例技术方案的概述，为了能够更清楚了解本发明实施例的技术手段，而可依照说明书的内容予以实施，并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种手势识别方法的流程图；

图2示出了本发明实施例提供的一种手势识别方法中空洞卷积核的示意图；

图3示出了本发明另一实施例提供的一种图像识别方法的流程图；

图4示出了本发明另一实施例提供的深度空洞卷积神经网络的结构示意图；

图5示出了本发明实施例提供的一种图像识别装置的功能框图；

图6示出了本发明实施例提供的一种图像识别设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

本发明实施例的应用场景是手势识别。在一种实施方式中，本发明实施例应用于视力检测中的用户手势识别。在该应用场景下，视力检测设备获取手势的图像，并对该手势图像进行预处理，得到该手势图像对应的特征手势图像。通过预设于视力检测设备中的手势识别模型对该特征手势图像进行识别，以确定用户手势的类别。其中，视力检测设备包括图像采集装置，用于采集用户手势的图像，该图像采集装置包括但不限于摄像头。本发明实施例中的手势识别模型通过空洞卷积处理得到特征手势图像的输出特征。空洞卷积处理通过多个空洞卷积核对特征手势图像进行特征提取。空洞卷积核是经过原始卷积核膨胀得到的，在原始卷积核的相邻值之间补零。因此，在训练深度空洞卷积神经网络时，通过空洞卷积核提取图像的特征不会造成深度空洞卷积神经网络参数的增加，同时，相较于原始卷积核，空洞卷积核的尺寸增加，使用空洞卷积核对图像扫描时的感受野增加，可以在在卷积运算过程中最大限度的保留原图像的特征信息，避免图像细节的丢失，从而实现对手势图像的有效识别。下面对各具体实施方式进行说明。

图1示出了本发明一种手势识别方法实施例的流程图，如图1所示，该方法包括以下步骤：

步骤110：获取手势图像。

其中，手势图像是包含用户手部的图像。在本发明实施例中，根据应用场景不同，获取手势图像的方式不同。例如，在对大量手势图像进行分类的应用场景中，手势图像是预先存储于手势识别设备中的图像或网络图像。在另外一些应用场景中，例如，视力检测，手势图像是实时获取的。在这种应用场景下，可以通过手势识别设备装载的图像采集装置采集手势图像，并将采集到的手势图像传输至手势识别设备的处理器中进行识别。其中，手势图像采集装置包括但不限于摄像头。

步骤120：对手势图像进行预处理，得到特征手势图像。

在本步骤中，为了保证手势图像提取的有效性，通过对手势图像进行预处理滤除手势图像中的干扰信息。在一些实施例中，获取的手势图像为三通道的RGB图像，为了降低图像处理的复杂度，将三通道的RGB图像转换为单通道的灰度图像。在将RGB图像中，包含R、G、B三个通道的分量，RGB图像由这三个通道的分量合成。每一个分量中的每一个像素点对应于一个取值，不同分量中相应的像素点取值可能相同，也可能不同，该取值用于表示该像素点的颜色，取值范围介于0和255之间。其中，0表示该像素点的颜色为白色，255表示该像素点的颜色为黑色。灰度图像中相应像素点的值是根据三个分量中相应像素点的比重进行确定。在一种实施方式中，三个分量中相应像素点的比重相同，将三个分量相应的像素点取均值，得到灰度图像中该像素点的值。应理解，如果获取到的手势图像为单通道的灰度图像，则不需要进行上述转换，直接进行其他的图像预处理步骤。

为了便于图像处理，将灰度图像数值化，即将每一个像素点转换为黑色对应的数值或白色对应的数值。具体的，对于灰度图像中的每一个像素点，根据该像素点的值将其转换为黑色对应的值或白色对应的值。具体的转换方式可以人为设定，本发明实施例并不以此为限。在一种具体的实施方式中，将低于阈值的像素点的值转换为0，将高于阈值的像素点的值转化为255。上述阈值是一个人为设定的值，本发明实施例并不限定阈值的具体数值。优选的，将阈值设定为0和255的均值，即将低于127.5的像素点的值转化为0，将高于127.5的像素点的值转化为255。

为了便于描述，将数值化后的灰度图像作为第一手势图像进行进一步说明。考虑到第一手势图像的尺寸往往不一致，使得无法使用同一识别模型对第一手势图像进行识别。因此，将第一手势图像缩小或放大为标准手势图像。在进行缩小或放大时，为了保留第一手势图像的所有特征，将第一手势图像的长边和短边按照相同的比例进行缩小或放大，直至达到标准尺寸。其中，标准尺寸是一个预设值，该预设值可以是标准的短边尺寸或标准的长边尺寸，另一边根据该标准尺寸按比例缩小或放大即可。本领域技术人员可以在实施本发明实施例时根据所需分辨率进行人为设定该预设值，本发明实施例并不以此为限。例如，短边的标准尺寸为80，则对于一张短边长为s₁，长边长为w₁的手势图像，裁剪后的标准手势图像的尺寸为

标准手势图像中包含的识别目标一般位于标准手势图像的中心，识别目标周围为环境图像，即背景图像。为了提高识别效率，将标准手势图像进行裁剪，以去除周围环境图像对于图像识别的干扰。在进行裁剪时，以标准手势图像的中心作为裁剪中心，按照预设的尺寸进行裁剪，得到裁剪后的第二手势图像。例如，标准手势图像的大小为16×16，以标准手势图像的中心作为裁剪中心，长边和短边分别裁剪6，则得到裁剪后的第二手势图像的尺寸为10×10。

在进行识别时，每一种应用平台可以处理一种或多种特定的张量数据类型。在对应的张量数据类型下的数据才能够适用于应用平台进行数据处理。在本发明实施例中，使用Tensorflow进行手势图像识别，为了适应该平台，需要将第二手势图像转换为张量数据类型，以得到特征手势图像。其中，张量数据类型可以是一个变量、数组、矩阵等。相较于数组或矩阵，张量数据类型可以用于图形处理器(Graphics Processing Unit，GPU)进行数据处理，而数组或矩阵则不能够用于GPU进行数据处理。一个张量包括阶和形状，其中，阶用于表示张量对应的数组的维度，形状用于表示张量的形式。例如，一个三维张量[1，4，3]。

步骤130：通过手势识别模型中的特征提取层对特征手势图像进行空洞卷积处理，得到特征手势图像的输出特征。

其中，特征手势图像的输出特征用于表征手势图像在多个维度上的特征。特征提取层包括空洞卷积层、激活函数层和池化层。空洞卷积层将特征手势图像与多个空洞卷积核进行卷积运算，得到多个空洞卷积特征图。激活函数层对每一个空洞卷积特征图进行非线性运算，得到每一个空洞卷积特征图对应的非线性卷积特征图。池化层对每一个非线性卷积特征图进行池化，得到每一个非线性卷积特征图的输出特征。

其中，空洞卷积层包含有多个空洞卷积核，多个空洞卷积核分别对输入的特征手势图像进行卷积运算，得到多个运算结果。将多个运算结果叠加得到空洞卷积特征图。空洞卷积特征图中包括手势图像的多个特征，特征的个数与所使用的空洞卷积核的个数相同。在一种实施方式中，空洞卷积核的个数为16个，每一个卷积核的尺寸为5×5，每一个卷积核用于提取输入的特征手势图像的一个局部特征。假设卷积步长为1，输入的特征手势图像的维度为1×75×75，其中，1表示特征手势图像的个数；75×75表示特征手势图像的像素。则在将该特征手势图像输入后，得到的空洞卷积特征图的维度为16×75×75。空洞卷积核是原始卷积核膨胀之后形成的卷积核。原始卷积核是根据需要提取的手势特征设置的多个卷积核，每一个卷积核用于提取部分手势特征。在使用原始的卷积核对特征手势图像进行扫描时，原始卷积核会根据预设的倍数进行膨胀。空洞卷积核的尺寸＝膨胀系数×(原始卷积核尺寸-1)+1。当膨胀系数为1时，空洞卷积核不进行膨胀。在原始卷积核膨胀时，卷积核的相邻点之间补零，补零的个数与预设的膨胀系数相关。膨胀系数为2时，表示相邻两个点之间补一个零，当膨胀系数为3时，表示相邻两个点之间补2个零。图2示出了空洞卷积核的示意图，原始卷积核的大小为3×3，用字母a～i表示原始卷积核的值，假设膨胀系数为2，则得到的空洞卷积核大小为5×5。空洞卷积核与其所覆盖的手势图像区域的像素进行卷积运算，即，相应的元素相乘，得到手势图像相对于该空洞卷积和的局部特征。空洞卷积核相较于原始卷积核进行了膨胀，因此，所覆盖的手势图像的区域更广。空洞卷积核在膨胀时，补入的元素均为0，因此，在计算过程中，不会增加计算量。

在特征提取层中，空洞卷积层的输出连接有一个激活函数层，用于对手势识别模型增加非线性因素，以提高手势识别模型的表达能力。假设手势识别模型仅包含线性因素，则无法解决非线性特征之间的识别问题。激活函数是非线性函数，通过激活函数对空洞卷积特征图进行非线性运算，以得到手势图像的非线性卷积特征图。在一种实施方式中，激活函数为Relu函数，其表达式为f(x)＝max(0,x)，其中，x表示非线性卷积特征图中的元素。通过Relu函数，保留了大于0的元素，其余元素为0，从而简化了计算，提高了手势识别模型的收敛速度。

在特征提取层中还包括池化层，池化层与激活函数层连接，用于对非线性卷积特征图的特征进行降维，以提高手势识别模型的识别速度。在一种实施方式中，池化层的池化类型为最大池化，即将特定维度的池化核扫描非线性卷积特征图，将非线性卷积特征图划分为多个区域，池化核覆盖的区域取该区域中元素的最大值为该区域的表征值，即得到池化后的输出特征。例如，使用3×3的池化核扫描维度为16×75×75的非线性卷积特征图，池化步长为1，即，每次移动一个3×3的区域，得到的输出特征维度为16×25×25。通过池化层，降低了输出特征的维度，提高了手势识别模型的收敛速度。

步骤140：对输出特征进行加权运算，得到多个加权结果。

其中，每一个加权结果对应一种手势类别。在进行加权时，每一个输出特征和每一种手势类别之间都有一个权重，将每一种手势类别对应的输出特征和该输出特征相对于该手势类别的权重进行加权运算，得到加权结果。每一个加权结果对应于一种手势类别。假设输出特征的维度为16×25×25，即输出特征为16个，每一个输出特征的大小是25×25，在进行加权计算时，为了便于理解计算，将所有输出特征看做一个10000×1的向量。假设输出类别为4类，则权重是一个4×10000的矩阵。输出特征和权重加权运算后，得到一个4×1的向量。该向量中的每一个元素表征一种手势类别。

步骤150：将加权结果进行归一化输出，得到手势图像属于每一种手势类别的概率。

将输出结果通过归一化指数函数softmax分类器进行计算，得到手势图像属于每一种类别的概率。例如，加权结果是一个4×1的向量，该向量表示为(a₁、a₂、a₃、a₄)，a₁、a₂、a₃、a₄分别表征一种手势类别。则通过softmax分类器得到手势图像属于每一种手势类别的概率，分别为

其中，bi为手势图像属于a_i表征的手势类别的概率。

步骤160：将概率的最大值所对应的手势类别作为手势图像所属类别。

进一步的，在一些实施例中，手势识别模型中的特征提取层包括串联的第一特征提取层和第二特征提取层。第二特征提取层的输入为第一特征提取层的输出。第一特征提取层对特征手势图像进行空洞卷积处理，得到特征手势图像的第一输出特征。第二特征提取层对第一输出特征进行空洞卷积处理，得到第二输出特征。其中，第一特征提取层对特征手势图像进行空洞卷积处理的过程与第一实施例相同。第二特征提取层和第一特征提取层的运算过程相同，具体运算过程请参阅上述第一实施例的描述，在此不再赘述。通过上述方式，第二特征提取层提取第一特征提取层输出的第一输出特征，从而使输出的第二输出特征更加复杂，手势特征区分度更高，因此，手势识别模型对手势识别的准确性更高。

图3示出了本发明一种图像识别方法另一个实施例的流程图，如图3所示，该方法包括以下步骤：

步骤210：构建手势识别模型。

其中，手势模型包括特征提取层和一个全连接层。在一些实施例中，特征提取层包括两层，两层特征提取层串联后与全连接层连接。其中一个特征提取层的输入是另外一个特征提取层的输出。每一个特征提取层均包括空洞卷积层、批归一化层、激活函数层和池化层，上述各层之间串联连接。构建的包含两层特征提取层的手势识别模型的结构如图4所示。其中，第一特征提取层和第二特征提取层的特征提取过程相同。以第一特征提取层为例，对特征提取的过程进行说明。空洞卷积层包括多个空洞卷积核，用于提取输入的每一组训练样本的特征。使用空洞卷积核扫描训练样本，空洞卷积核覆盖的区域与空洞卷积核进行卷积运算，得到计算结果，该计算结果即为提取到的该训练样本的特征。批归一化层用于对输入的训练样本进行归一化运算，以提高空洞卷积神经网络模型的收敛速度。激活函数层通过引入非线性激活函数提高空洞卷积神经网络的非线性。池化层用于对提取的训练样本的特征进行降维，以降低空洞卷积神经网络模型的运算复杂度。在一种实施方式中，激活函数层中的激活函数为Relu激活函数，池化层的池化方式为最大池化。全连接层用于对特征提取层的输出结果进行加权运算，得到加权结果，并通过归一化指数函数softmax分类器对加权结果进行分类最大化输出。

步骤220：获取多个训练图像。

其中，训练图像是包含用户手势的图像。在具体实施过程中，训练图像的来源可以是网络或通过图像采集设备采集的多个手势图像。

步骤230：对每一个训练图像进行预处理，得到每一个训练图像对应的训练特征图像。

其中，对获取的训练图像进行预处理的过程与第一实施例步骤120中对于手势图像的预处理过程相同，请参阅步骤120的描述，在此不再赘述。

步骤240：对每一个训练特征图像进行标识，得到每一个训练特征图像的标识信息。

其中，同一类别的训练图像对应的标识信息相同，不同类别的训练图像对应的标识信息不同。标识信息可以由本领域技术人员进行人为设定，本发明实施例并不以此为限。在一种实施方式中，标识信息使用独热编码表示。例如，训练样本共包含四种类别，则使用独热编码表示的每一种类别的标识信息分别为1000、0100、0010、0001。

步骤250：将每一个训练图像的训练特征图像及其对应的标识信息作为一组训练样本，以得到多组训练样本。

步骤260：根据多组训练样本训练手势识别模型，得到训练好的手势识别模型。

在本步骤中，为了适应处理器的内存，将多组训练样本划分为多个批次，每一次输入一个批次的多组训练样本。批次的划分可以为平均划分，也可以为不平均划分，本发明实施例并不以此为限。对手势识别模型进行训练的过程如下：通过手势识别模型中的特征提取层对第一批次的训练样本进行空洞卷积处理，得到第一批次的训练样本对应的样本输出特征。其中，第一批次为多个批次中的其中一个批次。通过全连接层对所述样本输出特征进行加权，得到每一组训练样本的多个样本加权结果。将所述样本加权结果进行归一化输出，得到每一组训练样本属于每一种手势类别的样本概率。根据该样本概率和标识信息计算损失函数值。根据该损失函数值更新手势识别模型的权重。将第一批次更新为第二批次，并执行通过手势识别模型中的特征提取层对第一批次的训练样本进行空洞卷积处理，得到所述第一批次的训练样本对应的第一特征，直至所述损失函数值最小。其中第二批次与第一批次为不同批次。将损失函数值最小的手势识别模型作为训练好的手势识别模型。

其中，多组训练样本输入特征提取层后，特征提取层中的空洞卷积层通过多个空洞卷积核对每一组训练样本进行卷积运算，每一个空洞卷积核提取训练样本的一个特征。假设特征提取层中有n个空洞卷积核，则对于每一组训练样本均提取n个特征。一个空洞卷积核在提取训练样本的某一个特征时，该空洞卷积核对训练样本对应的图像进行扫描，每扫描一次覆盖图像的一个区域，该区域对应的所有像素值与该空洞卷积核进行卷积运算，即得到该区域的局部特征。空洞卷积核在训练样本对应的图像上滑动扫描，直至得到该图像的所有局部特征。将该图像的所有局部特征合并，得到该图像的全局特征。n个卷积核分别对一组训练样本对应的图像扫描，共得到n个全局特征。上述n个全局特征即为该组训练样本的输出特征。

为了加快空洞卷积神经网络的收敛速度，批归一化层对第一批次输入的所有训练样本的输出特征进行归一化，得到标准输出特征。在进行批归一化运算时，将同一个空洞卷积核提取到的该批次的所有训练样本的特征分别进行归一化，得到每一组训练样本的标准输出特征。归一化的公式为

其中，μ表示同一空洞卷积核提取到的该批次的所有训练样本的特征均值，σ表示同一空洞卷积核提取到的该批次的所有训练样本的特征方差，x表示其中一组训练样本的特征值。应理解，由于在深度空洞卷积神经网络模型训练完成，得到识别模型后，手势图像不是按照批次输入的，因此，在识别模型中不存在批归一化层。

在更新手势识别模型的权重时，根据归一化指数函数softmax分类器的输出结果与标识信息进行更新。第一批次的损失函数值为所有训练样本的损失函数值的均值。用x_i表示一组训练样本中的训练图像，y_i表示该组训练样本中的训练图像对应的标识信息，f(x_i)表示softmax分类器输出的样本概率，其损失函数的计算公式为

其中，m表示第一批次所包含的训练样本的总数。本发明实施例中使用的损失函数为对数损失函数，其表达式为L(a，b)＝-alogb。对于任一需要更新的参数w，计算损失函数的梯度

根据该梯度更新参数。更新后的参数w为w′＝w-ηg(x)。经过反复迭代更新，损失函数最小值对应的参数对应的深度空洞卷积神经网络模型即为识别模型。

本发明实施例通过训练样本对构建的手势识别模型进行训练，得到训练好的手势识别模型；手势识别模型使用空洞卷积核对训练样本进行特征提取，可以保留更多训练样本的特征，从而使训练得到的识别模型更加可靠。

图5示出了本发明一种手势识别装置实施例的结构示意图。如图5所示，该装置包括：获取模块301，用于获取手势图像；图像处理模块302，用于对所述手势图像进行预处理，得到标准手势图像，所述预处理包括对所述手势图像进行中心裁剪，以及，将所述手势图像转换为张量数据类型，得到特征手势图像；特征提取模块303，用于通过手势识别模型中的特征提取层对所述特征手势图像进行空洞卷积运算，得到多个卷积特征图，每一个卷积特征图包含部分手势特征；非线性模块304，用于对每一个所述卷积特征图进行非线性运算，得到相应的非线性卷积特征图；池化模块305，用于对每一个所述非线性卷积特征图进行池化，得到相应的输出特征；加权模块306，用于对所述输出特征进行加权运算，得到加权结果；归一化模块307，用于将所述加权结果进行归一化输出，得到所述手势图像属于每一类手势的概率；确定模块308，用于将所述概率的最大值所对应的手势类别作为所述手势图像所属类别。

在一种可选的方式中，所述特征提取层包括空洞卷积层、激活函数层和池化层，所述特征提取模块303进一步用于：通过所述空洞卷积层将所述特征手势图像与多个空洞卷积核进行卷积运算，得到多个空洞卷积特征图；通过激活函数层对每一个空洞卷积特征图进行非线性运算，得到每一个空洞卷积特征图对应的非线性卷积特征图；通过池化层对每一个非线性卷积特征图进行池化，得到每一个非线性卷积特征图的输出特征。

在一种可选的方式中，所述池化模块304进一步用于：

将每一个所述非线性卷积特征图划分为多个区域；

在一种可选的方式中，所述装置还包括：构建模块309，用于构建手势识别模型；第一获取模块310，用于获取多个训练图像；标识模块311，用于对每一个训练特征图像的类别进行标识，得到每一个训练特征图像的标识信息，同一类别的训练特征图像对应的标识信息相同，不同类别的训练特征图像对应的标识信息不同；确定模块312，用于将每一个训练图像的训练特征图像及其标识信息作为一组训练样本，以得到多组训练样本；训练模块313，根据所述多组训练样本训练所述手势识别模型，得到训练好的手势识别模型。

在一种可选的方式中，训练模块313进一步用于：

将所述多组训练样本划分为多个批次；

根据所述样本概率和所述标识信息计算损失函数值；

根据所述损失函数值更新所述手势识别模型的权重；

将所述第一批次更新为第二批次，并执行通过手势识别模型中的特征提取层对第一批次的训练样本进行空洞卷积处理，得到所述第一批次的训练样本对应的第一特征，直至所述损失函数值最小，所述第二批次与所述第一批次为不同批次；

在一种可选的方式中，训练模块313进一步用于：

根据所述损失函数值计算损失函数的梯度；

根据所述梯度更新所述手势识别模型的权重。

本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的一种图像识别方法。

图6示出了本发明一种图像识别设备实施例的结构示意图，本发明具体实施例并不对图像识别设备的具体实现做限定。

如图6所示，该图像识别设备可以包括：图像采集装置401、处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。

其中：图像采集装置401、处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。通信接口404，用于与其它设备比如客户端或其它服务器等的网元通信。处理器402，用于执行程序410，具体可以执行上述用于图像识别方法实施例中的相关步骤。

具体地，程序410可以包括程序代码，该程序代码包括计算机操作指令。

图像采集装置401包括但不仅限于摄像头。

处理器402可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。图像识别设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器406，用于存放程序410。存储器406可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序410具体可以用于使得处理器402执行图1中的步骤110～步骤160，图3中的步骤210～步骤260，以及实现图5中的模块301～模块313的功能。

在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明实施例也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤，除有特殊说明外，不应理解为对执行顺序的限定。

Claims

1.一种手势识别方法，其特征在于，所述方法包括：

获取手势图像；

2.根据权利要求1所述的方法，其特征在于，所述特征提取层包括空洞卷积层、激活函数层和池化层，所述通过手势识别模型中的特征提取层对所述特征手势图像进行空洞卷积处理，得到所述特征手势图像的输出特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述通过池化层对每一个非线性卷积特征图进行池化，得到每一个非线性卷积特征图的输出特征，包括：

将每一个所述非线性卷积特征图划分为多个区域；

4.根据权利要求1所述的方法，其特征在于，在获取手势图像之前，所述方法还包括：

构建手势识别模型；

获取多个训练图像；

5.根据权利要求4所述的方法，其特征在于，所述根据所述多组训练样本训练所述手势识别模型，得到训练好的手势识别模型，包括：

将所述多组训练样本划分为多个批次；

根据所述样本概率和所述标识信息计算损失函数值；

根据所述损失函数值更新所述手势识别模型的权重；

6.根据权利要求5所述的方法，其特征在于，所述根据所述样本概率和所述标识信息计算损失函数值，包括：

7.根据权利要求5所述的方法，其特征在于，所述根据所述损失函数值更新所述手势识别模型的权重，包括：

根据所述损失函数值计算损失函数的梯度；

根据所述梯度更新所述手势识别模型的权重。

8.一种手势识别装置，其特征在于，所述装置包括：

获取模块，用于获取手势图像；

9.一种手势识别设备，其特征在于，所述设备包括：图像采集装置、处理器、存储器、通信接口和通信总线，所述图像采集装置、所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行根据权利要求1-7任一项所述的一种手势识别方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行根据权利要求1-7任一项所述的一种手势识别方法的步骤。