CN109214250A

CN109214250A - 一种基于多尺度卷积神经网络的静态手势识别方法

Info

Publication number: CN109214250A
Application number: CN201710540178.9A
Authority: CN
Inventors: 谢斌; 宋迪; 喻仲斌
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2017-07-05
Filing date: 2017-07-05
Publication date: 2019-01-15

Abstract

首次提出一种多尺度的卷积神经网络的静态手势识别方法，本发明基于深度学习的Caffe框架进行优化设计，并进用图像处理的技术原理对静态手势图片进行识别。首先对于简单背景下和复杂背景下的静态手势图片数据进行采集与预处理，数据分为训练数据与测试数据；搭建实验测试环境的搭建后进行基于多尺度的卷积神经网络的设计，即：确定神经网络层数，选择合适的尺度特征等；把训练数据放入此网络结构中进行学习后输入测试数据样本进行测试，得出识别精度。此发明能够利用卷积层自动学习手势特征，克服了人工提取特征的弊端以及常见卷积神经网络提取特征不够精细全面及稳定性欠佳等缺点，相比之下识别精度更高，训练时间相当；且此方法灵活性强，适用性广。

Description

一种基于多尺度卷积神经网络的静态手势识别方法

技术领域

本发明属于运用深度学习进行图像处理的技术领域，涉及一种多尺度卷积神经网络的静态手势识别方法。

背景技术

随着计算机技术、通讯技术、硬件设备等的飞速发展，人机交互已经在生活中越来越频繁，人类非语言沟通(手势，身体姿势和面部表情的沟通)占人类所有沟通的三分之二。并且手势具有自然、直观、易学等优点，成为了研究的热点。

手势识别技术依据硬件设备分类，主要可以分为基于数据手套的手势识别技术和基于摄像头的手势识别技术。基于数据手套的手势识别技术具有数据精确，识别率高，抗干扰性能好等优点，但存在设备昂贵、识别过程中必须佩戴数据手套等缺点。基于摄像头的手势识别 (Artificial Intelligence Review,2015,43(1):1-54.)，运用计算机视觉技术，无需佩戴昂贵的设备，人机交互过程更加自然，目前该技术已经成为手势识别的主流技术。但该技术仍存在识别率较低，受外界环境影响大等缺点，所以还需要不断地研究和改善。

传统的基于图像的静态手势识别技术需要人工提取手势特征进行识别，容易受到环境影响，特征的设计和选择对实验结果影响非常大，Yi Wang等提出了一种RGB-D深度信息的静态手势识别方法(Trans Tech期刊,2014:248-254.)，识别精度较高，但对于人工提取特征的依赖性高；基于随着深度学习发展迅速，并且在机器视觉，自然语言理解等上取得了很好的成效。现有的AlexNet、GoogLeNet等深度学习算法已经在图像分类上取得了很好的成果，具有良好的应用前景。但是目前采用深度学习算法的手势识别技术研究相对比较少，常见的深度学习网络如AlexNet，CaffeNet等网络结构只利用了最后提取的高层特征进行图像的分类识别，这导致往往很难区分需要精细特征才能判断的对象，比如区分汽车的型号，动物的物种等。吴杰(吴杰.基于深度学习的手势识别研究[D].电子科技大学,2015.)在LeNet-5 卷积神经网络基础上设计了基于深度卷积神经网络的静态手势识别方法，此方法不用人工提取特征，网络通过训练自动学习特征，但特征提取不够精细、精度不够高，在静态手势识别中采用常见的单一特征卷积神经网络很难取得很好的识别效果。SongfanYang等人提出了一种基于多尺度特征的卷积神经网络用于图像分类识别技术。根据生理学家的对哺乳动物视觉系统的研究(Proceedings of the IEEE International Conferenceon Computer Vision.2015: 1215-1223.)，对于图像表示应该从不同分辨率来进行描述。本发明借鉴Songfan Yang等人提出的基于多尺度特征的卷积神经网络，通过提取不同尺度，更加准确的表征了图像，使得卷积神经网的识别率得到提升。

传统的基于视觉的手势识别方法，大都是通过人工提取手势特征进行识别，容易受到环境影响，特征的设计和选择对实验结果影响非常大，所以手势识别模型设计难度非常大；基于深度卷积神经网络这类的静态手势识别方法，特征提取不够精细、精度不够高；本发明首次提出基于多尺度的卷积神经网络的手势识别方法，利用卷积层自动学习手势特征，克服了人工提取特征的弊端的同时又更加准确的表示了图像。此种静态手势识别方法尚未见相关文献报道。

发明内容

本发明要解决的问题是：现有基于图像处理的手势识别技术存在不足，如受外界环境影响大、人工提取手势特征繁琐、提取特征不够精细及稳定性欠佳等。因此需要一种无须人工干预、操作简单且精度稳定性良好的静态手势识别方法。

本发明的技术方案为：首先对于简单背景下和复杂背景下的静态手势图片数据进行采集与预处理，数据分为训练数据与测试数据；在获得了数据之后进行实验测试环境的搭建，分为硬件与软件的搭建，硬件环境是采用Nvidia的GTX1060显卡和Intel的6代i7处理器，软件环境采用的Ubuntu16.04系统和伯克利视觉和学习中心(BVLC)开发的Caffe框架；其次进行基于多尺度的卷积神经网络的设计，即：确定神经网络层数，选择合适的尺度特征等；然后把经过标记的训练数据放入此网络结构中进行学习；最后输入测试数据样本进行测试，得出最后的静态手势识别精度；具体过程如下：

步骤1：手势样本采集，本方法采用Sebastien Marcel静态手势数据集并进行了扩充；该静态手势集定义了复杂背景和简单背景下的6个手势，但数据量较小，不符合深度学习的要求，故需自行采集手势数据进行扩充；该静态手势集定义得6个手势具体如图2所示，第一行编号1-6为简单背景下的六种手势，第二行编号1-6为对应复杂背景下的六种手势；手势数据样本的采集也可自行定义与采集；

步骤2：图像预处理，为了更好使用卷积神经网络进行手势识别，统一将数据图片缩放为固定尺寸；为了减少计算量与运行时间，还需将图片进行灰度化处理；

步骤3：搭建测试实验环境，在拥有了数据的基础上，硬件环境是采用Nvidia的GTX1060 显卡和Intel的6代i7处理器，GTX1060显卡具有6.1的算力、6G显存容量，能够为深度卷积神经网络提供强大的计算能力；软件环境采用的Ubuntu16.04系统和伯克利视觉和学习中心 (BVLC)开发的Caffe框架；Ubuntu16.04是基于Debian发行版和GNOME桌面环境开发的一款 Linux操作系统，具有友好的交互界面和良好的稳定性；Caffe框架是目前最流行的深度学习框架，Caffe框架具有灵活的框架结构与良好的性能；

步骤4：多尺度卷积神经网络的设计；

卷积神经网络主要包括卷积层、池化层、全连接层、输出层；常见的卷积神经网络的结构如图3所示，Conv表示卷积层，Pooling表示池化层，FC表示全连接层；

卷积层：卷积神经网络与普通神经网络最大的不同在于卷积神经网络拥有卷积层，能够直接对输入图片进行图像特征提取；在一个卷积层中通常有多个卷积核，每一个卷积核对应输出一张特征图；

池化层：池化层是对卷积层输出的特征图进行下采样计算，但仍然保留图中最重要的信息；池化的方法有：最大值池化，平均值池化；池化层主要有以下几个作用：

1.减少特征图的维度，减少网络对能存的消耗；

2.减少神经网络中的参数数量，减少计算量；

3.减少图像中平移，失真等的影响；

全连层：全连接层相当于传统的多层感知器；在全连接层中，每个神经元都与前一层的每个神经元相连；输入图像经过多层的卷积、池化等操作，再与全连接层相连时已经呈现出高层特征，全连接层使用这些高层特征进行图像分类；

多尺度在机器视觉中是一个比较经典的概念，但多尺度的概念在卷积神经网络中还很少运用；图4就是Songfan Yang提出的多尺度神经网络结构示意图，Conv表示卷积层，ReLU 表示激活层，Max-Pool表示最大池化层，Avg-Pool表示平均池化层，FC表示全连接层，Softmax 表示Softmax层；Songfan Yang提出的多尺度深度卷积神经网络结构是将每一个激活层(ReLU 层)后输出的特征图分两路输出，一路输出沿着正常的传播方向输出；一路直接输出，经过均值池化后接入全连接层；最后将各个全连接层输出的特征向量进行特征融合，输入Softmax 层进行分类识别；通过多层的特征提取，多尺度卷积神经网络能够利用低层、中层和高层图像特征进行图像分类识别，使得图像的分类识别能够更加精细化，而且没有给神经网络增加很大的计算量；本发明的网络结构的设计主要有三个难点，第一、神经网络层数的确定；第二、尺度特征的选择；第三、如何避免过拟合；

在神经网络设计中，为了达到良好的实验效果，需要确定合适的神经网络层数；如果设计的神经网络层数太少，会导致神经网络性能不能满足要求，识别效果不好，如果选择的层数过多，很容易出现过拟合现象，而且训练时间很长，对实验设备的要求也跟高，所以有必要选择合适的网络层数；本发明参考现有的神经网络模型，以此为基础来进行微调，通过实验对比，选取最适合手势识别的神经网络模型；本发明对CaffeNet、VGG_CNN_F、VGG_CNN_M、 VGG_CNN_S深度卷积神经网络进行了测试，并最终以CaffeNet网络模型为基础设计了多尺度网络模型；

尺度特征的选取对于实验结果影响很大，如果每一个激活层输出的特征都叠加到一起很容易出现过拟合现象，并且由于层数的增加，会占用很大的运行内存；如果选的尺度特征过少，并不能达到预期的实验效果，所以选取合适的尺度特征非常的必要；在发明中对尺度特征的选择是基于贪心算法的思想，通过实验对比得出；

本发明设计的多尺度卷积神经网络为了避免过拟合，将代价函数正则化；代价函数正则化是在代价函数中加入一个额外的正则化项；加入正则化项的代价函数变为：

C代表新代价函数，C₀代表原代价函数，λ为参数，ω权重；

新的代价函数对权值求偏导可以知：

对于权值的学习变为：

新的权值更新规则出现了1-ηλ，其中η是学习率，ηλ称为权值衰减率，通过调节λ的大小，改变整体的权值大小；当λ比较大时，训练好的模型权值比较小，比较小的权值对训练数据中的噪声不敏感，从而能够减少过拟合现象的出现；最终设计的卷积神经网络结构如图5所示；

步骤5：对数据样本进行训练，把训练样本放入多尺度卷积神经网络结构中进行训练；训练样本为复杂背景样本与简单背景样本；

卷积神经网络的训练过程主要分为两个部分：(1)前向传播，(2)反向传播；前向传播过程中主要涉及的是离散卷积运算和池化；反向传播过程是利用实际输出与期望输出的“误差”更新神经网中的参数，实现对神经网络的训练；

(1)前向传播

在卷积神经网络中前向传播中的卷积操作公式为：

其中l表示第l层，j表示卷积层的第j个核，M表示卷积核所在区域k表示卷积核b表示偏置，x表示特征图对应位置的值，f表示激活函数；具体卷积操作如图6所示；

在卷积神经网络中常用的池化(下采样)运算有：最大池化、均值池化和高斯池化；在卷积神经网络设计过程中，池化层的设计只需要定义池化窗口的大小、池化方法和步长；最大池化过程如图7所示；

(2)反向传播

反向传播算法是“误差反向传播”的简称，通常与梯度下降法结合用来训练人工神经网络；该方法通过计算神经网络中代价函数对所有参数的梯度，用来更新参数值，使得代价函数不断减小，实现对神经网络的训练；卷积神经网络的反向传播算法中可以分为三种情况：第一种情况全连接网络部分的参数更新；第二种情况是第l+1层是池化层l层是卷积层；第三种情况是第l+1层是卷积层第l层是池化层；

第一种情况：全连接网络部分的参数更新；全连接层的反向传播计算过程需要利用残差这一中间变量；残差的计算分为两种情况，一种是输出层的残差计算；一种是隐含层的残差计算

δ_j＝(d_q,h-x_out,j)g(x_j) (5)

公式(5)为输出层残差计算公式，公式(6)为隐含层残差计算公式；其中d_qh表示期望输出；x_out,j表示实际输出，g(x_j)表示激活函数的导数，x_j表示上一个层的输出，h表示第h个神经元，j表示第j个输入；

根据反向传播算法公式，关于全连接网络层的权重和偏置更新公式如下：

表示第l层的权值，η表示学习率，表示l层的残差，表示l-1层的输出，表示第l层的偏置；

第二种情况：第l+1层是池化层l层是卷积层；由于经过第l+1层的池化操作，卷积层输出的特征图的维度和池化层的输出的特征图维度存在着很大的差别，这使得l+1层的残差维度也和卷积层的维度也将不一致，所以在进行残差的计算时，需要对残差进行上采样运算；使用Kronecker乘积恢复与卷积层的矩阵的大小；下面是残差计算公式为：

表示卷积层(l层)的激活函数的一阶导数，β表示池化层的权值，j表示卷积层的第j个卷积核；表示矩阵的相乘，即对应位置元素相乘；

偏置更新

u v表示残差矩阵的位置；

表示在卷积过程中与相乘的结果x表示的第l-1层输出的值，η表示学习率；

第三种情况：第l+1层是卷积层第l层是池化层；这种情况池化层和卷积层也存在维度差；所以在计算池化层的残差时，也需要对残差矩阵的周边补零，进行扩充，使得计算出的残差维度和池化层的维度一样；

表示激活函数的一阶导数，i表示第l层(采样层)的第i张图，M表示用到了l层的第i张图的l+1层的图集合，K表示卷积核，表示一种矩阵运算；矩阵运算过程首相将矩阵K_j以左边为轴进行180度翻转，然后以上边为轴进行180度翻转，再对进行四周进行填充0，使得进行卷积运算后维度在与K_j卷积后维度与池化层的一致，然后进行卷积运算；

偏置更新

池化权值更新

表示l层的下采样值输出值，uv表示坐标位置，η表示学习率；

步骤6：对测试样本进行测试，把测试样本放入多尺度卷积神经网络结构中进行测试；测试样本为复杂背景样本与简单背景样本；

步骤7：得出识别精度，完成测试之后软件算出最后的静态手势识别精度。

本发明具有以下优点：

1.首次提出一种多尺度的卷积神经网络的静态手势识别方法，使得能够利用卷积层自动学习手势特征，克服了人工提取特征的弊端；

2.识别精度高于普通单尺度卷积神经网络结构，克服了提取特征不够精细全面及稳定性欠佳等缺点，同时网络训练所需的时间并没有大幅度增加；

3.此方法灵活性强，适用性广；多尺度特征能够提高卷积神经网络在复杂背景下的静态手势的识别率，说明了此方法可用于各类复杂背景情况下的图像识别问题，根据不同情况使用不同多尺度网络。

附图说明

图1为本发明方法流程图；

图2为6种手势定义示意图；

图3为常见的卷积神经网络的结构示意图；

图4为Songfan Yang提出的多尺度神经网络结构示意图；

图5为本发明的卷积网络结构示意图；

图6为卷积操作示意图；

图7为池化操作示意图；

图8为实施例1部分数据图像灰度化展示图。

具体实施方式

实施例1首先对于简单背景下和复杂背景下的静态手势图片数据进行采集与预处理，数据分为训练数据与测试数据；在获得了数据之后进行实验测试环境的搭建，分为硬件与软件的搭建，硬件环境是采用Nvidia的GTX1060显卡和Intel的6代i7处理器，软件环境采用的 Ubuntu16.04系统和伯克利视觉和学习中心(BVLC)开发的Caffe框架；其次进行基于多尺度的卷积神经网络的设计，即：确定神经网络层数，选择合适的尺度特征等；然后把经过标记的训练数据放入此网络结构中进行学习；最后输入测试数据样本进行测试，得出最后的静态手势识别精度；与单尺度情况下的卷积神经网络框架得出的实验精度进行对比验证；本发明方法流程图如图1所示；具体过程如下：

步骤1：手势样本采集，本方法采用Sebastien Marcel静态手势数据集并进行了扩充；该静态手势集定义了复杂背景和简单背景下的6个手势，扩充后的手势集训练样本数量达到了10000个，测试样本集1500个；该静态手势集定义了6个手势，具体如图2所示；

步骤2：图像预处理，为了更好使用卷积神经网络进行手势识别，将每一种图片的大小进行统一化，此例中静态手势识别的图片统一使用66×76的图片；为了减少计算量与运行时间，将图片进行统一灰度化处理；部分经过预处理的数据如图8所示；

步骤3：搭建测试实验环境，在拥有了数据的基础上，硬件环境是采用Nvidia的GTX1060 显卡和Intel的6代i7处理器，软件环境采用的Ubuntu16.04系统和伯克利视觉和学习中心 (BVLC)开发的Caffe框架；

步骤4：多尺度卷积神经网络的设计；

多尺度在机器视觉中是一个比较经典的概念；但是多尺度的概念在卷积神经网络中还很少运用；本发明的网络结构的设计主要有三个难点，第一、神经网络层数的确定；第二、尺度特征的选择；第三、如何避免过拟合；最终设计的卷积神经网络结构如图5所示；

在本网络包含5个卷积层和6个池化层和3个全连接层；第1个卷积层卷积核大小为11 ×11步长为4包含96个卷积核；第2个卷积层卷积核大小为5×5步长为1包含256个卷积核；第3个卷积层卷积核大小为3×3步长为1包含384个卷积核；第4个卷积层卷积核大小为3×3步长为1包含256个卷积核；第5个卷积层卷积核大小为3×3步长为1包含256个卷积核；第1个池化层池化窗口大小3×3，步长为2，采用最大池化方式；第2个池化层池化窗口大小3×3，步长为2，采用最大池化方式；第3个池化层池化窗口大小3×3，步长为 2，采用最大池化方式；第4个池化层池化窗口大小3×3，步长为1，采用最大池化方式；第 5个池化层池化窗口大小3×3，步长为2，采用平均池化方式；第6个池化层池化窗口大小3 ×3，步长为2，采用平均池化方式；选取经过激活函数ReLU输出的特征图作为多尺度特征，本网络中选取的是第2个卷积层、第4个卷积层和第5个卷积层输出的特征图分别进行池化处理，通过一个全连接层后进行特征融合，最后输入Softmax层进行分类识别；

步骤5：对数据样本进行训练，把训练样本放入多尺度卷积神经网络结构中进行训练；训练样本为复杂背景样本与简单背景样本；训练样本数据量为10000，每个手势分别包含1667 个样本，测试样本集达到1500个样本，每个手势包含125个复杂背景样本和125个简单背景样本；

步骤6：对测试样本进行测试，把测试样本放入多尺度卷积神经网络结构中进行测试；训练样本也为复杂背景样本与简单背景样本，共1500个，进行批量测试；

步骤7：得出识别精度，完成测试之后软件算出最后的静态手势识别精度为90.3％，在此 Caffe框架下与对应的单尺度的卷积神经网络在识别精度为83.7％；

为了进一步验证多尺度卷积神经网络性能优于单尺度卷积神经网络，本例实验了当前比较流行的几种单尺度特征的深度卷积神经网络CaffeNet、VGG_CNN_F、VGG_CNN_M、VGG_CNN_S，并且参考这些网络结构，设计实现了这些网络结构的多尺度深度卷积神经网络模型，在训练数据与测试数据统一的情况下经行了实验对比，实验结果如下表1：

表1 各网络识别精度、训练所需时间以及所需内存

在单尺度的卷积神经网络中结构中，通常是将全连接网络的最后一层的输出作为特征， CaffeNet特征向量维度为4096，VGG_CNN_F特征向量维度为1000，VGG_CNN_M特征向量维度为1000，VGG_CNN_S特征维度1000；多尺度卷积神经网络的特征维度主要取决与两个方面的选择：第一是特征图的选择；第二是特征图池化窗口大小的选择；Multi_Scale-CaffeNet本文选择第2，4，5个卷积层输出的特征图加入，特征维度变为9216；Multi_Scale-VGG_CNN_F 选择第1，3，5个卷积层输出的特征图加入，特征维度变为2000；Multi_Scale-VGG_CNN_M 选择第1，3，5卷积层输出的特征图加入，特征维度变为2000；Multi_Scale-VGG_CNN_S在选择第1，4，5层输出的特征加入，特征维度变为2000；这些卷积神经网络引入多尺度特征进行实验，特征维度大致增加了2倍；从表1可以看出，多尺度卷积神经网络特征维度增加，识别率也得到了很大的提升，说明引入多尺度特征能够提高卷积神经网络静态手势的识别率；但是网络训练的时间并没有出现大幅度增加，这是因为训练卷积神经网络卷积计算是耗时最大的操作，而在本文设计的多尺度卷积神经网络中并没有进行比原网络更多的卷积计算，所以网络训练所需的时间并没有大幅度增加；从内存使用的情况看，由于增加了网络的层数，网络需要保存的中间变量增加，使得训练网络所需的内存增加比较大；综上，多尺度卷积神经网络性能优于单尺度卷积神经网络。

Claims

1.一种基于多尺度卷积神经网络的静态手势识别方法，其特征在于，包括：

基于图像处理与深度学习结合的方法，设计出一种基于多尺度卷积神经网络的静态手势识别方法；通过多层的特征提取，多尺度卷积神经网络利用低层、中层和高层图像特征进行图像分类识别，使得图像的分类识别能够更加精细化，计算量不大，优于单尺度卷积神经网络。

2.根据权利要求1所述的方法，其特征在于，所述静态手势识别方法的方案步骤包括：

1)对于简单背景下和复杂背景下的静态手势图片数据进行采集与预处理，数据分为训练数据与测试数据；

2)在获得了数据之后进行实验测试环境的搭建，分为硬件与软件的搭建；

3)其次进行基于多尺度的卷积神经网络的设计，即：确定神经网络层数，选择合适的尺度特征，避免过拟合；

4)然后把经过标记的训练数据放入此网络结构中进行学习；

5)最后输入测试数据样本进行测试；

6)得出最后的静态手势识别精度。

3.根据权利要求2所述的方法，其特征在于，所述手势样本采集包括：

采用Sebastien Marcel静态手势数据集并进行了扩充；该静态手势集定义了复杂背景和简单背景下的6个手势。

4.根据权利要求2所述的方法，其特征在于，所述图像预处理包括：

为了更好使用卷积神经网络进行手势识别，统一将数据图片缩放为固定尺寸；为了减少计算量与运行时间，需将图片进行灰度化处理。

5.根据权利要求2所述的方法，其特征在于，所述测试实验环境的搭建包括：

硬件环境是采用Nvidia的GTX1060显卡和Intel的6代i7处理器，软件环境采用的Ubuntu16.04系统和伯克利视觉和学习中心(BVLC)开发的Caffe框架；Caffe框架具有灵活的框架结构与良好的性能。

6.根据权利要求2所述的方法，其特征在于，所述多尺度卷积神经网络的设计包括：

1)基于卷积层：卷积神经网络与普通神经网络最大的不同在于卷积神经网络拥有卷积层，能够直接对输入图片进行图像特征提取；在一个卷积层中通常有多个卷积核，每一个卷积核对应输出一张特征图；

2)基于池化层：池化层是对卷积层输出的特征图进行下采样计算，但仍然保留图中最重要的信息；池化的方法有：最大值池化，平均值池化；池化可减少特征图的维度、网络对能存的消耗、神经网络中的参数数量、计算量；图像中平移、失真等影响；

3)基于全连层：全连接层相当于传统的多层感知器；在全连接层中，每个神经元都与前一层的每个神经元相连；输入图像经过多层的卷积、池化操作，再与全连接层相连时已经呈现出高层特征，全连接层使用这些高层特征进行图像分类；

4)基于多尺度：多尺度在机器视觉中是一个比较经典的概念，通过多层的特征提取，多尺度卷积神经网络能够利用低层、中层和高层图像特征进行图像分类识别，使得图像的分类识别能够更加精细化，而且没有给神经网络增加很大的计算量；此网络结构的设计主要有三个难点，第一、神经网络层数的确定；第二、尺度特征的选择；第三、如何避免过拟合。

7.根据权利要求6所述的方法，其特征在于，所述多尺度卷积神经网络的设计难点的解决包括：

1)在神经网络设计中，设计的神经网络层数太少，会导致神经网络性能不能满足要求，识别效果不好；选择的层数过多，很容易出现过拟合现象，训练时间很长，对实验设备的要求也跟高；参考现有的神经网络模型并通过实验对比，选取了最适合手势识别的神经网络模型；对CaffeNet、VGG_CNN_F、VGG_CNN_M、VGG_CNN_S深度卷积神经网络进行了测试之后，以CaffeNet网络模型为基础设计了多尺度网络模型；

2)尺度特征的选取对于实验结果影响很大，每一个激活层输出的特征都叠加到一起很容易出现过拟合现象，由于层数的增加，会占用很大的运行内存；选的尺度特征过少，并不能达到预期的实验效果；对尺度特征的选择是基于贪心算法的思想，通过实验对比得出；

3)多尺度卷积神经网络为了避免过拟合，将代价函数正则化；代价函数正则化是在代价函数中加入一个额外的正则化项；加入正则化项的代价函数变为：

C代表新代价函数，C₀代表原代价函数，λ为参数，ω权重；

新的代价函数对权值求偏导可以知：

对于权值的学习变为：

新的权值更新规则出现了1-ηλ，其中η是学习率，ηλ称为权值衰减率，通过调节λ的大小，改变整体的权值大小；当λ比较大时，训练好的模型权值比较小，比较小的权值对训练数据中的噪声不敏感，能够减少过拟合现象的出现；最终设计出卷积神经网络；

4)此网络结构包含5个卷积层和6个池化层和3个全连接层；第1个卷积层卷积核大小为11×11步长为4包含96个卷积核；第2个卷积层卷积核大小为5×5步长为1包含256个卷积核；第3个卷积层卷积核大小为3×3步长为1包含384个卷积核；第4个卷积层卷积核大小为3×3步长为1包含256个卷积核；第5个卷积层卷积核大小为3×3步长为1包含256个卷积核；第1个池化层池化窗口大小3×3，步长为2，采用最大池化方式；第2个池化层池化窗口大小3×3，步长为2，采用最大池化方式；第3个池化层池化窗口大小3×3，步长为2，采用最大池化方式；第4个池化层池化窗口大小3×3，步长为1，采用最大池化方式；第5个池化层池化窗口大小3×3，步长为2，采用平均池化方式；第6个池化层池化窗口大小3×3，步长为2，采用平均池化方式；本网络中选取的是第2个卷积层、第4个卷积层和第5个卷积层输出的特征图分别进行池化处理，通过一个全连接层后进行特征融合，最后输入Softmax层进行分类识别。

8.根据权利要求2-7所述的方法，其特征在于，所述训练样本放入多尺度卷积神经网络结构中进行训练，训练样本为复杂背景样本与简单背景样本；包括：

1)基于前向传播：在卷积神经网络中前向传播中的卷积操作公式为：

其中l表示第l层，j表示卷积层的第j个核，M表示卷积核所在区域k表示卷积核b表示偏置，x表示特征图对应位置的值，f表示激活函数；

在卷积神经网络中常用的池化运算有：最大池化、均值池化和高斯池化；在卷积神经网络设计过程中，池化层的设计只需要定义池化窗口的大小、池化方法和步长；

2)基于反向传播，通过计算神经网络中代价函数对所有参数的梯度，用来更新参数值，使得代价函数不断减小，实现对神经网络的训练；卷积神经网络的反向传播算法中可以分为三种情况：第一种情况全连接网络部分的参数更新；第二种情况是第l+1层是池化层l层是卷积层；第三种情况是第l+1层是卷积层第l层是池化层；

δ_j＝(d_q,h-x_out,j)g(x_j) (5)

第二种情况：第l+1层是池化层l层是卷积层；经过第l+1层的池化操作，卷积层输出的特征图的维度和池化层的输出的特征图维度存在着很大的差别，使得l+1层的残差维度也和卷积层的维度也将不一致，在进行残差的计算时，需要对残差进行上采样运算；使用Kronecker乘积恢复与卷积层的矩阵的大小；下面是残差计算公式为：

偏置更新

u v表示残差矩阵的位置；

第三种情况：第l+1层是卷积层第l层是池化层；这种情况池化层和卷积层也存在维度差；在计算池化层的残差时，需要对残差矩阵的周边补零，进行扩充，使得计算出的残差维度和池化层的维度一样；

偏置更新

池化权值更新

表示l层的下采样值输出值，uv表示坐标位置，η表示学习率。

9.根据权利要求2-8所述的方法，其特征在于，所述对测试样本进行的测试包括：

把测试样本放入上述多尺度卷积神经网络结构中进行测试，测试样本为复杂背景样本与简单背景样本，完成测试之后软件算出最后的静态手势识别精度。