CN109766822A

CN109766822A - 基于神经网络的手势识别方法及系统

Info

Publication number: CN109766822A
Application number: CN201910011511.6A
Authority: CN
Inventors: 杨明强; 程琦; 贲晛烨; 李�杰; 刘玉鹏
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2019-01-07
Filing date: 2019-01-07
Publication date: 2019-05-17
Anticipated expiration: 2039-01-07
Also published as: CN109766822B

Abstract

本公开提供了一种基于神经网络的手势识别方法及系统，通过构建训练样本集合，对训练样本的图像进行尺寸的归一化处理；对归一化处理后的图像中的手势进行分类，并制作不同的分割标签；对分类后的手势图像进行增强，构建FCN网络模型，利用增强后的图像对FCN网络模型进行训练；对训练后的FCN网络模型进行分类质量和分割质量的优化，利用优化后的FCN网络模型对采集样本进行识别，不仅在测试数据集上表现优秀，即使不经训练直接用于其他手势库或生活场景中，分类效果较好。

Description

基于神经网络的手势识别方法及系统

技术领域

本公开涉及一种基于神经网络的手势识别方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

计算机技术的深入应用，使得人机交互(HCI)技术的需求也随之日益增长。然而，键盘鼠标等传统机械交互方式，由于必须接触操作且需要适应过程，在很多场景中并不方便。随着计算机不断的人性化、智能化，以及用户体验、场景交互需求的不断发展，语音识别、人脸识别、人眼跟踪、人体姿态识别、手势识别等一些符合人类习惯的人机交互技术越来越受到重视。手势识别，作为日常生活中仅次于语音、人类最原始的交互方式，具有方便快捷、清晰准确、体验性好等诸多优势，成为近年来研究和应用的热点。

单目视觉静态图像手势识别(简称静态手势识别)，是最为经典传统的手势识别研究方向，同时也是多目视觉手势识别和动态图像手势识别等其他手势识别的基础。虽然静态手势识别技术已经相当成熟，但针对复杂背景的静态手势识别仍然存在技术瓶颈，对复杂环境、复杂背景的适应能力仍需提高。

目前主流的技术手段主要分为两类：

第一类，以图像特征提取为主的传统技术手势识别技术，由人工设计提取图像特征，针对提取的特征，再利用传统模式识别技术(支持向量机、随机森林、ANN分类器等)进行分类。其优缺点是：分类特征和分类器由人工设计，针对性强，可充分结合手势自身形状。因此，分类效果较好，但不能很好适应各种应用场景。

第二类，以卷积神经网络(CNN)为主的手势识别技术，依靠网络自学习得到CNN分类器。其优缺点为：类特征和分类器由网络自学习得到，环境适应性好，但未能有效利用手势形状的先验知识。因此，对应用场景适应能力较强，但容易受到复杂背景干扰。

除此之外，近两年也出现了将两种方式相结合的手势识别方式，但多数都未能有效克服上述两类方法中的技术问题，有待改进提高。

发明内容

本公开为了解决上述问题，提出了一种基于神经网络的手势识别方法及系统，本公开通过创新深度挖掘FCN预测值的潜在信息，将神经网络自学习能力和手势形状的先验知识有机结合，实现了高准确率和强环境适应能力的双赢。

根据一些实施例，本公开采用如下技术方案：

一种基于神经网络的手势识别方法，包括以下步骤：

采集手势图像数据并逐一制作分割标签，构建训练样本库；

对训练样本库中的样本及其标签进行尺寸的归一化处理，并进行数据增强；

构建FCN模型，使用增强后的训练样本库训练FCN模型；

使用训练后的FCN模型对采集样本进行预测，产生预测值；

使用FCN分类提升，提取FCN预测值中的分类信息和分割信息并依据综合判定标准完成手势类型判定。

作为进一步的限定，在产生预测值和使用FCN分类提升之间,还包括步骤:使用基于肤色归一化的二次预测，改善FCN预测效果。

作为进一步的限定，构建训练样本集合的过程中，使用纯绿色背景(RGB值为[0255 0])随机拍摄10组以上手势，对样本中的手势图像及其标签进行缩放或/和边缘补零操作将图像长尺寸进行归一化。

作为进一步的限定，制作分割标签时，具体包括：

(a)将图像由RGB色域转换到YCrCb色域，并将取值范围归一化到[0～1]；

(b)图像在通过Cr、Cb两个分量上进行颜色过滤，并为像素设定类型值，获得手部分割标签。

作为进一步的限定，对训练样本进行数据增强的过程具体包括：

(i)根据训练需求，设定扩增倍率，记为N_k(作为一种实施方案，建议值为8)；

(ii)在一定比例范围内均匀的选择N_k个缩放比例，依据获得的缩放比例，分别产生N_k个缩放子矩阵；

(iii)在设定的角度范围内随机获得N_k个旋转角度，依据获得的旋转角度，分别生成N_k个旋转子矩阵。

(iv)在设定的取值范围内随机获得N_k组切变量，依据获得的切变量，分别生成N_k个切变矩阵。

(v)对每一个样本都重新生成N_k个缩放子矩阵、N_k个旋转子矩阵和N_k个切变子矩阵，并合成N_k个仿射变换矩阵，使用N_k个仿射变换矩阵对当前样本进行N_k次仿射变换，得到N_k组不同的结果。

(vi)对经仿射变换后的部分图像进行手部肤色的扩增；

(vii)对背景进行替换。

作为更进一步的限定，所述步骤(v)中，对每一个数据进行扩增时，首先将数据合成一个含有R通道、G通道、B通道和分割标签通道的4通道数据，并将仿射变换的缩放子矩阵、旋转子矩阵、切变子矩阵并依次矩阵右乘生成仿射变换矩阵，使用生成的仿射变换矩阵，对当前数据的每一通道执行相同的仿射变换。

作为更进一步的限定，所述步骤(vi)中，在每个手势图像经仿射变换后的N_k个变换图像中，随机选择个图像，通过对手部像素添加整体的色偏，将手部像素肤色CrCb均值分别调整至设定的经典值，完成肤色扩增。

作为更进一步的限定，所述步骤(vii)中，针对每次扩增，随机选取一张背景，随机位置剪裁和图像大小相等的各个区域作为扩增数据背景，对于每个手势图像，需要重复执行N_k次取得N_k个背景，分别提供给N_k个仿射变换图像，将所述仿射变换图像和肤色扩增后的图像进行融合，依据标签计算手部像素所在区域的长和宽，随机在背景中选取大小相等的区域，在该区域中替换手部像素，完成手部嵌入。

作为进一步的限定，构建FCN网络模型时，使用含有三级跳跃支路的FCN-4S模型，并按预先优化的配置进行网络结构的设定。

作为进一步的限定，使用基于肤色归一化的二次预测，改善FCN预测效果，具体过程包括：

结合分割标签，将训练集所有样本手部像素的YcrCb色域的均值作为标准肤色，记为Clr₀。利用最大能量区获取算法由FCN预测值计算最大能量区，提取当前样本图像中最大能量区命中的像素并进行肤色安全过滤，对通过过滤的像素统计YcrCb颜色空间的均值，记为Clrj_j，计算色差ΔClr＝Clr₀-lr_j；并对当前图像全部像素的YcrCb值都加上ΔClr完成肤色归一化，对归一化之后的图像使用FCN模型再次进行预测，重新产生预测值。

作为进一步的限定，FCN预测值分类信息提取的具体过程包括：

(i)对FCN预测值中除背景类型外的各类型像素分别进行形态学预处理后，统计其连通区域数量和像素数量。

(ii)将预测值中像素数量最多的类型作为分类信息判定结果。

(iii)依据分类评价标准，对预测值进行分类质量评价，评价结果分为“优”和“差”两种。

具体标准如下：

·优势类型的最大连通区域，其像素数量为“次优势类型”3倍以上；

·优势类型像素占比超过90％，占据绝对优势。

上述评价标准中所有比例和统计，均不包含背景像素，满足任意一条标准结果为“优”，都不满足结果为“差”，将结果作为分类质量评价，将FCN预测值中除背景外像素数量最多的类型作为类型判定结果。

作为更进一步的限定，FCN预测值各类型像素的形态学预处理，过程如下：

经多次腐蚀再经多次膨胀，消除过小碎块；

经多次膨胀再经多次腐蚀，消除过小间隙；

作为进一步的限定，FCN预测值分割信息提取的具体过程包括：

(i)设计并训练用于二值手势形状分类的CNN模型；

(ii)将FCN预测结果二值化后，进行形态滤波。

(iii)将形态滤波后的二值结果输入训练后的CNN模型得到各类型判定得分，将最高得分类型作为分割信息判定结果，将最高得分类型的分值作为分割质量评价。

作为更进一步的限定，CNN模型的训练具体过程是：

提取扩增后样本库中的分割标签，将每一分割标签中手势像素的类型数值作为CNN训练的类型标签，将该分割标签进行二值化作为对应的CNN训练样本，构成CNN训练库，并使用CNN训练库训练CNN模型。

作为更进一步的限定，FCN预测结果的二值化和形态滤波包括：

背景类型像素取值为0，其他类型像素取值为1；

确定腐蚀膨胀次数N₁(作为一种实施方式，推荐值为5)；

经多次腐蚀再经多次膨胀，消除过小碎块；

经多次膨胀再经多次腐蚀，消除过小间隙；

仅保留最大联通区。

作为进一步的限定，FCN预测值中的分类信息和分割信息的综合判定标准为：

表中综合判定标准中的数值可以适当调整。

一种基于神经网络的手势识别系统，运行于处理器或存储器上，被配置为执行以下指令：

采集手势图像数据并逐一制作分割标签，构建训练样本库；

构建FCN模型，使用增强后的训练样本库训练FCN模型；

使用训练后的FCN模型对采集样本进行预测，产生预测值；

使用分类提升提取并综合预测值中的分类信息和分割信息，完成手势识别判定。

与现有技术相比，本公开的有益效果为：

在模型训练环节，本公开结合手势图像特点利用分割标签特点，在简化分割标签制作流程的同时，提升了数据增强的效果，此外还降低了对训练数据的数量要求。

在手势识别环节，本公开提出的FCN分类提升方法，通过挖掘和综合利用FCN预测值的分类信息和分割信息，可显著提高了手势分类的准确度和环境鲁棒性。

本公开通过局部数据增强对训练数据的有效扩增，以及分类提升中对分割信息和分类信息的同时利用导致模型对预测质量要求大大降低。不仅在测试数据集上表现优秀，即使不经训练直接用于其他手势库或生活场景中，分类效果较好。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1是本公开的总体框架图；

图2是本公开的CrCb平面肤色统计和高斯拟合示意图；

图3是本公开的FCN-4s网络结构示意图；

图4是本公开的CNN训练数据产生示意图；

图5是本公开的CNN网络结构示意图；

图6是本公开的手部最大能量区方法获取的效果图；

图7是本公开的肤色归一化和FCN二次预测改善效果图；

图8是本公开的部分手势场景展示示意图；

图9是预测判定结果示意图；

图10是最终分类的预测效果示意图；

图11是实际场景随机测试示意图；

具体实施方式：

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

首先，为了本领域技术人员能够更加明白本公开的具体内容，进行名词解释如下：

FCN，是指全卷积神经网络,主要用于图像分割领域。

CNN，是指卷积神经网络，主要用于图像分类领域。

CrCb平面，是指由YCrCb色域中Cr、Cb两个分量为基底的2维欧式空间。

FCN分类提升,是本公开的核心技术，指通过利用FCN预测结果潜在信息，提升分类效果的一套方法。

分割标签，是指图像分割深度学习训练使用的数据标签。分割标签是和手势图像纵横尺寸相同的矩阵，矩阵中每一元素的取值表示手势图像中对应位置像素的类型。为方便人机交互，一般存储为单通道图像，并使用调色板为不同类型像素分配不同的颜色。

局部数据增强，是指利用分割标签调整替换手势图像中局部像素而进行的特殊数据增强手段。

手部最大能量区，是指由FCN预测值计算获得的像素区域，该像素区域具有某种形态学意义上的最大能量，因该区域内像素属于手部概率极大，本公开将其用作手部肤色估计。

一种基于卷积神经网络的静态手势识别方法,采用以FCN模型预测结果为基础，结合使用了局部数据增强、FCN分类提升、基于肤色归一化的二次预测等多项技术，总体框架如图1所示。

本公开包括模型训练和手势识别两大部分。方案具体步骤介绍如下：

一、模型训练具体步骤

(1)原始数据采集

使用纯绿色背景(RGB值为[0 255 0])随机拍摄10组以上手势。为避免模型训练过拟合，建议每组手势由不同的人完成，不同性别、手型差异明显者效果更佳。拍摄时手型标准，距离适当，避免背景光照干扰手部。

为保证运行效率和效果，图像尺寸要求统一，可通过缩放、边缘补零等操作进行尺寸归一化。归一化的长度和宽度，可分别在128、160或192像素中选择。

(2)制作分割标签

a、将手势类型数量记为n，使用C_j(j∈N⁺，j≤n)依次为手势类型编号，作为分割标签中各手势类型像素的取值，并将0作为背景像素的取值。

b、RGB色域到YCrCb色域的转换

将图像由RGB色域转换到YCrCb色域，并将取值范围归一化到[0～1]，RGB色域到YCrCb色域转换公式如下：

Y＝16+0.257*R+0.504*G+0.098*B

Cb＝128-0.148*R-0.291*G+0.439*B

Cr＝128+0.439*R-0.368*G-0.071*B(Ⅰ)

式(Ⅰ)中，Y、Cr、Cb为YCrCb色域的三个分量，R、G、B为RGB色域的三个分量。

图像在通过Cr、Cb两个分量上进行颜色过滤，并为像素设定类型值，获得手部分割标签，具体方法如式(II)：

DisClr>20的像素取值为C_j，标记为对应类型

DisClr≤20的像素取值为0，标记为背景。(II)

式(II)中，Cb_i、Cr_i为图像中像素Cb Cr分量的通项，下标i表示对像素的遍历，Cb_bk＝0.2110Cr_bk＝0.1342为纯绿色的Cb Cr分量，Ni为当前图像手势对应的类型值,C_j为各手势类型像素的取值。

(4)训练数据增强

本方法使用独特的局部数据增强手段丰富数据，局部数据增强由手部仿射变换、手部肤色扩增、随机背景替换三种方法结合而成，具体步骤如下：

a、扩增倍率确定

扩增倍率N_k表示经过数据增强，相对原数据量增加的倍数。本实施例中的扩增倍率为N_k＝5，实际中可依需求调整。

b、仿射变换缩放子矩阵

为防止异常缩放，本实施例针对每个样本在一定比例范围内选择N_k个固定值r_i(i∈N⁺，i≤N_k)，作为当前样本每次扩增的缩放比例，产生缩放子矩阵，具体方法如式(III)：

式(III)中，Sx、Sy为当前样本手部像素的横向尺寸、纵向尺寸。Sx_min、Sx_max、Sy_nin、Sy_max分别为训练集样本手部像素横向尺寸最小值、横向尺寸最大值、纵向尺寸最小值、纵向尺寸最大值。r_min、r_max分别为缩放比例的最小值和最大值。r_i为当前样本第i次扩增的缩放比例值。Mat_sc_i为当前样本第i次扩增的缩放子矩阵,N_k为扩增倍率。

c、仿射变换旋转子矩阵

旋转子矩阵由在一定角度范围内随机获得的旋转角度生成,具体过程见式(IV)：

θ_i＝sign(rand-0.5)*(5+rand*5)

式(IV)中，sign为符号函数，rand为区间为[0,1]的随机函数，sind、cosd分别为按角度计算的正弦函数和余弦函数，θ_i为当前样本第i次扩增的旋转角度(单位为度)，Mat_r_i为当前样本第i次扩增的旋转子矩阵,N_k为扩增倍率。

d、仿射变换切变子矩阵

切变子矩阵分由横向切变、纵向切变合成而来，具体过程见式(V)：

θ_Hi＝5+2*rand

θ_Vi＝5+2*rand

式(V)中，rand为区间为[0,1]的随机函数，sind为按角度计算的正弦函数，θ_Hi、θ_Vi分别为当前样本第i次扩增的横向切变量和纵向切变量，Mat_s_i为当前样本第i次扩增的切变子矩阵,N_k为扩增倍率。

e、仿射变换的执行

对每一个数据进行扩增时，首先将数据合成一个含有4通道的数据(R通道、G通道、B通道和分割标签通道)，将生成子矩阵分为N_k组,每一组依次包含一个缩放子矩阵、旋转子矩阵、切变子矩阵，将每一组中的三子矩阵依次右乘，分别得到N_k个仿射变换矩阵。使用N_k个仿射变换矩阵依次对数据进行N_k次仿射变换，每次仿射变换都对数据的4通道使用同一矩阵进行仿射变换，经变换后由每个数据可得到N_k个新数据。相关计算公式见式(VI)：

仿射变换矩阵合成:

Mat_Afine_i＝Mat_sc_i·Mat_r_i·Mat_s_i

仿射变换执行：

式(VI)中，Mat_Afine_i为当前样本第i次扩增的仿射变换矩阵，x′y′为变换后像素坐标，x y为变换前像素坐标，N_k为扩增倍率。为保证扩增后训练集的泛化效果，每个样本在扩增时都重新随机生成Mat_sc_i、Mat_r_i、Mat_s_i并合成仿射变换矩阵。

仿射变换中的旋转角度、切变量的取值范围可按需调整。但相关缩放比例的设定，不建议修改。

f、手部肤色扩增

在每个手势图像经仿射变换后的N_k个新数据中，随机选择其中个，通过对手部像素添加整体的色偏，将手部像素肤色Cr、Cb分量的均值调整至预先选定的几个经典值，完成肤色扩增。经典值可根据需要自行选取，本实施例中使用的经典值是CrCb平面中的一个肤色区域内随机选取的，如图2所示。

图2中，Cb、Cr分量的取值范围为[0，255]，‘+’表示背景颜色‘x’表示肤色，肤色区域由训练集所有样本的手部像素统计得到。‘o’表示肤色随机选取的范围，由置信度为0.5的椭圆确定。

本实施例中对手部像素亮度也进行随机调整，但需满足两个限定条件：第一、亮度的调整的最大改变量为10％。第二、调整后的平局亮度介于扩增前所有样本手部像素的平均亮度的最大值和最小值之间。

g、随机背景获取

本实施例中通过随机裁剪获取背景，为增强训练效果，需要准备三种背景：纯黑色背景、彩虹色背景、复杂场景背景。背景图像尺寸约为数据图像尺寸的5倍左右。

彩虹色背景可挑选包含多种颜色且色彩相对于裁剪尺寸缓慢变化的图像，即保证随机裁剪后得到的局部图像色彩纯净且变化较小即可，其目的是通过随机裁剪快速得到随机颜色的纯色背景。复杂场景背景拍摄获取要注意适当远景拍摄，以保证倍裁剪后背景内容变化依然丰富。对于应用场景中背景较为固定的情况，强烈建议采集与使用场景相同或相近的背景，可大幅提高识别效率。背景数量可根据需要自行调节。

针对每次扩增，随机选取一张背景并进行随机位置剪裁，将裁减得到的与图像大小相等的各个区域作为扩增数据背景。对于每个手势图像，需要重复执行N_k次取得N_k个背景，下一步将分别作为N_k个仿射变换图像的背景。

h、背景替换和手部嵌入

对于每个手势图像，将步骤g中取得的N_k个背景和步骤f中取得的N_k个仿射变换的图像进行融合。方法如下：首先，依据标签计算手部像素所在区域的长和宽，随机在背景中选取大小相等的区域(不能超出图像边界)，在该区域中替换手部像素，完成手部嵌入。

至此，通过倍率为N_k的数据增强，将数据量变为原来的N_k+1倍。

(5)FCN模型配置

网络模型选用三条跳跃支路的FCN-4s结构。本实施例中具体使用的FCN网络由经典CNN模型VGG-VeryDeep-16改造而来，继承了VGG网络的特点，使用连续的小卷积核代替大卷积核。本方法针对手势图像进行了FCN模型参数的优化，FCN模型结构见图3，FCN网络详细配置见表2。

表2

在图3中，为便于描述我们将FCN网络分为三大部分：五大卷基层、尾部卷积层、跳跃结构和反卷积层，三大部分与FCN网络详细配的对应关系为：

图3中五大卷基层对应表2中Convolution Layer Combine-1到5；

图3中尾部卷积层对应表2中Rear Part Layer Combine；

图3中跳跃结构和反卷积层对应表2中Skip Layers和Endding Layers；

表2中Endding Layers中的Objective和Accuracy为仅用于调试的观测变量，与网络结构无关。

本实施例在理论研究时为达到实验数据库上的极限效果，选用了较大的滤波器卷积核个数，实际中应根据情况适当减少，可在不影响准确率的前提下大幅提高效率。例如，可减少配置表中尾部几个卷积层(表2中Rear Part Layer Combine部分)中滤波器卷积核数目，将4096改为2048、1024或更少。

(6)CNN模型配置

a、训练数据的产生

CNN模型是FCN分类提升的组成部分，用于从FCN预测结果的中获取分割信息，即通过CNN预测得到与分割形状最类似手势类型以及类似程度的概率表示。此处，用于判定对象是依次经过二值化和形态滤波的FCN预测值。模型训练数据主要由分割标签直接二值化的结果构成，也可添加由FCN训练集预测输出依次经过二值化和形态滤波得到的结果。

其中，二值化和形态滤波的具体步骤是：

将分割标签中背景对应像素置为0，其他像素置为1，完成二值化。

确定腐蚀膨胀次数N₁(推荐值为5)；

连续N₁次半径为1的腐蚀，随后连续N₁次半径为1的膨胀，消除过小碎块；

连续N₁次半径为1的膨胀，随后连续N₁次半径为1的腐蚀，消除过小间隙；

可使用半径为N的腐蚀膨胀近似代替多次腐蚀的效果，以提高效率。训练数据生成过程如图4所示。

b、CNN模型结构

CNN模型为一个简单的6层网络，详细配置如图5所示，需要注意输入数据的尺寸，本实施例中图像尺寸为128x160像素，缩放1/2后作为CNN输入，如果使用其他尺寸，调整倒数四层(全连接层之前)的滤波器尺寸，与上一层数据输出尺寸一致即可。CNN模型是用于二值图形分类的简单网络，也可自行设计。

二、手势识别具体步骤

(1)FCN预测输出

网络结构中的最后两层Objective和Accuracy(见表2Endding Layers)是用于检测训练状态的输出层，训练完成后应将这两层删除。网络最后输出的变量prediction是一个三维矩阵，其尺寸为“图片长×图片宽×类型”，存储每个类型在每个像素位置上的得分。对prediction沿表示类型的第三维度求取最大值，所得“图片长×图片宽×1”尺寸的结果即为预测输出。输入图像为RGB格式并归一化为统一尺寸。本实施例中归一化尺寸为128x160像素，实际尺寸的长度和宽度可分别在128、160或192像素中选择。

(2)基于肤色归一化的二次预测

研究发现，即使FCN预测输出很差，也总有相当一部分像素命中手部。基于这一发现，本方法提出了“最大能量区”获取算法，可由预测值准确估计当前肤色。利用当前图像的估计肤色调整图片颜色后，使用FCN模型再次预测，可改善部分样本预测质量。

该方法为可选操作，主要改善手存在拍摄色偏以及部分近肤色场景的预测质量，改善效果有限，实际应用中可以省略，以减小二次预测带来的时间开销。

具体步骤介绍如下：

a、最大能量区获取算法

形态学中的最终腐蚀，是指连续腐蚀过程中连通子区域消失前所有剩余部分的并。本方法认为，最终腐蚀中历经腐蚀次数越多的区域，具有图形学上更大的能量。同一次腐蚀中消失的区域，恢复后像素数多者，能量更大。从最终腐蚀结果中，选取能量最大的N个区域，按照其实际历经的腐蚀次数进行膨胀复原，即得“最大能量区”。本方法中，为保证在较差预测中也能准确命中，本实例中取N＝1，即只要能量最大的一个区域。

图6为最大能量区获取示意图，左侧为最终腐蚀和获取过程示意，右侧是命中效果展示，图中加亮区域为最大能量区命中区域。实验结果表明，无论分割结果如何，最大能量区总能命中手部，仅少数样本稍有偏差。

b、肤色安全过滤

为防止极少数错误命中导致的错误，我们进行了肤色安全过滤。预先使用训练集图像像素在CrCb平面进行统计，计算置信椭圆并选取一个包含全部肤色分布的区域，并留有充分余量。将该区域作为肤色过滤的通过范围。本实施例中选择概率为0.1的置信椭圆作为过滤范围，只取范围内的像素进行肤色统计。肤色分布统计和置信度椭圆，具体的肤色分布和过滤范围应由当前训练集确定。

在进行训练集CrCb平面肤色统计时，为保证肤色统计质量，我们对分割标签的手部像素进行了半径为3的腐蚀操作，避开边缘只统计中心区域的肤色。

c、肤色归一化和FCN二次预测

结合分割标签，将训练集所有样本手部像素的YcrCb色域的均值作为标准肤色，记为Clr₀。利用最大能量区获取算法由FCN预测值计算最大能量区，提取当前样本图像中最大能量区命中的像素并进行肤色安全过滤，对通过过滤的像素统计YcrCb颜色空间的均值，记为Clr_j，计算色差ΔClr＝Clr₀-Clr_j，对当前图像全部像素的YcrCb值都加上ΔClr完成肤色归一化，对归一化之后的图像使用FCN模型再次进行预测，重新产生预测值。若经过肤色安全过滤后没有像素剩余，则不进行肤色归一化和二次预测。肤色归一化和FCN二次预测效果见图7。

(3)FCN分类提升

FCN分类提升是本方法的核心技术，通过提取并综合预测值中的分类信息和分割信息，完成手势识别判定。FCN分类提升可显著提高手势分类的准确度和环境鲁棒性，具体步骤如下：

a、分类信息判定和分类质量评价

分类信息判定是指，不考虑预测输出中手部分割外形，仅利用FCN预测值中的像素类型及其分布得出的手势类型判定。

分类质量评价是对分类信息质量的评估，直接反应分类信息判定的可靠程度。

分类质量评价存在有效性和适应性的矛盾。一方面，过于简单的评价规则，不能充分利用预测值的潜在信息。另一方面，过度制定评价规则会造成过拟合现象，降低环境鲁棒性。针对上述矛盾，本公开制定了简单有效的评价规则：优势类型的数量优势足够突出且类型空间分布集中，评价结果分为“优”和“差”两种，具体标准如下：

·优势类型像素占比超过90％，占据绝对优势。

满足任意一条评价为“优”，都不满足评价为“差”。

分类信息判定，直接选用FCN预测值中除背景外像素数量最多的类型。

b、分割信息判定和分割质量评价

分割信息判定指是，不考虑FCN预测值中的类型信息，仅依据FCN预测值中手部分割的总体外形与已知手型的相似程度得出的手势类型判定。

分割质量评价是对分割信息质量的评估，直接反应分割信息判定的可靠程度。

对FCN预测值分割信息提取的具体过程包括：

首先，将FCN预测结果二值化后，进行形态滤波。将形态滤波后的二值结果输入训练后的CNN模型进行预测，得到各类型判定得分，将最高得分类型作为分割信息判定结果，将最高得分类型的分值作为分割质量评价。CNN具体配置见第9页CNN模型结构。

其中，形态滤波步骤为：背景类型像素取值为0，其他类型像素取值为1；确定腐蚀膨胀次数N₁(推荐值为5)；连续N₁次半径为1的腐蚀，随后连续N₁次半径为1的膨胀，消除过小碎块；连续N₁次半径为1的膨胀，随后连续N₁次半径为1的腐蚀，消除过小间隙；仅保留最大联通区。

在FCN分类提升中：

分类信息判定结果(对应)分类质量评价；

分割信息判定结果(对应)分割质量评价；

大体原则：谁评价高，就用谁的结果。

c、综合判定标准

综合判定标准是指，每一个采集样本在最终类型判定时，结合FCN预测值的分类质量评价和分割质量评价，从分类信息判定和分割信息判定中合理挑选判定方式的标准。具体如下：

在综合判定标准中，得分门限的设定，并未完全参考训练集表现，即并未使用能使训练集正确率最高的数值，而是留有余量选择了相对经验的数值。目的是保证环境鲁棒性，具体数值可以适度调整。综合判定结果即为最终判定。

为证明本公开的效果，进行试验，其中，训练用数据库说明：

训练用数据库为本实施例的方法研究、调整测试使用的数据库，选用公开手势库NUS-Hand-Posture-Dataset-II中的Hand Postures子库，下载地址为：“https://www.ece.nus.edu.sg/stfpage/elepv/nus-handset”。

该数据库主要针对复杂背景环境，包含10类型手势图像(160×120)、20组不同场景(背景、演示者)、每手势同场景重复5次不同的拍摄，共含10手势×40场景×5次拍摄＝2000张图片。原库不含分割标签，分割标签为手工自制。

实验结果：正确率99.00％(训练测试比1.0:1.0 1/2交叉验证)

结果说明：一般神经网络训练，要求训练集70％测试集30％左右，本方法实验中使用的训练测试比为训练集50％测试集50％，经验证，在实验数据库上，即使训练集30％测试集70％仍然具有98％的正确率。该优势的原因是，局部数据增强对训练数据的有效扩增，以及分类提升中对分割信息和分类信息的同时利用导致模型对预测质量要求大大降低。因此，本方法对训练数据量要求极低。

b、其他数据库验证

将实验数据库上训练的模型，不经过二次训练，直接用于其他数据库，通过跨数据库的分类表现，说明模型在环境的鲁棒性。由于存在不一致手势，我们选取数据库中与训练库手势一致的类型进行测试。

①Dtaset by Kawulok et al.,2014

选取该库中与训练库手势一致的类型进行测试，因为我们只针对近景手势，为符合要求对图像数据进行了预裁剪。共选择177个手势图像，其中HGR1子库中A、B、L类型全部手势共105个；HGR2B子库中A、B、H、L类型的全部手势共72个；HGR-2A因无适用手型而未选用。

实验结果：正确率97％(个别异常手势判定失败，预测效果如图9所示)。

②Jochen Triesch Static Hand Posture Database-I

该数据库共含有10种手势(a,b,c,d,g,h,i,l,v,y),其中24名演示者,3组背景(纯白背景,纯黑背景,复杂背景)，共718个手势图像。该数据库图像符合要求无需裁减，选择其中a、h、l、y四个与原手势库中手势相同类型中的全部手势(一共287图像)，进行测试。特别说明，因该库为灰度图像，为此相应的在原手势库训练前也进行了进行灰度化，用RGB三通道均值代替三通道数值，并禁用肤色归一化，其他设定完全不变。

实验结果：最终分类正确率达96％，预测效果如图10所示：

c、实际场景随机测试

生活场景随机拍摄了18张手势图片，最终判定全部正确，如图11所示。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种基于神经网络的手势识别方法，其特征是：包括以下步骤：

采集手势图像数据并逐一制作分割标签，构建训练样本库；

构建FCN模型，使用增强后的训练样本库训练FCN模型；

使用训练后的FCN模型对采集样本进行预测，产生预测值；

2.如权利要求1所述的一种基于神经网络的手势识别方法，其特征是：在产生预测值和使用FCN分类提升之间，还包括步骤：使用基于肤色归一化的二次预测，改善FCN预测效果。

3.如权利要求1所述的一种基于神经网络的手势识别方法，其特征是：对训练样本进行数据增强的过程具体包括：

(i)根据训练需求，设定扩增倍率，记为N_k；

(iii)在设定的角度范围内随机获得N_k个旋转角度，依据获得的旋转角度，分别生成N_k个旋转子矩阵；

(iv)在设定的取值范围内随机获得N_k组切变量，依据获得的切变量，分别生成N_k个切变矩阵；

(v)对每一个样本都重新生成N_k个缩放子矩阵、N_k个旋转子矩阵和N_k个切变子矩阵，并合成N_k个仿射变换矩阵，使用N_k个仿射变换矩阵对当前样本进行N_k次仿射变换，得到N_k组不同的结果；

(vi)对经仿射变换后的部分图像进行手部肤色的扩增；

(vii)对背景进行替换。

4.如权利要求3所述的一种基于神经网络的手势识别方法，其特征是：所述步骤(vi)中，在每个手势图像经仿射变换后的N_k个变换图像中，随机选择个图像，通过对手部像素添加整体的色偏，将手部像素肤色CrCb均值分别调整至设定的经典值，完成肤色扩增。

5.如权利要求3所述的一种基于神经网络的手势识别方法，其特征是：所述步骤(vii)中，针对每次扩增，随机选取一张背景，随机位置剪裁和图像大小相等的各个区域作为扩增数据背景，对于每个手势图像，需要重复执行N_k次取得N_k个背景，分别提供给N_k个仿射变换图像，将所述仿射变换图像和肤色扩增后的图像进行融合，依据标签计算手部像素所在区域的长和宽，随机在背景中选取大小相等的区域，在该区域中替换手部像素，完成手部嵌入。

6.如权利要求1所述的一种基于神经网络的手势识别方法，其特征是：构建FCN网络模型时，使用含有三级跳跃支路的FCN-4S模型，并按预先优化的配置进行网络结构的设定。

7.如权利要求2所述的一种基于神经网络的手势识别方法，其特征是：使用基于肤色归一化的二次预测，改善FCN预测效果，具体过程包括：

结合分割标签，将训练集所有样本手部像素的YcrCb色域的均值作为标准肤色，记为Clr₀，利用最大能量区获取算法由FCN预测值计算最大能量区，提取当前样本图像中最大能量区命中的像素并进行肤色安全过滤，对通过过滤的像素统计YcrCb颜色空间的均值，记为Clr_j，计算色差ΔClr＝Clr₀-Clr_j；并对当前图像全部像素的YcrCb值都加上ΔClr完成肤色归一化，对归一化之后的图像使用FCN模型再次进行预测，重新产生预测值。

8.如权利要求1所述的一种基于神经网络的手势识别方法，其特征是：FCN预测值分类信息提取的具体过程包括：

(ii)将预测值中像素数量最多的类型作为分类信息判定结果；

(iii)依据分类评价标准，对预测值进行分类质量评价。

9.如权利要求1所述的一种基于神经网络的手势识别方法，其特征是：FCN预测值分割信息提取的具体过程包括：

(i)设计并训练用于二值手势形状分类的CNN模型；

(ii)将FCN预测结果二值化后，进行形态滤波；

10.如权利要求9所述的一种基于神经网络的手势识别方法，其特征是：CNN模型的训练具体过程是：

11.如权利要求1所述的一种基于神经网络的手势识别方法，其特征是：FCN预测值中的分类信息和分割信息的综合判定标准为：

表中综合判定标准中的数值根据具体情况适当调整。

12.一种基于神经网络的手势识别系统，其特征是：运行于处理器或存储器上，被配置为执行以下指令：

采集手势图像数据并逐一制作分割标签，构建训练样本库；

构建FCN模型，使用增强后的训练样本库训练FCN模型；

使用训练后的FCN模型对采集样本进行预测，产生预测值；