CN111160194A

CN111160194A - 一种基于多特征融合的静态手势图像识别方法

Info

Publication number: CN111160194A
Application number: CN201911336419.3A
Authority: CN
Inventors: 田秋红; 包嘉欣; 杨慧敏; 陈影柔
Original assignee: Zhejiang Sci Tech University ZSTU
Current assignee: Zhejiang Sci Tech University ZSTU
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2020-05-15
Anticipated expiration: 2039-12-23
Also published as: CN111160194B

Abstract

本发明公开了一种基于多特征融合的静态手势图像识别方法。利用综合多要素的图像处理方法对原始的手势图像进行分割，然后对分割后的手势图像进行局部特征提取，局部特征包含Gabor特征、HOG特征和Hu矩特征；将原始的手势图像转换成灰度图像，然后构建了一个双通道卷积神经网络分别提取手势图像的特征，将提取的特征进行求和作为深层次特征；将手势图像的局部特征和深层次特征进行融合，获得融合特征；将融合特征输入到分类器中分类获得不同类别的概率，以最大概率的类别作为手势图像中的手势类别识别结果。本发明提出的方式能够解决复杂背景下的26种手势字母的识别问题，且获得了较高的识别率。

Description

一种基于多特征融合的静态手势图像识别方法

技术领域

本发明涉及一种手势图像识别方法，尤其是涉及一种基于多特征融合的手势图像识别方法。

背景技术

随着计算机技术的不断发展和互联网的快速推进，人机交互研究重点与热点已经逐渐转向基于计算机视觉的手势识别技术。传统的手势识别方法是依靠人工设计复杂的特征提取算法进行图像的特征提取，该方法对手势图像的采集设备、背景及人的手势动作要求都很高。卷积神经网络由于其强大的特征提取能力，被广泛用于手势图像特征提取方面。基于卷积神经网络的图像特征提取可以直接将整张图像作为输入，输入图像经过网络内部的层层卷积实现深层次特征提取，提取的特征能够更全面地描述手势图像的信息。但是基于单一卷积神经网络的特征提取方法可能存在手势图像特征遗漏问题，且该方法只能提取手势图像的深层次特征，忽略了低层次特征(局部特征)在手势识别中的作用。为了解决以上问题，本发明提出了基于多特征融合的静态手势识别方法。

发明内容

针对人工提取特征的单一性及卷积神经网络提取特征的遗漏性问题，本发明提出了一种基于多特征融合的静态手势图像识别方法，能够解决复杂背景下的26种手势字母的识别问题，且获得了较高的识别率。

本发明解决其技术问题所采用的技术方案步骤如下：

1)利用综合多要素的图像处理方法对原始的手势图像进行分割，然后对分割后的手势图像进行局部特征提取，局部特征包含Gabor特征、HOG特征和Hu矩特征；

手势图像为人站立时人手在腰部或者胸部前比划手势时朝向人正面所拍摄的图像，为RGB图像，且人位于图像正中间，其中比划手势在图像左侧，即人手比较手势的手为右手。

具体实施在日常光照条件下用计算机摄像头进行拍摄，对拍摄图片的背景无要求，拍摄的图片中包含手语者的脖子以下及腰部以上区域。

2)将原始的手势图像转换成灰度图像，然后构建了一个双通道卷积神经网络分别提取手势图像的两个特征，将两个特征处理获得深层次特征；

本发明在提取手势图像的深层次特征时，多通道手势图像的RGB图像与单通道手势图像的灰度图像经过卷积神经网络处理后的差异较大，采用手势图像的灰度图像代替手势图像的RGB图像作为网络输入，降低了网络输入产生的参数量，但依然保持了准确的识别结果处理。

3)将手势图像的局部特征和深层次特征以求和方式进行融合，获得融合特征；

4)选择Softmax分类器作为手势图像识别的分类器，将融合特征输入到分类器中分类获得不同类别的概率，以最大概率的类别作为手势图像中的手势类别识别结果。

所述的步骤1)，具体步骤为：

1.1)所述输入的手势图像为RGB色彩空间，先对输入的手势图像进行转换到YCbCr色彩空间后进行肤色分割，通过线性转换从RGB色彩空间到YCbCr色彩空间转换，转换公式如下：

其中，Y、Cb、Cr分别表示YCbCr色彩空间的明亮度、蓝色色度、红色色度；

1.2)然后将手势图像进行聚类，聚类采用阈值分割法，分割获得手部区域与背景区域；

1.3)通过图像去噪，依次采用中值滤波和漫水填充对手势图像进行去噪处理，可以滤除无关信息，增强目标信息，增大图像的信噪比，提高图像质量；中值滤波选取奇数点邻域窗口对手势图像进行滤波，具体可采用3×3的窗口，将3×3的窗口内的9个像素值进行排序，然后将窗口中心点的像素值替换成排序后的第五个数值，滤波公式如下所示：

其中，f(x,y)为中值滤波前的手势图像的像素值，g(x,y)为中值滤波后的手势图像的像素值，med为中值运算符；

中值滤波后进行二值化，再采用漫水填充算法用颜色来实现连通区域的填充，通过设置可连通像素的上下限及连通方式来达到不同的填充效果，将前景的连通域内的零散点填充为前景；

1.4)本发明采用基于最大连通域和质心定位的方法实现手部区域的获取，手势图像中存在三个肤色区域及其他类肤色区域，利用最大连通域方法获得手势图像中的三个肤色区域，即分别为单独手臂区域、脖子区域、手-臂区域，利用质心定位获得手-臂区域，去除单独手臂区域和脖子区域；

1.5)提取手-臂区域的Gabor特征、HOG特征和Hu矩特征。

所述的步骤1.4)具体步骤如下：

1.4.1)手语图像中存在三个肤色区域(单独手臂区域、脖子区域和手-臂区域)及其他类肤色区域，手-臂区域包括手势区域和手臂区域，肤色聚类之后手语图像中会有多个肤色区域存在，采用面积算子滤波的方法进行处理，去除小的面积区域，保留面积最大的三个区域，分别记为第一面积最大区域maxArea、第二面积最大区域secArea、第三面积最大区域thiArea，将三个区域保留，剩余其他区域用黑色填充；

1.4.2)相比手臂区域、脖子区域，手-臂区域在手语图像的一侧，左侧或者右侧，计算三个区域的质心位置，计算质心前先使用OpenCV软件工具中的moments模块计算图像的零阶矩(m₀₀)和一阶矩(m₁₀、m₀₁)，m₁₀、m₀₁分别表示一阶矩的第一参数和第二参数，然后再采用以下公式计算：

其中，

分别表示质心的横坐标、质心的纵坐标；

计算获得三个肤色区域的质心位置后，取保留的三个肤色区域中质心坐标的横坐标

最小/最大的肤色区域作为手-臂区域，其余的单独手臂区域和脖子区域的两个区域根据位置确定。

所述步骤1.5)中，提取HOG特征的具体步骤如下：采用Gamma矫正法对肤色区域进行颜色空间的标准化，计算标准化之后的手势图像中每个像素的梯度，包括大小和方向，然后将肤色区域划分为若干个不重叠的子区域，子区域的尺寸为8像素×8像素，将四个子区域组成一个特征提取区间，提取每个子区域的HOG特征，然后将四个子区域的HOG特征串联作为特征提取区间的HOG特征，再将所有特征提取区间的HOG特征串联作为HOG特征向量。这样不仅能提取手势图像的轮廓信息，同时还能减少光照对手势图像的影响。

所述步骤2)中，双通道卷积神经网络采用VGG网络模型和AlexNet网络模型，手势图像的灰度图像分别输入到VGG网络模型和AlexNet网络模型中输出获得各自的特征，两个特征通过级联融合的方式进行连接作为深层次特征。

本发明具有的有益效果是：

(1)为了解决多肤色手势图像的分割问题，提出了一种综合多要素的手势图像分割方法。采用YCbCr颜色模型对手势图像进行初步分割。利用中值滤波和漫水填充对初分割后的手势图像进行去噪。利用基于最大连通域和质心位置的方法来排除背景中的类肤色区域及除手部区域以外的肤色区域，获得只包含手部区域的二值图像，用于后续手势图像的局部特征提取。

(2)对于单一卷积神经网络提取手势图像特征信息不充分的问题，提出了基于双通道卷积神经网络的手势特征提取方法。为了减少网络模型的计算量，将手势的灰度图像作为双通道卷积神经网络的输入，采用VGG网络和AlexNet网络分别对输入的图像进行深层次特征提取，利用主成分分析分别对两个卷积神经网络提取的深层次特征进行降维处理，将降维后的特征进行融合，用作分类器的输入训练手势图像识别模型。

(3)针对人工提取特征的单一性及卷积神经网络提取特征的遗漏性问题，提出了一种基于多特征融合的静态手势识别方法。对分割后的图像进行局部特征提取，包括Gabor特征、HOG特征和Hu矩特征。利用双通道卷积神经网络对手势灰度图像进行深层次特征提取，利用主成分分析分别对两个卷积神经网络提取的深层次特征分别进行降维处理，将降维后的特征进行融合。最后，利用级联方式对局部特征和融合后的深层次特征进行融合。采用Softmax分类器输入的特征进行识别。

本发明提出的方法解决了人工提取特征的单一性以及卷积神经网络提取特征的遗漏性问题，能够充分提取复杂背景下的手势图像特征信息，且对于26种手势图像的识别率较高。

附图说明

图1为本发明方法的流程图。

图2为本发明方法所用到的部分数据集。

图3为本发明实施例的肤色分割流程图。

图4为本发明实施例的原始手势图像和肤色聚类结果图。

图5为本发明实施例的中值滤波结果图。

图6为本发明实施例的空洞填充。

图7为本发明实施例的最大连通域和质心定位进行手部区域获取的流程图。

图8为本发明实施例的最大连通域和质心定位进行手部区域获取的结果图。

图9为本发明实施例的手势图像的Gabor特征提取示意图。

图10为本发明实施例的手势图像HOG特征提取示意图。

图11为本发明实施例的双通道卷积神经网络提取手势深层次特征示意图。

图12为本发明实施例的用于手势特征提取的VGG网络结构图。

图13为本发明实施例的用于手势特征提取的AlexNet网络结构图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

本发明方法的数据集如图2所示，由于本发明的识别对象是自定义的26类静态字母手势，所以本发明自建了静态手势数据集，数据集由30位手语者采集而成，对于每位手语者，每种手势采集50张手势图像，包括不同背景、不同方向、不同光照的手势图像，该数据集的手势图像总数为39000(＝30×50×26)张，图片大小为64×64。

如图1所示，本发明方法对输入的手势图像分别提取局部特征和深层次特征，然后利用求和方式将提取的手势图像局部特征和深层次特征进行融合，将融合之后的手势特征向量作为Softmax分类器的输入，训练手势图像分类模型，本发明方法的实施例如下：

1)本发明利用综合多要素的手势图像分割方法对手势图像进行分割，获得只包含手部区域的二值图像，然后对分割后的手势图像进行局部特征提取，包含Gabor特征、HOG特征和Hu矩特征。

1.1)本发明利用手势图像库中的130张手势图像进行YCbCr颜色空间中Cb与Cr随亮度变化的实验验证，当Y值在40-210之间时，Cr在110-165之间且Cb在77-135之间聚类效果较好；当Y值低于40时图像很暗，当Y值大于210是图像较亮，这两种情况进行肤色聚类时需要设置原像素值为0。肤色分割流程图如图3所示。肤色分割结果如图4(b)所示，肤色分割后的图像记为fuse。

1.2)通过图像去噪，可以滤除无关信息，增强目标信息，增大图像的信噪比，提高图像质量。

从图4(b)可以看出，肤色分割后的手势图像中存在大量的噪声点，且肤色边缘存在很多小白点，因此必须对图像进行滤波。本发明采用中值滤波对图像fuse进行滤波的结果图如图5(b)所示，中值滤波之后的图像记为filter。

从图5(b)可以看出，中值滤波去除了手势图像边缘的细小白点和噪声，但是对于手部区域的空洞，中值滤波并不能完全去除。本发明采用漫水填充算法填充手势图像中的空洞，对图像filter的空洞填充结果图如图6所示，图6(a)为二值化后的手势图像，图6(b)为空洞填充后的手势图像，空洞填充之后的图像记为filling。

1.3)由手势图像库可以看出本发明采集的复杂背景下的手势图像中包含有脖子，手臂等肤色区域，因此肤色聚类后的手势图像中存在除手势部分的其他肤色区域也是必然的。其存在严重影响到手势的特征提取，为此必须进行剔除。针对这种现象本发明采用基于最大连通域和质心位置的方法进行手部区域的确定，去除除手部区域以外的肤色区域，保证手部区域与背景准确的分离。基于最大连通域和质心定位的手部区域获取的流程图如图7所示。对图像filling的手部区域获取结果图如图8所示，图8(a)为空洞填充后的手势图像，图8(b)为最大连通域提取的手势图像，图8(c)为质心定位后的手势图像，质心定位后的手势图像记为hand。

计算手势图像中每个连通区域内的像素数目，并找出最大的三个连通区域，分别记为maxArea、secArea、thiArea，保留这三个区域，将其他连通区域的像素值设为0。

计算三个区域的质心坐标，比较三个区域质心坐标的x大小，保留质心坐标中的x最小的区域，将其他连通区域的像素值设为0。

1.4)分别提取手势图像hand的Gabor特征、HOG特征和Hu矩特征。

提取手势图像的Gabor特征：本实施例采用5个尺度和8个方向的Gabor滤波器组(μ∈(0,…,7),ν∈(0,…,4))对质心定位后的手势图像进行Gabor特征提取，这样能够获得多方向的Gabor特征。如图9所示，对手势图像hand进行5个尺度8个方向滤波后得到的Gabor特征。

提取手势图像HOG特征：本实施例的手势图像尺寸为64×64，手势HOG特征提取区间设为16×16，每8个像素选择一个特征区间选择，所以一张手势图像中总共包含49个特征提取区间，每个细胞单元产生的特征设为9。对质心定位后的手势灰度图像进行HOG特征提取，提取结果如图10所示。一幅手势图像的HOG特征维度为4×9×49＝1764。

提取手势图像Hu矩特征：提取质心定位后的hand图像的边缘，然后提取边缘的Hu矩特征。

2)本发明将手势RGB图像转换成灰度图像，然后构建了一个双通道卷积神经网络提取手势图像的深层次特征，将两个网络提取的特征进行求和融合。双通道卷积神经网络的模型如图11所示。

图11所示为本实施例构建的双通道卷积神经网络模型。该模型的特征提取部分包含两个卷积神经网络，分别是VGG网络模型和AlexNet网络模型，VGG网络和AlexNet网络的网络结构分别如图12、13所示。利用双通道卷积神经网络提取手势灰度图像的深层次特征，提取的深层次特征通过级联融合的方式进行连接，实现双通道提取的深层次特征融合。

3)本发明利用求和方式将手势图像的局部特征和深层次特征进行融合。

4)本发明选择Softmax分类器作为手势图像识别的分类器。分类器中将输入分别映射到(0,1)区间中，选择区间中最大的值作为最终的输出，即作为预测目标来进行图像分类识别。

由上述可知，本实例可实现复杂背景下的手势图像特征的充分提取，对26种手势图像的识别率较高。

上述具体实施方式用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明做出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种基于多特征融合的静态手势图像识别方法，其特征在于：该方法的步骤如下：

2.根据权利要求1所述的一种基于多特征融合的静态手势图像识别方法，其特征在于：所述的步骤1)，具体步骤为：

1.3)通过图像去噪，依次采用中值滤波和漫水填充对手势图像进行去噪处理；中值滤波选取奇数点邻域窗口对手势图像进行滤波，滤波公式如下所示：

中值滤波后进行二值化，再采用漫水填充算法用颜色来实现连通区域的填充；

1.5)提取手-臂区域的Gabor特征、HOG特征和Hu矩特征。

3.根据权利要求2所述的一种基于多特征融合的静态手势图像识别方法，其特征在于：所述的步骤1.4)具体步骤如下：

1.4.2)相比手臂区域、脖子区域，手-臂区域在手语图像的一侧，计算三个区域的质心位置，计算质心前先使用OpenCV软件工具中的moments模块计算图像的零阶矩(m₀₀)和一阶矩(m₁₀、m₀₁)，m₁₀、m₀₁分别表示一阶矩的第一参数和第二参数，然后再采用以下公式计算：

其中，

分别表示质心的横坐标、质心的纵坐标；

4.根据权利要求1所述的一种基于多特征融合的静态手势图像识别方法，其特征在于：所述步骤1.5)中，提取HOG特征的具体步骤如下：采用Gamma矫正法对肤色区域进行颜色空间的标准化，计算标准化之后的手势图像中每个像素的梯度，包括大小和方向，然后将肤色区域划分为若干个不重叠的子区域，子区域的尺寸为8像素×8像素，将四个子区域组成一个特征提取区间，提取每个子区域的HOG特征，然后将四个子区域的HOG特征串联作为特征提取区间的HOG特征，再将所有特征提取区间的HOG特征串联作为HOG特征向量。

5.根据权利要求1所述的一种基于多特征融合的静态手势图像识别方法，其特征在于：所述步骤2)中，双通道卷积神经网络采用VGG网络模型和AlexNet网络模型，手势图像的灰度图像分别输入到VGG网络模型和AlexNet网络模型中输出获得各自的特征，两个特征通过级联融合的方式进行连接作为深层次特征。