CN111695507B

CN111695507B - 一种基于改进VGGNet网络和PCA的静态手势识别方法

Info

Publication number: CN111695507B
Application number: CN202010532751.3A
Authority: CN
Inventors: 谢武; 贾清玉; 刘满意; 强保华; 崔梦银; 瞿元昊
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2022-08-16
Anticipated expiration: 2040-06-12
Also published as: CN111695507A

Abstract

本发明公开了一种基于改进VGGNet网络的静态手势识别方法，该方法将VGGNet网络进行改进，使用不同的分支来学习标签信息，同时在网络中引入哈希层将手势图像的特征投影到汉明空间，通过计算汉明距离来提高处理手势的效率。将改进后的VGGNet网络和传统的主成分分析方法相结合来进行手势识别，首先将原始数据集和增强后的数据集作为输入数据对VGGNet网络进行训练，得到手势图像的高维特征，然后通过主成分分析法PCA将高维图像特征进行降维，减小特征向量长度，缩短图像之间的相似性度量的计算时间，从而提高提高手势识别的精度和效率。

Description

一种基于改进VGGNet网络和PCA的静态手势识别方法

技术领域

本发明涉及一种静态手势识别方法，具体是一种基于改进VGGNet网络和PCA的静态手势识别方法。

背景技术

20世纪90年代，为了解决人工标注方式存在的问题，研究人员开始将特征提取的目光转向图像内容的本身，于是一系列基于内容的图像识别方法开始被提出并广泛应用。为了准确的描述图像的特征，早期的CBIR技术大多数使用全局视觉特征来进行图像的描述。这种特征描述方式比较简洁，使用者可以很方便高效的进行图像检索。但是，由于这种方法提取的是图像低层视觉特征，当遇到外界因素的干扰，如光照强度、遮挡、形变等恶劣条件时，此时无法准确提取到图像的有效特征。近年来，随着CNN在计算机视觉领域获得巨大成功，基于深度学习的图像特征提取方法开始流行起来。

手势识别作为人机交互的一种重要的方式，随着科技的发展已经开始步入人类的生活并且在一些特殊的场合达到了比人类与机器通过键盘鼠标交互更好的效果，大大方便了人类的生活，提升了生活质量。目前人类已经步入大数据时代，传统的手势识别方法在面对海量以及各种外界条件影响的状态下识别往往不尽人意。

发明内容

本发明的目的是为了提高手势识别的精度和效率，而提供一种基于改进VGGNet网络和PCA的静态手势识别方法。

实现本发明目的的技术方案是：

一种基于改进VGGNet网络和PCA的静态手势识别方法，包括如下步骤：

(1)输入原始图像I(x,y)；

(2)预估出每个位置的噪声，并剔除；假设人眼看到的图像I是图像光照分量L和反射率分量R的乘积，具体表示如公式1所示：

I(x，y)＝R(x，y)·L(x，y) (1)

(3)分离三个颜色通道空间分量并转化到对数域；从所拍摄的图片I中合理计算出光照L，保留住物体的固有属性R，并对公式1两边取对数，然后令i(x,y)＝log(I(x,y))，r(x,y)＝log(R(x,y))，l(x,y)＝log(L(x,y))可得到公式2：

i(x,y)＝r(x,y)+l(x,y) (2)

(4)设置高斯函数尺度的个数及大小；

(5)高斯函数对图像的三个通道进行滤波，滤波后的图像就是光照分量，获取图像r(x,y)；反射分量计算公式如下：

r_i(x,y)＝i_i(x,y)-i_i(x,y)*G(x,y) (3)

其中，i_i(x,y)表示第i个通道的原始图像，G(x,y)为高斯滤波函数，r_i(x,y)表示第i个通道的反射分量，*代表卷积，σ为尺度参数；

(6)采用多尺度的Retinex算法对手势图像进行数据增强；

(7)构建基于VGGNet网络结构：采用VGGNet16网络模型进行训练，对VGGNet16进行网络结构定义及初始化，设置学习率lr、批大小batch和迭代轮次epochs等；

(8)训练模型：模型的训练和验证交替进行；

(9)将步骤(8)训练好的手势模型最后一个FC层提取到的特征作为图像的特征表示参与手势图像检索任务；

(10)将步骤(9)训练好的VGGNet模型网络进行改进，模型的输入为手势图像和类别标签，类别标签作为监督信息学习图像特征，每个分支学习不同的标签信息，经过全连接层将之前两个分支学习到的特征进行融合，得到非线性组合特征，然后经过哈希层得到低维度的哈希特征，再经过哈希层得到二进制哈希吗，最后将二进制哈希码作为特征向量来进行手势识别；

(11)将经改进后VGGNet模型处理后的手势数据利用主成分分析算法(PCA)进行降维；将图像的高维特征经过矩阵变换压缩为一个较短长度的向量，即Y＝W^TX，其中X为图像的高维特征，W是压缩矩阵，其计算过程满足使样本点经过W压缩后具有最大的方差，Y是压缩后的图像的低维表示；

(12)使用PCA算法对4096维特征向量进行压缩，得到不同维度的手势图像特征数据库；

(13)使用欧式距离与特征数据库中的所有特征进行相似度度量，并按照相似度大小返回该手势识别的结果。

步骤(6)所述多尺度的Retinex算法的过程如下：

1)对于一张手势图像，采用多种尺度的高斯滤波函数，对图像的三个通道进行滤波，对每个尺度的反射分量取加权平均，得到最终输出结果，可以将3的公式变为：

其中，G_k(x,y)代表第k个高斯滤波函数，N表示高斯滤波函数的数量，通过实验发现当N＝3时，手势图像数据增强的效果最好；w_k是第k个尺度的权重，N个高斯滤波函数所占比例满足约束条件：

2)把r(x,y)从对数域转换到实数域得到R(x,y)；

3)对R(x,y)进行线性矫正处理(因为R(x,y)的范围不在0～255的范围内)，矫正后得到已增强的手势图像。

步骤(10)所述VGGNet模型包含6个卷积层和两个全连接层，网络最后一个全连接层“fc7”输出的维度2048；改进后的网络结构包括两个分支，分别是主干分支和辅助分支；在两个分支2048维的全连接层之后进行了两个关键操作：

一个是特征拼接操作，融合主干分支和辅助分支2048维的全连接层；

另一是在网络的倒数第二层加入一个隐藏层(哈希层)将其特征向量映射为哈希编码，最后接入softmax分类器中。

步骤(11)所述主成分分析算法(PCA)的计算过程如下：

1)输入m个数据D＝(x₁,x₂,...x_m)，x_i＝(x_i1,x_i2,...x_id)，i＝1,2,3...,m，d表示维度；

2)将每个样本作为一个列向量，构建样本矩阵；

3)样本矩阵的每一维减去对应元素平均值得到X：

4)求协方差：XX^T；

5)求XX^T的特征值和特征向量；

6)取特征值降序排列的前k值，将它们相应的特征向量组合成投影矩阵W；

7)将数据X经过投影矩阵W进行降维，就得到降维后的数据Y，Y＝W^TX。

本发明的有益效果是：将VGGNet网络进行改进，使用不同的分支来学习标签信息，同时在网络中引入哈希层将手势图像的特征投影到汉明空间，通过计算汉明距离来提高处理手势的效率；将改进后的VGGNet网络和传统的主成分分析方法相结合来进行手势识别，首先将原始数据集和增强后的数据集作为输入数据对VGGNet网络进行训练，得到手势图像的高维特征，然后通过主成分分析法PCA将高维图像特征进行降维，减小特征向量长度，缩短图像之间的相似性度量的计算时间，从而提高提高手势识别的精度和效率。

附图说明

图1为本发明实施例改进的VGGNet网络流程图；

图2为本发明实施例的方法流程图。

具体实施方式

下面结合附图和实施例对本发明作进一步的阐述。

实施例：

本发明一种基于改进VGGNet网络和PCA的静态手势识别方法，是：

1.将Kinect相机架设与人的正前方1m-2m处；

2.启动相机，设置扫描时间间隔为一秒扫描10次，即一秒内，相机获取人体手部信息图像为10份；

3.训练手势图像模型。对传统的VGGNet网络进行改进，并且引入哈希层，保证准确率的前提下提高手势识别的效率。具体过程如下：

(1)输入原始图像I(x,y)；

(2)预估出每个位置的噪声，并剔除。假设人眼看到的图像I是图像光照分量L和反射率分量R的乘积，具体表示如公式1所示：

I(x，y)＝R(x，y)·L(x，y) (1)

(3)分离三个颜色通道空间分量并转化到对数域。从所拍摄的图片I中合理计算出光照L，从而保留住物体的固有属性R，消除光照分布不均的干扰，以提高图像的感官效果。为了方便计算，同时对公式1两边取对数，然后令i(x,y)＝log(I(x,y))，r(x,y)＝log(R(x,y))，l(x,y)＝log(L(x,y))可得到公式2：

i(x,y)＝r(x,y)+l(x,y) (2)

反射分量的计算过程如图2所示。

(4)设置高斯函数尺度的个数及大小；

(5)高斯函数对图像的三个通道进行滤波，滤波后的图像就是光照分量，获取图像r(x,y)。反射分量计算公式如下。

r_i(x,y)＝i_i(x,y)-i_i(x,y)*G(x,y) (3)

其中，i_i(x,y)表示第i个通道的原始图像，G(x,y)为高斯滤波函数，r_i(x,y)表示第i个通道的反射分量，*代表卷积，σ为尺度参数。

(6)采用多尺度的Retinex算法对手势图像进行数据增强，算法的具体过程如下：对于一张手势图像，采用多种尺度的高斯滤波函数，对图像的三个通道进行滤波，对每个尺度的反射分量取加权平均，得到最终输出结果，可以将3的公式变为：

其中，G_k(x,y)代表第k个高斯滤波函数，N表示高斯滤波函数的数量，通过实验发现当N＝3时，手势图像数据增强的效果最好。w_k是第k个尺度的权重，N个高斯滤波函数所占比例满足约束条件：

(7)把r(x,y)从对数域转换到实数域得到R(x,y)

(8)对R(x,y)进行线性矫正处理(因为R(x,y)的范围不在0～255的范围内)，矫正后得到已增强的手势图像。

(9)构建基于VGGNet网络结构：采用VGGNet16网络模型进行训练，对VGGNet16进行网络结构定义及初始化，设置学习率lr，批大小batch，迭代轮次epochs等；

(10)训练模型：模型的训练和验证交替进行；

(11)将步骤(10)训练好的手势模型最后一个FC层提取到的特征作为图像的特征表示参与手势图像检索任务；

(12)将步骤(10)训练好的VGGNet模型网络进行改进。改进后的多分支网络结构网络模型如图1所示。模型的输入为手势图像和类别标签，类别标签作为监督信息学习图像特征，每个分支学习不同的标签信息，经过全连接层将之前两个分支学习到的特征进行融合，得到非线性组合特征，然后经过哈希层将得到低维度的哈希特征，再经过哈希层得到二进制哈希吗，最后将二进制哈希码作为特征向量来进行手势识别。模型包含6个卷积层和两个全连接层。网络最后一个全连接层“fc7”输出的维度2048。改进后的网络结构包括两个分支，分别是主干分支和辅助分支。在两个分支2048维的全连接层之后进行了两个关键操作，一个是特征拼接操作，融合主干分支和辅助分支2048维的全连接层，另一是在网络的倒数第二层加入一个隐藏层(哈希层)将其特征向量映射为哈希编码，最后接入softmax分类器中。

5.将步骤4经改进后VGGNet模型处理后的手势数据利用主成分分析算法(PCA)进行降维。算法的原理是将图像的高维特征经过矩阵变换压缩为一个较短长度的向量，也即Y＝W^TX，其中X为图像的高维特征，W是压缩矩阵(也称为投影矩阵)，其计算过程满足使样本点经过W压缩后具有最大的方差，Y是压缩后的图像的低维表示。PCA算法计算过程下所示：

(1)输入m个数据D＝(x₁,x₂,...x_m)，x_i＝(x_i1,x_i2,...x_id)，i＝1,2,3...,m，d表示维度；

(2)将每个样本作为一个列向量，构建样本矩阵；

(3)样本矩阵的每一维减去对应元素平均值得到X：

(4)求协方差：XX^T；

(5)求XX^T的特征值和特征向量；

(6)取特征值降序排列的前k值，将它们相应的特征向量组合成投影矩阵W；

(7)将数据X经过投影矩阵W进行降维，就得到降维后的数据Y，Y＝W^TX。

6.使用PCA算法对4096维特征向量进行压缩，得到不同维度的手势图像特征数据库。

7.在Kinect相机捕捉到手势信息后，使用欧式距离与特征数据库中的所有特征进行相似度度量，并按照相似度大小返回该手势识别的结果。

Claims

1.一种基于改进VGGNet网络和PCA的静态手势识别方法，其特征是：包括如下步骤：

(1)输入原始图像I(x,y)；

(2)预估出每个位置的噪声，并剔除；假设人眼看到的原始图像I(x,y)是图像光照分量L和反射率分量R的乘积，如公式(1)所示：

I(x，y)＝R(x，y)·L(x，y) (1)

(3)分离三个颜色通道空间分量并转化到对数域；从所拍摄的图片I(x,y)中计算出图像光照分量L，保留住物体的固有属性，并对公式(1)两边取对数，然后令i(x,y)＝log(I(x,y))，r(x,y)＝log(R(x,y))，l(x,y)＝log(L(x,y))得到公式2：

i(x,y)＝r(x,y)+l(x,y) (2)

(4)设置高斯函数尺度的个数及大小；

(5)高斯函数对原始图像I(x,y)的三个通道进行滤波，滤波后的图像就是光照分量，反射分量计算公式如下：

r_i(x,y)＝i_i(x,y)-i_i(x,y)*G(x,y) (3)

(6)采用多尺度的Retinex算法对手势图像进行数据增强；

(7)构建基于VGGNet网络结构：采用VGGNet16网络模型进行训练，对VGGNet16进行网络结构定义及初始化，设置学习率lr、批大小batch和迭代轮次epochs；

(8)训练模型：模型的训练和验证交替进行；

(10)将步骤(9)训练好的VGGNet模型网络进行改进，模型的输入为手势图像和类别标签，类别标签作为监督信息学习图像特征，每个分支学习不同的标签信息，经过全连接层将主干分支和辅助分支学习到的特征进行融合，得到非线性组合特征，然后经过哈希层得到低维度的哈希特征，再经过哈希层得到二进制哈希码，最后将二进制哈希码作为特征向量来进行手势识别；

(11)将经改进后VGGNet模型处理后的手势数据利用主成分分析算法进行降维；将图像的高维特征经过矩阵变换压缩为一个较短长度的向量，即Y＝W^TX，其中X为图像的高维特征，W是压缩矩阵，其计算过程满足使样本点经过W压缩后具有最大的方差，Y是压缩后的图像的低维表示；

(12)使用主成分分析算法对4096维特征向量进行压缩，得到不同维度的手势图像特征数据库；

(13)在Kinect相机捕捉到手势信息后，使用欧式距离与特征数据库中的所有特征进行相似度度量，并按照相似度大小返回该手势识别的结果。

2.根据权利要求1所述的静态手势识别方法，其特征是：所述多尺度的Retinex算法的过程如下：

1)对一张手势图像，采用多种尺度的高斯滤波函数，对图像的三个通道进行滤波，对每个尺度的反射分量取加权平均，得到最终输出结果，可以将公式(3)变为：

其中，G_k(x,y)代表第k个高斯滤波函数，N表示高斯滤波函数的数量，w_k是第k个尺度的权重，N个高斯滤波函数所占比例满足约束条件：

2)把r(x,y)从对数域转换到实数域得到R(x,y)；

3)对R(x,y)进行线性矫正处理，矫正后得到已增强的手势图像。

3.根据权利要求1所述的静态手势识别方法，其特征是：步骤(10)所述VGGNet模型包含6个卷积层和两个全连接层，网络最后一个全连接层输出的维度2048；改进后的网络结构包括两个分支，分别是主干分支和辅助分支；在两个分支2048维的全连接层之后进行了两个关键操作：

另一是在网络的倒数第二层加入一个隐藏层将其特征向量映射为哈希编码，最后接入softmax分类器中。

4.根据权利要求1所述的静态手势识别方法，其特征是：步骤(11)所述主成分分析算法(PCA)的计算过程如下：

2)将每个样本作为一个列向量，构建样本矩阵；

3)样本矩阵的每一维减去对应元素平均值得到X：

4)求协方差：XX^T；

5)求XX^T的特征值和特征向量；

6)取特征值降序排列的前k值，将它们相应的特征向量组合成压缩矩阵W；

7)将数据X经过压缩矩阵W进行降维，就得到降维后的数据Y，Y＝W^TX。