CN104361313A

CN104361313A - 一种基于多核学习异构特征融合的手势识别方法

Info

Publication number: CN104361313A
Application number: CN201410550307.9A
Authority: CN
Inventors: 曹江涛; 余思泉; 李平
Original assignee: Liaoning Shihua University
Current assignee: Liaoning Shihua University
Priority date: 2014-10-16
Filing date: 2014-10-16
Publication date: 2015-02-18
Anticipated expiration: 2034-10-16
Also published as: CN104361313B

Abstract

本发明涉及一种基于多核学习融合异构特征的手势识别方法，包括以下步骤：对手势图像进行手势分割，提取分割后手势图像的三种不同类型的特征，生成特征描述子，利用支持向量机的核函数生成三种特征的基础核，根据核函数的相关理论将三种基础核加权融合为融合核，利用多核学习算法计算基础核的最佳融合权值和支持向量机的分类模型。通过求取的融合核，利用训练好的支持向量机模型判别未知类别的手势的所属类别，实现手势识别。本发明将核函数理论与多核学习算法相结合，实现了图像异构特征的融合，增加了支持向量机用于手势识别的泛化能力，提高了识别多类手势的识别率。

Description

一种基于多核学习异构特征融合的手势识别方法

技术领域

本发明属于图像处理与模式识别领域，具体涉及一种基于多核学习异构特征融合的手势识别方法。

背景技术

以和谐、自然为主题的人机交互方式已经成为未来人机交互技术的发展趋势。这样的技术已经成为当今世界的热点研究问题。手势识别是一种新型的人机交互技术，基于计算机视觉的静态手势识别系统具有自然、直观、易于学习等优点。静态手势识别主要有以下几方面应用①虚拟环境的交互②手语识别③机器人机械手的抓取。所以，设计简单、高效、易于实现的手势识别系统已经成为图像处理与模式识别领域研究者的研究热点。

支持向量机是一种成熟的模式识别算法，在手势识别问题中得到了很好的应用。该技术应用到手势识别的主要问题为：

(1)利用特征包特征和支持向量机进行手势识别，该算法的主要缺点是单一特征不能完整地描述手势图像特征。在形成图像特征的过程中，丢失了全局特征。最终造成识别率的不稳定性。

(2)采用Hu矩和支持向量机的手势识别。该方法同样因为特征单一而具有一定的局限性，对于相关参数的选择要求苛刻。这种方法的系统稳定性较差。

(3)采用多个摄像头采集图像不同角度的特征，建立多个支持向量机，然后用投票的方式识别手势。这种方法的主要缺点是随着识别种类增加，识别率会明显降低，不利于多类手势识别。而且系统比较繁琐，参数过多，不易实现。

此外，在选择支持向量机核函数时，没有一种统一的方法选择核函数，大都采用经验法。这就导致核函数以及核函数参数的选择对识别结果有很大影响。所以，基于单一核函数的支持向量机分类算法很难满足复杂分类问题的需要,尤其对于多源异构数据分类问题,单核算法更是显得力不从心。寻找一种算法，融合特征和核函数，从而提高支持向量机的泛化能力，已经成为支持向量静态手势识别的研究重点。

发明内容

为了克服上述现有技术存在的不足，本发明设计了一种基于图像特征融合与多核支持向量机的手势识别方法；解决了现有技术中手势识别的识别率低问题。

本发明解决其技术问题所采用的技术方案包括以下步骤：

步骤1，在带有手势的图像中进行手势分割；

步骤2，对定位后的手势图像进行特征提取；

步骤3，利用提取的特征构建基础核并加权融合基础核；

步骤4，利用多核学习算法训练支持向量机，得到最优融合权值和支持向量机最优分类超平面；通过构建未知类别的手势图像的融合核和训练好的支持向量机判别手势所属类别，实现手势识别。

本发明具有以下有益效果及优点：

1.本发明通过提取图像的点特征，线特征和面特征，能够更加充分、准确、全面地描述手势图像特征，总体方法能够提高多类相似手势的识别率。

2.本发明通过建立基础核，将三种异构特征统一为相同的结构。利用核函数理论将三种特征加权融合为融合核。该融合核同时具备三种特征的优点。

3.本发明设计了一种多核学习算法解决融合核权值的求解问题。同时，得到了支持向量机的最优分类超平面，即支持向量机模型。提高了支持向量机的泛化能力。显著提高了手势识别的识别率。

附图说明

图1为本发明的算法流程图。

图2a为形状上下文提取手势图像特征示意图。

图2b为形状上下文提取手势图像特征描述子示意图。

图3a为多核学习算法训练示意图。

图3b为多核学习算法识别示意图。

具体实施方式

下面结合实例对本发明做进一步的详细说明。

本发明主要包括手势分割、手势图像特征提取、基础核的构造与融合、多核支持向量机的训练与识别四个部分。图1为本发明算法的系统流程图，具体步骤如下：

一.手势分割

1.通过摄像头拍摄手势图像，收集不同人的不同手势若干张图像训练图像集，预先设置训练集中各类手势的含义。

2.手势分割：对拍摄的所有手势图像进行分割处理。首先，对图像进行光照补偿处理。然后，采用设定HSV颜色空间阈值的方法分割手势区域。分割后的手势图像背景为黑色人手部分为彩色。最后，将图像的灰度化，以便后续特征提取。

二.手势图像特征提取

3.本发明提取图像的形状上下文特征、梯度方向直方图特征和特征包特征，这三种特征分别代表了图像的点特征、线特征和面特征。描述这三种特征的特征向量维数各不相同，是异构特征。

三.基础核的构造和融合

4.构造基础核具体方法是：利用Chamfer构造形状上下文特征的基础核，这个基础核的意义是描述了两幅图像特征向量之间的距离。利用直方图相交核构造梯度方向直方图和特征包特征的基础核。这个基础核的意义是描述两张图像特征向量的相交程度。这样，构造的三个基础核具有了相同的维数。依据支持向量机核函数的理论，将金字塔方向直方图特征在不同层金字塔上构造的基础核加权求和，得到特征内的融合核。然后，再将不同类型的特征的基础核加权求和。得到三种特征的融合核，实现图像异构特征的融合。

四.多核支持向量机的训练与手势识别

5.多核支持向量机的训练：用构造的最终的融合核训练支持向量机，本发明提出了一种多核学习算法，利用传统的支持向量机理论，将融合核看成一个核函数训练支持向量机。并运用最优化的理论，将支持向量机的问题转化为求取一个最小最大最优化问题。同时求出了最优融合权值和最优分类超平面。

6.手势识别：经过步骤1、2、3、4和5中求得的最优融合权值生成输入手势图像的融合核。

7.利用步骤5得到的最优分类超平面判别步骤6得到的手势融合核所属的手势类别，得到识别结果。

本发明具体包括以下步骤：

(1)手势分割，找到手势在图像中的位置。本发明采用Logitech摄像头采集彩色RGB图像，图像像素为176×144。拍摄背景无类似肤色区域，被采集人需要穿着与肤色有明显颜色差异的长袖上衣，目的是防止手臂对分割带来影响。首先，对采集的图像进行光照补偿预处理，使得后续分割处理对光照有一定的抗干扰能力。然后，将手势图像转化到HSV颜色空间，即色调(H)，饱和度(S)，亮度(V)。因为人手肤色在HSV颜色空间具有聚类特性。本发明设定阈值为色调的范围为[0,20]，饱和度的范围为[30,150]，亮度的范围为[80,225]，对人手区域进行粗分割。然后，对粗分割后的手势图像进行平滑、去噪、填充空洞等细分割处理，并检测图像中物体的边缘。最后，通过寻找图像中较大的轮廓区域找到手的精确位置并分割人手区域，使得图片中背景为黑色，人手区域为肤色。将图像灰度化，目的在于有利于特征提取算法生成特征向量。

(2)手势图像特征提取与描述。说明了三种手势图像特征提取过程。各手势特征的生成具体过程如下：

(2.1)形状上下文特征：形状上下文特征是由Belongie等人于2002年首先提出的。算法的基本思想是利用物体形状的采样点描述物体的形状信息，生成特征描述符。该描述符是一个描述轮廓中的特定点与其他点之间关系的描述符。本发明在表示形状时，首先会在形状的轮廓上生成230个采样点；建立5×12的极坐标图，对其中每一个采样点利用其周围采样点的分布信息生成一个向量，来表示这个点的描述符。将所有采样点用上述方法生成各自的描述符，组合在一起便是这个形状上下文特征，为230个60维的向量。图2为手势图像的形状上下文特征。

(2.2)梯度方向直方图特征：梯度方向直方图特征是一种形状描述子，它通过计算和统计图像局部区域的梯度方向直方图来描述图像特征。梯度方向直方图特征结合支持向量机已经被广泛应用于图像识别中，尤其在行人检测中获得了极大的成功。本发明提取梯度方向直方图特征提取算法分为以下三个步骤①统计图像的边缘信息。利用Canny边界检测方法提取图像中物体的边缘。②将图像分成若干个像素为16×16的小块，计算每个小块中的梯度。

m (x, y) = \sqrt{{(H (x + 1, y) - H (x - 1, y))}^{2} + {(H (x, y + 1) - H (x, y - 1))}^{2}}

θ (x, y) = \arctan \frac{H (x, y + 1) - H (x, y - 1)}{H (x + 1, y) - H (x - 1, y)}

其中，m(x,y)为梯度幅值，θ(x,y)为梯度相角，H(x,y)为(x,y)的像素值。

③建立分块数为8的极坐标，统计图像的梯度直方图，并用直方图作为描述图像特征的描述子。所以，描述图像的特征向量维数为8维的特征向量。本发明通过建立图像金字塔表征图像的特征点的分布特性，金字塔的分块数为第一层为64块，第二层为16块，第三层为4块，第四层为整张图像。描述每层图像金字塔的特征向量分别为512，128，32和8维。这些特征是不同结构的异构特征，本发明利用建立基础核的方法统一维数，并将它们的基础核融合。融合方法将会在步骤(3)中详细说明。

(2.3)特征包特征：特征包算法首先将图像分成若干个像素为16×16的小块，然后在每个小块上生成尺度不变特征变换描述子，本发明利用K-means算法改进传统的特征包算法的尺度不变特征变换描述子的聚类问题。K-means++算法用一种距离最大化的原则选取初始聚类中心，改进了K-means随机选取聚类中心的缺点，提高了算法的稳定性。聚类数目K＝150，即生成150个视觉词汇的视觉码书。将图像中的每个小块以欧式距离最近为准则，映射到视觉码书的每个视觉词汇中，统计直方图。这样，每幅图像就可以用一个150维的特征向量表示。

(3)对(2)提取的三种手势图像的特征构造基础核，并将基础核融合。具体实施过程如下：

(3.1)构建基础核：本发明采用Chamfer距离和直方图相交核构建基础核。Chamfer距离定义为：

Chanmfer (x, y) = \frac{1}{m} Σ_{i = 1}^{m} \min_{y_{j}} | | x_{i} - y_{j} | |

其中，m是外形中所有采样点的数量，x，y为两幅图像的特征。x_i、y_j表示x和y中在采样点i处的特征向量。

图像的直方图相交核定义如下：

K_{int} (x, y) = Σ_{i = 1}^{m} \min {x_{i}, y_{i}}

其中，x和y是图像X_im和Y_im的直方图，每个直方图由m个分块组成。x_i，y_i(i＝1,2,…,m)是直方图x，y每个分块的值。直方图相交核的优点是能对直方图描述的图像正确分类且不用选定参数。

这样对应三个图像特征构造的三个基础核分别为：

①K_point(x,y)＝g(x_sc,y_sc)

其中，x_sc和y_sc是图像的形状上下文描述子，K_point(x,y)为形状上下文特征的基础核。

②

K_{shape}^{l} (x, y) = K_{int} (x_{hog}, y_{hog}), (l = 1,2,3,4)

其中，x_hog和y_hog是图像的梯度方向直方图特征的描述子，为第l层梯度方向直方图特征的基础核。

③K_app(x,y)＝K_int(x_bof,y_bof)

其中，x_bof和y_bof是图像的特征包特征的特征向量，K_app(x,y)为特征包特征的基础核。

(3.2)基础核的融合

通过核函数的理论可知，只有那些满足Mercer条件的核函数才是有效核函数。一些涉及本发明的理论Mercer核函数的性质如下。性质1：设K₁(x,y)和K₂(x,y)是两个N×N的Mercer核函数，其中u>0，那么，以下核函数都是有效的Mercer核函数：

K(x,y)＝K₁(x,y)+K₂(x,y)

K(x,y)＝μK₁(x,y)

这样，能够通过相加或加权相加得到一个新的核函数。我们分两步融合基础核矩阵。首先，进行特征内基础核的融合。

K_{shape} (x, y) = Σ_{l = 1}^{m} γ_{l} K_{shape}^{(l)} (x, y)

其中，γ_l为融合权值，为图像金字塔中各层图像梯度方向直方图特征的基础核。m为图像金字塔的层数。得到不同特征的基础核后，需要融合这些基础核。融合方法同样采用线性加权的方式。融合核为：

K_{opt} (d, γ) = Σ_{f = 1}^{n} d_{f} K_{fopt} (x_{f}, y_{f})

\begin{matrix} K_{opt} (d, γ) = d_{1} K_{po int} (x, y) + d_{2} K_{shape} (x, y) + d_{3} K_{app} (x, y) \\ = d_{1} K_{po int} (x, y) + d_{2} Σ_{l = 1}^{3} γ_{l} K_{shape}^{(l)} (x, y) + d_{3} K_{app} (x, y) \end{matrix}

其中K_opt是融合后的核，K_fopt是第f特征个基础核，d_f是融合权值，n为不同类型特征的基础核函数的个数。

(4)多核支持向量机的训练和识别

手势识别通过提取训练样本的图像特征，构造基础核并将基础核融合，利用融合后的基础核训练支持向量机，求出融合权值和最有分类超平面。当有未知类别的手势图像输入时，通过特征提取，求取融合核，利用训练好的支持向量机实现手势识别。

本发明提出了一种多核学习算法求取融合权值和支持向量机最优分类超平面，该多核学习算法是基于传统的支持向量机提出的。图3为多核支持向量机的训练和识别系统框图。

(4.1)传统的支持向量机原理

支持向量机的分类原理是使得所有不同分类样本之间的几何距离最大化，解决这一问题可以通过解决如下最优化问题实现。

\min_{w, b, ξ_{i}} \frac{1}{2} {| | w | |}^{2} + C Σ_{i = 1}^{N} ξ_{i}

s.t.y_i[〈φ(x_i),w〉+b]≥1-ξ_i,i＝1,2,...,N

ξ_i≥0,i＝1,2,...,N

其中，w定义了最优分类超平面，〈·〉表示内积，b为分类超平面的截距。参数C决定了分类器正则化的能力，也就是分类器的复杂程度。ξ_i代表正的松弛变量，描述了分类器的容错能力。这个问题可以通过求取它的对偶问题求解。最终，对于任一给定的测试向量x，判定其类别的决策函数为：

f (x, a^{*}, b^{*}) = sgn (Σ_{i = 1}^{n} y_{i} a_{i}^{*} K (x_{i}, x) + b^{*})

其中，x_i(i＝1,...,n)为支持向量，为求得的最优的Lagrange系数，y_i(i＝1,...,n)为类别标签，b^*为截距，K(x,y)＝〈φ(x),φ(y)〉为核函数。

(4.2)多核学习算法

多核学习的核心问题是用训练数据求取融合核函数的权值。用这个融合核函数和求取的最优分类超平面就可以判别未知类别的输入手势所属类别。本发明提出用最小最大策略解决单核的支持向量机问题最优化问题的方法，将混合核函数认为是一个单核核函数进行对权值df的求解。

将上述单核支持向量机最小最大优化的问题原型重新写为：其中，限制条件为d_f≥0，γ_l＞0。

T (d_{f}, γ_{l}) = \{\begin{matrix} \min_{w, b, ξ_{i}} \frac{1}{2} {| | w | |}^{2} + C Σ_{i = 1}^{N} ξ_{i} \\ s . t . y_{i} [< φ (x_{i}), w > + b] &GreaterEqual; 1 - ξ_{i} \end{matrix}, ξ_{i} &GreaterEqual; 0, i = 1,2, . . ., N

根据非线性规划的相关理论，求取上述问题可以采用梯度下降法。因为沿着负梯度方向函数值下降最快，所以选取梯度▽T为函数下降方向。为了计算▽T的值，将上述问题转化为对偶问题：

W (d_{f}, γ_{l}) = \{\begin{matrix} \max_{a} & - \frac{1}{2} \underset{i, j}{Σ} a_{i} a_{j} y_{i} y_{j} K_{opt} (x_{i}, x_{j}) + \underset{i}{Σ} a_{i} \\ s . t . 0 \leq a_{i} \leq C & \underset{i}{Σ} a_{i} y_{i} = 0 \end{matrix}

T对γ_l和d_f导数与W对γ_l和d_f相等，于是可得：

\frac{&PartialD; T}{{&PartialD; γ}_{l}} = \frac{&PartialD; W}{{&PartialD; γ}_{l}} = - \frac{1}{2} d_{2} a^{* T} \frac{&PartialD; ({YK}_{shape} Y)}{{&PartialD; γ}_{l}} a^{*} = - \frac{1}{2} d_{2} a^{* T} {YK}_{shape}^{(l)} {Ya}^{*}

\frac{&PartialD; T}{{&PartialD; d}_{f}} = \frac{&PartialD; W}{{&PartialD; d}_{f}} = - \frac{1}{2} a^{* T} \frac{&PartialD; ({YK}_{opt} Y)}{{&PartialD; d}_{t}} a^{*} = - \frac{1}{2} a^{* T} {YK}_{fopt} Y a^{*}

其中，K_fopt是每一个特征的基础核，Y为对角线为分类标签的对角矩阵。当确定T的梯度后，就可以使用梯度下降法求使W最大值时的γ_l和d_f(f＝1,2,3)值。在整个过程中，首先固定d_f求γ_l的最优值。初始权值为γ_l＝1，d_f＝1。固定d_f＝1保持不变，开始迭代γ_l。每次权值γ_l更新为：

γ_{l} (n + 1) = \max [0, γ_{l} (n) - λ_{n} \frac{&PartialD; T}{{&PartialD; γ}_{l}}] = \max [0, d_{f} (n) + \frac{λ_{n}}{2} d_{2} a^{* T} {YK}_{shape}^{(l)} {Ya}^{*}]

其中，γ_f(n+1)为第n+1次的特征内融合核的权值，λ_n为迭代步长，采用最优步长法确定。迭代停止条件为判别函数收敛。当求取所有的γ_l后，固定γ_l，用同样的迭代方法求取权值d_f。当得到权值γ_l和d_f后，便能确定融合核K_opt。此时，决策函数为：

f (x, a^{*}, b^{*}) = sgm (Σ_{i = 1}^{n} y_{i} a_{i}^{*} K_{opt} (x_{i}, x) + b^{*})

当输入新的未知类别的手势时，通过求取融合核K_opt，利用上述求得的判别函数就能将输入手势判别到正确类别中实现手势识别。如果则判别输入样本为+1类，否则为-1类。

上述过程是针对手势类别为两类情况的分类，对于多类识别的问题，采用多类支持向量机的一对一算法(one-versus-one,简称OVO SVMs或pair wise)。其具体实施过程为：将多类分类问题分解为若干个两类分类问题，样本类别数为n的情况需要建立[n(n-1)]/2个分类超平面。每个超平面的建立方法与(4.2)相同。将待判别手势的融合核带入到这[n(n-1)]/2个分类超平面判别函数中，如果某个判别函数判别输入向量属于哪个类，就在哪个类别上投一票，最终得票最多的类别就是该特征向量所属类别。输出被判别手势的含义，实现手势识别。

本发明利用多核学习算法融合了不同结构的手势图像特征，增加了手势识别系统的泛化能力，提高了手势识别系统的识别率，改善了系统的稳定性。通过实验，本发明在识别速度和识别精度上都比之前算法有明显改进。

Claims

1.一种基于多核学习异构特征融合的手势识别方法，其特征在于包括以下步骤：

步骤1，在带有手势的图像中进行手势分割；

步骤2，对定位后的手势图像进行特征提取；

步骤3，利用提取的特征构建基础核并加权融合基础核；

2.根据权利要求1所述的一种基于多核学习异构特征融合的手势识别方法，其特征在于所述的步骤1中，通过摄像头拍摄手势图像，收集不同人的不同手势图像训练图像集，预先设置训练集中各类手势的含义；对拍摄的所有手势图像进行分割处理，首先，对图像进行光照补偿处理；然后，采用设定HSV颜色空间阈值的方法分割手势区域；分割后的手势图像背景为黑色人手部分为彩色；最后，将图像灰度化，以便后续特征提取。

3.根据权利要求1所述的一种基于多核学习异构特征融合的手势识别方法，其特征在于所述的步骤2中：

步骤2.1，提取手势图像的形状上下文特征；

步骤2.2，构建图像金字塔，并提取图像金字塔中每层手势图像的梯度方向直方图特征；

步骤2.3，提取手势图像的特征包特征。

4.根据权利要求1所述的一种基于多核学习异构特征融合的手势识别方法，其特征在于所述的步骤3中，

步骤3.1，通过Chamfer距离和直方图相交核构建三种特征的基础核；

①K_point(x,y)＝g(x_sc,y_sc)

其中，x_sc和y_sc是图像的形状上下文描述子；K_point(x,y)为形状上下文特征的基础核；

②

其中，x_hog和y_hog是图像的梯度方向直方图特征的描述子，为第l层梯度方向直方图特征的基础核；

③K_app(x,y)＝K_int(x_bof,y_bof)

其中，x_bof和y_bof是图像的特征包特征的特征向量；K_app(x,y)为特征包特征的基础核；

步骤3.2，利用核函数理论将特征内和特征间的基础核融合；

特征内基础核的融合，即对图像金字塔中各层图像的梯度方向直方图特征的基础核进行融合：

其中，γ_l为融合权值，为第l层图像的基础核；m为图像金字塔的总层数；

不同特征的融合核为：

其中K_opt是融合后的核，K_fopt是第f特征个基础核，d_f是融合权值，n为基础核函数的个数。

5.根据权利要求1所述的一种基于多核学习异构特征融合的手势识别方法，其特征在于所述利用融合核训练支持向量机，

多核支持向量机的问题原型为：

其中，限制条件为d_f≥0；

为了采用梯度下降法求解这个问题，需要求解T对d_f和γ_l梯度；转化为对偶问题为：

T对γ_l和d_f导数与W对γ_l和d_f相等，于是可得：

利用梯度下降法求解最优融合权值和支持向量机最优分类超平面；初始权值为γ_l＝1，d_f＝1；固定d_f＝1保持不变，开始迭代γ_l；每次权值γ_l更新为：

其中，γ_f(n+1)为第n+1次的特征内融合核的权值，λ_n为迭代步长，采用最优步长法确定；迭代停止条件为判别函数收敛；当求取所有的γ_l后，固定γ_l，用同样的迭代方法求取权值d_f；当得到权值γ_l和d_f后，便能确定融合核K_opt；利用该融合核训练支持向量机；最终，求得的最优分类超平面：

。

6.根据权利要求1所述的一种基于多核学习异构特征融合的手势识别方法，其特征在于所述通过构建未知手势图像的融合核和训练好的支持向量机判别手势所属类别包括以下步骤：

通过计算未知类别手势图像的基础核和求得的最优融合权值计算融合核K_opt(x_i,x)；如果则判别输入样本为+1类，否则为-1类；其中，y_i为类别标签；为Lagrange乘子的最优解。

7.根据权利要求6所述的一种基于多核学习异构特征融合的手势识别方法，其特征在于所述的手势类别为多类时采用一对一的判别方法。