CN104156690A

CN104156690A - 一种基于图像空间金字塔特征包的手势识别方法

Info

Publication number: CN104156690A
Application number: CN201410301604.XA
Authority: CN
Inventors: 曹江涛; 余思泉; 李平
Original assignee: Liaoning Shihua University
Current assignee: Liaoning Shihua University
Priority date: 2014-06-27
Filing date: 2014-06-27
Publication date: 2014-11-19
Anticipated expiration: 2034-06-27
Also published as: CN104156690B

Abstract

本发明涉及一种基于图像空间金字塔特征包的手势识别方法，包括以下步骤：对带有手势的图像进行手势分割；对分割出来的手势图像进行特征提取和描述；利用提取的特征训练直方图相交核支持向量机，并根据支持向量机得到该手势图像的特征向量所属的手势类别，实现手势识别。本发明利用空间金字塔算法与特征包算法相结合，描述了手势图像特征点的全局数量特性与分布特性；利用直方图相交核支持向量机实现了手势特征的分类，进而实现了手势识别；提高了识别多类相似手势的识别率。

Description

一种基于图像空间金字塔特征包的手势识别方法

技术领域

本发明属于图像处理与模式识别领域，具体涉及一种基于图像特征提取与支持向量机的手势识别方法。

背景技术

现代人机交互方式正朝着一种更和谐、自然地方向发展。人机交互研究的一个热点问题是使得用户可以方便、自然地使用人类所熟知的方式使用计算机。手势语言具有简洁、直观的特点，是人机交互方式的一种有效扩展，在智能家电控制，机器人控制，手语识别，计算机游戏控制等方面有着广泛的应用。

手势识别的关键技术在于手势图像的特征提取与手势识别两个步骤。当前最常用的图像特征提取的方法有利用边缘特征像素点特征提取，利用傅里叶算子描述手势特征，利用手掌手指的空间分布特性表示手势，利用基于图像特征包算法的手势图像特征提取。

在手势特征提取阶段，现有技术的主要问题为：

(1)利用边缘特征像素点特征提取。不能对尺度、旋转、光照变化保持不变性，必须收集各种情况下的手势训练样本。详见：张国良,吴江琴,高文等.基于Hausdorff距离的手势识别[J].吉林图象图形学报,2002,7(7):1144-1150

(2)利用傅里叶算子描述手势特征和利用手掌手指的空间分布特性表示手势，这两种方法解决了特征对尺度、旋转、光照的适应性，但运算量大，运算时间消耗长。详见：葛元,郭兴伟,王林泉.傅立叶描述子在手势识别中的应用[J].计算机应用与软件,2005,6(22):91-93

张汗灵,李红英,周敏.融合多特征和压缩感知的手势识别[J].湖南大学学报(自然科学版),2013,3(40):87-92

(3)利用基于图像特征包(Bag of Features，BoF)算法的提取手势图像特征。该算法较为有效。缺点是该算法只描述了手势图像的特征点的数量信息，而忽略了特征点的空间分布特性。不能很好的识别相似的手势。详见：陈小波,谢秋生.基于Bag of Features的手势识别[J].计算机工程与设计,2013,3(34):983-988

当前最常用的手势识别的方法有：

(1)基于模板匹配的方法。(2)基于Adaboost的方法。通过一系列弱分类器构成一个强分类器，实现手势识别。(3)基于支持向量机的方法。手势识别通常为线性不可分的样本，支持向量机解决线性不可分样本的方法是通过核函数，将线性不可分样本通过核函数映射到线性可分的空间上，实现样本分类。

存在的主要技术问题为：

(1)模板匹配需要大量训练图像，计算速度慢。(2)Adaboost分类器设计复杂，计算量大，计算速度慢。详见：丁友东,庞海波,吴学纯等.一种用于手势识别的局部均值模式纹理描述子[J].应用科学学报,2013,(5):526-532。(3)支持向量机能够很好的解决线性不可分，小样本的分类问题。但选用的核函数及核函数的参数对识别结果影响较大。

发明内容

为了克服上述现有技术存在的不足，本发明设计了一种基于图像特征提取与支持向量机的手势识别方法。

本发明解决其技术问题所采用的技术方案是：一种基于图像空间金字塔特征包的手势识别方法，包括以下步骤：

对带有手势的图像进行手势分割；

对分割出来的手势图像进行特征提取和描述；

利用提取的特征训练直方图相交核支持向量机，并根据支持向量机得到该手势图像的特征向量所属的手势类别，实现手势识别。

所述对分割出来的手势图像进行特征提取和描述包括以下步骤：

(2.1)将手势图像构造成三层手势图像，第一层将整张手势图像划分为16个子块，第二层将整张手势图像划分为4个子块，第三层为整张手势图像；

(2.2)将第三层的整张手势图像均匀分成若干个像素为16×16的小块，对每个小块生成尺度不变特征变换描述子；

(2.3)将特征变换描述子用聚类的方法生成多个聚类中心，以聚类中心为视觉词汇，所有的聚类中心构成特征包；

(2.4)对每一层手势图像的每一块进行特征包量化，得到每层图像的特征向量；

(2.5)将三层的特征向量融合成一个新的向量，用于训练直方图相交核支持向量机。

所述将特征变换描述子用聚类的方法生成多个聚类中心包括以下步骤：

①从手势样本库的特征向量空间中，任取一个向量为第一个初始聚类中心其中，为每个特征点的SIFT特征描述向量，m为从手势样本库的所有手势图像中提取的特征点个数；

②任取一个其它向量，如果该向量所得概率为目前选取向量的所得概率中的最大概率时这个向量就为下一个初始聚类中心其中为选取向量到目前已选出的所有聚类中心的最近距离；

③重复步骤②，直到选出K个初始聚类中心，

④计算特征向量空间中剩余的每个特征向量与各聚类中心之间的距离如果满足则该特征向量属于第j个类别即

⑤求出新的聚类中心其中F为迭代次数，为属于第j个聚类中心的第i个样本点，n_j是属于第j个聚类中心的样本点的个数，计算误差的平方和准则函数

⑥判断|J_c(F)-J_c(F-1)|＜ξ是否成立；其中，ξ为误差阈值，F为迭代次数；如果不成立，则F＝F+1，以c_j(F)为初始聚类中心，返回步骤④；如果成立，则此时所得的K个聚类中心为最终聚类中心。

所述利用提取的特征训练直方图相交核支持向量机具体为通过核函数将线性不可分样本映射到线性可分的高维空间，并得到分类超平面：

f (x, a^{*}, b^{*}) = sgn (Σ_{i = 1}^{n} y_{i} a_{i}^{*} k_{int} (x_{i}, x^{T}) + b^{*})

其中，核函数为其中，H₁、H₂为图像的直方图；h_1i、h_2i(i＝1,2,...m)是直方图H₁、H₂每个类的值；拥有最大间隔分类线的权向量x_i为任一支持向量，y_i为类别标签；a^*为Lagrange乘子的最优解，通过将二次规划问题采用SMO算法求解得到；x为待输入样本，n为样本特征向量维数。

所述根据支持向量机得到该手势图像的特征向量所属的手势类别包括以下步骤：

将分类超平面作为判别函数对输入的新的向量进行判别；如果则判别输入样本为+1类，否则为-1类；其中，x_i为任一支持向量，x^T为输入待判别特征向量，y_i为类别标签；a_i ^*为Lagrange乘子的最优解，通过将二次规划问题采用SMO算法求解得到。

本发明具有以下有益效果及优点：

1.本发明利用空间金字塔算法与特征包算法相结合，描述了手势图像特征点的全局数量特性与分布特性，更准确的描述手势图像特征，总体方法能够提高多类相似手势的识别率。

2.本发明通过空间金字塔特征包算法提取图像特征的算法，实现了对图像全局特征和局部细节特征的描述，生成的特征描述子同时具备对尺度、旋转、光照变化保持不变性。

3.本发明的空间金字塔特征包算法具备了特征包算法能同时描述图像局部特征和全局数量特征优点，改善了特征包算法不能对特征点分部信息的缺点。

4.本发明设计了手势特征提取方法，利用一种新的核函数实现支持向量机手势识别。直方图相交核作为支持向量机的核函数优点在于能正确分类线性不可分、小样本的样本，且直方图相交核不用像其它核函数那样选择参数，方便了分类器的设计。

5.本发明利用直方图相交核支持向量机实现了手势特征的分类，进而实现了手势识别。

附图说明

图1为本发明的算法流程图。

图2为图像空间金字塔特征包算法示意图。

图3为图像空间金字塔特征包算法流程图。

图4为SIFT特征描述子生成过程示意图。

图5为支持向量机的原理图。

图6为十种手势的识别率混淆矩阵示意图。

具体实施方式

下面结合实例对本发明做进一步的详细说明。

本发明的工作流程包括：首先对所有图像实施光照补偿并利用预先统计的肤色信息设定YCrCb颜色空间各分量的阈值，实现手势分割。然后，通过将原图像分割成不同的块数构造图像空间金字塔，对图像空间金字塔中的每一层的每一个子块图像采用特征包算法生成描述向量。对生成的描述向量进行归一化处理。最后，训练集手势图像用于训练直方图相交核支持向量机，对训练集手势进行分类，得到最优分类超平面。当重新输入手势时，经过手势分割和特征提取得到手势特征向量。利用已训练好的直方图支持向量机将新的手势特征向量分类到正确的手势类别中，实现手势识别。

本发明主要包括手势图像分割与手势图像特征提取、直方图相交核支持向量机的训练与识别两个部分。如图1所示，具体步骤如下：

一.手势图像分割与手势图像特征提取

1.拍摄图像：启动摄像头，拍摄手势图像，收集不同人的各种手势若干张图像训练图像集，预先设置训练集中各手势的含义。

2.手势分割：对拍摄的所有手势图像进行分割处理。首先，对图像进行光照补偿处理。然后，采用设定YCrCb颜色空间阈值的方法分割手势区域。分割后的手势图像背景为黑色。人手部分为原来图像的灰度图像。

3.手势图像特征提取与描述：采用了建立图像金字塔特征包的方法对分割后图像的特征进行提取与描述。具体方法是：先建立整张图像不同分块数的图像空间金字塔，然后对每一层每个分块采用特征包算法生成图像金字塔中每层图像的特征向量，最后将各层特征加权融合成为描述该图像的特征向量。

二.直方图相交核支持向量机的训练过程与识别过程

4.直方图相交核支持向量机的训练：用提取的手势图像特征向量训练直方图相交核支持向量机。具体方法是用直方图相交核求取步骤3得到的特征向量的核矩阵。再用支持向量机的算法得到支持向量机的最优分类超平面。

5.识别阶段，经过步骤1、2、3生成输入手势图像的特征向量。

6.利用步骤4得到的最优分类超平面判别步骤5得到的手势特征向量所属的手势类别，得到识别结果。

本发明具体包括以下步骤：

(1)手势识别系统的第一步是要进行手势分割，找到手势在图像中的位置。本发明采用普通家用摄像头采集图像，获得彩色RGB图像尺寸为320×240像素。拍摄背景除人手外无明显类似肤色区域，被采集人需要穿着与肤色有明显颜色差异的长袖上衣，目的是防止手臂对分割带来影响。对得到的手势图像首先进行光照补偿。光照补偿处理的目的是使得基于阈值的手势分割算法对光照颜色变化具有一定的抗干扰的能力。

然后将手势图像由RGB颜色空间转化为YCrCb颜色空间，统计人手肤色在YCrCb颜色空间中各颜色通道的值的分布，估计肤色区域的中心值。其中Cr通道分量的中心值为Cr_mid＝120，Cb通道分量的中心值为Cb_mid＝150。经过实验，阈值设定为v＝15。利用欧式距离公式D＝[(Cb-Cb_mid)²-(Cr-Cr_mid)²]^1/2求出距离D。当D≤v时，为设定其值为0，当D＞v时，设定其值为1。通过降噪处理及形态化，就得到了分割后的手势图像。

最后还需要将人手部分变为人手皮肤图像，将图像灰度化，目的在于有利于特征提取算法准确生成特征向量。

(2)手势图像特征提取与描述。图2和图3说明了手势图像特征提取与描述的过程。生成图像空间金字塔特征包特征向量的具体实施过程如下：

(2.1)通过将原图像分成不同的块，构造一个三层的图像金字塔，每层图像均与原图像相同：第一层将整张图像划分为16个子块，第二层将整张图像划分为4个子块，第三层为整张图像。

(2.2)再将第三层的整张图像均匀的分成若干个像素为16×16的小块，对每个小块生成尺度不变特征变换(Scale-invariant feature transform,SIFT)描述子。图2中，手势图像中每个点代表一个SIFT特征点。因为传统的构成尺度空间金字塔的方法检测SIFT特征点需要对图像进行模糊化处理，这样会模糊掉图像的边缘，所以检测到的特征点数量普遍较少。本发明利用直接将图像分块的方法对特征点的检测的问题进行改进。分块后，以每个小块的中心作为特征点。

SIFT算法如图4所示。图4中的中心处的圆点代表特征点。首先求出特征点周围像素的梯度方向和梯度模值，在图4中用箭头表示。特征点周围的每个像素的梯度模值和梯度方向定义为：

m (x, y) = \sqrt{{(L (x + 1, y) - L (x - 1, y))}^{2} + {(L (x, y + 1) - L (x, y - 1))}^{2}}

θ (x, y) = \arctan \frac{L (x, y + 1) - L (x, y - 1)}{L (x + 1, y) - L (x - 1, y)}

其中，(x，y)为特征点的坐标，L(x，y)是图像的高斯卷积。计算描述子所需的图像区域为16×16的图像块中各像素的梯度模值和方向。通过统计直方图的方法，确定直方图的主方向为特征点的方向，为了确保生成的描述符具有旋转不变性，需要将坐标轴旋转到与特征点方向相同的方向。将邻域内的采样点分配到对应的子区域内，子区域内的梯度值分配到8个方向上，计算其权值。最后得到了4×4×8＝128个梯度信息即为关键点的尺度不变特征变换特征描述子。

(2.3)用所有训练图像(即第三层图像)的SIFT描述子用聚类的方法生成特征包，也称为特征词汇表。本发明采用K-means++算法，以K-means++算法的聚类中心为特征词汇构成特征词汇表。本发明利用特征点之间的距离求取概率，以这个概率为标准获得初始聚类中心，解决了K-means算法无法确定初始聚类中心的问题，提高算法的稳定性。

具体步骤为：设从手势样本库的所有第3层手势图像中提取了共m个特征点，每个特征点的SIFT特征描述向量为则构成的手势样本库的特征向量空间为确定聚类中心的步骤如下：

①从特征向量空间中，任取一个向量为第一个初始聚类中心

②计算概率其中表示向量到目前已选出的所有初始聚类中心中的最近距离。当为目前所有概率中的最大概率时，这个向量就为下一个初始聚类中心

③重复步骤②，直到选出K个初始聚类中心记

④计算特征向量空间中剩余的每个特征向量与已选出的初始聚类中心之间的距离如果满足则其中，w_j表示第j个类别，j＝1,2,...,K，K为自然数，根据原图像的像素大小设定。

⑤利用公式：求取分类后的样本中心为新的聚类中心。其中，F为迭代次数。

⑥计算误差的平方和准则函数J_c：其中n_j是属于第j个聚类中心的样本点的个数，为属于第j个聚类中心的第i个样本点，K为聚类中心数。

⑦如果满足判定条件|J_c(F)-J_c(F-1)|＜ξ则算法结束。否则F＝F+1，重复步骤④、⑤、⑥、⑦，直到满足判别条件为止。其中，ξ为误差阈值，一个根据经验设定的很小的数，本发明的ξ为0.009。

通过K-means++算法后，得到K个聚类中心。每个聚类中心为一个128维的向量，用来表示视觉词汇表中的一个视觉词汇。所有的视觉词汇组成了这些图像的特征包。

(2.4)对图像金字塔中的每一层图像的每一块进行特征包量化：以欧氏距离为判据，当样本点(即第三层图像的特征点)距离某个聚类中心的欧式距离最近时，这个样本点就属于这个视觉词汇。判别每张图像每层的每个分块中的所有特征点所属特征包中视觉词汇的类别，统计直方图。对图像金字塔中的每层图像中属于各个特征包的视觉词汇的特征点数量进行量化、归一化后得到了每一层图像的特征向量。第一层为16个K维特征向量，第二维为4个K维特征向量，第三层为1个K维向量。

(2.5)融合三层的特征向量。由于对图像的划分随着层数的增加而递增，所以生成的特征对于细节的描述也更细致。所以融合权值也应该为递增。将加权后的三层特征向量首尾相连组成一个新的向量，维数为(1+4+16)×K＝21×K维。这个新的特征向可用于训练直方图相交核支持向量机。

(3)手势识别：

(3.1)训练直方图支持向量机的具体过程

支持向量机的原理如图5所示。在支持向量机理论中，最优分类线的定义为是使分类几何间隔最大的分类线。数学描述为：

\max \frac{1}{| | w | |}

s.t. y_i(w^Tx_i+b)≥1,i＝1,2,...,n

其中，x_i为输入向量，y_i为输入类别向量，n为类别数，w^T和b为待求参数。该问题为一个求解二次优化的问题。等价于：

\min \frac{1}{2} {| | w | |}^{2}

s.t. y_i(w^Tx+b)≥1,i＝1,2,...,n

通过Lagrange乘子法求解，构造Lagrange函数：

L (w, b, a) = \frac{1}{2} | | w^{2} | | - Σ_{i = 1}^{n} a_{i} (y_{i} (w^{T} x_{i} + b) - 1)

其中a_i(i＝1,2,...,n)为Lagrange乘数，是一个待求参数；a＝[a₁,a₂,...,a_n]。然后，对w和b分别求导并令导数为零。得将其带回L(x,b,a)中可得。

L (w, b, a) = Σ_{i = 1}^{n} a_{i} - \frac{1}{2} Σ_{i, j = 1}^{n} y_{i} y_{j} a_{i} a_{j} (x_{i} * x_{j})

为了计算a₁,a₂,...,a_n的值，还需要求解如下二次规划问题。

\max : L (w, b, a) = Σ_{i = 1}^{n} a_{i} - \frac{1}{2} Σ_{i, j = 1}^{n} y_{i} y_{j} a_{i} a_{j} (x_{i} * x_{j})

\begin{matrix} s . t . & Σ_{i = 1}^{n} y_{i} a_{i} = 0, i = 1,2, . . ., n \end{matrix}

其中，y_j分类标签，a_j为Lagrange系数，x_j为样本向量，j＝1,2,...,n。

求解以上问题的方法是采用序列最小优化算法(Sequential minimaloptimization，SMO)算法。得到a₁,a₂,...,a_n，通过公式和公式便能得到w,b的值，最终得到最优分类超平面。

设通过SMO算法得到的a_i作为最优解a^*，则拥有最大间隔分类线的权向量为带入到最优分类超平面可得分类函数表达式为：

f (x, a^{*}, b^{*}) = sgn (Σ_{i = 1}^{n} y_{i} a_{i}^{*} (x_{i} * x) + b^{*})

其中

b^{*} = - \frac{\max_{y_{i} = 1} ((w^{*} \cdot x_{i})) + \min_{y_{i} = - 1} ((w^{*} \cdot x_{i}))}{2},

x_i为任一支持向量。

当样本线性不可分，通过选择合适的核函数k(x_i,x)变换样本到高维空间，使得变换后的样本线性可分。此时，最优分类线的定义为：

f (x, a^{*}, b^{*}) = sgn (Σ_{i = 1}^{n} y_{i} a_{i}^{*} k (x_{i}, x) + b^{*})

其中k(x_i,x)是核函数，支持向量机解决无法线性分类的样本的关键在于核函数的选择。本发明采用直方图相交核作为支持向量机的核函数。直方图相交核的定义为：

k_{int} (H_{1}, H_{2}) = Σ_{i = 1}^{K} \min {h_{1 i}, h_{2 i}}

其中，H₁和H₂是图像I₁和I₂的直方图，每个直方图由K个类组成。h_1i和h_2i(i＝1,2,...,m)是直方图H₁和H₂每个类的值。直方图相交核作为支持向量机核函数的优点是能实现利用直方图描述图像的分类。另外，直方图相交核不用其他核函数那样选定参数。

将(2.5)提取到的所有图像的特征向量组成一个矩阵X，每一行为一幅图像的特征向量，矩阵的列数表示图像的张数。将这个向量作为支持向量机的输入，首先得到支持向量的核矩阵k_int(X，X^T)。其中，X^T为矩阵X的转置矩阵。这样就将原线性不可分的特征向量映射到一个线性可分的空间上。通过以上介绍的支持向量机理论求解参数a^*和b^*，最终求得支持向量机的判别函数的形式为：

f (x, a^{*}, b^{*}) = sgn (Σ_{i = 1}^{n} y_{i} a_{i}^{*} k_{int} (x_{i}, x) + b^{*})

其中x_i为支持向量，x为待输入样本。

(3.2)用训练后的直方图支持向量机进行手势识别

利用训练过程得到的最优分类超平面为判别函数对输入测试样本进行判别。当为两类情况时，如果则判别输入样本为+1类，否则为-1类。

对于多类识别的问题，采用一对一法(one-versus-one,简称OVO SVMs或pair wise)。其具体做法是：在每两类样本之间建立一个支持向量机，每个分类超平面依次为判别函数对输入的新的向量进行判别。这样，样本类别数为n的情况就需要用步骤(3.1)方法求取[n(n-1)]/2个分类超平面，既需要求取[n(n-1)]/2个判别函数。通过将待判别特征向量带入到判别函数中，判别原理与两类支持向量机的判别原理相同。如果某个判别函数判别输入向量属于哪个类，就在哪个类别上投一票，最终得票最多的类别就是该特征向量所属类别。输出被判别手势的含义，实现手势识别。

本发明通过在Jochen Triesch的手势数据测试库上测试，此数据库中含有单一背景的手势图像，所以未用到手势分割部分。测试主要目的在于测试特征提取算法和直方图核函数支持向量机对于手势识别系统的有效性。数据库中共有10类手语手势，每类手语手势有12个人的24张样本，每个人有2张样本图像。总共有单一背景手势图像数为480张图像。取其中240张为支持向量机的训练集图像，剩余240张为测试图像。参数选择方面，聚类数目K＝100，图像空间金字塔的层数为三层，从第一层到第三层的特征融合时的权值为0.5，0.5，0.25。图6为识别率的混淆矩阵。混淆矩阵的主对角线代表正确的识别率。可以看到，本算法对十种手势的识别均能取得较好的识别率。其中，最高识别率为100％，平均识别率可达到92.92％。

本发明利用空间金字塔特征包算法提取图像特征，直方图相交核支持向量机对提取到的特征分类和识别。通过实验，本发明在识别速度和识别精度上都比之前算法有明显改进。

Claims

1.一种基于图像空间金字塔特征包的手势识别方法，其特征在于包括以下步骤：

对带有手势的图像进行手势分割；

对分割出来的手势图像进行特征提取和描述；

2.根据权利要求1所述的一种基于图像空间金字塔特征包的手势识别方法，其特征在于所述对分割出来的手势图像进行特征提取和描述包括以下步骤：

3.根据权利要求1所述的一种基于图像空间金字塔特征包的手势识别方法，其特征在于所述将特征变换描述子用聚类的方法生成多个聚类中心包括以下步骤：

③重复步骤②，直到选出K个初始聚类中心，

4.根据权利要求1所述的一种基于图像空间金字塔特征包的手势识别方法，其特征在于所述利用提取的特征训练直方图相交核支持向量机具体为通过核函数将线性不可分样本映射到线性可分的高维空间，并得到分类超平面：

f (x, a^{*}, b^{*}) = sgn (Σ_{i = 1}^{n} y_{i} a_{i}^{*} k_{int} (x_{i}, x^{T}) + b^{*})

5.根据权利要求1所述的一种基于图像空间金字塔特征包的手势识别方法，其特征在于所述根据支持向量机得到该手势图像的特征向量所属的手势类别包括以下步骤：