CN104318558B

CN104318558B - 复杂场景下基于多信息融合的手势分割方法

Info

Publication number: CN104318558B
Application number: CN201410552532.6A
Authority: CN
Inventors: 于慧敏; 盛亚婷
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2014-10-17
Filing date: 2014-10-17
Publication date: 2017-06-23
Anticipated expiration: 2034-10-17
Also published as: CN104318558A

Abstract

本发明公开了一种复杂场景下基于多信息融合的手势分割方法。针对输入的视频图像序列，通过图像预处理操作之后，首先进行预检测，即通过一个类手势的筛除器，将易被误判为手势部分的区域筛除；再进行基于多颜色空间分量的肤色检测；同时结合肤色检测信息，采用基于时空信息改进的混合高斯建模方法进行前景检测；然后用一种验证补充机制将多种检测结果融合，得到手势分割结果。本发明使手势分割过程可以适用于不同的复杂场景，用户自由性不再受到限制，且满足实时性的要求，可以较好地运用在人机交互中。

Description

复杂场景下基于多信息融合的手势分割方法

技术领域

本发明涉及一种手势分割的方法，具体为一种复杂场景下基于多信息融合的手势分割方法，可以用于手势识别、人机交互、移动设备的操控等很多领域。

背景技术

随着计算机的发展在现代社会中应用越来越广泛和迅速，人机交互技术的需求在人类生活中也变得越来越高，而手势作为一种最自然，最符合人类行为习惯的交互方式之一，更是人机交互领域中重要的研究方向之一。而手势分割通常是交互系统中的第一步也是最关键的一步，其效果会直接影响到后续特征提取以及识别的准确率。为得到令人满意的手势分割结果，国内外有众多的学者对手势分割方法进行了深入的研究，结合各类研究以及实际应用，可以分析出目前手势分割领域存在的主要技术难点如下：

1)受限于环境的复杂程度。实际应用场景通常较为复杂，存在光照的变化，背景物体的移动，类肤色物体的影响等。

2)用户自由性受到限制。大量研究为了手势分割的效果要求用户穿着深色衣服，佩戴特殊颜色手套，不得出现身体其他部位等。

3)实时性要求得不到满足。为了适用于复杂的场景，许多研究者提出复杂的分割算法，但复杂度的提高伴随着实时性的下降。

针对以上技术难点，研究者们的通常做法是根据自己所研发的系统和所处的实验环境来选择适合自己系统的手势分割方法，缺少一定的通用性。

发明内容

为了解决现有技术中的问题，本发明公开了一种复杂场景下基于多信息融合的手势分割方法，该方法可以适用于不同的复杂环境，结合预检测、肤色检测和前景检测的方式，并用一种验证补充机制将多种检测结果融合，得到较准确和完整的手势分割结果。且该算法允许画面中出现人脸、手臂等其他人体部位。

本发明采用以下技术方案：一种复杂场景下基于多信息融合的手势分割方法，包括以下步骤：

步骤1：图像预处理：对视频图像序列的每一帧图像，进行平滑滤波的预处理，去除图像中存在的一定噪声；

步骤2：预检测：通过事先训练一种分类器，用于检测图像中与手势颜色特征、大小特征、运动特征等相似，容易被误判定为手势的区域，通过该分类器定位到这些区域，并筛除；

步骤3：肤色检测：采用多颜色空间分量的肤色检测方法，建立一个新的颜色空间HLS-CbCr颜色空间，将图像转换到HLS-CbCr颜色空间上，通过事先提取的肤色样本建立肤色模型，根据在HLS-CbCr颜色空间上的肤色模型分布情况，检测出图像中的肤色区域；

步骤4：前景检测：采用基于时空信息改进的混合高斯建模方法进行前景检测，通过为每个背景像素建立一个混合高斯分布模型，判断出图像中的背景部分，从而进一步提取出前景区域。并根据肤色检测的结果设置检测区R(x,y)，为检测区和非检测区分配不同的学习率，并且记录每个像素被判定为背景次数，根据该次数分配不同的学习率，从而更快速地检测出图像中的前景区域；

步骤5：融合多种检测结果进行手势分割：采用一种验证补充机制将肤色检测和前景检测结果融合。通过肤色和前景检测结果的第一次相与操作，提取出其的最大轮廓和外接矩形，并将此外接矩形与前景检测结果相与，对第二次相与结果进行填补操作，从而得到最终完整的手势分割结果。

进一步地，步骤2中所述的预检测，通过事先训练一种分类器，用于检测图像中与手势颜色特征、大小特征、运动特征等相似，容易被误判定为手势的区域，通过该分类器定位到这些区域，并筛除，其具体检测过程如下：

步骤2.1：特征提取：

将样本分为两类,一类为与手势颜色特征、大小特征、运动特征等相似的样本，比如人脸，一类为非相似样本，对所有样本进行Haar特征提取，特征值可以用式表示：

其中，w_i表示第i个矩形特征的权重，RectSum(r_i)是矩形r_i中所有像素的灰度积分，N为组成feature_j的矩形个数。

步骤2.2：分类器训练：

一个Haar特征对应一个弱分类器h_j(x)，表达式如下：

通过不断的调整每个样本的权重创建不同的训练集。初始时，每个样本的权重相同，并且在此类样本下训练出第一个弱分类器h₁。对h₁中分类错误的样本加大其权重，分类正确的样本减小其权重。通过这种方式，新的训练集中，分错的样本比重增加，并再次利用新训练集对弱分类器进行训练，得到弱分类器h₂。以此类推，当循环一定次数之后，将所有弱分类器按权重组合在一起，得到最终的强分类器。

步骤2.3：在线检测：

使用训练得到的强分类器对步骤1得到的去噪图像进行预检测，当检测到类手势区域，该区域内像素值设为0。

进一步地，步骤3中所述的采用多颜色空间分量的肤色检测方法，建立一个新的颜色空间HLS-CbCr颜色空间，将图像转换到HLS-CbCr颜色空间上，通过事先提取的肤色样本建立肤色模型，根据在HLS-CbCr颜色空间上的肤色模型分布情况，检测出图像中的肤色区域，其具体检测过程如下：

步骤3.1：颜色空间转换：

将原始图像中的RGB颜色空间转换为HLS颜色空间和CbCr颜色分量。

步骤3.2：肤色模型建立：

事先提取一段时间内用户手势中不同位置的肤色值，并取每一块区域的中值作为肤色样本进行模型建立。

步骤3.3：多颜色空间分量检测：

对HLS颜色空间分量的规则如下：

A.Median_i-Δ_h1＜H＜Median_i+Δ_h2

B.Median_i-Δ_l1＜L＜Median_i+Δ_l2

C.Median_i-Δ_s1＜S＜Median_i+Δ_s2

Rule1:A∩B∩C

其中，Median_i为每一块肤色样本区域的中值，i为第i块肤色样本区域，Δ_h1、Δ_h2、Δ_l1、Δ_l2Δ_s1、Δ_s2为阈值范围的上下边界容差。∩表示逻辑与操作。

对CbCr颜色空间分量的规则：

D.Median_i-Δ_Cb1＜Cb＜Median_i+Δ_Cb2

E.Median_i-Δ_Cr1＜Cr＜Median_i+Δ_Cr2

Rule2:D∩E

其中，其中，Median_i为每一块肤色样本区域的中值，i为第i块肤色样本区域，Δ_Cb1、Δ_Cb2、Δ_Cr1、Δ_Cr2为阈值范围的上下边界容差。∩表示逻辑与操作。

最终多颜色空间分量HLS-CbCr的肤色检测算法的决策规则为：

Rule:Rule1∪Rule2

对任意像素点，若满足Rule，则为肤色点，否则为非肤色点。

步骤3.4：形态学处理：

对多颜色空间分量检测的结果进行形态学处理，采用中值滤波方法去除图像中的多余噪声。

进一步地，步骤4中所述的采用基于时空信息改进的混合高斯建模方法进行前景检测，通过为每个背景像素建立一个混合高斯分布模型，判断出图像中的背景部分，从而进一步提取出前景区域。并根据肤色检测的结果设置检测区R(x,y)，为检测区和非检测区分配不同的学习率，并且记录每个像素被判定为背景次数，根据该次数分配不同的学习率，从而更快速地检测出图像中的前景区域，其具体检测过程如下：

步骤4.1：背景建模：

对连续若干帧的背景图像进行统计，计算背景中各个像素点的均值和方差，由多个高斯分布的加权平均来表示像素的分布情况，令I_t(x,y)为t时刻像素点(x,y)处的像素，则有：

σ² _i,t＝(1-β)σ² _i,t-1+β(I_t-μ_i,t)²

式中，K为高斯分布的个数，称为高斯混合概率密度的混合系数，通常情况下取3～5。w_i,t为t时刻第i高斯分量的加权系数，称之为权重系数。

步骤4.2：前景检测：

前景检测过程中，按大小将高斯分布从高到低排序，将新像素点I_t与各高斯分布逐一匹配。当该像素点与任一高斯模型都不匹配时，则判定为前景，此时需要根据该像素灰度值构造一个新的高斯分布模型。

新高斯分布模型中，将当前像素值作为分布的期望，同时分配一个较大的方差和较小的权重值。

步骤4.3：背景更新：

当像素被判定为背景时，则需要根据新像素对原有各个高斯分布进行权重的调整：

w_i,t＝(1-α)w_i,t-1+αM_i,t

其中α为学习率，值在0～1之间。当该像素与第i个高斯分布匹配时，则M_i,t＝1，否则M_i,t＝0。

同时，对该像素匹配的高斯模型分布也要做期望和方差的相应更新：

μ_i,t＝(1-β)μ_i,t-1+βI_t

σ_i,t ²＝(1-β)σ_i,t-1 ²+β(I_t-μ_i,t)²

步骤4.4：空间域设置学习率：

在空间上设置检测区R(x,y)，取步骤3中肤色检测结果Bitskin_i(x,y)，其中i＝t-N,…t-1，t。设置检测区为一段时间内所有存在过肤色区域的最大外围矩形：

R(x,y)＝maxRect(Bitskin_t(x,y)∪Bitskin_t-1(x,y)∪....∪Bitskin_t-N(x,y))

对于检测区R(x,y)分配一个较大的学习率，对于一段时间内没有出现过肤色的区域分配一个较小的学习率。从空间维度设置不同的学习率来进行步骤4.3中的背景更新。

步骤4.5：时间域设置学习率：

当前帧每个像素点与K个高斯模型分布进行匹配时，若被判定为背景时，记录该像素点被连续判为背景的次数，并将次数与阈值T进行比较，若大于阈值T，则说明该点长时间作为背景存在，该时刻属于背景的可能性比较大，适当降低学习率。若被判定为前景，则建立一个新的高斯分布模型，新高斯分布模型中，将当前像素值作为分布的期望，并分配一个较大的方差和较小的权重值，同时将判为背景的次数记录设为0，并分配一个较大的学习率。从时间维度设置不同的学习率来进行步骤4.3中的背景更新。

进一步地，步骤5中所述的采用一种验证补充机制将肤色检测和前景检测结果融合。通过肤色和前景检测结果的第一次相与操作，提取出其最大轮廓和外接矩形，并将此外接矩形与前景检测结果相与，对第二次相与结果进行填补操作，从而得到最终完整的手势分割结果，其具体检测过程如下：

步骤5.1：第一次相与：

将步骤3中肤色检测结果与步骤4中前景检测结果进行逻辑与操作。

步骤5.2：提取最大轮廓和外接矩形：

对第一次相与结果，采用八领域搜索法提取出最大轮廓，并计算出该轮廓的外接矩形。

步骤5.3：第二次相与：

将提出的外接矩形与步骤4中的前景检测结果进行逻辑与操作。

步骤5.4：填补空洞：

对第二次相与得到的手势图像，计算出最大轮廓中空洞的像素点，即像素值为0的像素点，补充其像素值为1，从而得到最终的完整手势二值图。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1)融合多颜色空间分量的肤色检测算法解决了肤色聚类性和可区分度间的矛盾，以快速简单的方式定位到图像肤色部分。

2)改进的混合高斯建模的前景检测算法从时间和空间两个维度控制更新率的大小，从而减少了不必要的更新，提高了算法速度。

3)手势分割中加入预检测过程，减少了与手势具有相似颜色特征、运动特征的其他物体或身体部位的影响，使用户不再受限于不能出现人脸或其他身体部位的要求。

4)利用二次相与和验证补充机制，解决了由于光照影响带来的过分割现象，减少了肤色或前景检测中任意一种检测结果不理想所带来的影响。

附图说明

图1是本发明的整体流程图；

图2是肤色检测方法的流程图；

图3是肤色样本提取示意图；

图4是背景中有类肤色情况下的手势分割结果图；

图5是场景复杂，光照不均情况下的手势分割结果图；

图6是出现人脸场景下的手势分割结果图。

具体实施方式

下面结合附图并通过具体实施例，对本发明的技术方案做进一步的详细说明。

以下实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例

本实施例对一段由Logitech C710网络摄像头拍摄的视频序列(640X480像素，30ftps)进行处理。该视频在室内场景中随机拍摄，场景中包含复杂的背景，有类肤色的背景物体出现，有光照的变化，且用户的人脸和手臂等其他身体部位也出现在视频中。图1是本发明的整体流程示意图，本实施例包含以下步骤：

步骤1：图像预处理：对视频图像序列的每一帧图像，进行平滑滤波用3X3窗口中的像素值平均后输出，去除图像中存在的一定噪声。滤波采用核函数为：

在本实施例中，步骤2中所述的预检测，其具体检测过程如下：

步骤2.1：特征提取：

将样本分为两类,一类为与手势颜色特征、大小特征、运动特征等相似的人脸样本，一类为非人脸样本，对所有样本进行Haar特征提取，这些特征的特征值可以用式表示：

步骤2.2：分类器训练：

一个Haar特征对应一个弱分类器h_j(x)，表达式如下：

步骤2.3：在线检测：

使用训练得到的强分类器对步骤1得到的去噪图像进行预检测，当检测到类手势区域即人脸区域，该区域内像素值设为0。

在本实施例中，步骤3中所述的采用多颜色空间分量的肤色检测方法，图2为肤色检测的流程图，其具体检测过程如下：

步骤3.1：颜色空间转换：将原始图像中的RGB颜色空间转换为HLS颜色空间以及CbCr颜色分量。从RGB颜色空间到HLS颜色空间的转换公式如下，设max等价于r,g和b中的最大者，设min等于这些值中的最小者：

YCbCr颜色空间与RGB颜色空间的转换关系：

步骤3.2：肤色模型建立：

事先提取一段时间内用户手势中不同位置的肤色值，并取每一块区域的中值作为肤色样本进行模型建立，经过试验取如图3所示位置的肤色值，共7块肤色样本区域。

步骤3.3：多颜色空间分量检测：

对HLS颜色空间分量的规则如下：

A.Median_i-Δ_h1＜H＜Median_i+Δ_h2

B.Median_i-Δ_l1＜L＜Median_i+Δ_l2

C.Median_i-Δ_s1＜S＜Median_i+Δ_s2

Rule1:A∩B∩C

其中，Median_i为每一块肤色样本区域的中值，i为第i块肤色样本区域，Δ_h1、Δ_h2、Δ_l1、Δ_l2Δ_s1、Δ_s2为阈值范围的上下边界容差，∩表示逻辑与操作。

对CbCr颜色空间分量的规则：

D.Median_i-Δ_Cb1＜Cb＜Median_i+Δ_Cb2

E.Median_i-Δ_Cr1＜Cr＜Median_i+Δ_Cr2

Rule2:D∩E

最终多颜色空间分量HLS-CbCr的肤色检测算法的决策规则为：

Rule:Rule1∪Rule2

对任意像素点，若满足Rule，则为肤色点，否则为非肤色点。

步骤3.4：形态学处理：

在本实施例中，步骤4中所述的采用基于时空信息改进的混合高斯建模方法进行前景检测，其具体检测过程如下：

步骤4.1：背景建模：

σ² _i,t＝(1-β)σ² _i,t-1+β(I_t-μ_i,t)²

式中，K为高斯分布的个数，称为高斯混合概率密度的混合系数，取K＝5。w_i,t为t时刻第i高斯分量的加权系数，称之为权重系数。

步骤4.2：前景检测：

步骤4.3：背景更新：

w_i,t＝(1-α)w_i,t-1+αM_i,t

μ_i,t＝(1-β)μ_i,t-1+βI_t

σ_i,t ²＝(1-β)σ_i,t-1 ²+β(I_t-μ_i,t)²

步骤4.4：空间域设置学习率：

在空间上设置检测区R(x,y)，取步骤3中肤色检测结果Bitskin_i(x,y)，其中i＝t-N,…t-1，t。设置检测区为一段时间内所有存在过肤色区域的最大外围矩形

R(x,y)＝maxRect(Bitskin_t(x,y)∪Bitskin_t-1(x,y)∪....∪Bitskin_t-N(x,y))

步骤4.5：时间域设置学习率：

在本实施例中，步骤5中所述的采用一种验证补充机制将肤色检测和前景检测结果融合，其具体检测过程如下：

步骤5.1：第一次相与：

步骤5.2：提取最大轮廓和外接矩形：

步骤5.3：第二次相与：

步骤5.4：填补空洞：

实施效果

依据上述步骤，对由Logitech C710网络摄像头拍摄的视频序列进行手势分割。图4、图5、图6给出不同场景下的手势分割的结果图，可以看出在复杂场景下，即使场景中有光照影响，背景中含有类肤色的物体，人脸、手臂等身体部位出现在图像中，该发明都能输出较准确的手势分割图像。

所有实验均在PC上实现，计算机参数为：中央处理器Intel(R)Core(TM)i5CPU750@2.67GHz,内存4.00GB。

Claims

1.一种复杂场景下基于多信息融合的手势分割方法，其特征在于，包括以下步骤：

步骤1)：图像预处理：对视频图像序列的每一帧图像，进行平滑滤波的预处理，去除图像中存在的噪声；

步骤2)：预检测：通过事先训练一种分类器，用于检测图像中与手势颜色特征、大小特征、运动特征相似，会被误判定为手势的区域，通过该分类器定位到这些区域，并筛除；

步骤3)：肤色检测：采用多颜色空间分量的肤色检测方法，建立一个新的颜色空间HLS-CbCr颜色空间，通过事先提取的肤色样本建立肤色模型，根据在HLS-CbCr颜色空间上的肤色模型分布情况，检测出图像中的肤色区域；

步骤4)：前景检测：采用基于时空信息改进的混合高斯建模方法进行前景检测，通过混合高斯建模方法提取出前景区域，并根据肤色检测的结果设置检测区R(x,y)，为检测区和非检测区分配不同的学习率，并且记录每个像素被判定为背景次数，根据该次数分配不同的学习率，从而更快速地检测出图像中的前景区域；

步骤5)：融合多种检测结果进行手势分割：采用一种验证补充机制将多种检测结果融合，从而得到最终完整的手势分割结果；

步骤2)中所述的预检测，其具体检测过程如下：

步骤2.1)：特征提取：

将样本分为两类,一类为与手势颜色特征、大小特征、运动特征相似的样本，一类为非相似样本，对所有样本进行特征提取；

步骤2.2)：分类器训练：

通过不断的调整每个样本的权重创建不同的训练集，初始时，每个样本的权重相同，并且在此类样本下训练出第一个弱分类器h₁，对h₁中分类错误的样本加大其权重，分类正确的样本减小其权重；通过这种方式，新的训练集中，分错的样本比重增加，并再次利用新的训练集对弱分类器进行训练，得到弱分类器h₂，以此类推，当循环一定次数之后，将所有弱分类器按权重组合在一起，得到最终的强分类器；

步骤2.3)：在线检测：

使用训练得到的强分类器对步骤1)得到的去噪图像进行预检测，当检测到类手势区域，将该区域内像素值设为0；

步骤3)中所述的采用多颜色空间分量的肤色检测方法，其具体检测过程如下：

步骤3.1)：颜色空间转换：

将原始图像中的RGB颜色空间转换为HLS颜色空间以及CbCr颜色分量；

步骤3.2)：肤色模型建立：

事先提取一段时间内用户手势中不同位置的肤色值，并取每一块区域的中值作为肤色样本进行模型建立；

步骤3.3)：多颜色空间分量检测：

根据步骤3.2)建立的肤色模型进行肤色分割,并将各颜色空间分量上的结果进行结合，得到多颜色空间分量的检测结果；

步骤3.4)：形态学处理：

对多颜色空间分量检测的结果进行形态学处理，采用中值滤波方法去除图像中的多余噪声；

步骤4)中所述的采用基于时空信息改进的混合高斯建模方法进行前景检测，其具体检测过程如下：

步骤4.1)：背景建模：

对连续若干帧的背景图像进行统计，计算背景中各个像素点的均值和方差，由多个高斯分布的加权平均来表示像素的分布情况；

步骤4.2)：前景检测：

前景检测过程中，将新像素点与各高斯分布逐一匹配，当该像素点与任一高斯模型都不匹配时，则判定为前景，此时需要根据该像素灰度值构造一个新的高斯分布模型；新高斯分布模型中，将当前像素值作为分布的期望，同时分配一个较大的方差和较小的权重值；

步骤4.3)：背景更新：

当像素被判定为背景时，则需要根据新像素对原有各个高斯分布进行权重的调整，对该像素匹配的高斯模型分布也要做期望和方差的相应更新；

步骤4.4)：空间域设置学习率：

在空间上设置检测区R(x,y)，设置检测区为一段时间内所有存在过肤色区域的最大外围矩形，对于检测区R(x,y)分配一个较大的学习率，对于一段时间内没有出现过肤色的区域分配一个较小的学习率；

步骤4.5)：时间域设置学习率：

当前帧每个像素点与高斯模型分布进行匹配时，若被判定为背景时，记录该像素点被连续判为背景的次数，并将次数与阈值T进行比较，若大于阈值T，则说明该像素点长时间作为背景存在，当前帧时刻该像素点属于背景的可能性比较大，适当降低学习率；若被判定为前景，则建立一个新的高斯分布模型，新高斯分布模型中，将当前像素值作为分布的期望，并分配一个较大的方差和较小的权重值，同时将判为背景的次数记录设为0，并分配一个较大的学习率；

步骤5)中所述的采用一种验证补充机制将多种检测结果融合，其具体检测过程如下：

步骤5.1)：第一次相与：

将步骤3)中肤色检测结果与步骤4)中前景检测结果进行逻辑与操作；

步骤5.2)：提取最大轮廓和外接矩形：

对第一次相与结果提取出最大轮廓和外接矩形；

步骤5.3)：第二次相与：

将提取出的外接矩形与步骤4)中的前景检测结果进行逻辑与操作；

步骤5.4)：填补空洞：对第二次相与得到的手势图像，补充其空洞的位置，从而得到最终的完整手势二值图。