CN107025442B

CN107025442B - 一种基于颜色和深度信息的多模态融合手势识别方法

Info

Publication number: CN107025442B
Application number: CN201710208523.9A
Authority: CN
Inventors: 萧伟; 刘宏; 丁润伟
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Peking University Shenzhen Graduate School
Priority date: 2017-03-31
Filing date: 2017-03-31
Publication date: 2020-05-01
Anticipated expiration: 2037-03-31
Also published as: CN107025442A

Abstract

本发明涉及一种基于颜色和深度信息的多模态融合手势识别方法，其步骤包括：1)使用彩色摄像机和深度摄像机同时对手势进行拍摄，得到手势的颜色和深度的原始数据；2)使用高斯平滑方法对颜色和深度的原始数据进行滤波，得到颜色和深度的平滑数据；3)将肤色和深度作为先验知识，对颜色和深度的平滑数据分别进行分割，得到肤色分割区域和深度分割区域；4)采用动态权重进行肤色分割区域和深度分割区域的像素层融合，构成融合分割图；5)利用特征描述子对融合分割图提取特征，构成特征图；6)对特征图进行编码，构成手势编码；7)对手势编码进行识别，从而实现对手势的识别。本发明能够得到比现有技术更高的手势识别的准确率。

Description

一种基于颜色和深度信息的多模态融合手势识别方法

技术领域

本发明涉及人机交互技术，特别是手势交互技术，具体涉及一种基于颜色和深度信息的多模态融合手势识别方法。

背景技术

手势识别的含义：从传感器获得的数据中，识别手势含义的过程。

手势识别问题的难点：1)复杂场景中的手势识别，包括复杂背景、复杂前景；2)不同光照条件下的手势识别，包括强光、弱光；3)遮挡和旋转情况下的手势识别，包括，障碍物遮挡，人体遮挡，同一手势的不同姿态旋转。

手势识别的主要处理方法：1)单一模态信息的深入表示与识别；2)多种模态信息的有效融合与识别。

单一模态方法的不足：常用的单一模态通常只能从某一方面表示手势，比如：加速度传感器能够反映手势变化过程中不同方向的加速度变化情况，当手势出现静止，或相似的运动轨迹时，加速度数据相似，难以区别；彩色摄像机能够反映手势的图像形态分布，当手势受到不同环境光线影响，或出现与肤色相近的物体时，难以区别。

多模态信息融合方法的优势：多模态信息融合理论认为，单一种类的传感器数据只能获得关于被测物体的不完备信息，并且容易受到环境影响；而多模态信息融合将多种传感器数据进行有效组合，能够提高完备性和可靠性。

根据信息处理自底向上的层次，将手势识别的多模态信息融合分为：像素层、特征层、决策层。其中，像素层融合具有较强的物理含义，能够从信息源头开展融合，将不可靠的单一模态信息从底层开始就做出有针对性的处理，建立多种模态信息之间的关联，进而得到像素层的多模态信息融合表示。

发明内容

本发明提供一种基于颜色和深度信息的多模态融合手势识别方法，能够将颜色信息和深度信息在像素层进行融合，得到更高的手势识别的准确率。

本发明的基于颜色和深度信息的多模态信息融合手势识别方法，包括以下步骤：

1)使用彩色摄像机和深度摄像机同时对手势进行拍摄，得到手势的颜色和深度的原始数据；

2)对颜色和深度的原始数据进行滤波，得到颜色和深度的平滑数据；

3)将肤色和深度作为先验知识，对颜色和深度的平滑数据分别进行分割，得到肤色分割区域和深度分割区域；

4)采用动态权重进行肤色分割区域和深度分割区域的像素层融合，构成融合分割图；

5)利用特征描述子对融合分割图提取特征，构成特征图；

6)对特征图进行编码，构成手势编码；

7)对手势编码进行识别，从而实现对手势的识别。

关于第2)步，优选使用高斯平滑方法对颜色和深度的原始数据进行滤波。

关于第3)步，肤色分割区域和深度分割区域的计算过程如下：

a)肤色范围在统一白光照射下需满足条件1：R>95,G>40,B>20,max(R,G,B)-min(R,G,B)>15,|R-G|>15,R>G,R>B；肤色范围在闪光或日光照射下需满足条件2：R>220,G>210,B>170,|R-G|<15,R>B,G>B；考虑到肤色光照的多样性，取条件1并条件2构成肤色分割判定条件；

b)在颜色数据R、G、B三个通道的平滑数据使用肤色分割判定条件，得到肤色分割图；

c)对肤色分割图进行灰度化，并进行图像形态学操作：腐蚀和膨胀，构成灰度分割图；

d)根据灰度分割图，在深度原始数据中，将相同像素位置上的深度像素分割出来，构成深度分割图；

e)计算深度分割图中每个连通分割区域的平均深度；

f)选定平均深度最小的分割区域作为深度分割区域；

g)在肤色分割图中将深度分割区域相应的肤色区域选定，作为肤色分割区域。

关于第4)步，动态权重进行手势肤色区域和手势深度区域的像素层融合，具体过程如下：

a)手势深度区域定义为区域d，每个元素为d_i，总共包含元素个数为n_d，手势肤色区域定义为g，每个元素为g_i，总共包含元素个数为n_g；

b)求d内的深度平均值

求g内的肤色平均值

c)求d和g两个区域的并，即两个区域所有像素所在区域的并d∪g；

d)将d∪g归整为矩形区域large(这里将矩形区域定义为large是为了接下来叙述方便，没有特别含义)，该矩形区域为包含d∪g的最小矩形区域，large由两个子区域构成：d∪g子区域和d∪g之外的子区域；

e)构建手势深度区域的权重矩阵wd，该矩阵的规模与large一致，每个元素的计算方法如下：计算手势深度区域的每个元素计算其深度值d_i与m_d的绝对值ad_i＝|d_i-m_d|，该绝对值的倒数

即为权重矩阵该相应元素的值

f)归一化权重矩阵wd；

g)依次类推，构建手势肤色区域的归一化权重矩阵wg；

h)根据wd和wg，对手势深度区域和手势肤色区域进行加权求和，得到融合分割图f，其中每个元素为f_i＝d_i·wd_i+g_i·wg_i。

本发明的有益效果如下：

本发明将颜色信息和深度信息在像素层进行融合，综合利用颜色信息的多通道、信息量丰富、易于提取的特点，以及深度信息不易受到光照、复杂场景影响的特点，形成两种模态数据的信息互补，在手势分割和识别过程中，从信息处理的底层开始，提供一种信息量丰富、形式紧凑的多模态信息综合表示形式，便于识别环节得到更高的识别准确率。

附图说明

图1是实施例中多模态信息融合的手势识别过程的流程图。

具体实施方式

下面通过具体实施例和附图，对本发明做进一步说明。

图1是本实施例的基于多模态信息融合的手势识别过程的流程图，具体包括以下步骤：

2)使用高斯平滑方法对颜色和深度的原始数据进行滤波，得到颜色和深度的平滑数据；

5)利用特征描述子对融合分割图提取特征，构成特征图；

6)对特征图进行编码，构成手势编码；

7)对手势编码进行识别，从而实现对手势的识别。

关于第3)步和第4)步，其具体实施过程见“发明内容”中的描述。

关于第5)步，使用特征描述子对融合分割图提取特征，并不是本专利的发明点，所使用的特征描述子也不局限于某一种特定描述子，常用的特征描述子如SIFT(ScaleInvariant Feature Transform，尺度不变特征转换),SURF(Speed Up Robust Features，加速鲁棒特征),LBP(Local Binary Patterns，局部二值模式)等。

颜色和深度信息像素层融合的效果：较颜色单一模态信息，手势识别准确率平均提升2％-5％；较深度单一模态信息，手势识别准确率平均提升5％-10％。

以上步骤用于描述多模态融合手势识别方法，在具体实施实例中，为方便计算：

1、矩形区域large通常根据使用经验确定为固定大小，例如颜色或深度图像尺寸的五分之一到十分之一。

2、对特征图进行编码，构成手势编码的过程，通常取编码方法为稀疏编码或局部线性编码。

3、对手势编码进行识别所采用的分类器为：支持向量机(SVM，Support VectorMachine)分类器。

请注意：本发明仅使用SVM这个方法，并不针对SVM本身进行创新。

关于SVM分类器的使用分为两步：1、采集带有手势类别标签的数据构成训练集，送入SVM，用于得到第一SVM的模型参数；2、根据得到的模型参数，使用第二SVM对新的不包含手势类别标签的数据进行标签预测。第一SVM与第二SVM共用同一套参数。

关于SVM分类器使用的第一步具体过程如下：

在实验数据的采集过程中，用摄像机和深度传感器记录当前手势的颜色和深度数据，并记录当前被试的手势类别结果(比如用手比划阿拉伯数字1、2、3之类的数字)，手势标签即为1、2、3，这样就建立了实验数据与标签之间的对应关系。进行多人多次重复实验，那么这些实验数据连同标签一起构成训练集，用于训练第一SVM，得到第一SVM的参数，具体训练第一SVM的过程如下：

1)将实验数据进行数据处理，主要步骤参见上文的步骤1)-7)；

2)连同标签一起送入第一SVM分类器进行参数训练，用以训练得到分类器参数。这里我们使用LIBSVM，所以得到的模型参数被自动存储为train.scale.model文件，该文件包含利用LIBSVM进行未知数据标签预测所需要的参数：nr_class代表训练样本集包含的类别个数，rho是判决函数的常数项b，nr_sv是各个类中落在边界上的向量个数，obj是对SVM问题的优化目标函数的值，nSV是支持向量的个数，nBSV是边界支持向量的个数。

关于SVM分类器使用的第二步具体过程如下：

对于新采集的未知手势颜色和深度数据，由于不清楚具体的手势类别标签，我们将第二SVM取成第一SVM相同的模型参数，将颜色和深度数据按照上文的步骤1)-7)处理之后，送入第二SVM进行手势类别标签的预测。具体过程如下：

1)对未知手势采集颜色和深度数据；

2)按照上文的步骤1)-7)进行处理；

3)将处理后的数据送入第二SVM，该分类器根据之前训练集训练得到的模型参数，进行手势类别标签的预测。

上面实施例中对手势编码进行识别所采用的分类器为支持向量机分类器，本发明在该环节并不局限于使用支持向量机分类器，也可选择其它分类器来替代，比如最近邻分类器KNN、随机森林分类器等。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于颜色和深度信息的多模态融合手势识别方法，其步骤包括：

4)采用动态权重进行肤色分割区域和深度分割区域的像素层融合，构成融合分割图；采用动态权重进行肤色分割区域和深度分割区域的像素层融合的方法是：

a)手势深度区域定义为区域d，每个元素为d_i，总共包含元素个数为n_d；手势肤色区域定义为g，每个元素为g_i，总共包含元素个数为n_g；

b)求d内的深度平均值

求g内的肤色平均值

d)将d∪g归整为矩形区域，该矩形区域为包含d∪g的最小矩形区域，该矩形区域由两个子区域构成：d∪g子区域和d∪g之外的子区域；

e)构建手势深度区域的权重矩阵wd，该矩阵的规模与所述矩形区域一致，每个元素的计算方法如下：对于手势深度区域的每个元素计算其深度值d_i与m_d的绝对值ad_i＝|d_i-m_d|，该绝对值的倒数

即为权重矩阵该相应元素的值

f)归一化权重矩阵wd；

g)依次类推，构建手势肤色区域的归一化权重矩阵wg；

h)根据wd和wg，对手势深度区域和手势肤色区域进行加权求和，得到融合分割图f，其中每个元素为f_i＝d_i·wd_i+g_i·wg_i；

5)利用特征描述子对融合分割图提取特征，构成特征图；

6)对特征图进行编码，构成手势编码；

7)对手势编码进行识别，从而实现对手势的识别。

2.如权利要求1所述的方法，其特征在于，步骤2)使用高斯平滑方法对颜色和深度的原始数据进行滤波。

3.如权利要求1所述的方法，其特征在于，步骤3)中肤色分割区域和深度分割区域的计算过程如下：

e)计算深度分割图中每个连通分割区域的平均深度；

f)选定平均深度最小的分割区域作为深度分割区域；

4.如权利要求1所述的方法，其特征在于，所述矩形区域根据使用经验确定为固定大小。

5.如权利要求1所述的方法，其特征在于，步骤5)所述特征描述子为下列中的一种：SIFT，SURF，LBP。

6.如权利要求1所述的方法，其特征在于，步骤6)采用的编码方法为稀疏编码或局部线性编码。

7.如权利要求1所述的方法，其特征在于，步骤7)对手势编码进行识别所采用的分类器为下列中的一种：支持向量机分类器、最近邻分类器、随机森林分类器。