CN109409246B

CN109409246B - 基于稀疏编码的加速鲁棒特征双模态手势意图理解方法

Info

Publication number: CN109409246B
Application number: CN201811158919.8A
Authority: CN
Inventors: 陈略峰; 吴敏; 冯雨; 苏婉娟
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2018-09-30
Filing date: 2018-09-30
Publication date: 2020-11-27
Anticipated expiration: 2038-09-30
Also published as: CN109409246A

Abstract

本发明提供一种基于稀疏编码的加速鲁棒特征双模态手势意图理解方法，包括以下步骤：S1获取同步的深度手势图像和RGB手势图像，分别进行前景图像提取得到第一前景图像和第二前景图像；S2使用SURF算法对第一前景图像进行特征提取，对提取特征进行稀疏编码，使用多类线性SVM算法得到每种预设手势的第一hinge损失函数；S3使用SURF算法对第二前景图像进行特征提取，对提取特征进行稀疏编码，使用多类线性SVM算法得到每种预设手势的第二hinge损失函数；S4使用D‑S证据理论方法分别第一hinge损失函数和第二hinge损失函数进行决策融合得到识别结果。本发明的有益效果：实现深度图像及RGB图像识别结果的决策级数据融合，有效提高了手势图像的识别精度。

Description

基于稀疏编码的加速鲁棒特征双模态手势意图理解方法

技术领域

本发明涉及模式识别技术领域，尤其涉及一种基于稀疏编码的加速鲁棒特征双模态手势意图理解方法。

背景技术

随着对智能人机交互研究的不断深入，对人类行为的识别及理解已经引起了计算机视觉和人工智能领域的极大兴趣。研究表明，对人类行为的识别和理解是人类高度发展的能力。人工智能研究人员一直致力于使机器人能够感知，识别和分析人类行为，从而了解人类的意图和情感。在表达人类活动特征的信号中，肢体语言可以直接表达人类活动的意图，因此其识别研究备受关注。研究表明，人类获取的信息中70％来自视觉，20％来自听觉，视觉信息中除了面部表情，身体姿势也可以传递潜在的意图及情感信息，早在1872年达尔文就在他关于情感表达的著作《The Expressions of Emotions in Human and Animals》中就提出了人的肢体表达在人的意图及情感理解中同样发挥着重要的作用。此后，大量的心理学研究也先后对这一结论进行了深入的研究及验证。不仅如此，人的肢体行为所表现出的各种姿势在表达不同情感的同时，还传递着这种情感的强度信息，如害怕的程度等。此外，通过对人的肢体动作的分析理解，还能进一步推断出行为及情感产生的内在意图。因此，对肢体动作这一表达形式的分析识别，不仅有助于识别人的情感，更有助于实现计算机对情感的理解。总之，对人体手势行为识别的研究具有广阔的发展及应用前景。

手势识别是指从收集人体手势，提取手势特征到翻译成语义意图的整个过程。手势信息可以通过RGB相机、深度相机、可穿戴惯性传感器或其他类型的传感器获得，而RGB-D传感器可以提供同步的彩色和深度图像，其互补性可以大大提高手势识别率。研究表明，多种方法的融合是未来手势识别的发展方向。

发明内容

有鉴于此，本发明的实施例提供了一种基于稀疏编码的加速鲁棒特征双模态手势意图理解方法。

本发明的实施例提供一种基于稀疏编码的加速鲁棒特征双模态手势意图理解方法，包括以下步骤：

S1获取同步的深度手势图像和RGB手势图像，所述手势属于预设的C种手势之一，对深度手势图像进行前景图像提取得到第一前景图像，对RGB手势图像进行前景图像提取得到第二前景图像；

S2使用SURF算法对第一前景图像进行特征提取，对提取的特征进行稀疏编码，并使用多类线性SVM分类算法得到每种预设手势的第一hinge损失函数；

S3使用SURF算法对第二前景图像进行特征提取，对提取的特征进行稀疏编码，并使用多类线性SVM分类算法得到每种预设手势的第二hinge损失函数；

S4使用D-S证据理论方法分别对每种预设手势的第一hinge损失函数和第二hinge损失函数进行决策融合得到识别结果。

进一步地，所述深度手势图像的深度数据包括用户索引，检索所述深度数据的用户索引分割出所述第一前景图像。

进一步地，所述RGB手势图像的前景图像提取方法具体为：

S1.1计算出所述RGB手势图像的最大灰度值Z_max和最小灰度值Z_min，令初始阈值为

S1.2根据阈值T₀将所述RGB手势图像分割成前景图像和背景图像，计算出前景图像的平均灰度值Z₀、背景图像的平均灰度值Z_b和新的阈值

S1.3使用T₁迭代T₀多次重复步骤S1.2，直到T₁＝T₀，得到的前景图像即为所述第二前景图像。

进一步地，所述步骤S2中对提取的特征进行稀疏编码的方法具体为：

S2.1由所述第一前景图像的特征描述符X＝[X₁,X₂,...,X_n]，训练基向量字典

及稀疏表示系数α优化目标函数，其中X是D维特征空间中的一组SURF特征描述符，目标函数为：

其中λ为正则化参数，S(a_i)是稀疏代价函数，

步骤a：首先固定φ_i，调整α_i，使得目标函数最小，

步骤b：然后固定α_i，调整φ_i，使得目标函数最小，

步骤c：多次重复步骤a和b，迭代改变φ_i及α_i直至收敛，得到特征描述符X进行稀疏编码结果a＝[a₁,a₂,...,a_n]。

进一步地，所述步骤S2中使用多类线性SVM分类算法得到每种预设手势的第一hinge损失函数的具体步骤为：

S2.2构造最大池函数，在特征描述符X进行稀疏编码的结果α每列定义以下池函数：

z＝F(φ)

z_j＝max{|α_1j|,|α_2j|,...,|α_Mj|}

其中F(φ)为稀疏码的最大池函数，z为池化特征，z_j是z的第j个元素，α_ij是稀疏编码结果α的第i行和第j列的矩阵元素，M是所述特征描述符X包括SURF特征的数量；

S2.3利用z_j构造线性核函数如下：

其中

为图像特征点(s,t)在l层的稀疏编码最大池函数；

S2.4构造线性SVM的决策函数f(z)

使用训练集

通过一对所有策略训练C个线性SVM，每个SVM的优化目标为：

分别得到每种预设手势的第一hinge损失函数

进一步地，所述步骤S3对于所述第二前景图像使用与所述步骤S2相同的方法获得每种预设手势的hinge损失函数。

进一步地，所述步骤S4具体为：

S4.1分别使用每个第一hinge损失函数

构造

定义识别框架Θ上的基本概率分配为：

其中Θ＝[H1₁,H1₂,…,H1_C]，其中H1_j的手势类别为j，j∈{1,2，...C}，0<β<1为控制参数，φ_j为满足以下条件的递减函数:

φ_j(0)＝0

S4.2根据D-S证据理论分别计算C个手势类别的mass函数m_g1(H1_j)，得到包括C个mass函数的第一全局BPA，mass函数的计算方法如下：

p∈{1,...,C}

其中：

S4.3对于C个第二hinge损失函数重复步骤S4.1和4.2，得到包括C个mass函数m_g2(H2_j)的第二全局BPA；

S4.4由所述第一全局BPA和所述第二全局BPA，计算出组合mass函数M_j(A)，计算方法如下：

S4.5筛选出C个组合mass函数M_j(A)的最大值MAX(M_j(A))，确定第j种手势为识别结果。

进一步地，所述步骤S2中使用SURF算法对第一前景图像进行特征提取获得的图像特征为64维特征描述子。

进一步地，所述深度手势图像通过Kinect设备获取。

本发明的实施例提供的技术方案带来的有益效果是：本发明基于稀疏编码的加速鲁棒特征双模态手势意图理解方法，利用加速鲁棒特征算法提取手势图像的边界角点的SURF特征，具有旋转及尺度不变性，同时可以实时提取，引入稀疏编码处理高维SURF特征，对SURF特征进行稀疏编码进一步准确提取图像深层特征，效果较好，引入D-S证据推理实现深度图像及RGB图像识别结果的决策级数据融合，有效提高了手势图像的识别精度。

附图说明

图1是本发明基于稀疏编码的加速鲁棒特征双模态手势意图理解方法的流程图；

图2是本发明中的深度手势图像的16位深度数据示意图；

图3是由ChaLearn Gesture Dataset(CGD2011)手势数据库中选择的深度手势图像和RGB手势图像；

图4是由Cornell Activity Datasets(CAD-60)手势数据库中选择的深度手势图像和RGB手势图像；

图5是使用CGD2011数据库中深度手势图像和RGB手势图像5种方法识别结果对比图像；

图6是使用CAD-60数据库中深度手势图像和RGB手势图像5种方法识别结果对比图像。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地描述。

请参考图1，本发明的实施例提供了一种基于稀疏编码的加速鲁棒特征双模态手势意图理解方法，包括以下步骤：

下面对上述方法进行详细解释：

所述步骤S1具体为：使用Kinect设备获取同步的深度手势图像和RGB手势图像，并对所述深度手势图像和所述RGB手势图像进行预处理提取前景图像。

请参考图2，本实施例中所述深度手势图像的深度数据包括用户索引，所述深度数据由16位二进制数字组成，其中高13位表示用户与Kinect设备之间的距离，低3位是用户索引，低三位从000到111，分别代表背景，用户1至用户6。所述深度手势图像的前景图像提取方法为：

S101读所述深度手势图像上各点的16位深度数据表示为DepthID，判断其低三位USHORTplayer＝DepthID&0x07是否为0；

S102若USHORTplayer为0，则该点为背景点，深度数据置为0；

S103若USHORTplayer不为0，则该点为前景点，保留该点深度数据；

S104遍历所述深度手势图像的任何一点，重复步骤S101～S103，完成所述深度手势图像的前景图像提取，得到所述第一前景图像。

所述RGB手势图像通过迭代阈值方法实现前景图像分割，依据图像灰度值T进行分割，T不断迭代，当T不再变化时即为最终分割的阈值，具体方法如下：

所述步骤S2为通过对所述第一前景图进行特征提取和处理得到所述第一识别结果，即获得通过所述深度手势图像得到每种预设手势的第一hinge损失函数，其中使用加速鲁棒特征算法(SURF算法)对第一前景图像进行特征提取的具体方法为：

S201构造Hessian矩阵和尺度空间表示，

通过计算下式构造Hessian矩阵，并用积分图像代替卷积来简化计算过程：

其中σ表示所述第一前景图像中点(x，y)的尺度参数，L_xx(x,σ)是高斯二阶微分

在点x处与第一前景图像I的卷积，积分图像计算公式：

I_∑(x,y)为图像上点(i,j)的积分图像值，积分图像是对高斯卷积运算的简化，

采用盒子滤波器近似计算Hessian矩阵的行列式：

Det(H)＝L_xx*L_yy-(L_xy)²≈D_xxD_yy-(0.9D_xy)²

S202确定特征点及其主方向，使用非极大值抑制来初始确定特征点并通过插值精确定位特征点，然后计算特征点附近的Harr小波响应值的dx，dy以及每个特征点的角度，并选择最大响应角度为主方向。

S203生成特征描述子，在所述第一前景图像上选取50个特征点，对于要选择的每个特征点，选择长度为20s的邻域(s是特征点的比例)，并根据主方向旋转，然后将该区域划分为4×4＝16个子区域，计算Haar小波在水平和垂直方向上的响应计算，并统计每个子区域中的以下4个值[∑dx,∑dy,∑|dx|,∑|dy|]，得到16×4＝64维的SURF特征，这50个点的SURF特征构成所述第一前景图像的特征描述符X₀。

所述步骤S2中对提取的特征进行稀疏编码的方法具体为：

S2.1训练阶段，使用预设的训练图像特征X＝[X₁,X₂,...,X_n]、训练基向量字典

其中λ为正则化参数，S(a_i)是稀疏代价函数S(.)是稀疏代价函数，本实施例中λ＝0.15，S(a_i)为L1范数代价函数S(a_i)＝|a_i|₁或对数代价函数S(a_i)＝log(1+a_i ²)，按照如下方法优化训练：

步骤a：首先固定φ_i，调整α_i，使得目标函数最小，

步骤b：然后固定α_i，调整φ_i，使得目标函数最小，

所述步骤S2中使用多类线性SVM分类算法得到每种预设手势的第一hinge损失函数的具体步骤为：

z＝F(φ)

z_j＝max{|α_1j|,|α_2j|,...,|α_Mj|}

其中F(φ)为稀疏码的最大池函数，z为池化特征，z_j是z的第j个元素，α_ij是稀疏编码结果α的第i行和第j列的矩阵元素，M是特征描述符X₀包括的SURF特征的数量；

S2.4利用z_j构造线性核函数如下：

其中

为图像特征点(s,t)在l层的稀疏编码最大池函数；

S2.5构造线性SVM的决策函数f(z)

使用训练集

通过一对所有策略训练C个线性SVM，每个SVM的优化目标为：

分别得到每种预设手势的第一hinge损失函数

所述步骤S3中使用SURF算法对第二前景图像进行特征提取，对提取的特征进行稀疏编码，并使用多类线性SVM分类算法得到每种预设手势的第二hinge损失函数，所使用的方法与所述步骤S2完全相同。

所述步骤S4决策融合，得到识别结果的具体步骤为：

S4.1分别使用每个第一hinge损失函数

构造

定义识别框架Θ上的基本概率分配为：

φ_j(0)＝0

p∈{1,...,C}

其中：

S4.3对于C个hinge损失函数重复步骤S4.1和4.2，得到包括C个mass函数m_g2(H2_j)的第二全局BPA；

举例对上述基于稀疏编码的加速鲁棒特征双模态手势意图理解方法进行验证：本发明使用两个数据库对上述方法进行验证，包括ChaLearn手势数据集(CGD 2011)和Cornell Activity Datasets(CAD-60)手势数据库，其中ChaLearn手势数据集(CGD 2011)是由Microsoft Kinect录制的视频格式的人体手势数据库。这两个数据库包含同步的深度手势和RGB手势视频，这使其适用于深度和RGB信息融合方法的手势识别。

对于ChaLearn手势数据集视频中每帧的图像大小为320*240，在对手势图像进行处理之前需要先对训练数据库进行预处理，我们在不同视频中提取每种手势的深度图像和RGB图像帧，并且从成千上万张手势图像中选择代表性的7种手势。请参考图3，我们为每种手势选择200张图像，RGB图像和深度图像各占一半，总共1400张图像，将7类手势分别标记为1到7，分别表示7种手势意图，使用上述基于稀疏编码的加速鲁棒特征双模态手势意图理解方法进行识别得到识别得到的实验结果如表1所示。

CAD-60数据库由康奈尔大学机器人实验室的成员收集的RGB-D数据库，它使用Microsoft Kinect记录60个RGB-D视频，包括4个人(2男2女)在5种不同环境中的12类动作，5种环境包括办公室，厨房，卧室，浴室和客厅，12类活动是漱口，刷牙，戴隐形眼镜，打电话，饮水，喝药动作，切菜，炒菜，在沙发上聊天，在沙发上休息，在白板上写字，面对电脑办公。数据库还提供了视频格式中每帧的图，RGB-D图像的分辨率为320*240。,请参考图4，在办公室环境中选择一个人的7种不同手势的深度和RGB数据，使用上述基于稀疏编码的加速鲁棒特征双模态手势意图理解方法进行识别得到识别得到的实验结果如表2所示。

表1：实验方法所得结果(针对CGD2011数据库)

表2：实验方法所得结果(针对CAD-60数据库)

由表1和表2可以说明：上述基于稀疏编码的加速鲁棒特征双模态手势意图理解方法的识别精度高于单独使用深度手势图像识别结果和使用单独RGB手势图像识别结果。

另外为了验证上述基于稀疏编码的加速鲁棒特征双模态手势意图理解方法的准确性，本实施例进行了以下对比实验。

对比实验1：去除所述步骤S2和所述步骤S3中的稀疏编码步骤，直接将提取的SURF特征输入SVM进行分类和识别，最后使用D-S证据理论进行数据融合。

比较实验2：在所述步骤S2和所述步骤S3中我们使用稀疏表示分类器(SRC)来分类SURF特征而不是SVM，最后使用D-S证据理论进行决策级融合。

比较结果如图5及图6所示，在图5中选择使用图3中CGD2011数据库RGB手势图像和深度手势图，图6中选择使用图4中CAD-60数据库RGB手势图像和深度手势图，A1表示使用上述基于稀疏编码的加速鲁棒特征双模态手势意图理解方法的识别结果，A2和A3分别表示仅使用RGB手势图像和深度手势图像进行识别的结果，A4表示对比实验1的识别结果，A5表示对比实验2的识别结果。可以看出，上述基于稀疏编码的加速鲁棒特征双模态手势意图理解方法的识别精度明显优于其他方法，体现出深度数据与RGB数据的互补性，以及图像识别中多层特征提取对于识别效果的作用。

在不冲突的情况下，本文中上述实施例及实施例中的特征可以相互结合。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于稀疏编码的加速鲁棒特征双模态手势意图理解方法，其特征在于，包括以下步骤：

S1获取同步的深度手势图像和RGB手势图像，所述手势属于预设的C种手势之一，对深度手势图像进行前景图像提取得到第一前景图像，对RGB手势图像进行前景图像提取得到第二前景图像，其中：

所述深度手势图像的深度数据包括用户索引，所述深度数据由16位二进制数字组成，其中高13位表示用户与获取深度手势图像数据的设备之间的距离，低3位是用户索引，低三位从000到110，分别代表背景，用户1至用户6，所述深度手势图像的前景图像提取方法为：

S101读取所述深度手势图像上各点的16位深度数据表示为DepthID，判断其低三位USHORTplayer＝DepthID&0x07是否为0；

S102若USHORTplayer为0，则该点为背景点，深度数据置为0；

S104遍历所述深度手势图像的任何一点，重复步骤S101～S103，完成所述深度手势图像的前景图像提取，得到所述第一前景图像；

S1.3使用T₁迭代步骤S1.2中的T₀，多次重复步骤S1.2，直到T₁＝T₀，得到的前景图像即为所述第二前景图像；

S2使用SURF算法对第一前景图像进行特征提取，对提取的特征进行稀疏编码，并使用多类线性SVM分类算法得到每种预设手势的第一hinge损失函数，其中：

使用加速鲁棒特征算法对第一前景图像进行特征提取的具体方法为：

S201构造Hessian矩阵和尺度空间表示，

在点x处与第一前景图像I的卷积，积分图像计算公式：

I_∑(x,y)为图像上点(i,j)的积分图像值，积分图像是对高斯卷积运算的简化，采用盒子滤波器近似计算Hessian矩阵的行列式：

Det(H)＝L_xx*L_yy-(L_xy)²≈D_xxD_yy-(0.9D_xy)²

S202确定特征点及其主方向，使用非极大值抑制来初始确定特征点并通过插值精确定位特征点，然后计算特征点附近的Harr小波响应值的dx，dy以及每个特征点的角度，并选择最大响应角度为主方向；

S203生成特征描述子，在所述第一前景图像上选取50个特征点，对于要选择的每个特征点，选择长度为20s的区域，s是特征点的比例，并根据主方向旋转，然后将该区域划分为4×4＝16个子区域，计算Haar小波在水平和垂直方向上的响应计算，并统计每个子区域中的以下4个值[∑dx,∑dy,∑|dx|,∑|dy|]，得到16×4＝64维的SURF特征，这50个点的SURF特征构成所述第一前景图像的特征描述符X₀；

对提取的特征进行稀疏编码的方法具体为：