CN109409246B - 基于稀疏编码的加速鲁棒特征双模态手势意图理解方法 - Google Patents

基于稀疏编码的加速鲁棒特征双模态手势意图理解方法 Download PDF

Info

Publication number
CN109409246B
CN109409246B CN201811158919.8A CN201811158919A CN109409246B CN 109409246 B CN109409246 B CN 109409246B CN 201811158919 A CN201811158919 A CN 201811158919A CN 109409246 B CN109409246 B CN 109409246B
Authority
CN
China
Prior art keywords
image
gesture
function
foreground image
depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811158919.8A
Other languages
English (en)
Other versions
CN109409246A (zh
Inventor
陈略峰
吴敏
冯雨
苏婉娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN201811158919.8A priority Critical patent/CN109409246B/zh
Publication of CN109409246A publication Critical patent/CN109409246A/zh
Application granted granted Critical
Publication of CN109409246B publication Critical patent/CN109409246B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于稀疏编码的加速鲁棒特征双模态手势意图理解方法,包括以下步骤:S1获取同步的深度手势图像和RGB手势图像,分别进行前景图像提取得到第一前景图像和第二前景图像;S2使用SURF算法对第一前景图像进行特征提取,对提取特征进行稀疏编码,使用多类线性SVM算法得到每种预设手势的第一hinge损失函数;S3使用SURF算法对第二前景图像进行特征提取,对提取特征进行稀疏编码,使用多类线性SVM算法得到每种预设手势的第二hinge损失函数;S4使用D‑S证据理论方法分别第一hinge损失函数和第二hinge损失函数进行决策融合得到识别结果。本发明的有益效果:实现深度图像及RGB图像识别结果的决策级数据融合,有效提高了手势图像的识别精度。

Description

基于稀疏编码的加速鲁棒特征双模态手势意图理解方法
技术领域
本发明涉及模式识别技术领域,尤其涉及一种基于稀疏编码的加速鲁棒特征双模态手势意图理解方法。
背景技术
随着对智能人机交互研究的不断深入,对人类行为的识别及理解已经引起了计算机视觉和人工智能领域的极大兴趣。研究表明,对人类行为的识别和理解是人类高度发展的能力。人工智能研究人员一直致力于使机器人能够感知,识别和分析人类行为,从而了解人类的意图和情感。在表达人类活动特征的信号中,肢体语言可以直接表达人类活动的意图,因此其识别研究备受关注。研究表明,人类获取的信息中70%来自视觉,20%来自听觉,视觉信息中除了面部表情,身体姿势也可以传递潜在的意图及情感信息,早在1872年达尔文就在他关于情感表达的著作《The Expressions of Emotions in Human and Animals》中就提出了人的肢体表达在人的意图及情感理解中同样发挥着重要的作用。此后,大量的心理学研究也先后对这一结论进行了深入的研究及验证。不仅如此,人的肢体行为所表现出的各种姿势在表达不同情感的同时,还传递着这种情感的强度信息,如害怕的程度等。此外,通过对人的肢体动作的分析理解,还能进一步推断出行为及情感产生的内在意图。因此,对肢体动作这一表达形式的分析识别,不仅有助于识别人的情感,更有助于实现计算机对情感的理解。总之,对人体手势行为识别的研究具有广阔的发展及应用前景。
手势识别是指从收集人体手势,提取手势特征到翻译成语义意图的整个过程。手势信息可以通过RGB相机、深度相机、可穿戴惯性传感器或其他类型的传感器获得,而RGB-D传感器可以提供同步的彩色和深度图像,其互补性可以大大提高手势识别率。研究表明,多种方法的融合是未来手势识别的发展方向。
发明内容
有鉴于此,本发明的实施例提供了一种基于稀疏编码的加速鲁棒特征双模态手势意图理解方法。
本发明的实施例提供一种基于稀疏编码的加速鲁棒特征双模态手势意图理解方法,包括以下步骤:
S1获取同步的深度手势图像和RGB手势图像,所述手势属于预设的C种手势之一,对深度手势图像进行前景图像提取得到第一前景图像,对RGB手势图像进行前景图像提取得到第二前景图像;
S2使用SURF算法对第一前景图像进行特征提取,对提取的特征进行稀疏编码,并使用多类线性SVM分类算法得到每种预设手势的第一hinge损失函数;
S3使用SURF算法对第二前景图像进行特征提取,对提取的特征进行稀疏编码,并使用多类线性SVM分类算法得到每种预设手势的第二hinge损失函数;
S4使用D-S证据理论方法分别对每种预设手势的第一hinge损失函数和第二hinge损失函数进行决策融合得到识别结果。
进一步地,所述深度手势图像的深度数据包括用户索引,检索所述深度数据的用户索引分割出所述第一前景图像。
进一步地,所述RGB手势图像的前景图像提取方法具体为:
S1.1计算出所述RGB手势图像的最大灰度值Zmax和最小灰度值Zmin,令初始阈值为
Figure BDA0001819572750000031
S1.2根据阈值T0将所述RGB手势图像分割成前景图像和背景图像,计算出前景图像的平均灰度值Z0、背景图像的平均灰度值Zb和新的阈值
Figure BDA0001819572750000032
S1.3使用T1迭代T0多次重复步骤S1.2,直到T1=T0,得到的前景图像即为所述第二前景图像。
进一步地,所述步骤S2中对提取的特征进行稀疏编码的方法具体为:
S2.1由所述第一前景图像的特征描述符X=[X1,X2,...,Xn],训练基向量字典
Figure BDA0001819572750000033
及稀疏表示系数α优化目标函数,其中X是D维特征空间中的一组SURF特征描述符,目标函数为:
Figure BDA0001819572750000034
其中λ为正则化参数,S(ai)是稀疏代价函数,
步骤a:首先固定φi,调整αi,使得目标函数最小,
步骤b:然后固定αi,调整φi,使得目标函数最小,
步骤c:多次重复步骤a和b,迭代改变φi及αi直至收敛,得到特征描述符X进行稀疏编码结果a=[a1,a2,...,an]。
进一步地,所述步骤S2中使用多类线性SVM分类算法得到每种预设手势的第一hinge损失函数的具体步骤为:
S2.2构造最大池函数,在特征描述符X进行稀疏编码的结果α每列定义以下池函数:
z=F(φ)
zj=max{|α1j|,|α2j|,...,|αMj|}
其中F(φ)为稀疏码的最大池函数,z为池化特征,zj是z的第j个元素,αij是稀疏编码结果α的第i行和第j列的矩阵元素,M是所述特征描述符X包括SURF特征的数量;
S2.3利用zj构造线性核函数如下:
Figure BDA0001819572750000041
其中
Figure BDA0001819572750000042
为图像特征点(s,t)在l层的稀疏编码最大池函数;
S2.4构造线性SVM的决策函数f(z)
Figure BDA0001819572750000043
使用训练集
Figure BDA0001819572750000044
通过一对所有策略训练C个线性SVM,每个SVM的优化目标为:
Figure BDA0001819572750000045
分别得到每种预设手势的第一hinge损失函数
Figure BDA0001819572750000046
Figure BDA0001819572750000047
进一步地,所述步骤S3对于所述第二前景图像使用与所述步骤S2相同的方法获得每种预设手势的hinge损失函数。
进一步地,所述步骤S4具体为:
S4.1分别使用每个第一hinge损失函数
Figure BDA0001819572750000051
构造
Figure BDA0001819572750000052
定义识别框架Θ上的基本概率分配为:
Figure BDA0001819572750000053
Figure BDA0001819572750000054
Figure BDA0001819572750000055
其中Θ=[H11,H12,…,H1C],其中H1j的手势类别为j,j∈{1,2,...C},0<β<1为控制参数,φj为满足以下条件的递减函数:
φj(0)=0
Figure BDA0001819572750000056
S4.2根据D-S证据理论分别计算C个手势类别的mass函数mg1(H1j),得到包括C个mass函数的第一全局BPA,mass函数的计算方法如下:
Figure BDA0001819572750000057
p∈{1,...,C}
Figure BDA0001819572750000058
其中:
Figure BDA0001819572750000059
S4.3对于C个第二hinge损失函数重复步骤S4.1和4.2,得到包括C个mass函数mg2(H2j)的第二全局BPA;
S4.4由所述第一全局BPA和所述第二全局BPA,计算出组合mass函数Mj(A),计算方法如下:
Figure BDA0001819572750000061
Figure BDA0001819572750000062
S4.5筛选出C个组合mass函数Mj(A)的最大值MAX(Mj(A)),确定第j种手势为识别结果。
进一步地,所述步骤S2中使用SURF算法对第一前景图像进行特征提取获得的图像特征为64维特征描述子。
进一步地,所述深度手势图像通过Kinect设备获取。
本发明的实施例提供的技术方案带来的有益效果是:本发明基于稀疏编码的加速鲁棒特征双模态手势意图理解方法,利用加速鲁棒特征算法提取手势图像的边界角点的SURF特征,具有旋转及尺度不变性,同时可以实时提取,引入稀疏编码处理高维SURF特征,对SURF特征进行稀疏编码进一步准确提取图像深层特征,效果较好,引入D-S证据推理实现深度图像及RGB图像识别结果的决策级数据融合,有效提高了手势图像的识别精度。
附图说明
图1是本发明基于稀疏编码的加速鲁棒特征双模态手势意图理解方法的流程图;
图2是本发明中的深度手势图像的16位深度数据示意图;
图3是由ChaLearn Gesture Dataset(CGD2011)手势数据库中选择的深度手势图像和RGB手势图像;
图4是由Cornell Activity Datasets(CAD-60)手势数据库中选择的深度手势图像和RGB手势图像;
图5是使用CGD2011数据库中深度手势图像和RGB手势图像5种方法识别结果对比图像;
图6是使用CAD-60数据库中深度手势图像和RGB手势图像5种方法识别结果对比图像。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地描述。
请参考图1,本发明的实施例提供了一种基于稀疏编码的加速鲁棒特征双模态手势意图理解方法,包括以下步骤:
S1获取同步的深度手势图像和RGB手势图像,所述手势属于预设的C种手势之一,对深度手势图像进行前景图像提取得到第一前景图像,对RGB手势图像进行前景图像提取得到第二前景图像;
S2使用SURF算法对第一前景图像进行特征提取,对提取的特征进行稀疏编码,并使用多类线性SVM分类算法得到每种预设手势的第一hinge损失函数;
S3使用SURF算法对第二前景图像进行特征提取,对提取的特征进行稀疏编码,并使用多类线性SVM分类算法得到每种预设手势的第二hinge损失函数;
S4使用D-S证据理论方法分别对每种预设手势的第一hinge损失函数和第二hinge损失函数进行决策融合得到识别结果。
下面对上述方法进行详细解释:
所述步骤S1具体为:使用Kinect设备获取同步的深度手势图像和RGB手势图像,并对所述深度手势图像和所述RGB手势图像进行预处理提取前景图像。
请参考图2,本实施例中所述深度手势图像的深度数据包括用户索引,所述深度数据由16位二进制数字组成,其中高13位表示用户与Kinect设备之间的距离,低3位是用户索引,低三位从000到111,分别代表背景,用户1至用户6。所述深度手势图像的前景图像提取方法为:
S101读所述深度手势图像上各点的16位深度数据表示为DepthID,判断其低三位USHORTplayer=DepthID&0x07是否为0;
S102若USHORTplayer为0,则该点为背景点,深度数据置为0;
S103若USHORTplayer不为0,则该点为前景点,保留该点深度数据;
S104遍历所述深度手势图像的任何一点,重复步骤S101~S103,完成所述深度手势图像的前景图像提取,得到所述第一前景图像。
所述RGB手势图像通过迭代阈值方法实现前景图像分割,依据图像灰度值T进行分割,T不断迭代,当T不再变化时即为最终分割的阈值,具体方法如下:
S1.1计算出所述RGB手势图像的最大灰度值Zmax和最小灰度值Zmin,令初始阈值为
Figure BDA0001819572750000081
S1.2根据阈值T0将所述RGB手势图像分割成前景图像和背景图像,计算出前景图像的平均灰度值Z0、背景图像的平均灰度值Zb和新的阈值
Figure BDA0001819572750000082
S1.3使用T1迭代T0多次重复步骤S1.2,直到T1=T0,得到的前景图像即为所述第二前景图像。
所述步骤S2为通过对所述第一前景图进行特征提取和处理得到所述第一识别结果,即获得通过所述深度手势图像得到每种预设手势的第一hinge损失函数,其中使用加速鲁棒特征算法(SURF算法)对第一前景图像进行特征提取的具体方法为:
S201构造Hessian矩阵和尺度空间表示,
通过计算下式构造Hessian矩阵,并用积分图像代替卷积来简化计算过程:
Figure BDA0001819572750000091
其中σ表示所述第一前景图像中点(x,y)的尺度参数,Lxx(x,σ)是高斯二阶微分
Figure BDA0001819572750000092
在点x处与第一前景图像I的卷积,积分图像计算公式:
Figure BDA0001819572750000093
I∑(x,y)为图像上点(i,j)的积分图像值,积分图像是对高斯卷积运算的简化,
采用盒子滤波器近似计算Hessian矩阵的行列式:
Det(H)=Lxx*Lyy-(Lxy)2≈DxxDyy-(0.9Dxy)2
S202确定特征点及其主方向,使用非极大值抑制来初始确定特征点并通过插值精确定位特征点,然后计算特征点附近的Harr小波响应值的dx,dy以及每个特征点的角度,并选择最大响应角度为主方向。
S203生成特征描述子,在所述第一前景图像上选取50个特征点,对于要选择的每个特征点,选择长度为20s的邻域(s是特征点的比例),并根据主方向旋转,然后将该区域划分为4×4=16个子区域,计算Haar小波在水平和垂直方向上的响应计算,并统计每个子区域中的以下4个值[∑dx,∑dy,∑|dx|,∑|dy|],得到16×4=64维的SURF特征,这50个点的SURF特征构成所述第一前景图像的特征描述符X0
所述步骤S2中对提取的特征进行稀疏编码的方法具体为:
S2.1训练阶段,使用预设的训练图像特征X=[X1,X2,...,Xn]、训练基向量字典
Figure BDA0001819572750000094
及稀疏表示系数α优化目标函数,其中X是D维特征空间中的一组SURF特征描述符,目标函数为:
Figure BDA0001819572750000101
其中λ为正则化参数,S(ai)是稀疏代价函数S(.)是稀疏代价函数,本实施例中λ=0.15,S(ai)为L1范数代价函数S(ai)=|ai|1或对数代价函数S(ai)=log(1+ai 2),按照如下方法优化训练:
步骤a:首先固定φi,调整αi,使得目标函数最小,
步骤b:然后固定αi,调整φi,使得目标函数最小,
步骤c:多次重复步骤a和b,迭代改变φi及αi直至收敛,得到特征描述符X进行稀疏编码结果a=[a1,a2,...,an]。
所述步骤S2中使用多类线性SVM分类算法得到每种预设手势的第一hinge损失函数的具体步骤为:
S2.2构造最大池函数,在特征描述符X进行稀疏编码的结果α每列定义以下池函数:
z=F(φ)
zj=max{|α1j|,|α2j|,...,|αMj|}
其中F(φ)为稀疏码的最大池函数,z为池化特征,zj是z的第j个元素,αij是稀疏编码结果α的第i行和第j列的矩阵元素,M是特征描述符X0包括的SURF特征的数量;
S2.4利用zj构造线性核函数如下:
Figure BDA0001819572750000111
其中
Figure BDA0001819572750000112
为图像特征点(s,t)在l层的稀疏编码最大池函数;
S2.5构造线性SVM的决策函数f(z)
Figure BDA0001819572750000113
使用训练集
Figure BDA0001819572750000114
通过一对所有策略训练C个线性SVM,每个SVM的优化目标为:
Figure BDA0001819572750000115
分别得到每种预设手势的第一hinge损失函数
Figure BDA0001819572750000116
Figure BDA0001819572750000117
所述步骤S3中使用SURF算法对第二前景图像进行特征提取,对提取的特征进行稀疏编码,并使用多类线性SVM分类算法得到每种预设手势的第二hinge损失函数,所使用的方法与所述步骤S2完全相同。
所述步骤S4决策融合,得到识别结果的具体步骤为:
S4.1分别使用每个第一hinge损失函数
Figure BDA0001819572750000118
构造
Figure BDA0001819572750000119
定义识别框架Θ上的基本概率分配为:
Figure BDA00018195727500001110
Figure BDA00018195727500001111
Figure BDA00018195727500001112
其中Θ=[H11,H12,…,H1C],其中H1j的手势类别为j,j∈{1,2,...C},0<β<1为控制参数,φj为满足以下条件的递减函数:
φj(0)=0
Figure BDA0001819572750000121
S4.2根据D-S证据理论分别计算C个手势类别的mass函数mg1(H1j),得到包括C个mass函数的第一全局BPA,mass函数的计算方法如下:
Figure BDA0001819572750000122
p∈{1,...,C}
Figure BDA0001819572750000123
其中:
Figure BDA0001819572750000124
S4.3对于C个hinge损失函数重复步骤S4.1和4.2,得到包括C个mass函数mg2(H2j)的第二全局BPA;
S4.4由所述第一全局BPA和所述第二全局BPA,计算出组合mass函数Mj(A),计算方法如下:
Figure BDA0001819572750000125
Figure BDA0001819572750000126
S4.5筛选出C个组合mass函数Mj(A)的最大值MAX(Mj(A)),确定第j种手势为识别结果。
举例对上述基于稀疏编码的加速鲁棒特征双模态手势意图理解方法进行验证:本发明使用两个数据库对上述方法进行验证,包括ChaLearn手势数据集(CGD 2011)和Cornell Activity Datasets(CAD-60)手势数据库,其中ChaLearn手势数据集(CGD 2011)是由Microsoft Kinect录制的视频格式的人体手势数据库。这两个数据库包含同步的深度手势和RGB手势视频,这使其适用于深度和RGB信息融合方法的手势识别。
对于ChaLearn手势数据集视频中每帧的图像大小为320*240,在对手势图像进行处理之前需要先对训练数据库进行预处理,我们在不同视频中提取每种手势的深度图像和RGB图像帧,并且从成千上万张手势图像中选择代表性的7种手势。请参考图3,我们为每种手势选择200张图像,RGB图像和深度图像各占一半,总共1400张图像,将7类手势分别标记为1到7,分别表示7种手势意图,使用上述基于稀疏编码的加速鲁棒特征双模态手势意图理解方法进行识别得到识别得到的实验结果如表1所示。
CAD-60数据库由康奈尔大学机器人实验室的成员收集的RGB-D数据库,它使用Microsoft Kinect记录60个RGB-D视频,包括4个人(2男2女)在5种不同环境中的12类动作,5种环境包括办公室,厨房,卧室,浴室和客厅,12类活动是漱口,刷牙,戴隐形眼镜,打电话,饮水,喝药动作,切菜,炒菜,在沙发上聊天,在沙发上休息,在白板上写字,面对电脑办公。数据库还提供了视频格式中每帧的图,RGB-D图像的分辨率为320*240。,请参考图4,在办公室环境中选择一个人的7种不同手势的深度和RGB数据,使用上述基于稀疏编码的加速鲁棒特征双模态手势意图理解方法进行识别得到识别得到的实验结果如表2所示。
表1:实验方法所得结果(针对CGD2011数据库)
Figure BDA0001819572750000141
表2:实验方法所得结果(针对CAD-60数据库)
Figure BDA0001819572750000151
由表1和表2可以说明:上述基于稀疏编码的加速鲁棒特征双模态手势意图理解方法的识别精度高于单独使用深度手势图像识别结果和使用单独RGB手势图像识别结果。
另外为了验证上述基于稀疏编码的加速鲁棒特征双模态手势意图理解方法的准确性,本实施例进行了以下对比实验。
对比实验1:去除所述步骤S2和所述步骤S3中的稀疏编码步骤,直接将提取的SURF特征输入SVM进行分类和识别,最后使用D-S证据理论进行数据融合。
比较实验2:在所述步骤S2和所述步骤S3中我们使用稀疏表示分类器(SRC)来分类SURF特征而不是SVM,最后使用D-S证据理论进行决策级融合。
比较结果如图5及图6所示,在图5中选择使用图3中CGD2011数据库RGB手势图像和深度手势图,图6中选择使用图4中CAD-60数据库RGB手势图像和深度手势图,A1表示使用上述基于稀疏编码的加速鲁棒特征双模态手势意图理解方法的识别结果,A2和A3分别表示仅使用RGB手势图像和深度手势图像进行识别的结果,A4表示对比实验1的识别结果,A5表示对比实验2的识别结果。可以看出,上述基于稀疏编码的加速鲁棒特征双模态手势意图理解方法的识别精度明显优于其他方法,体现出深度数据与RGB数据的互补性,以及图像识别中多层特征提取对于识别效果的作用。
在不冲突的情况下,本文中上述实施例及实施例中的特征可以相互结合。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种基于稀疏编码的加速鲁棒特征双模态手势意图理解方法,其特征在于,包括以下步骤:
S1获取同步的深度手势图像和RGB手势图像,所述手势属于预设的C种手势之一,对深度手势图像进行前景图像提取得到第一前景图像,对RGB手势图像进行前景图像提取得到第二前景图像,其中:
所述深度手势图像的深度数据包括用户索引,所述深度数据由16位二进制数字组成,其中高13位表示用户与获取深度手势图像数据的设备之间的距离,低3位是用户索引,低三位从000到110,分别代表背景,用户1至用户6,所述深度手势图像的前景图像提取方法为:
S101读取所述深度手势图像上各点的16位深度数据表示为DepthID,判断其低三位USHORTplayer=DepthID&0x07是否为0;
S102若USHORTplayer为0,则该点为背景点,深度数据置为0;
S103若USHORTplayer不为0,则该点为前景点,保留该点深度数据;
S104遍历所述深度手势图像的任何一点,重复步骤S101~S103,完成所述深度手势图像的前景图像提取,得到所述第一前景图像;
所述RGB手势图像通过迭代阈值方法实现前景图像分割,依据图像灰度值T进行分割,T不断迭代,当T不再变化时即为最终分割的阈值,具体方法如下:
S1.1计算出所述RGB手势图像的最大灰度值Zmax和最小灰度值Zmin,令初始阈值为
Figure FDA0002662934910000011
S1.2根据阈值T0将所述RGB手势图像分割成前景图像和背景图像,计算出前景图像的平均灰度值Z0、背景图像的平均灰度值Zb和新的阈值
Figure FDA0002662934910000012
S1.3使用T1迭代步骤S1.2中的T0,多次重复步骤S1.2,直到T1=T0,得到的前景图像即为所述第二前景图像;
S2使用SURF算法对第一前景图像进行特征提取,对提取的特征进行稀疏编码,并使用多类线性SVM分类算法得到每种预设手势的第一hinge损失函数,其中:
使用加速鲁棒特征算法对第一前景图像进行特征提取的具体方法为:
S201构造Hessian矩阵和尺度空间表示,
通过计算下式构造Hessian矩阵,并用积分图像代替卷积来简化计算过程:
Figure FDA0002662934910000021
其中σ表示所述第一前景图像中点(x,y)的尺度参数,Lxx(x,σ)是高斯二阶微分
Figure FDA0002662934910000022
在点x处与第一前景图像I的卷积,积分图像计算公式:
Figure FDA0002662934910000023
I∑(x,y)为图像上点(i,j)的积分图像值,积分图像是对高斯卷积运算的简化,采用盒子滤波器近似计算Hessian矩阵的行列式:
Det(H)=Lxx*Lyy-(Lxy)2≈DxxDyy-(0.9Dxy)2
S202确定特征点及其主方向,使用非极大值抑制来初始确定特征点并通过插值精确定位特征点,然后计算特征点附近的Harr小波响应值的dx,dy以及每个特征点的角度,并选择最大响应角度为主方向;
S203生成特征描述子,在所述第一前景图像上选取50个特征点,对于要选择的每个特征点,选择长度为20s的区域,s是特征点的比例,并根据主方向旋转,然后将该区域划分为4×4=16个子区域,计算Haar小波在水平和垂直方向上的响应计算,并统计每个子区域中的以下4个值[∑dx,∑dy,∑|dx|,∑|dy|],得到16×4=64维的SURF特征,这50个点的SURF特征构成所述第一前景图像的特征描述符X0
对提取的特征进行稀疏编码的方法具体为:
S2.1训练阶段,使用预设的训练图像特征X=[X1,X2,...,Xn]、训练基向量字典
Figure FDA0002662934910000031
及稀疏表示系数α优化目标函数,其中X是D维特征空间中的一组SURF特征描述符,目标函数为:
Figure FDA0002662934910000032
Figure FDA0002662934910000033
其中λ为正则化参数,S(ai)是稀疏代价函数S(.)是稀疏代价函数,λ=0.15,S(ai)为L1范数代价函数
Figure FDA0002662934910000034
或对数代价函数
Figure FDA0002662934910000035
按照如下方法优化训练:
步骤a:首先固定φi,调整αi,使得目标函数最小,
步骤b:然后固定αi,调整φi,使得目标函数最小,
步骤c:多次重复步骤a和b,迭代改变φi及αi直至收敛,得到特征描述符X进行稀疏编码结果α=[α1,α2,...,αn];
使用多类线性SVM分类算法得到每种预设手势的第一hinge损失函数的具体步骤为:
S2.2构造最大池函数,在特征描述符X进行稀疏编码的结果α每列定义以下池函数:
z=F(φ)
zj=max{|α1j|,|α2j|,...,|αMj|}
其中F(φ)为稀疏码的最大池函数,z为池化特征,zj是z的第j个元素,αij是稀疏编码结果α的第i行和第j列的矩阵元素,M是特征描述符X0包括的SURF特征的数量;
S2.3利用zj构造线性核函数如下:
Figure FDA0002662934910000041
其中
Figure FDA0002662934910000042
为图像特征点(s,t)在l层的稀疏编码最大池函数;
S2.4构造线性SVM的决策函数f(z)
Figure FDA0002662934910000043
使用训练集
Figure FDA0002662934910000044
通过一对所有策略训练C个线性SVM,每个SVM的优化目标为:
Figure FDA0002662934910000045
分别得到每种预设手势的第一hinge损失函数
Figure FDA0002662934910000046
Figure FDA0002662934910000047
S3使用SURF算法对第二前景图像进行特征提取,对提取的特征进行稀疏编码,并使用多类线性SVM分类算法得到每种预设手势的第二hinge损失函数,所使用的方法与所述步骤S2完全相同;
S4使用D-S证据理论方法分别对每种预设手势的第一hinge损失函数和第二hinge损失函数进行决策融合得到识别结果,具体方法为:
S4.1分别使用每个第一hinge损失函数
Figure FDA0002662934910000051
构造
Figure FDA0002662934910000052
定义识别框架Θ上的基本概率分配为:
Figure FDA0002662934910000053
Figure FDA0002662934910000054
Figure FDA0002662934910000055
其中Θ=[H11,H12,…,H1C],其中H1j的手势类别为j,j∈{1,2,...C},0<β<1为控制参数,φj为满足以下条件的递减函数:
φj(0)=0
Figure FDA0002662934910000056
S4.2根据D-S证据理论分别计算C个手势类别的mass函数mg1(H1j),得到包括C个mass函数的第一全局BPA,mass函数的计算方法如下:
Figure FDA0002662934910000057
Figure FDA0002662934910000058
其中:
Figure FDA0002662934910000059
S4.3对于C个hinge损失函数重复步骤S4.1和4.2,得到包括C个mass函数mg2(H2j)的第二全局BPA;
S4.4由所述第一全局BPA和所述第二全局BPA,计算出组合mass函数Mj(A),计算方法如下:
Figure FDA0002662934910000061
Figure FDA0002662934910000062
S4.5筛选出C个组合mass函数Mj(A)的最大值MAX(Mj(A)),确定第j种手势为识别结果。
2.如权利要求1所述的基于稀疏编码的加速鲁棒特征双模态手势意图理解方法,其特征在于:所述深度手势图像通过Kinect设备获取。
CN201811158919.8A 2018-09-30 2018-09-30 基于稀疏编码的加速鲁棒特征双模态手势意图理解方法 Active CN109409246B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811158919.8A CN109409246B (zh) 2018-09-30 2018-09-30 基于稀疏编码的加速鲁棒特征双模态手势意图理解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811158919.8A CN109409246B (zh) 2018-09-30 2018-09-30 基于稀疏编码的加速鲁棒特征双模态手势意图理解方法

Publications (2)

Publication Number Publication Date
CN109409246A CN109409246A (zh) 2019-03-01
CN109409246B true CN109409246B (zh) 2020-11-27

Family

ID=65465944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811158919.8A Active CN109409246B (zh) 2018-09-30 2018-09-30 基于稀疏编码的加速鲁棒特征双模态手势意图理解方法

Country Status (1)

Country Link
CN (1) CN109409246B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232418B (zh) * 2019-06-19 2021-12-17 达闼机器人有限公司 一种语义识别方法、终端及计算机可读存储介质
CN110796018B (zh) * 2019-09-30 2023-04-28 武汉科技大学 一种基于深度图像和彩色图像的手部运动识别方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1420488A (zh) * 2001-08-07 2003-05-28 陈涛 可视音带的图文数据生成和编码方法及图文数据播放装置
CN105005769A (zh) * 2015-07-08 2015-10-28 山东大学 一种基于深度信息的手语识别方法
CN105930791A (zh) * 2016-04-19 2016-09-07 重庆邮电大学 基于ds证据理论的多摄像头融合的路面交通标志识别方法
CN107025442A (zh) * 2017-03-31 2017-08-08 北京大学深圳研究生院 一种基于颜色和深度信息的多模态融合手势识别方法
CN107085422A (zh) * 2017-01-04 2017-08-22 北京航空航天大学 一种基于Xtion设备的多功能六足机器人的远程控制系统
CN107679250A (zh) * 2017-11-01 2018-02-09 浙江工业大学 一种基于深度自编码卷积神经网络的多任务分层图像检索方法
CN108388882A (zh) * 2018-03-16 2018-08-10 中山大学 基于全局-局部rgb-d多模态的手势识别方法
CN109461167A (zh) * 2018-11-02 2019-03-12 Oppo广东移动通信有限公司 图像处理模型的训练方法、抠图方法、装置、介质及终端

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150206000A1 (en) * 2010-06-07 2015-07-23 Affectiva, Inc. Background analysis of mental state expressions
US20140049465A1 (en) * 2011-03-28 2014-02-20 Jamie Douglas Tremaine Gesture operated control for medical information systems
US10203762B2 (en) * 2014-03-11 2019-02-12 Magic Leap, Inc. Methods and systems for creating virtual and augmented reality
US9550551B2 (en) * 2014-12-22 2017-01-24 Ryan Swiatek Surf tab

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1420488A (zh) * 2001-08-07 2003-05-28 陈涛 可视音带的图文数据生成和编码方法及图文数据播放装置
CN105005769A (zh) * 2015-07-08 2015-10-28 山东大学 一种基于深度信息的手语识别方法
CN105930791A (zh) * 2016-04-19 2016-09-07 重庆邮电大学 基于ds证据理论的多摄像头融合的路面交通标志识别方法
CN107085422A (zh) * 2017-01-04 2017-08-22 北京航空航天大学 一种基于Xtion设备的多功能六足机器人的远程控制系统
CN107025442A (zh) * 2017-03-31 2017-08-08 北京大学深圳研究生院 一种基于颜色和深度信息的多模态融合手势识别方法
CN107679250A (zh) * 2017-11-01 2018-02-09 浙江工业大学 一种基于深度自编码卷积神经网络的多任务分层图像检索方法
CN108388882A (zh) * 2018-03-16 2018-08-10 中山大学 基于全局-局部rgb-d多模态的手势识别方法
CN109461167A (zh) * 2018-11-02 2019-03-12 Oppo广东移动通信有限公司 图像处理模型的训练方法、抠图方法、装置、介质及终端

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Spatio-Temporal Feature Extraction and Representation for RGB-D Human Action Recognition;Jiajia Luo等;《Pattern Recognition Letters (2014)》;20141231;第1-23页 *
基于RGB-D视觉信息的物体识别算法研究;兰晓东;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20180815(第08期);第I138-451页 *

Also Published As

Publication number Publication date
CN109409246A (zh) 2019-03-01

Similar Documents

Publication Publication Date Title
Mittal et al. A modified LSTM model for continuous sign language recognition using leap motion
Uddin et al. A facial expression recognition system using robust face features from depth videos and deep learning
Nonis et al. 3D approaches and challenges in facial expression recognition algorithms—a literature review
Hasan et al. Human face detection techniques: A comprehensive review and future research directions
Hasan et al. RETRACTED ARTICLE: Static hand gesture recognition using neural networks
Ansar et al. Hand gesture recognition based on auto-landmark localization and reweighted genetic algorithm for healthcare muscle activities
Zheng et al. Recent advances of deep learning for sign language recognition
Park et al. A robust facial expression recognition algorithm based on multi-rate feature fusion scheme
Rizwan et al. Robust active shape model via hierarchical feature extraction with SFS-optimized convolution neural network for invariant human age classification
Eum et al. Continuous human action recognition using depth-MHI-HOG and a spotter model
Jiang et al. An eight-layer convolutional neural network with stochastic pooling, batch normalization and dropout for fingerspelling recognition of Chinese sign language
Sharma et al. Vision-based sign language recognition system: A Comprehensive Review
Miah et al. Rotation, Translation and Scale Invariant Sign Word Recognition Using Deep Learning.
Kaluri et al. A framework for sign gesture recognition using improved genetic algorithm and adaptive filter
CN106682585A (zh) 一种基于kinect2的动态手势识别方法
Wang et al. An recognition–verification mechanism for real-time Chinese sign language recognition based on multi-information fusion
Luqman An efficient two-stream network for isolated sign language recognition using accumulative video motion
CN109409246B (zh) 基于稀疏编码的加速鲁棒特征双模态手势意图理解方法
Rwelli et al. Gesture based Arabic sign language recognition for impaired people based on convolution neural network
Zhang et al. Hand gesture recognition with SURF-BOF based on Gray threshold segmentation
CN116129141A (zh) 医学数据处理方法、装置、设备、介质和计算机程序产品
Ghadi et al. A graph-based approach to recognizing complex human object interactions in sequential data
Wang Three-dimensional convolutional restricted Boltzmann machine for human behavior recognition from RGB-D video
Xue et al. Deep forest-based monocular visual sign language recognition
CN112668543B (zh) 一种手模型感知的孤立词手语识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant