CN107025442B - 一种基于颜色和深度信息的多模态融合手势识别方法 - Google Patents

一种基于颜色和深度信息的多模态融合手势识别方法 Download PDF

Info

Publication number
CN107025442B
CN107025442B CN201710208523.9A CN201710208523A CN107025442B CN 107025442 B CN107025442 B CN 107025442B CN 201710208523 A CN201710208523 A CN 201710208523A CN 107025442 B CN107025442 B CN 107025442B
Authority
CN
China
Prior art keywords
depth
segmentation
gesture
color
skin color
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710208523.9A
Other languages
English (en)
Other versions
CN107025442A (zh
Inventor
萧伟
刘宏
丁润伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Shenzhen Graduate School
Original Assignee
Peking University Shenzhen Graduate School
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Shenzhen Graduate School filed Critical Peking University Shenzhen Graduate School
Priority to CN201710208523.9A priority Critical patent/CN107025442B/zh
Publication of CN107025442A publication Critical patent/CN107025442A/zh
Application granted granted Critical
Publication of CN107025442B publication Critical patent/CN107025442B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种基于颜色和深度信息的多模态融合手势识别方法,其步骤包括:1)使用彩色摄像机和深度摄像机同时对手势进行拍摄,得到手势的颜色和深度的原始数据;2)使用高斯平滑方法对颜色和深度的原始数据进行滤波,得到颜色和深度的平滑数据;3)将肤色和深度作为先验知识,对颜色和深度的平滑数据分别进行分割,得到肤色分割区域和深度分割区域;4)采用动态权重进行肤色分割区域和深度分割区域的像素层融合,构成融合分割图;5)利用特征描述子对融合分割图提取特征,构成特征图;6)对特征图进行编码,构成手势编码;7)对手势编码进行识别,从而实现对手势的识别。本发明能够得到比现有技术更高的手势识别的准确率。

Description

一种基于颜色和深度信息的多模态融合手势识别方法
技术领域
本发明涉及人机交互技术,特别是手势交互技术,具体涉及一种基于颜色和深度信息的多模态融合手势识别方法。
背景技术
手势识别的含义:从传感器获得的数据中,识别手势含义的过程。
手势识别问题的难点:1)复杂场景中的手势识别,包括复杂背景、复杂前景;2)不同光照条件下的手势识别,包括强光、弱光;3)遮挡和旋转情况下的手势识别,包括,障碍物遮挡,人体遮挡,同一手势的不同姿态旋转。
手势识别的主要处理方法:1)单一模态信息的深入表示与识别;2)多种模态信息的有效融合与识别。
单一模态方法的不足:常用的单一模态通常只能从某一方面表示手势,比如:加速度传感器能够反映手势变化过程中不同方向的加速度变化情况,当手势出现静止,或相似的运动轨迹时,加速度数据相似,难以区别;彩色摄像机能够反映手势的图像形态分布,当手势受到不同环境光线影响,或出现与肤色相近的物体时,难以区别。
多模态信息融合方法的优势:多模态信息融合理论认为,单一种类的传感器数据只能获得关于被测物体的不完备信息,并且容易受到环境影响;而多模态信息融合将多种传感器数据进行有效组合,能够提高完备性和可靠性。
根据信息处理自底向上的层次,将手势识别的多模态信息融合分为:像素层、特征层、决策层。其中,像素层融合具有较强的物理含义,能够从信息源头开展融合,将不可靠的单一模态信息从底层开始就做出有针对性的处理,建立多种模态信息之间的关联,进而得到像素层的多模态信息融合表示。
发明内容
本发明提供一种基于颜色和深度信息的多模态融合手势识别方法,能够将颜色信息和深度信息在像素层进行融合,得到更高的手势识别的准确率。
本发明的基于颜色和深度信息的多模态信息融合手势识别方法,包括以下步骤:
1)使用彩色摄像机和深度摄像机同时对手势进行拍摄,得到手势的颜色和深度的原始数据;
2)对颜色和深度的原始数据进行滤波,得到颜色和深度的平滑数据;
3)将肤色和深度作为先验知识,对颜色和深度的平滑数据分别进行分割,得到肤色分割区域和深度分割区域;
4)采用动态权重进行肤色分割区域和深度分割区域的像素层融合,构成融合分割图;
5)利用特征描述子对融合分割图提取特征,构成特征图;
6)对特征图进行编码,构成手势编码;
7)对手势编码进行识别,从而实现对手势的识别。
关于第2)步,优选使用高斯平滑方法对颜色和深度的原始数据进行滤波。
关于第3)步,肤色分割区域和深度分割区域的计算过程如下:
a)肤色范围在统一白光照射下需满足条件1:R>95,G>40,B>20,max(R,G,B)-min(R,G,B)>15,|R-G|>15,R>G,R>B;肤色范围在闪光或日光照射下需满足条件2:R>220,G>210,B>170,|R-G|<15,R>B,G>B;考虑到肤色光照的多样性,取条件1并条件2构成肤色分割判定条件;
b)在颜色数据R、G、B三个通道的平滑数据使用肤色分割判定条件,得到肤色分割图;
c)对肤色分割图进行灰度化,并进行图像形态学操作:腐蚀和膨胀,构成灰度分割图;
d)根据灰度分割图,在深度原始数据中,将相同像素位置上的深度像素分割出来,构成深度分割图;
e)计算深度分割图中每个连通分割区域的平均深度;
f)选定平均深度最小的分割区域作为深度分割区域;
g)在肤色分割图中将深度分割区域相应的肤色区域选定,作为肤色分割区域。
关于第4)步,动态权重进行手势肤色区域和手势深度区域的像素层融合,具体过程如下:
a)手势深度区域定义为区域d,每个元素为di,总共包含元素个数为nd,手势肤色区域定义为g,每个元素为gi,总共包含元素个数为ng
b)求d内的深度平均值
Figure BDA0001260452520000021
求g内的肤色平均值
Figure BDA0001260452520000022
c)求d和g两个区域的并,即两个区域所有像素所在区域的并d∪g;
d)将d∪g归整为矩形区域large(这里将矩形区域定义为large是为了接下来叙述方便,没有特别含义),该矩形区域为包含d∪g的最小矩形区域,large由两个子区域构成:d∪g子区域和d∪g之外的子区域;
e)构建手势深度区域的权重矩阵wd,该矩阵的规模与large一致,每个元素的计算方法如下:计算手势深度区域的每个元素计算其深度值di与md的绝对值adi=|di-md|,该绝对值的倒数
Figure BDA0001260452520000031
即为权重矩阵该相应元素的值
Figure BDA0001260452520000032
f)归一化权重矩阵wd;
g)依次类推,构建手势肤色区域的归一化权重矩阵wg;
h)根据wd和wg,对手势深度区域和手势肤色区域进行加权求和,得到融合分割图f,其中每个元素为fi=di·wdi+gi·wgi
本发明的有益效果如下:
本发明将颜色信息和深度信息在像素层进行融合,综合利用颜色信息的多通道、信息量丰富、易于提取的特点,以及深度信息不易受到光照、复杂场景影响的特点,形成两种模态数据的信息互补,在手势分割和识别过程中,从信息处理的底层开始,提供一种信息量丰富、形式紧凑的多模态信息综合表示形式,便于识别环节得到更高的识别准确率。
附图说明
图1是实施例中多模态信息融合的手势识别过程的流程图。
具体实施方式
下面通过具体实施例和附图,对本发明做进一步说明。
图1是本实施例的基于多模态信息融合的手势识别过程的流程图,具体包括以下步骤:
1)使用彩色摄像机和深度摄像机同时对手势进行拍摄,得到手势的颜色和深度的原始数据;
2)使用高斯平滑方法对颜色和深度的原始数据进行滤波,得到颜色和深度的平滑数据;
3)将肤色和深度作为先验知识,对颜色和深度的平滑数据分别进行分割,得到肤色分割区域和深度分割区域;
4)采用动态权重进行肤色分割区域和深度分割区域的像素层融合,构成融合分割图;
5)利用特征描述子对融合分割图提取特征,构成特征图;
6)对特征图进行编码,构成手势编码;
7)对手势编码进行识别,从而实现对手势的识别。
关于第3)步和第4)步,其具体实施过程见“发明内容”中的描述。
关于第5)步,使用特征描述子对融合分割图提取特征,并不是本专利的发明点,所使用的特征描述子也不局限于某一种特定描述子,常用的特征描述子如SIFT(ScaleInvariant Feature Transform,尺度不变特征转换),SURF(Speed Up Robust Features,加速鲁棒特征),LBP(Local Binary Patterns,局部二值模式)等。
颜色和深度信息像素层融合的效果:较颜色单一模态信息,手势识别准确率平均提升2%-5%;较深度单一模态信息,手势识别准确率平均提升5%-10%。
以上步骤用于描述多模态融合手势识别方法,在具体实施实例中,为方便计算:
1、矩形区域large通常根据使用经验确定为固定大小,例如颜色或深度图像尺寸的五分之一到十分之一。
2、对特征图进行编码,构成手势编码的过程,通常取编码方法为稀疏编码或局部线性编码。
3、对手势编码进行识别所采用的分类器为:支持向量机(SVM,Support VectorMachine)分类器。
请注意:本发明仅使用SVM这个方法,并不针对SVM本身进行创新。
关于SVM分类器的使用分为两步:1、采集带有手势类别标签的数据构成训练集,送入SVM,用于得到第一SVM的模型参数;2、根据得到的模型参数,使用第二SVM对新的不包含手势类别标签的数据进行标签预测。第一SVM与第二SVM共用同一套参数。
关于SVM分类器使用的第一步具体过程如下:
在实验数据的采集过程中,用摄像机和深度传感器记录当前手势的颜色和深度数据,并记录当前被试的手势类别结果(比如用手比划阿拉伯数字1、2、3之类的数字),手势标签即为1、2、3,这样就建立了实验数据与标签之间的对应关系。进行多人多次重复实验,那么这些实验数据连同标签一起构成训练集,用于训练第一SVM,得到第一SVM的参数,具体训练第一SVM的过程如下:
1)将实验数据进行数据处理,主要步骤参见上文的步骤1)-7);
2)连同标签一起送入第一SVM分类器进行参数训练,用以训练得到分类器参数。这里我们使用LIBSVM,所以得到的模型参数被自动存储为train.scale.model文件,该文件包含利用LIBSVM进行未知数据标签预测所需要的参数:nr_class代表训练样本集包含的类别个数,rho是判决函数的常数项b,nr_sv是各个类中落在边界上的向量个数,obj是对SVM问题的优化目标函数的值,nSV是支持向量的个数,nBSV是边界支持向量的个数。
关于SVM分类器使用的第二步具体过程如下:
对于新采集的未知手势颜色和深度数据,由于不清楚具体的手势类别标签,我们将第二SVM取成第一SVM相同的模型参数,将颜色和深度数据按照上文的步骤1)-7)处理之后,送入第二SVM进行手势类别标签的预测。具体过程如下:
1)对未知手势采集颜色和深度数据;
2)按照上文的步骤1)-7)进行处理;
3)将处理后的数据送入第二SVM,该分类器根据之前训练集训练得到的模型参数,进行手势类别标签的预测。
上面实施例中对手势编码进行识别所采用的分类器为支持向量机分类器,本发明在该环节并不局限于使用支持向量机分类器,也可选择其它分类器来替代,比如最近邻分类器KNN、随机森林分类器等。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。

Claims (7)

1.一种基于颜色和深度信息的多模态融合手势识别方法,其步骤包括:
1)使用彩色摄像机和深度摄像机同时对手势进行拍摄,得到手势的颜色和深度的原始数据;
2)对颜色和深度的原始数据进行滤波,得到颜色和深度的平滑数据;
3)将肤色和深度作为先验知识,对颜色和深度的平滑数据分别进行分割,得到肤色分割区域和深度分割区域;
4)采用动态权重进行肤色分割区域和深度分割区域的像素层融合,构成融合分割图;采用动态权重进行肤色分割区域和深度分割区域的像素层融合的方法是:
a)手势深度区域定义为区域d,每个元素为di,总共包含元素个数为nd;手势肤色区域定义为g,每个元素为gi,总共包含元素个数为ng
b)求d内的深度平均值
Figure FDA0002369803290000011
求g内的肤色平均值
Figure FDA0002369803290000012
c)求d和g两个区域的并,即两个区域所有像素所在区域的并d∪g;
d)将d∪g归整为矩形区域,该矩形区域为包含d∪g的最小矩形区域,该矩形区域由两个子区域构成:d∪g子区域和d∪g之外的子区域;
e)构建手势深度区域的权重矩阵wd,该矩阵的规模与所述矩形区域一致,每个元素的计算方法如下:对于手势深度区域的每个元素计算其深度值di与md的绝对值adi=|di-md|,该绝对值的倒数
Figure FDA0002369803290000013
即为权重矩阵该相应元素的值
Figure FDA0002369803290000014
f)归一化权重矩阵wd;
g)依次类推,构建手势肤色区域的归一化权重矩阵wg;
h)根据wd和wg,对手势深度区域和手势肤色区域进行加权求和,得到融合分割图f,其中每个元素为fi=di·wdi+gi·wgi
5)利用特征描述子对融合分割图提取特征,构成特征图;
6)对特征图进行编码,构成手势编码;
7)对手势编码进行识别,从而实现对手势的识别。
2.如权利要求1所述的方法,其特征在于,步骤2)使用高斯平滑方法对颜色和深度的原始数据进行滤波。
3.如权利要求1所述的方法,其特征在于,步骤3)中肤色分割区域和深度分割区域的计算过程如下:
a)肤色范围在统一白光照射下需满足条件1:R>95,G>40,B>20,max(R,G,B)-min(R,G,B)>15,|R-G|>15,R>G,R>B;肤色范围在闪光或日光照射下需满足条件2:R>220,G>210,B>170,|R-G|<15,R>B,G>B;考虑到肤色光照的多样性,取条件1并条件2构成肤色分割判定条件;
b)在颜色数据R、G、B三个通道的平滑数据使用肤色分割判定条件,得到肤色分割图;
c)对肤色分割图进行灰度化,并进行图像形态学操作:腐蚀和膨胀,构成灰度分割图;
d)根据灰度分割图,在深度原始数据中,将相同像素位置上的深度像素分割出来,构成深度分割图;
e)计算深度分割图中每个连通分割区域的平均深度;
f)选定平均深度最小的分割区域作为深度分割区域;
g)在肤色分割图中将深度分割区域相应的肤色区域选定,作为肤色分割区域。
4.如权利要求1所述的方法,其特征在于,所述矩形区域根据使用经验确定为固定大小。
5.如权利要求1所述的方法,其特征在于,步骤5)所述特征描述子为下列中的一种:SIFT,SURF,LBP。
6.如权利要求1所述的方法,其特征在于,步骤6)采用的编码方法为稀疏编码或局部线性编码。
7.如权利要求1所述的方法,其特征在于,步骤7)对手势编码进行识别所采用的分类器为下列中的一种:支持向量机分类器、最近邻分类器、随机森林分类器。
CN201710208523.9A 2017-03-31 2017-03-31 一种基于颜色和深度信息的多模态融合手势识别方法 Expired - Fee Related CN107025442B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710208523.9A CN107025442B (zh) 2017-03-31 2017-03-31 一种基于颜色和深度信息的多模态融合手势识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710208523.9A CN107025442B (zh) 2017-03-31 2017-03-31 一种基于颜色和深度信息的多模态融合手势识别方法

Publications (2)

Publication Number Publication Date
CN107025442A CN107025442A (zh) 2017-08-08
CN107025442B true CN107025442B (zh) 2020-05-01

Family

ID=59526720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710208523.9A Expired - Fee Related CN107025442B (zh) 2017-03-31 2017-03-31 一种基于颜色和深度信息的多模态融合手势识别方法

Country Status (1)

Country Link
CN (1) CN107025442B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108288388A (zh) * 2018-01-30 2018-07-17 深圳源广安智能科技有限公司 一种智能交通监控系统
CN109034012A (zh) * 2018-07-09 2018-12-18 四川大学 基于动态图像和视频子序列的第一人称视角手势识别方法
CN109409246B (zh) * 2018-09-30 2020-11-27 中国地质大学(武汉) 基于稀疏编码的加速鲁棒特征双模态手势意图理解方法
CN110163130B (zh) * 2019-05-08 2021-05-28 清华大学 一种用于手势识别的特征预对齐的随机森林分类系统及方法
CN110619288A (zh) * 2019-08-30 2019-12-27 武汉科技大学 一种手势识别方法、控制装置及可读存储介质
CN113361554B (zh) * 2020-03-06 2024-05-24 北京眼神智能科技有限公司 生物特征识别多模态融合方法、装置、存储介质及设备
CN112487981A (zh) * 2020-11-30 2021-03-12 哈尔滨工程大学 基于双路分割的ma-yolo动态手势快速识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020656A (zh) * 2012-12-19 2013-04-03 中山大学 一种压缩红外感知实现的手势识别装置及识别方法
CN104050682A (zh) * 2014-07-09 2014-09-17 武汉科技大学 一种融合颜色和深度信息的图像分割方法
CN104200197A (zh) * 2014-08-18 2014-12-10 北京邮电大学 三维人体行为识别方法及装置
CN104589356A (zh) * 2014-11-27 2015-05-06 北京工业大学 基于Kinect人手运动捕捉的灵巧手遥操作控制方法
CN104680127A (zh) * 2014-12-18 2015-06-03 闻泰通讯股份有限公司 手势识别方法及系统
CN106504289A (zh) * 2016-11-02 2017-03-15 深圳乐行天下科技有限公司 一种室内目标检测方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150002419A1 (en) * 2013-06-26 2015-01-01 Microsoft Corporation Recognizing interactions with hot zones

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020656A (zh) * 2012-12-19 2013-04-03 中山大学 一种压缩红外感知实现的手势识别装置及识别方法
CN104050682A (zh) * 2014-07-09 2014-09-17 武汉科技大学 一种融合颜色和深度信息的图像分割方法
CN104200197A (zh) * 2014-08-18 2014-12-10 北京邮电大学 三维人体行为识别方法及装置
CN104589356A (zh) * 2014-11-27 2015-05-06 北京工业大学 基于Kinect人手运动捕捉的灵巧手遥操作控制方法
CN104680127A (zh) * 2014-12-18 2015-06-03 闻泰通讯股份有限公司 手势识别方法及系统
CN106504289A (zh) * 2016-11-02 2017-03-15 深圳乐行天下科技有限公司 一种室内目标检测方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A survey of depth and inertial sensor fusion for human action recognition;Chen Chen 等;《Multimedia Tools and Applications》;20151223;1-21 *
Fusing Multi-modal Features for Gesture Recognition;Jiaxiang Wu 等;《ICMI’13》;20131213;453-459 *
基于RGB特征与深度特征融合的物体识别算法;卢良锋 等;《计算机工程》;20160531;第42卷(第5期);186-193 *
面向盲人避障的场景自适应分割及障碍物检测;刘宏 等;《计算机辅助设计与图形学学报》;20131231;第25卷(第12期);1818-1825 *

Also Published As

Publication number Publication date
CN107025442A (zh) 2017-08-08

Similar Documents

Publication Publication Date Title
CN107025442B (zh) 一种基于颜色和深度信息的多模态融合手势识别方法
Gou et al. Vehicle license plate recognition based on extremal regions and restricted Boltzmann machines
Pandey et al. Hybrid deep neural network with adaptive galactic swarm optimization for text extraction from scene images
CN106960202B (zh) 一种基于可见光与红外图像融合的笑脸识别方法
US8433101B2 (en) System and method for waving detection based on object trajectory
US8107726B2 (en) System and method for class-specific object segmentation of image data
CN106960181B (zh) 一种基于rgbd数据的行人属性识别方法
US20100027892A1 (en) System and method for circling detection based on object trajectory
US20100027845A1 (en) System and method for motion detection based on object trajectory
JP7206082B2 (ja) 交通標識を認識するためのシステムおよび方法
Liang et al. Moving object classification using a combination of static appearance features and spatial and temporal entropy values of optical flows
Zang et al. Traffic sign detection based on cascaded convolutional neural networks
Yang et al. Binary descriptor based nonparametric background modeling for foreground extraction by using detection theory
Tian et al. Scene text segmentation with multi-level maximally stable extremal regions
Kulkarni et al. Text detection and recognition: a review
CN111860309A (zh) 一种人脸识别方法及系统
Waheed et al. Exploiting Human Pose and Scene Information for Interaction Detection
Rujikietgumjorn et al. Real-time hog-based pedestrian detection in thermal images for an embedded system
Anzid et al. Multimodal images classification using dense SURF, spectral information and support vector machine
Bao et al. Context modeling combined with motion analysis for moving ship detection in port surveillance
Ma RETRACTED ARTICLE: infrared pedestrian detection algorithm based on multimedia image recombination and matrix restoration
Manivannan et al. Hep-2 specimen classification using multi-resolution local patterns and SVM
Naseer et al. Multimodal Objects Categorization by Fusing GMM and Multi-layer Perceptron
Deshmukh et al. Real-time traffic sign recognition system based on colour image segmentation
Sharrma et al. Vision based static hand gesture recognition techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200501