CN110516638B - 一种基于轨迹和随机森林的手语识别方法 - Google Patents

一种基于轨迹和随机森林的手语识别方法 Download PDF

Info

Publication number
CN110516638B
CN110516638B CN201910817381.5A CN201910817381A CN110516638B CN 110516638 B CN110516638 B CN 110516638B CN 201910817381 A CN201910817381 A CN 201910817381A CN 110516638 B CN110516638 B CN 110516638B
Authority
CN
China
Prior art keywords
depth
sign language
joint
points
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201910817381.5A
Other languages
English (en)
Other versions
CN110516638A (zh
Inventor
毕胜
谢靖怡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Maritime University
Original Assignee
Dalian Maritime University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Maritime University filed Critical Dalian Maritime University
Priority to CN201910817381.5A priority Critical patent/CN110516638B/zh
Publication of CN110516638A publication Critical patent/CN110516638A/zh
Application granted granted Critical
Publication of CN110516638B publication Critical patent/CN110516638B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于轨迹和随机森林的手语识别方法,主要包括:采集原始深度图像和骨骼数据;建立基于随机森林的分类模型并遍历分割节点计算深度差特征;判断进入树模型的左分支或者右分支,反复执行遍历步骤直至到达分割节点或者叶节点;提取手指关节点间向量和角度作为测试特征,计算测试特征与模板特征的DTW距离;根据得到的所述DTW距离输出识别结果。本发明根据深度图像估计出手指的三维坐标点,克服了由于Kinect深度摄像头获取的深度图只能提供较弱的特征描述,手指间相似性而产生的模糊性,手部图像在整个图像中所占面积通常很小,容易导致低信噪比以及手指关节点细节丢失,还解决了人手的非刚体特性导致的遮挡和自遮挡问题等多种缺点。

Description

一种基于轨迹和随机森林的手语识别方法
技术领域
本发明涉及手语识别技术领域,具体而言,尤其涉及一种基于轨迹和随机森林的手语识别方法。
背景技术
人体感知技术不断发展,手语识别作为其重要的分支已经在众多应用领域广泛推广。手语识别系统发展已由目前常用的手语识别方法分为以下几类:
基于可穿戴设备,这种方法并不适用于广泛推广,因为其交互方式不自然,并且数据手套使用复杂且价格昂贵,目前只用于实验室研究等特殊场合基于计算机视觉,基于RGB-D图像的研究在最近几年内迅猛发展,随着Kinect、Leap Motion等深度摄像机的推出,使得手语识别的研究又迈进一个新的台阶。其中Kinect不仅价格低廉而且可以检测人体20个关节点数据,使用方便,无需校准,成为许多手语识别研究者的首选。但目前所推出深度传感器中,分辨率及精度都无法满足要求;并且由于人手的非刚体特性,容易产生自遮挡和两只手的相互遮挡问题,不能获取具体的手部关节点三维坐标,这些都是普通深度摄像头没有解决的问题。
基于深度学习,其使用网络学习大量数据,极大地依赖理想的训练样本,而大数据并不容易获得,成本很高。并且我们无法知道它选取的特征是什么,即特征选择不透明,人为无法干预,调参困难,选择的特征可能只适用于某一个数据集。
传统的手语识别没有将手指的细节动作考虑进来,使用随机森林对整个图像整体为输入,常作为动作的分类器,它们大多是对整张图片提取轮廓、直方图、形状特征等,对动作类别进行分类。而普通深度摄像头由于精度和人体皮肤在颜色和表面属性分布较均匀,只能提供较弱的特征描述,并且手部图像在整个图像中所占面积通常很小,容易导致低信噪比,使得手指的细节动作特征缺失。
发明内容
根据上述提出识别结果细节缺失的技术问题,而提供一种基于轨迹和姿态估计的手语识别方法,根据得到的深度图像估计出手指的三维坐标点,增加加权特征和全局约束的动态规整算法能更加关注手部特征,减少算法的运算时间。
本发明采用的技术手段如下:
一种基于轨迹和随机森林的手语识别方法,步骤包括:
采集原始深度图像和骨骼数据,将骨骼点映射到深度图的像素坐标上,并提取对应点的相应深度信息;
建立基于随机森林的分类模型并遍历分割节点计算深度差特征;
依据所述深度差特征判断进入树模型的左分支或者右分支,反复执行遍历步骤直至到达分割节点或者叶节点,当判断图像遍历到达树模型的分割节点时,根据记录的分割节点偏移向量更新当前关节点,将当前关节点分割为左右子关节点,当判断判断图像遍历到达树模型的叶节点时,进一步提取叶子节点得到手指关节的三维坐标;
提取手指关节点间向量和角度作为测试特征,计算测试特征与模板特征的DTW距离,根据得到的所述DTW距离输出识别结果。
进一步地,在所述将骨骼点映射到深度图的像素坐标上之前,还包括对原始骨骼数据进行kalman平滑滤波的步骤。
进一步地,所述建立基于随机森林的分类模型并遍历分割节点计算深度差特征,具体包括:选取输入的深度图的中心点初始化第一个关节点,根据树模型分割节点存储的特征计算深度差特征。
进一步地,依据所述深度差特征判断进入树模型的左分支或者右分支,具体包括:将所述深度差特征与设定阈值进行比较,如深度差特征小于设定阈值则进入左子树分支。
进一步地,所述提取叶子节点得到手指关节的三维坐标,还包括对得到的手指关节的三维坐标进行归一化处理。
进一步地,所述计算测试特征与模板特征的DTW距离,具体包括:对测试特征序列和模板序列构造距离矩阵,根据序列起点到终点的最佳弯曲路径距离得到测试序列和模板序列的DTW距离。
较现有技术相比,本发明具有以下优点:
本发明根据深度图像估计出手指的三维坐标点,克服了由于Kinect深度摄像头获取的深度图只能提供较弱的特征描述,手指间相似性而产生的模糊性,手部图像在整个图像中所占面积通常很小,容易导致低信噪比以及手指关节点细节丢失等缺点,还解决了人手的非刚体特性导致的遮挡和自遮挡问题。此外利用加权特征和全局约束的动态规整算法关注手部特征,减少算法的运算时间。本方法不需要使用智能手套等外在设备,采集普通深度摄像头,针对不同人的不同位置进行归一化处理,实现对象自然交互。
基于上述理由本发明可在手语识别领域广泛推广。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中方法流程图。
图2为本发明实施例中随机森林模型训练流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供了一种基于轨迹和姿态估计的手语识别方法,步骤包括:
采集原始深度图像和骨骼数据,将骨骼点映射到深度图的像素坐标上,并提取对应点的相应深度信息。
具体地,使用常见的深度摄像头Kinect采集原始深度图像和骨骼数据,由于kinect自身存在分辨率和精度低、无法获取手指的具体关节点的不足,使骨骼点会产生跳变,因此对原始的骨骼数据进行kalman平滑滤波。采用Kinect的软件开发工具包SDK函数JointDepthIndices将骨骼点映射到深度图的像素坐标上,提取骨骼点的相应深度信息。这里认为手是距离摄像头最近的物体,因此当手部深度小于躯干深度时认为手语动作开始。对手部自适应画面外接矩形框,建立一次函数y=b-kx(b>0,k>0),表征手心的深度值x和正方形框边长y的关系,即手心到摄像头的距离摄像头越近,边长越长。对框内深度进行局部阈值处理,搜索深度值z与手心深度值x满足公式|x-z|<D的点,作为较佳的实施方式,D取矩形框内最小深度值与手心深度值之差的两倍。再对深度图像进行形态学处理,先腐蚀再膨胀去除噪声点干扰,得到只包含手的深度图片。
建立基于随机森林的分类模型并计算深度差特征。本发明技术方案在像素级上分类,提取的分类特征是深度差特征,可以反映出该像素是否处于手部的边缘,还有助于发现细的竖直结构(比如手指)。如图2所示为分类模型的训练过程。
具体地,输入训练集及其标签,初始化图像的集合中心为第一个关节点。此时关节集合C表示现阶段要处理的关节,例如手有16个关节,分别是手心、每根手指3个关节,C为这些关节的子集,对数据集中的每张图像计算其深度差特征
Figure BDA0002186686950000041
ρc=mean(Pi|i∈C)
是关节集合C中所有关节坐标的和求平均。其中,V1,V2是扰乱向量。pc是当前关节坐标。p0第一个关节坐标,用来归一化。I表示图像,DI是深度值。深度差特征小于阈值则将当前图像划分为左子集,反之划分为右子集。对于随机生成的多组扰乱向量V1、V2,计算信息增益(信息增益越小,意味着当前划分的子集内的特征越相似,而不同数据子集的特征差异越大):
Figure BDA0002186686950000051
其中
Figure BDA0002186686950000052
是偏移量的协方差矩阵,tr()是矩阵的迹。在分割节点里记录拥有最大信息增益的特征ψ=({V1,V2},τ)。
当信息增益小于阈值时,将当前关节集合C用二分聚类法划分为两个关节子集,计算两个分裂关节坐标在新的关节集合中的坐标ρl,r=mean{Pi|Ci∈C{l,r}},在分裂节点中记录两个分裂关节到当前关节点的偏移量和划分后的关节集合C{l,r}。分裂节点划分两个子关节后同时往下建立分割节点,划分数据集,当信息增益小于阈值继续分割关节,以上训练过程不断递归,直到到达叶子节点,也就是关节集合C只剩下一个关节,叶子节点记录当前关节点到标签的偏移量。
利用训练后的模型进行分类,依据所述深度差特征判断是否进入树模型的左分支或者右分支,遍历分裂节点将当前关节点分裂为两个子关节点,反复遍历,若是则进一步提取叶子节点得到手指关节的三维坐标。
具体地,从根节点开始遍历每棵随机树,首先初始化输入深度图I的几何中心点为第一个关节点ρ0。根据树模型分割节点存储的特征计算深度差特征,所述树模型分割节点存储的特征为:
ψ=({V1,V2},τ)
其中,
Figure BDA0002186686950000053
为扰乱向量,τ是阈值。深度差特征为:
Figure BDA0002186686950000054
即深度差特征为当前关节点ρc加上两个扰乱向量
Figure BDA0002186686950000055
之后,偏移量对应的当前深度值之差。根据深度差特征与τ的大小关系,判断进入树的左右分支,具体遍历树过程中,小于设定阈值则进入左子树分支,反之进入右分支。当图像I沿着树模型往下分类直到到达分裂节点,那么当前关节点ρc将会根据模型中记录的关节偏移量
Figure BDA0002186686950000056
更新,即新的
Figure BDA0002186686950000057
并分裂成两个子关节点进行下一个阶段递归,将分裂后的两个子关节按照上面所述步骤,从分割节点开始,两个子关节同时往下进行不断递归遍历,遍历所有树直到每条路径到达叶子节点,遍历结束。对森林里所有代表同一关节的叶子节点投票得到估计的手指关节三维坐标,具体来说,关节点一直递归更新,直到到达叶节点,当前的关节点加上叶节点存储的关节偏移量,得到估计的手指关节坐标。因为分裂节点的存在,遍历结束会同时到达多个叶节点,这些叶节点都代表同一个手指关节坐标,因此对同一个关节的叶节点进行有权重的投票,其中
关节偏移量为:
Figure BDA0002186686950000061
投票结果表示为:
Figure BDA0002186686950000062
其中ω是权重,n是树的数量,ρi是第i棵树的手指关节坐标。
提取手指关节点间向量和角度作为测试特征,计算测试特征与模板特征的DTW距离。根据得到的所述DTW距离输出识别结果。
具体地,提取手心点和手指指尖点坐标并分别进行归一化处理,先进行密度重采样,对稀疏的密度点线性插值:设置采样上限,计算相邻帧轨迹点的平均距离,即轨迹周长除以轨迹点数目,此时在相邻帧距离大于平均距离的点中线性插入一个点,并更新,直到到达采样上限。按
Figure BDA0002186686950000063
得到尺度归一化因子,以脊柱点和手心点为原点转换坐标系后除以尺度归一化因子,再从笛卡尔坐标系(x,y,z)转换到球坐标系(d,θ,φ),计算球坐标系下关节点间距离:
Figure BDA0002186686950000064
其中,n是关节数目,J是关节点,T是原点。
角度特征:
Figure BDA0002186686950000065
选择与其他训练样本DTW距离最小的样本作为匹配模板,首先依次以第i个手语样本作为候选模板,计算剩下其他样本与当前样本i的DTW距离之和,选出距离之和最小的样本作为模板。采样动态时间规整算法,对测试特征序列和模板序列构造距离矩阵P,选择欧式距离。从序列起点到终点的最佳弯曲路径距离递推公式为D(i,j)=P(i,j)+min(D(i-1,j),D(i-1,j-1),D(i,j-1))
其中,i,j分别为测试和模板的帧数,可得测试序列和模板序列的DTW距离。由于手和手肘和指尖对手语的贡献不同,因此在计算DTW距离时对贡献大的手部乘上大的权重,作为本发明较佳的实施例,权重取值为0.8,。为了减少算法计算复杂度,加入带状约束条件限制搜索路径,还能避免畸形拉伸。最后,得到的累积距离D(M,N)除以规整路径长度,消除不同序列长度带来的规整路径长度不同问题。其中,M为测试序列总帧数,N为模板序列总帧数。即:
Figure BDA0002186686950000071
选择最小SDTW对应的模型类别为最后识别出的结果。
由于人手的非刚体特性,当手指间发生物体遮挡或者自遮挡,现有方法只利用深度信息提取图像特征的方法会造成遮挡部分信息的丢失。本方法将手指关节坐标和运动轨迹相结合,用随机森林对手指关节做三维坐标估计,即使摄像头获取的手部图像是受到部分遮挡的情况下,也能将手部关节细节作为特征加入到手语识别系统中,为手语识别增加了手指动作信息,使得手语识别更精细和准确。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (6)

1.一种基于轨迹和随机森林的手语识别方法,其特征在于,步骤包括:
采集原始深度图像和骨骼数据,将骨骼点映射到深度图的像素坐标上,并提取对应点的相应深度信息;
建立基于随机森林的分类模型并遍历分割节点计算深度差特征;
依据所述深度差特征判断进入树模型的左分支或者右分支,反复执行遍历步骤直至到达分割节点或者叶节点,当判断图像遍历到达树模型的分割节点时,根据记录的分割节点偏移向量更新当前关节点,将当前关节点分割为左右子关节点,当判断判断图像遍历到达树模型的叶节点时,进一步提取叶子节点得到手指关节的三维坐标;
提取手指关节点间向量和角度作为测试特征,计算测试特征与模板特征的DTW距离,根据得到的所述DTW距离输出识别结果。
2.根据权利要求1所述的手语识别方法,其特征在于,在所述将骨骼点映射到深度图的像素坐标上之前,还包括对原始骨骼数据进行kalman平滑滤波的步骤。
3.根据权利要求1所述的手语识别方法,其特征在于,所述建立基于随机森林的分类模型并遍历分割节点计算深度差特征,具体包括:选取输入的深度图的中心点初始化第一个关节点,根据树模型分割节点存储的特征计算深度差特征。
4.根据权利要求3所述的手语识别方法,其特征在于,依据所述深度差特征判断进入树模型的左分支或者右分支,具体包括:将所述深度差特征与设定阈值进行比较,如深度差特征小于设定阈值则进入左子树分支。
5.根据权利要求4所述的手语识别方法,其特征在于,所述提取叶子节点得到手指关节的三维坐标,还包括对得到的手指关节的三维坐标进行归一化处理。
6.根据权利要求4所述的手语识别方法,其特征在于,所述计算测试特征与模板特征的DTW距离,具体包括:对测试特征序列和模板序列构造距离矩阵,根据序列起点到终点的最佳弯曲路径距离得到测试序列和模板序列的DTW距离。
CN201910817381.5A 2019-08-30 2019-08-30 一种基于轨迹和随机森林的手语识别方法 Expired - Fee Related CN110516638B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910817381.5A CN110516638B (zh) 2019-08-30 2019-08-30 一种基于轨迹和随机森林的手语识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910817381.5A CN110516638B (zh) 2019-08-30 2019-08-30 一种基于轨迹和随机森林的手语识别方法

Publications (2)

Publication Number Publication Date
CN110516638A CN110516638A (zh) 2019-11-29
CN110516638B true CN110516638B (zh) 2022-09-27

Family

ID=68628666

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910817381.5A Expired - Fee Related CN110516638B (zh) 2019-08-30 2019-08-30 一种基于轨迹和随机森林的手语识别方法

Country Status (1)

Country Link
CN (1) CN110516638B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021237477A1 (zh) * 2020-05-26 2021-12-02 广州再生医学与健康广东省实验室 模型训练方法、装置、电子设备及介质
CN113989560B (zh) * 2021-10-28 2024-06-18 清华大学 用于雷达姿势识别的在线半监督学习分类器及其分类方法
CN114708648B (zh) * 2022-03-07 2024-07-02 杭州易视通科技有限公司 基于人工智能的手语识别方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577793A (zh) * 2012-07-27 2014-02-12 中兴通讯股份有限公司 手势识别方法及装置
EP3035235A1 (en) * 2014-12-17 2016-06-22 Fezoo Labs, S.L. Method for setting a tridimensional shape detection classifier and method for tridimensional shape detection using said shape detection classifier
CN106709951A (zh) * 2017-01-03 2017-05-24 华南理工大学 一种基于深度图的手指关节定位方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577793A (zh) * 2012-07-27 2014-02-12 中兴通讯股份有限公司 手势识别方法及装置
EP3035235A1 (en) * 2014-12-17 2016-06-22 Fezoo Labs, S.L. Method for setting a tridimensional shape detection classifier and method for tridimensional shape detection using said shape detection classifier
CN106709951A (zh) * 2017-01-03 2017-05-24 华南理工大学 一种基于深度图的手指关节定位方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于多特征融合的动作识别方法;石祥滨等;《沈阳航空航天大学学报》;20170425(第02期);全文 *

Also Published As

Publication number Publication date
CN110516638A (zh) 2019-11-29

Similar Documents

Publication Publication Date Title
Raghuveera et al. A depth-based Indian sign language recognition using microsoft kinect
CN106682598B (zh) 一种基于级联回归的多姿态的人脸特征点检测方法
CN109344701B (zh) 一种基于Kinect的动态手势识别方法
Chuang et al. A feature learning and object recognition framework for underwater fish images
Jiang et al. Multi-layered gesture recognition with Kinect.
CN111611643B (zh) 户型矢量化数据获得方法、装置、电子设备及存储介质
CN106446933B (zh) 基于上下文信息的多目标检测方法
JP6395481B2 (ja) 画像認識装置、方法及びプログラム
CN107122752B (zh) 一种人体动作比对方法及装置
CN108256421A (zh) 一种动态手势序列实时识别方法、系统及装置
CN110516638B (zh) 一种基于轨迹和随机森林的手语识别方法
CN107944431A (zh) 一种基于运动变化的智能识别方法
JP2001056861A (ja) 手の形状と姿勢の認識装置および手の形状と姿勢の認識方法並びに当該方法を実施するプログラムを記録した記録媒体
CN109993750A (zh) 一种手腕骨的分割识别方法及系统、终端及可读存储介质
CN111460976B (zh) 一种数据驱动的基于rgb视频的实时手部动作评估方法
Li et al. Hierarchical semantic parsing for object pose estimation in densely cluttered scenes
CN110599463A (zh) 一种基于轻量级联神经网络的舌像检测及定位算法
Ma et al. Weakly supervised instance segmentation of electrical equipment based on RGB-T automatic annotation
CN112507924B (zh) 一种3d手势识别方法、装置及系统
CN103985143A (zh) 基于字典学习的视频中判别性在线目标跟踪方法
CN110705584A (zh) 情绪识别方法、装置、计算机装置及存储介质
Auephanwiriyakul et al. Thai sign language translation using scale invariant feature transform and hidden markov models
CN106407978B (zh) 一种结合似物度的无约束视频中显著物体检测方法
CN112907569A (zh) 头部图像区域的分割方法、装置、电子设备和存储介质
CN111914822B (zh) 文本图像标注方法、装置、计算机可读存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220927