CN110516638B

CN110516638B - 一种基于轨迹和随机森林的手语识别方法

Info

Publication number: CN110516638B
Application number: CN201910817381.5A
Authority: CN
Inventors: 毕胜; 谢靖怡
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2022-09-27
Anticipated expiration: 2039-08-30
Also published as: CN110516638A

Abstract

本发明提供一种基于轨迹和随机森林的手语识别方法，主要包括：采集原始深度图像和骨骼数据；建立基于随机森林的分类模型并遍历分割节点计算深度差特征；判断进入树模型的左分支或者右分支，反复执行遍历步骤直至到达分割节点或者叶节点；提取手指关节点间向量和角度作为测试特征，计算测试特征与模板特征的DTW距离；根据得到的所述DTW距离输出识别结果。本发明根据深度图像估计出手指的三维坐标点，克服了由于Kinect深度摄像头获取的深度图只能提供较弱的特征描述，手指间相似性而产生的模糊性，手部图像在整个图像中所占面积通常很小，容易导致低信噪比以及手指关节点细节丢失，还解决了人手的非刚体特性导致的遮挡和自遮挡问题等多种缺点。

Description

一种基于轨迹和随机森林的手语识别方法

技术领域

本发明涉及手语识别技术领域，具体而言，尤其涉及一种基于轨迹和随机森林的手语识别方法。

背景技术

人体感知技术不断发展，手语识别作为其重要的分支已经在众多应用领域广泛推广。手语识别系统发展已由目前常用的手语识别方法分为以下几类：

基于可穿戴设备，这种方法并不适用于广泛推广，因为其交互方式不自然，并且数据手套使用复杂且价格昂贵，目前只用于实验室研究等特殊场合基于计算机视觉，基于RGB-D图像的研究在最近几年内迅猛发展，随着Kinect、Leap Motion等深度摄像机的推出，使得手语识别的研究又迈进一个新的台阶。其中Kinect不仅价格低廉而且可以检测人体20个关节点数据，使用方便，无需校准，成为许多手语识别研究者的首选。但目前所推出深度传感器中，分辨率及精度都无法满足要求；并且由于人手的非刚体特性，容易产生自遮挡和两只手的相互遮挡问题，不能获取具体的手部关节点三维坐标，这些都是普通深度摄像头没有解决的问题。

基于深度学习，其使用网络学习大量数据，极大地依赖理想的训练样本，而大数据并不容易获得，成本很高。并且我们无法知道它选取的特征是什么，即特征选择不透明，人为无法干预，调参困难，选择的特征可能只适用于某一个数据集。

传统的手语识别没有将手指的细节动作考虑进来，使用随机森林对整个图像整体为输入，常作为动作的分类器，它们大多是对整张图片提取轮廓、直方图、形状特征等，对动作类别进行分类。而普通深度摄像头由于精度和人体皮肤在颜色和表面属性分布较均匀，只能提供较弱的特征描述，并且手部图像在整个图像中所占面积通常很小，容易导致低信噪比，使得手指的细节动作特征缺失。

发明内容

根据上述提出识别结果细节缺失的技术问题，而提供一种基于轨迹和姿态估计的手语识别方法，根据得到的深度图像估计出手指的三维坐标点，增加加权特征和全局约束的动态规整算法能更加关注手部特征，减少算法的运算时间。

本发明采用的技术手段如下：

一种基于轨迹和随机森林的手语识别方法，步骤包括：

采集原始深度图像和骨骼数据，将骨骼点映射到深度图的像素坐标上，并提取对应点的相应深度信息；

建立基于随机森林的分类模型并遍历分割节点计算深度差特征；

依据所述深度差特征判断进入树模型的左分支或者右分支，反复执行遍历步骤直至到达分割节点或者叶节点，当判断图像遍历到达树模型的分割节点时，根据记录的分割节点偏移向量更新当前关节点，将当前关节点分割为左右子关节点，当判断判断图像遍历到达树模型的叶节点时，进一步提取叶子节点得到手指关节的三维坐标；

提取手指关节点间向量和角度作为测试特征，计算测试特征与模板特征的DTW距离，根据得到的所述DTW距离输出识别结果。

进一步地，在所述将骨骼点映射到深度图的像素坐标上之前，还包括对原始骨骼数据进行kalman平滑滤波的步骤。

进一步地，所述建立基于随机森林的分类模型并遍历分割节点计算深度差特征，具体包括：选取输入的深度图的中心点初始化第一个关节点，根据树模型分割节点存储的特征计算深度差特征。

进一步地，依据所述深度差特征判断进入树模型的左分支或者右分支，具体包括：将所述深度差特征与设定阈值进行比较，如深度差特征小于设定阈值则进入左子树分支。

进一步地，所述提取叶子节点得到手指关节的三维坐标，还包括对得到的手指关节的三维坐标进行归一化处理。

进一步地，所述计算测试特征与模板特征的DTW距离，具体包括：对测试特征序列和模板序列构造距离矩阵，根据序列起点到终点的最佳弯曲路径距离得到测试序列和模板序列的DTW距离。

较现有技术相比，本发明具有以下优点：

本发明根据深度图像估计出手指的三维坐标点，克服了由于Kinect深度摄像头获取的深度图只能提供较弱的特征描述，手指间相似性而产生的模糊性，手部图像在整个图像中所占面积通常很小，容易导致低信噪比以及手指关节点细节丢失等缺点，还解决了人手的非刚体特性导致的遮挡和自遮挡问题。此外利用加权特征和全局约束的动态规整算法关注手部特征，减少算法的运算时间。本方法不需要使用智能手套等外在设备，采集普通深度摄像头，针对不同人的不同位置进行归一化处理，实现对象自然交互。

基于上述理由本发明可在手语识别领域广泛推广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中方法流程图。

图2为本发明实施例中随机森林模型训练流程图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供了一种基于轨迹和姿态估计的手语识别方法，步骤包括：

采集原始深度图像和骨骼数据，将骨骼点映射到深度图的像素坐标上，并提取对应点的相应深度信息。

具体地，使用常见的深度摄像头Kinect采集原始深度图像和骨骼数据，由于kinect自身存在分辨率和精度低、无法获取手指的具体关节点的不足，使骨骼点会产生跳变，因此对原始的骨骼数据进行kalman平滑滤波。采用Kinect的软件开发工具包SDK函数JointDepthIndices将骨骼点映射到深度图的像素坐标上，提取骨骼点的相应深度信息。这里认为手是距离摄像头最近的物体，因此当手部深度小于躯干深度时认为手语动作开始。对手部自适应画面外接矩形框，建立一次函数y＝b-kx(b>0,k>0)，表征手心的深度值x和正方形框边长y的关系，即手心到摄像头的距离摄像头越近，边长越长。对框内深度进行局部阈值处理，搜索深度值z与手心深度值x满足公式|x-z|<D的点，作为较佳的实施方式，D取矩形框内最小深度值与手心深度值之差的两倍。再对深度图像进行形态学处理，先腐蚀再膨胀去除噪声点干扰，得到只包含手的深度图片。

建立基于随机森林的分类模型并计算深度差特征。本发明技术方案在像素级上分类，提取的分类特征是深度差特征，可以反映出该像素是否处于手部的边缘，还有助于发现细的竖直结构(比如手指)。如图2所示为分类模型的训练过程。

具体地，输入训练集及其标签，初始化图像的集合中心为第一个关节点。此时关节集合C表示现阶段要处理的关节，例如手有16个关节，分别是手心、每根手指3个关节，C为这些关节的子集，对数据集中的每张图像计算其深度差特征

ρ_c＝mean(P_i|i∈C)

是关节集合C中所有关节坐标的和求平均。其中，V1,V2是扰乱向量。pc是当前关节坐标。p0第一个关节坐标，用来归一化。I表示图像，D_I是深度值。深度差特征小于阈值则将当前图像划分为左子集，反之划分为右子集。对于随机生成的多组扰乱向量V₁、V₂，计算信息增益(信息增益越小，意味着当前划分的子集内的特征越相似，而不同数据子集的特征差异越大)：

其中

是偏移量的协方差矩阵，tr()是矩阵的迹。在分割节点里记录拥有最大信息增益的特征ψ＝({V₁，V₂}，τ)。

当信息增益小于阈值时，将当前关节集合C用二分聚类法划分为两个关节子集，计算两个分裂关节坐标在新的关节集合中的坐标ρ_l,r＝mean{P_i|C_i∈C^{l,r}}，在分裂节点中记录两个分裂关节到当前关节点的偏移量和划分后的关节集合C^{l,r}。分裂节点划分两个子关节后同时往下建立分割节点，划分数据集，当信息增益小于阈值继续分割关节，以上训练过程不断递归，直到到达叶子节点，也就是关节集合C只剩下一个关节，叶子节点记录当前关节点到标签的偏移量。

利用训练后的模型进行分类，依据所述深度差特征判断是否进入树模型的左分支或者右分支，遍历分裂节点将当前关节点分裂为两个子关节点，反复遍历，若是则进一步提取叶子节点得到手指关节的三维坐标。

具体地，从根节点开始遍历每棵随机树，首先初始化输入深度图I的几何中心点为第一个关节点ρ₀。根据树模型分割节点存储的特征计算深度差特征，所述树模型分割节点存储的特征为：

ψ＝({V₁，V₂}，τ)

其中，

为扰乱向量，τ是阈值。深度差特征为：

即深度差特征为当前关节点ρ_c加上两个扰乱向量

之后，偏移量对应的当前深度值之差。根据深度差特征与τ的大小关系，判断进入树的左右分支，具体遍历树过程中，小于设定阈值则进入左子树分支，反之进入右分支。当图像I沿着树模型往下分类直到到达分裂节点，那么当前关节点ρ_c将会根据模型中记录的关节偏移量

更新，即新的

并分裂成两个子关节点进行下一个阶段递归，将分裂后的两个子关节按照上面所述步骤，从分割节点开始，两个子关节同时往下进行不断递归遍历，遍历所有树直到每条路径到达叶子节点，遍历结束。对森林里所有代表同一关节的叶子节点投票得到估计的手指关节三维坐标，具体来说，关节点一直递归更新，直到到达叶节点，当前的关节点加上叶节点存储的关节偏移量，得到估计的手指关节坐标。因为分裂节点的存在，遍历结束会同时到达多个叶节点，这些叶节点都代表同一个手指关节坐标，因此对同一个关节的叶节点进行有权重的投票，其中

关节偏移量为：

投票结果表示为：

其中ω是权重，n是树的数量，ρ_i是第i棵树的手指关节坐标。

提取手指关节点间向量和角度作为测试特征，计算测试特征与模板特征的DTW距离。根据得到的所述DTW距离输出识别结果。

具体地，提取手心点和手指指尖点坐标并分别进行归一化处理，先进行密度重采样，对稀疏的密度点线性插值：设置采样上限，计算相邻帧轨迹点的平均距离，即轨迹周长除以轨迹点数目，此时在相邻帧距离大于平均距离的点中线性插入一个点，并更新，直到到达采样上限。按

得到尺度归一化因子，以脊柱点和手心点为原点转换坐标系后除以尺度归一化因子，再从笛卡尔坐标系(x,y,z)转换到球坐标系(d,θ,φ)，计算球坐标系下关节点间距离：

其中，n是关节数目，J是关节点，T是原点。

角度特征：

选择与其他训练样本DTW距离最小的样本作为匹配模板，首先依次以第i个手语样本作为候选模板，计算剩下其他样本与当前样本i的DTW距离之和，选出距离之和最小的样本作为模板。采样动态时间规整算法，对测试特征序列和模板序列构造距离矩阵P，选择欧式距离。从序列起点到终点的最佳弯曲路径距离递推公式为D(i,j)＝P(i,j)+min(D(i-1,j),D(i-1,j-1),D(i,j-1))

其中，i,j分别为测试和模板的帧数，可得测试序列和模板序列的DTW距离。由于手和手肘和指尖对手语的贡献不同，因此在计算DTW距离时对贡献大的手部乘上大的权重，作为本发明较佳的实施例，权重取值为0.8，。为了减少算法计算复杂度，加入带状约束条件限制搜索路径，还能避免畸形拉伸。最后，得到的累积距离D(M,N)除以规整路径长度，消除不同序列长度带来的规整路径长度不同问题。其中，M为测试序列总帧数，N为模板序列总帧数。即：

选择最小SDTW对应的模型类别为最后识别出的结果。

由于人手的非刚体特性，当手指间发生物体遮挡或者自遮挡，现有方法只利用深度信息提取图像特征的方法会造成遮挡部分信息的丢失。本方法将手指关节坐标和运动轨迹相结合，用随机森林对手指关节做三维坐标估计，即使摄像头获取的手部图像是受到部分遮挡的情况下，也能将手部关节细节作为特征加入到手语识别系统中，为手语识别增加了手指动作信息，使得手语识别更精细和准确。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于轨迹和随机森林的手语识别方法，其特征在于，步骤包括：

2.根据权利要求1所述的手语识别方法，其特征在于，在所述将骨骼点映射到深度图的像素坐标上之前，还包括对原始骨骼数据进行kalman平滑滤波的步骤。

3.根据权利要求1所述的手语识别方法，其特征在于，所述建立基于随机森林的分类模型并遍历分割节点计算深度差特征，具体包括：选取输入的深度图的中心点初始化第一个关节点，根据树模型分割节点存储的特征计算深度差特征。

4.根据权利要求3所述的手语识别方法，其特征在于，依据所述深度差特征判断进入树模型的左分支或者右分支，具体包括：将所述深度差特征与设定阈值进行比较，如深度差特征小于设定阈值则进入左子树分支。

5.根据权利要求4所述的手语识别方法，其特征在于，所述提取叶子节点得到手指关节的三维坐标，还包括对得到的手指关节的三维坐标进行归一化处理。

6.根据权利要求4所述的手语识别方法，其特征在于，所述计算测试特征与模板特征的DTW距离，具体包括：对测试特征序列和模板序列构造距离矩阵，根据序列起点到终点的最佳弯曲路径距离得到测试序列和模板序列的DTW距离。