CN108537109B

CN108537109B - 基于OpenPose的单目相机手语识别方法

Info

Publication number: CN108537109B
Application number: CN201810151624.1A
Authority: CN
Inventors: 薛启凡; 李煊鹏
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2018-02-13
Filing date: 2018-02-13
Publication date: 2021-07-09
Anticipated expiration: 2038-02-13
Also published as: CN108537109A

Abstract

本发明公开了一种基于OpenPose的单目相机手语识别方法，包括以下步骤：用摄像机采集演示者手语的视频数据；将采集的视频数据输入到OpenPose系统中，初步提取包括x轴坐标和y轴坐标以及置信度的三维特征数据；选取初步提取的特征点，以颈部为原点重新建立坐标系，并且在x轴方向和y轴方向进行归一化，得到最终特征数据；对特征数据用三种不同粒度进行扫描，得到扩展特征数据；将扩展特征数据输入到深度森林模型内进行多层语义识别，最后一层的输出通过极值分类器得到最终语义的识别结果。本发明具有了单目视觉识别手语的能力，不需要大的样本数据，特征提取准确，过程简单，识别语义的准确性高。

Description

基于OpenPose的单目相机手语识别方法

技术领域

本发明涉及手语识别方法，具体涉及一种基于OpenPose的单目相机手语识别方法。

背景技术

目前对于手语识别领域的研究主要集中在孤立手势的识别，孤立手势的信息载体可分为两类：一种是由静止的手部姿势传递信息，绝大多数表现为字母的手指语属于这类，另一种是由手部运动的过程传递信息，包括现代手语中绝大部分手势语，两者分别将信息包含在空间和时间中，孤立手势识别关键在于特征提取和语义识别。在特征提取方面，中国专利CN103246891A公开了一种基于Kinect的中国手语识别方法，通过3D相机及双目相机如Kinect容易获得人体主要部位的深度信息，继而可以获得准确的三维坐标位置。但由于双目相机硬件开销较高，难以做到小型化，移动化。同时因其成本较高，在商业应用上也受到诸多限制。另一方面，语义识别的主流方法是采取人工神经网络的思想，中国专利CN105205449A公开了一种基于深度学习的手语识别方法，用反向传导算法，训练稀疏自编码网络，使得其在处理复杂背景数据时提高了识别率，选取稀疏自编码网络的权值作为卷积核，通过卷积，获得卷积特征图，将有监督学习和无监督学习结合起来。但需要训练样本的数量多，而对于手语辨别领域，大容量的不同语义的训练样本是很稀有的，采用该方法识别手语的过程复杂，准确性差。综上，现有的手语识别方法特征提取的不准确，过程复杂，识别语义的准确性差。

发明内容

发明目的：本发明的目的是提供一种基于OpenPose的单目相机手语识别方法，解决现有手语识别方法特征提取的不准确，过程复杂，识别语义的准确性差的问题。

技术方案：本发明所述的基于OpenPose的单目相机手语识别方法，其特征在于，包括以下步骤：

(1)用摄像机采集演示者手语的视频数据；

(2)将采集的视频数据输入到OpenPose系统中，初步提取包括x轴坐标和y轴坐标以及置信度的三维特征数据；

(3)选取初步提取的特征点，以颈部为原点重新建立坐标系，并且在x轴方向和y轴方向进行归一化，得到最终特征数据；

(4)对步骤(3)得到的特征数据用三种不同粒度进行扫描。

(5)将步骤(4)得到的扩展特征数据输入到深度森林模型内进行逐层语义识别，最后一层的输出通过极值分类器得到最终语义的识别结果。

为了使硬件开销小，应用范围广，所述步骤(1)中摄像机为单目摄像机。

为了将时间作为单独维度，使用多张二维图片级联成为三维特征矩阵，使得本身蕴含在时间中的手势动作信息转化为易处理的三维特征矩阵，所述步骤(2)中读取OpenPose输出的特征点json文件，将文件中每一帧的x，y坐标按顺序写入特征数量矩阵。对于置信度高于0.6的特征点，读取每个特征点的x坐标与y坐标，对于置信度低于0.6的特征点，对相邻特征点做均值插值进行预测，得到的特征数量矩阵数据即为初步提取的特征数据，数据格式为json，一帧图片提取60个特征点，一个动作共60*n个特征点，其中n语义动作长的帧数。

为了能够增强数据的对称性和表现能力，保证特征点的质量，所述步骤(3)选取44个特征点，以颈部为原点重新建立坐标系，并且在x轴方向和y轴方向进行归一化，得到n*44*2的最终特征数据。

为了增加了特征的数量，增强特征表现力和提高分类准确性，所述步骤(4)中采用三种不同的粒度进行扫描。

其中，所述步骤(5)中深度森林模型由若干层组成，每一层有两个随机森林和两个完全随机森林，第一层的输入为步骤(4)中的扩展特征，第一层的输出级与原始的扩展特征同时作为第二层的输入，每一层都以上一层的输出级与原始扩展特征同时作为输入。

有益效果：本发明具有了单目视觉识别手语的能力，初步可以识别聋哑语中一些复杂的手势语动作，不需要大的样本数据，特征提取准确，过程简单，识别语义的准确性高。

附图说明

图1是本发明的过程示意图；

图2深度森林模型处理流程图；

图3滑动扫描流程示意图；

图4多粒度扫流程描示意图。

具体实施方式

下面结合附图对本发明做进一步说明。

如图1-4所示，一种基于OpenPose的单目相机手语识别方法，包括特征提取和语义识别，首先特征提取的步骤为：用单目摄像机采集演示者手语的视频数据，采集的视频数据输入到OpenPose系统中，初步提取n*60*3维大小的特征数据，保存为json格式文件，一帧图片提取60个特征点，其中n语义动作长的帧数，选取44个特征点，以颈部为原点重新建立坐标系，并且在x轴方向和y轴方向进行归一化，得到n*44*2的最终特征数据。一般身体特征点选取手腕，肘部和肩部共6个特征点。手部特征点选取每根手指的三个关节以及指尖共38个特征点。归一化步骤：选取颈部特征点的坐标x₀，y₀，其余特征点坐标为x_i，y_i，归一化后特征点坐标为

其中s(x-x₀)，s(y-y₀)为一组动作中x方向和y方向的标准差。选取44个特征点是最佳数值，特征点少于44个会使得方法准确性急剧降低。特征点多于44个会使得特征质量变差，由于人体对称性，以颈部为中心可以使得x轴方向上的数据均值为0，减少数据方差。使得y轴方向上的数据向0移动，减少数据方差。这样能够增强数据的对称性和表现能力。归一化过程削弱了不同人身体大小和手臂长度带来的影响。本发明中摄像机仅需使用普通单目相机就可以满足需要，对摄像机的要求较低，硬件开销小，应用范围广。

其次语义识别的步骤为：对得到的特征数据用三种不同粒度进行扫描，得到扩展特征数据，将步骤得到的扩展特征数据输入到深度森林模型内进行逐层语义识别，最后一层的输出通过极值分类器得到最终语义的识别结果。其中，深度森林模型由若干层组成，每一层有两个随机森林和两个完全随机森林，第一层的输入为扩展特征，第一层的输出级与原始的扩展特征同时作为第二层的输入，每一层都以上一层的输出级与原始扩展特征同时作为输入。其中，扫描粒度的种类和大小根据不同相机的输入数据具体确定，粒度扫描优点在于增加了特征的数量，使得特征表现力更强。一般来说，使用单粒度扫描相较于不使用粒度扫描会给分类准确性带来很大的提升，粒度种类越多，分类准确性越高，但粒度种类超过三种之后，准确性提高较少，同时带来更大的计算量，使得分类性能降低。所以一般选取三种粒度进行扫描。每种粒度的大小取决于输入数据的大小，实践中选取不同粒度的初值，根据分类结果来确定最终的粒度大小。

使用本发明识别手语时，训练阶段将手语语义数据集分割，每个独立语义动作视频数据截取从动作开始到动作结束这一段作为样本，标签为该动作的语义。测试阶段将采集到的待识别的动作视频分割，选取从动作开始到动作结束这一段作为样本。将每个样本数据输入OpenPose，样本视频中的每一帧图片，共n帧。输出结果为包含60个特征点的json文件，每个类包含该特征点的x坐标，y坐标以及置信度。每帧图像的json文件标签为所属样本的语义，每个json文件大小为60*3，共输出n个json文件。读取每个样本中n帧的json文件，将每一帧的x，y坐标按顺序写入特征数量矩阵。对于置信度高于0.6的特征点，读取每个特征点的x坐标与y坐标，对于置信度低于0.6的特征点，对相邻特征点做均值插值进行预测。此时输出的样本特征数量矩阵的标签为该样本的语义，此数量矩阵大小为n*60*3。选取固定的44个特征点，将样本特征数量矩阵维度缩小为n*44*2，在这44个特征点钟，另外选取颈部特征点的坐标x₀，y₀，44个特征点坐标为x_i，y_i(i＝1,2,3……)，归一化后特征点坐标为

其中s(x-x₀)，s(y-y₀)为一组样本中x方向和y方向的标准差。将每个样本n*44*2大小的特征数量矩阵转换为m*1长的序列(m＝n*44*2)，对该序列进行多重粒度扫描，在训练过程中粒度大小依据m大小确定：一般选取3种不同粒度大小的初值j，k，l，步长d＝1，使用3种粒度扫描m长度的特征序列，分别生成

三种不同大小的特征矩阵J，K，L(d(K)表示矩阵K的维数)。通过选取不同的初值进行之后的分类，选取最好的初值来确定多粒度扫描的粒度大小，此时的三个特征矩阵为多粒度扫描的结果。将三个特征矩阵级联，生成t*1大小的扩展矩阵(t＝d(J)+d(K)+d(L))，将该扩展矩阵输入深度森林。深度森林由若干层组成，每一层有两个随机森林和两个完全随机森林。第一层的输入为的扩展特征，第一层的输出级联上原始的扩展特征作为第二层的输入，每一层都以上一层的输出级联上原始扩展特征作为输入。为了避免过拟合现象，这里每个森林的训练都采用了K-fold交叉验证，即每个样本都会被用作k-1次训练以及k-1次的检验，所以每个森林生成的概率分布并不是来自同一批训练数据的训练结果，而是通过对交叉检验之后的k-1次结果求平均，再输出结果。一层结果输出之后，使用训练模型来对一个检验集进行估计，选定一个截止准确性Δc，如果得到的结果准确性提升值小于Δc，那训练就会被终止。此步骤可以自动决定深度森林的层数d。每个样本在每棵树中都会找到一条路径去找到自己对应的叶节点，而同样在这个叶节点中的训练数据很可能是有不同类别的，通过u个类别进行统计获取各类的比例，u为语义数据集语义的总数量，然后通过对所有树的比例进行求均值生成整个森林的概率分布。最终选取每个样本概率最大的语义类别作为该样本的识别结果。

Claims

1.一种基于OpenPose的单目相机手语识别方法，其特征在于，包括以下步骤：

(1)用摄像机采集演示者手语的视频数据；

(4)对步骤(3)得到的特征数据用不同粒度进行扫描，得到维度更大扩展特征数据；

(5)将步骤(4)得到的扩展特征数据输入到深度森林模型内进行多层语义识别，最后一层的输出通过极值分类器得到最终语义的识别结果。

2.根据权利要求1所述的基于OpenPose的单目相机手语识别方法，其特征在于，所述步骤(1)中摄像机为单目摄像机。

3.根据权利要求1所述的基于OpenPose的单目相机手语识别方法，其特征在于，所述步骤(2)中读取OpenPose输出的特征点json文件，将文件中每一帧的x，y坐标按顺序写入特征数量矩阵，对于置信度高于0.6的特征点，读取每个特征点的x坐标与y坐标，对于置信度低于0.6的特征点，对相邻特征点做均值插值进行预测，得到的特征数量矩阵数据即为初步提取的特征数据，数据格式为json，一帧图片提取60个特征点，一个动作共60*n个特征点，其中n语义动作的帧数。

4.根据权利要求3所述的基于OpenPose的单目相机手语识别方法，其特征在于，所述步骤(3)选取其44个特征点，以颈部为原点重新建立坐标系，并且在x轴方向和y轴方向进行归一化，得到n*44*2的最终特征数据。

5.根据权利要求1所述的基于OpenPose的单目相机手语识别方法，其特征在于，所述步骤(4)中采用三种不同的粒度进行扫描。

6.根据权利要求1所述的基于OpenPose的单目相机手语识别方法，其特征在于，所述步骤(5)中深度森林模型由若干层组成，每一层有两个随机森林和两个完全随机森林，第一层的输入为步骤(4)中的扩展特征，第一层的输出级与原始的扩展特征同时作为第二层的输入，每一层都以上一层的输出级与原始扩展特征同时作为输入。