CN112801061A

CN112801061A - 一种体态识别方法及系统

Info

Publication number: CN112801061A
Application number: CN202110373740.XA
Authority: CN
Inventors: 赵敏
Original assignee: Nanjing Bailence Intelligent Technology Co Ltd
Current assignee: Nanjing Bailence Intelligent Technology Co Ltd
Priority date: 2021-04-07
Filing date: 2021-04-07
Publication date: 2021-05-14

Abstract

本发明实施例提出了一种体态识别方法及系统，所述体态识别方法包括：获取操作过程中的深度图像数据集，并进行预处理；对进行预处理后的深度图像数据集进行时序特征和空间特征的提取；根据特征融合结果，进行行为分类预测；输出预测结果；将所述预测结果与标准数据库中模板进行比对；根据比对结果生成评价报告，并输出。本发明通对深度图像的获取，以及时序特征和空间特征的融合，更好地获得识别准确率更高的判断结果。除此之外，在网络识别模型在网络训练过程中，采用了一种两阶段的识别过程，针对训练过程，通过二维人体姿态和三维骨骼点回归训练，解决了姿态多样性的问题，完善三维人体姿态识别结果。

Description

一种体态识别方法及系统

技术领域

本发明涉及一种体态识别方法及系统，特别是涉及图像数据处理技术领域。

背景技术

近年来，随着计算机技术的快速发展，智能机器设备得到了较大的提升。三维人体动作作为日常生活中的信息传达方式，其动作识别在应用方面具备可远距离采集，跟踪性能好等特点。

针对教学过程中，在对学生的规范操作进行评判时，由于评价教师和学生数量的不对等，既消耗师资力量也容易在评判的过程中出现主观影响，从而出现评估结果真实性不够可观。除此之外由于现有技术中，对人物姿态识别的采用的设备技术，由于遮挡以及识别模型的识别准确度不够高的问题，往往会出现测评结果，真实性较低的问题。

发明内容

发明目的：提出一种体态识别方法及系统，以解决现有技术存在的上述问题。

技术方案：第一方面，提出了一种体态识别方法，该方法包括：

获取操作过程中的深度图像数据集，并进行预处理；

对进行预处理后的深度图像数据集进行时序特征和空间特征的提取；

根据特征融合结果，进行行为分类预测；

输出预测结果；

将所述预测结果与标准数据库中模板进行比对；

根据比对结果生成评价报告，并输出。

在第一方面的一些可实现方式中，通过一种深度相机模型，对操作过程中的深度图像进行采集；所述深度相机模型包括红外发射器和红外摄像机；所述红外发射器中的发射红外线和接收红外线形成深度场，用于确定采集数据的深度信息。

在第一方面的一些可实现方式中，所述红外发射器用于不断地发射连续且频率固定的正弦光波。

所述红外线摄像机用于捕捉反射回的信号。

当捕捉待反射回来的正弦波之后，对两种光波的相位差进行计算，从而获得深度信息；当光速为

，发射与接收到的光波相位差为

，光波的频率为

时，物体的深度D的表达式为：

式中，D表示物体的深度；

表示光速；

表示发射与接收到的光波相位差；

表示光波的频率。

在第一方面的一些可实现方式中，所述深度图像数据集中，每一个深度图中，将像素点由两个字节组成，字节其中的前三位用于表示用户的索引信息，剩余位数表示侦测对象的深度信息。

在第一方面的一些可实现方式中，所述预处理包括对遮挡部位的关节修复，通过记录手肘-手腕、手腕-手掌距离，当手腕、手掌部位被遮挡且未被追踪到时，应用前向运动学，判断手掌位置，并采用修复后的关节点进行后续追踪和信息提取。

在第一方面的一些可实现方式中，获取预处理后的深度图像数据集，将捕捉到的骨骼点坐标数据转换为矩阵后，归一化区间数值，并将其输入神经网络中进行特征提取，接着采用矩阵合并的方式将抽象的时序特征和空间特征融合，最后使用softmax函数得到分类结果，最后将处理结果输出。

在第一方面的一些可实现方式中，所述神经网络的模型为：

式中，

表示数据的输出；

表示数据的输入；M表示权重矩阵，I表示单位矩阵；

表示第k个样本邻接矩阵和关联矩阵的拉普拉斯归一化。

神经网络中在模型识别的过程中通过选取人体中心为基准，用重心点到其他各个骨骼点的连线表示各个骨骼点到人体重心的相对距离，添加注意力机制，进一步扩大类间方差。

在第一方面的一些可实现方式中，采用的神经网络在网络训练过程中，分为二维人体姿态和三维骨骼点回归训练，在二维的姿态识别过程中，图中标注的骨骼点坐标先转换为热度图形式，表达式如下：

式中，

表示骨骼点的真实标注位置；

表示方差；

表示模板中心点位置；二维姿态识别采用的总损失函数为：

式中，N表示一批次中用于训练的图像数目；

表示预测第n个骨骼点的二维位置；

表示二维中第n个骨骼点的真实标注位置；

表示转换后的热度图；

三维骨骼回归中，先对预测网络进行粗训练，然后在粗预测网络参数不变的情况下，再次训练人体骨架网络，最后，冻结粗预测网络和人体骨架网络参数，对重投影网络进行训练，该损失函数如下表达式所示：

式中，N表示一批次中用于训练的图像数目；

表示三维中第n个骨骼点的真实标注位置；

表示人体骨架网络预测第n个骨骼点的三维位置；

表示重投影网络预测第n个骨骼点的三维位置；

表示粗预测网络预测第n个骨骼点的三维位置。

第二方面，提出一种体态识别系统，该系统具体包括：

用于获取操作过程中的深度图像数据集，并进行预处理的第一模块；

用于进行特征提取的第二模块；

用于进行行为分类预测的第三模块；

用于输出预测结果的第四模块；

用于将所述预测结果与标准数据库中模板进行比对的第五模块；

用于根据比对结果生成评价报告，并输出的第六模块。

在第二方面的一些可实现方式中，所述第一模块包括红外发射器、红外摄像机和数据预处理模块；所述红外发射器用于不断地发射连续且频率固定的正弦光波；所述红外线摄像机用于捕捉反射回的信号；所述红外发射器中的发射红外线和接收红外线形成深度场，用于确定采集数据的深度信息；所述数据预处理模块用于对遮挡部位进行关节修复，通过记录手肘-手腕、手腕-手掌距离，当手腕、手掌部位被遮挡且未被追踪到时，应用前向运动学，判断手掌位置，并采用修复后的关节点进行后续追踪和信息提取。

所述第二模块包括用于提取特征的神经网络模型，所述神经网络模型通过选取人体中心为基准，用重心点到其他各个骨骼点的连线表示各个骨骼点到人体重心的相对距离，添加注意力机制。

采用的神经网络模型在网络训练过程中，分为二维人体姿态和三维骨骼点回归训练，所述三维骨骼点回归中，先对预测网络进行粗训练，然后在粗预测网络参数不变的情况下，再次训练人体骨架网络，最后，冻结粗预测网络和人体骨架网络参数，对重投影网络进行训练。

所述第三模块使用softmax函数得到分类结果。

有益效果：本发明提出了一种体态识别方法及系统，通对深度图像的获取，以及时序特征和空间特征的融合，更好地获得识别准确率更高的判断结果。除此之外，在网络识别模型在网络训练过程中，采用了一种两阶段的识别过程，针对训练过程，通过二维人体姿态和三维骨骼点回归训练，其中，三维骨骼点回归中，先对预测网络进行粗训练，然后在粗预测网络参数不变的情况下，再次训练人体骨架网络，最后，冻结粗预测网络和人体骨架网络参数，对重投影网络进行训练；解决了姿态多样性的问题，完善三维人体姿态识别结果。

附图说明

图1为本发明的数据处理流程图。

图2为本发明深度信息获取场景示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，我们提出了一种体态识别方法，用于在实验教学过程中，对学生进行操作规范度的评价，如图1所示，该方法具体划分为以下步骤：

步骤一、获取学生操作过程中对应的数据集；

步骤二、对数据集进行判断处理，输出处理结果；

步骤三、输出结果与标准数据库中模板进行比对；

步骤四、根据比对结果生成评价报告，并输出。

具体的，通过一种深度相机模型，对学生操作过程中的深度图像进行采集。其中，所述深度相机模型包括红外发射器和红外摄像机，红外发射器中的发射红外线和接收红外线形成深度场，用于确定采集数据的深度信息。红外发射器不断地发射连续且频率固定的正弦光波，反射回的信号由红外线摄像机的摄像头进行捕捉，当捕捉待反射回来的正弦波之后，对两种光波的相位差进行计算，从而获得深度信息。如图2场景所示，当光速为

，发射与接收到的光波相位差为

，光波的频率为

时，物体的深度D的表达式为：

为了确保对学生操作过程中不会出现采集到的他人动作信息，从而出现误判的情况，所以，本申请的每一个深度图中，将像素点由两个字节组成，字节其中的前三位用于表示用户的索引信息，剩余位数表示侦测对象的深度信息。

在数据进行判断处理过程中，为了克服因部分部位被遮挡，从而导致数据可信度不高的问题，根据骨骼数据进行关节修复。正常追踪过程中，通过记录手肘-手腕、手腕-手掌距离，当手腕、手掌部位被遮挡且未被追踪到时，则应用前向运动学，推测手掌位置，并采用该点进行后续追踪和信息提取等。通过对被遮挡尾部的手部位置的修复，可以确保后续处理过程中所需参数的准确性，从而保障最终评测结果的真实性和可靠性。

当捕捉到骨骼点的坐标数据矩阵后，归一化区间数值，并将其输入神经网络中进行特征提取，接着采用矩阵合并的方式将上述抽象特征融合，最后使用softmax函数得到分类结果，最后将处理结果输出，用于对比评价。

其中，神经网络的模型为：

式中，

表示数据的输出；

表示数据的输入；M表示权重矩阵，I表示单位矩阵；

表示第k个样本邻接矩阵和关联矩阵的拉普拉斯归一化。输入特征

具体表示为：

式中，X表示特征维度；Y表示帧数；Z表示单个骨骼的骨骼点个数。

神经网络中在模型识别的过程中添加注意力机制，注意力机制可以增强距离人体重心点较远以及运动幅度较大的骨骼点的表征能力，进一步增加不同人体行为的类间方差，使神经网络更容易辨别到不同人体行为。为了更好的呈现数据流之间的互补关系，将骨骼点在时间维度上的运动状态与空间特征流进行融合，从而更好地提升判断准确度。

采用的网络识别模型在网络训练过程中，分为二维人体姿态和三维骨骼点回归训练，在二维的姿态识别过程中，图中标注的骨骼点坐标先转换为热度图形式，表达式如下：

式中，

表示骨骼点的真实标注位置；

表示方差；

表示模板中心点位置。二维姿态识别采用的总损失函数为：

式中，N表示一批次中用于训练的图像数目；

表示预测第n个骨骼点的二维位置；

表示二维中第n个骨骼点的真实标注位置；

表示转换后的热度图。

式中，N表示一批次中用于训练的图像数目；

表示三维中第n个骨骼点的真实标注位置；

表示人体骨架网络预测第n个骨骼点的三维位置；

表示重投影网络预测第n个骨骼点的三维位置；

表示粗预测网络预测第n个骨骼点的三维位置。分阶段的训练的方式，实现了由粗到精的转变，加强了三维空间位置的合理判断，减少识别过程中产生的误差。

针对输出的体态结果，将其与数据库中实现存储的标准体态进行比对，并根据相似度的数值，进行评分，当相似度越高时，评分则越高。

在一个实施例中，提出一种体态识别系统，该系统具体包括：

用于进行特征提取的第二模块；

用于进行行为分类预测的第三模块；

用于输出预测结果的第四模块；

用于根据比对结果生成评价报告，并输出的第六模块。

具体的，所述第一模块包括红外发射器、红外摄像机和数据预处理模块；所述红外发射器用于不断地发射连续且频率固定的正弦光波；所述红外线摄像机用于捕捉反射回的信号；所述红外发射器中的发射红外线和接收红外线形成深度场，用于确定采集数据的深度信息；所述数据预处理模块用于对遮挡部位进行关节修复，通过记录手肘-手腕、手腕-手掌距离，当手腕、手掌部位被遮挡且未被追踪到时，应用前向运动学，判断手掌位置，并采用修复后的关节点进行后续追踪和信息提取；

所述第二模块包括用于提取特征的神经网络模型，所述神经网络模型通过选取人体中心为基准，用重心点到其他各个骨骼点的连线表示各个骨骼点到人体重心的相对距离，添加注意力机制；

采用的神经网络模型在网络训练过程中，分为二维人体姿态和三维骨骼点回归训练，所述三维骨骼点回归中，先对预测网络进行粗训练，然后在粗预测网络参数不变的情况下，再次训练人体骨架网络，最后，冻结粗预测网络和人体骨架网络参数，对重投影网络进行训练；

所述第三模块使用softmax函数得到分类结果。

如上所述，尽管参照特定的优选实施例已经表示和表述了本发明，但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下，可对其在形式上和细节上做出各种变化。

Claims

1.一种体态识别方法，其特征在于，包括：

获取操作过程中的深度图像数据集，并进行预处理；

根据特征融合结果，进行行为分类预测；

输出预测结果；

将所述预测结果与标准数据库中模板进行比对；

根据比对结果生成评价报告，并输出；

其中，通过一种深度相机模型，对操作过程中的深度图像进行采集；所述深度相机模型包括红外发射器和红外摄像机；所述红外发射器中的发射红外线和接收红外线形成深度场，用于确定采集数据的深度信息。

2.根据权利要求1所述的一种体态识别方法，其特征在于，

所述红外发射器用于不断地发射连续且频率固定的正弦光波；

所述红外线摄像机用于捕捉反射回的信号；

，发射与接收到的光波相位差为

，光波的频率为

时，物体的深度D的表达式为：

式中，D表示物体的深度；

表示光速；

表示发射与接收到的光波相位差；

表示光波的频率。

3.根据权利要求1所述的一种体态识别方法，其特征在于，

所述深度图像数据集中，每一个深度图中，将像素点由两个字节组成，字节其中的前三位用于表示用户的索引信息，剩余位数表示侦测对象的深度信息。

4.根据权利要求1所述的一种体态识别方法，其特征在于，

所述预处理包括对遮挡部位的关节修复，通过记录手肘-手腕、手腕-手掌距离，当手腕、手掌部位被遮挡且未被追踪到时，应用前向运动学，判断手掌位置，并采用修复后的关节点进行后续追踪和信息提取。

5.根据权利要求1所述的一种体态识别方法，其特征在于，获取预处理后的深度图像数据集，将捕捉到的骨骼点坐标数据转换为矩阵后，归一化区间数值，并将其输入神经网络中进行特征提取，接着采用矩阵合并的方式将抽象的时序特征和空间特征融合，最后使用softmax函数得到分类结果，最后将处理结果输出。

6.根据权利要求5所述的一种体态识别方法，其特征在于，

所述神经网络的模型为：

式中，

表示数据的输出；

表示数据的输入；M表示权重矩阵，I表示单位矩阵；

表示第k个样本邻接矩阵和关联矩阵的拉普拉斯归一化；

7.根据权利要求5所述的一种体态识别方法，其特征在于，

采用的神经网络在网络训练过程中，分为二维人体姿态和三维骨骼点回归训练，在二维的姿态识别过程中，图中标注的骨骼点坐标先转换为热度图形式，表达式如下：

式中，

表示骨骼点的真实标注位置；

表示方差；

表示模板中心点位置；二维姿态识别采用的总损失函数为：

式中，N表示一批次中用于训练的图像数目；

表示预测第n个骨骼点的二维位置；

表示二维中第n个骨骼点的真实标注位置；

表示转换后的热度图；

式中，N表示一批次中用于训练的图像数目；

表示三维中第n个骨骼点的真实标注位置；

表示人体骨架网络预测第n个骨骼点的三维位置；

表示重投影网络预测第n个骨骼点的三维位置；

表示粗预测网络预测第n个骨骼点的三维位置。

8.一种体态识别系统，用于实现权利要求1~7任意一项方法，其特征在于，包括：

用于进行特征提取的第二模块；

用于进行行为分类预测的第三模块；

用于输出预测结果的第四模块；

用于根据比对结果生成评价报告，并输出的第六模块。

9.根据权利要求8所述的一种体态识别系统，其特征在于，

所述第一模块包括红外发射器、红外摄像机和数据预处理模块；所述红外发射器用于不断地发射连续且频率固定的正弦光波；所述红外线摄像机用于捕捉反射回的信号；所述红外发射器中的发射红外线和接收红外线形成深度场，用于确定采集数据的深度信息；所述数据预处理模块用于对遮挡部位进行关节修复，通过记录手肘-手腕、手腕-手掌距离，当手腕、手掌部位被遮挡且未被追踪到时，应用前向运动学，判断手掌位置，并采用修复后的关节点进行后续追踪和信息提取；

所述第三模块使用softmax函数得到分类结果。