CN116416678A

CN116416678A - 一种运用人工智能技术实现动作捕捉及智能评判的方法

Info

Publication number: CN116416678A
Application number: CN202310238803.XA
Authority: CN
Inventors: 南京辉
Original assignee: Tongji Medical College of Huazhong University of Science and Technology
Current assignee: Tongji Medical College of Huazhong University of Science and Technology
Priority date: 2023-03-07
Filing date: 2023-03-07
Publication date: 2023-07-11

Abstract

本发明公开了一种运用人工智能技术实现动作捕捉及智能评判的方法，包括步骤：获取被测者的人体骨骼图像；使用Openpose对人体骨骼图像进行特征提取和分类，识别得到人体骨骼关键点数据；对人体骨骼关键点数据进行预处理，制作样本集；根据动作复杂、特征明显程度，对人体骨骼关键点数据分别进行低维度数据处理和高纬度数据处理；构建基于注意力机制的人体行为评判模型；将待检测人体行为动作视频输入基于注意力机制的人体行为评判模型中，输出智能评判结果。本发明利用深度学习模型对人体动作进行建模和识别，提高了捕捉的准确度和稳定性，通过构建基于注意力机制的人体行为评判模型，实现了人体行为动作是否规范的自动评判。

Description

一种运用人工智能技术实现动作捕捉及智能评判的方法

技术领域

本发明属于动作捕捉技术领域，特别涉及一种运用人工智能技术实现动作捕捉及智能评判的方法。

背景技术

人体行为识别主要根据采集到的视频来分析人体行为，这在视频监控、医疗康复、健身评估、人机交互等领域应用广泛，是计算机视觉研究的热点问题。

目前，从实现方式来分类，人体行为动作捕捉的方法主要有两种：一是使用传感器进行动作捕捉，二是使用多部摄像机进行动作捕捉。其中，当使用传感器进行动作捕捉时需要将传感器安装在被测者身上，通过检测传感器的运动和姿势变化来确定动作。该方法安装和校准传感器非常费时，同时容易受到干扰；当使用多部摄像机进行动作捕捉时需要使用多部摄像机对被测者进行拍摄，然后通过计算机分析视频中的像素变化来确定动作。此方法需要较高的计算机性能和复杂的算法，同时易受到光线、遮挡等因素的干扰。

近年来，图像识别、深度学习、神经网络等关键技术的突破推动了AI技术的发展，促进了医疗产业与人工智能的深度融合，而人工智能的数据挖掘技术也用于对图像特征信息进行提取和量化，消除主观影响。

发明内容

针对上述现有技术存在的问题，本发明的目的在于提出一种运用人工智能技术实现动作捕捉及智能评判的方法，以解决传统人体行为动作捕捉依赖于多部摄像机或者穿戴的惯性传感器，安装和校准费时、使用不便、检测结果易受到外界因素干扰等技术问题。

为了实现上述目的，本发明采用如下技术方案：

本发明第一方面提供了一种运用人工智能技术实现动作捕捉及智能评判的方法，包括以下步骤：

S1、采集被测者的人体行为动作视频，获取人体骨骼图像或者深度图像；

S2、使用Openpose对人体骨骼图像进行特征提取和分类，识别得到带有跟踪标记id信息的人体骨骼关键点数据；

S3、对得到的人体骨骼关键点数据进行预处理，然后制作样本集，并划分样本训练集和样本验证集；

S4、根据动作复杂、特征明显程度，对人体骨骼关键点数据分别进行低维度数据处理和高纬度数据处理；

S5、构建基于注意力机制的人体行为评判模型；

所述基于注意力机制的人体行为评判模型，包括：基于时间与空间注意力机制的数据源检测处理模块、节律性动作预测模型、非节律性动作预测模型和数据融合分析模型；

S6、将待检测人体行为动作视频输入基于注意力机制的人体行为评判模型中，输出智能评判结果。

优选地，所述步骤S6中，基于时间与空间注意力机制的数据源检测处理模块，用于对输入的人体行为动作视频进行检测处理，获得图像数据，并自动判别所述图像数据是否为节律性动作数据；若判别为节律性动作数据，则将图像数据输入到节律性动作评判模型中；若判别为非节律性动作数据，则将图像数据输入到非节律性动作评判模型中；

节律性动作评判模型，用于评判图像数据中的节律性动作的规范性和准确度，并输出评判结果；

非节律性动作评判模型，用于评判图像数据中的非节律性动作的规范性和准确度，并输出评判结果；

数据融合分析模块，用于将节律性动作评判模型和非节律性动作评判模型各自输出的评判结果进行融合分析，并输出最终人体行为评判结果。

优选地，所述步骤S3中，对人体骨骼关键点数据进行预处理包括对人体骨骼关键点数据的修复处理以及平滑处理。

优选地，所述对人体骨骼关键点数据的修复处理，具体为：

根据置信度大小判断每帧图像中的人体骨骼关键点数据是否可信，当判定人体骨骼关键点数据为不可信时，需要进一步判断所述不可行数据的类别：若置信度等于零，则判定为漏检数据，即表示没有采集到此帧图像的骨骼关键点，此时需要利用人体运动连续性及双线性插值对人体骨骼关键点数据进行修复；若置信度大于零，则判定为错检数据，则将之前标记的前向后向跟踪标记id信息删除，并更新跟踪信息。

优选地，所述对人体骨骼关键点数据的平滑处理，具体为：利用1€滤波器对骨骼数据进行时序平滑修正处理，经过1€滤波器的时序平滑修正处理后，骨骼关键点在图像上运动的轨迹变得更平滑，得到高度还原的高质量骨架序。

优选地，步骤S4中，根据动作复杂、特征明显程度，对人体骨骼关键点数据进行低维度数据处理和高纬度数据处理，包括：

根据经验将动作分为两类：一类为动作比较复杂、且特征明显的动作；针对这类动作相关的人体骨骼关键点数据需要准确识别其手部位置，通过采用低维数据处理得到；另一类为动作比较简单、且没有明显特征的动作，针对这类动作，采用高维度数据处理得到。

优选地，步骤S5中，所述构建基于注意力机制的人体行为评判模型，具体步骤为：搭建基于注意力机制的深度学习模型，使用样本训练集对所搭建的基于注意力机制的深度学习模型进行训练，迭代更新，优化网络参数，得到基于注意力机制的人体行为评判模型，最后再通过样本验证集进行检验；其中，所述注意力机制采用的是时间注意力机制与空间注意力机制并行的方式。

本发明具备如下有益效果：

(1)本发明首先通过Openpose识别视频中的人体骨骼关键点数据，再对所提取的人体骨骼关键点的坐标数据进行处理，通过对两种不同数据维度的处理相结合的方式对其进行分析，从而实现人体行为识别的目标。

(2)本发明提出一种基于深度学习的人体动作捕捉和智能评判方法，通过利用深度学习模型对人体行为动作进行建模和识别，减少了传感器和摄像机的使用，提高了捕捉的准确度和稳定性；通过构建基于注意力机制的人体行为评判模型，实现了人体行为动作是否规范的自动评判。另还可以针对不同的应用场景选择不同的深度学习模型和算法，提高模型的精度和泛化能力。

(3)本发明运用人工智能技术实现动作捕捉及智能评判，实现临床技术操作训练和评价客观化、常态化和可追溯性，达到智能化，为临床医学训练和考核提供有力工具。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种运用人工智能技术的人体动作识别及智能评判方法的流程图；

图2为身体躯干的25个关节点的示意图；

图3为双手的21个关节点的示意图；

图4为对人体骨骼关键点数据进行预处理的流程示意图；

图5为双手手腕关节点在数值方向产生了三十个波峰的示意图；

图6为基于注意力机制的深度学习模型的构架示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

实施例1

参照图1，本发明以医师考核心肺复苏场景为例，提供了一种运用人工智能技术的人体动作识别及智能评判方法，包括以下步骤：

S1、利用摄像头对被测者进行拍摄，采集被测者心肺复苏场景下的人体动作行为视频，获取人体骨骼图像或者深度图像；

S2、通过Openpose对人体骨骼图像进行特征提取和分类，识别得到带有跟踪标记id信息的人体骨骼关键点数据，这里人体骨骼关键点包括身体躯干的25个关节点(如图2所示)以及双手的21个关节点(如图3所示)。

S3、对得到的人体骨骼关键点数据进行预处理，然后制作样本集，并按7：3划分为样本训练集和样本验证集；

通过Openpose算法进行静态图像人体姿态估计，然后基于帧间姿态距离度量建立帧间姿态的关联矩阵，并通过二分图最大权匹(Kuhn-Munkres算法)实现人体跟踪，接着在人体跟踪的基础上进行骨骼关节点分析，利用运动连续性和Openpose检测置信度来判断骨骼关节点是否可信，然后针对不可信的骨骼关节点进行修复处理，修复过程中，对图片进行超像素分割，确定骨骼关节点所在超像素，并将超像素与以关节点为中心的方框的交集区域作为最小粒度，接着通过前向后向搜索较优关节点，基于光流与人体运动连续性建立候选关节点集和参考关节点，最后，为每一帧图像中置信度较低的关键点生成较优的候选关键点，通过重组相关身体部位为每一帧图像生成最优的全局人体姿态。

具体地，参照图4，对得到的人体骨骼关键点数据进行预处理，包括对人体骨骼关键点数据进行修复处理和平滑处理；

(1)对人体骨骼关键点数据进行修复处理：根据置信度大小判断每帧图像中的人体骨骼关键点数据是否可信，当判定为不可信时，由于不可信数据包括漏检数据和错检数据等类别，因此需要再进一步判断该不可信数据的具体类别：若置信度等于零，则判定为漏检数据，即表示没有采集到此帧图像的骨骼关键点，此时需要利用人体运动连续性及双线性插值对人体骨骼关键点数据进行修复；若置信度大于零，则判定为错检数据，则将之前标记的前向后向跟踪标记id信息删除，并更新跟踪信息。

(2)对人体骨骼关键点数据进行平滑处理：利用1€滤波器对骨骼数据进行时序平滑修正处理。1€滤波器(即一欧元过滤器)是一种用于过滤噪声信号的算法，其具有简洁高效，高精度和高响应性等特点。经过1€滤波器的时序平滑修正处理后，骨骼关键点在图像上运动的轨迹变得更平滑，这与现实中关节的运动性质一致，能够得到高度还原的高质量骨架序。

S4、根据心肺复苏场景中动作复杂、特征明显程度，对人体骨骼关键点数据分别进行低维度数据处理和高纬度数据处理。

心肺复苏场景中包含五种动作，分别是拍打动作、把脉动作、解衣动作、胸部按压动作和人工呼吸动作。根据经验可将上述五种动作分为两类：

(1)一类为动作比较复杂、且特征明显的动作，例如胸部按压动作，可进行低维数据处理；对于这类动作需要准确识别其手部位置，通过低维数据比如双手手腕关节点在竖直方向y轴上的移动轨迹得到，如图5所示，由图5可知，双手手腕关节点在数值方向产生了三十个波峰，做了三十次来回运动，即三十次胸部按压。同时获取开始帧与结束帧的时间进而得到按压频率，结合其在坐标轴上的位置信息，可得到医生的手部是否处于患者的胸腔位置，以及按压深度是否合格。

(2)另一类为动作比较简单、且没有明显特征的动作，例如解衣动作。对于这类动作，若仅凭某一关节点的移动轨迹的这种低维数据进行处理，难以保证其稳定性和准确性，因此需要对其进行更高维度的数据处理，以获取更多的信息。

本发明使用ST-GCN网络对人体骨骼关键点数据进行高维度数据处理。通过ST-GCN网络同时在时序和空间两个维度上的人体关键点数据进行卷积并特征提取，将Openpose识别得到的单帧的人体关键点数据构建为带有时间序列的骨架时空图。

ST-GCN：Spatial Temporal Graph Convolutional Networks时空图卷积网络，是在GCN的基础上提出的。核心观点是将TCN与GCN相结合，用来处理有时序关系的图结构数据。网络分为2个部分：GCN_Net与TCN_Net。GCN_Net对输入数据进行空间卷积，即不考虑时间的因素，卷积作用于同一时序的不同点的数据。TCN_Net对数据进行时序卷积，考虑不同时序同一特征点的关系，卷积作用于不同时序同一点的数据。

S5、构建基于注意力机制的人体行为评判模型；具体步骤为：

A51、搭建基于注意力机制的深度学习模型；

A52、将样本训练集输入到基于注意力机制的深度学习模型，训练模型，获取模型权重、阈值，优化参数，得到基于注意力机制的行为识别模型，最后再通过样本验证集进行检验。其中，注意力机制采用的是时间注意力机制与空间注意力机制并行的方式。

针对行为分析模型的泛化性问题，我们开发了基于注意力机制的深度学习模型，其构架如图6所示，设计一个双分支网络，分别为用于负责节律型动作(例如按压等)分析评判的节律型动作分析评判网络，和用于非节律型动作(例如解衣)分析评判的非节律型动作分析评判网络。在输入上述网络模型之前还增加了时间与空间注意力机制，自动判别输入的人体骨骼关键点数据是否为节律性动作，从而选择合适支路。

基于注意力机制的人体行为评判模型，包括：基于时间与空间注意力机制的数据源检测处理模块，用于对输入的数据源进行检测处理获得图像数据，并自动判别图像数据是否为节律性动作数据；若判别为节律性动作数据，则将图像数据输入到节律性动作评判模型中；若判别为非节律性动作数据，则将图像数据输入到非节律性动作评判模型中；

上述基于注意力机制的深度学习模型中，深度学习模型为ST-GCN网络，ST-GCN网络的公式推导如下，给定核尺寸为K×K的卷积算子，以及通道数量为c的输入特征映射fin。空间位置x处单个通道的输出值可写为：

其中，采样函数p:Z₂×Z₂→Z₂枚举位置x的邻居。在图像卷积的情况下，它也可以表示为p(x，h，w)＝x+p₀(h，w)。权函数w:Z₂→R_c提供了c维实空间中的权重向量，用于计算c维采样输入特征向量的内积。

样本函数又可以表示为：

p(υ_ti，υ_tj)＝υ_tj· (2)

权重函数可以表示为：

w(υ_ti，υ_tj)＝w′(l_ti(υ_tj))· (3)

因此公式(1)可以表示为：

在单帧情况下，具有第一分区策略的ST-GCN可通过公式(5)实现：

其中A是邻接矩阵，I是单位矩阵。这里，多个输出通道的权重向量被叠加以形成权重矩阵W。实际上，在空间与时间注意力机制下，我们可以将输入特征映射表示为(C，V，T)维度的张量。图卷积是通过执行1×Γ标准二维卷积来实现的，并将所得张量与归一化邻接矩阵∧-1/2(A+I)∧-1/2相乘。

对于具有多个子集的分区策略，即距离分区和空间配置分区，我们再次使用这种实现。但是注意，现在邻接矩阵被分解成几个矩阵A_j，其中A+I＝P_jA_j。例如，在距离划分策略中，A₀＝I和A₁＝A。等式(5)被转换为：

这里，将α设置为0.001，以避免A_j中出现空行。

本发明不局限于上述具体的实施方式，本领域的普通技术人员从上述构思出发，不经过创造性的劳动，所做出的种种变换，均落在本发明的保护范围之内。

Claims

1.一种运用人工智能技术的人体动作识别及智能评判方法，其特征在于，包括以下步骤：

S1、采集被测者的人体行为动作视频，获得人体骨骼图像；

S5、构建基于注意力机制的人体行为评判模型；

所述基于注意力机制的人体行为评判模型包括：基于时间与空间注意力机制的数据源检测处理模块、节律性动作预测模型、非节律性动作预测模型和数据融合分析模型；

2.根据权利要求1所述的运用人工智能技术的人体动作识别及智能评判方法，其特征在于，所述基于时间与空间注意力机制的数据源检测处理模块，用于对输入的人体行为动作视频进行检测处理，获得图像数据，并自动判别所述图像数据是否为节律性动作数据；若判别为节律性动作数据，则将图像数据输入到节律性动作评判模型中；若判别为非节律性动作数据，则将图像数据输入到非节律性动作评判模型中；

所述节律性动作评判模型，用于评判图像数据中的节律性动作的规范性和准确度，并输出评判结果；

所述非节律性动作评判模型，用于评判图像数据中的非节律性动作的规范性和准确度，并输出评判结果；

3.根据权利要求1所述的运用人工智能技术的人体动作识别及智能评判方法，其特征在于，步骤S3中，所述对得到的人体骨骼关键点数据进行预处理包括对人体骨骼关键点数据的修复处理以及平滑处理。

4.根据权利要求3所述的运用人工智能技术的人体动作识别及智能评判方法，其特征在于，所述对人体骨骼关节点数据进行修复处理，具体为：根据置信度大小判断每帧图像中的人体骨骼关键点数据是否可信，当判定人体骨骼关键点数据为不可信时，需要进一步判断所述不可行数据的类别：若置信度等于零，则判定为漏检数据，即表示没有采集到此帧图像的骨骼关键点，此时需要利用人体运动连续性及双线性插值对人体骨骼关键点数据进行修复；若置信度大于零，则判定为错检数据，则将之前标记的前向后向跟踪标记id信息删除，并更新跟踪信息。

5.根据权利要求3所述的运用人工智能技术的人体动作识别及智能评判方法，其特征在于，所述对人体骨骼关键点数据的平滑处理，具体为：利用1€滤波器对骨骼数据进行时序平滑修正处理，经过1€滤波器的时序平滑修正处理后，骨骼关键点在图像上运动的轨迹变得更平滑，得到高度还原的高质量骨架序。

6.根据权利要求1所述的运用人工智能技术的人体动作识别及智能评判方法，其特征在于，步骤S5中，所述构建基于注意力机制的人体行为评判模型，具体步骤为：搭建基于注意力机制的深度学习模型，使用样本训练集对所搭建的基于注意力机制的深度学习模型进行训练，迭代更新，优化网络参数，得到基于注意力机制的人体行为评判模型，最后再通过样本验证集进行检验；其中，所述注意力机制采用的是时间注意力机制与空间注意力机制并行的方式。

7.根据权利要求1所述的运用人工智能技术的人体动作识别及智能评判方法，其特征在于，步骤S4中，所述根据动作复杂、特征明显程度，对人体骨骼关键点数据进行低维度数据处理和高纬度数据处理，包括：

根据经验将动作分为两类：一类为动作比较复杂、且特征明显的动作；针对这类动作相关的人体骨骼关键点数据需要准确识别其手部位置，采用低维数据处理得到；另一类为动作比较简单、且没有明显特征的动作，针对这类动作相关的人体骨骼关键点数据，采用高维度数据处理得到。