CN112149613A

CN112149613A - 一种基于改进lstm模型的动作预估评定方法

Info

Publication number: CN112149613A
Application number: CN202011083996.9A
Authority: CN
Inventors: 谢谭; 李胜云; 邰海军; 曾凡; 柯钦瑜; 蒋伟
Original assignee: Xuanwei Beijing Biotechnology Co ltd
Current assignee: Xuanwei Beijing Biotechnology Co ltd
Priority date: 2020-10-12
Filing date: 2020-10-12
Publication date: 2020-12-29
Anticipated expiration: 2040-10-12
Also published as: CN112149613B

Abstract

一种基于改进LSTM模型的动作预估评定方法，它包括如下步骤：步骤一，采集T‑1时刻的人体姿态节点的17个数据点，经过姿态预测模型，输出下一时刻人体姿态的预测值；步骤二，T时刻视频帧经过HRNet，输出人体姿态的观测数据；步骤三，将T时刻人体姿态的观测数据与人体姿态节点预测数据，经过无迹卡尔曼滤波器滤波，得到精度更高的T时刻人体姿态节点数据。本发明根据所获得的实时的按压深度、按压部位和按压频率，绘制动态曲线图，从而可以识别并预测按压动作。而且增加注意力机制模型，使得改进后的HRNet用于心肺复苏按压动作过程中的人体姿态检测，以及为心肺复苏医学考核中假人胸部，头部等实例分割模型提供精确的主干网络，提高了模型的检测精度。

Description

一种基于改进LSTM模型的动作预估评定方法

技术领域

本发明涉及一种改进型算法，具体地说是涉及一种基于改进LSTM模型的动作预估评定方法。

背景技术

心脏骤停严重威胁人们的生命健康，开展优质的心肺复苏（CPR,cardiopulmonary resuscitation）可显著提升患者存活率，同时也是挽救患者生命的重要手段。美国心脏协会（AHA, American Heart Association）和国际复苏联络委员会（ILCOR,International Liaision Committee on Resuscitation）将高质量的心肺复苏术作为复苏的核心。目前常规的心肺复苏训练、考核方式为应用医学模拟人并由裁判打分评判。这样做存在几个弊端，比如考官评判主观性强，不够客观；在考核评判过程中考生具体的按压深度、频率等均依赖模拟人本身的质量条件，考官很难评判；训练过程中学员需要考官时时监督配合来纠正和提高自身的操作，大量消耗培训和考核的人力成本等等。

现有技术在获取了考生的按压图像之后，由于按压动作是一个动态过程，无法根据按压图像判断考生按压姿态是否合格，这就给自动评判带来了困难。

同时，由于按压动作是一个动态过程，动作是连贯性的，所以在识别当前动作姿态的同时，预估下一时刻的动作状态是非常重要的。

发明内容

本发明要解决的技术问题是：提供一种基于改进LSTM模型的动作预估评定方法。

为解决上述技术问题，本发明采用以下技术方案：

一种基于改进LSTM模型的动作预估评定方法，其特征在于：它包括如下步骤：

步骤一，采集T-1时刻的人体姿态节点的17个数据点，经过姿态预测模型，输出下一时刻人体姿态的预测值，即T时刻人体姿态节点预测数据；

步骤二，T时刻视频帧经过HRNet，输出人体姿态的观测数据；

步骤三，将T时刻人体姿态的观测数据与人体姿态节点预测数据，经过无迹卡尔曼滤波器UKF滤波，得到精度更高的T时刻人体姿态节点数据。

所述姿态预测模型包括如下步骤：

（1），实时获取心肺复苏按压过程中的视频帧；

（2），根据不同视频帧之间的相互关系，加入注意力机制，设i时刻的视频帧所提取的骨姿态节点为xⁱ，按压动作状态为hⁱ _prev，则

其中Qⁱ和Rⁱ为实现骨姿态节点为xⁱ和按压动作状态为hⁱ _prev交互所设置的矩阵，σ代表Sigmoid函数，r为超参数，表示采用多少帧图片所提取的特征；

（3），对LSTM模型进行改进，改进的模型如下：

其中，l_i和l_j均代表各个项的权重，为网络学习的参数，初始化为l_i =1/n，n代表所进行计算的图像帧数，j代表第j帧图像所提取特征，i代表第i帧图像所提取特征；

经过注意力机制，增强输入x和模型状态hⁱ _prev，最终使上下帧之间有更加丰富的交互表示，从而提高模型的检测精度；

（4），根据增强后的视频帧xⁱ和按压动作状态h^j _prev，识别心肺复苏动作情况。

所述心肺复苏动作情况包括按压深度、按压部位和按压频率。

所述的HRNet模型为：当输入F作为输入特征图input feature map时，增加注意力机制模块attention block，并对注意力机制模块attention block进行以下2个操作：

M _c表示在通道维度上做注意力提取的操作，即建立通道注意力机制模型，M _s表示的是在空间维度上做注意力提取的操作，即建立空间注意力机制模型。

通道注意力机制模型为：原始特征图X_in 经过卷积核大小分别为3X3，5X5的卷积操作，得到特征图U和特征图V，然后相加得到特征图F，特征图F融合多个感受野的信息，其形状为[C,H,W]，其中，C代表通道，H代表高度，W代表宽度，然后沿着H和W维度求平均值和极大值，通过两个pooling函数以后总共得到两个一维矢量；然后对两个一维矢量进行元素相加，最终得到了关于通道的信息是一个1×1×C的一维向量，代表的是各个通道的信息的重要程度；对1×1×C一维向量进行一个线性变换，将原来的C维映射成Z维的信息，然后将映射成Z维的一维向量再分别使用了2个线性变换，从Z维变为原来的C维，从而完成了针对通道维度的信息提取，然后使用Softmax进行归一化，这时候每个通道对应一个分数，代表该通道的重要程度，这相当于一个mask；将这2个分别得到的mask分别乘以对应的特征图U,V，得到特征图U’,V’；然后对特征图U’和V’这2个模块相加，进行信息融合，得到最终模块X_out。

空间注意力机制模型为：输入原始特征图X_in经过池化特征Pooling Feature，其中池化特征Pooling Feature 包含3个池化层，分别是平均池化, 最大池化和条纹池化，池化特征Pooling Feature经过1X1的卷积操作，实现通道降维，得到通道数为1的特征图，该特征图经过Sigmoid函数，与输入原始特征图 X_in进行逐元素分别进行点乘，得到输出X_out。

采用上述技术方案的本发明，具有以下有益效果：

1、利用改进后的LSTM模型，对视频帧xⁱ和按压动作状态h^j _prev进行增强，根据所获得的实时的按压深度、按压部位和按压频率，绘制动态曲线图，从而可以识别并预测按压动作。

2、本发明在原有的HRnet模型基础之上，增加注意力机制模型，使得改进后的HRNet用于心肺复苏按压动作过程中的人体姿态检测，以及为心肺复苏医学考核中假人胸部，头部等实例分割模型提供精确的主干网络，提高了模型的检测精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的原理图。

图2为原始LSTM模型图。

图3为本发明改进型LSTM模型图。

图4为原始HRnet模型。

图5为本发明改进型HRnet模型图。

图6为本发明通道注意力机制模型图。

图7为空间注意力机制模型图。

图8为改进后的HRnet整体结构图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。

应该指出，以下详细说明都是例式性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的技术含义相同。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

本发明中，术语如“固接”、“相连”、“连接”等应做广义理解，表示可以是固定连接，也可以是一体地连接或可拆卸连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的相关科研或技术人员，可以根据具体情况确定上述术语在本发明中的具体含义，不能理解为对本发明的限制。

在心肺复苏按压动作过程中，考生对医学模拟人实施按压动作，其中，按压位置、按压频率、按压幅度等等按压姿态的识别，是考核的重点。因此，动态识别考生的人体姿态骨节点，有利于便于自动识别按压姿态。

如图1所示，一种基于改进LSTM模型的动作预估评定方法，它包括如下步骤：

步骤二，T时刻视频帧经过HRNet，输出人体姿态的观测数据；

姿态预测模型有7层LSTM模型组成，由于CPR所考核的动作流程相对固定，在特定的时间段内考生所做动作符合一定的规律性，因此预测有一定精度。

如图2所示，原始LSTM模型，LSTM是一种含有LSTM区块（blocks）或其他的一种类神经网络，LSTM区块可能被描述成智能网络单元，因为它可以记忆不定时间长度的数值，区块中有一个gate能够决定input是否重要到能被记住及能不能被输出output。

图2中包括四个S函数单元，输入h_t-1和X_t依次输入至最左边函数Forget Gate和函数Input Gate，函数Forget Gate运算输出值输出至函数Input Gate，函数Input Gate输出值输出至函数Output Gate，函数Output Gate输出h_t。输入C_t-1与函数Forget Gate输出值与相乘，然后与函数Input Gate的输出值相加，最后经过函数Output Gate输出为C_t。

本发明对上述模型进行改进，一种基于改进LSTM模型的按压动作识别方法，它包括如下步骤：

（1），实时获取心肺复苏按压过程中的视频帧；

（2），根据不同视频帧之间的相互关系，加入注意力机制，设i时刻的视频帧为xⁱ，按压动作状态为hⁱ _prev，则

其中，Qⁱ和Rⁱ为实现骨姿态节点为xⁱ和按压动作状态为hⁱ _prev交互所设置的矩阵，σ代表Sigmoid函数，r为超参数，表示采用多少帧图片所提取的特征；

（3），对LSTM模型进行改进，改进的模型如下：

其中，l_i和l_j均代表各个项的权重，为网络学习的参数，初始化为l_i=1/n，n代表所进行计算的图像帧数，j代表第j帧图像所提取特征，i代表第i帧图像所提取特征；

经过注意力机制，增强输入x和状态hⁱ _prev，最终使上下帧之间有更加丰富的交互表示，从而提高模型的检测精度。

（4），根据增强后的视频帧xⁱ和按压动作状态h^j _prev，识别心肺复苏动作情况。上述识别可以采用图像识别等现有方法。

所述心肺复苏动作情况包括按压深度、按压部位和按压频率。根据所获得的实时的按压深度、按压部位和按压频率，绘制动态曲线图，从而可以识别并预测按压动作。

本发明将HRNet用于心肺复苏按压动作过程中的人体姿态检测，以及心肺复苏医学考核中假人胸部，头部等实例分割模型的主干网络的检测，为了提高模型的精度，对HRNet进行了优化改进。

如图4所示，在原始的HRNet中，共有4个阶段，第2、3、4阶段均为重复的多分辨率模块（modularized multi-resolution blocks）。在每个多分辨率模块之前，有一个交换层（Translation layer），该层才会出现额外的特征图。而多分辨率模块（多分辨率分组卷积+多分辨率卷积）没有额外的特征图出现。本发明对HRNet进行改进优化，提高其检测精度。在从多分辨率群卷积group conv到多分辨率卷积conv的卷积过程中，加入注意力机制模块attention block，以提升网络模型的特征表达能力。注意力机制不止能告诉网络模型该注意什么，同时也能增强特定区域的表征。其结构如图2所示，整体框架参考：CBAM:Convolutional Block Attention Module。

在图5中，在通道和空间两个维度上引入了注意力机制，当输入F作为输入特征图input feature map时，增加注意力机制模块attention block，注意力机制模块attentionblock 对其进行以下2个操作：

输出为F’，M _c表示在通道channel维度上做注意力提取的操作，即建立通道注意力机制模型，M _s表示的是在空间spatial维度上做注意力提取的操作，即建立空间注意力机制模型。

通道注意力机制模型具体为，如图6所示，原始特征图feature map X_in 经过卷积核大小kernel size分别为3X3，5X5的卷积操作，得到U特征图和V特征图，然后将U特征图和V特征图相加得到特征图F，特征图F融合多个感受野的信息，其形状为[C,H,W]，其中，C代表通道channel，H代表高度height，W代表宽度width，然后沿着H和W维度求平均值和极大值，通过两个pooling函数以后总共可以得到两个一维矢量，global average pooling对特征图F（feature map）上的每一个像素点都有反馈，而global max pooling在进行梯度反向传播计算只有特征图F（feature map）中响应最大的地方有梯度的反馈，能作为globalaverage pooling的一个补充。然后进行元素相加，最终得到了关于通道channel的信息是一个1×1×C的一维向量，代表的是各个通道的信息的重要程度。

之后对1×1×C一维向量进行一个线性变换，将原来的C维映射成Z维的信息，然后将映射成Z维的一维向量再分别使用了2个线性变换，从Z维变为原来的C，这样完成了针对通道channel维度的信息提取，然后使用Softmax进行归一化，这时候每个通道对应一个分数，代表其通道channel的重要程度，这相当于一个mask。将这2个分别得到的mask分别乘以对应的特征图U,V，得到特征图U’,V’。然后特征图U’和V’这2个模块相加，进行信息融合，得到最终模块X_out，最终模块X_out相比于最初的原始特征图feature map X_in经过了信息的提炼，融合了多个感受野的信息。

考虑到人体关节点的长距离相关性，空间注意力机制模型需有效捕远程上下文信息。整体的注意力机制模型如图7所示：

原始特征图输入X_in经过池化特征Pooling Feature，其中池化特征Pooling Feature包含3个池化层，分别是平均池化average pooling, 最大池化max pooling和条纹池化Strip pooling，条纹池化Strip pooling参考Strip Pooling: Rethinking SpatialPooling for Scene Parsing论文，发表于2020年，关于计算机视觉与模式识别IEEE 学会会议，发表人：侯祁斌，张丽，程明明，冯佳诗，主要解决目标远距离相关的问题。池化特征Pooling Feature经过1X1的卷积操作，实现通道降维，得到通道数为1的特征图Featuremap，该特征图Feature map经过Sigmoid函数，与输入的原始特征图Feature map X_in 进行element-wise的点乘，得到输出X _out。

经过改进后的HRNet整体结构如图8所示：

Channel maps 与Attention Block之间是直接连接，没有Upsample和Strided conv模块。

UKF无迹卡尔曼滤波是在卡尔曼滤波和变换的基础上发展而来的，它是利用无损变换使线性假设下的卡尔曼滤波应用于非线性系统，UT变换计算均值和协方差，通过含有均值和协方差的确定的点集（称作sigma points）来近似概率分布，通过系统的非线性模型，产生繁衍的sigma point，经过选择合适的权值估计均值和协方差。避免了求解雅克比矩阵。这种方法把系统当作“黑盒”来处理，因而不依赖于非线性的具体形式。UKF和EKF计算复杂度相当，但是UKF具有更高的估计精度，满足了具有各种特殊要求的非线性滤波和控制方面的应用，在实现上也比EKF更为简单。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于改进LSTM模型的动作预估评定方法，其特征在于：它包括如下步骤：

步骤二，T时刻视频帧经过HRNet，输出人体姿态的观测数据；

2.根据权利要求1所述的基于改进LSTM模型的动作预估评定方法，其特征在于：所述姿态预测模型包括如下步骤：

（1），实时获取心肺复苏按压过程中的视频帧；

（3），对LSTM模型进行改进，改进的模型如下：

3.根据权利要求2所述的基于改进LSTM模型的动作预估评定方法，其特征在于：所述心肺复苏动作情况包括按压深度、按压部位和按压频率。

4.根据权利要求1所述的基于改进LSTM模型的动作预估评定方法，其特征在于：所述的HRNet模型为：当输入F作为输入特征图时，增加注意力机制模块，并对注意力机制模块进行以下2个操作：

5.根据权利要求4所述的基于改进LSTM模型的动作预估评定方法，其特征在于：所述的通道注意力机制模型为：原始特征图X_in 经过卷积核大小分别为3X3，5X5的卷积操作，得到特征图U和特征图V，然后相加得到特征图F，特征图F融合多个感受野的信息，其形状为[C,H,W]，其中，C代表通道，H代表高度，W代表宽度，然后沿着H和W维度求平均值和极大值，通过两个pooling函数以后总共得到两个一维矢量；然后对两个一维矢量进行元素相加，最终得到了关于通道的信息是一个1×1×C的一维向量，代表的是各个通道的信息的重要程度；对1×1×C一维向量进行一个线性变换，将原来的C维映射成Z维的信息，然后将映射成Z维的一维向量再分别使用了2个线性变换，从Z维变为原来的C维，从而完成了针对通道维度的信息提取，然后使用Softmax进行归一化，这时候每个通道对应一个分数，代表该通道的重要程度，这相当于一个mask；将这2个分别得到的mask分别乘以对应的特征图U,V，得到特征图U’,V’；然后对特征图U’和V’这2个模块相加，进行信息融合，得到最终模块X_out。

6.根据权利要求4所述的基于改进LSTM模型的动作预估评定方法，其特征在于：空间注意力机制模型为：输入原始特征图X_in经过池化特征，其中池化特征包含3个池化层，分别是平均池化, 最大池化和条纹池化，池化特征经过1X1的卷积操作，实现通道降维，得到通道数为1的特征图，该特征图经过Sigmoid函数，与输入原始特征图 X_in进行逐元素分别进行点乘，得到输出X_out。