CN114913604A

CN114913604A - 一种基于两级池化s2e模块的姿态识别方法

Info

Publication number: CN114913604A
Application number: CN202210585936.XA
Authority: CN
Inventors: 冯亚沛; 刘鹏辉; 陆哲明
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2022-08-16

Abstract

本发明涉及姿态识别技术领域，提供了一种基于两级池化S2E模块的姿态识别模型的方法基于渐进两级池化的S2E模块的姿态识别模型，该技术方案是基于ResNet‑101网络结构的主干网络，提出了一个新的具有特征压缩和激励功能的S2E模块，形成新的模型。S2E模块通过建立更好的通道注意力机制来加速模型收敛，能够帮助网络更快速地从大量的通道图中提取特征，并过滤出更关键的特征信息，从而使网络模型能够更准确地识别数据。实验结果证明新的模型能够平衡预测精度、计算资源消耗及运行速度的问题。同时，在姿态识别的定性比较实验中，我们的模型能够专注于更多的细节区域，并避免由于姿态交叉和遮挡等原因造成的错误识别。

Description

一种基于两级池化S2E模块的姿态识别方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于渐进两级池化S2E模块的注意力机制的姿态和动作识别方法。

背景技术

随着人工智能技术的快速发展和大数据时代海量数据的倍增，行人动作识别在视频监控、人机交互、安防及体育赛事精细动作分析等领域得到了越来越广泛的应用。但是由于目标遮挡、光照变化和背景复杂等问题，行人动作识别效果并不理想，针对复杂场景下动作识别精确性的问题，基于注意力机制的姿态识别技术很好地解决了这一技术难题。传统的注意力机制通常用于评估信息之间的依赖关系，因此它在自然语言处理任务之中得到了广泛的运用。

目前，大多数基于神经网络的姿态识别算法都集中在增加神经网络的宽度、深度和分辨率，以增加计算资源的消耗和训练速度，从而获得预测精度的提高；而基于SE的压缩和激发模型属于轻量级网络的小型附加模块，SE模型轻量高效地实现了对通道内特征的激发或抑制，并将其嵌入到各种网络中，取得了良好的效果。但是，这种关注机制在压缩和提取深层语义特征方面不够准确，同时不能准确提取分布不均的特征图信息。

因此，针对以上不足，需要提供一种能够解决预测精度与计算资源消耗和运行速度之间的平衡问题的模型。

发明内容

本发明要解决的技术问题在于姿态估计过程中难以平衡预测精度进和计算资源消耗和运行速度，以及在混沌姿态识别的定性比较实验中，因姿态交叉和遮挡等原因造成的错误识别的问题。针对现有技术中的缺陷，提供一种能够提高混沌状态中姿态识别的精度，同时能够控制计算资源消耗和时间耗费的技术方案。

为了解决上述技术问题，本发明提供了一种基于两级池化S2E模块的姿态识别方法，包括以下步骤：

步骤1：对输入的图像进行人体边界框的检测，选用YOLOv3-spp进行目标检测，结合FPN的金字塔结构两步框架的模型实现检测出多种尺度的人体框姿态；

步骤2：对人体姿态的边界框进行冗余的判断计算，并删除或者融合多余的检测框，

步骤3：将一系列的人体检测框boxes缩放为320x256的尺寸，空白的部分均以0填充，将处理过后的人体检测框依次送入结合S2E-ResNet-101模块的sppe(single-personpose estimator)模型中，独立地对每个人体框进行姿态估计的检测；然后使用DUC将骨干网络输出的10x8分辨率的特征图上采样恢复至80x64；步骤4：生成姿态预测的关键点热图，使用一个替代全连接层的输出通道为17的卷积，得到关键点热图，然后检测热图中的最大值点直接生成人体的关键点预测，并将值直接作为置信度进行下一步的处理；

步骤5：通过pose-nms评估其中可能重复的姿势，pose-nms每一次将置信度最高的估计姿态作为标准，评估剩下的姿势和原姿势的相似度；评估相似度时，包括了两个姿势同一部位关键点的相似程度，还包括了不同部位但是空间近似的关键点的相似程度，最终的相似分数由这两者乘以各自的权重相加而得来，如果评估值高于设定的阈值则将它们放入一个集合，之后对将这些放在一个集合中的重复的姿势基于每个点的置信度分配权重并进行融合并输出，重复这个过程直至所有的姿势都被输出或者融合；

步骤6：姿态识别可视化输出，对预测的每一组关键点分别进行连接生成人体的姿势，在这个过程当中置信度低的关键点会被抛弃掉，生成后的人体姿势被添加到原图当中，最后进行可视化的输出。

作为优选，所述步骤3的具体过程为：

两层压缩加一个激励模块的S2E(Two-step Squeeze and Excitation)注意力机制；

S2E的第一层压缩操作是局部平均池化操作，对特征图的局部信息进行提取，对分散的特征信息进行有效且公平的提取，第二层压缩操作是一层全局最大池化，提取出之前局部平均池化中最为突出的特征，以下是S2E模块所使用的压缩过程的公式：

I_c＝max(p_c) (2)；

其中，u_c表示输出通道U中的第c个特征图，I_c描述通道长度为c张量信息，s表示特征图的索引，a,b分别表示S2E两层压缩层在相关性矩阵中的位置，l表示网络层数，

压缩模块能够将整个图的信息通过全局平均池化压缩到了一个单元中，进而将整个通道特征图压缩成了c×1的用来描述通道的张量I，其中c是通道的长度，激励模块就用来捕获通道特征图之间的关系了，SE模块的作者选用了两层全连接来实现上述的功能；

A＝σ(W2*ReLu(W1*I)) (3)；

其中W1是第一层c×c/r的全连接层，W2是第二层c×c/r的全连接层，r(reductionratio)是一个降维因子，σ表示激活函数sigmoid，为了能够让最后学习到的注意力不互斥，选择sigmoid函数实现激活，最后将整个算子生成的注意力A的权值与最初的整个通道进行逐特征层的乘算。

作为优选，所述步骤3的使用的S2E-ResNet-101模块中，其中4层layer对应的残差结构的堆叠数为3、4、23、3，在4层layer之后，输入的图像已经被放缩至输入图像的三十二分一，之后对分辨率小的特征图进行简单的3层上采样，将预测的特征图放大至8倍，最后压缩至17个通道并进行特征的输出；

注意力机制嵌入在S2E-ResNet-101模块中layer层的第一个用于调整通道的残差结构的尾部，嵌入在点态卷积的输出之后，并且将最终得到的注意力权值与之前点态卷积的输出对相应的通道进行乘算，以对注意力的机制进行实现；

后两层上采样使用的是DUC(Dense Upsampling Convolution)结构，首先是一个3x3的步长为1的卷积，将输入的通道扩大为原来的两倍，经过正则化处理以及激活函数进行激活之后，在经过scale为2的pixelshuffle进行上采样，pixelshuffle的方法是将相邻scale平方个通道基于相同位置的像素进行融合。

作为优选，为了实现轻量级的网络的资源耗费，利用h-sigmoid函数来替换激励操作中两层全连接层的结尾的sigmoid函数。

作为优选，S2E模型和ResNet-101模型中，在ResNet-101中的第2、3、4的特征提取层的bottleneck后嵌入S2E模块、同时，压缩操作第一步的平均池化的尺寸设置为宽度的一半、步长设置为尺寸的一半能够达到最好的效果。

作为优选，损失函数计算使用MSEloss，选用rmsprop优化器对训练的参数进行优化。

作为优选，在验证的程序中，模型同时预测了原始图像的热图，以及翻转图像的热图，之后在这两个热图上取平均作为验证的预测数据输入。

本发明的有益效果在于：

1、本发明提出的一种基于两级池化S2E模块的姿态识别模型，能够在考虑计算速度和计算资源的情况下，使整个姿势识别模型的预测精度得到相当大的提高，使得算法适合实时应用和部署在资源有限的硬件上。

2、通过建立一个更好的通道关注机制来加速模型收敛，这可以帮助网络从大量的通道图中更快地提取特征，过滤出更多的关键特征信息。

3、在混沌姿态识别的定性比较实验中，我们的模型能够关注更多的细节区域，避免由于姿态交叉和遮挡等原因导致的错误识别。

附图说明

图1为本实施例的整体改进思路图，

图2为本实施例姿态检测的S2E+ResNet101的网络模型图，

图3为本实施例的基于渐进两级池化S2E模块的姿态识别模型方法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案给出了详细的实施方式和具体的操作过程，但本发明的保护范围并不限于本实施例。本实验采用的数据集为COCO 2014数据集，采用自上而下的框架，通过估计输出热图来计算关键点的位置以及置信度分数(confidence score)。COCO 2014的数据集有超过130k张的图像，其中每个人标注了17个关键点。其中的2k多个图像作为验证集进行验证，将其余的图像作为训练集进行模型的训练。从中筛选出500张图像通过图形处理进行数据增强，扩充为10k的等量图像并进行测试。

本发明实施例提供的基于渐进两级池化S2E模块的姿态识别模型方法，首先基于ResNet-101构造神经网络模型，构造的神经网络模型包括卷积池化处理层、残差块、Instance Normalization层、空间注意力模块等。

结合图1本实施例的整体改进思路图，图2本实施例的姿态检测的S2E+ResNet101的网络模型图，图3本实施例的基于渐进两级池化S2E模块的姿态识别模型方法的流程图，本实施例的具体步骤如下：

步骤1：人体边界框的检测。选用YOLOv3-spp进行目标检测，结合FPN的金字塔结构两步框架的模型实现精确检测出多种尺度的人体框姿态，实现对数据集中帧图像的人体边界框的检测。

步骤2：边界框冗余处理。对人体姿态的边界框进行冗余的判断计算，并删除或者融合多余的检测框。人体检测的boxes尺寸从coco数据集的真实标签中提取，并基于经验将高与宽修正为5：4的尺寸，之后从对应的图像中将人体的boxes裁剪出来，图像的分辨率会被修正为320x256，多余的部分以0填补。此外，通过数据增强操作，包括随机旋转、随机尺寸的缩放以及图像的随机上下或者左右的翻转等扩充数据集，以减小模型的过拟合风险。

步骤3：模型训练。将去除冗余后人体检测框依次送入结合S2E-ResNet-101模块的sppe(single-person pose estimator)模型中，独立地对每个人体框进行姿态估计的检测；然后使用DUC将骨干网络输出的10x8分辨率的特征图上采样恢复至80x64。相比于简单的双线性上采样，DUC可以利用通道的信息来修补双线性方法中通常缺失的更为详细的信息。

步骤4：生成姿态预测的关键点热图。使用一个替代全连接层的输出通道为17的卷积，得到关键点热图，然后检测热图中的最大值点直接生成人体的关键点预测，并将值直接作为置信度进行下一步的处理。

ResNet101网络结构的构成中，其中4层layer对应的残差结构的堆叠数为3、4、23、3。在4层layer之后，输入的图像已经被放缩至输入图像的三十二分一，之后对分辨率小的特征图进行简单的3层上采样，将预测的特征图放大至8倍，最后压缩至17个通道并进行特征的输出。

S2E的第一层压缩操作是局部平均池化操作，对特征图的局部信息进行提取，这样可以对分散的特征信息进行有效且公平的提取。第二层压缩操作是一层全局最大池化，能够提取出之前局部平均池化中最为突出的特征。以下是S2E模块所使用的压缩过程的公式：

I_c＝max(p_c) (2)；

其中，u_c表示输出通道U中的第c个特征图，I_c描述通道长度为c张量信息，s表示特征图的索引，a,b分别表示S2E两层压缩层在相关性矩阵中的位置。

压缩模块能够将整个图的信息通过全局平均池化压缩到了一个单元中，进而将整个通道特征图压缩成了c×1的用来描述通道的张量I，其中c是通道的长度。激励模块就用来捕获通道特征图之间的关系了，SE模块的作者选用了两层全连接来实现上述的功能。

A＝σ(W2*ReLu(W1*I)) (3)；

其中W1是第一层c×c/r的全连接层，W2是第二层c×c/r的全连接层，r(reductionratio)是一个降维因子，σ表示激活函数sigmoid。为了能够让最后学习到的注意力不互斥，选择sigmoid函数实现激活。

注意力机制嵌入在ResNet网络层中的第一个主要用于调整通道的残差结构的尾部，即嵌入在点态卷积的输出之后，并且将最终得到的注意力权值算子与之前点态卷积的输出对相应的通道进行逐特征层乘算，以对注意力的机制进行实现。

在ResNet-101中的第2、3、4的特征提取层的bottleneck后嵌入S2E模块、同时，压缩操作第一步的平均池化的尺寸设置为宽度的一半、步长设置为尺寸的一半能够达到最好的效果。

在第一个采样过程中，选取scale为2的pixelshuffle，后两层上采样使用的是DUC(Dense Upsampling Convolution)结构，首先是一个3x3的步长为1的卷积，将输入的通道扩大为原来的两倍，经过正则化处理以及激活函数进行激活之后，在经过scale为2的pixelshuffle进行上采样。pixelshuffle的方法是将相邻scale平方个通道基于相同位置的像素进行融合。比起一般的双线性上采样，它能够通过通道信息来填补分辨率信息上的不足，因此效果也会更好。

损失函数计算使用MSEloss，选用rmsprop优化器对训练的参数进行优化，rmsprop优化器使用一种梯度继承的思想改善了梯度振荡的问题，并且在学习过程中自适应地调整学习率的大小，学习率先大后小的学习过程。

使用一个替代全连接层的输出通道为17的卷积，生成姿态预测的关键点热图。然后，检测热图中的最大值点直接生成人体的关键点预测，得到置信度值。在验证程序中，模型同时预测了原始图像的热图，以及翻转图像的热图，之后在这两个热图上取平均作为验证的预测数据输入。

步骤5：模型评估。通过pose-nms[18]评估其中可能重复的姿势。pose-nms每一次将置信度最高的估计姿态作为标准，评估剩下的姿势和原姿势的相似度。这里不仅评估了两个姿势同一部位关键点的相似程度，还评估了不同部位但是空间近似的关键点的相似程度，最终的相似分数由这两者乘以各自的权重相加而得来。如果评估值高于设定的阈值则将它们放入一个集合，之后对将这些放在一个集合中的重复的姿势基于每个点的置信度分配权重并进行融合并输出，重复这个过程直至所有的姿势都被输出或者融合。

COCO数据集上采用了一般的姿态估计的标准，即基于OKS的mAP度量，其中OKS(object keypoint similarity)定义了不同人类姿势之间的相似性。结果主要报告了基于不同IOU标准的mAP(mean Average Precision，平均精度)和mAR(mean Average Recall，平均召回率)，即：AP(10个IOU标准下精准度的平均数，这10个值在0.50到0.95中均匀取得)、AP50(在IOU＝0.50时的AP分数)、AP75、AR(计算标准和AP类似，计算召回率)和AR50。

表1 SE和S2E模型预测的比较

其中h和w分别是输入特征图的高度和宽度，需要注意的是池化核的尺寸指的是两个模块第一个压缩使用的池化核的尺寸，事实上S2E模块还有第二个压缩池化即全局最大值池化，另外在S2E-ResNet101中，S2E模块添加进了第2，3，4层的layer中。

上述表格的对比我们可以发现，由于S2E模块拥有比SE模块更为优秀的通道注意力机制，相较于SE-ResNet，S2E-ResNet的各项数据指标有了相当大的提升，其mAP达到了68.2，相较于SE-ResNet提高了4.1个mAP百分点，即使是在容错率更大的mAP50的标准指标，新的模型也相比于原来的模型提高了4.7个mAP百分点，mAR也提高了8.3个百分点。

更进一步地，申请人进行了对比实验：

表2对比实验

从表2中我们可以看出，在输入规模相同的情况下，较大的网络结构会比较小的网络表现更好，但参数数量较多。同时，不同网络结构的FLOPs大小差异也决定了一个算法模型的优劣。综合表2的对比实验，我们的算法在复杂度和准确度方面都能达到比较平衡的效果。与具有大量参数的大型网络结构相比，我们的算法占用的内存大小更少，对硬件的性能要求也更低。同时，与参数数量少的小网络相比，我们的算法的优势体现在识别精度。因此，我们可以看到我们的算法可以同时平衡精度和速度两个指标。

步骤6：姿态识别可视化输出。对预测的每一组关键点分别进行连接生成人体的姿势，在这个过程当中置信度较低的关键点会被抛弃掉。生成后的人体姿势被添加到原图当中，最后进行可视化的输出。

进一步的，为了证明本发明具有更优的效果，申请人对本发明所述方法进行消融实验，并用平均精准度(mAP)和平均召回率(mAR)对最终的结果进行了比较，实验说明和数据如下所示：

表3消融实验

其中Baseline表示SE-ResNet模型，S2E-1、S2E-2、S2E-3、S2E-4、S2E-5分别基于S2E-ResNet模型，同时选取不同的池化核尺寸、步长、激活函数、S2E模块添加进不同层的layer中的实验对比。最后的结果是，我们在ResNet-101中的第2、3、4的特征提取层的bottleneck后嵌入S2E模块、只在第1层嵌入简单的SE模块能够得到最为突出的效果，其中，压缩操作第一步的平均池化的尺寸设置为宽度的一半、步长设置为尺寸的一半能够达到最好的效果。

而为了应用在轻量级的网络上，考虑到一般移动设备在SIGMOID激活函数上的资源开销较大，因此在激励操作中两层全连接层的结尾是用了类似的H-SIGMOID函数替换原来的SIGMOID函数，并观察最终的效果。在上表的第5个模型是启用H-SIGMOID的效果，可以看出来，和之前的SIGMOID的激活函数作比较的话，H-SIGMOID作为最后的激活函数最终仍然能维持在一个比较好的水平，可以应用在对资源开销较为苛刻的轻量级网络中。由此可见，本文提出基于渐进两级池化S2E模块的姿态识别模型能够可以帮助网络更快速地从大量的通道图中提取特征，过滤出更关键的特征信息，从而使网络模型能够正确识别姿态信息。

为了进一步验证姿态识别方法的有效性，选取SE-ResNet-101和S2E-ResNet-101作为单人姿态估计预测器的对比实验。本实施例和基于SE注意力模块对数据集中图像进行人体骨骼点实时监测的对比结果，在混沌姿态识别的定性比较实验中可以看出，由于奔跑中的人体的腿部出现交叉动作，图像中两只腿相互遮挡，大腿和小腿存在视觉误差。而基于本发明的方法中能够专注于更多的细节区域，并避免由于姿态交叉和遮挡等原因造成的错误识别。对于有多人动作的图像，本发明的骨骼点检测更为精确。

以上所述，本发明实施提供的基于S2E的注意力机制的姿态识别方法，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.一种基于两级池化S2E模块的姿态识别方法，其特征在于：包括以下步骤：

步骤3：将一系列的人体检测框boxes缩放为320x256的尺寸，空白的部分均以0填充，将处理过后的人体检测框依次送入结合S2E-ResNet-101模块的sppe(single-person poseestimator)模型中，独立地对每个人体框进行姿态估计的检测；然后使用DUC将骨干网络输出的10x8分辨率的特征图上采样恢复至80x64；步骤4：生成姿态预测的关键点热图，使用一个替代全连接层的输出通道为17的卷积，得到关键点热图，然后检测热图中的最大值点直接生成人体的关键点预测，并将值直接作为置信度进行下一步的处理；

2.根据权利要求1所述的基于两级池化S2E模块的姿态识别方法，其特征在于，所述步骤3的具体过程为：

I_c＝max(p_c) (2)；

A＝σ(W2*ReLu(W1*I)) (3)；

3.根据权利要求2所述的基于两级池化S2E模块的姿态识别方法，其特征在于，所述步骤3的使用的S2E-ResNet-101模块中，其中4层layer对应的残差结构的堆叠数为3、4、23、3，在4层layer之后，输入的图像已经被放缩至输入图像的三十二分一，之后对分辨率小的特征图进行简单的3层上采样，将预测的特征图放大至8倍，最后压缩至17个通道并进行特征的输出；

4.根据权利要求3所述的基于两级池化S2E模块的姿态识别方法，其特征在于，为了实现轻量级的网络的资源耗费，利用h-sigmoid函数来替换激励操作中两层全连接层的结尾的sigmoid函数。

5.根据权利要求4所述的基于两级池化S2E模块的姿态识别方法，其特征在于，S2E模型和ResNet-101模型中，在ResNet-101中的第2、3、4的特征提取层的bottleneck后嵌入S2E模块、同时，压缩操作第一步的平均池化的尺寸设置为宽度的一半、步长设置为尺寸的一半能够达到最好的效果。

6.根据权利要求5所述的基于两级池化S2E模块的姿态识别方法，其特征在于，损失函数计算使用MSEloss，选用rmsprop优化器对训练的参数进行优化。

7.根据权利要求6所述的基于两级池化S2E模块的姿态识别方法，其特征在于，在验证的程序中，模型同时预测了原始图像的热图，以及翻转图像的热图，之后在这两个热图上取平均作为验证的预测数据输入。