CN113792641B

CN113792641B - 一种结合多谱注意力机制的高分辨率轻量级的人体姿态估计方法

Info

Publication number: CN113792641B
Application number: CN202111047678.1A
Authority: CN
Inventors: 张德平; 马皖宜
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2021-09-08
Filing date: 2021-09-08
Publication date: 2024-05-03
Anticipated expiration: 2041-09-08
Also published as: CN113792641A

Abstract

本发明公开了一种结合多谱注意力机制的高分辨率轻量级的人体姿态估计方法，主要步骤如下：在Lite‑HRNet的多分辨率子网的条件跨分辨率权重计算中融入多谱注意力机制，通过多分辨率融合模块得到有质量的高分辨率特征图作为输出；在主体网络后面利用一个反卷积模块，包括一个转置卷积和用于细化特征图的轻量级残差模块，生成更高分辨率特征图作为输出；将主体网络和反卷积模块生成的不同分辨率的特征图进行融合，然后进行热图预测，得到人体姿态估计结果。本发明既避免了全局平均池化这种单一频率在通道注意力中引起的特征信息不足的问题，又能对不同分辨率信息进行更有效的注意力权重分配，使得多个分辨率特征信息能被有效提取利用。

Description

一种结合多谱注意力机制的高分辨率轻量级的人体姿态估计方法

技术领域

本发明涉及人体姿态估计领域。尤其是一种结合多谱注意力机制的高分辨率轻量级的人体姿态估计方法。

背景技术

人体姿态估计是研究基于图像的观测数据恢复关节和躯干姿态的算法或系统，是计算机视觉领域最具挑战和研究意义的方向之一。人体姿态准确的自动识别，是人类活动识别、计算行为分析、人的再识别和人机交互等任务的基本步骤。根据人体姿态估计信息的空间维度，可以将人体姿态估计分为二维人体姿态估计和三维人体姿态估计，二维姿态估计算法通过获取二维图像上的人体关键点的位置信息以及肢体的位置和方向信息，最终得到的人体关节点坐标与骨骼信息可直接影响三维人体姿态估计的结果，所以颇具挑战。

多人人体姿态估计有两种常用范式，一种是自顶向下(top-down)，另一种则是自底而上(bottom-up)。自顶向下是首先检测出人体边界框，然后独立估计每个框内人体的姿势。虽然自顶向下的算法的准确度比较高，但也存在着一些问题。一方面，因为这类算法关注每一个单人的个体目标，所以在多人姿态估计中，场景中的人越多，算法耗费的时间成本和内存都随之增加，复杂场景下其实际意义被削弱。另一方面，在多人场景中，如果人体目标过于拥挤，预选框重叠严重，则会使一个边界框中出现多余的人体肢干，造成错误的人体分配，导致姿态估计错误。自底而上则是首先检测所有关键点的位置，再将它们关联或匹配到相应人体上。现有的自底向上的人体姿态估计算法在实时性上有了很大的突破，检测精度也在一步步地提升，但仍然不可避免地对实际检测中的拥挤问题、遮挡问题以及光照等自然环境问题存在着检测挑战。

无论是哪种范式的多人人体姿态估计算法几乎都利用了神经网络分类器，神经网络结构很大程度上影响着人体姿态估计的结果好坏，其强大的学习能力有助于解决图像中背景复杂和人体被遮挡的问题，因此研究人员总致力于设计出更好的网络结构。目前比较流行的网络模型主要是基于ResNet，Hourglass，HRNet和生成对抗网络(GAN)等骨干网络。现阶段更具优越性的是采用并行融合多分辨率特征方法的HRNet网络，但是一方面在特征提取的过程中，各网络的卷积操作是一种局域化的操作，导致多分辨率特征融合的时候不能有效地利用全局信息，使得后续的特征输出图丢失掉很多有效信息，影响到最终人体姿态估计的准确度。另一方面，高分辨率特征图有利于提高推理阶段的精确度，所以生成有质量的高分辨率特征图也十分重要。常用的生成高分辨率特征图的方法有四种：编码与解码方法，空洞卷积方法，反卷积方法，HRNet网络。为了应用于实际问题，无论是采用哪种方法，都应注重轻量化网络，保证整个算法或系统的运算效率。

发明内容

本发明的目的在于提出一种结合多谱注意力机制的高分辨率轻量级的人体姿态估计方法，其基于Lite-HRNet网络，在每个不同分辨率子网中包含多谱注意力(MSA)条件通道加权模块和多分辨率特征融合模块，多个并行子网构成主体网络。在融合模块之前，利用条件通道加权模块提取出更丰富有效的特征信息。然后在主体网络末端利用一个轻量级的反卷积模块，能够高效生成更高的分辨率特征图，提升人体姿态估计准确度，尤其是中小型人体。

本发明采用以下技术方案：

一种结合多谱注意力机制的高分辨率轻量级的人体姿态估计方法，包括以下步骤：

步骤(1)、在主体网络中，所述主体网络为由多个不同分辨率的并行子网构成的Lite-HRNet网络；每个并行的子网中都包括多个多谱注意力条件通道权重模块和一个多分辨率特征融合模块，在跨分辨率权重计算中融入多谱注意力机制，再通过得到的权重向量计算得到所有输入通道的信息，最后生成具有高分辨率的人体图像信息的特征图作为输出；

原始图像经过预处理和一系列数据增强操作后输入主体网络中，三个阶段的并行子网络模块的通道数不断增加，输出分辨率逐渐减小，分别是原始图像尺寸的1/4、1/8、1/16；主体网络最后的输出是通过重复融合不同分辨率特征信息得到的最高分辨率特征图，即原图像分辨率1/4的特征图；

步骤(2)、在主体网络后面利用一个反卷积模块，包括一个转置卷积和四个用于细化特征图的轻量级残差模块，引入通道置换、逐点分组卷积和深度可分离卷积来轻量化残差模块，生成有效的更高分辨率特征图作为输出，即原图像分辨率1/2的特征图；

步骤(3)、将步骤(1)主体网络生成的原图像分辨率1/4的特征图和步骤(2)反卷积模块生成的原图像分辨率1/2的特征图进行融合，然后进行热图预测，得到人体姿态估计结果。

进一步的，步骤(1)所述在跨分辨率权重计算中融入多谱注意力机制，再通过得到的权重向量计算得到所有输入通道的信息具体为：

在每个子网中，用条件通道加权的按位加权运算来替代1x1卷积，具体表示为：在第s个阶段有s个分支(s＝1,2,3)，每个分支按位加权为

Y_s＝W_s⊙X_s (1)

其中W_s是一个权重映射；

融入了多谱注意力机制后，跨分辨率权重的计算如下：在第s个阶段有s个并行的分辨率子网和s个权重映射W₁,W₂,...,W_s，每个权重映射对应相应的分辨率；使用一个函数M_s(·)，计算在不同分辨率子网中所有通道的s个权重映射：

(W₁,W₂,...,W_s)＝M_s(X₁,X₂,...,X_s) (2)

其中{X₁,X₂,...,X_s}是第s高分辨率子网的输入映射，X₁是最高分辨率，X_s是第s高分辨率；

函数M_s(·)的实现如下：先通过多谱通道注意力对{X₁,X₂,...,X_s-1}做预处理，得到预处理结果：

X′₁＝Freq(X₁),X′₂＝Freq(X₂),...,X′_s-1＝Freq(X_s-1) (3)

然后将{X′₁,X′₂,...,X′_s-1}与X_s拼接起来执行后续操作，即公式(4)，生成包含s个分支的权重映射W₁′,W′₂,...,W_s′，分别对应每一个分辨率：

{X₁′,X′₂,...,X′_s-1,X_s}→Conv.→ReLU→Conv.→sigmoid→(W₁′,W₂′,...,W_s′)(4)。

进一步的，所述先通过多谱通道注意力对{X₁,X₂,...,X_s-1}做预处理中的预处理中的多谱通道注意力，是使用二维离散余弦变换的多个频率分量，将全局平均池化推广到频域而得到的，具体操作为：

将输入X沿着通道维度C分为n个部分，表示为[X⁰,X¹,...,X^n-1]，其中i∈(0,1,...,n-1)，C′＝C/n且C能整除n，每个部分都分配了相应的二维离散余弦变换频率分量，将二维离散余弦变换的结果作为通道注意力的预处理结果，得到：

其中，[u,v]是Xⁱ对应的频率分量的二维指标，是预处理后的C′维向量，再通过拼接就能够得多谱注意力向量/>

Freq＝cat([Freq⁰,Freq¹,...,Freq^n-1]) (10)。

进一步的，步骤(1)所述原始图像经过预处理和一系列数据增强操作输入主体网络后的三个阶段具体为：

11)阶段1是一个stem模块，包含有卷积块和shuffle块，进入阶段1后，通过卷积、通道置换和下采样操作，输出原图像1/4分辨率的特征图作为下一阶段的输入；

12)阶段2是主体网络最高分辨率子网，包含有两个融入多谱注意力的条件通道权重模块和一个多分辨率特征融合模块，阶段1所得原图像1/4分辨率的特征图进入阶段2后，最高分辨率子网的输出依然是原图像1/4分辨率的特征图；在融合模块中包含下采样操作，将所得原图像1/4分辨率的特征图信息传入新增的次高分辨率子网中，该子网也包含有两个融入的条件通道权重模块和一个多分辨率特征融合模块，其输出是原图像1/8分辨率的特征图；阶段2重复2次。

13)阶段3包含有两个并行的输出不同分辨率特征图的子网，在阶段2的最后一次融合块中，将分辨率最高与次高的两个子网的特征信息融合后传入新增的最低分辨率子网中，同该子网样包含有两个融入的条件通道加权模块和一个多分辨率特征融合模块，其输出为原图像1/16分辨率的特征图；阶段3重复4次。

进一步的，所述步骤(2)具体为：

反卷积模块包含了转置卷积和四个残差块，在反卷积模块中，使用4x4的转置卷积来进行反卷积操作，然后使用BatchNorm和ReLU学习对输入特征图上采样的过程；为了保证生成的高分辨率特征图的质量，在反卷积后面添加四个残差块来细化上采样的特征图；又为了轻量化网络，引入通道置换、逐点分组卷积和深度可分离卷积来改进原本残差块；具体操作为：

首先对1x1的卷积做分组操作，即逐点分组卷积，假设将通道分为g个组，那么引入分组操作后的逐点卷积的计算量大约是原来的1/g；然后通道置换模块在分组操作基础上，对输入的特征图在通道上做一个分配，使每个组再分成g个子组，在不同组别中按顺序各抽出一个子组组合成一个新的组别，操作g次，得到g个新的组别，再将其输入深度可分离卷积网络之中，能够高效地生成有质量的更高分辨率特征图，即原图像分辨率的1/2。

进一步的，所述步骤(3)具体为：

基于步骤(1)中的主体网络生成的原始输入图像1/4分辨率的特征图，步骤(2)中的轻量级反卷积模块生成的原始输入图像1/2分辨率的特征图，将多尺度的特征图构成特征金字塔，通过上采样操作，进行多分辨率特征融合，获得具有丰富有效信息的原图像1/2分辨率的特征图，然后进行热图预测，得到人体姿态估计结果。

本发明的有益效果在于：

(1)、在主体网络的每个并行子网的跨分辨率权重计算中融入MSA，MSA采用了多个频率分量，既避免了GAP这种单一频率在通道注意力引起的特征信息不足的问题，又能对不同分辨率信息进行更有效的注意力权重分配，使得多个分辨率特征信息能被有效提取利用。

(2)、在主体网络末端利用一个反卷积模块，将主体网络中的最高分辨率输出特征和通过转置卷积上得到的更高分辨率特征进行多分辨率特征融合，得到具有丰富有效人体信息的更高分辨率特征图用于预测热图。反卷积之后添加了四个用来细化上采样特征图的残差块，通过引入通道置换、逐点分组卷积和深度可分离卷积来轻量化该残差模块，减少了参数量和计算量，保证整个系统的运算效率。

附图说明

图1是结合MSA的高分辨率轻量级网络结构图；

图2是融入MSA的条件通道权重模块图；

图3是轻量级反卷积模块图；

图4是人体检测和姿态估计示意图；

图5是本发明方法流程图。

具体实施方式

为了更为具体地描述本发明，下面将结合附图及具体实施方式来详细说明本发明的技术方案。

如图1所示，本发明提出了一种结合多谱注意力机制的高分辨率轻量级的人体姿态估计方法，具体包括以下步骤：

首先对原始图像进行预处理和数据增强：(1)以主要人体的髋部为中心对数据集图像进行裁剪，把图像尺寸重新裁剪为256×192或384×288，并将人体检测框调整为固定的宽高比4:3，以便网络进行训练。(2)针对COCO2017数据集中存在的一些不完整的人体图像，对训练图像进行一系列的数据增强操作，包括对数据集进行随机旋转[-30°,30°]、随机缩放规模[0.75,1.25]和随机翻转操作。原始图像经过预处理和一系列数据增强操作后输入主体网络中，三个阶段的并行子网络模块的通道数不断增加，输出分辨率逐渐减小，分别是原始图像尺寸的1/4、1/8、1/16；主体网络最后的输出是通过重复融合不同分辨率特征信息得到的最高分辨率特征图，即原图像分辨率1/4的特征图；

Y_s＝W_s⊙X_s (1)

其中W_s是一个权重映射；

(W₁,W₂,...,W_s)＝M_s(X₁,X₂,...,X_s) (2)

X′₁＝Freq(X₁),X′₂＝Freq(X₂),...,X′_s-1＝Freq(X_s-1) (3)

然后将{X′₁,X′₂,...,X′_s-1}与X_s拼接起来执行后续操作，即公式(4)，生成包含s个分支的权重映射W₁′,W₂′,...,W_s′，分别对应每一个分辨率：

通过上述过程，将多谱注意力机制融入了跨分辨率权重的计算之中，再通过得到的权重向量计算得到所有输入通道的信息。

而预处理过程中的MSA是将全局平均池化(Global Average Pooling，GAP)推广到频域，加入了多个频率分量。其实质是，通过频率分析，可将GAP转化为离散余弦变换(Discrete Cosine Transform，DCT)的一个频率分量，具体如下：

二维离散余弦变换表示为：

其中，是二维离散余弦变换频谱，/>是输入，H为x^2d的高度，W为x^2d的宽度，h∈H,w∈W；用B来表示二维离散余弦变换的基函数部分：

假设公式(6)中的w和h均为0，得到带入公式(5)，得到

其中，是二维离散余弦变换的最低频率分量，其与全局平均池化成正比，说明了全局平均池化是离散余弦变换的一种特例，则逆二维离散余弦变换表示为

由此得出，一个图像或特征能够表示为不同频率分量的组合，基于此，使用二维离散余弦变换的多个频率分量，其中包括了最低频率分量全局平均池化，将全局平均池化推广到频域，得到多谱注意力。具体操作为：

Freq＝cat([Freq⁰,Freq¹,...,Freq^n-1]) (10)。

所述原始图像经过预处理和一系列数据增强操作输入主体网络后的三个阶段具体为：

步骤(2)、在主体网络后面利用一个反卷积模块，具体结构如图3所示，包括一个转置卷积和四个用于细化特征图的轻量级残差模块，引入通道置换、逐点分组卷积和深度可分离卷积来轻量化残差模块，生成有效的更高分辨率特征图作为输出，即原图像分辨率1/2的特征图；具体为：

步骤(3)、将步骤(1)主体网络生成的原图像分辨率1/4的特征图和步骤(2)反卷积模块生成的原图像分辨率1/2的特征图进行融合，然后进行热图预测，得到人体姿态估计结果，具体为：

基于步骤(1)中的主体网络生成的原始输入图像1/4分辨率的特征图，步骤(2)中的轻量级反卷积模块生成的原始输入图像1/2分辨率的特征图，将多尺度的特征图构成特征金字塔，通过上采样操作，进行多分辨率特征融合，获得具有丰富有效信息的原图像1/2分辨率的特征图，然后进行热图预测，得到人体姿态估计结果。整个过程如图4所示，采用的是两阶段的自顶向下范式，首先进行人体检测，再进行关键点估计，图4中的黄色方框是人体检测模块检测到的人体边框，红色圆点是姿态估计得到的关节点位置。

以上所述是本发明的具体实施方式，对于熟悉本技术领域的技术人员来说，还可以做出若干改进和润饰，所以应当指出，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种结合多谱注意力机制的高分辨率轻量级的人体姿态估计方法，其特征在于，具体包括以下步骤：

步骤(3)、将步骤(1)主体网络生成的原图像分辨率1/4的特征图和步骤(2)反卷积模块生成的原图像分辨率1/2的特征图进行融合，然后进行热图预测，得到人体姿态估计结果；

先通过多谱通道注意力对{X₁,X₂,...,X_s-1}做预处理中的预处理中的多谱通道注意力，是使用二维离散余弦变换的多个频率分量，将全局平均池化推广到频域而得到的，具体操作为：

将输入X沿着通道维度C分为n个部分，表示为[X⁰,X¹,...,X^n-1]，其中 C′＝C/n且C能整除n，每个部分都分配了相应的二维离散余弦变换频率分量，将二维离散余弦变换的结果作为通道注意力的预处理结果，得到：

Freq＝cat([Freq⁰,Freq¹,...,Freq^n-1]) (10)；

步骤(1)所述原始图像经过预处理和一系列数据增强操作输入主体网络后的三个阶段具体为：

12)阶段2是主体网络最高分辨率子网，包含有两个融入多谱注意力的条件通道权重模块和一个多分辨率特征融合模块，阶段1所得原图像1/4分辨率的特征图进入阶段2后，最高分辨率子网的输出依然是原图像1/4分辨率的特征图；在融合模块中包含下采样操作，将所得原图像1/4分辨率的特征图信息传入新增的次高分辨率子网中，该子网也包含有两个融入的条件通道权重模块和一个多分辨率特征融合模块，其输出是原图像1/8分辨率的特征图；阶段2重复2次；

2.根据权利要求1所述的一种结合多谱注意力机制的高分辨率轻量级的人体姿态估计方法，其特征在于：步骤(1)所述在跨分辨率权重计算中融入多谱注意力机制，再通过得到的权重向量计算得到所有输入通道的信息具体为：

在每个子网中，用条件通道加权的按位加权运算来替代1x1卷积，具体表示为：在第s个阶段有s个分支，s＝1,2,3，每个分支按位加权为

Y_s＝W_s⊙X_s (1)

其中W_s是一个权重映射；

(W₁,W₂,...,W_s)＝M_s(X₁,X₂,...,X_s) (2)

X′₁＝Freq(X₁),X′₂＝Freq(X₂),...,X′_s-1＝Freq(X_s-1) (3)

3.根据权利要求1所述的一种结合多谱注意力机制的高分辨率轻量级的人体姿态估计方法，其特征在于：所述步骤(2)具体为：

4.根据权利要求1所述的一种结合多谱注意力机制的高分辨率轻量级的人体姿态估计方法，其特征在于：所述步骤(3)具体为：