CN115171052B

CN115171052B - 基于高分辨率上下文网络的拥挤人群姿态估计方法

Info

Publication number: CN115171052B
Application number: CN202211087138.0A
Authority: CN
Inventors: 李群; 张子屹; 肖甫; 张锋
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-09-07
Filing date: 2022-09-07
Publication date: 2022-11-22
Anticipated expiration: 2042-09-07
Also published as: CN115171052A

Abstract

本发明公开了一种基于高分辨率上下文网络的拥挤人群姿态估计方法，提供了全局前馈网络GFFN和动态前馈网络DFFN，能够在始终保持图像的二维结构信息的情况下，捕获骨干网络中间特征图包含的上下文信息，并增强特征表示对被遮挡人体的动态适应性；提供一种新型人体姿态估计网络，即高分辨率上下文网络HRNeXt，该网络能够提取到具有丰富的上下文信息的高分辨率特征表示，高效地对图像中不同人体之间及不同身体部位之间的位置关系进行抽象理解，有效解决重遮挡环境下姿态识别精度下降的问题。该方法能够准确、高效地对被遮挡人体的姿态进行预测，对重遮挡环境具有较强的鲁棒性。

Description

基于高分辨率上下文网络的拥挤人群姿态估计方法

技术领域

本发明涉及深度学习、计算机视觉技术领域，具体是涉及一种基于高分辨率上下文网络的拥挤人群姿态估计方法。

背景技术

多人姿态估计是计算机视觉领域中的一项基本任务，其目的是对给定的二维图像中所有人体的关键点进行定位，从而得到人体姿态的基本表示。由于许多下游应用（如人体动作识别、人机交互、动画制作等）都需要人体姿态作为输入或者中间表示，因此近几年姿态估计任务受到越来越多的关注。尽管在前沿的深度学习技术的帮助下，关于一般的场景下的多人姿态估计的相关研究已经取得了不错的进展，但目前在重遮挡的拥挤场景下的多人姿态估计（可称为拥挤人群姿态估计）仍然是一个棘手的挑战。图像特征的高分辨率表示、图像上下文信息的提取与利用是解决该问题的两大关键点。

在目前基于深度学习的姿态估计方法中，卷积神经网络常用于提取图像特征，目前比较先进的网络及其特点为：高分辨率网络（High-Resolution Network，HRNet）关注于在特征提取过程中始终维持高分辨率的表示，以避免在上下采样过程中造成细节信息损失，然而由于使用单一尺度的卷积模块，只能获取到图像中局部区域的上下文信息；高分辨率自注意力模型（High-Resolution Transformer，HRFormer）在其基础上使用自注意力模块代替卷积模块，加强网络对全局信息的获取，然而直接使用自注意力机制破坏了图像的二维结构信息，因此在获取图像上下文信息方面的能力有限，并不能有效地解决重遮挡环境下姿态估计识别精度下降的问题。

发明内容

为解决上述问题，本发明提出了一种基于高分辨率上下文网络的拥挤人群姿态估计方法，其设计了两种新的前馈网络结构，即全局前馈网络（Global Feed-ForwardNetwork，GFFN）和动态前馈网络（Dynamic Feed-Forward Network，DFFN），能够在始终保持图像的二维结构信息的情况下，捕获骨干网络中间特征图包含的上下文信息，并增强特征表示对被遮挡人体的动态适应性；本发明使用所述GFFN、DFFN构建组成高分辨率上下文模块，并将该模块应用到高分辨率网络结构中，以此设计了一种新型人体姿态估计网络，即高分辨率上下文网络（High-Resolution Context Network，HRNeXt），该网络能够提取到具有丰富的上下文信息的高分辨率特征表示；准确、高效地对被遮挡人体的姿态进行预测。

本发明所述的基于高分辨率上下文网络的拥挤人群姿态估计方法，步骤为：

步骤1、获取用于拥挤人群姿态估计的图像数据集，划分为训练集和测试集，并对数据集中所有图像进行统一的数据预处理；

步骤2、构建高分辨率上下文网络HRNeXt，所述高分辨率上下文网络HRNeXt由网络起始层和网络主干组成；

所述网络起始层由4层卷积层构成，实现对网络初始输入图像进行四倍下采样；

所述网络主干包括高分辨率的主分支和若干不同分辨率的并行分支；网络主干的第1阶段由一个高分辨率主分支组成，在每个后续新阶段的开始，由主分支及新的并行分支堆叠构成跨分支网络构建块；在每个跨分支网络构建块内的各个分支上，由高分辨率上下文模块分别地对不同尺度下的特征进行提取与变换；在每个跨分支网络构建块的末端应用层归一化，以对不同分支特征进行统一分布表示，随后进行一次多尺度特征融合，以实现并行分支上不同尺度特征之间的信息交流；

所述高分辨率上下文模块由一个3×3深度动态卷积、一个批归一化层、一个GFFN、一个批归一化层和一个DFFN依次堆叠构成；在其中3×3深度动态卷积的输出处应用GELU激活函数，随后输出的特征进行跨层跳跃连接与其上一层的输出相加；在GFFN和DFFN的输出处也都进行跨层跳跃连接，分别与其各自前一层的批归一化层的输入相加；

步骤3、利用步骤1中经过预处理后的训练集数据，对步骤2所构建的HRNeXt网络进行训练；

步骤4、加载步骤3训练得到的HRNeXt网络模型，在步骤1中经过预处理后的测试集数据上进行测试。

进一步的，所述网络起始层由一个步长为2的3×3卷积、一个步长为1的3×3深度卷积、一个步长为1的1×1卷积和一个步长为2的3×3深度卷积依次堆叠构成。

进一步的，所述深度动态卷积利用多卷积核动态融合方法，融合多个专家卷积核的权重参数，根据卷积层的不同输入特征动态地调整每个专家卷积核的置信度分数，以此动态地生成实际参与该层中卷积运算的每个卷积核，而专家卷积核不参与实际卷积运算。

进一步的，所述多卷积核动态融合方法的实施步骤为：

a）网络开始训练前，为卷积层中每个卷积核创建K个专家卷积核，分别具有不同的初始化权重参数；

b）网络开始训练后，卷积层每次前馈计算时的每个输入特征都首先经过一个全局平均池化操作，下采样到1×1的分辨率大小；随后依次经过一个线性层、一个GELU激活层、一个线性层和一个Sigmoid激活层，输出一个长度为K的列向量A _K，其中K个元素分别代表K个专家卷积核的置信度分数，计算公式如下：

其中Linear()表示线性层，GAP()表示全局平均池化，X表示卷积层的输入特征；

c）使用这K个置信度分数将K个专家卷积核的权重参数进行加权求和，便得到卷积运算所使用的实际卷积核权重参数

，计算公式如下：

其中

表示第i个专家卷积核的权重参数，

表示第i个专家卷积核的置信度分数，K表示专家卷积核的数目。

进一步的，所述GFFN由一个1×1卷积、一个5×5深度卷积、一个空洞率为3的7×7深度空洞卷积和最后两个1×1卷积依次堆叠构成；在其中第一个1×1卷积的输出处应用GELU激活函数，随后输出的特征进行跨层跳跃连接与后面第二个1×1卷积的输出相乘。

进一步的，所述DFFN由一个1×1卷积、一个3×3深度动态卷积和一个1×1卷积依次堆叠构成，在其中3×3深度动态卷积的输出处应用GELU激活函数；其中第一个1×1卷积的输出通道为输入通道的4倍，而第二个1×1卷积的输出通道为输入通道的1/4倍。

本发明所述的有益效果为：（1）本发明提出的GFFN得益于空洞卷积的应用，以较低的计算量在特征提取过程中达到了较大的感受野，因此与常见的卷积模块（如残差模块）相比能帮助网络更好地理解重遮挡图像的全局上下文信息，并且由于是纯卷积结构，不会像自注意力模块一样破坏掉图像的二维结构信息，因此在图像空间信息提取方面优于自注意力模块；本发明提出的DFFN得益于动态卷积的应用，能够根据不同输入图像的特征空间分布自适应地调整卷积核权重参数，相较于传统卷积能够学习到更复杂的上下文信息；将同时包含这两种结构的高分辨率上下文模块应用到基于深度学习的姿态估计方法中所使用的特征提取网络中，相比常规的卷积模块或自注意力模块能够更高效地提取图像上下文信息，有效解决重遮挡环境下姿态识别精度下降的问题；

（2）本发明提出的高分辨率上下文网络HRNeXt，能够提取到具有丰富的上下文信息的高分辨率特征表示，高效地对严重遮挡环境下的图像中不同人体之间及不同身体部位之间的位置关系进行抽象理解，相较于其他先进姿态估计方法所使用的特征提取网络，能够以更低的计算成本达到更高的性能。

（3）本发明提出的基于高分辨率上下文网络的拥挤人群姿态估计方法，能够准确、高效地对被遮挡人体的姿态进行预测，对重遮挡环境具有较强的鲁棒性。

附图说明

图1为本发明设计的高分辨率上下文网络HRNeXt结构示意图；

图2为本发明设计的全局前馈网络GFFN的结构示意图；

图3为本发明设计的动态前馈网络DFFN的结构示意图；

图4为本发明设计的高分辨率上下文网络HRNeXt与其他先进姿态估计网络在拥挤场景下的预测结果的可视化分析对比。

具体实施方式

为了使本发明的内容更容易被清楚地理解，下面根据具体实施例并结合附图，对本发明作进一步详细的说明。

本发明公开了一种基于高分辨率上下文网络的拥挤人群姿态估计方法，包括以下步骤：

步骤2、构建高分辨率上下文网络HRNeXt，该网络由网络起始层和网络主干组成；所述网络主干可分为4个阶段，各包含1、2、3、4个并行网络分支，分别具有不同分辨率的特征表示；其中第1阶段由一个高分辨率主分支组成，该主分支具有所有分支中最高分辨率的特征表示；随后，在每个后续新阶段的开始，都有一个分支被并行添加到网络主干中，每个新分支的特征分辨率都为前一分支的1/2大小，其由步长为2的3×3卷积实现；每个阶段都可以看作是由多个跨分支网络构建块堆叠形成的；在每个跨分支网络构建块内的各个分支上，由高分辨率上下文模块分别地对不同尺度下的特征进行提取与变换；在每个跨分支网络构建块的末端应用层归一化，以对不同分支特征进行统一分布表示；随后进行一次多尺度特征融合，以实现并行分支上不同尺度特征之间的信息交流；

如图1所示，所述网络起始层由一个步长为2的3×3卷积、一个步长为1的3×3深度卷积、一个步长为1的1×1卷积和一个步长为2的3×3深度卷积依次堆叠构成，以对网络初始输入图像进行四倍下采样，以降低网络主干的计算量。

如图1所示，所述高分辨率上下文模块由一个3×3深度动态卷积、一个批归一化层、一个GFFN、一个批归一化层和一个DFFN依次堆叠构成。在其中3×3深度动态卷积的输出处应用GELU激活函数，随后输出的特征进行跨层跳跃连接与其上一层的输出相加；另外在GFFN和DFFN的输出处也都进行跨层跳跃连接，分别与其各自前一层的批归一化层的输入相加。

所述深度动态卷积利用多卷积核动态融合方法，融合多个专家卷积核的权重参数，根据卷积层的不同输入特征动态地调整每个专家卷积核的置信度分数，以此动态地生成实际参与该层中卷积运算的每个卷积核，而专家卷积核不参与实际卷积运算。

所述多卷积核动态融合方法的实施步骤为：

b）网络开始训练后，卷积层每次前馈计算时的每个输入特征都首先经过一个全局平均池化操作，下采样到1×1的分辨率大小，随后依次经过一个线性层、一个GELU激活层、一个线性层和一个Sigmoid激活层，输出一个长度为K的列向量A _K，其中K个元素分别代表K个专家卷积核的置信度分数，计算公式如下：

c）最后使用这K个置信度分数将K个专家卷积核的权重参数进行加权求和，便得到卷积运算所使用的实际卷积核权重参数

，计算公式如下：

其中

表示第i个专家卷积核的权重参数，

表示第i个专家卷积核的置信度分数。

如图2所示，所述GFFN由一个1×1卷积、一个5×5深度卷积、一个空洞率为3的7×7深度空洞卷积和最后两个1×1卷积依次堆叠构成。在其中第一个1×1卷积的输出处应用GELU激活函数，随后输出的特征进行跨层跳跃连接与后面第二个1×1卷积的输出相乘。

如图3所示，所述DFFN由一个1×1卷积、一个3×3深度动态卷积和一个1×1卷积依次堆叠构成，在其中3×3深度动态卷积的输出处应用GELU激活函数。其中第一个1×1卷积的输出通道为输入通道的4倍，而第二个1×1卷积的输出通道为输入通道的1/4倍。

为了验证方法的有效性，本实施例在公开数据集COCO、CrowdPose、OCHuman上进行了多组对比实验和消融实验，比较了本发明的方法与一些经典或先进的方法的性能优劣，并分析了本发明的各项技术细节对于整体方法效果的影响。对于所有数据集，本发明一律采用了OKS指标来对实验结果进行评估。

关于实验环境：本实施例的所有实验均在安装有Ubuntu 20.04 LTS操作系统的计算机上进行，每台计算机配备8张NVIDIA GeForce RTX 3090显卡。软件环境包括Python-3.7、PyTorch-1.10.0、MMCV、MMPose等。

关于模型训练：本实施例中，在COCO train2017和CrowdPose train&val数据集上使用8张GTX 3090显卡对HRNeXt-S和HRNeXt-B进行分布式训练，无任何大规模预训练阶段，batch size设为32，采用AdamW优化器，初始学习率设为4e-3，使用余弦退火算法来对学习率进行0.01倍的衰减。HRNeXt-S模型的输入尺寸大小设置为256×192，而HRNeXt-B模型的输入尺寸大小设置为384×288。为了保证对比实验的公平性，与用于作对比的所有主流方法相同，采用YOLOV3模型来进行预先的人体目标检测，并对输入图片进行一系列的数据增强预处理（详见SimpleBaseline、HRNet等经典人体姿态估计方法的相关论文及开源代码）。

关于模型测试：本实施例中，使用在COCO train2017数据集上训练得到的HRNeXt网络模型，分别在COCO val2017、COCO test-dev2017和OCHuman val数据集上进行测试，而将在CrowdPose train&val数据集上训练得到的HRNeXt网络模型在CrowdPose test数据集上进行测试。为了验证本发明模型的轻量性和高效性，在使用OKS指标（具体包含AP、AP⁵⁰、AP⁷⁵、AP^M、AP^L、AR等多种精度指标）和PCKh指标来对模型测试精度进行评估的基础上，还对模型的参数量指标（# Params）、计算量指标（FLOPs）进行计算。

实验结果：

（1）定量分析

表1 在CrowdPose test数据集上的对比实验结果

其中，加粗代表该项指标的最优结果，下划线代表该项指标的第二优结果。

如表1所示，对使用CrowdPose train&val数据集训练得到的HRNeXt-S、HRNeXt-B网络模型进行测试，在CrowdPose test数据集上，我们的小型版本网络HRNeXt-S模型在参数量（#Params）和计算量（FLOPs）极低，且在没有进行任何大规模预训练的情况下，其各项测试精度指标便已经超过了其它大部分主流姿态估计模型。另外，JC-SPPE 、OPEC-Net等方法都在姿态估计网络之外添加了额外的网络模型，来对网络的中间输出或者结果进行优化，以处理遮挡问题，而本方法没有使用任何额外的网络模型，却达到了比JC-SPPE更优、与OPEC-Net近似的测试精度，更是远超其它单一的姿态估计网络模型，证明了本发明方法的有效性。

表2 在COCO val2017数据集上的对比实验结果

如表2所示，对使用COCO train2017数据集训练得到的HRNeXt-S、HRNeXt-B网络模型进行测试，在COCO val2017数据集上，本发明提供的小型版本网络HRNeXt-S模型拥有最低的计算量（FLOPs），且在没有进行任何大规模预训练的情况下，其各项测试精度指标便已经超过了几乎所有主流姿态估计模型。而本发明提供的大型版本网络HRNeXt-B模型在计算量（FLOPs）只有HRFormer-B的四成左右的情况下，达到了与其相近的精度，证明了该网络在计算效率方面的优越性。

表3 在COCO test-dev2017数据集上的对比实验结果

如表3所示，对使用COCO train2017数据集训练得到的HRNeXt-B网络模型进行测试，在COCO test-dev2017数据集上，HRNeXt-B同样在计算量（FLOPs）只有HRFormer-B的四成左右的情况下，也达到了与其相近的精度，而高于所有其它模型。

表4 在OCHuman val数据集上的对比实验结果

如表4所示，在含有大量严重遮挡场景的OCHuman val数据集上的测试结果表明，本发明提供的HRNeXt网络取得了远超其他主流姿态估计网络的测试精度，同时具有极佳的计算效率，以此证明了本发明方法面向对拥挤人群进行姿态估计的技术改进的有效性。

（2）消融实验

表5 在CrowdPose test数据集上对各项改进的消融实验结果

其中，计算量指标（FLOPs）以模型输入图片尺寸256×192为标准计算得到。

如表5所示，在对本发明提供的HRNeXt-S于CrowdPose test数据集上进行的消融实验中，起始层改进一栏表示是否使用本发明所改进的起始层（若否，则使用高分辨率网络原始起始层结构，即两层步长为2的3×3卷积）；DLP一栏表示是否在高分辨率上下文模块的起始位置使用3×3深度动态卷积（若否，则直接去掉该层）；DFFN一栏表示是否在高分辨率上下文模块中使用DFFN（若否，则替换为常见注意力模型中使用的经典前馈网络层；GFFN一栏表示是否在高分辨率上下文模块中使用GFFN（若否，则替换为常见注意力模型中使用的多头自注意力层。实验证明，本发明内容中对网络结构的每一项改进都对测试精度（AP）具有正面影响，进一步证明了本发明各项技术细节的有效性。

（3）定性分析

如图4所示，在严重遮挡环境下，本发明提供的HRNeXt网络比其他先进的姿态估计网络能够更准确地预测出人体关节点的位置，即使不同人体的肢体之间出现重叠混淆现象，也能识别出其各自正确的姿态。

以上所述仅为本发明的优选方案，并非作为对本发明的进一步限定，凡是利用本发明说明书及附图内容所作的各种等效变化均在本发明的保护范围之内。

Claims

1.基于高分辨率上下文网络的拥挤人群姿态估计方法，其特征在于，所述方法的步骤为：

2.根据权利要求1所述的基于高分辨率上下文网络的拥挤人群姿态估计方法，其特征在于，所述网络起始层由一个步长为2的3×3卷积、一个步长为1的3×3深度卷积、一个步长为1的1×1卷积和一个步长为2的3×3深度卷积依次堆叠构成。

3.根据权利要求2所述的基于高分辨率上下文网络的拥挤人群姿态估计方法，其特征在于，所述深度动态卷积利用多卷积核动态融合方法，融合多个专家卷积核的权重参数，根据卷积层的不同输入特征动态地调整每个专家卷积核的置信度分数，以此动态地生成实际参与该层中卷积运算的每个卷积核，而专家卷积核不参与实际卷积运算。

4.根据权利要求3所述的基于高分辨率上下文网络的拥挤人群姿态估计方法，其特征在于，所述多卷积核动态融合方法的实施步骤为：

，计算公式如下：

其中

表示第i个专家卷积核的权重参数，

5.根据权利要求1所述的基于高分辨率上下文网络的拥挤人群姿态估计方法，其特征在于，所述GFFN由一个1×1卷积、一个5×5深度卷积、一个空洞率为3的7×7深度空洞卷积和最后两个1×1卷积依次堆叠构成；在其中第一个1×1卷积的输出处应用GELU激活函数，随后输出的特征进行跨层跳跃连接与后面第二个1×1卷积的输出相乘。

6.根据权利要求1所述的基于高分辨率上下文网络的拥挤人群姿态估计方法，其特征在于，所述DFFN由一个1×1卷积、一个3×3深度动态卷积和一个1×1卷积依次堆叠构成，在其中3×3深度动态卷积的输出处应用GELU激活函数；其中第一个1×1卷积的输出通道为输入通道的4倍，而第二个1×1卷积的输出通道为输入通道的1/4倍。