CN116524546B

CN116524546B - 一种基于异构图像协同增强的低分辨率人体姿态估计方法

Info

Publication number: CN116524546B
Application number: CN202310807515.1A
Authority: CN
Inventors: 李泽; 张锋; 马海龙; 刘锦维; 陈蕾
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-07-04
Filing date: 2023-07-04
Publication date: 2023-09-01
Anticipated expiration: 2043-07-04
Also published as: CN116524546A

Abstract

本发明属于人体姿态估计技术领域，公开了一种基于异构图像协同增强的低分辨率人体姿态估计方法，其收集由高、低分辨率人体图像组成异构图像对来构建训练数据集；构建基于跨分辨率异构图像协同增强的低分辨率人体姿态估计网络模型；训练阶段，利用跨分辨率异构图像对训练所述网络模型，得到训练好的模型；测试阶段，使用训练数据集收集过程中得到的高分辨率人体特征库为待检测图像匹配最相关的高分辨率图像，一起输入训练好的网络模型，获得人体姿态估计结果。与传统方法相比，本发明提出的网络模型能够利用异构的高分辨率人体图像中更丰富、更清晰的信息来引导网络生成高质量的低分辨率图像特征，从而提高低分辨率场景下的人体姿态估计准确性。

Description

一种基于异构图像协同增强的低分辨率人体姿态估计方法

技术领域

本发明属于人体姿态估计技术领域，具体涉及一种基于异构图像协同增强的低分辨率人体姿态估计方法。

背景技术

人体姿态估计是指通过检测和定位人体上的关键点来重建人体姿态的过程。该任务是计算机视觉领域的重要挑战之一，对于许多计算机视觉应用有着关键性的作用，如动作识别、智能视频监控和人机交互。目前在高分辨率数据的条件下，各种人体姿态估计方法被提出，并取得了不错的效果；然而受限于图像传感器的成像限制、传输限制以及存储限制，现实场景中实际的数据往往是低分辨率的。当图像分辨率降低时，图像信息的丢失会导致现有模型性能骤降，无法满足日益增长的生产和应用需求。

现有方法大多通过超分辨率技术来提高图像或特征的分辨率并补充丢失的图像信息；如Jie Xu, Yuna Liu等人(Image and Graphics: 11th InternationalConference, ICIG.2021.)在文献“Tiny Person Pose Estimation via Image andFeature Super Resolution”中通过设计三个超分辨率模块，分别从图像级、特征级、图像-特征联合级对待检测图像进行超分辨率来提高图像的特征质量，并取得了不错的低分辨率人体姿态估计结果，但这不仅会带来巨大的计算开销，而且由于超分辨率方法固有的不适定性问题，使用超分辨率来提高用于人体姿态估计的图像分辨率可能会产生伪影和假纹理，从而导致身体部位错位，以上两个问题限制了低分辨率人体姿态估计的效率和精度。

发明内容

为解决上述技术问题，本发明提供了一种基于异构图像协同增强的低分辨率人体姿态估计方法，能够在不依赖超分辨率的情况下提高低分辨率图像特征质量，提高低分辨率人体姿态估计的检测精度。

本发明所述的一种基于异构图像协同增强的低分辨率人体姿态估计方法，包括以下步骤：

S1：收集由高分辨率人体图像和低分辨率人体图像组成异构图像对来构建训练数据集；

S2：构建基于异构图像协同增强的低分辨率人体姿态估计网络模型；

所述网络模型包括骨干网络、姿态信息增强模块、细节信息增强模块和回归层；

骨干网络用于提取高分辨率图像和低分辨率图像的多尺度特征；

姿态信息增强模块用于为低分辨率图像特征提供关键点级别的语义指导来提高姿态相关的低分辨率图像特征质量；

细节信息增强模块用于在高分辨率图像特征和低分辨率图像特征间传输细节信息，构建细节信息增强的低分辨率图像特征；

回归层将低分辨率图像的姿态信息增强特征和细节信息增强特征进行融合，并预测出最终的人体姿态估计结果；

S3：训练阶段，利用构建的训练数据集来训练基于异构图像协同增强的低分辨率人体姿态估计网络模型；

S4：测试阶段，使用训练数据集收集过程中得到的高分辨率人体特征库为待检测图像匹配最相关的高分辨率图像，一起输入训练好的网络模型，获得人体姿态估计结果。

进一步地，步骤S1包括如下步骤：

S1.1：从现有的人体图像数据集（如COCO数据集）中，收集高、低分辨率人体图像，并使用VGG网络来提取图像特征，并保存为高、低分辨率人体特征库；

S1.2：通过计算高、低分辨率图像特征之间的相似度，从而为每一个低分辨率人体图像匹配最相关的高分辨率人体图像，进而构建[低分辨率人体图像ID, 高分辨率人体图像ID]的索引列表用于训练。

进一步地，所述骨干网络可以为ResNet、HRNet等任一基于CNN的网络，根据骨干网络提取高分辨率图像和低分辨率图像的多尺度特征的位置，将获取的多尺度特征划分为浅层特征、中间层特征和深层特征。

进一步的，所述姿态信息增强模块由关键点特征提取单元和关键点级特征匹配重组单元组成，关键点特征提取单元将高分辨率图像的深层特征和热图标注处理得到关键点特征，关键点级特征匹配重组单元将关键点特征和低分辨率图像多尺度特征进行特征相似度匹配处理并重组得到姿态信息引导特征，通过将姿态信息引导特征和低分辨率图像特征进行拼接融合，得到姿态信息强化特征。

进一步的，所述细节信息增强模块由块级特征匹配重组单元和特征对齐单元组成，块级特征匹配重组单元将高、低分辨率图像浅层特征块进行特征相似度匹配处理并重组得到细节信息补充特征，特征对齐单元将细节信息补充特征分布与低分辨率图像特征分布对齐，得到分布对齐的细节信息补充特征，通过将分布对齐的细节信息补充特征和低分辨率图像特征进行拼接融合，得到细节信息强化特征。

进一步的，在训练阶段，所述姿态信息增强模块执行如下步骤：

使用高分辨率图像的热力图标注作为掩码与其深层特征相乘，提取人体关键点特征；

通过对关键点特征与低分辨率图像的多尺度融合特征中每个像素位置的特征向量进行相似度匹配，从而得到相似度得分集合，进而筛选出每个像素位置最相关的关键点特征，生成索引图和置信图；

利用索引图将每个像素位置与相应的关键点特征关联来获得姿态信息引导特征，并利用置信图对姿态信息引导特征进行加权；

将加权后的姿态信息引导特征与低分辨率图像特征融合，提供姿态相关的引导信息，获得姿态信息强化特征。

进一步的，在训练阶段，所述细节信息增强模块执行如下步骤：

将高、低分辨率图像浅层特征统一至相同尺寸后，切割成相同大小的块；

在高、低分辨率图像特征块之间进行相似度匹配，为每一个低分辨率图像特征块匹配最相关的高分辨率图像特征块，从而得到对应的索引图和置信图；

将高分辨率图像特征块按照索引图来重新排列并合并，从而得到细节信息补充特征，并利用置信图对细节信息补充特征进行加权；

使用权重和偏差初始化为0的零卷积将细节信息补充特征与低分辨率图像浅层特征融合并计算出对应的残差均值和残差标准差；将残差均值和标准差与低分辨率图像浅层特征的均值和标准差相加，将得到的结果应用在细节信息补充特征上，以得到对齐细节信息补充特征；

将对齐细节信息补充特征和低分辨率图像浅层特征进行融合，得到细节信息更加丰富的细节信息增强特征。

进一步的，步骤S4包含如下步骤：

输入待检测的低分辨率图像；

使用训练数据集收集过程中得到的高分辨率人体特征库为待检测低分辨率图像匹配最相关的高分辨率图像；

将获得的高、低分辨率图像对输入到骨干网络，获得多尺度特征；

将高分辨率图像的深层特征和标注热力图以及低分辨率图像的多尺度融合特征输入到姿态信息增强模块，获得姿态信息增强特征；

将高、低分辨率图像的浅层特征输入到细节信息增强模块，获得细节信息增强特征；

将获得的姿态信息增强特征和细节信息增强特征输入到回归层得到预测的人体姿态估计结果。

本发明所述的有益效果为：本发明通过探索并构建异构的高、低分辨率人体图像之间的关联关系，提出了一种无需依赖超分辨率提升特征质量，而是利用异构高分辨率图像来辅助进行低分辨率人体姿态估计的方法；所述方法能够直接利用现有数据集中的高、低分辨率人体图像构建跨分辨率的异构图像对，相比基于超分辨率的人体姿态估计方法需要专门收集成对数据，本发明所述的方法更加方便经济；本发明引入了姿态信息增强模块，通过提取高分辨率图像的关键点特征，并将其应用于低分辨率图像特征，相比于传统实例级语义指导方法，该模块能够在为低分辨率图像特征提供关键点级别的语义指导来提升特征质量的同时，显著减少计算开销；还引入了细节信息增强模块，能够有效地在高、低分辨率图像特征之间实现细节信息传输，从而解决低分辨率图像自身的信息缺失问题，相比于超分辨率方法，该模块只需要少量的参数就能重建出细节信息更丰富的低分辨率图像特征。

附图说明

图1是所述方法的流程示意图；

图2是所述训练数据集构建流程图；

图3是所述基于跨分辨率异构图像协同增强的低分辨率人体姿态估计网络模型的结构示意图；

图4是特征匹配工作流程示意图；

图5是跨分辨率特征对齐工作流程示意图。

具体实施方式

为了使本发明的内容更容易被清楚地理解，下面根据具体实施例并结合附图，对本发明作进一步详细的说明。

如图1所示，本发明所述的一种基于异构图像协同增强的低分辨率人体姿态估计方法在基础的人体姿态估计流程上加以改进，在原有的骨干网络和回归层的基础上添加了姿态信息增强模块、细节信息增强模块，从而更容易在低分辨率场景下进行人体姿态估计，提高人体姿态估计的准确率，具体包括以下步骤：

S1：收集由高、低分辨率人体图像组成异构图像对来构建训练数据集；

S2：构建基于跨分辨率异构图像协同增强的低分辨率人体姿态估计网络模型；

如图2所示，步骤S1具体包括如下步骤：

S1.2：通过计算高、低分辨率图像特征之间的相似度，从而为每一个低分辨率人体图像匹配最相关的高分辨率人体图像，进而构建[低分辨率人体图像ID, 高分辨率人体图像ID]的索引列表用于训练，所述索引列表记为，/>，N为低分辨率人体图像个数。

由于目前的超分辨率方法通常使用同构的高、低分辨率图像（不同分辨率下的同一图像）来进行训练，这与人体姿态估计任务关联度较低。这种训练方式容易导致超分辨率结果出现伪影并可能导致肢体错位。然而，为人体姿态估计任务专门收集成对数据是一项耗时且费力的工作。因此，本实施例采用了一种更为便捷且适用于实际场景的方法，即直接利用现有数据集中的高、低分辨率人体图像构建跨分辨率的异构图像对，通过利用异构的高分辨率图像辅助进行低分辨率人体姿态估计，从而能够更方便地进行模型训练，并使其更适应实际应用场景。

如图3所示，构建的基于异构图像协同增强的低分辨率人体姿态估计网络模型，包括骨干网络、姿态信息增强模块、细节信息增强模块和回归层；

细节信息增强模块用于在高分辨率图像特征和低分辨率图像特征间传输细节信息，从而重建出包含更多细节信息的低分辨率图像特征；

其中，所述骨干网络可以为ResNet、HRNet等任一基于CNN的网络，并且根据骨干网络提取特征的位置可以将获取的多尺度特征划分为浅层特征、中间层特征和深层特征。

所述姿态信息增强模块由关键点特征提取单元和关键点级特征匹配重组单元组成，关键点特征提取模块将高分辨率图像的深层特征和热图标注处理得到关键点特征，关键点级特征匹配重组单元将关键点特征和低分辨率图像多尺度特征进行特征相似度匹配处理并重组得到姿态信息引导特征，通过将姿态信息引导特征和低分辨率图像特征进行拼接融合，得到姿态信息强化特征。

所述细节信息增强模块由块级特征匹配重组单元和特征对齐单元组成，块级特征匹配重组单元将高、低分辨率图像浅层特征块进行特征相似度匹配处理并重组得到细节信息补充特征，特征对齐单元将细节信息补充特征分布与低分辨率图像特征分布对齐，得到分布对齐的细节信息补充特征，通过将分布对齐的细节信息补充特征和低分辨率图像特征进行拼接融合，得到细节信息强化特征。

在训练所述网络模型时，姿态信息增强模块执行如下步骤：

首先获得高分辨率图像的深层特征，/>、/>代表低分辨率图像特征的高和宽，C代表图像特征的通道个数；然后将其上采样至对应的高分辨率标注热力图/>相同尺寸大小，并与其相乘，获得对应的高分辨率关键点特征，表达式如下：

，

其中，代表姿态信息增强模块提取的高分辨率图像特征的第k个关键点特征，K为人体总关键点数，/>表示高分辨率图像的第/>个关键点标注热力图，/>代表两矩阵点乘，AvePooling表示平均池化操作，Upsample表示上采样操作；最终获得的高分辨率关键点特征为/>。

将低分辨率图像的多尺度特征进行融合（如使用特征金字塔FPN），得到低分辨率图像的多尺度融合特征，/>、/>代表得到的多尺度融合特征的高和宽，C代表特征的通道个数。

如图4所示，将获得的关键点特征与低分辨率图像多尺度融合特征/>的每一个像素位置的特征向量进行特征匹配操作，表达式如下：

，

其中，代表/>在/>位置的特征向量，/>代表第/>个关键点特征和/>在/>位置的特征向量之间的相似度得分，下标/>表示相似度得分是从姿态信息增强模块中得到。

将获得的相似度得分集合进一步处理，来得到与/>的每一个像素位置最相关的关键点特征的索引和置信分数，并组合成与/>空间尺寸一致的索引图/>和置信图，表达式如下：

，

其中代表/>在/>位置最相关的关键点特征索引，/>代表对应的置信分数。

利用获得的索引图来为每一个像素位置/>关联对应的关键点特征，从而获得与/>相同大小的姿态信息引导特征/>；最后用置信图对姿态信息引导特征进行加权后，与低分辨率图像特征/>进行融合，从而提供姿态相关的引导信息来强化低分辨率图像特征，表达式如下：

，

其中代表通道拼接操作，代表特征融合操作，可以使用卷积实现，代表语义强化后的低分辨率图像特征。

传统的实例级语义引导方法需要扩展单个引导特征至匹配图像特征的大小来提供单一的语义引导，并多次重复此过程，这导致了巨大的成本和复杂的计算。与此不同，本实施例提出了一种动态分配方法，该方法能为图像特征中的每一个像素位置分配引导特征中最相关的引导特征来进行指导，一次性地完成对低分辨率图像特征提供不同语义指导的过程。这种方法在提升低分辨率图像特征质量的同时，显著减少了计算开销。

在训练所述低分辨率人体姿态估计网络模型时，细节信息增强模块执行如下步骤：

首先获得高、低分辨率图像的浅层特征并统一至相同尺寸，设特征间的尺度差异为倍，则需要对特征进行下/上采样/>倍来统一尺寸。得到的特征记为,/>、/>代表特征的高和宽，C代表特征的通道个数。

如图4所示，将统一尺寸的高、低分辨率图像浅层特征切割成同样大小的块，记作，其中N代表块的个数，P代表块的高和宽，C代表通道数；然后进行特征匹配操作，从而获得块之间的相似度得分，表达式如下：

，

其中代表低分辨率图像浅层特征的第/>个块，/>代表高分辨率图像浅层特征的第/>个块，/>代表对应的相似度得分。

将获得的相似度得分进一步处理，从而获得每一个低分辨率图像特征块最相关的高分辨率图像特征块的索引和对应的置信度，并组合成与空间尺寸一致的索引图/>和置信图/>，表达式如下：

，

其中代表第/>个低分辨率图像特征块对应最相关的高分辨率图像特征块索引，代表对应的置信分数。

利用获得的索引图来将高分辨率图像特征块重新排列并合并，然后用置信图对得到的特征进行加权，从而得到细节信息补充特征/>，表达式如下：

，

如图5所示，进一步计算分布的均值/>和标准差/>，并将/>经过一层权重和偏差初始化为0的零卷积与/>融合，并分别通过一层零卷积来计算出对应的残差均值/>和残差标准差/>。将得到的均值和标准差应用在/>，使其与/>对齐，得到对齐特征/>，从而能够进行更好的细节信息传输，表达式如下：

，

最后将和/>进行融合，得到包含更多细节信息的低分辨率图像特征，表达式如下：

，

其中代表通道拼接操作，代表特征融合操作，可以是卷积，代表包含更多细节信息的低分辨率图像特征。

由于图像是异构的，尽管两张图片中存在相似的内容，但是受颜色、光照以及分辨率的影响，特征分布并不一致，因此直接融合不是最优的，很容易导致细节信息传输失败。本实施例在特征匹配的基础上设计了一种新的跨分辨率特征对齐方式，通过使用零卷积让网络学习如何处理高、低分辨率图像特征之间的分布差异，而不是简单地通过将低分辨率图像的均值和标准差应用于高分辨率图像特征来强制进行特征对齐。

进一步地，如图3所示，步骤S3在训练所述低分辨率人体姿态估计网络模型时，回归层执行以下步骤：

将上述两个模块获得的姿态信息增强特征和细节信息增强特征进行融合，从而获得最终的融合特征，然后输入进回归层回归出最终的姿态估计结果，表达式如下：

，

其中代表通道拼接操作，/>代表特征融合操作，可以用/>卷积实现，代表反卷积操作，获得的融合特征为/>，获得的姿态估计结果为热力图/>，/>、/>为人工设置的热力图尺寸超参数。

进一步地，步骤3中训练所述低分辨率人体姿态估计网络模型的损失函数使用MSE损失函数。

步骤S4包含如下步骤：

输入待检测的低分辨率图像；

以上所述仅为本发明的优选方案，并非作为对本发明的进一步限定，凡是利用本发明说明书及附图内容所作的各种等效变化均在本发明的保护范围之内。

Claims

1.一种基于异构图像协同增强的低分辨率人体姿态估计方法，其特征在于，包括如下步骤：

S1：收集由高分辨率人体图像和低分辨率人体图像组成异构图像对来构建训练数据集；包括如下步骤：

S1.1：从现有的人体图像数据集中，收集高分辨率人体图像和低分辨率人体图像，并使用VGG网络来提取图像特征，并保存为高、低分辨率人体特征库；

S1.2：通过计算高、低分辨率图像特征之间的相似度，为每一个低分辨率人体图像匹配最相关的高分辨率人体图像，从而构建[低分辨率人体图像ID,高分辨率人体图像ID]的索引列表用于训练；

细节信息增强模块用于在高分辨率图像特征和低分辨率图像特征间传输细节信息，从而重建出包含更多细节的低分辨率图像特征；

S3：训练阶段，利用异构图像对训练所述网络模型，得到训练好的模型；

2.根据权利要求1所述的一种基于异构图像协同增强的低分辨率人体姿态估计方法，其特征在于，所述骨干网络为基于CNN的网络，根据骨干网络提取高分辨率图像和低分辨率图像的多尺度特征的位置，将获取的多尺度特征划分为浅层特征、中间层特征和深层特征。

3.根据权利要求2所述的一种基于异构图像协同增强的低分辨率人体姿态估计方法，其特征在于，所述姿态信息增强模块由关键点特征提取单元和关键点级特征匹配重组单元组成，关键点特征提取单元将高分辨率图像的深层特征和热图标注处理得到关键点特征，关键点级特征匹配重组单元将关键点特征和低分辨率图像多尺度特征进行特征相似度匹配处理并重组得到姿态信息引导特征，通过将姿态信息引导特征和低分辨率图像特征进行拼接融合，得到姿态信息强化特征。

4.根据权利要求2所述的一种基于异构图像协同增强的低分辨率人体姿态估计方法，其特征在于，所述细节信息增强模块由块级特征匹配重组单元和特征对齐单元组成，块级特征匹配重组单元将高、低分辨率图像浅层特征块进行特征相似度匹配处理并重组得到细节信息补充特征，特征对齐单元将细节信息补充特征分布与低分辨率图像特征分布对齐，得到分布对齐的细节信息补充特征，通过将分布对齐的细节信息补充特征和低分辨率图像特征进行拼接融合，得到细节信息强化特征。

5.根据权利要求3所述的一种基于异构图像协同增强的低分辨率人体姿态估计方法，其特征在于，在训练阶段，所述姿态信息增强模块执行如下步骤：

6.根据权利要求4所述的一种基于异构图像协同增强的低分辨率人体姿态估计方法，其特征在于，在训练阶段，所述细节信息增强模块执行如下步骤：

7.根据权利要求1所述的一种基于异构图像协同增强的低分辨率人体姿态估计方法，其特征在于，步骤S4包含如下步骤：

输入待检测的低分辨率图像；