CN113361378B

CN113361378B - 一种运用适应性数据增强的人体姿态估计方法

Info

Publication number: CN113361378B
Application number: CN202110616975.7A
Authority: CN
Inventors: 王冬; 谢文军; 蔡有城; 程景铭; 刘晓平
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2021-06-02
Filing date: 2021-06-02
Publication date: 2023-03-10
Anticipated expiration: 2041-06-02
Also published as: CN113361378A

Abstract

本发明公开了一种运用适应性数据增强的人体姿态估计方法，构建活跃传输网络ATNet和人体粘贴库；将原始图像送入构建的活跃传输网络ATNet，训练得到变换矩阵；在构建的人体粘贴库中随机选择一个完整人；利用活跃传输网络ATNet训练得到的变换矩阵将完整人与原始图像结合，形成生成图；利用高分辨率网络H将生成图的中原始图像人体关节点热图heatmaps与其真值ground‑truth进行高分辨率网络H的损失函数D_Loss计算；将高分辨率网络H和活跃传输网络ATNet分别作为判别网络D和生成网络G，并传递高分辨率网络H的损失函数D_Loss值给生成网络G；利用高分辨率网络H对原始图像中的人物进行人体姿态估计，在不增强任何额外成本下增强人体姿态识别准确率，特别是对一些挑战性案例的情况。

Description

一种运用适应性数据增强的人体姿态估计方法

技术领域

本发明涉及技术领域，具体为一种运用适应性数据增强的人体姿态估计方法。

背景技术

多人姿态估计是指识别和定位静止图像中所有人物的关键点，是众多视觉应用的基础研究技术，如人体运动分析、人机交互、动画等。

最近，随着深度卷积神经网络(DCNN)的快速发展，人体姿势估计的任务取得了一定进展。然而，这些方法在一些具有挑战性的情况下仍然会产生错误，比如遮挡的关键点和附近人的影响。

导致DCNN错误的原因之一是数据不足，尤其是没有挑战性的数据。例如，如果数据集缺乏交错的关键点的样本，那么DCNN将很难得到交错的关键点的正确答案。此外，如果我们自己对关键点进行注释，成本可能会很高。

目前，一种方法是使用数据增强来解决这个问题。数据增强是一种用于生成额外样本的方法，以增强机器学习的能力。然而，数据扩增需要技术人员设计策略来获取相应领域的先验知识。传统的数据增强采用全局图像变换(如缩放、移位、旋转、裁剪、翻转或颜色抖动)，如图1所示。尽管这些方法增强了训练图像中的信息，但它们对解决挑战性案例的帮助有限。面对目前多人估计人体姿态在现实中的应用越来越多，一些研究学者也开始对三维姿态数据增强进行研究，但目前的研究点在于二段式(先2D后3D)的三维姿态估计总是停留在2D数据本身的预测精度，从而去改变网络框架，很少考虑类似于MASK-RCNN等方法中检测框对于增强后数据的影响，造成数据增强效果不佳，也很难真正对二维人体姿态的效果进行解释。

如何在不增加成本的情况下，增强多人姿态识别准确率成为我们研究的目标。

发明内容

针对以上问题，本发明提供了一种运用适应性数据增强的人体姿态估计方法，可以在不增强任何额外成本的情况下增强人体姿态识别准确率，可以有效解决背景技术中的问题。

为实现上述目的，本发明提供如下技术方案：

一种运用适应性数据增强的人体姿态估计方法，

构建活跃传输网络ATNet和人体粘贴库；

将原始图像送入构建的活跃传输网络ATNet，学习得到变换矩阵；

在构建的人体粘贴库中随机选择一个完整人；

利用活跃传输网络ATNet学习得到的变换矩阵将完整人与原始图像结合，形成生成图；

利用高分辨率网络H将生成图的中原始图像人体关节点热图heatmaps与其真值ground-truth进行高分辨率网络H损失函数D_Loss计算；

将高分辨率网络H和活跃传输网络ATNet分别作为判别网络D和生成网络G，并传递高分辨率网络H的损失函数D_Loss值给生成网络G；

利用高分辨率网络H对原始图像中的人物进行人体姿态估计。

作为本发明一种优选的技术方案，在利用所述活跃传输网络ATNet对原始图像训练得到的变换矩阵将完整人与该原始图像结合，形成生成图后还包括

对原始图像中的人物识别并进行人物检测框标注；

将随机选择的完整人与原始图像中人物检测框比对，计算得到完整人变换损失值C_Loss；

所述完整人变换损失值C_Loss是通过计算完整人与原始图像中人物检测框的重叠部分长度占原始图像中该人物检测框周长的比例值得到，将完整人变换损失值C_Loss传递给活跃传输网络ATNet。

作为本发明一种优选的技术方案，所述活跃传输网络ATNet包括通道聚合单元、矩阵获取单元；

所述通道聚合单元包括多个通道聚合子单元；

所述通道聚合子单元包括卷积Cony、批量归一化BN、线性层Linear1、激活函数；

所述通道聚合单元的激活函数包括ReLU和Tanh；

所述矩阵获取单元由展平器Flatten和线性层Linear2组成；

对输入的任一原始图像进行尺度变换，通道聚合单元对尺度变换后的原始图像的通道数、长度和宽度进行参数变换；

所述矩阵获取单元对经过通道聚合单元后原始图像的所有维度进行展平，然后将其送入线性层Linear2，得到矩阵参数，通过该矩阵参数得到变换矩阵。

作为本发明一种优选的技术方案，所述原始图像进行尺度变换后，图像的通道数、长度和宽度的值分别为3、128、128；

所述通道聚合单元对尺度变换后的原始图像再进行参数学习，图像的通道数、长度和宽度的值分别为128、16、16；

所述矩阵获取单元利用展平器Flatten对经过通道聚合单元后的原始图像中通道数、长度和宽度进行展平，然后将其送入线性层Linear2，得到3个矩阵参数，其中，两个参数用于组合角度，一个参数控制缩放比例，得到变换矩阵；

应用变换矩阵来变换完整的人，然后与原始图像结合，形成生成图。

作为本发明一种优选的技术方案，所述活跃传输网络ATNet与所述高分辨率网络H构成生成对抗网络GAN；

其中，所述生成网络G的损失函数为G_Loss，计算公式如下：

G_Loss＝-(D_Loss+C_Loss)；

D_Loss是高分辨率网络H将生成图的中原始图像人体关节点热图heatmaps与其真值ground-truth计算得到；

G_Loss是GAN网络中训练过程中上一个生成图的高分辨率网络H损失函数D_Loss的值与上一个生成图中的完整人变换损失值C_Loss相加的相反数；

所述生成对抗网络GAN中的判别网络D和生成网络G中网络参数均为梯度下降的交替式更新，生成网络G融合上一次生成图在高分辨率网络H中的损失函数D_Loss和上一个生成图中的完整人变换损失值C_Loss，使得生成网络G在进行反向传播更新时考虑了完整人在原始图像中的具体位置和原始图像的关节点识别准确率，即考虑了上一次生成图的构造及相应的人体姿态估计结果，从而利用G_Loss对生成网络G的通道聚合单元、矩阵获取单元进行反向传播更新参数。

作为本发明一种优选的技术方案，所述人体粘贴库包括

从MS-COCO数据集中选择不少于10张包含完整人的原始图像，该完整人包括隶属于同一人的头、四肢、完整的躯干；

利用分割法将原始图像中的完整人提取，并分别放置在一个白色背景中，从而组成人体粘贴库。

作为本发明一种优选的技术方案，所述矩阵参数数目为3，分别是α，β，γ；

α，β是组合角度θ，γ控制缩放比例λ.，得到变换矩阵T，计算公式如下：

γ＝λ

θ＝arctan2(tanh(α)，tanh(β))

所述人体粘贴库中均为完整人，且任一完整人均处于一白色背景中的边界位置；

利用所述活跃传输网络ATNet对原始图像训练得到的变换矩阵将完整人与该原始图像结合的计算过程如下：

K_i＝T(IN_i)·(C_ran)+IN_i

K_i代表第i个生成图；C_ran表示从人体粘贴库中任意选择一个完整人，T(IN_i)表示第i个原始图像IN_i经过活跃传输网络ATNet学习得到的变换矩阵，T(IN_i)·(C_ran)表示使用T(IN_i)对C_ran的变换；

利用矩阵参数为3的变换矩阵T对白色背景中的边界位置的完整人进行变换，对随机选择的完整人进行尺度调整和旋转，再与原始图像进行叠加形成生成图。

作为本发明一种优选的技术方案，所述高分辨率网络H为多个并行的分辨率通道单元，任一分辨率通道单元均能保持高分辨率特征输出；

其中，高分辨率网络H获取生成图后，通过并行的分辨率通道单元学习生成图中原始图像人物的多个关节点，包括生成图中原始人物与完整人重叠部分的关节点，获取原始图像中人物的关节点热图heatmaps，完成相应原始图像的人体姿态估计训练。

作为本发明一种优选的技术方案，所述高分辨率网络H的损失函数D_Loss是高分辨率网络H将生成图中原始人物的人体关节点热图heatmaps与其对应真值ground-truth进行L2范数计算得到；

在所述高分辨率网络H的损失函数D_Loss进行反向传播对高分辨率网络H的参数进行更新后，再利用该D_Loss传递给下一次的活跃传输网络ATNet的损失函数G_Loss；

在高分辨率网络H和活跃传输网络ATNet构成的生成对抗网络GAN下，使得活跃传输网络ATNet考虑到D_Loss的变换，D_Loss的梯度下降使得D_Loss减小而不断增长G_Loss的值，同时，G_Loss的梯度下降会使得C_Loss增大，实现完整人的位置变换，对活跃传输网络ATNet的网络参数进行影响，并使活跃传输网络ATNet结合完整人与原始图像产生具有挑战性的生成图，使高分辨率网络H对具有挑战性的生成图进行识别；

在高分辨率网络H和活跃传输网络ATNet内部参数不断的交替更新中，高分辨率网络H可识别具有挑战性的生成图中原始人物的人体姿态。

训练完成后，利用训练好的高分辨率网络H对原始图像进行测试，判断人体姿态估计的效果。

与现有技术相比，本发明的有益效果是：

1、通过构建具有完整人物的人体粘贴库，与单一的人体部位相比，在每张原始图像中加入一个完整的人物有助于还原真实场景，从而提高识别效果。本申请研究点与以往的二维数据增强方案不同点在于本申请考虑了多人姿态估计上的人体检测框检测效果，将人体粘贴库与检测框之间的匹配程度进行探究，提升了数据增强的逻辑性，能可解释的提升二维人体姿态的预测结果。

2、通过构建一个新的ATNet，包括通道聚合单元、矩阵获取单元，实现了对原始图像的学习，从而构建一个含有原始图像信息的变换矩阵，用于确定完整人在该原始图像上的粘贴位置。目前上述的变换矩阵往往是对原始图像进行转换的，或者是对预测出的关键点进行转换，但本申请的变换矩阵是对我们提出的人体粘贴库进行变换，参数学习的变换方式使得变换后的图像成为原始数据集中不存的、有用的新图像。另外这种学习方式是与原始图像相关，可以学习有用信息，而高分辨率网络H能识别包括完整人粘贴后生成图中原始图像人物的关节点，由于高分辨率网络并行的高分辨率特征的保持，且生成图由于人物的相互叠加会造成关节点遮挡和相邻人干扰，高分辨率网络能让生成图的识别成为可能，不会使训练过程变差，从而克服目前GAN网络训练出现崩溃的问题。

3、在进行生成对抗网络GAN训练过程中，GAN训练是对ATNet和高分辨率网络H的联合训练。由于是将完整人放到原始图像的边界位置，所以无论ATNet如何转换为完整人，都不会对原始图像的中心产生负面影响，而且原始图像的大部分关键点也能与ground-truth相吻合。当边界位置的完整人与原始图像中的关节点重叠时，我们利用ATNet学习如何合理地将完整人与原始图像的一些关节点进行重叠，合成生成图。同时，结合判别器，将生成图中与原始图像人物的ground-truth进行计算，然后将D_Loss的值传递给G_Loss。最后，D_Loss和G_Loss交替更新，让ATNet考虑到高分辨率网络在上一次的生成图中的估计值，紧而调整ATNet自身参数，使ATNet进一步生成更具挑战性、更真实的案例进行训练。

4、解决了目前人体姿态估计方法对于关节遮挡和附件人干扰识别不准的问题。在生成器G和判别器D交替更新的过程中，如何控制粘贴完整人与原图的重叠位置很关键，通过ATNet能获得一个将完整人粘贴在原始图像上的变换矩阵，而D_Loss的传递也会让G_Loss进一步生成更多的挑战性案件，但在粘贴完整人的过程中，要避免完整人的旋转和缩放不接触到原始图像中的人物。本申请中，G_Loss的更新能判断是否接触，通过ATNet的网络学习能让完整人与原始图像人物接触位置以及接触面积进行更改和更新；ATNet通过引入D_Loss的同时还引入了完整人变换损失值C_Loss，将完整人变换损失值C_Loss作为衡量粘贴完整人与原始图像的接触指标，从而希望ATNet在作为生成网络G的同时可以尽可能多的实现完整人与原图的接触，最终形成更具挑战性的生成图(也就是生成尽可能多的符合真实场景的关节遮挡和附件人干扰的训练数据)，也会让D_Loss在识别过程中不断的优化高分辨率网络识别参数，在测试过程中更为精准。

附图说明

图1为现有技术中原始图像的全局图像变换数据增强策略示意图；

图2为本发明技术方案流程图；

图3为本发明生成对抗网络训练示意图；

图4为本发明活跃传输网络ATNet内部示意图；

图5为本发明人体粘贴库与生成图；

图6为本发明生成图中人物检测框标注图；

图7为本发明不同人体粘贴库的人体姿态估计结果对比图；

图8为本发明数据增强前后的人体姿态估计结果对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在人体姿态估计的数据增强过程中，为了探讨如何提高人体姿态估计效果，有学者提出了关键点遮蔽训练策略，通过复制一个背景补丁，然后把它放到一个关键点上来增强信息。虽然这种方法可以模拟数据的遮蔽性，但它并没有给人体姿势估计带来很大的改善。因为没有考虑到训练图像本身的内部相似性，粘贴的部分仍然与原始图像有关，原始图像以外的信息不能被学习。另外，用于遮挡关节点的粘贴部分很难学习附近人的样本，这样的遮挡不符合真实场景。

因此，我们提出一种新的研究思路。

实施例：

请参阅图2至图8，本发明提供一种技术方案：一种运用适应性数据增强的人体姿态估计方法，

构建活跃传输网络ATNet和人体粘贴库；

在构建的人体粘贴库中随机选择一个完整人；

利用高分辨率网络H对原始图像中的人物进行人体姿态估计。

本申请当中的所述的关节点指的是在不同数据集当中的人体关键点，在COCO数据集中包含17个人体关节点，在MPII数据集当中为16个关节点。利用在训练初始化的过程中，高分辨率网络H可以导入预训练模型来初始化其网络参数，在GAN网络的交替训练过程中，提高高分辨率网络H对人体关键点的识别准确率，下述会在定量和定性方面证明。

本申请利用高分辨率网络H和活跃传输网络ATNet分别作为判别网络D和生成网络G构成生成对抗网络Generative Adversarial Network(GAN)，其中，活跃传输网络ATNet作为生成器，用于对原始图像进行适应性数据增强，与以往的数据增强方式不同的是，本申请的活跃传输网络ATNet能通过学习原始图像的特征数据，来生成一个变换矩阵，进而对完整人进行变换并与原始图像进行组合得到生成图；另外，高分辨率网络H作为鉴别器，对生成图中的原始图像进行人体姿态估计；两个网络的反向传播都是独立进行，但是在进行各自梯度下降的计算过程中，高分辨率网络H的损失函数D_Loss会将值传递给G_Loss，实现生成器生成变换矩阵时会考虑到上一次的人体姿态估计结果，进而调整参数学习策略，得到更多更加混乱的生成图，完成与原始图像不一致的训练数据，最终提高训练结果。

训练中，我们遵循top-down的方法，先检测出人物的检测框，再基于该检测框进行人体姿态识别。在监督训练中，我们的标注为(x，y)坐标，需要通过高斯热图生成(cv2.GaussianBlur)来得到heatmaps的ground-truth。测试中，我们的热图最大值代表的关节点位置，将其恢复得到关节点数据，以(x，y)的形式与原始图像匹配，实现可视化展示。

如图2和图3所示，在本发明的一个实施例中，在利用所述活跃传输网络ATNet对原始图像训练得到的变换矩阵将完整人与该原始图像结合，形成生成图后还包括

如图6所示，对原始图像中的人物识别并进行人物检测框标注；

在进行数据增强的过程中，活跃传输网络ATNet是实现变换矩阵生成的网络，而如何得到适应性的变换矩阵对完整人位置进行调整很关键，因为一般来说，完整人如果遮挡了原始图像的很多关节点就很难使得最终的高分辨率网络H识别效果提升，而且这种生成图也不符合真实场景，从而导致最终的识别准确率下降。

本申请利用完整人变换损失值C_Loss进一步控制完整人与原图的重叠位置，通过活跃传输网络ATNet学习的方法能获得一个将完整人粘贴在原图上的变换矩阵，而D_Loss的传递也会让G_Loss进一步生成更多的具有挑战性的案例(challenge cases)，也就是让生成图与原始图像不一致，从而使学习到更多的不一样的训练数据，在粘贴完整人的过程中，要避免完整人的旋转和缩放不接触到原图中的人物；完整人变换损失值C_Loss的加入能让G_Loss的更新判断出是否接触，也能让接触位置以及接触面积进行更改和更新；所以本申请的完整人变换损失值C_Loss能满足上述要求，将比例值作为衡量粘贴完整人与原图的接触指标，从而希望ATNet在作为G网络的同时可以尽可能多的实现完整人与原图的接触，形成更具挑战性的生成图，也会让D_Loss在识别过程中不断的优化高分辨率网络的识别参数，在测试过程中更为精准。

如图4所示，在本发明的一个实施例中，所述活跃传输网络ATNet包括通道聚合单元、矩阵获取单元；

所述通道聚合单元包括多个通道聚合子单元；

所述通道聚合子单元包括卷积Conv、批量归一化BN、线性层Linear1、激活函数；

所述通道聚合单元的激活函数包括ReLU和Tanh；

所述矩阵获取单元由展平器Flatten和线性层Linear2组成；

本申请的活跃传输网络ATNet是以卷积神经网络CNN为主的学习网络，对原始图像进行获取后，利用卷积的特征对原始图像的通道数、长度和宽度进行变换，从而对原始图像的空间和纹理信息进行聚合，而通道数的增强就是活跃传输网络ATNet的卷积策略，而线性层Linear2的出现，使得通道数、长度和宽度成为矩阵参数的个数，从而将原始图像信息变换为控制完整人与原始图像结合的变换矩阵。本申请的活跃传输网络ATNet是通过学习原始图像信息生成变换矩阵再与该原始图像组合，学习策略与一般性的方法不同，能获得更多原始图像信息，由于是对原始图像进行增强，这种方法让活跃传输网络ATNet的训练过程学习到更多有用信息。

在本发明的一个实施例中，所述原始图像进行尺度变换后，图像的通道数、长度和宽度的值分别为3、128、128；

所述矩阵获取单元利用展平器Flatten对经过通道聚合单元后的原始图像中通道数、长度和宽度进行展平，然后将其送入线性层Linear2，得到3个矩阵参数，其中，两个参数是组合角度，一个参数控制缩放比例，得到变换矩阵；

如图5所示，应用变换矩阵来变换完整的人，然后与原始图像结合，形成生成图。

本申请利用参数学习的方式以及从原始图像得到变换矩阵的方式与现有技术不同，本申请合成的生成图能是从原始图像得到，因此增强后的数据并不是杂乱无章的，从原始图像进行参数学习也能促使活跃传输网络ATNet学习到真正有用的特征，使得构建的变换矩阵更加符合实际，提高数据增强效果。

为了验证我们活跃传输网络ATNet的优点，我们在MPII数据集上进行了测试，结果如下：

采用PKCh@0.5作为我们的评判标准，上述值代表平均准确率，AP是所这被称为“平均准确度”(mAP，mean average precision)，我们没有区分AP和mAP。最终，我们的活跃传输网络ATNet相比较现有技术HRNet(单纯高分辨率人体姿态估计网络)方法，我们取得了90.8分，比传统的HRNet算法和随机粘贴的方法分别高出0.7和0.3AP，准确率迅速提升。其中，Hea为头部、Sho为肩部、Elb为肘部、Wri为腕部、Hip为臀部、Kne为膝关节、Ank为踝关节、Total为整体。

本申请的参数个数与完整人是相辅相成的，利用3个矩阵参数组成的变换矩阵很好的对完整人进行了缩放和旋转，而在生成图上，本申请的完整人与原始图像是叠加组合的，本申请的变换矩阵并不具备平移的特性，因此不会对原始图像的中心点产品很大的影响，由于是将完整的人放到原始图像的边界位置，所以无论ATNet如何转换为完整的人，都不会对原始图像的中心产生负面影响，完整人没有挡住原始图像的所有关键点，而且大部分关键点也能与ground truth相吻合，并与ATNet的梯度下降策略相结合，最终获得了更多的挑战性案例。

在本发明的一个实施例中，所述活跃传输网络ATNet与所述高分辨率网络H构成生成对抗网络GAN；

其中，所述生成网络G的损失函数为G_Loss，计算公式如下：

G_Loss＝-(D_Loss+C_Loss)；

在本申请的网络训练过程中，结合了判别网络D和生成网络G交替式更新，虽然两者的梯度下降和反向传播都是独立进行的，但是生成网络G的损失函数G_Loss融合上一次生成图在高分辨率网络H中的损失函数D_Loss和上一个生成图中的完整人变换损失值C_Loss，而生成网络G就算本申请数据增强的一种手段。

在这里，考虑到了人体姿态估计的结果以及完整人与原始图像人物的结合，生成网络G能根据人体姿态估计的结果来调整变换矩阵参数，而为了防止变换矩阵无法控制完整人与原始图像人物的叠加位置，在旋转和缩放的控制之下，结合完整人变换损失值C_Loss增大，提高接触面积。

D_Loss在进行更新的过程中不断减小，而D_Loss的减小会让G_Loss＝-(D_Loss+C_Loss)不断增大，而G_Loss在进行更新过程中整体也是不断减小，因此C_Loss会增大，而D_Loss的减小会防止C_Loss无限制的增大，会在一个阈值下收敛；所以最终的网络生成图会生成一个使原始图像与完整人接触部分不断增大后得到一个最优的接触大小。这样的策略在COCO数据集的多人姿态估计上能充分的显现，而在MPII数据上，由于检测框采用官方提供的检测框，顾在MPII数据集上的测试C_Loss几乎为0，但是这并不妨碍本申请方案的有效性。

在本发明的一个实施例中，所述人体粘贴库包括

为了使人的本申请的方法能够解决关键点被遮挡和附近人物影响的问题，我们将完整人物的适应性添加到原始图像上进行训练。需要注意的是，我们方案中人体粘贴库是完整人，而且完整人涵盖了人体的所有部分，这更符合真实场景。如图7所示，本申请对不同的粘贴图进行了测试，其中图7中间不同的粘贴图部分从上至下分别为不完整人、完整人和空白页，最终得到的可视化结果可以看出使用不完整人和空白页都出现了一些识别错误(如圈中所示)。另外，本申请在MPII数据上进行训练后，再在MPII的validation上进行Single-scale测试，测试结果如下：

我们的方法采用完整人进行合成生成图，在MPII的PCKh@0.5评判标准下，我们最终的结果最高，体现出了我们完整人的优点。如上一个表评述标准一致。

首先，我们在COCO数据集中寻找，然后选择不少于10张有完整人物的图片(我们的训练是在12张有完整人物的图片构成的人体粘贴库下进行，后续我们可能在网上在线公开该人体粘贴库)。在确定这些完整的人之后，采用分割法从原始图像中提取他们。需要注意的是，这些完整的人包括尽可能多的不同肤色、衣服、形状和姿势。然后，我们把每个完整的人放到一个白色背景的图像中，成为粘贴部分的人体粘贴库。在训练过程中，我们将白色背景的值设置为0，并将其加入到原始图像中，以消除白色背景的干扰。

白色背景能消除外界不利因素对原始图像的干扰，从而使得变换后的完整人与原始图像的结合是符合实际场景的。

在本发明的一个实施例中，所述矩阵参数数目为3，分别是α，β，γ；

γ＝λ

θ＝arctan2(tanh(α)，tanh(β))

K_i＝T(IN_i)·(C_ran)+IN_i

利用矩阵参数为3的变换矩阵T对白色背景中的边界位置的完整人进行变换，对随机选择的完整人进行尺度调整和旋转，再与原始图像进行叠加形成生成图。目前上述的变换矩阵T往往是针对原始图像进行的，或者是对关键点本申进行，但是结合我们提出的人体粘贴库进行变换还是首次提出，无论是从效果上还是创新度上，现有技术都无法给出启示。

在获得完整的人物后，我们开始考虑将这个人体粘贴库与原始图像进行适应性组合。每个完整人包括头、手、上半身等。在完整人被添加到原始图像中后，这些部分将阻断原始图像的关节点，并且与原始图像中人物组成了附近的人，从而形成原始图像不存在的关节点遮挡和附近的人的数据。当完整人建立后，由于完整人均处于一白色背景中的边界位置，完整人会被放置在原始图像的边界处。一方面，以这种方式合成的训练数据更符合实际情况。另一方面，它使完整的人没有挡住原始图像的所有关键点。与ATNet相结合，在矩阵参数为3的变换矩阵T的变换下，完整人与原始图像进行了很好的组合，训练也更趋向于快速收敛，最终获得了更多的真实的、挑战性案例，提高了高分辨率网络的识别效果，也提高了人体姿态估计的效果。

如图8所示，并排的6对图像显示了未应用本方法和应用本方法数据增强的对比结果，在前4对图像中，我们的方法可以识别准确被物体遮挡的关节点，另外还能对一些挑战性案例进行识别(例如第二对图像的手腕部分)，相应的，在第五对和第六对图像中，我们的方法对附近的人有着很好的识别效果，在圈内是未应用本方法的识别结果，我们对其放大后可以清楚的看到错误结果，而本申请的识别能避免这类结果的发生。

在本发明的一个实施例中，所述高分辨率网络H为多个并行的分辨率通道单元，任一分辨率通道单元均能保持高分辨率特征输出；

在本发明的一个实施例中，所述高分辨率网络H的损失函数D_Loss是高分辨率网络H将生成图中原始人物的人体关节点热图heatmaps与其对应真值ground-truth进行L2范数计算得到；

在本申请中，利用高分辨率网络H的高分辨率特征识别特性，在叠加后的关节点和附近人的干扰情况下，依然可以识别出原始图像的关节点，并反作用于活跃传输网络ATNet，使得活跃传输网络ATNet的生成图更加符合真实场景中的挑战性案例，而通过高分辨率网络H可以依然很好识别这些挑战性案例，使得通过数据增强的挑战性案例对原始图像数据能真正进行增强，提高人体姿态估计最终效果。下面我们在高分辨率网络H采用HRNet的基础上进行实验。我们的方法是在GTX2080Ti显卡上训练的。我们采用Adam优化器，初始学习率为1e-3，在最后一个epoch后降至1e_5。在COCO数据集上，我们采用基于OKS的标准mAP作为评价指标，在MPII数据集上，

实验1，我们在COCO validation set上测试我们的效果，所有的原始图像大小为256×192，结果如下：

我们的方法在原始图像分辨率为256×192情况下，利用HRNet-W48作为判别器，实现了AP76.0的最高平均准确率。平均召回率AR也达到了81.1，为所有方法中最高。

我们采用PCKh@0.5作为评价标准。上述消融实验以及实验1、2、3中涉及的现有方法可以在《Learning Delicate Local Representations forMulti-Person PoseEstimation》、《The Devil is in the Details：Delving into UnbiasedData Processingfor Human Pose Estimation》及《Rethinking on Multi-Stage Networks for HumanPose Estimation》三篇论文中及其参考文献中找到相应出处，本申请不再赘述。

实验2，我们在test-dev set上测试我们的效果，结果如下：

我们在原始图像输入大小为256×192的情况下，平均准确率AP达到75.3，为所有方法中最高。平均召回率AR也达到了80.4，为所有方法中最高。GFLOPs代表训练的总运算量。

实验3，我们在MPII validation set(PCKh@0.5)上测试我们的效果，结果如下：

我们的方法在输入大小为256×256的情况下，最终的平均准确率结果达到90.8，为所有方法中最高。评价的方法与开始的两个消融实验相同。

本发明的工作原理：首先构建了活跃传输网络ATNet和一个由完整人组成的人体粘贴库。在本申请的网络训练过程中，构建了一种基于GAN的训练策略。在原始图像作为初始输入的情况下，生成网络G对原始数据进行数据增强。生成网络G和判别网络D的梯度下降和反向传播都是独立进行的，但是生成网络G的损失函数G_Loss融合上一次生成图判别网络H损失函数D_Loss和上一个生成图中的完整人变换损失值C_Loss。在这里，考虑到了人体姿态估计的结果以及完整人与原始图像人物的结合，生成网络G能根据人体姿态估计的结果来调整变换矩阵参数，本申请的矩阵参数与完整人在白色背景中的边界位置是相互结合的，为了防止变换矩阵无法控制完整人与原始图像人物的叠加位置，在旋转和缩放的控制之下，结合完整人变换损失值C_Loss增大，提高接触面积。D_Loss在进行更新的过程中不断减小，而D_Loss的减小会让G_Loss＝-(D_Loss+C_Loss)不断增大，而G_Loss在进行更新过程中整体也是不断减小，因此C_Loss会增大，而D_Loss的减小会防止C_Loss无限制的增大，会在一个阈值下收敛；所以最终的网络生成图会生成一个使原始图像与完整人接触部分不断增大后得到一个最优的接触大小。使完整人与原始图像人物的叠加后形成的生成图既满足了真实场景，也能提高原始图像的数据增强效果，使得最终在GAN网络的训练下，人体姿态估计效果得到了很好的提升。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种运用适应性数据增强的人体姿态估计方法，其特征在于：

构建活跃传输网络ATNet和人体粘贴库；

将原始图像送入构建的活跃传输网络ATNet，训练得到变换矩阵；

在构建的人体粘贴库中随机选择一个完整人；

利用活跃传输网络ATNet训练得到的变换矩阵将完整人与原始图像结合，形成生成图；

利用高分辨率网络H将生成图的中原始图像人体关节点热图heatmaps与其真值ground-truth进行高分辨率网络H的损失函数D_Loss计算；

利用高分辨率网络H对原始图像中的人物进行人体姿态估计；

所述高分辨率网络H为HRNet网络；

在所述利用活跃传输网络ATNet训练得到的变换矩阵将完整人与原始图像结合，形成生成图之后还包括：

对原始图像中的人物识别并进行人物检测框标注；

所述完整人变换损失值C_Loss是通过计算完整人与原始图像中人物检测框的重叠部分长度占原始图像中该人物检测框周长的比例值得到，将完整人变换损失值C_Loss传递给活跃传输网络ATNet；

所述活跃传输网络ATNet包括通道聚合单元、矩阵获取单元；

所述通道聚合单元包括多个通道聚合子单元；

所述通道聚合单元的激活函数包括ReLU和Tanh；

所述矩阵获取单元由展平器Flatten和线性层Linear2组成；

2.根据权利要求1所述的一种运用适应性数据增强的人体姿态估计方法，其特征在于：

所述原始图像进行尺度变换后，原始图像的通道数、长度和宽度的值分别为3、128、128；

所述通道聚合单元对尺度变换后的原始图像再进行参数学习，图像的通道数、长度和宽度的值分别变为128、16、16；

3.根据权利要求1所述的一种运用适应性数据增强的人体姿态估计方法，其特征在于：

所述活跃传输网络ATNet与所述高分辨率网络H构成生成对抗网络GAN；

其中，所述生成网络G的损失函数为G_Loss，计算公式如下：

G_Loss＝-(D_Loss+C_Loss)；

所述生成对抗网络GAN中的判别网络D和生成网络G中网络参数为梯度下降的交替式更新，生成网络G融合上一次生成图在高分辨率网络H中的损失函数D_Loss和上一个生成图中的完整人变换损失值C_Loss，使得生成网络G在进行反向传播更新时考虑了完整人在原始图像中的具体位置和原始图像的关节点识别准确率，即考虑了上一次生成图的构造及相应的人体姿态估计结果，从而利用G_Loss对生成网络G的通道聚合单元、矩阵获取单元进行反向传播更新参数。

4.根据权利要求3所述的一种运用适应性数据增强的人体姿态估计方法，其特征在于：所述人体粘贴库包括：

5.根据权利要求4所述的一种运用适应性数据增强的人体姿态估计方法，其特征在于：

所述矩阵参数数目为3，分别是α,β,γ；

α,β用于组合角度θ，γ控制缩放比例λ，得到变换矩阵T，计算公式如下：

γ＝λ

θ＝arctan2(tanh(α),tanh(β))

K_i＝T(IN_i)·(C_ran)+IN_i

利用矩阵参数数目为3的变换矩阵T对白色背景中的边界位置的完整人进行变换，对随机选择的完整人进行尺度调整和旋转，再与原始图像进行叠加形成生成图。

6.根据权利要求3所述的一种运用适应性数据增强的人体姿态估计方法，其特征在于：

所述高分辨率网络H为多个并行的分辨率通道单元，任一分辨率通道单元均能保持高分辨率特征输出；

7.根据权利要求6所述的一种运用适应性数据增强的人体姿态估计方法，其特征在于：

所述高分辨率网络H的损失函数D_Loss是高分辨率网络H将生成图中原始人物的人体关节点热图heatmaps与其对应真值ground-truth进行L2范数计算得到；

在高分辨率网络H和活跃传输网络ATNet构成的生成对抗网络GAN下，使得活跃传输网络ATNet考虑到D_Loss的变换，D_Loss的梯度下降使得D_Loss减小而增长G_Loss的值，同时，G_Loss的梯度下降会使得C_Loss增大，实现完整人的位置变换，对活跃传输网络ATNet的网络参数进行影响，并使活跃传输网络ATNet结合完整人与原始图像产生具有挑战性的生成图，使高分辨率网络H对具有挑战性的生成图进行识别；

8.根据权利要求7所述的一种运用适应性数据增强的人体姿态估计方法，其特征在于：