CN113158870A

CN113158870A - 2d多人姿态估计网络的对抗式训练方法、系统及介质

Info

Publication number: CN113158870A
Application number: CN202110404921.4A
Authority: CN
Inventors: 练靖翔; 邢晓芬; 张通
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-04-15
Filing date: 2021-04-15
Publication date: 2021-07-23
Anticipated expiration: 2041-04-15
Also published as: CN113158870B

Abstract

本发明公开了一种2D多人姿态估计网络的对抗式训练方法、系统及介质，其中方法包括：获取人体图像数据以及进行数据增强，将RGB图片中三个通道的数值进行映射，对图片中RGB三个通道进行归一化处理；利用截断的高斯分布，将图片中人体的关键点的位置坐标转换成多通道的热图；构建姿态判别器网络，构建以HRNet为主干的姿态网络，进行Xavier初始化；根据训练后的姿态网络，借助热图中最大值向次大值偏离四分之一的方式确定最终的关键点的位置坐标。本发明将姿态网络与姿态判别器网络相互竞争地进行训练，该训该练方法能有效学习到人体的关键点特征，并在复杂的背景环境中具有良好的鲁棒性，可广泛应用于图像识别技术领域。

Description

2D多人姿态估计网络的对抗式训练方法、系统及介质

技术领域

本发明涉及图像识别技术领域，尤其涉及一种2D多人姿态估计网络的对抗式训练方法、系统及介质。

背景技术

随着人工智能的快速发展，人体的动作已经能够被识别。但是，在图像采集过程中，由于人与物之间的交互产生的遮挡、光线与视角的变化、图像形变仍然是该领域需要克服的重要难点。姿态估计在机器人与场景交互、动作识别、无人驾驶、动作预测中有巨大的应用潜力。算法能够对人体动作进行准确的识别，能够帮助理解人与物、人与人的交互关系。姿态估计技术的发展有利于实现更好的人机交互，并使得弱人工智能迈向强人工智能。

人体姿态估计(Human-Pose Estimation)主要包括在图像和视频中确定人体关键部位的空间位置(比如头部、肩膀、手腕、手肘的位置)，并确定人体的姿态的相关参数。其在基于视频流的行为识别、行人路径预测、人机交互、视频监控等领域有着广泛的应用。姿态估计相关技术的发展对于推动对人体行为理解、逻辑分析具有重要作用。传统的人体姿态估计方法通常借助硬件设备去捕捉关节点的空间位置，基于形变部件模型，并结合人体运动学的相关约束不断优化图结构模型来估计人体姿态。但是，传统方法往往无法充分利用图像信息，并且依赖专业的采集设备，成本较高，人体姿态数据的获取过程复杂且困难，所以很难适用于所有的应用场景。

近年来，深度学习在计算机视觉领域得到了成功的应用。2012年，Hinton等人采用卷积神经网络模型在ImageNet比赛上取得了优异的结果。随后提出的残差网络使得网络朝着更深的方向发展。基于深度学习网络处理并提取人体姿态特征，相比于传统方法，深度卷积神经网络(DCNN)能够获得不同感受野下多尺度多类型的人体关节点特征向量和特征的对应的上下文信息，进而能够更准确预测人体姿态中各个关节点的位置，并建立更为准确的人体姿态模型。Hourglass、CPN等网络使用全卷积神经网络，对给定的RGB图像，输出人体关键点的精确像素位置坐标，通过多尺度特征的融合，捕捉人体各关节点的空间位置信息。其中，hourglass网络结构形似沙漏状，重复使用top-down或者bottom-up的结构来处理图像中的位置信息和空间信息。这些强大的模型极大的促进了姿态估计准确程度的提高。尽管进展十分迅速，但在姿态估计任务中仍有许多挑战需要克服。比如在日常生活中，由于人与人之间的交互、人与物之间的交互产生的遮挡，由于图像捕捉设备产生的差异，复杂背景下定位精准度的提高、光照的不充足导致位置信息捕捉与提取的难度极大的提高。

然而，在复杂的场景中仍然存在一些挑战，一些需要捕捉的关节特征在图像中尺寸大小不同，或者关节部位被遮挡，或者在图像区域之外，导致关节点难以定位。但是，近年来，学术研究人员在精度方面取得了显著进展，并在姿态估计任务中取得了先进的性能。如堆叠的沙漏形网络、高分辨率网络。现有的工作大多是通过定位人体部位或解剖关键点(包括头部、肩膀、手腕等)来估计人体姿态。它们生成概率热图，并将最可能的位置确定为预测关节。大多数工作都使用卷积网络来降低特征图分辨率，以避免高昂的计算成本，并使用反卷积或者上采样来生成高分辨率的特征图，从而使得网络具有更高的空间精度。另一方面，学者使用概率图来直接关联人体关节点的位置坐标，以及建立端到端模型也被证明是有效的。

自上而下的姿态估计方法先检测图像中人体的位置，利用检测网络定位人体位置，输出人体边界，然后每个实例进行姿态估计。自上而下的方法十分依赖于人体检测的准确性，但在人体情况存在严重遮挡或者图像形变发生的时候，无法很好地进行估计，同时耗费的时间随着图像中人数增加成比例增长，在室外密集环境下需要较高的运算成本。自下而上的姿态估计方法直接检测图像中各个关节部位的位置，利用算法计算点的热图、点与点之间连接的概率，根据图论知识将关节点分类到人，并且连接起来。然而，自下而上需要建立复杂的推理过程，确保连接起来的关节点属于同一个人。

这些人体姿态估计通过多通道的热点图来预测人体的关节点可以有效提升预测准确度，同时将关节点连接起来这两部分任务可以通过多通道来很好地解决。在COCO数据集中，关节点定义为：鼻、左眼、右眼、左耳、右耳、脖子、左肩、右肩、左肘、右肘、左腕、右腕、左髋、右髋、左膝、右膝、左脚踝、右脚踝。通过对这些点的准确连接可以产生人体骨架。

由于估计过程的不同，导致两种方法在时间效率和精度上存在较大的差异。自底向上的姿态估计被证明是可靠和有效的，它可以检测整个图像中的候选位置，并使用该算法来关联人体的各个部分。然而，与最先进的方法相比，潜在的较低准确性成为一个长期存在的问题。相反，自顶向下的方法使用检测从整个图像中提取每个人，然后为每个人定位人体部位的关键点。这种方法有助于高精度的姿态估计，但不可避免的是，任务消耗的时间与图像中人物的数量成比例增加。相关研究表明，高分辨率的语义特征对提高定位精度至关重要。尽管如此，增加特征分辨率将导致随参数数量的指数增长，并且昂贵的计算成本可能是不可接受的。

发明内容

为至少一定程度上解决现有技术中存在的技术问题之一，本发明的目的在于提供一种2D多人姿态估计网络的对抗式训练方法、系统及介质。

本发明所采用的技术方案是：

一种2D多人姿态估计网络的对抗式训练方法，包括以下步骤：

获取人体图像数据以及进行数据增强，将RGB图片中三个通道的数值进行映射，对图片中RGB三个通道进行归一化处理；

利用截断的高斯分布，将图片中人体的关键点的位置坐标转换成多通道的热图；

用卷积网络、BN、Leaky RELU构建姿态判别器网络，构建以HRNet为主干的姿态网络，进行Xavier初始化；

根据训练后的姿态网络，借助热图中最大值向次大值偏离四分之一的方式确定最终的关键点的位置坐标；

在训练过程中，姿态网络与姿态判别器网络相互竞争，姿态判别器网络的优化方向是鉴别数据是否来源于真实的数据分布，而姿态网络则尽量生成符合实际数据分布的结果。

进一步，所述姿态网络的损失函数如下：

L_pose＝log(1-D(H(x^(k))))+β(H^(k)-H(x^(k)))²

所述姿态判别器网络的损失函数如下：

L_dis＝logD(H^(k)+Noise)+log(1-D(H(x^(k))))

其中，x^(k)为输入数据，β(H^(k)-H(x^(k)))²是通常使用的标签与输出之间的均方误差，log(1-D(H(x^(k))))为姿态网络中引入的对抗损失函数。

进一步，所述姿态网络的参数的跟新方式如下：

在训练过程中，随机抽取样本的数量为n，对于其中的每个样本x^(k)，都将输出一个对应的H(x^(k))；其中，H^(k)代表第k个人的热图标签，Noise为加入的白噪声，而x^(k)代表着输入数据(RGB图像)D代表框架中的判别器，β为加权参数。

进一步，所述姿态判别器网络的参数的跟新方式如下：

其中，Noise为加入的白噪声；θ_d为判别器中的模型参数。

本发明所采用的另一技术方案是：

一种2D多人姿态估计网络的对抗式训练系统，包括：

预处理模块，用于获取人体图像数据以及进行数据增强，将RGB图片中三个通道的数值进行映射，对图片中RGB三个通道进行归一化处理；

热图获取模块，用于利用截断的高斯分布，将图片中人体的关键点的位置坐标转换成多通道的热图；

网络构建模块，用于用卷积网络、BN、Leaky RELU构建姿态判别器网络，构建以HRNet为主干的姿态网络，进行Xavier初始化；

位置识别模块，用于根据训练后的姿态网络，借助热图中最大值向次大值偏离四分之一的方式确定最终的关键点的位置坐标；

本发明所采用的另一技术方案是：

一种2D多人姿态估计网络的对抗式训练系统，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上所述方法。

本发明所采用的另一技术方案是：

一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行如上所述方法。

本发明的有益效果是：本发明将姿态网络与姿态判别器网络相互竞争地进行训练，该训该练方法能有效学习到人体的关键点特征，并在复杂的背景环境中具有良好的鲁棒性。

附图说明

为了更清楚地说明本发明实施例或者现有技术中的技术方案，下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员而言，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1是本发明实施例中姿态网络与姿态判别器网络对抗训练的整体架构示意图；

图2是本发明实施例中传统姿态估计方法的步骤示意图；

图3是本发明实施例中姿态网络架构示意图；

图4是本发明实施例中姿态判别器网络架构示意图；

图5是本发明实施例中室外环境下的多人姿态估计效果展示

图6是本发明实施例中传统方法与经过对抗训练后方法的效果对比图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

传统方案姿态估计方法采用检测算法(Faster RCNN、SSD)先检测出人体位置，然后使用单人姿态估计方法(Hourglass、HRNet)实现对一个区域中的多人进行姿态估计：首先提取人物的坐标位置，然后对每个提取出来的人物进行单人的姿态估计。如图2所示，其包含以下步骤：

步骤一、先采用Faster RCNN检测算法确定包含人体的区域。

步骤二、为了加速模型收敛，重新调整输入数据的均值和方差，并为每个关节点位置绘制分布的热点，采用截断的高斯分布。最终将属于不同关节点的热点图叠加为一个多通道的热图，将其作为最终的数据标签。

步骤三、利用HR-Net、残差网络作为基本网络骨架，提取并处理图像特征，最后输出一个多通道的热图。最后根据输出的结果确定关节点的具体位置，为了降低误差，采用的方式是最高点向次高点偏离四分之一。

步骤四、通过反复的迭代，利用大量的数据集训练网络。

通过多通道的热点图来预测人体的关节点可以有效提升预测准确度。在COCO数据集中，关节点定义为：鼻、左眼、右眼、左耳、右耳、脖子、左肩、右肩、左肘、右肘、左腕、右腕、左髋、右髋、左膝、右膝、左脚踝、右脚踝。通过对这些点的准确连接可以产生人体骨架。

常规的位姿估计方法依赖于热图中的最大得分来直接确定预测关键点的位置，忽略了空间关系和物理约束。本实施例方案利用对抗网络的损失函数设计训练方式，结合传统的模型学习这些空间关系和物理约束关系，使人类在野外的姿态估计更加合理。本实施例提出了一种新的对抗结构，旨在获取人体重要关键点的精确像素位置，同时学习空间关系和物理约束，使预测更加合理。为了提高模型在验证集中的鲁棒性，通过选择最高的和次高的置信度位置来确定关节点的位置我们的模型在很大程度上不同于以前的设计。

如图1所示，为了让网络学习到人体姿态的先验知识，本方案提出一种对抗式的网络，其中，姿态网络G的目标是使其输出更加接近真实坐标的分布，而检测网络D的目标是分辨结果是否来自真实的坐标空间。

为了让模型学习到姿态的先验知识，在pose网络的损失函数中加入对抗网络的对应约束。姿态网络的损失函数如下：

L_pose＝log(1-D(H(x^(k))))+β(H^(k)-H(x^(k)))²

姿态判别器网络的损失函数如下：

L_dis＝logD(H^(k)+Noise)+log(1-D(H(x^(k))))

在循环迭代的过程中，姿态网络权重不断的调整。采用了多通道热点图与标签的误差平方和并利用鉴别网络的预测结果作为惩罚项优化最终的预测结果。假设总共样本总数为N，对于输入x^(k)，姿态网络将会预测其对应的热图，预测是真实标注的概率。由于真实的标签是平滑的高斯分布，而生成的结果具有一定随机性，为了防止鉴别网络直接通过平滑程度区分最终结果，采用加入噪声的为标签加入随机性。最终生成网络将输入的RGB图像转化成多通道的热图。

采用如下方式更新姿态判别器网络的权重：

假设样本量为M，batchsize为N，那么对于其中输入样本x^(k)，我们希望鉴别器能正确区分真实的标签H^(k)，和由姿态网络生成的结果H(x^(k))，在训练过程中通过梯度反馈使得网络的损失函数越来越小。而姿态网络参数的跟新方式如下：

其中，β(H^(k)-H(x^(k)))²是传统方案通常使用的标签与输出之间的均方误差，log(1-D(H(x^(k))))是该方案引入的鉴别器对应的损失函数。在训练的过程中，通过梯度反馈使得网络能够生成鉴别器认为合理的结果。

对抗训练的整体架构如图1所示，姿态网络架构图如图3所示，鉴别器架构图如图4所示，图像经过增强后输入到姿态网络中，通过网络的处理提取出图像中的语义信息和位置信息，在经过反卷积网络输出多通道的热图。最后通过算法得到最终的二维坐标数据，构成一个完整的坐标估计网络。而鉴别网络利用数据归一化和Leaky RELU加速模型收敛。

更具体地，如图3所示，本实施例首先利用一层7X7的卷积层，数据归一化、激活函数RELU和最大池化层组合对输出进行初步的处理，得到关键点特征和关键点的位置特征。骨架网络是可选的，需要强化的姿态网络，最后通过两层反卷积恢复特征图的分辨率。在一些文献中，提高分辨率被证明有助于恢复关键点的位置信息。为了平衡网络生成器部分和网络检测器的学习效率，对于网络生成器我们采用了Adam作为迭代地更新神经网络权重的优化算法，对于检测器部分，本实施例采用了SGD作为迭代地更新神经网络权重的优化算法。

在COCO数据集中的对比结果如下所示：实验表明，利用本实施例的方法对原网络进行训练时，会有一个明显的增强，并且具备较高的鲁棒性和准确率。如表格1所示，方法对大和小的物体都有不错的精确度。在最具有说服力的AP指标上都具有一定的提升，在AP@0.5上提升明显。

表1

本实施例提供的方法能有效提高人体动作分析、人机交互以及视频监视等方面的技术准确度，本设计的训练方法能有效学习到人体的关键点特征，并在复杂的背景环境中具有良好的鲁棒性。

以下结合附图与具体实施方式对上述方法进行解释说明。

实验结果表明，姿态估计网络具有较强的学习能力，该方法能够增强网络对复杂环境下多个实例的分辨能力，将原始的图像信息转化为标注坐标点信息。最终，室外环境下多人姿态估计效果，如图5所示，在一些背景复杂、交互、肢体遮挡的条件下取得了不错的估计效果。

如图6所示，第一排是输入，第二排是原方法，第三排是经过强化后的结果。在一些案例中，经过强化后的方法展现出了更好、更鲁棒性的结果。在一些复杂环境中，当原方法将左手的定位或右手的定位混淆的时候，强化后的方法仍然能够给出一个合理姿态估计结果。

本实施例还提供一种2D多人姿态估计网络的对抗式训练系统，包括：

本实施例的一种2D多人姿态估计网络的对抗式训练系统，可执行本发明方法实施例所提供的一种2D多人姿态估计网络的对抗式训练方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

本实施例还提供了一种存储介质，存储有可执行本发明方法实施例所提供的一种2D多人姿态估计网络的对抗式训练方法的指令或程序，当运行该指令或程序时，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施方式，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于上述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种2D多人姿态估计网络的对抗式训练方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种2D多人姿态估计网络的对抗式训练方法，其特征在于，所述姿态网络的损失函数如下：

L_pose＝log(1-D(H(x^(k))))+β(H^(k)-H(x^(k)))²

其中，x^(k)为输入数据，β(H^(k)-H(x^(k)))²是通常使用的标签与输出之间的均方误差，log(1-D(H(^(k))))为姿态网络中引入的对抗损失函数；

所述姿态判别器网络的损失函数如下：

L_dis＝logD(H^(k)+Noise)+log(1-D(H(x^(k))))

在训练过程中，随机抽取样本的数量为n，对于其中的每个样本x^(k)，都将输出一个对应的H(x^(k))；其中，H^(k)代表第k个人的热图标签，Noise为加入的白噪声，而x^(k)代表着输入数据，D代表框架中的判别器。

3.根据权利要求1所述的一种2D多人姿态估计网络的对抗式训练方法，其特征在于，所述姿态网络θ_p的参数的跟新方式如下：

在训练过程中，随机抽取样本的数量为n，对于其中的每个样本x^(k)，都将输出一个对应的H(x^(k))；其中，H^(k)代表第k个人的热图标签，而x^(k)代表着输入数据。

4.根据权利要求1所述的一种2D多人姿态估计网络的对抗式训练方法，其特征在于，所述姿态判别器网络θ_d的参数的跟新方式如下：

5.一种2D多人姿态估计网络的对抗式训练系统，其特征在于，包括：

6.一种2D多人姿态估计网络的对抗式训练系统，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现权利要求1-4任一项所述方法。

7.一种存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-4任一项所述方法。