CN112200102B

CN112200102B - 一种自适应数据增强的二维人体姿态估计方法和系统

Info

Publication number: CN112200102B
Application number: CN202011103590.2A
Authority: CN
Inventors: 邹腊梅; 车鑫; 乔森; 聂士伟; 杨卫东
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2023-02-14
Anticipated expiration: 2040-10-15
Also published as: CN112200102A

Abstract

本发明公开了一种自适应数据增强的二维人体姿态估计方法和系统，属于计算机视觉和深度学习领域。本发明不同于将数据增强作为一个独立的数据预处理步骤的常规做法，将数据增强和用于执行计算机视觉任务的卷积神经网络的训练两个独立的过程联合起来，使得数据增强能跟随卷积神经网络的训练过程实现动态更新，自适应的根据具体数据集特点和应用任务产生数据增强操作的概率分布，产生对卷积神经网络优化更加有效的训练样本，提升卷积神经网络的训练效率，同时有效增强卷积神经网络的泛化能力；本发明以数据增强模块为生成器，以卷积神经网络为判别器，通过两者“博弈”实现共同优化，最终实现执行计算机视觉任务的卷积神经网络模型更优的表现。

Description

一种自适应数据增强的二维人体姿态估计方法和系统

技术领域

本发明属于计算机视觉和深度学习领域，更具体地，涉及一种自适应数据增强的计算机视觉任务执行方法和系统。

背景技术

从本质上说，深度学习是用复杂模型拟合大量数据的过程，数据的质量和数量是决定卷积神经网络模型泛化性能的重要因素。在使用深度学习方法解决具体计算机视觉任务时，训练样本不充足是一个普遍存在的障碍。一方面，数据集的制作需要花费高昂的成本；另一方面，通过数据增强增加数据的多样性可以有效缓解卷积神经网络在训练过程中的过拟合现象。因此，数据增强是深度学习中不可或缺的关键一环。

目前普遍采用的常规数据增强操作有颜色变化、几何变换、翻转、尺度缩放、添加噪声等，这些操作一定程度上模拟了现实场景中的视角、光线、尺度等方面的变换，因此可提升卷积神经网络的泛化性能。但是，常规数据增强操作作为卷积神经网络训练的数据预处理的步骤之一，独立于卷积神经网络训练过程，直接从静态分布中采样，是一种“盲目”的操作，会增加部分无关的数据，不能跟踪动态的卷积神经网络训练过程，导致卷积神经网络的训练效率不高。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种自适应数据增强的计算机视觉任务执行方法和系统，其目的在于解决常规数据增强是“盲目”的，会增加无关数据，不能自适应具体数据集特点和应用任务，导致训练效率不高的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种自适应数据增强的计算机视觉任务执行方法，包括：

S1.构建用于执行计算机视觉任务的卷积神经网络，并进行预训练得到卷积神经网络的预训练模型；

S2.构建数据增强模块，并进行预训练得到数据增强模块的预训练模型；所述数据增强模块的输入为卷积神经网络不同尺度的层间特征图，输出为数据增强操作的概率分布；

S3.以数据增强模块为生成器，以所述卷积神经网络作为判别器，采用奖励惩罚措施对数据增强模块与卷积神经网络进行联合优化；其中，卷积神经网络的预训练模型和数据增强模块的预训练模型作为联合优化的初始值；所述卷积神经网络根据数据增强模块生成的概率分布实施自适应数据增强操作；

S4.采用训练好的卷积神经网络和数据增强模块执行计算机视觉任务。

进一步地，数据增强模块包括：跨阶段瓶颈模块、池化层和全连接层；

数据增强模块对卷积神经网络不同尺度的层间特征图进行融合，融合后的特征图输入全连接层得到概率分布，在数据送入卷积神经网络进行训练之前，数据要根据此概率分布进行数据增强操作；其中，每两个相邻的层间特征图融合过程为：尺度较大的特征图通过跨阶段瓶颈模块提取特征后，通过池化层进行下采样，再与尺度较小的特征图经过跨阶段瓶颈模块提取得到的特征进行融合。

进一步地，对数据增强模块进行预训练，具体包括：

从m个有界高斯分布中采样，对应的采样概率为{p₁,p₂,…,p_m}，满足

m表示设定的常数；

对每一个训练样本，根据采样结果进行数据增强操作，得到m个新的训练样本；

将m个新的训练样本输入到卷积神经网络的预训练模型中计算相应的损失函数；损失函数的值{l₁,l₂,…,l_m}表征对应采样结果进行数据增强操作生成的样本对于卷积神经网络学习的难易程度，损失函数的值越大，表明样本越难学习；

将m个样本对应的损失函数值{l₁,l₂,…,l_m}进行归一化，得到相应的归一化损失函数值{l₁′,l₂′,…,l_m′}，使其满足

将{l₁′,l₂′,…,l_m′}作为联合优化阶段数据增强模块的监督值。

进一步地，数据增强模块使用的损失函数为KL散度(Kullback-LeiblerDivergence)损失函数L_KL：

其中，N为样本数量，P_i为第i个样本标签生成的概率分布，

为数据增强模块输出的概率分布预测值。

进一步地，采用奖励惩罚措施对数据增强模块与卷积神经网络进行联合优化，具体包括：

将同一张数据样本分别做常规数据增强操作和根据数据增强模块输出的概率分布进行采样得到的自适应数据增强操作；

若实施常规数据增强操作的样本输入卷积神经网络后计算出的损失函数的数值大于根据数据增强模块输出的概率分布实施自适应数据增强操作后的样本输入卷积神经网络后计算出的损失函数的数值，则惩罚，即减小数据增强模块输出的概率分布的取值；反之，若实施常规数据增强操作的样本输入卷积神经网络后计算出的损失函数的数值小于根据数据增强模块输出的概率分布实施自适应数据增强操作后的样本输入卷积神经网络后计算出的损失函数的数值，则奖励，即增大数据增强模块输出的概率分布的取值。

进一步地，常规数据增强操作包括颜色变化、几何变换、翻转、缩放和添加噪声。

按照本发明的另一方面提供了一种自适应数据增强的计算机视觉任务执行系统，包括：计算机可读存储介质和处理器；

所述计算机可读存储介质用于存储可执行指令；

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令，执行上述自适应数据增强的计算机视觉任务执行方法。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果。

(1)本发明不同于将数据增强作为一个独立的数据预处理步骤的常规做法，将数据增强和用于执行计算机视觉任务的卷积神经网络的训练两个独立的过程联合起来，使得数据增强能跟随卷积神经网络的训练过程实现动态更新，自适应的根据具体数据集特点和应用任务产生数据增强操作的概率分布，产生对卷积神经网络优化更加有效的训练样本，提升卷积神经网络的训练效率，同时更有效的增强卷积神经网络的泛化性能。

(2)本发明方法使用生成对抗学习策略，其中，生成器是数据增强模块，判别器是适合具体计算机视觉任务的卷积神经网络，判别器从生成器生成的“难样本”中提升学习能力，而生成器也根据判别器的输出不断调整，尽可能产生对于判别器而言更“难”的样本，通过生成器和判别器之间“博弈”实现数据增强模块和卷积神经网络的共同优化，最终实现适合具体计算机视觉任务的卷积神经网络模型更优的表现。

(3)本发明方法使用奖励惩罚措施进行联合优化。不同于常规的生成对抗学习网络中分别对生成器和判别器迭代优化的方法，本发明使用奖励惩罚措施进行联合优化，“在线更新”数据增强模块输出的概率分布，把不可微分的数据增强操作与卷积神经网络的训练结合到一起，实现数据增强模块跟踪动态的卷积神经网络训练过程，根据具体数据集特点和应用任务自适应地增加困难样本的数量，进一步增强适合具体计算机视觉任务的卷积神经网络的泛化能力。

(4)本发明提出的数据增强模块生成的是数据增强操作的概率分布，而不是直接生成数据增强的图像数据，因此效率更高，且引入了不确定性，可以更进一步地增加数据样本的多样性，更加有效地防止适合具体计算机视觉任务的卷积神经网络训练时出现的过拟合现象。

附图说明

图1是本发明实施例提供的数据增强模块和卷积神经网络的训练联合优化的方法的流程图；

图2是本发明实施例提供的数据增强模块的网络结构图；

图3是本发明实施例提供的数据增强模块中跨阶段瓶颈模块的具体结构图；

图4是本发明实施例提供的适用于二维人体姿态估计的卷积神经网络——堆叠沙漏模型的网络结构图；

图5是本发明实施例提供的二维人体姿态估计中，数据增强模块和卷积神经网络的训练联合优化的整体架构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供的一种自适应数据增强的计算机视觉任务执行方法，不需要额外的数据样本、不改变具体计算机视觉任务其卷积神经网络结构，但经过对数据增强模块和卷积神经网络的联合优化，对原始数据集进行“自适应”的数据增强，可产生更高效的训练样本，提升训练效率，从而更有效地防止卷积神经网络训练过程中出现的过拟合现象，增强卷积神经网络的泛化性能。如图1所示，具体包括以下步骤：

S2.构建数据增强模块，并进行预训练；数据增强模块的输入为卷积神经网络不同尺度的层间特征图，输出为数据增强操作的概率分布；

S3.以数据增强模块为生成器，以卷积神经网络作为判别器，采用奖励惩罚措施对数据增强模块与卷积神经网络进行联合优化；

不同于常规基于图像处理的数据增强操作，本发明提供的数据增强模块是一个轻量化的卷积神经网络，其结构如图2所示，包括：跨阶段瓶颈模块、池化层和全连接层，跨阶段瓶颈模块的具体结构如图3所示；数据增强模块的输入为具体计算机视觉任务的卷积神经网络的层间特征图，将卷积神经网络不同尺度的层间特征图进行融合，其优点为可利用不同尺度的特征图中包含的空间约束提高联合优化的效率；数据增强模块的输出为自适应数据增强操作的概率分布。其中，如图2所示，每两个相邻的层间特征图融合过程为：尺度较大的特征图通过跨阶段瓶颈模块提取特征后，通过池化层进行下采样，再与尺度较小的特征图经过跨阶段瓶颈模块提取得到的特征进行融合；最终融合后的特征图输入全连接层得到概率分布。

适合具体计算机视觉任务的卷积神经网络可根据数据增强模块生成的概率分布来采样，实施典型的数据增强操作，如缩放、旋转、色彩变化。相比于利用指定概率直接输出数据增强后的图像数据的常规数据增强方法，本发明通过自适应输出数据增强操作的概率分布，一方面能加快卷积神经网络训练时的收敛速度，另一方面从概率分布中采样引入了不确定性，可以增强卷积神经网络的鲁棒性。

在联合优化之前，要分别对适合具体计算机视觉任务的卷积神经网络和数据增强模块进行预训练，获取适合具体计算机视觉任务的卷积神经网络预训练模型和数据增强模块预训练模型，在联合优化阶段，两个预训练模型分别作为对应网络的初始值。

在对适合具体计算机视觉任务的卷积神经网络进行预训练时，其监督值与具体计算机视觉任务相关。数据增强模块的预训练以适合具体计算机视觉任务的卷积神经网络的预训练模型为基础；对数据增强模块进行预训练时，首先从m个有界高斯分布中采样，对应的采样概率为{p₁,p₂,…,p_m}，且满足

对每一张训练样本，根据采样结果进行数据增强操作，得到m个新的训练样本，然后将它们输入到适合具体计算机视觉任务的卷积神经网络的预训练模型中计算相应的损失函数，损失函数的值{l₁,l₂,…,l_m}表征对应数据增强分布生成的样本对于卷积神经网络学习的难易程度，损失函数的值越大，表明样本越难学习。将m个样本对应的损失函数值{l₁,l₂,…,l_m}进行归一化，得到相应的归一化损失函数值{l₁′,l₂′,…,l_m′}，使其满足

数据增强模块和卷积神经网络的训练联合优化的网络架构是基于生成对抗学习策略设计的。在生成对抗网络架构中，生成器(Generator)是数据增强模块，判别器(Discriminator)是适合具体计算机视觉任务的卷积神经网络。生成器的目标是生成令判别器难以辨别的“难例”，而判别器的目标是尽可能辨别出生成器生成的“伪样本”。通过生成器和判别器之间的博弈，生成器在联合优化的过程中探索判别器的弱点，而判别器通过学习生成器产生的“难例”的克服不足，增强对“难例”的学习能力，从而提升自身表现。

联合优化具体采用一种奖励惩罚措施。常规的数据增强操作是不可微分的，因此，直接对常规数据增强操作和卷积神经网络的训练进行联合优化是不可行的。本发明提出一种奖励惩罚措施，通过数据增强模块“在线”输出自适应数据增强操作的概率分布实现联合优化。

奖励惩罚措施具体为：将同一张数据样本分别做常规数据增强操作和根据数据增强模块输出的概率分布进行采样得到的自适应数据增强操作，若实施常规数据增强操作的样本输入卷积神经网络后计算出的损失函数的数值，大于根据数据增强模块输出的概率分布实施自适应数据增强操作后的样本输入卷积神经网络后计算出的损失函数的数值，说明根据后者生成的数据样本对卷积神经网络是容易的，则惩罚，即减小该概率分布的取值；若实施常规数据增强操作的样本输入卷积神经网络后计算出的损失函数的数值，小于根据数据增强模块输出的概率分布实施自适应数据增强操作后的样本输入卷积神经网络后计算出的损失函数的数值，说明根据后者生成的数据样本对卷积神经网络是困难的，则奖励，即增大该概率分布的取值。通过奖励惩罚措施可“在线更新”数据增强模块输出的概率分布，增加困难样本的数量，增强适合具体计算机视觉任务的卷积神经网络的泛化能力；

在联合优化过程中，卷积神经网络对应的损失函数与具体的计算机视觉任务有关，数据增强模块使用的损失函数为KL散度(Kullback-Leibler Divergence)损失函数L_KL，具体为：

其中，N为样本数量，P_i为第i个样本标签生成的概率分布，

为数据增强模块输出的概率分布预测值。

本发明实施例以二维人体姿态估计任务为例对上述方法进行详细说明，具体分为4个步骤：

S1.对姿态估计网络进行预训练，得到姿态估计网络预训练模型；姿态估计网络选用经典的堆叠“沙漏型”编码解码结构，包括池化层、残差模块、上采样模块和跳跃连接四部分，其具体结构如图4所示；

S2.对数据增强模块进行预训练，得到数据增强模块预训练模型；

S3.对姿态估计网络和数据增强模块进行联合优化；

S4.利用获得的姿态估计网络模型实现姿态估计。

步骤S1具体包括：

S1.1.数据准备：从数据集接口中获取每张图像中每个人体的关节点坐标、尺度、中心点坐标，根据关节点位置信息计算每个人体的归一化距离，具体为左肩与右肩或左臀与右臀之间的欧式距离，并利用高斯分布将每个人体的关节点位置信息转换成概率图；

S1.2.数据处理：对数据集中的图像进行裁剪，重塑数据尺寸，使样本数据为统一大小；

S1.3.常规数据增强：对S1.2得到的数据进行色彩变换、几何变换等常规数据增强操作；

S1.4网络预训练：将S1.3得到的数据输入姿态估计网络，对其进行预训练和模型参数优化，得到姿态估计网络预训练模型。

步骤S2具体包括：

S2.1.搭建数据增强模块：数据增强模块是一个轻量化的卷积神经网络；

S2.2.数据增强模块预训练：数据增强模块的输入是姿态估计网络对应相同尺度的层间特征图。数据增强模块的预训练过程中，数据增强模块为训练模式，姿态估计网络为验证模式，即姿态估计网络不更新网络参数，而直接使用步骤S1中获得的姿态估计网络的预训练模型；只更新数据增强模块的网络参数，获得数据增强模块的预训练模型。对数据增强模块进行预训练时，首先从m个有界高斯分布中采样，对应的采样概率为{p₁,p₂,…,p_m}，且满足

对每一张训练样本，根据采样结果进行数据增强操作，得到m个新的训练样本，然后将它们输入到姿态估计网络的预训练模型中计算相应的损失函数，损失函数的值{l₁,l₂,…,l_m}表征对应数据增强分布生成的样本对于姿态估计网络而言学习的难易程度，损失函数的值越大，表明样本越难学习；将m个样本对应的损失函数值{l₁,l₂,…,l_m}进行归一化，得到相应的归一化损失函数值{l₁′,l₂′,…,l_m′}，使其满足

参考图5，步骤S3具体包括：

S3.1.网络初始化；在联合优化阶段，步骤S1中获得的姿态估计网络预训练模型和步骤S2中获得的数据增强模块的预训练模型分别作为姿态估计网络和数据增强模块的参数初始值。

S3.2.奖励惩罚；将同一张数据样本分别做常规数据增强操作和根据数据增强模块输出的概率分布进行采样得到的自适应数据增强操作，若实施常规数据增强操作的样本输入姿态估计网络后计算出的损失函数的数值，大于根据数据增强模块输出的概率分布实施自适应数据增强操作后的样本输入姿态估计网络后计算出的损失函数的数值，说明根据后者生成的数据样本对姿态估计网络是容易学习的，则惩罚，即减小该概率分布的取值；反之，若实施常规数据增强操作的样本输入姿态估计网络后计算出的损失函数的数值，小于根据数据增强模块输出的概率分布实施数据增强操作后的数据输入姿态估计网络后计算出的损失函数的数值，说明根据后者生成的数据样本对姿态估计网络是较难学习的，则奖励，即增大该概率分布的取值。通过奖励惩罚措施可“在线更新”数据增强模块输出的概率分布，增加困难样本的数量，进一步增强姿态估计网络的泛化能力。步骤S4具体为：在完成步骤S3的联合优化后，得到姿态估计网络模型，通过姿态估计网络前向预测实现姿态估计，并输出人体姿态骨架和评价指标。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种自适应数据增强的二维人体姿态估计方法，其特征在于，包括：

S1.构建姿态估计网络，并进行预训练得到姿态估计网络预训练模型；

步骤S1具体包括：

从数据集接口中获取每张图像中每个人体的关节点位置信息，根据关节点位置信息计算每个人体的归一化距离，并利用高斯分布将每个人体的关节点位置信息转换成概率图；

对数据集中的图像进行裁剪，重塑数据尺寸，使样本数据为统一大小；

对统一大小的数据进行常规数据增强后，输入姿态估计网络进行预训练；

S2.构建数据增强模块，并进行预训练得到数据增强模块的预训练模型；所述数据增强模块的输入为姿态估计网络不同尺度的层间特征图，输出为数据增强操作的概率分布；对数据增强模块进行预训练，具体包括：

m表示设定的常数；

将m个新的训练样本输入到姿态估计网络的预训练模型中计算相应的损失函数；损失函数的值{l₁,l₂,…,l_m}表征对应采样结果进行数据增强操作生成的样本对于姿态估计网络学习的难易程度，损失函数的值越大，表明样本越难学习；

将{l₁′,l₂′,…,l_m′}作为联合优化阶段数据增强模块的监督值；

S3.以数据增强模块为生成器，以姿态估计网络作为判别器，采用奖励惩罚措施对数据增强模块与姿态估计网络进行联合优化；其中，姿态估计网络预训练模型和数据增强模块的预训练模型作为联合优化的初始值；所述姿态估计网络根据数据增强模块生成的概率分布实施自适应的数据增强操作；

S4.采用训练好的姿态估计网络实现人体姿态估计。

2.根据权利要求1所述的一种自适应数据增强的二维人体姿态估计方法，其特征在于，数据增强模块包括：跨阶段瓶颈模块、池化层和全连接层；

数据增强模块对姿态估计网络不同尺度的层间特征图进行融合，融合后的特征图输入全连接层得到概率分布，在数据送入姿态估计网络进行训练之前，数据要根据此概率分布进行自适应的数据增强操作；其中，每两个相邻的层间特征图融合过程为：尺度较大的特征图通过跨阶段瓶颈模块提取特征后，通过池化层进行下采样，再与尺度较小的特征图经过跨阶段瓶颈模块提取得到的特征进行融合。

3.根据权利要求2所述的一种自适应数据增强的二维人体姿态估计方法，其特征在于，数据增强模块使用的损失函数为KL散度损失函数L_KL：

其中，N为样本数量，P_i为第i个样本标签生成的概率分布，

为数据增强模块输出的概率分布预测值。

4.根据权利要求1-3任一项所述的一种自适应数据增强的二维人体姿态估计方法，其特征在于，采用奖励惩罚措施对数据增强模块与姿态估计网络进行联合优化，具体包括：

若实施常规数据增强操作的样本输入姿态估计网络后计算出的损失函数的数值大于根据数据增强模块输出的概率分布实施自适应数据增强操作后的样本输入姿态估计网络后计算出的损失函数的数值，则惩罚，即减小数据增强模块输出的概率分布的取值；反之，若实施常规数据增强操作的样本输入姿态估计网络后计算出的损失函数的数值小于根据数据增强模块输出的概率分布实施自适应数据增强操作后的样本输入姿态估计网络后计算出的损失函数的数值，则奖励，即增大数据增强模块输出的概率分布的取值。

5.根据权利要求4所述的一种自适应数据增强的二维人体姿态估计方法，其特征在于，常规数据增强操作包括颜色变化、几何变换、翻转、缩放和添加噪声。

6.一种自适应数据增强的二维人体姿态估计系统，其特征在于，包括：计算机可读存储介质和处理器；

所述计算机可读存储介质用于存储可执行指令；

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令，执行权利要求1至5任一项所述的自适应数据增强的二维人体姿态估计方法。