CN110427799B

CN110427799B - 基于生成对抗网络的人手深度图像数据增强方法

Info

Publication number: CN110427799B
Application number: CN201910508096.5A
Authority: CN
Inventors: 李勇波; 徐迟; 蔡文迪; 谢中朝
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2019-06-12
Filing date: 2019-06-12
Publication date: 2022-05-06
Anticipated expiration: 2039-06-12
Also published as: CN110427799A

Abstract

本发明公开了一种基于生成对抗网络的人手深度图像数据增强方法，本发明主要通过生成对抗网络生成新的图像样本，生成对抗网络需要交替训练两个网络：生成网络、判别网络。首先，生成网络输入一个随机噪声，生成一张伪图，尽可能去欺骗判别网络；然后，判别网络判别输入的图像的真伪，尽可能的把生成图片与真实图片区分开；最后，生成网络和判别网络两个部分构成一个动态的“博弈”过程，直到判别网络难以判定生成网络生成的图片是否是真实的，这样可以得到一个模型G生成人手深度图像，以达到数据增强的目标，同时为了使生成的图像与真实图像差异性最小化，本发明引入了一种风格转换的方法，在生成图像上进行风格转换。

Description

基于生成对抗网络的人手深度图像数据增强方法

技术领域

本发明涉及深度学习计算机视觉领域，更具体地说，涉及人手三维位姿估计模型训练中的基于生成对抗网络的人手深度图像数据增强的方法。

背景技术

手势是人与人之间交流的重要方式，也是人与机器人交互的重要方式之一。手势识别是机器人手势交互的重要组成部分，手势识别的准确性和快速性直接影响人与机器人交互的准确性、流畅性和自然性。根据手势识别使用的设备是否与身体接触，手势识别技术可以分成两类：接触式手势识别和基于视觉的手势识别。接触式手势识别具有识别准确、精度高和稳定性好的优点，但使用的设备复杂，价格高，且用户需要熟练使用特定穿戴设备后，才能进行手势识别，不利于自然交互；随着近几年深度学习、人工智能等领域的飞速发展，基于视觉的手势识别开始展现出其独特的优势，相较于接触式手势识别，其无需用户穿戴设备，具有交互方便，自然和表达丰富的优点，符合人机自然交互的大趋势，适用范围广。

当前基于视觉的人手位姿估计的方法主要可分为三类：模型驱动方法、数据驱动方法以及混合方法。其中数据驱动方法主要通过大量带有人手三维位置坐标的深度图像训练深度卷积神经网络，达到模型的近似拟合。因此需要大量的有标注数据对模型进行迭代训练，但其对数据标注要求极高，不仅需要海量的深度图像数据，同时这些深度图像还需提供人手三维位姿坐标信息。

为了解决在训练模型过程中需要大量有标注的图像数据，数据增强的概念应运而生。数据增强在一方面能够加快模型的收敛速度，另一方面能提高网络模型的泛化能力防止模型过拟合。现阶段常用的数据增强的方法以下两种：对数据进行几何空间变换，如旋转、缩放、裁剪、镜像、平移等；对数据进行特征空间变换，通过现有数据重新生成新样本，相较于几何空间边防速度较慢，但是精度相对较高。

因此本发明提出的一种基于生成对抗网络的人手深度图像数据增强的方法具有一定的实际应用价值。

发明内容

本发明要解决的技术问题在于，针对现有深度学习网络模型训练中需要大量的有标注人手深度图像，提高模型的收敛速度、泛化能力防止模型过拟合，但是训练样本过少的问题，本发明提供一种基于生成对抗网络的人手深度图像数据增强的方法。

在深层卷积网络训练中，数据增强是一种常见的技术手段，其能加速模型的收敛速度，避免出现过度拟合并能增强模型的泛化能力，本发明主要通过生成对抗网络生成新的图像样本，生成对抗网络需要交替训练两个网络：生成网络、判别网络。首先，生成网络输入一个随机噪声，生成一张伪图，尽可能去欺骗判别网络；然后，判别网络判别输入的图x的真伪，尽可能的把生成图片与真实图片区分开；最后，生成网络和判别网络两个部分构成一个动态的“博弈”过程，直到判别网络难以判定生成网络生成的图片是否是真实的，这样可以得到一个模型G生成人手深度图像，以达到数据增强的目标。由于普通生成对抗网络生成的伪图相较于真实的图像更为平滑，为了使生成图像更贴近真实图像，本发明在上述的方法的基础上增加了风格变换网络模型，构件了一个结合风格变换网络的生成对抗网络。将生成器生成的伪图作为风格变换网络的输入，结合风格图片，最终生成一个经过风格变换的生成图像，作为判别器的输入。

实施本发明提出的一种基于生成对抗网络的人手深度图像数据增强的方法，经过试验测试表明具有以下有益效果：相较于基准误差，本发明提出的数据增强方法有明显的损失降低，但是较于几何空间变换的数据增强方法，本发明的为经过风格变换的生成对抗网络数据增强方法相对较为逊色，但是经过风格变换后则优于空间变换的方法。当阈值(预测的人手位姿和真实标准GT的人手位置的关节点最大误差)低于10mm时采用经过风格变换后的生成对抗网络进行数据增强训练得到的网络预测人手关节坐标有满足阈值条件的帧数，当阈值低于50mm时，采用经过风格变换后的生成对抗网络进行数据增强和采用未经风格变换的生成对抗网络进行数据增强训练的出的网络模型满足条件的帧数均高于基准方法。本发明提出的经过风格变换的生成对抗网络数据增强方法训练的出的网络模型在X轴，Y轴，Z轴上与真实三维人手位姿坐标的误差相较于基准方法明显要低一些。本发明提出的经过风格变换的生成对抗网络数据增强方法训练得出的网络模型精度相较于其他方法要高。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是基于生成对抗网络生成人手深度图像模型图；

图2是风格转换网络模型图；

图3是结合风格转换网络的基于生成对抗网络生成人手深度图像模型图；

图4是各个关节点的平均误差图；

图5是不同方法在不同阈值下的帧数百分比图；

图6是原始图像与经过风格变换的生成对抗网络生成的图像对比图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

请参照图1，本发明基于生成对抗网络的人手深度图像数据增强的方法包含如下步骤：

S1、建立生成对抗网络并进行初始化，生成对抗网络包括顺次连接生成器和判别器；进行初始化的参数包含生成器的优化参数θ_G以及判别器的优化参数θ_D，这些优化参数作为对应的卷积核的权值，其中判别器优化参数θ_D分为姿态估计网络分支参数θ_pose和判别图片真伪网络分支参数θ_Dis；

生成器由五层反卷积层组成，反卷积核大小为6×6，反卷积通道数为32，放大因子为2，其输入为随机噪声以及关节点的位置信息，通过五层反卷积层生成一张伪图作为生成图像；

判别器首先通过两层卷积层对图像进行特征提取，提取的特征图分别输入两个分支网络中，其中一个分支用于预测图片中人手的关节点位姿，包括依次设置的三个卷积层以及两个全连接层，另外一个分支用于判断图片的真伪，包括依次设置的三个卷积层以及一个全连接层，在判别器中卷积层的卷积核大小为6×6，通道数为32，步长为2。

所述初始化是指：对于生成器的优化参数θ_G，参数初始化为[-0.04,0.04]截断正态分布，其均值和标准差均为0.02；对于姿态估计网络分支参数θ_pose和判别图片真伪网络分支参数θ_Dis，参数初始化为[-0.04,0.04]截断正态分布，其均值和标准差均为0.02。

S2、训练生成对抗网络，训练时根据下述公式采用梯度下降的方法更新判别器和生成器的优化参数，直至对应的损失收敛：

式中，箭头的左边表示被更新的参数，右边表示更新后的参数，

和

分别表示判别器和生成器的梯度，L_pose、L_gan、L_recons分别表示判别器预测的三维位姿坐标与真实位姿坐标之间的均方误差、判别器中判别图片真伪网络分支进行二值交叉熵损失、合成图像和真实图像之间的限幅均方误差，且：

L_ST(G_θ)＝ω_contL_cont(G_θ)+ω_styL_style(G_θ)+ω_tvL_tv(G_θ)；

式中，N表示每一个Batch中图像的总数，x⁽ⁱ⁾表示每个Batch中的第i张真实图像，τ为限幅，X⁽ⁱ⁾表示判别器每个Batch输入的第i张生成的图像，

表示判别器中姿态估计分支函数，J⁽ⁱ⁾为其对应的关节坐标信息，G_θ(J⁽ⁱ⁾)表示生成的图像，即X⁽ⁱ⁾，D_θ(x⁽ⁱ⁾)表示真实图像作为判别器的输入，得出判别器的输出，即图片是真还是假，D_θ(G_θ(J⁽ⁱ⁾))表示伪图作为判别器的输入，输出伪图是真还是假，每次输入生成对抗网络的真实图像以及其对应的关节点坐标称之为一个Batch；L_cont(G_θ)是指风格变换的内容损失，L_style(G_θ)是指风格变换的风格损失、L_tv(G_θ)是指像素位置信息变化损失，ω_cont、ω_sty及ω_tv分别表示三个损失值的权重，且均大于0；

所述对应的损失是根据下述公式计算得出：

L_Gen＝L_recons-L_gan，

L_Dis＝L_pose+L_gan；

其中，L_Gen表示生成器损失，L_Dis表示判别器损失。

其中，每个Batch中包含64个样本数据，并且生成器采用Adam梯度下降优化算法来更新生成器优化参数，学习率设置为0.002，判别器采用SGD优化算法来更新判别器优化参数，学习率设置为0.001。

为了缩短训练时间，并获取更为逼真的合成图像，本发明采用了限幅均方误差L_recons表示合成图像和真实图像之间的误差，限幅表示为t，该误差能够引导模型达到更小的局部最小值并加快模型的收敛速度。为了提高判别器对合成图像的辨别能力，本发明在判别器输出判别图像的真伪的基础上额外增加了对三维人手位姿估计分支，采用均方误差L_J表示判别器预测的三维位姿坐标与真实位姿坐标之间的误差。

由于普通生成对抗网络生成的伪图相较于真实的图像更为平滑，为了使生成图像更贴近真实图像，本发明在上述的网络模型的基础上增加了风格变换网络模型，构件了一个结合风格变换网络的生成对抗网络。结构参照图2，具体设计思路如下：选取一张真实的人手图像作为风格图像，输入预训练的卷积神经网络模型VGG-19，提取内容特征和风格特征，通过目标函数计算生成带有噪声的人手图像。于是本发明在图1所示的生成对抗网络模型的基础上增加了风格变换网络，具结构参照图3，为了训练该网络，本发明将生成器生成的伪图作为风格变换网络的输入，结合风格图片，最终生成一个经过风格变换的生成图像。本发明提出如下的训练步骤：

S1、建立生成对抗网络并进行初始化，生成对抗网络包括顺次连接生成器、风格变化网络和判别器，风格变化网络用于将生成器生成的伪图作为风格变换网络的输入，结合风格图片，最终生成一个经过风格变换的生成图像然后给到判别器；进行初始化的参数包含生成器的优化参数θ_G以及判别器的优化参数θ_D，这些优化参数作为对应的卷积核的权值，其中判别器优化参数q_D分为姿态估计网络分支参数θ_pose和判别图片真伪网络分支参数θ_Dis；

生成器由五层反卷积层组成，反卷积核大小为6×6，反卷积通道数为32，放大因子为2，其输入为随机噪声以及关节点的位置信息，通过五层反卷积层生成一张伪图作为生成图像；判别器首先通过两层卷积层对图像进行特征提取，提取的特征图分别输入两个分支网络中，其中一个分支用于预测图片中人手的关节点位姿，包括依次设置的三个卷积层以及两个全连接层，另外一个分支用于判断图片的真伪，包括依次设置的三个卷积层以及一个全连接层，在判别器中卷积层的卷积核大小为6×6，通道数为32，步长为2。

初始化是指：对于生成器的优化参数θ_G，参数初始化为[-0.04,0.04]截断正态分布，其均值和标准差均为0.02；对于姿态估计网络分支参数θ_pose和判别图片真伪网络分支参数θ_Dis，参数初始化为[-0.04,0.04]截断正态分布，其均值和标准差均为0.02。

和

L_ST(G_θ)＝ω_contL_cont(G_θ)+ω_styL_style(G_θ)+ω_tvL_tv(G_θ)；

表示判别器中姿态估计分支函数，J⁽ⁱ⁾为其对应的关节坐标信息，G_θ(J⁽ⁱ⁾)表示生成的图像，即X⁽ⁱ⁾，D_θ(x⁽ⁱ⁾)表示真实图像作为判别器的输入，得出判别器的输出，即图片是真还是假，D_θ(G_θ(J⁽ⁱ⁾))表示伪图作为判别器的输入，输出伪图是真还是假，每次输入生成对抗网络的真实图像以及其对应的关节点坐标称之为一个Batch，L_cont(G_θ)是指风格变换的内容损失，L_style(G_θ)是指风格变换的风格损失、L_tv(G_θ)是指像素位置信息变化损失，w_cont、w_sty及w_tv分别表示三个损失值的权重，均大于0，L_ST(G_θ)表示整个风格变换网络产生的总体损失，通过最小化此损失，相当于优化了风格损失，内容损失以及像素损失，确保生成的图像保留有原始的内容特征，像素特征以及迁移的风格特征。

在本发明中经过一系列的实验最终决定将权重分别设置为1，10，100。

所述对应的损失是根据下述公式计算得出：

L_Gen＝L_recons-L_gan，

L_Dis＝L_pose+L_gan；

其中，L_Gen表示生成器损失，L_Dis表示判别器损失。

风格变换网络由VGG-19网络作为其骨架网络，并从网络的中间层抽取图像特征，采用VGG-19网络中的Conv1_1,Conv2_1,Conv3_1,Conv4_1,Conv5_1输出的特征图作为提取的风格特征，Conv4_2输出的特征图作为图像的内容特征。

风格转换网络中将卷积块的索引定义为j，卷积块中的卷积层的索引定义为i，采用x表示原始内容图像，

表示生成图像，x_s表示风格图像；

内容损失L_cont(G_θ)的计算公式如下：

表示卷积块γ_c中卷积层λ_c输出的激活值，Γ_c表示卷积神经网络模型VGG-19，Λ_c表示若干卷积层λ_c的集合，

和

表示由卷积层λ_c输出的特征图的长和宽，F表示F范数；

计算风格损失L_style(G_θ)的计算公式如下：

其中，Γ_s表示卷积神经网络模型VGG-19，Λ_s表示若干卷积层λ_s的集合，

表示卷积块γ_s中卷积层λ_s里第i个卷积特征图在位置k处的激活值，Gram矩阵

定义为卷积块γ_s中的卷积层λ_s输出的第i个和第j个特征图之间的内积，

和

表示由卷积层λ_s输出的特征图的长和宽，F表示F范数；

像素位置信息损失的计算公式如下：

w，h∈W，H，

表示生成图像在(w,h)处的像素信息，W,H分别表示在像素层面上图像的长宽。

参考图4、图5、图6，试验结果表明：

1、在NYU数据集中，分别采用几何空间变换数据增强的方法和本发明中提出的基于生成对抗网络生成人手深度图像的数据增强方法(包含两种，a、未进行风格变换的数据增强，b、进行风格变换的数据增强)，在相同的网络结构下进行三维人手位姿坐标回归，其中在NYU测试集上的基准(Baseline)人手位姿估计的平均误差为13.678mm，运用了空间几何变换(Geometric)数据增强后平均误差为10.357mm，运用了未经风格变换的生成对抗网络(GAN)进行数据增强后平均误差为11.279mm，运用经过风格变换的生成对抗网络(GAN+Style Transfer)进行数据增强后平均误差为9.195mm，相较于基准误差，本发明提出的数据增强方法有明显的损失降低，但是较于几何空间变换的数据增强方法，本发明的为经过风格变换的生成对抗网络数据增强方法相对较为逊色，但是经过风格变换后则优于空间变换的方法。

2、当阈值(预测的人手位姿和真实标准GT的人手位置的关节点最大误差)低于10mm时采用经过风格变换后的生成对抗网络进行数据增强训练得到的网络预测人手关节坐标有满足阈值条件的帧数，当阈值低于50mm时，采用经过风格变换后的生成对抗网络进行数据增强和采用未经风格变换的生成对抗网络进行数据增强训练的出的网络模型满足条件的帧数均高于基准方法。

3、本发明提出的经过风格变换的生成对抗网络数据增强方法训练的出的网络模型在X轴，Y轴，Z轴上与真实三维人手位姿坐标的误差分别为8.493mm，8.573mm，10.520mm相较于基准方法的14.514mm，11.355mm，15.165mm，明显要低一些

4、本发明提出的经过风格变换的生成对抗网络数据增强方法训练得出的网络模型精度相较于其他方法要高。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种经过风格变换的基于生成对抗网络的人手深度图像数据增强的方法，其特征在于，包含如下步骤：

S1、建立生成对抗网络并进行初始化，生成对抗网络包括顺次连接生成器、风格变化网络和判别器，风格变化网络用于将生成器生成的伪图作为风格变换网络的输入，结合风格图片，最终生成一个经过风格变换的生成图像然后给到判别器；进行初始化的参数包含生成器的优化参数θ_G以及判别器的优化参数θ_D，这些优化参数作为对应的卷积核的权值，其中判别器优化参数θ_D分为姿态估计网络分支参数θ_pose和判别图片真伪网络分支参数θ_Dis；

和

分别表示判别器和生成器的梯度，L_pose、L_gan、L_resons分别表示判别器预测的三维位姿坐标与真实位姿坐标之间的均方误差、判别器中判别图片真伪网络分支进行二值交叉熵损失、合成图像和真实图像之间的限幅均方误差，且：

L_ST(G_θ)＝ω_contL_cont(G_θ)+ω_styL_style(G_θ)+ω_tvL_tv(G_θ)；

表示判别器中姿态估计分支函数，J⁽ⁱ⁾为其对应的关节坐标信息，G_θ(J⁽ⁱ⁾)表示生成的图像，即X⁽ⁱ⁾，D_θ(x⁽ⁱ⁾)表示真实图像作为判别器的输入，得出判别器的输出，即图片是真还是假，D_θ(G_θ(J⁽ⁱ⁾))表示伪图作为判别器的输入，输出伪图是真还是假，每次输入生成对抗网络的真实图像以及其对应的关节点坐标称之为一个Batch，L_cont(G_θ)是指风格变换的内容损失，L_style(G_θ)是指风格变换的风格损失、L_tv(G_θ)是指像素位置信息变化损失，ω_cont、ω_sty及ω_tv分别表示三个损失值的权重，且均大于0；L_ST(G_θ)表示整个风格变换网络产生的总体损失；

所述对应的损失是根据下述公式计算得出：

L_Gen＝L_recons-L_gan，

L_Dis＝L_pose+L_gan；

其中，L_Gen表示生成器损失，L_Dis表示判别器损失。

2.根据权利要求1所述的经过风格变换的基于生成对抗网络的人手深度图像数据增强的方法，其特征在于，步骤S1中，

3.根据权利要求1所述的经过风格变换的基于生成对抗网络的人手深度图像数据增强的方法，其特征在于，步骤S1中，所述初始化是指：

对于生成器的优化参数θ_G，参数初始化为[-0.04，0.04]截断正态分布，其均值和标准差均为0.02；对于姿态估计网络分支参数q_pose和判别图片真伪网络分支参数q_Dis，参数初始化为[-0.04，0.04]截断正态分布，其均值和标准差均为0.02。

4.根据权利要求1所述的经过风格变换的基于生成对抗网络的人手深度图像数据增强的方法，其特征在于，每个Batch中包含64个样本数据，并且生成器采用Adam梯度下降优化算法来更新生成器优化参数，学习率设置为0.002，判别器采用SGD优化算法来更新判别器优化参数，学习率设置为0.001。

5.根据权利要求1所述的经过风格变换的基于生成对抗网络的人手深度图像数据增强的方法，其特征在于，风格变换网络由VGG-19网络作为其骨架网络，并从网络的中间层抽取图像特征，采用VGG-19网络中的Conv1_1，Conv2_1，Conv3_1，Conv4_1，Conv5_1输出的特征图作为提取的风格特征，Conv4_2输出的特征图作为图像的内容特征。

6.根据权利要求1所述的经过风格变换的基于生成对抗网络的人手深度图像数据增强的方法，其特征在于，风格转换网络中将卷积块的索引定义为j，卷积块中的卷积层的索引定义为i，采用x表示原始内容图像，