CN110427799B - 基于生成对抗网络的人手深度图像数据增强方法 - Google Patents

基于生成对抗网络的人手深度图像数据增强方法 Download PDF

Info

Publication number
CN110427799B
CN110427799B CN201910508096.5A CN201910508096A CN110427799B CN 110427799 B CN110427799 B CN 110427799B CN 201910508096 A CN201910508096 A CN 201910508096A CN 110427799 B CN110427799 B CN 110427799B
Authority
CN
China
Prior art keywords
network
image
style
discriminator
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910508096.5A
Other languages
English (en)
Other versions
CN110427799A (zh
Inventor
李勇波
徐迟
蔡文迪
谢中朝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN201910508096.5A priority Critical patent/CN110427799B/zh
Publication of CN110427799A publication Critical patent/CN110427799A/zh
Application granted granted Critical
Publication of CN110427799B publication Critical patent/CN110427799B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于生成对抗网络的人手深度图像数据增强方法,本发明主要通过生成对抗网络生成新的图像样本,生成对抗网络需要交替训练两个网络:生成网络、判别网络。首先,生成网络输入一个随机噪声,生成一张伪图,尽可能去欺骗判别网络;然后,判别网络判别输入的图像的真伪,尽可能的把生成图片与真实图片区分开;最后,生成网络和判别网络两个部分构成一个动态的“博弈”过程,直到判别网络难以判定生成网络生成的图片是否是真实的,这样可以得到一个模型G生成人手深度图像,以达到数据增强的目标,同时为了使生成的图像与真实图像差异性最小化,本发明引入了一种风格转换的方法,在生成图像上进行风格转换。

Description

基于生成对抗网络的人手深度图像数据增强方法
技术领域
本发明涉及深度学习计算机视觉领域,更具体地说,涉及人手三维位姿估计模型训练中的基于生成对抗网络的人手深度图像数据增强的方法。
背景技术
手势是人与人之间交流的重要方式,也是人与机器人交互的重要方式之一。手势识别是机器人手势交互的重要组成部分,手势识别的准确性和快速性直接影响人与机器人交互的准确性、流畅性和自然性。根据手势识别使用的设备是否与身体接触,手势识别技术可以分成两类:接触式手势识别和基于视觉的手势识别。接触式手势识别具有识别准确、精度高和稳定性好的优点,但使用的设备复杂,价格高,且用户需要熟练使用特定穿戴设备后,才能进行手势识别,不利于自然交互;随着近几年深度学习、人工智能等领域的飞速发展,基于视觉的手势识别开始展现出其独特的优势,相较于接触式手势识别,其无需用户穿戴设备,具有交互方便,自然和表达丰富的优点,符合人机自然交互的大趋势,适用范围广。
当前基于视觉的人手位姿估计的方法主要可分为三类:模型驱动方法、数据驱动方法以及混合方法。其中数据驱动方法主要通过大量带有人手三维位置坐标的深度图像训练深度卷积神经网络,达到模型的近似拟合。因此需要大量的有标注数据对模型进行迭代训练,但其对数据标注要求极高,不仅需要海量的深度图像数据,同时这些深度图像还需提供人手三维位姿坐标信息。
为了解决在训练模型过程中需要大量有标注的图像数据,数据增强的概念应运而生。数据增强在一方面能够加快模型的收敛速度,另一方面能提高网络模型的泛化能力防止模型过拟合。现阶段常用的数据增强的方法以下两种:对数据进行几何空间变换,如旋转、缩放、裁剪、镜像、平移等;对数据进行特征空间变换,通过现有数据重新生成新样本,相较于几何空间边防速度较慢,但是精度相对较高。
因此本发明提出的一种基于生成对抗网络的人手深度图像数据增强的方法具有一定的实际应用价值。
发明内容
本发明要解决的技术问题在于,针对现有深度学习网络模型训练中需要大量的有标注人手深度图像,提高模型的收敛速度、泛化能力防止模型过拟合,但是训练样本过少的问题,本发明提供一种基于生成对抗网络的人手深度图像数据增强的方法。
在深层卷积网络训练中,数据增强是一种常见的技术手段,其能加速模型的收敛速度,避免出现过度拟合并能增强模型的泛化能力,本发明主要通过生成对抗网络生成新的图像样本,生成对抗网络需要交替训练两个网络:生成网络、判别网络。首先,生成网络输入一个随机噪声,生成一张伪图,尽可能去欺骗判别网络;然后,判别网络判别输入的图x的真伪,尽可能的把生成图片与真实图片区分开;最后,生成网络和判别网络两个部分构成一个动态的“博弈”过程,直到判别网络难以判定生成网络生成的图片是否是真实的,这样可以得到一个模型G生成人手深度图像,以达到数据增强的目标。由于普通生成对抗网络生成的伪图相较于真实的图像更为平滑,为了使生成图像更贴近真实图像,本发明在上述的方法的基础上增加了风格变换网络模型,构件了一个结合风格变换网络的生成对抗网络。将生成器生成的伪图作为风格变换网络的输入,结合风格图片,最终生成一个经过风格变换的生成图像,作为判别器的输入。
实施本发明提出的一种基于生成对抗网络的人手深度图像数据增强的方法,经过试验测试表明具有以下有益效果:相较于基准误差,本发明提出的数据增强方法有明显的损失降低,但是较于几何空间变换的数据增强方法,本发明的为经过风格变换的生成对抗网络数据增强方法相对较为逊色,但是经过风格变换后则优于空间变换的方法。当阈值(预测的人手位姿和真实标准GT的人手位置的关节点最大误差)低于10mm时采用经过风格变换后的生成对抗网络进行数据增强训练得到的网络预测人手关节坐标有满足阈值条件的帧数,当阈值低于50mm时,采用经过风格变换后的生成对抗网络进行数据增强和采用未经风格变换的生成对抗网络进行数据增强训练的出的网络模型满足条件的帧数均高于基准方法。本发明提出的经过风格变换的生成对抗网络数据增强方法训练的出的网络模型在X轴,Y轴,Z轴上与真实三维人手位姿坐标的误差相较于基准方法明显要低一些。本发明提出的经过风格变换的生成对抗网络数据增强方法训练得出的网络模型精度相较于其他方法要高。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是基于生成对抗网络生成人手深度图像模型图;
图2是风格转换网络模型图;
图3是结合风格转换网络的基于生成对抗网络生成人手深度图像模型图;
图4是各个关节点的平均误差图;
图5是不同方法在不同阈值下的帧数百分比图;
图6是原始图像与经过风格变换的生成对抗网络生成的图像对比图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
请参照图1,本发明基于生成对抗网络的人手深度图像数据增强的方法包含如下步骤:
S1、建立生成对抗网络并进行初始化,生成对抗网络包括顺次连接生成器和判别器;进行初始化的参数包含生成器的优化参数θG以及判别器的优化参数θD,这些优化参数作为对应的卷积核的权值,其中判别器优化参数θD分为姿态估计网络分支参数θpose和判别图片真伪网络分支参数θDis
生成器由五层反卷积层组成,反卷积核大小为6×6,反卷积通道数为32,放大因子为2,其输入为随机噪声以及关节点的位置信息,通过五层反卷积层生成一张伪图作为生成图像;
判别器首先通过两层卷积层对图像进行特征提取,提取的特征图分别输入两个分支网络中,其中一个分支用于预测图片中人手的关节点位姿,包括依次设置的三个卷积层以及两个全连接层,另外一个分支用于判断图片的真伪,包括依次设置的三个卷积层以及一个全连接层,在判别器中卷积层的卷积核大小为6×6,通道数为32,步长为2。
所述初始化是指:对于生成器的优化参数θG,参数初始化为[-0.04,0.04]截断正态分布,其均值和标准差均为0.02;对于姿态估计网络分支参数θpose和判别图片真伪网络分支参数θDis,参数初始化为[-0.04,0.04]截断正态分布,其均值和标准差均为0.02。
S2、训练生成对抗网络,训练时根据下述公式采用梯度下降的方法更新判别器和生成器的优化参数,直至对应的损失收敛:
Figure GDA0003521120440000051
Figure GDA0003521120440000052
式中,箭头的左边表示被更新的参数,右边表示更新后的参数,
Figure GDA0003521120440000053
Figure GDA0003521120440000054
分别表示判别器和生成器的梯度,Lpose、Lgan、Lrecons分别表示判别器预测的三维位姿坐标与真实位姿坐标之间的均方误差、判别器中判别图片真伪网络分支进行二值交叉熵损失、合成图像和真实图像之间的限幅均方误差,且:
Figure GDA0003521120440000055
Figure GDA0003521120440000056
Figure GDA0003521120440000057
LST(Gθ)=ωcontLcont(Gθ)+ωstyLstyle(Gθ)+ωtvLtv(Gθ);
式中,N表示每一个Batch中图像的总数,x(i)表示每个Batch中的第i张真实图像,τ为限幅,X(i)表示判别器每个Batch输入的第i张生成的图像,
Figure GDA0003521120440000058
表示判别器中姿态估计分支函数,J(i)为其对应的关节坐标信息,Gθ(J(i))表示生成的图像,即X(i),Dθ(x(i))表示真实图像作为判别器的输入,得出判别器的输出,即图片是真还是假,Dθ(Gθ(J(i)))表示伪图作为判别器的输入,输出伪图是真还是假,每次输入生成对抗网络的真实图像以及其对应的关节点坐标称之为一个Batch;Lcont(Gθ)是指风格变换的内容损失,Lstyle(Gθ)是指风格变换的风格损失、Ltv(Gθ)是指像素位置信息变化损失,ωcont、ωsty及ωtv分别表示三个损失值的权重,且均大于0;
所述对应的损失是根据下述公式计算得出:
LGen=Lrecons-Lgan
LDis=Lpose+Lgan
其中,LGen表示生成器损失,LDis表示判别器损失。
其中,每个Batch中包含64个样本数据,并且生成器采用Adam梯度下降优化算法来更新生成器优化参数,学习率设置为0.002,判别器采用SGD优化算法来更新判别器优化参数,学习率设置为0.001。
为了缩短训练时间,并获取更为逼真的合成图像,本发明采用了限幅均方误差Lrecons表示合成图像和真实图像之间的误差,限幅表示为t,该误差能够引导模型达到更小的局部最小值并加快模型的收敛速度。为了提高判别器对合成图像的辨别能力,本发明在判别器输出判别图像的真伪的基础上额外增加了对三维人手位姿估计分支,采用均方误差LJ表示判别器预测的三维位姿坐标与真实位姿坐标之间的误差。
由于普通生成对抗网络生成的伪图相较于真实的图像更为平滑,为了使生成图像更贴近真实图像,本发明在上述的网络模型的基础上增加了风格变换网络模型,构件了一个结合风格变换网络的生成对抗网络。结构参照图2,具体设计思路如下:选取一张真实的人手图像作为风格图像,输入预训练的卷积神经网络模型VGG-19,提取内容特征和风格特征,通过目标函数计算生成带有噪声的人手图像。于是本发明在图1所示的生成对抗网络模型的基础上增加了风格变换网络,具结构参照图3,为了训练该网络,本发明将生成器生成的伪图作为风格变换网络的输入,结合风格图片,最终生成一个经过风格变换的生成图像。本发明提出如下的训练步骤:
S1、建立生成对抗网络并进行初始化,生成对抗网络包括顺次连接生成器、风格变化网络和判别器,风格变化网络用于将生成器生成的伪图作为风格变换网络的输入,结合风格图片,最终生成一个经过风格变换的生成图像然后给到判别器;进行初始化的参数包含生成器的优化参数θG以及判别器的优化参数θD,这些优化参数作为对应的卷积核的权值,其中判别器优化参数qD分为姿态估计网络分支参数θpose和判别图片真伪网络分支参数θDis
生成器由五层反卷积层组成,反卷积核大小为6×6,反卷积通道数为32,放大因子为2,其输入为随机噪声以及关节点的位置信息,通过五层反卷积层生成一张伪图作为生成图像;判别器首先通过两层卷积层对图像进行特征提取,提取的特征图分别输入两个分支网络中,其中一个分支用于预测图片中人手的关节点位姿,包括依次设置的三个卷积层以及两个全连接层,另外一个分支用于判断图片的真伪,包括依次设置的三个卷积层以及一个全连接层,在判别器中卷积层的卷积核大小为6×6,通道数为32,步长为2。
初始化是指:对于生成器的优化参数θG,参数初始化为[-0.04,0.04]截断正态分布,其均值和标准差均为0.02;对于姿态估计网络分支参数θpose和判别图片真伪网络分支参数θDis,参数初始化为[-0.04,0.04]截断正态分布,其均值和标准差均为0.02。
S2、训练生成对抗网络,训练时根据下述公式采用梯度下降的方法更新判别器和生成器的优化参数,直至对应的损失收敛:
Figure GDA0003521120440000071
Figure GDA0003521120440000072
式中,箭头的左边表示被更新的参数,右边表示更新后的参数,
Figure GDA0003521120440000073
Figure GDA0003521120440000074
分别表示判别器和生成器的梯度,Lpose、Lgan、Lrecons分别表示判别器预测的三维位姿坐标与真实位姿坐标之间的均方误差、判别器中判别图片真伪网络分支进行二值交叉熵损失、合成图像和真实图像之间的限幅均方误差,且:
Figure GDA0003521120440000081
Figure GDA0003521120440000082
Figure GDA0003521120440000083
LST(Gθ)=ωcontLcont(Gθ)+ωstyLstyle(Gθ)+ωtvLtv(Gθ);
式中,N表示每一个Batch中图像的总数,x(i)表示每个Batch中的第i张真实图像,τ为限幅,X(i)表示判别器每个Batch输入的第i张生成的图像,
Figure GDA0003521120440000084
表示判别器中姿态估计分支函数,J(i)为其对应的关节坐标信息,Gθ(J(i))表示生成的图像,即X(i),Dθ(x(i))表示真实图像作为判别器的输入,得出判别器的输出,即图片是真还是假,Dθ(Gθ(J(i)))表示伪图作为判别器的输入,输出伪图是真还是假,每次输入生成对抗网络的真实图像以及其对应的关节点坐标称之为一个Batch,Lcont(Gθ)是指风格变换的内容损失,Lstyle(Gθ)是指风格变换的风格损失、Ltv(Gθ)是指像素位置信息变化损失,wcont、wsty及wtv分别表示三个损失值的权重,均大于0,LST(Gθ)表示整个风格变换网络产生的总体损失,通过最小化此损失,相当于优化了风格损失,内容损失以及像素损失,确保生成的图像保留有原始的内容特征,像素特征以及迁移的风格特征。
在本发明中经过一系列的实验最终决定将权重分别设置为1,10,100。
所述对应的损失是根据下述公式计算得出:
LGen=Lrecons-Lgan
LDis=Lpose+Lgan
其中,LGen表示生成器损失,LDis表示判别器损失。
其中,每个Batch中包含64个样本数据,并且生成器采用Adam梯度下降优化算法来更新生成器优化参数,学习率设置为0.002,判别器采用SGD优化算法来更新判别器优化参数,学习率设置为0.001。
风格变换网络由VGG-19网络作为其骨架网络,并从网络的中间层抽取图像特征,采用VGG-19网络中的Conv1_1,Conv2_1,Conv3_1,Conv4_1,Conv5_1输出的特征图作为提取的风格特征,Conv4_2输出的特征图作为图像的内容特征。
风格转换网络中将卷积块的索引定义为j,卷积块中的卷积层的索引定义为i,采用x表示原始内容图像,
Figure GDA0003521120440000091
表示生成图像,xs表示风格图像;
内容损失Lcont(Gθ)的计算公式如下:
Figure GDA0003521120440000092
Figure GDA0003521120440000093
表示卷积块γc中卷积层λc输出的激活值,Γc表示卷积神经网络模型VGG-19,Λc表示若干卷积层λc的集合,
Figure GDA0003521120440000094
Figure GDA0003521120440000095
表示由卷积层λc输出的特征图的长和宽,F表示F范数;
计算风格损失Lstyle(Gθ)的计算公式如下:
Figure GDA0003521120440000096
Figure GDA0003521120440000097
其中,Γs表示卷积神经网络模型VGG-19,Λs表示若干卷积层λs的集合,
Figure GDA0003521120440000098
表示卷积块γs中卷积层λs里第i个卷积特征图在位置k处的激活值,Gram矩阵
Figure GDA0003521120440000099
定义为卷积块γs中的卷积层λs输出的第i个和第j个特征图之间的内积,
Figure GDA0003521120440000101
Figure GDA0003521120440000102
表示由卷积层λs输出的特征图的长和宽,F表示F范数;
像素位置信息损失的计算公式如下:
Figure GDA0003521120440000103
w,h∈W,H,
Figure GDA0003521120440000104
表示生成图像在(w,h)处的像素信息,W,H分别表示在像素层面上图像的长宽。
参考图4、图5、图6,试验结果表明:
1、在NYU数据集中,分别采用几何空间变换数据增强的方法和本发明中提出的基于生成对抗网络生成人手深度图像的数据增强方法(包含两种,a、未进行风格变换的数据增强,b、进行风格变换的数据增强),在相同的网络结构下进行三维人手位姿坐标回归,其中在NYU测试集上的基准(Baseline)人手位姿估计的平均误差为13.678mm,运用了空间几何变换(Geometric)数据增强后平均误差为10.357mm,运用了未经风格变换的生成对抗网络(GAN)进行数据增强后平均误差为11.279mm,运用经过风格变换的生成对抗网络(GAN+Style Transfer)进行数据增强后平均误差为9.195mm,相较于基准误差,本发明提出的数据增强方法有明显的损失降低,但是较于几何空间变换的数据增强方法,本发明的为经过风格变换的生成对抗网络数据增强方法相对较为逊色,但是经过风格变换后则优于空间变换的方法。
2、当阈值(预测的人手位姿和真实标准GT的人手位置的关节点最大误差)低于10mm时采用经过风格变换后的生成对抗网络进行数据增强训练得到的网络预测人手关节坐标有满足阈值条件的帧数,当阈值低于50mm时,采用经过风格变换后的生成对抗网络进行数据增强和采用未经风格变换的生成对抗网络进行数据增强训练的出的网络模型满足条件的帧数均高于基准方法。
3、本发明提出的经过风格变换的生成对抗网络数据增强方法训练的出的网络模型在X轴,Y轴,Z轴上与真实三维人手位姿坐标的误差分别为8.493mm,8.573mm,10.520mm相较于基准方法的14.514mm,11.355mm,15.165mm,明显要低一些
4、本发明提出的经过风格变换的生成对抗网络数据增强方法训练得出的网络模型精度相较于其他方法要高。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (6)

1.一种经过风格变换的基于生成对抗网络的人手深度图像数据增强的方法,其特征在于,包含如下步骤:
S1、建立生成对抗网络并进行初始化,生成对抗网络包括顺次连接生成器、风格变化网络和判别器,风格变化网络用于将生成器生成的伪图作为风格变换网络的输入,结合风格图片,最终生成一个经过风格变换的生成图像然后给到判别器;进行初始化的参数包含生成器的优化参数θG以及判别器的优化参数θD,这些优化参数作为对应的卷积核的权值,其中判别器优化参数θD分为姿态估计网络分支参数θpose和判别图片真伪网络分支参数θDis
S2、训练生成对抗网络,训练时根据下述公式采用梯度下降的方法更新判别器和生成器的优化参数,直至对应的损失收敛:
Figure FDA0003521120430000011
Figure FDA0003521120430000012
式中,箭头的左边表示被更新的参数,右边表示更新后的参数,
Figure FDA0003521120430000013
Figure FDA0003521120430000014
分别表示判别器和生成器的梯度,Lpose、Lgan、Lresons分别表示判别器预测的三维位姿坐标与真实位姿坐标之间的均方误差、判别器中判别图片真伪网络分支进行二值交叉熵损失、合成图像和真实图像之间的限幅均方误差,且:
Figure FDA0003521120430000015
Figure FDA0003521120430000016
Figure FDA0003521120430000017
LST(Gθ)=ωcontLcont(Gθ)+ωstyLstyle(Gθ)+ωtvLtv(Gθ);
式中,N表示每一个Batch中图像的总数,x(i)表示每个Batch中的第i张真实图像,τ为限幅,X(i)表示判别器每个Batch输入的第i张生成的图像,
Figure FDA0003521120430000021
表示判别器中姿态估计分支函数,J(i)为其对应的关节坐标信息,Gθ(J(i))表示生成的图像,即X(i),Dθ(x(i))表示真实图像作为判别器的输入,得出判别器的输出,即图片是真还是假,Dθ(Gθ(J(i)))表示伪图作为判别器的输入,输出伪图是真还是假,每次输入生成对抗网络的真实图像以及其对应的关节点坐标称之为一个Batch,Lcont(Gθ)是指风格变换的内容损失,Lstyle(Gθ)是指风格变换的风格损失、Ltv(Gθ)是指像素位置信息变化损失,ωcont、ωsty及ωtv分别表示三个损失值的权重,且均大于0;LST(Gθ)表示整个风格变换网络产生的总体损失;
所述对应的损失是根据下述公式计算得出:
LGen=Lrecons-Lgan
LDis=Lpose+Lgan
其中,LGen表示生成器损失,LDis表示判别器损失。
2.根据权利要求1所述的经过风格变换的基于生成对抗网络的人手深度图像数据增强的方法,其特征在于,步骤S1中,
生成器由五层反卷积层组成,反卷积核大小为6×6,反卷积通道数为32,放大因子为2,其输入为随机噪声以及关节点的位置信息,通过五层反卷积层生成一张伪图作为生成图像;
判别器首先通过两层卷积层对图像进行特征提取,提取的特征图分别输入两个分支网络中,其中一个分支用于预测图片中人手的关节点位姿,包括依次设置的三个卷积层以及两个全连接层,另外一个分支用于判断图片的真伪,包括依次设置的三个卷积层以及一个全连接层,在判别器中卷积层的卷积核大小为6×6,通道数为32,步长为2。
3.根据权利要求1所述的经过风格变换的基于生成对抗网络的人手深度图像数据增强的方法,其特征在于,步骤S1中,所述初始化是指:
对于生成器的优化参数θG,参数初始化为[-0.04,0.04]截断正态分布,其均值和标准差均为0.02;对于姿态估计网络分支参数qpose和判别图片真伪网络分支参数qDis,参数初始化为[-0.04,0.04]截断正态分布,其均值和标准差均为0.02。
4.根据权利要求1所述的经过风格变换的基于生成对抗网络的人手深度图像数据增强的方法,其特征在于,每个Batch中包含64个样本数据,并且生成器采用Adam梯度下降优化算法来更新生成器优化参数,学习率设置为0.002,判别器采用SGD优化算法来更新判别器优化参数,学习率设置为0.001。
5.根据权利要求1所述的经过风格变换的基于生成对抗网络的人手深度图像数据增强的方法,其特征在于,风格变换网络由VGG-19网络作为其骨架网络,并从网络的中间层抽取图像特征,采用VGG-19网络中的Conv1_1,Conv2_1,Conv3_1,Conv4_1,Conv5_1输出的特征图作为提取的风格特征,Conv4_2输出的特征图作为图像的内容特征。
6.根据权利要求1所述的经过风格变换的基于生成对抗网络的人手深度图像数据增强的方法,其特征在于,风格转换网络中将卷积块的索引定义为j,卷积块中的卷积层的索引定义为i,采用x表示原始内容图像,
Figure FDA0003521120430000031
表示生成图像,xs表示风格图像;
内容损失Lcont(Gθ)的计算公式如下:
Figure FDA0003521120430000041
Figure FDA0003521120430000042
表示卷积块γc中卷积层λc输出的激活值,Γc表示卷积神经网络模型VGG-19,Λc表示若干卷积层λc的集合,
Figure FDA0003521120430000043
Figure FDA0003521120430000044
表示由卷积层λc输出的特征图的长和宽,F表示F范数;
计算风格损失Lstyle(Gθ)的计算公式如下:
Figure FDA0003521120430000045
Figure FDA0003521120430000046
其中,Γs表示卷积神经网络模型VGG-19,Λs表示若干卷积层λs的集合,
Figure FDA0003521120430000047
表示卷积块γs中卷积层λs里第i个卷积特征图在位置k处的激活值,Gram矩阵
Figure FDA0003521120430000048
定义为卷积块γs中的卷积层λs输出的第i个和第j个特征图之间的内积;
Figure FDA0003521120430000049
Figure FDA00035211204300000410
表示由卷积层λs输出的特征图的长和宽,F表示F范数;
像素位置信息损失的计算公式如下:
Figure FDA00035211204300000411
w,h∈W,H,
Figure FDA00035211204300000412
表示生成图像在(w,h)处的像素信息,W,H分别表示在像素层面上图像的长宽。
CN201910508096.5A 2019-06-12 2019-06-12 基于生成对抗网络的人手深度图像数据增强方法 Active CN110427799B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910508096.5A CN110427799B (zh) 2019-06-12 2019-06-12 基于生成对抗网络的人手深度图像数据增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910508096.5A CN110427799B (zh) 2019-06-12 2019-06-12 基于生成对抗网络的人手深度图像数据增强方法

Publications (2)

Publication Number Publication Date
CN110427799A CN110427799A (zh) 2019-11-08
CN110427799B true CN110427799B (zh) 2022-05-06

Family

ID=68407602

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910508096.5A Active CN110427799B (zh) 2019-06-12 2019-06-12 基于生成对抗网络的人手深度图像数据增强方法

Country Status (1)

Country Link
CN (1) CN110427799B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144284B (zh) * 2019-12-25 2021-03-30 支付宝(杭州)信息技术有限公司 深度人脸图像的生成方法、装置、电子设备及介质
CN111311729B (zh) * 2020-01-18 2022-03-11 西安电子科技大学 一种基于双向投影网络的自然场景三维人体姿态重建方法
CN111242844B (zh) * 2020-01-19 2023-09-22 腾讯科技(深圳)有限公司 图像处理方法、装置、服务器和存储介质
CN111539184A (zh) * 2020-04-29 2020-08-14 上海眼控科技股份有限公司 基于深度学习的文本数据制造方法、装置、终端及存储介质
CN112102294B (zh) * 2020-09-16 2024-03-01 推想医疗科技股份有限公司 生成对抗网络的训练方法及装置、图像配准方法及装置
CN112545532B (zh) * 2020-11-26 2023-05-16 中国人民解放军战略支援部队信息工程大学 用于脑电信号分类识别的数据增强方法及系统
CN113065635A (zh) * 2021-02-27 2021-07-02 华为技术有限公司 一种模型的训练方法、图像增强方法及设备
CN114549283A (zh) * 2022-01-14 2022-05-27 同济大学 图像生成模型的训练方法及图像生成方法
CN114663275B (zh) * 2022-04-01 2024-03-15 西北大学 一种基于风格对抗生成网络stylegan2的脸谱图像生成方法
CN116310659B (zh) * 2023-05-17 2023-08-08 中数元宇数字科技(上海)有限公司 训练数据集的生成方法及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108564611A (zh) * 2018-03-09 2018-09-21 天津大学 一种基于条件生成对抗网络的单目图像深度估计方法
CN109658347A (zh) * 2018-11-14 2019-04-19 天津大学 一种同时生成多种图片风格的数据增强方法
CN109670411A (zh) * 2018-11-30 2019-04-23 武汉理工大学 基于生成对抗网络的内河船舶点云数据深度图像处理方法和系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10726304B2 (en) * 2017-09-08 2020-07-28 Ford Global Technologies, Llc Refining synthetic data with a generative adversarial network using auxiliary inputs
US20190147296A1 (en) * 2017-11-15 2019-05-16 Nvidia Corporation Creating an image utilizing a map representing different classes of pixels

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108564611A (zh) * 2018-03-09 2018-09-21 天津大学 一种基于条件生成对抗网络的单目图像深度估计方法
CN109658347A (zh) * 2018-11-14 2019-04-19 天津大学 一种同时生成多种图片风格的数据增强方法
CN109670411A (zh) * 2018-11-30 2019-04-23 武汉理工大学 基于生成对抗网络的内河船舶点云数据深度图像处理方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Crossing Nets: Dual Generative Models with a Shared Latent Space for Hand Pose Estimation;Chengde Wan et al.;《arXiv》;20170211;第1-10页 *
Hand joints-based gesture recognition for noisy dataset using nested interval unscented Kalman filter with LSTM network;Chunyong Ma et al.;《The Visual Computer》;20180511;第1053-1063页 *
生成对抗网络理论框架、衍生模型与应用最新进展;赵增顺 等;《小型微型计算机系统》;20181231;第12卷(第12期);第2602-2606页 *

Also Published As

Publication number Publication date
CN110427799A (zh) 2019-11-08

Similar Documents

Publication Publication Date Title
CN110427799B (zh) 基于生成对抗网络的人手深度图像数据增强方法
CN111652124A (zh) 一种基于图卷积网络的人体行为识别模型的构建方法
CN108648197B (zh) 一种基于图像背景掩膜的目标候选区域提取方法
Wu et al. Dynamic filtering with large sampling field for convnets
CN111507993A (zh) 一种基于生成对抗网络的图像分割方法、装置及存储介质
CN108932536A (zh) 基于深度神经网络的人脸姿态重建方法
CN106886986B (zh) 基于自适应组结构稀疏字典学习的图像融合方法
CN111681178B (zh) 一种基于知识蒸馏的图像去雾方法
CN111476771B (zh) 一种基于距离对抗生成网络的领域自适应方法及系统
CN115147891A (zh) 用于生成合成深度数据的系统、方法和存储介质
CN113807265B (zh) 一种多样化的人脸图像合成方法及系统
CN109508686B (zh) 一种基于层次化特征子空间学习的人体行为识别方法
CN110070595A (zh) 一种基于深度学习的单张图像3d对象重建方法
CN111125403B (zh) 一种基于人工智能的辅助设计绘图方法及系统
JP2023545189A (ja) 画像処理方法、装置、及び電子機器
Guo et al. A deep reinforcement learning method for multimodal data fusion in action recognition
CN111882516B (zh) 一种基于视觉显著性和深度神经网络的图像质量评价方法
KR20180086548A (ko) 사용자 인터랙션을 위한 제스처 인식 방법 및 시스템
CN115860113B (zh) 一种自对抗神经网络模型的训练方法及相关装置
CN111428555A (zh) 一种分关节的手部姿态估计方法
CN116758212A (zh) 基于自适应去噪算法的3d重建方法、装置、设备及介质
CN113822790B (zh) 一种图像处理方法、装置、设备及计算机可读存储介质
Tang et al. A deep map transfer learning method for face recognition in an unrestricted smart city environment
Alonso-Weber et al. Handwritten digit recognition with pattern transformations and neural network averaging
CN113128425A (zh) 基于骨架序列的人类动作识别的语义自适应图网络方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant