CN113313133A - 一种生成对抗网络的训练方法、动画图像生成方法 - Google Patents

一种生成对抗网络的训练方法、动画图像生成方法 Download PDF

Info

Publication number
CN113313133A
CN113313133A CN202010115227.6A CN202010115227A CN113313133A CN 113313133 A CN113313133 A CN 113313133A CN 202010115227 A CN202010115227 A CN 202010115227A CN 113313133 A CN113313133 A CN 113313133A
Authority
CN
China
Prior art keywords
image
network
training
generating
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010115227.6A
Other languages
English (en)
Inventor
李秀阳
汪浩
王树朋
邹梦超
刘阳兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan TCL Group Industrial Research Institute Co Ltd
Original Assignee
Wuhan TCL Group Industrial Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan TCL Group Industrial Research Institute Co Ltd filed Critical Wuhan TCL Group Industrial Research Institute Co Ltd
Priority to CN202010115227.6A priority Critical patent/CN113313133A/zh
Publication of CN113313133A publication Critical patent/CN113313133A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation

Abstract

本申请涉及一种生成对抗网络的训练方法、动画图像生成方法,所述生成对抗网络的训练方法包括:获取生成对抗网络和训练数据集;其中,所述训练数据集包括第一图像、第二图像、第一关键点;以所述第一图像作为所述生成对抗网络的输入,并以所述第一关键点作为所述生成对抗网络的条件输入;基于所述第一图像、所述第一关键点和所述第二图像,对所述生成对抗网络进行训练,得到训练好的生成对抗网络。由于采用所述第一图像作为所述生成对抗网络的输入,这样一来就使生成的图像可控;其次,在训练过程中,采用所述第二图像中待测对象的关键点作为所述生成对抗网络的条件输入,不仅仅加快了网络的学习速度,网络的生成效果保留了更多的细节也更加的逼真。

Description

一种生成对抗网络的训练方法、动画图像生成方法
技术领域
本申请涉及图像处理技术领域,特别是涉及一种生成对抗网络的训练方法、 动画图像生成方法。
背景技术
经过近几年深度学习尤其是计算机视觉技术的飞速发展,计算机视觉技术已 经广泛应用于安防监控,医疗健康等众多领域。虚拟现实技术作为更高级别的计 算机视觉技术已成为目前的研究热点。
有很多网络或者很多算法来进行生成人脸动画的研究,传统的生成式网络是 通过生成随机噪声,并经过生成对抗网络的处理,生成人脸,但这种方法生成的 人脸(男,女,老,少)是随机而不可控的,且生成的人脸的效果较差。
因此,现有技术有待改进。
发明内容
本发明所要解决的技术问题是,提供生成对抗网络的训练方法、动画图像生 成方法,以实现图像生成时可控且效果较好。
第一方面,本发明实施例提供了一种生成对抗网络的训练方法,包括:
获取生成对抗网络和训练数据集;其中,所述训练数据集包括第一图像、第 二图像、第一关键点;其中,所述第一关键点为所述第二图像中待测对象的关键 点,以所述第一图像作为所述生成对抗网络的输入,并以所述第一关键点作为所 述生成对抗网络的条件输入;
基于所述第一图像、所述第一关键点和所述第二图像,对所述生成对抗网络 进行训练,得到训练好的生成对抗网络。
作为进一步的改进技术方案,所述生成对抗网络包括:生成器网络和判别器 网络,所述生成器网络嵌设有第一自注意力模块,所述判别器网络嵌设有第二自 注意力模块,所述第一自注意力模块的条件输入和所述第二自注意力模块的条件 输入均为所述第一关键点。
作为进一步的改进技术方案,所述第一自注意力模块包括:第一自注意力单 元和/或第二自注意力单元;所述生成器网络包括:依次堆叠的编码器、解码器, 所述第一自注意力单元位于所述编码器和所述解码器之间,所述第二自注意力单 元位于所述解码器之后;所述判别器网络包括:依次堆叠的卷积神经网络、所述 第二自注意力模块。
作为进一步的改进技术方案,所述第一自注意力单元、所述第二自注意力单 元以及所述第二自注意力模块均包括至少一层自注意力层,所述自注意力层用于 执行如下步骤:
以所述编码器、所述解码器或所述卷积神经网络输出的特征图像作为输入, 所述第一关键点作为条件输入进行自注意力处理得到响应特征图像;
将所述编码器、所述解码器或所述卷积神经网络输出的特征图像和所述响应 特征图像求和后输出。
作为进一步的改进技术方案,所述以所述编码器、所述解码器或卷积神经网 络输出的特征图像作为输入,所述第一关键点作为条件输入进行自注意力处理得 到响应特征图像,包括:
以所述编码器、所述解码器或所述卷积神经网络输出的特征图像作为输入, 所述第一关键点作为条件输入一起输入到所述自注意力层的卷积层,并分别生成 三个卷积特征图像f、g、h;
将g和转置处理的f进行矩阵乘法处理后,采用softmax处理得到注意力特 征图像;
将所述注意力特征图像和h进行矩阵乘法处理后得到响应特征图像。
作为进一步的改进技术方案,所述基于所述第一图像、所述第一关键点和所 述第二图像,对所述生成对抗网络训练得到训练好的生成对抗网络,包括:
基于所述第一图像、所述第一关键点和所述第二图像,对所述生成器网络进 行训练,得到预训练的生成器网络;
基于所述第一图像、所述第一关键点和所述第二图像,对所述预训练的生成 器网络和所述判别器网络进行训练,得到训练好的生成对抗网络。
作为进一步的改进技术方案,所述基于所述第一图像、所述第一关键点和所 述第二图像,对所述生成器网络进行训练,得到预训练的生成器网络,包括:
将所述第一图像、所述第一关键点输入所述生成器网络中进行处理,得到所 述生成器网络的生成图像;
根据所述第二图像和所述生成器网络的生成图像,调整所述生成器网络的参 数,并继续执行将所述第一图像、所述第一关键点输入所述生成器网络中进行处 理,得到所述生成器网络的生成图像的步骤,直至满足第一预设训练条件,得到 预训练的生成器网络。
作为进一步的改进技术方案,所述基于所述第一图像、所述第一关键点和所 述第二图像,对所述预训练的生成器网络和所述判别器网络进行训练,得到训练 好的生成对抗网络,包括:
固定所述判别器网络和所述预训练的生成器网络中的一个网络,基于所述第 一图像、所述第一关键点和所述第二图像,对所述判别器网络和所述预训练的生 成器网络中的另一个网络进行训练,直至满足第二预设训练条件,得到训练好的 生成对抗网络。
作为进一步的改进技术方案,所述第二预设训练条件包括:所述预训练的生 成器网络和所述判别器网络达到稳态的纳什平衡。
作为进一步的改进技术方案,所述第一关键点采用语音驱动得到。
作为进一步的改进技术方案,所述第一图像和所述第二图像均包括:所述待 测对象和背景。
第二方面,本发明实施例提供了一种动画图像生成方法,采用上述所述生成 对抗网络的训练方法得到生成对抗网络,所述动画图像生成方法包括:
获取待处理图像和第二关键点,并将所述待处理图像和所述第二关键点输入 至所述生成对抗网络;
通过所述生成对抗网络对所述待处理图像进行处理得到所述待处理图像对 应的动画图像。
第三方面,本发明实施例提供了一种计算机设备,包括存储器和处理器,所 述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取生成对抗网络和训练数据集;其中,所述训练数据集包括第一图像、第 二图像、第一关键点;其中,所述第一关键点为所述第二图像中待测对象的关键 点,以所述第一图像作为所述生成对抗网络的输入,并以所述第一关键点作为所 述生成对抗网络的条件输入;
基于所述第一图像、所述第一关键点和所述第二图像,对所述生成对抗网络 进行训练,得到训练好的生成对抗网络;或者
获取待处理图像和第二关键点,并将所述待处理图像和所述第二关键点输入 至所述生成对抗网络;
通过所述生成对抗网络对所述待处理图像进行处理得到所述待处理图像对 应的动画图像。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算 机程序,其特征在于,所述计算机程序被处理器执行时实现以下步骤:
获取生成对抗网络和训练数据集;其中,所述训练数据集包括第一图像、第 二图像、第一关键点;其中,所述第一关键点为所述第二图像中待测对象的关键 点,以所述第一图像作为所述生成对抗网络的输入,并以所述第一关键点作为所 述生成对抗网络的条件输入;
基于所述第一图像、所述第一关键点和所述第二图像,对所述生成对抗网络 进行训练,得到训练好的生成对抗网络;或者
获取待处理图像和第二关键点,并将所述待处理图像和所述第二关键点输入 至所述生成对抗网络;
通过所述生成对抗网络对所述待处理图像进行处理得到所述待处理图像对 应的动画图像。
与现有技术相比,本发明实施例具有以下优点:
由于不再是将高斯噪声作为所述生成对抗网络的输入,采用所述第一图像作 为所述生成对抗网络的输入,这样一来就使生成的图像可控;其次,在训练过程 中,采用所述第二图像中待测对象的关键点作为所述生成对抗网络的条件输入, 即作为所述生成对抗网络训练的条件约束,不仅仅加快了网络的学习速度,网络 的生成效果保留了更多的细节也更加的逼真。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例 或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的 附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付 出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中生成对抗网络的训练方法的应用环境图;
图2为本发明实施例中U-net的示意图;
图3为本发明实施例中自注意力层的示意图;
图4为本发明实施例中1000轮训练后输入、输出、真值的对比图;
图5为本发明实施例中7000轮训练后输入、输出、真值的对比图;
图6为现有技术中中输入的示意图;
图7为本发明实施例中输入的示意图;
图8为本发明实施例中生成对抗网络的训练方法的流程示意图;
图9为本发明实施例中计算机设备的内部结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例 中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述 的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施 例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例, 都属于本发明保护的范围。
由于本申请实施例涉及大量神经网络的应用,为了便于理解,下面先对本发 明实施例可能涉及的神经网络的相关术语和概念进行介绍。
(1)神经网络
神经网络可以是由神经单元组成的,神经单元可以是指以xs和截距1为输 入的运算单元,该运算单元的输出可以为:
Figure BDA0002391288720000061
其中,s=1、2、……n,n为大于1的自然数,Ws为xs的权重,b为神经单 元的偏置。f为神经单元的激活函数(activation functions),用于将非线性特性引 入神经网络中,来将神经单元中的输入信号转换为输出信号。该激活函数的输出 信号可以作为下一层卷积层的输入,激活函数可以是sigmoid函数。神经网络是 将多个上述单一的神经单元联结在一起形成的网络,即一个神经单元的输出可以 是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连, 来提取局部接受域的特征,局部接受域可以是由若干个神经单元组成的区域。
(2)深度神经网络
深度神经网络(deep neural network,DNN),也称多层神经网络,可以理解为 具有多层隐含层的神经网络。按照不同层的位置对DNN进行划分,DNN内部的 神经网络可以分为三类:输入层,隐含层,输出层。一般来说第一层是输入层, 最后一层是输出层,中间的层数都是隐含层。层与层之间是全连接的,也就是说, 第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。
虽然DNN看起来很复杂,但是就每一层的工作来说,其实并不复杂,简单 来说就是如下线性关系表达式:
y=a(W·x+b)
其中,x是输入向量,y是输出向量,b是偏移向量,W是权重矩阵(也称 系数),α(·)是激活函数。每一层仅仅是对输入向量x经过如此简单的操作得到输 出向量y。
需要注意的是,输入层是没有W参数的。在深度神经网络中,更多的隐含 层让网络更能够刻画现实世界中的复杂情形。理论上而言,参数越多的模型复杂 度越高,“容量”也就越大,也就意味着它能完成更复杂的学习任务。训练深度神 经网络的也就是学习权重矩阵的过程,其最终目的是得到训练好的深度神经网络 的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。
(3)卷积神经网络
卷积神经网络(convolutional neuron network,CNN)是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器, 该特征抽取器可以看作是滤波器。卷积层是指卷积神经网络中对输入信号进行卷 积处理的神经元层。在卷积神经网络的卷积层中,一个神经元可以只与部分邻层 神经元连接。一个卷积层中,通常包含若干个特征平面,每个特征平面可以由一 些矩形排列的神经单元组成。同一特征平面的神经单元共享权重,这里共享的权 重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。卷积核可 以以随机大小的矩阵的形式初始化,在卷积神经网络的训练过程中卷积核可以通 过学习得到合理的权重。另外,共享权重带来的直接好处是减少卷积神经网络各 层之间的连接,同时又降低了过拟合的风险。
(4)生成对抗网络(generativeadversarial networks,GAN)是一种全新的非监督式的架构,能生成出非常逼真的照片,图像甚至视频。GAN包括了两套独立的 网络,两者之间作为互相对抗的目标。第一套网络是我们需要训练的分类器D, 用来分辨是否是真实数据还是虚假数据;第二套网络是生成器G,生成类似于真 实样本的随机样本,并将其作为假样本。D作为一个图片分类器,对于一系列图 片区分不同的动物。生成器G的目标是绘制出非常接近的伪造图片来欺骗D, 做法是选取训练数据潜在空间中的元素进行组合,并加入随机噪音。在训练过程 中,D会接收真数据和G产生的假数据,它的任务是判断图片是属于真数据的 还是假数据的。对于最后输出的结果,可以同时对两方的参数进行调优。如果D判断正确,那就需要调整G的参数从而使得生成的假数据更为逼真;如果D判 断错误,则需调节D的参数,避免下次类似判断出错。训练会一直持续到两者 进入到一个均衡和谐的状态。训练后的产物是一个质量较高的自动生成器和一个 判断能力较强强的分类器。
(5)损失函数
在训练深度神经网络的过程中,因为希望深度神经网络的输出尽可能的接近 真正想要预测的值,所以可以通过比较当前网络的预测值和真正想要的目标值, 再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然,在第一次 更新之前通常会有初始化的过程,即为深度神经网络中的各层预先配置参数), 比如,如果网络的预测值高了,就调整权重向量让它预测低一些,不断地调整, 直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接 近的值。因此,就需要预先定义“如何比较预测值和目标值之间的差异”,这便是 损失函数(loss function)或目标函数(objectivefunction),它们是用于衡量预测值和 目标值的差异的重要方程。其中,以损失函数举例,损失函数的输出值(loss)越 高表示差异越大,那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。
(6)自注意力机制
自注意力机制(Self-attention Mechanism)是注意力机制的改进,其减少了 对外部信息的依赖,更擅长捕捉数据或特征的内部相关性。注意力机制模仿了生 物观察行为的内部过程,即一种将内部经验和外部感觉对齐从而增加部分区域的 观察精细度的机制。注意力机制可以快速提取稀疏数据的重要特征,因而被广泛 用于自然语言处理任务,特别是机器翻译。
发明人经过研究发现,如今有很多网络或者很多算法来进行从生成人脸动画 的研究,传统的生成式网络是通过生成随机噪声,经过生成对抗网络的处理,生 成人脸,但这种方法生成的人脸(男,女,老,少)是不可控的,随机的。后 来又经过改进,将生成式网络引入条件约束,例如条件生成网络(CGan),引 入条件约束可以有效阻止生成式网络生成人脸的不可控性,但是由于输入是高斯 噪声,缺乏一些图像的细节,生成的人脸的效果往往差强人意。怎样有效利用生 成式网络的强大的泛化能力生成可控性的人脸,又能生成我们期望的逼真的人脸 成为了现如今的一道难题。
为了解决上述问题,在本发明实施例中,为了实现图像生成时可控且效果较 好,首先,不再是将高斯噪声作为所述生成对抗网络的输入,采用所述第一图像 作为所述生成对抗网络的输入,这样一来就使生成的图像可控;其次,在训练过 程中,采用所述第二图像中待测对象的关键点作为所述生成对抗网络的条件输入, 即作为所述生成对抗网络训练的条件约束,不仅仅加快了网络的学习速度,网络 的生成效果保留了更多的细节也更加的逼真。
本发明实施例可以应用到如下场景中,首先,终端设备可以采集训练数据集, 并将所述训练数据集输入服务器,以使得服务器依据所述训练数据集对所述生成 对抗网络进行训练。服务器可以预先存储有生成对抗网络,并响应终端设备的输 入的训练数据集,并进行训练,得到训练好的生成对抗网络。
可以理解的是,如图1所示,在上述应用场景中,虽然将本发明实施方式的 动作描述为由部分由终端设备10执行、部分由服务器20执行。但是,这样动作 可以完全有服务器20或者完全由终端设备10执行。本发明在执行主体方面不受 限制,只要执行了本发明实施方式所公开的动作即可。其中,终端设备10包括 台式终端或移动终端,例如台式电脑、平板电脑、笔记本电脑、智能手机等。服 务器20包括独立的物理服务器、物理服务器集群或虚拟服务器。
在得到所述生成对抗网络后,可以将所述生成对抗网络用于处理通过具有摄 像头的终端设备拍摄的照片。例如,将通过具有摄像头的终端设备拍摄的照片作 为输入项输入所述生成对抗网络,通过所述生成对抗网络对该照片进行动画图像 生成,以得到动画图像。当然,在实际应用中,所述神经网络可作为一个生成对 抗模块配置于具有摄像头的终端设备,当具有摄像头的终端设备拍摄到照片时, 启动所述生成对抗模块,通过所述生成对抗模块对该照片进行生成动画图像处理, 使得去具有摄像头的终端设备输出照片对应的动画图像。
需要注意的是,上述应用场景仅是为了便于理解本发明而示出,本发明的实 施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何 场景。
下面结合附图,详细说明本发明的各种非限制性实施方式。
参见图8,示出了本发明实施例中的一种生成对抗网络的训练方法。在本实 施例中,所述生成对抗网络的训练方法例如可以包括以下步骤:
S1、获取生成对抗网络和训练数据集;其中,所述训练数据集包括第一图像、 第二图像;其中,以所述第一图像作为所述生成对抗网络的输入,并以所述第二 图像中待测对象的关键点作为所述生成对抗网络的条件输入。
本发明实施例中,如图2所示,所述生成对抗网络包括:生成器(Generator) 网络和判别器(Discriminator)网络,所述生成器网络用于通过机器生成数据, 目的是“骗过”判别器网络;所述判别器网络用于判断该数据是真实的还是机器生 成的,目的是找出生成器做的“假数据”。也就是说,所述生成器网络根据所述第 一图像和所述第二图像中待测对象的关键点得到所述生成器网络生成的生成图 像,所述判别器网络判断所述生成器网络生成的生成图像是否跟所述第二图像一 样,如果不一样则需要调整所述生成对抗网络的参数,直至训练结束,所述生成 器网络生成的生成图像几乎与所述第二图像一样,以至于所述判别器网络无法区 分出来。
需要说明的是,由于本发明的目的是模拟生成逼真的动画图像,在空间位置 上发生变化的任意对象均可以作为待测对象,因此,待测对象包括人体、物体、 动物。人体可以具体为人体的某一部位,如手部,脸部等。在说话时,可能头部 没有移动,但是嘴型、眼睛、眉毛等部位发生动态变化,因此也可以将人脸作为 待测对象。根据待测对象的不同,对应的关键点也有不同,关键点是指能够反映 待测对象的态势的特征点,这些特征点在空间位置上会发生变化,通过时间序列 上各关键点的变化可以判断出待测对象是否动了,也就是说,通过关键点表征待 测对象的动态变化情况。所述第一图像中待测对象的态势和所述第二图像中待测 对象的态势不同,待测对象的态势是指待测对象的状态和形势,例如,待测对象 为人脸时,人脸的态势包括:头部及五官的状态和形势,例如,头部摆动角度, 张嘴闭嘴,睁眼闭眼等等。本发明实施例中,在得到所述训练好的生成对抗网络 后,将待处理图像和第二关键点输入所述训练好的生成对抗网络,就能将所述待 处理图像转化为动画图像,所述动画图像中的待测对象呈现出所述第二关键点对 应的态势,从而实现从待处理图像中待测对象的态势到所述动画图像中待测对象 的态势的过渡。当生成足够数量的所述动画图像,就可以形成动画,甚至视频。
本发明实施例中所述生成器网络并不是采用随机噪声生成数据,而是采用所 述第一图像作为所述生成对抗网络的输入,同时将所述第二图像中待测对象的关 键点作为条件约束与所述第一图像一起输入到所述生成对抗网络。可选的,所述 第一图像和所述第二图像可以是源自于数据集视频中的任意两帧,所述第一图像 中待测对象和所述第二图像中待测对象是相同的。由于所述生成对抗网络的输入 并不是随机噪声,而是采用所述第一图像,所述第一图像具有图像的细节,所述 生成器网络生成的生成图像的效果较佳。
所述训练数据集中的第一图像、第二图像形成图像对,所述训练数据集中可 以包括多个图像对,第一图像还可以与所述训练数据集中的其它图像形成图像对, 所述生成对抗网络可以基于不同的图像对进行训练。
在训练时,第一关键点的获取方式包括:1、通过语音驱动得到;2、根据第 二图像提取得到,提取方式包括:人工标注,网络自动标注。基于语音驱动获得 所述第一关键点,以语音为原始驱动源,其目的是将语音参数转化为所述第一关 键点,其关键在于得到语音与所述第一关键点之间的对应关系,其中,语音信息 以线性预测倒谱系数和Mel频率倒谱系数等语音特征参数为主。提取语音的特 征参数后,将语音特征参数映射到相应的所述第一关键点上,进一步地可以在此 基础上,训练样本,建立起一个语音与关键点的映射模型。
根据第二图像提取得到所述第一关键点,可以采用网络自动标注,例如,传 统算法,如ASM算法通过人工标定的方法先标定训练集,经过训练获得形状模 型,再通过关键点的匹配实现特定物体的匹配。深度学习方法,利用神经网络的 非线性映射关系在标注有第一关键点的第二图像和输入的没有标注的第二图像 之间找到一个最优映射路径,通过这个映射关系去逼近我们的目标。
所述第一图像作为所述生成对抗网络的输入,并将所述第一关键点作为所述 生成对抗网络的条件输入,实际上,所述生成对抗网络为条件生成对抗网络 (ConditionalGenerative Adversarial Networks,CGAN),在生成器网络和判别 器网络的训练中均引入条件变量y(conditional variable y),使用条件变量y对 所述生成对抗网络增加条件,可以指导所述生成器网络的生成图像生成过程。
由于卷积神经网络中,每个卷积核的尺寸比较有限(基本上不会大于5), 因此,每次卷积操作只能覆盖像素点周围很小一块邻域。对于距离较远的特征, 例如狗有四条腿这类特征,就不容易捕获到了(也不是完全捕获不到,因为多层 的卷积、池化操作会把特征图像的高和宽变得越来越小,越靠后的层,其卷积核 覆盖的区域映射回原图对应的面积越大。但总而言之,毕竟还得需要经过多层映 射,不够直接)。自注意力机制通过直接计算图像中任意两个像素点之间的关系, 一步到位地获取图像的全局几何特征。需要说明的是,可以形成自注意力模块嵌 入到所需要的网络中。
本发明实施例的一个实现方式中,所述生成器网络中嵌设有第一自注意力模 块,所述判别器网络中嵌设有第二自注意力模块。并且,所述第一关键点作为条 件输入输入到所述第一自注意力模块和所述第二自注意力模块中,将条件输入输 入到各自注意力模块中可以大幅提高效率,进一步提高结果的可控性。
本发明实施例的一个实现方式中,所述生成器网络采用UNet为基础网络, 并嵌入所述第一自注意力模块,所述生成器网络包括依次堆叠的编码器和解码器。 所述第一自注意力模块可以包括至少一个自注意力单元。本发明实施例的一个实 现方式中,所述第一自注意力模块包括:第一自注意力单元和/或第二自注意力 单元,所述第一自注意力单元位于所述编码器和所述解码器之间,所述第二自注 意力单元位于所述解码器之后。也就是说,在所述解码器后嵌入所述第一自注意 力单元,在所述解码器后嵌入所述第二自注意力单元。
本发明实施例的一个实现方式中,所述判别器采用卷积神经网络为基础网络, 并嵌入所述第二自注意力模块,从而形成依次堆叠的卷积神经网络和所述第二自 注意力模块。
所述第一自注意力模块和所述第二自注意力模块的嵌入还可以采用其他方 式嵌入。下面具体说明自注意力模块(单元)的具体结构。
所述第一自注意力单元、所述第二自注意力单元以及所述第二自注意力模块 均包括至少一层自注意力层。如图3所示,所述自注意力层包括:根据特征图像 (featuremaps)和条件输入(conditional image)进行自注意力处理得到响应特 征图像(response)的第一子层,根据响应特征图像和特征图像进行求和 (element-wise addition)处理的第二子层。
输入所述第一子层的所述特征图像来自于前一隐藏层输出的数据,在本发明 实施例中,前一隐藏层包括:所述编码器、所述解码器或所述卷积神经网络。前 一隐藏层是由自注意力模块(单元)所嵌入的位置决定的。
第一子层包括:用于将所述特征图像和所述条件输入拼接(concatenation) 处理形成拼接特征的拼接层,用于将所述拼接特征进行卷积(convolution)处理 (具体为1×1卷积处理)得到第一卷积特征图像f、第二卷积特征图像g、第三 卷积特征图像h的卷积层,用于将所述第一卷积特征图像进行转置(Transpose) 处理后与所述第二卷积特征图像进行矩阵乘法(matrix multipication)处理,并 采用softmax处理得到注意力特征图像(attention map)的softmax层,用于将所 述注意力特征图像与所述第三卷积特征图像进行矩阵乘法处理得到响应特征图 像的矩阵乘法层。
在本发明实施例的一个实现方式中,所述自注意力层用于执行如下步骤:
以所述编码器、所述解码器或所述卷积神经网络输出的特征图像作为输入, 所述第一关键点作为条件输入进行自注意力处理得到响应特征图像;
将所述编码器、所述解码器或所述卷积神经网络输出的特征图像和所述响应 特征图像求和后输出。
在本发明实施例的一个实现方式中,所述以所述编码器、所述解码器或卷积 神经网络输出的特征图像作为输入,所述第一关键点作为条件输入进行自注意力 处理得到响应特征图像,包括:
以所述编码器、所述解码器或所述卷积神经网络输出的特征图像作为输入, 所述第一关键点作为条件输入一起输入到所述自注意力层的卷积层,并分别生成 三个卷积特征图像f、g、h;
举例说明,特征图像a与条件输入x进行拼接处理形成拼接特征a|x,例如, 特征图像a与条件输入x的结构均为C×W×H,拼接特征a|x的结构为C×W× H,其中,H表示高度,W表示宽度,C表示通道数。然后进行卷积处理得到第 一卷积特征图像f(a|x)、第二卷积特征图像g(a|x)、第三卷积特征图像h(a|x),例 如,第一卷积特征图像f(a|x)、第二卷积特征图像g(a|x)的尺寸均为N×C1,其中, C1为图像特征通道数C的1/m,m可以为8,第三卷积特征图像h(a|x)的尺寸均 为N×C,其中,N=W×H。对输入的特征图像a卷积了一次相当于对特征图像a 做了一次投影。由于是1×1的卷积,所以不改变特征图像的长和宽。特征图像的 每个通道为如(1)所示的矩阵,矩阵共有N个元素(像素)。
Figure BDA0002391288720000141
将H和W融合到一起,把如(1)所示二维的特征图像每个通道拉成一个长度 为N的向量。在单独观察一个样本时,则对特征图像机型卷积处理会得到一个N ×C1的矩阵(即卷积特征图像f、g、h),矩阵的行数变成了特征图像的像素数 N,列数变成了通道数C1。因此矩阵维度为N×C1。该矩阵每行代表一个像素位 置上所有通道的值,每列代表某个通道中所有的像素值。
将g和转置处理的f进行矩阵乘法处理后,采用softmax处理得到注意力特 征图像。
举例说明,将第一卷积特征图像f(a|x)进行转置处理得到f(a|x)T,其中,(·)T表示转置,f(a|x)T的尺寸为C1×N,并与第二卷积特征图像g(a|x)进行矩阵乘法处 理得到s=g(a|x)f(a|x)T,其尺寸为N×N。也就是说,一个N×C1的矩阵g与一个 C1×N的矩阵fT进行矩阵乘法得到一个N×N的矩阵s。
再进行softmax处理得到注意力特征图像B如下:
Figure BDA0002391288720000151
其中,j表示列的序号,e表示自然对数的底数。这里sofmax处理是指按“行” 归一化。这个操作之后的矩阵,各行元素之和为1。因为s中第i行元素,代表 特征图像中所有位置的像素对第i个像素的影响,而这个影响被解释为权重,故 加起来应该是1,故应对其按行归一化。s的维度也是N×N。
s是自注意力模块(单元)的核心,其中,第i行j列的元素是由第一卷积 特征图像f(a|x)的第i行和第二卷积特征图像g(a|x)的第j行通过向量点乘得到的。 第一卷积特征图像f(a|x)的第i行表示的是特征图像a上第i个像素位置上所有通 道的值,也就是第i个像素位置的所有信息。第二卷积特征图像g(a|x)的第j行 表示的是特征图像a上第j个像素位置上所有通道的值,也就是第j个像素位置 的所有信息。这两者相乘,可以看成是第j个像素点对第i个像素点的影响,即 B中第i行j列的元素值表示第j个像素点对第i个像素点的影响。
将所述注意力特征图像和h进行矩阵乘法处理后得到响应特征图像。
举例说明,由于第三卷积特征图像h(a|x)的通道数C与特征图像a的通道数 C是一样的,将转置的注意力特征图像B与第三卷积特征图像h(a|x)进行矩阵乘 法处理得到响应特征图像r=h(a|x)B,其尺寸为N×N。之所以转置,是因为B中 每行的和为1,其意义是权重,需要转置后变为每列的和为1,施加于h(a|x)的行 上,作为该行的加权平均。h(a|x)第i行代表第i个通道所有的像素值,B第j列, 代表所有像素施加到第j个像素的影响。合起来,r中的第i行第j列的元素,表 示被B加权之后的特征图像a的第i个通道的第j个像素的像素值。再通过1×1 的反卷积改变一下形状,r就恢复了C×W×H的结构。
第二子层将响应特征图像r与特征图像a进行求和处理后输出o=r+γa,其中, γ为参数,表示整体施加了自注意力之后的特征图像的权重,输出的结构为 C×W×H。
举例说明,在训练的初始阶段,γ为0,该自注意力模块(单元)直接返回 输入的特征图像,之后随着学习,该自注意力模块(单元)逐渐学习到了将自注 意力加权过的特征图像加在响应特征图像上,从而强调了需要施加注意力的部分 特征图像。
可以把自注意力看成是特征图像和它自身的转置相乘,让任意两个位置的像 素直接发生关系,这样就可以学习到任意两个像素之间的依赖关系,从而得到全 局特征了。
S2、基于所述第一图像、所述第一关键点和所述第二图像,对所述生成对抗 网络进行训练,得到训练好的生成对抗网络。
在本发明实施例的一个实现方式中,如图4、图5、图7所示,所述第一图 像和所述第二图像均包括:所述待测对象和背景。如图6所示,现有技术中生成 动画图像的网络的输入图像中并不包括背景,而是被测对象覆盖整个输入图像。
由于输入input为带有背景的待测对象,生成的同样是带有背景的待测对象, 训练的难度较大,如果同时从头更新所述生成器网络和所述判别器网络将大大加 大问问生成器网络的训练难度,甚至有可能导致生成器崩溃。为了避免这种情况 发生,将训练过程分为两个阶段:第一阶段和第二阶段。
第一阶段,仅对所述生成器网络进行训练得到预训练的生成器网络。第二阶 段对预训练的生成器网络和所述判别器网络同时训练得到训练好的生成对抗网 络。
步骤S2包括:
步骤S21、基于所述第一图像、所述第一关键点和所述第二图像,对所述生 成器网络进行训练,得到预训练的生成器网络。
在第一阶段中,损失函数包括均方误差(Mean Squared Error,MSE)、均 方根误差(Root Mean Square error,RMSE)、平均绝对误差(Mean Absolute Error, MAE)、平均绝对百分比误差(Mean Absolute Percentage Error,MAPE)、对称 平均绝对百分比误差(Symmetric Mean Absolute Percentage Error,AMAPE)、 最小绝对值误差(LeastAbsolute Deviations,LAD)、最小平方误差(Least Square Error,LSE)。
均方误差是指参数估计值与参数真值之差平方的期望值;MSE可以评价数 据的变化程度,MSE的值越小,说明所述生成器网络具有更好的精确度。
均方根误差是均方误差的算术平方根,它是参数估计值和参数真值之差的平 方和次数比值的平方根,均方根误差能够很好的反映出所述生成器网络的精密度。
平均绝对值误差表示参数估计值和参数真值之间绝对误差的平均值。MAE 的值越小,说明所述生成器网络拥有更好的精确度。
平均绝对百分比误差是一个百分比值,因此比其他统计量更容易理解。例如, 如果MAPE为5,则表示参数估计值较参数真值平均偏离5%。MAPE的值越小, 说明所述生成器网络拥有更好的精确度。
在训练中以L1范数(即LAD)或L2范数(即LSE)作为第一损失函数, 对所述生成器网络进行训练,得到预训练的生成器网络。此时是单独对所述生成 器网络进行训练,也就是说,所述生成器网络向着最小化第一损失函数的方向进 行训练。所述生成器网络输出的生成图像在第一阶段是不需要通过所述判别器网 络进行判别的。
步骤S21包括:
步骤S211、将所述第一图像、所述第一关键点输入所述生成器网络中进行 处理,得到所述生成器网络的生成图像。
所述编码器或所述解码器包括:卷积(convolution)层、池化(Pooling)层、 上采样(subsampled)层、跳跃连接。当然,所述生成器网络还可以包括:全连 接层(FullyConnected Network)、归一化(Batch Normalization,BN)层、Dropout 层等等。其中,卷积层和全连接层负责对输入数据进行映射变换,这个过程会用 到权值和偏置等参数,也需要使用激活函数(Activation Function)。池化层是一个 固定不变的函数操作。激活函数是指神经元上运行的函数,其作用是负责将神经 元的输入映射到输出端,激活函数包括ReLU函数、Tanh函数,Sigmoid函数, Maxout函数等等。
具体地,卷积层起到提取特征的作用,卷积层的卷积核(Convolution Kernel) 可以看做一些可学习的滤波器。每个滤波器在空间上的宽度和高度要小于输入图 像,深度与射入图像保持一致。在前向传播的过程汇总,每个卷积核在输入图像 数据上,沿宽度和高度滑动,计算卷积核与输入数据的卷积,会生成一个2维的 特征图,特征图代表着卷积核对输入数据每个空间位置的反应。在每个卷积层中, 会有许多卷积核,每个卷积核都会成一个不同的二维特征图,将这些特征图映射 在深度方向上进行叠加,经过激活函数后,即可得到数据数据。卷积核是指在进 行图像处理时,给定输入图像,在输出图像中每一个像素是输入图像中一个小区 域中像素的加权平均,其中权重由一个函数定义,该函数则称为卷积核。
池化层对输入特征图进行池化操作,改变其空间尺寸。池化单元主要用于参 数降维,压缩数据和参数的数量,减小过拟合,同时提高模型的容错性。通常在 连续的卷积层之间会插入池化层。池化层通过下采样等方式能够有效降低输入数 据的空间尺寸,从而减少需要计算数据的维度,减小计算资源的消耗。池化操作 包括最大值池化、均值池化等池化方式。池化层下采样原理:对于一幅图像I尺 寸为M×N,对其进行s倍下采样,即得到(M/s)×(N/s)尺寸的得分辨率图像, 当然s应该是M和N的公约数才行,如果考虑的是矩阵形式的图像,就是把原 始图像s×s窗口内的图像变成一个像素,这个像素点的值就是窗口内所有像素 的均值。
上采样原理:上采样方法主要有三种方式:插值法、反卷积和反池化。图像 放大几乎都是采用内插值方法,即在原有图像像素的基础上在像素点之间采用合 适的插值算法插入新的元素。
跳跃连接可以解决网络层数较深的情况下梯度消失的问题,同时有助于梯度 的反向传播,加快训练过程。
全连接层与卷积层的区别主要在于,卷积层中神经元与输入特征数据之间是 局部连接的,而且采用了权值共享的方式来减少参数。而全连接层是对前一次层 中所有数据进行全部连接的。全连接层的计算同样是矩阵乘法与偏置相加。
归一化层是用来模拟大脑中神经元的抑制机制,对数据在传播中的值的大小 进行一定的约束。
Dropout层指在深度学习网络的训练过程中,对于神经网络单元,按照一定 的概率将其暂时从网络中丢弃。注意是暂时,对于随机梯度下降来说,由于是随 机丢弃,故而每一个mini-batch都在训练不同的网络。Dropout层一般加在全连 接层防止过拟合,提升模型泛化能力。
在本发明实施例的一种实现方式中,编码器包括堆叠的若干个卷积层和若干 个池化层,所述解码器包括依次堆叠的若干个卷积层和若干个池化层,编码器中 的部分卷积层与解码器中的部分卷积层采用跳跃连接。
如图2所示,所述编码器包括10个卷积层和4个池化层,池化层采用最大 池化层,卷积层的卷积核为3×3,池化窗口的大小为2×2。所述解码器包括9 个卷积层和4个上采样层(具体为反卷积),卷积层的卷积核为3×3和1×1, 反卷积的卷积核为2×2。激活函数采用的ReLU。
步骤S212、根据所述第二图像和所述生成器网络的生成图像,调整所述生 成器网络的参数,并继续执行将所述第一图像、所述第一关键点输入所述生成器 网络中进行处理,得到所述生成器网络的生成图像的步骤,直至满足第一预设训 练条件,得到预训练的生成器网络。
根据所述第二图像和所述生成图像,计算第一损失值;根据所述第一损失值 调整所述生成器网络的参数。所述第二图像可看作标准答案,所述第一图像和所 述第一关键点通过所述生成器网络得到生成图像,比较所述生成图像各像素点的 像素值与所述第二图像各像素点的像素值,得到第一损失值Loss1。
在本发明实施例中,假设所述生成器网络的参数为β1,将第一损失值Loss1 反向传播修改所述生成器网络的参数β1,得到修改后参数β2。
本发明实施例中,修改参数之后再继续执行将所述第一图像、所述第一关键 点输入所述生成器网络中进行处理,得到所述生成器网络的生成图像的步骤,直 至满足第一预设训练条件,其中,所述第一预设训练条件可以是训练次数达到预 设次数,可选的,预设次数可以是100,000次;所述预设训练条件也可以是所述 生成器网络收敛;由于可能出现训练次数还未达到预设次数,但所述生成器网络 已经收敛,可能导致重复不必要的工作;或者所述生成器网络始终无法收敛,可 能导致无限循环,无法结束训练的过程。
步骤S22、基于所述第一图像、所述第一关键点和所述第二图像,对所述预 训练的生成器网络和所述判别器网络进行训练,得到训练好的生成对抗网络。
固定所述判别器网络和所述预训练的生成器网络中的一个网络,基于所述第 一图像、所述第一关键点和所述第二图像,对所述判别器网络和所述预训练的生 成器网络中的另一个网络进行训练,直至满足第二预设训练条件,得到训练好的 生成对抗网络。
在第二阶段中,采用交替训练的方式训练所述生成对抗网络。例如,先固定 所述判别器网络的参数不变,基于所述第一图像、所述第一关键点和所述第二图 像,对生成器网络进行训练。(1)将所述第一图像、所述第一关键点输入所述 生成器网络中进行处理,得到所述生成器网络的生成图像。(2)根据所述第二 图像和所述生成器网络的生成图像输入到所述判别器网络,得到所述生成图像的 概率,根据所述概率计算所述生成器网络的损失函数,根据所述生成器网络的损 失函数调整所述生成器网络的参数。所述生成器网络可以训练一次或多次后进行 所述判别器网络的训练。
然后固定所述生成器网络的参数不变,基于所述第一图像、所述第一关键点 和所述第二图像,对判别器网络进行训练。(1)将所述第一图像、所述第一关 键点输入所述生成器网络中进行处理,得到所述生成器网络的生成图像。(2) 根据所述第二图像和所述生成器网络的生成图像输入到所述判别器网络,得到所 述生成图像的概率,根据所述概率计算所述判别器网络的损失函数,根据所述判 别器网络的损失函数调整所述判别器网络的参数。所述判别器网络可以训练一次 或多次后进行所述生成器网络的训练。
在第二阶段中,所述生成器网络的损失函数为:
Figure BDA0002391288720000211
所述判别器网络的损失函数为:
Figure BDA0002391288720000212
其中,E(·)表示分布函数的期望值,pz表示第一图像z的分布,pdata表示第 二图像x的分布,y表示条件输入,D(·)表示判别器网络,G(·)表示生成器网络, min(·)表示最小化函数。
采用交替训练的方式训练所述生成器网络和所述判别器网络,直至满足第二 预设训练条件,得到训练好的生成对抗网络。
所述第二预设训练条件包括:所述预训练的生成器网络和所述判别器网络达 到稳态的纳什平衡。
所述辨别器输出的概率接近0.5,概率接近0.5相当于辨别器无法分辨真假, 只能随机猜测,从而达到稳态的纳什平衡,此时所述生成器的生成图像与所述第 二图像非常结近。
所述第二预设训练条件还包括:训练次数达到预设次数,可选的,预设次数 可以是100,000次。
基于上述生成对抗网络的训练方法,本发明实施例中还提供了一种动画图像 生成方法,所述动画图像生成方法应用如上述实施例所述生成对抗网络的训练方 法训练得到的生成对抗网络,所述动画图像生成方法包括以下步骤包括:
A1、获取待处理图像和第二关键点,并将所述待处理图像和所述第二关键 点输入至所述生成对抗网络。
所述待处理图像可以为通过摄像头拍摄得到的图像,也可以为预先设置的图 像,还可以为根据接收到的选取操作而确定的图像。在本实施例中,所述待处理 图像优选为通过摄像头拍摄得到的图像,例如,所述待处理图像为通过配置有摄 像头的手机拍摄得到的人物图像。第二关键点可以为所述待处理图像以外的任意 一张图像的关键点,也可以为简单的画出待处理图像中待处理对象的轮廓,如图 4和图5所示。
A2、通过所述生成对抗网络对所述待处理图像进行处理得到所述待处理图 像对应的动画图像。
如图4所示,很容易分辨出输出output(所述生成器网络的生成图像)与真 值GT差别很大,没有达到稳态的纳什平衡。如图5所示,输出与真值差别不大, 达到了稳态的纳什平衡。
在一个实施例中,本发明提供了一种计算机设备,该设备可以是终端,内部 结构如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络 接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能 力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储 介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系 统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通 过网络连接通信。该计算机程序被处理器执行时以实现所述生成对抗网络的训练 方法或者所述的动画图像生成方法。该计算机设备的显示屏可以是液晶显示屏或 者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也 可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、 触控板或鼠标等。
本领域技术人员可以理解,图9所示的仅仅是与本申请方案相关的部分结构 的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算 机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不 同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,所述存储 器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取生成对抗网络和训练数据集;其中,所述训练数据集包括第一图像、第 二图像、第一关键点;其中,所述第一关键点为所述第二图像中待测对象的关键 点,以所述第一图像作为所述生成对抗网络的输入,并以所述第一关键点作为所 述生成对抗网络的条件输入;
基于所述第一图像、所述第一关键点和所述第二图像,对所述生成对抗网络 进行训练,得到训练好的生成对抗网络;或者
获取待处理图像和第二关键点,并将所述待处理图像和所述第二关键点输入 至所述生成对抗网络;
通过所述生成对抗网络对所述待处理图像进行处理得到所述待处理图像对 应的动画图像。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序, 所述计算机程序被处理器执行时实现以下步骤:
获取生成对抗网络和训练数据集;其中,所述训练数据集包括第一图像、第 二图像、第一关键点;其中,所述第一关键点为所述第二图像中待测对象的关键 点,以所述第一图像作为所述生成对抗网络的输入,并以所述第一关键点作为所 述生成对抗网络的条件输入;
基于所述第一图像、所述第一关键点和所述第二图像,对所述生成对抗网络 进行训练,得到训练好的生成对抗网络;或者
获取待处理图像和第二关键点,并将所述待处理图像和所述第二关键点输入 至所述生成对抗网络;
通过所述生成对抗网络对所述待处理图像进行处理得到所述待处理图像对 应的动画图像。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实 施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的 组合不存在矛盾,都应当认为是本说明书记载的范围。

Claims (14)

1.一种生成对抗网络的训练方法,其特征在于,所述训练方法包括:
获取生成对抗网络和训练数据集;其中,所述训练数据集包括第一图像、第二图像、第一关键点;其中,所述第一关键点为所述第二图像中待测对象的关键点,以所述第一图像作为所述生成对抗网络的输入,并以所述第一关键点作为所述生成对抗网络的条件输入;
基于所述第一图像、所述第一关键点和所述第二图像,对所述生成对抗网络进行训练,得到训练好的生成对抗网络。
2.根据权利要求1所述生成对抗网络的训练方法,其特征在于,所述生成对抗网络包括:生成器网络和判别器网络,所述生成器网络嵌设有第一自注意力模块,所述判别器网络嵌设有第二自注意力模块,所述第一自注意力模块的条件输入为所述第一关键点,所述第二自注意力模块的条件输入为所述第一关键点。
3.根据权利要求2所述生成对抗网络的训练方法,其特征在于,所述第一自注意力模块包括:第一自注意力单元和/或第二自注意力单元;所述生成器网络包括:依次堆叠的编码器、解码器,所述第一自注意力单元位于所述编码器和所述解码器之间,所述第二自注意力单元位于所述解码器之后;所述判别器网络包括:依次堆叠的卷积神经网络、所述第二自注意力模块。
4.根据权利要求3所述生成对抗网络的训练方法,其特征在于,所述第一自注意力单元、所述第二自注意力单元以及所述第二自注意力模块均包括至少一层自注意力层,所述自注意力层用于执行如下步骤:
以所述编码器、所述解码器或所述卷积神经网络输出的特征图像作为输入,所述第一关键点作为条件输入进行自注意力处理得到响应特征图像;
将所述编码器、所述解码器或所述卷积神经网络输出的特征图像和所述响应特征图像求和后输出。
5.根据权利要求4所述生成对抗网络的训练方法,其特征在于,所述以所述编码器、所述解码器或卷积神经网络输出的特征图像作为输入,所述第一关键点作为条件输入进行自注意力处理得到响应特征图像,包括:
以所述编码器、所述解码器或所述卷积神经网络输出的特征图像作为输入,所述第一关键点作为条件输入一起输入到所述自注意力层的卷积层,并分别生成三个卷积特征图像f、g、h;
将g和转置处理的f进行矩阵乘法处理后,采用softmax处理得到注意力特征图像;
将所述注意力特征图像和h进行矩阵乘法处理后得到响应特征图像。
6.根据权利要求2所述生成对抗网络的训练方法,其特征在于,所述基于所述第一图像、所述第一关键点和所述第二图像,对所述生成对抗网络训练得到训练好的生成对抗网络,包括:
基于所述第一图像、所述第一关键点和所述第二图像,对所述生成器网络进行训练,得到预训练的生成器网络;
基于所述第一图像、所述第一关键点和所述第二图像,对所述预训练的生成器网络和所述判别器网络进行训练,得到训练好的生成对抗网络。
7.根据权利要求6所述生成对抗网络的训练方法,其特征在于,所述基于所述第一图像、所述第一关键点和所述第二图像,对所述生成器网络进行训练,得到预训练的生成器网络,包括:
将所述第一图像、所述第一关键点输入所述生成器网络中进行处理,得到所述生成器网络的生成图像;
根据所述第二图像和所述生成器网络的生成图像,调整所述生成器网络的参数,并继续执行将所述第一图像、所述第一关键点输入所述生成器网络中进行处理,得到所述生成器网络的生成图像的步骤,直至满足第一预设训练条件,得到预训练的生成器网络。
8.根据权利要求6所述生成对抗网络的训练方法,其特征在于,所述基于所述第一图像、所述第一关键点和所述第二图像,对所述预训练的生成器网络和所述判别器网络进行训练,得到训练好的生成对抗网络,包括:
固定所述判别器网络和所述预训练的生成器网络中的一个网络,基于所述第一图像、所述第一关键点和所述第二图像,对所述判别器网络和所述预训练的生成器网络中的另一个网络进行训练,直至满足第二预设训练条件,得到训练好的生成对抗网络。
9.根据权利要求8所述生成对抗网络的训练方法,其特征在于,所述第二预设训练条件包括:所述预训练的生成器网络和所述判别器网络达到稳态的纳什平衡。
10.根据权利要求1-9任意一项所述生成对抗网络的训练方法,其特征在于,所述第一关键点采用语音驱动得到。
11.根据权利要求1-9任意一项所述生成对抗网络的训练方法,其特征在于,所述第一图像和所述第二图像均包括:所述待测对象和背景。
12.一种动画图像生成方法,其特征在于,应用如权利要求1-11任意一项所述生成对抗网络的训练方法得到的生成对抗网络,所述动画图像生成方法包括:
获取待处理图像和第二关键点,并将所述待处理图像和所述第二关键点输入至所述生成对抗网络;
通过所述生成对抗网络对所述待处理图像进行处理得到所述待处理图像对应的动画图像。
13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述生成对抗网络的训练方法的步骤,或者实现权利要求12中所述的动画图像生成方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述生成对抗网络的训练方法的步骤,或者实现权利要求12中所述的动画图像生成方法的步骤。
CN202010115227.6A 2020-02-25 2020-02-25 一种生成对抗网络的训练方法、动画图像生成方法 Pending CN113313133A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010115227.6A CN113313133A (zh) 2020-02-25 2020-02-25 一种生成对抗网络的训练方法、动画图像生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010115227.6A CN113313133A (zh) 2020-02-25 2020-02-25 一种生成对抗网络的训练方法、动画图像生成方法

Publications (1)

Publication Number Publication Date
CN113313133A true CN113313133A (zh) 2021-08-27

Family

ID=77369835

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010115227.6A Pending CN113313133A (zh) 2020-02-25 2020-02-25 一种生成对抗网络的训练方法、动画图像生成方法

Country Status (1)

Country Link
CN (1) CN113313133A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113538224A (zh) * 2021-09-14 2021-10-22 深圳市安软科技股份有限公司 基于生成对抗网络的图像风格迁移方法、装置及相关设备
CN113780534A (zh) * 2021-09-24 2021-12-10 北京字跳网络技术有限公司 网络模型的压缩方法、图像生成方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292813A (zh) * 2017-05-17 2017-10-24 浙江大学 一种基于生成对抗网络的多姿态人脸生成方法
CN109859288A (zh) * 2018-12-25 2019-06-07 北京飞搜科技有限公司 基于生成对抗网络的图像上色方法及装置
CN110033505A (zh) * 2019-04-16 2019-07-19 西安电子科技大学 一种基于深度学习的人体动作捕捉与虚拟动画生成方法
CN110070174A (zh) * 2019-04-10 2019-07-30 厦门美图之家科技有限公司 一种生成对抗网络的稳定训练方法
EP3582143A1 (en) * 2018-06-13 2019-12-18 Cosmo Artificial Intelligence - AI Limited Systems and methods for training generative adversarial networks and use of trained generative adversarial networks
CN110659727A (zh) * 2019-09-24 2020-01-07 中国科学技术大学 一种基于草图的图像生成方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292813A (zh) * 2017-05-17 2017-10-24 浙江大学 一种基于生成对抗网络的多姿态人脸生成方法
EP3582143A1 (en) * 2018-06-13 2019-12-18 Cosmo Artificial Intelligence - AI Limited Systems and methods for training generative adversarial networks and use of trained generative adversarial networks
CN109859288A (zh) * 2018-12-25 2019-06-07 北京飞搜科技有限公司 基于生成对抗网络的图像上色方法及装置
CN110070174A (zh) * 2019-04-10 2019-07-30 厦门美图之家科技有限公司 一种生成对抗网络的稳定训练方法
CN110033505A (zh) * 2019-04-16 2019-07-19 西安电子科技大学 一种基于深度学习的人体动作捕捉与虚拟动画生成方法
CN110659727A (zh) * 2019-09-24 2020-01-07 中国科学技术大学 一种基于草图的图像生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
姚瑶: "基于生成对抗网络的图像转换方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113538224A (zh) * 2021-09-14 2021-10-22 深圳市安软科技股份有限公司 基于生成对抗网络的图像风格迁移方法、装置及相关设备
CN113538224B (zh) * 2021-09-14 2022-01-14 深圳市安软科技股份有限公司 基于生成对抗网络的图像风格迁移方法、装置及相关设备
CN113780534A (zh) * 2021-09-24 2021-12-10 北京字跳网络技术有限公司 网络模型的压缩方法、图像生成方法、装置、设备及介质
CN113780534B (zh) * 2021-09-24 2023-08-22 北京字跳网络技术有限公司 网络模型的压缩方法、图像生成方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN110532871B (zh) 图像处理的方法和装置
Monroy et al. Salnet360: Saliency maps for omni-directional images with cnn
CN111667399B (zh) 风格迁移模型的训练方法、视频风格迁移的方法以及装置
CN112308200B (zh) 神经网络的搜索方法及装置
WO2021043168A1 (zh) 行人再识别网络的训练方法、行人再识别方法和装置
CN109993707B (zh) 图像去噪方法和装置
WO2019227479A1 (zh) 人脸旋转图像的生成方法及装置
CN111402130B (zh) 数据处理方法和数据处理装置
CN112236779A (zh) 基于卷积神经网络的图像处理方法和图像处理装置
CN112784764A (zh) 一种基于局部与全局注意力机制的表情识别方法及系统
CN111914997B (zh) 训练神经网络的方法、图像处理方法及装置
CN109684969B (zh) 凝视位置估计方法、计算机设备及存储介质
CN112668366B (zh) 图像识别方法、装置、计算机可读存储介质及芯片
CN114339409B (zh) 视频处理方法、装置、计算机设备及存储介质
CN114339054B (zh) 拍照模式的生成方法、装置和计算机可读存储介质
CN113191489B (zh) 二值神经网络模型的训练方法、图像处理方法和装置
CN113076685A (zh) 图像重建模型的训练方法、图像重建方法及其装置
US11915383B2 (en) Methods and systems for high definition image manipulation with neural networks
CN112561028A (zh) 训练神经网络模型的方法、数据处理的方法及装置
CN113673545A (zh) 光流估计方法、相关装置、设备及计算机可读存储介质
WO2022052782A1 (zh) 图像的处理方法及相关设备
CN113313133A (zh) 一种生成对抗网络的训练方法、动画图像生成方法
CN114359785A (zh) 基于自适应矩阵特征融合网络的唇语识别方法、装置及电子设备
CN113538254A (zh) 图像恢复方法、装置、电子设备及计算机可读存储介质
CN112509144A (zh) 人脸图像处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210827