CN111754596B

CN111754596B - 编辑模型生成、人脸图像编辑方法、装置、设备及介质

Info

Publication number: CN111754596B
Application number: CN202010568177.7A
Authority: CN
Inventors: 高岱恒; 吴臻志
Original assignee: Beijing Lynxi Technology Co Ltd
Current assignee: Beijing Lynxi Technology Co Ltd
Priority date: 2020-06-19
Filing date: 2020-06-19
Publication date: 2023-09-19
Anticipated expiration: 2040-06-19
Also published as: WO2021254499A1; CN111754596A

Abstract

本发明实施例公开了一种编辑模型生成、人脸图像编辑方法、装置、设备及介质。所述编辑模型生成方法包括：对生成对抗模型进行训练，所述生成对抗模型包括生成器和判别器；根据所述判别器的梯度更新配置信息，更新所述生成对抗模型，所述梯度更新配置信息通过利普希茨约束条件确定；在确定所述生成对抗模型满足训练结束条件时，根据当前训练的生成对抗模型中的生成器，生成图像编辑模型。本发明实施例可以提高生成器和判别器的训练一致性，提高生成图像的真实性。

Description

编辑模型生成、人脸图像编辑方法、装置、设备及介质

技术领域

本发明实施例涉及人工智能领域，尤其涉及一种编辑模型生成、人脸图像编辑方法、装置、设备及介质。

背景技术

近年来，人们对于合成图像的真实度要求越来越高，这要求图像处理算法可以实现生成更为真实和自然的图像。尤其是，人们经常会采用对人脸图像进行编辑，期望编辑后的人脸图像仍为真实的人脸。

目前，可以采用生成对抗网络(Generative Adversarial Network，GAN)来实现生成真实人脸。其中，在生成对抗模型的训练过程中，实际是生成对抗网络中的生成器用于生成人脸图像，生成对抗模型中的判别器用于对生成的人脸图像判别真假。

对生成对抗网络的训练，实际是对生成对抗网络中的生成器和生成对抗网络中的判别器进行训练。当判别器很快的一步到位完成训练过程，可以准确判别人脸图像真假时，这样生成器无论如何进步都不能通过判别器的判断，从而使得生成对抗网络训练失败，无法保证生成的人脸图像的真实性，进而无法保证基于预先训练的生成对抗网络结构的图像编辑模型针对人脸图像的编辑效果的真实性。

发明内容

本发明实施例提供一种编辑模型生成、人脸图像编辑方法、装置、设备及介质，可以提高生成器和判别器的训练一致性，提高生成图像的真实性。

第一方面，本发明实施例提供了一种编辑模型生成方法，包括：

对生成对抗模型进行训练，所述生成对抗模型包括生成器和判别器；

根据所述判别器的梯度更新配置信息，更新所述生成对抗模型，所述梯度更新配置信息通过利普希茨约束条件确定；

在确定所述生成对抗模型满足训练结束条件时，根据当前训练的生成对抗模型中的生成器，生成图像编辑模型。

第二方面，本发明实施例提供了一种人脸图像编辑方法，包括：

获取待编辑的人脸图像；

将所述待编辑的人脸图像输入到预先训练的图像编辑模型中，得到所述图像编辑模型输出的编辑人脸图像；其中，所述图像编辑模型通过如本发明实施例任一项所述的编辑模型生成方法生成。

第三方面，本发明实施例还提供了一种编辑模型生成装置，包括：

生成对抗模型训练模块，用于对生成对抗模型进行训练，所述生成对抗模型包括生成器和判别器；

梯度更新配置信息获取模块，用于根据所述判别器的梯度更新配置信息，更新所述生成对抗模型，所述梯度更新配置信息通过利普希茨约束条件确定；

图像编辑模型生成模块，用于在确定所述生成对抗模型满足训练结束条件时，根据当前训练的生成对抗模型中的生成器，生成图像编辑模型。

第四方面，本发明实施例还提供了一种人脸图像编辑装置，包括：

人脸图像获取模块，用于获取待编辑的人脸图像；

人脸图像编辑模块，用于将所述待编辑的人脸图像输入到预先训练的图像编辑模型中，得到所述图像编辑模型输出的编辑人脸图像；其中，所述图像编辑模型通过如本发明实施例任一项所述的编辑模型生成方法生成。

第五方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序所述处理器执行所述程序时实现如本发明实施例中任一项所述的编辑模型生成方法或人脸图像编辑方法。

第六方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例中任一项所述的编辑模型生成方法或人脸图像编辑方法。

本发明实施例通过训练生成对抗模型，并根据利普希茨约束条件限制判别器的参数项的学习速率，减缓判别器的各参数项的学习速率，解决了现有技术中在生成对抗模型训练过程中，判别器预先完成训练，导致无法继续对生成器进行训练，从而无法保证生成器输出图像的真实性的问题，可以提高判别器和生成器的学习一致性，可以使判别器的参数项的变化更加连续性和光滑，在保证判别器对真假图像的判别准确率的同时，可以使生成器快速学习生成真实图像，进而可以有效应用在真实图像的图像编辑模型结构中，从而，提高基于生成器的图像编辑模型的编辑效果的真实性。

附图说明

图1a是本发明实施例一中的一种编辑模型生成方法的流程图；

图1b是本发明实施例一中的一种训练生成对抗模型的应用场景的示意图；

图2是本发明实施例二中的一种编辑模型生成方法的流程图；

图3a是本发明实施例三中的一种编辑模型生成方法的流程图；

图3b是本发明实施例三中的一种自监督训练卷积神经网络的应用场景的示意图；

图4a是本发明实施例四中的一种人脸图像编辑方法的流程图；

图4b是本发明实施例四中的一种人脸图像编辑图像的示意图；

图5是本发明实施例五中的一种编辑模型生成装置的结构示意图；

图6是本发明实施例六中的一种人脸图像编辑装置的结构示意图；

图7是本发明实施例七中的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。此外，本发明中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。

实施例一

图1a为本发明实施例一中的一种编辑模型生成方法的流程图，本实施例可适用于训练生成对抗模型，并根据训练完成的生成对抗模型中的生成器，生成图像编辑模型的情况，该方法可以由本发明实施例提供的编辑模型生成装置来执行，该装置可采用软件和/或硬件的方式实现，并一般可集成计算机设备中。如图1a所示，本实施例的方法具体包括：

S110，对生成对抗模型进行训练，生成对抗模型包括生成器和判别器。

在本实施例中，待训练的生成器和待训练的判别器，构成GAN模型。对GAN模型的训练操作，实际也是同时对生成器和判别器进行训练。

在本实施例中，采用样本对生成对抗模型进行训练。

可选的，对生成对抗模型进行训练，包括：将真实图像样本输入到生成对抗模型，对生成对抗模型进行训练。

真实图像样本包括噪声图像和真实图像等。噪声图像可以是随机噪声图像，真实图像可以包括真实人物、真实动物或真实场景等具有真实属性特征的图像，示例性的，真实图像可以包括真实人脸图像，例如，人脸照片。示例性的，可以将多个真实图像样本构成一个真实图像样本组，对生成对抗模型进行多轮训练，每轮训练可以采用设定数量个真实图像样本进行训练，设定数量可以根据实际情况进行选择，例如，8个，本发明实施联合对此并不进行限定。可以将设定数量个真实图像样本确定为一个真实图像样本组，在一轮训练中，采用一个真实图像样本组对生成对抗模型进行训练。

如图1b所示，生成对抗模型包括生成器101和判别器102。将真实图像样本输入到生成对抗模型可以是：将随机噪声图像输入到生成器中，获取生成器输出的生成图像，将生成图像和真实图像输入到判别器中，获取判别器输出的判别结果，在训练过程中更新生成器和判别器的参数项。

在本发明实施例中，生成器用于对任意图像进行编辑，并生成图像，判别器用于判断生成图像是否满足真实条件(或规则)。需要说明的是，判别器不是用于判断生成图像是否准确，也即是否准确将原图编辑成需要的图像效果，而是用于判断生成图像的真假，例如，图像为人脸图像，可以根据鼻子和嘴巴的位置关系判断真假，真实条件包括鼻子位于嘴巴正上方，示例性的，如果在生成器生成的图像中鼻子位于嘴巴下方，则确定生成的图像为假；如果在生成器生成的图像中鼻子位于嘴巴上方，则确定生成的图像为真。真实条件可以是用于判断图像是否符合真实情况，判别器可以学习真实特征，以进行图像的真假判断。

S120，根据判别器的梯度更新配置信息，更新生成对抗模型，梯度更新配置信息通过利普希茨约束条件确定。

梯度更新配置信息用于确定从每个真实图像样本学习到的参数项的学习速率，其中，学习速率用于衡量参数项的变化率。更新生成对抗模型实际是更新生成器的参数项和判别器的参数项。具体的，根据梯度更新配置信息可以确定各参数项的目标学习速率，获取更新后的参数项的数值，并根据更新后的参数项的数值和更新前的参数项的数值，计算该参数项的学习速率，并判断该学习速率与目标学习速率是否匹配。当学习速率与目标学习速率匹配时，将更新后的参数项的数值更新该参数项；当学习速率与目标学习速率不匹配时，根据目标学习速率确定该参数项的数值，并更新。具体的，可以根据利普希茨约束条件确定学习速率。

其中，利普希茨(Lipschitz)约束条件定义：

若存在常数L，使得对定义域D的任意两个不同的实数x1、x2均有下述不等式成立：

|f(x1)-f(x2)|≤L||x1-x2||

则称f(x)在D上满足Lipschitz约束条件，L称为利普希茨常数(该常数依函数而定)。显然地，若f(x)满足利普希茨条件，则f(x)一致连续。实际上，Lipschitz约束条件限制了函数的改变速率，也即限制了函数的改变幅度不能超过某个常量，其斜率必然小于L，可以根据L确定学习速率。

发明人通过研究发现，如果对更新步长无约束，则会使得判别器学习判别图像真假的速度过快，而生成器学习生成真实图像的速度过慢，从而导致判别器可以准确判别出真实图像与生成器生成的图像之间的区别，而生成器再怎样训练和学习都无法生成使判别器确定为真实图像的生成图像，因而，最终训练得到的生成器的生成图像的真实性无法保证。

有鉴于此，通过Lipschitz约束条件，可以降低判别器中各参数项的学习速率，降低判别器的学习速率，同时降低判别器的参数项的更新速率，在保证判别器对真假图像的判别准确率的同时，可以使生成器快速学习生成真实图像，进而可以有效应用在真实图像的图像编辑模型结构中。

可选的，根据判别器的梯度更新配置信息，更新生成对抗模型，包括：根据判别器的梯度更新配置信息，确定判别器中各特征提取层对应的参数学习速率最大阈值；根据各特征提取层的参数学习速率最大阈值，更新判别器的参数项，以使特征提取层关联的更新参数项与特征提取层对应的参数学习速率最大阈值匹配。

参数学习速率最大阈值用于确定参数项的最大学习速率，参数项是指生成对抗模型的参数项，具体是指判别器中各特征提取层对应的参数项。特征提取层用于从输入中提取特征信息，并输出。判别器可以是任意深度学习模型，通常包括多个特征提取层的结构。

更新参数项的数值相对于更新前参数项的数值的学习速率需要小于等于参数学习速率最大阈值所确定的最大学习速率。可以针对每个参数项都可以配置参数学习速率最大阈值，配置的参数项可以根据实际情况设置，例如可以选择一个或者多个判别器特征提取层关联的参数项配置参数学习速率最大阈值，对此，本发明实施例不做具体限定。

根据特征提取层的参数学习速率最大阈值，更新判别器的参数项具体可以是：根据梯度更新配置信息可以确定各参数项的最大学习速率，获取更新后的参数项的数值，并根据更新后的参数项的数值和更新前的参数项的数值，计算该参数项的学习速率，并判断该学习速率与目标学习速率的大小关系。当学习速率小于等于目标学习速率时，确定学习速率与目标学习速率匹配，将更新后的参数项的数值更新该参数项；当学习速率大于目标学习速率时，确定学习速率与目标学习速率不匹配，根据目标学习速率计算该参数项的数值，并更新。

示例性的，可以基于如下公式计算该参数项的数值：

其中，α为学习速率，J(θ₀，θ₁)为拟合函数，θ₀为更新前参数项的参数值，θ₁为更新后参数项的参数值。其中，α的取值可以为前述Lipschitz常数L的取值。

通过配置判别器特征提取层的参数学习速率最大阈值，限制每个参数项的学习速率的最大值，实现减缓判别器的各参数项的学习速率，提高判别器和生成器的学习一致性，从而在保证判别器对真假图像的判别准确率的同时，可以使生成器快速学习生成真实图像，进而可以有效应用在真实图像的图像编辑模型结构中。

S130，在确定生成对抗模型满足训练结束条件时，根据当前训练的生成对抗模型中的生成器，生成图像编辑模型。

训练结束条件用于判断生成对抗模型是否训练完成。通常，损失函数会收敛至设定数值，可以配置训练结束条件为损失函数小于设定数值，或者为损失函数的更新变化率小于设定阈值等。

生成对抗模型训练完成，此时，生成器可以准确生成真实图像。可以对生成器进行调整，生成图像编辑模型，由此，图像编辑模型可以对真实图像进行编辑，同时输出的编辑后的图像为真实图像。

其中，图像编辑模型的编辑方式可以包括图像中像素的位置、尺寸、亮度和颜色等属性的改变。图像编辑模型的编辑方式不会改变图像的真实性质，通常编辑后的图像仍为真实图像，示例性的，编辑方式包括对人脸的肤色、年龄、性别和器官区域等中的至少一项进行编辑，例如，将人脸的肤色由黄色编辑成白色；将人脸的年龄由50岁编辑成10岁；将人脸的性别由男性编辑成女性，将人脸的单眼皮编辑成双眼皮等。

生成器包括编码器和解码器。实际上，在生成器结构中，存在级联的多个中间层，这些中间层对应的中间结果可以影响生成器的最终输出结果，也即最后的图像编辑效果。因此可以通过从生成器中获取某些特定层的输出结果，作为隐藏空间(Latent Space)，对隐藏空间进行调整，再送入生成器后面的级联结构中，从而达到了图像编辑的效果，也即对生成器的隐藏空间的参数进行调整，生成图像编辑模型。例如，可以通过对隐藏空间的编辑，可以调整输出的人脸图像的人脸性别，示例性的，输入女性人脸，输出男性人脸。其中，隐藏空间可以根据生成器的具体结构选择。可选的，生成器包括编码器和解码器，隐藏空间为解码器中的神经网络层。需要说明的是，对隐藏空间进行编辑可以是：获取预先训练的图像编辑模型的参数项，更新该生成器的隐藏空间的参数项。

又如，采用图像编辑样本对生成器继续进行训练，生成图像编辑模型，其中，图像编辑样本包括：编辑前的真实图像和编辑后的真实图像等。例如，图像编辑样本可以包括编辑前的人脸图像和编辑后的人脸图像。其中，编辑后的人脸图像与编辑前的人脸图像的相关关系可以根据实际情况进行选择，例如，相关关系包括人的性别、年龄和肤色等，本发明实施例对此并不进行限定。

此外，还可以预先训练标准编码器，替换生成器的编码器，用于从输入图像提取出有效特征，标准编码器用于学习从输入图像中提取可以表征输入图像的特征。其中，生成器中的解码器的输入尺寸与标准编码器的输出尺寸匹配，尺寸可以是向量的维度。

本发明实施例通过将真实图像样本组输入到生成对抗模型，训练生成对抗模型，并根据利普希茨约束条件限制判别器的参数项的学习速率，减缓判别器的各参数项的学习速率，解决了现有技术中在生成对抗模型训练过程中，判别器预先完成训练，导致无法继续对生成器进行训练，从而无法保证生成器输出图像的真实性的问题，可以提高判别器和生成器的学习一致性，可以时判别器的参数项的变化更加连续性和光滑，在保证判别器对真假图像的判别准确率的同时，可以使生成器快速学习生成真实图像，进而可以有效应用在真实图像的图像编辑模型结构中，从而，提高基于生成器的图像编辑模型的编辑效果的真实性。

实施例二

图2为本发明实施例二中的一种编辑模型生成方法的流程图，本实施例以上述实施例为基础进行具体化。

如图2所示，本实施例的方法具体包括：

S210，对生成对抗模型进行训练，生成对抗模型包括生成器和判别器。

本发明实施例中未详尽的描述可以参考前述实施例。

S220，根据判别器的梯度更新配置信息，更新生成对抗模型，梯度更新配置信息通过利普希茨约束条件确定。

S230，根据损失函数配置信息计算生成对抗模型的损失函数，损失函数配置信息用于在初始损失函数中添加欧氏距离范数，欧氏距离范数包括的元素为生成器中编码器的参数项。

在生成对抗模型的训练过程中，实际上对实现输入到输出的算法的求解过程，对算法的求解实际是对算法中各参数项的数值进行求解。该算法存在目标函数，算法的求解过程是通过对该目标函数的优化过程。通常，可以将损失函数作为目标函数。损失函数用来生成对抗模型的预测值和真实值不一样的程度，损失函数越好，通常生成对抗模型的性能越好。通常不同的模型使用的损失函数不一样。

在本发明实施例中，损失函数用于作为生成对抗模型的训练目标。损失函数可以为如下形式：

其中，LOSS为初始损失函数，E(*)表示分布函数的期望值，m为真实图像，P_data(m)代表真实样本的分布，n为随机噪声，P_noise(n)代表噪声分布，P_noise(n)通过参数为θ_g的G映射到高位的数据空间得到G(n,θ_g)，P_data(m)通过参数为θ_d的D映射到高位的数据空间得到D(m,θ_d)。其中，是LOSS_D，是判别器的损失函数(训练目标)，是LOSS_G，是生成器的损失函数(训练目标)，训练D以最大化logD(m)训练样本，为提高真实样本和来自生成器生成的图像的判别准确率，同时训练G以最小化1-logD(G(n))，不断缩小真实图像和生成图像的差异，从而最大化判别器的训练目标，并同时最小化生成器的训练目标，实现判别器和生成器的对抗训练的训练效果。

现有的，采用初始损失函数作为训练目标，需要执行大量图像特征提取操作，计算代价高，求解速度慢。有鉴于此，可以在初始损失函数中欧氏距离范数，添加约束条件，可以达到与初始损失函数同样的参数拟合效果。同时，欧氏距离范数可以被分解为两个低维度的参数矩阵的组合，从而降低参数矩阵的维度，以及减少样本需求量。

同时，训练的生成对抗模型存在过拟合的问题，会导致生成对抗模型仅针对某几类真实图像的生成效果以及判别效果好，对未知真实图像的生成和判别效果差。有鉴于此，可以在初始损失函数中欧氏距离范数，添加约束条件，可以是的映射到隐藏空间的分布更加平均，降低各特征向量的耦合，提高生成对抗模型的泛化能力。

损失函数配置信息用于在初始损失函数的基础上，添加欧氏距离范数，该欧氏距离范数又可以称为正则化项，或者L2范数，是指各元素的平方和再开方的结果。在添加了欧氏距离范数之后，相当于对初始损失函数添加约束条件，实际是对于大数值的权重向量进行严厉惩罚，倾向于更加分散的权重向量，实现使权重的分配更均匀，避免集中在少数向量上，使得生成对抗模型更接近低维模型，相应的，维度越低，训练使用的数据量越小，可以降低生成对抗模型训练使用的数据量，从而可以降低生成对抗模型的复杂度。

具体的，更新后的损失函数可以为如下形式：

其中，θ_g为生成器的编码器中隐藏空间的参数项。λ为惩罚系数，用于调整生成对抗模型的复杂度，可以根据实际情况进行设定。‖·‖_F为隐藏空间的参数项矩阵的F范数。

欧氏距离范数包括的元素可以是θ_g，具体是生成器中编码器的参数项。

S240，如果确定损失函数满足稳定条件，则确定生成对抗模型满足训练结束条件，根据当前训练的生成对抗模型中的生成器，生成图像编辑模型。

稳定条件用于判断损失函数是否趋于稳定，例如，稳定条件用于判断相邻训练次数中损失函数的变化率是否小于设定阈值，可以理解，损失函数随训练次数的变化极小，表明该损失函数稳定，其中，设定阈值可以根据实际情况限定。损失函数的变化率可以是：计算当前损失函数与前一次训练计算得到的损失函数的差值，与当前损失函数的比值。如果该比值小于设定阈值，则确定损失函数再训练的变化速率很小，表明损失函数趋于稳定，或损失函数收敛。此时，确定生成对抗模型训练完成。或者，稳定条件可以是判断训练次数是否超过设定次数阈值，如果生成对抗模型的训练次数足够多，则可以确定生成对抗模型训练完成。

本发明实施例通过在初始损失函数中添加范数，以实现对损失函数中增加约束条件，可以使权重的分配更均匀，避免集中在少数向量上，可以降低生成对抗模型训练使用的数据量，从而可以降低生成对抗模型的复杂度，同时还可以提高生成对抗模型的泛化能力，增加生成对抗模型的真实图像的类型覆盖范围，以及提高对未知图像的判别准确率。

实施例三

图3a为本发明实施例三中的一种编辑模型生成方法的流程图，本实施例以上述实施例为基础进行具体化。

如图3a所示，本实施例的方法具体包括：

S310，对生成对抗模型进行训练，生成对抗模型包括生成器和判别器。

本发明实施例中未详尽的描述可以参考前述实施例。

S320，根据判别器的梯度更新配置信息，更新生成对抗模型，梯度更新配置信息通过利普希茨约束条件确定。

S330，在确定生成对抗模型满足训练结束条件时，获取预先训练的图像特征检测模型中的卷积神经网络；其中，图像特征检测模型通过根据图像特征样本训练生成，图像特征样本包括在同一图像中的两个区域图像块和两个区域图像块之间的关系数据，图像特征检测模块包括两个共享权重的卷积神经网络，特征向量拼接器和全连接网络分类器，卷积神经网络提取区域图像块的特征信息，并形成特征向量，特征向量拼接器用于将各卷积神经网络生成的特征向量合成目标特征向量，全连接网络分类器用于将目标特征向量进行分类，并输出各区域图像块之间的关系数据。

图像特征检测模型用于从图像中提取特征。图像特征检测模型包括卷积神经网络结构。图像特征检测模型可以是预先训练的深度学习模型。具体的，图像特征检测模型用于通过自监督方式学习从图像中提取不同区域图像块的特征，以及各区域图像块之间的关系。其中，区域图像块为在同一图像中的局部图像区域，区域图像块之间不存在重叠，区域图像块可以根据实际情况进行选择，例如，在图像中检测目标对象，并将目标对象划分为九等分(例如九宫格形式)，对此，本发明实施例不做具体限定。关系数据用于描述两个区域图像块之间的关系。关系数据可以是区域图像块的位置关系、尺寸关系、形状关系和颜色关系等中的至少一项。示例性的，关系数据包括位置关系，将图像划分为九宫格形式的区域图像块，位置关系可以包括：例如，左上、中上、右上、正左、正中、正右、左下、中下和右下等。

区域图像块的特征信息用于对区域图像块以数据形式进行表示。特征向量由特征信息组成，实际上特征信息是从不同维度表示区域图像块，特征向量用于表示维度信息。

具体的，卷积神经网络和特征向量拼接器用于将原始图像数据映射到隐藏空间，全连接网络分类器用于将学到的分布式特征表示映射到样本标记空间，从而根据样本标记可以确定样本的分类类型。其中，卷积神经网络采用PixelShuffle方法实现对特征图的上采样，可以减少转置卷积或者普通的线性插值上采样方法带来的人造物效应，从而可以提高基于卷积神经网络构造的生成器的生成图像的真实性。

具体如图3b所示，图像特征检测模块包括共享权重的第一卷积神经网络301和第二卷积神经网络302，特征向量拼接器303和全连接网络分类器304。其中，用于构建生成器的卷积神经网络可以是第一卷积神经网络301和第二卷积神经网络302中的任意一个。图像特征检测模块的具体流程可以是：将人脸该图像划分为至少两个区域图像块，例如，嘴巴区域图像块和右眼区域图像块，将嘴巴区域图像块输入到第一卷积神经网络301中，进行特征提取，得到第一卷积神经网络301输出的第一特征向量，并将右眼区域图像块输入到第二卷积神经网络302中，进行特征提取，得到第二卷积神经网络302输出的第二特征向量。将第一特征向量和第二特征向量输入到特征向量拼接器303中进行拼接，得到特征向量拼接器303输出的拼接后的特征向量，将拼接后的特征向量输入到全连接网络分类器304进行分类，区分出嘴巴区域图像块和右眼区域图像块的关系数据，例如，右眼区域图像块在嘴巴区域图像块的右上方。

可选的，图像特征样本包括在同一人脸图像中的两个人脸器官区域图像块和两个人脸器官区域图像块之间的关系数据。

人脸器官区域图像块可以是按照人脸器官进行划分的图像块，例如，鼻子区域图像块和嘴巴区域图像块。人脸器官区域图像块之间的关系数据可以是，两个人脸器官区域图像块在人脸图像中的位置之间的关系，例如，鼻子区域图像块在正中间，嘴巴区域图像块在中下，关系数据可以是鼻子区域图像块位于嘴巴区域图像块的上方。

通过采用人脸图像中的人脸器官区域图像块作为图像特征样本，可以准确从提取出用于区分人脸器官的特征信息，并进行学习，可以准确识别待编辑的人脸图像的各个器官，以提高人脸编辑的准确率。

S340，将卷积神经网络添加到生成器的解码器。

解码器的结构中可以包括卷积神经网络。将卷积神经网络作为生成器的解码器中的卷积神经网络，或者将卷积神经网络的参数项迁移到解码器中的卷积神经网络。

或者，在解码器中存在的特征提取网络中，额外添加卷积神经网络，并将卷积神经网络和其他特征提取网络进行共享权重，并在将卷积神经网络的输出特征向量和其他特征提取层的输出特征向量进行拼接，将拼接后的特征向量输入到原特征提取层输出特征向量的模块中，例如，全连接网络分类器中等。

S350，根据更新后的生成器，生成图像编辑模型。

更新后的生成器采用了自监督学习方式训练生成的卷积神经网络，可以在少量样本训练下完成对卷积神经网络的训练，降低生成器的训练样本的需求量，提高训练速度。

本发明实施例通过基于自监督学习方式训练生成的卷积神经网络构建生成器，并基于该生成器构建编辑模型，可以有效提取图像中的特征，并减少标注样本的需求量，降低编辑模型的训练样本量，从而提高编辑模型的生成速度，降低编辑模型的标注人工成本。

实施例四

图4a为本发明实施例四中的一种人脸图像编辑方法的流程图，本实施例可适用于采用图像编辑模型进行人脸图像编辑的情况，该方法可以由本发明实施例提供的人脸图像编辑装置来执行，该装置可采用软件和/或硬件的方式实现，并一般可集成计算机设备中。如图4a所示，本实施例的方法具体包括：

S410，获取待编辑的人脸图像。

人脸图像为包括人脸的真实图像。例如，用户自拍的照片。需要说明的是，卡通人物的人脸图像不是真实图像。

本发明实施例中未详尽的描述可以参考前述实施例。

S420，将待编辑的人脸图像输入到预先训练的图像编辑模型中，得到图像编辑模型输出的编辑人脸图像；其中，图像编辑模型通过如本发明实施例中任一项的编辑模型生成方法生成。

在本实施例中，图像编辑模型通过本发明任一实施例的编辑模型的生成方法生成，该编辑模型中的生成器或者生成器的解码器，通过本发明任一实施例的编辑模型的生成方法训练生成的生成对抗模型中获取，该生成对抗模型包括生成器和判别器，并采用利普希茨约束条件确定判别器梯度更新配置信息，减缓判别器的各参数项的学习速率，进而有效保证真实图像的准确率。

具体如图4b所示，三张图像中，第一张图像为教学书籍中常用的标准处理图像，该第一张图像为真实人脸图像。第二张图像为某个动态视频中的视频帧。第三张图像为第一张图像模拟视频帧的张嘴动作，形成的图像。

本发明实施例通过使用利普希茨约束条件约束生成对抗模型中的判别器的梯度更新配置信息，减缓判别器的各参数项的学习速率，最终生成的生成对抗模型中的生成器构建编辑模型，并基于该编辑模型获取真实人脸图像的编辑图像，可以提高人脸编辑的真实性，提高编辑模型生成编辑后的真实人脸图像的准确率，进而可以提高图像编辑效果的真实性，以进一步提高用户的使用体验。

实施例五

图5为本发明实施例五中的一种编辑模型生成装置的示意图。实施例五是实现本发明上述实施例提供的编辑模型生成方法的相应装置，该装置可采用软件和/或硬件的方式实现，并一般可集成计算机设备中等。

相应的，本实施例的装置可以包括：

生成对抗模型训练模块510，用于对生成对抗模型进行训练，生成对抗模型包括生成器和判别器；

梯度更新配置信息获取模块520，用于根据判别器的梯度更新配置信息，更新生成对抗模型，梯度更新配置信息通过利普希茨约束条件确定；

图像编辑模型生成模块530，用于在确定生成对抗模型满足训练结束条件时，根据当前训练的生成对抗模型中的生成器，生成图像编辑模型。

进一步的，图像编辑模型生成模块530，包括：损失函数正则化单元，用于根据损失函数配置信息计算生成对抗模型的损失函数，损失函数配置信息用于在初始损失函数中添加欧氏距离范数，欧氏距离范数包括的元素为生成器中编码器的参数项；如果确定损失函数满足稳定条件，则确定生成对抗模型满足训练结束条件。

进一步的，梯度更新配置信息获取模块520，包括：参数学习速率最大阈值获取单元，用于根据判别器的梯度更新配置信息，确定判别器中各特征提取层对应的参数学习速率最大阈值；根据各特征提取层的参数学习速率最大阈值，更新判别器的参数项，以使特征提取层关联的更新参数项与特征提取层对应的参数学习速率最大阈值匹配。

进一步的，图像编辑模型生成模块530，包括：自监督生成器生成单元，用于获取预先训练的图像特征检测模型中的卷积神经网络；将卷积神经网络添加到生成器的解码器；根据更新后的生成器，生成图像编辑模型；其中，图像特征检测模型通过根据图像特征样本训练生成，图像特征样本包括在同一图像中的两个区域图像块和两个区域图像块之间的关系数据，图像特征检测模块包括两个共享权重的卷积神经网络，特征向量拼接器和全连接网络分类器，卷积神经网络提取区域图像块的特征信息，并形成特征向量，特征向量拼接器用于将各卷积神经网络生成的特征向量合成目标特征向量，全连接网络分类器用于将目标特征向量进行分类，并输出各区域图像块之间的关系数据。

进一步的，图像特征样本包括在同一人脸图像中的两个人脸器官区域图像块和两个人脸器官区域图像块之间的关系数据。

进一步的，生成对抗模型训练模块510，包括：真实图像训练单元，用于将真实图像样本输入到生成对抗模型，对生成对抗模型进行训练。

上述编辑模型生成装置可执行本发明实施例任一所提供的编辑模型生成方法，具备执行的编辑模型生成方法相应的功能模块和有益效果。

实施例六

图6为本发明实施例六中的一种人脸图像编辑装置的示意图。实施例六是实现本发明上述实施例提供的人脸图像编辑方法的相应装置，该装置可采用软件和/或硬件的方式实现，并一般可集成计算机设备中等。

相应的，本实施例的装置可以包括：

人脸图像获取模块610，用于获取待编辑的人脸图像；

人脸图像编辑模块620，用于将待编辑的人脸图像输入到预先训练的图像编辑模型中，得到图像编辑模型输出的编辑人脸图像；其中，图像编辑模型通过如本发明实施例任意一项的编辑模型生成方法生成。

上述编辑模型生成装置可执行本发明实施例任一所提供的人脸图像编辑方法，具备执行的编辑模型生成方法相应的功能模块和有益效果。

实施例七

图7为本发明实施例七提供的一种计算机设备的结构示意图。图7示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图7显示的计算机设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。计算机设备12可以是挂接在总线上的设备。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture，ISA)总线，微通道体系结构(Micro Channel Architecture，MCA)总线，增强型ISA总线、视频电子标准协会(Video Electronics Standards Association，VESA)局域总线以及外围组件互连(Peripheral Component Interconnect，PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图7未显示，通常称为“硬盘驱动器”)。尽管图7中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)，数字视盘(Digital Video Disc-Read Only Memory，DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如系统存储器28中，这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(Input/Output，I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local AreaNetwork，LAN)，广域网(Wide Area Network，WAN)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图7中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、(Redundant Arrays of Inexpensive Disks，RAID)系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明任意实施例所提供的一种编辑模型生成方法或人脸图像编辑方法。

实施例八

本发明实施例八提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请所有发明实施例提供的编辑模型生成方法：

也即，该程序被处理器执行时实现：对生成对抗模型进行训练，生成对抗模型包括生成器和判别器；根据判别器的梯度更新配置信息，更新生成对抗模型，梯度更新配置信息通过利普希茨约束条件确定；在确定生成对抗模型满足训练结束条件时，根据当前训练的生成对抗模型中的生成器，生成图像编辑模型。

或实现如本申请所有发明实施例提供的人脸图像编辑方法：

获取待编辑的人脸图像；将待编辑的人脸图像输入到预先训练的图像编辑模型中，得到图像编辑模型输出的编辑人脸图像；其中，图像编辑模型通过如本发明实施例中任意一项的编辑模型生成方法生成。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、RAM、只读存储器(Read OnlyMemory，ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式CD-ROM、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、无线电频率(RadioFrequency，RF)等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括LAN或WAN——连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种图像编辑模型生成方法，其特征在于，包括：

在确定所述生成对抗模型满足训练结束条件时，根据当前训练的生成对抗模型中的生成器，生成图像编辑模型；

所述确定所述生成对抗模型满足训练结束条件，包括：

根据损失函数配置信息计算所述生成对抗模型的损失函数，所述损失函数配置信息用于在初始损失函数中添加欧氏距离范数，所述欧氏距离范数包括的元素为所述生成器中编码器的参数项；

如果确定所述损失函数满足稳定条件，则确定所述生成对抗模型满足训练结束条件；

所述根据所述判别器的梯度更新配置信息，更新所述生成对抗模型，包括：

根据所述判别器的梯度更新配置信息，确定所述判别器中各特征提取层对应的参数学习速率最大阈值；

根据各所述特征提取层的参数学习速率最大阈值，更新所述判别器的参数项，以使所述特征提取层关联的更新后的参数项与所述特征提取层对应的参数学习速率最大阈值匹配；

所述根据当前训练的生成对抗模型中的生成器，生成图像编辑模型，包括：

获取预先训练的图像特征检测模型中的卷积神经网络；将所述卷积神经网络添加到所述生成器的解码器；根据更新后的生成器，生成图像编辑模型；

其中，所述图像特征检测模型的训练步骤包括：提取区域图像块的特征信息，并形成特征向量，将各所述卷积神经网络生成的特征向量合成目标特征向量，将所述目标特征向量进行分类，获得各所述区域图像块之间的关系数据。

2.根据权利要求1所述的方法，其特征在于，所述图像特征检测模型通过图像特征样本训练生成，所述图像特征样本包括在同一图像中的两个区域图像块和两个所述区域图像块之间的关系数据；所述图像特征检测模型包括两个共享权重的卷积神经网络、特征向量拼接器和全连接网络分类器，所述卷积神经网络提取所述区域图像块的特征信息，并形成特征向量，所述特征向量拼接器用于将各所述卷积神经网络生成的特征向量合成目标特征向量，所述全连接网络分类器用于将所述目标特征向量进行分类，并输出各所述区域图像块之间的关系数据。

3.根据权利要求2所述的方法，其特征在于，所述图像特征样本包括在同一人脸图像中的两个人脸器官区域图像块和两个所述人脸器官区域图像块之间的关系数据。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述对生成对抗模型进行训练，包括：

将真实图像样本输入到生成对抗模型，对所述生成对抗模型进行训练。

5.一种人脸图像编辑方法，其特征在于，包括：

获取待编辑的人脸图像；

将所述待编辑的人脸图像输入到预先训练的图像编辑模型中，得到所述图像编辑模型输出的编辑人脸图像；

其中，所述图像编辑模型通过如权利要求1-4任一项所述的图像编辑模型生成方法生成。

6.一种基于权利要求1-4任一项所述的图像编辑模型生成方法的图像编辑模型生成装置，其特征在于，包括：

7.一种人脸图像编辑装置，其特征在于，包括：

人脸图像获取模块，用于获取待编辑的人脸图像；

人脸图像编辑模块，用于将所述待编辑的人脸图像输入到预先训练的图像编辑模型中，得到所述图像编辑模型输出的编辑人脸图像；其中，所述图像编辑模型通过如权利要求1-4任一项所述的图像编辑模型生成方法生成。

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-4中任一项所述的图像编辑模型生成方法，或如权利要求5所述的人脸图像编辑方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一项所述的图像编辑模型生成方法，或如权利要求5所述的人脸图像编辑方法。