CN116152901A

CN116152901A - 图像生成模型的训练方法及风格化图像生成方法

Info

Publication number: CN116152901A
Application number: CN202310443477.6A
Authority: CN
Inventors: 张顺四; 黄深能; 张强
Original assignee: Guangzhou Quwan Network Technology Co Ltd
Current assignee: Guangzhou Quwan Network Technology Co Ltd
Priority date: 2023-04-24
Filing date: 2023-04-24
Publication date: 2023-05-23
Anticipated expiration: 2043-04-24
Also published as: CN116152901B

Abstract

本申请提供了一种图像生成模型的训练方法及风格化图像生成方法，该训练方法采用对比学习的方式训练图像生成模型。在每轮次训练过程中，计算机设备可根据图像生成模型输出的样本风格化图像、对比学习模型输出的各张正例风格化图像和各张负例风格化图像，计算当前训练轮次对应的训练损失值，并据此训练图像生成模型的参数权重。并且，在每轮次训练过程中，计算机设备可根据样本风格化图像、各张正例风格化图像、各张负例风格化图像、图像生成模型在当前训练轮次对应的调整前后的参数权重，动态自适应地更新对比学习网络的参数权重，从而可根据样本学习的难易程度自动调整模型的更新速度，进而能有效加速图像生成模型的收敛，缩减训练耗时。

Description

图像生成模型的训练方法及风格化图像生成方法

技术领域

本申请涉及神经网络技术领域，尤其涉及一种图像生成模型的训练方法、图像生成模型的训练装置、风格化图像生成方法、风格化图像生成装置、存储介质及计算机设备。

背景技术

随着神经网络技术的发展与普及，神经网络技术的应用领域得到了极大的拓展，其中一种应用领域是用于实现人脸风格化。人脸风格化是指将真实人脸图像转换为特定风格的风格化图像，例如可将真实人脸图像转换为素描风格、卡通风格或者油画风格的图像。但是，经发明人研究发现，现有技术在训练图像生成模型时存在耗时过长的问题。

发明内容

本申请的目的旨在至少能解决上述的技术缺陷之一，特别是现有技术中训练耗时过长的技术缺陷。

第一方面，本申请实施例提供了一种图像生成模型的训练方法，所述方法包括：

在当前训练轮次中，从预先获取的第一训练集中选取当前训练轮次对应的样本真实图像、至少一张正例真实图像和至少一张负例真实图像；

将所述样本真实图像输入至图像生成模型中，以获取所述图像生成模型输出的样本风格化图像；

将各张所述正例真实图像和各张所述负例真实图像分别输入至对比学习模型中，以获取所述对比学习模型输出的各张正例风格化图像和各张负例风格化图像；其中，所述对比学习模型与所述图像生成模型具备相同的模型结构；

根据所述样本风格化图像、各张所述正例风格化图像和各张所述负例风格化图像，计算当前训练轮次对应的训练损失值；

根据当前训练轮次对应的训练损失值，更新所述图像生成模型的参数权重；

基于所述样本风格化图像、各张所述正例风格化图像、各张所述负例风格化图像、所述图像生成模型在当前训练轮次对应的更新前参数权重和更新后参数权重，调整所述对比学习模型的参数权重；

在不满足训练结束条件的情况下，进入下一训练轮次。

第二方面，本申请实施例提供了一种风格化图像生成方法，所述方法包括：

获取待转换真实人脸图像；

将所述待转换真实人脸图像输入至图像生成模型中，并获取所述图像生成模型输出的目标风格化图像；其中，所述图像生成模型是采用上述任一实施例所述的图像生成模型的训练方法训练得到的。

第三方面，本申请实施例提供了一种图像生成模型的训练装置，所述装置包括：

图像选取模块，用于在当前训练轮次中，从预先获取的第一训练集中选取当前训练轮次对应的样本真实图像、至少一张正例真实图像和至少一张负例真实图像；

样本风格化图像获取模块，用于将所述样本真实图像输入至图像生成模型中，以获取所述图像生成模型输出的样本风格化图像；

对比风格化图像获取模块，用于将各张所述正例真实图像和各张所述负例真实图像分别输入至对比学习模型中，以获取所述对比学习模型输出的各张正例风格化图像和各张负例风格化图像；其中，所述对比学习模型与所述图像生成模型具备相同的模型结构；

训练损失值计算模块，用于根据所述样本风格化图像、各张所述正例风格化图像和各张所述负例风格化图像，计算当前训练轮次对应的训练损失值；

模型训练模块，用于根据当前训练轮次对应的训练损失值，更新所述图像生成模型的参数权重；

参数调整模块，用于基于所述样本风格化图像、各张所述正例风格化图像、各张所述负例风格化图像、所述图像生成模型在当前训练轮次对应的更新前参数权重和更新后参数权重，调整所述对比学习模型的参数权重；

结束训练判断模块，用于在不满足训练结束条件的情况下，进入下一训练轮次。

第四方面，本申请实施例提供了一种风格化图像生成装置，所述装置包括：

待转换图像获取模块，用于获取待转换真实人脸图像；

图像生成模块，用于将所述待转换真实人脸图像输入至图像生成模型中，并获取所述图像生成模型输出的目标风格化图像；其中，所述图像生成模型是采用上述任一实施例所述的图像生成模型的训练方法训练得到的。

第五方面，本申请实施例提供了一种存储介质，该存储介质中存储有计算机可读指令，该计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述任一实施例所述图像生成模型的训练方法的步骤，和/或上述任一实施例所述风格化图像生成方法的步骤。

第六方面，本申请实施例提供了一种计算机设备，该计算机设备包括：一个或多个处理器，以及存储器；

所述存储器中存储有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，执行上述任一实施例所述图像生成模型的训练方法的步骤，和/或上述任一实施例所述风格化图像生成方法的步骤。

在本申请提供的图像生成模型的训练方法、图像生成模型的训练装置、风格化图像生成方法、风格化图像生成装置、存储介质和计算机设备中，可采用对比学习的方式训练图像生成模型。在每轮次训练过程中，计算机设备可根据图像生成模型输出的样本风格化图像、对比学习模型输出的各张正例风格化图像和各张负例风格化图像，计算当前训练轮次对应的训练损失值，并据此训练图像生成模型的参数权重。并且，在每轮次训练过程中，计算机设备可根据样本风格化图像、各张正例风格化图像、各张负例风格化图像、图像生成模型在当前训练轮次对应的调整前后的参数权重，动态自适应地更新对比学习网络的参数权重，从而可根据样本学习的难易程度自动调整模型的更新速度，进而能有效加速图像生成模型的收敛，缩减训练耗时。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为一个实施例中图像生成模型的训练方法的流程示意图；

图2为一个实施例中对比学习的示意性结构框图；

图3为一个实施例中计算当前训练轮次对应的训练损失值步骤的流程示意图；

图4为一个实施例中获取图像生成模型输出的样本风格化图像步骤的流程示意图；

图5为一个实施例中图像生成模型的示意性结构框图；

图6为一个实施例中风格化转换网络的示意性结构框图；

图7为一个实施例中图像生成模型的训练装置的示意性结构框图；

图8为一个实施例中风格化图像生成装置的示意性结构框图；

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

正如背景技术所言，现有技术中存在训练耗时过长的问题。此外，在训练过程中，现有技术是计算风格化图像和真实图像之间的损失值，据此调整图像生成模型的参数权重，使得训练后的图像生成模型能够生成与真实图像较为相似的风格化图像。然而，经发明人研究发现，通过前述训练方式得到的图像生成模型，其生成的风格化图像与真实图像之间的人脸相似度仍有待提高。

为解决上述问题，本申请实施例提供了一种图像生成模型的训练方法、图像生成模型的训练装置、风格化图像生成方法、风格化图像生成装置、存储介质及计算机设备，以缩短图像生成模型的训练耗时。进一步地，在一些实施例中，本申请还可提高风格化图像与真实图像之间的人脸相似度，使得图像生成模型生成的风格化图像更能反映真实图像的人脸特征。

在一些实施例中，本申请提供的图像生成模型的训练方法和风格化图像生成方法，均可应用于任意具备数据处理功能的计算机设备上。本文所述的计算机设备可以但不限于应用在各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备。

在一个实施例中，本申请了一种图像生成模型的训练方法，如图1所示，该方法具体可以包括如下步骤：

S102：在当前训练轮次中，从预先获取的第一训练集中选取当前训练轮次对应的样本真实图像、至少一张正例真实图像和至少一张负例真实图像。

具体而言，在训练图像生成模型时，计算机设备需要对图像生成模型进行多轮次的训练，直至图像生成模型满足训练结束条件。在每个训练轮次中，计算机设备均可执行本文所述的S102至S114，以调整图像生成模型的参数权重。

具体地，在当前训练轮次中，计算机设备可以从第一训练集中选取当前训练轮次对应的训练图像。其中，第一训练集可以是预先获取的训练集，其可包括多张真实图像。真实图像是指真实的人脸图像，其可记录有真实人脸的人脸特征，例如可为自拍照。第一训练集可以包括多个人脸标识对应的真实图像，且每个人脸标识可对应有多张不同拍摄角度、不同发型和/或不同妆容的真实图像。对于第一训练集中每两张真实图像，若该两张真实图像对应着相同的人脸标识，则表明该两张真实图像是对同一人拍摄得到的图像，否则，则表明该两张真实图像是对不同人拍摄得到的图像。

在本申请中，计算机设备可基于对比学习来训练图像生成模型。因此，在每个训练轮次中，该训练轮次对应的训练图像可以包括样本真实图像、至少一张正例真实图像和至少一张负例真实图像。样本真实图像与每张正例真实图像组成正例，进而得到当前训练轮次对应的正例集合。同理，样本真实图像与每张负例真实图像组成负例，进而得到当前训练轮次对应的负例集合。

其中，正例真实图像可以是第一训练集中，与样本真实图像对应着相同人脸标识的真实图像。也即，样本真实图像和正例真实图像可以是同一人脸标识对应的两张真实人脸图像。负例真实图像可以是第一训练集中，与样本真实图像对应着不同人脸标识的真实图像。

可以理解，对于每两个训练轮次，该两个训练轮次对应的训练图像可以完全不同、完全相同或者部分不同，本文对此不作具体限定。在其中一个实施例中，在执行S102的过程中，计算机设备可以从第一训练集中随机选取一张真实图像作为样本真实图像，并根据样本真实图像对应的人脸标识随机选取一张正例真实图像，以及将第一训练集中对应的不同人脸标识的全部真实图像作为各张负例真实图像。

S104：将样本真实图像输入至图像生成模型中，以获取图像生成模型输出的样本风格化图像。

具体而言，图像生成模型用于将真实的人脸图像转换为特定风格的风格化图像并输出。因此，在确定当前训练轮次对应的样本真实图像的情况下，计算机设备可以将当前训练轮次对应的样本真实图像输入至图像生成模型，从而可得到对应的样本风格化图像。

S106：将各张正例真实图像和各张负例真实图像分别输入至对比学习模型中，以获取对比学习模型输出的各张正例风格化图像和各张负例风格化图像；其中，对比学习模型与图像生成模型具备相同的模型结构。

具体而言，对比学习模型的模型结构与图像生成模型的模型结构相同，且对比学习模型的参数权重与图像生成模型的参数权重可以相同或不同。在其中一个实施例中，若当前训练轮次为第一轮次，则对比学习模型的参数权重与图像生成模型的参数权重均为初始权重；若当前训练轮次非第一轮次，则对比学习模型与图像生成模型可以具备不同的参数权重。

对比学习模型可以将真实的人脸图像转换为特定风格的风格化图像并输出。因此，计算机设备可以分别将各张正例真实图像和各张负例真实图像输入到对比学习模型中，以获取由对比学习模型输出的每张正例真实图像对应的正例风格化图像，以及每张负例真实图像对应的负例风格化图像。

S108：根据样本风格化图像、各张正例风格化图像和各张负例风格化图像，计算当前训练轮次对应的训练损失值。

具体而言，样本风格化图像和各张正例风格化图像可以用于计算各个正例对应的损失值，样本风格化图像和各张负例风格化图像可以用于计算各个负例对应的损失值。计算机设备可以根据各个正例对应的损失值和各个负例对应的损失值，确定当前训练轮次对应的训练损失值。

S110：根据当前训练轮次对应的训练损失值，更新图像生成模型的参数权重。

具体而言，计算机设备可以根据当前训练轮次对应的训练损失值，对图像生成模型的参数权重进行调整，以更新图像生成模型的参数权重。例如，计算机设备可以采用梯度下降法，基于当前训练轮次对应的训练损失值，更新图像生成模型的参数权重。

若满足训练结束条件，则当前训练轮次对应的更新后图像生成模型可以作为训练后的图像生成模型；若不满足训练结束条件，则当前训练轮次对应的更新后图像生成模型可用于生成下一训练轮次对应的样本风格化图像。

S112：基于样本风格化图像、各张正例风格化图像、各张负例风格化图像、图像生成模型在当前训练轮次对应的更新前参数权重和更新后参数权重，调整对比学习模型的参数权重。

具体而言，图像生成模型的参数权重可以通过训练更新，而对比学习模型的参数权重可以通过动态方式进行更新。由于对比学习模型的参数权重影响着正例风格化图像和负例风格化图像的图像生成，并且正例风格化图像和负例风格化图像关联于训练损失值，因此，通过对比学习模型的参数权重调整影响着图像生成模型的更新速度，进而影响着模型的收敛速度。

本申请在当前训练轮次中，计算机设备可以根据样本风格化图像、各张正例风格化图像和各张负例风格化图像，确定样本学习的难易程度，并基于样本学习的难易程度、图像生成模型在当前训练轮次对应的更新前后参数权重，调整对比学习模型的参数权重。如此，可根据样本学习的难易程度自动调整模型更新速度，进而能有效加速模型的收敛。在实际应用中，采用本申请可以将模型的训练时间从12小时下降到5小时。

S114：在不满足训练结束条件的情况下，进入下一训练轮次。

其中，训练结束条件的具体条件内容可以依据实际情况确定，本申请对此不作具体限制。在不满足训练结束条件时，计算机设备可以进入下一训练轮次，并执行步骤S102至S114。

本申请可采用对比学习的方式训练图像生成模型。在每轮次训练过程中，计算机设备可根据图像生成模型输出的样本风格化图像、对比学习模型输出的各张正例风格化图像和各张负例风格化图像，计算当前训练轮次对应的训练损失值，并据此训练图像生成模型的参数权重。并且，在每轮次训练过程中，计算机设备可根据样本风格化图像、各张正例风格化图像、各张负例风格化图像、图像生成模型在当前训练轮次对应的调整前后的参数权重，动态自适应地更新对比学习网络的参数权重，从而可根据样本学习的难易程度自动调整模型的更新速度，进而能有效加速图像生成模型的收敛，缩减训练耗时。

在一个实施例中，基于样本风格化图像、各张正例风格化图像、各张负例风格化图像、图像生成模型在当前训练轮次对应的更新前参数权重和更新后参数权重，调整对比学习模型的参数权重的步骤，包括：

根据样本风格化图像和各张正例风格化图像计算正例特征向量距离，以及根据样本风格化图像和各张负例风格化图像计算负例特征向量距离；

基于正例特征向量距离和负例特征向量距离，计算加权系数；

根据加权系数、图像生成模型在当前训练轮次对应的更新前参数权重和更新后参数权重，调整对比学习模型的参数权重。

具体而言，每张风格化图像都可编码为对应的图像特征向量，以通过图像特征向量的方式表达风格化图像的图像内容。计算机设备可以计算各张正例风格化图像和样本风格化图像之间的特征向量距离，以得到正例特征向量距离。该正例特征向量距离可以用于反映样本风格化图像和正例风格化图像之间的差异程度。同理，计算机设备可以计算各张负例风格化图像和样本风格化图像之间的特征向量距离，以得到负例特征向量距离。该负例特征向量距离可以用于反映样本风格化图像和负例风格化图像之间的差异程度。

可以理解，计算机设备可以采用任意方式来计算正例特征向量距离和负例特征向量距离，本文对此不作具体限制。在一个示例中，请参阅图2，计算机设备可以通过图像特征编码模型来分别获取样本风格化图像、各张正例风格化图像和各张负例风格化图像的图像特征向量，并分别计算样本风格化图像的图像特征向量和各张正例风格化图像的图像特征向量之间的余弦距离，以得到正例特征向量距离。以及，计算机设备还可计算样本风格化图像的图像特征向量和各张负例风格化图像的图像特征向量之间的余弦距离，以得到负例特征向量距离。

在得到当前训练轮次对应的正例特征向量距离和负例特征向量距离的情况下，计算机设备可以据此计算当前训练轮次对应的加权系数，并根据加权系数、图像生成模型在当前训练轮次对应的更新前参数权重和更新后参数权重，调整对比学习模型的参数权重，进而实现动态自适应更新对比学习模型。

如此，计算机设备可以同时结合正例和负例的学习情况确定加权系数，并基于该加权系数调整对比学习模型的参数权重，从而可进一步加速模型的收敛，缩短训练耗时。

可以理解，在本申请的方案中，计算机设备可以采用任意方式来计算加权系数。在一个实施例中，计算机设备可以基于以下表达式计算加权系数：

；

式中，

为加权系数，/>

为正例特征向量距离，

为负例特征向量距离，/>

为样本风格化图像的图像特征向量，/>

为正例风格化图像的图像特征向量，/>

为负例风格化图像的图像特征向量。如此，可以使得加权系数更加准确地反映样本学习的难易程度，以进一步加速模型的收敛，缩短训练耗时。

类似地，在确定当前训练轮次对应的加权系数的情况下，计算机设备可以采用任意方式来更新对比学习模型的参数权重。在一个实施例中，计算机设备可以基于以下表达式更新对比学习模型的参数权重：

；

式中，

为对比学习模型在更新后的参数权重，/>

为加权系数，/>

为图像生成模型在当前训练轮次对应的更新前参数权重，/>

为图像生成模型在当前训练轮次对应的更新后参数权重。如此，一方面可以自适应动态更新对比学习模型的参数权重，另一方面也可减少参数权重的计算量，以进一步缩短训练耗时。

在一个实施例中，各张负例真实图像包括第一训练集中每张与样本真实图像对应不同人脸标识的真实图像。例如，第一训练集可以包括第一人脸标识对应的多张真实图像，第二人脸标识对应的多张真实图像和第三人脸标识对应的多张真实图像，若当前训练轮次对应的样本真实图像对应第一人脸标识，则计算机设备可以将第二人脸标识对应的各张真实图像和第三人脸标识对应的各张真实图像作为当前训练轮次对应的各张负例真实图像。

如图3所示，根据样本风格化图像、各张正例风格化图像和各张负例风格化图像，计算当前训练轮次对应的训练损失值的步骤，包括：

S302：分别计算每张负例真实图像和样本真实图像之间的图像相似度；

S304：确定当前训练轮次对应的已训练次数；

S306：若已训练次数小于预设次数阈值，则将图像相似度大于第一预设相似度阈值的负例真实图像作为目标图像，否则，将图像相似度大于第二预设相似度阈值的负例真实图像作为目标图像；第一预设相似度阈值大于第二预设相似度阈值；

S308：根据样本风格化图像、各张正例风格化图像和各张目标图像对应的负例风格化图像，计算当前训练轮次对应的对比损失值；

S310：基于对比损失值计算当前训练轮次对应的训练损失值。

具体而言，在计算当前训练轮次对应的对比损失值时，计算机设备可以根据每张负例真实图像和样本真实图像之间的图像相似度，从各张负例真实图像中选取出部分或全部负例真实图像作为目标图像，并根据样本风格化图像、各张正例风格化图像和目标图像对应的负例风格化图像计算当前训练轮次的对比损失值，进而得到当前训练轮次的训练损失值。在一个示例中，计算机设备可以采用InfoNCE函数作为对比损失函数，InfoNCE函数具体可为：

；

式中，

为对比损失值，/>

为样本风格化图像的图像特征向量，

为正例风格化图像的图像特征向量，/>

为负例风格化图像的图像特征向量，

为温度系数，/>

为目标图像的总数量。

可以理解，本申请实施例可以采用任意方式来计算负例真实图像和样本真实图像之间的图像相似度。在一个示例中，计算机设备可以采用余弦距离作为图像相似度，也即计算机设备可以分别计算每张负例真实图像的图像特征向量和样本真实图像的图像特征向量之间的余弦距离，并以该余弦距离作为该负例真实图像和样本真实图像之间的图像相似度。

在计算过程中，计算机设备可以确定当前训练轮次对应的已训练次数。该已训练次数能够反映图像生成模型的训练次数。通过将已训练次数与预设次数阈值进行大小比较，计算机设备可以确定当前训练轮次属于训练前期或是训练后期。可以理解，该预设次数阈值的具体数值可以依据实际情况确定，例如可以是10万，也即，当已训练次数大于或等于10万次时，可确定当前训练轮次属于训练后期，当已训练次数小于10万次时，可确定当前训练轮次属于训练前期。

当已训练次数小于预设次数阈值时，表明当前训练轮次属于训练前期，计算机设备可以选取图像相似度大于第一预设相似度阈值的负例真实图像作为目标图像。当已训练次数大于或等于预设次数阈值时，表明当前训练轮次属于训练后期，计算机设备可以选取图像相似度大于第二预设相似度阈值的负例真实图像作为目标图像。

由于第一预设相似度阈值大于第二预设相似度阈值，因此，在训练前期，计算机设备将会选取出区别更加明显的负例真实图像作为目标图像，并据此训练图像生成模型，从而可进一步加速模型的收敛和提高生成图片的多样性。经测试，在实际应用中，在训练前期选取区别更加明显的负例真实图像作为目标图像来训练图像生成模型，可以使FID（Frechet Inception Distance，Frechet Inception距离）值从55.40降低至36.27，IS（Inception Score）值从0.54上升到0.68。

在训练后期，计算机设备将会选取出和正例真实图像更为相似的负例真实图像作为目标图像，并据此训练图像生成模型，从而可提高图像生成模型对困难样本的筛选能力，进而可提高图像生成模型输出的风格化图像与真实图像之间的相似度。经测试，在实际应用中，在训练后期选取更加相似的负例真实图像作为目标图像来训练图像生成模型，可以使风格化图像与真实图像之间的相似度从80%提高至93%以上。

由此可见，采用本实施例所述的方法可以在确保加速模型收敛的基础上，提高风格化图像的多样性及提高风格化图像与真实图像之间的相似度。

可以理解，本申请中第一预设相似度阈值和第二预设相似度阈值的具体数值均可依据实际情况确定，本文对此不作具体限制。在一个示例中，第一预设相似度阈值可以为0.8，第二预设相似度阈值可以为0.3。

在一个实施例中，基于对比损失值计算当前训练轮次对应的训练损失值的步骤，包括：

基于正例特征向量距离和负例特征向量距离，计算当前训练轮次对应的人脸损失值；

根据对比损失值和人脸损失值，确定当前训练轮次对应的训练损失值。

具体而言，关于正例特征向量距离和负例特征向量距离的相关说明可参阅上述实施例，本文在此不再赘述。在计算得到当前训练轮次对应的正例特征向量距离和负例特征向量距离的情况下，计算机设备可以根据当前训练轮次对应的正例特征向量距离和负例特征向量距离，计算当前训练轮次对应的正负例之间的人脸损失值，并结合当前训练轮次的对比损失值和人脸损失值确定当前训练轮次的训练损失值。

可以理解，本申请可以采用任意方式来实现人脸损失值的计算。在其中一个实施例中，计算机设备可以基于以下表达式计算当前训练轮次对应的人脸损失值：

；

式中，

为人脸损失值，/>

为正例特征向量距离，

为负例特征向量距离，/>

为样本风格化图像的图像特征向量，/>

为正例风格化图像的图像特征向量，/>

为负例风格化图像的图像特征向量。

本实施例中，通过结合对比损失值和人脸损失值确定当前训练轮次的训练损失值，从而可根据对比学习情况和风格转换情况更新图像生成模型的参数权重，使得图像生成模型可以输出与真实图像相似度更高的风格化图像。

将预先获取的第二训练集中各张真实人脸图像输入到图像生成模型中，以获取图像生成模型输出的各张训练风格化图像；其中，第二训练集包括多组训练数据，每组训练数据包括真实人脸图像和标签风格化图像；

根据各张训练风格化图像和各张标签风格化图像，分别计算当前训练轮次对应的VGG损失值和L1损失值；

基于VGG损失值、L1损失值和对比损失值计算当前训练轮次对应的训练损失值。

具体而言，计算机设备可预先获取第二训练集，该第二训练集包括多组训练数据。每组训练数据包括训练图像和标签图像，其中训练图像是真实人脸图像，标签图像是指预先生成且与同组训练数据中的真实人脸图像相对应的风格化图像，即本文所述的标签风格化图像。

在当前训练轮次中，计算机设备可以将第二训练集中的各张真实人脸图像输入至图像生成模型，以获取由图像生成模型输出的各张训练风格化图像。各张训练风格化图像和各张真实人脸图像一一对应。计算机设备可以根据当前训练轮次对应的各张训练风格化图像和第二训练集中的各张标签风格化图像，基于VGG损失函数计算得到当前训练轮次对应的VGG损失值。以及，计算机设备可以根据当前训练轮次对应的各张训练风格化图像和各张标签风格化图像，基于L1损失函数计算得到当前训练轮次对应的L1损失值。

计算机设备可以结合当前训练轮次对应的VGG损失值、L1损失值和对比损失值，得到当前训练轮次对应的训练损失值。在一个示例中，计算机设备可以对VGG损失值、L1损失值和对比损失值进行加权求和，以得到训练损失值。

本实施例中，通过结合对比损失值、VGG损失值和L1损失值确定当前训练轮次的训练损失值，从而可进一步加速模型收敛，缩短训练耗时。

在一个实施例中，如图4所示，将样本真实图像输入至图像生成模型中，以获取图像生成模型输出的样本风格化图像的步骤，包括：

S402：采用图像生成模型的编码网络对样本真实图像进行编码，以得到编码结果；

S404：采用图像生成模型的风格化转换网络对编码结果进行转换，以得到用于生成样本风格化图像的第一语义分割图；

S406：采用图像生成模型的解码网络对编码结果和第一语义分割图进行解码，以得到样本风格化图像。

具体而言，图像生成模型的模型结构具体可包括编码网络、风格化转换网络和解码网络。其中，编码网络用于对图像进行编码，以得到图像所对应的编码结果。风格化转换网络用于根据编码结果进行转换，以得到第一语义分割图，该第一语义分割图可用于生成风格化图像。解码网络用于对获取到的输入数据进行解码，并将解码结果进行输出。

由于第一语义分割图记录有人脸五官区域信息，因此将第一语义分割图引入解码网络，令解码网络对编码结果和第一语义分割图进行解码以得到风格化图像，有利于解码网络调整人脸局部特征，提高图像生成模型输出的风格化图像与真实图像之间的相似度。

可以理解，编码网络可以包括多层编码层，编码层的具体设置数量可依据实际情况确定。类似地，解码网络可以包括多层解码层，解码层的具体设置数量可以依据实际情况确定。在一个示例中，如图5所示，编码网络可以包括4层编码层，解码网络可以包括4层解码层。风格化转换网络可以对第一编码层E1输出的编码结果进行转换，并将转换得到的第一语义分割图作为第二解码层D2的输入。风格化转换网络还可对第二编码层E2输出的编码结果进行转换，并将转换得到的第一语义分割图作为第一解码层D1的输入。

在一个实施例中，采用图像生成模型的解码网络对编码结果和第一语义分割图进行解码，以得到样本风格化图像的步骤，包括：

采用解码网络的第一解码层对编码结果进行解码，以得到初始解码结果；

采用解码网络的第二解码层对初始解码结果和第一语义分割图进行拼接，并对拼接结果进行解码，以得到样本风格化图像。

具体而言，编码网络可以包括至少两个解码层，分别为第一解码层和第二解码层。图像生成模型可以采用第一解码层对编码层输出的编码结果进行解码，以得到初始解码结果。在得到初始解码结果的情况下，图像生成模型可以将初始解码结果与风格化转换网络输出的第一语义分割图进行拼接，并采用第二解码层对拼接结果进行解码，以得到风格化图像。如此，一方面可将第一语义分割图引入解码网络，以提高风格化图像与真实图像之间的相似度。另一方面，还可简化图像生成过程，以提高图像生成效率。

在一个示例中，当图像生成模型的模型结构如图5所示时，图像生成模型可以将依据第二编码层E2生成的第一语义分割图与第三编码层D3输出的解码结果进行拼接以得到第一拼接结果，并采用第一解码层D1对第一拼接结果进行解码以得到解码结果。计算机设备还可将依据第一编码层E1生成的第一语义分割图与第一编码层D1输出的解码结果进行拼接以得到第二拼接结果，并采用第二解码层D2对第二拼接结果进行解码以得到风格化图像。

在一个实施例中，采用图像生成模型的风格化转换网络对编码结果进行转换，以得到用于生成样本风格化图像的第一语义分割图的步骤，包括：

采用风格化转换网络的提取单元对编码结果进行处理，以提取对应于样本真实图像的第二语义分割图；

采用风格化转换网络的语义转换单元对第二语义分割图进行语义转换，以得到第一语义分割图。

具体而言，如图6所示，风格化转换网络可以包括提取单元和语义转换单元。其中，提取网络用于基于编码结果提取真实图像对应的语义分割图，以得到第二语义分割图。语义转换网络用于对第二语义分割图进行语义转换，以得到风格化图像对应的语义风格图。如此，可有效捕捉真实图像和风格化图像的人脸局部差异并做相应转换，以保证人脸风格化后的局部相似度。

在一个实施例中，当图像生成模型包括编码网络、风格化转换网络和解码网络，且风格化转换网络的网络结构如图6所示时，第二训练集中每组训练数据还可包括真实人脸图像对应的真实人脸语义分割图和标签风格化图像对应的风格化语义分割图。在计算当前训练轮次对应的训练损失值的过程中，计算机设备可以根据当前训练轮次对应的第二语义分割图和真实人脸语义分割图，计算得到提取网络对应的提取损失值。以及，计算机设备可以根据当前训练轮次对应的第一语义分割图和风格化语义分割图，计算得到语义转换网络对应的转换损失值，并结合当前训练轮次对应的对比损失值、提取损失值和转换损失值计算当前训练轮次对应的训练损失值。

可以理解，计算机设备可以选用任意损失函数来计算得到提取损失值和转换损失值。在一个示例中，计算机设备可以采用L1损失函数来分别计算提取损失值和转换损失值。

在一个实施例中，计算机设备可以将当前训练轮次对应的对比损失值、人脸损失值、VGG损失值、L1损失值、提取损失值和转换损失值进行加权求和，以得到当前训练轮次对应的训练损失值。各个损失值对应的权重系数可依据实际情况确定。

在一个实施例中，本申请还提供了一种风格化图像生成方法，该方法具体包括如下步骤：

获取待转换真实人脸图像；

将所述待转换真实人脸图像输入至图像生成模型中，并获取所述图像生成模型输出的目标风格化图像；其中，所述图像生成模型是上述任一实施例所述的图像生成模型的训练方法训练得到。

其中，待转换真实人脸图像可以是记录有真实人脸的人脸特征，例如可为自拍照。通过将待转换真实人脸图像输入到图像生成模型中，从而可获取对应于待转换真实人脸图像的目标风格化图像，实现风格化图像的生成。

下面对本申请实施例提供的图像生成模型的训练装置进行描述，下文描述的图像生成模型的训练装置与上文描述的图像生成模型的训练方法可相互对应参照。

在一个实施例中，本申请提供了一种图像生成模型的训练装置700。如图7所示，该训练装置700包括图像选取模块710、样本风格化图像获取模块720、对比风格化图像获取模块730、训练损失值计算模块740、模型训练模块750、参数调整模块760和结束训练判断模块770。其中：

图像选取模块710，用于在当前训练轮次中，从预先获取的第一训练集中选取当前训练轮次对应的样本真实图像、至少一张正例真实图像和至少一张负例真实图像；

样本风格化图像获取模块720，用于将所述样本真实图像输入至图像生成模型中，以获取所述图像生成模型输出的样本风格化图像；

对比风格化图像获取模块730，用于将各张所述正例真实图像和各张所述负例真实图像分别输入至对比学习模型中，以获取所述对比学习模型输出的各张正例风格化图像和各张负例风格化图像；其中，所述对比学习模型与所述图像生成模型具备相同的模型结构；

训练损失值计算模块740，用于根据所述样本风格化图像、各张所述正例风格化图像和各张所述负例风格化图像，计算当前训练轮次对应的训练损失值；

模型训练模块750，用于根据当前训练轮次对应的训练损失值，更新所述图像生成模型的参数权重；

参数调整模块760，用于基于所述样本风格化图像、各张所述正例风格化图像、各张所述负例风格化图像、所述图像生成模型在当前训练轮次对应的更新前参数权重和更新后参数权重，调整所述对比学习模型的参数权重；

结束训练判断模块770，用于在不满足训练结束条件的情况下，进入下一训练轮次。

在一个实施例中，本申请的参数调整模块760包括第一特征向量距离计算单元、加权系数计算单元和调整单元。其中，第一特征向量距离计算单元用于根据所述样本风格化图像和各张所述正例风格化图像计算正例特征向量距离，以及根据所述样本风格化图像和各张所述负例风格化图像计算负例特征向量距离。加权系数计算单元用于基于所述正例特征向量距离和所述负例特征向量距离，计算加权系数。调整单元用于根据所述加权系数、所述图像生成模型在当前训练轮次对应的更新前参数权重和更新后参数权重，调整所述对比学习模型的参数权重。

在一个实施例中，本申请的加权系数计算单元用于基于以下表达式计算所述加权系数：

；

式中，

为所述加权系数，/>

为所述正例特征向量距离，

为所述负例特征向量距离。

在一个实施例中，各张所述负例真实图像包括所述第一训练集中每张与所述样本真实图像对应不同人脸标识的真实图像。

本申请的训练损失值计算模块740包括图像相似度计算单元、已训练次数确定单元、目标图像确定单元、对比损失值计算单元和训练损失值计算单元。其中，图像相似度计算单元用于分别计算每张所述负例真实图像和所述样本真实图像之间的图像相似度。已训练次数确定单元用于确定当前训练轮次对应的已训练次数。目标图像确定单元用于若所述已训练次数小于预设次数阈值，则将图像相似度大于第一预设相似度阈值的负例真实图像作为目标图像，否则，将图像相似度大于第二预设相似度阈值的负例真实图像作为目标图像；所述第一预设相似度阈值大于所述第二预设相似度阈值。对比损失值计算单元用于根据所述样本风格化图像、各张所述正例风格化图像和各张所述目标图像对应的负例风格化图像，计算当前训练轮次对应的对比损失值。训练损失值计算单元用于基于所述对比损失值计算当前训练轮次对应的所述训练损失值。

在一个实施例中，本申请的训练损失值计算单元包括第二特征向量距离计算单元、人脸损失值计算单元和第一训练损失值确定单元。其中，第二特征向量距离计算单元用于根据所述样本风格化图像和各张所述正例风格化图像计算正例特征向量距离，以及根据所述样本风格化图像和各张所述负例风格化图像计算负例特征向量距离。人脸损失值计算单元用于基于所述正例特征向量距离和所述负例特征向量距离，计算当前训练轮次对应的人脸损失值。第一训练损失值确定单元用于根据所述对比损失值和所述人脸损失值，确定当前训练轮次对应的所述训练损失值。

在一个实施例中，本申请的训练损失值计算单元包括训练风格化图像计算单元、VGG及L1损失值计算单元和第二训练损失值确定单元。其中，训练风格化图像计算单元用于将预先获取的第二训练集中各张真实人脸图像输入到所述图像生成模型中，以获取所述图像生成模型输出的各张训练风格化图像；其中，所述第二训练集包括多组训练数据，每组所述训练数据包括真实人脸图像和标签风格化图像。VGG及L1损失值计算单元用于根据各张所述训练风格化图像和各张所述标签风格化图像，分别计算当前训练轮次对应的VGG损失值和L1损失值。第二训练损失值确定单元用于基于所述VGG损失值、所述L1损失值和所述对比损失值计算当前训练轮次对应的所述训练损失值。

在一个实施例中，本申请的样本风格化图像获取模块720包括编码单元、第一语义分割图获取单元和解码单元。其中，编码单元用于采用所述图像生成模型的编码网络对所述样本真实图像进行编码，以得到编码结果。第一语义分割图获取单元用于采用所述图像生成模型的风格化转换网络对所述编码结果进行转换，以得到用于生成所述样本风格化图像的第一语义分割图。解码单元用于采用所述图像生成模型的解码网络对所述编码结果和所述第一语义分割图进行解码，以得到所述样本风格化图像。

在一个实施例中，本申请的解码单元包括第一解码单元和第二解码单元。其中，第一解码单元用于采用所述解码网络的第一解码层对所述编码结果进行解码，以得到初始解码结果。第二解码单元用于采用所述解码网络的第二解码层对所述初始解码结果和所述第一语义分割图进行拼接，并对拼接结果进行解码，以得到所述样本风格化图像。

在一个实施例中，本申请的第一语义分割图获取单元包括第一转换单元和第二转换单元。其中，第一转换单元用于采用所述风格化转换网络的提取单元对所述编码结果进行处理，以提取对应于所述样本真实图像的第二语义分割图。第二转换单元用于采用所述风格化转换网络的语义转换单元对所述第二语义分割图进行语义转换，以得到所述第一语义分割图。

下面对本申请实施例提供的风格化图像生成装置进行描述，下文描述的风格化图像生成装置与上文描述的风格化图像生成方法可相互对应参照。

在一个实施例中，本申请提供了一种风格化图像生成装置800。如图8所示，该风格化图像生成装置800可以包括待提取图像获取模块810和风格化模块820。其中：

待提取图像获取模块810用于获取待转换真实人脸图像。风格化模块820用于将所述待转换真实人脸图像输入至图像生成模型中，并获取所述图像生成模型输出的目标风格化图像；其中，所述图像生成模型是采用上述任一实施例所述的图像生成模型的训练方法训练得到的。

在一个实施例中，本申请还提供了一种存储介质，该存储介质中存储有计算机可读指令，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如任意实施例所述图像生成模型的训练方法的步骤，和/或执行如任意实施例所述风格化图像生成方法的步骤。

在一个实施例中，本申请还提供了一种计算机设备，所述计算机设备中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如任意实施例所述图像生成模型的训练方法的步骤，和/或执行如任意实施例所述风格化图像生成方法的步骤。

示意性地，图9为本申请实施例提供的一种计算机设备的内部结构示意图，在一个示例中，该计算机设备可以为服务器。参照图9，计算机设备900包括处理组件902，其进一步包括一个或多个处理器，以及由存储器901所代表的存储器资源，用于存储可由处理组件902的执行的指令，例如应用程序。存储器901中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件902被配置为执行指令，以执行上述任意实施例所述图像生成模型的训练方法的步骤和/或执行上述任意实施例所述风格化图像生成方法的步骤。

计算机设备900还可以包括一个电源组件903被配置为执行计算机设备900的电源管理，一个有线或无线网络接口904被配置为将计算机设备900连接到网络，和一个输入输出（I/O）接口905。计算机设备900可以操作基于存储在存储器901的操作系统，例如WindowsServer TM、Mac OS XTM、Unix TM、Linux TM、Free BSDTM或类似。

本领域技术人员可以理解，本申请示出的计算机设备的内部结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本文中，“一”、“一个”、“所述”、“该”和“其”也可以包括复数形式，除非上下文清楚指出另外的方式。多个是指至少两个的情况，如2个、3个、5个或8个等。“和/或”包括相关所列项目的任何及所有组合。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间可以根据需要进行组合，且相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种图像生成模型的训练方法，其特征在于，所述方法包括：

在不满足训练结束条件的情况下，进入下一训练轮次。

2.根据权利要求1所述的图像生成模型的训练方法，其特征在于，所述基于所述样本风格化图像、各张所述正例风格化图像、各张所述负例风格化图像、所述图像生成模型在当前训练轮次对应的更新前参数权重和更新后参数权重，调整所述对比学习模型的参数权重的步骤，包括：

根据所述样本风格化图像和各张所述正例风格化图像计算正例特征向量距离，以及根据所述样本风格化图像和各张所述负例风格化图像计算负例特征向量距离；

基于所述正例特征向量距离和所述负例特征向量距离，计算加权系数；

根据所述加权系数、所述图像生成模型在当前训练轮次对应的更新前参数权重和更新后参数权重，调整所述对比学习模型的参数权重。

3.根据权利要求2所述的图像生成模型的训练方法，其特征在于，所述基于所述正例特征向量距离和所述负例特征向量距离，计算加权系数的步骤，包括：

基于以下表达式计算所述加权系数：

；

式中，

为所述加权系数，/>

为所述正例特征向量距离，

为所述负例特征向量距离。

4.根据权利要求1所述的图像生成模型的训练方法，其特征在于，各张所述负例真实图像包括所述第一训练集中每张与所述样本真实图像对应不同人脸标识的真实图像；

所述根据所述样本风格化图像、各张所述正例风格化图像和各张所述负例风格化图像，计算当前训练轮次对应的训练损失值的步骤，包括：

分别计算每张所述负例真实图像和所述样本真实图像之间的图像相似度；

确定当前训练轮次对应的已训练次数；

若所述已训练次数小于预设次数阈值，则将图像相似度大于第一预设相似度阈值的负例真实图像作为目标图像，否则，将图像相似度大于第二预设相似度阈值的负例真实图像作为目标图像；所述第一预设相似度阈值大于所述第二预设相似度阈值；

根据所述样本风格化图像、各张所述正例风格化图像和各张所述目标图像对应的负例风格化图像，计算当前训练轮次对应的对比损失值；

基于所述对比损失值计算当前训练轮次对应的所述训练损失值。

5.根据权利要求4所述的图像生成模型的训练方法，其特征在于，所述基于所述对比损失值计算当前训练轮次对应的所述训练损失值的步骤，包括：

基于所述正例特征向量距离和所述负例特征向量距离，计算当前训练轮次对应的人脸损失值；

根据所述对比损失值和所述人脸损失值，确定当前训练轮次对应的所述训练损失值。

6.根据权利要求4所述的图像生成模型的训练方法，其特征在于，所述基于所述对比损失值计算当前训练轮次对应的所述训练损失值的步骤，包括：

将预先获取的第二训练集中各张真实人脸图像输入到所述图像生成模型中，以获取所述图像生成模型输出的各张训练风格化图像；其中，所述第二训练集包括多组训练数据，每组所述训练数据包括真实人脸图像和标签风格化图像；

根据各张所述训练风格化图像和各张所述标签风格化图像，分别计算当前训练轮次对应的VGG损失值和L1损失值；

基于所述VGG损失值、所述L1损失值和所述对比损失值计算当前训练轮次对应的所述训练损失值。

7.根据权利要求1至6任一项所述的图像生成模型的训练方法，其特征在于，所述将所述样本真实图像输入至图像生成模型中，以获取所述图像生成模型输出的样本风格化图像的步骤，包括：

采用所述图像生成模型的编码网络对所述样本真实图像进行编码，以得到编码结果；

采用所述图像生成模型的风格化转换网络对所述编码结果进行转换，以得到用于生成所述样本风格化图像的第一语义分割图；

采用所述图像生成模型的解码网络对所述编码结果和所述第一语义分割图进行解码，以得到所述样本风格化图像。

8.根据权利要求7所述的图像生成模型的训练方法，其特征在于，所述采用所述图像生成模型的解码网络对所述编码结果和所述第一语义分割图进行解码，以得到所述样本风格化图像的步骤，包括：

采用所述解码网络的第一解码层对所述编码结果进行解码，以得到初始解码结果；

采用所述解码网络的第二解码层对所述初始解码结果和所述第一语义分割图进行拼接，并对拼接结果进行解码，以得到所述样本风格化图像。

9.根据权利要求7所述的图像生成模型的训练方法，其特征在于，所述采用所述图像生成模型的风格化转换网络对所述编码结果进行转换，以得到用于生成所述样本风格化图像的第一语义分割图的步骤，包括：

采用所述风格化转换网络的提取单元对所述编码结果进行处理，以提取对应于所述样本真实图像的第二语义分割图；

采用所述风格化转换网络的语义转换单元对所述第二语义分割图进行语义转换，以得到所述第一语义分割图。

10.一种风格化图像生成方法，其特征在于，所述方法包括：

获取待转换真实人脸图像；

将所述待转换真实人脸图像输入至图像生成模型中，并获取所述图像生成模型输出的目标风格化图像；其中，所述图像生成模型是采用如权利要求1至9任一项所述的图像生成模型的训练方法训练得到的。

11.一种图像生成模型的训练装置，其特征在于，所述装置包括：

12.一种风格化图像生成装置，其特征在于，所述装置包括：

待转换图像获取模块，用于获取待转换真实人脸图像；

图像生成模块，用于将所述待转换真实人脸图像输入至图像生成模型中，并获取所述图像生成模型输出的目标风格化图像；其中，所述图像生成模型是采用如权利要求1至9任一项所述的图像生成模型的训练方法训练得到的。

13.一种存储介质，其特征在于，所述存储介质中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至9中任一项所述图像生成模型的训练方法的步骤，和/或执行如权利要求10所述风格化图像生成方法的步骤。

14.一种计算机设备，其特征在于，包括：一个或多个处理器，以及存储器；

所述存储器中存储有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，执行如权利要求1至9中任一项所述图像生成模型的训练方法的步骤，和/或执行如权利要求10所述风格化图像生成方法的步骤。