CN115131635A

CN115131635A - 图像生成模型的训练方法、图像生成方法、装置及设备

Info

Publication number: CN115131635A
Application number: CN202210476091.0A
Authority: CN
Inventors: 谢宇; 付彦伟; 邰颖; 朱俊伟; 曹赟; 汪铖杰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2022-09-30

Abstract

本申请公开一种图像生成模型的训练方法、图像生成方法、装置及设备，属于人工智能技术领域。方法包括：获取样本图像和神经网络模型；根据神经网络模型，从样本图像中提取第一样本特征，第一样本特征与样本图像的图像类别相关；从神经网络模型的记忆特征集合中选择第一记忆特征，根据神经网络模型，将第一样本特征和第一记忆特征进行融合，基于融合结果生成任一张预测图像，第一记忆特征是神经网络模型学习到的且与图像类别无关的特征；根据至少两张预测图像，对神经网络模型进行调整，得到图像生成模型。本申请的预测图像在保证图像类别与样本图像的图像类别相同的基础上，结合模型学习到的与图像类别无关的信息，使得预测图像具有内容多样性。

Description

图像生成模型的训练方法、图像生成方法、装置及设备

技术领域

本申请实施例涉及人工智能技术领域，特别涉及一种图像生成模型的训练方法、图像生成方法、装置及设备。

背景技术

在人工智能技术领域中，神经网络模型的应用范围越来越广泛。例如，利用样本图像对神经网络模型进行训练，可以得到图像生成模型，由图像生成模型生成目标图像。

相关技术中，先随机生成高斯噪声，将高斯噪声输入神经网络模型，由神经网络模型基于高斯噪声生成预测图像。此外，还可以获取样本图像。利用预测图像和样本图像确定神经网络模型的损失值，并根据神经网络模型的损失值对神经网络模型进行调整，将调整后的神经网络模型作为图像生成模型。

上述技术是通过预测图像和样本图像来调整模型，使得模型再次基于高斯噪声生成预测图像时，该预测图像会不断逼近样本图像，也就是说，预测图像的内容与样本图像的内容越来越相似。因此，预测图像的内容单一，即模型生成的图像的内容单一。

发明内容

本申请提供了一种图像生成模型的训练方法、图像生成方法、装置及设备，可用于解决相关技术中模型生成的图像的内容单一的问题，所述技术方案包括如下内容。

一方面，提供了一种图像生成模型的训练方法，所述方法包括：

获取样本图像和神经网络模型；

根据所述神经网络模型，从所述样本图像中提取第一样本特征，所述第一样本特征与所述样本图像的图像类别相关；

从所述神经网络模型的记忆特征集合中选择第一记忆特征，根据所述神经网络模型将所述第一样本特征和所述第一记忆特征进行融合，基于融合结果生成任一张预测图像，所述第一记忆特征是所述神经网络模型学习到的且与图像类别无关的特征；

根据至少两张预测图像对所述神经网络模型进行调整，得到图像生成模型。

另一方面，提供了一种图像生成方法，所述方法包括：

获取参考图像和图像生成模型，所述图像生成模型是按照上述任一项所述的图像生成模型的训练方法训练得到的；

根据所述图像生成模型，从所述参考图像中提取目标特征，所述目标特征与所述参考图像的图像类别相关；

从所述图像生成模型的记忆特征集合中选择目标记忆特征，所述目标记忆特征是所述图像生成模型学习到的且与图像类别无关的特征；

根据所述图像生成模型将所述目标特征和所述目标记忆特征进行融合，基于融合结果生成目标图像。

另一方面，提供了一种图像生成模型的训练装置，所述装置包括：

获取模块，用于获取样本图像和神经网络模型；

提取模块，用于根据所述神经网络模型，从所述样本图像中提取第一样本特征，所述第一样本特征与所述样本图像的图像类别相关；

选择生成模块，用于从所述神经网络模型的记忆特征集合中选择第一记忆特征，根据所述神经网络模型将所述第一样本特征和所述第一记忆特征进行融合，基于融合结果生成任一张预测图像，所述第一记忆特征是所述神经网络模型学习到的且与图像类别无关的特征；

调整模块，用于根据至少两张预测图像对所述神经网络模型进行调整，得到图像生成模型。

在一种可能的实现方式中，所述第一记忆特征为至少两个；

所述选择生成模块，用于对至少两个第一记忆特征进行插值处理，得到插值特征；将所述第一样本特征和所述插值特征进行融合，基于融合结果生成所述任一张预测图像。

在一种可能的实现方式中，所述获取模块，还用于获取所述样本图像的图像类别和各张预测图像的图像类别；

所述调整模块，用于根据至少两张预测图像、所述样本图像的图像类别和所述各张预测图像的图像类别，对所述神经网络模型进行调整，得到图像生成模型。

在一种可能的实现方式中，所述获取模块，还用于获取各张预测图像的真实性标注结果和真实性预测结果；

所述调整模块，用于根据至少两张预测图像、所述各张预测图像的真实性标注结果和真实性预测结果，对所述神经网络模型进行调整，得到图像生成模型。

在一种可能的实现方式中，所述提取模块，还用于根据所述神经网络模型，从所述样本图像中提取第二样本特征，所述第二样本特征与所述样本图像的图像类别无关；

所述选择生成模块，还用于根据所述第一样本特征和所述第二样本特征，生成重建图像；

所述调整模块，用于根据至少两张预测图像、所述重建图像和所述样本图像，对所述神经网络模型进行调整，得到图像生成模型。

在一种可能的实现方式中，所述选择生成模块，用于对所述第二样本特征进行编码处理，得到编码信息；基于所述编码信息，从所述神经网络模型的记忆特征集合中选择第二记忆特征，所述第二记忆特征是所述神经网络模型学习到的特征，所述第二记忆特征与所述图像类别无关，且与所述第二样本特征相关；基于所述第二记忆特征和所述第一样本特征，生成重建图像。

在一种可能的实现方式中，所述调整模块，用于根据所述重建图像和所述样本图像，确定第一损失值；根据所述至少两张预测图像，确定第二损失值；基于所述第一损失值和所述第二损失值，对所述神经网络模型进行调整，得到图像生成模型。

在一种可能的实现方式中，所述获取模块，还用于获取所述重建图像的真实性标注结果和真实性预测结果、各张预测图像的真实性标注结果和真实性预测结果；

所述调整模块，用于根据所述重建图像的真实性标注结果和真实性预测结果、所述各张预测图像的真实性标注结果和真实性预测结果、所述重建图像、所述样本图像和所述至少两张预测图像，对所述神经网络模型进行调整，得到图像生成模型。

另一方面，提供了一种图像生成装置，所述装置包括：

获取模块，用于获取参考图像和图像生成模型，所述图像生成模型是按照上述任一项所述的图像生成模型的训练方法训练得到的；

提取模块，用于根据所述图像生成模型，从所述参考图像中提取目标特征，所述目标特征与所述参考图像的图像类别相关；

选择模块，用于从所述图像生成模型的记忆特征集合中选择目标记忆特征，所述目标记忆特征是所述图像生成模型学习到的且与图像类别无关的特征；

生成模块，用于根据所述图像生成模型将所述目标特征和所述目标记忆特征进行融合，基于融合结果生成目标图像。

另一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行，以使所述电子设备实现上述任一所述的图像生成模型的训练方法或者实现上述任一所述的图像生成方法。

另一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以使电子设备实现上述任一所述的图像生成模型的训练方法或者实现上述任一所述的图像生成方法。

另一方面，还提供了一种计算机程序或计算机程序产品，所述计算机程序或计算机程序产品中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以使电子设备实现上述任一所述的图像生成模型的训练方法或者实现上述任一所述的图像生成方法。

本申请提供的技术方案至少带来如下有益效果：

本申请提供的技术方案是从样本图像中提取第一样本特征，将第一样本特征和第一记忆特征进行融合，基于融合结果生成预测图像。由于第一样本特征与样本图像的图像类别相关，而第一记忆特征是神经网络模型学习到的且与图像类别无关的特征，因此，预测图像在保证图像类别与样本图像的图像类别相同的基础上，结合了模型学习到的与图像类别无关的信息，从而使预测图像的内容具有随机多样性，即模型生成的图像的内容具有随机多样性。在根据至少两张预测图像对神经网络模型进行调整，得到图像生成模型的过程中，模型不断的学习与图像类别无关的特征，即不断的丰富与图像类别无关的特征，进一步提高了预测图像的内容多样性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种图像生成模型的训练方法的实施环境示意图；

图2是本申请实施例提供的一种图像生成模型的训练方法的流程图；

图3是本申请实施例提供的一种图像生成方法的流程图；

图4是本申请实施例提供的一种图像生成模型的训练方法的示意图；

图5是本申请实施例提供的一种预测图像的生成示意图；

图6是本申请实施例提供的一种不同图像生成模型生成的目标图像的示意图；

图7是本申请实施例提供的一种图像生成模型的训练装置的结构示意图；

图8是本申请实施例提供的一种图像生成装置的结构示意图；

图9是本申请实施例提供的一种终端设备的结构示意图；

图10是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1是本申请实施例提供的一种图像生成模型的训练方法的实施环境示意图，如图1所示，该实施环境包括终端设备101和服务器102。其中，本申请实施例中的图像生成模型的训练方法可以由终端设备101执行，也可以由服务器102执行，或者由终端设备101和服务器102共同执行。

终端设备101可以是智能手机、游戏主机、台式计算机、平板电脑、膝上型便携计算机、智能电视、智能车载设备、智能语音交互设备、智能家电等。服务器102可以为一台服务器，或者为多台服务器组成的服务器集群，或者为云计算平台和虚拟化中心中的任意一种，本申请实施例对此不加以限定。服务器102可以与终端设备101通过有线网络或无线网络进行通信连接。服务器102可以具有数据处理、数据存储以及数据收发等功能，在本申请实施例中不加以限定。终端设备101和服务器102的数量不受限制，可以是一个或多个。

本申请实施例提供的图像生成模型的训练方法或者图像生成方法可以基于人工智能技术实现。人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

计算机视觉技术(Computer Vision，CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition，OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、三维(3-Dimension，3D)技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术。

基于上述实施环境，本申请实施例提供了一种图像生成模型的训练方法，以图2所示的本申请实施例提供的一种图像生成模型的训练方法的流程图为例，该方法可由图1中的终端设备101或者服务器102执行，也可以由终端设备101和服务器102共同执行。为便于描述，将执行本申请实施例中的图像生成模型的训练方法的终端设备101或者服务器102称为电子设备，该方法可以由电子设备来执行。如图2所示，该方法包括步骤201至步骤204。

步骤201，获取样本图像和神经网络模型。

本申请实施例不对样本图像的获取方式、内容、数量等做限定。示例性的，样本图像是从视频中提取的任一帧图像，或者样本图像是用户拍摄的图像，或者样本图像是从网络中抓取的图像，或者是生成的图像。样本图像的数量为至少一个，样本图像可以是从样本图像集合中随机采样得到的图像，其中，样本图像集合中包括多张样本图像。样本图像可以为摄影的动物图像、建筑物图像、道路图像等，也可以是扫描图像等。

本申请实施例不对神经网络模型的模型结构、大小等做限定。该神经网络模型用于根据输入的样本图像集合中的任一张样本图像，输出该样本图像对应的至少一张预测图像。

步骤202，根据神经网络模型，从样本图像中提取第一样本特征，第一样本特征与样本图像的图像类别相关。

可选地，神经网络模型包括第一编码器。样本图像输入神经网络模型之后，由第一编码器对样本图像进行特征提取(如至少一次下采样处理)，得到第一样本特征。即将从样本图像集中随机采样的一张样本图像x输入第一编码器E_cr之后，得到第一样本特征f_cr。可选地，第一编码器为残差网络(如Res Net网络)。

第一样本特征包括但不限于样本图像中对象的轮廓特征(用于描述样本图像中对象的轮廓，可以用于识别样本图像的图像类别)、样本图像中对象的纹理特征(用于描述样本图像中对象的纹理，可以用于识别样本图像的图像类别)等中的至少一项。因此，第一样本特征与样本图像的图像类别相关，可以用于识别样本图像的图像类别。

步骤203，从神经网络模型的记忆特征集合中选择第一记忆特征，根据神经网络模型将第一样本特征和第一记忆特征进行融合，基于融合结果生成任一张预测图像，第一记忆特征是神经网络模型学习到的且与图像类别无关的特征。

本申请实施例中，神经网络模型存储有记忆特征集合，记忆特征集合中包括至少一个记忆特征。对于任一个记忆特征，该记忆特征是神经网络模型学习到的样本图像集合中至少一个样本图像共有的特征，该记忆特征与图像类别无关。由于记忆特征是至少一个样本图像共有的特征，因此，记忆特征可以是不同图像类别的图像所共有的特征(即类间可复用特征)。

示例性的，样本图像中对象的姿势(如正坐、侧卧、向左偏转等)、样本图像的色彩(如红色、灰色、绿色等)、样本图像中对象的表情(如微笑、哭泣等)、样本图像中对象的数量等信息，无法用于识别样本图像的图像类别。因此，神经网络模型可以学习到样本图像集合中至少一个样本图像共有的、与图像类别无关的至少一个记忆特征，任一个记忆特征可以用于描述至少一个样本图像的色彩(即该记忆特征为色彩特征)，或者至少一个样本图像中对象的姿势(即该记忆特征为姿势特征)，或者至少一个样本图像中对象的表情(即该记忆特征为表情特征)，或者至少一个样本图像中对象的数量(即该记忆特征为数量特征)等。神经网络模型可以存储至少一个记忆特征，其中，由这至少一个记忆特征组成的集合可以称为记忆特征集合。

例如，样本图像A中对象的头部向左偏转30度，样本图像B中对象的头部向左偏转28度。神经网络模型可以从样本图像A、B中学习到样本图像A、B共有的、与图像类别无关的一个记忆特征——向左偏转对应的姿势特征。存储向左偏转对应的姿势特征，得到记忆特征集合中的一个记忆特征。

本申请实施例中，神经网络模型还包括第一生成器。可以从记忆特征集合中随机选择至少一个记忆特征，将随机选择的任一个记忆特征记为第一记忆特征。第一生成器可以根据第一样本特征和至少一个第一记忆特征，生成一张预测图像。

可选地，第一记忆特征的数量为一个，第一生成器可以根据第一样本特征和这个第一记忆特征，生成一张预测图像。例如，第一生成器根据第一样本特征f_cr和第一记忆特征

生成一张预测图像

第一生成器根据第一样本特征f_cr和第一记忆特征

生成一张预测图像

本申请实施例中，第一生成器可以按照如下步骤生成预测图像：

步骤1，将第一样本特征和第一记忆特征进行拼接，得到拼接特征。

步骤2，基于第一记忆特征对拼接特征进行标准化处理，得到第一标准化特征，对第一标准化特征进行上采样处理，得到第一上采样特征。

步骤3，响应于第一上采样特征的维度小于目标维度(如32*32)，将第一上采样特征作为下一次循环的拼接特征，循环执行步骤2，直至第一上采样特征的维度不小于目标维度。

步骤4，响应于第一上采样特征的维度不小于目标维度，基于第一样本特征对第一上采样特征进行标准化处理，得到第二标准化特征，对第二标准化特征进行上采样处理，得到第二上采样特征。

步骤5，响应于第二上采样特征不是最后一次上采样处理得到的特征，将第二上采样特征作为下一次循环的第一上采样特征，循环执行步骤4，直至第二上采样特征是最后一次上采样处理得到的特征。

步骤6，响应于第二上采样特征是最后一次上采样处理得到的特征，则该第二上采样特征可以作为融合结果，基于第二上采样特征(即基于融合结果)，确定预测图像。

可选地，在步骤2中，基于第一记忆特征对拼接特征进行标准化处理，得到第一标准化特征，是将第一记忆特征作为自适应实例标准化处理的参数，基于自适应实例标准化处理的参数，对拼接特征进行自适应实例标准化处理，得到第一标准化特征。类似地，在步骤4中，基于第一样本特征对第一上采样特征进行标准化处理，得到第二标准化特征，是将第一样本特征作为自适应实例标准化处理的参数，基于自适应实例标准化处理的参数，对第一上采样特征进行标准化处理，得到第二标准化特征。

下面以拼接特征为例，阐述“基于自适应实例标准化处理的参数，对拼接特征进行自适应实例标准化处理，得到第一标准化特征”的实现原理，其实现原理与“基于自适应实例标准化处理的参数，对第一上采样特征进行标准化处理，得到第二标准化特征”的实现原理相同。

首先，确定拼接特征的方差和拼接特征的平均值，基于拼接特征的方差和拼接特征的平均值，对拼接特征进行标准化处理，得到标准化处理结果。接着，利用自适应实例标准化处理的参数，确定一个方差(记为预测方差)和一个平均值(记为预测平均值)，基于预测方差和预测平均值，对标准化处理结果进行反标准化处理，得到反标准化处理结果，该反标准化处理结果即为第一标准化特征。

需要说明的是，第一上采样特征的维度小于目标维度时，本申请实施例是基于第一记忆特征得到第一上采样特征。由于第一上采样特征的维度较小，可以更好的利用第一记忆特征改变图像的内容、结构等，从而使预测图像具有随机多样性。第一上采样特征的维度不小于目标维度时，本申请实施例是基于第一样本特征得到第二上采样特征。由于第一上采样特征的维度较大，难以利用第一记忆特征改变图像的内容、结构等，因此，利用第一样本特征优化图像的纹理、轮廓等，从而保证预测图像的图像类别与样本图像的图像类别一致。

可选地，第一记忆特征为至少两个；将第一样本特征和第一记忆特征进行融合，基于融合结果生成任一张预测图像，包括：对至少两个第一记忆特征进行插值处理，得到插值特征；将第一样本特征和插值特征进行融合，基于融合结果生成任一张预测图像。

本申请实施例中，可以采用任意的插值算法，如最近邻插值算法、双线性插值算法等，对至少两个第一记忆特征进行插值处理，得到插值特征。第一生成器根据第一样本特征和插值特征，生成任一张预测图像。例如，对第一记忆特征

和第一记忆特征

进行插值处理，得到插值特征

第一生成器根据第一样本特征f_cr和插值特征

生成一张预测图像

可选地，将至少两个第一记忆特征中的一个第一记忆特征记为第一记忆特征A，将至少两个第一记忆特征中除第一记忆特征A之外的各个第一记忆特征，记为各个第一记忆特征B。对于任一个第一记忆特征B，确定第一记忆特征A与该第一记忆特征B之间的差值，将差值与目标数据的比值，作为第一记忆特征A与该第一记忆特征B之间的单位特征。通过这种方式，可以确定第一记忆特征A与各个第一记忆特征B之间的单位特征。基于第一记忆特征A、第一记忆特征A与各个第一记忆特征B之间的单位特征，确定插值特征。通过对至少两个第一记忆特征进行插值处理，丰富了特征的表征能力，从而提高了预测图像的多样性。

本申请实施例中，插值特征对应于步骤1至6中的第一记忆特征，第一生成器按照上述步骤1-6的方式，基于第一样本特征和插值特征生成预测图像，在此不再赘述。

步骤204，根据至少两张预测图像对神经网络模型进行调整，得到图像生成模型。

在获取到至少两张预测图像之后，可以根据至少两张预测图像中的任意两张预测图像，确定这两张预测图像之间的损失值。示例性地，确定这两张预测图像之间的差的范数(如1范数、2范数等)，根据该范数和图像差异参数确定这两张预测图像之间的损失值。其中，图像差异参数用于控制这两张预测图像之间的图像差异。

可选地，按照如公式(1)所示的均方损失函数，确定任两张预测图像之间的损失值。

其中，L_ds表示预测图像

与预测图像

之间的损失值。α为图像差异参数，用于控制预测图像

与预测图像

之间的图像差异。E_x为均方损失函数的符号。‖A‖₁表征求A的1范数，A为自变量。

本申请实施例中，可以利用至少两张预测图像中每两张预测图像之间的损失值，确定神经网络模型的损失值。例如，对至少两张预测图像中每两张预测图像之间的损失值进行加权求和，得到神经网络模型的损失值。利用神经网络模型的损失值对神经网络模型的模型参数进行调整，得到调整后的神经网络模型。

若满足训练结束条件，如达到了目标训练次数、神经网络模型的损失值的梯度不再下降等，则将调整后的神经网络模型作为图像生成模型。若未满足训练结束条件，则将调整后的神经网络模型作为下一次训练的神经网络模型，按照步骤201至步骤204的方式再次对神经网络模型的模型参数进行调整，直至满足训练结束条件，得到图像生成模型。其中，本申请实施例不对目标训练次数做限定，示例性的，目标训练次数N＝15000。

可选地，利用样本图像和任一张预测图像，确定样本图像和任一张预测图像之间的损失值，通过这种方式，可以确定出样本图像分别和各张预测图像之间的损失值。基于样本图像分别和各张预测图像之间的损失值，确定神经网络模型的损失值，以基于神经网络模型的损失值对神经网络模型进行调整，得到图像生成模型。

在一种可能的实现方式中，根据至少两张预测图像，对神经网络模型进行调整，得到图像生成模型之前，还包括：获取样本图像的图像类别和各张预测图像的图像类别；根据至少两张预测图像，对神经网络模型进行调整，得到图像生成模型，包括：根据至少两张预测图像、样本图像的图像类别和各张预测图像的图像类别，对神经网络模型进行调整，得到图像生成模型。

本申请实施例中，可以对样本图像进行图像分类处理，得到样本图像的图像类别。同样的，可以对各张预测图像分别进行图像分类处理，得到各张预测图像的图像类别。本申请实施例不限定图像分类处理的方式。示例性的，以样本图像为例，先确定样本图像的纹理特征、轮廓特征、色彩特征等中的至少一项图像特征，再基于样本图像的图像特征确定样本图像的图像类别。其中，对预测图像进行图像分类处理的方式与对样本图像进行图像分类处理的方式相类似，在此不再赘述。

可选地，对于任一张预测图像，根据样本图像的图像类别和该预测图像的图像类别，确定样本图像的图像类别和该预测图像的图像类别之间的损失值，其详细的确定方式在此不做限定。通过这种方式，可以确定样本图像的图像类别分别和各张预测图像的图像类别之间的损失值。此外，可以根据至少两张预测图像确定每两张预测图像之间的损失值。根据样本图像的图像类别分别和各张预测图像的图像类别之间的损失值、每两张预测图像之间的损失值，计算神经网络模型的损失值，以基于神经网络模型的损失值对神经网络模型进行调整，得到图像生成模型。

在一种可能的实现方式中，根据至少两张预测图像，对神经网络模型进行调整，得到图像生成模型之前，还包括：获取各张预测图像的真实性标注结果和真实性预测结果；根据至少两张预测图像，对神经网络模型进行调整，得到图像生成模型，包括：根据至少两张预测图像、各张预测图像的真实性标注结果和真实性预测结果，对神经网络模型进行调整，得到图像生成模型。

本申请实施例中，可以将任一张预测图像输入判别器中，由判别器确定并输出该预测图像的真实性预测结果。预测图像的真实性预测结果用于表征预测图像为真实图像的概率，因此，真实性预测结果的数值可以大于等于0且小于等于1。此外，还可以对该预测图像进行标注，得到该预测图像的真实性标注结果。预测图像的真实性标注结果用于表征预测图像是否为真实图像，因此，真实性标注结果的数值可以为0或者1。其中，0表征预测图像为非真实图像，1表征预测图像为真实图像。

可以根据任一张预测图像的真实性标注结果和该预测图像的真实性预测结果，确定该预测图像的真实性标注结果和真实性预测结果之间的损失值，其确定方式在此不做限定。通过这种方式，可以确定各张预测图像的真实性标注结果和真实性预测结果之间的损失值。此外，还可以根据至少两张预测图像确定每两张预测图像之间的损失值。根据每两张预测图像之间的损失值、各张预测图像的真实性标注结果和真实性预测结果之间的损失值，计算神经网络模型的损失值，以基于神经网络模型的损失值对神经网络模型进行调整，得到图像生成模型。

需要说明的是，在对神经网络模型进行训练时，可以在神经网络模型之后串联判别器，利用神经网络模型输出的各张预测图像和判别器输出的各张预测图像的真实性预测结果，对神经网络模型和判别器进行多次训练，直至满足训练结束条件，将训练好的神经网络模型作为图像生成模型。

其中，对神经网络模型和判别器进行训练时，一方面，可以固定判别器，根据至少两张预测图像、各张预测图像的真实性标注结果和各张预测图像的真实性预测结果，确定神经网络模型的损失值，以基于神经网络模型的损失值对神经网络模型进行调整，此时，预测图像的真实性标注结果为1。另一方面，可以固定神经网络模型，根据至少两张预测图像、各张预测图像的真实性标注结果和各张预测图像的真实性预测结果，基于与“确定神经网络模型的损失值”相同的方式，确定判别器的损失值，以基于判别器的损失值对判别器进行调整，此时，预测图像的真实性标注结果为0。基于上述两方面的方式，对神经网络模型和判别器进行多次训练，直至满足训练结束条件，得到训练好的神经网络模型和训练好的判别器。其中，训练好的神经网络模型为本申请实施例的图像生成模型。

可选地，可以根据至少两张预测图像、各张预测图像的真实性标注结果、各张预测图像的真实性预测结果、样本图像的图像类别和各张预测图像的图像类别，对神经网络模型进行调整，得到图像生成模型。即根据每两张预测图像之间的损失值、各张预测图像的真实性标注结果和真实性预测结果之间的损失值、样本图像的图像类别分别和各张预测图像的图像类别之间的损失值，确定神经网络模型的损失值，以基于神经网络模型的损失值对神经网络模型进行调整，得到图像生成模型。

在一种可能的实现方式中，获取样本图像和神经网络模型之后，还包括：根据神经网络模型，从样本图像中提取第二样本特征，第二样本特征与样本图像的图像类别无关；根据第一样本特征和第二样本特征，生成重建图像；根据至少两张预测图像，对神经网络模型进行调整，得到图像生成模型，包括：根据至少两张预测图像、重建图像和样本图像，对神经网络模型进行调整，得到图像生成模型。

可选地，神经网络模型包括第二编码器，其中，第一编码器和第二编码器是两个不同的编码器，可选地，第二编码器为残差网络(如Res Net网络)。样本图像输入神经网络模型之后，由第二编码器对样本图像进行特征提取，得到第二样本特征。即将从样本图像集中随机采样的一张样本图像x输入第二编码器E_ci之后，得到第二样本特征

第二样本特征包括但不限于样本图像中对象的姿势特征(用于描述样本图像中对象的姿势)、色彩特征(用于描述样本图像的色彩)、表情特征(用于描述样本图像中对象的表情)、数量特征(用于描述样本图像中对象的数量)等中的至少一项。第二样本特征可以称为与样本图像的图像类别无关的特征，无法用于识别样本图像的图像类别。

例如，样本图像A中对象的头部向左偏转30度，则第二编码器对样本图像进行特征提取后得到的第二样本特征可以用于描述样本图像A中对象的头部向左偏转了30度。

可选地，神经网络模型包括第二生成器，其中，第一生成器和第二生成器可以是同一个生成器，也可以是两个不同的生成器。本申请实施例中，第二生成器可以根据第一样本特征和第二样本特征，生成重建图像。重建图像即重建后的样本图像。

本申请实施例中，第二样本特征对应于步骤1至6中的第一记忆特征，重建图像对应于步骤1至6中的预测图像，第二生成器按照上述步骤1-6的方式，基于第一样本特征和第二样本特征生成重建图像，在此不再赘述。

在一种可能的实现方式中，根据第一样本特征和第二样本特征，生成重建图像，包括：对第二样本特征进行编码处理，得到编码信息；基于编码信息，从神经网络模型的记忆特征集合中选择第二记忆特征，第二记忆特征是神经网络模型学习到的特征，第二记忆特征与图像类别无关，且与第二样本特征相关；基于第二记忆特征和第一样本特征，生成重建图像。

可选地，神经网络模型包括寻址器。寻址器可以对第二样本特征进行编码处理，得到编码信息。本申请实施例不限定对第二样本特征进行编码处理的方式，示例性的，采用独热编码(One Hot)、多热编码等任一种编码算法，对第二样本特征进行编码处理，得到编码信息。

以独热编码为例，本申请实施例中，基于耿贝尔-归一化指数函数(Gumbel-Softmax)对第二样本特征进行编码处理，得到对第二样本特征进行独热编码后的编码信息，其中，采用Gumbel-Softmax，可以保证神经网络模型可微分可训练。可以对第二样本特征进行归一化处理(即Softmax处理)，得到归一化处理后的第二样本特征。对第二样本特征按照耿贝尔(Gumbel)分布进行随机采样，得到随机变量。基于归一化处理后的第二样本特征和随机变量，确定编码信息。请参见如下所示的公式(2)。

其中，π_i为对第二样本特征进行独热编码后的编码信息。exp为指数函数的符号。

为第二样本特征。

表征归一化处理后的第二样本特征。g_i表征对第二样本特征按照耿贝尔分布随机采样得到的随机变量。τ为一个超参数，用于调整π_i的平滑度。k为第二样本特征的数量。

寻址器可以基于编码信息，从神经网络模型的记忆特征集合中选择第二记忆特征。可选地，寻址器将神经网络模型的记忆特征集合与编码信息的乘积，作为第二记忆特征，请参见如下所示的公式(3)。

f_ci＝π_i·M 公式(3)

其中，f_ci为第二记忆特征。π_i为对第二样本特征进行独热编码后的编码信息。M为神经网络模型的记忆特征集合。

接下来，第二生成器可以根据第一样本特征和第二记忆特征，生成重建图像，请参见如下所示的公式(4)。

x^gen＝G(f_ci,f_cr) 公式(4)

其中，x^gen表征重建图像。f_ci表征第二记忆特征。f_cr表征第一样本特征。G表征第二生成器。

本申请实施例中，重建图像用于对神经网络模型进行调整。可选地，根据至少两张预测图像、重建图像和样本图像，对神经网络模型进行调整，得到图像生成模型，包括：根据重建图像和样本图像，确定第一损失值；根据至少两张预测图像，确定第二损失值；基于第一损失值和第二损失值，对神经网络模型进行调整，得到图像生成模型。

可以按照如公式(5)所示的均方损失函数，根据重建图像和样本图像，确定第一损失值。

L_R＝E_x‖x-x^gen‖₁ 公式(5)

其中，L_R表示第一损失值，E_x表示均方损失函数的符号，x表示样本图像，x^gen表示重建图像，‖A‖₁表征求A的1范数，A为自变量。

可以根据至少两张预测图像中任两张预测图像，确定这两张预测图像之间的损失值。根据每两张预测图像之间的损失值，确定第二损失值。可选的，对每两张预测图像之间的损失值进行加权求和，得到第二损失值。之后，基于第一损失值和第二损失值，确定神经网络模型的损失值，以对神经网络模型进行调整，得到图像生成模型。

可选地，可以对样本图像进行图像分类处理，得到样本图像的图像类别。同样的，可以对重建图像进行图像分类处理，得到重建图像的图像类别。其中，对重建图像进行图像分类处理的方式与对样本图像进行图像分类处理的方式相类似，在此不再赘述。

可选地，根据样本图像的图像类别和重建图像的图像类别，确定样本图像的图像类别和重建图像的图像类别之间的损失值，其详细的确定方式在此不做限定。此外，可以根据重建图像和样本图像，确定第一损失值，同时，可以根据至少两张预测图像，确定第二损失值。根据样本图像的图像类别和重建图像的图像类别之间的损失值、第一损失值和第二损失值，计算神经网络模型的损失值，以基于神经网络模型的损失值对神经网络模型进行调整，得到图像生成模型。

本申请实施例中，可以将重建图像输入判别器中，由判别器确定并输出该重建图像的真实性预测结果。重建图像的真实性预测结果用于表征重建图像为真实图像的概率，因此，真实性预测结果的数值可以大于等于0且小于等于1。此外，还可以对该重建图像进行标注，得到该重建图像的真实性标注结果。重建图像的真实性标注结果用于表征重建图像是否为真实图像，因此，真实性标注结果的数值可以为0或者1。其中，0表征重建图像为非真实图像，1表征重建图像为真实图像。

可以根据重建图像的真实性标注结果和该重建图像的真实性预测结果，确定重建图像的真实性标注结果和真实性预测结果之间的损失值，其确定方式在此不做限定。此外，可以根据重建图像和样本图像，确定第一损失值，同时，可以根据至少两张预测图像，确定第二损失值。根据重建图像的真实性标注结果和真实性预测结果之间的损失值、第一损失值和第二损失值，计算神经网络模型的损失值，以基于神经网络模型的损失值对神经网络模型进行调整，得到图像生成模型。

需要说明的是，在对神经网络模型进行训练时，可以在神经网络模型之后串联判别器，利用神经网络模型输出的重建图像和判别器输出的重建图像的真实性预测结果，对神经网络模型和判别器进行多次训练，直至满足训练结束条件，将训练好的神经网络模型作为图像生成模型。

其中，对神经网络模型和判别器进行训练时，一方面，可以固定判别器，根据重建图像的真实性标注结果和真实性预测结果之间的损失值、第一损失值和第二损失值，确定神经网络模型的损失值，以基于神经网络模型的损失值对神经网络模型进行调整，此时，重建图像的真实性标注结果为1。另一方面，可以固定神经网络模型，根据重建图像的真实性标注结果和真实性预测结果之间的损失值、第一损失值和第二损失值，基于与“确定神经网络模型的损失值”相同的方式，确定判别器的损失值，以基于判别器的损失值对判别器进行调整，此时，重建图像的真实性标注结果为0。基于上述两方面的方式，对神经网络模型和判别器进行多次训练，直至满足训练结束条件，得到训练好的神经网络模型和训练好的判别器。其中，训练好的神经网络模型为本申请实施例的图像生成模型。

在一种可能的实现方式中，根据至少两张预测图像、重建图像和样本图像，对神经网络模型进行调整，得到图像生成模型之前，还包括：获取重建图像的真实性标注结果和各张预测图像的真实性标注结果；获取重建图像的真实性预测结果和各张预测图像的真实性预测结果；根据至少两张预测图像、重建图像和样本图像，对神经网络模型进行调整，得到图像生成模型，包括：根据重建图像的真实性标注结果和真实性预测结果、各张预测图像的真实性标注结果和真实性预测结果、重建图像、样本图像和至少两张预测图像，对神经网络模型进行调整，得到图像生成模型。

本申请实施例中，可以利用判别器确定各张预测图像的真实性预测结果和重建图像的真实性预测结果。另外，还可以通过标注得到各张预测图像的真实性标注结果和重建图像的真实性标注结果。根据重建图像的真实性标注结果和真实性预测结果之间的损失值、各张预测图像的真实性标注结果和真实性预测结果之间的损失值、每两张预测图像之间的损失值、重建图像和样本图像之间的损失值(即第一损失值)，确定神经网络模型的损失值，以对神经网络模型进行调整，得到图像生成模型。

需要说明的是，本申请实施例中的神经网络模型的损失值是基于以下至少一项损失值计算得到的：样本图像和各张预测图像之间的损失值、每两张预测图像之间的损失值(可进一步计算得到第二损失值)、样本图像的图像类别分别和各张预测图像的图像类别之间的损失值、各张预测图像的真实性标注结果和真实性预测结果之间的损失值、重建图像和样本图像之间的损失值(即上文提及的第一损失值)、样本图像的图像类别和重建图像的图像类别之间的损失值、重建图像的真实性标注结果和真实性预测结果之间的损失值。

可以理解的是，当神经网络模型的损失值是至少基于以下任一项或者两项计算得到的时：各张预测图像的真实性标注结果和真实性预测结果之间的损失值、重建图像的真实性标注结果和真实性预测结果之间的损失值。一方面，可以固定判别器，基于神经网络模型的损失值对神经网络模型进行调整，此时，重建图像、预测图像的真实性标注结果均为1。另一方面，可以固定神经网络模型，基于与“确定神经网络模型的损失值”相同的方式，确定判别器的损失值，以基于判别器的损失值对判别器进行调整，此时，重建图像、预测图像的真实性标注结果均为0。基于上述两方面的方式，对神经网络模型和判别器进行多次训练，直至满足训练结束条件。

需要说明的是，神经网络模型包括记忆特征集合。在训练神经网络模型的过程中，记忆特征集合也在不断更新，使得神经网络模型不断的学习无法用于识别图像类别的特征，从而提高了记忆特征集合中各记忆特征的表征能力。

上述方法是从样本图像中提取第一样本特征，将第一样本特征和第一记忆特征进行融合，基于融合结果生成预测图像。由于第一样本特征与样本图像的图像类别相关，而第一记忆特征是神经网络模型学习到的且与图像类别无关的特征，因此，预测图像在保证图像类别与样本图像的图像类别相同的基础上，结合了模型学习到的与图像类别无关的信息，从而使预测图像的内容具有随机多样性，即模型生成的图像的内容具有随机多样性。在根据至少两张预测图像对神经网络模型进行调整，得到图像生成模型的过程中，模型不断的学习与图像类别无关的特征，即不断的丰富与图像类别无关的特征，进一步提高了预测图像的内容多样性。

基于上述实施环境，本申请实施例提供了一种图像生成方法，以图3所示的本申请实施例提供的一种图像生成方法的流程图为例，该方法可由图1中的终端设备101或者服务器102执行，也可以由终端设备101和服务器102共同执行。为便于描述，将执行本申请实施例中的图像生成模型的训练方法的终端设备101或者服务器102称为电子设备，该方法可以由电子设备来执行。如图3所示，该方法包括步骤301至步骤304。

步骤301，获取参考图像和图像生成模型。

其中，图像生成模型是按照图2所示的图像生成模型的训练方法训练得到的。有关步骤301的描述，可以见上文步骤201的相关描述，二者实现原理相类似。

本申请实施例不对参考图像的获取方式、内容、数量等做限定。示例性的，参考图像是从视频中提取的任一帧图像，或者参考图像是用户拍摄的图像，或者参考图像是从网络中抓取的图像，或者是生成的图像。参考图像的数量为至少一个。参考图像可以为摄影的动物图像、建筑物图像、道路图像等，也可以是扫描图像等。

本申请实施例中图像生成模型是由神经网络模型训练得到的，因此，图像生成模型的模型结构、大小等与神经网络模型的模型结构、大小等一致。

步骤302，根据图像生成模型，从参考图像中提取目标特征，目标特征与参考图像的图像类别相关。

其中，有关步骤302的描述，可以见上文步骤202的相关描述，二者实现原理相类似。

可选地，图像生成模型包括第一编码器，且图像生成模型包括的第一编码器是由神经网络模型包括的第一编码器训练得到的。参考图像输入图像生成模型之后，由第一编码器对参考图像进行特征提取，得到目标特征。

目标特征包括但不限于参考图像中对象的轮廓特征(用于描述参考图像中对象的轮廓，可以用于识别参考图像的图像类别)、参考图像中对象的纹理特征(用于描述参考图像中对象的纹理，可以用于识别参考图像的图像类别)等中的至少一项。目标特征可以称为与参考图像的图像类别相关的特征，可以用于识别参考图像的图像类别。

步骤303，从图像生成模型的记忆特征集合中选择目标记忆特征，目标记忆特征是图像生成模型学习到的且与图像类别无关的特征。

其中，有关步骤303的描述，可以见上文步骤203的相关描述，二者实现原理相类似。

本申请实施例中，图像生成模型存储有记忆特征集合，记忆特征集合中包括至少一个记忆特征，且图像生成模型存储的记忆特征集合是由神经网络模型存储的记忆特征集合训练得到的。对于任一个记忆特征，该记忆特征是图像生成模型从多个样本图像中学习到的特征，该记忆特征是至少一个样本图像共有的特征，且该记忆特征与图像类别无关。

可选地，目标记忆特征的数量为至少一个。可以从图像生成模型的记忆特征集合中随机选择至少一个目标记忆特征。

步骤304，根据图像生成模型将目标特征和目标记忆特征进行融合，基于融合结果生成目标图像。

本申请实施例中，图像生成模型还包括第一生成器，图像生成模型包括的第一生成器是由神经网络模型包括的第一生成器训练得到的。当目标记忆特征的数量为一个时，第一生成器可以根据目标特征和这个目标记忆特征，生成一张目标图像。当目标记忆特征为至少两个时，第一生成器可以对至少两个目标记忆特征进行插值处理，得到插值特征，并基于目标特征和插值特征生成目标图像。其中，有关步骤304的描述，可以见上文步骤203的相关描述，二者实现原理相类似。

上述方法是从参考图像中提取目标特征，根据目标特征和目标记忆特征生成目标图像，由于目标特征与参考图像的图像类别相关，而目标记忆特征是图像生成模型学习到的且与图像类别无关的特征，因此，目标图像在保证图像类别与参考图像的图像类别相同的基础上，结合了模型学习到的与图像类别无关的信息，从而使目标图像的内容具有随机多样性，即模型生成的图像的内容具有随机多样性。

上文是从方法步骤的角度详细阐述了本申请实施例的图像生成模型的训练方法、图像生成方法，下面结合图4来进行说明。图4是本申请实施例提供的一种图像生成模型的训练方法的示意图。

本申请实施例中，对神经网络模型进行训练，可以得到图像生成模型，神经网络模型包括第一编码器、第二编码器、寻址器、第一生成器、第二生成器和记忆特征集合。将样本图像输入神经网络模型，由第一编码器从样本图像中提取第一样本特征，由第二编码器从样本图像中提取第二样本特征。

一方面，可以从记忆特征集合中随机选择至少一个第一记忆特征(其中，图4示出了从记忆特征集合中随机选择了至少三个第一记忆特征)，将第一样本特征和至少一个第一记忆特征进行拼接，得到拼接特征，由第一生成器基于拼接特征生成至少两张预测图像(其中，图4示出了利用第一生成器生成两张预测图像)。

另一方面，利用寻址器对第二样本特征进行编码处理，得到编码信息。将编码信息与记忆特征集合相乘，得到第二记忆特征。将第一样本特征和第二记忆特征进行拼接，得到拼接特征，由第二生成器基于拼接特征生成重建图像。

之后，根据重建图像和样本图像，确定第一损失值，根据至少两张预测图像，确定第二损失值，基于第一损失值和第二损失值，对神经网络模型进行调整，得到图像生成模型。

上文已提及，记忆特征集合中包括至少一个记忆特征，任一个记忆特征是神经网络模型学习到的样本图像集合中至少一个样本图像共有的特征，且记忆特征与图像类别无关。请参见图5，图5是本申请实施例提供的一种预测图像的生成示意图。

在本申请实施例中，样本图像是一张坐着的熊猫图像。通过对神经网络模型进行不断的训练，可以使神经网络模型学习到样本图像集合中多张在竹林的动物图像所共有的特征，从而将样本图像的第一样本特征(与样本图像的图像类别相关)与多张在竹林的动物图像所共有的特征进行融合，基于融合结果得到在竹林的熊猫图像。基于同样的原理，通过对神经网络模型进行不断的训练，可以使神经网络模型学习到样本图像集合中多张站着的动物图像所共有的特征，从而将样本图像的第一样本特征与多张站着的动物图像所共有的特征进行融合，基于融合结果得到站着的熊猫图像。

本申请实施例中，使用两个样本图像集合，按照图4所示的方式，对神经网络模型进行训练，得到本申请实施例的图像生成模型，记为图像生成模型1。还可以使用这两个样本图像集合，按照相关技术的图像生成模型的训练方式，对神经网络模型进行训练，得到四个图像生成模型，分别记为图像生成模型2至5。其中，这两个样本图像集合分别为动物图像集合和鸟类图像集合。动物图像集合的119个图像类别所对应的图像，组成样本图像集合，该样本图像集合用于对神经网络模型进行训练，另外30个图像类别所对应的图像，组成参考图像集合，该参考图像集合用于对图像生成模型进行测试。鸟类图像集合的3/4个图像类别所对应的图像，组成样本图像集合，该样本图像集合用于对神经网络模型进行训练，剩余1/4的图像类别所对应的图像，组成参考图像集合，该参考图像集合用于对图像生成模型进行测试。

可选地，在对图像生成模型进行测试时，将参考图像集合中的每一张图像作为参考图像，由图像生成模型1-5根据参考图像生成目标图像。之后，计算目标图像与参考图像之间的弗雷歇起始距离(Fréchet Inception Distance，FID)，得到如下所示的表1。

表1

由表1可以看出图像生成模型1对应的FID明显小于图像生成模型2至5对应的FID，说明图像生成模型1生成的目标图像与参考图像的差异较大。

请参见图6，图6是本申请实施例提供的一种不同图像生成模型生成的目标图像的示意图。由图6可以看出，图像生成模型1生成的目标图像与参考图像之间的差异较大，而图像生成模型3、4生成的目标图像与参考图像之间的差异较小，图像生成模型1生成的目标图像的内容具有随机多样性，而图像生成模型3、4生成的目标图像的内容较为单一。

本申请实施例中，可以将不同图像生成模型生成的目标图像作为图像分类模型的样本图像，利用样本图像对图像分类模型进行训练，并测试图像分类模型的准确率，得到如下所示的表2。其中，准确率为A±B，A、B均为正数，A表示准确率平均值，B表示准确率方差。

表2

图像分类模型	图像生成模型	准确率
			图像分类模型1	-	77.93±0.67
图像分类模型1	图像生成模型4	76.28±0.63
			图像分类模型1	图像生成模型6	78.72±0.64
图像分类模型1	图像生成模型7	77.94±0.67
			图像分类模型1	图像生成模型1	79.02±0.61
图像分类模型2	图像生成模型4	79.21±0.63
			图像分类模型2	图像生成模型4+6	79.52±0.62
图像分类模型2	图像生成模型1	82.98±0.60

由表2可以看出，将图像生成模型1生成的目标图像作为图像分类模型1的样本图像，利用样本图像对图像分类模型1进行训练后，图像分类模型1的准确率平均值明显高于其他图像分类模型1所对应的准确率平均值，且图像分类模型1的准确率方差明显低于其他图像分类模型1所对应的准确率方差。同样的，将图像生成模型1生成的目标图像作为图像分类模型2的样本图像，利用样本图像对图像分类模型2进行训练后，图像分类模型2的准确率平均值明显高于其他图像分类模型2所对应的准确率平均值，且图像分类模型2的准确率方差明显低于其他图像分类模型2所对应的准确率方差。由此可以得出，利用本申请实施例的图像生成模型生成的目标图像，可以看出一种数据增强处理后的图像。利用该数据增强处理后的图像对其他的图像处理模型(如图像分类模型)进行训练，能提高图像处理模型的准确率。

需要说明的是，本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的参考图像、样本图像等都是在充分授权的情况下获取的。

图7所示为本申请实施例提供的一种图像生成模型的训练装置的结构示意图，如图7所示，该装置包括：

获取模块701，用于获取样本图像和神经网络模型；

提取模块702，用于根据神经网络模型，从样本图像中提取第一样本特征，第一样本特征与样本图像的图像类别相关；

选择生成模块703，用于从神经网络模型的记忆特征集合中选择第一记忆特征，根据神经网络模型将第一样本特征和第一记忆特征进行融合，基于融合结果生成任一张预测图像，第一记忆特征是神经网络模型学习到的且与图像类别无关的特征；

调整模块704，用于根据至少两张预测图像对神经网络模型进行调整，得到图像生成模型。

在一种可能的实现方式中，第一记忆特征为至少两个；

选择生成模块703，用于对至少两个第一记忆特征进行插值处理，得到插值特征；将第一样本特征和插值特征进行融合，基于融合结果生成任一张预测图像。

在一种可能的实现方式中，获取模块701，还用于获取样本图像的图像类别和各张预测图像的图像类别；

调整模块704，用于根据至少两张预测图像、样本图像的图像类别和各张预测图像的图像类别，对神经网络模型进行调整，得到图像生成模型。

在一种可能的实现方式中，获取模块701，还用于获取各张预测图像的真实性标注结果和真实性预测结果；

调整模块704，用于根据至少两张预测图像、各张预测图像的真实性标注结果和真实性预测结果，对神经网络模型进行调整，得到图像生成模型。

在一种可能的实现方式中，提取模块702，还用于根据神经网络模型，从样本图像中提取第二样本特征，第二样本特征与样本图像的图像类别无关；

选择生成模块703，还用于根据第一样本特征和第二样本特征，生成重建图像；

调整模块704，用于根据至少两张预测图像、重建图像和样本图像，对神经网络模型进行调整，得到图像生成模型。

在一种可能的实现方式中，选择生成模块703，用于对第二样本特征进行编码处理，得到编码信息；基于编码信息，从神经网络模型的记忆特征集合中选择第二记忆特征，第二记忆特征是神经网络模型学习到的特征，第二记忆特征与图像类别无关，且与第二样本特征相关；基于第二记忆特征和第一样本特征，生成重建图像。

在一种可能的实现方式中，调整模块704，用于根据重建图像和样本图像，确定第一损失值；根据至少两张预测图像，确定第二损失值；基于第一损失值和第二损失值，对神经网络模型进行调整，得到图像生成模型。

在一种可能的实现方式中，获取模块701，还用于获取重建图像的真实性标注结果和真实性预测结果、各张预测图像的真实性标注结果和真实性预测结果；

调整模块704，用于根据重建图像的真实性标注结果和真实性预测结果、各张预测图像的真实性标注结果和真实性预测结果、重建图像、样本图像和至少两张预测图像，对神经网络模型进行调整，得到图像生成模型。

上述装置是从样本图像中提取第一样本特征，将第一样本特征和第一记忆特征进行融合，基于融合结果生成预测图像。由于第一样本特征与样本图像的图像类别相关，而第一记忆特征是神经网络模型学习到的且与图像类别无关的特征，因此，预测图像在保证图像类别与样本图像的图像类别相同的基础上，结合了模型学习到的与图像类别无关的信息，从而使预测图像的内容具有随机多样性，即模型生成的图像的内容具有随机多样性。在根据至少两张预测图像对神经网络模型进行调整，得到图像生成模型的过程中，模型不断的学习与图像类别无关的特征，即不断的丰富与图像类别无关的特征，进一步提高了预测图像的内容多样性。

应理解的是，上述图7提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图8所示为本申请实施例提供的一种图像生成装置的结构示意图，如图8所示，该装置包括：

获取模块801，用于获取参考图像和图像生成模型，图像生成模型是按照上述任一项的图像生成模型的训练方法训练得到的；

提取模块802，用于根据图像生成模型，从参考图像中提取目标特征，目标特征与参考图像的图像类别相关；

选择模块803，用于从图像生成模型的记忆特征集合中选择目标记忆特征，目标记忆特征是图像生成模型学习到的且与图像类别无关的特征；

生成模块804，用于根据图像生成模型将目标特征和目标记忆特征进行融合，基于融合结果生成目标图像。

上述装置是从参考图像中提取目标特征，根据目标特征和目标记忆特征生成目标图像，由于目标特征与参考图像的图像类别相关，而目标记忆特征是图像生成模型学习到的且与图像类别无关的特征，因此，目标图像在保证图像类别与参考图像的图像类别相同的基础上，结合了模型学习到的与图像类别无关的信息，从而使目标图像的内容具有随机多样性，即模型生成的图像的内容具有随机多样性。

应理解的是，上述图8提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图9示出了本申请一个示例性实施例提供的终端设备900的结构框图。该终端设备900包括有：处理器901和存储器902。

处理器901可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器901可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器901可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器901还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器902可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器902中的非暂态的计算机可读存储介质用于存储至少一个计算机程序，该至少一个计算机程序用于被处理器901所执行以实现本申请中方法实施例提供的图像生成模型的训练方法或者图像生成方法。

在一些实施例中，终端设备900还可选包括有：外围设备接口903和至少一个外围设备。处理器901、存储器902和外围设备接口903之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口903相连。具体地，外围设备包括：射频电路904、显示屏905、摄像头组件906、音频电路907和电源908中的至少一种。

外围设备接口903可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器901和存储器902。在一些实施例中，处理器901、存储器902和外围设备接口903被集成在同一芯片或电路板上；在一些其他实施例中，处理器901、存储器902和外围设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路904用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路904包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路904还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏905用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏905是触摸显示屏时，显示屏905还具有采集在显示屏905的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。此时，显示屏905还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏905可以为一个，设置在终端设备900的前面板；在另一些实施例中，显示屏905可以为至少两个，分别设置在终端设备900的不同表面或呈折叠设计；在另一些实施例中，显示屏905可以是柔性显示屏，设置在终端设备900的弯曲表面上或折叠面上。甚至，显示屏905还可以设置成非矩形的不规则图形，也即异形屏。显示屏905可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件906用于采集图像或视频。可选地，摄像头组件906包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件906还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路907可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器901进行处理，或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端设备900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路907还可以包括耳机插孔。

电源908用于为终端设备900中的各个组件进行供电。电源908可以是交流电、直流电、一次性电池或可充电电池。当电源908包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端设备900还包括有一个或多个传感器909。该一个或多个传感器909包括但不限于：加速度传感器911、陀螺仪传感器912、压力传感器913、光学传感器914以及接近传感器915。

加速度传感器911可以检测以终端设备900建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器911可以用于检测重力加速度在三个坐标轴上的分量。处理器901可以根据加速度传感器911采集的重力加速度信号，控制显示屏905以横向视图或纵向视图进行用户界面的显示。加速度传感器911还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器912可以检测终端设备900的机体方向及转动角度，陀螺仪传感器912可以与加速度传感器911协同采集用户对终端设备900的3D动作。处理器901根据陀螺仪传感器912采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器913可以设置在终端设备900的侧边框和/或显示屏905的下层。当压力传感器913设置在终端设备900的侧边框时，可以检测用户对终端设备900的握持信号，由处理器901根据压力传感器913采集的握持信号进行左右手识别或快捷操作。当压力传感器913设置在显示屏905的下层时，由处理器901根据用户对显示屏905的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

光学传感器914用于采集环境光强度。在一个实施例中，处理器901可以根据光学传感器914采集的环境光强度，控制显示屏905的显示亮度。具体地，当环境光强度较高时，调高显示屏905的显示亮度；当环境光强度较低时，调低显示屏905的显示亮度。在另一个实施例中，处理器901还可以根据光学传感器914采集的环境光强度，动态调整摄像头组件906的拍摄参数。

接近传感器915，也称距离传感器，通常设置在终端设备900的前面板。接近传感器915用于采集用户与终端设备900的正面之间的距离。在一个实施例中，当接近传感器915检测到用户与终端设备900的正面之间的距离逐渐变小时，由处理器901控制显示屏905从亮屏状态切换为息屏状态；当接近传感器915检测到用户与终端设备900的正面之间的距离逐渐变大时，由处理器901控制显示屏905从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图9中示出的结构并不构成对终端设备900的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图10为本申请实施例提供的服务器的结构示意图，该服务器1000可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器1001和一个或多个的存储器1002，其中，该一个或多个存储器1002中存储有至少一条计算机程序，该至少一条计算机程序由该一个或多个处理器1001加载并执行以实现上述各个方法实施例提供的图像生成模型的训练方法或者图像生成方法，示例性的，处理器1001为CPU。当然，该服务器1000还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器1000还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，该存储介质中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行，以使电子设备实现上述任一种图像生成模型的训练方法或者图像生成方法。

可选地，上述计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-OnlyMemory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行，以使电子设备实现上述任一种图像生成模型的训练方法或者图像生成方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像生成模型的训练方法，其特征在于，所述方法包括：

获取样本图像和神经网络模型；

2.根据权利要求1所述的方法，其特征在于，所述第一记忆特征为至少两个；

所述将所述第一样本特征和所述第一记忆特征进行融合，基于融合结果生成任一张预测图像，包括：

对至少两个第一记忆特征进行插值处理，得到插值特征；

将所述第一样本特征和所述插值特征进行融合，基于融合结果生成所述任一张预测图像。

3.根据权利要求1所述的方法，其特征在于，所述根据至少两张预测图像对所述神经网络模型进行调整，得到图像生成模型之前，还包括：

获取所述样本图像的图像类别和各张预测图像的图像类别；

所述根据至少两张预测图像对所述神经网络模型进行调整，得到图像生成模型，包括：

根据至少两张预测图像、所述样本图像的图像类别和所述各张预测图像的图像类别，对所述神经网络模型进行调整，得到图像生成模型。

4.根据权利要求1所述的方法，其特征在于，所述根据至少两张预测图像对所述神经网络模型进行调整，得到图像生成模型之前，还包括：

获取各张预测图像的真实性标注结果和真实性预测结果；

根据至少两张预测图像、所述各张预测图像的真实性标注结果和真实性预测结果，对所述神经网络模型进行调整，得到图像生成模型。

5.根据权利要求1所述的方法，其特征在于，所述获取样本图像和神经网络模型之后，还包括：

根据所述神经网络模型，从所述样本图像中提取第二样本特征，所述第二样本特征与所述样本图像的图像类别无关；

根据所述第一样本特征和所述第二样本特征，生成重建图像；

根据至少两张预测图像、所述重建图像和所述样本图像，对所述神经网络模型进行调整，得到图像生成模型。

6.根据权利要求5所述的方法，其特征在于，所述根据所述第一样本特征和所述第二样本特征，生成重建图像，包括：

对所述第二样本特征进行编码处理，得到编码信息；

基于所述编码信息，从所述神经网络模型的记忆特征集合中选择第二记忆特征，所述第二记忆特征是所述神经网络模型学习到的特征，所述第二记忆特征与图像类别无关，且与所述第二样本特征相关；

基于所述第二记忆特征和所述第一样本特征，生成重建图像。

7.根据权利要求5所述的方法，其特征在于，所述根据至少两张预测图像、所述重建图像和所述样本图像，对所述神经网络模型进行调整，得到图像生成模型，包括：

根据所述重建图像和所述样本图像，确定第一损失值；

根据所述至少两张预测图像，确定第二损失值；

基于所述第一损失值和所述第二损失值，对所述神经网络模型进行调整，得到图像生成模型。

8.根据权利要求5所述的方法，其特征在于，所述根据至少两张预测图像、所述重建图像和所述样本图像，对所述神经网络模型进行调整，得到图像生成模型之前，还包括：

获取所述重建图像的真实性标注结果和真实性预测结果、各张预测图像的真实性标注结果和真实性预测结果；

所述根据至少两张预测图像、所述重建图像和所述样本图像，对所述神经网络模型进行调整，得到图像生成模型，包括：

根据所述重建图像的真实性标注结果和真实性预测结果、所述各张预测图像的真实性标注结果和真实性预测结果、所述重建图像、所述样本图像和所述至少两张预测图像，对所述神经网络模型进行调整，得到图像生成模型。

9.一种图像生成方法，其特征在于，所述方法包括：

获取参考图像和图像生成模型，所述图像生成模型是按照权利要求1至8任一项所述的图像生成模型的训练方法训练得到的；

10.一种图像生成模型的训练装置，其特征在于，所述装置包括：

获取模块，用于获取样本图像和神经网络模型；

11.一种图像生成装置，其特征在于，所述装置包括：

获取模块，用于获取参考图像和图像生成模型，所述图像生成模型是按照权利要求1至8任一项所述的图像生成模型的训练方法训练得到的；

12.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行，以使所述电子设备实现如权利要求1至8任一所述的图像生成模型的训练方法或者实现如权利要求9所述的图像生成方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以使电子设备实现如权利要求1至8任一所述的图像生成模型的训练方法或者实现如权利要求9所述的图像生成方法。

14.一种计算机程序产品，其特征在于，所述计算机程序产品中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以使电子设备实现如权利要求1至8任一所述的图像生成模型的训练方法或者实现如权利要求9所述的图像生成方法。