CN109523493A

CN109523493A - 一种图像生成方法、装置及电子设备

Info

Publication number: CN109523493A
Application number: CN201710838757.1A
Authority: CN
Inventors: 姚莹; 程战战; 钮毅; 罗兵华
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2017-09-18
Filing date: 2017-09-18
Publication date: 2019-03-26

Abstract

本发明实施例提供了一种图像生成方法及装置，方法包括：获得目标图像内容，其中，目标图像内容为待生成的目标图像对应的需求内容；对目标图像内容进行编码，得到目标图像对应的目标内容编码信息；将第一噪声信息和目标内容编码信息输入预先训练的生成对抗网络中的生成器，生成目标图像；其中，生成对抗网络是根据各样本图像、各合成图像以及各样本图像对应的第一内容编码信息训练得到的，第一内容编码信息是对各样本图像的图像内容进行编码得到的，各合成图像是所述生成器根据各样本图像对应的第一内容编码信息生成的，各样本图像所涵盖的图像内容中包括目标图像内容。应用本发明实施例提供的方案可以准确地生成符合需求的图像。

Description

一种图像生成方法、装置及电子设备

技术领域

本发明涉及图像处理技术领域，特别是涉及一种图像生成方法及装置、电子设备、计算机可读存储介质。

背景技术

生成对抗网络(Generative Adversarial Networks，GAN)是一种生成式模型(Generative Model)，包含一个生成器和一个判别器，判别器的目的是努力判断原始样本和对抗样本的真假，而生成器的目的是努力生成像原始样本的对抗样本来迷惑判别器。经过训练，生成器生成的对抗样本越来越好，最终目的是生成判别器不能正确识别的对抗样本。

生成对抗网络的训练过程为：利用包含多个原始样本的训练集对生成器和判别器同时进行训练，生成器根据噪声向量生成对抗样本，判别器同时判别原始样本和对抗样本究竟谁真谁假。在训练过程中，不断改进生成器的生成方法，以使得生成器最终生成判别器不能正确识别的对抗样本。其中，噪声信息是根据训练集中原始样本的概率分布进行随机取样得到的噪声向量。在训练完成后，对于训练好的生成器，能把任意一个噪声向量转化成和训练集中原始样本类似的对抗样本。

在图像生成技术中，可以利用训练好的生成对抗网络中的生成器生成与训练集中的样本图像类似的合成图像。然而，现有技术中使用生成对抗网络生成图像时，生成器仅仅根据输入的噪声信息来生成，而在对生成的图像的图像内容有需求时，仅根据噪声信息则难以准确地生成符合需求的图像。

发明内容

本发明实施例的目的在于提供一种图像生成方法及装置、电子设备、计算机可读存储介质，以准确地生成符合需求的图像。具体技术方案如下：

第一方面，本发明实施例提供了一种图像生成方法，所述方法包括：

获得目标图像内容，其中，所述目标图像内容为待生成的目标图像对应的需求内容；

对所述目标图像内容进行编码，得到所述目标图像对应的目标内容编码信息；

将第一噪声信息和所述目标内容编码信息输入预先训练的生成对抗网络中的生成器，生成所述目标图像；其中，所述生成对抗网络是根据各样本图像、各合成图像以及所述各样本图像对应的第一内容编码信息训练得到的，所述第一内容编码信息是对所述各样本图像的图像内容进行编码得到的，所述各合成图像是所述生成器根据所述各样本图像对应的第一内容编码信息生成的，所述各样本图像所涵盖的图像内容中包括所述目标图像内容。

可选的，所述对所述目标图像内容进行编码，得到所述目标图像对应的目标内容编码信息的步骤，包括：

对所述目标图像内容进行独热编码，得到所述目标图像对应的目标内容编码信息。

可选的，所述生成对抗网络的训练过程包括：

获取样本图像，对所述样本图像的第一图像内容进行编码，得到所述第一内容编码信息；

将第二噪声信息和所述第一内容编码信息输入所述生成器，生成第一合成图像；将第一输入、第二输入、第三输入作为所述生成对抗网络中的判别器的训练样本，输入所述判别器，获得所述判别器分别对所述第一输入、所述第二输入、所述第三输入的第一真实度评分，根据所述第一真实度评分，调整所述判别器的网络参数，得到更新后的判别器；其中，所述第一输入为所述样本图像与所述第一内容编码信息，所述第二输入为所述样本图像与不同于所述第一内容编码信息的第二内容编码信息，所述第三输入为所述第一合成图像与所述第一内容编码信息；

将第三噪声信息和所述第一内容编码信息输入所述生成器，生成第二合成图像；将第四输入作为所述生成器的训练样本，输入所述更新后的判别器，获得所述更新后的判别器对所述第四输入的第二真实度评分；其中，所述第四输入为所述第二合成图像与所述第一内容编码信息；

判断所述第二真实度评分是否大于预设阈值，如果是，结束训练得到所述生成对抗网络，如果否，根据所述第二真实度评分，调整所述生成器的网络参数，得到更新后的生成器，再返回执行所述获取样本图像，对所述样本图像的第一图像内容进行编码，得到所述第一内容编码信息的步骤。

可选的，根据所述第一真实度评分，调整所述判别器的网络参数的步骤，包括：

根据所述第一真实度评分，计算所述判别器的损失函数；

根据所述判别器的损失函数，调整所述判别器的网络参数；

根据所述第二真实度评分，调整所述生成器的网络参数的步骤，包括：

根据所述第二真实度评分，计算所述生成器的损失函数；

根据所述生成器的损失函数，调整所述生成器的网络参数。

可选的，根据所述第一真实度评分，计算所述判别器的损失函数的步骤，包括：

根据以下计算公式，计算所述判别器的损失函数loss_D：

loss_D＝-D(x,h)+(D(x,h′)+D(x′,h))/2；

根据所述第二真实度评分，计算所述生成器的损失函数的步骤，包括：

根据以下计算公式，计算所述生成器的损失函数loss_G：

loss_G＝-D(x″,h)；

其中，x表示所述样本图像，x′表示所述第一合成图像，h表示所述第一内容编码信息，h′表示所述第二内容编码信息，D(x,h)表示所述第一输入对应的真实度评分，D(x,h′)表示所述第二输入对应的真实度评分，D(x′,h)表示所述第三输入对应的真实度评分，x″表示所述第二合成图像，D(x″,h)表示所述第四输入对应的真实度评分。

第二方面，本发明实施例还提供了一种图像生成装置，所述装置包括：

获得模块，用于获得目标图像内容，其中，所述目标图像内容为待生成的目标图像对应的需求内容；

编码模块，用于对所述目标图像内容进行编码，得到所述目标图像对应的目标内容编码信息；

生成模块，用于将第一噪声信息和所述目标内容编码信息输入预先训练的生成对抗网络中的生成器，生成所述目标图像；其中，所述生成对抗网络是根据各样本图像、各合成图像以及所述各样本图像对应的第一内容编码信息训练得到的，所述第一内容编码信息是对所述各样本图像的图像内容进行编码得到的，所述各合成图像是所述生成器根据所述各样本图像对应的第一内容编码信息生成的，所述各样本图像所涵盖的图像内容中包括所述目标图像内容。

可选的，所述编码模块，用于：

可选的，所述装置还包括：训练模块，用于训练所述生成对抗网络；

其中，所述训练模块，包括：

获取子模块，用于获取样本图像，对所述样本图像的第一图像内容进行编码，得到所述第一内容编码信息；

第一训练子模块，用于将第二噪声信息和所述第一内容编码信息输入所述生成器，生成第一合成图像；将第一输入、第二输入、第三输入作为所述生成对抗网络中的判别器的训练样本，输入所述判别器，获得所述判别器分别对所述第一输入、所述第二输入、所述第三输入的第一真实度评分，根据所述第一真实度评分，调整所述判别器的网络参数，得到更新后的判别器；其中，所述第一输入为所述样本图像与所述第一内容编码信息，所述第二输入为所述样本图像与不同于所述第一内容编码信息的第二内容编码信息，所述第三输入为所述第一合成图像与所述第一内容编码信息；

第二训练子模块，将第三噪声信息和所述第一内容编码信息输入所述生成器，生成第二合成图像；将第四输入作为所述生成器的训练样本，输入所述更新后的判别器，获得所述更新后的判别器对所述第四输入的第二真实度评分；其中，所述第四输入为所述第二合成图像与所述第一内容编码信息；判断所述第二真实度评分是否大于预设阈值，如果是，结束训练得到所述生成对抗网络，如果否，根据所述第二真实度评分，调整所述生成器的网络参数，得到更新后的生成器，并触发所述获取子模块。

可选的，所述第一训练子模块，包括：

第一计算单元，用于根据所述第一真实度评分，计算所述判别器的损失函数；

第一调整单元，用于根据所述判别器的损失函数，调整所述判别器的网络参数；

所述第二训练子模块，包括：

第二计算单元，用于根据所述第二真实度评分，计算所述生成器的损失函数；

第二调整单元，用于根据所述生成器的损失函数，调整所述生成器的网络参数。

可选的，所述第一计算单元，用于：

根据以下计算公式，计算所述判别器的损失函数loss_D：

loss_D＝-D(x,h)+(D(x,h′)+D(x′,h))/2；

所述第二计算单元，用于：

根据以下计算公式，计算所述生成器的损失函数loss_G：

loss_G＝-D(x″,h)；

其中，x表示所述样本图像，x′表示所述第一合成图像，h表示所述第一内容编码信息，h′表示所述第二内容编码信息，D(x,h)表示所述第一输入对应的真实度评分，D(x,h′)表示所述第二输入对应的真实度评分，D(x′,h)表示所述第三输入对应的真实度评分，x″表示所述第二合成图像，D(x′,h)表示所述第四输入对应的真实度评分。

第三方面，本发明实施例还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现任一所述图像生成方法的方法步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现任一所述图像生成方法的方法步骤。

本发明实施例提供的方案，预先根据各样本图像、各合成图像以及各样本图像对应的第一内容编码信息训练得到生成对抗网络，其中，第一内容编码信息是对各样本图像的图像内容进行编码得到的，各合成图像是生成器根据各样本图像对应的第一内容编码信息生成的，进而在生成包含特定图像内容的目标图像时，直接将噪声信息和对特定图像内容编码得到的目标内容编码信息，一起输入到训练好的生成对抗网络的生成器中，可以生成与目标内容编码信息一致的目标图像，因此，本发明实施例提供的方案能够准确地生成满足需求的目标图像。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种图像生成方法的流程示意图；

图2为本发明实施例提供的一种生成对抗网络的训练方法的流程示意图；

图3为本发明实施例提供的生成器生成图像的示意图；

图4为本发明实施例提供的一个具体实施例中生成对抗网络的训练过程示意图；

图5为采用图4所示具体实施例提供的方法训练得到的生成对抗网络的生成器生成的车牌图像；

图6为采用图4所示具体实施例提供的方法训练得到的生成对抗网络的生成器生成的花鸟图像；

图7为本发明实施例提供的一种图像生成装置的结构示意图；

图8为本发明实施例提供的另一种图像生成装置的结构示意图；

图9为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为解决现有技术的问题，本发明实施例提供了一种图像生成方法、装置、电子设备及计算机可读存储介质。下面首先对本发明实施例提供的一种图像生成方法进行介绍。

图1为本发明实施例提供的一种图像生成方法的流程示意图，该方法可以包括：

S101，获得目标图像内容，其中，目标图像内容为待生成的目标图像对应的需求内容；

本发明实施例提供的方法可以应用于电子设备。具体地，该电子设备可以为台式计算机、便携式计算机、智能移动终端等。

本发明实施例中，待生成的目标图像对应的需求内容可以理解为待生成的目标图像中所包含的对象，例如，若待生成的目标图像为包含蝴蝶和牡丹花的图像，即待生成的目标图像对应的需求内容包括蝴蝶、牡丹花，则目标图像内容为蝴蝶、牡丹花；若待生成的目标图像为包含戴眼镜的男人的图像，即待生成的目标图像对应的需求内容包括眼镜、男人，则目标图像内容为眼镜、男人。

S102，对目标图像内容进行编码，得到目标图像对应的目标内容编码信息。

在获得待生成的目标图像的目标图像内容后，由于生成对抗网络不能直接识别目标图像内容，因此需要对目标图像内容进行编码预处理，将目标图像内容转换为生成对抗网络可识别的目标内容编码信息，将编码后得到的目标内容编码信息输入到生成对抗网络中的生成器进行图像生成。其中，“目标内容编码信息”中的“目标”仅用以与其他的内容编码信息作区分，不具有限定作用。

例如，在训练生成对抗网络时可以预先将各个样本图像中所包含的对象进行标识，例如，训练生成对抗网络所利用的样本图像集中的各个样本图像可以包含蝴蝶、蜜蜂、萤火虫、牡丹花、月季花、丁香花中的一类或多类对象，则可以将蝴蝶标识为000、蜜蜂表示为001、萤火虫标识为010、牡丹花标识为011、月季花标识为100、丁香花标识为101，则在利用训练完成的生成对抗网络生成目标图像时，若目标图像内容为蝴蝶、牡丹花，那么目标内容编码信息可以包含蝴蝶、牡丹花所对应的标识，如目标内容编码信息可以为<000，011>。由于在训练生成对抗网络时，是基于对各个样本图像的图像内容进行编码得到的内容编码信息训练的，因此，当向生成对抗网络输入目标内容编码信息<000，011>时，生成对抗网络可以识别出待生成的目标图像中包含蝴蝶、牡丹花。

作为本发明实施的一种实施方式，可以采用独热编码的方式，对目标图像内容进行编码，得到目标图像对应的目标内容编码信息。

本领域技术人员可以理解的是，独热编码也称为one-hot编码。在one-hot编码中，每一个码的位数取决于状态的种类数，码中的每一位分别对应一种状态，每一个码里“1”的位置代表该状态生效、“0”的位置代表该状态不生效。

在本发明实施例中，内容编码信息所包含的码的个数等于样本图像集中所包含的对象的类别数，每个码中只有一位为“1”，状态的种类数等于样本图像集中所包含的对象的类别数，并且每一类对象对应一种状态。

例如，样本图像集包含蝴蝶、蜜蜂、萤火虫、牡丹花、月季花、丁香花共6类对象，则利用基于该样本图像集训练得到的生成对抗网络生成目标图像时，若目标图像内容包含蝴蝶、牡丹花两类对象，则对目标图像内容进行独热编码后得到的目标内容编码信息可以为<000001，000000，000000，001000，000000，000000>，其中，每一个码从右至左每一位依次对应的对象为蝴蝶、蜜蜂、萤火虫、牡丹花、月季花、丁香花。可见，对目标图像内容进行独热编码，可以将目标图像内容编码成一个指定长度的向量。

S103，将第一噪声信息和目标内容编码信息输入预先训练的生成对抗网络中的生成器，生成目标图像；其中，生成对抗网络是根据各样本图像、各合成图像以及各样本图像对应的第一内容编码信息训练得到的，第一内容编码信息是对各样本图像的图像内容进行编码得到的，各合成图像是生成器根据各样本图像对应的第一内容编码信息生成的，各样本图像所涵盖的图像内容中包括目标图像内容。

其中，噪声信息为根据样本图像集中样本图像的概率分布进行随机取样得到的噪声向量，例如，噪声信息可以为随机取样得到的高斯噪声向量。需要说明的是，每次利用生成对抗网络的生成器生成图像前，均需随机取样得到一个噪声向量。其中，“第一噪声信息”中的“第一”仅用以与获得的其他噪声信息作区分，不具有限定作用。

在本发明实施例中，为了提高生成特定内容的图像的准确性，电子设备可以预先根据一定数量的样本图像如100张、500张、1000张等、各样本图像对应的第一内容编码信息、以及生成器根据各样本图像对应的第一内容编码信息生成的各合成图像训练得到生成对抗网络。使用该生成对抗网络的生成器生成图像，当在生成器中输入随机生成的第一噪声信息和目标内容编码信息时，生成器可以输出与该目标内容编码信息一致的目标图像。

需要说明的是，各样本图像所涵盖的图像内容中应当包括目标图像内容。由于生成对抗网络是基于样本图像集中各个样本图像的图像内容训练得到的，因此，为了生成准确的满足需求的目标图像，各样本图像所涵盖的图像内容中应当包括目标图像内容，可以理解的，若目标图像内容中包含样本图像集所不包含的对象，则生成对抗网络无法识别出待生成的目标图像中所包含的对象，进而生成器难以生成满足目标图像内容的目标图像。

作为本发明实施例的一种实施方式，上述生成对抗网络可以为深度卷积生成对抗网络(Deep Covolutional Generative Adversarial Networks，DCGAN)，可以理解的，在深度卷积生成对抗网络中，生成器和判别器均为卷积神经网络(CNN)，将CNN扩展为GAN可以使得生成对抗网络既能达到生成对抗的目的又能稳定训练。

各样本图像对应的第一内容编码信息可以是根据各样本图像获得的，并且，各样本图像对应的第一内容编码信息，可以表征各样本图像中所包含的对象的信息。具体地，第一内容编码信息可以通过对各样本图像的图像内容进行独热编码的方式获得。

在进行生成对抗网络的训练时，可以构建初始生成对抗网络，该初始生成对抗网络中的参数为初始值，通过训练来优化参数。具体地，可以首先获得各样本图像对应的第一内容编码信息，并且将随机产生的噪声信息与第一内容编码信息作为生成器的输入，生成合成图像，然后根据各样本图像、各合成图像以及各样本图像对应的第一内容编码信息对初始生成对抗网络进行训练，在训练过程中更新初始生成对抗网络的参数，迭代进行这一过程直到参数不再变化时，参数值确定，生成对抗网络训练完成。

因此，在本发明实施例中，在进行图像生成时，当电子设备对待生成的目标图像的目标图像内容进行编码，得到目标图像对应的目标内容编码信息后，其可以将该目标内容编码信息和随机生成的第一噪声信息输入预先训练的生成对抗网络的生成器中，得到待生成的目标图像。

在本发明实施例中，电子设备可以预先训练得到生成对抗网络，生成对抗网络中的生成器用于进行图像生成。具体地，生成对抗网络还可以包括判别器，如图2所示，本发明实施例提供的图像生成方法中，生成对抗网络的训练过程可以包括以下步骤：

S201，获取样本图像，对该样本图像的第一图像内容进行编码，得到第一内容编码信息。

本发明实施例中，电子设备在训练生成对抗网络时，可以首先获取样本图像。例如，电子设备可以获取尽可能多的样本图像，并且，样本图像的第一图像内容可以包含一类或多类对象。

获取到样本图像后，电子设备还可以对该样本图像的第一图像内容进行编码，得到第一内容编码信息。具体的，电子设备可以采用独热编码的方式，对各样本图像的第一图像内容进行编码。与对目标图像内容编码相同，对第一图像内容进行编码，可以将第一图像内容编码成一个与目标内容编码信息相同的指定长度的向量。

S202，将第二噪声信息和第一内容编码信息输入生成器，生成第一合成图像；将第一输入、第二输入、第三输入作为训练样本，输入生成对抗网络中的判别器，获得判别器分别对第一输入、第二输入、第三输入的第一真实度评分，根据第一真实度评分，调整判别器的网络参数，得到更新后的判别器。

其中，第一输入为该样本图像与第一内容编码信息，第二输入为该样本图像与不同于第一内容编码信息的第二内容编码信息，第三输入为合成图像与第一内容编码信息。

本发明实施例中，在对第一图像内容进行编码得到第一内容编码信息后，可以将随机产生的第二噪声信息与第一内容编码信息连接，输入到生成器中生成第一合成图像。如图3所示的生成器生成图像的示意图，其中，生成器为一个逆卷积神经网络，将第二噪声信息与第一内容编码信息连接后，输入逆卷积神经网络中，生成第一合成图像。

可以理解的，第二内容编码信息可以为与该样本图像不同的另一样本图像所对应的内容编码信息，也可以通过修改第一内容编码信息来获得，只要第二内容编码信息与第一内容编码信息不同即可，本发明实施例对此不做限定。

可以理解的是，判别器的作用是将图像进行真假的归类，而针对有内容的图像，需将图像的内容信息作为归类的一个考虑因素，因此判别器不再是只判别图像的真假，如果图像为真，判别器还需要考虑图像是否与内容编码信息一致，如果一致才能判断为真。所以在对判别器进行训练时，判别器的输入有三种：第一种是样本图像和与该样本图像对应的第一内容编码信息，第二种是基于第一内容编码信息生成的第一合成图像和第一内容编码信息，第三种是样本图像和与该样本图像的图像内容不对应的第二内容编码信息。对于第一种输入，判别器需要将其判断为真，而后两种输入，判别器需要将其判断为假。

本发明实施例中，将样本图像的内容编码信息作为真假的判断指标，判别器不仅可以学习到图像是否为真，还能够学习到图像与内容编码信息是否匹配，从而可以更加精确的判断出一个图像有多真，进而使得生成器在训练过程中不断提高生成图像的质量。在判别器的训练过程中，判别器对于每一种输入的真实度评分，表征了该种输入所对应的图像与内容编码信息的匹配程度，其中，第一输入的真实度评分为1，第二输入的真实度评分为0，生成对抗网络的训练目标就是使得判别器对第三输入的真实度评分也为0。而生成对抗网络的对抗表现在生成器生成的第二合成图像作为判别器的输入时能使得判别器的真实度评分为1。

在得到判别器对于三种输入的真实度评分后，还需要采用反向传播的方式，根据三种输入的真实度评分来调整判别器的网络参数。作为本发明实施例的一种实施方式，可以首先根据所获得的第一真实度评分，计算判别器的损失函数，然后根据判别器的损失函数，调整判别器的网络参数。可选的，可以基于JS(Jensen-Shannon)散度或者KL(Kullback-Leibler)散度来计算判别器的损失函数，但是由于这两种方式所计算出的损失函数是不连续的，因此在训练时会出现不稳定、难收敛的问题。为了使训练更加稳定，作为本发明实施例的一种实施方式，可以使用Wasserstein距离来作为判别器的训练指标，简要来讲，就是让判别器做回归任务，而不是分类任务。具体的，可以根据以下计算公式，计算判别器的损失函数loss_D：

loss_D＝-D(x,h)+(D(x,h′)+D(x′,h))/2；

其中，x表示样本图像，x′表示第一合成图像，h表示第一内容编码信息，h′表示第二内容编码信息，D(x,h)表示第一输入对应的真实度评分，D(x,h′)表示第二输入对应的真实度评分，D(x′,h)表示第三输入对应的真实度评分。

作为本发明实施例的一种实施方式，在计算得到判别器的损失函数后，可以采用Adam(Adaptive Moment Estimation，自适应矩估计)算法，根据判别器的损失函数，调整判别器的网络参数。概率论中矩的含义是：如果一个随机变量X服从某个分布，X的一阶矩是E(X)，也就是样本平均值，X的二阶矩是E(X^2)，也就是样本平方的平均值。Adam算法根据损失函数对每个参数的梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习速率。Adam算法是基于梯度下降的方法，每次迭代参数的学习步长都有一个确定的范围，不会因为很大的梯度导致很大的学习步长，因此参数的值比较稳定，有利于降低模型收敛到局部最优的风险。当然，RMSProp(一种基于梯度的优化方法)和SGD(stochastic gradient descent，随机梯度下降)等优化算法也是同样适用的。

S203，将第三噪声信息和第一内容编码信息输入生成器，生成第二合成图像；将第四输入作为生成器的训练样本，输入更新后的判别器，获得更新后的判别器对第四输入的第二真实度评分。

其中，第四输入为第二合成图像与第一内容编码信息。

本发明实施例中，在使用当前的样本图像对判别器进行训练后，还需要对生成器进行训练，具体的，可以利用更新后的判别器对生成器进行训练，利用判别器对第四输入的第二真实度评分来调整生成器的网络参数。本发明实施例中，可以将随机产生的第三噪声信息与第一内容编码信息连接，输入到生成器中生成第二合成图像。

S204，判断第二真实度评分是否大于预设阈值，如果是，结束训练得到生成对抗网络，如果否，执行S205。

S205，根据第二真实度评分，调整生成器的网络参数，得到更新后的生成器，再返回执行步骤S201。

本领域技术人员可以理解的是，理想状态下，生成对抗网络的训练目标是判别器对于第二合成图像与第一内容编码信息组成的第四输入的真实度评分为1。在生成对抗网络过程中，判别器对第四输入的真实度评分会越来越接近1，实际上，判别器对第四输入的真实度评分越高，表示生成器所生成的图像与第一内容编码信息越来越匹配，因此，可以预先设置第二真实度评分的阈值，当判别器对第四输入的第二真实度评分大于预设阈值时，可以认为当前训练得到的生成对抗网络已经满足需求，此时可以结束对生成对抗网络的训练。其中，预设阈值可以根据需求进行设定，例如可以设置为0.9、0.95、0.85，等等，数值越大，训练得到的生成对抗网络越好。

对于生成对抗网络训练结束的条件，在另一种实施方式中，可以人为的根据生成器所生成的合成图像的图像质量进行判断是否结束训练过程。可以理解的，在训练初期，生成器生成的合成图像是杂乱无章的，随着训练的进行不断调整生成器的网络参数，生成器生成的合成图像越来越清晰并且符合样本图像的第一图像内容。在再一种实施方式中，还可以设置样本图像的数量如1000张样本图像，则判断当前样本图像是否为最后一张样本图像，如果是，则结束训练过程，可以理解的是，为了实现更好的训练效果，样本图像的数量应当足够多。

与判别器的训练方式相同，在得到更新后的判别器对于第四输入的第二真实度评分后，同样需要采用反向传播的方式，利用第二真实度评分来调整生成器的网络参数。作为本发明实施例的一种实施方式，可以首先根据第二真实度评分，计算生成器的损失函数；然后根据生成器的损失函数，调整生成器的网络参数。对于生成器的损失函数的计算方法，也可以基于JS(Jensen-Shannon)散度或者KL(Kullback-Leibler)散度进行计算，但是由于这两种方式所计算出的损失函数是不连续的，因此在训练时会出现不稳定、难收敛的问题。为了使训练更加稳定，作为本发明实施例的一种实施方式，也可以使用Wasserstein距离来作为生成器的训练指标，具体的，可以根据以下计算公式，计算生成器的损失函数loss_G：

loss_G＝-D(x″,h)；

其中，x″表示第二合成图像，h表示第一内容编码信息，D(x″,h)表示所述第四输入对应的真实度评分。

作为本发明实施例的一种实施方式，在计算得到判别生成器的损失函数后，也可以采用Adam算法，根据生成器的损失函数，调整判别器和生成器的参数。当然，RMSProp和SGD等优化算法也是同样适用的。

本发明实施例中，对生成对抗网络的生成器和判别器同时进行训练，将样本图像的图像内容进行编码并连接在噪声信息后，作为生成器训练的附加条件，使生成器生成特定图像内容的合成图像，在训练判别器时使用三种输入，使判别器输出三种输入各自所对应的真实度评分，从而根据真实度评分对判别器的网络参数进行调整，在训练生成器时，生成器根据噪声和内容编码信息生成合成图像，将合成图像和内容编码信息作为调整后的判别器的输入，依据调整后的判别器的反馈来调整生成器网络参数，从而实现对生成对抗网络的训练。因此，在生成对抗网络训练完成后，可使用训练好的生成器来生成与各样本图像分布一致的、符合特定需求的图像。

下面以一个具体实施例对图2所示的生成对抗网络的训练过程进行说明，如图4所示的训练过程，首先依据生成器和判别器的损失函数的公式，需要准备的数据有：

z～N(0,1)

x′＝G(z,h)

其中，z表示从正太分布N(0,1)中随机取样得到的高斯噪声向量，表示对图像内容进行one-hot编码，样本图像是按照minibatch(分批处理)的方式从样本图像集中进行取样操作的，x代表一样本图像，h表示对样本图像x的第一图像内容进行one-hot编码得到的第一内容编码信息，h′表示对不同于第一图像内容的第二图像内容t′进行one-hot编码得到的第二内容编码信息，x′代表由生成器根据噪声信息z和第一内容编码信息h生成的合成图像。

在上述的准备数据中，合成图像x′为将第一内容编码信息h与随机产生的噪声信息noise连接并输入生成器后生成的。在得到上述准备数据后，在对判别器训练时，将合成图像x′和第一内容编码信息h作为一种输入、样本图像x和第二内容编码信息h′作为一种输入、样本图像x和第一内容编码信息h作为一种输入，同时输入到判别器中，判别器判断每种输入的图像与内容编码信息是否对应，并输出每种输入对应的真实度评分。

在得到每种输入对应的真实度评分后，根据真实度评分调整判别器的网络参数。具体的，首先调整判别器的网络参数，保持生成器的网络参数不变，使用判别器的梯度更新判别器的网络参数：其中，D表示调整前判别器的网络参数，D′表示调整后判别器的网络参数。

同理，在对生成器训练时，首先由生成器根据噪声信息和第一内容编码信息h生成另一合成图像x″，然后将合成图像x″和第一内容编码信息h作为输入，输入到更新后的判别器中，得到更新后的判别器对该输入的真实度评分，根据真实度评分调整生成器的网络参数。具体的，使用生成器的梯度来更新生成器的网络参数：其中，G表示调整前生成器的网络参数，G′表示调整后生成器的网络参数。

本具体实施例中，生成对抗网络可以为深度卷积生成对抗网络，生成器和判别器均为卷积神经网络，生成对抗网络的网络结构更加稳定，并且在生成器和判别器的输入端加入图像内容对应的内容编码信息进行训练，因此可以利用本具体实施例训练得到的生成器生成大量与样本图像分布一致的合成图像。以生成车牌为例，利用基于中东车牌的样本图像集训练得到的生成对抗网络，不仅可以生成多样的背景复杂的车牌图像，而且图像中的字符也十分清晰，有子字段主字段、单层双层信息，生成的部分车牌图像如图5所示。当然，也可以将描述花、鸟的自然语言信息经过编码，用本具体实施例提供的方法训练得到的生成器来生成花或鸟等图像，生成的部分花、鸟的图像如图6所示。

与上述的图像生成方法相对应，本发明实施例还提供了一种图像生成装置。与图1所示的方法实施例相对应，图7为本发明实施例提供的一种图像生成装置的结构示意图，该装置可以包括：

获得模块701，用于获得目标图像内容，其中，所述目标图像内容为待生成的目标图像对应的需求内容；

编码模块702，用于对所述目标图像内容进行编码，得到所述目标图像对应的目标内容编码信息；

生成模块703，用于将第一噪声信息和所述目标内容编码信息输入预先训练的生成对抗网络中的生成器，生成所述目标图像；其中，所述生成对抗网络是根据各样本图像、各合成图像以及所述各样本图像对应的第一内容编码信息训练得到的，所述第一内容编码信息是对所述各样本图像的图像内容进行编码得到的，所述各合成图像是所述生成器根据所述各样本图像对应的第一内容编码信息生成的，所述各样本图像所涵盖的图像内容中包括所述目标图像内容。

作为本发明实施例的一种实施方式，所述编码模块702，具体可以用于：

作为本发明实施例的一种实施方式，如图8所示，所述装置还可以包括：训练模块704，用于训练所述生成对抗网络；

其中，所述训练模块704，可以包括：

获取子模块(图中未示出)，用于获取样本图像，对所述样本图像的第一图像内容进行编码，得到所述第一内容编码信息；

第一训练子模块(图中未示出)，用于将第二噪声信息和所述第一内容编码信息输入所述生成器，生成第一合成图像；将第一输入、第二输入、第三输入作为所述生成对抗网络中的判别器的训练样本，输入所述判别器，获得所述判别器分别对所述第一输入、所述第二输入、所述第三输入的第一真实度评分，根据所述第一真实度评分，调整所述判别器的网络参数，得到更新后的判别器；其中，所述第一输入为所述样本图像与所述第一内容编码信息，所述第二输入为所述样本图像与不同于所述第一内容编码信息的第二内容编码信息，所述第三输入为所述第一合成图像与所述第一内容编码信息；

第二训练子模块(图中未示出)，将第三噪声信息和所述第一内容编码信息输入所述生成器，生成第二合成图像；将第四输入作为所述生成器的训练样本，输入所述更新后的判别器，获得所述更新后的判别器对所述第四输入的第二真实度评分；其中，所述第四输入为所述第二合成图像与所述第一内容编码信息；判断所述第二真实度评分是否大于预设阈值，如果是，结束训练得到所述生成对抗网络，如果否，根据所述第二真实度评分，调整所述生成器的网络参数，得到更新后的生成器，并触发所述获取子模块。

作为本发明实施例的一种实施方式，所述第一训练子模块，可以包括：

第一计算单元(图中未示出)，用于根据所述第一真实度评分，计算所述判别器的损失函数；

第一调整单元(图中未示出)，用于根据所述判别器的损失函数，调整所述判别器的网络参数；

所述第二训练子模块，可以包括：

第二计算单元(图中未示出)，用于根据所述第二真实度评分，计算所述生成器的损失函数；

第二调整单元(图中未示出)，用于根据所述生成器的损失函数，调整所述生成器的网络参数。

作为本发明实施例的一种实施方式，所述第一计算单元，可以用于：

根据以下计算公式，计算所述判别器的损失函数loss_D：

loss_D＝-D(x,h)+(D(x,h′)+D(x′,h))/2；

所述第二计算单元，可以用于：

根据以下计算公式，计算所述生成器的损失函数loss_G：

loss_G＝-D(x″,h)；

其中，x表示所述样本图像，x′表示所述合成图像，h表示所述第一内容编码信息，h′表示所述第二内容编码信息，D(x,h)表示所述第一输入对应的真实度评分，D(x,h′)表示所述第二输入对应的真实度评分，D(x′,h)表示所述第三输入对应的真实度评分，x″表示所述第二合成图像，D(x′,h)表示所述第四输入对应的真实度评分。

本发明实施例还提供了一种电子设备，如图9所示，包括处理器901、通信接口902、存储器903和通信总线904，其中，处理器901，通信接口902，存储器903通过通信总线904完成相互间的通信，

存储器903，用于存放计算机程序；

处理器901，用于执行存储器903上所存放的程序时，实现如下步骤：

关于该方法各个步骤的具体实现以及相关解释内容可以参见上述的方法实施例对应的系统实施例，在此不做赘述。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现图1或图2所示的图像生成方法所述的方法步骤。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种图像生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述目标图像内容进行编码，得到所述目标图像对应的目标内容编码信息的步骤，包括：

3.根据权利要求1所述的方法，其特征在于，所述生成对抗网络的训练过程包括：

4.根据权利要求3所述的方法，其特征在于，根据所述第一真实度评分，调整所述判别器的网络参数的步骤，包括：

根据所述第一真实度评分，计算所述判别器的损失函数；

根据所述判别器的损失函数，调整所述判别器的网络参数；

根据所述第二真实度评分，计算所述生成器的损失函数；

根据所述生成器的损失函数，调整所述生成器的网络参数。

5.根据权利要求4所述的方法，其特征在于，根据所述第一真实度评分，计算所述判别器的损失函数的步骤，包括：

根据以下计算公式，计算所述判别器的损失函数loss_D：

loss_D＝-D(x,h)+(D(x,h′)+D(x′,h))/2；

根据以下计算公式，计算所述生成器的损失函数loss_G：

loss_G＝-D(x″,h)；

6.一种图像生成装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述编码模块，用于：

8.根据权利要求6所述的装置，其特征在于，所述装置还包括：训练模块，用于训练所述生成对抗网络；

其中，所述训练模块，包括：

9.根据权利要求8所述的装置，其特征在于，所述第一训练子模块，包括：

所述第二训练子模块，包括：

10.根据权利要求9所述的装置，其特征在于，所述第一计算单元，用于：

根据以下计算公式，计算所述判别器的损失函数loss_D：

loss_D＝-D(x,h)+(D(x,h′)+D(x′,h))/2；

所述第二计算单元，用于：

根据以下计算公式，计算所述生成器的损失函数loss_G：

loss_G＝-D(x″,h)；

11.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-5任一所述的方法步骤。