CN111524207A

CN111524207A - 基于人工智能的图像生成方法、装置、电子设备

Info

Publication number: CN111524207A
Application number: CN202010317848.2A
Authority: CN
Inventors: 刘博安; 唐永毅
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2020-08-11
Anticipated expiration: 2040-04-21
Also published as: CN111524207B

Abstract

本发明提供了一种基于人工智能的图像生成方法、装置、电子设备及计算机可读存储介质；方法包括：获取待成像的对象的成像风格和成像条件；将成像风格对应的风格隐码和成像条件进行融合处理，得到包含成像条件的风格向量；对包含成像条件的风格向量、以及对象的模板特征图进行正则化处理，得到正则化后的特征图；对正则化后的特征图以及噪声进行融合处理，得到包含噪声的特征图；对包含噪声的特征图、以及包含成像条件的风格向量进行正则化处理，得到具有成像风格且符合成像条件的对象图像。通过本发明，能够生成符合用户需求的对象图像、提高生成图像的实用性。

Description

基于人工智能的图像生成方法、装置、电子设备

技术领域

本发明涉及人工智能技术，尤其涉及一种基于人工智能的图像生成方法、装置、电子设备及计算机可读存储介质。

背景技术

人工智能(Artificial Intelligence，AI)是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，例如自然语言处理技术以及机器学习/深度学习等几大方向，随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

在基于人工智能的图像处理技术中，图像生成是一个重要的研究方向，能够自动生成用户所需的图像，无需用户手动生成图像。但是，相关技术生成的图像的内容没有针对性，往往不符合用户的需求，实用性低。

发明内容

本发明实施例提供一种基于人工智能的图像生成方法、装置、电子设备及计算机可读存储介质，能够生成符合用户需求的对象图像、提高生成图像的实用性。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种基于人工智能的图像生成方法，包括：

获取待成像的对象的成像风格和成像条件；

将所述成像风格对应的风格隐码和所述成像条件进行融合处理，得到包含所述成像条件的风格向量；

对所述包含成像条件的风格向量、以及所述对象的模板特征图进行正则化处理，得到正则化后的特征图；

对所述正则化后的特征图以及噪声进行融合处理，得到包含噪声的特征图；

对所述包含噪声的特征图、以及所述包含成像条件的风格向量进行正则化处理，得到具有所述成像风格且符合所述成像条件的对象图像。

呈现待呈现对象的设置界面；

响应于在所述设置界面中接收的成像风格和成像条件，调用与所述成像风格对应的图像生成模型，并

在所述图像生成模型中融合所述成像条件，以生成具有所述成像风格且符合所述成像条件的对象图像；

呈现所述对象图像。

本发明实施例提供一种基于人工智能的图像生成装置，包括：

获取模块，用于获取待成像的对象的成像风格和成像条件；

融合模块，用于将所述成像风格对应的风格隐码和所述成像条件进行融合处理，得到包含所述成像条件的风格向量；

处理模块，用于对所述包含成像条件的风格向量、以及所述对象的模板特征图进行正则化处理，得到正则化后的特征图；

上述技术方案中，所述融合模块还用于对所述成像风格对应的风格隐码和所述成像条件进行映射处理，得到包含成像条件的中间向量；

对所述包含成像条件的中间向量进行仿射变换，得到所述包含成像条件的风格向量。

上述技术方案中，所述融合模块还用于通过多个级联的全连接层中的第一个全连接层，对所述成像风格对应的风格隐码和所述成像条件进行映射处理，将映射结果作为所述第一个全连接层的输出，并输入到后续级联的全连接层，以

在所述后续级联的全连接层中继续基于所接收的映射结果进行成像条件的映射和映射结果的输出；

将最后一个全连接层的输出作为包含成像条件的中间向量。

上述技术方案中，所述处理模块还用于对所述对象的模板特征图进行标准化处理，得到对应所述模板特征图的高斯特征图；

对所述高斯特征图、以及所述包含成像条件的风格向量进行对齐处理，将对齐结果作为正则化后的特征图。

上述技术方案中，所述处理模块还用于将所述包含成像条件的风格向量的方差、与所述高斯特征图的各个像素进行相乘处理，得到方差对齐后的高斯特征图的各个像素；

将所述包含成像条件的风格向量的均值分别与方差对齐后的各个像素进行相加处理，得到均值对齐后的高斯特征图的各个像素；

将均值对齐后的高斯特征图的各个像素进行组合，得到所述正则化后的特征图。

上述技术方案中，所述处理模块还用于对从噪声库中随机抽取的噪声进行缩放处理，得到所述噪声的特征值；

将所述噪声的特征值、与所述正则化后的特征图中的各个像素进行相加处理，得到融入噪声的各个像素；

将所述融入噪声的各个像素进行组合，得到包含噪声的特征图。

上述技术方案中，所述处理模块还用于对所述包含噪声的特征图、以及所述包含成像条件的风格向量进行正则化处理，得到包含成像条件的初始对象图像；

对所述包含成像条件的初始对象图像、以及所述包含成像条件的风格向量进行解码处理，得到具有所述成像风格且符合所述成像条件的最终对象图像。

上述技术方案中，所述处理模块还用于通过多个级联的生成模块中的第一个生成模块，对所述包含成像条件的初始对象图像进行上采样处理，得到上采样特征图；

对所述上采样特征图、所述包含成像条件的风格向量以及噪声进行融合处理，将融合结果作为所述第一个生成模块的输出，并输入到后续级联的生成模块，以

在所述后续级联的生成模块中，继续基于所接收的融合结果进行上采样处理、融合处理和融合结果输出；

将最后一个生成模块输出的融合结果，作为所述具有所述成像风格且符合所述成像条件的最终对象图像。

上述技术方案中，所述处理模块还用于对所述上采样特征图以及第一噪声进行融合处理，得到包含第一噪声的上采样特征图；

对所述包含第一噪声的上采样特征图、以及所述包含成像条件的风格向量进行正则化处理，得到正则化后的上采样特征图；

对所述正则化后的上采样特征图进行卷积处理，得到卷积后的上采样特征图；

将所述卷积后的上采样特征图以及第二噪声进行融合处理，得到包含第二噪声的上采样特征图；

对所述包含第二噪声的上采样特征图、以及所述包含条件信息的风格向量进行正则化处理，将得到的正则化后的包含第二噪声的上采样特征图作为融合结果。

上述技术方案中，所述装置还包括：

训练模块，用于对对象样本的成像条件与所述对象样本的成像风格对应的风格隐码进行融合处理，得到包含成像条件的风格向量；

对所述包含成像条件的风格向量、以及所述对象样本的模板特征图进行正则化处理，得到正则化后的特征图；

对所述包含噪声的特征图、以及所述包含成像条件的风格向量进行正则化处理，生成具有所述成像风格且符合所述成像条件的对象图像样本；

根据真实的对象图像样本、以及生成的对象图像样本，构建图像生成模型的损失函数；

更新所述图像生成模型的参数直至所述损失函数收敛，将所述损失函数收敛时更新得到的参数，作为训练后的所述图像生成模型的参数。

上述技术方案中，所述训练模块还用于根据所述真实的对象图像样本的概率分布、以及所述生成的对象图像样本的概率分布，构建所述图像生成模型的图像判别损失函数；

通过所述图像生成模型中的鉴别器对所述真实的对象图像样本以及所述生成的对象图像样本进行预测处理，得到所述真实图像样本的预测标签的概率以及所述生成图像样本的预测标签概率；

根据所述真实的对象图像样本的标签、所述真实的对象图像样本的预测标签的概率、所述对象样本的成像条件以及所述生成图像样本的预测标签，构建所述图像生成模型的标签判别损失函数；

对所述图像判别损失函数、以及所述标签判别损失函数进行相加，将相加的结果确定为所述图像生成模型的整体损失函数。

第一呈现模块，用于呈现待呈现对象的设置界面；

调用模块，用于响应于在所述设置界面中接收的成像风格和成像条件，调用与所述成像风格对应的图像生成模型；

生成模块，用于在所述图像生成模型中融合所述成像条件，以生成具有所述成像风格且符合所述成像条件的对象图像；

第二呈现模块，用于呈现所述对象图像。

本发明实施例提供一种用于图像生成的电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的基于人工智能的图像生成方法。

本发明实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本发明实施例提供的基于人工智能的图像生成方法。

本发明实施例具有以下有益效果：

通过对成像风格和成像条件进行融合，得到具有成像风格且符合成像条件的对象图像，从而能够生成符合用户需求的对象图像提高生成的对象图像的内容的针对性以及实用性；在正则化的特征图中融入噪声，有助于提升对象图像的变化，使得在保证成像风格和成像条件的前提下，提高生成的对象图像的多样性；通过对包含噪声的特征图、以及包含成像条件的风格向量进行正则化处理，提高对象图像的生成质量。

附图说明

图1是本发明实施例提供的图像生成系统10的应用场景示意图；

图2是本发明实施例提供的用于图像生成的电子设备500的结构示意图；

图3A-3C是本发明实施例提供的人工智能的图像生成方法的流程示意图；

图4是本发明实施例提供的用于图像生成的电子设备600的结构示意图；

图5是本发明实施例提供的基于人工智能的图像生成方法的流程示意图；

图6是本发明实施例提供的生成器的结构示意图；

图7是本发明实施例提供的应用了混合正则化的生成器的结构示意图；

图8是本发明实施例提供的鉴别器的结构示意图；

图9是本发明实施例提供的生成的棕色短发的动漫人脸示意图；

图10是本发明实施例提供的生成的粉色中等发的动漫人脸示意图；

图11是本发明实施例提供的生成的紫色长发的动漫人脸示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，所涉及的术语“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)无监督学习：根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题。无监督学习算法主要有主成分分析方法、等距映射方法、局部线性嵌入方法、拉普拉斯特征映射方法、黑塞局部线性嵌入方法和局部切空间排列方法等。本发明实施例中的无监督学习为根据白样本(非作弊流量样本)训练无监督识别模型过程。

2)生成对抗网络(GAN，Generative Adversarial Networks)：一种深度学习模型，是近年来复杂分布上无监督学习方法之一。通过生成器(Generator)和鉴别器(Discriminator)的互相博弈学习产生相当好的输出。鉴别器需要输入变量以进行预测，而生成器需要输入某种隐含信息，来随机产生观测数据(生成的假数据)，例如鉴别器可以在给定一张猫的图像的情况下，判断这张图像是真图像还是生成的假图像，生成器可以在给定一系列猫的图像(数据集)的情况下，生成一张新的猫的图像(不在数据集里)。

3)成像风格：图像在整体上呈现的有代表性的视觉艺术的表现形式，例如中国画、水彩、素描、油画、版画、动漫等都属于成像风格。图像可以通过成像风格体现丰富的、特别的新视觉效果。图像的成像风格可以以强烈的艺术形式应用于动画、游戏等领域中，也出现在工程、工业设计图纸中。广阔的应用领域，不仅是由于成像风格的艺术表现形式丰富多样，还在于计算机能够通过成像风格辅助完成原本工作量大、难度高的创作工作。

4)成像条件：对象图像生成所需要的属性特点，例如当需要生成动漫人脸时，成像条件可以是头发的颜色、头发的长度等。本发明实施例可以根据成像条件，生成具有成像条件的对象图像，例如，成像条件是短头发、蓝眼睛、长刘海，则生成的动漫人脸具有短头发、蓝眼睛、长刘海的特点。

本发明实施例提供了一种基于人工智能的图像生成方法、装置、电子设备及计算机可读存储介质，能够生成符合用户需求的对象图像，提高用户体验感。下面说明本发明实施例提供的用于图像生成的电子设备的示例性应用，本发明实施例提供的用于图像生成的电子设备可以是服务器，例如部署在云端的服务器，根据待成像的对象的成像风格和成像条件，自动生成具有成像风格且符合成像条件的对象图像，向用户提供该对象图像；也可是笔记本电脑，平板电脑，台式计算机，移动设备(例如，移动电话，个人数字助理)等每个种类型的用户终端，例如手持终端，根据用户输入的待成像的对象的成像风格和成像条件，自动生成具有成像风格且符合成像条件的对象图像，并向用户呈现该对象图像。

参见图1，图1是本发明实施例提供的图像生成系统10的应用场景示意图，终端200通过网络300连接服务器100，网络300可以是广域网或者局域网，又或者是二者的组合。

终端200可以被用来获取待成像的对象的成像风格和成像条件，例如，当用户在终端的输入界面输入成像风格和成像条件，并点击图像生成按钮后，终端自动获取待成像的对象的成像风格和成像条件。

在一些实施例中，终端200本地执行本发明实施例提供的基于人工智能的图像生成方法来完成根据待成像的对象的成像风格和成像条件，自动生成具有成像风格且符合成像条件的对象图像，例如，在终端200上安装图像生成应用(Application，APP)，用户在图像生成应用APP输入成像风格和成像条件后，终端200根据输入的成像风格和成像条件，融合成像风格对应的风格隐码和成像条件，以得到包含成像条件的风格向量，并对包含成像条件的风格向量进行正则化、融合等处理，生成具有成像风格且符合成像条件的对象图像，并将该对象图像显示在终端200的显示界面210上。

在一些实施例中，终端200也可以通过网络300向服务器100发送用户在终端200上输入的成像风格和成像条件，并调用服务器100提供的图像生成功能，服务器100通过本发明实施例提供的基于人工智能的图像生成方法根据接收到成像风格和成像条件，自动生成具有成像风格且符合成像条件的对象图像，例如，在终端200上安装图像生成应用，用户在图像生成应用中，输入成像风格和成像条件，终端200通过网络300向服务器100发送成像风格和成像条件，服务器100接收到该成像风格和成像条件，融合成像风格对应的风格隐码和成像条件，以得到包含成像条件的风格向量，并对包含成像条件的风格向量进行正则化、融合等处理，生成具有成像风格且符合成像条件的对象图像，并将该对象图像返回至图像生成应用，将该对象图像显示在终端200的显示界面210上，或者，服务器100直接给出对象图像。

作为示例，在动漫形象设计的应用场景中，当画师在进行人物形象设计时，用于图像生成的电子设备(服务器100或者终端200)根据画师输入的动漫风和成像条件(例如，紫色长头发)，将动漫风的隐码和成像条件进行融合处理，得到包含该成像条件的风格向量，对该包含成像条件的风格向量、以及人脸的模板特征图进行正则化处理，得到正则化后的特征图，对该正则化后的特征图以及噪声进行融合处理，得到包含噪声的特征图，对该包含噪声的特征图、以及该包含成像条件的风格向量进行正则化处理，得到紫色长头发的动漫人脸，从而使得画师在设计人物形象时，根据已有的成像条件来生成不同的头像，来减少人物建模的工作量。

作为示例，在刑侦的应用场景中，当在公众人员描绘犯罪嫌疑人的容貌时，用于图像生成的电子设备(服务器100或者终端200)根据公众人员输入日常风和成像条件(例如，大眼睛、平头)，将日常风的隐码和成像条件进行融合处理，得到包含该成像条件的风格向量，对该包含成像条件的风格向量、以及人脸的模板特征图进行正则化处理，得到正则化后的特征图，对该正则化后的特征图以及噪声进行融合处理，得到包含噪声的特征图，对该包含噪声的特征图、以及该包含成像条件的风格向量进行正则化处理，得到各种包括大眼睛、平头的人脸，从而使得公众能够在生成的各种包括大眼睛、平头的人脸中，快速识别出犯罪嫌疑人。

下面说明本发明实施例提供的用于图像生成的电子设备的结构，用于图像生成的电子设备可以是各种终端，例如手机、电脑等，也可以是如图1示出的服务器100。

参见图2，图2是本发明实施例提供的用于图像生成的电子设备500的结构示意图，图2所示的用于图像生成的电子设备500包括：至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。用于图像生成的电子设备500中的各个组件通过总线系统540耦合在一起。可理解，总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统540。

处理器510可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器550包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本发明实施例描述的存储器550旨在包括任意适合类型的存储器。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。

在一些实施例中，存储器550能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统551，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块552，用于经由一个或多个(有线或无线)网络接口520到达其他计算设备，示例性的网络接口520包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

显示模块553，用于经由一个或多个与用户接口530相关联的输出装置531(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块554，用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本发明实施例提供的基于人工智能的图像生成装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的基于人工智能的图像生成装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的基于人工智能的图像生成方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable LogicDevice)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

在另一些实施例中，本发明实施例提供的基于人工智能的图像生成装置可以采用软件方式实现，图2示出了存储在存储器550中的基于人工智能的图像生成装置555，其可以是程序和插件等形式的软件，并包括一系列的模块，包括获取模块5551、融合模块5552、处理模块5553、以及训练模块5554；其中，获取模块5551、融合模块5552、处理模块5553用于实现本发明实施例提供的图像生成功能，训练模块5554用于训练图像生成模型，使得训练后的图像生成模型实现图像生成功能。

根据上文可以理解，本发明实施例提供的人工智能的图像生成方法可以由各种类型的用于图像生成的电子设备实施，例如智能终端和服务器等。

下面结合本发明实施例提供的服务器的示例性应用和实施，说明本发明实施例提供的人工智能的图像生成方法。参见图3A，图3A是本发明实施例提供的人工智能的图像生成方法的流程示意图，结合图3A示出的步骤进行说明。

在步骤101中，获取待成像的对象的成像风格和成像条件。

例如，用户可以在终端的输入界面上输入待成像的对象的成像风格和成像条件，当输入完成后，终端可以将待成像的对象的成像风格和成像条件转发至服务器，服务器即可获取待成像的对象的成像风格和成像条件。其中，成像风格可以是中国画、水彩、素描、油画、版画、动漫等表现形式，成像条件可以是头发长度、有无刘海、身高、胖瘦等对象属性信息，该对象可以是人物，也可以是动物等目标。

在步骤102中，将成像风格对应的风格隐码和成像条件进行融合处理，得到包含成像条件的风格向量。

例如，在服务器确定了成像风格后，可以调用与该成像风格对应的图像生成模型(生成对抗网络)，并在图像生成模型融合风格隐码(图像生成模型中的风格隐码与成像风格对应)和成像条件，以得到包含成像条件的风格向量。其中，风格隐码为用来控制生成的对象图像的风格的随机向量。

在一些实施例中，将成像风格对应的风格隐码和成像条件进行融合处理，得到包含成像条件的风格向量，包括：对成像风格对应的风格隐码和成像条件进行映射处理，得到包含成像条件的中间向量；对包含成像条件的中间向量进行仿射变换，得到包含成像条件的风格向量。

作为示例，通过映射网络对风格隐码和成像条件进行映射处理，得到包含成像条件的中间向量，并对包含成像条件的中间向量进行仿射变换，以将中间向量进行一次线性变换，并进行平移，变换到另一空间向量中，生成包含成像条件的风格向量，其中仿射变换的公式为

表示中间向量，

表示风格向量，A、

表示学习参数。通过映射以及仿射变换、即多层变换，提高提高风格向量的准确度。

在一些实施例中，对成像风格对应的风格隐码和成像条件进行映射处理，得到包含成像条件的中间向量，包括：通过多个级联的全连接层中的第一个全连接层，对成像风格对应的风格隐码和成像条件进行映射处理，将映射结果作为第一个全连接层的输出，并输入到后续级联的全连接层，以在后续级联的全连接层中继续基于所接收的映射结果进行成像条件的映射和映射结果的输出；将最后一个全连接层的输出作为包含成像条件的中间向量。

承接上述示例，当映射网络包括多个级联的全连接层时，例如有N(自然数)个级联的全连接层，通过第1个全连接层，对成像风格对应的风格隐码和成像条件进行映射处理，得到第1个全连接层的映射结果，并将第1个全连接层的映射结果输入到后续级联的全连接层，以在后续级联的全连接层中继续基于所接收的映射结果进行成像条件的映射和映射结果的输出，例如第i个全连接层接收到第i-1个全连接层的映射结果，则对第i-1个全连接层的映射结果和成像条件进行映射处理，得到第i个全连接层的映射结果，其中，i为大于1的自然数，将第N个全连接层的输出的映射结果作为包含成像条件的中间向量。通过级联的全连接层，依次进行映射，可以提高中间向量的准确性，以包含准确的成像条件。

另外，当映射网络包括多个级联的全连接层时，在部分的全连接层中对接收到的上一层的映射结果以及成像条件进行映射处理，得到该层的全连接层的映射结果，不是所有全连接层都对接收到的上一层的映射结果以及成像条件进行映射处理，以在尽量减少成像条件的映射处理的情况下，使得中间向量的准确性比较高。

在步骤103中，对包含成像条件的风格向量、以及对象的模板特征图进行正则化处理，得到正则化后的特征图。

例如，在服务器通过调用的图像生成模型融合风格隐码和成像条件，得到包含成像条件的风格向量后，对包含成像条件的风格向量、以及对象的模板特征图进行正则化，得到正则化后的特征图，以便后续在正则化后的特征图中融入随机噪声。

在一些实施例中，对包含成像条件的风格向量、以及对象的模板特征图进行正则化处理，得到正则化后的特征图，包括：对对象的模板特征图进行标准化处理，得到对应模板特征图的高斯特征图；对高斯特征图、以及包含成像条件的风格向量进行对齐处理，将对齐结果作为正则化后的特征图。

其中，对象的模板特征图可以为常数向量，或者在常数向量中融入随机噪声的向量。通过自适应实例归一化(AdaIN，Adaptation Instance Normalization)方法对对象的模板特征图进行标准化，以得到对应模板特征图的高斯函数，并通过风格向量的均值和方差对高斯特征图进行对齐，将对齐结果确定为正则化后的特征图。通过自适应实例归一化方法，使得正则化后的特征图准确地融入风格向量，以提高正则化后的特征图的准确性，以便后续生成准确的对象图像。

在一些实施例中，对高斯特征图、以及包含成像条件的风格向量进行对齐处理，将对齐结果作为正则化后的特征图，包括：将包含成像条件的风格向量的方差、与高斯特征图的各个像素进行相乘处理，得到方差对齐后的高斯特征图的各个像素；将包含成像条件的风格向量的均值分别与方差对齐后的各个像素进行相加处理，得到均值对齐后的高斯特征图的各个像素；将均值对齐后的高斯特征图的各个像素进行组合，得到正则化后的特征图。

通过风格向量的均值和方差对高斯特征图进行对齐，即将风格向量的方差、与高斯特征图的各个像素进行相乘处理，并将风格向量的均值分别与方差对齐后的各个像素进行相加处理，得到均值对齐后的高斯特征图的各个像素，最后将均值对齐后的高斯特征图的各个像素进行组合，以得到正则化后的特征图，其中，对齐的公式为

x表示特征图，

表示高斯函数，y_s表示风格向量的方差，y_b表示风格向量的均值，AdaIN(x,y)表示正则化后的特征图。

在步骤104中，对正则化后的特征图以及噪声进行融合处理，得到包含噪声的特征图。

例如，在服务器通过调用的图像生成模型得到正则化后的特征图后，可以融合正则化后的特征图以及随机噪声，以得到包含噪声的特征图，以便根据包含噪声的特征图，生成对象图像。其中，该随机噪声可以控制对象图像样式上细微的变化，例如人脸上的雀斑、发髻线的位置、皱纹等。

在一些实施例中，对正则化后的特征图以及噪声进行融合处理，得到包含噪声的特征图，包括：对从噪声库中随机抽取的噪声进行缩放处理，得到噪声的特征值；将噪声的特征值、与正则化后的特征图中的各个像素进行相加处理，得到融入噪声的各个像素；将融入噪声的各个像素进行组合，得到包含噪声的特征图。

其中，噪声库中有各种随机噪声，例如用于控制人脸上的雀斑、发髻线的位置、皱纹等噪声。在噪声库中随机抽取噪声后，对该噪声进行缩放，以得到该噪声的特征值，将该噪声的特征值添加到正则化后的特征图中的每个像素中，以得到包含噪声的特征图。

在步骤105中，对包含噪声的特征图、以及包含成像条件的风格向量进行正则化处理，得到具有成像风格且符合成像条件的对象图像。

例如，在服务器通过调用的图像生成模型得到包含噪声的特征图后，可以对包含噪声的特征图、以及包含成像条件的风格向量进行正则化，以得到具有成像风格且符合成像条件的对象图像。

参见图3B，图3B是本发明实施例提供的基于人工智能的图像生成方法的一个可选的流程示意图，图3B示出图3A中的步骤105可以通过图3B示出的步骤1051至步骤1052实现。在步骤1051中，对包含噪声的特征图、以及包含成像条件的风格向量进行正则化处理，得到包含成像条件的初始对象图像；在步骤1052中，对包含成像条件的初始对象图像、以及包含成像条件的风格向量进行解码处理，得到具有成像风格且符合成像条件的最终对象图像。

示例性地，对包含噪声的特征图、以及包含成像条件的风格向量进行正则化处理，可以得到包含成像条件的初始对象图像，该初始对象图像可以是生成的分辨率不高的对象图像。为了生成分辨率高的对象图像，可以通过生成器中的生成网络对包含成像条件的初始对象图像、以及包含成像条件的风格向量进行解码处理，以得到具有成像风格且符合成像条件的分辨率高的对象图像。

在一些实施例中，对包含成像条件的初始对象图像、以及包含成像条件的风格向量进行解码处理，得到具有成像风格且符合成像条件的最终对象图像，包括：通过多个级联的生成模块中的第一个生成模块，对包含成像条件的初始对象图像进行上采样处理，得到上采样特征图；对上采样特征图、包含成像条件的风格向量以及噪声进行融合处理，将融合结果作为第一个生成模块的输出，并输入到后续级联的生成模块，以在后续级联的生成模块中，继续基于所接收的融合结果进行上采样处理、融合处理和融合结果输出；将最后一个生成模块输出的融合结果，作为具有成像风格且符合成像条件的最终对象图像。

承接上述示例，为了渐进式地生成分辨率高的对象图像，生成器包括多个级联的生成模块，通过该多个级联的生成模块，逐渐生成分辨率高的对象图像，例如该生成器包括M(自然数)个级联的生成模块，通过第1个生成模块对包含成像条件的初始对象图像进行上采样，以得到上采样特征图，并对上采样特征图、包含成像条件的风格向量以及噪声进行融合，得到第1个生成模块的融合结果，并将该第1个生成模块的融合结果输入到后续级联的生成模块，以在后续级联的生成模块中，继续基于所接收的融合结果进行上采样处理、融合处理和融合结果输出，例如第j个生成模块接收到第j-1个生成模块的融合结果，对第j-1个生成模块、包含成像条件的风格向量以及随机噪声进行融合，得到第j个生成模块的融合结果，其中j为大于1的自然数，将第M个生成模块输出的融合结果确定具有成像风格且符合成像条件的最终对象图像。

在一些实施例中，对上采样特征图、包含成像条件的风格向量以及噪声进行融合处理，包括：对上采样特征图以及第一噪声进行融合处理，得到包含第一噪声的上采样特征图；对包含第一噪声的上采样特征图、以及包含成像条件的风格向量进行正则化处理，得到正则化后的上采样特征图；对正则化后的上采样特征图进行卷积处理，得到卷积后的上采样特征图；将卷积后的上采样特征图以及第二噪声进行融合处理，得到包含第二噪声的上采样特征图；对包含第二噪声的上采样特征图、以及包含条件信息的风格向量进行正则化处理，将得到的正则化后的包含第二噪声的上采样特征图作为融合结果。

承接上述示例，在上采样特征图中融入第一噪声，得到包含第一噪声的上采样特征图，并对包含第一噪声的上采样特征图、以及包含成像条件的风格向量进行正则化处理，得到正则化后的上采样特征图，即对包含第一噪声的上采样特征图进行标准化处理，得到对应包含第一噪声的上采样特征图的高斯特征图；对高斯特征图、以及包含成像条件的风格向量进行对齐处理，将对齐结果作为正则化后的上采样特征图。在得到正则化后的上采样特征图后，对正则化后的上采样特征图进行卷积处理，得到卷积后的上采样特征图，并在卷积后的上采样特征图中融入第二噪声，得到包含第二噪声的上采样特征图，最后对包含第二噪声的上采样特征图、以及包含条件信息的风格向量进行正则化处理，将得到的正则化后的包含第二噪声的上采样特征图作为融合结果，即对包含第二噪声的上采样特征图进行标准化处理，得到对应包含第二噪声的上采样特征图的高斯特征图，对高斯特征图、以及包含成像条件的风格向量进行对齐处理，将对齐结果作为融合结果。

在一些实施例中，针对图像生成模型的训练进行说明，参见图3C，基于图3A，图3C是本发明实施例提供的基于人工智能的图像生成方法的流程示意图，在步骤106中，对对象样本的成像条件与对象样本的成像风格对应的风格隐码进行融合处理，得到包含成像条件的风格向量；在步骤107中，对包含成像条件的风格向量、以及对象样本的模板特征图进行正则化处理，得到正则化后的特征图；在步骤108中，对正则化后的特征图以及噪声进行融合处理，得到包含噪声的特征图；在步骤109中，对包含噪声的特征图、以及包含成像条件的风格向量进行正则化处理，生成具有成像风格且符合成像条件的对象图像样本；在步骤110中，根据真实的对象图像样本、以及生成的对象图像样本，构建图像生成模型的损失函数；在步骤111中，更新图像生成模型的参数直至损失函数收敛，将损失函数收敛时更新得到的参数，作为训练后的图像生成模型的参数。

其中，步骤106-111与步骤101至步骤105并无明显的先后顺序。当服务器基于生成具有成像风格且符合成像条件的对象图像样本后，根据真实的对象图像样本、以及生成的对象图像样本，确定图像生成模型的损失函数的值后，可以判断损失函数的值是否超出预设阈值，当损失函数的值超出预设阈值时，基于损失函数确定图像分割模型的误差信号，将误差信息在图像分割模型中反向传播，并在传播的过程中更新各个层的模型参数。

在一些实施例中，根据真实的对象图像样本、以及生成的对象图像样本，构建图像生成模型的损失函数，包括：根据真实的对象图像样本的概率分布、以及生成的对象图像样本的概率分布，构建图像生成模型的图像判别损失函数；通过图像生成模型中的鉴别器对真实的对象图像样本以及生成的对象图像样本进行预测处理，得到真实图像样本的预测标签的概率以及生成图像样本的预测标签概率；根据真实的对象图像样本的标签、真实的对象图像样本的预测标签的概率、对象样本的成像条件以及生成图像样本的预测标签，构建图像生成模型的标签判别损失函数；对图像判别损失函数、以及标签判别损失函数进行相加，将相加的结果确定为图像生成模型的整体损失函数。

其中，图像判别损失函数为

其中，

表示生成的对象图像样本的数据，x表示真实图像样本的数据，

表示

和x的连线上随机插值采样的样本的数据，P_g表示生成的对象图像样本的分布，P_r表示真实图像样本的分布，

表示随机插值采样的样本的分布，λ表示可学习参数。标签判别损失函数为

n表示标签类别的总数量，k_i表示在第i个标签类别下的子标签的数量，例如第i个标签类别为头发长度，头发长度包括长发、中长发、短发三种子标签，则k_i为3，

表示对象图像样本的标签，

当且仅当第i个标签类别的第c个值为真时取1，其他情况取0，

表示对象图像样本的预测标签的概率。整体损失函数为L＝L_con+L_w。

这里，对反向传播进行说明，将训练样本数据输入到神经网络模型的输入层，经过隐藏层，最后达到输出层并输出结果，这是神经网络模型的前向传播过程，由于神经网络模型的输出结果与实际结果有误差，则计算输出结果与实际值之间的误差，并将该误差从输出层向隐藏层反向传播，直至传播到输入层，在反向传播的过程中，根据误差调整模型参数的值；不断迭代上述过程，直至收敛，其中，图像生成模型属于神经网络模型。

至此已经结合本发明实施例提供的服务器的示例性应用和实施，说明本发明实施例提供的基于人工智能的图像生成方法，下面继续说明本发明实施例提供的基于人工智能的图像生成装置555中各个模块配合实现图像生成的方案。

获取模块5551，用于获取待成像的对象的成像风格和成像条件；融合模块5552用于将所述成像风格对应的风格隐码和所述成像条件进行融合处理，得到包含所述成像条件的风格向量；处理模块5553，用于对所述包含成像条件的风格向量、以及所述对象的模板特征图进行正则化处理，得到正则化后的特征图；对所述正则化后的特征图以及噪声进行融合处理，得到包含噪声的特征图；对所述包含噪声的特征图、以及所述包含成像条件的风格向量进行正则化处理，得到具有所述成像风格且符合所述成像条件的对象图像。

在一些实施例中，所述融合模块5552还用于对所述成像风格对应的风格隐码和所述成像条件进行映射处理，得到包含成像条件的中间向量；对所述包含成像条件的中间向量进行仿射变换，得到所述包含成像条件的风格向量。

在一些实施例中，所述融合模块5552还用于通过多个级联的全连接层中的第一个全连接层，对所述成像风格对应的风格隐码和所述成像条件进行映射处理，将映射结果作为所述第一个全连接层的输出，并输入到后续级联的全连接层，以在所述后续级联的全连接层中继续基于所接收的映射结果进行成像条件的映射和映射结果的输出；将最后一个全连接层的输出作为包含成像条件的中间向量。

在一些实施例中，所述处理模块5553还用于对所述对象的模板特征图进行标准化处理，得到对应所述模板特征图的高斯特征图；对所述高斯特征图、以及所述包含成像条件的风格向量进行对齐处理，将对齐结果作为正则化后的特征图。

在一些实施例中，所述处理模块5553还用于将所述包含成像条件的风格向量的方差、与所述高斯特征图的各个像素进行相乘处理，得到方差对齐后的高斯特征图的各个像素；将所述包含成像条件的风格向量的均值分别与方差对齐后的各个像素进行相加处理，得到均值对齐后的高斯特征图的各个像素；将均值对齐后的高斯特征图的各个像素进行组合，得到所述正则化后的特征图。

在一些实施例中，所述处理模块5553还用于对从噪声库中随机抽取的噪声进行缩放处理，得到所述噪声的特征值；将所述噪声的特征值、与所述正则化后的特征图中的各个像素进行相加处理，得到融入噪声的各个像素；将所述融入噪声的各个像素进行组合，得到包含噪声的特征图。

在一些实施例中，所述处理模块5553还用于对所述包含噪声的特征图、以及所述包含成像条件的风格向量进行正则化处理，得到包含成像条件的初始对象图像；对所述包含成像条件的初始对象图像、以及所述包含成像条件的风格向量进行解码处理，得到具有所述成像风格且符合所述成像条件的最终对象图像。

在一些实施例中，所述处理模块5553还用于通过多个级联的生成模块中的第一个生成模块，对所述包含成像条件的初始对象图像进行上采样处理，得到上采样特征图；对所述上采样特征图、所述包含成像条件的风格向量以及噪声进行融合处理，将融合结果作为所述第一个生成模块的输出，并输入到后续级联的生成模块，以在所述后续级联的生成模块中，继续基于所接收的融合结果进行上采样处理、融合处理和融合结果输出；将最后一个生成模块输出的融合结果，作为所述具有所述成像风格且符合所述成像条件的最终对象图像。

在一些实施例中，所述处理模块5553还用于对所述上采样特征图以及第一噪声进行融合处理，得到包含第一噪声的上采样特征图；对所述包含第一噪声的上采样特征图、以及所述包含成像条件的风格向量进行正则化处理，得到正则化后的上采样特征图；对所述正则化后的上采样特征图进行卷积处理，得到卷积后的上采样特征图；将所述卷积后的上采样特征图以及第二噪声进行融合处理，得到包含第二噪声的上采样特征图；对所述包含第二噪声的上采样特征图、以及所述包含条件信息的风格向量进行正则化处理，将得到的正则化后的包含第二噪声的上采样特征图作为融合结果。

在一些实施例中，所述基于人工智能的图像生成装置555还包括：训练模块5554，用于对对象样本的成像条件与所述对象样本的成像风格对应的风格隐码进行融合处理，得到包含成像条件的风格向量；对所述包含成像条件的风格向量、以及所述对象样本的模板特征图进行正则化处理，得到正则化后的特征图；对所述正则化后的特征图以及噪声进行融合处理，得到包含噪声的特征图；对所述包含噪声的特征图、以及所述包含成像条件的风格向量进行正则化处理，生成具有所述成像风格且符合所述成像条件的对象图像样本；根据真实的对象图像样本、以及生成的对象图像样本，构建图像生成模型的损失函数；更新所述图像生成模型的参数直至所述损失函数收敛，将所述损失函数收敛时更新得到的参数，作为训练后的所述图像生成模型的参数。

在一些实施例中，所述训练模块5554还用于根据所述真实的对象图像样本的概率分布、以及所述生成的对象图像样本的概率分布，构建所述图像生成模型的图像判别损失函数；通过所述图像生成模型中的鉴别器对所述真实的对象图像样本以及所述生成的对象图像样本进行预测处理，得到所述真实图像样本的预测标签的概率以及所述生成图像样本的预测标签概率；根据所述真实的对象图像样本的标签、所述真实的对象图像样本的预测标签的概率、所述对象样本的成像条件以及所述生成图像样本的预测标签，构建所述图像生成模型的标签判别损失函数；对所述图像判别损失函数、以及所述标签判别损失函数进行相加，将相加的结果确定为所述图像生成模型的整体损失函数。

下面结合本发明实施例提供的终端的示例性应用和实施，说明本发明实施例提供的基于人工智能的图像生成方法。参见图4，图4是本发明实施例提供的用于图像生成的电子设备600的结构示意图，图4所示的用于图像生成的电子设备600包括：至少一个处理器610、存储器650、至少一个网络接口620和用户接口630。其中，处理器610、存储器650、至少一个网络接口620和用户接口630的功能分别与处理器510、存储器550、至少一个网络接口520和用户接口530的功能类似，即输出装置631、输入装置632的功能与输出装置531、输入装置532的功能类似，操作系统651、网络通信模块652、显示模块653、输入处理模块654的功能分别与操作系统551、网络通信模块552、显示模块553、输入处理模块554的功能类似，不做赘述。

在另一些实施例中，本发明实施例提供的基于人工智能的图像生成装置可以采用软件方式实现，图4示出了存储在存储器650中的基于人工智能的图像生成装置655，其可以是程序和插件等形式的软件，并包括一系列的模块，包括第一呈现模块6551、调用模块6552、生成模块6663以及第二呈现模块6554；其中，第一呈现模块6551、调用模块6552、生成模块6663以及第二呈现模块6554用于实现本发明实施例提供的基于人工智能的图像生成方法。

下面结合本发明实施例提供的终端的示例性应用和实施，说明本发明实施例提供的基于人工智能的图像生成方法。参见图5，图5是本发明实施例提供的基于人工智能的图像生成方法的流程示意图，结合图5示出的步骤进行说明。

在步骤201中，呈现待呈现对象的设置界面。

例如，用户打开终端中用于图像生成的客户端后，客户端将呈现待呈现对象的设置界面，用户可以根据呈现的设置界面，在设置界面中输入成像风格和成像条件。

在步骤202中，响应于在设置界面中接收的成像风格和成像条件，调用与成像风格对应的图像生成模型。

例如，用户在设置界面中输入成像风格和成像条件后，客户端将响应于在设置界面中接收的成像风格和成像条件，调用与成像风格对应的图像生成模型。

在步骤203中，在图像生成模型中融合成像条件，以生成具有成像风格且符合成像条件的对象图像。

在终端确定了与成像风格对应的图像生成模型后，通过图像生成模型融合成像条件，生成具有成像风格且符合成像条件的对象图像。

在一些实施例中，图像生成模型将成像风格对应的风格隐码和成像条件进行融合处理，得到包含成像条件的风格向量；对包含成像条件的风格向量、以及对象的模板特征图进行正则化处理，得到正则化后的特征图；对正则化后的特征图以及噪声进行融合处理，得到包含噪声的特征图；对包含噪声的特征图、以及包含成像条件的风格向量进行正则化处理，得到具有成像风格且符合成像条件的对象图像。

在步骤204中，呈现对象图像。

在图像生成模型生成具有成像风格且符合成像条件的对象图像后，可以在客户端的显示界面呈现该具有成像风格且符合成像条件的对象图像，使得用户能够快速查看达到用户需求的对象图像。

至此已经说明本发明实施例提供的基于人工智能的图像生成方法，下面继续说明本发明实施例提供的基于人工智能的图像生成装置655中各个模块配合实现图像生成的方案。

第一呈现模块6551，用于呈现待呈现对象的设置界面；调用模块6552，用于响应于在所述设置界面中接收的成像风格和成像条件，调用与所述成像风格对应的图像生成模型；生成模块6553，用于在所述图像生成模型中融合所述成像条件，以生成具有所述成像风格且符合所述成像条件的对象图像；第二呈现模块6554，用于呈现所述对象图像。

本发明实施例还提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本发明实施例提供的基于人工智能的图像生成方法，例如，如图3A-3C示出的基于人工智能的图像生成方法，如图5示出的基于人工智能的图像生成方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备(包括智能终端和服务器在内的设备)上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

下面，将说明本发明实施例在一个实际的应用场景中的示例性应用。

本发明实施例可以应用于各种图像生成的场景，例如动漫人脸生成、即根据人脸成像的条件，生成与条件相符的动漫风格的人脸，如图1所示，终端200通过网络300连接部署在云端的服务器100，在终端上安装图像生成应用，图像生成应用会自动将人脸成像的条件通过网络300发送到服务器100，服务器100执行本发明实施例提供的基于人工智能的图像生成方法，根据人脸成像的条件，生成与条件相符的动漫风格的人脸，并将生成的动漫人脸反馈至终端200的图像生成应用。这样，画师在进行人物形象设计的时候，根据人物的条件，如性别、头发颜色、头发长短、脸型等，生成不同的随机动漫图像，从而减少人物建模时的工作量，可以帮助画师快速生成多张符合要求的头像，帮助其尽快完成任务的原型设计工作。当今时代，用户喜欢追求个性，而更换个性头像可以彰显用户的个性，因此，还可以帮助用户迅速生成多张符合其条件的头像，减少用户在生成个性化头像时的工作量，有效提升用户体验。

相关技术中，图像生成方法有两种，分别为随机动漫人脸生成和条件动漫人脸生成。其中，随机动漫人脸方法主要是基于生成对抗网络实现的，通过采样一组随机噪声，将该噪声输入到生成对抗网络的生成器中，生成器输出能够让鉴别器难以区别的动漫人脸图像。条件动漫人脸生成方法在随机动漫人脸生成方法的基础上增加一组条件编码，根据条件编码和随机噪声，使生成器输出与条件编码相关，以做到控制动漫人脸图像的生成内容。

然而，随机动漫人脸生成方法虽然生成的图像质量较好，但是由于没有在生成图像上增加约束，不能控制生成的动漫人脸内容(如发色、发型和瞳色等)，导致最后生成的图像实用性不佳。条件动漫人脸生成方法虽然可以控制动漫人脸图像的生成内容，但是只能够生成低分辨率的模糊图像，生成的图像质量不佳。

本发明实施例利用根据现有样式生成对抗网络(style-GAN)在风格迁移中的突出作用，改进自适应实例正则化(AdaIN，adaptive instance normalization)模块，使之能够利用输入的条件编码，生成高质量动漫人脸所需的条件信息嵌入到生成对抗网络中。同时在生成的人脸图像时，采用渐进式的生成策略，通过逐步生成高分辨率人脸图像的方法，很好地提高了人脸图像的质量，同时提高了图像生成模型的稳定性。在输入数据的选择上，通过对数据的筛选(例如，数据清洗)，可以扩大样本的覆盖范围，还有效提升了生成质量。

本发明实施例使用的技术有：生成对抗网络、自适应正则化、渐进式生成、条件控制等。通过输入原始真动漫图像和对应的条件使图像生成模型进行学习，再根据需求输入相应的条件以得到想要的动漫人脸图像。图像生成模型主要由一组生成器-鉴别器组成。其中，生成器由风格条件模块、噪声模块和渐进式生成模块构成。风格条件模块负责生成动漫图像的风格，噪声模块负责随机噪声的产生以及将噪音向量编入生成器当中，随机噪声有助于提升图像的变化。在生成的时候，1)采用了渐进式生成的策略，从生成只含有粗糙轮廓的图像，逐渐到生成细节丰富、线条平滑、清晰的高质量动漫图像，并且，在分辨率变化的间隔时期，采用渐进式生成的方法，帮助生成器平滑过渡，并能够保留在上一分辨率图像学习到的特征，以用于下一分辨率图像的生成；2)图像生成模型是将特征分层进行学习，为了解决图像生成模型学习层级之间相关性的问题，采用混合正则化的方法，即使用两种风格向量，让生成器把注意力集中在学习图像和每一层特征的内在关系上；3)为了在生成的动漫图像中增添随机的变化，通过在生成器中编入随机噪声来提升生成的动漫图像的多样性。通过上述学习策略，有效提升了动漫图像最终的生成质量。

本发明实施例中的图像生成模型为基于生成对抗网络的生成器-鉴别器结构。其中，生成器由风格条件模块、噪声模块和渐进式生成模块构成。鉴别器由卷积神经网络和全连接神经网络组成。通过使用渐进式的生成策略，将风格与条件编码编入生成器中，使生成器能够根据给定的条件与风格编码特异性地生成对应的动漫人脸图像，鉴别器用于鉴别输入的动漫人脸图像的真实程度，帮助生成器生成更高质量的动漫人脸图像。

其中，生成对抗网络是一种无监督学习模型，通过让两个神经网络(生成器和鉴别器)相互博弈进行学习。其中，生成器用于生成尽可能逼真的图像，鉴别器用于鉴别出生成器生成的图像和真实图像。

当真实图像的分布为P_data，生成器生成的图像的分布为P_G(x；θ)，在P_data中取出了一些数据x¹,x²,...,x^m，计算出似然如公式(1)所示：

最大化该似然，即等价于让生成器生成的动漫图像的真实概率最大，也就是让P_data和P_G(x；θ)尽可能接近。因此，生成对抗网络的目标函数如公式(2)所示：

其中，当固定鉴别器时，maxV(D,G)表示P_data和P_G之间的最大差异，而最小化这个差异可以尽可能的提升生成器的生成效果。反之亦然，固定生成器时，最大化这个差异能够尽可能提升鉴别器对于真假图像的分辨程度。在鉴别器和生成器的不断相互对抗中，使得生成器能够生成出于逼近真实图像质量的假图像。

本发明实施例利用真实的动漫人脸图像以及生成器生成的动漫人脸图像对鉴别器进行训练。同时，生成器根据鉴别器的梯度信号进行参数更新，最终生成高质量的动漫人脸图像。在生成器的实际应用当中，向其输入条件编码和噪声信号，最终生成动漫人脸图像。

如图6所示，生成器包括噪声模块、风格条件模块和渐进式生成模块，下面分别具体说明噪声模块、风格条件模块和渐进式生成模块：

1、噪声模块

其中，生成器中的生成网络的每一个卷积层的输出是一组特征图。图像中的一些很小的特征可以看作是随机的，例如人脸上的雀斑、发髻线的位置、皱纹、使图像更逼真的特征以及各种增加输出的变化。噪声模块为了控制噪声仅影响图像样式上细微的变化，可以生成一张由高斯噪声组成的单通道图像，然后在每一个自适应实例归一化操作之前，将噪声添加到每一个特征图中，随机噪声经过一个可以学习的缩放因子，加入到每张特征图的每个像素点中，其中，每张特征图对应一个可学习的参数。

2、风格条件模块

风格条件模块主要用于生成器的风格生成，并将风格与条件进行混合，对最终的生成结果产生影响。其中，图6所示的隐码(latent code)是一个被用来控制生成器生成图像的风格的随机向量。由于风格之间有可能会产生影响，例如想要控制风格中的条件1，在改变条件1的同时，条件2也被更改了(该问题被称为特征纠缠)。为了解决特征纠缠的问题，在风格条件模块中增加映射网络，隐码在经过正则化后，被送到一个由8层全连接层构成的映射网络，最终经过条件嵌入之后输出风格向量。该隐码是一个n*512的随机向量，被用作生成风格的原始输入，经过映射网络之后，输入的隐码被转换为中间向量。

条件编码以向量的形式被添加到风格条件模块，将隐码送入映射网络中，映射网络根据隐码以及条件编码生成对应条件的风格，以控制不同的视觉特征。条件向量(条件编码)的具体大小和类别的数量有关，大小一般是n*512，其中，n是类别的数量，512是向量的维度。将经过映射网络映射之后的隐码(对应风格向量)和条件向量结合起来，得到用于生成器生成的带有条件的风格向量。其中，结合的操作可以是拼接(Concatenate)或者是嵌入(Embedding)，拼接是将条件向量与全连接层的输出进行维度上的拼接；嵌入则是将条件向量映射到相应的维度，并和全连接层的输出相乘。为了使条件与风格的编入在不影响生成图像的随机性的情况下，尽可能增强效果，对每一个全连接层的输出特征都与条件向量进行结合，这样能够有效提升模型的效果和稳定性。

映射网络在生成风格向量的时候，可以生成两个矢量，如图7所示，其中隐码1和隐码2都为用来控制生成器生成图像的风格的随机向量。在生成网络中随机选择一个分割点，在该分割点之前的操作都使用第一种风格向量，在该分割点之后的操作都使用第二种风格向量，这样的操作就是混合正则化(mixingregularization)，例如渐进式生成模块中有9个生成模块，每个生成模块会编入2个风格向量，则将前9个编入的风格向量确定为第一种风格向量，将后9个编入的风格向量确定为第二种风格向量。图像生成模型中有一部分的图像将由这种方式进行生成，这种方法可以防止网络做出相邻样式是相关的，可以保证网络不去学习层级之间的相关性，帮助图像生成模型更好的把图像生成模型定位到生成图像中相关的细节上。

3、渐进式生成模块

风格条件模块和噪声模块的输出均是渐进式生成模块需要的中间向量。这些中间向量通过自适应实例归一化(AdaIN)的方式控制输出图像的风格和细节。AdaIN操作是指将特征图输出的均值和方差与风格的均值和方差对齐，具体操作是先将特征图(featuremap)的输出标准化为标准高斯函数(standard Gaussian)，然后再将风格矢量作为偏差项添加进去，其计算公式如公式(3)所示：

其中，x表示特征图，y_s表示风格向量的方差(缩放因子)，y_b表示风格向量的均值(平移因子)。

AdaIN操作能够实现风格控制向量的转变，可以抹去对图像局部信息的可见性，保留人脸生成的信息由上采样层和卷积层来决定，例如，图像是由生成人脸的关键信息(例如，两个眼睛、一个鼻子之类的信息)和局部信息(风格等)构成，AdaIN操作可以消除局部信息对于生成模型的可见性，让生成人脸的关键信息由上采样层和卷积层来决定。因此，生成的风格控制矢量只能影响图像的全风格信息。

其中，渐进式生成模块的输入是一个常数向量，大小为4*4*512，该常数向量可以降低由于初始输入取值不当而生成出一些不正常的照片的概率。输入到渐进式生成模块的风格向量(经过仿射变换)可以是各不相同，例如中间向量经过仿射变换1，生成风格向量1，中间向量经过仿射变换2，生成风格向量2，该风格向量1用于控制生成动漫图像的粗糙内容，风格向量2用于控制生成动漫图像的精细内容，风格向量1用于第一个AdaIN操作，风格向量2用于第二个AdaIN操作。输入到渐进式生成模块的噪声可以各不相同，也可以是相同的，经过缩放之后的噪声各不相同。

本发明实施例中的生成器和鉴别器可以都使用渐进式生成的技术，生成器和鉴别器都是从小图像开始生成和鉴别的，例如，生成器先生成8*8的图像，再将长宽依次扩大两倍，生成16*16的图像，以此类推。在图像生成模型中增加了一个特殊的结构，来使图像尺寸的增加更加平稳，即设置一个值α∈[0,1]，由公式(4)计算得到：

α＝min(1,P/(U+1)) (4)

其中，P表示每一轮训练需要使用的样本数，U表示该轮训练已经使用的样本数。因此，最终生成的图像可由公式(5)计算得到：

X＝X_pre*(1-α)+α*X (5)

其中，X_pre表示前一轮的输出的图像，通过这种平滑的过渡能够稳定训练结果。

鉴别器的网络组织形式是生成器的逆向形式，如图8所示。鉴别器分别对图像的真假和标签的准确度进行判断，送入的图像利用卷积和下采样层，逐步减小分辨率，当分辨率降到4*4的时候，保存输出结果，并分别送入独立的两个全连接层当中，一个用于判断图像是否真实，另一个用于判断图像的标签是否正确。因此，鉴别器会同时产生两种损失函数(Loss)，分别为判断真假的损失函数L_w和判断标签是否正确的损失函数L_con。

其中，L_w利用改进的生成对抗网络(WGAN-GP)的损失函数。WGAN-GP是针对普通GAN模型中优化的距离通常是不连续的，从而导致训练困难这一问题提出的，使用Wasserstein距离(Earth-Mover距离)，该距离用于定义从一个分布变换到另一个分布所需的最小移动距离，这一距离一般是可微的。Wasserstein距离的计算如公式(6)所示：

其中，∏(P_data,P_G)表示P_data和P_G组合起来的所有可能的联合分布的集合，对于每一个可能的联合分布r来说，可以从中采样出一个(x，y)～r得到一个真实样本x和生成样本y，并计算距离，以计算出联合分布。因此，可以得到利用Wasserstein距离的目标函数如公式(7)所示：

其中，D表示满足Lipschitz连续的函数集合，P_r为P_data。对这一函数增加梯度惩罚，即得到WGAN-GP的损失函数，如公式(8)所示：

其中，

表示

和x的连线上随机插值采样的样本的数据，第二项

为梯度惩罚项。

其中，L_con通过交叉熵(Cross Entropy Loss)来实现。当图像的标签为{x¹,x²,...,xⁿ}，n表示互不相交的标签类别个数，xⁱ表示第i个类别组，可取k_i个值，则L_con的计算如公式(9)所示：

其中，

当且仅当第i个标签类别的第c个值为真时取1，其他情况取0，

表示观测样本的第i个标签属于类别c的预测概率。

综上，图像生成模型的整体损失函数为L＝L_con+L_w。

另外，如图6所示，隐码经过映射网络和条件编码，生成了中间向量w，而中间向量w经过AdaIN操作，被编入图像中，生成转换风格的图像。一般来说，由于一个好的鉴别器才能促使生成器生成更逼真的图像，因此，希望鉴别器能比生成器好。但是如果生成器过好，鉴别器则不容易通过结果去学习到真假图像的差别，易造成模型崩溃。因此，设定了一个超参数c，每训练c次鉴别器，就训练1次生成器。通过调节c的大小，可以控制鉴别器的相对强弱程度，避免图像生成模型崩溃。

最后，通过对Danbooru数据库中的图像进行切割、清洗和标注，得到了带有标注的动漫人脸数据集。通过选取发色和长短两个特征，测试图像生成模型的效果，如图9-11，其中，图9为根据棕色短发的条件，生成的各种包括棕色短发的动漫人脸图像，图10为根据粉色中等发的条件，生成的各种包括粉色中等发的动漫人脸图像，图11为根据紫色长发的条件，生成的各种包括紫色长发的动漫人脸图像。

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种基于人工智能的图像生成方法，其特征在于，所述方法包括：

获取待成像的对象的成像风格和成像条件；

2.根据权利要求1所述的方法，其特征在于，所述将所述成像风格对应的风格隐码和所述成像条件进行融合处理，得到包含所述成像条件的风格向量，包括：

对所述成像风格对应的风格隐码和所述成像条件进行映射处理，得到包含成像条件的中间向量；

3.根据权利要求2所述的方法，其特征在于，所述对所述成像风格对应的风格隐码和所述成像条件进行映射处理，得到包含成像条件的中间向量，包括：

通过多个级联的全连接层中的第一个全连接层，对所述成像风格对应的风格隐码和所述成像条件进行映射处理，将映射结果作为所述第一个全连接层的输出，并输入到后续级联的全连接层，以

将最后一个全连接层的输出作为包含成像条件的中间向量。

4.根据权利要求1所述的方法，其特征在于，所述对所述包含成像条件的风格向量、以及所述对象的模板特征图进行正则化处理，得到正则化后的特征图，包括：

对所述对象的模板特征图进行标准化处理，得到对应所述模板特征图的高斯特征图；

5.根据权利要求4所述的方法，其特征在于，所述对所述高斯特征图、以及所述包含成像条件的风格向量进行对齐处理，将对齐结果作为正则化后的特征图，包括：

将所述包含成像条件的风格向量的方差、与所述高斯特征图的各个像素进行相乘处理，得到方差对齐后的高斯特征图的各个像素；

6.根据权利要求1所述的方法，其特征在于，所述对所述正则化后的特征图以及噪声进行融合处理，得到包含噪声的特征图，包括：

对从噪声库中随机抽取的噪声进行缩放处理，得到所述噪声的特征值；

7.根据权利要求1所述的方法，其特征在于，所述对所述包含噪声的特征图、以及所述包含成像条件的风格向量进行正则化处理，得到具有所述成像风格且符合所述成像条件的对象图像，包括：

对所述包含噪声的特征图、以及所述包含成像条件的风格向量进行正则化处理，得到包含成像条件的初始对象图像；

8.根据权利要求7所述的方法，其特征在于，所述对所述包含成像条件的初始对象图像、以及所述包含成像条件的风格向量进行解码处理，得到具有所述成像风格且符合所述成像条件的最终对象图像，包括：

通过多个级联的生成模块中的第一个生成模块，对所述包含成像条件的初始对象图像进行上采样处理，得到上采样特征图；

9.根据权利要求8所述的方法，其特征在于，所述对所述上采样特征图、所述包含成像条件的风格向量以及噪声进行融合处理，包括：

对所述上采样特征图以及第一噪声进行融合处理，得到包含第一噪声的上采样特征图；

10.根据权利要求1-9任一所述的方法，其特征在于，所述方法还包括：

对对象样本的成像条件与所述对象样本的成像风格对应的风格隐码进行融合处理，得到包含成像条件的风格向量；

11.根据权利要求10所述的方法，其特征在于，所述根据真实的对象图像样本、以及生成的对象图像样本，构建所述图像生成模型的损失函数，包括：

根据所述真实的对象图像样本的概率分布、以及所述生成的对象图像样本的概率分布，构建所述图像生成模型的图像判别损失函数；

12.一种基于人工智能的图像生成方法，其特征在于，所述方法包括：

呈现待呈现对象的设置界面；

呈现所述对象图像。

13.一种基于人工智能的图像生成装置，其特征在于，所述装置包括：

获取模块，用于获取待成像的对象的成像风格和成像条件；

14.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至12任一项所述的基于人工智能的图像生成方法。

15.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于引起处理器执行时，实现权利要求1至12任一项所述的基于人工智能的图像生成方法。