CN112435169A

CN112435169A - 一种基于神经网络的图像生成方法及设备

Info

Publication number: CN112435169A
Application number: CN202011384032.8A
Authority: CN
Inventors: 杨旭雷
Original assignee: Eto Singapore Ltd Private
Current assignee: Eto Singapore Ltd Private
Priority date: 2020-07-01
Filing date: 2020-12-01
Publication date: 2021-03-02
Also published as: SG10202006360VA

Abstract

本申请涉及图像处理技术领域，公开了一种基于神经网络的图像生成方法、装置、设备及介质。本申请的图像生成方法包括：接收用于生成图像的初始输入量；基于初始输入量，实施M个阶段的图像生成过程，以生成具有预设目标分辨率的图像；本申请中的技术方案能够使得生成的图像具有更好的视觉质量，同时没有产生任何伪影，提高了生成图像的整体质量，使得计算精度显著提高，硬件配置更加优化，从而使得计算机系统的内部结构更加精简。

Description

一种基于神经网络的图像生成方法及设备

技术领域

本申请涉及图像处理领域，特别涉及一种基于神经网络的图像生成方法及基于神经网络的图像生成装置。

背景技术

自从生成对抗网络(generative adversarial networks，简称GAN)被引入以来，被广泛应用于图像处理尤其是图像生成领域，并在过去的几年中取得了突破性的发展。其中，StyleGAN是当前最先进的深度模型之一，可生成高分辨率和超逼真的图像。但是由于生成的图像中普遍存在伪影(artifact)，使得图像的质量大大降低。因而如何防止StyleGAN模型在生成图像中出现伪影，成为亟需解决的问题。

发明内容

本申请实施例提供了一种基于神经网络的图像生成方法、基于神经网络的图像生成装置、基于神经网络的图像生成设备及计算机可读介质。

第一方面，提供了一种基于神经网络的图像生成方法，方法包括：

接收用于生成图像的初始输入量；基于所述初始输入量，实施M个阶段的图像生成过程，以生成具有预设目标分辨率的图像；其中，在所述M个阶段的图像生成过程中，从第1阶段到第M阶段，每个阶段中基于所述初始输入量生成的图像分辨率相较于前一阶段逐步增大，直至在第M阶段输出达到所述预设目标分辨率的图像；在所述每个阶段的图像生成过程中，包括至少一次用于影响生成图像的全局信息的样式控制处理，在所述样式控制处理中，对所述图像进行像素实例归一化处理，所述像素实例归一化处理包括像素归一化处理和实例归一化处理。

本申请中的技术方案与现有技术中的图像处理方法相比，能够使得生成的图像具有更好的视觉质量，同时没有产生任何伪影，提高了生成图像的整体质量。在实施图像生成的过程中，仅需要简单的解决方案，就可以消除伪影，而不会过度损失图像的质量，硬件配置更加优化，从而使得计算机系统的内部结构更加精简。

在上述第一方面的一种可能的实现中，上述方法还包括：所述初始输入量是常量。

在上述第一方面的一种可能的实现中，所述像素实例归一化处理包括：对所述像素归一化处理和所述实例归一化进行加权组合，如下式所示：

y＝ρ·y^P+(1-ρ)·y^I,

其中，y表示所述像素实例归一化处理；y^P表示所述像素归一化处理；y^I表示所述实例归一化处理；ρ∈[0,1]^C，其中ρ表示所述像素归一化处理对所述图像的影响程度，1-ρ表示所述实例归一化处理对所述图像的影响程度。

在上述第一方面的一种可能的实现中，上述方法还包括：基于输入的初始向量实施所述M个阶段的图像生成过程中的所述样式控制处理。

在上述第一方面的一种可能的实现中，基于输入的初始向量实施所述M个阶段的图像生成过程中的所述样式控制处理，具体包括：所述初始向量经所述神经网络模型中的映射网络编码成中间向量，在所述M个阶段中，所述中间向量被处理成N个控制向量；所述N个控制向量用于控制图像对应的视觉特征，并经过所述至少一次样式控制处理对图像施加影响，以控制所述M个阶段的图像生成过程，其中，N≥M。

在上述第一方面的一种可能的实现中，上述方法还包括：所述初始向量是随机向量。

在上述第一方面的一种可能的实现中，上述方法还包括：所述神经网络模型包括输入层、映射网络、生成网络和输出层，所述生成网络进一步包括M个网络层；其中所述M个网络层中的至少一层包括上采样层、第一层末调制层、卷积层和第二层末调制层，所述第一层末调制层和所述第二层末调制层分别包括至少一次所述样式控制处理，其中，输入的所述中间向量经过所述M个网络层，生成图像。

第二方面，提供了一种基于神经网络的图像生成方法，包括：生成第一图像；获取作为训练样本的第二图像；以及将所述第一图像和第二图像输入判别单元，以区分所述第一图像和所述第二图像，并基于区分结果调整所述第一图像的生成过程；其中，生成第一图像的过程包括，接收用于生成图像的初始输入量；基于所述初始输入量，实施M个阶段的图像生成过程，以生成具有预设目标分辨率的所述第一图像；其中，在所述M个阶段的图像生成过程中，从第1阶段到第M阶段，每个阶段中基于所述初始输入量生成的图像分辨率相较于前一阶段逐步增大，直至在第M阶段输出达到所述预设目标分辨率的所述第一图像；在所述每个阶段的图像生成过程中，包括至少一次用于影响生成图像的全局信息的样式控制处理，在所述样式控制处理中，对所述图像进行像素实例归一化处理，所述像素实例归一化处理包括像素归一化处理和实例归一化处理。

在上述第二方面的一种可能的实现中，所述像素实例归一化处理包括：对像素归一化处理和实例归一化进行加权组合，如下式所示：

y＝ρ·y^P+(1-ρ)·y^I,

在上述第二方面的一种可能的实现中，上述方法还包括：所述像素实例归一化处理中，ρ是可训练的，ρ的值能够根据所述训练自动调整。

第三方面，提供了一种基于神经网络的图像生成装置，包括：接收单元，接收用于生成图像的初始输入量；生成单元，包括M个生成子单元，基于所述初始输入量，所述M个生成子单元依次实施图像生成过程，以生成具有预设目标分辨率的图像；其中，在所述M个生成子单元中，从第1生成子单元到第M生成子单元，基于所述初始输入量生成的图像分辨率相较于前一阶段逐步增大，直至在第M生成子单元输出达到所述预设目标分辨率的图像；所述每个生成子单元，包括至少一个用于影响生成图像的全局信息的样式控制模块，所述样式控制模块对于所述图像进行像素实例归一化处理，所述像素实例归一化处理包括像素归一化处理和实例归一化处理。

在上述第三方面的一种可能的实现中，所述像素实例归一化处理，包括：对所述像素归一化处理和所述实例归一化进行加权组合，如下式所示：

y＝ρ·y^P+(1-ρ)·y^I,

在上述第三方面的一种可能的实现中，上述装置还包括：所述初始输入量是常量。

在上述第三方面的一种可能的实现中，上述装置还包括：基于输入的初始向量实施所述M个阶段的图像生成过程中的所述样式控制处理。

在上述第三方面的一种可能的实现中，基于输入的初始向量实施所述M个阶段的图像生成过程中的所述样式控制处理，具体包括：所述初始向量经所述神经网络模型中的映射网络编码成中间向量，在所述M个阶段中，所述中间向量被处理成N个控制向量；所述N个控制向量用于控制图像对应的视觉特征，并经过所述至少一次样式控制处理对图像施加影响，以控制所述M个阶段的图像生成过程，其中，N≥M。

在上述第三方面的一种可能的实现中，上述装置还包括：所述初始向量是随机向量。

在上述第三方面的一种可能的实现中，上述装置还包括：所述神经网络模型包括输入层、映射网络、生成网络和输出层，所述生成网络进一步包括M个网络层；其中所述M个网络层中的至少一层包括上采样层、第一层末调制层、卷积层和第二层末调制层，所述第一层末调制层和所述第二层末调制层分别包括至少一次所述样式控制处理，其中，输入的所述中间向量经过所述M个网络层，生成图像。

第四方面，提供了一种基于神经网络的图像生成装置，包括：第一生成单元，生成第一图像；获取单元，获取作为训练样本的第二图像；以及判别单元，输入所述第一图像和第二图像，以区分所述第一图像和所述第二图像，并基于所述区分结果调整所述第一图像的生成过程；其中，第一生成单元包括，接收单元，接收用于生成图像的初始输入量；生成单元，包括M个生成子单元，基于所述初始输入量，所述M个生成子单元依次实施图像生成过程，以生成具有预设目标分辨率的图像；其中，在所述M个生成子单元中，从第1生成子单元到第M生成子单元，基于所述初始输入量生成的图像分辨率相较于前一阶段逐步增大，直至在第M生成子单元输出达到所述预设目标分辨率的图像；所述每个生成子单元，包括至少一个用于影响生成图像的全局信息的样式控制模块，所述样式控制模块对于所述图像进行像素实例归一化处理，所述像素实例归一化处理包括像素归一化处理和实例归一化处理。

在上述第四方面的一种可能的实现中，所述像素实例归一化处理，包括：对像素归一化处理和实例归一化进行加权组合，如下式所示：

y＝ρ·y^P+(1-ρ)·y^I,

在上述第四方面的一种可能的实现中，上述装置还包括：所述像素实例归一化处理中，ρ是可训练的，ρ的值能够根据所述训练自动调整。

第五方面，提供了一种基于神经网络的图像生成设备，包括：

存储器，用于存储由系统的一个或多个处理器执行的指令，以及

处理器，是系统的处理器之一，用于执行所述指令以实施上述第一方面或第二方面中的任意一种基于神经网络的图像生成方法。

第六方面，提供了一种使用计算机程序编码的计算机可读存储介质，其特征在于，所述计算机可读介质上存储有指令，所述指令在计算机上执行时使计算机执行上述第一方面或第二方面中的任意一种基于神经网络的图像生成方法。

附图说明

图1根据本申请的一些实施例，示出了一种用于生成图像的神经网络模型的结构示意图；

图2根据本申请的一些实施例，示出了一种电子设备的结构框图；

图3根据本申请的一些实施例，示出了一种基于神经网络的图像生成方法流程图；

图4根据本申请的一些实施例，示出了一种实施M个阶段的第一图像生成过程步骤的流程图；

图5根据本申请的一些实施例，示出了一个神经网络模型的结构框图；

图6根据本申请的一些实施例，示出了一个网络层的架构以及其中的样式控制处理的示意图；

图7根据本申请的一些实施例，示出了伪影产生过程的示意图；

图8根据本申请的一些实施例，示出了一种基于神经网络的图像生成装置的结构示意图；

图9根据本申请的一些实施例，示出了另一种基于神经网络的图像生成装置的结构示意图；

图10根据本申请的一些实施例，示出了一种电子设备的结构示意图。

具体实施例

本申请的说明性实施例包括但不限于一种基于神经网络的图像生成方法、基于神经网络的图像生成装置、基于神经网络的图像生成设备及计算机可读介质。

可以理解，如本文所使用的，术语“模块”、“单元”可以指代或者包括专用集成电路(ASIC)、电子电路、执行一个或多个软件或固件程序的处理器(共享、专用、或群组)和/或存储器、组合逻辑电路、和/或提供所描述的功能的其他适当硬件组件，或者可以作为这些硬件组件的一部分。

可以理解，在本申请各实施例中，处理器可以是微处理器、数字信号处理器、微控制器等，和/或其任何组合。根据另一个方面，所述处理器可以是单核处理器，多核处理器等，和/或其任何组合。

可以理解，本申请提供的基于神经网络的图像生成方法可以在各种电子设备上实施，包括但不限于，服务器、多个服务器组成的分布式服务器集群、手机、平板电脑、膝上型计算机、台式计算机、可穿戴设备、头戴式显示器、移动电子邮件设备、便携式游戏机、便携式音乐播放器、阅读器设备、个人数字助理、虚拟现实或者增强现实设备、其中嵌入或耦接有一个或多个处理器的电视机等电子设备等。

特别地，本申请提供的基于神经网络的图像生成方法适用于边缘设备，边缘计算是在靠近物或数据源头的网络边缘侧，融合网络、计算、存储、应用核心能力的分布式开放平台(架构)，就近提供边缘智能服务，能够满足实时业务、数据优化、应用智能、安全与隐私保护等方面的关键需求。例如，边缘设备可以是在视频监控系统中靠近视频数据源(网络智能摄像头)端能够对视频中的图像数据执行边缘计算的设备。

如图1所示，根据本申请的一些实施例，示出了一种用于生成图像的神经网络模型，其属于生成对抗网络GAN。生成对抗网络GAN是一种机器学习架构。相比于传统的神经网络模型，生成对抗网络GAN是一种可以自己从错误中进行学习，并降低未来出错的概率的全新的非监督式的网络架构。如图1所示，生成对抗网络GAN包括了两个独立的网络，两者之间作为互相对抗的目标。第一个网络是生成网络，用于生成类似于真实图像的随机图像，并将其作为虚假图像；第二个网络是需要训练的判别单元，用来分辨是否是真实图像还是虚假图像。

在训练过程中，生成网络的目标是绘制出非常接近真实图像的虚假图像来欺骗判别单元，通过选取训练数据潜在空间中的元素进行组合，作为初始输入，并加入随机噪音。举例来说，作为生成网络的输入，可以选取一个猫的图像，然后给猫加上第三只眼睛，以此作为虚假图像。判别单元作为一个图像判别器，会接收真实图像和生成网络生成的虚假图像，它的任务是判断生成网络生成的图像是属于真实图像还是虚假图像。如果判别单元判断生成网络生成的是虚假图像，那就需要调整生成网络的参数从而使得生成的虚假图像更为逼真；如果判别单元判断生成网络生成的是真实图像，即在判别单元生成误差后，在训练时判别单元的网络参数并不需要发生变化，只是把最后根据损失函数计算的误差传回生成网络进行再训练，使得生成网络更新生成网络的参数，从而完成生成网络的训练。整个训练过程会一直持续到两者进入到一个均衡和谐的状态。

训练的结果是一个图像生成质量较高的生成网络和一个图像判别能力较强的判别单元。前者可以用于机器创作(比如自动画出“猫”、“狗”)，而后者则可以用来机器分类(自动判断“猫”、“狗”)。

根据本申请的实施方式的图像生成方法，作为生成网络用于生成图像的初始输入量，选择一常量即可(如图中所示的4×4×512的常量)。

并且，在图像的生成网络中的多阶段图像生成过程中，加入了用于影响生成图像的全局信息的样式控制处理。在样式控制处理中，对所述图像进行像素实例归一化处理，像素实例归一化处理包括像素归一化处理和实例归一化处理。根据损失函数计算的误差传回生成网络进行再训练的过程中，可以对样式控制处理中像素归一化处理和实例归一化处理对图像结果的影响比重进行调整。

可以理解，上述对图1所示的神经网络模型进行图像生成的技术方案的描述仅仅是示例性的，并非限制性的。

图2根据本申请的一些实施例，示出了一种电子设备100的结构框图。具体地，如图2所示，电子设备100包括一个或多个处理器104，与处理器104中的至少一个连接的系统控制逻辑108，与系统控制逻辑108连接的系统内存112，与系统控制逻辑108连接的非易失性存储器(NVM)116，以及与系统控制逻辑108连接的网络接口120。

在一些实施例中，处理器104可以包括一个或多个单核或多核处理器。在一些实施例中，处理器104可以包括通用处理器和专用处理器(例如，图形处理器，应用处理器，基带处理器等)的任意组合。在电子设备100采用eNB(EvolvedNode B，增强型基站)或RAN(RadioAccess Network，无线接入网)控制器的实施例中，处理器104可以被配置为执行各种符合的实施例。

在一些实施例中，处理器104可以用于基于神经网络模型，进行图像的生成。具体的，例如，在神经网络模型的各层对图像的处理过程中，处理器104根据获取到的图像信息不断调整神经网络模型，直至得到准确度较高的图像特征图。处理器104还可以周期性更新上述神经网络模型，以便于较好的适应对神经网络模型的各种实际需求的变化。

在一些实施例中，系统控制逻辑108可以包括任意合适的接口控制器，以向处理器104中的至少一个和/或与系统控制逻辑108通信的任意合适的设备或组件提供任意合适的接口。

在一些实施例中，系统控制逻辑108可以包括一个或多个存储器控制器，以提供连接到系统内存112的接口。系统内存112可以用于加载以及存储数据和/或指令。在一些实施例中电子设备100的系统内存112可以包括任意合适的易失性存储器，例如合适的动态随机存取存储器(DRAM)。在一些实施例中，系统内存112可以用于加载或者存储实施上述基于神经网络的图像生成的指令，或者系统内存112可以用于加载或者存储实施利用上述神经网络模型进行图像生成的应用程序的指令。处理器104通过运行该指令可以实现根据本申请的实施例的图像生成的方法。

NVM/存储器116可以包括用于存储数据和/或指令的一个或多个有形的、非暂时性的计算机可读介质。在一些实施例中，NVM/存储器116可以包括闪存等任意合适的非易失性存储器和/或任意合适的非易失性存储设备，例如HDD(Hard DiskDrive，硬盘驱动器)，CD(Compact Disc，光盘)驱动器，DVD(Digital Versatile Disc，数字通用光盘)驱动器中的至少一个。NVM/存储器116还可以用于存储上述图像生成过程中所用的神经网络模型。

NVM/存储器116可以包括安装电子设备100的装置上的一部分存储资源，或者它可以由设备访问，但不一定是设备的一部分。例如，可以经由网络接口120通过网络访问NVM/存储116。

特别地，系统内存112和NVM/存储器116可以分别包括：指令124的暂时副本和永久副本。指令124可以包括：由处理器104中的至少一个执行时导致电子设备100实施本申请中的图像生成方法的指令。在一些实施例中，指令124、硬件、固件和/或其软件组件可另外地/替代地置于系统控制逻辑108，网络接口120和/或处理器104中。

网络接口120可以包括收发器，用于为电子设备100提供无线电接口，进而通过一个或多个网络与任意其他合适的设备(如前端模块，天线等)进行通信。在一些实施例中，网络接口120可以集成于电子设备100的其他组件。例如，网络接口120可以集成于处理器104的，系统内存112，NVM/存储器116，和具有指令的固件设备(未示出)中的至少一种，当处理器104中的至少一个执行所述指令时，电子设备100实现本申请中的基于神经网络的图像生成方法。

网络接口120可以进一步包括任意合适的硬件和/或固件，以提供多输入多输出无线电接口。例如，网络接口120可以是网络适配器，无线网络适配器，电话调制解调器和/或无线调制解调器。

在一些实施例中，处理器104中的至少一个可以与用于系统控制逻辑108的一个或多个控制器的逻辑封装在一起，以形成系统封装(SiP)。在一些实施例中，处理器104中的至少一个可以与用于系统控制逻辑108的一个或多个控制器的逻辑集成在同一管芯上，以形成片上系统(SoC)。

电子设备100可以进一步包括：输入/输出(I/O)设备132。I/O设备132可以包括用户界面，使得用户能够与电子设备100进行交互；外围组件接口的设计使得外围组件也能够与电子设备100交互。在一些实施例中，电子设备100还包括传感器，用于确定与电子设备100相关的环境条件和位置信息的至少一种。

根据本申请的一些实施例，提供了一种基于神经网络的图像生成方法300，如图3所示，该方法300包括如下步骤：

步骤301：接收用于生成图像的初始输入量，进一步的，初始输入量可以是常量。

具体的，在步骤301中，因为StyleGAN生成图像的特征是由中间向量和样式控制处理所控制的，因而初始输入可以被忽略，并用常量替代。以常量作为初始输入可以带来以下技术效果：首先可以降低由于初始输入取值不当而生成出一些不正常图像的概率；其次，有助于减少特征纠缠，对于网络在只使用中间向量不依赖于纠缠输入向量的情况下更容易学习。

步骤302：基于该初始输入量，实施M个阶段的图像生成过程，以生成具有预设目标分辨率的第一图像。

具体的，在步骤302中，在M个阶段的图像生成过程，从第一阶段到第M阶段逐阶段依次连接，并将前一阶段的输出图像作为当前阶段的输入图像。每个阶段的图像分辨率相较于前一阶段逐步增大，直至在第M阶段输出达到预设目标分辨率的图像，具体的，可将预定目标分辨率设为1024*1024。

步骤303：输出生成的达到预设目标分辨率的第一图像。

具体的，在步骤303中，输出生成的达到预设目标分辨率的第一图像。该第一图像作为生成网络生成的图像的结果，通过与输入判别单元的第二图像的比较，可以使得生成的图像质量不断提高。可选的，输出预设目标分辨率为1024*1024的第一图像，作为生成网络生成的第一图像。

步骤304：区分第一图像和第二图像，并基于区分结果调整第一图像的生成过程。

具体的，在步骤304中，判别单元经过前期的训练，可将真实图像做例如缩小尺寸等处理，以使其符合判别单元的输入，并将其作为第二图像。当生成网络将生成的第一图像作为样本图像输入到判别单元时，判别单元基于作为真实图像的第二图像，判断生成网络生成的第一图像是属于真实图像还是虚假图像。如果判别单元判断生成网络生成的第一图像是虚假图像，则调整生成网络的参数从而使得生成的虚假图像更为逼真；如果判别单元判断生成网络生成的第一图像是真实图像，则在判别单元生成误差后，将最后根据损失函数计算的误差传回生成网络进行再训练，使得生成网络更新生成网络的参数。

以下结合图4对上述步骤302中实施的生成图像的的具体过程进行进一步的解释。如图4所示，步骤302所述的生成的图像的过程可以示例性地包括如下步骤：

步骤3021：将输入的初始向量解码成中间向量。

具体的，在步骤3021中，映射网络(Mapping Network)将输入的初始向量编码成中间向量，如果没有映射网络，后续得到的N个控制向量之间会存在特征纠缠的现象，例如当控制向量对8*8的分辨率进行样式控制处理(假设它能控制人脸生成的角度)时，但是会发现32*32的分辨率上的控制内容，即相应的视觉特征(例如肤色)也被改变了，这种现象被称为特征纠缠。而映射网络为输入向量的特征解缠提供了一条学习的通路。如果仅使用输入向量来控制生成图像的视觉特征，能力是非常有限的，因此它必须遵循训练数据的概率密度。例如，如果黑头发的人的图像在数据集中更常见，那么更多的输入值将会被映射到该特征上。因此，该模型无法将部分输入(向量中的元素)映射到别的特征上，这就会造成特征纠缠。然而，通过使用映射网络，该模型可以生成一个不必遵循训练数据分布的向量，并且可以减少特征之间的相关性。映射网络由8个全连接层组成，它输出的中间向量与输入层输入的初始向量大小相同。其中，初始向量可以是512×1的随机向量。

步骤3022：将中间向量处理成N个控制向量。

具体的，在步骤3022中，将中间向量处理成N个控制向量。例如当生成图像的分辨率由4*4的分辨率，变换到8*8的分辨率，并逐级变换，最终变换到作为预设目标分辨率的1024*1024的分辨率时，可知此时需要9个生成阶段，即M＝9。而每个阶段都会受两个控制向量对其施加影响，其中一个控制向量在上采样层之后的第一层末调制层对生成的图像影响一次，另外一个控制向量在卷积层之后的第二层末调制层对生成的图像影响一次，第一层末调制层和第二层末调制层分别包括至少一次样式控制处理，影响的方式均通过样式控制处理，此时N＝18，即中间向量被处理成18个控制向量。这18个控制向量分别控制生成图像的18个不同的视觉特征，可分为以下三种类型：

1、粗糙的视觉特征——分辨率不超过8*8时，影响姿势、一般发型、面部形状等视觉特征；

2、中等的视觉特征——分辨率为16*16至32*32时，影响更精细的面部特征、发型、眼睛的睁开或是闭合等视觉特征；

3、高质的视觉特征——分辨率为64*64到1024*1024时，影响颜色(眼睛、头发和皮肤)和微观特征等视觉特征。

在M个阶段中，用于控制生成图像对应的视觉特征的N个控制向量经过至少一次样式控制处理对生成的图像施加影响，其中，N≥M。具体的，N可为M的2倍，如上所述，当M＝9时，N＝18。

以上M的取值只是根据本申请的实施例的示例性说明。M的取值由实际应用决定，例如其他的情况下可选择生成256*256(对应的M＝7)或者512*512(对应的M＝8)的图像，作为虚假人脸。

步骤3023：N个控制向量经过M个图像生成阶段中的样式控制处理作用于图像。

具体的，在步骤3023中，18个控制向量经过9个图像生成阶段中的样式控制处理对图像施加影响，使得在从4*4的分辨率到1024*1024的预设目标分辨率的图像生成过程中，图像的视觉特征得以完成从粗糙的到高质的细化，并在此过程中消除伪影，进一步提高生成图像的质量。

图5根据本申请的一些实施例，示出了一种神经网络模型的结构框图，该神经网络模型由输入层，映射网络和生成网络组成。其中，映射网络由8个全连接层组成，生成网络由9个网络层(包括第一至第九网络层)组成，其中9个网络层所生成的图像分辨率从低分辨率向高分辨率逐级增加。例如，第一网络层生成4*4的图像，该生成的4*4图像输出至第二网络层，第二网络层进行处理后输出8*8的图像，依次进行，直至第九网络层生成1024*1024的图像。其中每个网络层包括至少一次用于影响生成图像的全局信息的样式控制处理。如图5所示，首先输入512×1的初始向量到输入层，然后将该初始向量输入到映射网络，经映射网络中的8个全连接层被解码成中间向量，中间向量被处理成18个控制图像视觉特征的控制向量，从而参与影响生成网络的图像生成过程。其中，18个控制向量分别通过9个网络层中的样式控制处理对图像施加影响，以产生不同的视觉特征，最终生成分辨率为1024*1024的预设目标分辨率的生成图像输出。

图5中的各个网络层分别对应于如上所述的生成图像过程中的各个图像生成阶段。即，当有M个图像生成阶段，相应地就有M个网络层被设置。

图6根据本申请的一些实施例，示出了一个网络层的架构以及其中的样式控制处理的示意图。根据本申请的具体实施例，各个网络层包括上采样层、第一层末调制层、卷积层和第二层末调制层，第一层末调制层和第二层末调制层中分别包括至少一次样式控制处理(Adaptive Instance Normazation，亦称AdaIN)。如图6所示，以卷积层之后的样式控制处理为例，具体处理过程如下：中间向量通过一个可学习的仿射变换将像素归一化处理和实例归一化处理加权组合，并与标准化之后的卷积进行加权求和，从而完成一次控制向量影响原始输出x_i的过程。而这种影响方式之所以能够实现样式控制，主要是通过中间向量对应的N个控制向量(即变换后的均值

和标准方差

)影响图像的全局信息(注意标准化抹去了对图像局部信息的可见性)，而保留生成面部的关键信息则由上采样层和卷积层来决定，因而中间向量对应的N个控制向量通过影响生成图像的样式信息，实现对图像的样式控制处理。

根据本申请的实施例，M个网络层中的每一层都包括两个层末调制层，相应地每个网络层都包括两次样式控制处理。但是这样的设置只作为示例性说明，本申请不限于此。

在一些实施例中，像素实例归一化处理，包括：对像素归一化处理和所述实例归一化进行加权组合，如下式所示：

y＝ρ·y^P+(1-ρ)·y^I,

其中，y表示像素实例归一化处理；y^P表示像素归一化处理；y^I表示实例归一化处理；ρ∈[0,1]^C，其中ρ表示像素归一化处理对图像的影响程度，1-ρ表示实例归一化处理对图像的影响程度。

具体的，将输入的图像表示为x∈R^C×H×W，其中，C表示通道的数量，H和W分别表示图像的高度和宽度。标量x_chw表示x中的第chw个元素，其中c表示通道索引，hw表示所述空间坐标。

像素归一化操作(pixel normalization，亦称PN操作)具有避免生成器梯度爆炸的作用。沿着通道维度做归一化，可以使得特征图的每个位置都具有单位长度。具体的，像素归一化操作η^P(·)可表示为y^P＝η^P(x)，其中

实例归一化操作(instance normalization，亦称IN操作)是一个在生成网络中应用非常广泛的归一化方式，仅针对特征图的高和宽两个维度做归一化，对图像的样式风格影响明显。具体的，实例归一化操作η^I(·)可表示为y^I＝η^I(x)，其中

其中均值

和标准方差

可表示为

本发明所称的像素实例归一化处理(pixel-instance normalization，亦称PIN操作)可表示为y＝η^PI(x)，其中将像素归一化处理和实例归一化处理做加权组合如下所示：

y＝ρ·y^P+(1-ρ)·y^I (5)

ρ∈[0,1]^C，其中ρ表示所述像素归一化处理对所述图像的影响程度，1-ρ表示所述实例归一化处理对所述图像的影响程度，且ρ的大小是可训练的，·表示信道之积，随后的风格修饰层保留为仿射变换。经过像素实例归一化处理之后，输出为y'＝γ·y+β，其中γ，β∈R^C，且正如本领域技术人员所知的，均为可学习的参数。

因而样式控制处理中的像素实例归一化处理是将像素归一化处理和实例归一化处理进行加权组合，并且当ρ＝0时，只进行实例归一化处理；当ρ＝1时，只进行像素归一化处理。不同的归一化处理对图像的影响程度不同，使得生成图像的质量不同，比如当产生伪影时，对图像造成了严重的降级，显著降低了图像的质量，通过在样式控制中使用像素实例归一化处理，可以成功的消除在图像生成过程中出现伪影，从而提高生成图像的视觉质量。

研究表明，StyleGAN生成的几乎所有面部图像都包含此类伪影。图7根据本申请的一些实施例，示出了伪影产生过程的示意图。以面部图像生成为例，如图7中的第一行所示，在图像生成早期阶段，图像的生成包含具有伪影的通道，而其他通道则合成了面部图像特征；接着，如图7中的第二行所示，具有高像素的伪影随着图像分辨率的逐级增大，传播到接下来生成的特征图中，这些特征图影响后续层中的大量视觉特征的生成，且伪影通常是随机分布的，不具有规律性；最后，如图7中的第三行所示，随着图像生成分辨率的提高，伪影的大小被放大，并且比面部区域更加突出，从而使得在最终生成的图像中产生伪影。

为此，基于Flickr-Faces-HQ数据集训练了该神经网络，并将该用于图像生成的神经网络称之为StyleGAN-FFHQ网络模型。具体的，对StyleGAN-FFHQ网络模型进行了修改，以用来测试与PRGAN相比，StyleGAN中所引用的哪个组件造成了伪影的产生，如表1所示，测试结果表明，StyleGAN中样式控制处理的实例归一化处理导致了图像生成过程中伪影的产生。而本发明中将像素归一化处理应用到StyleGAN的样式控制处理中，与实例归一化处理进行加权组合，并初始化StyleGAN的配置，以使用像素实例归一化来训练StyleGAN-FFHQ，实验结果表明，改进后的StyleGAN-FFHQ模型生成的图像，显示了更好的视觉质量，且没有产生任何伪影。

表1

在一些实施例中，像素实例归一化处理中，ρ是可训练的，ρ的值能够根据训练自动调整。

本申请中的技术方案与现有技术中的图像处理方法相比，能够使得生成的图像具有更好的视觉质量，同时没有产生任何伪影，提高了生成图像的整体质量。在实施图像生成的过程中，仅需要简单的解决方案，就可以消除伪影，而不会过度损失图像的质量，使得计算精度显著提高，硬件配置更加优化，从而使得计算机系统的内部结构更加精简。

根据本申请的一些实施例，提供了一种基于神经网络的图像生成装置400，图8根据本申请的一些实施例，示出了一种基于神经网络的图像生成装置的结构示意图。如图8所示，进行基于神经网络的图像生成的装置400如下：

接收单元401，接收用于生成图像的初始输入量；

生成单元402，包括M个生成子单元，基于初始输入量，M个生成子单元依次实施图像生成过程，以生成具有预设目标分辨率的图像；

其中，在M个生成子单元中，从第1生成子单元到第M生成子单元，基于初始输入量生成的图像分辨率相较于前一阶段逐步增大，直至在第M生成子单元输出达到预设目标分辨率的图像；

每个生成子单元，包括至少一个用于影响生成图像的全局信息的样式控制模块，样式控制模块对于所述图像进行像素实例归一化处理，像素实例归一化处理包括像素归一化处理和实例归一化处理。

y＝ρ·y^P+(1-ρ)·y^I,

在一些实施例中，基于输入的初始向量实施M个阶段的图像生成过程中的样式控制处理。

在一些实施例中，输入的初始向量经神经网络模型中的映射网络被编码成中间向量，在M个阶段中，中间向量被处理成N个控制向量。在M个阶段中，N个控制向量经过至少一次样式控制处理对图像施加影响，N个控制向量用于控制图像对应的视觉特征，其中，N≥M。

根据本申请的一些实施例，提供了另一种基于神经网络的图像生成装置500，图9根据本申请的一些实施例，示出了另一种基于神经网络的图像生成装置的结构示意图。如图9所示，进行基于神经网络的图像生成的装置500如下：

第一生成单元501，生成第一图像；

获取单元502，获取作为训练样本的第二图像；

判别单元503，输入第一图像和第二图像，以区分第一图像和第二图像，并基于区分第一图像是属于真是图像还是虚假图像的结果调整第一图像的生成过程；

其中，第一生成单元501包括，

接收单元，接收用于生成图像的初始输入量；

生成单元，包括M个生成子单元，基于初始输入量，M个生成子单元依次实施图像生成过程，以生成具有预设目标分辨率的图像；

y＝ρ·y^P+(1-ρ)·y^I,

根据本申请的一些实施例，提供了一种基于神经网络的图像生成设备。可以理解，基于神经网络的图像生成的电子设备与本申请提供的基于神经网络的图像生成方法相对应，以上关于本申请的提供的基于神经网络的图像生成方法的具体描述中的技术细节依然适用于基于神经网络的图像生成的电子设备，具体描述请参见上文，在此不再赘述。

根据本申请的一些实施例，提供了一种使用计算机程序编码的计算机可读存储介质。可以理解，使用计算机程序编码的计算机可读存储介质与本申请提供的基于神经网络的图像生成方法相对应，以上关于本申请的提供的基于神经网络的图像生成方法的具体描述中的技术细节依然适用于使用计算机程序编码的计算机可读存储介质，具体描述请参见上文，在此不再赘述。

可以理解，本申请实施例提供的基于神经网络的图像生成的示例性应用包括但不限于人工智能领域的图像生成。

根据本申请的实施例，图10示出了一种电子设备900的结构示意图。该电子设备900也能够执行本申请上述实施例公开的图像生成的方法。在图10中，相似的部件具有同样的附图标记。如图10所示，电子设备900可以包括处理器910、电源模块940、存储器980，移动通信模块930、无线通信模块920、传感器模块990、音频模块950、摄像头970、接口模块960、按键901以及显示屏902等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备900的具体限定。在本申请另一些实施例中，电子设备900可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器910可以包括一个或多个处理单元，例如，可以包括中央处理器CPU(Central Processing Unit)、视频动作识别器GPU(Graphics Processing Unit)、数字信号处理器DSP、微处理器MCU(Micro-programmed Control Unit)、AI(ArtificialIntelligence，人工智能)处理器或可编程逻辑器件FPGA(Field ProgrammableGateArray)等的处理单元或处理电路。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。处理器910中可以设置存储单元，用于存储指令和数据。在一些实施例中，处理器910中的存储单元为高速缓冲存储器980。存储器980主要包括存储程序区9801以及存储数据区9802，其中，存储程序区9801可存储操作系统以及至少一个功能所需的应用程序(比如声音播放，图像识别等功能)。在本申请实施例提供的基于神经网络图像生成方法可视为存储程序区9801中以能够实现图像生成等功能的应用程序。神经网络模型存储于上述存储数据区9802中。

电源模块940可以包括电源、电源管理部件等。电源可以为电池。电源管理部件用于管理电源的充电和电源向其他模块的供电。在一些实施例中，电源管理部件包括充电管理模块和电源管理模块。充电管理模块用于从充电器接收充电输入；电源管理模块用于连接电源，充电管理模块与处理器910。电源管理模块接收电源和/或充电管理模块的输入，为处理器910，显示屏902，摄像头970，及无线通信模块920等供电。

移动通信模块930可以包括但不限于天线、功率放大器、滤波器、LNA(Low noiseamplify，低噪声放大器)等。移动通信模块930可以提供应用在电子设备900上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块930可以由天线接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块930还可以对经调制解调处理器调制后的信号放大，经天线转为电磁波辐射出去。在一些实施例中，移动通信模块930的至少部分功能模块可以被设置于处理器910中。在一些实施例中，移动通信模块930至少部分功能模块可以与处理器910的至少部分模块被设置在同一个器件中。无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(codedivisionmultiple access，CDMA)，宽带码分多址(wideband code division multipleaccess，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，无线局域网(wireless local areanetworks，WLAN)，近距离无线通信技术(near field communication，NFC)，调频(frequency modulation，FM)和/或红外技术(infrared，IR)技术等。所述GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(globalnavigation satellite system，GLONASS)，北斗卫星导航系统(beidounavigationsatellite system，BDS)，准天顶卫星系统(quasi-zenith satellite system，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

无线通信模块920可以包括天线，并经由天线实现对电磁波的收发。无线通信模块920可以提供应用在电子设备900上的包括无线局域网(wireless localarea networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。电子设备900可以通过无线通信技术与网络以及其他设备进行通信。

在一些实施例中，电子设备900的移动通信模块930和无线通信模块920也可以位于同一模块中。

显示屏902用于显示人机交互界面、图像、视频等。显示屏902包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organiclight-emitting diode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的，AMOLED)，柔性发光二极管(flexlight-emitting diode，FLED)，Miniled，MicroLed，Micro-oled，量子点发光二极管(quantum dot light emitting diodes，QLED)等。

传感器模块990可以包括接近光传感器、压力传感器，陀螺仪传感器，气压传感器，磁传感器，加速度传感器，距离传感器，指纹传感器，温度传感器，触摸传感器，环境光传感器，骨传导传感器等。

音频模块950用于将数字音频信息转换成模拟音频信号输出，或者将模拟音频输入转换为数字音频信号。音频模块950还可以用于对音频信号编码和解码。在一些实施例中，音频模块950可以设置于处理器910中，或将音频模块950的部分功能模块设置于处理器910中。在一些实施例中，音频模块950可以包括扬声器、听筒、麦克风以及耳机接口。

摄像头970用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件把光信号转换成电信号，之后将电信号传递给ISP(Image SignalProcessing，图像信号处理)转换成数字图像信号。电子设备900可以通过ISP，摄像头970，视频编解码器，GPU(Graphic Processing Unit，图形处理器)，显示屏902以及应用处理器等实现拍摄功能。

接口模块960包括外部存储器接口、通用串行总线(universal serial bus，USB)接口及用户标识模块(subscriber identification module，SIM)卡接口等。其中外部存储器接口可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备900的存储能力。外部存储卡通过外部存储器接口与处理器910通信，实现数据存储功能。通用串行总线接口用于电子设备900和其他电子设备进行通信。用户标识模块卡接口用于与安装至电子设备900的SIM卡进行通信，例如读取SIM卡中存储的电话号码，或将电话号码写入SIM卡中。

在一些实施例中，电子设备900还包括按键901、马达以及指示器等。其中，按键901可以包括音量键、开/关机键等。马达用于使电子设备900产生振动效果，例如在用户的电子设备900被呼叫的时候产生振动，以提示用户接听电子设备900来电。指示器可以包括激光指示器、射频指示器、LED指示器等。

本申请公开的机制的各实施例可以被实现在硬件、软件、固件或这些实现方法的组合中。本申请的实施例可实现为在可编程系统上执行的计算机程序或程序代码，该可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。

可将程序代码应用于输入指令，以执行本申请描述的各功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的，处理系统包括具有诸如例如数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器之类的处理器的任何系统。

程序代码可以用高级程序化语言或面向对象的编程语言来实现，以便与处理系统通信。在需要时，也可用汇编语言或机器语言来实现程序代码。事实上，本申请中描述的机制不限于任何特定编程语言的范围。在任一情形下，该语言可以是编译语言或解释语言。

在一些情况下，所公开的实施例可以以硬件、固件、软件或其任何组合来实现。所公开的实施例还可以被实现为由一个或多个暂时或非暂时性机器可读(例如，计算机可读)存储介质承载或存储在其上的指令，其可以由一个或多个处理器读取和执行。例如，指令可以通过网络或通过其他计算机可读介质分发。因此，机器可读介质可以包括用于以机器(例如，计算机)可读的形式存储或传输信息的任何机制，包括但不限于，软盘、光盘、光碟、只读存储器(CD-ROMs)、磁光盘、只读存储器(ROM)、初始存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、磁卡或光卡、闪存、或用于利用因特网以电、光、声或其他形式的传播信号来传输信息(例如，载波、红外信号数字信号等)的有形的机器可读存储器。因此，机器可读介质包括适合于以机器(例如计算机)可读的形式存储或传输电子指令或信息的任何类型的机器可读介质。

在附图中，可以以特定布置和/或顺序示出一些结构或方法特征。然而，应该理解，可能不需要这样的特定布置和/或排序。而是，在一些实施例中，这些特征可以以不同于说明性附图中所示的方式和/或顺序来布置。另外，在特定图中包括结构或方法特征并不意味着暗示在所有实施例中都需要这样的特征，并且在一些实施例中，可以不包括这些特征或者可以与其他特征组合。

需要说明的是，本申请各设备实施例中提到的各单元/模块都是逻辑单元/模块，在物理上，一个逻辑单元/模块可以是一个物理单元/模块，也可以是一个物理单元/模块的一部分，还可以以多个物理单元/模块的组合实现，这些逻辑单元/模块本身的物理实现方式并不是最重要的，这些逻辑单元/模块所实现的功能的组合才是解决本申请所提出的技术问题的关键。此外，为了突出本申请的创新部分，本申请上述各设备实施例并没有将与解决本申请所提出的技术问题关系不太密切的单元/模块引入，这并不表明上述设备实施例并不存在其它的单元/模块。

需要说明的是，在本申请的示例和说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

虽然通过参照本申请的某些优选实施例，已经对本申请进行了图示和描述，但本领域的普通技术人员应该明白，可以在形式上和细节上对其作各种改变，而不偏离本申请的精神和范围。

Claims

1.一种基于神经网络的图像生成方法，其特征在于，

接收用于生成图像的初始输入量；

基于所述初始输入量，实施M个阶段的图像生成过程，以生成具有预设目标分辨率的图像；

其中，在所述M个阶段的图像生成过程中，从第1阶段到第M阶段，每个阶段中基于所述初始输入量生成的图像分辨率相较于前一阶段逐步增大，直至在第M阶段输出达到所述预设目标分辨率的图像；

在所述每个阶段的图像生成过程中，包括至少一次用于影响生成图像的全局信息的样式控制处理，在所述样式控制处理中，对所述图像进行像素实例归一化处理，所述像素实例归一化处理包括像素归一化处理和实例归一化处理。

2.如权利要求1所述的方法，其特征在于，所述像素实例归一化处理，包括：

对所述像素归一化处理和所述实例归一化进行加权组合，如下式所示：

y＝ρ·y^P+(1-ρ)·y^I,

3.如权利要求1所述的方法，其特征在于，所述初始输入量是常量。

4.如权利要求1所述的方法，其特征在于，基于输入的初始向量实施所述M个阶段的图像生成过程中的所述样式控制处理。

5.如权利要求4所述的方法，其特征在于，基于输入的初始向量实施所述M个阶段的图像生成过程中的所述样式控制处理，包括：

所述初始向量经所述神经网络模型中的映射网络编码成中间向量，在所述M个阶段中，所述中间向量被处理成N个控制向量；

所述N个控制向量用于控制图像对应的视觉特征，并经过所述至少一次样式控制处理对图像施加影响，以控制所述M个阶段的图像生成过程，其中，N≥M。

6.如权利要求5所述的方法，其特征在于，所述初始向量是随机向量。

7.如权利要求1-6所述的方法，其特征在于，所述神经网络模型包括输入层、映射网络、生成网络和输出层，所述生成网络进一步包括M个网络层；

其中所述M个网络层中的至少一层包括上采样层、第一层末调制层、卷积层和第二层末调制层，所述第一层末调制层和所述第二层末调制层分别包括至少一次所述样式控制处理，其中，输入的所述初始输入量经过所述M个网络层，生成图像。

8.一种基于神经网络的图像生成方法，其特征在于，

生成第一图像；

获取作为训练样本的第二图像；以及

将所述第一图像和所述第二图像输入判别单元，以区分所述第一图像和所述第二图像，并基于区分结果调整所述第一图像的生成过程；

其中，生成第一图像的过程包括，

接收用于生成图像的初始输入量；

基于所述初始输入量，实施M个阶段的图像生成过程，以生成具有预设目标分辨率的所述第一图像；

其中，在所述M个阶段的图像生成过程中，从第1阶段到第M阶段，每个阶段中基于所述初始输入量生成的图像分辨率相较于前一阶段逐步增大，直至在第M阶段输出达到所述预设目标分辨率的所述第一图像；

9.如权利要求8所述的方法，其特征在于，所述像素实例归一化处理，包括：

对像素归一化处理和实例归一化进行加权组合，如下式所示：

y＝ρ·y^P+(1-ρ)·y^I,

10.如权利要求9所述的方法，其特征在于，所述像素实例归一化处理中，ρ的值能够根据所述训练自动调整。

11.一种基于神经网络的图像生成装置，其特征在于，包括：

接收单元，接收用于生成图像的初始输入量；

生成单元，包括M个生成子单元，基于所述初始输入量，所述M个生成子单元依次实施图像生成过程，以生成具有预设目标分辨率的图像；

其中，在所述M个生成子单元中，从第1生成子单元到第M生成子单元，基于所述初始输入量生成的图像分辨率相较于前一阶段逐步增大，直至在第M生成子单元输出达到所述预设目标分辨率的图像；

所述每个生成子单元，包括至少一个用于影响生成图像的全局信息的样式控制模块，所述样式控制模块对于所述图像进行像素实例归一化处理，所述像素实例归一化处理包括像素归一化处理和实例归一化处理。

12.如权利要求11所述的装置，其特征在于，所述像素实例归一化处理，包括：

y＝ρ·y^P+(1-ρ)·y^I,

13.如权利要求12所述的装置，其特征在于，基于输入的初始向量实施所述M个阶段的图像生成过程中的所述样式控制处理。

14.如权利要求13所述的装置，其特征在于，基于输入的初始向量实施所述M个阶段的图像生成过程中的所述样式控制处理，包括：

15.如权利要求11-14所述的装置，其特征在于，所述神经网络模型包括输入层、映射网络、生成网络和输出层，所述生成网络进一步包括M个网络层；

16.一种基于神经网络的图像生成装置，其特征在于，

第一生成单元，生成第一图像；

获取单元，获取作为训练样本的第二图像；以及

判别单元，输入所述第一图像和所述第二图像，以区分所述第一图像和所述第二图像，并基于区分结果调整所述第一图像的生成过程；

其中，第一生成单元包括，

接收单元，接收用于生成图像的初始输入量；

17.如权利要求16所述的装置，其特征在于，所述像素实例归一化处理，包括：

y＝ρ·y^P+(1-ρ)·y^I,

18.如权利要求16所述的装置，其特征在于，所述像素实例归一化处理中，ρ的值能够根据所述训练自动调整。

19.一种基于神经网络的图像生成设备，其特征在于，包括：

处理器，是系统的处理器之一，用于执行所述指令以实施权利要求1-10中任一项所述的图像生成方法。

20.一种使用计算机程序编码的计算机可读存储介质，其特征在于，所述计算机可读介质上存储有指令，所述指令在计算机上执行时使计算机执行权利要求1-10中任一项所述的图像生成方法。