CN114092591B

CN114092591B - 图像生成方法、装置、电子设备及存储介质

Info

Publication number: CN114092591B
Application number: CN202210063293.2A
Authority: CN
Inventors: 董晶; 王伟; 彭勃; 赵冰浩; 马天翔; 宋宗泽
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2022-01-20
Filing date: 2022-01-20
Publication date: 2022-04-12
Anticipated expiration: 2042-01-20
Also published as: CN114092591A

Abstract

本申请涉及一种图像生成方法、装置、电子设备及存储介质，所述方法包括：将已知的目标对象的简笔画输入预先训练好的语义分割图预测模型，输出所述简笔画的多层语义分割图特征；根据已知的目标对象的源图像及其语义分割图确定所述源图像的多层图像特征；根据所述简笔画的多层语义分割图特征对所述源图像的多层图像特征进行特征转换，得到所述简笔画对应图像的多层图像特征；基于所述简笔画对应图像的多层图像特征，生成简笔画对应的图像，通过提供源图像的部位分割信息，而简笔画提供每个部位的内部结构，能够根据简笔画和源图像生成保留源图像细节纹理的高质量的简笔画对应图像。

Description

图像生成方法、装置、电子设备及存储介质

技术领域

本申请涉及图像处理技术领域，尤其涉及一种图像生成方法、装置、电子设备及存储介质。

背景技术

由于人体结构的复杂性和纹理的丰富性，人体图像的生成是一个具有挑战性的问题。目前的一些工作在利用关键点进行姿势转换方面取得了很大的进展，但不能描述个性化的形状。因此，目前的图像编辑能力有限。

人体图像生成因其在虚拟试穿、图像编辑、行人重识别等方面的巨大应用潜力而备受关注。姿态转换是该主题中的一项基本任务，其目标是生成给定人物在特定姿态下的图像。由于源图像和目标图像之间的结构差异，姿态转换这一问题被认为是一个非对齐的pix2pix（pix2pix：有条件地使用用户输入，它使用成对的数据进行训练）的生成任务。早期的大多数方法都在低维的潜在空间中传递姿态信息。这些方法的核心思想是在模型的一个分支中解耦源图像的外观和形状，并将其注入由另一个分支提取的姿势的潜在表示中。虽然外观对齐问题可以得到解决，但很难生成具有真实纹理细节的图像。为了解决这个问题，一些基于流的方法估计源图像和目标图像区域的流向，并使用它扭曲源图像或其特征来进行生成。然而，这些方法的生成能力有限，对不可见区域的恢复也较差。由于缺乏语义信息，上述的这些方法难以实现服装与人体的解耦。为了解决这个问题，许多方法引入了人体的语义分割图。然而这些方法仅仅使用语义分割图来分割输入源图像，只利用了有限的语义信息，对于深层的信息利用还有待提高。

目前，通常通过单一使用原始语义图引导不同尺度的特征来实现图像生成，可能会导致同质化；在人体图像生成的过程中，目前通常采用关键点来表示姿态信息，由于关键点表达简单，携带的信息条较少，一些方法引入了3D姿态以增加信息的丰富性。然而，3D信息很难获得，而且对于应用层面来说过于专业。

另外，目前大多数方法使用提取的人体关键点的二维坐标作为姿势的表达，之后在形状的解耦上耗费大量精力。虽然关键点的表达简单且容易修改，但对其操作的结果过于粗糙，没有语义含义。这使得编辑的灵活性降低，导致人体图像生成的实用性受到限制。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本申请的实施例提供了一种图像生成方法、装置、电子设备及存储介质。

第一方面，本申请的实施例提供了一种图像生成方法，包括以下步骤：

将已知的目标对象的简笔画输入预先训练好的语义分割图预测模型，输出所述简笔画的多层语义分割图特征；

根据已知的目标对象的源图像及其语义分割图确定所述源图像的多层图像特征；

根据所述简笔画的多层语义分割图特征对所述源图像的多层图像特征进行特征转换，得到所述简笔画对应图像的多层图像特征；

基于所述简笔画对应图像的多层图像特征，生成简笔画对应的图像。

在一种可能的实施方式中，所述语义分割图预测模型通过以下表达式训练得到：

其中，

为语义分割图预测模型的损失函数，

为语义分割图预测模型，

为简笔画对应图像的真实语义分割图，

为简笔画。

在一种可能的实施方式中，所述根据已知的目标对象的源图像及其语义分割图确定所述源图像的多层图像特征，包括：

利用已知的目标对象的源图像的语义分割图对所述源图像进行处理，得到所述源图像的图像特征；

按照预设编码对所述源图像的图像特征进行分层，得到所述源图像的多层图像特征。

在一种可能的实施方式中，通过以下表达式，利用已知的目标对象的源图像的语义分割图对所述源图像进行处理，得到所述源图像的图像特征：

其中，

为所述源图像的图像特征，

为源图像，

为源图像的语义分割图。

在一种可能的实施方式中，所述根据所述简笔画的多层语义分割图特征对所述源图像的多层图像特征进行特征转换，得到所述简笔画对应图像的多层图像特征，包括：

将所述简笔画的每一层语义分割图特征和同一层的所述源图像的图像特征输入预先训练好的特征转换模型，得到每一层的简笔画对应图像的图像特征。

在一种可能的实施方式中，所述特征转换模型通过以下表达式训练得到：

其中，

为所述特征转换模型的损失，

为分割图像的重建损失，

为图像的重建损失，

为图像的感知损失，

为图像的风格损失，

为图像的对抗损失，

为分割图像的重建损失权重，

为图像的重建损失权重，

为图像的感知损失权重，

为图像的风格损失权重，

为图像的对抗损失权重。

在一种可能的实施方式中，所述特征转换模型包括三个空间自适应归一化模块，所述将所述简笔画的每一层语义分割图特征和同一层的所述源图像的图像特征输入预先训练好的特征转换模型，得到每一层的简笔画对应图像的图像特征，包括：

将所述简笔画的每一层语义分割图特征分别输入第一空间自适应归一化模块和第二空间自适应归一化模块，得到第一组矩阵β₁和γ₁以及第二组矩阵β₂和γ₂；

将所述简笔画与随机噪声的每一层聚合特征输入第三空间自适应归一化模块，得到第三组矩阵β₃和γ₃；

根据第一组矩阵β₁和γ₁对同一层的所述源图像的图像特征进行归一化处理，得到该层的简笔画对应图像的第一图像特征；

根据第二组矩阵β₂和γ₂对所述第一图像特征进行归一化处理，得到该层的简笔画对应图像的第二图像特征；

根据第三组矩阵β₃和γ₃对同一层的所述源图像的图像特征进行归一化处理，得到该层的简笔画对应图像的第三图像特征；

对该层的第二图像特征和第三图像特征进行元素层面的加和，得到该层的简笔画对应图像的图像特征。

在一种可能的实施方式中，在所述将所述简笔画的每一层语义分割图特征分别输入第一空间自适应归一化模块和第二空间自适应归一化模块之前，所述方法还包括：

对所述简笔画进行缩小或放大，使得所述简笔画与随机噪声的每一层聚合特征与同一层的所述源图像的图像特征对应匹配。

第二方面，本申请的实施例提供了一种图像生成装置，包括：

输出模块，其用于将已知的目标对象的简笔画输入预先训练好的语义分割图预测模型，输出所述简笔画的多层语义分割图特征；

确定模块，其用于根据已知的目标对象的源图像及其语义分割图确定所述源图像的多层图像特征；

转换模块，其用于根据所述简笔画的多层语义分割图特征对所述源图像的多层图像特征进行特征转换，得到所述简笔画对应图像的多层图像特征；

生成模块，其用于基于所述简笔画对应图像的多层图像特征，生成简笔画对应的图像。

第三方面，本申请的实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述的图像生成方法的步骤。

第四方面，本申请的实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的图像生成方法的步骤。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

本申请实施例提供的该方法，将已知的目标对象的简笔画输入预先训练好的语义分割图预测模型，输出所述简笔画的多层语义分割图特征；根据已知的目标对象的源图像及其语义分割图确定所述源图像的多层图像特征；根据所述简笔画的多层语义分割图特征对所述源图像的多层图像特征进行特征转换，得到所述简笔画对应图像的多层图像特征；基于所述简笔画对应图像的多层图像特征，生成简笔画对应的图像，通过提供源图像的部位分割信息，而简笔画提供每个部位的内部结构，能够根据简笔画和源图像生成保留源图像细节纹理的高质量的简笔画对应图像。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出了本申请实施例提供的一种图像生成方法的流程示意图；

图2示意性示出了本申请实施例提供的步骤S12的流程示意图；

图3示意性示出了本申请实施例提供的步骤S13的流程示意图；

图4示意性示出了本申请实施例提供的步骤S31的流程示意图；

图5示意性示出了本申请又一实施例提供的一种图像生成方法流程示意图；

图6示意性示出了本申请实施例提供的特征转换的流程示意图；

图7示意性示出了本申请实施例提供的图像生成方法与其他方法在姿势转换这一问题上的图像生成质量对比效果图；

图8示意性示出了本申请实施例提供的图像生成方法应用在图像编辑上的效果示意图；

图9示意性示出了本申请实施例提供的图像生成方法同时应用在图像编辑和姿势转换上的效果示意图；

图10示意性示出了本申请又一实施例提供的一种图像生成装置的结构示意图；

图11示意性示出了本申请又一实施例提供的一种电子设备结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图1，本申请的图像生成方法，包括以下步骤：

S11，将已知的目标对象的简笔画输入预先训练好的语义分割图预测模型，输出所述简笔画的多层语义分割图特征。

在实际应用中，所述语义分割图预测模型通过以下表达式训练得到：

其中，

为语义分割图预测模型的损失函数，

为语义分割图预测模型，

为简笔画对应图像的真实语义分割图，

为简笔画。

在实际应用中，语义分割图预测模型可以是U-net网络模型，目标对象可以是人体或者物体等。

S12，根据已知的目标对象的源图像及其语义分割图确定所述源图像的多层图像特征；

S13，根据所述简笔画的多层语义分割图特征对所述源图像的多层图像特征进行特征转换，得到所述简笔画对应图像的多层图像特征；

S14，基于所述简笔画对应图像的多层图像特征，生成简笔画对应的图像。

参见图2，步骤S12中，所述根据已知的目标对象的源图像及其语义分割图确定所述源图像的多层图像特征，包括：

S21，利用已知的目标对象的源图像的语义分割图对所述源图像进行处理，得到所述源图像的图像特征；

S22，按照预设编码对所述源图像的图像特征进行分层，得到所述源图像的多层图像特征。

在本实施例中，步骤S21中，通过以下表达式，利用已知的目标对象的源图像的语义分割图对所述源图像进行处理，得到所述源图像的图像特征：

其中，

为所述源图像的图像特征，

为源图像，

为源图像的语义分割图。

参见图3，步骤S13中，所述根据所述简笔画的多层语义分割图特征对所述源图像的多层图像特征进行特征转换，得到所述简笔画对应图像的多层图像特征，包括：

S31，将所述简笔画的每一层语义分割图特征和同一层的所述源图像的图像特征输入预先训练好的特征转换模型，得到每一层的简笔画对应图像的图像特征，其中，所述特征转换模型通过以下表达式训练得到：

其中，

为所述特征转换模型的损失；

为分割图像的重建损失；

为图像的重建损失，从像素级约束生成图像与真实图像；

为图像的感知损失，从高层次的特征层面约束生成图像与真实图像的相似度；

为图像的风格损失，和感知损失一样，使用神经网络VGG19求取的特征来对生成图像与真实图像进行约束；

为图像的对抗损失，GAN（Generative Adversarial Networks，生成式对抗网络）中令生成器和判别器进行对抗，提高图像生成质量；

为分割图像的重建损失权重，

为图像的重建损失权重，

为图像的感知损失权重，

为图像的风格损失权重，

为图像的对抗损失权重。

参见图4，步骤S31中，所述特征转换模型可以包括三个空间自适应归一化模块，所述将所述简笔画的每一层语义分割图特征和同一层的所述源图像的图像特征输入预先训练好的特征转换模型，得到每一层的简笔画对应图像的图像特征，包括：

S41，对所述简笔画进行缩小或放大，使得所述简笔画与随机噪声的每一层聚合特征与同一层的所述源图像的图像特征对应匹配；

S42，将所述简笔画的每一层语义分割图特征分别输入第一空间自适应归一化模块和第二空间自适应归一化模块，得到第一组矩阵β₁和γ₁以及第二组矩阵β₂和γ₂；

S43，将所述简笔画与随机噪声的每一层聚合特征输入第三空间自适应归一化模块，得到第三组矩阵β₃和γ₃；

S44，根据第一组矩阵β₁和γ₁对同一层的所述源图像的图像特征进行归一化处理，得到该层的简笔画对应图像的第一图像特征；

S45，根据第二组矩阵β₂和γ₂对所述第一图像特征进行归一化处理，得到该层的简笔画对应图像的第二图像特征；

S46，根据第三组矩阵β₃和γ₃对同一层的所述源图像的图像特征进行归一化处理，得到该层的简笔画对应图像的第三图像特征；

S47，对该层的第二图像特征和第三图像特征进行元素层面的加和，得到该层的简笔画对应图像的图像特征。

以目标对象是人体为应用场景，举例说明本申请的图像生成方法，包括两个阶段：

前期准备：

模型训练数据集的搜集：数据集分为两个部分：真实人体图像数据集和人体简笔画数据集。真实图像数据集使用DeepFashion数据集（DeepFashion是香港中文大学开放的一个large-scale数据集），包含了52,712副人体图像，在本实施例中，将这些图像配对作为源图像和目标图像（简笔画对应图像），划分了共计101,966对图像作为训练数据以及8750对图像作为测试数据。人体简笔画图像是与真实图像一一对应的数据，使用PhotoSketch模型对原始图像进行提取得到简笔画图像。

如图5所示，两阶段模型包括：语义分割图生成器(Parsing Generator)，人体图像生成器(Person Image generator)，其中，人体图像生成器包括特征转换模块(FeatureTransformation，DSMN Block)。

将问题定义为，给定源图像I_S以及目标简笔画S_t，生成具有与S_t一致的形状和姿态但外观与I_S相同的图像I_g。

第一阶段:

根据给定的简笔画预测真实目标图像（简笔画对应图像）的语义分割图，可以使用一个U-Net结构进行生成，并使用L1范数约束进行训练：

其中，

为语义分割图预测模型的损失函数，

为语义分割图预测模型（语义分割图生成器），

为目标图像的真实语义分割图，

为目标图像的简笔画，在此过程中保存中间生成的多层的语义特征F_Pg用于后续的图像生成。

第二阶段：

在本阶段，为了实现目标图像的生成，首先，使用源图像的语义分割图P_S对I_S进行处理，如图5所示：

其中，

为所述源图像的图像特征，

为源图像，

为源图像的语义分割图。

通过该步骤对所述源图像的不同区域进行分割，完成初步的解耦后，对输入的

进行编码，将编码的特征命名为

，之后，使用DSMN模块，对每一级的特征

进行转换，其中，在图5中，Element-wise multiply为元素层面的乘积，Featureconcatenation为特征聚合。

如图6所示，对于每一层的特征

，都使用一个DMSN（域匹配空间自适应归一化）模块。在左支路中，使用对应层级的语义特征F_Pg对其进行两次SPADE（Spatially AdaptiveDenormalization，空间自适应归一化）操作，其中，在图6中，Element-wise plus为元素层面的加和，Featureconcatenation为特征聚合，Softmax layer为分类层，Sketch为简笔画，Noise为随机噪声，Conv为卷积运算，ReLU为修正线性单元运算。

由于语义特征更接近低频信息，设计了另一个分支，引入与随机噪声串联的目标简笔画作为高频信息传输通道，总体上构成一个残差模块，以加强简笔画对最终预测结果的影响，从而增强编辑效果，并增加生成结果的细节。

经过特征转换模块后，得到了多层的图像特征F_T，再次使用类似于U-Net的方式，利用这些图像特征生成最后的图像。

SPADE算法中使用一个语义分割图来对图像特征进行空间自适应归一化，本实施例的SPADE算法使用的是多层的语义分割图特征。具体的SPADE操作如下：

对于输入图像第i级的特征

，以及对应的语义特征

，首先使用两个卷积层对

进行卷积，分别预测一个γ1矩阵和β1矩阵（两个矩阵和特征的大小相同），然后使用这两个矩阵对特征进行归一化。例如，第（c,x,y）位置处的特征值为h_c,x,y，经过SPADE后，该位置的值变为：

其中，μ为特征

的均值，σ为特征

的标准差。

如图6所示，使用

连续进行两次SPADE操作，使用简笔画sketch对特征进行一次这样的操作，将左右得到的结果相融合即是本实施例的DMSN模块。

以目标对象是人体为应用场景，本申请的图像生成方法的效果包括：

如图7所示，本实施例的图像生成方法与其他方法在姿势转换这一问题上的图像生成质量对比，第一列是源图像，第二列是目标图像（简笔画对应图像）。可以看出，本实施例的图像生成方法的生成图像在姿态保持和衣服纹理生成等各个方面都有着优越性的结果，其中，图中的PATN为Progressive Pose Attention Transfer，渐进的姿态注意力迁移模型；BiGraph为Bipartite Graph Reasoning GAN，二分图响应GAN网络模型；XingGan为CrossingGAN，交叉GAN网络模型；ADGAN为Attribute-Decomposed GAN，属性分解GAN网络模型；GFLA为global-flow local-attention，全局局部注意网络模型；SPGNet为Segmentation Prediction and Guidance Network，分割预测与引导网络模型；PISE为Person Image Synthesis and Editing with Decoupled GAN，与GAN耦合的人体图像合成和编辑网络模型。

如图8所示，可以看出，只需要在简笔画上增删几笔，就能实现目标图像生成上的编辑。

表1是对一些指标的测量结果，本实施例的图像生成方法在多个指标上都取得了最佳的结果，其中，表1中的SSIM为Structural Similarity，结构相似性；IS为InceptionScore，基于Inception网络的分数计算方法；FID为Frechet Inception Distance，计算真实图像和生成图像的特征向量之间距离的一种度量；LPIPS为Learned Perceptual ImagePatch Similarity，感知损失。

表1

Model	SSIM	IS	FID	LPIPS
					PATN	0.7017	3.3111	20.621	0.2398
BiGraph	0.7092	3.4608	21.080	0.2305
					XingGan	0.6911	3.4825	39.842	0.2734
ADGAN	0.7017	3.5198	14.372	0.2231
					GFLA	0.6879	3.5894	10.651	0.2460
SPGNet	0.7111	3.2360	13.017	0.2101
					PISE	0.6956	3.5590	12.054	0.2189
Ours	0.7433	3.8218	10.791	0.1575

由图7、图8和表1中大量定性和定量的比较结果表明了本实施例的图像生成方法的有效性和优越性。

本实施例的图像生成方法使用简笔画替换现有技术中的关键点，在实现姿态控制的同时，可以编辑形状相关属性，并提出用多层语义特征代替语义分割图，以适应非对齐图像到图像的生成，能够使用简笔画从原始图像中剥离出形状属性，在达到良好生成效果的同时实现编辑的功能，如图9所示。

本实施例的图像生成方法提出了一个两阶段生成模型同时解决姿势转换和图像编辑的问题，首先，考虑到不同深度层级的特征携带不同的信息，使用一个类似U-Net的网络从简笔画生成多个级别的语义分割图特征，而不是直接使用语义分割图，因此，可以通过语义分割图特征以一对一对应的方式引导输入源图像的多层次特征，比单一使用语义图具有更好的、更多样的表达能力；以端到端的方式训练模型，语义特征可以与目标图像的特征对齐，更有利于多层次特征的转化。

本实施例的图像生成方法为了更好地利用空间信息，提出了域匹配空间自适应归一化（DMSN）模块来变换特征，采用两个利用不同数据域的分支，其中一个分支使用语义特征，另一个使用缩放的简笔画，语义特征只包含部位分割信息，忽略了每个部位内部的内容，而简笔画包含内部结构，这两个分支可以相互补充，然后，将变换后的特征通过解码器输出最终图像，能够在语义特征和简笔画图像的双重引导下对源图像的特征进行转换，帮助我们生成保留源图像细节纹理的高质量新图像。

如图10所示，本申请的实施例提供了一种图像生成装置，包括：

输出模块11，其用于将已知的目标对象的简笔画输入预先训练好的语义分割图预测模型，输出所述简笔画的多层语义分割图特征；

确定模块12，其用于根据已知的目标对象的源图像及其语义分割图确定所述源图像的多层图像特征；

转换模块13，其用于根据所述简笔画的多层语义分割图特征对所述源图像的多层图像特征进行特征转换，得到所述简笔画对应图像的多层图像特征；

生成模块14，其用于基于所述简笔画对应图像的多层图像特征，生成简笔画对应的图像。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本实施例的图像生成装置使用简笔画作为目标图像的表达，不仅可以同时表示姿势和形状，而且在语义层面上更具灵活性，另外，还提出了一个用于姿势转换和图像编辑的二阶段新模型，第一阶段使用目标简笔画预测目标语义分割图，并获得语义分割特征图；在第二阶段，利用语义分割图特征和缩放目标简笔画，基于域匹配的空间自适应归一化方法来指导多层次目标图像生成。

如图11所示，本申请实施例提供了一种电子设备，包括处理器1110、通信接口1120、存储器1130和通信总线1140，其中，处理器1110，通信接口1120，存储器1130通过通信总线1140完成相互间的通信；

存储器1130，用于存放计算机程序；

处理器1110，用于执行存储器1130上所存放的程序时，实现如下所示图像生成方法：

上述的通信总线1140可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口1120用于上述电子设备与其他设备之间的通信。

存储器1130可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器1130还可以是至少一个位于远离前述处理器1110的存储装置。

上述的处理器1110可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述任意可能的实现方式中的图像生成方法。

可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

本申请实施例还提供了一种计算机可读存储介质，包括计算机程序，所述程序被处理器执行时实现上述任意可能的实现方式中的图像生成方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。