CN113744158A

CN113744158A - 图像生成方法、装置、电子设备和存储介质

Info

Publication number: CN113744158A
Application number: CN202111055521.3A
Authority: CN
Inventors: 杨文康; 张友国; 吕军; 姜殿洪; 程效根; 尹大海; 谭昶
Original assignee: Iflytek Information Technology Co Ltd
Current assignee: Iflytek Information Technology Co Ltd
Priority date: 2021-09-09
Filing date: 2021-09-09
Publication date: 2021-12-03

Abstract

本发明提供一种图像生成方法、装置、电子设备和存储介质，所述方法包括：将原始图像输入至第一图像生成模型，得到第一图像生成模型输出的虚拟图像；第一图像生成模型以特征一致性为约束，结合第二图像生成模型、第一图像判别模型和第二图像判别模型，循环对抗训练得到；特征一致性包括第一样本图像与第一虚拟图像中包含的目标特征的一致性，以及第二样本图像与第二虚拟图像中包含的目标特征的一致性。本发明不仅能够准确生成包含有原始图像目标特征的虚拟图像，而且降低了样本采集难度和采集成本。

Description

图像生成方法、装置、电子设备和存储介质

技术领域

本发明涉及图像生成技术领域，尤其涉及一种图像生成方法、装置、电子设备和存储介质。

背景技术

为了使得深度学习模型(如图像识别模型)效果更佳，通常需要大量的样本图像来训练模型。然而，在某些特定场景下，对应的样本图像较为稀少，例如对于车牌识别模型而言，需要采集大量的车牌样本图像用于车牌识别模型的训练，但由于车牌种类、地域差异、自然条件等影响，导致获取足量的车牌样本图像存在困难。

目前，生成用于训练的样本图像的方式多是将原始图像输入至训练完成的生成对抗网络，以生成样本图像，但该网络需要成对的样本数据进行训练，增加了样本数据的获取难度，同时，基于该网络生成的样本图像易产生形变，如字符扭曲，存在伪影等问题。

发明内容

本发明提供一种图像生成方法、装置、电子设备和存储介质，用以解决现有技术中样本图像易产生形变，且样本图像生成需要成对图像的缺陷。

本发明提供一种图像生成方法，包括：

确定原始图像；

将所述原始图像输入至第一图像生成模型，得到所述第一图像生成模型输出的虚拟图像；

所述第一图像生成模型以特征一致性为约束，结合第二图像生成模型、第一图像判别模型和第二图像判别模型，循环对抗训练得到；

所述特征一致性包括第一样本图像与第一虚拟图像中包含的目标特征的一致性，以及第二样本图像与第二虚拟图像中包含的目标特征的一致性，所述第一虚拟图像是所述第一图像生成模型对应的第一初始生成模型基于所述第一样本图像确定的，所述第二虚拟图像是所述第二图像生成模型对应的第二初始生成模型基于所述第二样本图像确定的。

根据本发明提供的一种图像生成方法，所述循环对抗训练的损失函数是基于特征一致性损失函数和循环对抗损失函数确定的；

所述特征一致性损失函数用于表征所述特征一致性的损失值；

所述循环对抗损失函数用于表征所述第一图像生成模型、所述第二图像生成模型、所述第一图像判别模型和所述第二图像判别模型进行循环对抗训练的损失值。

根据本发明提供的一种图像生成方法，所述第一图像生成模型是基于如下步骤训练得到的：

将所述第一样本图像输入至所述第一初始生成模型，得到所述第一初始生成模型输出的所述第一虚拟图像，并将所述第一虚拟图像输入至所述第二初始生成模型，得到所述第二初始模型输出的第一还原图像；

将所述第二样本图像输入至所述第二初始生成模型，得到所述第二初始生成模型输出的所述第二虚拟图像，并将所述第二虚拟图像输入至所述第一初始生成模型，得到所述第一初始模型输出的第二还原图像；

将所述第一样本图像输入至所述第二初始生成模型，得到所述第二初始生成模型输出的第三虚拟图像，以及将所述第二样本图像输入至所述第一初始生成模型，得到所述第一初始生成模型输出的第四虚拟图像；

将所述第一样本图像以及所述第二虚拟图像输入至所述第一图像判别模型的第一初始判别模型，得到所述第一初始判别模型输出的第一分类结果，以及将所述第二样本图像以及所述第一虚拟图像输入至所述第二图像判别模型的第二初始判别模型，得到所述第二初始判别模型输出的第二分类结果；

基于所述第一样本图像、所述第二样本图像、所述第一虚拟图像以及所述第二虚拟图像，确定所述特征一致性的损失值，以及基于所述第一样本图像、所述第二样本图像、所述第一虚拟图像、所述第二虚拟图像、所述第三虚拟图像、所述第四虚拟图像、所述第一还原图像、所述第二还原图像、所述第一分类结果以及所述第二分类结果，确定所述循环对抗训练的损失值；

基于所述特征一致性的损失值，以及所述循环对抗训练的损失值进行训练，得到所述第一图像生成模型。

根据本发明提供的一种图像生成方法，所述目标特征是基于如下步骤确定的：

基于图像中各像素区域的邻域像素，确定各像素区域的二值化阈值；

基于各像素区域的二值化阈值，对所述图像的各像素区域进行二值化处理，得到所述图像的二值化图；

基于所述二值化图，确定所述图像中包含的目标特征；所述图像为所述第一样本图像、所述第二样本图像、所述第一虚拟图像以及所述第二虚拟图像中的至少一种。

根据本发明提供的一种图像生成方法，所述原始图像输入至第一图像生成模型，得到所述第一图像生成模型输出的虚拟图像，包括：

将所述原始图像的初始特征输入至所述第一图像生成模型的编码层，得到所述编码层输出的图像特征；

将所述初始特征和所述图像特征输入至所述第一图像生成模型的残差注意力层，由所述残差注意力层对所述图像特征进行注意力转换，并将注意力转换所得的图像注意力特征与所述初始特征进行融合，得到所述残差注意力层输出的所述原始图像的编码特征；

将所述原始图像的编码特征输入至所述第一图像生成模型的解码层，得到所述解码层输出的所述虚拟图像。

根据本发明提供的一种图像生成方法，所述将所述初始特征和所述图像特征输入至所述第一图像生成模型的残差注意力层，由所述残差注意力层对所述图像特征进行注意力转换，并将注意力转换所得的图像注意力特征与所述初始特征进行融合，得到所述残差注意力层输出的所述原始图像的编码特征，包括：

将所述原始图像的上一编码特征和所述初始特征输入至所述残差注意力层的当前残差模块，由所述当前残差模块对所述上一编码特征进行注意力转换，并将注意力转换所得的当前图像注意力特征与所述初始特征进行融合，得到所述当前残差模块输出的所述原始图像的当前编码特征，并将所述当前编码特征作为所述残差注意力层的下一残差模块的上一编码特征；所述残差注意力层的首个残差模块输入的上一编码特征为所述图像特征，所述残差注意力层的最后一个残差模块输出的当前编码特征为所述原始图像的编码特征。

根据本发明提供的一种图像生成方法，所述注意力转换包括通道注意力转换和/或空间注意力转换。

本发明还提供一种图像生成装置，包括：

图像确定单元，用于确定原始图像；

图像生成单元，用于将所述原始图像输入至第一图像生成模型，得到所述第一图像生成模型输出的虚拟图像；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述图像生成方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述图像生成方法的步骤。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述图像生成方法的步骤。

本发明提供的图像生成方法、装置、电子设备和存储介质，通过基于以特征一致性为约束进行循环对抗训练得到的第一图像生成模型，准确生成包含有原始图像目标特征的虚拟图像，避免基于传统方法生成的虚拟图像易产生特征变形的问题。此外，第一图像生成模型是基于第一样本图像和第二样本图像训练得到的，避免传统方法中需要成对样本数据进行训练导致增加样本采集难度和采集成本的问题。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的图像生成方法的流程示意图；

图2是本发明提供的第一图像生成模型训练方法的流程示意图之一；

图3是本发明提供的第一图像生成模型训练方法的流程示意图之二；

图4是本发明提供的目标特征获取方法的流程示意图；

图5是本发明提供的图像生成方法中步骤120的流程示意图；

图6是本发明提供的第一图像生成模型的结构示意图；

图7是本发明提供的图像生成方法中步骤122的流程示意图；

图8是本发明提供的残差注意力层的结构示意图；

图9是本发明提供的图像生成装置的结构示意图；

图10是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在某些特定场景下，用于训练深度学习模型的样本图像较为稀少，例如对于车牌识别模型而言，需要采集大量的车牌样本图像用于车牌识别模型的训练，但由于车牌种类、地域差异、自然条件等影响，导致获取足量的车牌样本图像存在困难。

目前，生成用于训练的样本图像的方式多是将原始图像输入至训练完成的生成对抗网络，以生成样本图像，但该网络需要成对的样本数据进行训练，如需要成对的真样本数据和假样本数据进行训练，且真样本数据和假样本数据的风格相同，从而增加了样本数据的获取难度；同时，该网络无法准确将原始图像的关键信息准确迁移至生成的样本图像，如相较于原始图像，样本图像中的字体特征发生形变，从而导致生成的样本图像质量较差。

对此，本发明提供一种图像生成方法。图1是本发明提供的图像生成方法的流程示意图，如图1所示，该方法包括如下步骤：

步骤110、确定原始图像；

步骤120、将原始图像输入至第一图像生成模型，得到第一图像生成模型输出的虚拟图像；

第一图像生成模型以特征一致性为约束，结合第二图像生成模型、第一图像判别模型和第二图像判别模型，循环对抗训练得到；

特征一致性包括第一样本图像与第一虚拟图像中包含的目标特征的一致性，以及第二样本图像与第二虚拟图像中包含的目标特征的一致性，第一虚拟图像是第一图像生成模型对应的第一初始生成模型基于第一样本图像确定的，第二虚拟图像是第二图像生成模型对应的第二初始生成模型基于第二样本图像确定的。

具体地，原始图像指用于生成虚拟图像的图像，原始图像可以为实际拍摄所得的真图像，也可以为预先合成的虚拟图像，即假图像，本发明实施例对此不作具体限定，且无论原始图像的真假，在对原始图像进行图像生成时，用于生成虚拟图像的第一图像生成模型所执行的操作是一致的。例如，若原始图像为真图像，则第一图像生成模型输出的虚拟图像为假图像，即实现图像数据增强；若原始图像为假图像，则第一图像生成模型输出的虚拟图像为近似真图像的假图像，即实现图像数据还原。

其中，第一图像生成模型，结合第二图像生成模型、第一图像判别模型和第二图像判别模型，循环对抗训练得到，即可以理解为第一图像生成模型是与第二图像生成模型、第一图像判别模型和第二图像判别模型构成循环一致性生成对抗网络(CycleGAN)，进行训练得到的。

在此基础上，考虑到传统的CycleGAN在应用于图像生成时，所生成的图像相较于原始图像易产生形变，且训练传统的CycleGAN时需要成对的样本图像进行训练，导致样本图像采集难度较高，区别于传统的CycleGAN，本发明实施例中的第一图像生成模型是以特征一致性为约束进行循环对抗训练的，即在循环对抗训练过程中结合特征一致性的损失，来更新模型的参数。其中，特征一致性包括第一样本图像与第一虚拟图像中包含的目标特征的一致性，以及第二样本图像与第二虚拟图像中包含的目标特征的一致性。需要说明的是，第一虚拟图像是第一图像生成模型对应的第一初始生成模型基于第一样本图像确定的，第二虚拟图像是第二图像生成模型对应的第二初始生成模型基于第二样本图像确定的。

目标特征可以是图像中包含目标的特征，如对于车牌图像，其目标特征为车牌号对应的特征；又如对于待进行人脸识别的图像，其目标特征为人脸对应的特征。此处，第一样本图像与第一虚拟图像中包含的目标特征的一致性用于表征第一样本图像中包含的目标特征与第一虚拟图像中包含的目标特征的相似程度，相似程度越高，表明第一样本图像与第一虚拟图像中包含的目标特征的一致性程度越高，即表明第一图像生成模型将第一样本图像的目标特征迁移至第一虚拟图像的准确度越高。同理，第二样本图像与第二虚拟图像中包含的目标特征的一致性用于表征第二样本图像中包含的目标特征与第二虚拟图像中包含的目标特征的相似程度，相似程度越高，表明第二样本图像与第二虚拟图像中包含的目标特征的一致性程度越高，即表明第二图像生成模型将第二样本图像的目标特征迁移至第二虚拟图像的准确度越高。

由此可见，本发明实施例中的第一图像生成模型以特征一致性为约束，结合第二图像生成模型、第一图像判别模型和第二图像判别模型，进行循环对抗训练，从而可以使得第一图像生成模型能够准确将原始图像中的目标特征迁移至虚拟图像，即虚拟图像中包含的目标特征与原始图像中包含的目标特征一致，相较于传统的CycleGAN，本发明实施例能够进一步准确生成包含有原始图像目标特征的虚拟图像，避免基于传统的CycleGAN生成的虚拟图像易产生特征变形的问题。

需要说明的是，第一样本图像和第二样本图像作为上述循环对抗训练的训练集，第一样本图像和第二样本图像中的“第一”、“第二”仅用于区分是输入至第一图像生成模型的样本图像，还是输入至第二图像生成模型的样本图像，第一样本图像和第二样本图像可以是相同的样本图像，也可以是不同的样本图像，即第一样本图像和第二样本图像可以具有相同或者不同的风格，不需要像传统的CycleGAN中需要采集成对的样本数据(如真样本数据和与真样本数据风格对应的假样本数据)进行训练，大幅度降低了样本数据的采集难度和人工成本。

另外，在执行步骤120之前，还可以预先训练得到第一图像生成模型，具体可通过如下方式训练得到第一图像生成模型：首先，收集大量第一样本图像和第二样本图像。随即，采用第一样本图像和第二样本图像对第一初始生成模型、第二初始生成模型、第一初始判别模型以及第二初始判别模型进行特征一致性约束下的循环对抗训练，从而得到第一图像生成模型。需要说明的是。

本发明实施例提供的图像生成方法，通过基于以特征一致性为约束进行循环对抗训练得到的第一图像生成模型，准确生成包含有原始图像目标特征的虚拟图像，避免基于传统方法生成的虚拟图像易产生特征变形的问题。此外，第一图像生成模型是基于第一样本图像和第二样本图像训练得到的，避免传统方法中需要成对样本数据进行训练导致增加样本采集难度和采集成本的问题。

基于上述实施例，循环对抗训练的损失函数是基于特征一致性损失函数和循环对抗损失函数确定的；

特征一致性损失函数用于表征特征一致性的损失值；

循环对抗损失函数用于表征第一图像生成模型、第二图像生成模型、第一图像判别模型和第二图像判别模型进行循环对抗训练的损失值。

具体地，特征一致性损失函数用于表征特征一致性的损失值，即表征第一样本图像中包含的目标特征与第一虚拟图像中包含的目标特征的相似程度，以及第二样本图像中包含的目标特征与第二虚拟图像中包含的目标特征的相似程度。特征一致性的损失值越小，表明上述相似程度越高，即第一样本图像与第一虚拟图像中包含的目标特征的一致性程度越高，以及第二样本图像与第二虚拟图像中包含的目标特征的一致性程度越高，第一图像生成模型和第二图像生成模型将样本图像中的目标特征迁移至虚拟图像中的能力越强，后续应用时生成的虚拟图像发生特征形变的几率越小。

由此构建的特征一致性损失函数，用于实现第一样本图像和第一虚拟图像中包含的目标特征一致性的最大化，以及第二样本图像和第二虚拟图像中包含的目标特征一致性的最大化，使得模型在训练过程中能够尽量多地学习第一样本图像的目标特征，以及第二样本图像的目标特征，从而训练得到的第一图像生成模型所输出的虚拟图像能够充分保留原始图像中的目标特征信息。

此外，循环对抗损失函数用于表征第一图像生成模型、第二图像生成模型、第一图像判别模型和第二图像判别模型进行循环对抗训练的损失值，循环对抗损失函数具体可以包括Identity Loss、Cycle Loss、GANLoss中的至少一种，其中Identity Loss用于表示第一样本图像和第三虚拟图像之间整个图像的一致性，以及第二样本图像与第四虚拟图像之间整个图像的一致性，Cycle Loss用于表示第一样本图像与第一还原图像之间整个图像的一致性，以及第二样本图像与第二还原图像之间整个图像的一致性，GAN Loss用于表示第一样本图像与第二虚拟图像，以及第二样本图像与第一虚拟图像之间的分类误差。

基于特征一致性损失函数和循环对抗损失函数构建循环对抗训练的损失函数，可以是直接将特征一致性的损失值和循环对抗训练的损失值相加，也可以是对此两者进行加权求和等，本发明实施例对此不作具体限定。由此所得的循环对抗训练的损失函数，不仅涵盖了循环对抗训练本身的可以采用风格相同或不同的样本对图像训练得到效果较好的第一图像生成模型，还考虑了特征一致性的损失值，从而使得训练得到的第一图像生成模型所输出的虚拟图像能够充分保留原始图像中的目标特征信息。

基于上述任一实施例，图2是本发明提供的第一图像生成模型训练方法的流程示意图，如图2所示，第一图像生成模型是基于如下步骤训练得到的：

步骤210、将第一样本图像输入至第一初始生成模型，得到第一初始生成模型输出的第一虚拟图像，并将第一虚拟图像输入至第二初始生成模型，得到第二初始模型输出的第一还原图像；

步骤220、将第二样本图像输入至第二初始生成模型，得到第二初始生成模型输出的第二虚拟图像，并将第二虚拟图像输入至第一初始生成模型，得到第一初始模型输出的第二还原图像；

步骤230、将第一样本图像输入至第二初始生成模型，得到第二初始生成模型输出的第三虚拟图像，以及将第二样本图像输入至第一初始生成模型，得到第一初始生成模型输出的第四虚拟图像；

步骤240、将第一样本图像以及第二虚拟图像输入至第一图像判别模型的第一初始判别模型，得到第一初始判别模型输出的第一分类结果，以及将第二样本图像以及第一虚拟图像输入至第二图像判别模型的第二初始判别模型，得到第二初始判别模型输出的第二分类结果；

步骤250、基于第一样本图像、第二样本图像、第一虚拟图像以及第二虚拟图像，确定特征一致性的损失值，以及基于第一样本图像、第二样本图像、第一虚拟图像、第二虚拟图像、第三虚拟图像、第四虚拟图像、第一还原图像、第二还原图像、第一分类结果以及第二分类结果，确定循环对抗训练的损失值；

步骤260、基于特征一致性的损失值，以及循环对抗训练的损失值进行训练，得到第一图像生成模型。

具体地，第一图像生成模型，结合第二图像生成模型、第一图像判别模型以及第二图像判别模型进行循环对抗训练，训练过程具体如图3所示，采用第一样本图像(A)和第二样本图像(B)，对第一初始生成模型(G)、第二初始生成模型(F)、第一初始判别模型(X)以及第二初始判别模型(Y)进行循环对抗训练，其中虚线部分的箭头表示基于循环对抗训练的损失函数值进行训练的流程，实线部分的箭头表示基于特征一致性损失函数进行训练的流程，循环对抗训练具体包括：

将第一样本图像(A)输入至第一初始生成模型(G)，得到第一虚拟图像(fakeB)，并将第一虚拟图像(fakeB)输入至第二初始生成模型(F)，得到第一还原图像(recovA)。将第二样本图像(B)输入至第二初始生成模型(F)，得到第二虚拟图像(fakeA)，并将第二虚拟图像(fakeA)输入至第一初始生成模型(G)，得到第二还原图像(recovB)。基于第一样本图像(A)与第一还原图像(recovA)，以及第二样本图像(B)与第二还原图像(recovB)，可以确定Cycle Loss。

将第一样本图像(A)输入至第二初始生成模型(F)，得到第三虚拟图像(A^—)，以及将第二样本图像(B)输入至第一初始生成模型(G)，得到第四虚拟图像(B^—)。基于第一样本图像(A)与第三虚拟图像(A^—)，以及第二样本图像(B)与第四虚拟图像(B^—)，可以确定Identity Loss。

将第一样本图像(A)以及第二虚拟图像(fakeA)输入至第一图像判别模型的第一初始判别模型(X)，得到第一分类结果，以及将第二样本图像(B)以及第一虚拟图像(fakeB)输入至第二图像判别模型的第二初始判别模型(Y)，得到第二分类结果。基于第一分类结果，以及第二分类结果，可以确定GAN Loss。

基于第一样本图像(A)、第二样本图像(B)、第一虚拟图像(fakeB)以及第二虚拟图像(fakeA)，可以确定特征一致性的损失值(

和

)。

其中，Identity Loss、Cycle Loss和GAN Loss构成循环对抗训练的损失值，基于特征一致性的损失值以及循环对抗训练的损失值进行循环对抗训练，得到第一图像生成模型。

由此可见，在第一图像生成模型的训练过程中采用了特征一致性的损失值和循环对抗训练的损失值进行训练，使得模型在训练过程中能够尽量多地学习第一样本图像的目标特征，以及第二样本图像的目标特征，从而训练得到的第一图像生成模型所输出的虚拟图像能够充分保留原始图像中的目标特征信息。

基于上述任一实施例，第一样本图像、第二样本图像、第一虚拟图像以及第二虚拟图像中可能存在背景干扰、不均匀光照等噪声，而噪声会影响上述图像中目标特征在计算特征一致性的损失值中所占的权重。对此，本发明实施例提供一种目标特征的获取方法。图4是本发明提供的目标特征获取方法的流程示意图，如图4所示，目标特征是基于如下步骤确定的：

步骤410、基于图像中各像素区域的邻域像素，确定各像素区域的二值化阈值；

步骤420、基于各像素区域的二值化阈值，对图像的各像素区域进行二值化处理，得到图像的二值化图；

步骤430、基于二值化图，确定图像中包含的目标特征；图像为第一样本图像、第二样本图像、第一虚拟图像以及第二虚拟图像中的至少一种。

具体地，因此，为了能够精确计算特征一致性的损失值，进而使得最终训练得到的第一图像生成模型输出的虚拟图像能够精准保留原始图像中的目标特征信息，本发明实施例采用局部自适应阈值对图像进行二值化处理，使得得到的图像去除了目标特征外的信息干扰(如对于车牌图像可以去除背景信息的干扰，增大车牌字体特征信息在计算特征一致性的损失值时的权重)，进而能够基于二值化处理后的图像准确提取目标特征。

需要说明的是，由于图像中每个像素位置处的二值化阈值不是固定不变的，而是由其周围邻域像素的分布来决定的。亮度较高的图像区域的二值化阈值通常会较高，而亮度较低的图像区域的二值化阈值则会相适应地变小。因此，本发明实施例基于图像中各像素区域的邻域像素，确定各像素区域的二值化阈值，其中，图像的各像素区域可以根据预设规则对图像进行区域划分得到，各像素区域的邻域像素是指各像素区域相邻区域对应的像素值。然后基于各像素区域的二值化阈值，对图像的各像素区域进行二值化处理，得到图像的二值化图，从而能够基于二值化图精准确定图像中包含的目标特征。

基于上述任一实施例，特征一致性损失函数

和

可以表示为如下形式：

式中，fakeB_{Adaptive_binarizaion}表示二值化处理后的第一虚拟图像，A_{Adaptive_binarizaion}表示二值化处理后的第一样本图像，fakeA_{Adaptive_binarizaion}表示二值化处理后的第二虚拟图像，B_{Adaptive_binarizaion}表示二值化处理后的第二样本图像。

是指第一样本图像与第一虚拟图像中包含目标特征的一致性，

是指第二样本图像与第二虚拟图像中包含目标特征的一致性。

基于上述任一实施例，图5是本发明提供的图像生成方法中步骤120的流程示意图，如图5所示，步骤120包括：

步骤121、将原始图像的初始特征输入至第一图像生成模型的编码层，得到编码层输出的图像特征；

步骤122、将初始特征和图像特征输入至第一图像生成模型的残差注意力层，由残差注意力层对图像特征进行注意力转换，并将注意力转换所得的图像注意力特征与初始特征进行融合，得到残差注意力层输出的原始图像的编码特征；

步骤123、将原始图像的编码特征输入至第一图像生成模型的解码层，得到解码层输出的虚拟图像。

具体地，编码层用于将原始图像的初始特征进行映射，得到高维空间张量的图像特征。然后将图像特征和初始特征输入至残差注意力层，由残差注意力层对图像特征进行注意力变换，并将注意力转换所得的图像注意力特征与初始特征进行融合，得到原始图像的编码特征。其中，初始特征可以是对原始图像进行特征提取后得到的特征，也可以是原始图像本身。

由于残差注意力层结合有残差学习与注意力机制，从而能够使得第一图像生成模型在进行残差学习时能够关注编码特征的学习，进而能够进一步精准提取原始图像的编码特征。在得到原始图像的编码特征后，由解码层进行解码得到虚拟图像，从而使得虚拟图像中能够充分保留原始图像中的编码特征信息。

例如，如图6所示，第一图像生成模型中的编码层可以是由一系列的卷积层－Batchnorm层－Relu激活层堆叠而成，用于进行特征提取；解码层可以是由一系列的反卷积－Batchnorm层－Relu激活层堆叠而成，用于进行特征解码。在编码层和解码层中间包含了残差注意力层，该残差注意力层可以包括一个或者多个残差模块，每个残差模块均可以起到注意力转换和残差特征融合的作用。在编码层提取图像特征的过程中，通道的变化可以是3—>32—>64—>128—>256，在此过程中可以把卷积的步长设置为2来实现降采样的过程，从而可以使模型自行学习空间下采样。残差模块中的通道数维持256不变，解码层的通道数的变化可以是256—>128—>64—>32，卷积的步长为2实现上采样的过程。在上采样完成之后，堆叠有卷积层，该卷积层的核大小可以为7，步长可以为1，并在卷积层后添加了激活层。该激活层采用Tanh激活函数将输出控制在[1，1]的范围内。同时一个“快捷”连接结构添加在了初始特征和激活层之间。由于Tanh激活函数能够将输出控制在[1，1]的范围内，而且在提取的特征相差明显时，Tanh激活函数能够达到更好的效果，同时Tanh激活函数是中心对称且均值为0，可以使得模型收敛速度更快。

基于上述任一实施例，步骤122包括：

将原始图像的上一编码特征和初始特征输入至残差注意力层的当前残差模块，由当前残差模块对上一编码特征进行注意力转换，并将注意力转换所得的当前图像注意力特征与初始特征进行融合，得到当前残差模块输出的原始图像的当前编码特征，并将当前编码特征作为残差注意力层的下一残差模块的上一编码特征；残差注意力层的首个残差模块输入的上一编码特征为图像特征，残差注意力层的最后一个残差模块输出的当前编码特征为原始图像的编码特征。

具体地，残差注意力层可以包括多个残差模块，在编码层输出图像特征后，该图像特征作为首个残差模块的上一编码特征，与初始特征输入当前残差模块，由当前残差模块对上一编码特征进行注意力转换，并将注意力转换所得的当前图像注意力特征与初始特征进行融合，得到当前残差模块输出的原始图像的当前编码特征，并将当前编码特征作为残差注意力层的下一残差模块的上一编码特征，直至以最后一个残差模块输出的当前编码特征作为原始图像的编码特征。

本发明实施例的残差注意力层结合有残差学习与注意力机制，从而能够使得第一图像生成模型在进行残差学习时能够关注编码特征的学习，进而能够进一步精准提取原始图像的编码特征，其中多个残差模块的级联，有助于进一步提高特征提取的可靠性。

基于上述任一实施例，注意力转换包括通道注意力转换和空间注意力转换。在具体执行通道注意力转换和空间注意力转换时，可以先执行通道注意力转换再执行空间注意力转换，也可以先执行空间注意力转换再执行通道注意力转换，还可以并行执行通道注意力转换和空间注意力转换，并将两个注意力转换所得的结果进行融合。

其中，通道注意力变换主要关注特征本身的信息，空间注意力变换主要关注特征的空间信息，从而使得最终生成的虚拟图像能够精准包含原始图像的目标特征信息以及能够适应不同的场景。

例如，图7是本发明提供的图像生成方法中步骤122的流程示意图，如图7所示，步骤122包括：

步骤1221、将图像特征输入至残差注意力层的编码子层，得到编码子层输出的子编码特征；

步骤1222、将子编码特征和初始特征输入至残差注意力层的通道注意力层，由通道注意力层对子编码特征进行通道注意力转换，并将通道注意力转换所得的通道注意力特征与初始特征进行融合，得到通道注意力层输出的初始编码特征；

步骤1223、将初始编码特征和初始特征输入至残差注意力层的空间注意力层，由空间注意力层对初始编码特征进行空间注意力转换，并将空间注意力转换所得的空间注意力特征与初始特征进行融合，得到空间注意力层输出的编码特征。

具体地，在编码层提取得到原始图像对应的图像特征之后，将图像特征输入至编码子层，得到编码特征。然后将编码特征和初始特征输入至残差注意力层的通道注意力层，由通道注意力层对编码特征进行通道注意力转换后，将通道注意力转换所得的通道注意力特征与初始特征进行融合，准确得到初始编码特征。

在得到初始编码特征之后，将初始编码特征和初始特征输入至残差注意力层的空间注意力层，由空间注意力层对通道注意力特征进行空间注意力转换后，将空间注意力转换所得的空间注意力特征与初始特征进行融合，得到编码特征。

由此可见，本发明实施例采用通道注意力转换和空间注意力转换提取编码特征，不仅能够关注特征的本身信息，而且能够关注特征的空间信息，从而使得最终生成的虚拟图像能够精准包含原始图像的目标特征信息以及能够适应不同的场景。

图8是本发明提供的残差注意力层的结构示意图，如图8所示，残差注意力层将通道注意力层(Channel Attention)和空间注意力层(Spatial Attention)嵌入到了编码子层和输出的编码特征之间。其中，编码子层依次由Conv-BN-Rule编码块，Dropout层(丢失率可设置为0.5)和Conv-BN编码层构成，所有卷积层参数都可以是卷积核大小为3，步长为1。同时一个“快捷”连接添加在了初始特征和编码特征之间。其中，通道注意力层(ChannelAttention)注重关注于特征本身，用于提取初始目标特征；空间注意力层(SpatialAttention)在通道注意力层(Channel Attention)得到初始编码特征的基础上，进一步关注编码特征的空间信息。

基于上述任一实施例，本发明还提供一种图像生成方法，该方法包括如下步骤：

将原始图像输入至第一图像生成模型中，得到第一图像生成模型输出的虚拟图像。其中，第一图像生成模型与第二图像生成模型、第一图像判别模型和第二图像判别模型构成循环生成对抗网络，该网络对应的损失函数包括循环对抗损失函数(Identity Loss、Cycle Loss和GAN Loss)以及特征一致性损失函数。

其中，特征一致性损失函数是基于局部自适应二值化处理后的第一样本图像、第二样本图像、第一虚拟图像以及第二虚拟图像确定的，特征一致性损失函数用于实现第一样本图像和第一虚拟图像中包含的目标特征一致性的最大化，以及第二样本图像和第二虚拟图像中包含的目标特征一致性的最大化，使得模型在训练过程中能够尽量多地学习第一样本图像的目标特征，以及第二样本图像的目标特征，从而训练得到的第一图像生成模型所输出的虚拟图像能够充分保留原始图像中的目标特征信息。

此外，第一图像生成模型包含有残差注意力层，该残差注意力层结合有残差学习与注意力机制(通道注意力变换和空间注意力变换)，从而能够使得第一图像生成模型在进行残差学习时能够关注目标特征的学习，进而能够进一步精准提取原始图像的目标特征。在得到原始图像的目标特征后，由解码层进行解码得到虚拟图像，从而使得虚拟图像中能够充分保留原始图像中的目标特征信息。

下面对本发明提供的图像生成装置进行描述，下文描述的图像生成装置与上文描述的图像生成方法可相互对应参照。

基于上述任一实施例，本发明提供一种图像生成装置，如图9所示，该装置包括：

图像确定单元910，用于确定原始图像；

图像生成单元920，用于将所述原始图像输入至第一图像生成模型，得到所述第一图像生成模型输出的虚拟图像；

基于上述任一实施例，所述循环对抗训练的损失函数是基于特征一致性损失函数和循环对抗损失函数确定的；

基于上述任一实施例，所述装置还包括：

第一训练单元，用于将所述第一样本图像输入至所述第一初始生成模型，得到所述第一初始生成模型输出的所述第一虚拟图像，并将所述第一虚拟图像输入至所述第二初始生成模型，得到所述第二初始模型输出的第一还原图像；

第二训练单元，用于将所述第二样本图像输入至所述第二初始生成模型，得到所述第二初始生成模型输出的所述第二虚拟图像，并将所述第二虚拟图像输入至所述第一初始生成模型，得到所述第一初始模型输出的第二还原图像；

第三训练单元，用于将所述第一样本图像输入至所述第二初始生成模型，得到所述第二初始生成模型输出的第三虚拟图像，以及将所述第二样本图像输入至所述第一初始生成模型，得到所述第一初始生成模型输出的第四虚拟图像；

第四训练单元，用于将所述第一样本图像以及所述第二虚拟图像输入至所述第一图像判别模型的第一初始判别模型，得到所述第一初始判别模型输出的第一分类结果，以及将所述第二样本图像以及所述第一虚拟图像输入至所述第二图像判别模型的第二初始判别模型，得到所述第二初始判别模型输出的第二分类结果；

第五训练单元，用于基于所述第一样本图像、所述第二样本图像、所述第一虚拟图像以及所述第二虚拟图像，确定所述特征一致性的损失值，以及基于所述第一样本图像、所述第二样本图像、所述第一虚拟图像、所述第二虚拟图像、所述第三虚拟图像、所述第四虚拟图像、所述第一还原图像、所述第二还原图像、所述第一分类结果以及所述第二分类结果，确定所述循环对抗训练的损失值；

第六训练单元，用于基于所述特征一致性的损失值，以及所述循环对抗训练的损失值进行训练，得到所述第一图像生成模型。

基于上述任一实施例，所述装置还包括：

阈值确定单元，用于基于图像中各像素区域的邻域像素，确定各像素区域的二值化阈值；

图像处理单元，用于基于各像素区域的二值化阈值，对所述图像的各像素区域进行二值化处理，得到所述图像的二值化图；

特征提取单元，用于基于所述二值化图，确定所述图像中包含的目标特征；所述图像为所述第一样本图像、所述第二样本图像、所述第一虚拟图像以及所述第二虚拟图像中的至少一种。

基于上述任一实施例，所述图像生成单元920，包括：

第一编码单元，用于将所述原始图像的初始特征输入至所述第一图像生成模型的编码层，得到所述编码层输出的图像特征；

残差注意力单元，用于将所述初始特征和所述图像特征输入至所述第一图像生成模型的残差注意力层，由所述残差注意力层对所述图像特征进行注意力转换，并将注意力转换所得的图像注意力特征与所述初始特征进行融合，得到所述残差注意力层输出的所述原始图像的编码特征；

解码单元，用于将所述原始图像的编码特征输入至所述第一图像生成模型的解码层，得到所述解码层输出的所述虚拟图像。

基于上述任一实施例，所述残差注意力单元，用于：

基于上述任一实施例，所述注意力转换包括通道注意力转换和/或空间注意力转换。

图10是本发明提供的电子设备的结构示意图，如图10所示，该电子设备可以包括：处理器(processor)1010、存储器(memory)1020、通信接口(CommunicationsInterface)1030和通信总线1040，其中，处理器1010，存储器1020，通信接口1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1020中的逻辑指令，以执行图像生成方法，该方法包括：确定原始图像；将所述原始图像输入至第一图像生成模型，得到所述第一图像生成模型输出的虚拟图像；所述第一图像生成模型以特征一致性为约束，结合第二图像生成模型、第一图像判别模型和第二图像判别模型，循环对抗训练得到；所述特征一致性包括第一样本图像与第一虚拟图像中包含的目标特征的一致性，以及第二样本图像与第二虚拟图像中包含的目标特征的一致性，所述第一虚拟图像是所述第一图像生成模型对应的第一初始生成模型基于所述第一样本图像确定的，所述第二虚拟图像是所述第二图像生成模型对应的第二初始生成模型基于所述第二样本图像确定的。

此外，上述的存储器1020中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的图像生成方法，该方法包括：确定原始图像；将所述原始图像输入至第一图像生成模型，得到所述第一图像生成模型输出的虚拟图像；所述第一图像生成模型以特征一致性为约束，结合第二图像生成模型、第一图像判别模型和第二图像判别模型，循环对抗训练得到；所述特征一致性包括第一样本图像与第一虚拟图像中包含的目标特征的一致性，以及第二样本图像与第二虚拟图像中包含的目标特征的一致性，所述第一虚拟图像是所述第一图像生成模型对应的第一初始生成模型基于所述第一样本图像确定的，所述第二虚拟图像是所述第二图像生成模型对应的第二初始生成模型基于所述第二样本图像确定的。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的图像生成方法，该方法包括：确定原始图像；将所述原始图像输入至第一图像生成模型，得到所述第一图像生成模型输出的虚拟图像；所述第一图像生成模型以特征一致性为约束，结合第二图像生成模型、第一图像判别模型和第二图像判别模型，循环对抗训练得到；所述特征一致性包括第一样本图像与第一虚拟图像中包含的目标特征的一致性，以及第二样本图像与第二虚拟图像中包含的目标特征的一致性，所述第一虚拟图像是所述第一图像生成模型对应的第一初始生成模型基于所述第一样本图像确定的，所述第二虚拟图像是所述第二图像生成模型对应的第二初始生成模型基于所述第二样本图像确定的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种图像生成方法，其特征在于，包括：

确定原始图像；

2.根据权利要求1所述的图像生成方法，其特征在于，所述循环对抗训练的损失函数是基于特征一致性损失函数和循环对抗损失函数确定的；

3.根据权利要求2所述的图像生成方法，其特征在于，所述第一图像生成模型是基于如下步骤训练得到的：

4.根据权利要求1至3任一项所述的图像生成方法，其特征在于，所述目标特征是基于如下步骤确定的：

5.根据权利要求1所述的图像生成方法，其特征在于，所述将所述原始图像输入至第一图像生成模型，得到所述第一图像生成模型输出的虚拟图像，包括：

6.根据权利要求5所述的图像生成方法，其特征在于，所述将所述初始特征和所述图像特征输入至所述第一图像生成模型的残差注意力层，由所述残差注意力层对所述图像特征进行注意力转换，并将注意力转换所得的图像注意力特征与所述初始特征进行融合，得到所述残差注意力层输出的所述原始图像的编码特征，包括：

将所述原始图像的上一编码特征和所述初始特征输入至所述残差注意力层的当前残差模块，由所述当前残差模块对所述上一编码特征进行注意力转换，并将注意力转换所得的当前图像注意力特征与所述初始特征进行融合，得到所述当前残差模块输出的所述原始图像的当前编码特征，并将所述当前编码特征作为所述残差注意力层的下一残差模块的上一编码特征；

所述残差注意力层的首个残差模块输入的上一编码特征为所述图像特征，所述残差注意力层的最后一个残差模块输出的当前编码特征为所述原始图像的编码特征。

7.根据权利要求5或6所述的图像生成方法，其特征在于，所述注意力转换包括通道注意力转换和/或空间注意力转换。

8.一种图像生成装置，其特征在于，包括：

图像确定单元，用于确定原始图像；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述图像生成方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述图像生成方法的步骤。