CN111899203A

CN111899203A - 基于标注图在无监督训练下的真实图像生成方法及存储介质

Info

Publication number: CN111899203A
Application number: CN202010661461.9A
Authority: CN
Inventors: 高联丽; 朱俊臣; 宋井宽
Original assignee: University of Electronic Science and Technology of China; Guizhou University
Current assignee: University of Electronic Science and Technology of China; Guizhou University
Priority date: 2020-07-10
Filing date: 2020-07-10
Publication date: 2020-11-06
Anticipated expiration: 2040-07-10
Also published as: CN111899203B

Abstract

本发明公开了一种基于标注图在无监督训练下的真实图像生成方法及存储介质，该方法包括将标注图输入生成器生成3张不同尺寸的输出图像；采用分级视觉感知判别器得到6个判别结果；将判别结果采用对抗损失函数转化为对抗损失；生成模糊图片，之后计算模糊图片输入分级视觉感知判别器得到的判别结果的对抗损失；将输出图像进行相邻两两分组后，输入VGG19网络中，之后计算图像一致损失；将输出图片输入到三个不共享参数的语义分割网络ICNet中，计算返还分割损失；采集四个损失值得到的最终损失对整个网络进行优化，并在网络未收敛时返回第一步，收敛时将优化后的生成器作为图像生成模型；采用图像生成模型将输入的标注图生成真实图像。

Description

基于标注图在无监督训练下的真实图像生成方法及存储介质

技术领域

本发明涉及图像处理方法，具体涉及一种基于标注图在无监督训练下的真实图像生成方法及存储介质。

背景技术

随着深度神经网络的发展，图像分类、图像分割和图像目标检测等技术已经相对较为成熟并得到了广泛的应用。但是，图像生成相关的技术由于其面对高质量高分辨率要求时效果较差，且模型训练和使用时不稳定，而未得到广泛的应用支持。其中基于标注图像的真实图像生成是功能性最强的方向之一，它利用用户给出的标注图，可以是语义标注图，也可以是手绘的近似轮廓图，生成对应的真实图像。由于生成的真实图像具有现实且丰富的内容，而生成源作为标注图和生成结果有语义及边界轮廓上的对应关系，因此该方向的研究有助于实现计算机视觉中的其他高级任务，如图像分割，也可以直接用于现实的应用程序。

目前来说，已有的应用于基于标注图像的真实图像生成方法主要有以下几个方面的缺陷：1)现有模型在向更高分辨率的图片生成拓展时效果会急剧下降；2)现有模型无法做到生成质量与生成效率的良好平衡；3)现有架构大多为通用性模型，针对的是广泛的图像转换生成型任务，没有充分考虑到该任务下的某些具体特性；4)现有效果相对较好的模型都需要成对的数据进行完全监督式训练，成本相对较高。

发明内容

针对现有技术中的上述不足，本发明提供的基于标注图在无监督训练下的真实图像生成方法及存储介质通过输出的多个判别结果结合多个损失函数，解决了现有算法中运行不稳定的问题。

为了达到上述发明目的，本发明采用的技术方案为：

第一方面，提供一种基于标注图在无监督训练下的真实图像生成方法，其包括：

S1、抽取数据集中一张真实图片和一张标注图，并将标注图输入生成器生成3张不同尺寸的输出图像；

S2、将真实图片缩小为三张与输出图像尺寸对应的缩放图，并将三组缩放图和对应的输出图像分别输入三个不共享参数的分级视觉感知判别器得到6个判别结果；

S3、将所有的判别结果采用对抗损失函数转化为对抗损失；

S4、采用三张缩放图缩小并放大至原始尺寸形成的模糊图片更新输出图像，之后执行步骤S2和步骤S3，之后进入步骤S5；

S5、将步骤S1的三张输出图像进行相邻两两分组，将两组中大尺寸降采样至等于小尺寸后，同时将两组输入在ImageNet数据集上预训练好的VGG19网络中，取其中五层输出进行二范数求距离并归一化得到图像一致损失；

S6、将步骤S1的三张输出图片分别输入到三个不共享参数的语义分割网络ICNet中，得到返还的语义分割结果，将语义分割结果与标注图进行比对，采用交叉熵损失计算函数计算得到返还分割损失；

S7、将两个对抗损失、图像一致损失和返还分割损失按权重加权得到整个网络需要优化的最终损失，之后按照最终损失对应参数对整个网络进行优化，并在网络未收敛时返回步骤S1，收敛时将优化后的生成器作为图像生成模型；

S8、获取待处理标注图，并对待处理标注图进行归一化处理，之后将归一化处理后的标注图输入图像生成模型，得到真实图像。

第二方面，提供一种存储介质，存储介质存储有多条指令，所述指令适于处理器进行加载，以执行基于标注图在无监督训练下的真实图像生成方法中的步骤。

本发明的有益效果为：本方案的真实图像生成方法着重处理标注到真实图像的问题，是一种以对抗性生成网络为基本架构的算法，通过对无监督训练的支持，极大地降低了模型训练时的数据要求。

图像生成时，本方案根据输入的标注图和输出的真实图像的不同的特性，通过分级式视觉感知判别器和多个损失函数的结合，来保证整个算法最终的综合性能，解决了现有算法中运行不稳定，难以扩展和资源开销大的问题。

附图说明

图1为基于标注图在无监督训练下的真实图像生成方法的流程图。

图2为基于标注图像的无监督训练下的真实图像生成算法整体框架图。

图3为双向注意力模块结构图。

图4为分级式视觉感知判别器结构图。

图5为仿真实验1输入的标准图与采用本方法生成的真实图像的对比图。

图6为仿真实验2输入的标准图与采用本方法生成的真实图像的对比图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

参考图1，图1示出了基于标注图在无监督训练下的真实图像生成方法的流程图，如图1和图2所示，该方法S包括步骤S1至步骤S8。

在步骤S1中，抽取数据集中一张真实图片和一张标注图，并将标注图输入生成器生成3张不同尺寸的输出图像；本方案的标准图的类型有两种，一种是语义标注图，另一种是手绘标注图。

在本发明的一个实施例中，在步骤S1中，将标注图输入生成器之前还包括：

B1、判断所述标注图是否为语义标注图，若是，进入步骤B3，否则进入步骤B2；

B2、将所述标注图输入编码器中进行编码，将图片中稀疏的有效信息聚合起来形成稠密的特征，作为标注图特征，之后进入步骤B2；

B3、随机产生一个正态分布的噪声向量，并通过全连接网络将噪声向量映射到特征空间，之后通过改变维数将其转化为一个具有宽和高的张量；

B4、当所述标注图为语义标注图时，将所述张量作为输入生成器的标注图；当所述标注图非语义标注图时，将所述标注图特征与所述张量进行拼接作为输入生成器的标注图。

将标注图输入生成器(参考图2)生成3张不同尺寸的输出图像进一步包括：

将标注图输入生成器包含的N个级联的残差式生成模块中，每个残差式生成模块将标注图M转化为特征张量，采用特征张量对输入其的图片特征进行重归一化，之后进入上采样层将图片的宽和高都放大两倍；

在最后三个上采样层后加入双向注意力模块，每个双向注意力模块的输入为与其连接的上采样层的输出、上一级上采样层的输出和标注图，每个双向注意力模块的输出经过卷积层后，分别得到一张生成器的输出图像。

如图3所示，双向注意力模块接收三个输入后，执行如下步骤：

将三个输入扩展到同一尺寸后，在通道维度上进行拼接并卷积激活，生成一个取值范围为(0,1)的注意力图；

将注意力图与经过处理后的上级特征相乘及将注意力图的反向图与该级特征相乘，之后将相乘后得到的两个图片特征进行相加得到最终的输出结果。

本方案双向注意力模块将多级的特征通过标志的指导进行融合，可以提升最终输出的图片质量。

在步骤S2中，将真实图片缩小为三张与输出图像尺寸对应的缩放图，并将三组缩放图和对应的输出图像分别输入三个不共享参数的分级视觉感知判别器得到6个判别结果。

在本发明的一个实施例中，所述分级视觉感知判别器均包括视觉感知分支和主分支；分级视觉感知判别器的结构参考图4。

所述视觉感知分支由在ImageNet数据集上预训练好的VGG16网络去掉全连接层构成，并在卷积层1-1至池化层3、卷积层4-1至池化层4及卷积层5-1至池化层5后进行特征输出；

所述主分支包括依次连接的卷积层、特征拼接模块、卷积层、小型多分支处理模块、特征拼接模块、卷积层、小型多分支处理模块、特征拼接模块和卷积层；每个特征拼接模块后的卷积层的输出分别经过卷积层和Sigmoid函数输出判别结果；

分级视觉感知判别器中的池化层3、池化层4和池化层5处的输出分别在主分支中的第一特征拼接模块、第二个特征拼接模块和第三个特征拼接模块内进行特征拼接；

当输入大小为

的图片时，保留分级视觉感知判别器的第一个判别结果；当输入大小为

的图片时，保留分级视觉感知判别器的第一个和第二个判别结果；当输入大小为H×W的图片时，保留分级视觉感知判别器的三个判别结果；H为图片的高，W为图片的宽。

分级视觉感知判别器的主分支采用上述结构后，使得判别器能够以较小的计算代价，获得对特征充分的提取。

上述分级式视觉感知判别器采用多分支和预训练好的视觉感知网络并继承了小型多分支处理模块，对图片进行多级的判别，以达到对图片的生成进行良好约束，以提升其最终质量的目的。

在本发明的一个实施例中，所述步骤S2和步骤S3之间还包括：

A1、判断输入的标注图是否为语义标注图，若是，执行步骤A2，否则执行步骤S3；

A2、对标注图进行前景和背景划分，得到0-1二值的前景图和背景图，并计算前景图所有前景像素点数量之和A和背景图所有背景像素点数量之和B；

A3、根据前景像素点数量之和A和背景像素点数量之和B，计算背景弱化权重P＝(A+B)/(T×A+B)，前景增强权重为T×P，T为增强比；

A4、将前景增强权重T×P回填至前景图值为1的位置，其余位置填为背景权重P，得到一张前景增强图，将前景增强图通过平均池化得到不同大小的前景增强图；

A5、将步骤S1的三张输出图像的判别结果与对应大小的前景增强图相乘更新判别结果，之后进入步骤S3。

依靠输入的标注图，计算得到前景增强图作用于判别器的判别结果，加强了判别器对于前景区域的判别能力，以此提升更为重要的前景区域生成质量。

在步骤S3中，将所有的判别结果采用对抗损失函数转化为对抗损失：

所述对抗损失函数为：

其中，

为对抗损失；

为生成器的对抗损失；

为判别器的对抗损失；

E[.]为数据的期望，

为经过前景增强的判别期望；

为对于判别器D_i的第l个输出的前景增强图；λ_i1＝1，

λ_il和λ_i(l+1)分别为

和

在损失函数中的权重；X_i为第i张输出图像，Y_i为第i个缩放图，D_i为第i个分级式视觉感知判别器，1≤i≤3；

为判别器D_i的第l个输出。

本方案生成器以模块化且多级输出的形式，配合以图像一致损失函数，稳定了整个网络的训练，且易于向更高分辨率要求的扩展。

在步骤S4中，采用三张缩放图缩小并放大至原始尺寸形成的模糊图片更新输出图像，之后执行步骤S2和步骤S3，之后进入步骤S5；

采用模糊图片再执行步骤S2和S3的处理，可以得到另外的对抗损失，该部分作为判别器的假样本的额外对抗损失-图像清晰度增强损失

以此反过来迫使生成器生成的图片更加清晰。

在步骤S5中，将步骤S1的三张输出图像进行相邻两两分组，将两组中大尺寸降采样至等于小尺寸后，同时将两组输入在ImageNet数据集上预训练好的VGG19网络中，取其中五层输出进行二范数求距离并归一化得到图像一致损失。

其中五层输出分别指卷积1-2，卷积2-2，卷积3-2，卷积4-2和卷积5-2。

实施时，本方案优选所述图像一致损失

的计算公式为：

其中，

为步长为2的池化操作；Φ_l为卷积l_2的输出；X_i+1为第i+1张输出图像；‖.‖₂为欧几里得范数。

在步骤S6中，将步骤S1的三张输出图片分别输入到三个不共享参数的语义分割网络ICNet中，得到返还的语义分割结果，将语义分割结果与标注图进行比对，采用交叉熵损失计算函数(softmax)计算得到返还分割损失；

其中，所述交叉熵损失计算函数为：

其中，H和W分别为图片的高和宽，N为整个数据涉及到的物体类别；

为语义分割网络S_i在(h,w)位置上对于第n个类别的输出，

为图片中物体正确的类别。

在步骤S7中，将两个对抗损失、图像一致损失和返还分割损失按权重加权得到整个网络需要优化的最终损失，之后按照最终损失对应参数对整个网络进行优化，并在网络未收敛时返回步骤S1，收敛时将优化后的生成器作为图像生成模型。

最终损失

λ₂、λ₃和λ₄为对应损失的权值系数。

在步骤S8中，获取待处理标注图，并对待处理标注图进行归一化处理，之后将归一化处理后的标注图输入图像生成模型，得到真实图像。

本方案还提供一种存储介质，存储介质存储有多条指令，所述指令适于处理器进行加载，以执行基于标注图在无监督训练下的真实图像生成方法中的步骤。

下面结合仿真实验，对本方案的效果进行说明：

设置试验条件为：系统：Ubuntu 18.04，软件：Python 3.6，处理器：Intel Xeon(R)CPU E5-2620 v4@2.10GHz×2，内存：256GB。

实验内容：

仿真实验一：利用本方案对语义标注图作为输入，生成对应的真实图片，结果如附图5所示；

仿真实验二：利用本方案对手绘轮廓标注图作为输入，生成对应的真实图片，结果如附图6所示。

3、实验结果分析：

从图5和图6可以看出，本方案生成的真实图像画面清晰，内容具有丰富且合理的纹理信息，与输入的标注图具有明显的对应关系，说明本发明能大规模的合成高清的真实图像，且合成的图片真实性很好。

下面结合现有技术的图像生成方法，通过仿真实验对本方案的效果进行对比说明：

实验条件：系统：Ubuntu 18.04，软件：Python 3.6，处理器：Intel Xeon(R)CPUE5-2620 v4@2.10GHz×2，内存：256GB；

测试说明：对于每个数据集，依次分别使用每种算法对数据集中的训练集进行训练。训练完毕后，分别用每种算法对该数据集测试集的每张标注图生成其对应的图片。

使用FCN网络在Cityscapes数据集上预先训练完毕。对于每种算法，将生成的图片输入到该FCN网络中，得到预测结果，将预测结果与原始输入的标注图进行比对，可以得到三个分割指标，分别是：像素准确率，类别准确率和平均类别重叠比，参考表1。

将生成图片和真实图片进行RGB像素级求差值，可得到峰值信噪比指标。将图片由RGB空间转化为亮度、对比度和结构空间并求两张图片的亮度、对比度和结构空间相关性，可得到结构相似性指标，参见表1。

使用Inception-V3在ImageNet数据集上预先训练完毕。对于每种算法，将生成的图片和真实的图片输入到该Inception-V3网络中，提取第三个池化层输出的特征，求两者特征的分布差异，得到Frechet Inception距离，参见表2。

表1

表2

通过表1和表2中的数据的分析对比，可以得知本方案具有生成图片更加符合原有标注图、生成结果与真实图片更为接近和生成图片更加真实等优点。

Claims

1.基于标注图在无监督训练下的真实图像生成方法，其特征在于，包括：

S3、将所有的判别结果采用对抗损失函数转化为对抗损失；

2.根据权利要求1所述的基于标注图在无监督训练下的真实图像生成方法，其特征在于，所述对抗损失函数为：

其中，

为对抗损失；

为生成器的对抗损失；

为判别器的对抗损失；

E[.]为数据的期望，

为经过前景增强的判别期望；

为对于判别器D_i的第l个输出的前景增强图；λ_i1＝1，

λ_il和λ_i(l+1)分别为

和

为判别器D_i的第l个输出。

3.根据权利要求1所述的基于标注图在无监督训练下的真实图像生成方法，其特征在于，所述图像一致损失

的计算公式为：

其中，

4.根据权利要求1所述的基于标注图在无监督训练下的真实图像生成方法，其特征在于，所述交叉熵损失计算函数为：

其中，

为返还分割损失；H和W分别为图片的高和宽，N为整个数据涉及到的物体类别；

为语义分割网络S_i在(h,w)位置上对于第n个类别的输出，

为图片中物体正确的类别。

5.根据权利要求1所述的基于标注图在无监督训练下的真实图像生成方法，其特征在于，所述步骤S2和步骤S3之间还包括：

6.根据权利要求1所述的基于标注图在无监督训练下的真实图像生成方法，其特征在于，所述分级视觉感知判别器均包括视觉感知分支和主分支；

当输入大小为

7.根据权利要求1-6任一所述的基于标注图在无监督训练下的真实图像生成方法，其特征在于，在步骤S1中，将标注图输入生成器之前还包括：

8.根据权利要求7所述的基于标注图在无监督训练下的真实图像生成方法，其特征在于，将标注图输入生成器生成3张不同尺寸的输出图像进一步包括：

9.根据权利要求8所述的基于标注图在无监督训练下的真实图像生成方法，其特征在于，所述双向注意力模块接收三个输入后，执行如下步骤：

10.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至9任一项所述的基于标注图在无监督训练下的真实图像生成方法中的步骤。