CN113450313B

CN113450313B - 一种基于区域对比学习的图像显著性可视化方法

Info

Publication number: CN113450313B
Application number: CN202110624243.2A
Authority: CN
Inventors: 唐佩军; 潘力立
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-06-04
Filing date: 2021-06-04
Publication date: 2022-03-15
Anticipated expiration: 2041-06-04
Also published as: CN113450313A

Abstract

该发明公开了一种基于区域对比学习的图像显著性可视化方法，属于计算机视觉领域。该方法在算法的第一阶段，选用生成对抗网络作为基础框架，首次将区域对比损失应用于显著性目标检测任务，充分利用了有标签的显著性检测数据集的图像信息，利用了不同图像区域之间的关联，在显著性检测结果中保留了更多的边界信息，并改进显著性检测结果；在第二阶段，则通过预训练的显著性检测模型摄入了额外的数据信息，且以自监督的方式引入生成图像的区域对比损失，从而约束GAN的生成过程，提升了GAN模型的鲁棒性，且对生成结果生成显著性图像进行可视化，从而提升了模型的可解释性。

Description

一种基于区域对比学习的图像显著性可视化方法

技术领域

本发明属于计算机视觉领域，主要涉及生成对抗网络中生成图像显著性可视化问题，主要应用于人机交互以及机器视觉理解等领域。

背景技术

生成对抗网络(Generative Adversarial Network,GAN)在近年来得到了深度学习社区广泛的关注，并取得了快速发展。由于良好的生成能力，GAN在图像生成、图像翻译等领域已有较为成熟的应用，但深度学习的“黑匣子”特性，导致原始GAN的生成过程缺乏明确的解释，从而无法得到让用户信赖的决策。因此，在图像生成等领域的实际需求下，GAN中生成图像的可解释性得到了越来越多的关注。例如：在图像生成领域，生成图像的可解释性可以帮助找到网络输入与生成结果的联系，从而实现对模型的可控与可解释；在图像翻译领域，通过对域转换图像的可解释性分析，进而关注图像显著性区域，有利于实现更高质量的图像生成。现有的针对GAN中生成图像可解释性的算法，主要分为基于输入隐空间的可解释性方法和基于中间特征的可解释性方法。

基于输入隐空间的方法主要是学习隐编码与生成图像之间的对应关系，通常通过最大化隐编码与生成图像之间的互信息去进行解纠缠模型的学习。目前常用的算法包括InfoGAN和InfoGAN-CR等，但是这些方法隐式地计算两个不同域的互信息，存在一定的不准确性且导致模型难以优化。参见文献：Chen,Xi,et al.“InfoGAN:InterpretableRepresentation Learning by Information Maximizing Generative AdversarialNets.”International Conference on Neural Information Processing Systems,vol.29,2016,pp.2180–2188.和Lin,Zinan,et al.“InfoGAN-CR and Model Centrality:Self-Supervised Model Training and Selection for Disentangling GANs.”International Conference on Machine Learning,2020,pp.6127–6139.

基于中间特征的方法主要是通过属性分类器等寻找生成器的特征图单元与类别目标之间的联系，去探究特征单元与类别之间的一致性与因果关系。目前经典的算法为GANDissection，但该方法包含多个分支，且引入语义分割网络，导致模型过于复杂，并且未利用可解释性结果改善GAN本身的训练过程。参见文献：Bau,David,et al.“GAN Dissection:Visualizing and Understanding Generative Adversarial Networks.”InternationalConference on Learning Representations,2018.

近年来，随着深度学习理论的不断发展，借助于深度网络的发展与应用，已有大量的工作对GAN的可解释性进行了研究，但仍存在或多或少的缺点，GAN中生成图像的可解释性还有很多值得挖掘改进的地方。此外，虽然有部分工作基于GAN进行显著性检测任务的研究，但至今仍未出现将显著性检测方法用于GAN中生成图像的显著性可视化并辅助GAN生成过程训练的算法，本发明将围绕这个角度展开工作，提出了一种基于区域对比学习的生成对抗网络中生成图像显著性可视化方法。

发明内容

本发明的任务是提供一种基于区域对比学习的GAN中生成图像的显著性可视化方法。该方法分为两阶段：(i)在第一阶段，预训练基于GAN的显著性检测模型，该模型首先将真实的RGB图像和真实的显著性图像分别映射为预测的显著性图像和重构的显著性图像，其次从这四种图像中提取不同分辨率的嵌入特征，然后计算多层区域对比损失，并结合内容损失和 GAN的对抗损失共同优化网络模型。(ii)在第二阶段，使用第一阶段预训练的显著性检测模型辅助普通GAN的生成过程训练，该方法通过预训练的显著性检测模型得到生成图像的显著性图像，并对生成图像和显著性图像提取嵌入特征进行区域对比损失的计算，以自监督的方式约束GAN的生成过程，最终帮助GAN微调网络参数，使得GAN在进行图像生成任务的同时，获得更好的显著性可视化结果。

为了方便地描述本发明内容，首先对一些术语进行定义。

定义1：正态分布。也称常态分布，又名高斯分布，是一个在数学、物理及工程等领域都非常重要的概率分布，在统计学的许多方面有着重大的影响力。若随机变量x，其概率密度函数满足

其中μ为正态分布的数学期望，σ²为正态分布的方差，则称其满足正态分布，常记作

定义2：生成对抗网络(Generative Adversarial Network,GAN)。GAN是一种基于极大- 极小博弈思想的方法，最初的GAN由两部分网络构成，即生成器和判别器。生成器的输入为随机采样的高斯噪声，通过一系列的卷积操作和上采样操作，最终输出生成图像，其作用是捕获真实数据分布；而判别器的作用是判断输入图像是真实数据还是生成数据。GAN在训练时，两部分模型交替训练，最终达到平衡。

定义3：RGB图像。RGB色彩模式是工业界的一种颜色标准，是通过对红(R)、绿(G)、蓝 (B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的，RGB即是代表红、绿、蓝三个通道的颜色，这个标准几乎包括了人类视力所能感知的所有颜色，是目前运用最广的颜色系统之一。图1中的 (a)为RGB图像示意图。

定义4：显著性图像。显著性图像是图像的一种视觉特征分区，体现了人眼对图像某些区域的重视程度，通常通过定位图像中的物体与边界，表示受试者第一眼看到的目标的整体。图 1中的 (b)为显著性图像。

定义5：显著性目标检测。显著性目标检测主要关注图片中的显著目标，类似于将图像中的前景和背景区分开。对于给定的输入图片，希望显著性模型能够将输入的RGB图像映射到一个连续的显著性图像，通常情况下采用某种特定的距离损失去衡量预测的显著图跟真实的显著图之间的误差，并最小化该误差去进行模型的优化训练。

定义6：生成对抗网络中生成图像显著性可视化。即本发明的目的，在于通过可视化方式解释GAN的生成图像中被网络着重关注的显著性区域。具体而言，是指通过该方法，对GAN 中生成图像得到显著性可视化图，从而对GAN的生成结果进行可解释。

定义7：Sigmoid函数。也称为Logistic函数，用于隐层神经元输出，它可以将一个实数映射到(0，1)的区间，可以用来做二分类。其公式可以表示为：

定义8：ReLU函数。又称修正线性单元,是一种人工神经网络中常用的激活函数，通常指代以斜坡函数及其变种为代表的非线性函数，表达式为ReLU(x)＝max(0，x)。

定义9：Tanh函数。是一种人工神经网络中常用的激活函数，可以用表达式

定义。

定义10：最大池化操作。即对于输入的特征图，选取k×k区域中像素最大的值作为输出，其它的值都丢弃，优点是减小输入大小，使得神经网络能够专注于最重要的元素。

定义11：上采样操作。即采用内插值方法，在原有图像像素的基础上在像素点之间采用合适的插值算法插入新的元素，增加输入大小。

定义12：全局平均池化。即对输出的每一个通道的特征图的所有像素计算一个平均值，将得到一个维度等于输入维度的特征向量。

定义13：交叉熵损失。交叉熵是信息论中的一个重要概念，主要用于度量两个概率分布间的差异性，常在分类任务中使用。对于预测图像X_p和目标图像X_t而言，其数学表达式为：

其中i表示第i个像素点，而N表示总的像素的个数。

定义14：结构相似性损失(Structural SIMilarity,SSIM)。最初被用于图像质量评估，它将图像的相似度定义为亮度、对比度和结构相似程度三种组合的函数。对于两张图像X₁和目标图像X₂而言，其数学表示式为：

其中，均值μ表示亮度的估计，而标准差σ表示对比度，协方差C表示结构相似度，该损失的值域为[0，2]，输出结果接近0 代表图像之间的相似度高。

定义15：交并比损失(Intersection over Union,IoU)。最初被用于衡量集合的相似度，并常被用于评价目标检测或者语义分割等任务。假定X(i，j)为图像X中每个像素的预测概率值， Y(i，j)∈{0，1}为像素位置(i，j)的真实标签，则其数学表达式为：

定义16：对比损失。对比学习利用输入图像的多个视图去学习一种特征嵌入，其基本思想是将正样本对的特征拉近，而推远负样本对的特征。其数学表示为：

其中v表示一个输入样本的特征向量，而v⁺和

分别表示其一个正样本的特征向量和第j个负样本的特征向量，τ是一个超参数，exp(·)表示指数函数。

定义17：区域对比损失。即对于一对具有相同内容的图像，认为在局部区域上有对应的关系，将图像的不同区域视为对比学习中的不同视图。

定义18：平均像素精度误差。一种评估指标，即计算两张图像每个位置的像素之间的绝对误差，再求每个像素绝对误差的平均值。

定义19：F分数。用来衡量二分类模型精确度的一种指标，是准确率和召回率的调和平均数。

本发明技术方案为：一种基于区域对比学习的图像显著性可视化方法，该方法包括：

步骤1：对第一阶段的显著性目标检测数据集进行预处理；

获取MSRA10K数据集，先将数据集划分为真实RGB图像和显著性图像，并随机打乱图像对顺序；其次对输入图像进行尺寸归一化；最后对图像像素进行归一化至范围[0,1]；

步骤2：构建第一阶段的基于GAN的显著性检测网络；

1)所述基于GAN的显著性检测网络包含：一个生成器G₁，一个判别器D₁和一个映射网络F，其中生成器又分为编码器部分和解码器部分，其输入为真实的RGB图像或真实的显著性图像，输出为预测的显著性图像；而判别器输入为图像，输出为表示真假的标量值，映射网络输入和输出均为特征；

所述生成器G₁的输入层为1个标准卷积层和1个标准卷积块，包含两个分支，分别适用于 3维的RGB图像和1维的显著性图像，除了第一个标准卷积层外均网络共享；之后使用4个下采样层，每个下采样层分别包含4，6，3，3个卷积模块，除了第3个下采样层的最后一个卷积模块和每个下采样层中的第一个卷积模块后接最大池化操作，其余均为标准卷积层；之后再接2个标准卷积块，及5个上采样层，其中每个上采样层均包含3个标准卷积层，且最后一个卷积层后接上采样操作；最后接由1个标准卷积块和1个标准卷积层构成的输出层；生成器中除最后一层采用Sigmoid激活函数，其余层均采用ReLU激活函数，其中编码器部分为输入层、下采样层及2个标准卷积块，解码器部分包含上采样层和输出层；

判别器网络依次采用3个下采样层和3个全连接层，下采样层为两个标准卷积层后接最大池化操作，全连接层前两层采用Tanh激活函数，最后一层采用Sigmoid激活函数；映射网络则由6个输入维度不同的全连接块并行构成，全连接块包含两层全连接层，中间由ReLU激活函数连接；

2)构建的GAN模型中的生成器G₁，其输入的真实RGB图像和显著性图像分别为X_r和X_g，分别经过输入层的两个分支，再经过1)中所描述的网络模块，最终得到显著性图像X_pre和X_idt；

构建的GAN模型中的判别器D₁，其输入为RGB图像与显著性图像的拼接，即(X_r，X_g)和 (X_r，X_pre)，大小均为4×256×256，经过1)中所描述的网络模块最终得到1维向量，记作D₁(X_r，X_g)和D₁(X_r，X_pre)；

构建的映射网络F，其输入为不同图像经过生成器中编码器部分不同网络层提取得到的嵌入特征；具体而言，对于图像X_r，X_g，X_pre和X_idt，定义编码器模型为E，其有L层子网络，则对于任意一张图像X∈{X_g，X_r，X_pre，X_idt}，第i层网络的输出表示为E_i(X)，E_i(X)经过对应维度的F_i网络得到嵌入特征，再从中采样得到最终的嵌入特征F_i(X)；

步骤3：确定第一阶段的损失函数；

采用步骤2中对模型、图像和特征的定义，生成器G₁的输入为X_r和X_g，输出为X_pre和X_idt；判别器D₁的输入为(X_r，X_g)和(X_r，X_pre)，输出为D₁(X_r，X_g)和D₁(X_r，X_pre)，映射网络F的输入为E_i(X)，X∈{X_g，X_r，X_pre，X_idt}，输出为F_i(X)，X∈{X_g，X_r，X_pre，X_idt}。则网络损失可以描述为：

其中，

为判别器的损失函数，

为生成器和映射网络的损失函数，

为期望函数，

和

分别为生成器的对抗损失、内容损失和多层区域对比损失，a，b为损失系数；

生成器的对抗损失

的数学表达式为：

内容损失包含三部分，分别为交叉熵损失，结构相似性损失和交并比损失；

其内容损失的数学表达式为：

多层区域对比损失则选用不同网络层的特征进行计算，其数学表达式为：

其中，i表示第i层网络层，j表示第j个采样区域，l表示定义16的对比损失，S表示总的采样区域数，S\j表示除j之外的采样区域，

表示X₁提取的第i层的第j个特征向量，其正样本为对应的

其它区域的特征向量F_i ^S\j(X)，X∈{X₁，X₂}则为负样本；

步骤4：训练第一阶段的显著性检测网络；

利用步骤3构建的损失函数对网络进行训练，在更新G₁和F时固定D₁的参数，而更新D₁时则固定G₁和F的参数，每次迭代交替更新一次，知道训练完成；

步骤5：测试第一阶段的显著性检测网络；

选取ECSSD数据集和DUTS-TE数据集，采用与步骤1相同的预处理方式，利用步骤4中训练好的生成器G₁，对于每一张输入RGB图像X_g，得到其显著性图像X_pre；

步骤6：对第二阶段的数据集进行预处理；

获取Caltech256数据集和ImageNet CLSLOC数据集作为训练集，首先随机打乱图像顺序；其次对输入图像进行尺寸归一化；最后对图像像素进行归一化至范围[-1,1]；

步骤7：构建第二阶段的生成图像显著性可视化网络；

构建的GAN模型由三个子网络构成，包含一个生成器G，一个判别器D，一个编码器，其中，生成器输入为随机采样的高斯噪声，输出为图像，而判别器输入为图像，输出为表示真假的标量值，编码器的输入为图像，输出为嵌入特征；

生成器G依次采用1个全连接层，3个上采样残差网络块和1个标准卷积层，除了最后的卷积层采用Tanh激活函数，其余层均采用ReLU激活函数；判别器D依次采用4个下采样残差网络块，再经过全局平均池化，后接1个全连接层，均采用ReLU激活函数；编码器由第一阶段训练好的生成器G₁与映射网络F一同构成；

步骤8：设计第二阶段的损失函数；

记真实图像为X_real，定义生成器G的输入噪声为z，输出图像为G(z)；定义编码器的输入为G(z)，编码器的输出为映射网络F的输入，记为G₁(G(z))；定义判别器D的输入为X_real和 G₁(G(z))，输出分别记为D(X_real)和D(G(z))；则网络损失可以描述为：

其中，

为判别器的损失函数，

为生成器的损失函数，

为期望函数，

为区域对比损失，a为损失系数；

步骤9：训练第二阶段的生成对抗网络；

利用步骤7构建的损失函数对网络进行训练，编码器采用步骤4预训练好的网络，并在训练中保持固定，交替更新生成器和判别器，直到训练完成；

步骤10：测试第二阶段的生成对抗网络；

随机采样输入噪声z，利用步骤9中训练好的生成器G和步骤4训练好的生成器G1，对于每一张生成图像G(z)，得到其显著性图像G₁(G(z))。

该方法在算法的第一阶段，选用生成对抗网络作为基础框架，首次将区域对比损失应用于显著性目标检测任务，充分利用了有标签的显著性检测数据集的图像信息，利用了不同图像区域之间的关联，在显著性检测结果中保留了更多的边界信息，并改进显著性检测结果；在第二阶段，则通过预训练的显著性检测模型摄入了额外的数据信息，且以自监督的方式引入生成图像的区域对比损失，从而约束GAN的生成过程，提升了GAN模型的鲁棒性，且对生成结果生成显著性图像进行可视化，从而提升了模型的可解释性。

附图说明

图1为RGB图像和显著性图像示意图；

图2为本发明第一阶段的网络框架图；

图3为本发明第一阶段采用的标准卷积层和标准卷积块示意图；

图4为本发明第二阶段的网络框架图；

图5为本发明第二阶段采用的上采样残差卷积块和下采样残差卷积块示意图；

图6为本发明第二阶段的生成图像及显著性可视化结果示意图；

具体实施方式

步骤1：对第一阶段的显著性目标检测数据集进行预处理；

获取MSRA10K(http://mftp.mmcheng.net/Data/MSRA10K_Imgs_GT.zip)数据集，MSRA10K 数据集共包含10,000张真实RGB图像和对应的显著性图像。具体步骤为先将数据集划分为真实RGB图像和显著性图像，并随机打乱图像对顺序；其次对输入图像进行尺寸缩放，大小均为256×256；最后对图像像素进行归一化至范围[0,1]。

步骤2：构建第一阶段的基于GAN的显著性检测网络；

1)此步骤构建的GAN模型由三个子网络构成，包含一个生成器，一个判别器和一个映射网络，其中生成器又分为编码器部分和解码器部分。生成器记作G₁，其输入为真实的RGB 图像或真实的显著性图像，输出为预测的显著性图像，而判别器记作D₁，其输入为图像，输出为表示真假的标量值，映射网络记为F，其输入和输出均为特征。

生成器网络的输入层为1个标准卷积层和1个标准卷积块，包含两个分支，分别适用于3 维的RGB图像和1维的显著性图像，除了第一个标准卷积层外均网络共享；之后使用4个下采样层，每个下采样层分别包含4，6，3，3个卷积模块，除了第3个下采样层的最后一个卷积模块和每个下采样层中的第一个卷积模块后接最大池化操作，其余均为标准卷积层；之后再接2个标准卷积块，及5个上采样层，其中每个上采样层均包含3个标准卷积层，且最后一个卷积层后接上采样操作；最后接由1个标准卷积块和1个标准卷积层构成的输出层。生成器中除最后一层采用Sigmoid激活函数，其余层均采用ReLU激活函数，其中编码器部分为输入层、下采样层及2个标准卷积块，解码器部分包含上采样层和输出层。

判别器网络依次采用3个下采样层和3个全连接层，下采样层为两个标准卷积层后接最大池化操作，全连接层前两层采用Tanh激活函数，最后一层采用Sigmoid激活函数；映射网络则由6个输入维度不同的全连接块并行构成，全连接块包含两层全连接层，中间由ReLU激活函数连接。

生成器，判别器及映射网络的网络结构如图2所示，标准卷积层和标准卷积块如图3所示。

2)此步骤构建的GAN模型中的生成器，其输入的真实RGB图像和显著性图像分别为X_r和X_g，大小分别为3×256×256和1×256×256，分别经过输入层的两个分支得到维度同为64 的特征图，再经过1)中所描述的网络模块，最终得到大小为1×256×256的显著性图像X_pre和X_idt；

此步骤构建的GAN模型中的判别器，其输入为RGB图像与显著性图像的拼接，即(X_r，X_g) 和(X_r，X_pre)，大小均为4×256×256，经过1)中所描述的网络模块最终得到1维向量，记作 D₁(X_r，X_g)和D₁(X_r，X_pre)；

此步骤构建的映射网络，其输入为不同图像经过生成器中编码器部分不同网络层提取得到的嵌入特征。具体而言，对于图像X_r，X_g，X_pre和X_idt，定义编码器模型为E，其有L层子网络，则对于任意一张图像X∈{X_g，X_r，X_pre，X_idt}，第i层网络的输出表示为E_i(X)，E_i(X)经过对应维度的F_i网络得到嵌入特征，再从中采样256个像素点，得到最终的嵌入特征F_i(X)。

步骤3：设计第一阶段的损失函数；

其中，

为判别器的损失函数，

为生成器和映射网络的损失函数，

为期望函数，

和

分别为生成器的对抗损失、内容损失和多层区域对比损失，a，b为损失系数。

生成器的对抗损失

的数学表达式为：

内容损失包含三部分，分别为交叉熵损失，结构相似性损失和交并比损失，将X_pre和X_g分别代入定义10-12，其内容损失的数学表达式为：

多层区域对比损失则选用不同网络层的特征进行计算，参照定义13，其数学表达式为：

其中，i表示第i层网络层，j表示第j个采样区域，S表示总的采样区域数，S\j表示除j之外的采样区域，

表示X₁提取的第i层的第j个特征向量，其正样本为对应的

其它区域的特征向量

则为负样本。

步骤4：训练第一阶段的显著性检测网络；

利用步骤3构建的损失函数对网络进行训练，在更新G₁和F时固定D₁的参数，而更新D₁时则固定G₁和F的参数，每次迭代交替更新一次；

步骤5：测试第一阶段的显著性检测网络；

选取ECSSD(http://www.cse.cuhk.edu.hk/leojia/projects/hsaliency/data/ECSSD/images.zip) 数据集和DUTS-TE(http://saliencydetection.net/duts/download/DUTS-TE.zip)数据集，分别包含1000张和5017张图像。采用与步骤1相同的预处理方式，利用步骤4中训练好的生成器G₁，对于每一张输入RGB图像X_g，得到其显著性图像X_pre。

步骤6：对第二阶段的数据集进行预处理；

获取Caltech256(http://www.vision.caltech.edu/Image_Datasets/Caltech256/256_ObjectCatego ries.tar)数据集和ImageNet CLSLOC(https://image-net.org/challenges/LSVRC/2017/index#loc) 数据集中的共10个类别的图像作为训练集，其图像数量为10496张。首先随机打乱图像顺序；其次对输入图像进行尺寸缩放，大小均为32×32；最后对图像像素进行归一化至范围[-1,1]。

步骤7：构建第二阶段的生成图像显著性可视化网络；

此步骤构建的GAN模型由三个子网络构成，包含一个生成器，一个判别器，一个编码器。其中，生成器记作G，其输入为随机采样的高斯噪声，输出为图像，而判别器记作D，其输入为图像，输出为表示真假的标量值，编码器的输入为图像，输出为嵌入特征。

生成器网络依次采用1个全连接层，3个上采样残差网络块和1个标准卷积层，除了最后的卷积层采用Tanh激活函数，其余层均采用ReLU激活函数；判别器网络依次采用4个下采样残差网络块，再经过全局平均池化，后接1个全连接层，均采用ReLU激活函数；编码器由第一阶段训练好的生成器G₁与映射网络F一同构成，详细信息参见步骤2的描述。

生成器，判别器的网络结构如图4所示，上采样残差网络块以及下采样残差网络块如图5 所示。

步骤8：设计第二阶段的损失函数；

记真实图像为X_real，定义生成器G的输入噪声为z，输出图像为G(z)；判别器的输入为X_real和G(z)，它们的输出分别记为D(X_real)和D(G(z))；编码器的输入为G(z)，通过上采样至256×256 大小，编码器中间过程生成的对应显著性图像为G₁(G(z))。则网络损失可以描述为：

其中，

为判别器的损失函数，

为生成器的损失函数，

为期望函数，

为区域对比损失，a为损失系数。

步骤9：训练第二阶段的生成对抗网络；

利用步骤7构建的损失函数对网络进行训练，编码器采用步骤4预训练好的网络，并在训练中保持固定。此外，交替更新生成器和判别器；

步骤10：测试第二阶段的生成对抗网络；

随机采样输入噪声z，利用步骤9中训练好的生成器G和步骤4训练好的生成器G₁，对于每一张生成图像G(z)，得到其显著性图像G₁(G(z))。

本发明使用Python语言和Pytorch深度学习框架。具体的实验参数如下：

第一阶段的实验参数：

图片大小：256×256

训练批次大小：4

迭代次数：500000

学习率：0.0002，在后125000次迭代时随迭代次数线性下降

损失系数：a为1，b为0.01

第二阶段的实验参数：

图片大小：32×32

训练批次大小：生成器为128，判别器为64

迭代次数：82000

学习率：0.0002，且随迭代次数线性下降

损失系数：a初始为0，在第57400次迭代时为1e-4，此后每8200次迭代增加5倍

实验结果：

第一阶段：在ECSSD数据集上，图像的平均像素精度误差为0.067，平均F分数为0.873，平均最大F分数为0.884，在DUTS-TE数据集上，图像的平均像素精度误差为0.085，平均F 分数为0.735，平均最大F分数为0.746。

第二阶段：随机生成图像及其显著性可视化结果如图6所示。

Claims

1.一种基于区域对比学习的图像显著性可视化方法，该方法包括：

步骤1：对第一阶段的显著性目标检测数据集进行预处理；

获取MSRA10K数据集，先将数据集划分为真实RGB图像和显著性图像，并随机打乱图像对顺序；其次对输入图像进行尺寸归一化；最后对图像像素进行归一化至范围[0，1]；

步骤2：构建第一阶段的基于GAN的显著性检测网络；

所述生成器G₁的输入层为1个标准卷积层和1个标准卷积块，包含两个分支，分别适用于3维的RGB图像和1维的显著性图像，除了第一个标准卷积层外均网络共享；之后使用4个下采样层，每个下采样层分别包含4，6，3，3个卷积模块，除了第3个下采样层的最后一个卷积模块和每个下采样层中的第一个卷积模块后接最大池化操作，其余均为标准卷积层；之后再接2个标准卷积块，及5个上采样层，其中每个上采样层均包含3个标准卷积层，且最后一个卷积层后接上采样操作；最后接由1个标准卷积块和1个标准卷积层构成的输出层；生成器中除最后一层采用Sigmoid激活函数，其余层均采用ReLU激活函数，其中编码器部分为输入层、下采样层及2个标准卷积块，解码器部分包含上采样层和输出层；

构建的GAN模型中的判别器D₁，其输入为RGB图像与显著性图像的拼接，即(X_r，X_g)和(X_r，X_pre)，大小均为4×256×256，经过1)中所描述的网络模块最终得到1维向量，记作D₁(X_r，X_g)和D₁(X_r，X_pre)；

步骤3：确定第一阶段的损失函数；

采用步骤2中对模型、图像和特征的定义，生成器G₁的输入为X_r和X_g，输出为X_pre和X_idt；判别器D₁的输入为(X_r，X_g)和(X_r，X_pre)，输出为D₁(X_r，X_g)和D₁(X_r，X_pre)，映射网络F的输入为E_i(X)，X∈{X_g，X_r，X_pre，X_idt}，输出为F_i(X)，X∈{X_g，X_r，X_pre，X_idt}，则网络损失可以描述为：