CN113450313B - 一种基于区域对比学习的图像显著性可视化方法 - Google Patents

一种基于区域对比学习的图像显著性可视化方法 Download PDF

Info

Publication number
CN113450313B
CN113450313B CN202110624243.2A CN202110624243A CN113450313B CN 113450313 B CN113450313 B CN 113450313B CN 202110624243 A CN202110624243 A CN 202110624243A CN 113450313 B CN113450313 B CN 113450313B
Authority
CN
China
Prior art keywords
image
network
layer
input
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110624243.2A
Other languages
English (en)
Other versions
CN113450313A (zh
Inventor
唐佩军
潘力立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110624243.2A priority Critical patent/CN113450313B/zh
Publication of CN113450313A publication Critical patent/CN113450313A/zh
Application granted granted Critical
Publication of CN113450313B publication Critical patent/CN113450313B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

该发明公开了一种基于区域对比学习的图像显著性可视化方法,属于计算机视觉领域。该方法在算法的第一阶段,选用生成对抗网络作为基础框架,首次将区域对比损失应用于显著性目标检测任务,充分利用了有标签的显著性检测数据集的图像信息,利用了不同图像区域之间的关联,在显著性检测结果中保留了更多的边界信息,并改进显著性检测结果;在第二阶段,则通过预训练的显著性检测模型摄入了额外的数据信息,且以自监督的方式引入生成图像的区域对比损失,从而约束GAN的生成过程,提升了GAN模型的鲁棒性,且对生成结果生成显著性图像进行可视化,从而提升了模型的可解释性。

Description

一种基于区域对比学习的图像显著性可视化方法
技术领域
本发明属于计算机视觉领域,主要涉及生成对抗网络中生成图像显著性可视化问题,主要应用于人机交互以及机器视觉理解等领域。
背景技术
生成对抗网络(Generative Adversarial Network,GAN)在近年来得到了深度学习社区广泛的关注,并取得了快速发展。由于良好的生成能力,GAN在图像生成、图像翻译等领域已有较为成熟的应用,但深度学习的“黑匣子”特性,导致原始GAN的生成过程缺乏明确的解释,从而无法得到让用户信赖的决策。因此,在图像生成等领域的实际需求下,GAN中生成图像的可解释性得到了越来越多的关注。例如:在图像生成领域,生成图像的可解释性可以帮助找到网络输入与生成结果的联系,从而实现对模型的可控与可解释;在图像翻译领域,通过对域转换图像的可解释性分析,进而关注图像显著性区域,有利于实现更高质量的图像生成。现有的针对GAN中生成图像可解释性的算法,主要分为基于输入隐空间的可解释性方法和基于中间特征的可解释性方法。
基于输入隐空间的方法主要是学习隐编码与生成图像之间的对应关系,通常通过最大化隐编码与生成图像之间的互信息去进行解纠缠模型的学习。目前常用的算法包括InfoGAN和InfoGAN-CR等,但是这些方法隐式地计算两个不同域的互信息,存在一定的不准确性且导致模型难以优化。参见文献:Chen,Xi,et al.“InfoGAN:InterpretableRepresentation Learning by Information Maximizing Generative AdversarialNets.”International Conference on Neural Information Processing Systems,vol.29,2016,pp.2180–2188.和Lin,Zinan,et al.“InfoGAN-CR and Model Centrality:Self-Supervised Model Training and Selection for Disentangling GANs.”International Conference on Machine Learning,2020,pp.6127–6139.
基于中间特征的方法主要是通过属性分类器等寻找生成器的特征图单元与类别目标之间的联系,去探究特征单元与类别之间的一致性与因果关系。目前经典的算法为GANDissection,但该方法包含多个分支,且引入语义分割网络,导致模型过于复杂,并且未利用可解释性结果改善GAN本身的训练过程。参见文献:Bau,David,et al.“GAN Dissection:Visualizing and Understanding Generative Adversarial Networks.”InternationalConference on Learning Representations,2018.
近年来,随着深度学习理论的不断发展,借助于深度网络的发展与应用,已有大量的工作对GAN的可解释性进行了研究,但仍存在或多或少的缺点,GAN中生成图像的可解释性还有很多值得挖掘改进的地方。此外,虽然有部分工作基于GAN进行显著性检测任务的研究,但至今仍未出现将显著性检测方法用于GAN中生成图像的显著性可视化并辅助GAN生成过程训练的算法,本发明将围绕这个角度展开工作,提出了一种基于区域对比学习的生成对抗网络中生成图像显著性可视化方法。
发明内容
本发明的任务是提供一种基于区域对比学习的GAN中生成图像的显著性可视化方法。该方法分为两阶段:(i)在第一阶段,预训练基于GAN的显著性检测模型,该模型首先将真实的RGB图像和真实的显著性图像分别映射为预测的显著性图像和重构的显著性图像,其次从这四种图像中提取不同分辨率的嵌入特征,然后计算多层区域对比损失,并结合内容损失和 GAN的对抗损失共同优化网络模型。(ii)在第二阶段,使用第一阶段预训练的显著性检测模型辅助普通GAN的生成过程训练,该方法通过预训练的显著性检测模型得到生成图像的显著性图像,并对生成图像和显著性图像提取嵌入特征进行区域对比损失的计算,以自监督的方式约束GAN的生成过程,最终帮助GAN微调网络参数,使得GAN在进行图像生成任务的同时,获得更好的显著性可视化结果。
为了方便地描述本发明内容,首先对一些术语进行定义。
定义1:正态分布。也称常态分布,又名高斯分布,是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。若随机变量x,其概率密度函数满足
Figure BDA0003101483520000021
其中μ为正态分布的数学期望,σ2为正态分布的方差,则称其满足正态分布,常记作
Figure BDA0003101483520000022
定义2:生成对抗网络(Generative Adversarial Network,GAN)。GAN是一种基于极大- 极小博弈思想的方法,最初的GAN由两部分网络构成,即生成器和判别器。生成器的输入为随机采样的高斯噪声,通过一系列的卷积操作和上采样操作,最终输出生成图像,其作用是捕获真实数据分布;而判别器的作用是判断输入图像是真实数据还是生成数据。GAN在训练时,两部分模型交替训练,最终达到平衡。
定义3:RGB图像。RGB色彩模式是工业界的一种颜色标准,是通过对红(R)、绿(G)、蓝 (B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的,RGB即是代表红、绿、蓝三个通道的颜色,这个标准几乎包括了人类视力所能感知的所有颜色,是目前运用最广的颜色系统之一。图1中的 (a)为RGB图像示意图。
定义4:显著性图像。显著性图像是图像的一种视觉特征分区,体现了人眼对图像某些区域的重视程度,通常通过定位图像中的物体与边界,表示受试者第一眼看到的目标的整体。图 1中的 (b)为显著性图像。
定义5:显著性目标检测。显著性目标检测主要关注图片中的显著目标,类似于将图像中的前景和背景区分开。对于给定的输入图片,希望显著性模型能够将输入的RGB图像映射到一个连续的显著性图像,通常情况下采用某种特定的距离损失去衡量预测的显著图跟真实的显著图之间的误差,并最小化该误差去进行模型的优化训练。
定义6:生成对抗网络中生成图像显著性可视化。即本发明的目的,在于通过可视化方式解释GAN的生成图像中被网络着重关注的显著性区域。具体而言,是指通过该方法,对GAN 中生成图像得到显著性可视化图,从而对GAN的生成结果进行可解释。
定义7:Sigmoid函数。也称为Logistic函数,用于隐层神经元输出,它可以将一个实数映射到(0,1)的区间,可以用来做二分类。其公式可以表示为:
Figure BDA0003101483520000031
定义8:ReLU函数。又称修正线性单元,是一种人工神经网络中常用的激活函数,通常指代以斜坡函数及其变种为代表的非线性函数,表达式为ReLU(x)=max(0,x)。
定义9:Tanh函数。是一种人工神经网络中常用的激活函数,可以用表达式
Figure BDA0003101483520000032
Figure BDA0003101483520000033
定义。
定义10:最大池化操作。即对于输入的特征图,选取k×k区域中像素最大的值作为输出,其它的值都丢弃,优点是减小输入大小,使得神经网络能够专注于最重要的元素。
定义11:上采样操作。即采用内插值方法,在原有图像像素的基础上在像素点之间采用合适的插值算法插入新的元素,增加输入大小。
定义12:全局平均池化。即对输出的每一个通道的特征图的所有像素计算一个平均值,将得到一个维度等于输入维度的特征向量。
定义13:交叉熵损失。交叉熵是信息论中的一个重要概念,主要用于度量两个概率分布间的差异性,常在分类任务中使用。对于预测图像Xp和目标图像Xt而言,其数学表达式为:
Figure BDA0003101483520000034
其中i表示第i个像素点,而N表示总的像素的个数。
定义14:结构相似性损失(Structural SIMilarity,SSIM)。最初被用于图像质量评估,它将图像的相似度定义为亮度、对比度和结构相似程度三种组合的函数。对于两张图像X1和目标图像X2而言,其数学表示式为:
Figure BDA0003101483520000041
其中,均值μ表示亮度的估计,而标准差σ表示对比度,协方差C表示结构相似度,该损失的值域为[0,2],输出结果接近0 代表图像之间的相似度高。
定义15:交并比损失(Intersection over Union,IoU)。最初被用于衡量集合的相似度,并常被用于评价目标检测或者语义分割等任务。假定X(i,j)为图像X中每个像素的预测概率值, Y(i,j)∈{0,1}为像素位置(i,j)的真实标签,则其数学表达式为:
Figure BDA0003101483520000042
定义16:对比损失。对比学习利用输入图像的多个视图去学习一种特征嵌入,其基本思想是将正样本对的特征拉近,而推远负样本对的特征。其数学表示为:
Figure BDA0003101483520000043
Figure BDA0003101483520000044
其中v表示一个输入样本的特征向量,而v+
Figure BDA0003101483520000045
分别表示其一个正样本的特征向量和第j个负样本的特征向量,τ是一个超参数,exp(·)表示指数函数。
定义17:区域对比损失。即对于一对具有相同内容的图像,认为在局部区域上有对应的关系,将图像的不同区域视为对比学习中的不同视图。
定义18:平均像素精度误差。一种评估指标,即计算两张图像每个位置的像素之间的绝对误差,再求每个像素绝对误差的平均值。
定义19:F分数。用来衡量二分类模型精确度的一种指标,是准确率和召回率的调和平均数。
本发明技术方案为:一种基于区域对比学习的图像显著性可视化方法,该方法包括:
步骤1:对第一阶段的显著性目标检测数据集进行预处理;
获取MSRA10K数据集,先将数据集划分为真实RGB图像和显著性图像,并随机打乱图像对顺序;其次对输入图像进行尺寸归一化;最后对图像像素进行归一化至范围[0,1];
步骤2:构建第一阶段的基于GAN的显著性检测网络;
1)所述基于GAN的显著性检测网络包含:一个生成器G1,一个判别器D1和一个映射网络F,其中生成器又分为编码器部分和解码器部分,其输入为真实的RGB图像或真实的显著性图像,输出为预测的显著性图像;而判别器输入为图像,输出为表示真假的标量值,映射网络输入和输出均为特征;
所述生成器G1的输入层为1个标准卷积层和1个标准卷积块,包含两个分支,分别适用于 3维的RGB图像和1维的显著性图像,除了第一个标准卷积层外均网络共享;之后使用4个下采样层,每个下采样层分别包含4,6,3,3个卷积模块,除了第3个下采样层的最后一个卷积模块和每个下采样层中的第一个卷积模块后接最大池化操作,其余均为标准卷积层;之后再接2个标准卷积块,及5个上采样层,其中每个上采样层均包含3个标准卷积层,且最后一个卷积层后接上采样操作;最后接由1个标准卷积块和1个标准卷积层构成的输出层;生成器中除最后一层采用Sigmoid激活函数,其余层均采用ReLU激活函数,其中编码器部分为输入层、下采样层及2个标准卷积块,解码器部分包含上采样层和输出层;
判别器网络依次采用3个下采样层和3个全连接层,下采样层为两个标准卷积层后接最大池化操作,全连接层前两层采用Tanh激活函数,最后一层采用Sigmoid激活函数;映射网络则由6个输入维度不同的全连接块并行构成,全连接块包含两层全连接层,中间由ReLU激活函数连接;
2)构建的GAN模型中的生成器G1,其输入的真实RGB图像和显著性图像分别为Xr和Xg,分别经过输入层的两个分支,再经过1)中所描述的网络模块,最终得到显著性图像Xpre和Xidt
构建的GAN模型中的判别器D1,其输入为RGB图像与显著性图像的拼接,即(Xr,Xg)和 (Xr,Xpre),大小均为4×256×256,经过1)中所描述的网络模块最终得到1维向量,记作D1(Xr,Xg)和D1(Xr,Xpre);
构建的映射网络F,其输入为不同图像经过生成器中编码器部分不同网络层提取得到的嵌入特征;具体而言,对于图像Xr,Xg,Xpre和Xidt,定义编码器模型为E,其有L层子网络,则对于任意一张图像X∈{Xg,Xr,Xpre,Xidt},第i层网络的输出表示为Ei(X),Ei(X)经过对应维度的Fi网络得到嵌入特征,再从中采样得到最终的嵌入特征Fi(X);
步骤3:确定第一阶段的损失函数;
采用步骤2中对模型、图像和特征的定义,生成器G1的输入为Xr和Xg,输出为Xpre和Xidt;判别器D1的输入为(Xr,Xg)和(Xr,Xpre),输出为D1(Xr,Xg)和D1(Xr,Xpre),映射网络F的输入为Ei(X),X∈{Xg,Xr,Xpre,Xidt},输出为Fi(X),X∈{Xg,Xr,Xpre,Xidt}。则网络损失可以描述为:
Figure BDA0003101483520000051
Figure BDA0003101483520000061
其中,
Figure BDA0003101483520000062
为判别器的损失函数,
Figure BDA0003101483520000063
为生成器和映射网络的损失函数,
Figure BDA0003101483520000064
为期望函数,
Figure BDA0003101483520000065
Figure BDA0003101483520000066
Figure BDA0003101483520000067
分别为生成器的对抗损失、内容损失和多层区域对比损失,a,b为损失系数;
生成器的对抗损失
Figure BDA0003101483520000068
的数学表达式为:
Figure BDA0003101483520000069
内容损失包含三部分,分别为交叉熵损失,结构相似性损失和交并比损失;
其内容损失的数学表达式为:
Figure BDA00031014835200000610
多层区域对比损失则选用不同网络层的特征进行计算,其数学表达式为:
Figure BDA00031014835200000611
其中,i表示第i层网络层,j表示第j个采样区域,l表示定义16的对比损失,S表示总的采样区域数,S\j表示除j之外的采样区域,
Figure BDA00031014835200000612
表示X1提取的第i层的第j个特征向量,其正样本为对应的
Figure BDA00031014835200000613
其它区域的特征向量Fi S\j(X),X∈{X1,X2}则为负样本;
步骤4:训练第一阶段的显著性检测网络;
利用步骤3构建的损失函数对网络进行训练,在更新G1和F时固定D1的参数,而更新D1时则固定G1和F的参数,每次迭代交替更新一次,知道训练完成;
步骤5:测试第一阶段的显著性检测网络;
选取ECSSD数据集和DUTS-TE数据集,采用与步骤1相同的预处理方式,利用步骤4中训练好的生成器G1,对于每一张输入RGB图像Xg,得到其显著性图像Xpre
步骤6:对第二阶段的数据集进行预处理;
获取Caltech256数据集和ImageNet CLSLOC数据集作为训练集,首先随机打乱图像顺序;其次对输入图像进行尺寸归一化;最后对图像像素进行归一化至范围[-1,1];
步骤7:构建第二阶段的生成图像显著性可视化网络;
构建的GAN模型由三个子网络构成,包含一个生成器G,一个判别器D,一个编码器,其中,生成器输入为随机采样的高斯噪声,输出为图像,而判别器输入为图像,输出为表示真假的标量值,编码器的输入为图像,输出为嵌入特征;
生成器G依次采用1个全连接层,3个上采样残差网络块和1个标准卷积层,除了最后的卷积层采用Tanh激活函数,其余层均采用ReLU激活函数;判别器D依次采用4个下采样残差网络块,再经过全局平均池化,后接1个全连接层,均采用ReLU激活函数;编码器由第一阶段训练好的生成器G1与映射网络F一同构成;
步骤8:设计第二阶段的损失函数;
记真实图像为Xreal,定义生成器G的输入噪声为z,输出图像为G(z);定义编码器的输入为G(z),编码器的输出为映射网络F的输入,记为G1(G(z));定义判别器D的输入为Xreal和 G1(G(z)),输出分别记为D(Xreal)和D(G(z));则网络损失可以描述为:
Figure BDA0003101483520000071
Figure BDA0003101483520000072
其中,
Figure BDA0003101483520000073
为判别器的损失函数,
Figure BDA0003101483520000074
为生成器的损失函数,
Figure BDA0003101483520000075
为期望函数,
Figure BDA0003101483520000076
为区域对比损失,a为损失系数;
步骤9:训练第二阶段的生成对抗网络;
利用步骤7构建的损失函数对网络进行训练,编码器采用步骤4预训练好的网络,并在训练中保持固定,交替更新生成器和判别器,直到训练完成;
步骤10:测试第二阶段的生成对抗网络;
随机采样输入噪声z,利用步骤9中训练好的生成器G和步骤4训练好的生成器G1,对于每一张生成图像G(z),得到其显著性图像G1(G(z))。
该方法在算法的第一阶段,选用生成对抗网络作为基础框架,首次将区域对比损失应用于显著性目标检测任务,充分利用了有标签的显著性检测数据集的图像信息,利用了不同图像区域之间的关联,在显著性检测结果中保留了更多的边界信息,并改进显著性检测结果;在第二阶段,则通过预训练的显著性检测模型摄入了额外的数据信息,且以自监督的方式引入生成图像的区域对比损失,从而约束GAN的生成过程,提升了GAN模型的鲁棒性,且对生成结果生成显著性图像进行可视化,从而提升了模型的可解释性。
附图说明
图1为RGB图像和显著性图像示意图;
图2为本发明第一阶段的网络框架图;
图3为本发明第一阶段采用的标准卷积层和标准卷积块示意图;
图4为本发明第二阶段的网络框架图;
图5为本发明第二阶段采用的上采样残差卷积块和下采样残差卷积块示意图;
图6为本发明第二阶段的生成图像及显著性可视化结果示意图;
具体实施方式
步骤1:对第一阶段的显著性目标检测数据集进行预处理;
获取MSRA10K(http://mftp.mmcheng.net/Data/MSRA10K_Imgs_GT.zip)数据集,MSRA10K 数据集共包含10,000张真实RGB图像和对应的显著性图像。具体步骤为先将数据集划分为真实RGB图像和显著性图像,并随机打乱图像对顺序;其次对输入图像进行尺寸缩放,大小均为256×256;最后对图像像素进行归一化至范围[0,1]。
步骤2:构建第一阶段的基于GAN的显著性检测网络;
1)此步骤构建的GAN模型由三个子网络构成,包含一个生成器,一个判别器和一个映射网络,其中生成器又分为编码器部分和解码器部分。生成器记作G1,其输入为真实的RGB 图像或真实的显著性图像,输出为预测的显著性图像,而判别器记作D1,其输入为图像,输出为表示真假的标量值,映射网络记为F,其输入和输出均为特征。
生成器网络的输入层为1个标准卷积层和1个标准卷积块,包含两个分支,分别适用于3 维的RGB图像和1维的显著性图像,除了第一个标准卷积层外均网络共享;之后使用4个下采样层,每个下采样层分别包含4,6,3,3个卷积模块,除了第3个下采样层的最后一个卷积模块和每个下采样层中的第一个卷积模块后接最大池化操作,其余均为标准卷积层;之后再接2个标准卷积块,及5个上采样层,其中每个上采样层均包含3个标准卷积层,且最后一个卷积层后接上采样操作;最后接由1个标准卷积块和1个标准卷积层构成的输出层。生成器中除最后一层采用Sigmoid激活函数,其余层均采用ReLU激活函数,其中编码器部分为输入层、下采样层及2个标准卷积块,解码器部分包含上采样层和输出层。
判别器网络依次采用3个下采样层和3个全连接层,下采样层为两个标准卷积层后接最大池化操作,全连接层前两层采用Tanh激活函数,最后一层采用Sigmoid激活函数;映射网络则由6个输入维度不同的全连接块并行构成,全连接块包含两层全连接层,中间由ReLU激活函数连接。
生成器,判别器及映射网络的网络结构如图2所示,标准卷积层和标准卷积块如图3所示。
2)此步骤构建的GAN模型中的生成器,其输入的真实RGB图像和显著性图像分别为Xr和Xg,大小分别为3×256×256和1×256×256,分别经过输入层的两个分支得到维度同为64 的特征图,再经过1)中所描述的网络模块,最终得到大小为1×256×256的显著性图像Xpre和Xidt
此步骤构建的GAN模型中的判别器,其输入为RGB图像与显著性图像的拼接,即(Xr,Xg) 和(Xr,Xpre),大小均为4×256×256,经过1)中所描述的网络模块最终得到1维向量,记作 D1(Xr,Xg)和D1(Xr,Xpre);
此步骤构建的映射网络,其输入为不同图像经过生成器中编码器部分不同网络层提取得到的嵌入特征。具体而言,对于图像Xr,Xg,Xpre和Xidt,定义编码器模型为E,其有L层子网络,则对于任意一张图像X∈{Xg,Xr,Xpre,Xidt},第i层网络的输出表示为Ei(X),Ei(X)经过对应维度的Fi网络得到嵌入特征,再从中采样256个像素点,得到最终的嵌入特征Fi(X)。
步骤3:设计第一阶段的损失函数;
采用步骤2中对模型、图像和特征的定义,生成器G1的输入为Xr和Xg,输出为Xpre和Xidt;判别器D1的输入为(Xr,Xg)和(Xr,Xpre),输出为D1(Xr,Xg)和D1(Xr,Xpre),映射网络F的输入为Ei(X),X∈{Xg,Xr,Xpre,Xidt},输出为Fi(X),X∈{Xg,Xr,Xpre,Xidt}。则网络损失可以描述为:
Figure BDA0003101483520000091
Figure BDA0003101483520000092
其中,
Figure BDA0003101483520000093
为判别器的损失函数,
Figure BDA0003101483520000094
为生成器和映射网络的损失函数,
Figure BDA0003101483520000095
为期望函数,
Figure BDA0003101483520000096
Figure BDA0003101483520000097
Figure BDA0003101483520000098
分别为生成器的对抗损失、内容损失和多层区域对比损失,a,b为损失系数。
生成器的对抗损失
Figure BDA0003101483520000099
的数学表达式为:
Figure BDA00031014835200000910
内容损失包含三部分,分别为交叉熵损失,结构相似性损失和交并比损失,将Xpre和Xg分别代入定义10-12,其内容损失的数学表达式为:
Figure BDA0003101483520000101
多层区域对比损失则选用不同网络层的特征进行计算,参照定义13,其数学表达式为:
Figure BDA0003101483520000102
其中,i表示第i层网络层,j表示第j个采样区域,S表示总的采样区域数,S\j表示除j之外的采样区域,
Figure BDA0003101483520000103
表示X1提取的第i层的第j个特征向量,其正样本为对应的
Figure BDA0003101483520000104
其它区域的特征向量
Figure BDA0003101483520000105
则为负样本。
步骤4:训练第一阶段的显著性检测网络;
利用步骤3构建的损失函数对网络进行训练,在更新G1和F时固定D1的参数,而更新D1时则固定G1和F的参数,每次迭代交替更新一次;
步骤5:测试第一阶段的显著性检测网络;
选取ECSSD(http://www.cse.cuhk.edu.hk/leojia/projects/hsaliency/data/ECSSD/images.zip) 数据集和DUTS-TE(http://saliencydetection.net/duts/download/DUTS-TE.zip)数据集,分别包含1000张和5017张图像。采用与步骤1相同的预处理方式,利用步骤4中训练好的生成器G1,对于每一张输入RGB图像Xg,得到其显著性图像Xpre
步骤6:对第二阶段的数据集进行预处理;
获取Caltech256(http://www.vision.caltech.edu/Image_Datasets/Caltech256/256_ObjectCatego ries.tar)数据集和ImageNet CLSLOC(https://image-net.org/challenges/LSVRC/2017/index#loc) 数据集中的共10个类别的图像作为训练集,其图像数量为10496张。首先随机打乱图像顺序;其次对输入图像进行尺寸缩放,大小均为32×32;最后对图像像素进行归一化至范围[-1,1]。
步骤7:构建第二阶段的生成图像显著性可视化网络;
此步骤构建的GAN模型由三个子网络构成,包含一个生成器,一个判别器,一个编码器。其中,生成器记作G,其输入为随机采样的高斯噪声,输出为图像,而判别器记作D,其输入为图像,输出为表示真假的标量值,编码器的输入为图像,输出为嵌入特征。
生成器网络依次采用1个全连接层,3个上采样残差网络块和1个标准卷积层,除了最后的卷积层采用Tanh激活函数,其余层均采用ReLU激活函数;判别器网络依次采用4个下采样残差网络块,再经过全局平均池化,后接1个全连接层,均采用ReLU激活函数;编码器由第一阶段训练好的生成器G1与映射网络F一同构成,详细信息参见步骤2的描述。
生成器,判别器的网络结构如图4所示,上采样残差网络块以及下采样残差网络块如图5 所示。
步骤8:设计第二阶段的损失函数;
记真实图像为Xreal,定义生成器G的输入噪声为z,输出图像为G(z);判别器的输入为Xreal和G(z),它们的输出分别记为D(Xreal)和D(G(z));编码器的输入为G(z),通过上采样至256×256 大小,编码器中间过程生成的对应显著性图像为G1(G(z))。则网络损失可以描述为:
Figure BDA0003101483520000111
Figure BDA0003101483520000112
其中,
Figure BDA0003101483520000113
为判别器的损失函数,
Figure BDA0003101483520000114
为生成器的损失函数,
Figure BDA0003101483520000115
为期望函数,
Figure BDA0003101483520000116
为区域对比损失,a为损失系数。
步骤9:训练第二阶段的生成对抗网络;
利用步骤7构建的损失函数对网络进行训练,编码器采用步骤4预训练好的网络,并在训练中保持固定。此外,交替更新生成器和判别器;
步骤10:测试第二阶段的生成对抗网络;
随机采样输入噪声z,利用步骤9中训练好的生成器G和步骤4训练好的生成器G1,对于每一张生成图像G(z),得到其显著性图像G1(G(z))。
本发明使用Python语言和Pytorch深度学习框架。具体的实验参数如下:
第一阶段的实验参数:
图片大小:256×256
训练批次大小:4
迭代次数:500000
学习率:0.0002,在后125000次迭代时随迭代次数线性下降
损失系数:a为1,b为0.01
第二阶段的实验参数:
图片大小:32×32
训练批次大小:生成器为128,判别器为64
迭代次数:82000
学习率:0.0002,且随迭代次数线性下降
损失系数:a初始为0,在第57400次迭代时为1e-4,此后每8200次迭代增加5倍
实验结果:
第一阶段:在ECSSD数据集上,图像的平均像素精度误差为0.067,平均F分数为0.873,平均最大F分数为0.884,在DUTS-TE数据集上,图像的平均像素精度误差为0.085,平均F 分数为0.735,平均最大F分数为0.746。
第二阶段:随机生成图像及其显著性可视化结果如图6所示。

Claims (1)

1.一种基于区域对比学习的图像显著性可视化方法,该方法包括:
步骤1:对第一阶段的显著性目标检测数据集进行预处理;
获取MSRA10K数据集,先将数据集划分为真实RGB图像和显著性图像,并随机打乱图像对顺序;其次对输入图像进行尺寸归一化;最后对图像像素进行归一化至范围[0,1];
步骤2:构建第一阶段的基于GAN的显著性检测网络;
1)所述基于GAN的显著性检测网络包含:一个生成器G1,一个判别器D1和一个映射网络F,其中生成器又分为编码器部分和解码器部分,其输入为真实的RGB图像或真实的显著性图像,输出为预测的显著性图像;而判别器输入为图像,输出为表示真假的标量值,映射网络输入和输出均为特征;
所述生成器G1的输入层为1个标准卷积层和1个标准卷积块,包含两个分支,分别适用于3维的RGB图像和1维的显著性图像,除了第一个标准卷积层外均网络共享;之后使用4个下采样层,每个下采样层分别包含4,6,3,3个卷积模块,除了第3个下采样层的最后一个卷积模块和每个下采样层中的第一个卷积模块后接最大池化操作,其余均为标准卷积层;之后再接2个标准卷积块,及5个上采样层,其中每个上采样层均包含3个标准卷积层,且最后一个卷积层后接上采样操作;最后接由1个标准卷积块和1个标准卷积层构成的输出层;生成器中除最后一层采用Sigmoid激活函数,其余层均采用ReLU激活函数,其中编码器部分为输入层、下采样层及2个标准卷积块,解码器部分包含上采样层和输出层;
判别器网络依次采用3个下采样层和3个全连接层,下采样层为两个标准卷积层后接最大池化操作,全连接层前两层采用Tanh激活函数,最后一层采用Sigmoid激活函数;映射网络则由6个输入维度不同的全连接块并行构成,全连接块包含两层全连接层,中间由ReLU激活函数连接;
2)构建的GAN模型中的生成器G1,其输入的真实RGB图像和显著性图像分别为Xr和Xg,分别经过输入层的两个分支,再经过1)中所描述的网络模块,最终得到显著性图像Xpre和Xidt
构建的GAN模型中的判别器D1,其输入为RGB图像与显著性图像的拼接,即(Xr,Xg)和(Xr,Xpre),大小均为4×256×256,经过1)中所描述的网络模块最终得到1维向量,记作D1(Xr,Xg)和D1(Xr,Xpre);
构建的映射网络F,其输入为不同图像经过生成器中编码器部分不同网络层提取得到的嵌入特征;具体而言,对于图像Xr,Xg,Xpre和Xidt,定义编码器模型为E,其有L层子网络,则对于任意一张图像X∈{Xg,Xr,Xpre,Xidt},第i层网络的输出表示为Ei(X),Ei(X)经过对应维度的Fi网络得到嵌入特征,再从中采样得到最终的嵌入特征Fi(X);
步骤3:确定第一阶段的损失函数;
采用步骤2中对模型、图像和特征的定义,生成器G1的输入为Xr和Xg,输出为Xpre和Xidt;判别器D1的输入为(Xr,Xg)和(Xr,Xpre),输出为D1(Xr,Xg)和D1(Xr,Xpre),映射网络F的输入为Ei(X),X∈{Xg,Xr,Xpre,Xidt},输出为Fi(X),X∈{Xg,Xr,Xpre,Xidt}, 则网络损失可以描述为:
Figure FDA0003101483510000021
其中,
Figure FDA0003101483510000022
为判别器的损失函数,
Figure FDA0003101483510000023
为生成器和映射网络的损失函数,
Figure FDA00031014835100000215
为期望函数,
Figure FDA0003101483510000024
Figure FDA0003101483510000025
Figure FDA0003101483510000026
分别为生成器的对抗损失、内容损失和多层区域对比损失,a,b为损失系数;
生成器的对抗损失
Figure FDA0003101483510000027
的数学表达式为:
Figure FDA0003101483510000028
内容损失包含三部分,分别为交叉熵损失,结构相似性损失和交并比损失;
其内容损失的数学表达式为:
Figure FDA0003101483510000029
多层区域对比损失则选用不同网络层的特征进行计算,其数学表达式为:
Figure FDA00031014835100000210
其中,i表示第i层网络层,j表示第j个采样区域,
Figure FDA00031014835100000211
表示定义16的对比损失,S表示总的采样区域数,S\j表示除j之外的采样区域,
Figure FDA00031014835100000212
表示X1提取的第i层的第j个特征向量,其正样本为对应的
Figure FDA00031014835100000214
其它区域的特征向量
Figure FDA00031014835100000213
X∈{X1,X2}则为负样本;
步骤4:训练第一阶段的显著性检测网络;
利用步骤3构建的损失函数对网络进行训练,在更新G1和F时固定D1的参数,而更新D1时则固定G1和F的参数,每次迭代交替更新一次,知道训练完成;
步骤5:测试第一阶段的显著性检测网络;
选取ECSSD数据集和DUTS-TE数据集,采用与步骤1相同的预处理方式,利用步骤4中训练好的生成器G1,对于每一张输入RGB图像Xg,得到其显著性图像Xpre
步骤6:对第二阶段的数据集进行预处理;
获取Caltech256数据集和ImageNet CLSLOC数据集作为训练集,首先随机打乱图像顺序;其次对输入图像进行尺寸归一化;最后对图像像素进行归一化至范围[-1,1];
步骤7:构建第二阶段的生成图像显著性可视化网络;
构建的GAN模型由三个子网络构成,包含一个生成器G,一个判别器D,一个编码器,其中,生成器输入为随机采样的高斯噪声,输出为图像,而判别器输入为图像,输出为表示真假的标量值,编码器的输入为图像,输出为嵌入特征;
生成器G依次采用1个全连接层,3个上采样残差网络块和1个标准卷积层,除了最后的卷积层采用Tanh激活函数,其余层均采用ReLU激活函数;判别器D依次采用4个下采样残差网络块,再经过全局平均池化,后接1个全连接层,均采用ReLU激活函数;编码器由第一阶段训练好的生成器G1与映射网络F一同构成;
步骤8:设计第二阶段的损失函数;
记真实图像为Xreal,定义生成器G的输入噪声为z,输出图像为G(z);定义编码器的输入为G(z),编码器的输出为映射网络F的输入,记为G1(G(z));定义判别器D的输入为Xreal和G1(G(z)),输出分别记为D(Xreal)和D(G(z));则网络损失可以描述为:
Figure FDA0003101483510000031
Figure FDA0003101483510000032
其中,
Figure FDA0003101483510000033
为判别器的损失函数,
Figure FDA0003101483510000034
为生成器的损失函数,
Figure FDA0003101483510000035
为期望函数,
Figure FDA0003101483510000036
为区域对比损失,a为损失系数;
步骤9:训练第二阶段的生成对抗网络;
利用步骤7构建的损失函数对网络进行训练,编码器采用步骤4预训练好的网络,并在训练中保持固定,交替更新生成器和判别器,直到训练完成;
步骤10:测试第二阶段的生成对抗网络;
随机采样输入噪声z,利用步骤9中训练好的生成器G和步骤4训练好的生成器G1,对于每一张生成图像G(z),得到其显著性图像G1(G(z))。
CN202110624243.2A 2021-06-04 2021-06-04 一种基于区域对比学习的图像显著性可视化方法 Active CN113450313B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110624243.2A CN113450313B (zh) 2021-06-04 2021-06-04 一种基于区域对比学习的图像显著性可视化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110624243.2A CN113450313B (zh) 2021-06-04 2021-06-04 一种基于区域对比学习的图像显著性可视化方法

Publications (2)

Publication Number Publication Date
CN113450313A CN113450313A (zh) 2021-09-28
CN113450313B true CN113450313B (zh) 2022-03-15

Family

ID=77810725

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110624243.2A Active CN113450313B (zh) 2021-06-04 2021-06-04 一种基于区域对比学习的图像显著性可视化方法

Country Status (1)

Country Link
CN (1) CN113450313B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115424119B (zh) * 2022-11-04 2023-03-24 之江实验室 基于语义分形的可解释gan的图像生成训练方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845471A (zh) * 2017-02-20 2017-06-13 深圳市唯特视科技有限公司 一种基于生成对抗网络的视觉显著性预测方法
CN108537743A (zh) * 2018-03-13 2018-09-14 杭州电子科技大学 一种基于生成对抗网络的面部图像增强方法
CN110310343A (zh) * 2019-05-28 2019-10-08 西安万像电子科技有限公司 图像处理方法及装置
CN111369522A (zh) * 2020-03-02 2020-07-03 合肥工业大学 基于生成对抗卷积神经网络的光场显著性目标检测方法
CN111696027A (zh) * 2020-05-20 2020-09-22 电子科技大学 一种基于适应性注意力机制的多模态的图像风格迁移方法
CN112232156A (zh) * 2020-09-30 2021-01-15 河海大学 一种基于多头注意力生成对抗网络的遥感场景分类方法
CN112435221A (zh) * 2020-11-10 2021-03-02 东南大学 一种基于生成式对抗网络模型的图像异常检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210012486A1 (en) * 2019-07-09 2021-01-14 Shenzhen Malong Technologies Co., Ltd. Image synthesis with generative adversarial network

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845471A (zh) * 2017-02-20 2017-06-13 深圳市唯特视科技有限公司 一种基于生成对抗网络的视觉显著性预测方法
CN108537743A (zh) * 2018-03-13 2018-09-14 杭州电子科技大学 一种基于生成对抗网络的面部图像增强方法
CN110310343A (zh) * 2019-05-28 2019-10-08 西安万像电子科技有限公司 图像处理方法及装置
CN111369522A (zh) * 2020-03-02 2020-07-03 合肥工业大学 基于生成对抗卷积神经网络的光场显著性目标检测方法
CN111696027A (zh) * 2020-05-20 2020-09-22 电子科技大学 一种基于适应性注意力机制的多模态的图像风格迁移方法
CN112232156A (zh) * 2020-09-30 2021-01-15 河海大学 一种基于多头注意力生成对抗网络的遥感场景分类方法
CN112435221A (zh) * 2020-11-10 2021-03-02 东南大学 一种基于生成式对抗网络模型的图像异常检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Latent Dirichlet allocation based generative adversarial networks;Lili Pan等;《Neural Networks》;20201231;第461-476页 *
Performance Evaluation of Generative Adversarial Networks for Computer Vision Applications;Sravani Nannapaneni 等;《International Information and Enineering Technology Association》;20200229;第83-92页 *
基于显著图融合的无人机载热红外图像目标检测方法;赵兴科 等;《自动化学报》;20210421;第2020-2031页 *

Also Published As

Publication number Publication date
CN113450313A (zh) 2021-09-28

Similar Documents

Publication Publication Date Title
CN110111366B (zh) 一种基于多级损失量的端到端光流估计方法
CN109615582B (zh) 一种基于属性描述生成对抗网络的人脸图像超分辨率重建方法
CN107977932B (zh) 一种基于可鉴别属性约束生成对抗网络的人脸图像超分辨率重建方法
CN110929736B (zh) 多特征级联rgb-d显著性目标检测方法
CN110163286B (zh) 一种基于混合池化的领域自适应图像分类方法
CN113421269A (zh) 一种基于双分支深度卷积神经网络的实时语义分割方法
CN111738363B (zh) 基于改进的3d cnn网络的阿尔茨海默病分类方法
CN112396607A (zh) 一种可变形卷积融合增强的街景图像语义分割方法
CN112329780B (zh) 一种基于深度学习的深度图像语义分割方法
CN110827265B (zh) 基于深度学习的图片异常检测方法
CN110458178B (zh) 多模态多拼接的rgb-d显著性目标检测方法
CN111476133B (zh) 面向无人驾驶的前背景编解码器网络目标提取方法
CN107622280B (zh) 基于场景分类的模块化处方式图像显著性检测方法
CN114119975A (zh) 一种语言引导的跨模态实例分割方法
CN114972378A (zh) 一种基于掩码注意力机制的脑肿瘤mri图像分割方法
Li et al. SOSMaskFuse: An infrared and visible image fusion architecture based on salient object segmentation mask
CN114821050A (zh) 一种基于transformer的指称图像分割方法
CN113450313B (zh) 一种基于区域对比学习的图像显著性可视化方法
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法
CN114494786A (zh) 一种基于多层协调卷积神经网络的细粒度图像分类方法
CN112686830B (zh) 基于图像分解的单一深度图的超分辨率方法
CN110942463B (zh) 一种基于生成对抗网络的视频目标分割方法
CN117011219A (zh) 物品质量检测方法、装置、设备、存储介质和程序产品
CN114463614A (zh) 使用生成式参数的层次性显著建模的显著性目标检测方法
Zhou et al. Terrain Classification Algorithm for Lunar Rover Using a Deep Ensemble Network with High-Resolution Features and Interdependencies between Channels

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant