CN115294359B - 一种基于深度学习的高分辨率图像显著性目标检测方法 - Google Patents

一种基于深度学习的高分辨率图像显著性目标检测方法 Download PDF

Info

Publication number
CN115294359B
CN115294359B CN202210990986.6A CN202210990986A CN115294359B CN 115294359 B CN115294359 B CN 115294359B CN 202210990986 A CN202210990986 A CN 202210990986A CN 115294359 B CN115294359 B CN 115294359B
Authority
CN
China
Prior art keywords
resolution
layer
input
network
low
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210990986.6A
Other languages
English (en)
Other versions
CN115294359A (zh
Inventor
费晓波
周晓飞
张继勇
李世锋
周振
何帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Power Data Service Co ltd
Hangzhou Dianzi University
Original Assignee
China Power Data Service Co ltd
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Power Data Service Co ltd, Hangzhou Dianzi University filed Critical China Power Data Service Co ltd
Priority to CN202210990986.6A priority Critical patent/CN115294359B/zh
Publication of CN115294359A publication Critical patent/CN115294359A/zh
Application granted granted Critical
Publication of CN115294359B publication Critical patent/CN115294359B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种基于深度学习的高分辨率图像显著性目标检测方法,包括步骤一、低分辨率分支的特征提取;步骤二、中分辨率分支的特征提取;步骤三、高分辨率分支的特征提取;步骤四、多分辨率特征的融合;步骤五、残差解码网络得到预测图;步骤六、级联标签监督并进行端到端训练。本发明提供的网络模型是并行网络,可以在充分有效地利用语义信息和细节信息来实现对高分辨率图像中显著性目标的预测的同时,在网络中保持高分辨率。

Description

一种基于深度学习的高分辨率图像显著性目标检测方法
技术领域
本发明涉及一种基于深度学习的高分辨率图像显著性目标检测方法,属于计算机视觉技术领域。
背景技术
显著性检测是计算机视觉领域的一项非常重要的任务,受到广泛的研究和探讨,它旨在准确检测和分割场景中最独特的目标区域。人类视觉系统在面对自然场景时具有快速搜索和定位感兴趣目标的能力,这种视觉注意机制是人们日常生活中处理视觉信息的重要机制。随着互联网带来的大数据量的传播,如何从海量的图像和视频数据中快速地获取重要信息,已经成为计算机视觉领域一个关键的问题。通过在计算机视觉任务中引入这种视觉注意机制,即视觉显著性,可以为视觉信息处理任务带来一系列重大的帮助和改善。显著性物体检测的目的即是从图像中定位最有吸引力和视觉上独特的物体或区域,大量应用于图像分割、目标重定位、目标图像前景注释等领域。
随着大规模基准测试和深度学习的发展,基于神经网络的方法在显著性目标检测方面取得了重大突破。然而,现有的显著性目标检测方法通常仅限于低分辨率(400*400或更小)的输入图像。这一缺点阻碍了它们用于需要高分辨率、细节感知结果的高级实际应用。在处理高分辨率图像时,通常会缩小输入规模以提取语义信息,在这个过程中,许多细节不可避免地丢失了,会出现严重的遗传缺陷,即边界模糊。因此,现有的适用于低分辨率输入的显著性检测方法不适用于高分辨率显著性检测任务。同时,对于训练神经网络直接处理高分辨率图像中的显著目标分割的研究很少。然而,这项工作非常重要,因为它可以激发或实现许多实际任务,如医学图像分析、遥感图像分析等。因此,开展对处理高分辨率图像的显著性检测方法的研究是非常有意义和有必要的。
发明内容
本发明的目的是针对现有方法存在的不足,提供一种基于深度学习的高分辨率图像显著性目标检测方法。
为实现上述目的,本发明的技术方案是:
一种基于深度学习的高分辨率图像显著性目标检测方法,包括以下步骤:
步骤一、低分辨率分支的特征提取:利用卷积神经网络和金字塔池化模块(PPM)构建语义特征提取网络,使用低分辨率输入进行语义信息提取,得到低分辨率分支最终的粗略预测特征;所述卷积神经网络是在ResNet模型的基础上进行微调得到。
对原始图像X1进行下采样操作得到新的图像X4,下采样因子为0.25,如下:
X4=Downsampling(X1)
进行语义特征提取网络的输入,考虑到直接使用经典的框架检测高分辨率图像输入是非常耗时的,为了克服这个困难,使用低分辨率输入进行语义信息提取,如下
M4_1=Conv_sub(X4)
M4_i+1=resnet_layer_i(M4_i)
其中,i=1,2,3,4;Conv_sub卷积块包括了3×3的卷积层,BN层,ReLU激活函数和3×3的最大池化层;
利用PPM模块,有效增大感受野,聚合不同区域的上下文信息,以提高网络获取全局信息的能力,得到低分辨率分支最终的粗略预测特征M4_5,如下:
M4_5=PPM(M4_5)。
步骤二、中分辨率分支的特征提取:利用低分辨率分支中的卷积神经网络的前三层结构构造特征提取网络,得到中分辨率支路的包含细节信息的粗略预测图;
利用低分辨率分支中的卷积神经网络的前三层结构构造特征提取网络,高分辨率图像输入本身会带来网络的计算量和内存使用量大大增加的问题,加上采用多分支的结构,更会加剧这一问题,因此,考虑到这一问题,本发明的中分辨率分支采用低分辨率分支的前三层结构,以实现和低分辨率分支部分网络共享参数。
对原始图像X1进行下采样操作得到新的图像X2,下采样因子为0.5,如下:
X2=Downsampling(X1)
进行中分辨率分支特征提取网络的输入,输出特征M2_3,与低分辨率分支的输出特征M4_3进行特征融合,使得较高分辨率的表示可以接收较低分辨率的表示信息,以实现多尺度的信息融合,从而得到丰富的高分辨率表示,如下:
M2_1=Conv_sub(X2)
M2_i+1=resnet_layer_i(M2_i)
其中,i=1,2;Conv_s2卷积块包括了3×3的卷积层,BN层和ReLU激活函数。
步骤三、高分辨率分支的特征提取:利用三个卷积块构造高分辨率分支特征提取网络,得到高分辨率支路的包含细节信息的粗略预测图;所述卷积块是由一个卷积层,一个批量归一化层和一个ReLU激活函数层组成。考虑到高分辨率图像输入会带来巨大的计算量和内存消耗,因此我们选择轻量级网络。
进行高分辨率分支特征提取网络的输入,输出特征是M1_3,与中分辨率分支的卷积网络第二层的输出特征进行拼接卷积操作,使较高分辨率的表示可以接收较低分辨率的表示信息,以实现多尺度的信息融合,从而得到丰富的高分辨率表示。如下:
M1_i=Conv_ei(X1)
其中i=1,2,3;Conv_ei包括了3×3的卷积层,BN层和ReLU激活函数;Conv_s1包括了3×3的卷积层,BN层和ReLU激活函数。
步骤四、多分辨率特征的融合:构建多分辨率特征融合网络,得到融合后的最终预测图,所述多分辨率特征融合网络是由两个分支或三个分支构成;
进行第一个多分辨率特征融合网络的输入,低分辨率分支的输出特征M4_5和中分辨率分支的输出特征M2_3将分别作为低分辨率输入和高分辨率输入,对低分辨率输入特征进行上采样操作,上采样因子为2,使其与高分辨率输入具有相同的空间大小;对其进行空洞卷积操作以在不增加计算量的前提下改善特征信息;对高分辨率输入进行卷积操作,使得它的通道数同经过上述一系列操作后的低分辨率特征保持一致;后对这两个特征用批量归一化层进行归一化操作;将两个特征相加经过一个ReLU激活函数后得到最终的输出结果M24,同时,将M24送入到Sigmoid激活函数层,得到原图大小的预测图pred_16,具体如下:
M4_51=Upsampling(M4_5)
M4_52=BN(DilatedConv(M4_51))
M2_31=BN(Conv(M2_3))
M24=ReLU(SUM(M4_51+M2_31))
pred_16=Sigmoid(Conv_cls(M24))。
进行第二个多分辨率特征融合网络的输入,低分辨率分支的输出特征M4_5,第二个特征级联网络的输出特征M24以及高分辨率分支的输出特征M1_3将分别作为低分辨率输入,中分辨率输入和高分辨率输入,
对低分辨率输入特征进行上采样操作,上采样因子为4,使得它与高分辨率输入具有相同的空间大小;再对其进行空洞卷积操作以在不增加计算量的前提下改善特征信息;对中分辨率输入做与低分辨率输入同样的操作,先进行上采样操作,上采样因子为2,使得它与高分辨率输入具有相同的空间大小;再对其进行空洞卷积操作;接着对高分辨率输入进行卷积操作,使得它的通道数同经过上述一系列操作后的低、中分辨率特征保持一致;然后对这三个特征用批量归一化层进行归一化操作;最后,将三个特征相加经过一个ReLU激活函数后得到最终的输出结果M124,同时,将M124送入到Sigmoid激活函数层,得到原图大小的预测图pred_8,具体如下:
M4_51=Upsampling(M4_5)
M4_52=BN(DilatedConv(M4_51))
M24_1=Upsampling(M24)
M24_2=BN(DilatedConv(M24_1))
M1_31=BN(Conv(M1_3))
M124=ReLU(SUM(M4_52+M24_2+M1_31))
pred_8=Sigmoid(Conv_cls(M124))
其中,Conv_cls层是一个1×1的卷积层。
步骤五、残差解码网络得到预测图,残差解码网络包括四个由卷积层、批量归一化层、ReLU激活函数组成的卷积组,一个卷积层和一个sigmoid激活函数;构建解码网络。随着网络越来越深,训练变得越来越难,网络的优化变得越来越难,会导致在实际情况中,越深的网络训练效果会更差,即出现退化问题。考虑到这个原因,我们构建了残差解码网络。
进行残差解码网络的输入。将特征M124输入到解码网络中,用高分辨率分支上的各层输出特征分别进行残差连接,得到最终的预测图pred,具体如下
I1=M124
pred=Sigmoid(Conv_cls(Conv_d4(I4)))
其中,(i,j)组分别为(1,3),(2,2),(3,1),上采样率为2;Conv_dj(j=1,2,3,4)包括了3×3的卷积层,BN层和ReLU激活函数。
步骤六:级联标签监督并进行端到端训练:对两个级联特征输出结果以及最终结果进行端到端监督训练。
用SGD优化器对模型进行训练,其中初始学习率设置为0.001,权重衰减为0.00l,动量为0.9,对网络进行随机初始化,用不同尺寸的真值图来监督各分支的学习情况,损失函数采用交叉熵损失函数和IOU损失函数,具体如下:
Li=BCE(pred_i,target_i)+IOU(pred_i,target_i)
Loss=L1+0.4*L2+0.4*L3
其中,i=1,2,3,分别表示计算原图大小,原图大小,/>原图大小的预测图和真值图之间的损失。
本发明方法包括高分辨率分支提取网络、中分辨率分支提取网络、低分辨率分支提取网络、多分辨率特征融合网络、残差解码网络。模型的输入是一张原始的高分辨率图像。首先,由三个分支网络分别提取不同分辨率的特征,同时用较低分辨率分支的特征强化较高分辨率分支的特征。然后,采用多分辨率特征融合网络模块,将不同分辨率的特征进行融合,有效利用低分辨率的语义信息和高分辨率的图像的细节信息。将融合得到的特征与高分辨率分支上的特征相结合输入到残差解码网络进行预测,得到高分辨率图像的最终预测图。本发明方法提供的网络模型是并行网络,可以在充分有效地利用语义信息和和细节信息来实现对高分辨率图像中显著性目标的预测的同时,在网络中保持高分辨率。
本发明主要优势在于两个方面:一方面,采用多分支结构,将高、中、低分辨率分支并行连接,并且将深度网络提取到的特征融合到浅层网络中,以增强高分辨率图像的特征表示。本发明在中低分辨率分支中采用深度的残差网络以提取语义信息,在高分辨率分支采用浅层网络以提取细节信息,在网络中保持高分辨率的同时,尽可能地减少计算成本和存储容量。另一方面,多分辨率特征融合网络与多分辨率标签监督一起,有效地利用了低分辨率的语义信息和高分辨率图像细节信息,并且可以以较低的计算成本逐步恢复和细化显著性目标预测。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于深度学习的高分辨率图像显著性目标检测方法的框架图;
图2为本发明基于深度学习的高分辨率图像显著性目标检测方法中多分辨率特征融合网络模块的示意图(1);
图3为本发明基于深度学习的高分辨率图像显著性目标检测方法中多分辨率特征融合网络模块的示意图(2);
图4为本发明基于深度学习的高分辨率图像显著性目标检测方法的结果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例所提供的一种基于深度学习的高分辨率图像显著性目标检测方法,包括以下步骤:
步骤一、低分辨率分支的特征提取:利用卷积神经网络和金字塔池化模块(PPM)构建语义特征提取网络,使用低分辨率输入进行语义信息提取,得到低分辨率分支最终的粗略预测特征;所述卷积神经网络是在ResNet模型的基础上进行微调得到。
对原始图像X1进行下采样操作得到新的图像X4,下采样因子为0.25,如下:
X4=Downsampling(X1)
进行语义特征提取网络的输入,考虑到直接使用经典的框架检测高分辨率图像输入是非常耗时的,为了克服这个困难,使用低分辨率输入进行语义信息提取,如下
M4_1=Conv_sub(X4)
M4_i+1=resnet_layer_i(M4_i)
其中,i=1,2,3,4;Conv_sub卷积块包括了3×3的卷积层,BN层,ReLU激活函数和3×3的最大池化层;
利用PPM模块,有效增大感受野,聚合不同区域的上下文信息,以提高网络获取全局信息的能力,得到低分辨率分支最终的粗略预测特征M4_5,如下:
M4_5=PPM(M4_5)。
步骤二、中分辨率分支的特征提取:利用低分辨率分支中的卷积神经网络的前三层结构构造特征提取网络,得到中分辨率支路的包含细节信息的粗略预测图;
利用低分辨率分支中的卷积神经网络的前三层结构构造特征提取网络,高分辨率图像输入本身会带来网络的计算量和内存使用量大大增加的问题,加上采用多分支的结构,更会加剧这一问题,因此,考虑到这一问题,本发明的中分辨率分支采用低分辨率分支的前三层结构,以实现和低分辨率分支部分网络共享参数。
对原始图像X1进行下采样操作得到新的图像X2,下采样因子为0.5,如下:
X2=Downsampling(X1)
进行中分辨率分支特征提取网络的输入,输出特征M2_3,与低分辨率分支的输出特征M4_3进行特征融合,使得较高分辨率的表示可以接收较低分辨率的表示信息,以实现多尺度的信息融合,从而得到丰富的高分辨率表示,如下:
M2_1=Conv_sub(X2)
M2_i+1=resnet_layer_i(M2_i)
其中,i=1,2;Conv_s2卷积块包括了3×3的卷积层,BN层和ReLU激活函数。
步骤三、高分辨率分支的特征提取:利用三个卷积块构造高分辨率分支特征提取网络,得到高分辨率支路的包含细节信息的粗略预测图;所述卷积块是由一个卷积层,一个批量归一化层和一个ReLU激活函数层组成。考虑到高分辨率图像输入会带来巨大的计算量和内存消耗,因此我们选择轻量级网络。
进行高分辨率分支特征提取网络的输入,输出特征是M1_3,与中分辨率分支的卷积网络第二层的输出特征进行拼接卷积操作,使较高分辨率的表示可以接收较低分辨率的表示信息,以实现多尺度的信息融合,从而得到丰富的高分辨率表示。如下:
M1_i=Conv_ei(X1)
其中i=1,2,3;Conv_ei包括了3×3的卷积层,BN层和ReLU激活函数;Conv_s1包括了3×3的卷积层,BN层和ReLU激活函数。
步骤四、多分辨率特征的融合:构建多分辨率特征融合网络,所述多分辨率特征融合网络是由两个分支或三个分支构成,得到融合后的最终预测图;
进行第一个多分辨率特征融合网络的输入,低分辨率分支的输出特征M4_5和中分辨率分支的输出特征M2_3将分别作为低分辨率输入和高分辨率输入,对低分辨率输入特征进行上采样操作,上采样因子为2,使其与高分辨率输入具有相同的空间大小;对其进行空洞卷积操作以在不增加计算量的前提下改善特征信息;对高分辨率输入进行卷积操作,使得它的通道数同经过上述一系列操作后的低分辨率特征保持一致;后对这两个特征用批量归一化层进行归一化操作;将两个特征相加经过一个ReLU激活函数后得到最终的输出结果M24,同时,将M24送入到Sigmoid激活函数层,得到原图大小的预测图pred_16,具体如下:
M4_51=Upsampling(M4_5)
M4_52=BN(DilatedConv(M4_51))
M2_31=BN(Conv(M2_3))
M24=ReLU(SUM(M4_51+M2_31))
pred_16=Sigmoid(Conv_cls(M24))。
进行第二个多分辨率特征融合网络的输入,低分辨率分支的输出特征M4_5,第二个特征级联网络的输出特征M24以及高分辨率分支的输出特征M1_3将分别作为低分辨率输入,中分辨率输入和高分辨率输入,
对低分辨率输入特征进行上采样操作,上采样因子为4,使得它与高分辨率输入具有相同的空间大小;再对其进行空洞卷积操作以在不增加计算量的前提下改善特征信息;对中分辨率输入做与低分辨率输入同样的操作,先进行上采样操作,上采样因子为2,使得它与高分辨率输入具有相同的空间大小;再对其进行空洞卷积操作;接着对高分辨率输入进行卷积操作,使得它的通道数同经过上述一系列操作后的低、中分辨率特征保持一致;然后对这三个特征用批量归一化层进行归一化操作;最后,将三个特征相加经过一个ReLU激活函数后得到最终的输出结果M124,同时,将M124送入到Sigmoid激活函数层,得到原图大小的预测图pred_8,具体如下:
M4_51=Upsampling(M4_5)
M4_52=BN(DilatedConv(M4_51))
M24_1=Upsampling(M24)
M24_2=BN(DilatedConv(M24_1))
M1_31=BN(Conv(M1_3))
M124=ReLU(SUM(M4_52+M24_2+M1_31))
pred_8=Sigmoid(Conv_cls(M124))
其中,Conv_cls层是一个1×1的卷积层。
步骤五、残差解码网络得到预测图,残差解码网络包括四个由卷积层、批量归一化层、ReLU激活函数组成的卷积组,一个卷积层和一个sigmoid激活函数;构建解码网络。随着网络越来越深,训练变得越来越难,网络的优化变得越来越难,会导致在实际情况中,越深的网络训练效果会更差,即出现退化问题。考虑到这个原因,我们构建了残差解码网络。
进行残差解码网络的输入。将特征M124输入到解码网络中,用高分辨率分支上的各层输出特征分别进行残差连接,得到最终的预测图pred,具体如下
I1=M124
pred=Sigmoid(Conv_cls(Conv_d4(I4)))
其中,(i,j)组分别为(1,3),(2,2),(3,1),上采样率为2;Conv_dj(j=1,2,3,4)包括了3×3的卷积层,BN层和ReLU激活函数。
步骤六:级联标签监督并进行端到端训练:对两个级联特征输出结果以及最终结果进行端到端监督训练。
用SGD优化器对模型进行训练,其中初始学习率设置为0.001,权重衰减为0.001,动量为0.9,对网络进行随机初始化,用不同尺寸的真值图来监督各分支的学习情况,损失函数采用交叉熵损失函数和IOU损失函数,具体如下:
Li=BCE(pred_i,target_i)+IOU(pred_i,target_i)
Loss=L1+0.4*L2+0.4*L3
其中,i=1,2,3,分别表示计算原图大小,原图大小,/>原图大小的预测图和真值图之间的损失。
以上结合附图对本发明的实施方式作了详细说明,但本发明不限于所描述的实施方式。对于本领域的技术人员而言,在不脱离本发明原理和精神的情况下,对这些实施方式进行多种变化、修改、替换和变型,仍落入本发明的保护范围内。

Claims (7)

1.一种基于深度学习的高分辨率图像显著性目标检测方法,其特征在于:包括以下步骤:
步骤一、低分辨率分支的特征提取:利用卷积神经网络和金字塔池化模块构建语义特征提取网络,使用低分辨率输入进行语义信息提取,得到低分辨率分支最终的粗略预测特征;
步骤二、中分辨率分支的特征提取:利用低分辨率分支中的卷积神经网络的前三层结构构造特征提取网络,得到中分辨率支路的包含细节信息的粗略预测图;
步骤三、高分辨率分支的特征提取:利用三个卷积块构造高分辨率分支特征提取网络,得到高分辨率支路的包含细节信息的粗略预测图;
步骤四、多分辨率特征的融合:构建多分辨率特征融合网络,所述多分辨率特征融合网络是由两个分支或三个分支构成,得到融合后的最终预测图;
所述步骤四具体包括:
进行第一个多分辨率特征融合网络的输入,低分辨率分支的输出特征和中分辨率分支的输出特征/>将分别作为低分辨率输入和高分辨率输入,对低分辨率输入特征进行上采样操作,上采样因子为2,使其与高分辨率输入具有相同的空间大小;对其进行空洞卷积操作以在不增加计算量的前提下改善特征信息;对高分辨率输入进行卷积操作,使得它的通道数同经过上述一系列操作后的低分辨率特征保持一致;后对这两个特征用批量归一化层进行归一化操作;将两个特征相加经过一个ReLU激活函数后得到最终的输出结果/>,同时,将/>送入到Sigmoid激活函数层,得到/>原图大小的预测图/>,具体如下:
Conv_cls层是一个1×1的卷积层;
进行第二个多分辨率特征融合网络的输入,低分辨率分支的输出特征,第二个特征级联网络的输出特征/>以及高分辨率分支的输出特征/>将分别作为低分辨率输入,中分辨率输入和高分辨率输入,
对低分辨率输入特征进行上采样操作,上采样因子为4,使得它与高分辨率输入具有相同的空间大小;再对其进行空洞卷积操作以在不增加计算量的前提下改善特征信息;对中分辨率输入做与低分辨率输入同样的操作,先进行上采样操作,上采样因子为2,使得它与高分辨率输入具有相同的空间大小;再对其进行空洞卷积操作;接着对高分辨率输入进行卷积操作,使得它的通道数同经过上述一系列操作后的低、中分辨率特征保持一致;然后对这三个特征用批量归一化层进行归一化操作;最后,将三个特征相加经过一个ReLU激活函数后得到最终的输出结果,同时,将/>送入到Sigmoid激活函数层,得到/>原图大小的预测图/>,具体如下:
其中,/>层是一个1×1的卷积层;
步骤五、残差解码网络得到预测图,残差解码网络包括四个由卷积层、批量归一化层、ReLU激活函数组成的卷积组,一个卷积层和一个sigmoid激活函数;
所述步骤五具体包括:
进行残差解码网络的输入,将特征输入到解码网络中,用高分辨率分支上的各层输出特征分别进行残差连接,得到最终的预测图/>,具体如下
其中,(i,j)组分别为(1,3) , (2,2) , (3,1),上采样率为2;/>(j=1,2,3,4)包括了3×3的卷积层,BN层和ReLU激活函数;
步骤六:级联标签监督并进行端到端训练:对两个级联特征输出结果以及最终结果进行端到端监督训练。
2.根据权利要求1所述的一种基于深度学习的高分辨率图像显著性目标检测方法,其特征在于:所述步骤一中所述卷积神经网络是在ResNet模型的基础上进行微调得到。
3.根据权利要求2所述的一种基于深度学习的高分辨率图像显著性目标检测方法,其特征在于:所述步骤一具体包括:
对原始图像进行下采样操作得到新的图像/>,下采样因子为0.25,如下:
进行语义特征提取网络的输入,使用低分辨率输入进行语义信息提取,如下
其中,i=1,2,3,4;/>卷积块包括了3×3的卷积层,BN层,ReLU激活函数和3×3的最大池化层;
利用PPM模块,聚合不同区域的上下文信息,得到低分辨率分支最终的粗略预测特征,如下:
所述PPM模块为金字塔池化模块。
4.根据权利要求1所述的一种基于深度学习的高分辨率图像显著性目标检测方法,其特征在于:所述步骤二具体包括:
利用低分辨率分支中的卷积神经网络的前三层结构构造特征提取网络,
对原始图像进行下采样操作得到新的图像/>,下采样因子为0.5,如下:
进行中分辨率分支特征提取网络的输入,输出特征/>,与低分辨率分支的输出特征/>进行特征融合,使得较高分辨率的表示可以接收较低分辨率的表示信息,如下:
其中,i=1,2;/>卷积块包括了3×3的卷积层,BN层和ReLU激活函数。
5.根据权利要求1所述的一种基于深度学习的高分辨率图像显著性目标检测方法,其特征在于:所述步骤三中所述卷积块是由一个卷积层,一个批量归一化层和一个ReLU激活函数层组成。
6.根据权利要求5所述的一种基于深度学习的高分辨率图像显著性目标检测方法,其特征在于:所述步骤三具体包括:
进行高分辨率分支特征提取网络的输入,输出特征是,与中分辨率分支的卷积网络第二层的输出特征进行拼接卷积操作,使较高分辨率的表示可以接收较低分辨率的表示信息,如下:
其中i = 1,2,3;/>包括了3×3的卷积层,BN层和ReLU激活函数;/>包括了3×3的卷积层,BN层和ReLU激活函数。
7.根据权利要求1所述的一种基于深度学习的高分辨率图像显著性目标检测方法,其特征在于:所述步骤六具体包括:
用SGD优化器对模型进行训练,其中初始学习率设置为0.001,权重衰减为0.001,动量为0.9,对网络进行随机初始化,用不同尺寸的真值图来监督各分支的学习情况,损失函数采用交叉熵损失函数和IOU损失函数,具体如下:
其中,i=1,2,3,分别表示计算原图大小,原图大小,/>原图大小的预测图和真值图之间的损失。
CN202210990986.6A 2022-08-17 2022-08-17 一种基于深度学习的高分辨率图像显著性目标检测方法 Active CN115294359B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210990986.6A CN115294359B (zh) 2022-08-17 2022-08-17 一种基于深度学习的高分辨率图像显著性目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210990986.6A CN115294359B (zh) 2022-08-17 2022-08-17 一种基于深度学习的高分辨率图像显著性目标检测方法

Publications (2)

Publication Number Publication Date
CN115294359A CN115294359A (zh) 2022-11-04
CN115294359B true CN115294359B (zh) 2023-10-10

Family

ID=83829429

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210990986.6A Active CN115294359B (zh) 2022-08-17 2022-08-17 一种基于深度学习的高分辨率图像显著性目标检测方法

Country Status (1)

Country Link
CN (1) CN115294359B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507183A (zh) * 2020-03-11 2020-08-07 杭州电子科技大学 一种基于多尺度密度图融合空洞卷积的人群计数方法
CN112329800A (zh) * 2020-12-03 2021-02-05 河南大学 一种基于全局信息引导残差注意力的显著性目标检测方法
CN112950477A (zh) * 2021-03-15 2021-06-11 河南大学 一种基于双路径处理的高分辨率显著性目标检测方法
CN114821059A (zh) * 2022-04-29 2022-07-29 西安交通大学 一种基于边界增强的显著性目标检测方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507183A (zh) * 2020-03-11 2020-08-07 杭州电子科技大学 一种基于多尺度密度图融合空洞卷积的人群计数方法
CN112329800A (zh) * 2020-12-03 2021-02-05 河南大学 一种基于全局信息引导残差注意力的显著性目标检测方法
CN112950477A (zh) * 2021-03-15 2021-06-11 河南大学 一种基于双路径处理的高分辨率显著性目标检测方法
CN114821059A (zh) * 2022-04-29 2022-07-29 西安交通大学 一种基于边界增强的显著性目标检测方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DAGNet: Exploring the Structure of Objects for Saliency Detection;Haobo Rao et al.;《2020 IJCNN》;第1-8页 *
多分辨率最小障碍与梯度融合显著性检测算法;邵元等;《计算机工程与应用》;第17-24页 *

Also Published As

Publication number Publication date
CN115294359A (zh) 2022-11-04

Similar Documents

Publication Publication Date Title
CN109919887B (zh) 一种基于深度学习的无监督图像融合方法
Ju et al. A simple and efficient network for small target detection
CN110909594A (zh) 一种基于深度融合的视频显著性检测方法
CN110580704A (zh) 基于卷积神经网络的et细胞图像自动分割方法及系统
CN113468996B (zh) 一种基于边缘细化的伪装物体检测方法
CN113034506B (zh) 遥感图像语义分割方法、装置、计算机设备和存储介质
CN114241218A (zh) 一种基于逐级注意力机制的目标显著性检测方法
CN113870160A (zh) 一种基于变换器神经网络的点云数据处理方法
CN114463340B (zh) 一种边缘信息引导的敏捷型遥感图像语义分割方法
CN113066089B (zh) 一种基于注意力引导机制的实时图像语义分割方法
Ge et al. WGI-Net: A weighted group integration network for RGB-D salient object detection
CN113536977B (zh) 一种面向360度全景图像的显著性目标检测方法
CN114119993A (zh) 一种基于自注意力机制的显著目标检测方法
CN113139544A (zh) 一种基于多尺度特征动态融合的显著性目标检测方法
CN115294359B (zh) 一种基于深度学习的高分辨率图像显著性目标检测方法
CN116310916A (zh) 一种高分辨率遥感城市图像语义分割方法及系统
CN114120076B (zh) 基于步态运动估计的跨视角视频步态识别方法
CN115222750A (zh) 基于多尺度融合注意力的遥感图像分割方法及系统
Xu et al. Salient object detection network with center pooling and distance-weighted affinity loss function
CN111881794B (zh) 一种视频行为识别方法及系统
CN114494699A (zh) 基于语义传播与前背景感知的图像语义分割方法及系统
Yao et al. MLP-based Efficient Convolutional Neural Network for Lane Detection
Geng et al. Vehicle and Driver Detection on Highway Based on Cascade R-CNN
Tan et al. BSIRNet: A road extraction network with bidirectional spatial information reasoning
Feng et al. Real-time object detection method based on YOLOv5 and efficient mobile network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant