CN115294359A - 一种基于深度学习的高分辨率图像显著性目标检测方法 - Google Patents

一种基于深度学习的高分辨率图像显著性目标检测方法 Download PDF

Info

Publication number
CN115294359A
CN115294359A CN202210990986.6A CN202210990986A CN115294359A CN 115294359 A CN115294359 A CN 115294359A CN 202210990986 A CN202210990986 A CN 202210990986A CN 115294359 A CN115294359 A CN 115294359A
Authority
CN
China
Prior art keywords
resolution
layer
input
network
conv
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210990986.6A
Other languages
English (en)
Other versions
CN115294359B (zh
Inventor
费晓波
周晓飞
张继勇
李世锋
周振
何帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Power Data Service Co ltd
Hangzhou Dianzi University
Original Assignee
China Power Data Service Co ltd
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Power Data Service Co ltd, Hangzhou Dianzi University filed Critical China Power Data Service Co ltd
Priority to CN202210990986.6A priority Critical patent/CN115294359B/zh
Publication of CN115294359A publication Critical patent/CN115294359A/zh
Application granted granted Critical
Publication of CN115294359B publication Critical patent/CN115294359B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种基于深度学习的高分辨率图像显著性目标检测方法,包括步骤一、低分辨率分支的特征提取;步骤二、中分辨率分支的特征提取;步骤三、高分辨率分支的特征提取;步骤四、多分辨率特征的融合;步骤五、残差解码网络得到预测图;步骤六、级联标签监督并进行端到端训练。本发明提供的网络模型是并行网络,可以在充分有效地利用语义信息和细节信息来实现对高分辨率图像中显著性目标的预测的同时,在网络中保持高分辨率。

Description

一种基于深度学习的高分辨率图像显著性目标检测方法
技术领域
本发明涉及一种基于深度学习的高分辨率图像显著性目标检测方法,属于计算机视觉技术领域。
背景技术
显著性检测是计算机视觉领域的一项非常重要的任务,受到广泛的研究和探讨,它旨在准确检测和分割场景中最独特的目标区域。人类视觉系统在面对自然场景时具有快速搜索和定位感兴趣目标的能力,这种视觉注意机制是人们日常生活中处理视觉信息的重要机制。随着互联网带来的大数据量的传播,如何从海量的图像和视频数据中快速地获取重要信息,已经成为计算机视觉领域一个关键的问题。通过在计算机视觉任务中引入这种视觉注意机制,即视觉显著性,可以为视觉信息处理任务带来一系列重大的帮助和改善。显著性物体检测的目的即是从图像中定位最有吸引力和视觉上独特的物体或区域,大量应用于图像分割、目标重定位、目标图像前景注释等领域。
随着大规模基准测试和深度学习的发展,基于神经网络的方法在显著性目标检测方面取得了重大突破。然而,现有的显著性目标检测方法通常仅限于低分辨率(400*400或更小)的输入图像。这一缺点阻碍了它们用于需要高分辨率、细节感知结果的高级实际应用。在处理高分辨率图像时,通常会缩小输入规模以提取语义信息,在这个过程中,许多细节不可避免地丢失了,会出现严重的遗传缺陷,即边界模糊。因此,现有的适用于低分辨率输入的显著性检测方法不适用于高分辨率显著性检测任务。同时,对于训练神经网络直接处理高分辨率图像中的显著目标分割的研究很少。然而,这项工作非常重要,因为它可以激发或实现许多实际任务,如医学图像分析、遥感图像分析等。因此,开展对处理高分辨率图像的显著性检测方法的研究是非常有意义和有必要的。
发明内容
本发明的目的是针对现有方法存在的不足,提供一种基于深度学习的高分辨率图像显著性目标检测方法。
为实现上述目的,本发明的技术方案是:
一种基于深度学习的高分辨率图像显著性目标检测方法,包括以下步骤:
步骤一、低分辨率分支的特征提取:利用卷积神经网络和金字塔池化模块(PPM)构建语义特征提取网络,使用低分辨率输入进行语义信息提取,得到低分辨率分支最终的粗略预测特征;所述卷积神经网络是在ResNet模型的基础上进行微调得到。
对原始图像X1进行下采样操作得到新的图像X4,下采样因子为0.25,如下:
X4=Downsampling(X1)
进行语义特征提取网络的输入,考虑到直接使用经典的框架检测高分辨率图像输入是非常耗时的,为了克服这个困难,使用低分辨率输入进行语义信息提取,如下
M4_1=Conv_sub(X4)
M4_i+1=resnet_layer_i(M4_i)
其中,i=1,2,3,4;Conv_sub卷积块包括了3×3的卷积层,BN层,ReLU激活函数和3×3的最大池化层;
利用PPM模块,有效增大感受野,聚合不同区域的上下文信息,以提高网络获取全局信息的能力,得到低分辨率分支最终的粗略预测特征M4_5,如下:
M4_5=PPM(M4_5)。
步骤二、中分辨率分支的特征提取:利用低分辨率分支中的卷积神经网络的前三层结构构造特征提取网络,得到中分辨率支路的包含细节信息的粗略预测图;
利用低分辨率分支中的卷积神经网络的前三层结构构造特征提取网络,高分辨率图像输入本身会带来网络的计算量和内存使用量大大增加的问题,加上采用多分支的结构,更会加剧这一问题,因此,考虑到这一问题,本发明的中分辨率分支采用低分辨率分支的前三层结构,以实现和低分辨率分支部分网络共享参数。
对原始图像X1进行下采样操作得到新的图像X2,下采样因子为0.5,如下:
X2=Downsampling(X1)
进行中分辨率分支特征提取网络的输入,输出特征M2_3,与低分辨率分支的输出特征M4_3进行特征融合,使得较高分辨率的表示可以接收较低分辨率的表示信息,以实现多尺度的信息融合,从而得到丰富的高分辨率表示,如下:
M2_1=Conv_sub(X2)
M2_i+1=resnet_layer_i(M2_i)
Figure BDA0003802401180000031
其中,i=1,2;Conv_s2卷积块包括了3×3的卷积层,BN层和ReLU激活函数。
步骤三、高分辨率分支的特征提取:利用三个卷积块构造高分辨率分支特征提取网络,得到高分辨率支路的包含细节信息的粗略预测图;所述卷积块是由一个卷积层,一个批量归一化层和一个ReLU激活函数层组成。考虑到高分辨率图像输入会带来巨大的计算量和内存消耗,因此我们选择轻量级网络。
进行高分辨率分支特征提取网络的输入,输出特征是M1_3,与中分辨率分支的卷积网络第二层的输出特征进行拼接卷积操作,使较高分辨率的表示可以接收较低分辨率的表示信息,以实现多尺度的信息融合,从而得到丰富的高分辨率表示。如下:
M1_i=Conv_ei(X1)
Figure BDA0003802401180000032
其中i=1,2,3;Conv_ei包括了3×3的卷积层,BN层和ReLU激活函数;Conv_s1包括了3×3的卷积层,BN层和ReLU激活函数。
步骤四、多分辨率特征的融合:构建多分辨率特征融合网络,得到融合后的最终预测图,所述多分辨率特征融合网络是由两个分支或三个分支构成;
进行第一个多分辨率特征融合网络的输入,低分辨率分支的输出特征M4_5和中分辨率分支的输出特征M2_3将分别作为低分辨率输入和高分辨率输入,对低分辨率输入特征进行上采样操作,上采样因子为2,使其与高分辨率输入具有相同的空间大小;对其进行空洞卷积操作以在不增加计算量的前提下改善特征信息;对高分辨率输入进行卷积操作,使得它的通道数同经过上述一系列操作后的低分辨率特征保持一致;后对这两个特征用批量归一化层进行归一化操作;将两个特征相加经过一个ReLU激活函数后得到最终的输出结果M24,同时,将M24送入到Sigmoid激活函数层,得到
Figure BDA0003802401180000033
原图大小的预测图pred_16,具体如下:
M4_51=Upsampling(M4_5)
M4_52=BN(DilatedConv(M4_51))
M2_31=BN(Conv(M2_3))
M24=ReLU(SUM(M4_51+M2_31))
pred_16=Sigmoid(Conv_cls(M24))。
进行第二个多分辨率特征融合网络的输入,低分辨率分支的输出特征M4_5,第二个特征级联网络的输出特征M24以及高分辨率分支的输出特征M1_3将分别作为低分辨率输入,中分辨率输入和高分辨率输入,
对低分辨率输入特征进行上采样操作,上采样因子为4,使得它与高分辨率输入具有相同的空间大小;再对其进行空洞卷积操作以在不增加计算量的前提下改善特征信息;对中分辨率输入做与低分辨率输入同样的操作,先进行上采样操作,上采样因子为2,使得它与高分辨率输入具有相同的空间大小;再对其进行空洞卷积操作;接着对高分辨率输入进行卷积操作,使得它的通道数同经过上述一系列操作后的低、中分辨率特征保持一致;然后对这三个特征用批量归一化层进行归一化操作;最后,将三个特征相加经过一个ReLU激活函数后得到最终的输出结果M124,同时,将M124送入到Sigmoid激活函数层,得到
Figure BDA0003802401180000041
原图大小的预测图pred_8,具体如下:
M4_51=Upsampling(M4_5)
M4_52=BN(DilatedConv(M4_51))
M24_1=Upsampling(M24)
M24_2=BN(DilatedConv(M24_1))
M1_31=BN(Conv(M1_3))
M124=ReLU(SUM(M4_52+M24_2+M1_31))
pred_8=Sigmoid(Conv_cls(M124))
其中,Conv_cls层是一个1×1的卷积层。
步骤五、残差解码网络得到预测图,残差解码网络包括四个由卷积层、批量归一化层、ReLU激活函数组成的卷积组,一个卷积层和一个sigmoid激活函数;构建解码网络。随着网络越来越深,训练变得越来越难,网络的优化变得越来越难,会导致在实际情况中,越深的网络训练效果会更差,即出现退化问题。考虑到这个原因,我们构建了残差解码网络。
进行残差解码网络的输入。将特征M124输入到解码网络中,用高分辨率分支上的各层输出特征分别进行残差连接,得到最终的预测图pred,具体如下
I1=M124
Figure BDA0003802401180000042
pred=Sigmoid(Conv_cls(Conv_d4(I4)))
其中,(i,j)组分别为(1,3),(2,2),(3,1),上采样率为2;Conv_dj(j=1,2,3,4)包括了3×3的卷积层,BN层和ReLU激活函数。
步骤六:级联标签监督并进行端到端训练:对两个级联特征输出结果以及最终结果进行端到端监督训练。
用SGD优化器对模型进行训练,其中初始学习率设置为0.001,权重衰减为0.00l,动量为0.9,对网络进行随机初始化,用不同尺寸的真值图来监督各分支的学习情况,损失函数采用交叉熵损失函数和IOU损失函数,具体如下:
Li=BCE(pred_i,target_i)+IOU(pred_i,target_i)
Loss=L1+0.4*L2+0.4*L3
其中,i=1,2,3,分别表示计算原图大小,
Figure BDA0003802401180000051
原图大小,
Figure BDA0003802401180000052
原图大小的预测图和真值图之间的损失。
本发明方法包括高分辨率分支提取网络、中分辨率分支提取网络、低分辨率分支提取网络、多分辨率特征融合网络、残差解码网络。模型的输入是一张原始的高分辨率图像。首先,由三个分支网络分别提取不同分辨率的特征,同时用较低分辨率分支的特征强化较高分辨率分支的特征。然后,采用多分辨率特征融合网络模块,将不同分辨率的特征进行融合,有效利用低分辨率的语义信息和高分辨率的图像的细节信息。将融合得到的特征与高分辨率分支上的特征相结合输入到残差解码网络进行预测,得到高分辨率图像的最终预测图。本发明方法提供的网络模型是并行网络,可以在充分有效地利用语义信息和和细节信息来实现对高分辨率图像中显著性目标的预测的同时,在网络中保持高分辨率。
本发明主要优势在于两个方面:一方面,采用多分支结构,将高、中、低分辨率分支并行连接,并且将深度网络提取到的特征融合到浅层网络中,以增强高分辨率图像的特征表示。本发明在中低分辨率分支中采用深度的残差网络以提取语义信息,在高分辨率分支采用浅层网络以提取细节信息,在网络中保持高分辨率的同时,尽可能地减少计算成本和存储容量。另一方面,多分辨率特征融合网络与多分辨率标签监督一起,有效地利用了低分辨率的语义信息和高分辨率图像细节信息,并且可以以较低的计算成本逐步恢复和细化显著性目标预测。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于深度学习的高分辨率图像显著性目标检测方法的框架图;
图2为本发明基于深度学习的高分辨率图像显著性目标检测方法中多分辨率特征融合网络模块的示意图(1);
图3为本发明基于深度学习的高分辨率图像显著性目标检测方法中多分辨率特征融合网络模块的示意图(2);
图4为本发明基于深度学习的高分辨率图像显著性目标检测方法的结果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例所提供的一种基于深度学习的高分辨率图像显著性目标检测方法,包括以下步骤:
步骤一、低分辨率分支的特征提取:利用卷积神经网络和金字塔池化模块(PPM)构建语义特征提取网络,使用低分辨率输入进行语义信息提取,得到低分辨率分支最终的粗略预测特征;所述卷积神经网络是在ResNet模型的基础上进行微调得到。
对原始图像X1进行下采样操作得到新的图像X4,下采样因子为0.25,如下:
X4=Downsampling(X1)
进行语义特征提取网络的输入,考虑到直接使用经典的框架检测高分辨率图像输入是非常耗时的,为了克服这个困难,使用低分辨率输入进行语义信息提取,如下
M4_1=Conv_sub(X4)
M4_i+1=resnet_layer_i(M4_i)
其中,i=1,2,3,4;Conv_sub卷积块包括了3×3的卷积层,BN层,ReLU激活函数和3×3的最大池化层;
利用PPM模块,有效增大感受野,聚合不同区域的上下文信息,以提高网络获取全局信息的能力,得到低分辨率分支最终的粗略预测特征M4_5,如下:
M4_5=PPM(M4_5)。
步骤二、中分辨率分支的特征提取:利用低分辨率分支中的卷积神经网络的前三层结构构造特征提取网络,得到中分辨率支路的包含细节信息的粗略预测图;
利用低分辨率分支中的卷积神经网络的前三层结构构造特征提取网络,高分辨率图像输入本身会带来网络的计算量和内存使用量大大增加的问题,加上采用多分支的结构,更会加剧这一问题,因此,考虑到这一问题,本发明的中分辨率分支采用低分辨率分支的前三层结构,以实现和低分辨率分支部分网络共享参数。
对原始图像X1进行下采样操作得到新的图像X2,下采样因子为0.5,如下:
X2=Downsampling(X1)
进行中分辨率分支特征提取网络的输入,输出特征M2_3,与低分辨率分支的输出特征M4_3进行特征融合,使得较高分辨率的表示可以接收较低分辨率的表示信息,以实现多尺度的信息融合,从而得到丰富的高分辨率表示,如下:
M2_1=Conv_sub(X2)
M2_i+1=resnet_layer_i(M2_i)
Figure BDA0003802401180000071
其中,i=1,2;Conv_s2卷积块包括了3×3的卷积层,BN层和ReLU激活函数。
步骤三、高分辨率分支的特征提取:利用三个卷积块构造高分辨率分支特征提取网络,得到高分辨率支路的包含细节信息的粗略预测图;所述卷积块是由一个卷积层,一个批量归一化层和一个ReLU激活函数层组成。考虑到高分辨率图像输入会带来巨大的计算量和内存消耗,因此我们选择轻量级网络。
进行高分辨率分支特征提取网络的输入,输出特征是M1_3,与中分辨率分支的卷积网络第二层的输出特征进行拼接卷积操作,使较高分辨率的表示可以接收较低分辨率的表示信息,以实现多尺度的信息融合,从而得到丰富的高分辨率表示。如下:
M1_i=Conv_ei(X1)
Figure BDA0003802401180000072
其中i=1,2,3;Conv_ei包括了3×3的卷积层,BN层和ReLU激活函数;Conv_s1包括了3×3的卷积层,BN层和ReLU激活函数。
步骤四、多分辨率特征的融合:构建多分辨率特征融合网络,所述多分辨率特征融合网络是由两个分支或三个分支构成,得到融合后的最终预测图;
进行第一个多分辨率特征融合网络的输入,低分辨率分支的输出特征M4_5和中分辨率分支的输出特征M2_3将分别作为低分辨率输入和高分辨率输入,对低分辨率输入特征进行上采样操作,上采样因子为2,使其与高分辨率输入具有相同的空间大小;对其进行空洞卷积操作以在不增加计算量的前提下改善特征信息;对高分辨率输入进行卷积操作,使得它的通道数同经过上述一系列操作后的低分辨率特征保持一致;后对这两个特征用批量归一化层进行归一化操作;将两个特征相加经过一个ReLU激活函数后得到最终的输出结果M24,同时,将M24送入到Sigmoid激活函数层,得到
Figure BDA0003802401180000081
原图大小的预测图pred_16,具体如下:
M4_51=Upsampling(M4_5)
M4_52=BN(DilatedConv(M4_51))
M2_31=BN(Conv(M2_3))
M24=ReLU(SUM(M4_51+M2_31))
pred_16=Sigmoid(Conv_cls(M24))。
进行第二个多分辨率特征融合网络的输入,低分辨率分支的输出特征M4_5,第二个特征级联网络的输出特征M24以及高分辨率分支的输出特征M1_3将分别作为低分辨率输入,中分辨率输入和高分辨率输入,
对低分辨率输入特征进行上采样操作,上采样因子为4,使得它与高分辨率输入具有相同的空间大小;再对其进行空洞卷积操作以在不增加计算量的前提下改善特征信息;对中分辨率输入做与低分辨率输入同样的操作,先进行上采样操作,上采样因子为2,使得它与高分辨率输入具有相同的空间大小;再对其进行空洞卷积操作;接着对高分辨率输入进行卷积操作,使得它的通道数同经过上述一系列操作后的低、中分辨率特征保持一致;然后对这三个特征用批量归一化层进行归一化操作;最后,将三个特征相加经过一个ReLU激活函数后得到最终的输出结果M124,同时,将M124送入到Sigmoid激活函数层,得到
Figure BDA0003802401180000082
原图大小的预测图pred_8,具体如下:
M4_51=Upsampling(M4_5)
M4_52=BN(DilatedConv(M4_51))
M24_1=Upsampling(M24)
M24_2=BN(DilatedConv(M24_1))
M1_31=BN(Conv(M1_3))
M124=ReLU(SUM(M4_52+M24_2+M1_31))
pred_8=Sigmoid(Conv_cls(M124))
其中,Conv_cls层是一个1×1的卷积层。
步骤五、残差解码网络得到预测图,残差解码网络包括四个由卷积层、批量归一化层、ReLU激活函数组成的卷积组,一个卷积层和一个sigmoid激活函数;构建解码网络。随着网络越来越深,训练变得越来越难,网络的优化变得越来越难,会导致在实际情况中,越深的网络训练效果会更差,即出现退化问题。考虑到这个原因,我们构建了残差解码网络。
进行残差解码网络的输入。将特征M124输入到解码网络中,用高分辨率分支上的各层输出特征分别进行残差连接,得到最终的预测图pred,具体如下
I1=M124
Figure BDA0003802401180000091
pred=Sigmoid(Conv_cls(Conv_d4(I4)))
其中,(i,j)组分别为(1,3),(2,2),(3,1),上采样率为2;Conv_dj(j=1,2,3,4)包括了3×3的卷积层,BN层和ReLU激活函数。
步骤六:级联标签监督并进行端到端训练:对两个级联特征输出结果以及最终结果进行端到端监督训练。
用SGD优化器对模型进行训练,其中初始学习率设置为0.001,权重衰减为0.001,动量为0.9,对网络进行随机初始化,用不同尺寸的真值图来监督各分支的学习情况,损失函数采用交叉熵损失函数和IOU损失函数,具体如下:
Li=BCE(pred_i,target_i)+IOU(pred_i,target_i)
Loss=L1+0.4*L2+0.4*L3
其中,i=1,2,3,分别表示计算原图大小,
Figure BDA0003802401180000092
原图大小,
Figure BDA0003802401180000093
原图大小的预测图和真值图之间的损失。
以上结合附图对本发明的实施方式作了详细说明,但本发明不限于所描述的实施方式。对于本领域的技术人员而言,在不脱离本发明原理和精神的情况下,对这些实施方式进行多种变化、修改、替换和变型,仍落入本发明的保护范围内。

Claims (10)

1.一种基于深度学习的高分辨率图像显著性目标检测方法,其特征在于:包括以下步骤:
步骤一、低分辨率分支的特征提取:利用卷积神经网络和金字塔池化模块构建语义特征提取网络,使用低分辨率输入进行语义信息提取,得到低分辨率分支最终的粗略预测特征;
步骤二、中分辨率分支的特征提取:利用低分辨率分支中的卷积神经网络的前三层结构构造特征提取网络,得到中分辨率支路的包含细节信息的粗略预测图;
步骤三、高分辨率分支的特征提取:利用三个卷积块构造高分辨率分支特征提取网络,得到高分辨率支路的包含细节信息的粗略预测图;
步骤四、多分辨率特征的融合:构建多分辨率特征融合网络,所述多分辨率特征融合网络是由两个分支或三个分支构成,得到融合后的最终预测图;
步骤五、残差解码网络得到预测图,残差解码网络包括四个由卷积层、批量归一化层、ReLU激活函数组成的卷积组,一个卷积层和一个sigmoid激活函数;
步骤六:级联标签监督并进行端到端训练:对两个级联特征输出结果以及最终结果进行端到端监督训练。
2.根据权利要求1所述的一种基于深度学习的高分辨率图像显著性目标检测方法,其特征在于:所述步骤一中所述卷积神经网络是在ResNet模型的基础上进行微调得到。
3.根据权利要求2所述的一种基于深度学习的高分辨率图像显著性目标检测方法,其特征在于:所述步骤一具体包括:
对原始图像X1进行下采样操作得到新的图像X4,下采样因子为0.25,如下:
X4=Downsampling(X1)
进行语义特征提取网络的输入,使用低分辨率输入进行语义信息提取,如下
M4_1=Conv_sub(X4)
M4_i+1=resnet_layer_i(M4_i)
其中,i=1,2,3,4;Conv_sub卷积块包括了3×3的卷积层,BN层,ReLU激活函数和3×3的最大池化层;
利用PPM模块,聚合不同区域的上下文信息,得到低分辨率分支最终的粗略预测特征M4_5,如下:
M4_5=PPM(M4_5)
所述PPM模块为金字塔池化模块。
4.根据权利要求1所述的一种基于深度学习的高分辨率图像显著性目标检测方法,其特征在于:所述步骤二具体包括:
利用低分辨率分支中的卷积神经网络的前三层结构构造特征提取网络,
对原始图像X1进行下采样操作得到新的图像X2,下采样因子为0.5,如下:
X2=Downsampling(X1)
进行中分辨率分支特征提取网络的输入,输出特征M2_3,与低分辨率分支的输出特征M4_3进行特征融合,使得较高分辨率的表示可以接收较低分辨率的表示信息,如下:
M2_1=Conv_sub(X2)
M2_i+1=resnet_layer_i(M2_i)
M2_3=Conv_s2(M2_3⊕Upsampling(M4_3))
其中,i=1,2;Conv_s2卷积块包括了3×3的卷积层,BN层和ReLU激活函数。
5.根据权利要求1所述的一种基于深度学习的高分辨率图像显著性目标检测方法,其特征在于:所述步骤三中所述卷积块是由一个卷积层,一个批量归一化层和一个ReLU激活函数层组成。
6.根据权利要求5所述的一种基于深度学习的高分辨率图像显著性目标检测方法,其特征在于:所述步骤三具体包括:
进行高分辨率分支特征提取网络的输入,输出特征是M1_3,与中分辨率分支的卷积网络第二层的输出特征进行拼接卷积操作,使较高分辨率的表示可以接收较低分辨率的表示信息,如下:
M1_i=Conv_ei(X1)
M1_3=Conv_s1(M1_3⊕M2_2)
其中i=1,2,3;Conv_ei包括了3×3的卷积层,BN层和ReLU激活函数;Conv_s1包括了3×3的卷积层,BN层和ReLU激活函数。
7.根据权利要求1所述的一种基于深度学习的高分辨率图像显著性目标检测方法,其特征在于:所述步骤四具体包括:
进行第一个多分辨率特征融合网络的输入,低分辨率分支的输出特征M4_5和中分辨率分支的输出特征M2_3将分别作为低分辨率输入和高分辨率输入,对低分辨率输入特征进行上采样操作,上采样因子为2,使其与高分辨率输入具有相同的空间大小;对其进行空洞卷积操作以在不增加计算量的前提下改善特征信息;对高分辨率输入进行卷积操作,使得它的通道数同经过上述一系列操作后的低分辨率特征保持一致;后对这两个特征用批量归一化层进行归一化操作;将两个特征相加经过一个ReLU激活函数后得到最终的输出结果M24,同时,将M24送入到Sigmoid激活函数层,得到
Figure FDA0003802401170000031
原图大小的预测图pred_16,具体如下:
M4_51=Upsampling(M4_5)
M4_52=BN(DilatedConv(M4_51))
M2_31=BN(Conv(M2_3))
M24=ReLU(SUM(M4_51+M2_31))
pred_16=Sigmoid(Conv_cls(M24))。
8.根据权利要求1所述的一种基于深度学习的高分辨率图像显著性目标检测方法,其特征在于:所述步骤四具体包括:
进行第二个多分辨率特征融合网络的输入,低分辨率分支的输出特征M4_5,第二个特征级联网络的输出特征M24以及高分辨率分支的输出特征M1_3将分别作为低分辨率输入,中分辨率输入和高分辨率输入,
对低分辨率输入特征进行上采样操作,上采样因子为4,使得它与高分辨率输入具有相同的空间大小;再对其进行空洞卷积操作以在不增加计算量的前提下改善特征信息;对中分辨率输入做与低分辨率输入同样的操作,先进行上采样操作,上采样因子为2,使得它与高分辨率输入具有相同的空间大小;再对其进行空洞卷积操作;接着对高分辨率输入进行卷积操作,使得它的通道数同经过上述一系列操作后的低、中分辨率特征保持一致;然后对这三个特征用批量归一化层进行归一化操作;最后,将三个特征相加经过一个ReLU激活函数后得到最终的输出结果M124,同时,将M124送入到Sigmoid激活函数层,得到
Figure FDA0003802401170000032
原图大小的预测图pred_8,具体如下:
M4_51=Upsampling(M4_5)
M4_52=BN(DilatedConv(M4_51))
M24_1=Upsampling(M24)
M24_2=BN(DilatedConv(M24_1))
M1_31=BN(Conv(M1_3))
M124=ReLU(SUM(M4_52+M24_2+M1_31))
pred_8=Sigmoid(Conv_cls(M124))
其中,Conv_cls层是一个1×1的卷积层。
9.根据权利要求1所述的一种基于深度学习的高分辨率图像显著性目标检测方法,其特征在于:所述步骤五具体包括:
进行残差解码网络的输入,将特征M124输入到解码网络中,用高分辨率分支上的各层输出特征分别进行残差连接,得到最终的预测图pred,具体如下
I1=M124
Ii+1=Upsampling(Conv_di(Ii⊕M1_j))
pred=Sigmoid(Conv_cls(Conv_d4(I4)))
其中,(i,j)组分别为(1,3),(2,2),(3,1),上采样率为2;Conv_dj(j=1,2,3,4)包括了3×3的卷积层,BN层和ReLU激活函数。
10.根据权利要求1所述的一种基于深度学习的高分辨率图像显著性目标检测方法,其特征在于:所述步骤六具体包括:
用SGD优化器对模型进行训练,其中初始学习率设置为0.001,权重衰减为0.001,动量为0.9,对网络进行随机初始化,用不同尺寸的真值图来监督各分支的学习情况,损失函数采用交叉熵损失函数和IOU损失函数,具体如下:
Li=BCE(pred_i,target_i)+IOU(pred_i,target_i)
Loss=L1+0.4*L2+0.4*L3
其中,i=1,2,3,分别表示计算原图大小,
Figure FDA0003802401170000041
原图大小,
Figure FDA0003802401170000042
原图大小的预测图和真值图之间的损失。
CN202210990986.6A 2022-08-17 2022-08-17 一种基于深度学习的高分辨率图像显著性目标检测方法 Active CN115294359B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210990986.6A CN115294359B (zh) 2022-08-17 2022-08-17 一种基于深度学习的高分辨率图像显著性目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210990986.6A CN115294359B (zh) 2022-08-17 2022-08-17 一种基于深度学习的高分辨率图像显著性目标检测方法

Publications (2)

Publication Number Publication Date
CN115294359A true CN115294359A (zh) 2022-11-04
CN115294359B CN115294359B (zh) 2023-10-10

Family

ID=83829429

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210990986.6A Active CN115294359B (zh) 2022-08-17 2022-08-17 一种基于深度学习的高分辨率图像显著性目标检测方法

Country Status (1)

Country Link
CN (1) CN115294359B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507183A (zh) * 2020-03-11 2020-08-07 杭州电子科技大学 一种基于多尺度密度图融合空洞卷积的人群计数方法
CN112329800A (zh) * 2020-12-03 2021-02-05 河南大学 一种基于全局信息引导残差注意力的显著性目标检测方法
CN112950477A (zh) * 2021-03-15 2021-06-11 河南大学 一种基于双路径处理的高分辨率显著性目标检测方法
CN114821059A (zh) * 2022-04-29 2022-07-29 西安交通大学 一种基于边界增强的显著性目标检测方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507183A (zh) * 2020-03-11 2020-08-07 杭州电子科技大学 一种基于多尺度密度图融合空洞卷积的人群计数方法
CN112329800A (zh) * 2020-12-03 2021-02-05 河南大学 一种基于全局信息引导残差注意力的显著性目标检测方法
CN112950477A (zh) * 2021-03-15 2021-06-11 河南大学 一种基于双路径处理的高分辨率显著性目标检测方法
CN114821059A (zh) * 2022-04-29 2022-07-29 西安交通大学 一种基于边界增强的显著性目标检测方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HAOBO RAO ET AL.: "DAGNet: Exploring the Structure of Objects for Saliency Detection", 《2020 IJCNN》, pages 1 - 8 *
邵元等: "多分辨率最小障碍与梯度融合显著性检测算法", 《计算机工程与应用》, pages 17 - 24 *

Also Published As

Publication number Publication date
CN115294359B (zh) 2023-10-10

Similar Documents

Publication Publication Date Title
Ju et al. A simple and efficient network for small target detection
CN111062395B (zh) 一种实时的视频语义分割方法
CN111274994B (zh) 漫画人脸检测方法、装置、电子设备及计算机可读介质
CN111369565A (zh) 一种基于图卷积网络的数字病理图像的分割与分类方法
CN113468996B (zh) 一种基于边缘细化的伪装物体检测方法
CN116205962B (zh) 基于完整上下文信息的单目深度估计方法及系统
Hu et al. Parallel spatial-temporal convolutional neural networks for anomaly detection and location in crowded scenes
Wang et al. TF-SOD: a novel transformer framework for salient object detection
Ge et al. WGI-Net: A weighted group integration network for RGB-D salient object detection
Du et al. Srh-net: Stacked recurrent hourglass network for stereo matching
CN113066089B (zh) 一种基于注意力引导机制的实时图像语义分割方法
CN113139544A (zh) 一种基于多尺度特征动态融合的显著性目标检测方法
CN113536977A (zh) 一种面向360度全景图像的显著性目标检测方法
CN116310916A (zh) 一种高分辨率遥感城市图像语义分割方法及系统
CN115294359B (zh) 一种基于深度学习的高分辨率图像显著性目标检测方法
Zhang et al. A multi-cue guidance network for depth completion
Xu et al. Salient object detection network with center pooling and distance-weighted affinity loss function
CN114694080A (zh) 一种监控暴力行为检测方法、系统、装置及可读存储介质
CN114494699A (zh) 基于语义传播与前背景感知的图像语义分割方法及系统
Zhao et al. E-commerce picture text recognition information system based on deep learning
Tan et al. BSIRNet: A road extraction network with bidirectional spatial information reasoning
CN111709945A (zh) 一种基于深度局部特征的视频拷贝检测方法
Zhang et al. Object‐meta and MSGAE‐MP: Multi‐dimensional video anomaly detection
CN114638787B (zh) 检测非机动车是否挂牌的方法及电子设备
CN112288738B (zh) 基于深度学习的单幅图像去雪花方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant