CN115620118A - 一种基于多尺度扩张卷积神经网络的显著性目标检测方法 - Google Patents

一种基于多尺度扩张卷积神经网络的显著性目标检测方法 Download PDF

Info

Publication number
CN115620118A
CN115620118A CN202211131569.2A CN202211131569A CN115620118A CN 115620118 A CN115620118 A CN 115620118A CN 202211131569 A CN202211131569 A CN 202211131569A CN 115620118 A CN115620118 A CN 115620118A
Authority
CN
China
Prior art keywords
convolution
module
expansion
branch
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211131569.2A
Other languages
English (en)
Inventor
姬彩娟
刘彦
吕妙芳
王志刚
李志亮
叶传新
孙海东
郑宇龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei Hanguang Heavy Industry Ltd
Original Assignee
Hebei Hanguang Heavy Industry Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei Hanguang Heavy Industry Ltd filed Critical Hebei Hanguang Heavy Industry Ltd
Priority to CN202211131569.2A priority Critical patent/CN115620118A/zh
Publication of CN115620118A publication Critical patent/CN115620118A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多尺度扩张卷积神经网络的显著性目标检测方法,所述方法包括:提取所述输入图像的多尺度特征;将所述多尺度特征输入扩张残差卷积模块,得到包括所述多尺度特征的上下文信息的融合特征;将所述融合特征分别输入多个通道注意力模块,得到多个显著性特征;对每个显示著性特征降维激活,生成显著性图,采用融合交叉熵和交并比损失的混合损失函数进行深层监督训练。本发明的方法,基于多尺度扩张卷积神经网络通过使用扩张残差卷积模块,充分捕获到了图像中丰富的全局语义信息和局部语义信息,解决了编码器深度较浅、信息提取不足的问题,同时,通过设计的通道注意力模块,使网络聚焦目标区域,有效地提高了目标检测的精度。

Description

一种基于多尺度扩张卷积神经网络的显著性目标检测方法
技术领域
本发明涉及计算机视觉领域,具体涉及一种基于多尺度扩张卷积神经网络的显著性目标检测方法。
背景技术
视觉显著性指不同于背景部分的图像中最明显和独特的显著性区域。显著性目标检测是计算机视觉任务中重要的预处理步骤之一,旨在从给定的图像中提取有用的特征,检测视觉显著性目标或者区域,输出相应的显著性图。近年来,显著性目标检测得到广泛研究和应用,如图像翻译、语义分割、目标识别、目标跟踪等。
显著性目标检测方法大致可以分为两种:基于传统的显著性目标检测方法和基于深度学习的显著性目标检测方法。传统的显著性目标检测方法主要是利用人类直观感觉或启发式先验,如色度比较、背景比较、边界点先验、纹理等,通过人工提取特征检测目标,受复杂环境影响,难以利用高层次的语义信息实现准确定位并分割目标区域。
近年来,深度学习技术的迅猛发展使得基于深度学习的显著性目标检测方法不断被广泛提出,且性能上较传统方法也有大幅的提升。利用深度卷积神经网络可以充分的自动提取多层次、多尺度特征,包括包含丰富边缘信息的低层次特征,以及包含全局语义信息的高层次特征,从而可以准确定位显著性目标并完整地将其分割出来。但是现有的基于深度学习的显著性目标检测方法仍存在不足,在面对一些具有挑战性的场景下,例如复杂背景、显著目标与背景高度相似、低对比度场景等等,模型的性能有待提升。一些方法,例如WU等人提出的CPD方法直接串联不同感受野的卷积和扩张卷积操作,虽然优化多尺度特征和增加特征多样性的,但未充分利用部分特征信息且捕获的信息之间不具有相关性,降低了模型的检测性能。另一些方法采用注意力机制或者通过门函数有选择性地突出显著性目标区域,减少冗余信息带来的干扰,但是基于相同尺度的注意力机制对种类复杂、尺寸难以预测的显著性目标存在一定的局限性。
发明内容
有鉴于此,本发明提供了一种基于多尺度扩张卷积神经网络的显著性目标检测方法,能够解决在复杂场景下高层次与低层次特征信息提取不足以及之间的相关性挖掘不够充分,由此导致的检测结果不准确的技术问题。
为了解决上述技术问题,本发明是这样实现的。
一种基于多尺度扩张卷积神经网络的显著性目标检测方法,包括:
步骤S1:将待处理的RGB图像作为输入图像,将所述输入图像输入预先训练好的ResNet34网络模型,提取所述输入图像的多尺度特征;
步骤S2:将所述多尺度特征输入扩张残差卷积模块,得到包括所述多尺度特征的上下文信息的融合特征;所述扩张残差卷积模块包括第一卷积层,与所述第一卷积层相连的多个分支,以及第二卷积层;其中各个分支的输出均输入所述第二卷积层,每个分支包括一个与所述第一卷积层相连的残差模块、以及同时与所述残差模块相连的第一扩张卷积模块、以及第二扩张卷积模块,基于第一扩张卷积模块的输出与所述第二扩张卷积模块的输出得到所述分支的输出;
步骤S3:将所述融合特征分别输入多个通道注意力模块,得到多个显著性特征;
步骤S4:对每个显著性特征降维激活,生成显著性图,采用融合交叉熵和交并比损失的混合损失函数进行深层监督训练。
优选地,所述通道注意力模块包括平均池化模块、最大池化模块、第一卷积分支、第二卷积分支以及第三卷积模块;所述融合特征分别输入所述平均池化模块及所述最大池化模块,所述平均池化模块及所述最大池化模块处理后的结果进行融合,得到第一融合特征,将所述第一融合特征分别输入所述第一卷积分支及所述第二卷积分支,将所述第一融合特征、所述第一卷积分支得到的处理结果、以及所述第二卷积分支得到的处理结果进行融合,得到第二融合特征,将所述第二融合特征输入所述第三卷积模块,得到显著性特征。
优选地,所述步骤S2,其中:
所述第一扩张卷积模块及所述第二扩张卷积模块进行扩张卷积后均进行批量标准化操作和ReLu非线性激活操作;所述第一扩张卷积模块的填充率为d0= {2,4,6},所述第二扩张卷积模块的填充率为d1={1,2,3};
所述分支的输出为Fi
Fi=∑(Di0(res(fj)),Di1(res(fj)),fj)
其中,i表示包含残差模块和扩张卷积的分支数,j表示多尺度特征分支数, fj表示所述多尺度降维特征,res(·)表示残差模块进行的卷积操作,Di0,Di1分别表示填充率为d0,d1的扩张卷积操作,∑表示像素级加性融合操作;
将各个扩张卷积分支的输出Fi输入所述第二卷积层,得到包括所述多尺度特征的上下文信息的融合特征Υj=Conv(C(F0,F1,F2,fj)),其中,Conv表示降维卷积操作,C表示通道维度的特征融合操作。
优选地,所述步骤S3,其中:
所述第一卷积分支与所述第二卷积分支的卷积核尺寸不同;所述第一卷积分支包括3×3卷积层、全连接层及sigmoid层,将所述第一融合特征输入所述第一卷积分支,得到不同通道层面对显著性信息的第一影响程度α;所述第二卷积分支包括5×5卷积层、全连接层及sigmoid层,将所述第一融合特征输入所述第二卷积分支,得到不同通道层面对显著性信息的第二影响程度β;将第一影响程度α、第二影响程度β、第一融合特征ε进行融合,融合方式为:
Figure 1
其中,
Figure BDA0003847093760000042
表示系数相乘,Mj表示多尺度分支j的通道注意力模块输出的显著性特征。
优选地,所述步骤S4,所述混合损失函数L为
L=λ1LBCE(P,G)+λ2LIOU(P,G)
其中,λ1,λ2分别为交叉熵损失函数BCE和IOU损失函数的权重系数, LBCE(P,G)表示显著性图的交叉熵损失函数,LIOU(P,G)表示显著性图IOU损失函数,P是显著性图的预测结果,G是显著性图的真值标签;
Figure BDA0003847093760000043
Figure BDA0003847093760000044
其中,l表示输入图像中第l个像素,n表示输入图像中共有n个像素,Gl表示第l个像素的显著性图的真值标签,Pl表示第l个像素的显著性图的预测结果。
本发明所提供的一种基于多尺度扩张卷积神经网络的显著性目标检测装置,所述装置包括:
多尺度编码模块:配置为将待处理的RGB图像作为输入图像,将所述输入图像输入预先训练好的ResNet34网络模型,提取所述输入图像的多尺度特征;
扩张残差卷积模块:配置为将所述多尺度特征输入扩张残差卷积模块,得到包括所述多尺度特征的上下文信息的融合特征;所述扩张残差卷积模块包括第一卷积层,与所述第一卷积层相连的多个分支,以及第二卷积层;其中各个分支的输出均输入所述第二卷积层,每个分支包括一个与所述第一卷积层相连的残差模块、以及同时与所述残差模块相连的第一扩张卷积模块、以及第二扩张卷积模块,基于第一扩张卷积模块的输出与所述第二扩张卷积模块的输出得到所述分支的输出;
显著性特征获取模块:配置为将所述融合特征分别输入多个通道注意力模块,得到多个显著性特征;
显著性图生成模块:配置为对每个显示著性特征降维激活,生成显著性图,采用融合交叉熵和交并比损失的混合损失函数进行深层监督训练。
本发明所提供的一种计算机可读存储介质,所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行如前所述方法。
本发明所提供的一种电子设备,其特征在于,所述电子设备,包括:
处理器,用于执行多条指令;
存储器,用于存储多条指令;
其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行如前所述方法。
有益效果:
(1)本发明的方法基于多尺度扩张卷积神经网络采用预训练好的ResNet34 作为特征编码器,有效地提取出多尺度初始特征,通过使用扩张残差卷积模块,充分捕获到了图像中丰富的全局语义信息和局部语义信息,解决了编码器深度较浅、信息提取不足的问题。
(2)通过设计通道注意力模块,进一步使网络聚焦显著性目标区域,减少了冗余信息的干扰。
(3)采用混合损失函数,融合交叉熵损失和交占比损失,有效地提高图像显著性目标检测的准确率。
(4)采用端到端的深度监督训练方式,具有训练速度快、计算量小、通用性强、检测精度高等优势。
(5)本发明有效利用多尺度特征信息,充分挖掘高层次信息与低层次信息之间的相关性。
附图说明
图1为本发明提供的基于多尺度扩张卷积神经网络的显著性目标检测方法流程示意图;
图2为本发明提供的基于多尺度扩张卷积神经网络的显著性目标检测架构示意图;
图3为本发明提供的扩张残差卷积模块结构示意图;
图4为本发明提供的通道注意力模块结构示意图;
图5为本发明提供的基于多尺度扩张卷积神经网络的显著性目标检测方法装置结构示意图。
具体实施方式
下面结合附图和实施例,对本发明进行详细描述。
如图1-图2所示,本发明提出了一种基于多尺度扩张卷积神经网络的显著性目标检测方法,包括如下步骤:
步骤S1:将待处理的RGB图像作为输入图像,将所述输入图像输入预先训练好的ResNet34网络模型,提取所述输入图像的多尺度特征;
步骤S2:将所述多尺度特征输入扩张残差卷积模块,得到包括所述多尺度特征的上下文信息的融合特征;所述扩张残差卷积模块包括第一卷积层,与所述第一卷积层相连的多个分支,以及第二卷积层;其中各个分支的输出均输入所述第二卷积层,每个分支包括一个与所述第一卷积层相连的残差模块、以及同时与所述残差模块相连的第一扩张卷积模块、以及第二扩张卷积模块,基于第一扩张卷积模块的输出与所述第二扩张卷积模块的输出得到所述分支的输出;
步骤S3:将所述融合特征分别输入多个通道注意力模块,得到多个显著性特征;
步骤S4:对每个显著性特征降维激活,生成显著性图,采用融合交叉熵和交并比损失的混合损失函数进行深层监督训练。
进一步地,所述通道注意力模块包括平均池化模块、最大池化模块、第一卷积分支、第二卷积分支以及第三卷积模块;所述融合特征分别输入所述平均池化模块及所述最大池化模块,所述平均池化模块及所述最大池化模块处理后的结果进行融合,得到第一融合特征,将所述第一融合特征分别输入所述第一卷积分支及所述第二卷积分支,将所述第一融合特征、所述第一卷积分支得到的处理结果、以及所述第二卷积分支得到的处理结果进行融合,得到第二融合特征,将所述第二融合特征输入所述第三卷积模块,得到显著性特征。
所述步骤S1,其中:
本实施例中,将在ImageNet上预训练好的ResNet34网络模型作为编码器,从输入图像中提取多尺度特征Ij。以j=0,1,2,3,4为例,分别选取conv1,conv2_3, conv3_4,conv4_6,conv5_3作为编码器的5个输出层;输入图像I(H,W,3)利用下采样生成特征Ij(j=0,1,2,3,4),其中H,W,3分别为特征的高、宽、通道数。则 conv1的输出特征为I0(H,W,64),conv2_3的输出特征为I1(H/2,W/2,64), conv3_4的输出特征为I2(H/4,W/4,128),conv4_6的输出特征为I3(H/8,W/ 8,256),conv5_3的输出特征为I4(H/16,W/16,512)。
所述步骤S2,如图3所示,其中:
所述第一卷积层用于对所述多尺度特征降维。
所述第一扩张卷积模块及所述第二扩张卷积模块进行扩张卷积后均进行批量标准化操作和ReLu非线性激活操作;所述第一扩张卷积模块的填充率为d0= {2,4,6},所述第二扩张卷积模块的填充率为d1={1,2,3};
所述分支的输出为Fi
Fi=∑(Di0(res(fj)),Di1(res(fj)),fj),(i=0,1,2;j=0,1,2,3,4)
其中,i表示包含残差模块和扩张卷积的分支数,j表示多尺度特征分支数, fj表示所述多尺度降维特征,res(·)表示残差模块进行的卷积操作,Di0,Di1分别表示填充率为d0,d1的扩张卷积操作,∑表示像素级加性融合操作。
将各个扩张卷积分支的输出Fi输入所述第二卷积层,得到包括所述多尺度特征的上下文信息的融合特征Υj=Conv(C(F0,F1,F2,fj)),其中,Conv表示降维卷积操作,C表示通道维度的特征融合操作。
本发明利用多内核扩张卷积和残差卷积充分提取多尺度上下文信息,增强特征的多样性和相关性,通过残差卷积和不同感受野的扩张卷积,以及信息融合,避免信息丢失,捕获到更多上下文中显著性信息,使得特征更具泛化能力。
例如,将所述多尺度特征作为扩张残差卷积模块的输入,首先,通过1×1 卷积操作降维输入特征fj;其次,再分别送入由经典的残差块和两个扩张卷积组成的三组卷积操作中,其中每个扩张卷积后都进行批量标准化和ReLu非线性激活操作,填充率分别为d0={2,4,6},d1={1,2,3};再次,将扩张卷积输出的所有特征与fj进行特征融合得到每一分支特征Fi,其中,Fi的计算公式为:
Fi=∑(Di0(res(fj)),Di1(res(fj)),fj),(i=0,1,2;j=0,1,2,3,4)
其中,res(·)并表示残差块,Di0,Di1分别表示填充率为d0,d1的扩张卷积操作,∑表示像素级加性融合操作。
最后,通过卷积和为1×1的卷积操作进行降维,得到具有深层上下文语义信息的特征Υj,计算公式如下:
Υj=Conv(C(F0,F1,F2,fj))
所述步骤S3,如图4所示,其中:
对于通道注意力模块,进一步地,所述第一卷积分支与所述第二卷积分支的卷积核尺寸不同。所述第一卷积分支包括3×3卷积层、全连接层及sigmoid 层,将所述第一融合特征输入所述第一卷积分支,得到不同通道层面对显著性信息的第一影响程度α;所述第二卷积分支包括5×5卷积层、全连接层及 sigmoid层,将所述第一融合特征输入所述第二卷积分支,得到不同通道层面对显著性信息的第二影响程度β;将第一影响程度α、第二影响程度β、第一融合特征ε进行融合,融合方式为:
Figure 2
其中,
Figure BDA0003847093760000092
表示系数相乘,Mj表示多尺度分支j的通道注意力模块输出的显著性特征。显著性特征是两个分支特征与ε融合后的结果。
本发明将特征通过通道注意力模块强化多尺度通道间显著性目标信息,避免冗余信息的干扰。通过强化通道中显著性信息,一定程度上避免了冗余背景信息的干扰,使得特征更具鲁棒性。
例如,特征Υj作为通道注意力模块的输入,通过平均池化和最大池化,保留特征中不同信息,融合后得到特征ε分别通过卷积核为3×3和5×5的卷积操作,级联全连接操作和Sigmoid激活函数操作的两个分支,得到不同通道层面对显著性信息的影响程度α,β,再分别与ε进行相乘和特征融合,通过1×1的卷积操作,最后得到更为聚集的显著性信息特征,公式可以表示为:
Figure 3
其中,
Figure BDA0003847093760000094
表示系数相乘,Mj表示两个分支特征与ε融合后的结果。
所述步骤S4,对每个显示著性特征Mj进行降维激活,生成显著性图,采用融合交叉熵和交并比损失的混合损失函数进行深层监督训练。
所述混合损失函数L为
L=λ1LBCE(P,G)+λ2LIOU(P,G)
其中,λ1,λ2分别为交叉熵损失函数BCE和IOU损失函数的权重系数, LBCE(P,G)表示显著性图的交叉熵损失函数,LIOU(P,G)表示显著性图IOU损失函数,P是显著性图的预测结果,G是显著性图的真值标签。
Figure BDA0003847093760000101
Figure BDA0003847093760000102
l表示输入图像中第l个像素,n表示输入图像中共有n个像素,Gl表示第l个像素的显著性图的真值标签,Pl表示第l个像素的显著性图的预测结果。
进一步地,以所述混合损失函数作为优化目标,采用端到端的训练方式,对由所述扩张残差卷积模块及所述多个通道注意力模块组成的多尺度扩张卷积神经网络进行训练,从而有效地定位和分割目标,得到准确的显著性图。
本发明使用混合损失函数进行深层监督训练,融合交叉熵和交并比损失,能够更有效地定位和分割显著目标。为了进一步挖掘全局像素之间的相关性,引入IOU损失函数,用以计算预测结果和真值标签整体结构相似度。
例如,混合损失函数为交叉熵损失函数和IOU损失函数加权和:
L=λ1LBCE(P,G)+λ1LIOU(P,G)
其中,λ1,λ2分别为交叉熵损失函数和IOU损失函数的权重系数,均设置为1,LBCE(P,G)表示显著图的交叉熵损失函数,LIOU(P,G)表示显著图IOU损失函数,P是显著图的预测结果,G是真值标签。
交叉熵损失函数广泛应用于分类问题中,其定义如下:
Figure BDA0003847093760000111
其中,l表示图像中第l个像素,n表示图像中共有n个像素。
Figure BDA0003847093760000112
使用上述混合损失函数作为优化目标,经过深度训练,最小化损失函数,实现网络模型的优化。
本发明还提供了一种基于多尺度扩张卷积神经网络的显著性目标检测装置,如图5所示,该装置包括:
多尺度编码模块:配置为将待处理的RGB图像作为输入图像,将所述输入图像输入预先训练好的ResNet34网络模型,提取所述输入图像的多尺度特征;
扩张残差卷积模块:配置为将所述多尺度特征输入扩张残差卷积模块,得到包括所述多尺度特征的上下文信息的融合特征;所述扩张残差卷积模块包括第一卷积层,与所述第一卷积层相连的多个分支,以及第二卷积层;其中各个分支的输出均输入所述第二卷积层,每个分支包括一个与所述第一卷积层相连的残差模块、以及同时与所述残差模块相连的第一扩张卷积模块、以及第二扩张卷积模块,基于第一扩张卷积模块的输出与所述第二扩张卷积模块的输出得到所述分支的输出;
显著性特征获取模块:配置为将所述融合特征分别输入多个通道注意力模块,得到多个显著性特征;
显著性图生成模块:配置为对每个显示著性特征降维激活,生成显著性图,采用融合交叉熵和交并比损失的混合损失函数进行深层监督训练。
以上的具体实施例仅描述了本发明的设计原理,该描述中的部件形状,名称可以不同,不受限制。所以,本发明领域的技术人员可以对前述实施例记载的技术方案进行修改或等同替换;而这些修改和替换未脱离本发明创造宗旨和技术方案,均应属于本发明的保护范围。

Claims (8)

1.一种基于多尺度扩张卷积神经网络的显著性目标检测方法,其特征在于,包括如下步骤:
步骤S1:将待处理的RGB图像作为输入图像,将所述输入图像输入预先训练好的ResNet34网络模型,提取所述输入图像的多尺度特征;
步骤S2:将所述多尺度特征输入扩张残差卷积模块,得到包括所述多尺度特征的上下文信息的融合特征;所述扩张残差卷积模块包括第一卷积层,与所述第一卷积层相连的多个分支,以及第二卷积层;其中各个分支的输出均输入所述第二卷积层,每个分支包括一个与所述第一卷积层相连的残差模块、以及同时与所述残差模块相连的第一扩张卷积模块、以及第二扩张卷积模块,基于第一扩张卷积模块的输出与所述第二扩张卷积模块的输出得到所述分支的输出;
步骤S3:将所述融合特征分别输入多个通道注意力模块,得到多个显著性特征;
步骤S4:对每个显著性特征降维激活,生成显著性图,采用融合交叉熵和交并比损失的混合损失函数进行深层监督训练。
2.如权利要求1所述的方法,其特征在于,所述通道注意力模块包括平均池化模块、最大池化模块、第一卷积分支、第二卷积分支以及第三卷积模块;所述融合特征分别输入所述平均池化模块及所述最大池化模块,所述平均池化模块及所述最大池化模块处理后的结果进行融合,得到第一融合特征,将所述第一融合特征分别输入所述第一卷积分支及所述第二卷积分支,将所述第一融合特征、所述第一卷积分支得到的处理结果、以及所述第二卷积分支得到的处理结果进行融合,得到第二融合特征,将所述第二融合特征输入所述第三卷积模块,得到显著性特征。
3.如权利要求1-2中任一所述方法,其特征在于,所述步骤S2,其中:
所述第一扩张卷积模块及所述第二扩张卷积模块进行扩张卷积后均进行批量标准化操作和ReLu非线性激活操作;所述第一扩张卷积模块的填充率为d0={2,4,6},所述第二扩张卷积模块的填充率为d1={1,2,3};
所述分支的输出为Fi
Fi=∑(Di0(res(fj)),Di1(res(fj)),fj)
其中,i表示包含残差模块和扩张卷积的分支数,j表示多尺度特征分支数,fj表示所述多尺度降维特征,res(·)表示残差模块进行的卷积操作,Di0,Di1分别表示填充率为d0,d1的扩张卷积操作,∑表示像素级加性融合操作;
将各个扩张卷积分支的输出Fi输入所述第二卷积层,得到包括所述多尺度特征的上下文信息的融合特征Υj=Conv(C(F0,F1,F2,fj)),其中,Conv表示降维卷积操作,C表示通道维度的特征融合操作。
4.如权利要求3所述方法,其特征在于,所述步骤S3,其中:
所述第一卷积分支与所述第二卷积分支的卷积核尺寸不同;所述第一卷积分支包括3×3卷积层、全连接层及sigmoid层,将所述第一融合特征输入所述第一卷积分支,得到不同通道层面对显著性信息的第一影响程度α;所述第二卷积分支包括5×5卷积层、全连接层及sigmoid层,将所述第一融合特征输入所述第二卷积分支,得到不同通道层面对显著性信息的第二影响程度β;将第一影响程度α、第二影响程度β、第一融合特征ε进行融合,融合方式为:
Figure FDA0003847093750000021
其中,
Figure FDA0003847093750000022
表示系数相乘,Mj表示多尺度分支j的通道注意力模块输出的显著性特征。
5.如权利要求4所述方法,其特征在于,所述步骤S4,所述混合损失函数L为
L=λ1LBCE(P,G)+λ2LIOU(P,G)
其中,λ1,λ2分别为交叉熵损失函数BCE和IOU损失函数的权重系数,LBCE(P,G)表示显著性图的交叉熵损失函数,LIOU(P,G)表示显著性图IOU损失函数,P是显著性图的预测结果,G是显著性图的真值标签;
Figure FDA0003847093750000031
Figure FDA0003847093750000032
其中,l表示输入图像中第l个像素,n表示输入图像中共有n个像素,Gl表示第l个像素的显著性图的真值标签,Pl表示第l个像素的显著性图的预测结果。
6.一种基于多尺度扩张卷积神经网络的显著性目标检测装置,其特征在于,包括:
多尺度编码模块:配置为将待处理的RGB图像作为输入图像,将所述输入图像输入预先训练好的ResNet34网络模型,提取所述输入图像的多尺度特征;
扩张残差卷积模块:配置为将所述多尺度特征输入扩张残差卷积模块,得到包括所述多尺度特征的上下文信息的融合特征;所述扩张残差卷积模块包括第一卷积层,与所述第一卷积层相连的多个分支,以及第二卷积层;其中各个分支的输出均输入所述第二卷积层,每个分支包括一个与所述第一卷积层相连的残差模块、以及同时与所述残差模块相连的第一扩张卷积模块、以及第二扩张卷积模块,基于第一扩张卷积模块的输出与所述第二扩张卷积模块的输出得到所述分支的输出;
显著性特征获取模块:配置为将所述融合特征分别输入多个通道注意力模块,得到多个显著性特征;
显著性图生成模块:配置为对每个显示著性特征降维激活,生成显著性图,采用融合交叉熵和交并比损失的混合损失函数进行深层监督训练。
7.一种计算机可读存储介质,所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行如权利要求1-5中任一项所述方法。
8.一种电子设备,其特征在于,所述电子设备,包括:
处理器,用于执行多条指令;
存储器,用于存储多条指令;
其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行如权利要求1-5中任一项所述方法。
CN202211131569.2A 2022-09-15 2022-09-15 一种基于多尺度扩张卷积神经网络的显著性目标检测方法 Pending CN115620118A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211131569.2A CN115620118A (zh) 2022-09-15 2022-09-15 一种基于多尺度扩张卷积神经网络的显著性目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211131569.2A CN115620118A (zh) 2022-09-15 2022-09-15 一种基于多尺度扩张卷积神经网络的显著性目标检测方法

Publications (1)

Publication Number Publication Date
CN115620118A true CN115620118A (zh) 2023-01-17

Family

ID=84858454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211131569.2A Pending CN115620118A (zh) 2022-09-15 2022-09-15 一种基于多尺度扩张卷积神经网络的显著性目标检测方法

Country Status (1)

Country Link
CN (1) CN115620118A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116740069A (zh) * 2023-08-15 2023-09-12 山东锋士信息技术有限公司 基于多尺度显著信息和双向特征融合的表面缺陷检测方法
CN117671357A (zh) * 2023-12-01 2024-03-08 广东技术师范大学 基于金字塔算法的前列腺癌超声视频分类方法及系统
CN117935031A (zh) * 2023-03-21 2024-04-26 盐城工学院 一种融合混合注意力的显著性目标检测方法
CN118115729A (zh) * 2024-04-26 2024-05-31 齐鲁工业大学(山东省科学院) 多层次多尺度特征交互的图像伪造区域识别方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117935031A (zh) * 2023-03-21 2024-04-26 盐城工学院 一种融合混合注意力的显著性目标检测方法
CN116740069A (zh) * 2023-08-15 2023-09-12 山东锋士信息技术有限公司 基于多尺度显著信息和双向特征融合的表面缺陷检测方法
CN116740069B (zh) * 2023-08-15 2023-11-07 山东锋士信息技术有限公司 基于多尺度显著信息和双向特征融合的表面缺陷检测方法
CN117671357A (zh) * 2023-12-01 2024-03-08 广东技术师范大学 基于金字塔算法的前列腺癌超声视频分类方法及系统
CN118115729A (zh) * 2024-04-26 2024-05-31 齐鲁工业大学(山东省科学院) 多层次多尺度特征交互的图像伪造区域识别方法及系统

Similar Documents

Publication Publication Date Title
CN111210443B (zh) 基于嵌入平衡的可变形卷积混合任务级联语义分割方法
Zhou et al. GMNet: Graded-feature multilabel-learning network for RGB-thermal urban scene semantic segmentation
Huang et al. DC-SPP-YOLO: Dense connection and spatial pyramid pooling based YOLO for object detection
CN108509978B (zh) 基于cnn的多级特征融合的多类目标检测方法及模型
CN115620118A (zh) 一种基于多尺度扩张卷积神经网络的显著性目标检测方法
CN108734210B (zh) 一种基于跨模态多尺度特征融合的对象检测方法
CN110782420A (zh) 一种基于深度学习的小目标特征表示增强方法
Xu et al. Fast vehicle and pedestrian detection using improved Mask R‐CNN
CN114612477B (zh) 一种轻量化图像分割方法、系统、介质、终端及应用
CN111160348A (zh) 自然场景的文本识别方法、存储装置和计算机设备
CN111523463B (zh) 基于匹配-回归网络的目标跟踪方法及训练方法
CN113139544A (zh) 一种基于多尺度特征动态融合的显著性目标检测方法
CN110942471A (zh) 一种基于时空约束的长时目标跟踪方法
CN113536986B (zh) 一种基于代表特征的遥感图像中的密集目标检测方法
CN113505634B (zh) 一种双流解码跨任务交互网络的光学遥感图像显著目标检测方法
CN114898403A (zh) 一种基于Attention-JDE网络的行人多目标跟踪方法
CN114663371A (zh) 基于模态独有和共有特征提取的图像显著目标检测方法
CN110866938A (zh) 一种全自动视频运动目标分割方法
CN117152438A (zh) 一种基于改进DeepLabV3+网络的轻量级街景图像语义分割方法
Yu et al. WaterHRNet: A multibranch hierarchical attentive network for water body extraction with remote sensing images
CN111291713A (zh) 一种基于骨架的手势识别方法及系统
US20230072445A1 (en) Self-supervised video representation learning by exploring spatiotemporal continuity
Cho et al. Modified perceptual cycle generative adversarial network-based image enhancement for improving accuracy of low light image segmentation
Qiao et al. Two-Stream Convolutional Neural Network for Video Action Recognition.
Liang et al. A novel deep network and aggregation model for saliency detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination