CN114937154B - 一种基于递归解码器的显著性检测方法 - Google Patents

一种基于递归解码器的显著性检测方法 Download PDF

Info

Publication number
CN114937154B
CN114937154B CN202210620648.3A CN202210620648A CN114937154B CN 114937154 B CN114937154 B CN 114937154B CN 202210620648 A CN202210620648 A CN 202210620648A CN 114937154 B CN114937154 B CN 114937154B
Authority
CN
China
Prior art keywords
input
layer
decoder
sub
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210620648.3A
Other languages
English (en)
Other versions
CN114937154A (zh
Inventor
赵于前
王辉
张帆
阳春华
桂卫华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202210620648.3A priority Critical patent/CN114937154B/zh
Publication of CN114937154A publication Critical patent/CN114937154A/zh
Application granted granted Critical
Publication of CN114937154B publication Critical patent/CN114937154B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于递归解码器的显著性检测方法,主要解决现有技术显著性检测结果准确率低,显著性主体判断错误与边缘模糊的问题。其实施方案为:1)获取数据集与检测标签;2)构建检测模型;3)构建损失函数;4)训练检测模型;5)推理并获得检测结果。本发明构建的显著性检测模型,通过多次全尺度特征融合与边缘强化,实现了多尺度特征的充分利用与解码结果的细节补充,有效提升了显著性检测结果的准确率,避免了检测结果中显著性主体判断错误的发生,解决了解码结果存在边缘模糊的问题。

Description

一种基于递归解码器的显著性检测方法
技术领域
本发明属于图像处理技术领域,具体涉及一种基于递归解码器的显著性检测方法。
背景技术
显著性检测作为一种图像预处理方法,通过实现图像中显著性物体的检测,降低图像处理的复杂度,提升图像处理算法的运行效率,因而具有广泛的应用空间和发展前景。在自动驾驶领域中,可以通过显著性检测对道路图像进行预处理,使得目标检测算法优先识别显著性区域,以提升显著性区域目标在自动驾驶系统中处理的优先级,保证自动驾驶系统的安全性。传统的显著性检测方法主要借助颜色、纹理、中心先验等人工特征实现显著性目标的分割,这类方法存在着检测准确率低,鲁棒性差等问题,因此已经逐渐被深度学习的方法所取代。现有的基于深度学习的显著性检测模型大多采用基于编码-解码结构的全卷积网络,通过端到端的模式完成显著性检测模型的训练。这些模型在利用多尺度特征图生成显著性检测图的时候,没有充分考虑不同尺度特征图之间的差异,因此在进行特征融合时,无法充分利用多尺度信息,导致生成的显著性检测图准确率较差。
发明内容
本发明充分考虑了现有方法存在的缺点,其目的在于提供一种基于递归解码器的显著性检测方法,通过多次全尺度特征融合方式,实现多尺度特征的解码,以提升显著性检测的准确率。
一、技术原理
目前基于卷积神经网络的显著性检测模型大多直接采用编码-解码结构,模型的编码器通过堆叠重复的卷积层和池化层获取深层语义信息,解码器通过上采样层逐渐恢复图像的分辨率,得到最终的预测结果。由于卷积核感受野的限制,模型获取的特征图内存在空间语义割裂的问题。为了建立多层次特征图的长依赖关系以消除空间语义割裂,本发明将编码器获取的多尺度特征分别输入到长依赖模块(LRDM),通过长依赖权重对多尺度特征进行加权,为多尺度特征内部建立了大空间范围的依赖关系。编码器所生成的多尺度特征包含了不同层次的信息,传统解码器所使用的上采样-融合模式无法充分发挥多尺度特征的优势。为了充分利用多尺度特征中所包含的信息,本发明设计了递归解码器(RD)实现全层次递归解码,保证多层次语义信息得到充分利用,以获得更加准确的检测结果。为了弥补解码器所得结果面临的细节缺失的问题,保证检测结果的准确性,本发明设计边缘强化模块(ER),针对解码器所生成的结果进行细化校正,提高了模型的预测精度。
二、根据上述原理,本发明通过以下方案实现:
一种基于递归解码器的显著性检测方法,包括以下步骤:
(1)获取数据集与检测标签:
获取显著性检测公开数据集及对应的检测标签;
(2)构建检测模型,该模型由特征提取器、递归解码器RD-1和RD-2、边缘强化模块ER-1和ER-2、整体注意力模块HA构成,具体构建过程包括以下步骤:
(2-a)构建特征提取器,以ResNet-50作为特征提取器的基础网络;所构建的特征提取器共分五层:第一层,即Res1,由单层卷积模块构成;第二层,即 Res2,由一个池化层和三层残差模块构成;第三层,即Res3,由四层残差模块构成;第四层包括Res4-1和Res4-2,二者拥有相同的结构,都由六层残差模块构成,第五层包括Res5-1和Res5-2,二者也拥有相同的结构,都由三层残差模块构成;第四层和第五层为双分支结构,其中第四层的Res4-1和第五层的Res5-1 串联构成第一个分支,第四层的Res4-2和第五层的Res5-2串联构成第二个分支;输入图像经过Res1处理,获得三维特征图f1_1、f1_2和f1_3,且f1_1=f1_2=f1_3; f1_3输入Res2获得三维特征图f2_1、f2_2和f2_3,且f2_1=f2_2=f2_3;f2_3输入Res3 获得三维特征图f3_1、f3_2和f3_3,且f3_1=f3_2=f3_3;f3_3依次经过第一个分支的 Res4-1和Res5-1处理后分别获得三维特征图f4_1和f5_1;f3_3与整体注意力模块HA的输出结果通过逐像素相乘实现加权,加权结果依次经过第二个分支的Res4- 2和Res5-2处理后分别获得三维特征图f4_2和f5_2;HA由单层卷积构成,它以递归解码器RD-1的输出结果作为输入。
(2-b)构建递归解码器RD-n,该解码器由长依赖模块LRDM、感受野模块 RFB、子解码器1、子解码器2、子解码器3和卷积模块Conv2构成;将步骤(2- a)获取的特征图f2_n、f3_n、f4_n和f5_n分别作为递归解码器RD-n的输入1、输入 2、输入3和输入4,n=1,2;fi_n依次经过LRDM与RFB处理后得到其中i=2,3,4,5;将作为子解码器1的输入,得到输出结果 mask1_n,将mask1_n作为子解码器2的输入,得到输出结果mask2_n,将mask2_n作为子解码器3的输入,得到输出结果mask3_n,将mask3_n作为卷积模块Conv2的输入,得到粗特征图 mapn,即为递归解码器RD-n的输出结果。
该步骤中的长依赖模块LRDM和子解码器分别构建如下:
(2-b-1)构建长依赖模块LRDM;以步骤(2-a)获得的特征图fi_n作为输入,经该模块的通道维度自适应均值池化层处理并进行特征展开后,获得一维特征,将一维特征输入全连接层后,经过激活函数与特征逆展开处理,再与特征图fi_n进行逐像素相乘操作,得到LRDM的输出;其中i=2,3,4,5,n=1,2。
长依赖模块LRDM用于为多尺度特征建立跨空间长依赖关系,消除卷积操作所导致的语义信息的空间割裂,具体计算公式为:
Mo=R(AdpAvgPool(fi_n))
Ml=ρ(MLP(Mo))
其中fi_n表示步骤(2-a)中得到的三维特征图,Mo与Ml为一维中间特征图,AdpAvgPool(·)表示自适应均值池化,将输入的三维特征图通过通道维度池化降维为二维特征图,R(·)表示特征展开,R-1(·)表示特征逆展开,MLP(·)表示全连接网络,ρ(·)表示sigmoid激活函数,表示逐像素相乘。
(2-b-2)构建子解码器,三个子解码器都具有相同的结构,由递归池化模块 RP、递归上采样模块RU、上采样模块Up、通道注意力模块CA、卷积模块Conv1 和拼接层构成;其中递归池化模块RP由池化层、卷积层和激活层构成,递归上采样模块RU由上采样层、卷积层和激活层构成;在子解码器1、2、3中,分别以直接输入到拼接层的特征为基准特征,RP和RU分别对来自RFB的输入特征进行以基准特征尺寸为参考的尺度归一化;归一化后的特征与基准特征拼接后,再与上采样模块Up的输出结果通过逐像素相乘运算实现加权,加权结果依次输入CA和Conv1后,得到子解码器的输出。
子解码器1中RP的输入为RU和Up的输入都为子解码器2中RP的输入为RU的输入为Up的输入为子解码器1 的输出;子解码器3中RP的输入为零,RU的输入为Up的输入为子解码器2的输出。
本步骤中构建的子解码器的作用是融合多尺度特征,获得显著性检测结果,具体计算公式为:
mapn=Convn(mask3_n)
其中表示中间特征图,i=2,3,4,5,j=3,4,5,n=1,2,maskm_n表示第n个RD的第m个子解码器的输出结果,m=1,2,3,U(·)表示上采样操作,D(·)表示池化操作,CCm_n(·)表示第n个RD的第m个子解码器中的CA模块和Conv1模块依次执行的操作,Cat(·)表示通道维度拼接,表示逐像素相乘,Convn(·)表示第n个RD的卷积模块Conv2执行的操作。
(2-c)构建边缘强化模块ER-n,该模块由卷积块1和卷积块2构成,其中卷积块1由三层残差模块构成,卷积块2由五层卷积构成;将步骤(2-a)得到的特征图f1_n经卷积块1处理后,与步骤(2-b)得到的粗特征图mapn进行逐像素相加,再经卷积块2处理后,得到显著性检测图,其中n=1,2。
(3)构建损失函数:
构建如下混合损失函数Lmix
Lmix=LBCE+LMSSIM+LDice
其中LBCE为二元交叉熵损失,LMSSIM为平均结构相似性损失,LDice为Dice损失,分别定义如下:
其中P表示预测图,Gt表示标签图,二者尺寸相同,H表示图的高,W表示图的宽,Pi,j和Gti,j分别表示P和Gt中(i,j)点的像素值,且Pi,j∈(0,1),Gti,j为整数且 Gti,j∈[0,1],log表示求自然对数,表示逐像素相加操作,表示逐像素相乘操作,C1与C2为实数常量,且C1、C2∈(0,0.1);M表示标签图Gt与预测图P被分别划分成的子图的个数,为预测图P第k个子图的均值,为标签图Gt第k个子图的均值,为预测图P第k个子图的方差,为标签图Gt第k个子图的方差,为预测图P的第k个子图和标签图Gt的第k个子图之间的协方差;|·|表示求取图像中所有像素的和;对模型的两个分支的显著性检测图分别计算混合损失函数,以这两个混合损失函数之和作为模型的总损失函数,定义如下:
Ltotal=Lmix-1+Lmix-2
其中,Lmix-1和Lmix-2分别表示第一和第二分支的显著性检测图与标签之间的混合损失,Ltotal表示模型的总损失函数。
(4)训练检测模型:
利用步骤(1)得到的数据集训练步骤(2)构建的检测模型,模型中的特征提取器使用预训练模型进行参数初始化;使用混合损失函数Lmix-1和Lmix-2分别衡量第一和第二分支的显著性检测图与标签之间的相似性;训练过程中使用 Adam算法更新模型参数,并通过L-2正则化作为约束,直到损失值不再下降,得到训练好的显著性检测模型。
(5)推理并获得检测结果:
将测试图像经过归一化处理之后,输入至训练好的显著性检测模型,该模型第二分支得到的显著性检测图即为最终的显著性检测结果。
步骤(3)中,常数C1与C2分别优选0.012和0.032
步骤(2-b-2)中,激活层的激活函数优选Relu函数。
本发明与现有技术相比,有以下优点:
(1)本发明构建的LRDM通过特征加权的方式,为多尺度特征建立了跨空间长依赖关系,有效避免了随着距离增加而出现特征割裂的问题,增强了大尺度特征的一致性,提高了模型的鲁棒性。
(2)本发明构建的递归解码器RD包含三个子解码器,三个子解码器通过依次全尺度解码,在充分利用多尺度信息的同时实现相互参照,提升了解码的准确率。
(3)本发明构建的边缘强化模块ER利用浅层特征信息进行边缘强化,对粗特征图进行校正。由于浅层特征信息的引入,边缘强化过程拥有更多可供参考的细节信息,使得校正结果更加接近真实结果。
附图说明
图1本发明实施方式的基于递归解码器的显著性检测方法流程图;
图2本发明实施方式的显著性检测模型结构图;
图3本发明实施方式的递归解码器模块结构图;
图4本发明实施方式的长依赖模块结构图;
图5本发明实施方式的递归池化模块结构图;
图6本发明实施方式的递归上采样模块结构图;
图7本发明实施方式的边缘强化模块结构图;
图8本发明实施方式的显著性检测结果与其他方法检测结果对比图。
具体实施方式
下面说明本发明具体实施方式:
实施例1
图1所示为本发明实施方式的基于递归解码器的显著性检测方法流程图,具体步骤如下:
步骤1,获取数据集与检测标签。
获取显著性检测公开数据集及对应的检测标签。
步骤2,构建检测模型,该模型由特征提取器、递归解码器RD-1和RD- 2、边缘强化模块ER-1和ER-2、整体注意力模块HA构成,具体构建过程包括以下步骤:
图2所示为本发明实施方式中构建的显著性检测模型结构图,具体步骤如下:
(2-a)构建特征提取器,以ResNet-50作为特征提取器的基础网络;所构建的特征提取器共分五层:第一层,即Res1,由单层卷积模块构成;第二层,即 Res2,由一个池化层和三层残差模块构成;第三层,即Res3,由四层残差模块构成;第四层包括Res4-1和Res4-2,二者拥有相同的结构,都由六层残差模块构成,第五层包括Res5-1和Res5-2,二者也拥有相同的结构,都由三层残差模块构成;第四层和第五层为双分支结构,其中第四层的Res4-1和第五层的Res5-1 串联构成第一个分支,第四层的Res4-2和第五层的Res5-2串联构成第二个分支;输入尺寸3×352×352为的图像经过Res1处理,获得三维特征图f1_1、f1_2和f1_3,其尺寸都为64×176×176,且f1_1=f1_2=f1_3;f1_3输入Res2获得三维特征图 f2_1、f2_2和f2_3,其尺寸都为256×88×88,且f2_1=f2_2=f2_3;f2_3输入Res3 获得三维特征图f3_1、f3_2和f3_3,其尺寸都为512×44×44,且f3_1=f3_2=f3_3; f3_3依次经过第一个分支的Res4-1和Res5-1处理后分别获得三维特征图f4_1和 f5_1,其尺寸分别为1024×22×22和2048×11×11;f3_3与整体注意力模块HA 的输出结果通过逐像素相乘实现加权,加权结果依次经过第二个分支的Res4-2 和Res5-2处理后分别获得三维特征图f4_2和f5_2,其尺寸分别为1024×22×22和2048×11×11;HA由卷积核为3×3的单层卷积构成,输入通道数为1,输出通道数为1,它以递归解码器RD-1的解码结果作为输入。
(2-b)构建递归解码器RD-n,图3所示为本发明实施方式总体模型中的递归解码器模型结构图,该解码器由长依赖模块LRDM、感受野模块RFB、子解码器1、子解码器2、子解码器3和卷积模块Conv2构成;将步骤(2-a)获取的特征图f2_n、f3_n、f4_n和f5_n分别作为递归解码器RD-n的输入1、输入2、输入 3和输入4,n=1,2;f2_n、f3_n、f4_n和f5_n分别依次经过LRDM与RFB处理后得到其尺寸分别为32×88×88,32×44×44,32× 22×22和32×11×11,n=1,2,;将作为子解码器1的输入,得到尺寸为32×22×22的输出结果mask1_n,将mask1_n 作为子解码器2的输入,得到尺寸为32×44×44的输出结果mask2_n,将mask2_n作为子解码器3的输入,得到尺寸为 32×88×88的输出结果mask3_n,将mask3_n作为卷积模块Conv2的输入,得到尺寸为1×176×176的粗特征图mapn,即为递归解码器RD-n的输出结果;其中Conv2由两层卷积与上采样层构成,第一层卷积的输入通道数为32,输出通道数为32,卷积核大小为3×3,第二层卷积输入通道数为32,输出通道数为1,卷积核大小为1×1。
该步骤中的长依赖模块LRDM和子解码器分别构建如下:
(2-b-1)构建长依赖模块LRDM;图4所示为本发明实施方式总体模型中的长依赖模块结构图,以步骤(2-a)获得的特征图fi_n作为输入,经该模块的通道维度自适应均值池化层处理并进行特征展开后,获得一维特征,将一维特征输入全连接层后,经过激活函数与特征逆展开处理,再与特征图fi_n进行逐像素相乘操作,得到LRDM的输出;其中i=2,3,4,5,n=1,2。
长依赖模块LRDM用于为多尺度特征建立跨空间长依赖关系,消除卷积操作所导致的语义信息的空间割裂,具体计算公式为:
Mo=R(AdpAvgPool(fi_n))
Ml=ρ(MLP(Mo))
其中fi_n表示步骤(2-a)中得到的三维特征图,Mo与Ml为一维中间特征图,AdpAvgPool(·)表示自适应均值池化,将输入的三维特征图通过通道维度池化降维为二维特征图,R(·)表示特征展开,R-1(·)表示特征逆展开,MLP(·)表示全连接网络,ρ(·)表示sigmoid激活函数,表示逐像素相乘。
(2-b-2)构建子解码器,三个子解码器都具有相同的结构,由递归池化模块 RP、递归上采样模块RU、上采样模块Up、通道注意力模块CA、卷积模块Conv1 和拼接层构成;图5所示为本发明实施方式总体模型中的递归池化模块结构图, RP由池化层、卷积核大小为3×3的卷积层和激活层构成,其中激活函数优选 Relu函数;图6所示为本发明实施方式总体模型中的递归上采样模块结构图, RU由上采样层、卷积核大小为3×3的卷积层和激活层构成,其中激活函数优选Relu函数;Up由单层上采样层构成;Conv1由三层卷积构成,第一层卷积的卷积核大小为3×3,输入通道数为128,输出通道数为128,第二层卷积的卷积核大小为1×1,为输入通道数为128,输出通道数为32,第三层卷积的卷积核大小为3×3,为输入通道数为32,输出通道数为32;在子解码器1、2、3中,分别以直接输入到拼接层的特征为基准特征,RP和RU分别对来自RFB的输入特征进行以基准特征尺寸为参考的尺度归一化;归一化后的特征与基准特征拼接后,再与上采样模块Up的输出结果通过逐像素相乘运算实现加权,加权结果依次输入CA和Conv1后,得到子解码器的输出。
子解码器1中RP的输入为RU和Up的输入都为子解码器2中RP的输入为RU的输入为Up的输入为子解码器1的输出;子解码器3中RP的输入为零,RU的输入为Up的输入为子解码器2的输出。
本步骤中构建的子解码器的作用是融合多尺度特征,获得显著性检测结果,具体计算公式为:
mapn=Convn(mask3_n)
其中表示中间特征图,i=2,3,4,5,j=3,4,5,n=1,2,maskm_n表示第n个 RD的第m个子解码器的输出结果,m=1,2,3,U(·)表示上采样操作,D(·)表示池化操作,CCm_n(·)表示第n个RD的第m个子解码器中的CA 模块和Conv1模块依次执行的操作,Cat(·)表示通道维度拼接,表示逐像素相乘,Convn(·)表示第n个RD的卷积模块Conv2执行的操作。
(2-c)构建边缘强化模块ER-n,图7所示为本发明实施方式总体模型中的边缘强化模块结构图,该模块由卷积块1和卷积块2构成,其中卷积块1由三层残差模块构成,与Res2中的三层残差模块拥有相同的超参数;卷积块2由五层卷积与上采样层构成,其中第一层卷积的输入通道数为64,输出通道数为32,卷积核的大小为3×3,第二层卷积的输入通道数为32,输出通道数为32,卷积核的大小为3×3,第三层卷积的输入通道数为32,输出通道数为32,卷积核的大小为3×3,第四层卷积的输入通道数为32,输出通道数为32,卷积核的大小为3×3,第五层卷积的输入通道数为32,输出通道数为1,卷积核的大小为3×3;将步骤(2-a)得到的尺寸为64×176×176的特征图f1_n经卷积块1处理后,与步骤(2-b)得到的粗特征图mapn进行逐像素相加,再经卷积块2处理后,得到尺寸为1×352×352显著性检测图;其中n=1,2。
步骤3,构建损失函数:
构建如下混合损失函数Lmix
Lmix=LBCE+LMSSIM+LDice
其中LBCE为二元交叉熵损失,LMSSIM为平均结构相似性损失,LDice为Dice损失,分别定义如下:
其中P表示预测图,Gt表示标签图,二者尺寸相同,H表示图的高,W表示图的宽,Pi,j和Gti,j分别表示对应位置的像素值,且Pi,j∈(0,1),Gt表示标签值,log表示求自然对数,表示逐像素相加操作,表示逐像素相乘操作,mean(·)表示求取矩阵中所有像素的均值,C1和C2为实数常量,分别优选0.012和0.032,M表示标签图Gt与预测图P被分别划分成的子图的个数,为预测图P第K个子图的均值,为标签Gt第k个子图的均值,为预测图P第k个子图的方差,为标签Gt第k个子图的方差,为预测图P的第k个子图和标签Gt的第k个子图之间的协方差,|·|表示求取图像中所有像素的和;对模型的两个分支的检测图分别计算混合损失函数,以这两个混合损失函数之和作为模型的总损失函数,定义如下:
Ltotal=Lmix-1+Lmix-2
其中,Lmix-1和Lmix-2分别表示第一和第二分支的检测图与标签之间的混合损失,Ltotal表示模型的总损失函数。
步骤4,训练检测模型:
利用步骤(1)得到的数据集训练步骤(2)构建的检测模型,模型中的特征提取器使用预训练模型进行参数初始化;使用混合损失函数Lmix-1和Lmix-2分别衡量第一和第二分支的检测图与标签之间的相似性;训练过程中使用Adam算法更新模型参数,并通过L-2正则化作为约束,以防止模型过拟合,迭代次数为65 次,backbone的初始学习率为0.00001,其余部分的初始学习率为0.0001,学习率调整策略采用ReduceLROnPlateau,每当损失值两次迭代不下降,学习率就降为原来的十分之一,直到损失值不再下降,得到训练好的显著性检测模型。
步骤5,推理并获得检测结果:
将测试图像经过归一化处理之后,输入至训练好的显著性检测模型,该模型第二分支得到的检测图即为最终的显著性检测结果。
实施例2
采用实施例1中的方法对公开数据集ECSSD(Hierarchical SaliencyDetection),Pascal-S(The secrets of salient object segmentation),DUT-OMRON(Saliency detection via graph-based manifold ranking),HKU-IS(Visual saliencybased on multiscale deep features),DUTs(Learning to detect salient objectswith image-level supervision)进行显著性检测实验。本实验操作系统为Windows10,基于CUDA10.0和cuDNN7.6.0的PyTorch1.2.0框架,使用搭载了Intel(R)Xeon(R) W-2123 CPU(3.60GHz)和NVIDIA GeForce RTX 2080Ti(11GB)硬件的个人电脑训练并测试。
本实施例采用平均绝对误差(Average Absolute Error)、平均F-measure(Average F-Measure)、加权F-measure(Weighted F-Measure)、最大F-measure(Max F-Measure)、结构相似性(Structural Similarity Measure)和增强对准 (EnhancedAlignment Measure)六个指标对AFNet、CPD-R、CAGNet、GateNet、 ITSD、U2Net、GCPA、MINet、F3Net九个检测网络与本发明方法在ECSSD, Pascal-S,DUT-OMRON,HKU-IS,DUTs-TE五个数据集上进行实验对比。平均绝对误差在所有样例中的平均结果以MAE表示,计算公式如下:
式中P(i,j)表示显著性检测结果P中(i,j)位置所对应的像素值,G(i,j)表示显著性检测标签G中(i,j)位置所对应的像素值,|·|表示求绝对值,H与W分别表示检测图的高和宽。
平均F-measure在所有样例中的平均结果以avgF表示,计算公式如下:
其中Precision和Recall分别代表准确率与召回率。
最大F-measure在所有样例中的平均结果以maxF表示,计算公式如下:
其中Precisions和Recalls分别代表多个分割阈值下的加权准确率与加权召回率。
加权F-measure在所有样例中的平均结果以wF表示,计算公式如下:
其中Precisionw和Recallw分别代表加权准确率与加权召回率。
结构相似性在所有样例中的平均结果以Sm表示,计算公式如下:
Sm=0.5×Sr+0.5×So
其中Sr与So分别代表区域相似性与目标相似性。
增强对准在所有样例中的平均结果以Em表示,计算公式如下:
其中代表增强对准矩阵。
对比结果如表1所示,可以发现,本发明相较于其他方法,在五个数据集上都能得到准确的分割结果,在全部的30个评价指标中,有26个评价指标达到最优。
图8所示为本发明实施方式的显著性检测结果与其他方法检测结果对比图。结果表明,本发明所设计的模型,不仅能突出目标区域,而且能很好地抑制背景噪声、处理各种具有挑战性的场景,包括小目标(第1列)、背景相似(第2列)、背景复杂(第3列)、图像中存在具有显著特征的非显著对象(第4列)、显著对象位于图像边缘(第5列)、细节丰富的显著对象(第6列)、显著对象内存在差异(第7列)和存在反射干扰(第8列)。与其他方法相比,该方法生成的显著性检测图更清晰、更准确。
以上所述实施例仅为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之结构、原理所作的变化,均应涵盖在本发明的保护范围之内。
表1

Claims (3)

1.一种基于递归解码器的显著性检测方法,其特征在于包括以下步骤:
(1)获取数据集与检测标签:
获取显著性检测公开数据集及对应的检测标签;
(2)构建检测模型,该模型由特征提取器、递归解码器RD-1和RD-2、边缘强化模块ER-1和ER-2、整体注意力模块HA构成,具体构建过程包括以下步骤:
(2-a)构建特征提取器,以ResNet-50作为特征提取器的基础网络;所构建的特征提取器共分五层:第一层,即Res1,由单层卷积模块构成;第二层,即Res2,由一个池化层和三层残差模块构成;第三层,即Res3,由四层残差模块构成;第四层包括Res4-1和Res4-2,二者拥有相同的结构,都由六层残差模块构成,第五层包括Res5-1和Res5-2,二者也拥有相同的结构,都由三层残差模块构成;第四层和第五层为双分支结构,其中第四层的Res4-1和第五层的Res5-1串联构成第一个分支,第四层的Res4-2和第五层的Res5-2串联构成第二个分支;输入图像经过Res1处理,获得三维特征图f1_1、f1_2和f1_3,且f1_1=f1_2=f1_3;f1_3输入Res2获得三维特征图f2_1、f2_2和f2_3,且f2_1=f2_2=f2_3;f2_3输入Res3获得三维特征图f3_1、f3_2和f3_3,且f3_1=f3_2=f3_3;f3_3依次经过第一个分支的Res4-1和Res5-1处理后分别获得三维特征图f4_1和f5_1;f3_3与整体注意力模块HA的输出结果通过逐像素相乘实现加权,加权结果依次经过第二个分支的Res4-2和Res5-2处理后分别获得三维特征图f4_2和f5_2;HA由单层卷积构成,它以递归解码器RD-1的输出结果作为输入;
(2-b)构建递归解码器RD-n,该解码器由长依赖模块LRDM、感受野模块RFB、子解码器1、子解码器2、子解码器3和卷积模块Conv2构成;将步骤(2-a)获取的特征图f2_n、f3_n、f4_n和f5_n分别作为递归解码器RD-n的输入1、输入2、输入3和输入4,n=1,2;fi_n依次经过LRDM与RFB处理后得到其中i=2,3,4,5;将作为子解码器1的输入,得到输出结果mask1_n,将mask1_n作为子解码器2的输入,得到输出结果mask2_n,将mask2_n作为子解码器3的输入,得到输出结果mask3_n,将mask3_n作为卷积模块Conv2的输入,得到粗特征图mapn,即为递归解码器RD-n的输出结果;
该步骤中的长依赖模块LRDM和子解码器分别构建如下:
(2-b-1)构建长依赖模块LRDM;以步骤(2-a)获得的特征图fi_n作为输入,经该模块的通道维度自适应均值池化层处理并进行特征展开后,获得一维特征,将一维特征输入全连接层后,经过激活函数与特征逆展开处理,再与特征图fi_n进行逐像素相乘操作,得到LRDM的输出;其中i=2,3,4,5,n=1,2;
(2-b-2)构建子解码器,三个子解码器都具有相同的结构,由递归池化模块RP、递归上采样模块RU、上采样模块Up、通道注意力模块CA、卷积模块Conv1和拼接层构成;其中递归池化模块RP由池化层、卷积层和激活层构成,递归上采样模块RU由上采样层、卷积层和激活层构成;在子解码器1、2、3中,分别以直接输入到拼接层的特征为基准特征,RP和RU分别对来自RFB的输入特征进行以基准特征尺寸为参考的尺度归一化;归一化后的特征与基准特征拼接后,再与上采样模块Up的输出结果通过逐像素相乘运算实现加权,加权结果依次输入CA和Conv1后,得到子解码器的输出;
子解码器1中RP的输入为RU和Up的输入都为子解码器2中RP的输入为RU的输入为Up的输入为子解码器1的输出;子解码器3中RP的输入为零,RU的输入为Up的输入为子解码器2的输出;
(2-c)构建边缘强化模块ER-n,该模块由卷积块1和卷积块2构成,其中卷积块1由三层残差模块构成,卷积块2由五层卷积构成;将步骤(2-a)得到的特征图f1_n经卷积块1处理后,与步骤(2-b)得到的粗特征图mapn进行逐像素相加,再经卷积块2处理后,得到显著性检测图,其中n=1,2;
(3)构建损失函数:
构建如下混合损失函数Lmix
Lmix=LBCE+LMSSIM+LDice
其中LBCE为二元交叉熵损失,LMSSIM为平均结构相似性损失,LDice为Dice损失,分别定义如下:
其中P表示预测图,Gt表示标签图,二者尺寸相同,H表示图的高,W表示图的宽,Pi,j和Gti,j分别表示P和Gt中(i,j)点的像素值,且Pi,j∈(0,1),Gti,j为整数且Gti,j∈[0,1],log表示求自然对数,表示逐像素相加操作,表示逐像素相乘操作,C1与C2为实数常量,且C1、C2∈(0,0.1);M表示将标签图Gt以及对应的预测图P划分成子图对的个数,为预测图P第k个子图的均值,为标签图Gt第k个子图的均值,为预测图P第k个子图的方差,为标签图Gt第k个子图的方差,为预测图P的第k个子图和标签图Gt的第k个子图之间的协方差;|·|表示求取图像中所有像素的和;对模型的两个分支的显著性检测图分别计算混合损失函数,以这两个混合损失函数之和作为模型的总损失函数,定义如下:
Ltotal=Lmix-1+Lmix-2
其中,Lmix-1和Lmix-2分别表示第一和第二分支的显著性检测图与标签之间的混合损失,Ltotal表示模型的总损失函数;
(4)训练检测模型:
利用步骤(1)得到的数据集训练步骤(2)构建的检测模型,模型中的特征提取器使用预训练模型进行参数初始化;使用混合损失函数Lmix-1和Lmix-2分别衡量第一和第二分支的显著性检测图与标签之间的相似性;训练过程中使用Adam算法更新模型参数,并通过L-2正则化作为约束,直到损失值不再下降,得到训练好的显著性检测模型;
(5)推理并获得检测结果:
将测试图像经过归一化处理之后,输入至训练好的显著性检测模型,该模型第二分支得到的显著性检测图即为最终的显著性检测结果。
2.如权利要求1所述的一种基于递归解码器的显著性检测方法,其特征在于,所述步骤(2-b)中的子解码器,其作用是融合多尺度特征,获得显著性检测结果,具体计算公式为:
mapn=Convn(mask3_n)
其中表示步骤(2-b)中得到的特征图,表示中间特征图,i=2,3,4,5,j=3,4,5,n=1,2,maskm_n表示第n个RD的第m个子解码器的输出结果,m=1,2,3,U(·)表示上采样操作,D(·)表示池化操作,CCm_n(·)表示第n个RD的第m个子解码器中的CA模块和Conv1模块依次执行的操作,Cat(·)表示通道维度拼接,表示逐像素相乘,Convn(·)表示第n个RD的卷积模块Conv2执行的操作。
3.如权利要求1所述的一种基于递归解码器的显著性检测方法,其特征在于,所述步骤(2-b-1)中的长依赖模块LRDM,用于为多尺度特征建立跨空间长依赖关系,消除卷积操作所导致的语义信息的空间割裂,具体计算公式为:
Mo=R(AdpAvgPool(fi_n))
Ml=ρ(MLP(Mo))
其中fi_n表示步骤(2-a)中得到的三维特征图,Mo与Ml为一维中间特征图,AdpAvgPool(·)表示自适应均值池化,将输入的三维特征图通过通道维度池化降维为二维特征图,R(·)表示特征展开,R-1(·)表示特征逆展开,MLP(·)表示全连接网络,p(·)表示sigmoid激活函数,表示逐像素相乘。
CN202210620648.3A 2022-06-02 2022-06-02 一种基于递归解码器的显著性检测方法 Active CN114937154B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210620648.3A CN114937154B (zh) 2022-06-02 2022-06-02 一种基于递归解码器的显著性检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210620648.3A CN114937154B (zh) 2022-06-02 2022-06-02 一种基于递归解码器的显著性检测方法

Publications (2)

Publication Number Publication Date
CN114937154A CN114937154A (zh) 2022-08-23
CN114937154B true CN114937154B (zh) 2024-04-26

Family

ID=82866753

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210620648.3A Active CN114937154B (zh) 2022-06-02 2022-06-02 一种基于递归解码器的显著性检测方法

Country Status (1)

Country Link
CN (1) CN114937154B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115797789B (zh) * 2023-02-20 2023-05-30 成都东方天呈智能科技有限公司 基于级联检测器的水稻害虫监测系统、方法和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948628A (zh) * 2019-03-15 2019-06-28 中山大学 一种基于判别性区域挖掘的目标检测方法
CN112101363A (zh) * 2020-09-02 2020-12-18 河海大学 基于空洞残差和注意力机制的全卷积语义分割系统及方法
CN112257509A (zh) * 2020-09-23 2021-01-22 浙江科技学院 基于联合信息编码的立体图像单流视觉显著性检测方法
CN112749712A (zh) * 2021-01-22 2021-05-04 四川大学 一种基于3d卷积神经网络的rgbd显著性物体检测方法
CN114220001A (zh) * 2021-11-25 2022-03-22 南京信息工程大学 基于双注意力神经网络的遥感影像云与云阴影检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111739078B (zh) * 2020-06-15 2022-11-18 大连理工大学 一种基于上下文注意力机制的单目无监督深度估计方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948628A (zh) * 2019-03-15 2019-06-28 中山大学 一种基于判别性区域挖掘的目标检测方法
CN112101363A (zh) * 2020-09-02 2020-12-18 河海大学 基于空洞残差和注意力机制的全卷积语义分割系统及方法
CN112257509A (zh) * 2020-09-23 2021-01-22 浙江科技学院 基于联合信息编码的立体图像单流视觉显著性检测方法
CN112749712A (zh) * 2021-01-22 2021-05-04 四川大学 一种基于3d卷积神经网络的rgbd显著性物体检测方法
CN114220001A (zh) * 2021-11-25 2022-03-22 南京信息工程大学 基于双注意力神经网络的遥感影像云与云阴影检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
结合域变换和轮廓检测的显著性目标检测;李宗民;周晨晨;宫延河;刘玉杰;李华;;计算机辅助设计与图形学学报;20180815(第08期);全文 *

Also Published As

Publication number Publication date
CN114937154A (zh) 2022-08-23

Similar Documents

Publication Publication Date Title
CN113298818B (zh) 基于注意力机制与多尺度特征的遥感图像建筑物分割方法
CN115049936B (zh) 一种面向高分遥感影像的边界增强型语义分割方法
CN111950453B (zh) 一种基于选择性注意力机制的任意形状文本识别方法
CN112668494A (zh) 基于多尺度特征提取的小样本变化检测方法
CN112232391B (zh) 一种基于U-net网络和SC-SAM注意力机制的大坝裂缝检测方法
CN112183258A (zh) 一种基于上下文信息和注意力机制的遥感图像道路分割方法
CN114187450B (zh) 一种基于深度学习的遥感图像语义分割方法
CN111583276B (zh) 基于cgan的空间目标isar图像部件分割方法
CN114494821B (zh) 基于特征多尺度感知与自适应聚合的遥感影像云检测方法
CN116228792A (zh) 一种医学图像分割方法、系统及电子装置
CN110930378A (zh) 基于低数据需求的肺气肿影像处理方法及系统
CN110599502A (zh) 一种基于深度学习的皮肤病变分割方法
CN114913434B (zh) 一种基于全局关系推理的高分辨率遥感影像变化检测方法
CN117058367A (zh) 高分辨率遥感影像建筑物语义分割方法及装置
CN114596503A (zh) 一种基于遥感卫星影像的道路提取方法
CN114937154B (zh) 一种基于递归解码器的显著性检测方法
CN117292117A (zh) 一种基于注意力机制的小目标检测方法
CN114550014B (zh) 道路分割方法及计算机装置
CN111222534A (zh) 一种基于双向特征融合和更平衡l1损失的单发多框检测器优化方法
CN117351360A (zh) 一种基于注意力机制改进的遥感图像道路提取方法
CN117197456A (zh) 一种面向he染色的病理图像细胞核同时分割分类方法
CN116363610A (zh) 一种基于改进YOLOv5的航拍车辆旋转目标检测方法
CN116721206A (zh) 一种实时的室内场景视觉同步定位与建图方法
CN114764880B (zh) 多成分gan重建的遥感图像场景分类方法
CN114898194B (zh) 一种基于边缘强化的显著性检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant