CN114937154B

CN114937154B - 一种基于递归解码器的显著性检测方法

Info

Publication number: CN114937154B
Application number: CN202210620648.3A
Authority: CN
Inventors: 赵于前; 王辉; 张帆; 阳春华; 桂卫华
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2022-06-02
Filing date: 2022-06-02
Publication date: 2024-04-26
Anticipated expiration: 2042-06-02
Also published as: CN114937154A

Abstract

本发明公开了一种基于递归解码器的显著性检测方法，主要解决现有技术显著性检测结果准确率低，显著性主体判断错误与边缘模糊的问题。其实施方案为：1)获取数据集与检测标签；2)构建检测模型；3)构建损失函数；4)训练检测模型；5)推理并获得检测结果。本发明构建的显著性检测模型，通过多次全尺度特征融合与边缘强化，实现了多尺度特征的充分利用与解码结果的细节补充，有效提升了显著性检测结果的准确率，避免了检测结果中显著性主体判断错误的发生，解决了解码结果存在边缘模糊的问题。

Description

一种基于递归解码器的显著性检测方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于递归解码器的显著性检测方法。

背景技术

显著性检测作为一种图像预处理方法，通过实现图像中显著性物体的检测，降低图像处理的复杂度，提升图像处理算法的运行效率，因而具有广泛的应用空间和发展前景。在自动驾驶领域中，可以通过显著性检测对道路图像进行预处理，使得目标检测算法优先识别显著性区域，以提升显著性区域目标在自动驾驶系统中处理的优先级，保证自动驾驶系统的安全性。传统的显著性检测方法主要借助颜色、纹理、中心先验等人工特征实现显著性目标的分割，这类方法存在着检测准确率低，鲁棒性差等问题，因此已经逐渐被深度学习的方法所取代。现有的基于深度学习的显著性检测模型大多采用基于编码-解码结构的全卷积网络，通过端到端的模式完成显著性检测模型的训练。这些模型在利用多尺度特征图生成显著性检测图的时候，没有充分考虑不同尺度特征图之间的差异，因此在进行特征融合时，无法充分利用多尺度信息，导致生成的显著性检测图准确率较差。

发明内容

本发明充分考虑了现有方法存在的缺点，其目的在于提供一种基于递归解码器的显著性检测方法，通过多次全尺度特征融合方式，实现多尺度特征的解码，以提升显著性检测的准确率。

一、技术原理

目前基于卷积神经网络的显著性检测模型大多直接采用编码-解码结构，模型的编码器通过堆叠重复的卷积层和池化层获取深层语义信息，解码器通过上采样层逐渐恢复图像的分辨率，得到最终的预测结果。由于卷积核感受野的限制，模型获取的特征图内存在空间语义割裂的问题。为了建立多层次特征图的长依赖关系以消除空间语义割裂，本发明将编码器获取的多尺度特征分别输入到长依赖模块(LRDM)，通过长依赖权重对多尺度特征进行加权，为多尺度特征内部建立了大空间范围的依赖关系。编码器所生成的多尺度特征包含了不同层次的信息，传统解码器所使用的上采样-融合模式无法充分发挥多尺度特征的优势。为了充分利用多尺度特征中所包含的信息，本发明设计了递归解码器(RD)实现全层次递归解码，保证多层次语义信息得到充分利用，以获得更加准确的检测结果。为了弥补解码器所得结果面临的细节缺失的问题，保证检测结果的准确性，本发明设计边缘强化模块(ER)，针对解码器所生成的结果进行细化校正，提高了模型的预测精度。

二、根据上述原理，本发明通过以下方案实现：

一种基于递归解码器的显著性检测方法，包括以下步骤：

(1)获取数据集与检测标签：

获取显著性检测公开数据集及对应的检测标签；

(2)构建检测模型，该模型由特征提取器、递归解码器RD-1和RD-2、边缘强化模块ER-1和ER-2、整体注意力模块HA构成，具体构建过程包括以下步骤：

(2-a)构建特征提取器，以ResNet-50作为特征提取器的基础网络；所构建的特征提取器共分五层：第一层，即Res1，由单层卷积模块构成；第二层，即 Res2，由一个池化层和三层残差模块构成；第三层，即Res3，由四层残差模块构成；第四层包括Res4-1和Res4-2，二者拥有相同的结构，都由六层残差模块构成，第五层包括Res5-1和Res5-2，二者也拥有相同的结构，都由三层残差模块构成；第四层和第五层为双分支结构，其中第四层的Res4-1和第五层的Res5-1 串联构成第一个分支，第四层的Res4-2和第五层的Res5-2串联构成第二个分支；输入图像经过Res1处理，获得三维特征图f_{1_1}、f_{1_2}和f_{1_3}，且f_{1_1}＝f_{1_2}＝f_{1_3}； f_{1_3}输入Res2获得三维特征图f_{2_1}、f_{2_2}和f_{2_3}，且f_{2_1}＝f_{2_2}＝f_{2_3}；f_{2_3}输入Res3 获得三维特征图f_{3_1}、f_{3_2}和f_{3_3}，且f_{3_1}＝f_{3_2}＝f_{3_3}；f_{3_3}依次经过第一个分支的 Res4-1和Res5-1处理后分别获得三维特征图f_{4_1}和f_{5_1}；f_{3_3}与整体注意力模块HA的输出结果通过逐像素相乘实现加权，加权结果依次经过第二个分支的Res4- 2和Res5-2处理后分别获得三维特征图f_{4_2}和f_{5_2}；HA由单层卷积构成，它以递归解码器RD-1的输出结果作为输入。

(2-b)构建递归解码器RD-n，该解码器由长依赖模块LRDM、感受野模块 RFB、子解码器1、子解码器2、子解码器3和卷积模块Conv2构成；将步骤(2- a)获取的特征图f_{2_n}、f_{3_n}、f_{4_n}和f_{5_n}分别作为递归解码器RD-n的输入1、输入 2、输入3和输入4，n＝1,2；f_{i_n}依次经过LRDM与RFB处理后得到其中i＝2,3,4,5；将和作为子解码器1的输入，得到输出结果 mask_{1_n}，将mask_{1_n}和作为子解码器2的输入，得到输出结果mask_{2_n}，将mask_{2_n}和作为子解码器3的输入，得到输出结果mask_{3_n}，将mask_{3_n}作为卷积模块Conv2的输入，得到粗特征图 map_n，即为递归解码器RD-n的输出结果。

该步骤中的长依赖模块LRDM和子解码器分别构建如下：

(2-b-1)构建长依赖模块LRDM；以步骤(2-a)获得的特征图f_{i_n}作为输入，经该模块的通道维度自适应均值池化层处理并进行特征展开后，获得一维特征，将一维特征输入全连接层后，经过激活函数与特征逆展开处理，再与特征图f_{i_n}进行逐像素相乘操作，得到LRDM的输出；其中i＝2,3,4,5，n＝1,2。

长依赖模块LRDM用于为多尺度特征建立跨空间长依赖关系，消除卷积操作所导致的语义信息的空间割裂，具体计算公式为：

M_o＝R(AdpAvgPool(f_{i_n}))

M_l＝ρ(MLP(M_o))

其中f_{i_n}表示步骤(2-a)中得到的三维特征图，M_o与M_l为一维中间特征图，AdpAvgPool(·)表示自适应均值池化，将输入的三维特征图通过通道维度池化降维为二维特征图，R(·)表示特征展开，R^-1(·)表示特征逆展开，MLP(·)表示全连接网络，ρ(·)表示sigmoid激活函数，表示逐像素相乘。

(2-b-2)构建子解码器，三个子解码器都具有相同的结构，由递归池化模块 RP、递归上采样模块RU、上采样模块Up、通道注意力模块CA、卷积模块Conv1 和拼接层构成；其中递归池化模块RP由池化层、卷积层和激活层构成，递归上采样模块RU由上采样层、卷积层和激活层构成；在子解码器1、2、3中，分别以直接输入到拼接层的特征为基准特征，RP和RU分别对来自RFB的输入特征进行以基准特征尺寸为参考的尺度归一化；归一化后的特征与基准特征拼接后，再与上采样模块Up的输出结果通过逐像素相乘运算实现加权，加权结果依次输入CA和Conv1后，得到子解码器的输出。

子解码器1中RP的输入为与RU和Up的输入都为子解码器2中RP的输入为RU的输入为与Up的输入为子解码器1 的输出；子解码器3中RP的输入为零，RU的输入为与Up的输入为子解码器2的输出。

本步骤中构建的子解码器的作用是融合多尺度特征，获得显著性检测结果，具体计算公式为：

map_n＝Conv_n(mask_{3_n})

其中表示中间特征图，i＝2,3,4,5，j＝3,4,5，n＝1,2，mask_{m_n}表示第n个RD的第m个子解码器的输出结果，m＝1,2,3，U(·)表示上采样操作，D(·)表示池化操作，CC_{m_n}(·)表示第n个RD的第m个子解码器中的CA模块和Conv1模块依次执行的操作，Cat(·)表示通道维度拼接，表示逐像素相乘，Conv_n(·)表示第n个RD的卷积模块Conv2执行的操作。

(2-c)构建边缘强化模块ER-n，该模块由卷积块1和卷积块2构成，其中卷积块1由三层残差模块构成，卷积块2由五层卷积构成；将步骤(2-a)得到的特征图f_{1_n}经卷积块1处理后，与步骤(2-b)得到的粗特征图map_n进行逐像素相加，再经卷积块2处理后，得到显著性检测图，其中n＝1,2。

(3)构建损失函数：

构建如下混合损失函数L_mix：

L_mix＝L_BCE+L_MSSIM+L_Dice

其中L_BCE为二元交叉熵损失，L_MSSIM为平均结构相似性损失，L_Dice为Dice损失，分别定义如下：

其中P表示预测图，Gt表示标签图，二者尺寸相同，H表示图的高，W表示图的宽，P_i,j和Gt_i,j分别表示P和Gt中(i,j)点的像素值，且P_i,j∈(0,1)，Gt_i,j为整数且 Gt_i,j∈[0,1]，log表示求自然对数，表示逐像素相加操作，表示逐像素相乘操作，C₁与C₂为实数常量，且C₁、C₂∈(0,0.1)；M表示标签图Gt与预测图P被分别划分成的子图的个数，为预测图P第k个子图的均值，为标签图Gt第k个子图的均值，为预测图P第k个子图的方差，为标签图Gt第k个子图的方差，为预测图P的第k个子图和标签图Gt的第k个子图之间的协方差；|·|表示求取图像中所有像素的和；对模型的两个分支的显著性检测图分别计算混合损失函数，以这两个混合损失函数之和作为模型的总损失函数，定义如下：

L_total＝L_mix-1+L_mix-2

其中，L_mix-1和L_mix-2分别表示第一和第二分支的显著性检测图与标签之间的混合损失，L_total表示模型的总损失函数。

(4)训练检测模型：

利用步骤(1)得到的数据集训练步骤(2)构建的检测模型，模型中的特征提取器使用预训练模型进行参数初始化；使用混合损失函数L_mix-1和L_mix-2分别衡量第一和第二分支的显著性检测图与标签之间的相似性；训练过程中使用 Adam算法更新模型参数，并通过L-2正则化作为约束，直到损失值不再下降，得到训练好的显著性检测模型。

(5)推理并获得检测结果：

将测试图像经过归一化处理之后，输入至训练好的显著性检测模型，该模型第二分支得到的显著性检测图即为最终的显著性检测结果。

步骤(3)中，常数C₁与C₂分别优选0.01²和0.03²。

步骤(2-b-2)中，激活层的激活函数优选Relu函数。

本发明与现有技术相比，有以下优点：

(1)本发明构建的LRDM通过特征加权的方式，为多尺度特征建立了跨空间长依赖关系，有效避免了随着距离增加而出现特征割裂的问题，增强了大尺度特征的一致性，提高了模型的鲁棒性。

(2)本发明构建的递归解码器RD包含三个子解码器，三个子解码器通过依次全尺度解码，在充分利用多尺度信息的同时实现相互参照，提升了解码的准确率。

(3)本发明构建的边缘强化模块ER利用浅层特征信息进行边缘强化，对粗特征图进行校正。由于浅层特征信息的引入，边缘强化过程拥有更多可供参考的细节信息，使得校正结果更加接近真实结果。

附图说明

图1本发明实施方式的基于递归解码器的显著性检测方法流程图；

图2本发明实施方式的显著性检测模型结构图；

图3本发明实施方式的递归解码器模块结构图；

图4本发明实施方式的长依赖模块结构图；

图5本发明实施方式的递归池化模块结构图；

图6本发明实施方式的递归上采样模块结构图；

图7本发明实施方式的边缘强化模块结构图；

图8本发明实施方式的显著性检测结果与其他方法检测结果对比图。

具体实施方式

下面说明本发明具体实施方式：

实施例1

图1所示为本发明实施方式的基于递归解码器的显著性检测方法流程图，具体步骤如下：

步骤1，获取数据集与检测标签。

获取显著性检测公开数据集及对应的检测标签。

步骤2，构建检测模型，该模型由特征提取器、递归解码器RD-1和RD- 2、边缘强化模块ER-1和ER-2、整体注意力模块HA构成，具体构建过程包括以下步骤：

图2所示为本发明实施方式中构建的显著性检测模型结构图，具体步骤如下：

(2-a)构建特征提取器，以ResNet-50作为特征提取器的基础网络；所构建的特征提取器共分五层：第一层，即Res1，由单层卷积模块构成；第二层，即 Res2，由一个池化层和三层残差模块构成；第三层，即Res3，由四层残差模块构成；第四层包括Res4-1和Res4-2，二者拥有相同的结构，都由六层残差模块构成，第五层包括Res5-1和Res5-2，二者也拥有相同的结构，都由三层残差模块构成；第四层和第五层为双分支结构，其中第四层的Res4-1和第五层的Res5-1 串联构成第一个分支，第四层的Res4-2和第五层的Res5-2串联构成第二个分支；输入尺寸3×352×352为的图像经过Res1处理，获得三维特征图f_{1_1}、f_{1_2}和f_{1_3}，其尺寸都为64×176×176，且f_{1_1}＝f_{1_2}＝f_{1_3}；f_{1_3}输入Res2获得三维特征图 f_{2_1}、f_{2_2}和f_{2_3}，其尺寸都为256×88×88，且f_{2_1}＝f_{2_2}＝f_{2_3}；f_{2_3}输入Res3 获得三维特征图f_{3_1}、f_{3_2}和f_{3_3}，其尺寸都为512×44×44，且f_{3_1}＝f_{3_2}＝f_{3_3}； f_{3_3}依次经过第一个分支的Res4-1和Res5-1处理后分别获得三维特征图f_{4_1}和 f_{5_1}，其尺寸分别为1024×22×22和2048×11×11；f_{3_3}与整体注意力模块HA 的输出结果通过逐像素相乘实现加权，加权结果依次经过第二个分支的Res4-2 和Res5-2处理后分别获得三维特征图f_{4_2}和f_{5_2}，其尺寸分别为1024×22×22和2048×11×11；HA由卷积核为3×3的单层卷积构成，输入通道数为1，输出通道数为1，它以递归解码器RD-1的解码结果作为输入。

(2-b)构建递归解码器RD-n，图3所示为本发明实施方式总体模型中的递归解码器模型结构图，该解码器由长依赖模块LRDM、感受野模块RFB、子解码器1、子解码器2、子解码器3和卷积模块Conv2构成；将步骤(2-a)获取的特征图f_{2_n}、f_{3_n}、f_{4_n}和f_{5_n}分别作为递归解码器RD-n的输入1、输入2、输入 3和输入4，n＝1,2；f_{2_n}、f_{3_n}、f_{4_n}和f_{5_n}分别依次经过LRDM与RFB处理后得到其尺寸分别为32×88×88，32×44×44，32× 22×22和32×11×11，n＝1,2，；将作为子解码器1的输入，得到尺寸为32×22×22的输出结果mask_{1_n}，将mask_{1_n}和作为子解码器2的输入，得到尺寸为32×44×44的输出结果mask_{2_n}，将mask_{2_n}和作为子解码器3的输入，得到尺寸为 32×88×88的输出结果mask_{3_n}，将mask_{3_n}作为卷积模块Conv2的输入，得到尺寸为1×176×176的粗特征图map_n，即为递归解码器RD-n的输出结果；其中Conv2由两层卷积与上采样层构成，第一层卷积的输入通道数为32，输出通道数为32，卷积核大小为3×3，第二层卷积输入通道数为32，输出通道数为1，卷积核大小为1×1。

该步骤中的长依赖模块LRDM和子解码器分别构建如下：

(2-b-1)构建长依赖模块LRDM；图4所示为本发明实施方式总体模型中的长依赖模块结构图，以步骤(2-a)获得的特征图f_{i_n}作为输入，经该模块的通道维度自适应均值池化层处理并进行特征展开后，获得一维特征，将一维特征输入全连接层后，经过激活函数与特征逆展开处理，再与特征图f_{i_n}进行逐像素相乘操作，得到LRDM的输出；其中i＝2,3,4,5，n＝1,2。

M_o＝R(AdpAvgPool(f_{i_n}))

M_l＝ρ(MLP(M_o))

(2-b-2)构建子解码器，三个子解码器都具有相同的结构，由递归池化模块 RP、递归上采样模块RU、上采样模块Up、通道注意力模块CA、卷积模块Conv1 和拼接层构成；图5所示为本发明实施方式总体模型中的递归池化模块结构图， RP由池化层、卷积核大小为3×3的卷积层和激活层构成，其中激活函数优选 Relu函数；图6所示为本发明实施方式总体模型中的递归上采样模块结构图， RU由上采样层、卷积核大小为3×3的卷积层和激活层构成，其中激活函数优选Relu函数；Up由单层上采样层构成；Conv1由三层卷积构成，第一层卷积的卷积核大小为3×3，输入通道数为128，输出通道数为128，第二层卷积的卷积核大小为1×1，为输入通道数为128，输出通道数为32，第三层卷积的卷积核大小为3×3，为输入通道数为32，输出通道数为32；在子解码器1、2、3中，分别以直接输入到拼接层的特征为基准特征，RP和RU分别对来自RFB的输入特征进行以基准特征尺寸为参考的尺度归一化；归一化后的特征与基准特征拼接后，再与上采样模块Up的输出结果通过逐像素相乘运算实现加权，加权结果依次输入CA和Conv1后，得到子解码器的输出。

子解码器1中RP的输入为与RU和Up的输入都为子解码器2中RP的输入为RU的输入为与Up的输入为子解码器1的输出；子解码器3中RP的输入为零，RU的输入为与Up的输入为子解码器2的输出。

map_n＝Conv_n(mask_{3_n})

其中表示中间特征图，i＝2,3,4,5，j＝3,4,5，n＝1,2，mask_{m_n}表示第n个 RD的第m个子解码器的输出结果，m＝1,2,3，U(·)表示上采样操作，D(·)表示池化操作，CC_{m_n}(·)表示第n个RD的第m个子解码器中的CA 模块和Conv1模块依次执行的操作，Cat(·)表示通道维度拼接，表示逐像素相乘，Conv_n(·)表示第n个RD的卷积模块Conv2执行的操作。

(2-c)构建边缘强化模块ER-n，图7所示为本发明实施方式总体模型中的边缘强化模块结构图，该模块由卷积块1和卷积块2构成，其中卷积块1由三层残差模块构成，与Res2中的三层残差模块拥有相同的超参数；卷积块2由五层卷积与上采样层构成，其中第一层卷积的输入通道数为64，输出通道数为32，卷积核的大小为3×3，第二层卷积的输入通道数为32，输出通道数为32，卷积核的大小为3×3，第三层卷积的输入通道数为32，输出通道数为32，卷积核的大小为3×3，第四层卷积的输入通道数为32，输出通道数为32，卷积核的大小为3×3，第五层卷积的输入通道数为32，输出通道数为1，卷积核的大小为3×3；将步骤(2-a)得到的尺寸为64×176×176的特征图f_{1_n}经卷积块1处理后，与步骤(2-b)得到的粗特征图map_n进行逐像素相加，再经卷积块2处理后，得到尺寸为1×352×352显著性检测图；其中n＝1,2。

步骤3，构建损失函数：

构建如下混合损失函数L_mix：

L_mix＝L_BCE+L_MSSIM+L_Dice

其中P表示预测图，Gt表示标签图，二者尺寸相同，H表示图的高，W表示图的宽，P_i,j和Gt_i,j分别表示对应位置的像素值，且P_i,j∈(0,1)，Gt表示标签值，log表示求自然对数，表示逐像素相加操作，表示逐像素相乘操作，mean(·)表示求取矩阵中所有像素的均值，C₁和C₂为实数常量，分别优选0.01²和0.03²，M表示标签图Gt与预测图P被分别划分成的子图的个数，为预测图P第K个子图的均值，为标签Gt第k个子图的均值，为预测图P第k个子图的方差，为标签Gt第k个子图的方差，为预测图P的第k个子图和标签Gt的第k个子图之间的协方差，|·|表示求取图像中所有像素的和；对模型的两个分支的检测图分别计算混合损失函数，以这两个混合损失函数之和作为模型的总损失函数，定义如下：

L_total＝L_mix-1+L_mix-2

其中，L_mix-1和L_mix-2分别表示第一和第二分支的检测图与标签之间的混合损失，L_total表示模型的总损失函数。

步骤4，训练检测模型：

利用步骤(1)得到的数据集训练步骤(2)构建的检测模型，模型中的特征提取器使用预训练模型进行参数初始化；使用混合损失函数L_mix-1和L_mix-2分别衡量第一和第二分支的检测图与标签之间的相似性；训练过程中使用Adam算法更新模型参数，并通过L-2正则化作为约束，以防止模型过拟合，迭代次数为65 次，backbone的初始学习率为0.00001，其余部分的初始学习率为0.0001，学习率调整策略采用ReduceLROnPlateau，每当损失值两次迭代不下降，学习率就降为原来的十分之一，直到损失值不再下降，得到训练好的显著性检测模型。

步骤5，推理并获得检测结果：

将测试图像经过归一化处理之后，输入至训练好的显著性检测模型，该模型第二分支得到的检测图即为最终的显著性检测结果。

实施例2

采用实施例1中的方法对公开数据集ECSSD(Hierarchical SaliencyDetection)，Pascal-S(The secrets of salient object segmentation)，DUT-OMRON(Saliency detection via graph-based manifold ranking)，HKU-IS(Visual saliencybased on multiscale deep features)，DUTs(Learning to detect salient objectswith image-level supervision)进行显著性检测实验。本实验操作系统为Windows10，基于CUDA10.0和cuDNN7.6.0的PyTorch1.2.0框架，使用搭载了Intel(R)Xeon(R) W-2123 CPU(3.60GHz)和NVIDIA GeForce RTX 2080Ti(11GB)硬件的个人电脑训练并测试。

本实施例采用平均绝对误差(Average Absolute Error)、平均F-measure(Average F-Measure)、加权F-measure(Weighted F-Measure)、最大F-measure(Max F-Measure)、结构相似性(Structural Similarity Measure)和增强对准 (EnhancedAlignment Measure)六个指标对AFNet、CPD-R、CAGNet、GateNet、 ITSD、U2Net、GCPA、MINet、F3Net九个检测网络与本发明方法在ECSSD， Pascal-S，DUT-OMRON，HKU-IS，DUTs-TE五个数据集上进行实验对比。平均绝对误差在所有样例中的平均结果以MAE表示，计算公式如下：

式中P(i,j)表示显著性检测结果P中(i,j)位置所对应的像素值，G(i,j)表示显著性检测标签G中(i,j)位置所对应的像素值，|·|表示求绝对值，H与W分别表示检测图的高和宽。

平均F-measure在所有样例中的平均结果以avgF表示,计算公式如下：

其中Precision和Recall分别代表准确率与召回率。

最大F-measure在所有样例中的平均结果以maxF表示，计算公式如下：

其中Precisions和Recalls分别代表多个分割阈值下的加权准确率与加权召回率。

加权F-measure在所有样例中的平均结果以wF表示，计算公式如下：

其中Precision^w和Recall^w分别代表加权准确率与加权召回率。

结构相似性在所有样例中的平均结果以S_m表示，计算公式如下：

S_m＝0.5×S_r+0.5×S_o

其中S_r与S_o分别代表区域相似性与目标相似性。

增强对准在所有样例中的平均结果以E_m表示，计算公式如下：

其中代表增强对准矩阵。

对比结果如表1所示，可以发现，本发明相较于其他方法，在五个数据集上都能得到准确的分割结果，在全部的30个评价指标中，有26个评价指标达到最优。

图8所示为本发明实施方式的显著性检测结果与其他方法检测结果对比图。结果表明，本发明所设计的模型，不仅能突出目标区域，而且能很好地抑制背景噪声、处理各种具有挑战性的场景，包括小目标(第1列)、背景相似(第2列)、背景复杂(第3列)、图像中存在具有显著特征的非显著对象(第4列)、显著对象位于图像边缘(第5列)、细节丰富的显著对象(第6列)、显著对象内存在差异(第7列)和存在反射干扰(第8列)。与其他方法相比，该方法生成的显著性检测图更清晰、更准确。

以上所述实施例仅为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之结构、原理所作的变化，均应涵盖在本发明的保护范围之内。

表1

Claims

1.一种基于递归解码器的显著性检测方法，其特征在于包括以下步骤：

(1)获取数据集与检测标签：

获取显著性检测公开数据集及对应的检测标签；

(2-a)构建特征提取器，以ResNet-50作为特征提取器的基础网络；所构建的特征提取器共分五层：第一层，即Res1，由单层卷积模块构成；第二层，即Res2，由一个池化层和三层残差模块构成；第三层，即Res3，由四层残差模块构成；第四层包括Res4-1和Res4-2，二者拥有相同的结构，都由六层残差模块构成，第五层包括Res5-1和Res5-2，二者也拥有相同的结构，都由三层残差模块构成；第四层和第五层为双分支结构，其中第四层的Res4-1和第五层的Res5-1串联构成第一个分支，第四层的Res4-2和第五层的Res5-2串联构成第二个分支；输入图像经过Res1处理，获得三维特征图f_{1_1}、f_{1_2}和f_{1_3}，且f_{1_1}＝f_{1_2}＝f_{1_3}；f_{1_3}输入Res2获得三维特征图f_{2_1}、f_{2_2}和f_{2_3}，且f_{2_1}＝f_{2_2}＝f_{2_3}；f_{2_3}输入Res3获得三维特征图f_{3_1}、f_{3_2}和f_{3_3}，且f_{3_1}＝f_{3_2}＝f_{3_3}；f_{3_3}依次经过第一个分支的Res4-1和Res5-1处理后分别获得三维特征图f_{4_1}和f_{5_1}；f_{3_3}与整体注意力模块HA的输出结果通过逐像素相乘实现加权，加权结果依次经过第二个分支的Res4-2和Res5-2处理后分别获得三维特征图f_{4_2}和f_{5_2}；HA由单层卷积构成，它以递归解码器RD-1的输出结果作为输入；

(2-b)构建递归解码器RD-n，该解码器由长依赖模块LRDM、感受野模块RFB、子解码器1、子解码器2、子解码器3和卷积模块Conv2构成；将步骤(2-a)获取的特征图f_{2_n}、f_{3_n}、f_{4_n}和f_{5_n}分别作为递归解码器RD-n的输入1、输入2、输入3和输入4，n＝1,2；f_{i_n}依次经过LRDM与RFB处理后得到其中i＝2,3,4,5；将和作为子解码器1的输入，得到输出结果mask_{1_n}，将mask_{1_n}和作为子解码器2的输入，得到输出结果mask_{2_n}，将mask_{2_n}和作为子解码器3的输入，得到输出结果mask_{3_n}，将mask_{3_n}作为卷积模块Conv2的输入，得到粗特征图map_n，即为递归解码器RD-n的输出结果；

该步骤中的长依赖模块LRDM和子解码器分别构建如下：

(2-b-1)构建长依赖模块LRDM；以步骤(2-a)获得的特征图f_{i_n}作为输入，经该模块的通道维度自适应均值池化层处理并进行特征展开后，获得一维特征，将一维特征输入全连接层后，经过激活函数与特征逆展开处理，再与特征图f_{i_n}进行逐像素相乘操作，得到LRDM的输出；其中i＝2,3,4,5，n＝1,2；

(2-b-2)构建子解码器，三个子解码器都具有相同的结构，由递归池化模块RP、递归上采样模块RU、上采样模块Up、通道注意力模块CA、卷积模块Conv1和拼接层构成；其中递归池化模块RP由池化层、卷积层和激活层构成，递归上采样模块RU由上采样层、卷积层和激活层构成；在子解码器1、2、3中，分别以直接输入到拼接层的特征为基准特征，RP和RU分别对来自RFB的输入特征进行以基准特征尺寸为参考的尺度归一化；归一化后的特征与基准特征拼接后，再与上采样模块Up的输出结果通过逐像素相乘运算实现加权，加权结果依次输入CA和Conv1后，得到子解码器的输出；

子解码器1中RP的输入为与RU和Up的输入都为子解码器2中RP的输入为RU的输入为与Up的输入为子解码器1的输出；子解码器3中RP的输入为零，RU的输入为与Up的输入为子解码器2的输出；

(2-c)构建边缘强化模块ER-n，该模块由卷积块1和卷积块2构成，其中卷积块1由三层残差模块构成，卷积块2由五层卷积构成；将步骤(2-a)得到的特征图f_{1_n}经卷积块1处理后，与步骤(2-b)得到的粗特征图map_n进行逐像素相加，再经卷积块2处理后，得到显著性检测图，其中n＝1,2；

(3)构建损失函数：

构建如下混合损失函数L_mix：

L_mix＝L_BCE+L_MSSIM+L_Dice

其中P表示预测图，Gt表示标签图，二者尺寸相同，H表示图的高，W表示图的宽，P_i，j和Gt_i,j分别表示P和Gt中(i，j)点的像素值，且P_i，j∈(0，1)，Gt_i,j为整数且Gt_i,j∈[0，1]，log表示求自然对数，表示逐像素相加操作，表示逐像素相乘操作，C₁与C₂为实数常量，且C₁、C₂∈(0，0.1)；M表示将标签图Gt以及对应的预测图P划分成子图对的个数，为预测图P第k个子图的均值，为标签图Gt第k个子图的均值，为预测图P第k个子图的方差，为标签图Gt第k个子图的方差，为预测图P的第k个子图和标签图Gt的第k个子图之间的协方差；|·|表示求取图像中所有像素的和；对模型的两个分支的显著性检测图分别计算混合损失函数，以这两个混合损失函数之和作为模型的总损失函数，定义如下：

L_total＝L_mix-1+L_mix-2

其中，L_mix-1和L_mix-2分别表示第一和第二分支的显著性检测图与标签之间的混合损失，L_total表示模型的总损失函数；

(4)训练检测模型：

利用步骤(1)得到的数据集训练步骤(2)构建的检测模型，模型中的特征提取器使用预训练模型进行参数初始化；使用混合损失函数L_mix-1和L_mix-2分别衡量第一和第二分支的显著性检测图与标签之间的相似性；训练过程中使用Adam算法更新模型参数，并通过L-2正则化作为约束，直到损失值不再下降，得到训练好的显著性检测模型；

(5)推理并获得检测结果：

2.如权利要求1所述的一种基于递归解码器的显著性检测方法，其特征在于，所述步骤(2-b)中的子解码器，其作用是融合多尺度特征，获得显著性检测结果，具体计算公式为：

map_n＝Conv_n(mask_{3_n})

其中表示步骤(2-b)中得到的特征图，表示中间特征图，i＝2,3,4,5，j＝3,4,5，n＝1,2，mask_{m_n}表示第n个RD的第m个子解码器的输出结果，m＝1,2,3，U(·)表示上采样操作，D(·)表示池化操作，CC_{m_n}(·)表示第n个RD的第m个子解码器中的CA模块和Conv1模块依次执行的操作，Cat(·)表示通道维度拼接，表示逐像素相乘，Conv_n(·)表示第n个RD的卷积模块Conv2执行的操作。

3.如权利要求1所述的一种基于递归解码器的显著性检测方法，其特征在于，所述步骤(2-b-1)中的长依赖模块LRDM，用于为多尺度特征建立跨空间长依赖关系，消除卷积操作所导致的语义信息的空间割裂，具体计算公式为：

M_o＝R(AdpAvgPool(f_{i_n}))

M_l＝ρ(MLP(M_o))

其中f_{i_n}表示步骤(2-a)中得到的三维特征图，M_o与M_l为一维中间特征图，AdpAvgPool(·)表示自适应均值池化，将输入的三维特征图通过通道维度池化降维为二维特征图，R(·)表示特征展开，R^-1(·)表示特征逆展开，MLP(·)表示全连接网络，p(·)表示sigmoid激活函数，表示逐像素相乘。