CN115620118A

CN115620118A - 一种基于多尺度扩张卷积神经网络的显著性目标检测方法

Info

Publication number: CN115620118A
Application number: CN202211131569.2A
Authority: CN
Inventors: 姬彩娟; 刘彦; 吕妙芳; 王志刚; 李志亮; 叶传新; 孙海东; 郑宇龙
Original assignee: Hebei Hanguang Heavy Industry Ltd
Current assignee: Hebei Hanguang Heavy Industry Ltd
Priority date: 2022-09-15
Filing date: 2022-09-15
Publication date: 2023-01-17

Abstract

本发明公开了一种基于多尺度扩张卷积神经网络的显著性目标检测方法，所述方法包括：提取所述输入图像的多尺度特征；将所述多尺度特征输入扩张残差卷积模块，得到包括所述多尺度特征的上下文信息的融合特征；将所述融合特征分别输入多个通道注意力模块，得到多个显著性特征；对每个显示著性特征降维激活，生成显著性图，采用融合交叉熵和交并比损失的混合损失函数进行深层监督训练。本发明的方法，基于多尺度扩张卷积神经网络通过使用扩张残差卷积模块，充分捕获到了图像中丰富的全局语义信息和局部语义信息，解决了编码器深度较浅、信息提取不足的问题，同时，通过设计的通道注意力模块，使网络聚焦目标区域，有效地提高了目标检测的精度。

Description

一种基于多尺度扩张卷积神经网络的显著性目标检测方法

技术领域

本发明涉及计算机视觉领域，具体涉及一种基于多尺度扩张卷积神经网络的显著性目标检测方法。

背景技术

视觉显著性指不同于背景部分的图像中最明显和独特的显著性区域。显著性目标检测是计算机视觉任务中重要的预处理步骤之一，旨在从给定的图像中提取有用的特征，检测视觉显著性目标或者区域，输出相应的显著性图。近年来，显著性目标检测得到广泛研究和应用，如图像翻译、语义分割、目标识别、目标跟踪等。

显著性目标检测方法大致可以分为两种：基于传统的显著性目标检测方法和基于深度学习的显著性目标检测方法。传统的显著性目标检测方法主要是利用人类直观感觉或启发式先验，如色度比较、背景比较、边界点先验、纹理等，通过人工提取特征检测目标，受复杂环境影响，难以利用高层次的语义信息实现准确定位并分割目标区域。

近年来，深度学习技术的迅猛发展使得基于深度学习的显著性目标检测方法不断被广泛提出，且性能上较传统方法也有大幅的提升。利用深度卷积神经网络可以充分的自动提取多层次、多尺度特征，包括包含丰富边缘信息的低层次特征，以及包含全局语义信息的高层次特征，从而可以准确定位显著性目标并完整地将其分割出来。但是现有的基于深度学习的显著性目标检测方法仍存在不足，在面对一些具有挑战性的场景下，例如复杂背景、显著目标与背景高度相似、低对比度场景等等，模型的性能有待提升。一些方法，例如WU等人提出的CPD方法直接串联不同感受野的卷积和扩张卷积操作，虽然优化多尺度特征和增加特征多样性的，但未充分利用部分特征信息且捕获的信息之间不具有相关性，降低了模型的检测性能。另一些方法采用注意力机制或者通过门函数有选择性地突出显著性目标区域，减少冗余信息带来的干扰，但是基于相同尺度的注意力机制对种类复杂、尺寸难以预测的显著性目标存在一定的局限性。

发明内容

有鉴于此，本发明提供了一种基于多尺度扩张卷积神经网络的显著性目标检测方法，能够解决在复杂场景下高层次与低层次特征信息提取不足以及之间的相关性挖掘不够充分，由此导致的检测结果不准确的技术问题。

为了解决上述技术问题，本发明是这样实现的。

一种基于多尺度扩张卷积神经网络的显著性目标检测方法，包括：

步骤S1：将待处理的RGB图像作为输入图像，将所述输入图像输入预先训练好的ResNet34网络模型，提取所述输入图像的多尺度特征；

步骤S2：将所述多尺度特征输入扩张残差卷积模块，得到包括所述多尺度特征的上下文信息的融合特征；所述扩张残差卷积模块包括第一卷积层，与所述第一卷积层相连的多个分支，以及第二卷积层；其中各个分支的输出均输入所述第二卷积层，每个分支包括一个与所述第一卷积层相连的残差模块、以及同时与所述残差模块相连的第一扩张卷积模块、以及第二扩张卷积模块，基于第一扩张卷积模块的输出与所述第二扩张卷积模块的输出得到所述分支的输出；

步骤S3:将所述融合特征分别输入多个通道注意力模块，得到多个显著性特征；

步骤S4：对每个显著性特征降维激活，生成显著性图，采用融合交叉熵和交并比损失的混合损失函数进行深层监督训练。

优选地，所述通道注意力模块包括平均池化模块、最大池化模块、第一卷积分支、第二卷积分支以及第三卷积模块；所述融合特征分别输入所述平均池化模块及所述最大池化模块，所述平均池化模块及所述最大池化模块处理后的结果进行融合，得到第一融合特征，将所述第一融合特征分别输入所述第一卷积分支及所述第二卷积分支，将所述第一融合特征、所述第一卷积分支得到的处理结果、以及所述第二卷积分支得到的处理结果进行融合，得到第二融合特征，将所述第二融合特征输入所述第三卷积模块，得到显著性特征。

优选地，所述步骤S2，其中：

所述第一扩张卷积模块及所述第二扩张卷积模块进行扩张卷积后均进行批量标准化操作和ReLu非线性激活操作；所述第一扩张卷积模块的填充率为d₀＝ {2，4，6}，所述第二扩张卷积模块的填充率为d₁＝{1，2，3}；

所述分支的输出为F_i，

F_i＝∑(D_i0(res(f_j))，D_i1(res(f_j))，f_j)

其中，i表示包含残差模块和扩张卷积的分支数，j表示多尺度特征分支数， f_j表示所述多尺度降维特征，res(·)表示残差模块进行的卷积操作，D_i0，D_i1分别表示填充率为d₀，d₁的扩张卷积操作，∑表示像素级加性融合操作；

将各个扩张卷积分支的输出F_i输入所述第二卷积层，得到包括所述多尺度特征的上下文信息的融合特征Υ_j＝Conv(C(F₀，F₁，F₂，f_j))，其中，Conv表示降维卷积操作，C表示通道维度的特征融合操作。

优选地，所述步骤S3，其中：

所述第一卷积分支与所述第二卷积分支的卷积核尺寸不同；所述第一卷积分支包括3×3卷积层、全连接层及sigmoid层，将所述第一融合特征输入所述第一卷积分支，得到不同通道层面对显著性信息的第一影响程度α；所述第二卷积分支包括5×5卷积层、全连接层及sigmoid层，将所述第一融合特征输入所述第二卷积分支，得到不同通道层面对显著性信息的第二影响程度β；将第一影响程度α、第二影响程度β、第一融合特征ε进行融合，融合方式为：

其中，

表示系数相乘，M_j表示多尺度分支j的通道注意力模块输出的显著性特征。

优选地，所述步骤S4，所述混合损失函数L为

L＝λ₁L_BCE(P，G)+λ₂L_IOU(P，G)

其中，λ₁，λ₂分别为交叉熵损失函数BCE和IOU损失函数的权重系数， L_BCE(P，G)表示显著性图的交叉熵损失函数，L_IOU(P，G)表示显著性图IOU损失函数，P是显著性图的预测结果，G是显著性图的真值标签；

其中，l表示输入图像中第l个像素，n表示输入图像中共有n个像素，G_l表示第l个像素的显著性图的真值标签，P_l表示第l个像素的显著性图的预测结果。

本发明所提供的一种基于多尺度扩张卷积神经网络的显著性目标检测装置，所述装置包括：

多尺度编码模块：配置为将待处理的RGB图像作为输入图像，将所述输入图像输入预先训练好的ResNet34网络模型，提取所述输入图像的多尺度特征；

扩张残差卷积模块：配置为将所述多尺度特征输入扩张残差卷积模块，得到包括所述多尺度特征的上下文信息的融合特征；所述扩张残差卷积模块包括第一卷积层，与所述第一卷积层相连的多个分支，以及第二卷积层；其中各个分支的输出均输入所述第二卷积层，每个分支包括一个与所述第一卷积层相连的残差模块、以及同时与所述残差模块相连的第一扩张卷积模块、以及第二扩张卷积模块，基于第一扩张卷积模块的输出与所述第二扩张卷积模块的输出得到所述分支的输出；

显著性特征获取模块:配置为将所述融合特征分别输入多个通道注意力模块，得到多个显著性特征；

显著性图生成模块：配置为对每个显示著性特征降维激活，生成显著性图，采用融合交叉熵和交并比损失的混合损失函数进行深层监督训练。

本发明所提供的一种计算机可读存储介质，所述存储介质中存储有多条指令；所述多条指令，用于由处理器加载并执行如前所述方法。

本发明所提供的一种电子设备，其特征在于，所述电子设备，包括：

处理器，用于执行多条指令；

存储器，用于存储多条指令；

其中，所述多条指令，用于由所述存储器存储，并由所述处理器加载并执行如前所述方法。

有益效果：

(1)本发明的方法基于多尺度扩张卷积神经网络采用预训练好的ResNet34 作为特征编码器，有效地提取出多尺度初始特征，通过使用扩张残差卷积模块，充分捕获到了图像中丰富的全局语义信息和局部语义信息，解决了编码器深度较浅、信息提取不足的问题。

(2)通过设计通道注意力模块，进一步使网络聚焦显著性目标区域，减少了冗余信息的干扰。

(3)采用混合损失函数，融合交叉熵损失和交占比损失，有效地提高图像显著性目标检测的准确率。

(4)采用端到端的深度监督训练方式，具有训练速度快、计算量小、通用性强、检测精度高等优势。

(5)本发明有效利用多尺度特征信息，充分挖掘高层次信息与低层次信息之间的相关性。

附图说明

图1为本发明提供的基于多尺度扩张卷积神经网络的显著性目标检测方法流程示意图；

图2为本发明提供的基于多尺度扩张卷积神经网络的显著性目标检测架构示意图；

图3为本发明提供的扩张残差卷积模块结构示意图；

图4为本发明提供的通道注意力模块结构示意图；

图5为本发明提供的基于多尺度扩张卷积神经网络的显著性目标检测方法装置结构示意图。

具体实施方式

下面结合附图和实施例，对本发明进行详细描述。

如图1-图2所示，本发明提出了一种基于多尺度扩张卷积神经网络的显著性目标检测方法，包括如下步骤：

进一步地，所述通道注意力模块包括平均池化模块、最大池化模块、第一卷积分支、第二卷积分支以及第三卷积模块；所述融合特征分别输入所述平均池化模块及所述最大池化模块，所述平均池化模块及所述最大池化模块处理后的结果进行融合，得到第一融合特征，将所述第一融合特征分别输入所述第一卷积分支及所述第二卷积分支，将所述第一融合特征、所述第一卷积分支得到的处理结果、以及所述第二卷积分支得到的处理结果进行融合，得到第二融合特征，将所述第二融合特征输入所述第三卷积模块，得到显著性特征。

所述步骤S1，其中：

本实施例中，将在ImageNet上预训练好的ResNet34网络模型作为编码器，从输入图像中提取多尺度特征I_j。以j＝0,1,2,3,4为例，分别选取conv1，conv2_3， conv3_4，conv4_6，conv5_3作为编码器的5个输出层；输入图像I(H,W,3)利用下采样生成特征I_j(j＝0,1,2,3,4)，其中H,W,3分别为特征的高、宽、通道数。则 conv1的输出特征为I₀(H,W,64)，conv2_3的输出特征为I₁(H/2,W/2,64)， conv3_4的输出特征为I₂(H/4,W/4,128)，conv4_6的输出特征为I₃(H/8,W/ 8,256)，conv5_3的输出特征为I₄(H/16,W/16,512)。

所述步骤S2，如图3所示，其中：

所述第一卷积层用于对所述多尺度特征降维。

所述分支的输出为F_i，

F_i＝∑(D_i0(res(f_j))，D_i1(res(f_j))，f_j)，(i＝0，1，2；j＝0，1，2，3，4)

其中，i表示包含残差模块和扩张卷积的分支数，j表示多尺度特征分支数， f_j表示所述多尺度降维特征，res(·)表示残差模块进行的卷积操作，D_i0，D_i1分别表示填充率为d₀，d₁的扩张卷积操作，∑表示像素级加性融合操作。

本发明利用多内核扩张卷积和残差卷积充分提取多尺度上下文信息，增强特征的多样性和相关性，通过残差卷积和不同感受野的扩张卷积，以及信息融合，避免信息丢失，捕获到更多上下文中显著性信息，使得特征更具泛化能力。

例如，将所述多尺度特征作为扩张残差卷积模块的输入，首先，通过1×1 卷积操作降维输入特征f_j；其次，再分别送入由经典的残差块和两个扩张卷积组成的三组卷积操作中，其中每个扩张卷积后都进行批量标准化和ReLu非线性激活操作，填充率分别为d₀＝{2，4，6}，d₁＝{1，2，3}；再次，将扩张卷积输出的所有特征与f_j进行特征融合得到每一分支特征F_i，其中，F_i的计算公式为：

其中，res(·)并表示残差块，D_i0，D_i1分别表示填充率为d₀，d₁的扩张卷积操作，∑表示像素级加性融合操作。

最后，通过卷积和为1×1的卷积操作进行降维，得到具有深层上下文语义信息的特征Υ_j，计算公式如下：

Υ_j＝Conv(C(F₀，F₁，F₂，f_j))

所述步骤S3，如图4所示，其中：

对于通道注意力模块，进一步地，所述第一卷积分支与所述第二卷积分支的卷积核尺寸不同。所述第一卷积分支包括3×3卷积层、全连接层及sigmoid 层，将所述第一融合特征输入所述第一卷积分支，得到不同通道层面对显著性信息的第一影响程度α；所述第二卷积分支包括5×5卷积层、全连接层及 sigmoid层，将所述第一融合特征输入所述第二卷积分支，得到不同通道层面对显著性信息的第二影响程度β；将第一影响程度α、第二影响程度β、第一融合特征ε进行融合，融合方式为：

其中，

表示系数相乘，M_j表示多尺度分支j的通道注意力模块输出的显著性特征。显著性特征是两个分支特征与ε融合后的结果。

本发明将特征通过通道注意力模块强化多尺度通道间显著性目标信息，避免冗余信息的干扰。通过强化通道中显著性信息，一定程度上避免了冗余背景信息的干扰，使得特征更具鲁棒性。

例如，特征Υ_j作为通道注意力模块的输入，通过平均池化和最大池化，保留特征中不同信息，融合后得到特征ε分别通过卷积核为3×3和5×5的卷积操作，级联全连接操作和Sigmoid激活函数操作的两个分支，得到不同通道层面对显著性信息的影响程度α，β，再分别与ε进行相乘和特征融合，通过1×1的卷积操作，最后得到更为聚集的显著性信息特征，公式可以表示为：

其中，

表示系数相乘，M_j表示两个分支特征与ε融合后的结果。

所述步骤S4，对每个显示著性特征M_j进行降维激活，生成显著性图，采用融合交叉熵和交并比损失的混合损失函数进行深层监督训练。

所述混合损失函数L为

L＝λ₁L_BCE(P，G)+λ₂L_IOU(P，G)

其中，λ₁，λ₂分别为交叉熵损失函数BCE和IOU损失函数的权重系数， L_BCE(P，G)表示显著性图的交叉熵损失函数，L_IOU(P，G)表示显著性图IOU损失函数，P是显著性图的预测结果，G是显著性图的真值标签。

l表示输入图像中第l个像素，n表示输入图像中共有n个像素，G_l表示第l个像素的显著性图的真值标签，P_l表示第l个像素的显著性图的预测结果。

进一步地，以所述混合损失函数作为优化目标，采用端到端的训练方式，对由所述扩张残差卷积模块及所述多个通道注意力模块组成的多尺度扩张卷积神经网络进行训练，从而有效地定位和分割目标，得到准确的显著性图。

本发明使用混合损失函数进行深层监督训练，融合交叉熵和交并比损失，能够更有效地定位和分割显著目标。为了进一步挖掘全局像素之间的相关性，引入IOU损失函数，用以计算预测结果和真值标签整体结构相似度。

例如，混合损失函数为交叉熵损失函数和IOU损失函数加权和：

L＝λ₁L_BCE(P，G)+λ₁L_IOU(P，G)

其中，λ₁，λ₂分别为交叉熵损失函数和IOU损失函数的权重系数，均设置为1，L_BCE(P，G)表示显著图的交叉熵损失函数，L_IOU(P，G)表示显著图IOU损失函数，P是显著图的预测结果，G是真值标签。

交叉熵损失函数广泛应用于分类问题中，其定义如下：

其中，l表示图像中第l个像素，n表示图像中共有n个像素。

使用上述混合损失函数作为优化目标，经过深度训练，最小化损失函数，实现网络模型的优化。

本发明还提供了一种基于多尺度扩张卷积神经网络的显著性目标检测装置，如图5所示，该装置包括：

以上的具体实施例仅描述了本发明的设计原理，该描述中的部件形状，名称可以不同，不受限制。所以，本发明领域的技术人员可以对前述实施例记载的技术方案进行修改或等同替换；而这些修改和替换未脱离本发明创造宗旨和技术方案，均应属于本发明的保护范围。

Claims

1.一种基于多尺度扩张卷积神经网络的显著性目标检测方法，其特征在于，包括如下步骤：

2.如权利要求1所述的方法，其特征在于，所述通道注意力模块包括平均池化模块、最大池化模块、第一卷积分支、第二卷积分支以及第三卷积模块；所述融合特征分别输入所述平均池化模块及所述最大池化模块，所述平均池化模块及所述最大池化模块处理后的结果进行融合，得到第一融合特征，将所述第一融合特征分别输入所述第一卷积分支及所述第二卷积分支，将所述第一融合特征、所述第一卷积分支得到的处理结果、以及所述第二卷积分支得到的处理结果进行融合，得到第二融合特征，将所述第二融合特征输入所述第三卷积模块，得到显著性特征。

3.如权利要求1-2中任一所述方法，其特征在于，所述步骤S2，其中：

所述第一扩张卷积模块及所述第二扩张卷积模块进行扩张卷积后均进行批量标准化操作和ReLu非线性激活操作；所述第一扩张卷积模块的填充率为d₀＝{2,4,6}，所述第二扩张卷积模块的填充率为d₁＝{1,2,3}；

所述分支的输出为F_i，

F_i＝∑(D_i0(res(f_j)),D_i1(res(f_j)),f_j)

其中，i表示包含残差模块和扩张卷积的分支数，j表示多尺度特征分支数，f_j表示所述多尺度降维特征，res(·)表示残差模块进行的卷积操作，D_i0，D_i1分别表示填充率为d₀,d₁的扩张卷积操作，∑表示像素级加性融合操作；

将各个扩张卷积分支的输出F_i输入所述第二卷积层，得到包括所述多尺度特征的上下文信息的融合特征Υ_j＝Conv(C(F₀,F₁,F₂,f_j))，其中，Conv表示降维卷积操作，C表示通道维度的特征融合操作。

4.如权利要求3所述方法，其特征在于，所述步骤S3，其中：

其中，

5.如权利要求4所述方法，其特征在于，所述步骤S4，所述混合损失函数L为

L＝λ₁L_BCE(P,G)+λ₂L_IOU(P,G)

其中，λ₁，λ₂分别为交叉熵损失函数BCE和IOU损失函数的权重系数，L_BCE(P,G)表示显著性图的交叉熵损失函数，L_IOU(P,G)表示显著性图IOU损失函数，P是显著性图的预测结果，G是显著性图的真值标签；

6.一种基于多尺度扩张卷积神经网络的显著性目标检测装置，其特征在于，包括：

7.一种计算机可读存储介质，所述存储介质中存储有多条指令；所述多条指令，用于由处理器加载并执行如权利要求1-5中任一项所述方法。

8.一种电子设备，其特征在于，所述电子设备，包括：

处理器，用于执行多条指令；

存储器，用于存储多条指令；

其中，所述多条指令，用于由所述存储器存储，并由所述处理器加载并执行如权利要求1-5中任一项所述方法。