CN110490189A

CN110490189A - 一种基于双向消息链路卷积网络的显著性物体的检测方法

Info

Publication number: CN110490189A
Application number: CN201910598297.9A
Authority: CN
Inventors: 张恒振; 申凯; 芦立华
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2019-07-04
Filing date: 2019-07-04
Publication date: 2019-11-22

Abstract

本发明提出一种基于双向消息链路卷积网络的显著性物体的检测方法。首先，利用注意力机制引导特征提取模块提取实体有效特征，并以渐进方式选择整合多层次之间的上下文信息。然后使用带有跳过连接结构的网络与带门控函数的消息传递链路组成的双向信息链路，将高层语义信息与浅层轮廓信息相融合。最后，使用多尺度融合策略，编码多层有效卷积特征，以生成最终显著图。在6个数据集的定性和定量实验表明，本发明提出的方法在不同指标下均获得较好的表现。

Description

一种基于双向消息链路卷积网络的显著性物体的检测方法

技术领域

本发明属于图像处理领域，特别是对于图像显著性物体检测的领域、提取图像中显著性区域(即人类感兴趣的区域)。

背景技术

视觉显著性是用来刻画图像中的部分区域，这些区域相对于它们的临近区域更为突出。显著性模型可分为基于数据驱动的自底向上模型和基于任务驱动的自顶向下模型。基于卷积神经网络的显著性检测方法消除了对手工特征的需求，逐渐成为显著性检测的主流方向。显著性物体检测用于突出图像中最重要的部分，常作为图像预处理步骤用于计算机视觉任务中，包括图像分割，视觉跟踪，场景分类，物体检测，图像检索，图像识别等。

显著性物体检测可分为使用手工设计低级特征的显著性检测方法，以及基于深度卷积神经网络提取特征的显著性检测方法。使用手工设计特征的显著性检测方法大多数使用启发式显著性先验知识，如颜色对比先验，边界背景先验以及中心先验等等。

基于深度卷积神经网络，特别是全卷积神经网络(FCN)，已经在语义分割、姿态估计和对象提取等标记任务中表现出优异的性能。同时也推动了尝试使用FCN解决显著性物体检测中显著性物体定位问题。在使用深度神经网络解决显著性物体检测的任务中，依旧存在很多解决的问题，如边界细节信息缺失、背景抑制和实体镜像等问题需要解决。目前在解决边界细节信息丢失问题主要采用对侧输出层之间添加短连接将低级边界特征传递到深层特征、使用非线性融合和多级融合不同级别的特征、使用循环神经网络整合多层信息或者跳过连接等方式组合不同的级别特征；在解决背景抑制问题主要采用“软硬”注意力机制或者残差注意力机制来训练残差网络等方式来增强显著性物体的的权值，达到对背景内容的抑制；在处理实体镜像问题上采用显著性抑制的方式进行处理。本发明使用由通道注意力与空间注意力组成的注意力模块指导有效特征的提取，采用串联的方式将通道注意力与空间注意力进行组合，可赋予有效通道、有效卷积特征更高的权值，减少背景对显著性物体预测的影响。本发明提出具有跳过连接结构的上下文感知模块与带门控函数的消息链路组成的双向消息链路，在实现高层语义信息与低层轮廓信息相互传递的同时，能够控制高层语义对低层轮廓提取的影响程度，达到高层语义“有限”指导低层轮廓的提取，而低层轮廓信息则为高层语义的识别提供更精确的空间信息。本发明借助多尺度融合策略将多级有效特征进行融合，可在不同角度产生对显著性物体的预测，并进一步融合不同尺度的信息生成具有完整边界的显著性物体预测图。

发明内容

本发明的目的在于提供一种图像显著性物体的检测方法。本发明提出双向消息链路卷积网络(BML-CNN)模型，提取和融合有效特征信息用于显著性物体检测。首先，利用注意力机制引导特征提取模块提取实体有效特征，并以渐进方式选择整合多层次之间的上下文信息。然后使用带有跳过连接结构的网络与带门控函数的消息传递链路组成的双向信息链路，将高层语义信息与浅层轮廓信息相融合。最后，使用多尺度融合策略，编码多层有效卷积特征，以生成最终显著图。在6个数据集的定性和定量实验表明，本发明提出的BML-CNN在不同指标下均获得最好的表现。

为了达到上述目的，本发明通过以下技术方案实现：

一种基于双向消息链路卷积网络的显著性物体检测方法，其特点是，该检测方法包含如下步骤：

步骤1，采集图像显著性物体检测训练数据集；

步骤2，建立含有通道注意力与空间注意力的有效特征提取模块，提取有效显著性物体特征；

步骤3，建立带有跳过连接结构的上下文感知网络与带有门控函数的信息传递链路组成的双向消息链路，用于有效特征的相互传递；

步骤4，使用多尺度融合策略融合多尺度上下文信息，输出对图像中物体显著度的预测。

所述的一种基于双向消息链路卷积网络的显著性物体检测方法，其特点是，所述的步骤2包含如下步骤：

步骤2.1，通道注意力机制是通道注意力机制是处理卷积神经网络中不同的特征通道，为有效的通道赋予更高的权重使其能对显著性对象有更高的响应，降低无效通道的权重使其能够降低对显著性对象预测的干扰。

将卷积特征用I∈R^W×H×C表示，其中R表示实数集合，W×H×C表示卷积特征I的维度，用F＝{f₁，f₂，…，f_C}表示卷积特征I上的通道，其中f_i∈R^W×H，i∈{1，2，…，C}表示卷积特征I上的第i个通道，W表示宽，H表示高，C表示通道总数。用s∈R^C表示通道权重向量，我们设计一个卷积层来学习每个通道的权值特征：

g＝W_C*F+b_C (1)

其中*表示卷积运算，W_C表示卷积滤波器，b_C表示卷积偏差。使用Softmax激活函数获得最终的通道注意力向量a_C＝{a_C(1)，a_C(2)，…，a_C(C)}：

步骤2.2，空间注意力机制直接使用卷积特征预测显著性往往可能由于非显著性区域所造成的噪音导致次优结果。空间注意力机制通过对每一个区域进行评估，为每一个区域赋予不同的权值，使得模型能够更加关注有助于显著性预测的有效信息。空间注意力机制可以突出显著性对象，减少背景区域的干扰。

使用I∈R^W×H×C表示卷积特征，使用L＝{(x，y)|x＝1，2，…，W；y＝1，2，…H}表示卷积特征上空间位置，其中(x，y)表示空间上点的坐标。我们设计了一个卷积层来计算空间注意力特征图：

m＝W_S*I+b_S (4)

其中m∈R^W×H是包含所有通道的信息，*表示卷积运算，W_s表示卷积滤波器，b_S表示卷积偏差。

接下来使用Softmax激活函数获取每一个位置上的空间注意力权重。

∑_l∈La_S(l)＝1 (6)

其中m(l)表示空间注意力特征图m中第1个点，其中l∈L，a_S(l)表示第1个点的权值。令a_S＝{a_S(1)，a_S(2)，…，a_S(W×H)}为空间关注图。

注意力模块使用通道注意力模块与空间注意力模块串联成注意力模块。将注意力模块添加到带跳过连接的上下文感知模块，可从不同方向上减少背景区域的干扰，提高对显著性物体的预测，并精确的保留边界信息。

使用I∈R^W×H×C表示输入注意力模块的卷积特征前半阶段为通道注意力机制，后半段为空间注意力机制。令I^C为经过通道注意力模块输出的卷积特征：

I^C(i)＝I(i)×a_C(i) (7)

其中×表示对应元素相乘，a_C(i)表示第i层通道的通道注意力向量第i维参数，其中i∈{1，2，…，C}。

接下来将得到的卷积特征输入到空间注意力模块中得到I^CS：

I^CS＝a_S*I^C (8)

其中*表示Hadamard矩阵乘积运算。得到的I^CS是通过注意力模块的带权卷积特征，模型使用I^CS指导下一层卷积对显著性物体特征的提取。

所述的一种基于双向消息链路卷积网络的显著性物体检测方法，其特点是，所述的步骤3包含如下步骤：

步骤3.1，带有跳过连接结构的上下文传递模块，公式(9)中的“Conv5”是对原始图片的特征提取，使用跳过连接结构将原始图片，与语义特征一起作为新的卷积层的输入，实现上下文传递，并使用后续的卷积将低级空间特征与高级语义相融合，使得显著性特征具有比较完备的边界信息和高级语义信息。另外注意力机制的加入减少了背景对显著性物体预测的影响。

att_conv5＝Atten(Conv5) (9)

Up_i＝Up(att_conv5，u_i) (10)

其中att_conv5为“Conv5”通过注意力模块Atten的输出，Up_i，i∈{1，2，3，4，5}表示上采样的输出，u_i为大小分别为{16×16，8×8，4×4，2×2，1×1}的上采样内核。

conv_i＝Conv(Concat(Up_i-5，conv_i-1)，K) (11)

at_i＝Atten(conv_i) (12)

其中K表示大小为3×3的卷积核，concat表示通道连接，Up_i-5由公式(9)和(10)计算得到。公式(11)中卷积的激活函数均为Relu。at_i表示conv_i通过注意力模块的输出。

步骤3.2，使用带门控函数的信息传递链路将高级语义信息与中间层卷积特征相融合，因为并不是所有的中间层都对物体显著性的预测是有帮助的，所以借助门控函数产生[0-1]的权值向量，控制高层卷积特征对低级卷积特征的影响程度，从而每一层都是由上一层加权并与本层特征融合的结果，使得每一层都有在上一层高级语义的指导下选择本层的空间特征，从而产生不同级别、不同尺度、不同视角的显著性预测先验信息，为进一步的多尺度融合提供比较全面的特征信息。

dc_ij＝Conv(at_i，K，D_j) (13)

sd_i＝Concat(dc_i1，dc_i2，dc_i3，dc_i4) (14)

其中dc_ij，i∈{1，2，3，4，5}，j∈{1，2，3，4}表示空洞卷积的输出，卷积核K的大小均为3×3，D_j表示大小分别为1，3，5，7的dilation rate。sd_i表示融合空洞卷积的输出，i∈{1，2，3，4，5}。

M_i＝G(S_i+1，Kⁱ¹)×Conv(S_i+1，Kⁱ²) (15)

G(S_i+1，Kⁱ¹)＝Sigmoid(Conv(S_i+1，Kⁱ¹)) (16)

S_i＝Conv(Concat(M_i，sd_i)，Kⁱ) (17)

其中门控函数由G表示，Kⁱ、Kⁱ¹和Kⁱ²均表示大小为3×3的卷积核。S_i则表示双向消息链路的侧输出。

所述的一种基于双向消息链路卷积网络的显著性物体检测方法，其特点是，所述的步骤4包含如下步骤：

步骤4.1使用多尺度特征融合策略将双消息链路的侧输出S_i，i∈{1，2，3，4，5}进行融合。首先对6个侧输出进行上采样操作得到分层映射Sm_i，它将用于对尺度特征融合的输入。

Sm_i＝Up(S_i，u_i) (18)

其中Up表示上采样操作，u_i分别表示大小为{1×1，2×2，4×4，8×8，16×16}的采样内核。

步骤4.2将公式18计算得到的5个分层特征映射Sm_i输入到特征融合策略，生成最终的显著性预测图。

FCM₀＝Concat(Sm₁，Sm₂，Sm₃，Sm₄，Sm₅) (19)

FCM₁＝Conv(FCM₀，K₁) (20)

FCM₂＝Conv(FCM₁，K₂) (21)

pre_gt＝Conv(FCM₂，K₃) (22)

其中K₁、K₂和K₃分别表示大小为3×3，3×3，1×1的卷积核，激活函数分别为Relu，Relu，Sigmoid。pre_gt为模型最终的输出，也是物体的显著性预测图。

本发明使用由通道注意力与空间注意力组成的注意力模块指导有效特征的提取，采用串联的方式将通道注意力与空间注意力进行组合，可赋予有效通道、有效卷积特征更高的权值，减少背景对显著性物体预测的影响。本发明提出具有跳过连接结构的上下文感知模块与带门控函数的消息链路组成的双向消息链路，在实现高层语义信息与低层轮廓信息相互传递的同时，能够控制高层语义对低层轮廓提取的影响程度，达到高层语义“有限”指导低层轮廓的提取，而低层轮廓信息则为高层语义的识别提供更精确的空间信息。本发明借助多尺度融合策略将多级有效特征进行融合，可在不同角度产生对显著性物体的预测，并进一步融合不同尺度的信息生成具有完整边界的显著性物体预测图。

附图说明

图1是一种基于双向消息链路卷积网络的显著性物体的检测方法的整体流程图。

具体实施方式

以下结合附图，通过详细说明一个较佳的具体实施例，对本发明做进一步阐述。

如图1所示，一种基于双向消息链路卷积网络的显著性物体检测方法，其检测方法包含如下步骤：

步骤1，采集图像显著性物体检测训练数据集；

为了训练本文模型，使用DUTS-TR数据集训练本文模型，数据集包括10553张图片，为了使模型获得更好的训练效果，使用了数据增强策略生成了63318张图片作为训练图片。为了评估模型，本发明使用6个标准数据集：DUTS-TE数据集，该数据集具有5019个具有高像素注释的测试数据集。DUT-OMRON数据集，该数据集有5168个高质量的图像，数据集中的图像具有一个或多个显著性对象和相对复杂的背景。ECSSD数据集，该数据集具有1000个图像，在语义上具有比较复杂的分割结构。HKU-IS数据集，该数据集具有4447幅图片，具有多个不相连的显著性对象。PASCAL-S数据集，该数据集是从PASCAL VOC数据集中挑选的，具有850张自然图像。

g＝W_C*F+b_C (23)

m＝W_S*I+b_S (26)

∑_l∈La_S(l)＝1 (28)

I^C(i)＝I(i)×a_C(i) (29)

接下来将得到的卷积特征输入到空间注意力模块中得到I^CS：

I^CS＝a_S*I^C (30)

步骤3.1，带有跳过连接结构的上下文传递模块，“Conv5”是对原始图片的特征提取，使用跳过连接结构将原始图片，与语义特征一起作为新的卷积层的输入，实现上下文传递，并使用后续的卷积将低级空间特征与高级语义相融合，使得显著性特征具有比较完备的边界信息和高级语义信息。另外注意力机制的加入减少了背景对显著性物体预测的影响。

att_conv5＝Atten(Conv5) (31)

Up_i＝Up(att_conv5，u_i) (32)

conv_i＝Conv(Concat(Up_i-5，conv_i-1)，K) (33)

at_i＝Atten(conv_i) (34)

其中K表示大小为3×3的卷积核，concat表示通道连接，Up_i-5由公式(31)和(32)计算得到。公式(33)中卷积的激活函数均为Relu。at_i表示conv_i通过注意力模块的输出。

dc_ij＝Conv(at_i，K，D_j) (35)

sd_i＝Concat(dc_i1，dc_i2，dc_i3，dc_i4) (36)

其中dc_ij，i∈{1，2，3，4，5}，j∈{1，2，3，4}表示空洞卷积的输出，卷积核K的大小均为3×3，D_i表示大小分别为1，3，5，7的dilation rate。sd_i表示融合空洞卷积的输出，i∈{1，2，3，4，5}。

M_i＝G(S_i+1，Kⁱ¹)×Conv(S_i+1，Kⁱ²) (37)

G(S_i+1，Kⁱ¹)＝Sigmoid(Conv(S_i+1，Kⁱ¹)) (38)

S_i＝Conv(Concat(M_i，sd_i)，Kⁱ) (39)

Sm_i＝Up(S_i，u_i) (40)

FCM₀＝Concat(Sm₁，Sm₂，Sm₃，Sm₄，Sm₅) (41)

FCM₁＝Conv(FCM₀，K₁) (42)

FCM₂＝Conv(FCM₁，K₂) (43)

pre_gt＝Conv(FCM₂，K₃) (44)

其中K₁、K₂和K₃分别表示大小为3×3，3×3，1×1的卷积核，激活函数分别为Relu，Relu，Sigmoid。pre_gt为模型最终的输出，也是物体的显著性预测图。实验结果显示，本发明提出的BML-CNN在数据集DUTS-TE，DUT-OMRON，HKU-IS，THUR15K，PASCAL-S上MAE降低了5.97％，21.35％，5.77％，13.41％和10％，在F_β指标上分别提高了4.69％，7.02％，2.23％，8.62％和3.88％。在数据集ECSSD上BML-CNN比Amulet的MAE高了3.28％，但BML-CNN却在F_β比Amulet高了1.26％。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种基于双向消息链路卷积网络的显著性物体的检测方法，其特征在于，该提取方法包含如下步骤：

步骤1，采集图像显著性物体检测训练数据集；

2.如权利要求1所述的一种基于双向消息链路卷积网络的显著性物体的检测方法的步骤2包含如下步骤：

g＝W_C*F+b_C (1)

m＝W_S*I+b_S (4)

∑_l∈La_S(l)＝1 (6)

I^C(i)＝I(i)×a_C(i) (7)

接下来将得到的卷积特征输入到空间注意力模块中得到I^CS：

I^CS＝a_S*I^C (8)

3.如权利要求1所述的基于双向消息链路卷积网络的显著性物体检测的步骤3包含如下步骤：

att_conv5＝Atten(Conv5) (9)

Up_i＝Up(att_conv5，u_i) (10)

Conv_i＝Conv(Concat(Up_i-5，conv_i-1)，K) (11)

at_i＝Atten(conv_i) (12)

dc_ij＝Conv(at_i，K，D_j) (13)

sd_i＝Concat(dc_i1，dc_i2，dC_i3，dc_i4) (14)

M_i＝G(S_i+1，Kⁱ¹)×Conv(S_i+1，Kⁱ²) (15)

G(S_i+1，Kⁱ¹)＝Sigmoid(Conv(S_i+1，Kⁱ¹)) (16)

S_i＝Conv(Concat(M_i，sd_i)，K^l) (17)

4.如权利要求1所述的基于双向消息链路卷积网络的显著性物体检测的步骤4包含如下步骤：

使用多尺度特征融合策略将双消息链路的侧输出S_i，i∈{1，2，3，4，5}进行融合。首先对6个侧输出进行上采样操作得到分层映射Sm_i，它将用于对尺度特征融合的输入。

Sm_i＝Up(S_i，u_i) (18)

FCM₀＝Concat(Sm₁，Sm₂，Sm₃，Sm₄，Sm₅) (19)

FCM₁＝Conv(FCM₀，K₁) (20)

FCM₂＝Conv(FCM₁，K₂) (21)

pre_gt＝Conv(FCM₂，K₃) (22)