CN112329793A

CN112329793A - 基于结构自适应和规模自适应感受野的显著性检测方法

Info

Publication number: CN112329793A
Application number: CN202011223925.4A
Authority: CN
Inventors: 苏育挺; 严昌飞; 刘婧
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2021-02-05
Anticipated expiration: 2040-11-05
Also published as: CN112329793B

Abstract

本发明公开了一种基于结构自适应和规模自适应感受野的显著性检测方法，所述方法包括：对DUTS数据库中训练集图像进行水平镜像处理，将镜像处理后的图像和标签加入到训练集；构建由骨干网络、特征提取网络和聚合网络构成网络模型；将训练集的低比特图像反量化后得到的零填充高比特图像作为网络模型的输入，将各层次输出结果和真实的标签图之间的二值交叉熵损失作为损失函数，通过Adam优化器梯度下降损失函数训练网络模型的各个参数；将训练后的网络模型用于显著性检测。

Description

基于结构自适应和规模自适应感受野的显著性检测方法

技术领域

本发明涉及深度神经网络领域，尤其涉及一种基于结构自适应和规模自适应感受野的显著性检测方法。

背景技术

显著性对象检测旨在突出显示图像或视频中在语义上引人注意或引起关注的区域或对象。它可以作为其他计算机视觉任务的预处理步骤。当前，它已经被广泛用于对象跟踪、图像分割、对象检测和人员身份识别中。

根据感知理论，目标是否是显著物体由不同级别语义共同决定的，包括：高级语义信息、中级纹理结构信息、低级细节信息。传统的显著性检测方法通常采用人工设计的特征，这些特征由低级视觉特征(例如：颜色、像素在图像中的位置和边缘纹理)和中级纹理结构特征(例如：物体间的位置)组成。但是，传统方法难以提炼抽象的高级语义信息，同时特征设计基于先验假设，但是先验假设不可能对所有场景都适用。因此，传统方法处理具有复杂场景的能力是无法满足人类需求的。

最近，借助深度神经网络，可以很方便地获得高质量的深度语义特征，因此能够更有效地处理显著性检测任务。早期的神经网络融合了一些传统的显著性检测方法，包括：前景和背景先验以及图像超像素化，同时显著性预测结果仅使用最高层次特征上采样的结果。根据现有的方法，传统显著性检测方法生成的低级特征可以被神经网络浅层特征取代，因此，许多现有的方法决定从全卷积网络的不同层中提取多级别卷积特征，并将低级细节与高语义信息结合起来，生成多层次语义上下文来更好地定位显著对象。通常语义层次聚合使用跳跃连接或密集连接来整合不同级别的语义特征。但是，不同场景下显著物体具有不同的结构和尺寸，现有方法采用固定比例和规则采样的卷积实际上忽视了物体的结构信息，同时不同层次的语义信息对于感受野的要求也是不同的，低层次信息需要小感受野关注细节而高层次信息需要引入大感受野补充语义信息，而现有方法都是采用同样的感受野处理每一层次，从而劣化了显著性对象检测的性能效果。

发明内容

本发明提供了一种基于结构自适应和规模自适应感受野的显著性检测方法，本发明通过对骨干网络获得的各层次语义特征使用变形卷积调整特征位置，帮助卷积能够基于对象结构采样特征，根据不同层次设计对应的空间文本模块采样空间信息，使用通道注意力机制强化显著性相关的通道，从而获得高质量的高级语义线索和低级细节信息，将各个层次的语义特征通过密集连接聚合各层次信息；另外，本发明使用边缘改善模块对预测图像进行边缘修补以及引入深监督方法监督网络各个层次的训练，详见下文描述：

一种基于结构自适应和规模自适应感受野的显著性检测方法，所述方法包括：

对DUTS数据库中训练集图像进行水平镜像处理，将镜像处理后的图像和标签加入到训练集；

构建由骨干网络、特征提取网络和聚合网络构成网络模型；

将训练集的低比特图像反量化后得到的零填充高比特图像作为网络模型的输入，将各层次输出结果和真实的标签图之间的二值交叉熵损失作为损失函数，通过Adam优化器梯度下降损失函数训练网络模型的各个参数；将训练后的网络模型用于显著性检测。

其中，

骨干网络：使用VGG-16模型，将VGG-16模型的第2个卷积块的第2层Conv2-2、第3个卷积块的第2层Conv3-2、第4个卷积的第3层Conv4-3和第5个卷积块的第3层Conv5-3和最后一个池化层作为五个层次特征输入到特征提取网络中；

特征提取网络：Conv2-2输出的特征仅用两个3×3卷积提取，剩余层次特征先使用传统卷积和变形卷积处理，再用空间文本模块提取上下文信息，使用通道注意力模块强化空间文本模块处理后的特征；对AvgPool层空间文本模块处理后的特征使用全局均值池化和线性插值获得全局特征，将两者进行拼接整合；

聚合网络：对特征提取网络输出的特征进行聚合生成各层次显著预测结果，不同层次特征使用反卷积或下采样调整分辨率进行聚合，聚合后的特征使用边缘改善模块，使用线性插值将分辨率调整到标签图像的尺寸，使用深监督对每个层次预测图及结合图进行监督训练，完成端到端的训练。

进一步地，所述空间文本模块具体为：

其中，k代表卷积核尺寸，d代表卷积核扩张比率，i代表Conv3-2、Conv4-3、Conv5-3和AvgPool层。

其中，所述使用通道注意力模块强化空间文本模块处理后的特征具体为：将变形特征图输入通道注意力模块中生成通道权重，将通道权重与该层X_i点乘，强化显著性相关的通道，权重W获得公式为：

W＝Fc(reshape(pool(D)))

其中，D为当前层的通过变形卷积处理后的变形特征图，pool(·)为均值池化操作，将D的调整到C×n×n尺寸，C为特征通道数目，reshape(·)将特征图调整到Cn²×1×1，Fc(·)代表全连接层。

进一步地，所述方法还包括：将全局特征与AvgPool层的特征拼接，Conv2-2和Conv3-2的特征拼接。

其中，所述边缘改善模块由Relu函数和Conv组成，具体为：

P_out＝P_in+F(F(P_in))

其中，P_in代表输入的原始预测结果，P_out代表经过模块处理后的预测结果，F(·)函数是Relu函数加3×3卷积操作。

本发明提供的技术方案的有益效果是：

1、本发明以VGG-16网络为骨干网络生成显著性图像，在提取多层次语义信息的同时减少网络参数的计算量；

2、本发明通过密集连接将高层次特征传递给低层次，密集连接能稳定网络梯度求导计算，通过密集连接能够生成不同的语义层次组合，对不同语义组合的特征图进行监督训练，使得生成的显著性图像具有较高的视觉质量，并且具有更好的客观评价结果。

附图说明

图1为一种基于结构自适应和规模自适应感受野的显著性检测方法的流程图；

图2为卷积神经网络的空间文本模块的示意图；

图3为卷积神经网络的通道注意力模块的示意图；

图4为卷积神经网络的边缘改善模块的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

本发明实施例提出了一种基于结构自适应和规模自适应感受野的显著性检测方法，参见图1，该方法包括以下步骤：

101：对DUTS数据库中训练集图像进行水平镜像处理，将镜像处理后的图像和标签加入到训练集；

102：构建网络模型，由图1所示，整个网络模型由三个部分组成，分别是骨干网络、特征提取网络和聚合网络。其中，骨干网络使用的是VGG-16模型，将VGG-16模型的第2个卷积块的第2层(图中Conv2-2)、第3个卷积块的第2层(图中Conv3-2)、第4个卷积的第3层(图中Conv4-3)和第5个卷积块的第3层(图中Conv5-3)和最后一个池化层(图中AvgPool)作为五个层次特征输入到特征提取网络中。

其中，特征提取网络对骨干网络输出的特征进一步精炼，为了加快网络训练，Conv2-2输出的特征只使用两个3×3卷积提取，剩余层次特征则先使用卷积和变形卷积(图中Deform Conv)处理，再用空间文本模块(图中SCAM)提取上下文信息，为了强化显著性相关的通道权重，使用通道注意力模块(图中ROI-CAM)强化SCAM处理后的特征。

为了获得全局语义信息，对AvgPool层SCAM处理后的特征使用全局均值池化(图中GAP)和线性插值(图中Interp)获得全局特征，然后将两者进行拼接整合；聚合网络将特征提取网络输出的特征进行聚合生成各层次显著预测结果，不同层次特征使用反卷积或者下采样调整分辨率进行聚合，聚合后的特征使用边缘改善模块(图中BRM)进行精炼，最后使用线性插值将分辨率调整到标签图像的尺寸，使用深监督的方法对每个层次预测图以及它们的结合图进行监督训练，完成端到端的训练。

103：在训练阶段，将训练集的低比特图像反量化后得到的零填充高比特图像作为步骤102构建的网络模型的输入，并将网络模型的各层次输出结果和真实的标签图之间的二值交叉熵损失(Binary Crossentropy Loss)作为损失函数，通过Adam优化器梯度下降损失函数训练网络模型各个参数；

104：在测试阶段，测试集的图像通过加载训练模型生成预测图，通过用相关客观评价标准计算生成的显著性图像和真实的标签图像之间的相似性来验证本方法的有效性。

综上所述，本发明实施例通过步骤101至步骤104设计了一种基于结构自适应和规模自适应感受野的显著性检测方法，输入图像通过网络模型生成多层次的语义信息，对各层次语义信息有效精炼后使用密集连接聚合，保证网络在判断图像显著物体过程中能够充分利用低层次语义细节(网络中Conv2-2和Conv3-2输出特征)和高层次语义上下文(网络中Conv3-3、Conv4-3和AvgPool输出特征)。本发明实施例从优化网络提取特征的角度来设计网络，加入变形卷积、通道注意力模型、多规模空洞卷积和边缘改善模块增强网络学习能力，使用二值交叉熵损失函数训练网络参数，保证了预测的显著性图像具有很高的主观视觉质量。

实施例2

下面对实施例1中的方案进行进一步地介绍，详见下文描述：

201：构建源域和目标域的训练数据和测试数据；

本发明实施例使用了五个公开的微表情数据库DUT-OMRON、HKU-IS、PASCAL-S、ECSSD和DUTS数据库，均为本领域研究人员所知且是开源的。其中，DUTS数据库是最近广泛作为显著性模型的训练集，选择DUTS数据库中训练集部分的10553张图像和它们的水平镜像作为训练集，将DUTS的测试集和其余四个数据库数据作为测试集。

具体实现时，上述对DUTS数据库中训练集图像进行水平镜像处理的步骤为本领域技术人员所公知，本发明实施例对此不做赘述。

202：特征提取网络使用变形卷积获得基于结构自适应的特征；

卷积操作能够帮助像素获得周围区域的信息，但是并不是所有信息都是有用的，卷积过程可能会引入噪声从而影响对该位置显著性的判断。在以往的显著性检测网络中，对于各个层次的特征，只使用固定尺寸和数量的卷积处理特征，虽然后续工作加入空间注意力机制抑制噪声，但是空间注意力机制仍然使用的是单一的固定尺寸的卷积核。于是又引入多规模空间注意力机制，但是这种方法会增加计算量。因此本发明实施例通过采用变形卷积给予卷积核每个位置偏置，使卷积核能够采样到特征图上有效位置的信息。

通常对于传统卷积，定义它的采样区域为R，则对于特征图F的任意一点p，该点特征经过卷积处理后有：

其中，f(·,θ)是卷积操作，θ是卷积核参数，p_i,j是相对中心点p的相对偏移量。可以看出传统卷积只能采样固定位置的信息，但是对于变形卷积，它先用卷积核计算特征图中每个位置的偏置，然后获得偏置位置的像素作为卷积核采样的信息从而变相实现了卷积核的变形。对于使用变形卷积后的特征图D的任意一点p，用公式表示为：

其中，Δp_i,j即变形卷积计算得到的偏置，所以对于任意一点，卷积核采样的位置不会相同。变形卷积的偏置计算能够被网络监督训练，因此网络能够基于对不同物体结构进行更有效地采样。由于变形卷积对于每一个位置都要进行插值计算，因此对高分辨率特征使用变形卷积会造成模型性能下降，所以对于图1中Conv2-2层只使用两个3×3卷积进行精炼。

203：特征提取网络使用空间文本模块获得基于规模自适应的特征；

物体的显著性不仅仅取决于自身，还取决于与周围物体的交互语义。因此采用不同尺度卷积核提取特征是有必要的，因为这样能获得多规模的上下文语义信息，更加综合地判断像素的显著性。本发明实施例认为不同层次的语义信息对于感受野的需求是不一致的。因为低层次特征图通常包含图像中物体的边缘轮廓等细节特征，使用大尺度的感受野很容易采样到其他物体边缘细节信息，这些信息通常是无用的，因为不同物体间的细节信息上下文关联并不强，无法帮助当前位置的细节信息进一步区分。而高层次特征图中每个位置对应输入图中一大块区域，因此每个位置的特征是对输入图对应区域内若干物体信息的抽象描述，在高层次特征上的采样能够获得物体间的相互作用的抽象信息，而这对于显著性检测是有帮助的。因此高级抽象特征可以使用多规模感受野获得不同区域内物体之间的抽象语义。

本发明实施例为每层语义特征设计的空间文本模块不仅能够提取多规模上下文信息，还针对语义层次选择合适的感受野规模。空间文本模块结构如图2所示，空间文本模块内由并行的若干空洞卷积组合而成，输入的变形特征图通过卷积生成多种规模的空间文本信息然后用拼接操作生成多规模上下文信息。

对于任意层次特征X_i，用公式表示为：

其中，k代表卷积核尺寸，d代表卷积核扩张比率。i代表Conv3-2、Conv4-3、Conv5-3和AvgPool层。对于不同的层，设置的空洞卷积核大小和数目不同。[·]是拼接操作，拼接后的X_i的通道数与该层的变形特征图一致。通过配置预实验结果，本发明实施例对于Conv3-2，设置X₁＝[X_1,1,X_3,1]；对于Conv4-3，设置X₂＝[X_1,1,X_3,1,X_3,2]；对于Conv5-3，设置X₃＝[X_1,1,X_3,1,X_3,2]；对于AvgPool，设置X₄＝[X_1,1,X_3,1,X_3,2,X_3,3]。

204：特征提取网络使用通道注意力模块强化显著性相关的通道；

在通过拼接后得到的特征中，不同通道对于显著性的相关程度不一样，需要强化显著性相关程度高的通道而抑制相关程度低的通道。参见图3，将变形特征图输入通道注意力模块中生成通道权重，将通道权重与该层X_i点乘，强化显著性相关的通道。权重W获得公式为：

W＝Fc(reshape(pool(D))) (4)

其中，D为当前层的通过变形卷积处理后的变形特征图，pool(·)为均值池化操作，将D的调整到C×n×n尺寸，这里C为特征通道数目，n在本发明实施例中设置为2。reshape(·)将特征图调整到Cn²×1×1。Fc(·)代表全连接层。

通过变形特征图得到的权重除了能够强化X_i通道之外，还能够平衡变形特征图和X_i之间的比率，使得精炼后的特征能够兼顾空间上下文信息和变形特征图中包含的物体结构信息。

205：对AvgPool层使用全局均值池化和线性插值的方法生成全局上下语义信息，进一步丰富语义层次信息，然后将两者拼接和1×1卷积整合。

根据步骤202到步骤205所述，本发明实施例提出的特征提取网络对于特征提取实现了结构自适应和规模自适应，结构自适应体现在对于各个层次特征采用变形卷积处理，使得卷积核能够基于对象结构的位置采样信息；规模自适应体现在对于不同层次的特征，使用的空洞卷积规模和数量是不同的，其中语义层次越高级，将会使用更多规模的空洞卷积提取上下文信息。通过对骨干网络获得不同层次语义信息，然后对这些语义信息进行更有效地精炼和提取，强化和保留显著性相关的特征信息，提高网络对于显著性物体的检测能力。

206：采用密集连接将高层次特征和低层次特征聚合；

由于高层次特征主要确定显著性对象的区域，不会过多考虑对象边缘细节，因此只使用高层次特征的预测结果是无法取得优异的性能的。虽然低层次特征缺乏高级语义信息，但是低层次特征对边缘细节更为敏感，因此可以让高层次的特征与低层次特征结合，使得网络能更准确地判断显著对象。本发明实施例使用密集连接聚合各层次特征，密集连接方式由图1虚线所示。随着层次增长，采用密集连接会显著增加连接次数，同时产生高层次语义信息冗余，所以本发明实施例提前将全局特征与AvgPool层的特征拼接，Conv2-2和Conv3-2的特征拼接从而减少密集连接数量。

对于各层次预测图，使用边缘改善模块(图1中BRM)改善显著对象边缘，边缘改善模块结构如图4所示，该模块中使用一条由两组Relu+Conv操作构成的支路修补预测结果边缘区域并与原来的预测结果相加得到边缘改善后的预测结果，操作为：

P_out＝P_in+F(F(P_in)) (5)

207：整个网络模型通过Adam优化器(Adaptive Moment Estimation Optimizer)梯度下降感知损失函数进行训练，优化公式如下所示：

其中，

表示第i个参数第t时间步的梯度(向量，包含各个参数对应的偏导数，)，

表示第t时间步的梯度平方，J为网络模型的损失函数，θ_t为t时刻的网络模型参数，α为学习率。Adam优化器在计算每个时间步长时，增加了分母：梯度平方累计和的平方根。此项能够累计各个参数

的历史梯度平方，频繁更新的梯度，则累计的分母项逐渐偏大，那么更新的步长相对就会变小，而稀疏的梯度会导致累积的分母项中对应值比较小，那么更新的步长则相对比较大。从而使得训练过程中参数比较平稳，有利于保留残差图的结构信息。

网络模型使用的是二值交叉熵作为损失函数，该损失函数具体如下：

其中，N_c为预测结果的权重，

为第k层或者结合后的预测结果，G为输入图像对应的标签。k为Conv3-2、Conv4-3、Conv5-3和AvgPool层，而fuse为这四层预测结果聚合后的综合预测结果。W和H分别表示训练网络的输出的预测图像的宽度和高度。x,y表示预测图中某一点的位置。对于所有层和它们聚合的预测结果，本发明实施例给予相同的权重，所以N_c＝5。

实施例3

下面结合具体的实验数据对实施例1和2中的方案进行效果评估，详见下文描述：

301：数据组成

训练集由DUTS数据库中抽取训练集部分10553张图片构成。

测试集由DUTS数据库中的测试集部分，ECSSD，DUT-OMRON，HKU-IS，PASCAL-S数据库中的所有数据组成。

302：评估准则

本发明主要采用两种评价指标对图像显著性检测质量进行评估：

MAE(平均绝对误差，Mean Absolute Error)代表预测图像和标签之间的平均差异。预测图像和标签之间的MAE越小，两者越相似。通过对两者逐像素相减作差并取绝对值，然后求这些值得平均就是MAE。公式为：

其中，G为图像标签，P为预测图像，W和H分别代表图像的长度和宽度，w,h是图像上的任意一点。

F-measure是一种平衡了预测率和召回率的综合指标。F-measure数值越大，则预测图像越好。所谓预测率就是标签中显著对象在预测图中的比例，召回率就是检测到的显著性区域在所有显著性区域中的比例。两者的综合的结果就是F-measure。公式为：

其中，β²通常取0.3，prec代表预测率，reca代表召回率。

303：对比算法

实验中将本发明与七种深度学习方法进行比较。这七种方法是：

1)BDMPM。L.Zhang,J.Dai,H.Lu.A Bi-directional Message Passing Model forSalient Object Detection[C].IEEE Conference on Computer Vision and PatternRecognition,2018.

2)DGRL。T.Wang and L.Zhang and S.Wang.Detect Globally,Refine Locally:ANovel Approach to Saliency Detection[C].IEEE Conference on Computer Visionand Pattern Recognition,2018.

3)PAGRN。T.Wang and L.Zhang and S.Wang.Progressive Attention GuidedRecurrent Network for Salient Object Detection[C].IEEE Conference on ComputerVision and Pattern Recognition,2018.

4)PicaNet。N.Liu,J.Han,M.Yang.PiCANet:Learning Pixel-Wise ContextualAttention for Saliency Detection[C].IEEE Conference on Computer Vision andPattern Recognition,2018.

5)Amulet。P.Zhang,D.Wang,H.Lu.Amulet:Aggregating Multi-levelConvolutional Features for Salient Object Detection[C].IEEE InternationalConference on Computer Vision,2017.

6)UCF。P.Zhang,D.Wang,H.Lu.Learning Uncertain Convolutional Featuresfor Accurate Saliency Detection[C].IEEE International Conference on ComputerVision,2017.

7)RAS。S.Chen,X.Tan,B.Wang,and X.Hu,Reverse attention for salientobject detection[C].European Conference on Computer Vision,2018.

表1-表2展示了本方法与其他方法分别在DUT-OMRON，DUTS，ECSSD，HKU-IS及PASCAL-S数据库进行评测。表1中的评价结果是DUT-OMRON，DUTS，ECSSD数据库，表2中的评价结果是HKU-IS及PASCAL-S数据库，由2个表中可以看出，本发明实施例提出的模型所得到的结果在五个数据集上都取得了优异的结果。其中大部分指标都要优于对比算法BDMPM、DGRL、PAGRN、PicaNet、Amulet、UCF、RAS。这从客观方面证明了本方法的有效性。

表1

表2

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。