CN114299305A

CN114299305A - 聚合密集和注意力多尺度特征的显著性目标检测算法

Info

Publication number: CN114299305A
Application number: CN202111654905.7A
Authority: CN
Inventors: 孙延光; 夏晨星; 段秀真; 段松松
Original assignee: Anhui University of Science and Technology
Current assignee: Anhui University of Science and Technology
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-04-08
Anticipated expiration: 2041-12-30

Abstract

本发明属于计算机视觉领域领域，提供了一种聚合密集和注意力多尺度特征的显著性目标检测算法，包括以下步骤：首先，利用预训练好的ResNet‑50网络作为特征编码器从输入图像中提取初始多层次特征；随后，初始多层次特征通过深层稠密特征探索模块通过平行集成卷积块和稠密连接充分地提取和利用多尺度上下文信息增强特征的多样性和相关性；之后，优化后的多层次特征输入多尺度通道注意力强化模块通过集成多视角注意力特征强化通道中显著性目标信息和压缩背景来生成高质量特征表示；最后，生成的高质量特征表示进行降维和激活，生成的初始显著性图利用混合损失函数进行深层监督训练。

Description

聚合密集和注意力多尺度特征的显著性目标检测算法

技术领域：

本发明涉及计算机视觉领域，具体来说，涉及了聚合密集和注意力多尺度特征的显著性目标检测。

背景技术：

本部分的陈述仅仅是涉及到了与本发明相关的背景技术，并不必然构成现有技术。

显著性目标检测受人类视觉注意力机制所启发，目的是从单一图像中区分最显著的目标或区域并将其从背景中分割出来，最终以二值图的形式输出。由于显著性目标检测方法高效快速地处理图像数据的能力，它作为一个预处理阶段被广泛地应用于其他计算机视觉任务中。例如图像分割，视觉追踪，图像检索，自动水下机器人，行人重识别，视频压缩，等等。

显著性目标检测(SOD)不仅需要充分地理解图像内容用于准确地定位显著性目标而且分割后显著性目标需要具有丰富的边缘细节信息，使得显著性目标检测在计算机视觉领域中仍然是一个巨大的挑战。近十年来，大量的模型被提出用来有效地解决显著性目标检测的诸多问题。现存的显著性目标检测模型根据能否自动选择特征大致可以分为两类：基于传统的显著性目标检测模型和基于深度学习的显著性目标检测模型。传统的显著性目标检测模型主要依赖手工特征，例如颜色、对比度、纹理等信息，以一种自底向上的方式预测显著性目标。然而传统方法由于结构上的限制无法有效地利用图像中的高层次语义特征，因而大大降低了从复杂背景环境中预测显著性目标的准确性。

近年来，由于卷积神经网络(CNN)和全卷积神经网络(FCN)层次化的结构可以充分地捕获多层次特征，成功的打破了传统方法结构上的限制。基于深度学习的SOD模型利用层次化的结构可以充分捕获多层次特征用于预测显著性目标，例如，Short_Connect和Amulet 等方法通过利用不同的策略交互初始多层次特征中的不同信息(低层次局部细节信息和高层次全局语义信息)生成包含信息更丰富信息的特征用于预测显著性目标或区域；然而仅仅通过不同的融合策略优化初始多层次特征的方法是次优化的，生成的显著性图性能无法达到令人满意的结果。刘等人研究发现,丰富感受野的空洞卷积和卷积操作可以提取更丰富的特征(包含多尺度上下文信息)，多尺度信息的聚合可以进一步增强特征的多样性。CPD,Stack-UNet和MINet等方法设计了一系列的多尺度特征提取模块有效提取特征中的多尺度信息用于更准确地预测显著性目标。虽然这些方法相对于之前直接聚合多层次特征的方法性能上有了很大的提升，然而过大填充率的卷积核内部结构非常稀疏捕获信息的能力很差且捕获到的信息之间不具相关性，会造成预测生成的显著性图不够准确。另外，考虑到并不是通道中的所有特征对于预测显著性区域都有用，相反有些冗余特征会阻碍准确地预测显著性目标。为此一些基于注意力机制的方法设计了许多单一尺度注意力机制或门函数增强通道中前景信息的显著性，减少复杂复杂背景干扰。尽管基于单一尺度注意力机制的显著性目标检测方法取得了非凡的成就，然而单一尺度的注意力机制由于特征尺度上的限制，仍然不能够准确地推理种类复杂多变且尺寸不固定的显著性目标。

发明内容

为了缓解上述问题，我们设计了聚集密集和注意多尺度特征网络用于显著性目标检测，名字叫做DAMFNet。如图1所示，我们的模型预测生成的显著性图更接近于真值标签，这意味着我们的方法不仅可以准确地定位显著性目标而且分割出的目标边缘细节信息也非常丰富。DAMFNet包含两个模块：深层稠密特征探索(DDFE) 模块和多尺度通道注意力增强(MCAE)模块。具体的说，在DDFE 模块中我们串联了许多平行集成卷积块(包含卷积操作和填充率互补的空洞卷积操作)用于层次化地捕获局部和全局上下文信息。另外，在DDFE模块内部我们引入了稠密连接，目的是充分地利用每层捕获到的特征信息增强多尺度特征信息之间的相关性。MCAE模块聚焦通道中的有意义的特征，减少冗余特征的干扰。为了增强特征的鲁棒性，预测生成更高质量的显著性图。这里我们的注意力机制同时增强多个尺度特征通道中的前景信息，稀释复杂背景信息。通过聚合注意力多尺度特征生成最显著特征表示，用于准确地预测显著性目标。注意在MCAE模块中为了得到更多的压缩信息，我们采用一种混合的池化方法进行特征压缩。本发明的技术方案是提供了聚合密集和注意力多尺度特征的显著性目标检测算法，该方法包括以下步骤：

1.此显著性目标检测算法利用预训练好的ResNet-50网络作为编码器从输入图像中编码初始多层次特征；

1.1)开始，我们通过开源数据库收集到了显著性目标检测方向的多种数据集，涉及ECSSD数据集，HKU-IS数据集，PASCAL-S 数据集，DUT-OMRON数据集，DUTS数据集，DUTS-TE数据集。

1.2)此专利聚合密集和注意力多尺度特征的显著性目标检测算法，在此算法中我们利用拥有10553张图像的大型数据集，即DUTS 数据集训练我们的算法，训练完成之后，我们使用ECSSD数据集， PASCAL-S数据集，HKU-IS数据集，DUT-OMRON数据集和 DUTS-TE数据集作为测试数据集来验证我们所提出算法的高效性。

1.3)收集整理完成之后，我们将预训练好的ResNet50网络作为编码器，这里为了提升算法的计算效率，我们将ResNet50网络的最后一层池化层和全连接层移除，对输入RGB图像进行提取初始多层次特征，然后利用一个卷积操作降维初始多层次特征生成特征表示为 I{I₁,I₂,I₃,I₄,I₅}。

2.初始多层次特征输入深层稠密特征探索模块通过利用平行集成卷积块和稠密连接充分提取及和利用多尺度上下文信息，然后集成上下文信息优化多层次特征提升特征的多样性和相关性；

2.1)首先，我们设计了的四个平行集成卷积块利用填充率互补的空洞卷积操作提取丰富的多尺度特征信息。注意四个平行集成卷积块中都包含了两个填充率d(i.e.,2,4,6,8)和d/2(i.e.,1,2,3,4)的空洞卷积操作。我们在平行集成卷积块的内部增加了一个卷积核为 k_i(i.e.,1,3,5,7)的不对称卷积操作增强所提取特征之间的相关性，通过线性聚合卷积和空洞卷积后的多尺度特征具有更多的上下文信息。同时，我们引入稠密连接充分利用不同层次平行集成卷积块中提取的不同尺度的特征信息，最终生成具有更多显著性信息的特征M_i。注意平行集成卷积块的内部每个卷积和空洞卷积操作后都跟着一个批量标准化(BN)和ReLU非线性激活操作。数学上，M_i的计算公式为：

这里D_d和D_d/2表示填充率分别为d和d/2的空洞卷积操作，A_k表示卷积核为k∈{1，3，5，7}的卷积操作,∑表示像素级加性融合操作,δ表示M_i-1，M_i-2，M_i-3。注意当i＝1是空洞卷积的填充率为2和1,卷积操作的卷积核大小k＝1，随着平行集成卷积块的加深，填充率和卷积核依次递增。

2.2)然后四个平行集成卷积块提取的多尺度上下文特征Mi和残差特征R进行特征聚合,并通过一个卷积核为1×1的卷积操作进行特征降维，最后得到具有更多上下文信息的特征Q_i。得到Q_i的公式如下：

Q_i＝w(Cat(I，M₁，...，M_i))， (2)

这里w表示卷积核大小为1×1的降维操作，Cat表示特征拼接操作。通过利用多尺度上下文信息M_i和初始特征I,特征Qi通过DDFE模块被增加更多的显著性信息，相比于初始特征I具有更强的鲁棒性和泛化能力。

3.优化后的多层次特征通过多尺度通道注意力增强模块集成多视角注意力特征强化通道中的显著性目标信息和压缩背景信息生成高质量特征表示；

3.1)多尺度注意力特征强化模块包含三个分支每个分支用于聚焦不同尺度特征通道中的前景信息，减少噪音或冗余特征的干扰，通过集成不同尺度的注意力特征和残差特征生成包含更多显著性信息的特征Y用于预测显著性目标。具体的说，每个分支包含一个卷积操作，两个池化操作，两个全连接操作，一个ReLU激活操作和一个 Sigmoid激活操作。注意三个分支的卷积操作卷积核大小依次是 {1,3,5}用于生成多尺度特征，另外，考虑到最大池化和平均池化进行池化操作时保留的信息是不同的，为此我们采用混合池化的方法融合两种池化操作后的特征信息。通过三个分支的操作后，我们可以得到A₁,A₃,A₅三个不同尺度的注意力特征：

这里C₁,C₃,C₅表示卷积核大小依次是{1,3,5}的卷积操作，AP,MP表示平均池化操作和最大池化操作，ρ表示一系列的全连接操作,ReLU和 Sigmoid激活操作。

3.2)通过聚合多个不同尺度的注意力特征和残差特征生成集聚更多显著性信息的特征Y{Y₁,Y₂,Y₃,Y₄,Y₅}用于准确地预测和完整地分割显著性目标。Y的数学公式如下：

Y＝Cat(Q，C₃(A₁，A₃，A₅，Q)), (4)

这里，C₃表示卷积核为3×3的卷积操作，Q表示残差特征，Cat特征拼接操作。通过强化不同尺度特征通道中的前景信息，减少复杂背景信息的干扰，生成的特征Y相较于主干网络中提取初始特征I具有更多的显著性信息。

4.将生成的高质量特征表示进行降维并使用激活函数激活高质量特征产生最原始的显著性图，使用一种混合损失函数对模型进行监督训练。

4.1)为了使生成的显著性图可以更加接近于真值标签，这里我们采用混合损失函数对模型进行监督训练。这里混合函数由IoU损失函数和交叉熵损失函数组成。其公式定义如下：

φ＝φ_bce+φ_iou (5)

这里φ_bce和φ_iou分别是交叉熵损失函数和iou损失函数。

交叉熵损失函数广泛应用于二值分类和分割，它可以精确地计算每个像素的损失。其数学公式定义为：

这里q(x,y)∈[0,1]是像素(x,y)的真值标签。p(x,y)∈[0,1]像素 (x,y)是被预测成显著性目标的概率。然而交叉熵损失函数仅仅关注每个独立像素的损失总是忽略图像中部分全局结构的损失，不利于监督生成性能更好的显著性图。为此，我们引入IOU损失函数集中于更完整地整体显著性目标信息，它的数学公式是：

这里q(x,y)∈[0,1]是像素(x,y)的真值标签。p(x,y)∈[0,1]像素 (x,y)被预测成显著性目标的概率。

本发明的优势：本发明基于特征重构的显著性目标检测算法高效初始多层次特征，通过使用残差特征重构模块和残差短连接操作高效捕获多层次特征中的局部和全局上下文信息，通过聚合上下文信息提升多层次特征性能充分利用了从预训练好的ResNet50网络中提取的多层次特征性能，然后通过残差短连接操作交互多层次特征中的多种信息，进一步突出特征中的显著性目标及其边缘结构信息。

附图说明

图1聚合密集和注意力多尺度特征的显著性目标检测流程图

图2深层密集特征探索模块

图3多尺度通道注意力强化模块

图4算法定量比较表

图5算法定性比较图

具体实施方式

下面将结合本聚合密集和注意力多尺度特征的显著性目标检测算法发明实例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，此外，所叙述的实施例仅仅是本发明一部分实施例，而不是所有的实施例。基于本发明中的实施例，本研究方向普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护范围。

本发明的流程图框架如图1所示，本发明聚合密集和注意力多尺度特征的显著性目标检测算法，其具体操作说明如下：

1.此显著性目标检测算法利用预训练好的ResNet-50网络作为编码器从输入图像中编码初始多层次特征。

近十年来，诸多的显著性目标检测算法被提出，同时基于深度学习的显著性目标检测算法也得到了很大的发展，这里我们充分收集了众多的显著性目标检测数据集用于训练和测试。此外，为了为了进一步增强算法的泛化能力和鲁棒性，在算法模型训练的过程中我们采用了图像增强操作，例如水平反转、随机剪裁等操作。此算法利用从ImageNet中预训练好的ResNet50网络作为编码器，从训练数据中提出初始多层次特征。

具体步骤如下：

1.1开始，我们通过开源数据库收集到了显著性目标检测方向的多种数据集，涉及ECSSD数据集，HKU-IS数据集，PASCAL-S数据集，DUT-OMRON数据集，DUTS数据集，DUTS-TE数据集。

1.2此专利聚合密集和注意力多尺度特征的显著性目标检测算法，在此算法中我们利用拥有10553张图像的大型数据集，即DUTS 数据集训练我们的算法，训练完成之后，我们使用ECSSD数据集， PASCAL-S数据集，HKU-IS数据集，DUT-OMRON数据集和 DUTS-TE数据集作为测试数据集来验证我们所提出算法的高效性。

1.3收集整理完成之后，我们将预训练好的ResNet50网络作为编码器，这里为了提升算法的计算效率，我们将ResNet50网络的最后一层池化层和全连接层移除，对输入RGB图像进行提取初始多层次特征，然后利用一个卷积操作降维初始多层次特征生成特征表示为I{I₁,I₂,I₃,I₄,I₅}。

2.初始多层次特征输入深层稠密特征探索模块通过利用平行集成卷积块和稠密连接充分提取及和利用多尺度上下文信息，然后集成上下文信息优化多层次特征提升特征的多样性和相关性，如图2所示；

深层稠密特征探索(DDFE)模块利用平行集成卷积块(包含感受野不同的卷积操作和空洞卷积操作)充分地提取多尺度上下文信息，考虑到多尺度上下文信息利用的有效性和效率我们引入了稠密连接，通过这样做，可以集成局部特征和全局特征让输出的特征具有更多的显著性。

具体步骤如下：

2.1首先，我们设计了的四个平行集成卷积块利用填充率互补的空洞卷积操作提取丰富的多尺度特征信息。注意四个平行集成卷积块中都包含了两个填充率d(i.e.,2,4,6,8)和d/2(i.e.,1,2,3,4)的空洞卷积操作。我们在平行集成卷积块的内部增加了一个卷积核为 k_i(i.e.,1,3,5,7)的不对称卷积操作增强所提取特征之间的相关性，通过线性聚合卷积和空洞卷积后的多尺度特征具有更多的上下文信息。同时，我们引入稠密连接充分利用不同层次平行集成卷积块中提取的不同尺度的特征信息，最终生成具有更多显著性信息的特征M_i。注意平行集成卷积块的内部每个卷积和空洞卷积操作后都跟着一个批量标准化(BN)和ReLU非线性激活操作。数学上，M_i的计算公式为：

2.2然后四个平行集成卷积块提取的多尺度上下文特征Mi和残差特征R进行特征聚合,并通过一个卷积核为1×1的卷积操作进行特征降维，最后得到具有更多上下文信息的特征Q_i。得到Q_i的公式如下：

Q_i＝w(Cat(I，M₁，...，M_i))，（2）

3.优化后的多层次特征通过多尺度通道注意力增强模块集成多视角注意力特征强化通道中的显著性目标信息和压缩背景信息生成高质量特征表示，如图3所示。

研究发现并不是通道中的所有特征都有助于预测显著性目标，相反，一些冗余或噪音特征会对预测造成干扰。多尺度通道注意力增强 (MCAE)模块的提出是为了强化不同尺度特征通道中的前景信息，减少复杂背景信息对准确预测的干扰。

具体步骤如下：

3.1多尺度注意力特征强化模块包含三个分支每个分支用于聚焦不同尺度特征通道中的前景信息，减少噪音或冗余特征的干扰，通过集成不同尺度的注意力特征和残差特征生成包含更多显著性信息的特征Y用于预测显著性目标。具体的说，每个分支包含一个卷积操作，两个池化操作，两个全连接操作，一个ReLU激活操作和一个Sigmoid 激活操作。注意三个分支的卷积操作卷积核大小依次是{1,3,5}用于生成多尺度特征，另外，考虑到最大池化和平均池化进行池化操作时保留的信息是不同的，为此我们采用混合池化的方法融合两种池化操作后的特征信息。通过三个分支的操作后，我们可以得到A₁,A₃,A₅三个不同尺度的注意力特征：

3.2通过聚合多个不同尺度的注意力特征和残差特征生成集聚更多显著性信息的特征Y{Y₁,Y₂,Y₃,Y₄,Y₅}用于准确地预测和完整地分割显著性目标。Y的数学公式如下：

Y＝Cat(Q，C₃(A₁，A₃，A₅，Q)), (4)

具体步骤如下：

4.1为了使生成的显著性图可以更加接近于真值标签，这里我们采用混合损失函数对模型进行监督训练。这里混合函数由IoU损失函数和交叉熵损失函数组成。其公式定义如下：

φ＝φ_bce+φ_iou (5)

这里φ_bce和φ_iou分别是交叉熵损失函数和iou损失函数。

5.为了充分展示我们模型的高效性和泛化能力我们将我们提出的集成多源特征网络的显著性目标检测算法与当下存在的一些算法进行定性和定量比较，如图4和5所示。

以上所述为本申请优选实施而以，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包括在本申请的保护范围内。

Claims

1.聚合密集和注意力多尺度特征的显著性目标检测算法，其特征在于，该算法运行包含以下步骤：

1)此显著性目标检测算法利用预训练好的ResNet-50网络作为编码器从输入图像中编码初始多层次特征；

2)初始多层次特征输入深层稠密特征探索模块通过利用平行集成卷积块和稠密连接充分提取多尺度上下文信息，然后集成上下文信息优化多层次特征提升特征的多样性和相关性；

3)优化后的多层次特征通过多尺度通道注意力增强模块集成多视角注意力特征强化通道中的显著性目标信息和压缩背景信息生成高质量特征表示；

4)将生成的高质量特征表示进行降维并使用激活函数激活高质量特征产生最原始的显著性图，使用一种混合损失函数对模型进行监督训练。

2.根据权利要求1所述的聚合密集和注意力多尺度特征的显著性目标检测算法其特征在于：所述步骤1)具体方法是：

2.1)开始，我们通过开源数据库收集到了显著性目标检测方向的多种数据集，涉及ECSSD数据集，HKU-IS数据集，PASCAL-S数据集，DUT-OMRON数据集，DUTS数据集，DUTS-TE数据集。

2.2)此专利聚合密集和注意力多尺度特征的显著性目标检测算法，在此算法中我们利用拥有10553张图像的大型数据集，即DUTS数据集训练我们的算法，训练完成之后，我们使用ECSSD数据集，PASCAL-S数据集，HKU-IS数据集，DUT-OMRON数据集和DUTS-TE数据集作为测试数据集来验证我们所提出算法的高效性。

2.3)收集整理完成之后，我们将预训练好的ResNet50网络作为编码器，这里为了提升算法的计算效率，我们将ResNet50网络的最后一层池化层和全连接层移除，对输入RGB图像进行提取初始多层次特征，然后利用一个卷积操作降维初始多层次特征生成特征表示为I{I₁,I₂,I₃,I₄,I₅}。

3.根据权利要求1所述的聚合密集和注意力多尺度特征的显著性目标检测算法其特征在于：所述步骤2)具体方法是：

3.1)首先，我们设计了的四个平行集成卷积块利用填充率互补的空洞卷积操作提取丰富的多尺度特征信息。注意四个平行集成卷积块中都包含了两个填充率d(i.e.,2,4,6,8)和d/2(i.e.,1,2,3,4)的空洞卷积操作。我们在平行集成卷积块的内部增加了一个卷积核为k_i(i.e.,1,3,5,7)的不对称卷积操作增强所提取特征之间的相关性，通过线性聚合卷积和空洞卷积后的多尺度特征具有更多的上下文信息。同时，我们引入稠密连接充分利用不同层次平行集成卷积块中提取的不同尺度的特征信息，最终生成具有更多显著性信息的特征M_i。注意平行集成卷积块的内部每个卷积和空洞卷积操作后都跟着一个批量标准化(BN)和ReLU非线性激活操作。数学上，M_i的计算公式为：

3.2)然后四个平行集成卷积块提取的多尺度上下文特征Mi和残差特征R进行特征聚合,并通过一个卷积核为1×1的卷积操作进行特征降维，最后得到具有更多上下文信息的特征Q_i。得到Q_i的公式如下：

Q_i＝w(Cat(I,M₁,...,M_i)), (2)

4.根据权利要求1所述的聚合密集和注意力多尺度特征的显著性目标检测算法，其特征在于：所述步骤3)具体方法是：

4.1)多尺度注意力特征强化模块包含三个分支每个分支用于聚焦不同尺度特征通道中的前景信息，减少噪音或冗余特征的干扰，通过集成不同尺度的注意力特征和残差特征生成包含更多显著性信息的特征Y用于预测显著性目标。具体的说，每个分支包含一个卷积操作，两个池化操作，两个全连接操作，一个ReLU激活操作和一个Sigmoid激活操作。注意三个分支的卷积操作卷积核大小依次是{1,3,5}用于生成多尺度特征，另外，考虑到最大池化和平均池化进行池化操作时保留的信息是不同的，为此我们采用混合池化的方法融合两种池化操作后的特征信息。通过三个分支的操作后，我们可以得到A₁,A₃,A₅三个不同尺度的注意力特征：

这里C₁,C₃,C₅表示卷积核大小依次是{1,3,5}的卷积操作，AP,MP表示平均池化操作和最大池化操作，ρ表示一系列的全连接操作,ReLU和Sigmoid激活操作。

4.2)通过聚合多个不同尺度的注意力特征和残差特征生成集聚更多显著性信息的特征Y{Y₁,Y₂,Y₃,Y₄,Y₅}用于准确地预测和完整地分割显著性目标。Y的数学公式如下：

Y＝Cat(Q，C₃(A₁,A₃，A₅,Q)), (4)

5.根据权利要求1所述的聚合密集和注意力多尺度特征的显著性目标检测算法，其特征在于：所述步骤4)具体方法是：

为了使生成的显著性图可以更加接近于真值标签，这里我们采用混合损失函数对模型进行监督训练。这里混合函数由IoU损失函数和交叉熵损失函数组成。其公式定义如下：

φ＝φ_bce+φ_iou (5)

这里φ_bce和φ_iou分别是交叉熵损失函数和iou损失函数。

这里q(x,y)∈[0,1]是像素(x,y)的真值标签。p(x,y)∈[0,1]像素(x,y)是被预测成显著性目标的概率。然而交叉熵损失函数仅仅关注每个独立像素的损失总是忽略图像中部分全局结构的损失，不利于监督生成性能更好的显著性图。为此，我们引入IOU损失函数集中于更完整地整体显著性目标信息，它的数学公式是：

这里q(x,y)∈[0,1]是像素(x,y)的真值标签。p(x,y)∈[0,1]像素(x,y)被预测成显著性目标的概率。