CN114998615A

CN114998615A - 一种基于深度学习的协同显著性检测方法

Info

Publication number: CN114998615A
Application number: CN202210469320.6A
Authority: CN
Inventors: 朱锦春; 闫胜业
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2022-04-28
Filing date: 2022-04-28
Publication date: 2022-09-02

Abstract

本发明公开了一种基于深度学习的协同显著性检测方法，属于计算机视觉领域。该方法包括如下步骤：1、给定一组相关的图像；2、使用特征提取网络提取一组图像的目标特征；3、通过分组注意力模块改善目标特征；4、通过共识模块产生一组图像的共同显著性目标特征共识；5、通过自上而下解码器生成协同显著性图。通过本发明提供的方法能够有效地从一组图像中提取协同显著性图，并且显著性目标轮廓清晰，背景噪点少。

Description

一种基于深度学习的协同显著性检测方法

技术领域

本发明涉及一种基于深度学习的协同显著性检测方法，属于计算机视觉技术领域。

背景技术

大数据时代和互联网的普遍使用导致了信息媒体的爆炸式增长，并挑战我们在面对特定任务时处理大量而不是单一的图像。协同显著性检测就是这样一项任务，它模拟人类的视觉注意机制，旨在给定一组相关图像的情况下，检测出具有相同属性的共同显著目标。它源于以单幅图像中突出的显著目标为目标的显著性检测。近年来，协同显著性检测作为计算机视觉领域中一个新兴的、快速发展的研究领域，广泛应用于各种计算机视觉任务的预处理步骤中，例如图像检索，图像质量评估，图像监控，视频分析等。与显著性目标检测只关注单个图像中的吸引区域不同，协同显著性检测还需要利用图像组中对象共享的相似属性来区分存在噪声对象时的真实公共对象。

传统方法通过使用约束或启发式特征如流形排序和聚类，探索一组相关图像之间的图像间相关性。Li等人提出了基于流形排序的两阶段检测框架，首先通过显著图确定其标签，再通过流形排序得到协同显著性图。Fu等人提出一种基于聚类的方法，融合了对比度线索、空间位置线索、图像间的分布一致性线索来构造协同显著性图。最近，基于深度学习的模型通过不同的方法以有监督的方式同时探索图像内和图像间的一致性，例如Wei等人的端到端深度学习方案和Han等人的度量学习方案。

发明内容

本发明的目的在于提供一种基于深度学习的协同显著性检测方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于深度学习的协同显著性检测方法，包括以下步骤：

步骤一：给定一个包含N个图像的图像组

其中N个图像整体特征相似；

步骤二：通过预训练的特征提取网络提取图像组

的目标特征，得到一组图像的特征图F∈R^N×C×H×W；

步骤三：将一组图像的特征图F∈R^N×C×H×W输入进分组注意力模块中，得到改善后的特征图f∈R^N×C×H×W；

步骤四：将特征图f∈R^N×C×H×W输入进共识模块，得到一组图像的共同显著性目标特征共识E∈R^1×C×1×1；

步骤五：基于特征图f和共识E得到共同显著性目标特征图，将其与特征提取网络中不同尺度的特征图进行自上而下的迭代，得到协同显著性图。

优选的，在步骤三中，包括以下步骤：

将一组图像的特征图F∈R^N×C×H×W依次划分为4个互斥组[F'₁,F'₂,F'₃,F'₄]，我们定义

为其中一个互斥小组特征，按照如下步骤进行注意力特征改善：

A_n＝softmax(PW¹(maxpool^3×3，1(DW^1×1(F’_n)))) (1)

f＝concat([f₁,f₂,f₃,f₄]) (3)

在公式(1)中，maxpool^3×3，1是3×3的最大池化核并且padding＝1，DW^1×1是1×1的DW卷积，PW¹是只有一个滤波器的1×1卷积，采用softmax函数规范化，A_n是一个从一组中间特征映射F_n推断出来的注意力映射；

每一组注意力映射经过公式(2)中的特征分布后得到细化的特征映射集f_n，其中

元素乘法，是

元素加法；

分组注意力模块的输出f是通过公式(3)连接每一组的特征映射集得到的。

优选的，在步骤三中，包括以下步骤：

首先，对输入的特征图f∈R^N×C×H×W采用内积进行逐像素的内积，得到亲和图S_f∈R^NHW×NHW，如公式(4)所示：

S＝θ(f)^Tφ(f) (4)

其中，θ和φ为线性嵌入函数；

然后，计算亲和图S_f中每个图像的最大值得M_f∈R^NHW×N，并且平均N个图像的最大值生成全局注意力亲和图A_f∈R^NHW×1；

使用一个softmax函数来规范A_f并且改变其形式，生成注意力图A_s∈R^N×(1×H×W)；

再将注意力图A_s与原始特征图f相乘得到注意力特征图f^a∈R^N×C×H×W；

最后通过对注意力特征图f^a∈R^N×C×H×W沿批次维度和空间维度的平均池化生成图像组的共识E∈R^1×C×1×1。

优选的，在步骤五中，包括以下步骤：

将图像组的特征图f∈R^N×C×H×W与其共识E∈R^1×C×1×1相乘得到图像组的共同显著性目标特征图

再用2个卷积层将其通道数将为64得

步骤(2)中采用在ImageNet预训练的VGG-16对输入的图像组进行特征提取，其分支VGG-16_1，VGG-16_2，VGG-16_3，VGG-16_4提取的特征为F_n,n∈(1,2,3,4)；

然后依次按照如下步骤进行自上而下解码：

其中，(·)↑为上采样，将

上采样至F_n大小；

L(·)为2个卷积层，将F_n通道数降为64。

为元素加法；

E(·)是两个64核卷积层；

D(·)用于深度监督，通过两个卷积层和一个sigmoid层输出预测；

最终S₁为图像组的协同显著性图。

在训练过程中损失函数如下：

其中S_n是显著图预测，G_n是ground truth。

本发明的技术效果和优点：通过本发明提供的方法能够有效地从一组图像中提取协同显著性图，并且显著性目标轮廓清晰，背景噪点少。

具体实施方式

下面将结合本发明实施例中，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出了一种基于深度学习的协同显著性检测方法，旨在实现检测出的显著性目标轮廓清晰，背景噪点少。

为实现上述技术目的，本发明的技术方案为：

步骤1：给定一个包含N个图像的图像组

其中N个图像整体特征相似；

步骤2：采用在ImageNet预训练的VGG-16特征提取网络对输入的图像组进行特征提取，得到一组图像的特征图F∈R^N×C×H×W。

步骤3：将一组图像的特征图F∈R^N×C×H×W依次划分为4个互斥组[F'₁,F'₂,F'₃,F'₄]，我们定义

A_n＝softmax(PW¹(maxpool^3×3，1(DW^1×1(F’_n)))) (1)

f＝concat([f₁,f₂,f₃,f₄]) (3)

在公式(1)中，maxpool^3×3，1是3×3的最大池化核并且padding＝1，DW^1×1是1×1的DW卷积，PW¹是只有一个滤波器的1×1卷积，并且采用softmax函数规范化，A_n是一个从一组中间特征映射F_n推断出来的注意力映射。每一组注意力映射经过公式(2)中的特征分布后得到细化的特征映射集f_n，其中

元素乘法，是

元素加法。分组注意力模块的输出f∈R^N ^×C×H×W是通过公式(3)连接每一组的特征映射集得到的。

步骤4：首先，对输入的特征图f∈R^N×C×H×W采用内积进行逐像素的内积，得到亲和图S_f∈R^NHW×NHW，如公式(4)所示：

S＝θ(f)^Tφ(f) (4)

其中，θ和φ为线性嵌入函数。

然后，计算亲和图S_f中每个图像的最大值得M_f∈R^NHW×N，并且平均N个图像的最大值生成全局注意力亲和图A_f∈R^NHW×1。其次，使用一个softmax函数来规范A_f并且改变其形式，生成注意力图A_s∈R^N×(1×H×W)。再将注意力图A_s与原始特征图f相乘得到注意力特征图f^a∈R^N ^×C×H×W。最后通过对注意力特征图f^a∈R^N×C×H×W沿批次维度和空间维度的平均池化生成图像组的共识E∈R^1×C×1×1。

步骤5：将图像组的特征图f∈R^N×C×H×W与其共识E∈R^1×C×1×1相乘得到图像组的共同显著性目标特征图

再用2个卷积层将其通道数将为64得

步骤(2)中采用在ImageNet预训练的VGG-16对输入的图像组进行特征提取，其分支VGG-16_1，VGG-16_2，VGG-16_3，VGG-16_4提取的特征为F_n,n∈(1,2,3,4)。然后依次按照如下步骤进行自上而下解码：

其中，(·)↑为上采样，将

上采样至F_n大小。L(·)为2个卷积层，将F_n通道数降为64。

为元素加法。E(·)是两个64核卷积层。D(·)用于深度监督，通过两个卷积层和一个sigmoid层输出预测。最终S₁为图像组的协同显著性图。

在训练过程中损失函数如下：

其中S_n是显著图预测，G_n是ground truth。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。