CN113298748B

CN113298748B - 一种基于注意力机制的图像协同显著目标检测模型

Info

Publication number: CN113298748B
Application number: CN202010109240.0A
Authority: CN
Inventors: 刘政怡; 章伟; 汪远
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2020-02-21
Filing date: 2020-02-21
Publication date: 2022-11-18
Anticipated expiration: 2040-02-21
Also published as: CN113298748A

Abstract

本发明提供一种基于注意力机制的图像协同显著目标检测模型，其特征在于，首先，提取单幅图像特征；其次，利用单幅图像通道注意力和多幅图像通道协同注意力提取每幅图像的通道特征；再次，利用单幅图像空间注意力和多幅图像空间协同注意力提取每幅图像的空间特征；接着，经过解码器生成协同显著图；最后，所述模型在显著真值图的监督下进行学习训练。所述模型通过通道协同注意力，激活组内图像共同的类别信息，通过空间协同注意力，激活组内图像相似目标的位置。所述模型利用注意力机制挖掘组内图像的协同关系，提高图像协同显著目标检测的效果。

Description

一种基于注意力机制的图像协同显著目标检测模型

技术领域

本发明涉及计算机视觉领域，特别是涉及一种基于注意力机制的图像协同显著目标检测模型。

背景技术

在一组图像中找出共同显著的目标，称之为图像协同显著目标检测。传统的方法主要利用手绘特征，如颜色、对比度和上下文特征等，如2013年Fu等《Cluster-based co-saliency detection》利用聚类方法将重复属性作为附加约束来发现一组图像中的共同显著对象。现有基于深度学习的图像协同显著目标检测方法主要利用卷积神经网络来挖掘协同关系，如2017年Wei等《Group-wise deep co-saliency detection》设计了一个全卷积神经网络来进行图像协同显著目标检测，将组内所有图像特征级联的结果作为协同特征，加入每幅图像的特征中，计算协同显著图。再如2019年Ren等《Co-saliency detection viaintegration of multi-layer convolutional features and inter-imagepropagation》，同样是将组内所有图像的级联特征作为协同属性来学习协同关系，并进一步挖掘了不同尺度下的图像内显著性和图像间显著性的融合及扩散方法。

上述方法中，手绘低级特征依赖于先验知识，它的准确性往往取决于主观判断，所以在面对复杂场景时，很难取得非常好的检测结果，如2013年Fu等的方法；而深度学习的方法利用简单的级联操作实现协同特征提取，不能充分挖掘图像之间的关系和相似特征，如2017年Wei等和2019年Ren等的方法。

因此，亟需设计一种图像协同显著目标检测模型来解决上述问题。

发明内容

本发明所需要解决的技术问题是提供一种基于注意力机制的图像协同显著目标检测模型。注意力机制已经广泛用于单幅图像的显著目标检测中，它可以给图像特征的不同通道或空间位置上赋予不同的权重，以表达图像特征对于图像显著性结果的贡献程度。注意力特征能够更好地表达单幅图像特征，同样可以表达多幅图像的协同特征。本发明引入注意力机制，利用通道协同注意力和空间协同注意力提取一组图像之间的相似特征并挖掘图像之间的协同关系，以提高图像协同显著目标检测的效果。

本发明提供一种基于注意力机制的图像协同显著目标检测模型，其特征在于，该模型包括以下步骤：

S1、提取单幅图像特征；

S2、利用单幅图像通道注意力和多幅图像通道协同注意力提取每幅图像的通道特征；

S3、利用单幅图像空间注意力和多幅图像空间协同注意力提取每幅图像的空间特征；

S4、经过解码器生成协同显著图；

S5、所述模型在显著真值图的监督下进行学习训练。

进一步的，在步骤S1中，提取单幅图像特征具体方法如下：

一组N幅图像

输入共享权重的N个ResNet50网络，提取所述N幅图像的特征

所述ResNet50网络包括一个卷积块Conv_1和4个残差卷积块Res_i(i＝2，3，4，5)，在ImageNet数据集上预训练。

进一步的，在步骤S2中，利用单幅图像通道注意力和多幅图像通道协同注意力提取每幅图像的通道特征的具体方法如下：

S2.1：计算单幅图像通道注意力权重CA_i

对于所述S1步骤得到的单幅图像特征F_i，首先进行基于空间的全局平均池化操作，然后经过一个多层感知器和sigmoid函数层，得到单幅图像通道注意力权重CA_i。

CA_i＝Sig(MLP(GAP(F_i)))

其中GAP()表示全局平均池化，MLP()表示多层全连接神经网络，Sig()表示sigmoid函数。

S2.2：计算单幅图像通道注意力特征FC_i

所述S1步骤得到的单幅图像特征F_i与所述单幅图像通道注意力权重CA_i相乘，得到单幅图像通道注意力特征FC_i。

FC_i＝F_i*CA_i

S2.3：计算多幅图像通道协同注意力权重CCW

将一组内多幅图像的通道注意力权重CA_i相加，得到多幅图像通道协同注意力权重。

S2.4：计算单幅图像的通道协同注意力特征CC_i

所述S1步骤得到的单幅图像特征F_i与所述多幅图像通道协同注意力权重CCW相乘，得到单幅图像通道协同注意力特征CC_i。

CC_i＝F_i*CCW

S2.5：计算单幅图像的通道特征C_i

将所述单幅图像的通道注意力特征FC_i与所述单幅图像的通道协同注意力特征CC_i特征级联，得到单幅图像的通道特征。

C_i＝Cat(FC_i,CC_i)

其中Cat()表示特征级联操作。

进一步的，在步骤S3中，利用单幅图像空间注意力和多幅图像空间协同注意力提取每幅图像的空间特征的具体方法如下：

S3.1：计算单幅图像空间注意力权重SA_i

对于所述S2步骤得到的单幅图像通道特征C_i，首先进行基于通道方向的全局平均和最大池化，然后将这两个结果级联，再经过一个7*7的卷积操作和sigmoid函数层，得到单幅图像空间注意力权重SA_i。

SA_i＝Sig(Conv_7*7(Cat(GAP(C_i),GMP(C_i))))

其中GMP()表示全局最大池化，Conv_7*7()表示卷积核为7*7的卷积操作。

S3.2：计算单幅图像空间注意力特征FS_i

所述S2步骤得到的单幅图像通道特征C_i与所述单幅图像空间注意力权重SA_i相乘，得到单幅图像空间注意力特征FS_i。

FS_i＝C_i*SA_i

S3.3：计算多幅图像空间协同注意力权重CSW_i

所述S2步骤得到的单幅图像通道特征C_i，与组内其他图像通道特征C_j(j≠i)进行归一化相关系数NC计算，再经过1*1的卷积和sigmoid函数层，得到相似度特征图。所有相似度特征图相加得到空间协同注意力权重CSW_i。

其中，Conv_1*1()表示卷积核为1*1的卷积操作，NC()表示归一化相关系数和，它是图像匹配中的经典算法，用来计算任意两个通道特征C_i和C_j的相似性，定义为：

其中，

和

分别表示C_i和C_j平均值，

和

分别表示C_i和C_j标准差，D表示C_i和C_j通道数。

S3.4：计算单幅图像的空间协同注意力特征CS_i

所述S2步骤得到的单幅图像通道特征C_i与所述空间协同注意力权重CSW_i相乘得到空间协同注意力特征CS_i。

CS_i＝C_i*CSW_i

S3.5：计算单幅图像的空间特征S_i

将所述单幅图像空间注意力特征FS_i与所述单幅图像的空间协同注意力特征CS_i特征级联，得到单幅图像的空间特征。

S_i＝Cat(FS_i,CS_i)

进一步的，在步骤S4中，经过解码器生成协同显著图的具体方法如下：

所述步骤S3输出的空间特征S_i，经过解码器得到协同显著图M_i。所述解码器采用图像显著性检测模型中常用的FPN(feature pyramid networks)结构，即在最高层特征反卷积的过程中，逐步结合Res_5，Res_4，Res_3，Res_2和Conv_1侧边特征，最后的融合特征经过1*1卷积和sigmoid函数得到协同显著图。

进一步的，在步骤S5中，在显著真值图的监督下进行学习训练的具体方法如下：

整个模型在显著真值图的监督下进行训练，其损失函数定义为图像显著性检测中标准的交叉熵损失函数：

其中，Y_i和M_i分别表示第i幅图像的显著真值图和模型生成的显著图。

与已有技术相比，本发明有益效果体现在：

本发明提出一种基于注意力机制的图像协同显著目标检测模型，通过通道协同注意力，激活组内图像共同的类别信息，通过空间协同注意力，激活组内图像相似目标的位置。所述模型利用注意力机制挖掘组内图像的协同关系，提高图像协同显著目标检测的效果。

附图说明

图1为本发明一种基于注意力机制的图像协同显著目标检测模型图。

以下通过具体实施方式，并结合附图对本发明做进一步说明，但本发明的实施方式不限于此。

具体实施方式

本实施例提供一种基于注意力机制的图像协同显著目标检测模型，其特征在于，该模型包括以下步骤：

S1、提取单幅图像特征；

S4、经过解码器生成协同显著图；

S5、所述模型在显著真值图的监督下进行学习训练。

进一步的，在步骤S1中，提取单幅图像特征具体方法如下：

一组N幅图像

输入共享权重的N个ResNet50网络，提取所述N幅图像的特征

S2.1：计算单幅图像通道注意力权重CA_i

对于所述S1步骤得到的单幅图像特征F_i，首先进行基于空间的全局平均池化操作，然后经过一个简单的3层全连接神经网络和sigmoid函数层，得到单幅图像通道注意力权重CA_i。

CA_i＝Sig(MLP(GAP(F_i)))

S2.2：计算单幅图像通道注意力特征FC_i

FC_i＝F_i*CA_i

S2.3：计算多幅图像通道协同注意力权重CCW

S2.4：计算单幅图像的通道协同注意力特征CC_i

CC_i＝F_i*CCW

S2.5：计算单幅图像的通道特征C_i

C_i＝Cat(FC_i,CC_i)

其中Cat()表示特征级联操作。

S3.1：计算单幅图像空间注意力权重SA_i

SA_i＝Sig(Conv_7*7(Cat(GAP(C_i),GMP(C_i))))

S3.2：计算单幅图像空间注意力特征FS_i

FS_i＝C_i*SA_i

S3.3：计算多幅图像空间协同注意力权重CSW_i

其中，

和

分别表示C_i和C_j平均值，

和

分别表示C_i和C_j标准差，D表示C_i和C_j通道数。

S3.4：计算单幅图像的空间协同注意力特征CS_i

CS_i＝C_i*CSW_i

S3.5：计算单幅图像的空间特征S_i

S_i＝Cat(FS_i,CS_i)

本实施例一种基于注意力机制的图像协同显著目标检测模型，通过通道协同注意力，激活组内图像共同的类别信息，通过空间协同注意力，激活组内图像相似目标的位置。所述模型利用注意力机制挖掘组内图像的协同关系，提高图像协同显著目标检测的效果。

Claims

1.一种基于注意力机制的图像协同显著目标检测方法，其特征在于，该方法包括以下步骤：

S1、提取单幅图像特征，具体过程如下：

一组N幅图像

输入共享权重的N个ResNet50网络，提取所述N幅图像的特征

所述ResNet50网络包括一个卷积块Conv_1和4个残差卷积块Res_i，i＝2，3，4，5，在ImageNet数据集上预训练；

S2、利用单幅图像通道注意力和多幅图像通道协同注意力提取每幅图像的通道特征，具体过程如下：

S2.1：计算单幅图像通道注意力权重CA_i；

对于所述S1步骤得到的单幅图像特征F_i，首先进行基于空间的全局平均池化操作，然后经过一个多层感知器和sigmoid函数层，得到单幅图像通道注意力权重CA_i；

CA_i＝Sig(MLP(GAP(F_i)))

其中GAP()表示全局平均池化，MLP()表示多层全连接神经网络，Sig()表示sigmoid函数；

S2.2：计算单幅图像通道注意力特征FC_i；

所述S1步骤得到的单幅图像特征F_i与所述单幅图像通道注意力权重CA_i相乘，得到单幅图像通道注意力特征FC_i；

FC_i＝F_i*CA_i

S2.3：计算多幅图像通道协同注意力权重CCW；

将一组内多幅图像的通道注意力权重CA_i相加，得到多幅图像通道协同注意力权重；

S2.4：计算单幅图像的通道协同注意力特征CC_i；

所述S1步骤得到的单幅图像特征F_i与所述多幅图像通道协同注意力权重CCW相乘，得到单幅图像通道协同注意力特征CC_i；

CC_i＝F_i*CCW

S2.5：计算单幅图像的通道特征C_i；

将所述单幅图像的通道注意力特征FC_i与所述单幅图像的通道协同注意力特征CC_i特征级联，得到单幅图像的通道特征；

C_i＝Cat(FC_i,CC_i)

其中Cat()表示特征级联操作；

S3、利用单幅图像空间注意力和多幅图像空间协同注意力提取每幅图像的空间特征，具体过程如下：

S3.1：计算单幅图像空间注意力权重SA_i；

对于所述S2步骤得到的单幅图像通道特征C_i，首先进行基于通道方向的全局平均和最大池化，然后将这两个结果级联，再经过一个7*7的卷积操作和sigmoid函数层，得到单幅图像空间注意力权重SA_i；

SA_i＝Sig(Conv_7*7(Cat(GAP(C_i),GMP(C_i))))

其中GMP()表示全局最大池化，Conv_7*7()表示卷积核为7*7的卷积操作；

S3.2：计算单幅图像空间注意力特征FS_i；

所述S2步骤得到的单幅图像通道特征C_i与所述单幅图像空间注意力权重SA_i相乘，得到单幅图像空间注意力特征FS_i；

FS_i＝C_i*SA_i

S3.3：计算多幅图像空间协同注意力权重CSW_i；

所述S2步骤得到的单幅图像通道特征C_i，与组内其他图像通道特征C_j，j≠i，进行归一化相关系数计算，再经过1*1的卷积和sigmoid函数层，得到相似度特征图；所有相似度特征图相加得到空间协同注意力权重CSW_i；

其中，Conv_1*1()表示卷积核为1*1的卷积操作，NC()表示归一化相关系数，它是图像匹配中的经典算法，用来计算任意两个通道特征C_i和C_j的相似性，定义为：

其中，

和

分别表示C_i和C_j平均值，

和

分别表示C_i和C_j标准差，D表示C_i和C_j通道数；

S3.4：计算单幅图像的空间协同注意力特征CS_i；

所述S2步骤得到的单幅图像通道特征C_i与所述空间协同注意力权重CSW_i相乘得到空间协同注意力特征CS_i；

CS_i＝C_i*CSW_i

S3.5：计算单幅图像的空间特征S_i；

将所述单幅图像空间注意力特征FS_i与所述单幅图像的空间协同注意力特征CS_i特征级联，得到单幅图像的空间特征；

S_i＝Cat(FS_i,CS_i)

S4、经过解码器生成协同显著图，具体过程如下：

所述步骤S3输出的空间特征S_i，经过解码器得到协同显著图M_i；所述解码器采用图像显著性检测模型中常用的FPN(feature pyramid networks)结构，即在最高层特征反卷积的过程中，逐步结合Res_5，Res_4，Res_3，Res_2和Conv_1侧边特征，最后的融合特征经过1*1卷积和sigmoid函数得到协同显著图；

S5、整个神经网络模型在显著真值图的监督下进行学习训练，具体过程如下：