CN115019140B

CN115019140B - 一种注意力引导的伪装目标检测方法

Info

Publication number: CN115019140B
Application number: CN202210620670.8A
Authority: CN
Inventors: 张继勇; 姚嘉琦; 周晓飞; 李世锋; 周振; 何帆
Original assignee: China Power Data Service Co ltd; Hangzhou Dianzi University
Current assignee: China Power Data Service Co ltd; Hangzhou Dianzi University
Priority date: 2022-06-02
Filing date: 2022-06-02
Publication date: 2023-11-21
Anticipated expiration: 2042-06-02
Also published as: CN115019140A

Abstract

本发明公开一种注意力引导的伪装目标检测方法，包括如下步骤：S1、通过深度特征提取网络对初始伪装目标区域特征图进行特征提取；S2、将提取的特征进行搜索；S3、通过注意力机制增强进一步增强特征；S4、通过识别模块获得最终的伪装目标区域特征图；S5、最终的伪装目标区域特征图通过解码模块获取最终的伪装目标区域预测图。该方法将注意力机制引入到图像处理中，同时利用多种注意力机制相互配合，其中搜索注意力机制是以sigmoid函数激活后的初始伪装目标区域预测图作为引导，对经过空间注意力机制与通道注意力机制增强特征后的中层特征做进一步的增强，同时应用感受野模块对特征进行合并融合，能有效利用多种注意力机制的配合来实现对伪装目标的检测。

Description

一种注意力引导的伪装目标检测方法

技术领域

本发明涉及计算机视觉技术领域，具体指一种注意力引导的伪装目标检测方法。

背景技术

伪装目标检测具有很大的实用价值，比如在医疗卫生领域，可以用来检测肺部的病变与感染，可以帮医生快速的找出息肉等，大大减轻了医疗工作者的负担并提高了医院的整体工作效率。同时伪装目标检测在农业上的应用也很重要，一些农业领域的害虫，比如菜蛾，蚱蜢，红蜘蛛等进化出了天然保护色，难以被农业生产者发现。利用伪装目标检测技术可以在广阔的田野中及时的发现这些害虫，并通过提前防治等措施防止其疯狂繁衍超过二分之一K点。同时野外工作者以及野生动物保护者也可已利用伪装检测技术及时发现各种隐藏起来的野生动物，从而更好地开展户外工作以及动物保护工作。相同的，伪装目标检测技术也可以用来探查物体表面的缺陷，提高生产合格率与效率。可以看出，研究与发展伪装目标检测技术具有极为重要的意义。

然而，区别于显著物体检测和一般物体检测，伪装目标检测的前景和背景高度相似，所以检测难度相对来说更大。

另外，随着深度学习的快速发展，计算机视觉领域的图像处理与目标检测识别技术也随之迅速进步，这为伪装目标的检测提供了新的解决方案，越来越多的计算机视觉领域学者们开始关注伪装目标检测方法。但是，当前的伪装目标检测方法，面对复杂场景识别率低，同时模型的泛化性能很差。不足以满足实际需要。

发明内容

针对现有技术存在的不足，本发明提供了一种注意力引导的伪装目标检测方法，可以有效地利用多种注意力机制的配合来实现对伪装目标的检测。

为了解决上述技术问题，本发明的技术方案为：

一种注意力引导的伪装目标检测方法，包括如下步骤：

S1、通过深度特征提取网络对初始伪装目标区域特征图进行特征提取；

S2、将提取的特征进行搜索，并通过解码模块生成初始伪装目标区域预测图；

S3、通过注意力机制增强进一步增强特征；

S4、通过识别模块获得最终的伪装目标区域特征图；

S5、通过解码模块获取最终的伪装目标区域预测图。

作为优选，所述深度特征提取网络为ResNet-50网络。

作为优选，所述深度特征提取网络的方法为：提取{x0,x1,x2,x3,x4}五层特征，分别表示最低层特征、低层特征、中层特征、高层特征和最高层特征，其中{x0,x1}所表示的最低层特征和低层特征属于视觉层特征，所述视觉层特征包括轮廓、边缘、纹理和形状空间信息，{x2}所表示的中层特征属于对象层特征，包含了图像属性特征状态信息，{x3,x4}所表示的高层特征和最高层特征属于概念层特征，包含了图像表达出的最接近人类理解的东西，即语义信息。

作为优选，所述步骤S2的方法为：将提取的{x1,x2,x3,x4}四组特征分别通过模仿人类视觉系统的RF模块进行拼接融合，并整体输入进ReLU函数以获得特征rfk，再将特征rfk传递到解码模块，生成初始伪装目标区域预测图。

作为优选，所述步骤S3的方法为：首先将之前提取到的中层特征x2依次输入到通道注意力模块与空间注意力模块，再将其输出结果rfk2与sigmoid函数激活后的初始伪装目标区域预测图一起输入到搜索注意力模块中进一步增强特征。

作为优选，所述搜索注意力模块的特征增强方法为：将sigmoid函数激活后的初始伪装目标区域预测图作为注意力权重，与rfk2逐元素相乘，对rfk2 进一步增强特征，得到特征rfk3。

作为优选，所述步骤S3中，通过通道注意力模块聚合空间信息，其具体方法为：使用平均池化和最大池化操作，得到两个通道上下文描述符，代表平均池化和最大池化特征，然后将这两个通道描述符传递到共享网络中，以此产生通道注意力映射M_C∈R^C*1*1,包含隐藏层的多层感知机组成了共享网络，隐藏的激活大小设置为其中r是约简比率，共享网络应用到每个描述符后再进行逐元素求和，将输出特征向量合并。

作为优选，所述步骤S3中，通过空间注意力模块对通道注意力进行补充，其具体方法为：首先沿着通道轴应用最大池化和平均池化，再通过把它们连接合并，得到特征描述符,然后再在特征描述符上应用卷积层，生成空间注意力图 M_S∈R^H*W,用来表示在何处进行强调或抑制,具体操作是通过两个池化操作，聚合特征图的通道信息，生成跨通道的平均池化特征映射和跨通道的最大池化特征映射,再把上述映射连接起来并通过卷积操作，产生一个二维的空间注意力图。

作为优选，所述步骤S4中，识别模块的识别方法为：将rfk3通过1x1、3x3 卷积运算后，生成高层特征图x3′与x4′，同时通过感受野对{rfk3,x3′, x4′}三张特征图合并特征得到伪装目标区域特征图。

作为优选，所述步骤S2和步骤S5中的解码模块为同一解码模块，其解码方法为：将步骤S2和步骤S4得到的特征视为特征并逐元素相乘，缩小相邻特征差距，k∈[m,…,M]，当k＝M时，/>当k＜M时，其为：

其中UP(·)是以2^j-k为倍率的上采样函数，Bconv(·)是卷积与ReLU激活函数，k∈[m,…,M-1]。

本发明具有以下的特点和有益效果：

采用上述技术方案，本发明主要优势有两方面：注意力机制的引入和不同注意力机制的配合。本发明方法将注意力机制引入图像处理，综合应用了通道注意力机制与空间注意力机制，以及搜索注意力机制。其中搜索注意力机制是以sigmoid函数激活后的初始伪装目标区域预测图作为引导，对经过空间注意力机制与通道注意力机制增强特征后的中层特征做进一步的增强。同时应用感受野模块对特征进行合并融合。本发明提供的网络模型可以有效地利用多种注意力机制的配合来实现对伪装目标的检测。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的方法流程图。

图2为本发明实施例方法的框架图。

图3为本发明实施例的结果对比图(第一列为原图，第二列为真值图，第三列为本方法的结果图)。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以通过具体情况理解上述术语在本发明中的具体含义。

本发明提供了一种注意力引导的伪装目标检测方法，如图1和图2所示，包括如下步骤：

S1、通过深度特征提取网络对初始伪装目标区域特征图进行特征提取。

具体的，所述深度特征提取网络为ResNet-50网络。

需要说明的是，ResNet-50网络为常规的特征提取网络，因此本实施例中不进行具体的说明。

进一步的，所述深度特征提取网络的方法为：提取{x0,x1,x2,x3,x4}五层特征，分别表示最低层特征、低层特征、中层特征、高层特征和最高层特征，其中{x0,x1}所表示的最低层特征和低层特征属于视觉层特征，图像视觉层特征包括轮廓、边缘、纹理和形状等空间信息。{x2}所表示的中层特征属于对象层特征，包含了图像属性特征等状态信息。{x3,x4}所表示的高层特征和最高层特征属于概念层特征，包含了图像表达出的最接近人类理解的东西，即语义信息。

S2、将提取的特征进行搜索，并通过解码模块生成初始伪装目标区域预测图。

具体的，将提取的{x1,x2,x3,x4}四组特征分别通过模仿人类视觉系统的RF模块进行拼接融合，并整体输入进ReLU函数以获得特征rfk，再将特征 rfk传递到解码模块，生成初始伪装目标区域预测图。

需要说明的是，本实施例中所用的ReLU函数为常规技术手段，因此不对 ReLU函数展开进行具体的说明和描述。

S3、通过注意力机制增强进一步增强特征。

具体的，首先将之前提取到的中层特征x2依次输入到通道注意力模块与空间注意力模块，再将其输出结果与通过sigmoid函数激活后得到最终注意力图，所述最终注意力图与初始伪装目标区域特征图一起输入到搜索注意力模块中进一步增强特征。

进一步的，搜索注意力模块将sigmoid函数激活后的初始伪装目标区域预测图作为注意力权重，与rfk2逐元素相乘，对rfk2进一步增强特征，得到特征rfk3。

需要说明的是，本实施例中所提及的通过sigmoid函数激活属于本技术领域的常规手段，因此本实施例中不对其进行具体的展开和说明。

进一步的，通过通道注意力模块聚合空间信息，其具体方法为：使用平均池化和最大池化操作，得到两个通道上下文描述符，代表平均池化和最大池化特征，然后将这两个通道描述符传递到共享网络中，以此产生通道注意力映射 M_C∈R^C*1*1,包含隐藏层的多层感知机组成了共享网络，隐藏的激活大小设置为其中r是约简比率，共享网络应用到每个描述符后再进行逐元素求和，将输出特征向量合并。

进一步的，通过空间注意力模块对通道注意力进行补充，其具体方法为：首先沿着通道轴应用最大池化和平均池化，再通过把它们连接合并，得到特征描述符,然后再在特征描述符上应用卷积层，生成空间注意力图M_S∈R^H*W,用来表示在何处进行强调或抑制,具体操作是通过两个池化操作，聚合特征图的通道信息，生成跨通道的平均池化特征映射和跨通道的最大池化特征映射,再把上述映射连接起来并通过卷积操作，产生一个二维的空间注意力图。

S4、通过识别模块获得最终的伪装目标区域特征图。

具体的，识别模块的识别方法为：将rfk3通过1x1、3x3等卷积运算后，生成高层特征图x3′与x4′，同时通过感受野对{rfk3,x3′,x4′}三张特征图合并特征得到伪装目标区域特征图。

S5、最终的伪装目标区域特征图通过解码模块获取最终的伪装目标区域预测图。

可以理解的，步骤S2和步骤S5中的解码模块为同一解码模块。将所述步骤S2中通过搜到得到的特征rfk输入至解码模块中，生成伪装目标区域初始预测图，将所述步骤S4中通过识别模块得到的特征输入至解码模块中，生成最终的伪装目标区域预测图。

具体的，解码模块的解码方法为：将步骤S2和步骤S4得到的特征视为特征并逐元素相乘，缩小相邻特征差距，k∈[m,…,M]，当k＝M时，/>当k＜M时，其为：

需要补充的是，本实施例使用了NVIDIA深度学习加速库apex加速。批量大小为20，初始学习率为1e-4，每30个周期衰减一次，衰减率为0.1，输入图片尺寸统一设置为352*352。使用NVIDIA TITAN X显卡进行训练，CUDA版本为10.1。

其中，本实施例所采用的数据集是一个包含10000张图片的数据集 COD10K，包括5066张伪装物图片，3000张背景图片和1934张非伪装物图片, 覆盖了多种自然环境下的伪装物体。

通过图3的结果对比图可以看出，第一列为原图，第二列为真值图，第三列为本方法的结果图。

本实施例的所提供的技术方案，面对复杂场景，识别率低的状态，能够精确完成伪装目标检测。

以上结合附图对本发明的实施方式作了详细说明，但本发明不限于所描述的实施方式。对于本领域的技术人员而言，在不脱离本发明原理和精神的情况下，对这些实施方式包括部件进行多种变化、修改、替换和变型，仍落入本发明的保护范围内。

Claims

1.一种注意力引导的伪装目标检测方法，其特征在于，包括如下步骤：

S3、通过注意力机制增强增强特征；

首先将深度特征提取网络提取到的中层特征x2依次输入到通道注意力模块与空间注意力模块，再将其输出结果rfk2与sigmoid函数激活后的初始伪装目标区域预测图一起输入到搜索注意力模块中增强特征，

通过通道注意力模块聚合空间信息，其具体方法为：使用平均池化和最大池化操作，得到两个通道上下文描述符，代表平均池化和最大池化特征，然后将这两个通道描述符传递到共享网络中，以此产生通道注意力映射M_C∈R^C*1*1,包含隐藏层的多层感知机组成了共享网络，隐藏的激活大小设置为其中r是约简比率，共享网络应用到每个描述符后再进行逐元素求和，将输出特征向量合并；

通过空间注意力模块对通道注意力进行补充，其具体方法为：首先沿着通道轴应用最大池化和平均池化，再通过把它们连接合并，得到特征描述符,然后再在特征描述符上应用卷积层，生成空间注意力图M_S∈R^H*W,用来表示在何处进行强调或抑制,具体操作是通过两个池化操作，聚合特征图的通道信息，生成跨通道的平均池化特征映射和跨通道的最大池化特征映射,再把上述映射连接起来并通过卷积操作，产生一个二维的空间注意力图；

所述搜索注意力模块的特征增强方法为：将sigmoid函数激活后的初始伪装目标区域预测图作为注意力权重，与rfk2逐元素相乘，对rfk2增强特征，得到特征rfk3；

S4、通过识别模块获得最终的伪装目标区域特征图，识别模块的识别方法为：将rfk3通过1x1、3x3卷积运算后，生成高层特征图x3′与x4′，同时通过感受野对{rfk3,x3′,x4′}三张特征图合并特征得到伪装目标区域特征图；

S5、通过解码模块获取最终的伪装目标区域预测图，

其解码方法为：将步骤S2和步骤S4得到的特征视为特征并逐元素相乘，缩小相邻特征差距，k∈[m,…,M]，当k＝M时，/>当k＜M时，其为：

2.根据权利要求1所述的注意力引导的伪装目标检测方法，其特征在于，所述深度特征提取网络为ResNet-50网络。

3.根据权利要求1所述的注意力引导的伪装目标检测方法，其特征在于，所述深度特征提取网络的方法为：提取{x0,x1,x2,x3,x4}五层特征，分别表示最低层特征、低层特征、中层特征、高层特征和最高层特征，其中{x0,x1}所表示的最低层特征和低层特征属于视觉层特征，所述视觉层特征包括轮廓、边缘、纹理和形状空间信息，{x2}所表示的中层特征属于对象层特征，包含了图像属性特征状态信息，{x3,x4}所表示的高层特征和最高层特征属于概念层特征，包含了图像表达出的最接近人类理解的东西，即语义信息。

4.根据权利要求3所述的注意力引导的伪装目标检测方法，其特征在于，所述步骤S2的方法为：将提取的{x1,x2,x3,x4}四组特征分别通过模仿人类视觉系统的RF模块进行拼接融合，并整体输入进ReLU函数以获得特征rfk，再将特征rfk传递到解码模块，生成初始伪装目标区域预测图。