CN115272865A

CN115272865A - 一种基于自适应激活函数和注意力机制的目标检测方法

Info

Publication number: CN115272865A
Application number: CN202210984616.1A
Authority: CN
Inventors: 国强; 刘佳宁; 孙万林; 戚连刚; 王亚妮
Original assignee: Heilongjiang Zhigu Technology Co ltd
Current assignee: Heilongjiang Zhigu Technology Co ltd
Priority date: 2022-08-17
Filing date: 2022-08-17
Publication date: 2022-11-01

Abstract

一种基于自适应激活函数和注意力机制的目标检测方法，涉及目标检测领域。本发明为了解决现有的目标检测方法无法在复杂电磁波散射下提高检测SAR图像性能、对SAR图像的监测性能较差的缺陷，根据红外传感器和光电传感器接收到的合成孔径雷达图像数据集，经过预处理后输入到网络模型中进行特征提取；将激活函数集成到网络模型中，再将特征信息集成到网络模型中，将激活函数与池化模块结合，通过自适应开启激活函数提高所述池化模块的特征提取能力；利用部分数据作为训练集对网络模型进行训练，获得最佳权重后，利用训练后的网络模型对合成孔径雷达图像进行检测，得到目标的检测位置以及检测类别。本发明主要用于对SAR图像的目标检测。

Description

一种基于自适应激活函数和注意力机制的目标检测方法

技术领域

本发明涉及目标检测领域，尤其涉及一种基于自适应激活函数和注意力机制的目标检测方法。

背景技术

随着深度学习的革命，近年来目标检测技术得到了很大的改进。合成孔径雷达(SAR)的目标检测技术作为综合信号处理、雷达成像、图像处理以及人工智能等多门学科的交叉学科，已经广泛应用于军事、农业、林业建设、地质勘探等许多实际应用中。但是由于SAR图像的复杂性、多样性与易变性，使得SAR图像目标检测技术在实际环境下的应用还处于一个不成熟的阶段。

卷积神经网络作为深度学习中最重要的算法之一，在图像处理、自然语言处理、语音处理等方面有着广泛的应用。相比于传统的SAR图像目检测和鉴别算法，卷积神经网络可以通过训练样本自动学习到高级的抽象特征,能够适应各种场景和不同的任务需求，所以开展基于卷积神经网络的SAR图像目标检测和鉴别研究有着重要的意义。

在目标检测领域上，深度学习通过找出特定场景图像中所有感兴趣的目标来确定目标的特征信息，包括目标的位置、目标置信度评分以及目标所属的类别。如何从SAR图像中实现目标检测，找出包含有目标的感兴趣SAR图像是当今SAR图像目标检测技术领域研究的重点，特别对SAR图像中的军事目标进行迅速检测以及精准判读的研究是具有举足轻重的军事战略意义。因此本申请研究的主要方向是如何基于SAR图像进行目标检测应用技术研究，实现在海量的SAR图像数据中迅速、高效地提取感兴趣的雷达军事目标，并输出目标的位置与类别信息等所需信息。

随着深度学习理论的快速发展，CNNs已经成功地应用于图像分类和目标检测。现有的目标检测网络可以分为两类:一级网络和二级网络。You Only Look Once(YOLO)和Single Shot multibox Detector(SSD)是典型的一级网络，而R-CNN、Fast R-CNN和FasterR-CNN是二级网络。

2014年，Grishick等人提出了RCNN算法，该算法没有采用暴力穷举的方法提取候选区域，而是使用Selective Search通过聚合分割的图像来产生候选区域，然后经过卷积神经网络提取特征，并基于提取的特征训练分类器进行目标分类，最后使用线性回归调整预测边框。2015年Grishick又对该算法进行了改进﹐提出了Fast R-CNN算法。针对RCNN需要进行分步操作，以及在特征提取阶段重复提取候选区域特征的缺点，Fast R-CNN借鉴了SPPNet(Spatial Pyramid Pooling Network)的思想，极大的提升了检测速度。同年，何凯明等人在Fast R-CNN的基础上又提出了Faster R-CNN算法。Faster R-CNN算法使用了RPN(Region Proposal Network)来生成候选区域，真正实现了从输入到输出的一体化检测流程，极大的提升了网络的检测速度。

YOLO最初由文献于2016年提出，其全称为You Only Look Once，它将检测问题看为回归问题，直接输出图像中目标的位置和类别。初期的YOLO v1算法较之于其他算法在检测速度方面提升较大，但是检测精度却有所降低。经过各个版本的改进更新，目前最新的YOLOX最大程度的保证了检测速度和检测精度的平衡性，使得目标检测性能达到最佳。YOLOX共有七种网络结构，包含2种轻量级网络和5种标准网络。

①轻量级网络

(1)Yolox-Nano；(2)Yolox-Tiniy；

②标准网络

(1)Yolox-s；(2)Yolox-m；(3)Yolox-l；(4)Yolox-x；(5)Yolox-Darknet53。

在一些公共数据集中，两级网络比部分一级网络的精度略高。然而，这种两阶段进行检测的网络既耗时又难以训练。相比之下，单级网络具有较好的实时性，能够满足实时性应用的要求。

近年来，深度卷积神经网络(CNNs)在目标检测方面取得了显著进展。然而，以往大多数的深度卷积神经网络都是针对自然场景的RGB图像设计的，如果直接将之前的网络模型应用于针对SAR图像的目标检测任务，主要存在三个问题。首先，由于SAR图像是基于雷达电磁波散射特性反映而形成的，地物对电磁波的散射特性变化很大，会导致物体尺度变化剧烈，尤其对于小尺寸目标检测困难；其次，SAR图像包含高密度的物体，这会导致物体之间的遮挡；第三，SAR图像由于覆盖面积大，往往含有部分令人困惑的地理元素，比如海洋，山脉等。上述三个问题使得SAR图像的目标检测非常具有挑战性。因此，进一步提高针对SAR图像检测性能的方法，并提高复杂电磁波散射背景下的适应能力是相关领域学者的研究重点。

综上，现有的目标检测方法无法在复杂电磁波散射下提高检测SAR图像性能、且对SAR图像的监测性能较差。

发明内容

本发明的目的是为了解决现有的目标检测方法无法在复杂电磁波散射下提高检测SAR图像性能、对SAR图像的监测性能较差的缺陷，提供了一种能够在复杂电磁波散射下提高监测性能、对SAR图像的监测性能好的基于自适应激活函数和注意力机制的目标检测方法基于自适应激活函数和注意力机制的目标检测方法。

本发明所述的一种基于自适应激活函数和注意力机制的目标检测方法，包括如下步骤：

S1、根据红外传感器和光电传感器接收到的合成孔径雷达SAR图像数据集，经过预处理后输入到网络模型YOLOX-SAR中进行特征提取；

S2、将激活函数Meta-ACON集成到网络模型YOLOX-SAR中，再将特征信息集成到网络模型YOLOX-SAR中，将激活函数Meta-ACON与池化模块SPP结合，通过自适应开启激活函数Meta-ACON提高所述池化模块SPP的特征提取能力；

S3、利用部分数据作为训练集对网络模型YOLOX-SAR进行训练，获得最佳权重后，利用训练好的网络模型YOLOX-SAR对合成孔径雷达SAR图像进行检测，得到目标的检测位置以及检测类别。

进一步地：在S1中，所述网络模型包括三个部分，第一部分是基于卷积神经网络CNN的主干网络Backbone，用于对池化模块SPP进行改进，利用自适应激活函数Meta-ACON使得所述池化模块SPP具有自适应性，通过自适应的开启或关闭激活函数Meta-ACON来提高所述池化模块SPP的特征提取的效率；第二部分是特征提取网络CBAM-FPN，用于分别针对不同尺寸的目标输出特征图，第三部分是检测网络，用于预测对象的类别和位置。

进一步地：所述S1包括如下步骤：

S11、在主干网络Backbone中，输入的合成孔径雷达SAR图像数据集分别串联经过卷积模块，逐步提取输出图片的特征；

S12、所述池化模块SPP利用最大池化方法提取特征图，并利用连接Concat操作合并特征图从而确保提取特征的最大化。

进一步地：所述特征提取网络CBAM-FPN将注意力机制CBAM插入在特定目标检测前。

进一步地：在S2中，所述池化模块SPP的输入和输出部分均采用卷积模块，每一个卷积模块均包括卷积层CONV、批量归一层BN和激活函数Meta-ACON，所述激活函数采用双自变量函数。

进一步地：在S3中，所述训练过程包括冻结阶段和解冻阶段。

本发明的有益效果是：

本发明所述的一种基于自适应激活和注意力机制的目标检测方法，能够将从光电传感器和红外传感器收集到的SAR图像输入到YOLOX-SAR网络模型中，提高对SAR图像的检测性能，并确保了小尺寸目标在复杂且大密度的区域可被检测的能力。本发明适用复杂电磁波散射的场景。

首先，本发明将自适应激活函数Meta-ACON集成到YOLOX-SAR网络模型的主干网络Backbone中，提高网络特征提取能力，可以在高密度场景中提高目标检测性能；其次将注意力机制CBAM集成到YOLOX-SAR网络模型的特征提取网络FPN-CBAM中，这可以帮助网络在待检测图像中找到有大面积覆盖的感兴趣区域；最后利用一些有用的技巧，过滤了无用的方法，用于SAR图像目标检测任务。

本发明引入了Meta-ACON自适应激活函数，将其与SPP(Spatial PyramidPooling，空间金字塔池化结构)模块结合，通过自适应地开启激活函数以提高特征提取能力；为了寻找大覆盖图像中的注意区域，本申请采用卷积块注意模块(CBAM)，沿着通道维度和空间维度依次生成注意地图；同时还利用数据增强，使模型对来自不同环境的SAR图像具有更高的鲁棒性。所申请方法可以在复杂电磁波散射环境下提高对SAR图像的检测性能。

附图说明

图1是YOLOX-SAR网络流程图；

图2是Meta-ACON模块流程图；

图3是确定转换因子的神经网络流程图；

图4是CBAM-FPN特征提取网络的模型图；

图5是CBAM模块流程图

图6是通道注意力模块流程图；

图7是空间注意力模块流程图。

具体实施方式

以下仅为本发明较佳的具体实施例，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。以下所述实施例仅用于解释本发明，而不能解释为对本发明的限制，本发明的保护范围应该以权利要求的保护范围为准。下面详细描述本发明的实施例，为了便于描述本发明和简化描述，本发明的说明书中使用的技术术语应当做广义解读，包括但不限于本申请未提及的常规替换方案，同时包括直接实现方式和间接实现方式。

实施例1

结合图1-图7说明本实施例，本实施例公开的一种基于自适应激活函数和注意力机制的目标检测方法，包括如下步骤：

S1、根据红外传感器和光电传感器接收到的合成孔径雷达SAR图像数据集，经过预处理后输入到网络模型YOLOX-SAR中进行特征提取，根据红外传感器和光电传感器接收到的SAR图像数据集NWPU VHR-10，经过预处理后输入到YOLOX-SAR网络模型中进行特征提取，利用部分数据作为训练集对网络进行训练，获得最佳权重后，利用训练好的YOLOX-SAR模型对SAR图像进行检测，得到目标的检测位置以及检测类别。为更加清晰的说明所申请方法，本实施例通过仿真实验进行流程说明以及效果展示，但不限制本申请实施例的范围，实验条件为：NVIDIA GTX 2080Ti和Pytorch 1.7.1。具体网络模型见附图1。

S11、在主干网络Backbone中，输入的合成孔径雷达SAR图像数据集分别串联经过卷积模块，逐步提取输出图片的特征；根据改进后的Meta-SPP池化模块对输入特征进一步提取特征，提高YOLOX-SAR主干网络Backbone中的特征提取能力；在主干网络Backbone中，输入图像分别串联经过一系列基础卷积模块，逐步提取输入图片的有用特征；

S12、所述池化模块SPP的主要部分是利用最大池化方法提取特征图，并利用Concat连接操作合并特征图从而确保提取特征的最大化。采用Meta-SPP模块提高特征提取能力，其中SPP模块的主要部分是利用k＝{5×5,9×9,13×13}的最大池化方法提取4个不同尺寸的特征图，其中，K是卷积核大小，再利用Concat操作合并四个特征图以确保最大化地提取特征，2个卷积模块中的激活函数改进为Meta-ACON，使得SPP池化模块具有动态非线性度，如图2所示。

S2、将激活函数Meta-ACON集成到网络模型YOLOX-SAR中，再将特征信息集成到网络模型YOLOX-SAR中，将激活函数Meta-ACON与池化模块SPP结合，通过自适应开启激活函数Meta-ACON提高特征提取能力；激活函数Meta-ACON的激活行为有助于提高泛化和传输性能，它是基于ACON提出的，ACON具有动态非线性度，当非线性函数变为线性时，切换因子衰减到0，无法激活神经元。其中切换因子是一个超参数β用来决定神经元是否被激活。ACON-C采用相同的双自变量函数，在特征上使用超参数β缩放。形式上，使η_a(x)＝p₁x,η_b(x)＝p₂x(p₁≠p₂)，其中，η_a(x)，η_b(x)是是以x为自变量的函数，p₁，p₂是是不相同的超参数，用于定义不同的η_a(x)和η_b(x)，则f_ACON-C(x)＝S_β(p₁x,p₂x)＝(p₁-p₂)x·σ[β(p₁-p₂)x]+p₂x；其中f_ACON-C(x)是ACON-C自适应激活函数，S_β(p₁x,p₂x)是p₁x和p₂x两个函数的光滑极大值函数，σ是Sigmoid函数，β是切换因子，用于开启或关闭激活函数。

Meta-ACON激活函数利用一小段神经网络来确定切换因子β，神经网络流程图如图3所示。具体来说，当β→∞时，f_Meta-ACON-C(x)→max(p₁x,p₂x)；当β→0时，f_Meta-ACON-C(x)→mean(p₁x,p₂x)；其中，f_Meta-ACON-C(x)是Meta-ACON-C自适应激活函数，max(p₁x,p₂x)是以p₁x和p₂x为变量的最大值函数，mean(p₁x,p₂x)是以为变量的平均值函数。

根据特征提取网络CBAM-FPN对主干网络Backbone输出获得的特征进一步提取特征，让网络更加关注小目标感兴趣的区域，提高网络模型对小目标的特征提取能力，以此提高检测性能。

FPN作为特征增强网络，针对大中小三个尺寸的目标，分别输出3个尺寸的特征图以保证各个尺寸的检测性能。因为YOLOX-SAR主要用于检测SAR图像，所以对小目标的检测能力格外重要。

如图4所示，对于检测小尺寸目标的输出f_out2，在其CSPLayer之前插入CBAM注意力模块，利用CBAM来对特征进行注意力的提取，使得整个特征图更加专注于感兴趣的目标区域以提高YOLOX-SAR算法对小目标的检测能力。

经过网络训练和检测后，得到SAR图像的MAP(maximun a posteriori)，FPS(每秒传输帧数Frames Per Second)如表2所示，对比方法为传统经典目标检测方法。可以发现本实施例所提出方法可以有效提高对SAR图像的检测性能，并能够有效缩短检测时间，保证了在复杂电磁波环境下实时检测的工作效能。

综上，本实施例的方法能够利用Meta-ACON激活函数和CBAM-FPN，提高了SAR图像的检测性能，提高对SAR图像目标检测的精度和鲁棒性。

如图5所示，CBAM是一种简单而有效的注意力模块，给定一个中间特征图F∈R^C×H×W作为输入，CBAM按照顺序分别通过一维的通道注意图M_c∈R^C×1×1和二维的空间注意图M_s∈R¹ ^×H×W，整体的注意力过程归纳为：

其中F,F',F”分别表述输入特征，通道注意图和空间注意图；针对通道注意力模型，首先通过平均池化和最大池化的并行操作来聚合特征地图的空间信息，分别生成平均池化特征和最大池化特征。然后将两个描述符输入到共享网络MLP以产生通道注意力图M_c∈R^C×1×1。在将共享网络应用于每个描述符之后，使用逐元素求和来合并输出特征向量，如图6所示。通道注意力的计算方法如下：

其中，M_c(F)是通道注意力，AvgPool(F),MaxPool(F)表示输入特征分别经过平均池化和最大池化操作得到的输出结果，MLP表示共享MLP操作，σ表示Sigmiod函数。

针对空间注意力模型，使用两个池化操作聚合特征映射的通道信息，分别生成两个二维映射，表示通道上的平均池化特征和最大池化特征。然后将这些连接起来并通过标准卷积层进行卷积，生成二维空间注意图M_S，如图7所示。空间注意力的计算方法如下：

其中，M_s(F)是空间注意力，AvgPool(F),MaxPool(F)表示输入特征分别经过平均池化和最大池化操作，得到输出结果

f^7×7表示卷积核大小为7的卷积操作，σ表示Sigmiod函数。

实施例2

结合实施例1说明本实施例，本实施例公开的一种基于自适应激活函数和注意力机制的目标检测方法，在S1中，所述网络模型(YOLOX-SAR)包括三个部分，第一部分是基于卷积神经网络(CNN)的主干网络(Backbone)，用于对池化模块(SPP)进行改进，利用自适应激活函数(Meta-ACON)使得池化模块(SPP)具有自适应性，通过自适应的开启或关闭激活函数(Meta-ACON)来提高特征提取的效率，可以在高密度场景中提高目标检测性能；第二部分是特征提取网络(CBAM-FPN)，用于分别针对不同尺寸的目标输出特征图，将注意力机制CBAM特征信息集成到YOLOX-SAR中，帮助网络在待检测图像中找到有大面积覆盖的感兴趣区域；所述特征提取网络(CBAM-FPN)将注意力机制(CBAM)插入在特定目标检测前；第三部分是检测网络，用于预测对象的类别和位置。图1是本实施例所述方法的原理框图，该模型由三个部分组成，一部分是基于CNN(卷积神经网络)的主干网络Backbone，其次是特征提取网络CBAM-FPN(聚合块)，最后是检测网络部分，用于预测对象的类别和位置。本实施例分别对YOLOX-SAR的主干网络Backbone和特征提取网络FPN进行改进，分别生成新的Meta-SPP模块和CBAM-FPN模块，极大程度地提高了YOLOX-SAR的检测性能。

针对Backbone部分，本实施例对SPP模块进行改进，利用自适应激活函数使得SPP模块具有自适应性，通过自适应的开启或关闭激活函数来提高特征提取的效率。在主干网络中，SPP模块的主要部分是利用k＝{1×1,5×5,9×9,13×13}的最大池化方法提取4个不同尺寸的特征图，再利用Concat操作合并四个特征图以确保最大化地提取特征。而在SPP的输入和输出部分都是由卷积层、BN层(Batch Normalization批量归一化层)和激活函数所组成的卷积模块。将2个卷积模块中的激活函数改进为Meta-ACON，使得SPP模块具有动态非线性度，当η_a(x)＝p₁x,η_b(x)＝p₂x(p₁≠p₂)时，切换因子β是通过一段神经网络来确定，明确地展示优

化非线性(激活)和线性(非激活)之间的参数切换，可以让SPP模块提高特征提取上限。

针对FPN部分(特征提取网络)，为了提高YOLOX-SAR对小目标的检测能力，本实施例引入CBAM注意力机制，将注意力机制CBAM集成到CBAM-FPN特征提取网络模块中，将其插入在小目标检测头f_out2前以提高对小目标的检测性能。FPN作为特征增强网络，针对大中小三个尺寸的目标，分别输出3个尺寸的特征图以保证各个尺寸的检测性能。因为YOLO-SAR主要用于检测SAR图像，所以对小目标的检测能力格外重要。针对此点，对于检测小尺寸目标的输出f_out2，在其CSPLayer之前插入CBAM注意力模块，利用CBAM来对特征进行注意力的提取，使得整个特征图更加专注于感兴趣的目标区域以提高YOLOX-SAR算法对小目标的检测能力，如图4所示。本实施例在Pytorch 1.7.1上实现了YOLOX-SAR。

表2本实施例所述方法检测效果

实施例3

结合实施例1说明本实施例，本实施例公开的一种基于自适应激活函数和注意力机制的目标检测方法，在S2中，所述池化模块(SPP)的输入和输出部分均采用卷积模块，每一个卷积模块均包括卷积层(CONV)、批量归一层(BN)和激活函数(Meta-ACON)，所述激活函数采用双自变量函数。其中SPP模块的主要部分是利用的最大池化方法提取4个不同尺寸的特征图，再利用Concat操作合并四个特征图以确保最大化地提取特征，2个卷积模块中的激活函数改进为Meta-ACON，使得SPP模块具有动态非线性度，如图2所示。

实施例4

结合实施例1说明本实施例，本实施例公开的一种基于自适应激活函数和注意力机制的目标检测方法，在S3中，所述训练过程包括冻结阶段和解冻阶段。在训练阶段，本实施例使用YOLOX-s的部分预训练模型，因为YOLOX-SAR和YOLOX-s共享backbone(主干网络)的大部分和头部的一部分，通过使用这些权重，可以节省大量的训练时间。首先将NWPUVHR-10数据集的输入图像尺寸设置为(640,640)，训练的过程分为冻结阶段和解冻阶段，其中冻结阶段的一代训练epoch，一批数据batch size和学习率分别是50，8和1e-3；解冻阶段的epoch，batch size和学习率分别是100，4和1e-4。具体参数详见表1为了推论，结合冻结阶段和解冻阶段的训练效果，然后计算评价指标。

表1 YOLOX-SAR训练参数

	迭代次数	批量大小	学习率	损失函数
					冻结阶段	50	8	1e-3	Loss<sub>Reg</sub>+Loss<sub>Obj</sub>+Loss<sub>Cls</sub>
解冻阶段	100	4	1e-4	Loss<sub>Reg</sub>+Loss<sub>Obj</sub>+Loss<sub>Cls</sub>

Claims

1.一种基于自适应激活函数和注意力机制的目标检测方法，其特征在于，包括如下步骤：

S1、根据红外传感器和光电传感器接收到的合成孔径雷达图像数据集，经过预处理后输入到网络模型中进行特征提取；

S2、将激活函数集成到网络模型中，再将特征信息集成到网络模型中，将激活函数与池化模块结合，通过自适应开启激活函数提高所述池化模块的特征提取能力；

S3、利用部分数据作为训练集对网络模型进行训练，获得最佳权重后，利用训练后的网络模型对合成孔径雷达图像进行检测，得到目标的检测位置以及检测类别。

2.根据权利要求1所述的一种基于自适应激活函数和注意力机制的目标检测方法，其特征在于，在S1中，所述网络模型包括三个部分，第一部分是基于卷积神经网络的主干网络，用于对池化模块进行改进，利用自适应激活函数使得所述池化模块具有自适应性，通过自适应的开启或关闭激活函数来提高所述池化模块的特征提取的效率；第二部分是特征提取网络，用于分别针对不同尺寸的目标输出特征图，第三部分是检测网络，用于预测对象的类别和位置。

3.根据权利要求2所述的一种基于自适应激活函数和注意力机制的目标检测方法，其特征在于，所述S1包括如下步骤：

S11、在所述主干网络中，输入的合成孔径雷达图像数据集分别串联经过卷积模块，逐步提取输出图片的特征；

S12、所述池化模块利用最大池化方法提取特征图，并利用连接操作合并特征图从而确保提取特征的最大化。

4.根据权利要求2所述的一种基于自适应激活函数和注意力机制的目标检测方法，其特征在于，所述特征提取网络将注意力机制插入在特定目标检测前。

5.根据权利要求1所述的一种基于自适应激活函数和注意力机制的目标检测方法，其特征在于，在S2中，所述池化模块的输入和输出部分均采用卷积模块，每一个卷积模块均包括卷积层、批量归一层和激活函数，所述激活函数采用双自变量函数。

6.根据权利要求1所述的一种基于自适应激活函数和注意力机制的目标检测方法，其特征在于，在S3中，所述训练过程包括冻结阶段和解冻阶段。