CN115546555A

CN115546555A - 一种基于混合表征学习增强的轻量化sar目标检测方法

Info

Publication number: CN115546555A
Application number: CN202211274361.6A
Authority: CN
Inventors: 陈杰; 周正; 黄志祥; 万辉耀; 常沛; 李钊; 孙晓晖; 邬伯才; 姚佰栋; 孙龙
Original assignee: CETC 38 Research Institute; Anhui University
Current assignee: CETC 38 Research Institute; Anhui University
Priority date: 2022-10-18
Filing date: 2022-10-18
Publication date: 2022-12-30
Anticipated expiration: 2042-10-18
Also published as: CN115546555B

Abstract

本发明提供一种基于混合表征学习增强的轻量化SAR目标检测方法，属于SAR图像目标检测技术领域，包括以下步骤：构建用于SAR图像舰船目标识别的HRLE‑SARDet网络模型；将待检测的舰船目标的SAR图像数据输入至训练后的HRLE‑SARDet网络模型中，输出获得目标检测结果。本发明提出了一种基于混合表征学习增强的轻量化SAR目标检测算法HRLE‑SARDet，从更加均衡的角度解决SAR图像舰船目标检测的问题，在大大减小参数量和计算量的同时，检测精度也得到一定保证和提升。

Description

一种基于混合表征学习增强的轻量化SAR目标检测方法

技术领域

本发明涉及SAR图像目标检测技术领域，具体涉及一种基于混合表征学习增强的轻量化SAR目标检测方法。

背景技术

合成孔径雷达作为一种主动式有源微波成像遥感设备，它能够全天时、全天候的通过使用虚拟阵列及脉冲压缩等技术对地球表面进行成像，以获取高分辨率的地物二维图像，其可用于目标检测和识别等领域。

得益于近年来深度学习算法地飞速发展，有越来越多的研究人员开始将深度学习算法和SAR图像目标检测结合起来，并且取得了一系列惊人的成绩和效果。这些深度学习目标检测算法种类繁杂，功能和应用场景也各不相同，不过根据有无建议框大致可以分为两大类：1)无建议框的单阶段检测算法；2)基于建议框的两阶段算法。单阶段目标检测算法将目标检测问题看作回归问题，去掉了区域建议生成的过程，并从图像像素中进行回归获得目标边界框坐标和类别信息。典型的单阶段目标检测算法有YOLO系列，SSD，以及RetinaNet等。基于建议框的两阶段目标检测算法会提前生成一系列稀疏的区域建议框作为潜在的边界框，之后通过训练对这些边界框进行分类和回归。后处理端会对预测的边界框进行细化来消除重复的检测结果。典型的两阶段算法有Faster-RCNN、R-FCN和Mask-RCNN等。一般来说，与单阶段目标检测算法相比，两阶段的物体检测算法能达到的精度更高，但是训练和检测速度往往比不上单阶段算法，所以单阶段目标检测算法往往更适合工程应用，为了保证检测识别的实时性，越来越多的SAR舰船目标检测器选择单阶段目标检测算法。但是，也有研究表明，单阶段的目标检测方法在检测小目标时会更容易产生误检漏检以及更多的定位误差。因此，想要在实际工程应用中考虑检测的实时性的同时，本发明还需要考虑解决单阶段小目标检测性差的问题。

尽管这些目标检测算法被设计地越来越合理，网络被设计地越来越深，目标检测精度也越来越高，但是他们基本上都是专门为光学图像所设计的，如最常见COCO数据集，这些目标检测器设计出来都会在上面刷精度。因此专门为SAR图像设计的检测器少之又少，并且如果本发明直接将这些用于光学图像的目标检测算法应用在SAR图像上，效果可能并没有想象中的那么好，因为1)首先SAR图像的成像机理相比于光学图像更加复杂，目标更加稀疏，是由很多个强散射点构成，并没有光学图像那样丰富的成像信息；2)SAR图像的目标尺寸差异比光学图像更大，并且由于合成孔径雷达在拍摄SAR图像时，其成像的角度比光学图像更大，成像跨越的范围更大，所以很多SAR图像里的舰船目标基本上只有十几个像素大小，呈现的样子也就是一两个强散射点而已；3)由于SAR图像展现的都是以散射点形式，加上其复杂的陆地背景，海上的舰船目标很容易受到陆地背景杂波的干扰，并且靠在岸边的舰船也更容易和背景混在在一起，造成漏检。

发明内容

为解决上述问题，本发明提供一种基于混合表征学习增强的轻量化SAR目标检测方法，具体提出了一种基于混合表征学习增强的轻量化SAR目标检测算法HRLE-SARDet，从更加均衡的角度解决SAR图像舰船目标检测的问题，在大大减小参数量和计算量的同时，检测精度也得到一定保证和提升。

本发明提供了如下的技术方案。

一种基于混合表征学习增强的轻量化SAR目标检测方法，包括以下步骤：

构建用于SAR图像舰船目标识别的HRLE-SARDet网络模型；所述HRLE-SARDet模型采用YOLOV5架构，所述YOLOV5架构中的Backbone部分采用轻量化骨干网络LSFEBackbone，所述YOLOV5架构中的Neck部分采用多尺度散射特征融合模块BiFPF，并在尺度特征的输出前引入混合表征学习增强模块HRLE-C3；

其中，LSFEBackbone为改进的EfficientNet-Lite0：将原EfficientNet-Lite0的MBConvBlock重新堆叠，并去除不必要的MBConvBlock，在stage2结束之后就全部采用大卷积核来提取特征，将sigmoid激活函数改为H-sigmoid激活函数，以及将SE模块中的激活函数改为PReLu；

其中，BiFPF为FPN叠加PAN再叠加FPN的结构；

其中，HRLE-C3为改进的原YOLOV5的C3模块：将原C3模块所有的Bottleneck中的第二个卷积层改为混合学习模块ACmix，并进行替换；

将待检测的舰船目标的SAR图像数据输入至训练后的HRLE-SARDet网络模型中，输出获得目标检测结果。

优选地，还包括：

采用损失函数PBCE对HRLE-SARDet网络模型进行训练；所述损失函数PBCE的构建包括以下步骤：

引入BCEloss：

由泰勒级数展开可知，BCELoss以多项式级数的形式展开：

其中，多项式系数α_i为

故BCELoss表示为：

使用梯度下降法来优化BCELoss，对p_t进行求导并展开，得到：

由其求导后的展开多项式可知，其具有对p_t的不同灵敏度；第一个多项式为常数项，值为1，为BCELoss提供了一个不变的梯度，并且与p_t的大小无关，并且随着训练地程度越深，即i＞＞1时，预测值p_t无线接近于1，因此后面的多项式接近于0，被强烈抑制；

调节第1个多项式项，PBCE表示为：

优选地，所述LSFEBackbone包括依次连接的一个Stem、多个MBConvBlock，以及一个SPPF。

优选地，所述LSFEBackbone中的stage2结束之后，均采用5×5的大卷积核来提取特征。

优选地，所述BiFPF为FPN叠加PAN再叠加FPN的结构，增加不同分辨率输入并且学习不同分辨率输入特征的权重。

本发明的有益效果：

(1)本发明针对SAR图像数据集进行更加合理的轻量化与特征提取设计，以更适应于SAR图像舰船数据的特点，并且结合了CNN和自注意力各自的优势，进行互补，充分融合了不同尺度的特征信息，提升不同尺度舰船目标的检测效果，并且很容易地根据目标任务和数据集进行调整，从而使得本发明模型更加适合于在SAR图像上的训练，在减少参数量和计算量同时，能够提升SAR小目标的检测性能。

(2)本发明在在参数量和计算量即使远小于现有的最先进的方法，速度和精度上也能得到一定的提升和保证，达到均衡。

(3)本发明的轻量化模型设计为本模型部署到军事武器上提供了可能性。

附图说明

图1为本发明实施例的HRLE-SARDet模型的网络总体架构图；

图2为本发明实施例的两种激活函数对比图；

图3为本发明实施例的原始SE模块与改进的PHSE模块的结构比较图，(a)SE模块，(b)PHSE模块；

图4为本发明实施例的LSFEBackbone网络结构的详细信息图；

图5为本发明实施例的BiFPF基本结构图；

图6为本发明实施例的ACmix结构图；

图7为本发明实施例的HRLE SARDet的HRLE-C3与YOLOV5的C3结构的比较，(a)YOLOV5的Bottleneck和HRLE SARDet的HRLE-Bottleneck结构比较，(b)YOLOV5的C3和HRLE-SARDet的HRLE-C3结构比较。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例1

一种基于混合表征学习增强的轻量化SAR目标检测方法，如图1-4所示，具体包括以下步骤：

S1：构建用于SAR图像舰船目标识别的HRLE-SARDet网络模型；所述HRLE-SARDet模型采用YOLOV5架构，其中，Backbone部分采用轻量化骨干网络LSFEBackbone，Neck部分采用多尺度散射特征融合模块BiFPF，并在尺度特征的输出前引入混合表征学习增强模块HRLE-C3；

其中，BiFPF为FPN叠加PAN再叠加FPN的结构；HRLE-C3为改进的原YOLOV5的C3模块：将原C3模块所有的Bottleneck中的第二个卷积层改为混合学习模块ACmix，并进行替换；

S2：将待检测的舰船目标的SAR图像数据输入至训练后的HRLE-SARDet网络模型中，输出获得目标检测结果。

具体的：

(1)轻量化散射特征提取骨干：LSFEBackbone

YOLOV5和以往的YOLO系列的骨干一样，也是延续了采用了DarkNet系列，采用的是CSPDarknet53，它虽然是现在应用最为广泛且经典的特征提取骨干，但是它的网络结构设计的比较深，网络的参数量和计算量都比较大，遇到数据量小的模型，往往会造成计算资源的浪费以及过拟合现象，不是特别适合部署到移动端，并且通常它是被设计用来提取光学图像的特征，并不一定适合用来直接提取SAR图像的离散的散射特征信息。因此，考虑到SAR数据集通常比较稀缺以及自身目标的特性，本发明设计了一种新的轻量化的散射特征提取主干网络LSFEBackbone，不仅具有更小的参数量和计算量，能够适合在数据量不多的SAR舰船数据集上，如SSDD，很好地提取特征，而且引入的一些策略使得它也能在数据量较大的SAR数据集上，如HRSID和MSAR-1.0，也能保持不错的性能。

LSFEBackbone是由EfficientNet-Lite改进而来，它是谷歌发布了的EfficientNet的端侧版本，该模型可以在TensorFlow Lite上运行，并已针对CPU、GPU和EdgeTPU进行性能优化。EfficientNet-Lite让边缘设备也能利用EfficientNet的强大性能，并提供五个不同版本，让用户能够按照自己的需求从低延迟的小模型(EfficientNet-Lite0)到高精度(EfficientNet-Lite4)之间进行灵活选择。EfficientNet-lite的精度和延时、参数已经把MobileNet V2，ResNet 50，Inception v4等模型远远甩在背后。

相比较于EfficientNet，EfficientNet-lite进行了一系列的结构和算子的优化：1)去除squeeze-and-excitation结构，因为目前在端侧设备上支持欠佳。2)使用Relu6替代swish激活函数，swish激活复杂度高，并且对量化有不利影响。3)放缩模型尺寸时固定stem与head模块，减少放缩后模型的大小与计算量。

本发明引入了EfficientNet-Lite最小的骨干版本EfficientNet-Lite0，并在其基础上进行分析和改进，并进行了大量实验验证，设计出更加适合在SAR数据集上提取散射特征的轻量化骨干LSFEBackbone。主要有以下方面:

1)首先，延续使用EfficientNet-Lite0的MBConvBlock，并对它进行了重新设计和堆叠，去除了不必要的MBConvBlock；

2)借鉴MoileNetV3的思想，为了增大卷积核提取特征适合的感受野，本发明在网络在stage2结束之后就全部采用5×5的大卷积核来提取特征；

3)EfficientNet-Lite去除squeeze-and-excitation结构的原因，是因为其最后采用了一次sigmoid激活函数激活，其计算复杂度高，不利于在端侧设备上计算，所以本发明采用与MoileNetV3相同的改进轻量化SE版本，将其sigmoid激活函数改为计算量更低的H-sigmoid激活函数；

4)与此同时，SE模块在经过第一个1×1卷积后采用的是Relu非饱和激活函数激活，其具有一定的缺陷，其在训练的时候很“脆弱”，一不小心有可能导致神经元“坏死”。由于ReLU在x<0时梯度为0，这样就导致负的梯度在这个ReLU被置零，而且这个神经元有可能再也不会被任何数据激活。如果这个情况发生了，那么这个神经元之后的梯度就永远是0了，也就是ReLU神经元坏死了，不再对任何数据有所响应。而在PReLU中，负值部分的斜率是根据数据来定的，而非预先定义的。并且其只增加了极少量的参数，也就意味着网络的计算量以及过拟合的危险性都只增加了一点点。特别的，当不同channels使用相同的时，参数就更少了。所以本发明将SE中的ReLU激活函数和MBConvBlock中的ReLU6激活函数替换为更好的带参数的ReLU，即PReLu，如图2所示。本发明称改进后的SE为如图3所示的PHSE，并经过大量实验验证了其是有效的。

LSFEBackbone的结构细节如图4所示，具体参数如表1所示。经过大量实验验证并在SAR数据集上的结果表明了本发明设计的骨干具有很强的特征提取能力。

表1 LSFEBackbone网络具体参数

2)多尺度散射特征融合neck：BiFPF

图1中的第三部分展示了本发明专门为SAR图像数据集设计的多尺度散射特征融合Neck，称为BiFPF，它能将不同尺度的深、浅层语义特征充分地融合，以更好地学习不同尺度目标的信息。BiFPF实际上是本发明设计的FPN叠加PAN再叠加FPN的结构，并且增加不同分辨率输入的，并且学习不同分辨率输入特征的权重。在SAR图像目标检测中对小尺度舰船检测较为困难，这是因为在卷积下采样的过程中，大尺度舰船的散射像素点多，小尺度舰船的散射像素点少，随着卷积的深入，大尺寸的舰船的特征容易被保留下来，小尺寸的舰船的特征越到网络深处越容易被忽略。所以同时为了增强对小尺度舰船的目标检测性能以及特征提取能力，本发明设计了一种表征学习增强模块HRLE-C3，将其应用在小尺度特征预测图输出之前，它结合了CNN和自注意力各自的优势，进行互补，在减少参数量和计算量同时，能够很好地专注于提取SAR小尺度舰船目标的特征，提高对SAR图像小目标的检测精度。与此同时，设计的多尺度散射特征融合Neck模块BiFPF，也能更好地融合不同尺度的特征图信息，更加有利于小尺度舰船目标特征的提取。BiFPF设计的基本结构如图5所示。

(3)混合表征学习增强模块HRLE-C3

近年来，卷积神经网络和自注意力网络一直是计算机视觉领域最火热的研究热点。在图像分类、目标检测以及目标跟踪等视觉领域中，卷积神经网络实现了一系列惊人的成就，在各种数据集上实现了最先进的性能。与此同时，随着Vision Transformer的大火，基于各种Self-Attention的Transformer开始在各个视觉任务中表现出优异的性能，更有很多超过CNN的表现。

因为Convolution和Self-Attention模块通常由不同的设计范式设计而来，所以Convolution和Self-Attention通常被认为是两种彼此不同的方法，但是它们都是目前深度学习领域中强大的表征学习方法。根据卷积在整个特征图中共享的权值，传统卷积在局部感受野上利用了一个聚合函数。在图像处理时，固有的特征为带来了至关重要的归纳偏差。与Convolution不同的是，通过基于输入特征上下文的加权平均操作，通过相关像素对之间的相似函数，Self-Attention模块可以动态计算注意力权重。因而自注意力模块能够灵活地适应地关注不同的区域，从而能够捕捉更多的特征。最近Pan等人通过将这两个模块的分解过程详细地阐述，表明它们在11的卷积操作上有很大的相似性，因而在其文章里揭示了Convolution和Self-Attention间有着十分密切的联系，即Convolution和self-attention在通过11convolutions生成feature map的操作上实际上是相同的，这两个模块的计算开销也是集中于此。虽然捕获特征图的语义特征对深度学习来说十分重要，但第二阶段的聚合操作是不需要获取额外的学习参数的轻量级操作。基于这一研究结果开发了一个混合学习模块，名为ACmix，并以最小的计算开销优雅地集成了Convolution和Self-Attention。具体地说：1)首先，通过使用卷积对输入特征进行映射，获得丰富的中间特征集；2)然后，通过按照不同的模式(分别以Convolution方式和Self-Attention方式)重用和聚合中间特征的方式，ACmix可以在避免了两次昂贵的投影操作的同时，又结合了两个模块的优点。

如图6为ACmix结构示意图，它包含了两个阶段：1)阶段一是卷积路径，为了获得包含3N特征映射的一组丰富的中间特征，其输入通过3个11卷积对输入特征进行投影，然后reshape为N个Pieces；2)阶段二是自注意力路径，其集合N组中间特征，每组共有3个来自1×1卷积的特征图。和传统的多头自注意力模块一样，query、key和value分别被三个特征图对应。采用全连接层对卷积核大小为k的卷积路径生成N个特征映射进行处理。因此，其可以通过卷积处理输入特征以及移位和聚合生成的特征，从而可以像传统的一样从局部感受野收集信息。最后，将两个阶段的输出相加，两个可学习标量控制可其强度:

F_out＝αF_conv+βF_self-att (2)

由于ACmix结合了卷积和自注意力各自的优势，很适合应用在SAR图像目标检测中，用来进行混合表征学习增强，因此本发明将其引用到本发明模型中，并对其YOLOV5原有的C3模块进行改造，设计成如图7所示的混合表征学习增强模块HRLE-C3，并考虑到SAR图像小目标的不易检测等问题，将其插入到图5所示输出可以容易检测出小目标的大尺寸特征图之前，同时与BiFPF模块结合，加强了小目标的特征提取能力以及检测能力。

(5)多项式二元交叉熵损失：PBCE

原基准网络YOLOV5的分类loss和目标loss都是采用最常见的BCELoss函数，但它并不是专门为SAR图像数据集设计的损失函数，所以在光学图像上可能有很好的性能，但是直接应用到SAR图像数据集上并不一定有很好的效果。因此专门为SAR图像数据集的目标检测任务设计合适损失函数是非常有价值的。最近Leng等人将损失函数看作和设计为多项式函数的线性组合，通过泰勒展开来逼近函数，提出了一个新的并简单损失函数，称为PolyLoss。PolyLoss可以很容易地根据目标任务和数据集进行调整Polynomial bases(多项式基)的重要性。因此本发明利用PolyLoss的思想对BCELoss进行改造，最后得到了适合SAR图像数据集以及目标检测任务的损失函数PBCE。

BCEloss经常会出现过拟合问题，并且它不能始终应用到其他任务。近年来，新的损失函数也被很多研究人员探索出来，他们大部分是通过元学习、集成或合成不同的损失的方式。而leng认为可以将常用的分类损失函数分解为一系列加权多项式基的形式，如下所示：

引入BCEloss：

由上面的思想和泰勒级数展开可知，BCELoss以多项式级数的形式展开：

其中，多项式系数α_i为

故BCELoss表示为：

使用梯度下降法来优化BCELoss，对p_t进行求导并展开，得到：

由其求导后的展开多项式可知，其具有对p_t的不同灵敏度；第一个多项式为常数项，值为1，为BCE Loss提供了一个不变的梯度，并且与p_t的大小无关，并且随着训练地程度越深，即i＞＞1时，预测值p_t无线接近于1，因此后面的多项式接近于0，被强烈抑制；

调节第1个多项式项，PBCE表示为：

本实施例中，在实验部分，为了验证了本发明的模型HRLE-SARDet的性能，本发明在两个公共基准SAR舰船目标检测数据集和一个大规模多类SAR目标检测数据集MSAR-1.0上进行了大量消融实验验证，并且本发明将所提出的HRLE-SARDet和现有的最先进的检测方法进行了比较，都展示出了HRLE-SARDet性能的优越性。

数据集和实验设置

为了最准确地评估本发明提出的方法的有效性和性能，本发明在两个常用的SAR图像舰船目标检测数据集SSDD、HRSID和一个最近发布的大规模多类SAR目标检测数据集MSAR-1.0上进行了大量的验证性实验。

SSDD数据集是PASCAL VOC标注格式的数据集，因此在使用PASCAL VOC标注格式的数据集的代码可以直接训练SSDD。SSDD中的舰船根据目标尺寸大小可分为大、中、小型目标，并且小目标占了SSDD数据集中的大部分。SSDD包含了由RadarSat-2、TerraSAR-X和Sentinel-1多种卫星传感器下的成像结果，具有四种不同的极化方式，分别是HH、HV、VV和VH，并且分辨率为1-15米，数据的丰富性使得检测器可以训练出来更加鲁棒的性能，但同时也会使得检测器检测的难度变大，检测性能下降。SSDD数据集总共包含了含有2456个舰船的1160张图片，所以平均每张图片的舰船数量仅为2.12。本发明根据严格的规定，文件编号最后数字为1和9的图像被确定为测试集，其余的被视为训练集，将数据集划分为接近8：2的比例，因此训练集有928张图像，测试集里有232张图像。这样可以和其它的方法保持一样的数据分布，有利于公平的比较。

为了验证本发明提出的方法在不同数据集下的舰船检测能力，本发明在另一个大规模高分辨率SAR图像舰船目标检测数据集，即HRSID数据集上也验证了本发明方法的性能。HRSID数据集可以实现目标检测、实例分割等任务。分辨率为1-5m的全景图像被剪裁为800*800的尺寸大小。5604张裁剪后的SAR图像包含了16951艘船，HRSID将训练集和测试集按6.5：3.5的比例进行划分。

此外，为了验证本发明的模型在多类SAR数据集下的泛化分类检测能力，本发明还引入了一个大规模多类SAR目标检测数据集MSAR-1.0进行实验，MSAR-1.0是由海丝一号卫星和高分三号卫星采集到的数据构建而来的标准多类SAR目标检测数据集。其共包括含有多种极化方式和多种场景的28449张图片，总共有船、油罐、飞机和桥梁四类目标。图片大部分切片尺寸为256×256，部分桥梁切片尺寸为2048×2048。由于原论文中并没有说明其训练验证比例，本发明重新将其按8：2的比例划分成训练集和验证集，并重新检查了部分错误标注。

模型的训练参数基本和YOLOV5保持一致，batchsize大小设置为16，SSDD训练的图像尺寸设置为640640，HRSID的训练的图像尺寸设置为800800，MSAR-1.0在进行训练时的图像尺寸设置和其发布的论文里保持一致为640640，且其余对比试验均保持一致。本实验训练的显卡为NVIDIA GeForce RTX 2060super，Windows10系统，Python版本为3.7，Pytorch版本为1.7.1，CUDA版本为10.1。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。