CN114565860B

CN114565860B - 一种多维度增强学习合成孔径雷达图像目标检测方法

Info

Publication number: CN114565860B
Application number: CN202210198708.7A
Authority: CN
Inventors: 陈杰; 吕建明; 万辉耀; 黄志祥; 刘小平; 邬伯才; 姚佰栋
Original assignee: CETC 38 Research Institute; Anhui University
Current assignee: CETC 38 Research Institute; Anhui University
Priority date: 2022-03-01
Filing date: 2022-03-01
Publication date: 2022-11-11
Anticipated expiration: 2042-03-01
Also published as: CN114565860A

Abstract

本发明公开了一种多维度增强学习合成孔径雷达图像目标检测方法，涉及目标检测技术领域，设计一种具有语义关系的复制粘贴进行数据增强的方法，对SAR目标样本进行语义扩充，提升样本量，降低模型过拟合，引入无锚框检测框架作为基准网络，降低模型的参数量和计算复杂度，提高推理速度；本发明提供的一种多维度增强学习合成孔径雷达图像目标检测方法，以无锚框目标检测框架CenterNet2作为基准，设计了一种特征增强轻量级骨干LWBackbone，降低模型的参数量同时有效提取SAR目标显著特征，并提出混合域注意力机制CNAM，有效抑制陆地复杂背景干扰，突出目标区域，利用感受野增强检测头模块RFEHead，设计不同空洞率卷积增强感受野，提升检测头的多尺度感知性能。

Description

一种多维度增强学习合成孔径雷达图像目标检测方法

技术领域

本发明涉及目标检测技术领域，特别涉及一种多维度增强学习合成孔径雷达图像目标检测方法。

背景技术

为了更好的观测地球村，许多学者提出了使用不同传感器观测方法，如光学卫星、多光谱卫星、视频监控系统、合成孔径雷达(SAR)卫星等。相对于前三种类型，SAR具有全天时、全天候监测的优势，还具有穿透能力强、抗干扰能力强等优势。由于地球上多变的海洋气候，SAR更适合监测船舶,随着SAR成像技术的发展，它已经在多个领域得到了广泛应用，例如在军事应用、海洋交通管制、渔业管理、贸易活动等领域对繁忙的河流和重要的港口监测。

合成孔径雷达(synthetic aperture radar,SAR)图像目标检测在军事\民用领域具有广泛的应用价值。然而，SAR图像目标检测中还存在一些问题，例如强烈的散斑噪声降低了浅层的低层次特征学习、船舶目标很难与周围背景区分、舰船目标相对稀疏以及目标较小等，现有的SAR目标检测算法还并不完善，速度和精度难以达到平衡。

近年来，随着深度学习的不断发展，学者们基于CNN提出了很多目标检测算法，这些方法主要分为两类:(1)两阶段法(Two Stage),主要思路是先通过第一阶段的区域建议网络产生一系列稀疏的候选框，第二阶段对这些候选框进行分类和回归。这类方法的优点是准确度高，但往往速度较慢，经典的二阶段目标检测网络有Faster R-CNN、R-FCN等。(2)单阶段法(One Stage)，主要利用CNN提取特征后对特征上的每个特征像素点直接预测目标和目标边界框，输出物体的分类概率和坐标，整个过程只需一步，因此速度较快，如SSD、RetinaNet、YOLO系列等。

发明内容

本发明的目的在于提供一种多维度增强学习合成孔径雷达图像目标检测方法，以无锚框目标检测框架CenterNet2作为基准，设计了一种特征增强轻量级骨干LWBackbone，降低模型的参数量同时有效提取SAR目标显著特征，并提出混合域注意力机制CNAM，有效抑制陆地复杂背景干扰，突出目标区域，利用感受野增强检测头模块RFEHead，设计不同空洞率卷积提升感受野，提升检测头的多尺度感知性能。

本发明提供了一种多维度增强学习合成孔径雷达图像目标检测方法，包括以下步骤：

基于无锚框目标检测算法构建骨干网络LWBackbone；

骨干网络LWBackbone采用融合混合域注意力机制对合成孔径雷达图像中的目标进行特征提取，所述混合域注意力机制为将通道注意力的提取结果输入空间注意力进行特征提取；

将提取的特征依次输入3层不同权重的特征融合BiFPN层进行不同尺度的特征融合；

设置具有空洞卷积结构的ASPP模块在检测头RFEHead的输入端，设置不同空洞率卷积改变检测头RFEHead的感受野；

特征融合结果经过空洞卷积结构后输入至检测头RFEHead，所述检测头RFEHead对目标物体的多尺度信息进行不同感受野的空间层级化信息提取；

将空间层级化信息提取结果输入目标检测网络CenterNet，进行空间层级化信息提取结果的分类和检测，输出目标检测结果。

进一步地，所述骨干网络LWBackbone，包括：

stem block单元：由3x3可变形的卷积层构成，接收合成孔径雷达图像特征进行卷积操作，卷积结果输入至OSA单元；

OSA单元：依次序由四个阶段的OSA模块构成，所述OSA模块对卷积结果进行深度可分离卷积，输出特征提取结果，其中，OSA模块由3个3x3深度可分离卷积串联形成，串联结果最后聚合到一个通道上进行输出。

进一步地，所述OSA模块采用stride值为2的3x3最大池化层进行降采样，模型最终的stride值为32。

进一步地，所述混合域注意力机制为将通道注意力的提取结果输入空间注意力进行特征提取，其步骤包括：

采用比例因子测量通道的方差，并应用权重稀疏惩罚因子获取其权重；

将通道注意力得到特征图作为空间注意力的输入，进行全局最大池化和全局平均池化，得到两个H×W×1的特征图；

将两个特征图基于通道维度进行拼接，再使用7x7的卷积核降维到一通道；

使用激活函数sigmoid生成空间特征图并与输入特征做乘法，得到特征提取结果。

进一步地，所述具备空洞卷积结构的ASPP模块，包括：

全局平均池化得到图像每层的特征，并进行1x1卷积，再双线性插值到原始大小；

分别利用一个1x1卷积层以及3个3x3不同的空洞率卷积；

将5个不同尺度的特征在通道维度连接在一起，送入1x1卷积进行融合输出。

进一步地，还包括：对合成孔径雷达图像进行预处理，预处理的步骤包括：

根据标签选择性复制合成孔径雷达图像中的目标物体，对其进行角度和大小的随机转换；

其中对合成孔径雷达图像进行背景分割，识别图像中的背景区域；

将复制出来的目标使用泊松融合的方法粘贴至背景区域，并通过设置阈值和对标签文件的读取，确保粘贴的对象不与任何现有的对象重叠以及距图像边界至少五个像素。

与现有技术相比，本发明具有如下显著优点：

本发明提出的一种多维度增强学习合成孔径雷达图像目标检测方法，以无锚框目标检测框架CenterNet2作为基准，降低模型的参数量和计算复杂度，提高推理速度，设计了一种特征增强轻量级骨干LWBackbone，降低模型的参数量同时有效提取SAR目标显著特征，并提出混合域注意力机制CNAM，有效抑制陆地复杂背景干扰，突出目标区域，利用感受野增强检测头模块RFEHead，设计不同空洞率卷积提升感受野，提升检测头的多尺度感知性能；本发明提供的一种多维度增强学习合成孔径雷达图像目标检测方法，利用具有语义关系的复制粘贴进行数据增强，并对SAR目标样本进行语义扩充，提升样本量，构建无锚框目标检测模型，并降低无锚框目标检测模型过拟合的问题。

附图说明

图1为本发明实施例提供的目标检测整体框架图；

图2为本发明实施例提供的骨干网络LWBackbone结构图；

图3为本发明实施例提供的可变形卷积区别图；

图4为本发明实施例提供的通道注意力结构图；

图5为本发明实施例提供的空间注意力结构图；

图6为本发明实施例提供的注意力机制结构图；

图7为本发明实施例提供的ASPP模块图。

具体实施方式

下面结合本发明中的附图，对本发明实施例的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

经过研究员的不断努力，现有的SAR图像检测算法在一定程度上提升SAR目标舰船检测的精度，但依然存在模型的鲁棒性不足的缺点。由于SAR图像目标具有长宽比变化范围大、目标尺度多样化的特点，基于锚框的方法无法通过设置合适的锚框长宽比覆盖SAR图像中的所有目标。无锚检测方法直接预测目标大小不受锚框限制在SAR目标检测中具有很大的应用前景，无锚检测算法避免了复杂的参数设置，大大减少虚假候选，降低模型的参数量，同时更适合实时处理和移动部署。

本发明设计了一种多维度增强学习的无锚框SAR目标检测方法，采用改进无锚框目标检测算法CenterNet2，并将其命名为MDSAR，以均衡提升复杂背景下的SAR目标检测精度与速度。首先，针对SAR目标样本量少，目标小等问题，我们设计一种具有语义关系的复制粘贴方法进行数据增强；其次，我们以最新的无锚框目标检测框架CenterNet2作为基准，设计了一种新的特征增强轻量级骨干，称为LWBackbone，降低模型的参数量同时有效提取SAR目标显著特征；进一步地，提出一种新的混合域注意力机制，称为CNAM，有效抑制陆地复杂背景干扰，突出目标区域；最后，我们设计一种感受野增强检测头模块，称为RFEHead，设计不同空洞率卷积增强感受野，提升检测头的多尺度感知性能。本发明设计一种具有语义关系的复制粘贴进行数据增强的方法，对SAR目标样本进行语义扩充，提升样本量，降低模型过拟合，引入无锚框检测框架作为基准网络，降低模型的参数量和计算复杂度，提高推理速度。

实施例1

本发明提出了一种多维度增强学习的无锚框SAR目标检测算法，称为MDSAR，以均衡提升复杂背景下的SAR目标检测精度与速度。参照图1，MDSAR的整体框架图，该模型主要包含三个重要模块，特征提取网络LWBackbone即骨干模块，特征融合BiFPN层即Neck模块，以及最后增强检测头RFEHead即Head模块。

参照图1和图7，本发明提供了一种多维度增强学习合成孔径雷达图像目标检测方法，包括以下步骤：

步骤S1：基于无锚框目标检测算法构建骨干网络LWBackbone，所述骨干网络LWBackbone，包括：

OSA单元：依次序由四个阶段的OSA模块构成，所述OSA模块对卷积结果进行深度可分离卷积，输出特征提取结果，其中，OSA模块由3个3x3深度可分离卷积串联，串联结果最后聚合到一个通道上进行输出。所述OSA模块均采用stride值为2的3x3最大池化层进行降采样，模型最终的stride值为32，如图2所示。

LWBackbone在vovnet的基础上引入了ResNet的残差连接、混合域注意力机制CNAM模块以及深度可分离卷积，添加残差连接是为让模型能训练更深的网络，同时添加注意力机制也是为了让模型能更好学习特征。我们使用LWB19模型的参数列表如表1：

表1 LWB19的各部分参数

名称	参数	含义
			stem	64，64，64	三个stem模块输入的通道数
stage_conv_ch	64，80，96，112	stage2-5的输入通道
			stage_out_ch	112，256，384，512	stage2-5的输入通道
layer_per_block	3	每个OSA模块包含的conv的数量
			layer_per_stage	1，1，1，1	每个stage的OSA模块的数量
CNAM	True	注意力机制
			DW	True	深度可分离卷积

针对SAR图像的数据集偏小且具有多尺度的特点，本发明选用轻量化vovnet19作为基准的骨干网络，为了获得更好的检测性能和推理速度，我们提出一种新的轻量化骨干网络LWB19，首先将stage1阶段三个conv3x3的普通卷积替换成DFcov3x3可变形卷积(deformable convolution),可变形可根据实际情况调整本身的形状，更好的提取输入的特征。可变形卷积操作并没有改变卷积的卷积操作，而是在卷积操作的作用区域上，加上了一个可以学习的参数Δpn。同样对于每个输出y(p0)，都要从x上采样9个位置，这9个位置是中心位置x(p0)向四周扩散得到的，但是多了Δpn,允许采样点扩散成非grid形状。如图3所示，可变形卷积与普通卷积的区别。

其次在OSA模块中使用深度可分离卷积,在降低模型参数量的同时略微提升模型的检测精度，同时我们融合CBAM和NAM两大注意力机制，创新性提出CNAM注意力机制，让模型能更好关注舰船目标特征。

步骤S2：骨干网络LWBackbone采用融合混合域注意力机制对合成孔径雷达图像中的目标进行特征提取，所述混合域注意力机制为将通道注意力的提取结果输入空间注意力进行特征提取，其步骤包括：

传统的注意力只是关注显著特征，而忽视了非显著特征，由于SAR图像目标的尺度不一，不同通道上适合检测不同的目标，因此本发明对通道注意力模块应用一个权重稀疏惩罚因子，比例因子测量通道的方差并突出它们的重要性，如公式1所示：

其中μ_B为均值，σ_B为标准差，α和β是可训练的尺度和位移。

如图4，为通道注意力的示意图，其中输入特征F₁，输出特征M_c，α是每个通道的比例因子，即BN层，权重的值为ω，由公式2得来：

由于SAR图像成像机理的限制，很容易造成误检或者漏检的情况，因此添加空间注意力，让网络学习该去关注哪一部分。将通道注意力模块得到特征图作为输入，然后做全局最大池化和全局平均池化，得到两个HxWx1的特征图，然后将这两个特征图基于通道维度做一个拼接，再使用7x7的卷积进行降维到一通道，最后使用激活函数sigmoid生成空间特征图并与输入特征做乘法，得到最终结果，流程图如图5所示。

输入特征图是通道注意力输出的特征图经过压缩得到的F^c，输出的特征图为M_s，公式为：

M_s＝σ(f^7x7([AvgPool(F^c)；MaxPool(F^c)])) (3)。

为了更好捕捉SAR图像中舰船特征信息，我们将规范化通道注意力和空间注意力进行融合。输入特征先经过规范化通道注意力，将得到权重乘以输入特征再送入空间注意力中，最后相乘得到调整后的特征F₂，结构图如图6所示。

步骤S3：将提取的特征依次输入3层不同权重的特征融合BiFPN层进行不同尺度的特征融合。

步骤S4：设置具备空洞卷积结构的ASPP模块在检测头RFEHead的输入端，设置不同空洞率卷积改变检测头RFEHead的感受野。所述具备空洞卷积结构的ASPP模块，包括：

全局平均池化得到特征图的每层特征，并进行1x1卷积，再双线性插值到原始大小；

分别利用一个1x1卷积层以及3个3x3不同的空洞率卷积；

SAR图像目标一般尺度范围比较大，为了能够更好扩大感受野，我们在检测头头部之前加入带有空洞卷积的ASPP模块,引入多尺度信息，这样网络就有足够的感受野来覆盖到的目标物体,我们添加模块的结构图如图7所示。

ASPP主要包含以下几个部分，一个全局平均池化得到特征图的特征，并进行1x1卷积，然后双线性插值到原始大小；一个1x1卷积层以及3个3x3不同的空洞率卷积；最后将5个不同尺度的特征在channel维度concat在一起，送入1x1卷积进行融合输出。

损失函数用来表现预测与实际数据的差距程度，一个合适的损失函数对优化模型的训练至关重要，SAR舰船目标存在严重的正负样本不平衡的问题，因此我们的训练损失函数由3部分组成：

L_loss＝L_hm+λ₁L_reg+λ₂L_wh (4)

其中λ₁，λ₂为权重系数(设定λ₁＝1，λ₂＝0.1，)，L_hm，L_wh，L_reg分别代表中心热力图损失即分类损失，目标尺寸损失，中心点偏移损失。分类损失L_hm是通过Focalloss实现的，Focalloss能很好平衡正负样本不平衡的问题。公式中，

表示检测中心点对应的置信度，Y_xyc＝1为易分样本。α，β都是Focal loss超参数，一般α，β分别设为2和4。

回归损失使用GIOU损失函数，IOU损失表示预测框和真实框之间交并比的差值，我们将预测框和真实框分别记为A和B，C为包住AB的最小方框，计算C中没有覆盖A和B的面积占C总面积的比值，然后用A与B的IOU减去这个比值，反映预测检测框的检测效果，定义如下：

其中IOU代表预测框和真实框之间交并比，|C\(A∪B)|为C中没有覆盖A和B的面积。

步骤S5：特征融合结果经过空洞卷积结构后输入至检测头RFEHead，所述检测头RFEHead对目标物体的多尺度信息进行不同感受野的进行空间层级化信息提取。

步骤S6：将空间层级化信息提取结果输入目标检测网络CenterNet，进行空间层级化信息提取结果的分类和检测，再经过3层FastR-CNN计算最终总损失，输出目标检测结果。

CenterNet2是一种双阶段无锚框目标检测算法，是基于两阶段上的改进，CenterNet大致思路是预测结果会将输入进来的图片划分不同的区域，每个区域都会有一个特征点，CenterNet网络的预测结果就会判断这个特征点是否有对应的物体，以及物体的种类和置信度，同时还会对特征点进行调整获得物体的中心坐标，回归预测获得物体的宽高。作者在此基础上融合两阶段检测算法思路，用单阶段CenterNet替换两阶段检测中RPN部分，并将第一阶段的预测结果以一个概率方式转给第二阶段使用，该思路减少了低质量推荐框的数量，提高推理速度。对于每个阶段检测，CenterNet2模型都会提取区域特征并进行分类，在第二阶段使用Cascade-RCNN进行分类和检测，这两个阶段一起训练，以最大限度地提高预测概率的准确度。

本发明实施例提供的一种多维度增强学习合成孔径雷达图像目标检测方法，对合成孔径雷达图像进行预处理，预处理的步骤包括：

使用泊松融合的方法将目标物体复制粘贴至背景区域，使其看起来更贴近原图像，并通过设置阈值和对标签文件的读取，确保粘贴的对象不与任何现有的对象重叠以及距图像边界至少五个像素。

高质量的图像(丰富的目标种类以及目标尺度)是获取良好处理结果的基础，因此图像预处理操作依然十分重要。由于遥感图像具有非常复杂的空间结构和多样化场景，因此不同图像需要不同的预处理操作，常用阈值分割、聚类处理、数据增强等。SAR图像的一些特性及面临的检测难点如下：

(1)SAR目标采集难，成像机制比较复杂，往往需要专业的设备及仪器且目前公开的数据集偏少。

(2)SAR采集到的图像多数是大场景，图像中目标比较稀疏，占比偏小等。

针对上述问题，本发明决定采用数据增强方法，常用的数据增强方法有翻转、旋转、缩放、镜像、图像抖动等。旋转和水平翻转进行数据增强，训练集图像的角度变换增强了训练模型对不同角度图像的鲁棒性，提高了模型的泛化能力。这些数据增强方法，虽然在一定程度上增加目标样本量，但无法增加一幅图像中的目标数量，无法解决一幅图像中的目标多尺度问题以及小目标占比偏小、语义信息容易丢失等问题，因此本发明采用具有语义关系的数据增强方法来解决这个问题。

填鸭式方法是可以根据标签选择性复制图中目标物体，对其进行随机转换(大小改变±20％，角度旋转±15°)，将复制出来的目标使用泊松融合的方法粘贴到新位置，通过设置阈值和对标签文件的读取，确保粘贴的对象不与任何现有的对象重叠以及距图像边界至少五个像素。为了更好的确保增强后的数据集具有更强的语义关系，我们在粘贴之前对图像进行背景分割，将陆地与海面背景分隔开来，使目标不易与背景混淆。同时可以控制粘贴的次数，该方法不仅增加目标个数还使物体的位置更具多样性，增强了目标的语义信息，使效果达到最佳。

本申请提供的一种多维度增强学习合成孔径雷达图像目标检测方法，具体为：合成孔径雷达图像经过骨干网络LWBackbone，提取合成孔径雷达图像中目标的特征；将提取到特征送入到BiFPN层进行不同尺度的特征融合，BiFPN引入了不同的权重，能更好平衡不同尺度的特征信息，设置连续经过3层BiFPN层，然后将BiFPN层输出特征传给检测头，在检测头前面部分加入ASPP，为了获得更多的感受野，最终将获得特征先经过CenterNetHead计算分类和回归损失，再经过3层Fast R-CNN计算最终总损失，输出检测结果。

以上公开的仅为本发明的几个具体实施例，但是，本发明实施例并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种多维度增强学习合成孔径雷达图像目标检测方法，其特征在于，包括以下步骤：

基于无锚框目标检测算法构建骨干网络LWBackbone；

将空间层级化信息提取结果输入目标检测网络CenterNet，进行空间层级化信息提取结果的分类和检测，输出目标检测结果；

其中，所述骨干网络LWBackbone，包括：

2.如权利要求1所述的一种多维度增强学习合成孔径雷达图像目标检测方法，其特征在于，所述OSA模块采用stride值为2的3x3最大池化层进行降采样，模型最终的stride值为32。

3.如权利要求1所述的一种多维度增强学习合成孔径雷达图像目标检测方法，其特征在于，所述混合域注意力机制为将通道注意力的提取结果输入空间注意力进行特征提取，其步骤包括：

4.如权利要求1所述的一种多维度增强学习合成孔径雷达图像目标检测方法，其特征在于，所述具备空洞卷积结构的ASPP模块，包括：

分别利用一个1x1卷积层以及3个3x3不同的空洞率卷积；

5.如权利要求1所述的一种多维度增强学习合成孔径雷达图像目标检测方法，其特征在于，还包括：对合成孔径雷达图像进行预处理，预处理的步骤包括：

根据标签选择性复制合成孔径雷达图像中的目标物体，对目标物体进行角度和大小的随机转换；

对合成孔径雷达图像进行背景分割，识别图像中的背景区域；