CN114913433A

CN114913433A - 一种联合均衡特征和可变形卷积的多尺度目标检测方法

Info

Publication number: CN114913433A
Application number: CN202210548833.6A
Authority: CN
Inventors: 白宏阳; 郭宏伟; 胡云辉; 秦伟伟; 原瑜蔓
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2022-05-20
Filing date: 2022-05-20
Publication date: 2022-08-16

Abstract

本发明公开了一种联合均衡特征和可变形卷积的多尺度目标检测方法，该方法步骤如下：获取原始可见光遥感图像数据，建立包含目标位置、尺寸和类别信息的可见光遥感图像数据集；针对所构建的可见光遥感图像数据集进行数据增强；搭建基于自适应均衡特征增强和可变形卷积的目标检测模型；使用随机梯度下降算法在数据增强后的数据集上对目标检测模型进行训练；使用训练好的目标检测模型在测试集上进行测试，获得目标检测结果。本发明方法可以更好地适应目标的尺度、朝向和形状变化，同时有效提升了对小目标和密集目标的检测效果。

Description

一种联合均衡特征和可变形卷积的多尺度目标检测方法

技术领域

本发明涉及遥感图像处理、深度学习技术领域，特别是一种联合均衡特征和可变形卷积的多尺度目标检测方法。

背景技术

随着航空航天遥感技术的飞速发展，提供了海量的高分辨率遥感图像和丰富的信息对地球进行观测。作为遥感图像最主要的挑战和难点之一，目标自动检测技术由于其广泛的实际应用收到了广泛的关注，例如海洋救援、军事侦察和港口管理等。遥感图像与自然图像相比，由于观测角度、图像空间分辨率差异、目标本身的属性和地理环境影响等因素，遥感图像目标往往在尺度、方向、形状、外表、分布密集度等方面存在较大的差异，这些因素都在一定程度上影响了目标检测模型的检测精度。因此，需要一种能针对目标在尺度、方向、形状、外表方面的差异进行灵活采样并对特征进行自适应筛选的深度学习目标检测模型用于遥感图像多尺度目标检测。

已有相关的目标检测方法被陆续公开，例如专利CN112101153A公开了一种基于感受野模块与多重特征金字塔的目标检测方法，通过设计一种步长卷积特征金字塔对多尺度级联特征图进行特征优化，并结合感受野模块和优化后的特征图进一步对锚点进行优化，以实现对多尺度目标的检测。该发明直接在特征金字塔中对多尺度特征进行尺度变换和融合，对多尺度目标的检测性能有待提高。专利CN113177456A公开了一种基于多特征融合的光学遥感图像目标检测方法，针对深度卷积神经网络提取特征手段单一和不充分的问题，对于输入图像数据先提取数学形态学特征、线性尺度空间特征、非线性尺度空间特征，并将三种特征进行融合后输入深度卷积神经网络进行特征提取和预测目标检测结果。该发明将手工特征加入深度神经网络来改善网络性能的方式，对形状多变的多尺度目标的检测能力较差。

然而，以上基于深度卷积神经网络的方法一般是通过增强感受野和空间信息的方式优化卷积特征，或者结合传统手工特征对卷积网络的输入特征进行丰富，这样的方法没有提升深度卷积神经网络的采样方式，尤其是对于在尺度、方向、形状、外表方面具有显著差异的目标检测，从而影响了性能的提高。并且上述方法在进行不同尺度特征融合的过程中没有考虑到特征图的尺度关联性和不同尺度特征的重要程度，这同样会影响多尺度目标的检测效果。

发明内容

本发明的目的在于提供一种联合均衡特征和可变形卷积的多尺度目标检测方法，基于自适应均衡特征增强和可变形卷积进行遥感图像目标检测，通过全可变形卷积目标检测模型实现遥感图像多尺度目标检测。

实现本发明目的的技术解决方案为：一种联合均衡特征和可变形卷积的多尺度目标检测方法，包括以下步骤：

步骤1、获取原始可见光遥感图像数据，建立包含目标位置、尺寸和类别信息的可见光遥感图像数据集；

步骤2、针对所构建的可见光遥感图像数据集进行数据增强；

步骤3、搭建基于自适应均衡特征增强和可变形卷积的目标检测模型；

步骤4、使用随机梯度下降算法在数据增强后的数据集上对目标检测模型进行训练；

步骤5、使用训练好的目标检测模型在测试集上进行测试，获得目标检测结果。

本发明与现有技术相比，其显著优势为：(1)提出一种crop mosaic数据增强方法，在提升数据集泛化能力的同时有效保留了小目标的信息；(2)提出一种全可变形卷积的深度学习目标检测模型，具有更加灵活的采样方式，能更有效地提取遥感图像中的目标特征；(3)提供了一种均衡注意力特征增强方法，通过将所融合特征图的尺度间的联系转化为通道间的联系，然后依靠通道注意力指导生成自适应权重，从而实现多尺度特征的自适应加权融合，有效提升了目标检测模型对多尺度目标的检测能力。

附图说明

图1是本发明联合均衡特征和可变形卷积的多尺度目标检测方法的流程图。

图2是本发明全可变形卷积目标检测模型结构图。

图3是本发明特征融合模块结构图。

图4是本发明均衡注意力特征增强模块处理流程图。

图5是本发明在DOTA v1.5数据集上的目标检测结果图。

图6是本发明在DIOR数据集上的目标检测结果图。

具体实施方式

本发明提出了一种均衡注意力特征增强模块，基于通道注意力学习多尺度特征之间的非线性联系，并通过加权融合获得自适应均衡特征，有效提升了对多尺度目标的检测性能。本发明还提出了一种基于全可变形卷积的多尺度目标检测方法，通过将特征提取网络、特征融合部分和检测层的标准卷积全部替换为可变形卷积来提升网络模型的特征提取能力，有效改善了对形状多变的多尺度目标的检测能力。

本发明联合均衡特征和可变形卷积的多尺度目标检测方法，包括以下步骤：

步骤2、针对所构建的可见光遥感图像数据集进行数据增强；

作为一种具体实施方式，步骤1所述获取原始可见光遥感图像数据，建立包含目标位置、尺寸和类别信息的可见光遥感图像数据集，具体如下：

从原始数据中筛选得到包含待检测目标的大幅宽可见光遥感图像，将得到的大幅宽可见光遥感图像按照1024×1024pixels的大小进行切片；切片过程中采用固定步长重叠切片的方式，重叠步长为256pixels，使切片边界处目标至少完整处于其中一个切片；对于原始图像边界处不满足切片大小的情况，通过填充0像素的方式进行补全；

对所获得的图像切片进行人工筛选，挑选出包含目标的样本切片，采用水平边界框对样本切片中的目标进行手工标注，记录目标中心点坐标(x_c,y_c)、边界框宽W、边界框高H和目标类别号C_i，存储在对应的XML标签文件中，图像与标签文件命名方式相同，为原始图像编号_切片编号_处理时间。

作为一种具体实施方式，步骤2所述针对所构建的可见光遥感图像数据集进行数据增强，具体如下：

在步骤1所构建的可见光遥感图像数据集的基础上，每次随机选取4张样本按照旋转、反转、拉伸、亮度平衡、huv色彩偏移的方式进行数据增强，然后按512×512pixels的大小随机截取每张样本中含有目标的区域，并对获得的4张512×512pixels的切片进行拼接，重新形成1024×1024pixels大小的图像数据；同时按照截取接片和拼接时的空间位置重新计算在拼接后形成的图像中每个目标的位置变化，生成新的标签文件；将数据增强后的可见光遥感图像数据集按照6:2:2的比例划分为训练集、验证集和测试集。

作为一种具体实施方式，步骤3所述搭建基于自适应均衡特征增强和可变形卷积的目标检测模型，模型结构如下：

(3a)第一部分为骨干网络模块，使用ResNet-50作为骨干网络，并将网络中的标准卷积层全部替换为可变形卷积层(Deformable Convolution Layer)，搭建基于全可变形卷积的骨干网络FDC-ResNet-50，输入图像经过FDC-ResNet-50逐层提取多尺度特征；

(3b)第二部分为特征融合模块，骨干网络横向连接了由可变形卷积组成的路径聚合网络，该网络同时具有自上而下和自下而上的路径，用于对多尺度特征进行融合；

(3c)第三部分为均衡注意力特征增强模块，特征融合模块生成的融合特征横向连接了均衡注意力特征增强模块，将每种尺度的特征与邻近尺度特征通过通道注意力生成的自适应权重进行加权融合；

(3d)第四部分为检测推理模块，将VarifocalNet检测器中的标准卷积全部替换为可变形卷积得到检测推理模块，然后将增强后的特征输入到检测推理模块中生成预测框参数和目标类别信息。

作为一种具体实施方式，步骤(3a)中骨干网络FDC-ResNet-50输出5种尺度的特征图作为特征融合模块的输入，输出特征图大小分别是128×128、64×64、32×32、16×16和8×8。

作为一种具体实施方式，步骤(3b)中搭建了基于可变形卷积和路径聚合网络的特征融合模块，其中自下而上和自顶而下的特征传递过程采用最近邻线性插值缩放特征图尺度，每次缩放倍数为2，自下而上结构和自顶而下结构间的水平连接采用stride＝1、size＝3的可变形卷积，共输出5种尺度的特征图作为均衡注意力特征增强模块的输入，输出特征图大小分别是128×128、64×64、32×32、16×16和8×8。

作为一种具体实施方式，步骤(3c)中所搭建的均衡注意力特征增强模块水平连接在特征融合模块之后，根据当前处理特征图的尺度分为Type-A、Type-B和Type-C三种类型，其中：

均衡注意力特征增强模块Type-A用于增强输入特征图{P₃,P₄,P₅,P₆,P₇}中最小尺度的特征图P₇，首先对P₆进行stride＝2的最大值池化得到特征图

P₅先后经过stride＝2的最大值池化以及stride＝2的3×3卷积后得到特征图

特征图P₇传递给特征图

来源于三种尺度的特征图在通道维度上进行融合，得到初步融合特征图

其中W₇、H₇和C₇分别为初步融合特征图G₇的宽、高和通道数；

均衡注意力特征增强模块Type-B用于增强输入特征图{P₃,P₄,P₅,P₆,P₇}里中间尺度的特征图P_i,i＝4,5,6，首先对P_i-1进行stride＝2的最大值池化得到特征图

P_i+1先后经过线性插值进行上采样后得到特征图

特征图P_i传递给特征图

i＝4,5,6，其中W_i、H_i和C_i分别为初步融合特征图G_i的宽、高和通道数；

均衡注意力特征增强模块Type-C用于增强输入特征图{P₃,P₄,P₅,P₆,P₇}中最大尺度的特征图P₃，首先对P₄通过线性插值进行2倍上采样得到特征图

P₅通过线性插值进行2倍上采样得到特征图

特征图P₇传递给特征图

其中W₃、H₃和C₃分别为初步融合特征图G₃的宽、高和通道数。

作为一种具体实施方式，步骤(3c)中所搭建的均衡注意力特征增强模块在获取初步融合特征图

i＝3,4,5,6,7之后，分别经过两条支路：

第一条支路依次通过卷积核数量为3的3×3卷积、全局平均池化层、卷积核数量为3r的1×1卷积、卷积核数量为3的1×1卷积、Sigmoid激活函数和Softmax函数，得到初步融合特征图G_i中来源于三种尺度的特征图的自适应权重系数[α,β,γ]；

第二条支路依次将初步融合特征图G_i中来源于三种尺度的特征图M_i与第一条支路得到的自适应权重系数[α,β,γ]分别加权，并通过逐像素相加的方式进行融合，即

然后经过一个3×3卷积得到自适应均衡特征图

作为一种具体实施方式，步骤4所述使用随机梯度下降算法在数据增强后的数据集上对目标检测模型进行训练，具体如下：

前24个周期使用随机梯度下降算法在数据增强后的数据集上对目标检测模型进行训练，然后通过随机梯度平均(Stochastic Weights Averaging)算法继续训练12个周期得到最终的目标检测模型。

作为一种具体实施方式，步骤5所述使用训练好的目标检测模型在测试集上进行测试，获得目标检测结果，具体如下：

首先对原始遥感图像按照1024×1024pixels的大小进行切片，切片过程中采用固定步长重叠切片的方式，重叠步长为256pixels，以保证切片边界处目标至少完整处于其中一个切片；对于原始图像边界处不满足切片大小的情况，通过填充0像素的方式进行补全；

然后将切片图像分别输入步骤4中训练好的目标检测模型，得到初步的检测框信息和目标的类别信息；将各切片的检测框信息投影在原始遥感图像上，先对检测框进行置信度阈值筛选，置信度阈值设置为0.25；筛选得到的检测框通过非极大值抑制的方法过滤掉冗余的检测框，得到最终的目标检测结果并输出。

下面结合附图及具体实施例对本发明做进一步详细描述。

实施例

本发明提出一种联合均衡特征和可变形卷积的多尺度目标检测方法，具体实施流程如图1所示，分为以下步骤：

第一步：获取原始可见光遥感图像数据，建立包含目标位置、尺寸和类别信息的可见光遥感图像数据集，从中筛选得到包含待检测目标的大幅宽可见光遥感图像，将得到的大幅宽可见光遥感图像按照1024×1024pixels的大小进行切片。切片过程中采用固定步长重叠切片的方式，重叠步长为256pixels，以保证切片边界处目标至少完整处于其中一个切片。对于原始图像边界处不满足切片大小的情况，通过填充0像素的方式进行补全。然后，对所获得的图像切片进行人工筛选，挑选出包含目标的样本切片，采用水平边界框对样本切片中的目标进行手工标注，记录目标中心点坐标(x_c,y_c)、边界框宽W、边界框高H和目标类别号C_i，存储在对应的XML标签文件中，图像与标签文件命名方式相同，为“原始图像编号_切片编号_处理时间”。

第二步：针对所构建的可见光遥感图像数据集进行数据增强。在所构建的可见光遥感图像数据集的基础上，每次随机选取4张样本按照旋转、反转、拉伸、亮度平衡、huv色彩偏移等方式进行数据增强，然后按512×512pixels的大小随机截取每张样本中含有目标的区域，并对获得的4张512×512pixels的切片进行拼接，重新形成1024×1024pixels大小的图像数据。同时按照截取接片和拼接时的空间位置重新计算在拼接后形成的图像中每个目标的位置变化，生成新的标签文件。将数据增强后的可见光遥感图像数据集按照6:2:2的比例划分为训练集、验证集和测试集。

第三步：搭建基于自适应均衡特征增强和可变形卷积的目标检测模型，主要分为四个部分，具体结构和计算流程如图2所示。

第一部分为骨干网络模块，使用ResNet-50作为骨干网络，并将网络中的标准卷积层全部替换为可变形卷积层(Deformable Convolution Layer)搭建基于全可变形卷积的骨干网络FDC-ResNet-50，输入图像经过FDC-ResNet-50逐层提取多尺度特征，输出5种尺度的特征图作为特征融合模块的输入，输出特征图大小分别是128×128、64×64、32×32、16×16和8×8。

第二部分为特征融合模块，搭建了如图3所示的基于可变形卷积和路径聚合网络的特征融合模块，其中自下而上和自顶而下的特征传递过程采用最近邻线性插值缩放特征图尺度，每次缩放倍数为2，自下而上结构和自顶而下结构间的水平连接采用stride＝1、size＝3的可变形卷积，共输出5种尺度的特征图作为均衡注意力特征增强模块的输入，输出特征图大小分别是128×128、64×64、32×32、16×16和8×8。

第三部分为均衡注意力特征增强模块，特征融合模块生成的融合特征横向连接了均衡注意力特征增强模块，将每种尺度的特征与邻近尺度特征通过通道注意力生成的自适应权重进行加权融合。首先根据当前处理特征图的尺度分为Type-A、Type-B和Type-C三种类型，三种类型均衡注意力特征增强模块的具体结构和计算流程如图4所示。

特征图P₇传递给特征图

P_i+1先后经过线性插值进行上采样后得到特征图

特征图P_i传递给特征图

来源于三种尺度的特征图在通道维度上进行融合，得到初步融合特征图如下所示：

P₅通过线性插值进行2倍上采样得到特征图

特征图P₇传递给特征图

在获取初步融合特征图

i＝3,4,5,6,7之后，分别经过两条支路：第一条支路依次通过卷积核数量为3的3×3卷积、全局平均池化层、卷积核数量为3r的1×1卷积、卷积核数量为3的1×1卷积、Sigmoid激活函数和Softmax函数，得到初步融合特征图G_i中来源于三种尺度的特征图的自适应权重系数[α,β,γ]；第二条支路依次将初步融合特征图G_i中来源于三种尺度的特征图H_i与第一条支路得到的自适应权重系数[α,β,γ]分别加权，并通过逐像素相加的方式进行融合，即表示为

然后经过一个3×3卷积得到自适应均衡特征图

第四部分为检测推理模块，将VarifocalNet检测器中的标准卷积全部替换为可变形卷积得到检测推理模块，然后将增强后的特征输入到检测推理模块中生成预测框参数和目标类别信息。

第四步：使用随机梯度下降算法在数据增强后的数据集上对目标检测模型进行训练。前24个周期使用随机梯度下降算法在数据增强后的数据集上对目标检测模型进行训练，然后通过随机梯度平均(Stochastic Weights Averaging)算法继续训练12个周期得到最终的目标检测模型。

第五步：使用训练好的目标检测模型在测试集上进行测试。首先对原始遥感图像按照1024×1024pixels的大小进行切片，切片过程中采用固定步长重叠切片的方式，重叠步长为256pixels，以保证切片边界处目标至少完整处于其中一个切片。对于原始图像边界处不满足切片大小的情况，通过填充0像素的方式进行补全。然后将切片图像分别输入步骤(4)中训练好的目标检测模型，得到初步的检测框信息和目标的类别信息。将各切片的检测框信息投影在原始遥感图像上，先对检测框进行置信度阈值筛选，置信度阈值设置为0.25。筛选得到的检测框通过非极大值抑制的方法过滤掉冗余的检测框，得到最终的目标检测结果并输出。

下面结合仿真实验对本发明的效果做进一步的说明：

一、仿真实验条件：

本发明的仿真实验的硬件平台为：CPU型号为Intel i7-7700K CPU，内存大小为32GB；GPU为NVIDIA GeForce GTX 1080Ti，显存大小为11GB。

本发明的仿真实验的软件平台为：操作系统为Ubuntu 16.04LTS，CUDA版本为10.1，Pytorch的版本为1.8.0。OpenCV版本为4.4.0。

实验使用的数据集为公开的遥感图像数据集DOTA v1.5和DIOR，采用其中包含舰船目标的样本图像，实验过程使用AP(Average Precision)作为评价指标。

二、仿真及实验结果

表1 DOTA v1.5数据集上的仿真实验结果对比

表2 DIOR数据集上的仿真实验结果对比

本发明所提出方法在在公开的遥感图像数据集DOTA v1.5和DIOR上的部分可视化测试结果分别如图5和图6所示，通过表1～表2的实验结果对比，可以看到本发明所提出的方法能有效提升对多尺度目标，尤其是小目标的检测精度。

本发明通过提供一种对于多尺度目标具有灵活采样能力和的深度学习目标检测模型和基于自适应均衡特征增强的多尺度特征加权融合方法，实现对于遥感图像多尺度目标的有效检测。

Claims

1.一种联合均衡特征和可变形卷积的多尺度目标检测方法，其特征在于，包括以下步骤：

步骤2、针对所构建的可见光遥感图像数据集进行数据增强；

2.根据权利要求1所述的联合均衡特征和可变形卷积的多尺度目标检测方法，其特征在于，步骤1所述获取原始可见光遥感图像数据，建立包含目标位置、尺寸和类别信息的可见光遥感图像数据集，具体如下：

3.根据权利要求1所述的联合均衡特征和可变形卷积的多尺度目标检测方法，其特征在于，步骤2所述针对所构建的可见光遥感图像数据集进行数据增强，具体如下：

4.根据权利要求1所述的联合均衡特征和可变形卷积的多尺度目标检测方法，其特征在于，步骤3所述搭建基于自适应均衡特征增强和可变形卷积的目标检测模型，模型结构如下：

(3a)第一部分为骨干网络模块，使用ResNet-50作为骨干网络，并将网络中的标准卷积层全部替换为可变形卷积层，搭建基于全可变形卷积的骨干网络FDC-ResNet-50，输入图像经过FDC-ResNet-50逐层提取多尺度特征；

5.根据权利要求4所述的联合均衡特征和可变形卷积的多尺度目标检测方法，其特征在于，步骤(3a)中骨干网络FDC-ResNet-50输出5种尺度的特征图作为特征融合模块的输入，输出特征图大小分别是128×128、64×64、32×32、16×16和8×8。

6.根据权利要求4所述的联合均衡特征和可变形卷积的多尺度目标检测方法，其特征在于，步骤(3b)中搭建了基于可变形卷积和路径聚合网络的特征融合模块，其中自下而上和自顶而下的特征传递过程采用最近邻线性插值缩放特征图尺度，每次缩放倍数为2，自下而上结构和自顶而下结构间的水平连接采用stride＝1、size＝3的可变形卷积，共输出5种尺度的特征图作为均衡注意力特征增强模块的输入，输出特征图大小分别是128×128、64×64、32×32、16×16和8×8。

7.根据权利要求4所述的联合均衡特征和可变形卷积的多尺度目标检测方法，其特征在于，步骤(3c)中所搭建的均衡注意力特征增强模块水平连接在特征融合模块之后，根据当前处理特征图的尺度分为Type-A、Type-B和Type-C三种类型，其中：