CN112396002B

CN112396002B - 一种基于SE-YOLOv3的轻量级遥感目标检测方法

Info

Publication number: CN112396002B
Application number: CN202011310176.9A
Authority: CN
Inventors: 周丽芳; 邓广; 李伟生; 雷邦军
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2023-05-30
Anticipated expiration: 2040-11-20
Also published as: CN112396002A

Abstract

本发明请求保护一种于SE‑YOLOv3的轻量级遥感目标检测方法，属于目标检测技术领域，包括以下步骤：步骤1.YOLOv3算法为基础模型框架，为了减少网络参数提升网络推理速度，本发明设计了轻量级主干特征提取网络。步骤2.为了提高特征的尺度不变性，降低过拟合风险，本发明提出使用空间金字塔池化(SPP)算法，进行三个尺度的池化得到固定长度的输出特征向量。引入了空间注意力模型SE模块，进一步的压缩无用信息增强有用信息。步骤3.通过迭代训练、更新参数得到最终的网络模型，利用该模型采取多尺度预测，通过三个尺度的检测头预测最终结果。本发明在有效提升网络的推理速度的同时，保证了精度，增强了网络的特征表达能力，并提高了尺度不变性。

Description

一种基于SE-YOLOv3的轻量级遥感目标检测方法

技术领域

本发明属于计算机视觉和深度学习领域，特别是涉及一种基于SE-YOLOv3的轻量级框架遥感图像目标检测方法。

背景技术

随着航空航天技术和深度学习的快速发展，高分辨率大尺度遥感图像数据不断丰富，遥感图像通常存在尺度变化大、高分辨、目标分布稀疏等问题。人工神经网络在遥感图像目标检测领域得到广泛的应用，但是大多数算法都是基于先验框的方式，在遥感图像中进行全方位的扫描检测，对于大场景的图像和大型特征提取网络，这一方式需要大量的计算资源。为了兼顾检测速度和检测精度，实现快速遥感目标检测成为当前领域的一个研究热点。

目标检测即找出图像中所有感兴趣的物体，包含物体定位和物体分类两个子任务，同时确定物体的类别和位置。目前广泛应用的目标检测方法主要分为两类：One-stage和Two-stage。Two-stage方法是基于区域的算法，将目标检测划分为检测和识别两个阶段，首先有算法或者网络在图像中寻找感兴趣区域，再对区域内的目标进行识别，如RCNN，Fast-RCNN，Faster-RCNN等；而One-stage方法是一种端到端的算法，利用回归的思想直接产生目标的类别概率和位置坐标，实现检测与识别，如YOLO，SSD等。One-stage方法相对于Two-stage方法在速度方面快很多，但是在精度上面相对较低。

由于遥感图像中目标存在成像视角单一、目标分布密集和目标尺度变化大等特点，直接将自然场景目标检测方法应用于遥感图像目标检测任务中，并不能获得满意的效果。而且其高分辨率，图像尺寸大的问题会加重算法的计算代价。近年来，One-stage算法在精度上已经可以和Two-stage算法相媲美，YOLO算法系列是具有代表性的One-stage算法，YOLOv3算法是速度和精度均衡的目标检测网络，但相比于RCNN系列物体检测方法识别物体位置精准性差，召回率低。因此如何设计一个适用于遥感图像快速目标检测的算法，保持较高的精度和速度，依旧是个难点。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种基于SE-YOLOv3的轻量级遥感目标检测方法。本发明的技术方案如下：

一种基于SE-YOLOv3的轻量级遥感目标检测方法，其包括以下步骤：

步骤1：将遥感图像数据集分为训练集和测试集，对训练集进行预处理，主要涉及图片的尺寸调整(resize)和数据增强操作，得到完备样本数据集并通过K-means算法聚类获取锚框(anchor)的尺寸大小；

步骤2：利用深度可分离卷积参数量和运算成本较低的特性，构建轻量级主干网(Backbone)对遥感图像进行特征提取；

步骤3：在102的基础上，利用空间金字塔池化(spatial pyramid pool，简称SPP)提高特征的尺度不变和降低过拟合，得到固定长度输出，并采用挤压和激励(squeeze-and-excitation，简称SE)注意力模块将浅层信息和深层信息融合；

步骤4：通过多尺度迭代训练得到最终的网络模型，使用训练得到的模型对测试图片进行预测，从而得到的检测结果。

进一步的，所述步骤1具体包括以下步骤：

1.1对初始样本数据集中的图片数据通过裁剪生成1024*1024像素的图片，图片之间重叠256个像素，并且保持原来的注释，然后统计各个类别的目标数量和图片数量；

1.2对1.1中得到的图片数据进行筛选，去除没有目标对象的负样本图片，得到的正样本通过平移、旋转、调整饱和度和曝光度在内的操作，增加样本数据，对待识别目标的特征参数进行(包括目标的尺寸，分辨率，方向等等)处理，得到完备的遥感目标检测数据集；

1.3通过K-means聚类算法，对1.2中得到的样本数据训练集所标注的待识别目标的真实目标边界框进行聚类分析。

进一步的，所述步骤1.3通过K-means聚类算法，对1.2中得到的样本数据训练集所标注的待识别目标的真实目标边界框进行聚类分析，具体包括：

初始化9个锚框(anchor box)，通过在所有的bounding boxes中随机选取9个值作为anchor boxes的初始值；计算每个bounding box与每个anchor box的交并比值(Intersection over Union，简称IOU)，对于每个bounding box选取其最高的那个IOU值，然后求所有bounding box的平均值，也即最后的精确度值,最终得到9个精确的anchor box作为网络的预设值。

进一步的，所述步骤2构建轻量级Backbone对遥感图像进行特征提取，具体包括：

2.1在Ultralytics版YOLOv3网络模型上进行特征提取，YOLOv3的主干网(Backbone)包括一个输入层，52个卷积层，23个融合层，根据YOLOv3网络结构，将其分为15个块(block)，每个block使用1×1的常规卷积进行升维后，使用3×3深度卷积Depthwise抽取特征；

2.2接着将Depthwise卷积提取的特征输入到轻量级挤压激励模型SE调整每个通道的权重，SE网络结构中一组特征在上一层被输出，分两条路线，第一条直接通过，第二条首先进行挤压(Squeeze)操作，把每个通道2维的特征压缩成一个1维，从而得到一个特征通道向量，每个数字代表对应通道的特征，然后进行激励(Excitation)操作，把这一列特征通道向量输入两个全连接层和sigmoid，建模出特征通道间的相关性，得到的输出其实就是每个通道对应的权重，把这些权重通过尺度(scale)相乘通道加权到原来的特征上，这样就完成了特征通道的权重分配，得到新的通道特征图(feature maps)；

2.3采用点卷积(Pointwise Convolution)来将这些特征图进行组合生成新的Feature map，Pointwise Convolution的卷积核的尺寸为1×1×M，M为上一层的通道数，卷积运算会将上一步的map在深度方向上进行加权组合，输出M个新的feature maps；

2.4将当前层及其倒数第四层输出特征输入到直连(shortcut)残差层，进行ADD操作，并使用线性Linear激活函数激活，shortcut连接相当于执行同等映射，在最后一个shortcut层就得到了最终feature maps。

进一步的，所述步骤3利用空间金字塔池化SPP和SE注意力模型优化特征，具体包括：

3.1训练阶段采用各种尺寸的图像进行训练，将步骤2的结果输入到SPP中，将feature maps分别分成16、4、1份，进行最大池化操作Max Pooling，feature maps就被转化成了16*256+4*256+1*256＝21*256的矩阵，也就是21维特征向量；

3.2通过对3.1得到同一尺寸的feature maps使用通道注意力模型(SE)进行处理，得到一个和通道数一样的一维向量作为每个通道的评价分数，然后将改分数分别施加到对应的通道上，得到加强后的特征；

3.3将加强后的特征输入到三个尺度的YOLO检测头，分别对应小，中，大目标对象，使用1.3中聚类出的anchor box作为先验框，并设置所预测对象类别数量；

3.4至此为止，整个网络框架搭建完成。

进一步的，所述步骤4通过完整的训练得到最终的模型，使用模型对测试图片进行分类，得到最终的检测结果，具体包括：

4.1将步骤101中的训练集使用上述步骤中构建的网络进行训练，得到网络输出模型；

4.2将网络的输出经过降采样，得到三个多尺度的特征图，特征图中的每一个cell都会预测3个边界框bounding box，每个bounding box都会预测三个东数据：(1)每个框的位置，包括4个值，中心坐标t_x和t_y，框的高度b_h和宽度b_w，(2)一个目标性得分(objectnessscore)，(3)N个类别；

4.3Bounding box的坐标预测，t_x、t_y、t_w、t_h就是模型的预测输出，c_x和c_y表示gridcell的坐标；

4.4类别预测采用多标签分类，复杂场景下，一个object可能属于多个类，检测的结果中类别标签可能同时有两个类，就需要用逻辑回归层来对每个类别做二分类。逻辑回归层主要用到sigmoid函数，该函数可以将输入约束在0到1的范围内，因此当一张图像经过特征提取后的某一类输出经过sigmoid函数约束后如果大于0.5，就表示属于该类。

进一步的，当步骤4.3中某层的feature map大小是13*13，那么grid cell就有13*13个，第0行第1列的grid cell的坐标c_x就是0，c_y就是1，p_w和p_h表示预测前bounding box的size，b_x、b_y、b_w和b_h就是预测得到的bounding box的中心的坐标和size，坐标的损失采用的是平方误差损失；

b_x＝δ(t_x)+c_x

b_y＝δ(t_y)+c_y

p_r(object)*IOU(b,object)＝δ(t₀)

其中δ(t_x)、δ(t_y)分别表示将t_x、t_y约束在(0,1)范围内，p_w和p_h分别表示预测前bounding box的宽和高，p_r(object)表示当前模型bounding box内存在目标的可能性，IOU(b,object)表示bounding box预测目标位置的准确性，δ(t_o)表示将预测参数t_o约束在(0,1)范围内。

本发明的优点及有益效果如下：

本发明主要针对目前流行的基于深度卷积神经网络的遥感图像目标检测任务中，网络训练收敛速度慢、计算资源占用高、推理速度慢等问题；提出了一种网络结构轻量、计算资源占用低、推理速度快的遥感目标检测方法。在网络结构设计阶段，选取YOLOv3算法为基准算法，利用深度可分离卷积的替换传统卷积，在提取特征阶段产生较少的参数；与传统卷积相比，网络模型更小，训练时效更优，时效性强，具有更好的泛化能力，适用于不同的应用场景。考虑到主干网(backbone)阶段提取到的特征属于浅层特征，因此在网络的颈部融合注意力机制SE和空间金字塔池化(SPP)模块，从而有效的增强特征，得到我们想要的特征；通过迭代训练、更新参数得到最终的网络模型，使用该网络模型进行三个尺度的预测，在保证检测精度的同时大大的提升了速度。本方法获得了较好的校测效果。

附图说明

图1是本发明提供优选实施例基于SE-YOLOv3的轻量化遥感图像目标检测方法网络框架；

图2为本发明的空间金字塔池化模块示意图。

图3为本发明的空间注意力SE模型示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

本发明实施例基于YOLOv3目标检测框架为基本框架，详见Redmon J,FarhadiA.Yolov3:An incremental improvement[J].arXiv preprint arXiv:1804.02767,2018。其中网络的主干网修改为轻量化结构，使用深度可分离卷积构成，提取出的特征经过SPP模块输出尺度统一的特征，在经过注意力模块SE的强化，作为下一层网络的输入。

下面结合附图，对本发明进一步说明：

如附图1所示，一种基于SE-YOLOv3的轻量级框架遥感目标检测方法的网络框架的设计流程包括以下步骤：

A、本设计步骤在Ultralytics版YOLOv3网络模型上进行，YOLOv3的Backbone包括一个输入层，52个卷积层，23个融合层。根据MobileNetv3网络结构，减少卷积层的数量，将其分为15个块(Block)，每个Block使用1×1的常规卷积进行升维后，使用3×3深度卷积Depthwise抽取特征。

B、接着在的Depthwise提取的特征输入到轻量级挤压激励模型SE(Squeeze andExcite)调整每个通道的权重。如图1所示SEnet结构，一组特征在上一层被输出，这时候分两条路线，第一条直接通过，第二条首先进行挤压(Squeeze)操作全局平均池化(GlobalAverage Pooling)，把每个通道2维的特征压缩成一个1维，从而得到一个特征通道向量(每个数字代表对应通道的特征)。然后进行激励(Excitation)操作，把这一列特征通道向量输入两个全连接层和sigmoid，建模出特征通道间的相关性，得到的输出其实就是每个通道对应的权重，把这些权重通过尺度相乘通道加权到原来的特征上(第一条路)，这样就完成了特征通道的权重分配，得到新的通道特征图。

C、由于Depthwise Convolution对输入层的每个通道独立进行卷积运算，没有有效的利用不同通道在相同空间位置上的feature信息。因此需要点卷积(PointwiseConvolution)来将这些特征图进行组合生成新的特征图。Pointwise Convolution的运算与常规卷积运算非常相似，它的卷积核的尺寸为1×1×M，M为上一层的通道数，卷积运算会将上一步的map在深度方向上进行加权组合，输出M个新的feature map。

D、将当前层及其倒数第四层输出特征输入到直连(shortcut)残差层，进行ADD操作，并使用线性Linear激活函数激活。shortcut连接相当于简单执行了同等映射，不会产生额外的参数，也不会增加计算复杂度。在最后一个shortcut层就得到了我们想要的特征图。

进一步的，为了将特征图调整为固定大小的特征向量，提高特征的尺度不变性，以及压缩无用并加强有用信息，具体的网络流程设计如附图2,3所示，具体实施步骤如下：

A、考虑到遥感图像尺度变化大，训练阶段采用了多尺度训练的方式，使用各种尺寸的图像进行训练可以提高尺度的不变性。将步骤2的结果输入到空间金字塔池化(SPP)模块中，如图2所示，将特征图(feature maps)分别分成16、4、1份，进行最大池化操作(MaxPooling)，feature maps就被转化成了16*256+4*256+1*256＝21*256的矩阵，也就是21维特征向量。SPP能在输入尺寸任意的情况下产生固定大小的输出，多级池化对于物体的变形有十分强的鲁棒性，图像划分为从更细到更粗的级别，并聚合他们的局部特征。SPP可以提高特征的尺度不变(scale-invariance)和降低过拟合(over-fitting)风险。

B、通过对3.1得到同一尺寸的feature maps使用通道注意力机制(SE)进行处理，得到一个和通道数一样的一维向量作为每个通道的评价分数，然后将改分数分别施加到对应的通道上，得到其加强后的特征；

C、将加强后的特征输入到三个尺度的YOLO检测头，分别对应小，中，大目标对象，使用1.3中聚类出的锚框(anchor box)作为先验框，并设置所预测对象类别数量；

进一步的，通过完整的训练得到最终的模型，使用模型对待测试图片进行检测，得到最终的检测结果，具体步骤如下：

A、将步骤101中的训练集使用上述步骤中构建的网络进行训练，得到网络输出模型；

B、将网络的输出经过降采样，得到三个多尺度的特征图，特征图中的每一个cell都会预测3个边界框(bounding box)，每个bounding box都会预测三个东西：(1)每个框的位置(4个值，中心坐标t_x和t_y，框的高度b_h和宽度b_w)，(2)一个目标性得分objectnessprediction，(3)N个类别；

C、Bounding box的坐标预测，t_x、t_y、t_w、t_h就是模型的预测输出。c_x和c_y表示gridcell的坐标，比如某层的feature map大小是13*13，那么grid cell就有13*13个，第0行第1列的grid cell的坐标c_x就是0，c_y就是1。p_w和p_h表示预测前bounding box的size。b_x、b_y、b_w和b_h就是预测得到的bounding box的中心的坐标和size。坐标的损失采用的是平方误差损失；

b_x＝δ(t_x)+c_x

b_y＝δ(t_y)+c_y

/>

p_r(object)*IOU(b,object)＝δ(t₀)

D、类别预测采用多标签分类，复杂场景下，一个object可能属于多个类，检测的结果中类别标签可能同时有两个类，就需要用逻辑回归层来对每个类别做二分类。逻辑回归层主要用到sigmoid函数，该函数可以将输入约束在0到1的范围内，因此当一张图像经过特征提取后的某一类输出经过sigmoid函数约束后如果大于0.5，就表示属于该类。

本方法和其他深度学习的目标检测方法相比，本发明在增加少量计算量的情况下，有效的提高了遥感图像检测的性能，节约了网络计算成本和内存消耗。

上述实施例阐明的方法、系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于SE-YOLOv3的轻量级遥感目标检测方法，其特征在于，包括以下步骤：

步骤1：将遥感图像数据集分为训练集和测试集，对训练集进行预处理，主要涉及图片的尺寸调整和数据增强操作，得到完备样本数据集并通过K-means算法聚类获取锚框的尺寸大小；

步骤2：利用深度可分离卷积参数量和运算成本较低的特性，构建轻量级主干网对遥感图像进行特征提取；

步骤3：在步骤2的基础上，利用空间金字塔池化提高特征的尺度不变和降低过拟合，得到固定长度输出，并采用挤压和激励注意力模块将浅层信息和深层信息融合；

步骤4：通过多尺度迭代训练得到最终的网络模型，使用训练得到的模型对测试图片进行预测，从而得到的检测结果；

所述步骤2构建轻量级Backbone对遥感图像进行特征提取，具体包括：

2.1在Ultralytics版YOLOv3网络模型上进行特征提取，YOLOv3的主干网Backbone包括一个输入层，52个卷积层，23个融合层，根据YOLOv3网络结构，将其分为15个块block，每个block使用1×1的常规卷积进行升维后，使用3×3深度卷积Depthwise抽取特征；

2.2接着将Depthwise卷积提取的特征输入到轻量级挤压激励模型调整每个通道的权重，SE网络结构中一组特征在上一层被输出，分两条路线，第一条直接通过，第二条首先进行挤压操作，把每个通道2维的特征压缩成一个1维，从而得到一个特征通道向量，每个数字代表对应通道的特征，然后进行激励操作，把这一列特征通道向量输入两个全连接层和sigmoid，建模出特征通道间的相关性，得到的输出其实就是每个通道对应的权重，把这些权重通过尺度乘法通道加权到原来的特征上，这样就完成了特征通道的权重分配，得到新的通道特征图；

2.3采用点卷积来将这些特征图进行组合生成新的feature map，PointwiseConvolution的卷积核的尺寸为1×1×M，M为上一层的通道数，卷积运算会将上一步的map在深度方向上进行加权组合，输出M个新的feature maps；

2.4将当前层及其倒数第四层输出特征输入到直连shortcut残差层，进行ADD操作，并使用线性Linear激活函数激活，shortcut连接相当于执行同等映射，在最后一个shortcut层就得到了最终feature maps；

所述步骤3利用空间金字塔池化SPP和SE注意力模型优化特征，具体包括：

3.1训练阶段采用各种尺寸的图像进行训练，将步骤2的结果输入到SPP中，将featuremaps分别分成16、4、1份，进行最大池化操作Max Pooling，feature maps就被转化成了16*256+4*256+1*256＝21*256的矩阵，也就是21维特征向量；

3.2通过对3.1得到同一尺寸的feature maps使用通道注意力模块进行处理，得到一个和通道数一样的一维向量作为每个通道的评价分数，然后将改分数分别施加到对应的通道上，得到加强后的特征；

3.4至此为止，整个网络框架搭建完成。

2.根据权利要求1所述的一种基于SE-YOLOv3的轻量级遥感目标检测方法，其特征在于，所述步骤1具体包括以下步骤：

1.2对1.1中得到的图片数据进行筛选，去除没有目标对象的负样本图片，得到的正样本通过平移、旋转、调整饱和度和曝光度在内的操作，增加样本数据，对待识别目标的特征参数进行处理，得到完备的遥感目标检测数据集；

3.根据权利要求2所述的一种基于SE-YOLOv3的轻量级遥感目标检测方法，其特征在于，所述步骤1.3通过K-means聚类算法，对1.2中得到的样本数据训练集所标注的待识别目标的真实目标边界框进行聚类分析，具体包括：

初始化9个锚框，通过在所有的bounding boxes中随机选取9个值作为anchor boxes的初始值；计算每个bounding box与每个anchor box的交并比值IOU，对于每个bounding box选取其最高的那个IOU值，然后求所有bounding box的平均值，也即最后的精确度值,最终得到9个精确的anchor box作为网络的预设值。

4.根据权利要求1所述的一种基于SE-YOLOv3的轻量级遥感目标检测方法，其特征在于，所述步骤4通过完整的训练得到最终的模型，使用模型对测试图片进行分类，得到最终的检测结果，具体包括：

4.1将步骤1中的训练集使用上述步骤中构建的网络进行训练，得到网络输出模型；

4.2将网络的输出经过降采样，得到三个多尺度的特征图，特征图中的每一个cell都会预测3个边界框bounding box，每个bounding box都会预测三个东数据：(1)每个框的位置，包括4个值，中心坐标t_x和t_y，框的高度b_h和宽度b_w，(2)一个目标性评分，(3)N个类别；

4.3 Bounding box的坐标预测，t_x、t_y、t_w、t_h就是模型的预测输出，c_x和c_y表示网格单元的坐标；

4.4类别预测采用多标签分类，复杂场景下，一个object可能属于多个类，检测的结果中类别标签可能同时有两个类，就需要用逻辑回归层来对每个类别做二分类，逻辑回归层主要用到sigmoid函数，该函数可以将输入约束在0到1的范围内，因此当一张图像经过特征提取后的某一类输出经过sigmoid函数约束后如果大于0.5，就表示属于该类。

5.根据权利要求4所述的一种基于SE-YOLOv3的轻量级遥感目标检测方法，其特征在于，当步骤4.3中某层的feature map大小是13*13，那么grid cell就有13*13个，第0行第1列的grid cell的坐标c_x就是0，c_y就是1，p_w和p_h表示预测前bounding box的大小，b_x、b_y、b_w和b_h就是预测得到的bounding box的中心的坐标和大小，坐标的损失采用的是平方误差损失；

b_x＝δ(t_x)+c_x

b_y＝δ(t_y)+c_y

p_r(object)*IOU(b,object)＝δ(t_o)