CN116665054A

CN116665054A - 一种基于改进YOLOv3的遥感影像小目标检测方法

Info

Publication number: CN116665054A
Application number: CN202310639138.5A
Authority: CN
Inventors: 赫晓慧; 李盼乐; 程淅杰; 乔梦佳; 常紫倩; 高亚军; 田智慧; 刘飞
Original assignee: Zhengzhou University
Current assignee: Zhengzhou University
Priority date: 2023-05-30
Filing date: 2023-05-30
Publication date: 2023-08-29

Abstract

本发明公开了一种于改进YOLOv3的遥感影像小目标检测方法，本发明基于原始YOLOv3算法进行了改进，首先引入MobileNet‑v3的特征提取部分，显著降低模型的计算量和参数量，减少了模型占用的存储空间，提高了检测和运行速度。其次将SPP模块和路径聚合模块融合进FPN结构，优化了网络底层特征信息的传输路径，增强了模型对于小目标的提取和定位能力。最后用CIOU损失替代原损失，进一步提升边界框的定位精度和收敛速度。对经过精细化人工标注的训练集进行数据增强和K‑means++聚类算法聚类，用于提高数据集数据的复杂性并得到更合适的先验框，增强模型的鲁棒性、收敛速度和精确度。

Description

一种基于改进YOLOv3的遥感影像小目标检测方法

技术领域

本发明涉及遥感影像小目标检测技术领域，具体涉及一种基于改进YOLOv3的遥感影像小目标检测方法。

背景技术

石油是世界上最重要的化石能源之一，对于现代社会的发展和工业生产有着至关重要的作用，它为人类提供了动力、燃料、化工原料及其他诸多商品。抽油机是石油开采过程中非常重要的设备，其定位与检测使人们能够全面了解抽油机在空间上的部署情况并实现对油气资源的合理开采与能源利用的优化，帮助人们分析抽油机附近水源、土壤质量等，为环境保护方面工作提供相关依据，石油开采区影像中抽油机检测由于影像分辨率低，检测速度慢，成为一个待解决的问题。

2014年以前，目标检测处于传统算法阶段检测器，完全依靠人工设计特征，通过使用大量的技巧让检测器获取更强的表达能力，同时尽量降低对计算资源的消耗，如ViolaJones检测器、梯度方向直方图(histogram of oriented gradients，HOG)和基于组件的检测算法可变形组件模型(deformable part model，DPM)

2014年，R.Girshick等提出了区域卷积神经网络(region-convolution neuralnetwork，R-CNN)算法，将卷积神经网络(region-convolution neural network，CNN)特征应用到了目标检测场景中，是检测算法的一个重大的突破。由于CNN提取的深度特征与传统手工特征相比具有更为强大的表征能力，基于深度学习的目标检测算法逐渐成为领域主流。深度学习方法从原始图像中自动提取物体特征，并利用回归或分类等方法完成物体检测和定位，具有自适应学习的能力、处理大规模数据的能力的优势。在自动驾驶，安防监控，缺陷检测，农业生产等领域都有广泛的应用。

基于先验框的主流目标检测算法主要分为两类。第一类是Two-Stage目标检测算法，通常分为两个阶段：筛选候选框和修正目标分类、位置。在第一个阶段中，Two-Stage算法通常识别可能包含目标物体的区域，并计算每个候选框与各个物体类别之间的相似度得分，最终生成一组候选框；在第二个阶段中，算法将所选定的候选框输入神经网络模型，模型会将坐标对齐好并相应截取好的候选框送进行特征提取和分类、回归。Two-Stage算法可以更加准确地检测目标，在复杂的场景下相对可靠。其中代表性算法是R-CNN、SPP-Net、Faster RCNN等，第二类是One-Stage目标检测算法，其主要思想是将原图划分成多个网格，并在每个网格内直接进行物体类别判定和位置预测。如YOLO，SSD，Retina-Net、FCOS等。One-Stage算法相较于Two-Stage算法在速度和简洁性上有相应优势，可以达到实时的要求，较多的应用在实际应用中。

尽管目标检测算法在各领域具有不错的成果，小目标检测仍然是计算机视觉中的一个难点和热点，遥感影像的小目标包含通常被复杂的周围场景淹没，而且小目标会密集分布在同一区域中，容易造成漏检、误检等情况。人们通过特征融合方法和增加注意力的方式，提高小目标的检测效果。前一种方法虽然提高了底层特征的利用率，但并没有从根本上解决小目标特征丢失的问题。后一种方法提升了小目标检测精度，但检测速度和模型大小不能较好的满足实际需求。

因此，提供一种通过修改引入轻量级骨干网络，改进特征融合模块，升级损失函数，以改善YOLOv3遥感小目标抽油机检测效率低、精度差问题的基于改进YOLOv3的遥感影像小目标检测方法，已是一个值得研究的问题。

发明内容

本发明的目的是提供一种通过修改引入轻量级骨干网络，改进特征融合模块，升级损失函数，以改善YOLOv3遥感小目标抽油机检测效率低、精度差问题的基于改进YOLOv3的遥感影像小目标检测方法。

本发明的目的是这样实现的：

一种基于改进YOLOv3的遥感影像小目标检测方法，包括以下步骤：步骤S1获取数据，并进行定量裁剪，将目标数据和对应的标签文件随机划分为训练集和测试集，为增强模型在复杂场景对小样本的特征表达能力，将训练数据集使用常规方法和mosaic方法进行数据增强；

步骤S2、将所示步骤1中预处理后的训练集数据输入改进后的YOLOv3网络模型中进行训练，改进后的YOLOv3网络模型包括特征提取，特征融合和预测三个部分，保存最优模型；

步骤S3、使用最优模型对测试集进行预测并得到所有预测框和置信度。

所述步骤S2中，训练集数据输入改进后的YOLOv3网络模型训练的具体过程如下：

步骤S2.1、轻量化特征提取网络：将原YOLOv3的Darknet53骨干网络替换为轻量化网络MobileNet-v3，在不降低模型预测精度的情况下，最大化程度上降低网络的参数量和计算量，以便降低模型运行所需的内存空间和推理所需的时间。并将MobileNet-v3最后的几个卷积层和池化层进行剪枝，以便适配YOLOv3后期的特征融合结构；

剪枝结果如下表所示

其中bneck代表倒残差网络结构，exp size代表bneck中升维维度，SE代表bneck中是否使用注意力机制，NL代表bneck中使用激活函数的种类，HS表示h-swish，激活函数RE为线性修正单元ReLU。

深度可分离卷积操作将卷积提取特征过程分为深度卷积和逐点卷积两部分；在深度卷积部分输入三通道特征图，经过3×3卷积核，得到三通道的深度卷积结果，再将深度卷积结果作为输入，用1×1卷积核进行进行逐点卷积，得到最终卷积结果；

倒残差结构先使用1×1卷积实现升维，再通过3×3的DW卷积(逐通道卷积)提取特征，最后使用1×1卷积实现降维；

HS表示为h-swish，加快了激活函数求导和网络反向传播的速度，

步骤S2.2、特征融合模块：引入空间金字塔池化模块SPP和自底向上的路径聚合特征融合方法；解决了原YOLOv3模型中的FCN特征融合模块使低级语义信息在传递过程中损毁严重的问题，防止从目标漏、错检的现象，提高预测精度；

空间金字塔池化模块SPP：于特征提取网络后的第三个卷积层后引入空间金字塔池化模块SPP，通过最高语义层级的多尺度池化操作增强网络的局部特征和全局特征提取能力，为后续的目标预测提供更深层次的特征信息，提高模型的鲁棒性，空间金字塔池化模块SPP融合过程为，将输入特征图进行4个分支操作，首先用3种大小的池化核进行池化操作，生成3个大小相同的局部特征图，然后再将包括输入特征图在内的4个特征图进行张量拼接，进而得到4倍初始长度的特征图；

自底向上的路径聚合特征融合：在FPN结构基础之上引入了自底向上的路径聚合结构，降低初级特征在传递时所包含的语义细节的丢失，同时增强底层网络和高层网络的信息交流；设聚合层级为i+1的N_i+1层特征，首先对路径聚合N_i层做步长为2、卷积核大小为3的卷积操作将特征图长宽减半，然后将卷积结果和FPN P_i+1层做特征相加操作即可得到N_i+1层特征，当层级最低时，N和P层的特征相同。

步骤S2.3、利用K-means++算法生成更贴合真实框的先验框簇，在此之上采用CIOU损失，将边界框真实框之间的中心点距离和宽高比关联进惩罚项，进一步提高边界框的定位精度，进而增强对小目标细粒度特征的提取能力；

基于K-means++算法的Anchor box设计：采用K-means++聚类算法，通过重新定义初始化聚类中心的算法和样本(box)和聚类中心(centroid)之间距离公式，迭代选出具有更小随机性的簇，从而使得聚类中心框的宽和高更符合真实的数据分布；距离定义公式为：

d(box，centroid)＝1-IIOU(box，centroid)

其中box代表先验框；centroid代表先验框的中心，IOU代表先验框和聚类中心框的交并比；

CIOU损失函数通过有效量化边界框和真实框在重合面积、重合维度、中心坐标、宽高比四方面的回归损失，直接最小化预测框和真实框之间的距离，进而加快算法的收敛速度和预测精度；损失函数Loss_cow表示为：

其中b代表预测边界框中心坐标，b^a代表真实框中心坐标；ρ²(b，v^gt)表示边界框到真实框中心坐标之间的欧氏距离，c代表边界框和真实框外接矩形对角线的长度，如图7所示；v为衡量长宽比一致性参数，其中w^gt、h^g为真实框的宽高，w、h为预测框的宽高；α为权重参数。

本发明的有益效果是：本发明基于原始YOLOv3算法进行了改进，首先引入MobileNet-v3的特征提取部分，显著降低模型的计算量和参数量，减少了模型占用的存储空间，提高了检测和运行速度。其次将SPP模块和路径聚合模块融合进FPN结构，优化了网络底层特征信息的传输路径，增强了模型对于小目标的提取和定位能力。最后用CIOU损失替代原损失，进一步提升边界框的定位精度和收敛速度。对经过精细化人工标注的训练集进行数据增强和K-means++聚类算法聚类，用于提高数据集数据的复杂性并得到更合适的先验框，增强模型的鲁棒性、收敛速度和精确度。

附图说明

图1为本发明模型构建流程图；

图2为本发明mosaic数据增强；

图3为本发明改进后的YOLOv3网络模型整体结构；

图4为本发明深度可分离卷积示意图；

图5为本发明倒残差结构示意图；

图6为本发明空间金字塔池化模块(SPP)的示意图；

图7为本发明路径聚合结构示意图；

图8为本发明CIOU示意图；

图9为本发明检测结果对比图。

具体实施方式

以下结合附图和实施例对本发明作进一步说明。

如图1，一种基于改进YOLOv3的遥感影像小目标检测方法，包括以下步骤：

步骤S1检测抽油机之前拍摄油田地区地物得到原始图像数据；将人工筛选后的原始图像数据按照宽高比相同的方式进行裁剪并保存为640×640(像素)大小；利用LabelImg标注软件人工进行抽油机目标数据标注，标注完成后按7∶3比例将目标数据和对应的标签文件随机划分为训练集和测试集；对训练集进行随机数据增强，包括放缩、翻转、像素色调变换、mosaic，标注文件随数据增强更新；mosaic数据增强效果如图2所示。

在步骤S2将预处理后的训练集数据输入改进后的YOLOv3网络模型中进行训练，读入训练，集与验证集图像数据和标注文件；对读入的数据进行批归一化处理；使用网络进行一个时期(epoch)的训练，保存当前时期loss值更加收敛的检测模型，使用测试集测试并保存当前模型的检测效果；训练下一个epoch，从批归一化部分开始。一个epoch训练结束后对比前一个模型loss值，将较优的模型保存下来。不断循环此过程直至完成预设的epoch值。改进后的YOLOv3整体结构如图3所示，包括特征提取，特征融合和预测三个部分。

所述步骤S2中，改进后的YOLOv3网络模型训练的具体过程为：

S2.1、轻量化特征提取网络：将原YOLOv3厚重的Darknet53骨干网络替换为具有深度可分离卷积、倒残差结构、注意力机制结构的轻量化网络MobileNet-v3，并将MobileNet-v3最后的几个卷积层和池化层进行剪枝，以便能适配YOLOv3后期的特征融合结构。

(1)深度可分离卷积操作将卷积提取特征过程分为深度卷积和逐点卷积两部分，如图4所示即为用四个卷积核提取输入的三通道特征的操作流程，通过分步能极大减少卷积过程中的运算量。

(2)倒残差结构对输入特征先升维再降维，避免了深度卷积核出现值为0的“死亡”现象，增强了深度可分离卷积对多维特征的提取能力，如图5。

(3)HS表示为h-swish，加快了激活函数求导和网络反向传播的速度；

S2.2、特征融合模块：引入空间金字塔池化模块和自底向上(Buttom-Up)的路径聚合特征融合方法。

(1)空间金字塔池化模块(SPP)：于特征提取网络后的第三个卷积层后引入SPP模块，通过最高语义层级的多尺度池化操作增强网络的局部特征和全局特征提取能力，为后续的目标预测提供更深层次的特征信息，提高模型的鲁棒性，SPP融合过程如图6所示。

(2)自底向上的路径聚合特征融合：在FPN结构基础之上引入了自底向上的路径聚合结构，降低初级特征在传递时所包含的语义细节的丢失，同时增强底层网络和高层网络的信息交流，如图7所示。

步骤S2.3利用K-means++算法生成更贴合真实框的先验框簇，在此之上采用CIOU损失，将边界框真实框之间的中心点距离和宽高比关联进惩罚项，进一步提高边界框的定位精度，进而增强对小目标细粒度特征的提取能力。

基于K-means++算法的Anchor box设计：采用K-means++聚类算法，通过重新定义初始化聚类中心的算法和样本(box)和聚类中心(centroid)之间距离公式，迭代选出具有更小随机性的簇，从而使得聚类中心框的宽和高更符合真实的数据分布。距离定义公式为：

d(box，centroid)＝1-IOU(box，centroid)

其中box代表先验框；centroid代表先验框的中心，IOU代表先验框和聚类中心框的交并比。

CIOU损失函数通过有效量化边界框和真实框在重合面积、重合维度、中心坐标、宽高比四方面的回归损失，直接最小化预测框和真实框之间的距离，进而加快算法的收敛速度和预测精度如图8所示。损失函数Loss_cow表示为：

其中b代表预测边界框中心坐标，b^gt代表真实框中心坐标；ρ²(b，b^gt)表示边界框到真实框中心坐标之间的欧氏距离，c代表边界框和真实框外接矩形对角线的长度；v为衡量长宽比一致性参数，其中w^gt、h^gt为真实框的宽高，w、h为预测框的宽高；α为权重参数。

步骤S3使用最优模型对测试集进行预测并得到所有预测框和置信度，将所有预测框按照置信度降序排列，然后依次把预测框和真实框(ground truth，GT)按照交并比(intersection over union，IOU)阈值为0.5进行检测。

选择mAP为模型精确度评价指标，综合衡量模型检测的准确率和召回率。使用检测速度FPS值和模型权重文件大小共同作为模型检测效率的评价指标。其中检测速度是实现实时检测和评价模型落地投入实际生产的重要参考因素。模型权重文件大小能直观地评价模型本身的参数量和运算量，关乎模型在终端部署的成本。

为了验证各改进部分在测试集上的检测效果，设计消融实验。实验结果表明，MobileNet-v3所包含的深度可分离卷积和倒残差结构在不降低mAP的情况大幅提升了测试速度并降低了模型权重文件大小；mosaic数据增强和优化先验框处理稳定提升了mAP；SPP模块和路径聚合特征融合结构轻微降低了速度和增加了模型文件大小，但显著提升了mAP；整体改进后的网络相比于YOLOv3在Map、FPS和Weight三项评价指标上均有明显的提高。

为进一步验证改进后的YOLOv3算法的检测性能，使用同样的测试集分别对Faster-RCNN、SSD、YOLOv3和改算法进行对比实验。实验结果表明：两阶段算法Faster-RCNN在检测精度上比原生SSD和YOLOv3算法要高，但检测速度过于缓慢，模型权重文件也较大，实际使用体验较差；而改进后的YOLOv3算法兼顾了精确度、速度和模型参数量，具有较强的综合性能。改进的YOLOv3网络模型与原YOLOv3算法检测效果对比如图9所示，相比于未改进算法本文算法对于抽油机的检测效果在提高精确度和减少漏检目标方面都有一定程度的提升。

Claims

1.一种基于改进YOLOv3的遥感影像小目标检测方法，其特征在于：包括以下步骤：

步骤S1获取数据，并进行定量裁剪，将目标数据和对应的标签文件随机划分为训练集和测试集，为增强模型在复杂场景对小样本的特征表达能力，将训练数据集使用常规方法和mosaic方法进行数据增强；

步骤S2、将所示步骤1中预处理后的训练集数据输入改进后的YOLOv3网络模型中进行训练，改进后的YOLOv3网络模型包括特征提取、特征融合和预测三个部分，保存最优模型；

2.根据权利要求1所述的基于改进YOLOv3的遥感影像小目标检测方法，其特征在于：

步骤S2.1、轻量化特征提取网络：将原YOLOv3的Darknet53骨干网络替换为轻量化网络MobileNet-v3，在不降低模型预测精度的情况下，最大化程度上降低网络的参数量和计算量，以便降低模型运行所需的内存空间和推理所需的时间；并将MobileNet-v3最后的几个卷积层和池化层进行剪枝，以便适配YOLOv3后期的特征融合结构；

空间金字塔池化模块SPP：于特征提取网络后的第三个卷积层后引入空间金字塔池化模块SPP，通过最高语义层级的多尺度池化操作增强网络的局部特征和全局特征提取能力，为后续的目标预测提供更深层次的特征信息，提高模型的鲁棒性，，空间金字塔池化模块SPP融合过程为，将输入特征图进行4个分支操作，首先用3种大小的池化核进行池化操作，生成3个大小相同的局部特征图，然后再将包括输入特征图在内的4个特征图进行张量拼接，进而得到4倍初始长度的特征图；

自底向上的路径聚合特征融合：在FPN结构基础之上引入了自底向上的路径聚合结构，降低初级特征在传递时所包含的语义细节的丢失，同时增强底层网络和高层网络的信息交流；设聚合层级为i+1的N_i+1层特征，首先对路径聚合N_i层做步长为2、卷积核大小为3的卷积操作将特征图长宽减半，然后将卷积结果和FPN P_i+1层做特征相加操作即可得到N_i+1层特征，当层级最低时，N和P层的特征相同；

d(box，centroid)＝1-IOU(box，centroid)

CIOU损失函数通过有效量化边界框和真实框在重合面积、重合维度、中心坐标、宽高比四方面的回归损失，直接最小化预测框和真实框之间的距离，进而加快算法的收敛速度和预测精度；损失函数Loss_CIOU表示为：

其中b代表预测边界框中心坐标，b^g′代表真实框中心坐标；ρ2(b，b^g′)表示边界框到真实框中心坐标之间的欧氏距离，c代表边界框和真实框外接矩形对角线的长度，ν为衡量长宽比一致性参数，其中w^g、h^g为真实框的宽高，w、h为预测框的宽高；α为权重参数。