CN112950605A

CN112950605A - 基于MYOLOv3网络的杆塔图像检测方法

Info

Publication number: CN112950605A
Application number: CN202110274273.5A
Authority: CN
Inventors: 杜建超; 谢倩楠; 沙洁韵; 韩硕; 李卫斌
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-03-15
Filing date: 2021-03-15
Publication date: 2021-06-11

Abstract

本发明公开一种基于MYOLOv3网络的杆塔图像检测方法，其步骤包括：1、生成训练集；2、构建MYOLOv3网络；3、训练MYOLOv3网络；4、测试训练好的MYOLOv3网络。本发明构建了一个包括MobileNetV3‑Large网络和检测子网络的MYOLOv3网络，在检测子网络中减少了卷积层的通道数，克服了现有技术存在网络参数量多、计算量大问题，使得本发明的检测速度大大提高；构建3个检测子网络在对输入的特征图提取更丰富的语义特征时分别融合了更多包含杆塔细节信息的低层特征，使得本发明对图像中不同尺度的杆塔目标都有较好的检测效果。

Description

基于MYOLOv3网络的杆塔图像检测方法

技术领域

本发明属于图像处理技术领域，更进一步涉及杆塔图像检测技术领域中的一种基于一阶段MYOLOv3卷积神经网络的杆塔图像检测方法。本发明可用于从无人机拍摄的杆塔图像及视频中检测杆塔，并且可利用该方法在嵌入式设备中对无人机拍摄得到的杆塔图像及视频中的杆塔进行实时检测。

背景技术

架空输电线路承担着输送电能的重任，供电方需要对架空输电线路尤其是杆塔进行定期巡检，保证架空输电线路能够安全、稳定地运行。随着无人机技术的发展，架空输电线路的巡检方式从人工巡检逐渐变为无人机巡检，很大程度上提高了巡检的效率。如何从无人机巡检拍摄到的海量杆塔图像及视频中快速检测出杆塔则影响无人机巡检的效率。

华北电力大学在其申请的专利文献“基于表观纹理结构的电力杆塔图像检测方法”(申请号：201310612739.3，申请公布号：CN103577830 B，公布日期：2013.11.26)中提出了一种基于表观纹理结构的电力杆塔检测方法。该方法的主要步骤是：(1)选择设定数量的已确定存在杆塔的图像和已确定不存在杆塔的图像；(2)分别对已确定存在杆塔的图像和已确定不存在杆塔的图像进行预处理，得到每个图像的整体滤波器和值最大的参考区域的滤波器；(3)将每个图像的整体滤波器和值最大的参考区域的滤波器代入目标函数进行训练；(4)对待检测图像进行预处理，得到待检测图像的整体滤波器和值最大的参考区域的滤波器，将其代入经过训练的目标函数，根据目标函数的输出结果判断待检测图像中是否存在杆塔。该方法存在的不足之处是：该方法仅能判断待检测图像中是否存在杆塔这个目标，并不能确定待检测图像中杆塔的具体位置，也无法确定杆塔在输电线路中的具体位置，不能为无人机自主飞到杆塔近处进行故障巡检提供位置信息。

广东电网有限责任公司机巡作业中心在其申请的专利文献“一种基于无人机影像的杆塔快速检测方法”(申请号：201711052314.6，申请公布号：CN 107784652 A，申请公布日：2017.10.30)中提出了一种基于无人机影像的杆塔快速检测方法。该方法的主要步骤是：(1)利用LSD(Line Segment Detector)算法对无人机获取的图像进行线段提取；(2)针对提取的线段，通过线段方向判断每条线段是否具有与其对称的线段，若有，则保留该线段及其对称线段，若无，则将该线段过滤；(3)根据预设的阈值，判断画面中的各个线段的交点是否有效，去除无效交点；(4)利用DBSCAN(Density-Based Spatial Clustering ofApplications with Noise)聚类算法对剩余的交点进行聚类，根据交点的数量及密度，得到包含电力杆塔的候选区域；(5)在包含电力杆塔的区域利用DPM(Deformable PartModel)算法，判断是否存在杆塔。该方法存在的不足之处是：电力杆塔候选区域的计算步骤繁琐，并且当图像中的杆塔目标很大时，计算出的电力杆塔候选区域很大，在候选区域中利用DPM算法检测杆塔计算量大、耗时长；当图像中的杆塔目标较小时，杆塔的结构特征不明显，很难计算出包含杆塔的候选区域，容易出现漏检的情况。

郭敬东等人在其发表的论文“基于YOLO的无人机电力线路杆塔巡检图像实时检测”(中国电力,2019,52(07):17-23公开日期2019.05.28)中提出了一种基于YOLO的无人机电力线路杆塔巡检图像实时检测方法。该方法的主要步骤是：(1)采集杆塔图像生成训练集；(2)使用K-means算法对杆塔训练集的目标框进行重新聚类，改进YOLO网络的锚框集合；(3)构建YOLO网络，并将训练集输入YOLO网络中进行训练，得到训练好的YOLO网络；(4)将待检测图像输入到训练好的YOLO网络中，输出杆塔检测结果图；(5)在CPU型号为Intel XeonE5-2630 v4@2.20GHz、GPU型号为NVIDIA TITAN Xp的设备中，对视频的检测速度为20帧/s，并对简化版本的YOLO网络进行测试，视频检测速度可达30帧/s，但检测精度仅为71.19％。该方法利用k-means算法改进了YOLO网络的锚框集合，提高了YOLO网络的检测准确率。但是，该方法仍然存在的不足之处是：由于YOLO网络的参数量多、计算量大，在计算性能较低的嵌入式设备中存在检测速度慢的问题。

发明内容

本发明的目的在于针对上述现有技术存在的问题，提供一种基于MYOLOv3卷积神经网络的杆塔图像检测方法，用于解决利用杆塔候选区域和DPM算法对杆塔图像进行检测时，杆塔候选区域的计算中仅利用了杆塔的线性特征，对较小的杆塔目标检测结果差的问题，利用YOLO网络对杆塔图像进行检测时，网络参数量多、计算量大、在嵌入式设备中检测速度慢的问题。

实现本发明目的的思路是：在MYOLOv3网络的构建过程中，分别构建一个参数量更少的特征提取子网络和3个参数量更少的检测子网络。本发明利用MobileNetV3-Large网络构建特征提取子网络，构建3个检测子网路，并减少检测子网络中各个卷积层的通道数，使得本发明对杆塔图像进行检测时，检测速度大大提高；构建3个检测子网络，使得本发明对图像中不同大小的杆塔目标都有较好的检测结果。

为实现上述目的，本发明的技术方案包括如下：

(1)生成训练集：

(1a)选取至少2000张杆塔图像组成杆塔图像集，每张杆塔图像中至少包含1个杆塔目标；

(1b)标注每张杆塔图像中的每个杆塔目标，并为每张杆塔图像生成1个标签文件，将所有的标签文件组成标签集；

(1c)将杆塔图像集与标签集组成训练集；

(2)构建MYOLOv3网络：

(2a)在MobileNetV3-Large网络中去除最后的卷积层、池化层及两个全连接层，作为特征提取子网络；

(2b)将七个卷积层串联组成第一检测子网络；七个卷积层的通道数依次设置为112、160、112、160、112、160、18，卷积核的大小均设置为3×3；

(2c)将卷积层、二倍的上采样层、concat层以及七个卷积层依次串联组成第二检测子网络；将卷积层的通道数设置为40、卷积核大小设置为1×1；七个卷积层的通道数依次设置为40、112、40、112、40、112、18，卷积核大小均设置为3×3；concat层在通道维度上拼接输入的特征图；

(2d)将卷积层、二倍的上采样层、concat层以及七个卷积层依次串联组成第三检测子网络；将卷积层的通道数设置为24、卷积核大小设置为1×1；七个卷积层的通道数依次设置为24、40、24、40、24、40、18，卷积核大小均设置为3×3；concat层在通道维度上拼接输入的特征图；

(2f)将特征提取子网络与第一检测子网络串联，第一检测子网络的第五个卷积层与第二检测子网络的第一个卷积层相连，特征提取子网络的第十二个Bneck层与第二检测子网络的concat层相连，第二检测子网络的第六个卷积层和第三检测子网络的第一个卷积层相连，特征提取子网络的第六个Bneck层和第三检测子网络的concat层相连，得到MYOLOv3网络；

(3)训练MYOLOv3网络：

将训练集输入到MYOLOv3网络中，利用小批量梯度下降法，对MYOLOv3网络进行迭代训练，直至损失函数的收敛值为0.32，得到训练好的MYOLOv3网络；

(4)测试训练好的检测模型：

将一张含有杆塔的待检测图像输入到训练好的MYOLOv3网络中，特征提取子网络将输出的特征图依次输入到三个检测子网络中提取更丰富的语义特征并根据提取到的特征对杆塔目标进行预测，得到该张图像的所有检测框，将所有的检测框在待检测图像中标注出来，输出最终的检测结果图。

本发明与现有技术相比，具有如下优点：

第一，由于本发明构建了一个包括MobileNetV3-Large网络和检测子网络的MYOLOv3网络，在检测子网络中减少了卷积层的通道数，克服了现有技术存在网络参数量大、实际应用中检测速度慢的问题，使得本发明大大提高了检测速度，而且在降低网络参数量、提高检测速度的同时保证检测的准确率。

第二，由于本发明在检测子网络中构建了7×7、14×14、28×28三个尺度的检测子网络，这三个检测子网络在对输入的特征图提取更深层次的语义特征时分别融合了包含更多杆塔细节信息的低层特征，克服了现有技术在计算杆塔候选区域的过程中仅利用杆塔的线性特征导致对较小的杆塔目标检测效果差的问题，使得本发明对较小的杆塔目标的检测准确率大大提高。

附图说明

图1是本发明的流程图；

图2是本发明构建的MYOLOv3网络的结构示意图；

图3是本发明方法的仿真图。

具体实施方式

下面参照附图对本发明做进一步的详细说明。

参照附图1，对本发明的具体实现步骤做进一步的详细描述。

步骤1，生成训练集。

选取至少2000张杆塔图像组成杆塔图像集，每张杆塔图像中至少包含1个杆塔目标。

标注每张杆塔图像中的每个杆塔目标，并为每张杆塔图像生成1个标签文件，将所有的标签文件组成标签集。

将杆塔图像集与标签集组成训练集。

步骤2，构建MYOLOv3网络。

在MobileNetV3-Large网络中去除最后的卷积层、池化层及两个全连接层，作为特征提取子网络。设置特征提取子网络的参数如表1所示。

表1特征提取子网络的参数表

其中，Conv2d表示卷积层，Bneck表示瓶颈层，SE表示注意力模块，√表示该瓶颈层中添加SE模块，HS代表激活函数H-swish，RE代表激活函数ReLU。

将七个卷积层串联组成第一检测子网络。七个卷积层的通道数依次设置为112、160、112、160、112、160、18，卷积核的大小均设置为3×3。

将卷积层、二倍的上采样层、concat层以及七个卷积层依次串联组成第二检测子网络；将卷积层的通道数设置为40、卷积核大小设置为1×1；七个卷积层的通道数依次设置为40、112、40、112、40、112、18，卷积核大小均设置为3×3；concat层在通道维度上拼接输入的特征图。

将卷积层、二倍的上采样层、concat层以及七个卷积层依次串联组成第三检测子网络；将卷积层的通道数设置为24、卷积核大小设置为1×1；七个卷积层的通道数依次设置为24、40、24、40、24、40、18，卷积核大小均设置为3×3；concat层在通道维度上拼接输入的特征图。

将特征提取子网络与第一检测子网络串联，第一检测子网络的第五个卷积层与第二检测子网络的第一个卷积层相连，特征提取子网络的第十二个Bneck层与第二检测子网络的concat层相连，第二检测子网络的第六个卷积层和第三检测子网络的第一个卷积层相连，特征提取子网络的第六个Bneck层和第三检测子网络的concat层相连，得到MYOLOv3网络。

步骤3，训练MYOLOv3网络。

将训练集输入到MYOLOv3网络中，利用随机梯度下降法，对MYOLOv3网络进行迭代训练，直至损失函数的收敛值为0.32，得到训练好的MYOLOv3网络。

随机梯度下降方法的具体步骤：

第一步，利用MobileNetV3-Large网络的预训练模型，设置特征提取子网络中所有卷积层的权重值、偏置值；将检测子网络中的每个卷积层的初始权重值和偏置值均设置为0。

第二步，从训练集中随机选取64个训练样本，组成一个子训练集并对其从1重新编号，将子训练集输入到MYOLOv3网络中，输出子训练集中每个样本的预测标签。

第三步，利用下式，计算子训练集的平均损失值：

其中，L表示子训练集的平均损失值，∑表示求和操作，i表示子训练集中样本的序号，P_i表示子训练集中第i个样本的预测标签，log₂表示以2为底的对数操作，G_i表示子训练集中第i个样本的真实标签。

第四步，利用下式，计算MYOLOv3网络中每个卷积层更新后的权重值和偏置值：

其中，ω'_j表示MYOLOv3网络中第j个卷积层更新后的权重值，ω_j表示MYOLOv3网络中第j个卷积层更新前的权重值，r表示学习速率，θ’_j表示MYOLOv3网络中第j个卷积层更新后的偏置值，θ_j表示MYOLOv3网络中第j个卷积层更新前的偏置值。

步骤4，测试训练好的检测模型。

将一张含有杆塔的待检测图像输入到训练好的MYOLOv3网络中，特征提取子网络将输出的特征图依次输入到三个检测子网络中提取更丰富的语义特征并根据提取到的特征对杆塔目标进行预测，得到该张图像的所有检测框，将所有的检测框在待检测图像中标注出来，输出最终的检测结果图，其中第二、第三检测子网络在提取更丰富的语义特征时，分别融合了特征提取子网络中包含更多细节信息的低层特征。

检测结果图中用矩形框将杆塔标注出来，并在矩形框的左上角标出杆塔的类别名称tower。

下面结合仿真实验对本发明方法的效果做进一步的说明：

1.仿真实验条件：

本发明的仿真实验的应用平台为：处理器为6核NVIDIA Carmel

v8.264位CPU，主频为1.40GHz，GPU为384核NVIDIA Volta^TMGPU，内存8GB。

本发明的仿真实验的软件平台为：Jetpack4.4操作系统、pytorch1.7.0深度学习平台和python3.6。

2.仿真内容及结果分析：

本发明仿真实验是分别采用本发明和现有技术YOLOv3检测方法，对960张输入的含有杆塔的图像进行杆塔目标检测，输出每张图像的杆塔目标检测结果图。分别采用本发明和现有技术YOLOv3检测方法，对每段输入视频进行杆塔检测，输出每段视频对应的杆塔检测结果视频，并计算每段杆塔视频的检测速度，计算9段杆塔视频检测速度的平均值，得到每种方法对视频的检测速度。

本发明仿真实验使用的每张包含杆塔目标的输入图像，均由国网陕西省电力公司电力科学研究院提供，每张图像的大小为1280×720像素，图像格式为jpg。本发明仿真实验使用的每段包含杆塔目标的输入视频，均采集自陕西省西安市未央区李下壕村附近的输电线路，视频中每一帧图像的大小为1920×1080像素，视频的帧率为23.98帧/s，视频格式为mov。

在仿真实验中，采用的一个现有技术YOLOv3检测方法是指：

Redmon等人在“YOLOv3:An Incremental Improvement”([J].arXiv e-prints,2018)中提出的目标检测方法，简称YOLOv3检测方法。

下面结合图3的仿真图对本发明的效果做进一步的描述。

图3(a)、图3(c)及图3(e)为采用现有技术的YOLOv3检测方法，对杆塔图像进行检测的结果图。图3(b)、图3(d)及图3(f)为利用本发明的方法对杆塔图像进行检测的结果图。

由图3(a)、图3(c)及图3(e)可以看出，现有技术的YOLOv3检测方法检测结果比较好，三张杆塔图像中的所有杆塔目标均检测出来了。

由图3(b)、图3(d)及图3(f)可以看出，本发明的方法仅有一个杆塔目标未检测出来，证明本发明的检测结果略劣于现有技术的YOLOv3方法的检测结果。

利用四个评价指标(检测准确率、模型参数量、模型大小、视频的检测速度)分别对两种方法的检测结果进行评价。利用下面公式，计算检测准确率和视频检测速度，将所有计算结果绘制成表2：

检测准确率的计算步骤如下：

第一步，将960张待检测图像组成杆塔测试集，标注每张杆塔图像中的每个杆塔目标，并为每张杆塔图像生成1个标签文件，将所有的标签文件组成标签集。

第二步，将960张待检测图像输入到训练好的MYOLOv3网络中，输出对应预测标签。根据实际标签和预测标签将预测结果分为TP(True Postive)、TN(True Negative)、FP(False Postive)、FN(False Negative)，TP表示将杆塔目标预测为杆塔目标的数量，即正确检测的数量；TN表示将非杆塔目标预测为非杆塔目标；FP表示将非杆塔目标预测为杆塔目标，即错误检测的数量；FN表示将杆塔目标预测为非杆塔目标的数量，即漏检的数量；

第三步，利用下式分别计算精确率和召回率：

精确率

召回率

第四步，利用下式计算各个类别的AP(Average Precision)值：

其中，p表示精确率，r表示召回率；

第五步，计算所有类别AP值的平均值，得到检测准确率mAP。由于本发明仅对杆塔这一个类别进行检测，因此此处的检测准确率即杆塔这个类别的AP值。

视频检测速度的计算步骤如下：

第一步，利用下式分别计算每段视频的检测速度：

第二步，将9段视频的检测速度的平均值，作为最终的视频检测速度。

表2仿真实验中本发明和现有技术检测结果的定量分析表

结合表2可以看出，本发明的检测准确率为93.6％，与YOLOv3相比仅降低了1.1％，但视频的检测速度提高了3倍多，可达21.73帧/s，且网络模型的大小降低了约24倍，大小仅为5.1M，证明本发明在降低参数量、提高检测速度的同时保证了检测准确率。

以上仿真实验表明：本发明利用构建的MYOLOv3网络，能够快速检测出图像中的杆塔目标，解决了现有技术在实际应用中检测速度不高的问题，是一种非常实用的杆塔图像检测方法。

Claims

1.一种基于MYOLOv3网络的杆塔图像检测方法，其特征在于，构建并训练MYOLOv3卷积神经网络，该方法的具体步骤包括如下：

(1)生成训练集：

(1c)将杆塔图像集与标签集组成训练集；

(2)构建MYOLOv3网络：

(2f)将特征提取子网络与第一检测子网络串联；第一检测子网络的第五个卷积层与第二检测子网络的第一个卷积层相连，特征提取子网络的第十二个Bneck层与第二检测子网络的concat层相连；第二检测子网络的第六个卷积层和第三检测子网络的第一个卷积层相连，特征提取子网络的第六个Bneck层和第三检测子网络的concat层相连，得到MYOLOv3网络；

(3)训练MYOLOv3网络：

将训练集输入到MYOLOv3网络中，利用随机梯度下降法，对MYOLOv3网络进行迭代训练，直至损失函数的收敛值为0.32，得到训练好的MYOLOv3网络；

(4)测试训练好的MYOLOv3网络：

2.根据权利要求1所述的基于MYOLOv3网络的杆塔图像检测方法，其特征在于：步骤(3)中所述的随机梯度下降法如下：

第一步，利用MobileNetV3-Large网络的预训练模型，设置特征提取子网络中所有卷积层的权重值、偏置值；将检测子网络中的每个卷积层的初始权重值和偏置值均设置为0；

第二步，从训练集中随机选取64个训练样本，组成一个子训练集并对其从1重新编号，将子训练集输入到MYOLOv3网络中，输出子训练集中每个样本的预测标签；

第三步，利用下式，计算子训练集的平均损失值：

其中，L表示子训练集的平均损失值，∑表示求和操作，i表示子训练集中样本的序号，P_i表示子训练集中第i个样本的预测标签，log₂表示以2为底的对数操作，G_i表示子训练集中第i个样本的真实标签；

其中，ω'_j表示MYOLOv3网络中第j个卷积层更新后的权重值，ω_j表示MYOLOv3网络中第j个卷积层更新前的权重值，r表示学习速率，θ_j'表示MYOLOv3网络中第j个卷积层更新后的偏置值，θ_j表示MYOLOv3网络中第j个卷积层更新前的偏置值。