CN113903009A

CN113903009A - 一种基于改进YOLOv3网络的铁路异物检测方法与系统

Info

Publication number: CN113903009A
Application number: CN202111506770.XA
Authority: CN
Inventors: 王辉; 吴雨洁; 杨辉
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2021-12-10
Filing date: 2021-12-10
Publication date: 2022-01-07
Anticipated expiration: 2041-12-10
Also published as: CN113903009B

Abstract

本发明提出一种基于改进YOLOv3网络的铁路异物检测方法与系统，其中，该方法包括：通过设于铁路列车上的车载监控装置，以获取得到线路上的图像信息；对YOLOv3网络进行预训练，将特征图输入至层内多尺度模块并划分为低频特征图以及高频特征图，通过池化层将低频特征图进行压缩处理以降低分量冗余；然后输入至检测模块，分别计算得到异物对应的类别损失、位置损失以及置信度损失并输出最终权重文件；根据最终权重文件构建目标检测网络，以确定侵限异物的类别与位置。本发明提出的方法，可准确地得到铁路异物的位置和类别信息，以保证铁路列车自动驾驶的安全性。

Description

一种基于改进YOLOv3网络的铁路异物检测方法与系统

技术领域

本发明涉及异物检测技术领域，特别涉及一种基于改进YOLOv3网络的铁路异物检测方法与系统。

背景技术

随着我国经济的不断发展，我国的铁路建设也得到了极为快速的发展。其中，在铁路自动驾驶方向，自动驾驶技术水平的高低是铁路建设事业的核心竞争力。而铁路异物检测是实现铁路列车自动驾驶所要解决的重要问题，因此如何实现准确、高效的铁路异物检测是列车自动驾驶研究的热点问题之一。

目前，常见的铁路异物检测方法包括：基于传统机器视觉的检测方法以及基于深度学习的识别方法两大类。然而，基于传统机器视觉的检测方法一般是利用一些图像处理算子去提取图片中的纹理、形状和颜色等特征，然后在利用分类器区别图像的前景和背景像素。但是该方法中的特征提取算子如sift算子、hog算子易受到诸如光照，遮挡等外界环境因素的干扰。

基于此，有必要提出一种新型的铁路异物检测方法，以尽可能减小外界因素的干扰，提高运行效率。

发明内容

鉴于上述状况，有必要解决现有的铁路异物检测方法，容易受到光照、遮挡等外界环境因素干扰导致影响检测准确度的问题。

本发明实施例提供了一种基于改进YOLOv3网络的铁路异物检测方法，其中，所述方法包括如下步骤：

步骤一，通过设于铁路列车上的车载监控装置，以获取得到线路上的图像信息；

步骤二，利用铁路异物侵限数据集对YOLOv3网络进行预训练，将采集到的所述图像信息中的特征图输入至经预训练后的YOLOv3网络中的Darknet-53网络中的层内多尺度模块；

步骤三，通过所述层内多尺度模块将输入的特征图划分为低频特征图以及高频特征图，并通过Darknet-53网络中的池化层将含有冗余信息的低频特征图进行压缩处理以降低分量冗余；

步骤四，将经处理后的低频特征图以及高频特征图输入至检测模块，通过在检测模块中的类别损失函数、位置损失函数以及置信度损失函数，分别计算得到异物对应的类别损失、位置损失以及置信度损失；

步骤五，通过梯度下降法确认当所述类别损失、位置损失以及置信度损失均为最小时，输出最终权重文件；

步骤六，根据所述最终权重文件以及车载监控装置获取的视频信息构建目标检测网络，根据构建的所述目标检测网络以确定侵限异物的类别与位置。

本发明提出的基于改进YOLOv3网络的铁路异物检测方法，利用特征图中包含高频特征图以及低频特征图的特点，以降低低频特征图中的冗余信息为目的，从而节省整体算法的计算量，并运用三种不同的损失函数描述异物的位置损失、类别损失以及置信度损失；

此外，根据迭代训练次数自适应地改变学习率，既可以保证算法的收敛速度，又可以将损失函数降低到最低点；

在进行异物检测时，只需将特征图输入到网络中并加载保存的最终权重文件，便能得到待检测物体的类别和位置信息。本发明实施例中，基于YOLOv3网络，结合层内多尺度模块提出改进的YOLOv3算法，并将其用于铁路异物检测之中，可得到铁路异物的位置和类别信息，以保证铁路列车自动驾驶的安全性。

所述一种基于改进YOLOv3网络的铁路异物检测方法，其中，在所述步骤二中，利用铁路异物侵限数据集对YOLOv3网络进行预训练的方法包括：

对所述YOLOv3网络的参数进行初始化，其中，所述YOLOv3网络的参数包括初始参数

、偏置

、初始学习率

以及最大训练次数max epoch；

对迭代训练次数进行赋值，并进行迭代训练计算；其中，第一次进行迭代训练时Epoch=1；

判断当前训练次数是否小于最大训练次数；

若所述当前训练次数小于所述最大训练次数，则通过所述层内多尺度模块将输入的特征图划分为低频特征图以及高频特征图；

若所述当前训练次数不小于所述最大训练次数，则结束迭代训练并输出所述最终权重文件。

所述一种基于改进YOLOv3网络的铁路异物检测方法，其中，在所述步骤四中，类别损失、位置损失以及置信度损失的计算方法包括：

根据预先设定的锚框确定正样本以及负样本；

根据设定的正样本的信息计算得到所述类别损失以及所述位置损失；

根据正样本的信息以及负样本的信息计算得到置信度损失。

所述一种基于改进YOLOv3网络的铁路异物检测方法，其中，所述类别损失函数表示为：

其中，

为所述类别损失函数，

表示预测目标边界框

中是否存在第

类目标

为预测值，

，

表示经过sigmoid激活后得到的目标概率，

为正样本个数，

表示预测值C和真实值O均来自于正样本，

表示所有的预测值C和真实值O均包含在检测样本的所有类别中，

表示检测目标的序号。

所述一种基于改进YOLOv3网络的铁路异物检测方法，其中，所述位置损失函数表示为：

其中，

表示位置损失函数，

，

，

，

，

，

，

，

；

表示YOLOv3网络对预测框的中心坐标的横坐标预测值经过Sigmoid函数后的输出值，

表示YOLOv3网络对预测框的中心坐标的纵坐标预测值经过Sigmoid函数后的输出值，

表示YOLOv3网络对预测框宽度的预测值，

表示YOLOv3网络对预测框高度的预测值，

与

表示真实目标边界框相对于网格左上角横坐标和纵坐标的相对偏移量，

与

表示真实目标边界框相对于锚框的宽度和高度的放缩比例经过ln函数输出后的值，

为目标检测网络的最终得到的四个预测变量，

为实际目标边界框的中心坐标，

与

表示真实目标边界框的宽度和高度，

为第

个目标所在网格的左上角坐标，

和

分别为锚框的宽度和高度。

所述一种基于改进YOLOv3网络的铁路异物检测方法，其中，所述置信度损失函数表示为：

其中，

表示所述置信度损失函数，

表示预测边界框与实际边界框的IOU值，

，

为

经sigmoid函数处理后的输出值，即

，

为预测值，N为正负样本的总数，

表示检测目标的序号。

所述一种基于改进YOLOv3网络的铁路异物检测方法，其中，在完成了每次迭代训练计算之后，所述方法还包括：

对所述YOLOv3网络的参数进行更新，并根据预设的学习率计算公式对学习率进行更新。

所述一种基于改进YOLOv3网络的铁路异物检测方法，其中，所述预设的学习率计算公式表示为：

其中，

表示学习率，

表示总的迭代训练次数，

表示初始学习率，

表示目标的序列数；

其中，总的迭代训练次数

设置为250，初始学习率

设置为0.001。

所述一种基于改进YOLOv3网络的铁路异物检测方法，其中，在所述步骤三中，通过所述层内多尺度模块将输入的特征图划分为低频特征图以及高频特征图的步骤中：

高频特征之间的卷积运算表示为：

低频特征到高频特征之间的卷积运算表示为：

低频特征之间的卷积运算表示为：

高频特征到低频特征之间的卷积运算表示为：

最终得到的所述高频特征图表示为：

最终得到的所述低频特征图表示为：

其中，

、

分别表示低频部分的特征图以及高频部分的特征图，

、

、

和

分别表示卷积核中高频特征到高频特征、低频特征到高频特征、低频特征到低频特征及高频特征到低频特征之间各自对应的转换权重，f表示卷积运算，

、

、

和

分别表示由高频特征至高频特征转换、低频特征向高频特征进行转换、低频特征向低频特征进行转换，以及高频特征向低频特征进行转换后分别得到的新的特征图；

upsample表示上采样，pool表示池化下采样，

表示经层内多尺度模块后输出的高频特征图，

表示经层内多尺度模块后输出的低频特征图。

本发明还提出一种基于改进YOLOv3网络的铁路异物检测系统，其中，所述系统包括：

信息获取模块，用于通过设于铁路列车上的车载监控装置，以获取得到线路上的图像信息；

预训练模块，用于利用铁路异物侵限数据集对YOLOv3网络进行预训练，将采集到的所述图像信息中的特征图输入至经预训练后的YOLOv3网络中的Darknet-53网络中的层内多尺度模块；

特征划分模块，用于通过所述层内多尺度模块将输入的特征图划分为低频特征图以及高频特征图，并通过Darknet-53网络中的池化层将含有冗余信息的低频特征图进行压缩处理以降低分量冗余；

损失计算模块，用于将经处理后的低频特征图以及高频特征图输入至检测模块，通过在检测模块中的类别损失函数、位置损失函数以及置信度损失函数，分别计算得到异物对应的类别损失、位置损失以及置信度损失；

权重输出模块，用于通过梯度下降法确认当所述类别损失、位置损失以及置信度损失均为最小时，输出最终权重文件；

检测定位模块，用于根据所述最终权重文件以及车载监控装置获取的视频信息构建目标检测网络，根据构建的所述目标检测网络以确定侵限异物的类别与位置。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实施例了解到。

附图说明

图1为本发明提出的基于改进YOLOv3网络的铁路异物检测方法的原理图；

图2为本发明提出的基于改进YOLOv3网络的铁路异物检测方法的流程图；

图3为本发明提出的基于改进YOLOv3网络的铁路异物检测系统的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

参照下面的描述和附图，将清楚本发明的实施例的这些和其他方面。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来表示实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

请参阅图1与图2，本发明提出一种基于改进YOLOv3网络的铁路异物检测方法，其中，所述方法包括如下步骤：

S101，通过设于铁路列车上的车载监控装置，以获取得到线路上的图像信息。

S102，利用铁路异物侵限数据集对YOLOv3网络进行预训练，将采集到的所述图像信息中的特征图输入至经预训练后的YOLOv3网络中的Darknet-53网络中的层内多尺度模块。

在本步骤中，利用铁路异物侵限数据集对YOLOv3网络进行预训练的方法包括：

S1021，对所述YOLOv3网络的参数进行初始化。

其中，所述YOLOv3网络的参数包括初始参数

、偏置

、初始学习率

以及最大训练次数max epoch。在此需要说明的是，利用标准正态分布对YOLOv3网络卷积层的权重和偏置进行标准化，以确定YOLOv3网络中每层各个参数初始值。

S1022，对迭代训练次数进行赋值，并进行迭代训练计算。

其中，第一次进行迭代训练时Epoch=1。

S1023，判断当前训练次数是否小于最大训练次数。

如图2所示，若当前训练次数小于最大训练次数，则通过层内多尺度模块将输入的特征图划分为低频特征图以及高频特征图。若当前训练次数不小于最大训练次数，则结束迭代训练并输出最终权重文件。

其中，针对每一次迭代，在每一次迭代训练中，将输入YOLOv3网络的不同分辨率的图像的长度与宽度调整为64的倍数。再将调整后的图像输入到改进后的Darknet-53网络中，在输入进层内多尺度模块（Msblock）之前，先通过传统的卷积方式增加输入的RGB图像的通道数，并将图像进行二倍的下采样。通过下采样后得到的特征图输入到层内多尺度模块（Msblock）中，层内多尺度模块将特征图分解成高频部分与低频部分，两种频率的分量分别在不同的路径中进行计算，之后，将得到的低频部分和高频部分的特征图分别输入至后续的层内多尺度模块进行特征提取，使用层内多尺度模块对高频部分和低频部分的特征图进行融合，将融合后的特征图作为最终提取出的特征。

在此需要说明的是，在完成了每次迭代训练计算之后，所述方法还包括：

对YOLOv3网络的参数进行更新，并根据预设的学习率计算公式对学习率进行更新。

其中，预设的学习率计算公式表示为：

其中，

表示学习率，

表示总的迭代训练次数，

表示初始学习率，

表示目标的序列数。

在本实施例中，总的迭代训练次数

设置为250，初始学习率

设置为0.001。

S103，通过所述层内多尺度模块将输入的特征图划分为低频特征图以及高频特征图，并通过Darknet-53网络中的池化层将含有冗余信息的低频特征图进行压缩处理以降低分量冗余。

其中，通过层内多尺度模块将输入的特征图划分为低频特征图以及高频特征图的步骤中，具体包括：

利用步长为1，卷积核的大小为3的卷积神经网络，对输入的特征图进行卷积，以得到和输入的特征图分辨率大小一样的高频特征图。然后利用步长为2的池化层对输入的特征图进行下采样以得到去除冗余后的低频特征图，并且使两种不同分量的特征图分别沿着各自的计算路径进行卷积计算。在输入进检测模块前，选择高频特征图作为最后提取出的特征进行最后损失函数的计算。

具体的，通过所述层内多尺度模块将输入的特征图划分为低频特征图以及高频特征图的步骤中：

高频特征之间的卷积运算表示为：

低频特征到高频特征之间的卷积运算表示为：

低频特征之间的卷积运算表示为：

高频特征到低频特征之间的卷积运算表示为：

最终得到的所述高频特征图表示为：

最终得到的所述低频特征图表示为：

其中，

、

分别表示低频部分的特征图以及高频部分的特征图，

、

、

和

、

、

和

分别表示由高频特征至高频特征转换、低频特征向高频特征进行转换、低频特征向低频特征进行转换，以及高频特征向低频特征进行转换后分别得到的新的特征图，upsample表示上采样，pool表示池化下采样，

表示经层内多尺度模块后输出的高频特征图，

表示经层内多尺度模块后输出的低频特征图。

S104，将经处理后的低频特征图以及高频特征图输入至检测模块，通过在检测模块中的类别损失函数、位置损失函数以及置信度损失函数，分别计算得到异物对应的类别损失、位置损失以及置信度损失。

在本步骤中，类别损失、位置损失以及置信度损失的计算方法包括：

S1041，根据预先设定的锚框确定正样本以及负样本；

S1042，根据设定的正样本的信息计算得到所述类别损失以及所述位置损失；

S1043，根据正样本的信息以及负样本的信息计算得到置信度损失。

具体而言，将最后得到的高频特征图进行上采样，并将分辨率分别为64×64、32×32和 16×16 作为检测模块的不同尺度的输入特征。在不同的特征图上的每个像素位置上，均预先定义了三个不同尺度的锚框，计算每种尺度锚框与物体实际边界框的交并比，将交并比大于0.5的锚框定义为正样本，其它的锚框定义为负样本。之后根据正负样本的预测框信息计算置信度损失，根据正样本的预测信息计算类别损失和定位损失。

在本实施例中，上述类别损失函数表示为：

其中，

为所述类别损失函数，

表示预测目标边界框

中是否存在第

类目标

为预测值，

，

表示经过sigmoid激活后得到的目标概率，

为正样本个数，

表示预测值C和真实值O均来自于正样本，

表示检测目标的序号。

上述位置损失函数表示为：

其中，

表示位置损失函数，

，

，

，

，

，

，

，

；

表示YOLOv3网络对预测框宽度的预测值，

表示YOLOv3网络对预测框高度的预测值，

与

与

为目标检测网络的最终得到的四个预测变量，

为实际目标边界框的中心坐标，

与

表示真实目标边界框的宽度和高度，

为第

个目标所在网格的左上角坐标，

和

分别为锚框的宽度和高度。

上述置信度损失函数表示为：

其中，

表示所述置信度损失函数，

表示预测边界框与实际边界框的IOU值，

，

为

经sigmoid函数处理后的输出值，即

，

为预测值，N为正负样本的总数，

表示检测目标的序号。

S105，通过梯度下降法确认当所述类别损失、位置损失以及置信度损失均为最小时，输出最终权重文件。

本实施例中，当迭代训练次数达到最大训练次数时，此时类别损失、位置损失以及置信度损失均为最小。输出最终权重文件。

S106，根据所述最终权重文件以及车载监控装置获取的视频信息构建目标检测网络，根据构建的所述目标检测网络以确定侵限异物的类别与位置。

本实施例中，停止训练后保存最终权重文件，在检测异物时，只需要将特征图输入到网络中并加载保存的最终权重文件，便能得到待检测物体的类别与位置信息。

请参阅图3，本发明还提出一种基于改进YOLOv3网络的铁路异物检测系统，其中，所述系统包括：

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。