CN112949480A

CN112949480A - 一种基于yolov3算法的铁轨弹条检测方法

Info

Publication number: CN112949480A
Application number: CN202110226204.7A
Authority: CN
Inventors: 厉小润; 张楠; 何钢迪; 王森荣; 王晶; 林超; 许国平; 王建军; 朱彬; 鄢祖建
Original assignee: Zhejiang University ZJU; China Railway Siyuan Survey and Design Group Co Ltd
Current assignee: Zhejiang University ZJU; China Railway Siyuan Survey and Design Group Co Ltd
Priority date: 2021-03-01
Filing date: 2021-03-01
Publication date: 2021-06-11

Abstract

本发明公开了一种基于YOLOV3算法的铁轨弹条检测方法，属于图像目标检测领域。构建铁轨弹条的数据集，并标注弹条样本，基于YOLOV3算法构建深度学习网络架构，基于YOLOV3网络对数据集进行训练，根据训练结果进行网络架构的参数调整，调整完成后将待检测的图片放入网络中进行检测判定，完成弹条目标的最终判别确认。本发明可从视频监控图像中快速定位铁轨弹条位置，无需获取铁轨位置等先验信息，同时利用YOLOV3网络结构充分学习铁轨弹条的特征，该方法可以解决复杂室外环境因素对弹条检测的影响，同时可以满足实时性和精确性的要求。

Description

一种基于YOLOV3算法的铁轨弹条检测方法

技术领域

本发明属于图像目标检测领域，更具体地，涉及一种基于YOLOV3算法的铁轨弹条检测方法。

背景技术

铁路钢轨是支撑机车和机车方向的部件，钢轨是通过弹性扣件固定在道床的轨枕上。弹性扣件的扣压件主要是弹条，它通过弹条的弯曲和扭曲变形，产生扣压力作用在轨道上，长期有效地保证钢轨之间的可靠连接，尽可能保持轨道的整体性，阻止钢轨相对于轨枕的纵横向移动，确保轨距正常，从而保证轨道车辆行驶安全。

铁轨弹条虽是一个小器件，但是它是轨道上一个重要的零件，因它的需求量大，每公里大约7000件，其可靠性直接关系到行车的安全，因此需要对其状态进行实时监测，预防事故发生，保证轨道的稳定性与可靠性。

对于视频监控图像下的弹条检测技术，由于弹条目标在图像中所占据的图像区间较小，且颜色偏黑，与铁轨其余部件无明显区分。对于一张视频监控图像，单个弹条目标所占据的区间小，且需要检测约十几个弹条。由于待检测的目标处于复杂的室外环境，光照，雨水等室外条件影响因素一直是目标检测中的难点，故基于视频监控图像的弹条检测需要先通过深度学习网络学习弹条的特征，再基于深度学习网络进行检测。

当前国内外对铁轨弹条目标检测的方法主要是利用电磁感应和超声波技术，少部分会依靠图像处理技术。目前，铁轨弹条检测方法主要不足主要包括：

(1)已有设计的铁路轨道检测系统已经实现了对部分种类的弹条自动识别，但能够检测的弹条种类少，无法满足实际列车安全运行检测的要求。

(2)已有的检测技术，其检测的准确率对光照条件和环境污渍等的因素要求较高，在恶劣天气条件下，检测的效率和准确率都下降。

(3)现有检测方式仍然不能实现完全自动化，采用的是人工辅助软件识别方式。无论是利用电磁感应和超声波技术，还是现有基于图像处理技术的弹条目标检测技术，在实际应用中都有一定的局限性。

发明内容

针对现有技术在铁轨弹条检测时，能够检测的弹条种类少，受室外环境因素的影响大，易因光照雨水等气候因素造成误检，在检测过程中受噪声影响大以及无法达到自动化检测等问题，本发明提出一种基于YOLOV3算法的铁轨弹条检测方法来解决这些问题。

本发明采用的目标检测模型基本原理为：先用特征提取网络提取图像的特征，从而得到对应的m*m特征图，再据此将图像划分成m*m单元网络格式，然后用单元格来预测中心坐标落在其内的目标，每个单元格都会预测确定数量的边界框，选择与真实框交并比最大的边界框来预测。

所得的特征图中的两个维度是提取到的特征，一个是平面，如m*m；另一个是深度，如B*(5+C)，其中B表示一个单元格所预测的边界框数量，C表示边界框对应的类别数，而5则表示1个边界框置信度和4个坐标信息。

本发明针对视频监控图像下的铁轨弹条检测问题提出的方法，可检测多个种类的弹条种类，不受室外复杂因素如光照等噪声影响，抗干扰性强，在弹条检测时不需要依赖人工辅助识别，可实现自动化检测，同时检测的实时性和精准性都达到了要求。

为了实现上述目的，本发明采用的技术方案是：

一种基于视频的非接触式钢轨轨枕相对位移实时测量方法，包括如下步骤：

S1：针对任一个检测点，在需要检测的铁轨一侧的固定位置设置摄像头，将摄像头的监控范围对准目标检测位置，实时拍摄目标检测位置处的铁轨弹条图像；

S2：采集样本图片，并对样本图像进行扩增，标注每一个样本图像中弹条的真实检测框和弹条的类别，所述的类别包括完整和缺失；将带标注的样本图像作为训练集；

S3：建立YOLOV3模型，利用步骤S2获得的训练集对模型进行训练，得到训练好的弹条检测模型；

所述的YOLOV3模型包括网络输入层、Darknet-53网络和多尺度预测层；将样本图像作为网络输入层的输入，得到统一尺寸的样本图像；利用统一尺寸的样本图像对Darknet-53网络进行训练，输出该样本图像的特征图；最后通过多尺度预测层对特征图采用三种尺度标注预测框，与真实预测框进行对比，输出预测框及置信度；

S4：通过摄像头实时采集每一个检测点处的铁轨弹条视频，从对应当前时刻的视频中等间隔提取m帧作为当前时刻的待检测图像，将待检测图像作为步骤S3得到的训练好的弹条检测模型的输入，得到检测结果，所述的检测结果包括弹条的类别和置信度；

S5：将当前时刻的m帧图像对应的检测结果取均值作为最终检测结果输出；

S6：重复步骤S4至步骤S5，执行下一时刻的铁轨弹条检测，实现铁轨弹条的实时检测。

与现有技术相比，本发明的优势在于：

(1)本发明构建的数据集包括多个种类的铁轨弹条种类，在后续的检测中可以完成各种种类弹条的检测，丰富了检测结果；

(2)本发明搭建的YOLOV3深度学习网络可以有效充分的学习铁轨弹条的特征，在室外复杂环境条件下检测时，抗干扰性强，极大的削弱了光照等因素对检测的影响。

(3)本发明搭建的基于YOLOV3算法的深度学习网络可以实现自动化检测，无需人工辅助识别，提升了检测的智能化程度。

附图说明

图1是本发明实施例提供的铁轨弹条检测方法流程图。

图2是本发明实施例提供的铁轨弹条样本标注图。

图3是本发明实施例提供的Darknet-53网络结构图。

图4是本发明实施例提供的偏差与方差关系组合图。

图5是本发明实施例提供的Feature Pyramid Network图。

图6(a)是本发明实施例提供的白天阳光下的弹条检测图。

图6(b)是本发明实施例提供的雨天的弹条检测图。

图6(c)是本发明实施例提供的夜间的弹条检测图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合具体的实施例详细说明本发明。下面描述了具体实施例以简化本发明。但是需要认识到，本发明不局限于所说明的实施例，并且在不脱离基本原理的前提下，本发明的各种修改是可能的，这些等价形式同样落于本申请所附权利要求书所限定的范围。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供的一种基于YOLOV3算法的铁轨弹条检测方法，主要包括如下步骤：

步骤1：针对任一个检测点，在需要检测的铁轨一侧的固定位置设置摄像头，将摄像头的监控范围对准目标检测位置，实时拍摄目标检测位置处的铁轨弹条图像；

步骤2：采集样本图片，并对样本图像进行扩增，标注每一个样本图像中弹条的真实检测框和弹条的类别，所述的类别包括完整和缺失；将带标注的样本图像作为训练集；

步骤3：建立YOLOV3模型，利用步骤2获得的训练集对模型进行训练，得到训练好的弹条检测模型；

步骤4：通过摄像头实时采集每一个检测点处的铁轨弹条视频，从对应当前时刻的视频中等间隔提取m帧作为当前时刻的待检测图像，将待检测图像作为步骤3得到的训练好的弹条检测模型的输入，得到检测结果，所述的检测结果包括弹条的类别和置信度；

步骤5：将当前时刻的m帧图像对应的检测结果取均值作为最终检测结果输出；

步骤6：重复步骤4至步骤5，执行下一时刻的铁轨弹条检测，实现铁轨弹条的实时检测。

下面对具体实现方式进行介绍。

步骤1：设定合适的位置实时拍摄监控视频；

步骤2：配置检测环境，构建数据集，标注弹条样本：

以Anaconda为平台，搭建了Keras 2.1.5、TensorFlow-GPU1.13.2的铁轨弹条检测环境，采集样本图像；

在已有数据的基础上，通过采用随机裁剪，即裁剪原图像中的一部分，比如裁剪四角、中心或者上下部分等等，增加数据量；通过翻转镜像等操作，增加数据量；通过调节图像亮度对比度等操作，实现数据量的扩充。

本实施例中采用labelImg工具，labelImg是专门用于标注目标边界框的工具，故采用用labelImg对数据集中图片进行标注，生成xml格式标记文件，标注后文件中含有目标位置、目标分类和目标真实框，真实框为目标左上和右下两个点的坐标信息。标注过程中，对于弹条完整情况其标签信息为“yes”，对于弹条缺失和弹条螺钉都缺失的情况其标签信息为“lack”，标注结果如图2所示

步骤3：搭建基于YOLOV3算法的深度学习网络架构，主要由网络输入，Darknet-53和多尺度预测三个部分组成。

3-1：网络输入的具体实现方式为：

由于YOLOV3有5次上采样，每次采样步长为2，所以网络的最大步幅(步幅指层的输入大小除以输出)为2^5＝32，故必须调整网络输入的图片大小为32的整倍数，优选为256x256。

3-2：Darknet-53整个网络主要是由一系列的1x1和3x3的卷积层组成，每个卷积层后都会跟一个BN(Batch Normalization)层和一个LeakyReLU层，因为网络中有53个卷积层，所以该部分叫做Darknet-53，如图3所示。

a)针对尺寸为256x256输入图像，首先经过一个3x3x32的卷积层输出256x256x32；

b)接着经过一个3x3x64，stride＝2的卷积层输出为128x128x64；

c)经过一个残差块，输出为128x128x64；

d)过一个3x3x128，stride＝2的卷积层输出为64x64x128；

e)2个残差块后输出为64x64x128；

f)经过一个3x3x256，stride＝2的卷积层输出为32x32x256；

g)经过8个残差块，输出为32x32x256；

h)过一个3x3x512，stride＝2的卷积层输出为16x16x512；

i)经过8个残差块后输出为16x16x512；

j)过一个3x3x1024，stride＝2的卷积层输出为8x8x1024；

k)经过4个残差块后输出为8x8x1024；

l)经过池化全连接层以及sigmoid激活函数层输出最终的特征图及预测概率。

对上述网络架构进行参数调整：

a)随机初始化网络结构的权重参数W；

b)随机选取一批样本图像作为迭代的样本图像输入；

c)将样本图像输入Darknet-53网络，前向传输得到概率输出，选取输出的结点中概率值最大的结点作为预测结果；

d)利用预测结果计算本次迭代的sigmoid交叉熵损失函数，sigmoid交叉熵损失函数计算式为：

H(p,q)＝-∑(p(x)logq(x)+(1-p(x))log(1-q(x)))

其中，概率分布p(x)为期望输出，概率分布q(x)为实际输出，H(p,q)为交叉熵；

e)利用误差反向传播BP算法和Adam优化算法更新模型中的参数W；

f)循环步骤b)～步骤e)，直到完成预设的迭代次数。

所述利用误差反向传播BP算法和Adam优化算法更新深度学习模型中的参数W的步骤，利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率，对每个参数W进行迭代更新，直到得到最优解：

W′＝W+learning rate

式中，learning rate为学习率，W′为更新后的参数。

由于模型本身的复杂性以及数据集的多样性，模型与真实之间往往存在误差，而误差的一般由偏差和方差两部分组成。偏差，指模型在样本上的输出与真实值之间的误差，即模型本身的精准度，反应出算法的拟合能力。方差，指模型每一次输出结果与模型输出期望之间的误差，即模型的稳定性，反应出预测的波动情况。

偏差与方差之间按照高低，可以组合成四种关系，如图4所示。图中偏离红色靶心的蓝点越多、越远，表示模型越差。1)低偏差，低方差。表示模型既准确又稳定，效果最好，但是现实中这种情形很少遇见。2)低偏差，高方差。表示模型准确但是稳定性差，对验证数据、测试数据的拟合能力差，即是模型的泛化能力差，产生了过拟合(Overfitting)。3)高偏差，低方差。表示模型的准确度差，对数据的拟合能力弱，产生了欠拟合(Underfitting)。4)高偏差，高方差。表示模型既不准确又不稳定。

高方差往往预示着过拟合，高偏差则是欠拟合。因此为避免欠拟合，往往需要增加训练样本数据、设计更复杂的神经网络模型(加深、加宽等)、增加迭代次数、更好的优化函数、调整超参数值等方法；而为避免过拟合，则需要设计更简单的神经网络模型、增加训练样本数据、正则化、使用dropout(dropout的作用是随机地使得网络中的部分神经元失效，效果上类似将模型变得更简单)、调整超参数值、尝试其他模型、提前结束训练(earlystopping)，即是提前结束优化损失函数等方法。

在训练模型时对照以上描述，采取对应的措施调整模型，最终得到loss值最低、精度相对最高的检测模型。

3-3：多尺度预测：

不同于之前YOLVO2的单标签分类，YOLOV3采用的是多标签分类，同样的分类器也由之前的Softmax变为Logistic。这主要是前者在判定目标时只能归属于一个类别，而后者则可以判定其属于多种类别，YOLOV3的这种改进在解决了多标签问题的同时还保证了精度不受影响，使得其在复杂的领域例如开放图像数据集时会大显作用。

在YOLOV3算法中，采用了FPN结构，如图5所示。利用上采样和融合的方法，使用3种尺度(13*13、26*26、52*52)特征图融合来进行预测，这样对小目标的检测十分有效。在FPN结构中，当前层的特征图对未来层的特征图进行上采样并加以利用，从而获得未来层的信息，将低层与高层特征融合起来，提高了检测精度。

在YOLOV3中输出的特征图尺度一共有3种，不同尺度特征图的单元格设有3种先验边界框，故一共有9种先验边界框。

YOLOV3边界框的求解过程具体公式如下：

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

Pr(object)*IOU(b,object)＝σ(t_o)

其中，c_x、c_y表示一个像素点距离左上角的横纵距离；σ(t_x)和σ(t_y)表示预测框偏移量，(b_x,b_y,b_w,b_h)为预测框中心坐标、宽度和高度；(t_x,t_y,t_w,t_h)∈(0,1)为网络学习的参数，p_w,p_h为先验框相对于特征图的宽度和高度。

图6(a)是白天阳光下弹条检测图；图6(b)是雨天弹条检测图；图6(c)是夜间弹条检测图，其中在图6(a)阳光下，第一排的中间的缺失弹条被准确检测，图6(b)雨天下，图中弹条皆存在，检测结果完全正确，图6(c)在夜间，同样图中弹条皆存在，检测结果完全正确。可见，本发明的方法能够克服环境影响。

本发明实施例的方法，对比现有技术，可检测多个种类的弹条种类，不受室外复杂因素如光照等噪声影响，抗干扰性强，在弹条检测时不需要依赖人工辅助识别，可实现自动化检测，同时检测的实时性和精准性都达到了要求。

本发明实施例所示的附图说明，可使本发明的目的、技术方案及优点介绍得更加清楚明白。应当说明，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。凡在本发明提供的方法思路和原则之内所作的等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于YOLOV3算法的铁轨弹条检测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于YOLOV3算法的铁轨弹条检测方法，其特征在于，步骤S2中对样本图像进行扩增的方法包括：

2.1)随机剪裁：随机裁掉原始图像中的四角、中心或者上下部分，将裁剪后的图像作为新增样本图；

2.2)镜像翻转：对原始图像进行镜像翻转，将翻转后的图像作为新增样本图；

2.3)随机调节图像参数：随机调节原始图像的亮度、对比度，将调节后的图像作为新增样本图。

3.根据权利要求1所述的基于YOLOV3算法的铁轨弹条检测方法，其特征在于，步骤S2所述的真实检测框利用目标左上和右下两个点的坐标信息表示。

4.根据权利要求1所述的基于YOLOV3算法的铁轨弹条检测方法，其特征在于，所述的YOLOV3模型中的网络输入层将输入图像的尺寸大小调整为32的整倍数，优选为256x256。

5.根据权利要求4所述的基于YOLOV3算法的铁轨弹条检测方法，其特征在于，所述的YOLOV3模型中的Darknet-53对输入图像的处理过程为：

b)接着经过一个3x3x64，stride＝2的卷积层输出为128x128x64；

c)经过一个残差块，输出为128x128x64；

d)过一个3x3x128，stride＝2的卷积层输出为64x64x128；

e)2个残差块后输出为64x64x128；

f)经过一个3x3x256，stride＝2的卷积层输出为32x32x256；

g)经过8个残差块，输出为32x32x256；

h)过一个3x3x512，stride＝2的卷积层输出为16x16x512；

i)经过8个残差块后输出为16x16x512；

j)过一个3x3x1024，stride＝2的卷积层输出为8x8x1024；

k)经过4个残差块后输出为8x8x1024；

6.根据权利要求5述的基于YOLOV3算法的铁轨弹条检测方法，其特征在于，步骤S3中的模型训练过程为：

a)随机初始化网络结构的权重参数W；

b)随机选取一批样本图像作为迭代的样本图像输入；

H(p，q)＝-∑(p(x)logq(x)+(1-p(x))log(1-q(x)))

其中，概率分布p(x)为期望输出，概率分布q(x)为实际输出，H(p，q)为交叉熵；

f)循环步骤b)～步骤e)，直到完成预设的迭代次数。

7.根据权利要求6述的基于YOLOV3算法的铁轨弹条检测方法，其特征在于，在步骤e)和f)之间还包括利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率，对每个参数W进行迭代更新，直到得到最优解：

W′＝W+learning rate

式中，learning rate为学习率，W′为更新后的参数。

8.根据权利要求1述的基于YOLOV3算法的铁轨弹条检测方法，其特征在于，所述的YOLOV3模型中的多尺度预测层采用FPN结构，利用13*13、26*26、52*52三种尺寸的特征图融合来进行预测，不同尺度特征图的单元格设有3种先验边界框，故一共有9种先验边界框；

在FPN结构中，当前层的特征图对未来层的特征图进行上采样并融合，最终输出的边界框求解公式为：

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

Pr(object)*IOU(b，object)＝σ(t_o)

其中，c_x、c_y表示一个像素点距离左上角的横纵距离；σ(t_x)和σ(t_y)表示预测框偏移量，(b_x，b_y，b_w，b_h)为预测框中心坐标、宽度和高度；(t_x，t_y，t_w，t_h)∈(0，1)为网络学习的参数，p_w，p_h为先验框相对于特征图的宽度和高度。