CN114187550A

CN114187550A - 一种基于改进yolo v3网络的弓网核心零部件识别方法

Info

Publication number: CN114187550A
Application number: CN202111505717.8A
Authority: CN
Inventors: 刘伟; 方黎勇; 范峥荣; 李�昊
Original assignee: Nanjing Shidao Information Technology Co ltd; Yangtze River Delta Research Institute of UESTC Huzhou
Current assignee: Nanjing Shidao Information Technology Co ltd; Yangtze River Delta Research Institute of UESTC Huzhou
Priority date: 2021-12-10
Filing date: 2021-12-10
Publication date: 2022-03-15

Abstract

本发明提出了一种基于改进YOLO V3网络的弓网核心零部件识别方法，包括以下步骤：S1，提取弓网数据集，然后将弓网数据集分为训练集和测试集，并对训练集进行处理；S2，将训练集输入改进的YOLO V3网络，进行网络训练；S3，将测试集输入改进的YOLO V3网络，得到目标识别结果；本发明能够在背景复杂的地铁运行环境下对多种目标进行检测，能极大减少在零部件的特征传递过程中特征丢失的情况，提高了识别的准确度。

Description

一种基于改进YOLO V3网络的弓网核心零部件识别方法

技术领域

本发明涉及智能检测领域，特别是涉及一种基于改进YOLO V3网络的弓网核心零部件识别方法。

背景技术

随着我国基础设施的建设和城市化进程的迅速增速，各种轨道交通工具作为一种更加便捷、绿色、安全的出行方式，特别是地铁、轻轨和有轨电车等交通制式，在主要交通干线及城市的主要道路中得到了广泛的普及和应用。由于迅速快捷、客运量大等优势，成为衡量一个城市经济发展的一个重要指标。在提高城市运转效率、改善交通状况的同时，也给关键轨道交通的设备健康监控和日常维护提出了更高的要求。

传统的弓网系统人工巡检和定期检测的方式，依靠人工维护的方式存在效率低下、成本高的问题。同时，仅仅依据人的经验判断，受人为的因素影响较大，在一些隧道或高架桥的环境做检测还存在很大的危险性。

现有的弓网在线检测方法，通过简单物理传感器的方式检测，但会因为设备接触到受流设备从而影响弓网的受流特性。通过传统的图像处理这种非接触式的检测方式可以很好地获得列车的运行参数，从而实现动态的实时监测，但这种传统检测手段不仅受列车运行环境的影响，难以适应到不同的线路和地上地下不同的光照环境，存在鲁棒性和准确性的问题。

YOLO V3目标检测器，可以用于弓网系统的实时检测，但在背景复杂的地铁运行环境下对多种目标进行检测，如果采用原有的YOLO V3网络模块进行检测，由于YOLO网络中层与层之间通过简单顺序的特征传递，很容易在特征图尺寸缩减的过程中丢失大量的关键特征，在零部件的特征传递过程中会出现较多特征的丢失现象，产生较多漏检的问题从而导致识别的准确度较低。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种基于改进YOLO V3网络的弓网核心零部件识别方法。

为了实现本发明的上述目的，本发明提供了一种基于改进YOLO V3网络的弓网核心零部件识别方法，包括以下步骤：

S1，提取弓网数据集，然后将弓网数据集分为训练集和测试集，并对训练集进行处理；

S2，将训练集输入改进的YOLO V3网络，进行网络训练；

S3，将测试集输入训练后的YOLO V3网络，得到目标识别结果。

进一步地，所述改进的YOLO V3网络包括：

将DenseNet模块取代原YOLO V3网络中的ResNet结构，从而使得层间信息能够有效的利用，减少池化层的图像特征丢失，增强网络对遮挡和不同尺寸目标特征的提取和识别能力；

同时，把DenseNet模块中的下采样输出分为两部分：第一部分为顺序输出，输出到l+1层的网络中；第二部分加入密集连接，输出到k层的网络中，k∈{l+2,l+3...L}；

最后将DenseNet模块中的输入进行维度的融合：第一部的输出特征图与第二部分的输出特征图进行维度的融合；

其中L表示DenseNet模块的深度，当前为第l层。

改进的YOLO V3网络不仅能防止拟合的情况，还能将浅层特征传递至深层特征，保留了信息的完整性。

进一步地，所述提取弓网数据集包括：

查找解码器，通过解码器对视频文件进行解码提取图像帧；再将生成的图片帧命名，名称由六位组成，前三位为视频文件编号，后三位是图像数量的编号。

进一步地，所述S1中的对训练集进行处理包括以下步骤：

S11，弓网数据集标记；

S12，弓网数据集扩充和预处理。

进一步地，所述S11包括以下步骤：

S111，采用LabelImg标注工具标注零件的位置信息；

S112，将生成的标注文件放入到数据集的目录中。

进一步地，所述S12中，对弓网数据集扩充的方法包括扩充方式一、方式二、方式三之一或者任意组合：

方式一：使A％的图像进行上下翻转，B％的图像进行左右镜像，然后调整图像的亮度为原来的100％～130％，A+B＝1；

方式二：运用仿射变换，把图像平移10～20像素；

方式三：将图像缩放为原来的90％～110％；

所述S12中，对弓网数据集中的图像进行预处理的方法为：

使用高斯模糊、均值模糊和中值模糊的任一或者组合方式对图像进行随机的增强处理。

进一步地，所述第一部分包括：

上一层的输出和一个跨层连接的结果相加，网络可以用方程表示为：

x_l＝H_l(x_l-1)+x_l-1

其中，x_l表示第l层的输出；

x_l-1表示第l-1层的输出；

H_l(·)表示第l层的非线性变换。

进一步地，所述第二部分包括：

把第l层前面的特征图x₀,x₁,...,x_l-1作为输入，用方程表示为：

x_l＝H_l({x₀,x₁,...,x_l-1})

其中x_l表示第l层的输出；

H_l(·)表示第l层的非线性变换；

x₀,x₁,...,x_l-1表示对于第0层到第l-1层的特征图进行张量的连接。

进一步地，所述改进的YOLO V3网络还包括：输入模块、卷积层、第一DenseNet模块、第二DenseNet模块、第三DenseNet模块、第四DenseNet模块、下采样层、池化层、全连接层、输出模块；

输入模块的输出端与卷积层的输入端相连，卷积层的输出端与第一DenseNet模块的输入端相连，第一DenseNet模块的输出端与第一下采样层的输入端相连；第一下采样层的输出端与第二DenseNet模块的输入端相连，第二DenseNet模块的输出端与第二下采样层的输入端相连；第二下采样层的输出端与第三DenseNet模块的输入端相连，第三DenseNet模块的输出端与第四DenseNet模块的输入端相连，第四DenseNet模块的输出端与池化层的输入端相连，池化层的输出端与全连接层的输入端相连，全连接层的输出端输出识别结果。

所述全连接层优选线性层。

所述下采样层包括卷积层和池化层。

还包括，所述第一DenseNet模块优选6个，第二DenseNet模块优选12个，第三DenseNet模块优选24个，第四DenseNet模块优选16个。

进一步地，所述改进的YOLO V3网络还包括预测框结果优化，预测框结果优化包括：

S100，将每一组数据x拟合成高斯模型的概率密度函数为：

p(y|x)＝N(y|μ(x),∑(x))

其中p(y|x)表示识别为目标的概率；在模型训练中还可表示该样本为正样本或负样本的概率；

μ(x)为均值函数；

∑(x)为标准差函数；

y为概率密度；

|·|表示绝对值；

T表示矩阵转置；

μ(x)取μ_tx、μ_ty、μ_tw、μ_th中的任一项，再取与μ(x)对应的∑(x)，∑(x)取∑_tx,∑_ty,∑_tw,∑_th的任一项；

μ_tx、μ_ty、μ_tw、μ_th分别为tx、ty、tw、th的均值函数，∑_tx,∑_ty,∑_tw,∑_th分别表示输出的tx，ty，tw，th的标准差；其中tx和ty为预测框中心点相对于单元格中心点的坐标；tw和th为预测框相对于先验框的长和宽；

S200，使用高斯模型对预测框的结果进行不确定性描述，对每个预测框的坐标使用特征图去预估其分布的均值与方差。

进一步地，所述改进的YOLO V3网络还包括损失函数，损失函数包括：

边界框的损失函数为负对数损失函数，对于回归量q其对应的损失描述为：

其中，W和H是特征图宽和高上的网格数量；

K是先验框的总数量；

u_tx(x_ijk)是神经网络输出中第(i,j)个网格第k个先验框输出的tx坐标；

∑_txx_ijk是神经网络输出表示tx坐标的可信度；

ε的值为10^-9；

其中

是一个定参，当存在目标时该参数被加到损失项中；

x^G表示图像中先验框的x坐标值占图像x坐标值的比率；

w^G表示图像中先验框的长度占图像长度的比率；

h^G表示图像中先验框的宽度占图像宽度的比率。

综上所述，由于采用了上述技术方案，本发明能够在背景复杂的地铁运行环境下对多种目标进行检测，能极大减少在零部件的特征传递过程中特征丢失的情况，提高了识别的准确度。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明的流程图。

图2是本发明密集型网络的结构示意图。

图3是本发明密集残差网络的结构示意图。

图4是本发明高斯模型曲线示意图。

图5是本发明图像数据集的提取流程图。

图6是本发明数据集标注示意图。

图7是本发明扩充和预处理后的数据集示意图。

图8是本发明识别效果示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

本发明公开了一种基于改进YOLO V3网络的弓网核心零部件识别方法。该方法采用密集型网络连接和高斯回归方法增加模型的精度。具体的内容如下：

改进YOLO V3网络的弓网核心零部件识别方法，如图1所示，主要涉及如下步骤：

S1，数据集提取；如图5所示。

S2，数据集标记；如图6所示。

S3，数据集扩充和预处理，如图7所示；

S4，网络模型设计与优化；主要涉及YOLO V3中的密集型网络结构改进，如图2和3所示；以及优化预测框，如图4所示。

S5，网络模型训练；

S6，目标识别。

一种优选的具体实施方式，所述S4包括：

S4-1，网络结构改进：主要涉及采用密集型连接网络的思想设计改进的网络结构，如图2所示，具体在DenseNet模块取代原网络中ResNet结构，从而使得层间信息能够有效的利用，减少池化层的图像特征丢失，增强网络对遮挡和不同尺寸目标特征的提取和识别能力。同时，把下采样的输入分为两部分：一部分输入到后面的网络中，一部分加入密集连接，和模块最后的输入进行维度的融合，如图3所示。

S4-2，预测结果优化：如图4所示，预测结果优化主要涉及使用了高斯模型来预测YOLO V3模型中输出的(tx,ty,tw,th)的不确定性，其中tx和ty为预测框中心点相对于单元格中心点的坐标即任意一个目标的中心点坐标；tw和th为预测框相对于先验框的长和宽。

图2的主要核心思想在于采用密集型连接网络的思想设计改进的网络结构。其实施过程如下：在一个深度为L层的卷积结构中，通过密集连接会有L(L-1)/2个稠密连接，每层的输入是前面所有层的信息融合，同时把当前层的特征图输入到之后的所有层当中。相比于传统的网络结构只有L层的连接，而且每层的特征只能输出到后面一层，减少了层间的特征复用，而采用密集型连接的方式能够有效地处理传播过程中梯度消失的现象，同时能够在不加入新的卷积层的情况下增强特征利用能力、促进层间信息的复用和减少一定数量的参数。具体操作如下：

在一个具有L层的卷积神经网络中，输入一张图像X，x_l表示第l层的输出，l表示在第l层。每一层的非线性变换表示为H_l(·)，H_l(·)是一个具有ReLU和池化特性的网络函数。在ResNet中，网络包括上一层的输出和一个跨层连接的结果相加，网络可以用方程表示为：

x_l＝H_l(x_l-1)+x_l-1

这种通过求和方式得到的网络可以将梯度向后传播，但可能影响网络中传播的信息。而密集型网络是将前面所有层的信息进行融合，把第l层前面的特征图x₀,x₁,...,x_l-1作为输入，用方程表示为：

x_l＝H_l({x₀,x₁,...,x_l-1})

其中x_l表示第l层的输出，H_l(·)表示第l层的非线性变换，x₀,x₁,...,x_l-1表示对于第0层到第l-1层的特征图进行张量的连接，在Keras对应的函数是Concatenate()。

为了解决上述方程连接操作中出现特征图的尺寸发生变化的问题，需要一个池化层做卷积核池化，可以改变特征图的尺寸。通过将网络增加为多个密集型连接，在基础网络连接块中加入池化和下采样层，组合成的网络如图2所示。池化层是属于下采样层，当卷积的stride＝2为池化层。

图3为密集型连接模块改进成的整体网络框架示意图。该框架在原来的YOLO V3网络中通过不同通道数的残差单元ResBlock形成了基础的特征提取网络，每个残差单元中，首先使用零填充控制特征图的大小，然后是DBL模块进行下采样，DBL模块包含卷积、批归一化和ReLU激活函数，图像输入到多个通道的密连模块后最后输出至接下来的网络中。改进型YOLO网络在ResBlock模块中引入密集型连接的思想，把下采样的输入分为两部分：一部分输入到后面的网络中，一部分加入密集连接，和模块最后的输入进行维度的融合。从而获得密集型连接模块改进成的整体的网络框架。

图4为预测框结果优化中采用的高斯曲线模型。预测结果优化主要涉及使用了高斯模型来预测YOLO V3模型中输出的(tx,ty,tw,th)的不确定性，其中tx和ty为预测框中心点相对于单元格中心点的坐标；tw和th为预测框相对于先验框的长和宽。图4中，∑为标准差函数，μ_tx、μ_ty、μ_tw、μ_th分别为tx、ty、tw、th的均值函数，∑_tx,∑_ty,∑_tw,∑_th分别表示输出的tx，ty，tw，th的标准差。

针对每一组数据x其对应的高斯分布拟合模型为：

p(y|x)＝N(y|μ(x),∑(x))

其中μ(x)为均值函数，∑(x)为标准差函数，y为概率密度，在当前分布下y的值越高越好。μ(x)取μ_tx、μ_ty、μ_tw、μ_th中的任一项，再取与μ(x)对应的∑(x)，∑(x)取∑_tx,∑_ty,∑_tw,∑_th的任一项。

使用高斯模型对预测框的结果进行不确定性描述，对每个预测框的坐标使用特征图去预估其分布的均值与标准差，改进之后的网络检测输出替换了原有的预测框输出，换成高斯估计量可以描述为如图4所示。其中，图中各个参数可以表示为：

σ(x)＝1/(1+exp(-x))

表示对变量μ_tx的估计，从而，可以使用μ_tx、μ_ty、μ_tw、μ_th，

∑_tw、

这8个预测值对边界框回归的4个变量构建不确定估计的分布，经过Sigmiod函数处理后表达预测框的4个分量均值与方差。

其次，对于损失函数，在原YOLO V3的模型中预测框的损失函数是平方损失，分类和目标置信度是使用的交叉熵损失。将边界框回归替换为高斯参数估计，将边界框的损失函数替换为了负对数损失函数，对于回归量q其对应的损失描述为：

其中，W和H是特征图宽和高上的网格数量，

K是先验框的总数量，u_tx(x_ijk)是神经网络输出中第(i,j)个网格第k个先验框输出的tx坐标，∑_txx_ijk是神经网络输出表示tx坐标的可信度；x^G、w^G和h^G分别表示图像中先验框的x坐标值占图像x坐标值的比率，图像中先验框的长度占图像长度的比率，图像中先验框的宽度占图像宽度的比率；

是一个定参，仅当存在目标时该参数被加到损失项中。在最后的mAP评估上，COCO数据集的mAP相对于没有改进的网络提升了3.1个百分点。

图5为图像数据集的提取流程，主要工作涉及：首先查找解码器，通过解码器对地铁正线采集的H264视频文件先进行解码提取图像帧，然后使用图片提取软件QT提取图片，采用QT中的FFmpeg方式读视频帧和解码视频，生成的图像帧命名为00A123.jpg，前三位为视频文件编号，后三位是图像数量的编号；同时对音频进行解码得到音频文件。

图6为数据集标注。弓网数据集的标注采用LabelImg标注工具，主要标注的是零件的位置信息，生成的YOLO格式的标注文件为xml格式。

图7为数据集扩充和预处理。为了产生更多合适的弓网零部件样本，使用了Imgaug进行弓网数据集的扩增，Imgaug是一个封装好的用来进行图像增强的Python库，能够运用在大多数的数据增强场景中，功能比较全面，有丰富的文档支持。Imgaug支持关键点和先验框一起进行图像转换，在图像增强的同时，会把标注好的bounding box生成变换完成后的bounding box文件，同时支持常见的变换如滤波、翻转、噪声和尺度变换等等。在弓网数据集的图像增强中，对于一个图像增强序列，使50％的图像进行上下翻转，50％的图片进行左右镜像，考虑到原始的数据集环境较暗，调整图像的亮度为原来的100％～130％；同时使用高斯模糊、均值模糊和中值模糊的一种对图像进行随机的增强处理；运用仿射变换，把图像平移15像素左右，缩放为原来的90％～110％，考虑到旋转变换会改变先验框的垂直特性，这里不进行旋转变换。最后，把增强后的图像加入到原始的数据集中一起进行神经网络的训练。

图8为识别效果。在弓网数据集中使用改进型的密集型连接网络进行实验验证，数据分为训练集和测试集，并在测试集中计算其平均精确度，与原始的YOLO V3网络进行对比。为了控制变量，在深度学习网络训练中采用相同的硬件环境，设置相同的网络参数，使用相同的数据集，在训练过程中，迭代次数设置为500次左右，模型的损失在数值上大致保持稳定时停止训练。其结果展示了很好的识别效果，关键零件都被识别出，识别出了3个螺栓小目标，预测框也完全匹配。

实验环境如表1所示。

表1实验环境配置

实验效果如表2所示。

表2识别效果

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于改进YOLO V3网络的弓网核心零部件识别方法，其特征在于，包括以下步骤：

S2，将训练集输入改进的YOLO V3网络，进行网络训练；

S3，将测试集输入训练后的YOLO V3网络，得到目标识别结果。

2.根据权利要求1所述的一种基于改进YOLO V3网络的弓网核心零部件识别方法，其特征在于，所述改进的YOLO V3网络包括：

将DenseNet模块取代原YOLO V3网络中的ResNet结构，

其中L表示DenseNet模块的深度，当前为第l层。

3.根据权利要求1所述的一种基于改进YOLO V3网络的弓网核心零部件识别方法，其特征在于，所述提取弓网数据集包括：

4.根据权利要求1所述的一种基于改进YOLO V3网络的弓网核心零部件识别方法，其特征在于，所述S1中的对训练集进行处理包括以下步骤：

S11，弓网数据集标记；

S12，弓网数据集扩充和预处理。

5.根据权利要求4所述的一种基于改进YOLO V3网络的弓网核心零部件识别方法，其特征在于，所述S11包括以下步骤：

S111，采用LabelImg标注工具标注零件的位置信息；

S112，将生成的标注文件放入到数据集的目录中。

6.根据权利要求4所述的一种基于改进YOLO V3网络的弓网核心零部件识别方法，其特征在于，所述S12中，对弓网数据集扩充的方法包括扩充方式一、方式二、方式三之一或者任意组合：

方式二：运用仿射变换，把图像平移10～20像素；

方式三：将图像缩放为原来的90％～110％；

所述S12中，对弓网数据集中的图像进行预处理的方法为：

7.根据权利要求1所述的一种基于改进YOLO V3网络的弓网核心零部件识别方法，其特征在于，所述第一部分包括：

x_l＝H_l(x_l-1)+x_l-1

其中，x_l表示第l层的输出；

x_l-1表示第l-1层的输出；

H_l(·)表示第l层的非线性变换。

8.根据权利要求1所述的一种基于改进YOLO V3网络的弓网核心零部件识别方法，其特征在于，所述第二部分包括：

x_l＝H_l({x₀,x₁,...,x_l-1})

其中x_l表示第l层的输出；

H_l(·)表示第l层的非线性变换；

9.根据权利要求1所述的一种基于改进YOLO V3网络的弓网核心零部件识别方法，其特征在于，所述改进的YOLO V3网络还包括：输入模块、卷积层、第一DenseNet模块、第二DenseNet模块、第三DenseNet模块、第四DenseNet模块、下采样层、池化层、全连接层、输出模块；

10.根据权利要求1所述的一种基于改进YOLO V3网络的弓网核心零部件识别方法，其特征在于，所述改进的YOLO V3网络还包括预测框结果优化，预测框结果优化包括：

S100，将每一组数据x拟合成高斯模型的概率密度函数为：

p(y|x)＝N(y|μ(x),∑(x))

其中p(y|x)表示识别为目标的概率；

μ(x)为均值函数；

∑(x)为标准差函数；

y为概率密度；

|·|表示绝对值；

T表示矩阵转置；