CN116363105A

CN116363105A - 一种基于Faster R-CNN的高铁接触网零部件识别与定位的方法

Info

Publication number: CN116363105A
Application number: CN202310349651.0A
Authority: CN
Inventors: 郭文娟; 邹启杰; 王世杰; 胡琪涛; 魏兴普; 曹杰; 高兵
Original assignee: Dalian University
Current assignee: Dalian University
Priority date: 2023-04-04
Filing date: 2023-04-04
Publication date: 2023-06-30

Abstract

本发明公开了一种基于FasterR‑CNN的高铁接触网零部件识别与定位的方法，包括对高铁接触网图像数据集先进行离线增强，再进行在线增强；通过Resnet50骨干网络对高铁接触网图像进行特征提取得到高铁接触网特征图，并加入SK注意力机制，自适应调整感受野大小；将调整后的高铁接触网特征图送至特征金字塔模块FPN进行特征融合，得到多尺度特征信息后再送至区域建议网络RPN生成候选框；然后通过ROIAlign层为每一个候选框生成固定尺寸大小的特征图；最后分类网络对候选框内的物体进行类别预测并调整边界框。本发明提高了多种零部件在图像背景复杂、噪声大、部分模糊不清情况下的识别准确度；降低了零部件在密集遮挡时的误检率和漏检率；具有更强的泛化能力、鲁棒性更高。

Description

一种基于Faster R-CNN的高铁接触网零部件识别与定位的方法

技术领域

本发明涉及接触网图像智能检测技术领域，具体涉及一种基于Faster R-CNN的高铁接触网零部件识别与定位的方法。

背景技术

接触网作为高铁的牵引供电系统，是影响行车安全的重中之重。基于传统图像处理技术的接触网部件检测需人工设计大量提取特征，其存在效率低、普适性差等问题，无法满足高铁的实际检测精度和速度需求。随着深度学习和计算机视觉的快速发展，基于深度学习的目标检测技术准确度高、检测速度快、鲁棒性强、适用于大型数据集，将深度学习引入接触网的零部件检测中，已成为一种主流发展趋势。对接触网部件进行精准检测，实现关键部件识别与定位是后续故障排除的前提，也是一项尤其具有挑战性的任务。由于接触网图像中待检测部件大小不一、结构复杂且背景干扰因素多，现有的深度学习部件检测方法普遍存在以下问题：(1)检测高铁零部件种类相对较少，难以满足多形态、多种类的准确性需求；(2)对于一些面积占比小的部件，识别精度低甚至发生漏检；(3)算法处理抗遮挡目标的能力差，难以识别被遮挡部件。

中国专利文献CN106485701B公开了一种基于模板特征匹配的承力索底座部件定位法，该方法虽融合了多个角度的特征信息，但仅靠旋转双耳作为匹配特征，误匹配度较高，且人工设计模板时间成本高、仅能检测单一目标，无法满足高铁多形态、多种类的实际检测需求。

中国专利文献CN110569841B公开了基于YOLOv3卷积神经网络的接触网关键部件的目标检测方法，该方法检测的部件主要有平腕臂绝缘子、斜腕臂绝缘子、腕臂上底座、腕臂下底座和定位器线夹套管双耳等，部分部件面积占比较小，而该方法将图像大小由6600×4400统一调整至448×448像素，进一步导致小部件的特征信息丢失，因此对于小部件的检测不友好。且单阶段算法会因正负样本筛选不均衡导致在接触网多类部件检测中性能较差。

中国专利文献CN 115272700A公开了基于多尺度特征自增强的改进SSD小目标检测方法，其中使用的多尺度辅助特征提取模块MAFE补充了特征层的细粒度信息，并捕获了局部和全局上下文信息，但过度关注于层间特征交互而忽略了层内特征表示，会导致遮挡情况下以及部件分布密集情况下零部件检测性能差。

发明内容

本发明的目的在于，提出一种基于Faster R-CNN的高铁接触网零部件识别与定位的方法，其提高了多种零部件在图像背景复杂、噪声大、部分模糊不清情况下的识别准确度；降低了零部件在密集遮挡时的误检率和漏检率；面对多形态多角度且比例差异大的零部件，具有更强的泛化能力、鲁棒性更高。

为实现上述目的，本申请提出的一种基于Faster R-CNN的高铁接触网零部件识别与定位的方法，包括：

对高铁接触网图像数据集先进行离线增强，再进行在线增强；

基于改进的Faster R-CNN算法对高铁接触网图像进行特征提取：先通过Resnet50骨干网络对高铁接触网图像进行特征提取得到高铁接触网特征图，并在提取过程中加入SK注意力机制，自适应调整感受野大小；将调整后的高铁接触网特征图送至特征金字塔模块FPN进行特征融合，得到多尺度特征信息后再送至区域建议网络RPN生成候选框；然后通过ROI Align层为每一个候选框生成固定尺寸大小的特征图；最后分类网络对候选框内的物体进行类别预测并调整边界框。

进一步的，使用Mixup方法对高铁接触网图像数据集进行离线增强，其公式为：

λ＝Beta(α,β)

mixed_batchx＝λ*batchx1+(1-λ)*batchx2

mixed_batchy＝λ*batchy1+(1-λ)*batchy2

其中，batchx1、batchx2是数据增强Mixup的两个bach样本，batchy1、batchy2是每个bach样本对应的标签；mixed_batchx是混合后的样本，mixed_batchy是混合后bach样本对应的标签；Beta表示贝塔分布，λ是由参数α,β贝塔分布计算出来的混合系数。

进一步的，离线增强后，以8：1：1的比例将高铁接触网图像数据集划分为训练集、测试集、验证集。

进一步的，在线增强具体为：以一定概率对训练集的高铁接触网图像进行随机翻转、裁剪、缩放、添加高斯噪声、调整HSV对比度、调节亮度。

进一步的，SK注意力机制包括Split操作、Fuse操作、Select操作；

所述Split操作：对于任意输入的高铁接触网特征图X，进行

两个卷积变换，使用的卷积核大小分别为3x3和5x5，公式如下：

其中，H、W为变换后高铁接触网特征图X的长、宽，C为通道数，

为卷积变换公式，/>

和/>

为卷积操作后得到的特征图信息；

所述Fuse操作：先将上述两个特征图信息

和/>

进行逐元素相加融合得到特征U，如下式所示：

然后使用全局平均池化操作来获取特征U的全局信息，如下式所示：

其中，Sc是有C个元素的列向量，

为全局平均池化操作函数；

最后，通过全连接层将全局信息Sc压缩为特征信息z；如下式所示：

其中

是全连接层的操作函数，δ是ReLU函数，/>

是批量归一化操作，Ws是权重矩阵。

Select操作：压缩特征信息z通过卷积核A、卷积核B进行卷积操作，再经过Softmax处理，得到卷积核对应的通道注意力信息a、b，具体如下：

其中，卷积核A,B∈R^C×d，a、b表示特征图信息

和/>

的通道注意力信息，A_c∈R^1×d是A的第c行，B_c∈R^1×d是B的第c行，a_c是a的第c个元素，b_c是b的第c个元素；最终的特征映射V通过将各卷积核的通道注意力特征图加权相加获得，如下式所示：

其中V＝[V1,V2,...,V_C],Vc∈R^H×W，

表示第c个通道的特征图上的每个点都乘以a_c；/>

表示第c个通道的特征图上的每个点都乘以b_c。

更进一步的，在特征金字塔模块FPN内进行自底向上操作，自顶向下操作和横向连接操作；

自底向上操作即卷积网络的前向传播过程，以2的整数倍进行降采样；对于不改变特征图的层，将其归为一个级stage，抽取每个级stage的最后一层作为输出构成特征金字塔；

自顶向下操作是将高层得到的特征图进行上采样然后往下传递；

横向连接操作分为三个步骤：先对每个级stage输出的特征图C_n进行1×1的卷积；再与上一层特征图P_n+1进行融合；最后再进行3×3的卷积，得到本层输出的特征图P_n。

更进一步的，所述区域建议网络RPN分为分类层和边界回归层；分类层用来判断锚框内是否含有物体，该层通过Softmax将锚框进行前景背景的二分类，输出锚框中含有物体的概率，具体概率计算过程为：对于每一个锚框，如果它与真实物体标注框的IOU值大于0.7，判为前景，即表示该锚框中包含物体；如果IOU值小于0.1则判为背景，即表示该锚框中不包含物体；如果IOU值大于等于0.1且小于等于0.7，则忽略，如下式所示：

边界回归层用来获取边界框的偏移值，以此来调整锚框位置更好地框住物体，该层只对前景计算边界回归损失。

更进一步的，通过ROI Align层为每一个候选框生成固定尺寸大小的特征图，具体为：

遍历每个候选框，保持浮点数边界不做量化；

将所述候选框平均划分为k×k个单元，保持每个单元的边界不做量化；

对于每个单元取固定4个点的坐标，使用双线性插值法得到这四个位置的加权值，然后进行最大池化操作。

本发明采用的以上技术方案，与现有技术相比，具有的优点是：在预处理阶段，提供的图像数据增强方案更适合高铁接触网图像数据集，能够有效防止过拟合；在训练阶段，改进算法使小部件的检测精确度进一步提高，且面对复杂的铁路场景表现得鲁棒性更强、泛化能力更高，为实际高铁接触网智能检测提供了一套高精度的可行方案。

附图说明

图1本申请实施例提供的整体流程图；

图2是本申请实施例提供的改进的Faster R-CNN框架图；

图3是本申请实施例提供的真实框尺寸分析结果图。

具体实施方法

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请，即所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。

实施例1

如图1所示，本发明公开了一种高铁接触网零部件目标检测方法，针对多形态多角度且比例差异大的零部件，本发明根据高铁接触网图像的特点，使用离线与在线增强的方式进行图像增强，使数据集更接近于真实检测场景，提高泛化能力；其次，根据对标注样本中真实框的分析结果，调整RPN网络的锚框参数，加强对多尺寸部件的检测性能。针对图像背景复杂、噪声大、部分模糊不清的情况，本发明加入特征金字塔模块FPN进行多尺度特征融合，在一定程度上减少了浅层特征信息的丢失，增强对小部件的检测性能；其次在骨干网络中引入SK注意力机制，使算法能够自适应得调整感受野大小，进一步提升分类能力，加强鲁棒性。针对密集遮挡时部件难以判别的情况，本发明使用更精确的ROI Align层替换原始的ROI Pooling层，减少量化计算带来的偏差，提高算法分类和定位的准确性，降低误检率、漏检率。其具体实现方法为：

S1.对高铁接触网图像数据集先进行离线增强，再进行在线增强；

具体的，高铁接触网图像中常呈现多角度、多形态、多背景，本发明根据上述特点，使用离线与在线结合方式进行数据增强，使高铁接触网图像数据集更加接近铁路的各种真实场景。

S1.1离线增强是训练前对高铁接触网图像数据集进行处理，在离线状态下扩充数据集数量；本发明使用Mixup方法对高铁接触网图像数据集进行离线增强，从4768张扩增至6500张，并以8：1：1的比例将数据集划分为训练集、测试集、验证集；

Mixup是一种以线性插值方式构建新的训练样本和标签的混类增强算法；其公式为：

λ＝Beta(α,β)

mixed_batchx＝λ*batchx1 +(1-λ)*batchx2

mixed_batchy＝λ*batchy1 +(1-λ)*batchy2

S1.2在线增强是在训练时对加载到的数据进行预处理，不改变实际训练数据的数量。本实施例以0.4的概率对训练数据进行随机翻转、裁剪、缩放、添加高斯噪声、调整HSV对比度、调节亮度，再送入神经网络进行训练。

S2.基于改进的Faster R-CNN算法对高铁接触网图像进行特征提取；

具体的，针对高铁接触网图像背景复杂、零部件尺寸较小且存在遮挡导致识别率较低的问题，本发明提出一种改进的Faster R-CNN算法。如图2所示先通过Resnet50骨干网络对高铁接触网图像进行特征提取得到高铁接触网特征图，并在提取过程中加入SK注意力机制，自适应调整感受野大小；将调整后的高铁接触网特征图送至特征金字塔模块FPN进行特征融合，得到多尺度特征信息后再送至区域建议网络RPN生成候选框；然后通过ROIAlign层为每一个候选框生成固定尺寸大小的特征图；最后分类网络对候选框内的物体进行类别预测并调整边界框。

SK注意力机制可以自适应调节感受野大小，针对不同尺度的高铁接触网图像动态生成卷积核。对于输入的高铁接触网特征图，可以在不改变其大小的情况下增强通道信息的表达。其中，主要包括Split、Fuse、Select三个操作，具体解释如下：

1)所述Split操作：对于任意输入的高铁接触网特征图X，进行

为卷积变换公式，/>

和/>

为卷积操作后得到的特征图信息；

2)所述Fuse操作：先将上述两个特征图信息

和/>

进行逐元素相加融合得到特征U，如下式所示：

其中，Sc是有C个元素的列向量，

为全局平均池化操作函数；

其中

是全连接层的操作函数，δ是ReLU函数，/>

是批量归一化操作，Ws是权重矩阵；

3)Select操作：压缩特征信息z通过卷积核A、卷积核B进行卷积操作，再经过Softmax处理，得到卷积核对应的通道注意力信息a、b，具体如下：

其中，卷积核A,B∈R^C×d，a、b表示特征图信息

和/>

其中V＝[V1,V2,...,V_C],Vc∈R^H×W，

表示第c个通道的特征图上的每个点都乘以a_c；/>

表示第c个通道的特征图上的每个点都乘以b_c。

特征金字塔模块FPN(Feature Pyramid Networks)将高层的强语义特征与低卷积层的强分辨率信息进行融合，使算法适应多尺度检测带来的位置多样性。由于接触网中零部件尺寸不一且差异较大，所以本发明在骨干网络后加入特征金字塔模块FPN，提高算法对不同尺度的零部件尤其是小部件的检测准确性。其主要包括三个部分：自底向上(bottom-up pathway),自顶向下(top-down pathway)和横向连接(lateral connections)。

1)自底向上即卷积网络的前向传播过程，以2的整数倍进行降采样；对于不改变特征图的层，将其归为一个级stage，抽取每个级stage的最后一层作为输出构成特征金字塔；

2)自顶向下是将高层得到的特征图进行上采样然后往下传递；

3)横向连接分为三个步骤：先对每个级stage输出的特征图C_n进行1×1的卷积；再与上一层特征图P_n+1进行融合；最后再进行3×3的卷积，得到本层输出的特征图P_n。

以每个像素为中心，生成多个缩放比和宽高比(Aspectratio)不同的边界框，这些边界框被称为锚框(Anchorbox)。在网络中输入合适大小的锚框，可以使算法收敛得更快更好。本实施例对标注样本中12个类别对应的真实框值进行分析，分别统计对应的真实框长宽比和面积，然后取分析数据的中值作为区域建议网络RPN生成锚框时的锚框参数，分析结果如图3所示。

在Faster R-CNN中，ROI Pooling(感兴趣区域池化)负责将RPN输出的候选框映射成大小固定(w*h)的矩形框。但在该过程中存在多次量化操作，每一次量化操作都会对应着轻微的区域特征错位，进而影响整个网络的精确性。RoI Align层针对此问题做了改进，其具体为：

1)遍历每个候选框，保持浮点数边界不做量化；

2)将所述候选框平均划分为k×k个单元，保持每个单元的边界不做量化；

3)对于每个单元取固定4个点的坐标，使用双线性插值法得到这四个位置的加权值，然后进行最大池化操作。

前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式，并且很显然，根据上述教导，可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用，从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims

1.一种基于Faster R-CNN的高铁接触网零部件识别与定位的方法，其特征在于，包括：

基于改进的Faster R-CNN算法对高铁接触网图像进行特征提取：先通过Resnet50骨干网络对高铁接触网图像进行特征提取得到高铁接触网特征图，并在提取过程中加入SK注意力机制，自适应调整感受野大小；将调整后的高铁接触网特征图送至特征金字塔模块FPN进行特征融合，得到多尺度特征信息后再送至区域建议网络RPN生成候选框；然后通过ROIAlign层为每一个候选框生成固定尺寸大小的特征图；最后分类网络对候选框内的物体进行类别预测并调整边界框。

2.根据权利要求1所述一种基于Faster R-CNN的高铁接触网零部件识别与定位的方法，其特征在于，使用Mixup方法对高铁接触网图像数据集进行离线增强，其公式为：

λ＝Beta(α,β)

mixed_batchx＝λ*batchx1+(1-λ)*batchx2

mixed_batchy＝λ*batchy1+(1-λ)*batchy2

3.根据权利要求1所述一种基于Faster R-CNN的高铁接触网零部件识别与定位的方法，其特征在于，离线增强后，以8：1：1的比例将高铁接触网图像数据集划分为训练集、测试集、验证集。

4.根据权利要求3所述一种基于Faster R-CNN的高铁接触网零部件识别与定位的方法，其特征在于，在线增强具体为：以一定概率对训练集的高铁接触网图像进行随机翻转、裁剪、缩放、添加高斯噪声、调整HSV对比度、调节亮度。

5.根据权利要求1所述一种基于Faster R-CNN的高铁接触网零部件识别与定位的方法，其特征在于，SK注意力机制包括Split操作、Fuse操作、Select操作；

所述Split操作：对于任意输入的高铁接触网特征图X，进行

为卷积变换公式，/>

和/>

为卷积操作后得到的特征图信息；

所述Fuse操作：先将上述两个特征图信息

和/>

进行逐元素相加融合得到特征U，如下式所示：

其中，Sc是有C个元素的列向量，

为全局平均池化操作函数；

其中

是全连接层的操作函数，δ是ReLU函数，/>

是批量归一化操作，Ws是权重矩阵；

其中，卷积核A,B∈R^C×d，a、b表示特征图信息

和/>

其中V＝[V1,V2,...,V_C],Vc∈R^H×W，

表示第c个通道的特征图上的每个点都乘以a_c；/>

表示第c个通道的特征图上的每个点都乘以b_c。

6.根据权利要求1所述一种基于Faster R-CNN的高铁接触网零部件识别与定位的方法，其特征在于，在特征金字塔模块FPN内进行自底向上操作，自顶向下操作和横向连接操作；

7.根据权利要求1所述一种基于Faster R-CNN的高铁接触网零部件识别与定位的方法，其特征在于，所述区域建议网络RPN分为分类层和边界回归层；分类层用来判断锚框内是否含有物体，该层通过Softmax将锚框进行前景背景的二分类，输出锚框中含有物体的概率，具体概率计算过程为：对于每一个锚框，如果它与真实物体标注框的IOU值大于0.7，判为前景，即表示该锚框中包含物体；如果IOU值小于0.1则判为背景，即表示该锚框中不包含物体；如果IOU值大于等于0.1且小于等于0.7，则忽略，如下式所示：

8.根据权利要求1所述一种基于Faster R-CNN的高铁接触网零部件识别与定位的方法，其特征在于，通过ROIAlign层为每一个候选框生成固定尺寸大小的特征图，具体为：

遍历每个候选框，保持浮点数边界不做量化；