CN116166983A

CN116166983A - 一种基于机器学习的列车弓网故障检测方法

Info

Publication number: CN116166983A
Application number: CN202211663618.7A
Authority: CN
Inventors: 赵进; 郭寅; 尹仕斌; 郭磊; 叶琨
Original assignee: Isvision Hangzhou Technology Co Ltd
Current assignee: Isvision Hangzhou Technology Co Ltd
Priority date: 2022-12-23
Filing date: 2022-12-23
Publication date: 2023-05-26

Abstract

本发明提供一种基于机器学习的列车弓网故障检测方法，包括：获取弓网历史监测数据，对历史监测数据进行聚类处理，分别为各个聚类样本数据集打标签，标注各个聚类样本数据集的故障类型；汇总形成初始训练数据库，利用其对故障分类模型进行训练，得到初始的故障分类模型；利用故障分类模型识别新采集的监测样本，核对识别结果是否正确：若不正确，则更正当前监测样本的类别，并将其存储到优化训练数据库；利用优化训练数据库再次训练当前故障分类模型，得到优化后的模型参数，当正确率满足要求时，保存故障分类模型，模型训练结束。本方法训练得出的故障分类模型能够识别的故障类型更加全面，适用于列车弓网的安全性检测。

Description

一种基于机器学习的列车弓网故障检测方法

技术领域

本发明涉及故障检测领域，具体涉及一种基于机器学习的列车弓网故障检测方法。

背景技术

列车受电弓-接触网系统(列车弓网系统)作为列车的牵引装置，其运作状态直接影响列车的运行安全，针对弓网系统的故障诊断，主要包括以下方式：

1)人工检修的方式：需要检修人员登高，通过观察受电弓状态来判断其故障类型，该种检修方式不但效率低下，而且想要进一步定位到故障原因，需要依靠检修人员的过往经验，对于经验尚浅的检修人员，故障诊断的结果往往无法保证准确性。此外，人工检测的方式需要在停车检修阶段才能进行，导致该方法无法做到对受电弓进行实时故障诊断分析，而不及时的故障维修可能会对列车安全运行带来直接影响。

2)基于视觉检测的方式：如专利文献CN113859312A提出了一种基于车载PHM的受电弓故障报警方法；其通过图像采集设备采集受电弓图像，分析对比图像信息，判断受电弓即时形貌信息，判断故障类型。该方式虽然能够解决人工检测效率低的问题，但是需要精准定位受电弓的结构特征，如果受电弓附近存在较多干扰，或者阴雨天气，采集到的图像质量差，故障识别的准确性将大大降低，导致故障的误判。

3)基于深度学习的方式：如专利文献CN112991318A提出了一种动车组受电弓故障检测方法，该方案通过故障分类模型，识别受电弓有无异物入侵。此方式存在以下不足：

第一，故障诊断类型有限，只能判断故障有无，无法进一步分析故障类型，故障诊断定位类型颗粒度不够，进而无法对列车弓网检修提供有效的维修指导；

第二，故障分类模型训练时，获取数据样本需要通过人工打标的方式，即：对每一条样本数据都进行识别、标注；这样的处理方式效率低下，故障标签分类误差大。

第三，缺乏模型优化过程，模型训练结果局限于已标记的故障类型。对于实际应用过程中，新增的故障类型、样本中未出现的故障类型或者极少出现的故障类型缺乏有效的训练，进而导致故障分类模型在后期使用时发生误判。

发明内容

为了解决上述技术问题，本发明提供一种基于机器学习的列车弓网故障检测方法，本方法故障分类模型训练过程快速、有效；训练得出的故障分类模型能够识别的故障类型更加全面，能够辅助列车运维人员得出准确的故障类型，适用于列车弓网的安全性检测。

技术方案如下：

一种基于机器学习的列车弓网故障检测方法，采集列车弓网使用状态下各监测点的温度数据，将其输入到已经训练好的故障分类模型中检测，模型输出列车弓网有无故障及故障的类型；

利用以下步骤训练所述故障分类模型：

S1、获取与待检测列车弓网同一型号的列车弓网历史监测数据，所述历史监测数据中包含多组弓网使用状态下的监测样本；

其中，每组监测样本均包含列车弓网上各监测点的位置坐标及各点对应的温度数据；

S2、对历史监测数据进行聚类处理，将其划分成有故障数据集和无故障数据集；

S3、对有故障数据集再次进行聚类处理，将其划分成多个聚类样本数据集，再分别为各个聚类样本数据集打标签，标注各个聚类样本数据集的故障类型；

S4、将无故障数据集和各个标注故障类型的数据集汇总形成初始训练数据库，利用其对故障分类模型进行训练，得到初始的故障分类模型；

S5、采集列车弓网使用状态下的监测样本；

利用故障分类模型识别新采集的监测样本，输出识别结果，所述识别结果为：无故障或者故障类型；

S6、核对识别结果是否正确：

若正确，则将识别次数加一、正确次数加一；

若不正确，则将识别次数加一；同时，更正当前监测样本的类别，并将其存储到优化训练数据库；

S7、判断识别次数是否小于预设次数：

若小于，则直接跳转执行步骤S5；

若不小于，则计算正确次数在识别次数中的占比：

若占比低于预设比值，则利用优化训练数据库再次训练当前故障分类模型，得到优化后的模型参数，利用其更新故障分类模型，清零识别次数和正确次数，跳转执行步骤S5；

若占比不低于预设比值，则保存当前故障分类模型，模型训练结束。

进一步，对历史监测数据进行聚类处理，将其划分成有故障数据集和无故障数据集的方式如下：

从历史监测数据中选取5％～20％的监测样本，记为抽样样本集，剩余监测样本记为数据集A；

对所述抽样样本集进行聚类处理，得到多个聚类样本集合，将拥有样本数量最多的聚类样本集合记为无故障数据集，其他集合记为有故障数据集；

从数据集A中提取单个监测样本记为待处理样本，计算其与无故障数据集中的各个监测样本之间的欧式距离之和，若和值小于阈值，则将该待处理样本存储到无故障数据集，否则存储到有故障数据集；

遍历数据集A中的各个监测样本，采用相同的判断方式，将各个监测样本分布存储到无故障数据集和有故障数据集。

进一步，对有故障数据集再次进行聚类处理，将其划分成多个聚类样本数据集，再分别为各个聚类样本数据集打标签，标注各个聚类样本数据集的故障类型的方式如下：

对有故障数据集进行聚类处理，将其划分成多个聚类样本数据集，对每个聚类样本数据集分别进行以下处理：

在聚类样本数据集中抽样5％～20％的监测样本，标注抽样出的各个监测样本的故障类型；

若标注出的相同故障类型监测样本的数量在抽样出的监测样本总数中的占比超过阈值B，则将该聚类样本数据集的标签记为该相同故障类型，将数据集中的所有监测样本均标注为该故障类型；所述阈值B取值50％～90％；

否则，当前聚类样本数据集为稀有故障样本集合，需要分别判断聚类样本数据集中的各个监测样本，为每个监测样本标注对应的故障类型。

优选，聚类处理的方法为基于密度的聚类算法；在步骤S2中，参数设置为：邻域半径0.2～0.8，最少点数目0.05～0.1；

在步骤S3中，参数设置为：邻域半径0.05～0.1，最少点数目0.005～0.02。

优选，步骤S1中，历史监测数据通过以下方式获得：

在列车弓网的整个生命使用周期内，按照预设的采样间隔连续观测一个或多个列车弓网使用状态下各个监测点的温度数据，将各采样时间点采集的数据汇总形成历史监测样本；

其中，预设的采样间隔取值为1min～60min；

连续观测的列车弓网与待检测弓网同型号；

监测点为：在弓网上预设选取的点，设有10～2000个，其均布在弓网上或者分布在弓网重点监控区域。

进一步，采集列车弓网使用状态下各监测点的温度数据的方式为：在监测点处安装温度检测传感器，或者，在列车车顶上固定热成像仪或者红外成像仪，仰拍列车弓网上的监测点。

进一步，对监测样本中各个监测点的温度数据进行归一化处理，得到归一化后的温度数据t归_ij：

其中，t_ij为第i个监测样本中第j个监测点的温度数据，t_i最大值为第i个监测样本中的温度数据最高值，t_i最小值为第i个监测样本中的温度数据最低值。

优选，步骤S4中，在对故障分类模型进行训练之前，还将人为已知但未采集到的故障类型监测样本存储到初始训练数据库。

进一步，初始训练数据库和优化训练数据库中包含的监测样本类型包括：无故障、受电弓异常磨耗、碳滑板中间段裂纹、碳滑板掉块、碳滑板拉弧、受电弓升弓故障、电气故障、羊角缺失、接触网异常磨损、弓角打弯、受电弓中心线偏差过大、接触线断裂和受电弓整体缺失。

优选，步骤S1中，先对历史监测数据进行预处理，包括：

剔除缺失数据的监测样本、剔除重复保存的监测样本；修改或剔除存在格式错误的监测样本；

利用主成分分析法，对历史监测数据进行降维处理；

步骤S7中，预设次数＝k×M，其中，k＝0.15～0.3，M＝初始训练数据库中的监测样本总数量；预设比值取值0.9-0.98。

与现有的技术相比，本发明具有以下特点：

(1)本方法不仅能够判断弓网故障有无，还能进一步分析出细粒度的故障类型，识别速度快、准确性高，为列车智能运维提供了可靠的参考依据，保证列车安全运行，有效节省人力物力成本。

(2)正常情况下，弓网上各监测点的温度值应当处于各自对应的温度区域内，特别是受电弓与接触网接触的位置，处于高温状态，最高温度可达200℃；但是当弓网异常时，局部监测点温度将呈现出异常，如：受电弓异常磨耗时，滑板磨耗异常位置附近的监测点温度将高于正常温度区间；碳滑板中间段裂纹时，处于碳滑板中间段的监测点温度将高于正常温度区间；碳滑板掉块异常时，滑板掉块区域的温度存在较大的波动；碳滑板拉弧时，受电弓滑板和高压电网的接触区域温度异常高；受电弓升弓故障时，受电弓升弓区域与正常升弓区域内的温度分布不匹配；电气故障时，故障电气附近的监测点温度缺少递进分布趋势；羊角缺失时，受电弓羊角区域的正常温度分布缺失；弓角打弯时，虽然弓角附近的监测点温度存在，但是温度分布趋势存在一定偏移；接触网异常磨损时，接触网附近的监测点温度呈现出异常；接触线断裂时，断裂区域附近的监测点温度缺失，并且接触线整体温度分布不连续；受电弓中心线偏差过大时，受电弓上部分监测点温度缺少；受电弓整体缺失时，大部分监测点的温度缺少。

本方法基于监测点温度信息训练故障分类模型，采用温度信息评估故障类型，由于工作状态下的工位处于高温状态，因此外界环境对各个监测点的温度影响比较小，为了进一步降低外界环境温度的影响，本方法还对温度数据进行了归一化处理；相比于基于图像信息分析弓网故障的方式，本方法不受到云、雨、雾的影响，可以全天候工作；并且，检测的故障类别更加多样：不仅能够判断受电弓结构性故障(滑板偏磨、弓角打弯等)，对于弓网的内部故障(升弓异常、滑板拉弧异常、滑板裂纹、接触网磨损等)也能够做出诊断分析。

(3)在模型训练过程中，对历史监测样本进行聚类处理，只需要判断每类聚类样本集合中少量监测样本即可为整个聚类样本集合打标签，无需分别识别每组监测样本的故障类别，提高了监测样本的处理效率和准确率。

基于密度的聚类算法更加适合于对大数据进行聚合处理，相比于其他聚类算法，聚类效果更好、精度更高。

(4)对初始故障分类模型进行了优化处理，使其不仅能够识别出常见的故障类别，还能够准确检测出稀有故障，识别类型更加全面。

附图说明

图1为具体实施方式中故障分类模型训练结构框图；

图2为具体实施方式中对历史监测数据进行聚类打标签的过程示意图。

具体实施方式

以下结合附图和具体实施方式对本发明的技术方案进行详细描述。

为了便于理解，以下阐述为现有技术中关于机器学习分类模型和基于密度的聚类方法的阐述：

本发明使用的机器学习分类模型结构为现有技术中提供的模型结构，适用于KNN，SVM，逻辑回归，决策树，随机森林，朴素贝叶斯等分类模型。模型训练过程采用现有训练方法。

本发明中涉及的基于密度的聚类方法为DBSCAN(Density-Based SpatialClustering of Applications with Noise)。该算法将具有足够密度的区域划分为簇，并在具有噪声的空间数据库中发现任意形状的簇，它将簇定义为密度相连的点的最大集合。DBSCAN算法的两个算法参数：邻域半径Eps和最少点数目MinPoints；使用时，当邻域半径Eps内的点的个数大于最少点数目MinPoints时，就是密集。

具体方案如下：

如图1所示，利用以下步骤训练故障分类模型：

S1、获取与待检测列车弓网同一型号的列车弓网历史监测数据，历史监测数据中包含多组弓网使用状态下的监测样本；

S5、采集列车弓网使用状态下的监测样本；

利用故障分类模型识别新采集的监测样本，输出识别结果，识别结果为：无故障或者故障类型；

S6、核对识别结果是否正确：

若正确，则将识别次数加一、正确次数加一；

S7、判断识别次数是否小于预设次数：

若小于，则直接跳转执行步骤S5；

若不小于，则计算正确次数在识别次数中的占比：

具体的，如图2所示，为了快速为监测样本打标签，步骤S2中，对历史监测数据进行聚类处理，将其划分成有故障数据集和无故障数据集的方式如下：

具体实施时，采用抽样的方式减少数据处理量，具体为：从历史监测数据中选取5％～20％的监测样本，记为抽样样本集，剩余监测样本记为数据集A；

对抽样样本集进行聚类处理，得到多个聚类样本集合，将拥有样本数量最多的聚类样本集合记为无故障数据集，其他集合记为有故障数据集；

步骤S3中，对有故障数据集再次进行聚类处理，将其划分成多个聚类样本数据集，再分别为各个聚类样本数据集打标签，标注各个聚类样本数据集的故障类型的方式如下：

例如阈值B取值50％，那么，若存在半数以上相同故障类型的监测样本，则将该聚类样本数据集的标签记为该相同故障类型，将数据集中的所有监测样本均标注为该故障类型；即：将聚类样本数据集的标签标注成大多数监测样本的故障类型；此时聚类样本数据集中可能有少部分监测样本是不准确的标签，在后续模型训练、优化的过程中将会被更正。

上述过程采用聚类和抽样的处理，减少了数据计算量，加快了监测样本打标签的处理速度。

以下以整体弓网故障检测为例，进行示例性描述：

在监测点处安装温度检测传感器，或者，在列车车顶上固定热成像仪或者红外成像仪，仰拍列车弓网上的监测点。

本实施例中，采用在列车车顶上固定热成像仪的方式获取检测样本；

步骤S1中，历史监测数据通过以下方式获得：

其中，预设的采样间隔取值为1min～60min；

连续观测的列车弓网与待检测弓网同型号；

本实施例中，预设的采样间隔取值为10min，监测点设有1000个，为了检测整体受电弓，其均布在弓网上；单个监测样本格式为：[x,y,z,t]，其中，x,y,z是监测点的位置坐标信息，t是该位置的温度数据；

为了降低外接环境温度对监测点温度的影响，对监测样本中各个监测点的温度数据进行归一化处理，得到归一化后的温度数据t归_ij：

对历史监测数据进行预处理，包括：

利用主成分分析法，对历史监测数据进行降维处理，将单个监测样本[x,y,z,t]从4维降到1维。

本实施例中，聚类处理的方法为基于密度的聚类算法；

在步骤S2中，参数设置为：邻域半径0.2～0.8，最少点数目0.05～0.1；本实施例中，邻域半径0.5，最少点数目0.08；

在步骤S3中，参数设置为：邻域半径0.05～0.1，最少点数目0.005～0.02；本实施例中，邻域半径0.06，最少点数目0.01。

在步骤S4中，在对故障分类模型进行训练之前，还将人为已知但未采集到的故障类型监测样本存储到初始训练数据库。如接触线断裂、受电弓整体缺失等特殊故障；这类故障极少出现但弓网温度分布特征明显，具体而言，监测样本按照以下方法构建：

首先依据行业内通用故障判断标准，标记该特殊故障的监测点，然后将这些监测点位置对应的温度值设定为有故障下出现的温度值，将弓网其他位置点的温度设置为无故障下的温度值。

本实施例中，初始训练数据库和优化训练数据库中包含的监测样本类型包括：无故障、受电弓异常磨耗、碳滑板中间段裂纹、碳滑板掉块、碳滑板拉弧、受电弓升弓故障、电气故障、羊角缺失、接触网异常磨损、弓角打弯、受电弓中心线偏差过大、接触线断裂和受电弓整体缺失。

步骤S7中，预设次数＝k×M，其中，k＝0.15～0.3，M＝初始训练数据库中的监测样本总数量；预设比值取值0.9-0.98。本实施例中，k＝0.15，预设比值取值0.95。

上述方法可训练出的故障分类模型识别准确率在95％以上，利用该模型处理弓网运行过程中采集的各个监测点温度信息，能够有效输出当前弓网：无故障、受电弓异常磨耗、碳滑板中间段裂纹、碳滑板掉块、碳滑板拉弧、受电弓升弓故障、电气故障、羊角缺失、接触网异常磨损、弓角打弯、受电弓中心线偏差过大、接触线断裂或是受电弓整体缺失的故障。

训练出的模型识别速度快、准确性高，为列车智能运维提供了可靠的参考依据，保证列车安全运行，有效节省人力物力成本。

前面对本发明具体示例性实施方案所呈现的描述是出于说明和描述的目的。前面的描述并不想要成为毫无遗漏的，也不是想要把本发明限制为所公开的精确形式，显然，根据上述教导很多改变和变化都是可能的。选择示例性实施方案并进行描述是为了解释本发明的特定原理及其实际应用，从而使得本领域的其它技术人员能够实现并利用本发明的各种示例性实施方案及其不同选择形式和修改形式。本发明的范围旨在由所附权利要求书及其等价形式所限定。

Claims

1.一种基于机器学习的列车弓网故障检测方法，采集列车弓网使用状态下各监测点的温度数据，将其输入到已经训练好的故障分类模型中检测，模型输出列车弓网有无故障及故障的类型；

其特征在于，利用以下步骤训练所述故障分类模型：

S5、采集列车弓网使用状态下的监测样本；

S6、核对识别结果是否正确：

若正确，则将识别次数加一、正确次数加一；

S7、判断识别次数是否小于预设次数：

若小于，则直接跳转执行步骤S5；

若不小于，则计算正确次数在识别次数中的占比：

2.如权利要求1所述基于机器学习的列车弓网故障检测方法，其特征在于：步骤S2中，对历史监测数据进行聚类处理，将其划分成有故障数据集和无故障数据集的方式如下：

3.如权利要求1所述基于机器学习的列车弓网故障检测方法，其特征在于：步骤S3中，对有故障数据集再次进行聚类处理，将其划分成多个聚类样本数据集，再分别为各个聚类样本数据集打标签，标注各个聚类样本数据集的故障类型的方式如下：

4.如权利要求1～3中任一项所述基于机器学习的列车弓网故障检测方法，其特征在于：聚类处理的方法为基于密度的聚类算法；在步骤S2中，参数设置为：邻域半径0.2～0.8，最少点数目0.05～0.1；

5.如权利要求1所述基于机器学习的列车弓网故障检测方法，其特征在于：步骤S1中，历史监测数据通过以下方式获得：

其中，预设的采样间隔取值为1min～60min；

连续观测的列车弓网与待检测弓网同型号；

6.如权利要求1所述基于机器学习的列车弓网故障检测方法，其特征在于：采集列车弓网使用状态下各监测点的温度数据的方式为：在监测点处安装温度检测传感器，或者，在列车车顶上固定热成像仪或者红外成像仪，仰拍列车弓网上的监测点。

7.如权利要求1所述基于机器学习的列车弓网故障检测方法，其特征在于：对监测样本中各个监测点的温度数据进行归一化处理，得到归一化后的温度数据

8.如权利要求1所述基于机器学习的列车弓网故障检测方法，其特征在于：步骤S4中，在对故障分类模型进行训练之前，还将人为已知但未采集到的故障类型监测样本存储到初始训练数据库。

9.如权利要求1所述基于机器学习的列车弓网故障检测方法，其特征在于：初始训练数据库和优化训练数据库中包含的监测样本类型包括：无故障、受电弓异常磨耗、碳滑板中间段裂纹、碳滑板掉块、碳滑板拉弧、受电弓升弓故障、电气故障、羊角缺失、接触网异常磨损、弓角打弯、受电弓中心线偏差过大、接触线断裂和受电弓整体缺失。

10.如权利要求1所述基于机器学习的列车弓网故障检测方法，其特征在于：步骤S1中，先对历史监测数据进行预处理，包括：

利用主成分分析法，对历史监测数据进行降维处理；