CN114781506A

CN114781506A - 基于gg聚类与改进svdd的接触网健康状态识别方法

Info

Publication number: CN114781506A
Application number: CN202210393424.3A
Authority: CN
Inventors: 易灵芝; 禹果; 刘江永; 孙涛; 陈智勇; 董腾飞
Original assignee: Xiangtan University
Current assignee: Xiangtan University
Priority date: 2022-04-14
Filing date: 2022-04-14
Publication date: 2022-07-22

Abstract

本发明公开了一种基于GG聚类与改进SVDD的接触网健康状态识别方法，主要针对由于接触网大部分数据为无监督学习数据，导致接触网检测数据利用率低，导致无法快速地对接触网的整个健康状态做出客观的识别的问题，本发明采用TSNE数据降维方法将高维数据降至低维空间中进行分析，剔除原始数据中的冗余信息，减少分析难度和干扰，提高识别准确性，并采用适合不规则数据分布类型的GG聚类算法，解决不同参数在类别划分中的影响程度不同导致聚类数据的分布改变的问题，最后将检测到的满足条件的异常数据输入GWO‑SVDD识别模型中对数据进行分析，准确地识别出接触网的健康状态，并根据不同的接触网健康状态给出对应的运维策略。

Description

基于GG聚类与改进SVDD的接触网健康状态识别方法

技术领域

本发明涉及到铁路接触网的在线检测和故障诊断技术领域，具体涉及到一种基于GG聚类与改进SVDD的接触网健康状态识别方法。

背景技术

随着我国电气化铁路建设的飞速发展，全国架设电气化铁路的里程迅速增加，而电气化铁路的正常运行，离不开牵引供电系统，其中最为关键的设备便是接触网。接触网是电气化铁路所特有的一种供电线路，接触网结构组成、工作方式都非常复杂，通常沿铁轨上空架设，露天布置，且容易受到机车受电弓的高速冲击，因此也是电气化铁路牵引供电系统中的薄弱环节，接触网一旦发生故障，将直接导致弓网之间电流电压传输中断，导致列车晚点或者停运，对社会经济发展和人民的生命安全都会造成很大的威胁和损失。

大部分情况下，接触网的健康状态检测数据会在一定的范围内产生波动，这种波动恰恰反映了接触网状态的一种变化规律，接触网状态的任何异常都将导致检测到的参数数据无法反映这种规律。通过对接触网关键特征数据的分析与评估，可以了解接触网的运行是否处于良好状态。面对中国电力机车的日益提速，对接触网要求也越来越严格和苛刻。然而，接触网的健康状态识别并不是一项简单的工作，这需要通过一系列检测参数来反映。因此，对电气化铁路接触网进行在线检测和健康状态识别研究，确保铁路运输正常高效进行，具有十分重要的社会意义。

发明内容

本发明的目的就是为了解决传统接触网检测方式由于接触网大部分数据为无监督学习数据，导致接触网检测数据利用率低，无法对多个参数共同作用导致的接触网故障进行检测，并导致无法快速地对接触网的整个健康状态做出客观的识别的问题，提出了一种基于GG聚类与GWO-SVDD识别模型的接触网健康状态识别方法，对接触网各种参数及其相互之间的关系进行全面准确地检测，准确地识别出接触网的健康状态。

为达到上述目的，本发明采用如下技术方案：

本发明采用聚类的方法对数据进行处理，并通过改进的支持向量数据描述模型来识别接触网健康状态。首先，采集接触网运行参数的数据，包括导高、拉出值、硬点、接触压力、跨内高差、跨距等参数，并采用TSNE降维方法将数据维度降至2维，为后续聚类过程提供数据基础；其次，对降维后的数据采用Gath-Geva聚类方法进行聚类，并通过评价指标得到最优聚类数；接着，采用GWO-ISVDD识别模型构建超球体，使球内包含尽可能多的正常数据，球外为尽可能多的异常数据，并对接触网的健康状态进行识别。

具体步骤如下：

步骤1：建立接触网变压器健康状态评估指标体系。具体包括：接触网安全指标、接触线平顺指标、弓网受流性能指标与接触网历史运行情况等定量型指标；天气状况等定性型指标。

步骤2：根据接触网所处位置及环境，对接触网进行数据采集。采用激光采集传感器等传感器采集静态监测参数的相关数据，主要包括：拉出值、接触线高度、侧面限界、线索张力、接触压力等数据，并采集历史运行记录和天气数据。

步骤3：为了确定各类指标对接触网健康状态的影响程度，需要计算指标权重，权重系数越大说明其对接触网健康状态影响程度越高。本发明采用博弈论组合赋权确定权重分配。

步骤4：对接触网的检测数据进行预处理，根据接触网运行规程，将各指标的检测数据做归一化处理，消除不同参数不同量纲带来的不利影响。

步骤5：数据降维。采用TSNE对接触网检测数据进行降维，剔除源数据中的冗余信息，减小分析难度，并使数据可视化，从而直观发现数据的变化情况。

步骤6：GG聚类。将降维后的数据采用GG聚类方法聚类，利用PC指标与CE指标确定最佳聚类数目。

步骤7：建立GWO-SVDD识别模型。利用有标签样本数据建立GWO算法优化的SVDD性能退化识别模型，使得正常数据尽可能多包含于超球体模型内，异常数据尽可能多位于超球体模型外。

步骤8：待测样本分析。将待测样本输入到步骤7中建立的GWO-SVDD识别模型中，计算各类样本数据到球心的距离，并与超球体的半径作比较。

步骤9：接触网健康状态识别。对接触网待测样本数据进行分析，按照设置的健康指标范围，完成接触网健康状态识别。

本发明的有益效果是：

1)本发明对接触网运行数据采用TSNE数据降维和可视化方法，接触网的运行数据包括导高、拉出值、硬点、接触压力、跨内高差等数据，采用TSNE数据降维方法将高维数据降至低维空间中进行分析并使数据可视化，可以剔除原始数据中的冗余信息，减少分析难度和干扰，提高识别准确性，并可以使数据可视化，从而直观发现数据的变化情况。

2)本发明针对接触网参数众多，不同参数在类别划分中的影响程度不同导致聚类数据的分布改变的问题，采用适合不规则数据分布类型的GG聚类算法。

3)本发明采用GWO算法对SVDD模型中的参数进行寻优，确定最优核函数宽度与惩罚系数，避免因参数设置不准确而影响超球体的建立，提高接触网健康状态识别的准确性。

附图说明

图1为本发明方法的结构框图

图2为本发明方法的具体实施过程框图

图3为本发明中接触网采集数据预处理的实现框图

图4为GWO优化SVDD识别模型流程图

具体实施方式

下面结合附图对本发明做一个详细的说明。

图1为基于GG聚类与改进SVDD的接触网健康状态识别方法的结构框图。首先建立合理、科学的接触网健康状态识别指标体系，然后对接触网进行多源数据采集，包括：导高、拉出值、接触线高度、侧面限界、接触压力、历史运行情况、天气数据，然后采用博弈论组合赋权确定权重分配，并对采集到的数据进行预处理，将各指标的检测数据做归一化处理，消除不同参数不同量纲带来的不利影响，再对接触网检测数据进行降维，剔除源数据中的冗余信息，减小分析难度，并使数据可视化，将降维后的数据进行聚类，然后利用有标签样本数据建立GWO算法优化的SVDD接触网健康状态识别模型，对接触网的健康状态进行识别，根据不同接触网健康状态识别结果，给出相对应的运维策略，方便检修人员进行检修。

图2为基于GG聚类与改进SVDD的接触网健康状态识别方法的实现流程。本方法的实现流程主要包括三个部分：健康状态识别、异常数据检测、GWO优化SVDD。首先对接触网进行多源数据采集，并对采集到的多源数据进行预处理，根据接触网运行规程，将各指标的监测数据做归一化处理，然后采用TSNE数据降维方法将高维数据降至低维空间中进行分析并使数据可视化，再通过GG聚类方法进行聚类，并通过评价指标得到最优聚类数，将检测到的满足条件的异常数据输入GWO-SVDD识别模型对数据进行分析，识别接触网健康状态。

图3为本发明中接触网采集数据预处理实现流程。接触网的监测数据不仅量大，而且有结构化和半结构化数据，因此，通过对接触网多源数据进行预处理，可以初步解决上述问题，方便多源数据的高效利用与共享，而且能提高数据分析和挖掘的效率，对接触网的健康状态识别更加便利。首先通过对接触网的多源监测数据进行数据识别，其中包括属性识别、数据筛选和数据分类，再对数据进行数据清洗和数据解析，最后进行数据转换，根据接触网运行规程，将各指标的多源监测数据做归一化处理。

具体实施过程为：

步骤1：建立接触网健康状态监测指标体系，具体包括安全指标、接触线平顺指标、弓网受流性能指标、历史运行情况和天气指标。

步骤2：采集接触网运行的多源数据。根据接触网所处位置及环境，对接触网进行数据采集，采用激光采集传感器等传感器采集静态监测参数的相关数据，主要包括：拉出值、接触线高度、侧面限界、线索张力、接触压力等数据，并采集历史运行记录和天气数据。

步骤3：为了确定各类指标对接触网健康状态的影响程度，需要计算指标权重，权重系数越大说明其对接触网健康状态影响程度越高。本发明采用博弈论组合赋权确定更加合理的权重分配。

步骤301：采用基于PSO-AHP的方法确定接触网指标主观权重。传统AHP法的一致性检验方法过于单一，缺少理论依据，且极易受决策者的主观影响，得到的权重也会不准确。本发明使用粒子群算法改进，构建基于PSO-AHP的权重方法，比较AHP与PSO-AHP的一致性指标，取较小值对应的权重作为最终的主观权重值。

首先采用标度法将评价指标两两比较构成判断矩阵A，并通过式(1)，式(2)判断该矩阵是否满足一致性要求：

其中，λ_max为判断矩阵的最大特征值，s为判断矩阵的阶数(s≤m)，CI为一致性指标，CR为判断矩阵的一致性比率，RI为平均随机一致性指标标准值，1～9阶判断矩阵RI值分别为(0，0，0.52，0.89，1.12，1.26，1.36，1.41，1.46)。当CR<0.1时，判断矩阵满足一致性要求，此时，计算各指标的主观权重。当CR>0.1时，需要调整判断矩阵，直到满足一致性检验要求。

当判断矩阵A满足一致性检验要求后，可求解各个指标的权重，如式(3)所示。

Aω＝λ_maxω (3)

其中，λ_max为判断矩阵的最大特征值，ω为所求得的权重值。

步骤302：采用熵权法确定客观权重。第j个指标的熵值为

其中，v(i,j)为第i个对象在第j个指标下的特征比重，

x^*(i,j)为归一化处理后的数据。

第j个指标的熵权为

通过上式求得的熵权值经过归一化处理后，即为各指标的权重，且满足ω_j＞0,

步骤303：为了弥补熵权法均衡性与随机性的不足，且充分考虑主观权重与客观权重的优缺点，在熵权法的基础上引入PSO-AHP法，以得到更加准确客观的权重。采用博弈论综合权重法确定权重系数，如式(6)所示。

其中，

为客观权重，

为主观权重，ω_j为综合权重，且a₁+a₂＝1。

博弈论将上述求解a₁、a₂过程转化为求解

由此得出最优解的一阶导数条件，整理成线性方程组，求解线性方程组便可求得最优a₁与a₂的值，最终确定各个指标的综合权重。

步骤4：接触网的数据具有形式多样、数据具有关联性、数据价值密度低的特点，比如拉出值、硬点等数据，是接触网运行一直存在的数据，其大部分数据都是正常的，只有极少数是异常数据，而异常数据才是我们的主要研究对象。因此，需要对接触网的多源数据进行预处理，方便数据的高效利用和挖掘，使接触网的健康状态识别更加准确。

步骤401：首先通过对油浸式变压器的多源数据进行数据识别，其中包括属性识别、数据筛选和数据分类，再对数据进行数据清洗和数据解析，如图3所示。

步骤402：然后进行数据转换，根据接触网运行规程，将各指标的多源监测数据做归一化处理。按照评估指标的性质可以把接触网的评估指标分为定量指标和定性指标两类，定量指标大部分为通过监测设备获取的实际数据(如拉出值、导高等)；定性指标则是通过历史运行情况(如不良工况记录、家族缺陷等)来表征接触网的某一特征，因此也需要将这些定性指标归一化为状态数据。

步骤403：定量指标归一化。在接触网多源监测数据的归一化处理中采用相对劣化度x_m来表示选取的各评估指标偏离正常状态的程度，取值范围规定在[0,1]内。当x_m为1时，表示该监测评估指标处于良好状态，当x_m小于0.4时，表示该监测评估指标处于较差的状态。本发明采用半梯形模型对定量指标进行归一化处理，对于监测数据越低越优的评估指标(例如硬点等)采用下降半梯形模型；反之，对于监测数据越高越优的评估指标(例如弓网受流性能指标)，采用上升半梯形模型；下降半梯形模型的归一化公式为：

上升半梯形模型的归一化公式为：

式(7)、式(8)中，x_m为评估指标的实际测量值；a、b为该评估指标的阈值。每个指标阈值的选取参考《接触网运行规程》、《接触网设备状态检修规章制度和技术标准汇编》等相关规程以及所选用的在线监测装置的相关资料，对接触网指标的阈值a、b进行规范，最后得出的接触网的定量指标阈值。

步骤404：定性指标归一化。对于接触网健康状态识别过程中的接触网的运检记录，例如遭受过的不良工况、家族缺陷、历史故障和检修情况等定性描述的指标可以对其进行归一化。

接触网经历过的不良运行工况，是否发生过重大故障以及各类报警均会对接触网的安全稳定运行产生一定的威胁。上述这些因素可以统一归类为自身质量问题，根据这些因素对接触网运行状态的影响程度的得到的量化表达式如下：

式中m₂为接触网发生自身问题的次数；n₂为接触网重要零部件自身质量问题的评分，根据自身质量对接触网稳定运行的潜在影响程度，对其进行取值，0表示该问题对接触网的安全稳定运行会产生致命影响，1表示该问题对接触网的运行状态基本没有影响。

步骤5：由于接触网各参数之间的线性相关程度均较低，因此，基于线性的降维方法无法很好地适用于接触网健康状态识别。本发明采用TSNE对接触网检测数据进行降维，剔除源数据中的冗余信息，减小分析难度，并使数据可视化，从而直观发现数据的变化情况。

步骤501：假设高维数据集为X＝{x₁,x₂,…,x_n}，对应低维空间中的映射集为Y＝{y₁,y₂,…,y_n}，则高维空间中的条件概率与低维空间中的条件概率分别表示为：

其中，p_i|j为高维空间中x_i与x_j的条件概率，且p_i|j＝p_j|i；q_i|j为低维空间中y_i和y_j的条件概率，且q_i|j＝q_j|i；σ_j为高斯分布的标准差。

在高维空间中采用联合概率密度p_ij代替条件概率，在低维空间中，将高斯分布改为自由度为1的t分布，并采用联合概率密度p_ij代替条件概率。根据p_ij和q_ij可以求得KL散度(即代价函数F)为：

采用梯度下降法求取代价函数最小值，然后，进行反复迭代，直至得到低维空间最优解：

其中，l为迭代次数，γ为学习率，λ(l)为动量因子。当得到最优解时，结束迭代，并得到接触网低维空间的新数据。

步骤6：接触网参数众多，不同参数在类别划分中的影响程度不同，从而导致聚类数据的分布改变，因此，基于球形分布结构的聚类算法无法适用，本发明采用适合不规则数据分布类型的GG聚类算法。

步骤601：假设共有n组样本，即聚类样本数为X＝{x₁,x₂,…,x_n}，每组样本包含m种指标，即x_j＝{x_j1,x_j2,…,x_jm}，1≤j≤n，初始化聚类数目为c(c≥2)。隶属度矩阵为U＝[μ_kj]_c×n，且0≤μ_kj≤1，1≤k≤c，μ_kj表示第j组样本对第k类的隶属程度大小；

步骤602：初始化隶属度矩阵U，并设定迭代的终止参数ε，且ε＞0。当目标函数值满足终止条件时，迭代结束；

步骤603：按照下式计算每个簇的聚类中心：

其中，l为迭代次数，z为加权指数，通常取2。

步骤604：计算各组样本与各个簇的模糊最大似然估计距离。

步骤605：更新隶属度矩阵U。

步骤606：当||U^l-U^l-1||＜ε时，停止迭代，并记录此时各样本属于每一类的隶属度值；若不满足条件，则继续迭代，直至符合条件，并使得目标函数取得最小值。目标函数计算公式为：

其中，V为聚类中心向量，V＝{v₁,v₂,…,v_c}。

步骤7：SVDD(支持向量数据描述)是一种用于单值分类的无监督数据机器学习方法，是构建一个包含多训练样本的最小超球体，来实现接触网正常样本数据和故障样本数据的检测。

步骤701：假设输入的训练样本为X＝{x₁,x₂,…,x_n}，每组样本包含m种指标，即x_j＝{x_j1,x_j2,…,x_jm}，1≤j≤n。通过非线性变换函数Φ:X→F，将原始数据从样本空间映射到特征空间，并在特征空间中构建出一个体积最小且包含数据最多的超球体。

步骤702：引入拉格朗日函数，并采用高斯核函数进行计算，来提高SVDD的泛化能力。高斯核函数计算公式如下：

步骤703：计算SVDD模型建立的超球体半径R和球心a

步骤704：当要确定一个待测样本是否在超球体内时，无需再次建立超球体，只需计算该待测样本到球心的距离，并将其与超球体半径作比较。待测样本到球心的距离计算公式为：

其中，x′为待测样本。

当d＜R时，待测样本为正常样本；当d＝R时，为支持向量；当d＞R时，待测样本为异常样本。

步骤8：GWO算法优化SVDD。SVDD模型可以识别样本数据是否异常，但是由于接触网训练样本仅为正常样本，容易受松弛因子、惩罚系数等参数的影响，整体识别精度比较低，因此本发明采用基于GG聚类方法与GWO-SVDD识别模型，具体流程如图4所示。

步骤801：在SVDD模型建立超球体之前，采用GWO算法对SVDD模型中的参数进行寻优，确定最优核函数宽度与惩罚系数，避免因参数设置不准确而影响超球体的建立，提高接触网健康状态识别的准确性。

步骤802：将SVDD模型的输入训练样本修改为包含正常数据与故障数据的训练样本，并将正常数据标记为“1”，故障数据标记为“-1”，并分别设置正常数据与故障数据对应的惩罚系数等参数。

步骤9：将待测样本输入到GWO-SVDD识别模型中，计算各类接触网样本数据到球心的距离，并与超球体半径作比较，并按照设置的健康状态标准范围，识别接触网运行的健康状态。依照设备状态检修规章制度中的接触网状态评价导则，将接触网的最终健康状态结果划分为五个等级，即为良好、正常、可疑、可靠性下降和危险，并根据运行状态结果的五个等级采取相应的运维策略，如表1所示。

表1接触网健康状态等级与运维策略关系

Claims

1.本发明公开了一种基于GG聚类与改进SVDD的接触网健康状态识别方法，主要针对由于接触网大部分数据为无监督学习数据，导致接触网检测数据利用率低，导致无法快速地对接触网的整个健康状态做出客观的识别的问题，本发明采用TSNE数据降维方法将高维数据降至低维空间中进行分析，剔除原始数据中的冗余信息，减少分析难度和干扰，提高识别准确性，并采用适合不规则数据分布类型的GG聚类算法，解决不同参数在类别划分中的影响程度不同导致聚类数据的分布改变的问题，最后将检测到的满足条件的异常数据输入GWO-SVDD识别模型对数据进行分析，准确地识别出接触网的健康状态，具体步骤如下：

步骤7：建立GWO-SVDD识别模型。利用有标签样本数据建立GWO算法优化的SVDD健康状态识别模型，使得正常数据尽可能多包含于超球体模型内，异常数据尽可能多位于超球体模型外。

2.基于权利要求1中所述的采用TSNE数据降维方法将高维数据降至低维空间中进行分析，剔除原始数据中的冗余信息，减少分析难度和干扰，其特征在于：由于接触网各参数之间的线性相关程度均较低，因此，基于线性的降维方法无法很好地适用于接触网健康状态识别。本发明采用TSNE对接触网检测数据进行降维，剔除源数据中的冗余信息，减小分析难度，并使数据可视化，从而直观发现数据的变化情况。

假设高维数据集为X＝{x₁,x₂,…,x_n}，对应低维空间中的映射集为Y＝{y₁,y₂,…,y_n}，则高维空间中的条件概率与低维空间中的条件概率分别表示为：

3.基于权利要求1中所述的采用适合不规则数据分布类型的GG聚类算法，其特征于：Gath-Geva聚类算法(简称为GG聚类)是一种通过反复修改聚类中心与隶属度矩阵从而实现聚类效果最优的动态迭代聚类方法，其可以使得被划分到同一簇内的数据相似度最大，簇与簇之间的数据相似度最小。GG聚类是在模糊C均值聚类算法的基础上引入模糊最大似然估计距离改进得到的，具体步骤如下：

(1)假设共有n组样本，即聚类样本数为X＝{x₁,x₂,…,x_n}，每组样本包含m种指标，即x_j＝{x_j1,x_j2,…,x_jm}，1≤j≤n，初始化聚类数目为c(c≥2)。隶属度矩阵为U＝[μ_kj]_c×n，且0≤μ_kj≤1，1≤k≤c，μ_kj表示第j组样本对第k类的隶属程度大小；

(2)初始化隶属度矩阵U，并设定迭代的终止参数ε，且ε＞0。当目标函数值满足终止条件时，迭代结束；

(3)按照式(1)计算每个簇的聚类中心：

其中，l为迭代次数，z为加权指数，通常取2。

(4)计算各组样本与各个簇的模糊最大似然估计距离：

其中，p_k为第k个聚类被选中的先验概率，且

COV_k为第k个聚类的协方差矩阵，其计算公式为：

(5)根据式(4)更新隶属度矩阵U：

(6)当||U^l-U^l-1||＜ε时，停止迭代，并记录此时各样本属于每一类的隶属度值；若不满足条件，则继续迭代，直至符合条件，并使得目标函数取得最小值。目标函数计算公式为：

其中，V为聚类中心向量，V＝{v₁,v₂,…,v_c}。

4.基于权利要求1中所述的将检测到的满足条件的异常数据输入GWO优化的SVDD识别模型对数据进行分析，其特征于：SVDD所建立的超球体是利用半径最小化方法得到的，因此，只要训练样本保持不变，该超球体就是唯一的。SVDD通过待测样本到球心的距离与球体半径的大小比较，可以直观反映接触网的健康状态情况，但是由于其训练样本仅为正常样本，且易受松弛因子、惩罚系数等参数的影响，无法有效反映故障样本的波动情况，整体识别精度仍较低，本发明采用GWO算法对SVDD模型进行优化。具体步骤如下：

(1)将SVDD模型的输入训练样本修改为包含正常数据与故障数据的训练样本，并将正常数据标记为“1”，故障数据标记为“-1”，并分别设置正常数据与故障数据对应的惩罚系数等参数。

(2)在SVDD模型建立超球体之前，采用GWO算法对SVDD模型中的参数进行寻优，确定最优核函数宽度与惩罚系数，避免因参数设置不准确而影响超球体的建立，提高接触网健康状态识别的准确性。