CN107301296A

CN107301296A - 基于数据的断路器故障影响因素定性分析方法

Info

Publication number: CN107301296A
Application number: CN201710502963.5A
Authority: CN
Inventors: 孔宪光; 黄小瑜; 常建涛; 王佩; 杨挺
Original assignee: Xidian University
Current assignee: Wuxi Qigong Data Technology Co.,Ltd.
Priority date: 2017-06-27
Filing date: 2017-06-27
Publication date: 2017-10-27
Anticipated expiration: 2037-06-27
Also published as: CN107301296B

Abstract

本发明公开了一种基于数据的断路器故障影响因素定性分析方法，解决了现有断路器故障数据利用不充分、故障原因定位太主观以及定性分析模型稳定性不足等问题。本发明通过对断路器故障数据的挖掘与分析，找到断路器各类故障的关键影响因素。实现步骤包括：定义原始故障数据集；故障数据清洗；故障数据变换；故障数据规约；构建故障影响因素定性分析模型并进行十次十折交叉验证；得到故障与属性间的关联规则，定性分析出断路器各类故障的影响因素。本发明利用有监督学习算法CMAR建模，随着数据量增大，模型准确度会不断提高。同时，十次十折交叉验证保证定性分析模型的稳健性，能有效分析断路器故障的影响因素。

Description

基于数据的断路器故障影响因素定性分析方法

技术领域

本发明属于电力设备应用技术领域，主要涉及断路器故障影响因素的定性分析与挖掘，具体是一种基于数据的断路器故障影响因素定性分析方法，应用于对断路器的设备改进以及为其运行维护提供参考依据。

背景技术

随着国家经济发展进入新常态，电力已经成为各行各业发展的动力保障，人们对电力不间断供应提出了更高的需求。由于各种潜在的、复杂的因素作用，电力供给过程中，输配电故障时常发生，不仅会对经济发展造成较为严重的损害，还会对工业生产效率和人民生活质量产生影响。如何保证电力安全、高效、不间断的配给与输送，尽量避免电力供给安全隐患的发生，是当前电力运行维护中亟待解决的问题。

断路器按照其内部用于灭弧的绝缘介质分为油断路器、真空断路器、SF6断路器等。该类设备一旦发生故障，非常容易引起大面积停电，造成很严重的社会影响。因此，其在高压输配电过程中扮演重要角色。在运行过程中，其工作原理是通过接收相关指令来完成电路的断开与闭合操作，从而进行电路切换。当发生故障时，可能会由于各种因素的影响使得断路器出现拒绝开合、绝缘失效，甚至发生爆炸等故障问题，因此需要对断路器的故障影响因素进行分析与挖掘，即通过故障历史数据挖掘出引起断路器各类故障发生的关键因素，为设备检修与设计提供一定的参考依据，提高电网供电可靠性。

目前对于断路器故障影响因素分析模型，传统方法主要针对设备本身而言，只是涉及到设备自身部件问题对故障发生的影响，例如周佳佳在论文“高压断路器常见故障的分析与处理探究”(《建筑工程技术与设计》2016(22).)中根据断路器操作结构和零部件为分析目标研究了高压断路器的6种主要机械故障和电气故障，并根据经验判断其故障发生的原因并给予维护保养的处理方案。而现阶段断路器正逐渐趋向于智能化，导致故障的因素越来越隐蔽且多元化，所要面临的分析场景也越来越复杂，凭借人工经验找寻故障影响因素，结果准确度和客观性极大受限。因此，为了保准分析的有效性和准确性，需要将科学的方法应用到断路器故障原因分析中，挖掘出故障与影响因素之间的客观规律。例如贺林晓在“基于粗糙集的关联规则挖掘在变电设备故障诊断中的应用”(华北电力大学,2015.)提出一种基于粗糙集和关联规则挖掘的变电设备故障诊断模型，运用粗糙集理论对原始数据集进行离散化、补齐和约简等预处理操作，以提高数据质量，供关联规则挖掘算法对故障原因进行挖掘分析。这一方法解决了目前故障因素挖掘不客观的问题，提高了分析的有效性，但这一方法对故障数据的规约研究不足，影响了分析过程的效率，而且没有对模型的准确度进行验证，不能确保结果的客观准确性。

综上所述：现有技术中，不少研究人员对断路器等电力设备进行了故障原因的分析，主要以人工经验总结、故障树分析和粗糙集等方法为主，不足以全面、客观的挖掘到潜在的断路器故障影响因素，分析过程不够科学、效率不高，没有充分利用故障数据，使得分析结果不够理想。

发明内容

本发明是针对当前断路器故障影响因素分析问题，提出一种高效、准确、全面的基于数据的断路器故障影响因素定性分析方法，用于解决现有断路器故障原因不明的问题和定性分析模型稳定性验证的问题。

本发明是一种基于数据的断路器故障影响因素定性分析方法，具体步骤包括有：

(1)定义原始故障数据集：设原始故障数据集为U＝(u₁,u₂,…,u_n-1,u_n,y)，其中u_i表示故障数据集中潜在的故障影响因素属性，主要包括开断电流次数、操作机构次数、投运时间、年平均负载率、环境温度和环境污秽等级等，y表示故障类型，主要包括操动机构异常、SF6泄漏、辅助部件损坏和主要部件劣化等，当影响因素增多，故障数据量增大时，本发明依然适用；

(2)故障数据清洗：首先利用业务常识对影响因素u_i进行约束，识别每个影响因素属性中的异常值并剔除，然后采用多重插补法和均值插补法分别对连续型和离散型数据进行缺失值插补，经过缺失值插补后的故障数据集为

(3)故障数据变换：关联规则算法的实现要求输入数据的所有属性都为离散型数据，所以本发明利用高斯混合模型(Gaussian Mixture Model,GMM)对故障数据集中的连续型属性进行离散化，即将一列连续型数据拟合成多个高斯分布曲线，将数据划分到不同的单高斯分布曲线中，达到连续数据离散化划分为多个区间的目的，为了找到最优的高斯混合模型，使得故障数据拟合的曲线误差较小，需要利用贝叶斯信息准则(BayesianInformation Criterion,BIC)来进行模型的选择，通过计算BIC值确定最优的高斯混合模型，找到最合适的区间划分，连续属性离散化后得到新的数据集S＝(x₁,x₂,…,x_n-1,x_n,y)，其中x_i均为离散型区间变量；

(4)故障数据归约：以故障数据中的“故障类型”属性作为类别标签，分别计算所有影响因素属性与“故障类型”之间的信息增益率，并对所求的信息增益率进行降序排列，选取排序前60％的属性特征作为数据规约后的故障数据子集S＝(x₁,x₂,…,x_m-1,x_m,y)，将n个属性维度降低为m个维度；

(5)十次十折交叉验证构建故障影响因素定性分析模型：将新故障数据子集S随机均等划分为十份，即所谓的十折，记为S_i(i＝0，1，…，10)，每份包含的样本量一致，轮流将其中一份作为测试样本集Test，并将剩余的九份作为训练样本集Train，由此进行数据训练，得到10个CMAR分类器C_i(i＝1,2,…,10)，并计算每个分类器的分类准确率R_i(i＝1,2,…,10)，重复10次，总共得到100个CMAR分类器，求得所有100个CMAR分类器准确率的均值Rm，寻找到分类准确率R_i与Rm最接近的分类器C_b，如果存在多个最接近的分类器则取首次寻找到的结果；

(6)得到关联规则：分析与Rm最接近的分类器C_b中所有规则的支持度、置信度指标，其中置信度作为因素与故障相关性评价的标准，设置最小置信度minconfi，如果规则置信度大于等于minconfi则该规则保留，如果小于则丢弃，从保留下来的规则中即可得到断路器故障影响因素的定性描述。

本发明所提出的一种基于数据的断路器故障影响因素定性分析方法，能应对越来越复杂的分析场景，准确、全面得到与故障发生相关的影响因素。

本发明与现有技术相比，具有以下优点：

(1)本发明基于数据挖掘技术，相比较传统故障树的分析方法，避免了分析结果的主观随意性和庞大的建树过程，能够在待分析因素增多、故障数据量变大时增加计算维度，扩展迭代计算能力，高效，客观性更强。

(2)本发明应用的连续数据的离散化方法为高斯混合模型，这种离散化处理方式能够根据数据本身的分布趋势进行区间划分，更加准确、全面，逼近精度高。数据规约利用信息增益率来评价特征的优劣，然后根据每个特征的信息增益率对特征进行排序选择，该方法能够有效的适应断路器故障数据，避免“维灾难”。

(3)本发明使用的CMAR算法是一种有监督学习算法，相比传统的定性分析算法，能够方便的进行数据验证。本发明中提出的十次十折交叉验证是利用分类准确率接近均值的分类器作为故障影响因素定性分析模型，保证了断路器故障影响因素定性模型的稳健性。

附图说明

图1是本发明的定性分析方法流程图；

图2是本发明的断路器故障数据预处理流程图；

图3是本发明的断路器故障影响因素定性分析模型构建流程图；

图4是十次十折交叉分类准确率分布图。

具体实施方式

下面结合附图和具体实例对本发明作详细说明。

实施例1

目前电力电网行业的开关设备故障原因分析主要以人工经验为主，主观性强、误差大，维护保养没有针对性，设备信息和故障数据利用也不充分，已有的关联分析模型在故障数据的预处理部分流程过于简单，无法应对高维的数据特征问题，而且分析模型稳定性不足，验证阶段工作太少，不利于数据的扩展，结果不够客观准确。

本发明针对现有断路器故障原因分析方法中的故障数据处理、分析模型构建问题以及模型验证问题提出了一种基于数据的断路器故障影响因素定性分析方法，主要流程参见图1，主要包括故障数据的预处理、影响因素定性分析模型的构建和验证，以及规则的选取和描述，具体步骤包括有：

(1)定义原始故障数据集：设原始故障数据集为U＝(u₁,u₂,…,u_n-1,u_n,y)，其中u_i表示故障数据集中潜在的故障影响因素属性，主要包括开断电流次数、操作机构次数、投运时间、年平均负载率、环境温度和环境污秽等级等，y表示故障类型，主要包括操动机构异常、SF6泄漏、辅助部件损坏和主要部件劣化等；

数据清洗主要包括异常值处理和缺失值处理两大部分。由于故障数据集的历史性特点，所以提出利用图2所示的步骤进行数据清洗操作。

(2.1)异常值检验与处理

对于故障数据集而言，由于其历史性特点，要对数据进行异常值检测不能简单使用统计、聚类等识别方法。例如：故障数据中第一条数据显示“操动机构次数”的记录值为200次，此时故障1发生，而第二条数据显示“操动机构次数”记录值500次，故障2发生，且整体记录中500的频数很低，但并不能认为500次就是异常数据。然而，如果该属性的记录出现225.5则一定是异常数据，原因在于“操动机构次数”的技术单位是“次”，不可能有小数出现，可能在人工记录中疏忽形成，而聚类和统计的方法是检测不了这样的异常值情况的。因此，断路器故障数据的异常值检测要以实际业务为基础，对不同的数据字段需要进行特定的范围界定，比如对温度属性而言，国标规定断路器应该能够在-40℃～40℃温度范围内工作，而如果某条故障记录显示温度值记录为“400℃”则显然是异常值，必须予以剔除。

(2.2)缺失值处理

断路器故障数据是包含连续型和离散型的混合类型数据集，对其进行缺失值处理应该按数据类型的不同采用相应的方法。具体方式为①连续型属性使用多重插补法进行插补；②离散型数据采用均值插补。

(3)故障数据变换：关联规则算法的实现要求输入数据的所有属性都为离散型数据，所以本发明利用高斯混合模型(Gaussian Mixture Model,GMM)对故障数据集中的连续型属性进行离散化，即将一列连续型数据拟合成多个高斯分布曲线，将数据划分到不同的单高斯分布曲线中，达到连续数据离散化划分为多个区间的目的，为了找到最优的高斯混合模型，使得故障数据拟合的曲线误差较小，需要利用贝叶斯信息准则(BayesianInformation Criterion,BIC)来进行模型的选择，通过计算BIC值确定最优的高斯混合模型，取BIC值最大时的高斯混合模型作为连续属性离散化的模型，此时是最合适的区间划分，连续属性离散化后得到新的数据集S＝(x₁,x₂,…,x_n-1,x_n,y)，其中x_i均为离散型区间变量。

(4)故障数据归约：随着需求的不断增加，待分析的潜在因素越来越多，数据集维度也会不断增加，数据规约避免了直接从原始特征空间中随机选择特征子空间，而是要通过一定的手段，根据某个评价准则从原始特征中去除冗余或者不相关的特征，得到一组最优的特征子集。由于数据集中的“故障类型”可以认为是类别标签，因此可以直接使用信息增益来衡量一个特征与标签之间的相关性。具体做法为①计算所有特征与“故障类型”标签之间的信息增益率：之所以要计算信息增益率是因为不同特征划分的区间个数可能不同，要使不同特征的信息增益在同一个尺度上衡量，需要计算信息增益率。②将所得的信息增益率看成是特征重要性的度量，按重要性度量排序特征，并按照重要性变化的特点选择最重要的特征。以故障数据中的“故障类型”属性作为类别标签，分别计算所有影响因素属性与“故障类型”之间的信息增益率，并对所求的信息增益率进行降序排列，选取排序前60％的属性特征作为数据规约后的故障数据子集S＝(x₁,x₂,…,x_m-1,x_m,y)。

(5)十次十折交叉验证构建故障影响因素定性分析模型：将新故障数据子集S随机均等划分为十份，即所谓的十折，记为S_i(i＝0，1，…，10)，每份包含的样本量一致，轮流将其中一份作为测试样本集Test，并将剩余的九份作为训练样本集Train，由此进行数据训练，得到10个CMAR分类器C_i(i＝1,2,…,10)，并计算每个分类器的分类准确率R_i(i＝1,2,…,10)，重复10次，总共得到100个CMAR分类器，求得所有100个CMAR分类器准确率的均值Rm，寻找到分类准确率R_i与Rm最接近的分类器C_b，如果存在多个最接近的分类器则取首次寻找到的结果。

(6)得到关联规则：分析C_b中所有规则的支持度、置信度指标，其中置信度作为因素与故障相关性评价的标准，设置最小置信度minconfi，如果规则置信度大于等于minconfi则该规则保留，如果小于则丢弃，从保留下来的规则中即可得到断路器故障影响因素的定性描述。

本发明通过断路器故障数据的清洗、归约等操作，建立基于十折十次验证的影响因素定性分析模型对断路器的主要故障类型进行影响因素的定性分析，得到影响断路器故障的关键原因，为设备维护保养提供针对性的参考依据。

实施例2

基于数据的断路器故障影响因素定性分析方法同实施例1，本发明步骤(3)所述的高斯混合模型主要是为了提供合理的连续属性离散化方法，以适应开关设备故障数据特点，并确保CMAR分类的准确程度，高斯混合模型认为数据的概率密度函数曲线是通过多个单高斯分布混合加权得到的。

(3.1)假设一组向量点x_i(i＝1,2...n')，共有n'个观测值，这组点的分布由K个高斯分布混合构成，表示离散化过程中样本点共离散为K个区间，其中高斯混合模型的定义式为：

式中π_k∈[0,1]，表示每个高斯分布对数据点的影响因子，θ_k为各单高斯分布的参数，Θ为参数空间，Θ＝{π₁，…,π_k,θ₁,…,θ_k}。

其中p_k(x|θ_k)表示第k个单高斯分布对应的概率密度函数，N(x|μ_k,σ_k)表示第k个单高斯分布的概率密度，μ_k为该高斯分布概率密度的均值，σ_k为其标准差。

(3.2)通过贝叶斯信息准则来进行模型选择，找到最合适的K值，其定义公式如下：

BIC＝lnL_Θ-klnn'

其中k表示由参数空间Θ构成的模型空间中自由参数的个数，n'为样本量，klnn'是对模型复杂程度的惩罚项，高斯混合模型的对数似然函数L_Θ如下：

式中N∈[1,n']，K∈[1,m']，通常情况下，如果K值较大，意味着混合分量的个数较多，则模型拟合的误差将会很小，但可能导致过拟合，而K值较小会导致数据拟合不足，不能反映数据真实情况。

对于连续属性故障数据点x_i(i＝1,2...n')，分别计算高斯混合分量个数为K∈[1,m']时BIC值，其中m'表示所尝试的最大分量个数，取BIC值最大时的高斯混合模型作为连续属性离散化的模型，此时对应的K值即为所要划分的区间数。

通过混合多个高斯分布拟合分布情况未知的数据，并将高斯混合模型用于聚类能够根据数据的分布情况进行类别的区分，在多个领域已有广泛的应用，且得到了普遍的认可，而BIC准则能够在兼顾模型复杂性和模型对数据解释能力的前提下寻找最佳的评估准则。

实施例3

基于数据的断路器故障影响因素定性分析方法同实施例1-2，本发明步骤(4)所述的故障数据归约，即计算每一种属性的信息增益率，并进行排序选择，信息增益率的具体计算公式如下：

式中A表示一种属性，Gain(A)表示属性A的信息增益，SplitInfo_A(S)表示数据集中属性A被划分后产生的信息。

信息增益Gain(A)计算公式如下：

内在信息值SplitInfo_A(S)计算公式如下：

其中，Info(S)和Info_A(S)分别表示数据集S进行属性划分前后的熵值，p_i表示S中任意元组属于故障类别y_i的相对概率，用属性A将S划分成v个子集，表示第j个划分的权重。

每一种属性都可以计算出一个信息增益率值，将每个属性的信息增益值进行降序排列，选取前60％的属性进行后续分析，达到故障数据属性归约的目的。

实施例4

基于数据的断路器故障影响因素定性分析方法同实施例1-3，本发明步骤(5)中所述的十次十折交叉验证构建故障影响因素定性分析模型，故障影响因素定性分析方法的模型是基于数据算法构建，该算法的核心思想是关联规则中的FP-Growth算法，CMAR算法与FP-Growth算法的区别在于频繁项集不仅是属性，而是“属性-类别”对，其最终得到的关联规则的右键全都是故障类别，该算法得到的结果是一个包含有规则集的分类器。

为了保证所构建的定性分析模型的稳定性本发明通过十次十折交叉验证构建故障影响因素定性分析模型。断路器故障影响因素定性分析模型构建的具体做法如图3所示，需要进行多次迭代求得最优的定性分析分类器。具体操作步骤如下：

(5.1)首先将数据集S随机均等划分为十份，即所谓的十折，分别为S₁,S₂,...,S₁₀，每份包含的样本量大致一样。

(5.2)轮流将每一份作为测试样本集Test，并将剩余的九份作为训练样本集Train，进行故障影响因素定性分析模型的训练，得到10个CMAR分类器C₁,C₂,...,C₁₀，每个分类器中包含一种关联规则集。

(5.3)计算每个分类器的分类准确率R₁,R₂,...,R₁₀，即将之前挑出的测试样本集故障数据代入每个分类器中验证故障标签类别，若10条测试数据中有8条数据输入模型后得到的故障类别符合原始数据记录的故障类别，则表明该分类器准确率为0.8。

(5.4)重复10次步骤(5.1)到步骤(5.3)的过程，一共可以得到100个CMAR分类器，100个分类器准确率。

(5.5)求出100个R₁,R₂,...,R₁₀₀的均值R_m，寻找分类准确率与R_m最接近的分类器C_b，如果存在多个准确率相同的分类器，则选取首次寻找到的结果。

(5.6)分析分类准确率与R_m最接近的分类器C_b中所有关联规则的支持度、置信度指标，其中将置信度作为因素与故障相关性评价的标准，设置最小置信度minconfi，如果规则的置信度大于等于minconfi则保留该规则，否则丢弃。

(5.7)从保留下来的规则中即可得到断路器故障影响因素的定性描述，例如：规则“{A1，B2}＝>{F1}”表示在属性A取值为A1，以及属性B取值为B2时，可以推断出故障F1发生(A1与B2都表示区间)。

实施例5

基于数据的断路器故障影响因素定性分析方法同实施例1-4，步骤(5.2)所述的得到CMAR分类器，主要分为两个阶段：根据训练数据集产生分类关联规则集并存储，取出分类关联规则对新数据对象进行分类，得到CMAR分类器，具体操作步骤如下：

(5.2.1)扫描断路器故障数据集S，找出大于给定最小置信度minconfi的属性-类别对集合，例如{A1，F1}，属性A1与故障类别F1的属性-类别对；

(5.2.2)按置信度大小对属性-类别对进行降序排序；

(5.2.3)再次扫描故障数据集，建立带有分类的FP-树，对于故障数据集S中的每一个事务s，按照其序列将事务s存在的属性-类别对逐个存放在FP-树中，并在插入最后一个属性-类别对的同时插入事务s的类标号；

(5.2.4)在FP-树中采用自下而上递归的方式挖掘频繁模式，将已处理属性-类别对有关节点的类分布归结到其父节点上，输出频繁模式及其类分布计数；

其中CMAR利用一种叫做CR-树的前缀树数据结构存储产生规则，其构造方式如下：

例如某数据集进行挖掘后生成4条规则，构成规则集，A、B、C表示类标号：①a b c→A；②a b c d→C；③a b e→B；④b c e→C；

首先将规则左边的属性值按照其出现的频繁程度有多到少进行排序，即a出现频率最高，排在第一位；第一条规则作为第一条从根节点出发的路径插入到树种，在插入最后一个节点的时候，存储类标号、支持度和置信度；第二条规则与第一条规则共享前缀abc，并在该路径的最前端插入一个新节点d，然后将剩余规则按该方式插入，直到构成储存规则的CR-树。

本发明主要包含故障影响因素定性分析数据预处理和基于关联规则的故障影响因素定性分析模型两部分。故障影响因素定性分析数据预处理，用于对故障数据集进行数据清洗、转换、规约的预处理操作，数据清洗剔除数据中异常值、插补缺失值，数据转换得到符合定性分析的数据格式，数据规约用于对原始数据集进行特征选择从而实现降维，最终得到故障影响因素定性分析数据资源。然后建立基于关联规则的故障影响因素定性分析模型，用于对故障影响因素定性分析数据资源进行挖掘与分析，并建立若干个故障影响因素分类器。为了保证模型的稳定性，从若干分类器中选择合适的分类器，从而构成了故障影响因素定性分析模型，最终从该模型的分类器中的规则中得到与断路器故障类别相关的影响因素。

下面结合实验和数据分析对本发明的技术效果进一步说明。

实施例6

基于数据的断路器故障影响因素定性分析方法同实施例1-5，下面以某地区SF6断路器的故障数据为例，进行故障影响因素定性分析，找到故障和影响因素之间的定性关系。本发明使用数据分析软件RStudio工具，说明故障影响因素定性分析的具体流程和步骤。

(1)收集断路器的故障数据，最终样本数据中各属性因素信息如表1所示，包括设备参数信息、环境参数信息、运行参数信息共10个属性因素：生产单位、设备型号、机构型式、机械寿命、环境污秽等级、环境温度、负载情况、操动机构次数、开断电流次数和投运时间。具体样本数据的示例如表2所示，其中假设“故障类型”属性中各故障的类别为：“操动机构异常”(CaoDong)、“SF6泄漏”(SF6)、“辅助部件损坏”(FuZhu)、“主要部件劣化”(ZhuYao)、“其它”(QiTa)。

表1收集的样本数据各属性信息

表2样本数据示例

x1

x2

x3

x4

x5

x6

x7

x8

x9

x10

y

ProCmp1

EquType2

MecType2

MecLife1

a

15.6

40-60％

210

1

8.85

CaoDong

ProCmp1

EquType2

MecType1

MecLife1

e

29.8

40-60％

180

2

9.95

CaoDong

ProCmp2

EquType1

MecType2

MecLife1

e

25.2

40-60％

170

1

9.07

ZhuYao

ProCmp1

EquType3

MecType3

MecLife1

b

18.1

60-80％

328

1

15.71

SF6

ProCmp1

EquType4

MecType2

MecLife2

c

25.4

80％以上

419

30

15.03

QiTa

…

ProCmp3

EquType2

MecType1

MecLife2

d

40.5

40-60％

123

1

13.08

CaoDong

ProCmp1

EquType1

MecType2

MecLife1

d

26.8

40-60％

81

10

12.58

QiTa

ProCmp4

EquType3

MecType1

MecLife2

e

39.6

40％以下

47

11

6.67

FuZhu

ProCmp2

EquType2

MecType3

MecLife1

b

11.5

40％以下

27

12

1.80

FuZhu

(2)按照具体业务情况为所有属性限定约束条件。比如对于离散型变量x3来说限定其值只能是“MecType1”、“MecType2”、“MecType3”三个值中的一个，而对于连续型变量x6而言，由于其表示温度，而国标规定断路器工作温度应该满足-40℃～40℃，因此可以将该属性的取值范围取为-50～50，超出这个区间的值均为异常值。类似的其它所有属性都按照这种方式进行异常值检测，且对异常值予以剔除。

(3)本示例中使用多重插值法对连续型属性进行缺失值计算与插补，共进行了4次计算，产生了4个完整的数据集，利用回归预测法填充了连续型缺失值。而离散型属性采用属性的众数进行填充，例如x5的缺失值用频次最高的d级进行填补。

(4)对连续型属性的离散化数据集中的连续型属性进行离散化，即将一列连续型数据拟合成多个高斯分布曲线，将数据划分到不同的单高斯分布曲线中。以x6为例，利用高斯核密度函数，拟合其数据分布密度曲线，根据密度分布峰值的变化，可以将该连续型属性取值分散为4个区间。以此类推，x8属性离散化为6个区间，x9属性离散化为3个区间，x10属性离散为5个区间。经过连续值离散化后的数据资源中所有属性均为离散型属性，为定性分析模型构建提供数据基础。最终得到连续属性区间划分结果如表3所示，例如“EnvTemp1:[11.2,28.1)”表示将温度属性划分区间后，11.2～28.1℃被划分到第温度区间1，其标识为“EnvTemp1”，连续型属性离散化后数据集如表4所示。

表3连续型属性区间划分对应表

表4连续型属性离散化后数据集

x1

x2

x3

x4

x5

x6

x7

x8

x9

x10

y

ProCmp1

EquType2

MecType2

MecLife1

a

EnvTemp1

40-60％

MecNum3

OpenNum1

UseTime3

CaoDong

ProCmp1

EquType2

MecType1

MecLife1

e

EnvTemp2

40-60％

MecNum2

OpenNum1

UseTime3

CaoDong

ProCmp2

EquType1

MecType2

MecLife1

e

EnvTemp1

40-60％

MecNum2

OpenNum1

UseTime3

ZhuYao

ProCmp1

EquType3

MecType3

MecLife1

b

EnvTemp1

60-80％

MecNum5

OpenNum1

UseTime4

SF6

ProCmp1

EquType4

MecType2

MecLife2

c

EnvTemp1

80％以上

MecNum6

OpenNum3

UseTime4

QiTa

…

ProCmp3

EquType2

MecType1

MecLife2

d

EnvTemp4

40％-60％

MecNum1

OpenNum1

UseTime4

CaoDong

ProCmp1

EquType1

MecType2

MecLife1

d

EnvTemp1

40％-60％

MecNum1

OpenNum2

UseTime4

QiTa

ProCmp4

EquType3

MecType1

MecLife2

e

EnvTemp3

40％以下

MecNum1

OpenNum2

UseTime2

FuZhu

ProCmp2

EquType2

MecType3

MecLife1

b

EnvTemp1

40％以下

MecNum1

OpenNum2

UseTime1

FuZhu

(5)对每一列的属性均计算其信息增益率，并由大到小进行排序得到如表5所示的各属性信息增益率排序表。本例使用选择前60％的属性作为特征选择后的子集。

表5各属性信息增益率排序表

(6)故障影响因素定性分析使用多分类关联规则算法CMAR。将断路器故障影响因素定性分析数据资源代入到定性分析方法中，CMAR算法将数据资源中的“故障类别”视为分类的标签，建立了“故障类别”与其它属性因素之间的关系。

数据按照文中所述的方法被分割为了10份，利用十次十折交叉验证，总共计算得到了100个CMAR分类器。每个分类器分类的准确率如图4所示，横轴表示100个分类器迭代过程，纵轴表示交叉验证时的分类准确率。其中对于CMAR算法取的最小支持度supp＝0.2、交叉验证后的分类器平均准确率Rm＝0.82，且第76次迭代时的分类器准确率最为接近平均准确率。取最小置信度minconf＝0.8，对该分类器中的规则集筛选得到如表6的关联规则集。

表6优选分类器中的关联规则集

表6中关联规则说明了SF6断路器各故障类型与属性因素之间的关系。以关联规则Rules1：{UseTime＝UseTime1}＝>{FaultType＝CaoDong}为例，可以看出当投运时间在区间UseTime1:[1.1,3.6)中，即投运时间为1.1～3.6年时，能够推断出发生操动机构异常这个故障，对于该条规则而言，表明导致断路器操动机构异常这一故障的一个关键因素可能是投运时间在[1.1,3.6)区间段内。以此类推，即可将所有与各种故障相关的影响因素全部挖掘出来。

简而言之，本发明公开的一种基于数据的断路器故障影响因素定性分析方法，解决了现有断路器故障数据利用不充分、故障原因定位太主观以及定性分析模型稳定性不足等问题。本发明通过对断路器故障数据的挖掘与分析，找到断路器各类故障的关键影响因素。该方法步骤包括：①定义原始故障数据集；②故障数据清洗；③故障数据变换；④故障数据规约；⑤构建故障影响因素定性分析模型并进行十次十折交叉验证；⑥得到故障与影响因素的关联规则。本发明利用有监督学习算法CMAR进行建模，随着数据量的增大，模型的准确度会不断提高。同时，十次十折交叉验证保证了定性分析模型的稳健性，能有效的分析出断路器故障的影响因素，用于对断路器的设备改进以及为其运行维护提供参考依据。

Claims

1.一种基于数据的断路器故障影响因素定性分析方法，其特征在于，通过断路器故障历史数据构建故障影响因素的定性分析模型，得到故障与影响因素的关联规则，根据关联规则发现断路器的各类故障与因素的关系，得到影响故障发生的关键因素，具体步骤包括有：

(1)定义原始故障数据集：设断路器原始故障数据集为U＝(u₁,u₂,…,u_n-1,u_n,y)，其中u_i表示故障数据集中潜在的故障影响因素属性，主要包括开断电流次数、操作机构次数、投运时间、年平均负载率、环境温度和环境污秽等级等；y表示故障类型，主要包括操动机构异常、SF6泄漏、辅助部件损坏、主要部件劣化和其他故障；

(2)故障数据清洗：首先利用业务常识对影响因素u_i进行约束，识别每个影响因素属性中的异常值并剔除，然后采用多重插补法处理连续型数据，均值插补法处理离散型数据，经过缺失值插补后的故障数据集为

(3)故障数据变换：利用高斯混合模型对故障数据集中的连续型属性进行离散化，即将一列连续型数据拟合成多个高斯分布曲线，将数据划分到不同的单高斯分布曲线中，即把连续数据离散化划分为多个区间，然后利用贝叶斯信息准则进行模型的选择，通过计算BIC值确定最优的高斯混合模型，取BIC值最大时的高斯混合模型作为连续属性离散化的模型，此时是最合适的区间划分，连续属性离散化后得到新的数据集S＝(x₁,x₂,…,x_n-1,x_n,y)，其中x_i均为离散型区间变量；

(4)故障数据归约：以故障数据中的“故障类型”属性作为类别标签，分别计算所有影响因素属性与“故障类型”之间的信息增益率，并对所求的信息增益率进行降序排列，选取排序前60％的属性特征作为数据规约后的故障数据子集S＝(x₁,x₂,…,x_m-1,x_m,y)，由n个属性维度减少为m个属性维度；

(5)十次十折交叉验证构建故障影响因素定性分析模型：将故障数据子集S随机均等划分为十份，即所谓的十折，记为S_i(i＝0，1，…，10)，每份包含的样本量一致，成为新数据对象，轮流将其中一份作为测试样本集Test，并将剩余的九份作为训练样本集Train，根据训练数据样本产生分类关联规则集，并对规则进行存储和剪枝，然后取出分类关联规则对新数据对象进行分类，得到10个CMAR分类器C_i(i＝1,2,…,10)，计算每个分类器的分类准确率R_i(i＝1,2,…,10)，重复10次，总共得到100个CMAR分类器，求得所有100个CMAR分类器准确率的均值Rm，寻找到分类准确率R_i与Rm最接近的分类器C_b，如果存在多个最接近的分类器则取首次寻找到的结果；

(6)得到关联规则：分析C_b中所有规则的支持度、置信度指标，其中置信度作为因素与故障相关性评价的标准，设置最小置信度minconfi，如果规则置信度大于等于minconfi则该规则保留，如果小于则丢弃，从保留下来的规则中即可得到断路器故障影响因素的定性描述，完成故障影响因素定性分析。

2.根据权利要求1所述的基于数据的断路器故障影响因素定性分析方法，其特征在于，步骤(3)所述的利用高斯混合模型对故障数据集中的连续型属性进行离散化，具体步骤包括：

(3.1)高斯混合模型拟合：假设一组向量点x_i(i＝1,2...n')，共有n'个观测值，这组点的分布由K个高斯分布混合构成，表示离散化过程中样本点共离散为K个区间，其中高斯混合模型的定义式为：

<mrow> <mi>p</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>|</mo> <mi>&Theta;</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <msub> <mi>&pi;</mi> <mi>k</mi> </msub> <msub> <mi>p</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>|</mo> <msub> <mi>&theta;</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow>

式中π_k∈[0,1]，表示每个高斯分布对数据点的影响因子，θ_k为各单高斯分布的参数，Θ为参数空间，Θ＝{π₁，…,π_k,θ₁,…,θ_k}；

<mrow> <msub> <mi>p</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>|</mo> <msub> <mi>&theta;</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>N</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>|</mo> <msub> <mi>&mu;</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>&sigma;</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <msqrt> <mrow> <mn>2</mn> <mi>&pi;</mi> <mi>&sigma;</mi> </mrow> </msqrt> </mfrac> <mi>exp</mi> <mo>{</mo> <mo>-</mo> <mfrac> <msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>-</mo> <msub> <mi>&mu;</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mrow> <mn>2</mn> <msubsup> <mi>&sigma;</mi> <mi>k</mi> <mn>2</mn> </msubsup> </mrow> </mfrac> <mo>}</mo> </mrow>

其中p_k(x|θ_k)表示第k个单高斯分布对应的概率密度函数，N(x|μ_k,σ_k)表示第k个单高斯分布的概率密度，μ_k为该高斯分布概率密度的均值，σ_k为其标准差；

(3.2)通过贝叶斯信息准则(BIC)来进行模型选择：找到最合适的K值，其定义公式如下：

BIC＝ln L_Θ-k ln n'

其中k表示由参数空间Θ构成的模型空间中自由参数的个数，n'为样本量，k ln n'是对模型复杂程度的惩罚项，L_Θ为高斯混合模型的对数似然函数，具体公式如下：

<mrow> <msub> <mi>L</mi> <mi>&Theta;</mi> </msub> <mo>=</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <munderover> <mo>&Pi;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mi>p</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>|</mo> <mi>&Theta;</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mo>{</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <msub> <mi>&pi;</mi> <mi>k</mi> </msub> <mi>N</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>|</mo> <msub> <mi>&mu;</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>&sigma;</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>}</mo> </mrow>

3.根据权利要求1所述的基于数据的断路器故障影响因素定性分析方法，其特征在于，步骤(4)所述的故障数据归约，即计算每一种属性的信息增益率，并根据信息增益率大小进行排序选择，信息增益率的具体计算公式如下：

<mrow> <mi>G</mi> <mi>a</mi> <mi>i</mi> <mi>n</mi> <mi>R</mi> <mi>a</mi> <mi>t</mi> <mi>i</mi> <mi>o</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>G</mi> <mi>a</mi> <mi>i</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>SplitInfo</mi> <mi>A</mi> </msub> <mrow> <mo>(</mo> <mi>S</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

式中A表示一种属性，Gain(A)表示属性A的信息增益，SplitInfo _A(S)表示内在信息值，即数据集S属性A被划分后产生的信息量；

信息增益Gain(A)计算公式如下：

<mrow> <mi>G</mi> <mi>a</mi> <mi>i</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>I</mi> <mi>n</mi> <mi>f</mi> <mi>o</mi> <mrow> <mo>(</mo> <mi>S</mi> <mo>)</mo> </mrow> <mo>-</mo> <msub> <mi>Info</mi> <mi>A</mi> </msub> <mrow> <mo>(</mo> <mi>S</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>c</mi> </munderover> <msub> <mi>p</mi> <mi>i</mi> </msub> <msub> <mi>log</mi> <mn>2</mn> </msub> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>v</mi> </munderover> <mfrac> <mrow> <mo>|</mo> <msub> <mi>S</mi> <mi>j</mi> </msub> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <mi>S</mi> <mo>|</mo> </mrow> </mfrac> <mi>I</mi> <mi>n</mi> <mi>f</mi> <mi>o</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow>

内在信息值SplitInfo_A(S)计算公式如下：

<mrow> <msub> <mi>SplitInfo</mi> <mi>A</mi> </msub> <mrow> <mo>(</mo> <mi>S</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>v</mi> </munderover> <mfrac> <mrow> <mo>|</mo> <msub> <mi>S</mi> <mi>j</mi> </msub> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <mi>S</mi> <mo>|</mo> </mrow> </mfrac> <msub> <mi>log</mi> <mn>2</mn> </msub> <mrow> <mo>(</mo> <mfrac> <mrow> <mo>|</mo> <msub> <mi>S</mi> <mi>j</mi> </msub> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <mi>S</mi> <mo>|</mo> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow>

其中，Info(S)和Info_A(S)分别表示数据集S进行属性划分前后的熵值，p_i表示S中任意元组属于故障类别y_i的相对概率，用属性A将S划分成v个子集，表示第j个划分的权重；

每一种属性都可以计算出一个信息增益率值，将每个属性的信息增益值进行降序排列，选取排序前60％的属性进行后续分析，达到故障数据归约的目的。

4.根据权利要求1所述的基于数据的断路器故障影响因素定性分析方法，其特征在于，步骤(5)所述的十次十折交叉验证构建故障影响因素定性分析模型，具体操作步骤如下：

(5.1)首先将数据集S随机均等划分为十份，即所谓的十折，分别为S₁,S₂,...,S₁₀，每份包含的样本量大致一样；

(5.2)轮流将每一份新数据对象作为测试样本集Test，并将剩余的九份作为训练样本集Train，进行故障影响因素定性分析模型的训练，得到10个CMAR分类器C₁,C₂,...,C₁₀，每个分类器中包含一种关联规则集；

(5.3)计算每个分类器的分类准确率R₁,R₂,...,R₁₀，即将之前挑出的测试样本集故障数据代入每个分类器中验证故障标签类别，若10条测试数据中有8条数据输入模型后得到的故障类别符合原始数据记录的故障类别，则表明该分类器准确率为0.8；

(5.4)重复10次步骤(5.1)到步骤(5.3)的过程，一共得到100个CMAR分类器，100个分类器准确率；

(5.5)求出100个R₁,R₂,...,R₁₀₀的均值R_m，寻找分类准确率与R_m最接近的分类器C_b，如果存在多个准确率相同的分类器，则选取首次寻找到的结果；

(5.6)分析分类准确率与R_m最接近的分类器C_b中所有关联规则的支持度、置信度、提升度指标，设置最小置信度min confi，如果规则的置信度大于等于min confi则保留该规则，否则丢弃；

(5.7)从保留下来的规则中即可得到断路器故障影响因素的定性描述。

5.根据权利要求4所述的十次十折交叉验证构建故障影响因素定性分析模型，其特征在于，步骤(5.2)所述的得到CMAR分类器，主要分为两个阶段：根据训练数据集产生分类关联规则集并存储，取出分类关联规则对新数据对象进行分类，得到CMAR分类器，具体操作步骤如下：

(5.2.2)按置信度大小对属性-类别对进行降序排序；

首先将规则左边的属性值按照其出现的频繁程度有多到少进行排序，即a出现频率最高，排在第一位；第一条规则作为第一条从根节点出发的路径插入到树种，在插入最后一个节点的时候，存储类标号、支持度和置信度；第二条规则与第一条规则共享前缀a b c，并在该路径的最前端插入一个新节点d，然后将剩余规则按该方式插入，直到构成储存规则的CR-树。