CN110909977A

CN110909977A - 基于adasyn-dhsd-et的电网故障诊断方法

Info

Publication number: CN110909977A
Application number: CN201910969305.6A
Authority: CN
Inventors: 袁帅; 张国锋; 张慧丽; 王晓燕; 郭雷岗; 王涵
Original assignee: Zhengzhou Electric Power College
Current assignee: Zhengzhou Electric Power College
Priority date: 2019-10-12
Filing date: 2019-10-12
Publication date: 2020-03-24

Abstract

本发明公开了一种基于ADASYN‑DHSD‑ET的电网故障诊断方法，一、对数据库中电网的监控数据进行提取，预处理后，保留全部属性完整的记录；二、对预处理后的数据进行分类，按照一定比例对每个类进行随机采样，得到训练集D_train和测试集D_test；三、使用ADASYN‑DHSD‑ET算法对D_train训练故障类型诊断训练模型；四：使用D_test验证训练模型，根据每个参数设置进行验证，并根据评价指标，得到最优模型、五：重复步骤一并根据最优模型识别电网中的故障类型；本发明针对电网故障诊断数据的类别分布不平衡问题，通过构建基于ADASYN‑DHSD‑ET算法的模型，然后根据相应的评价指标得到最优模型，较准确的识别电网中的故障类型，增强了电力系统安全运行的稳定性和可靠性。

Description

基于ADASYN-DHSD-ET的电网故障诊断方法

技术领域：

本发明涉及电力系统故障检修领域，特别是涉及一种基于ADASYN-DHSD-ET的电网故障诊断方法。

背景技术：

随着我国经济发展，对电力需求不断增大，保证电力系统的安全稳定运行，有效诊断预测电网故障尤为重要。近年来计算机和诊断技术的不断发展，电网故障诊断技术也得到飞速的提升，国内外学者已运用专家系统、神经网络、Petri网、机器学习和深度学习等的智能故障诊断技术。虽然在故障诊断上都取得了较好的效果，但存在前提条件苛刻(数据预处理要求过高)、局部欠学习和过学习等问题。但在样本中，如果正常数据占绝大部分，而故障数据只占小部分，正常和故障数据分别为大类和小类样本，即构成典型的不平衡数据。

当前，不平衡数据分类问题的解决方法主要有2个方面：①数据层面，上采样和下采样，改变数据分布，降低不平衡度，称之为重采样方法；②算法层面，分析已有算法在面对不平衡数据的缺陷，改进算法或者提出新算法来提升小类的分类准确率，例如代价敏感学习和集成学习等。

针对故障诊断的不平衡的样本数据，国内外不少学者在其特点下的故障诊断领域的应用进行了研究。有的提出了基于快速聚类和支持向量机的旋转机械故障诊断算法，通过快速聚类减少数据，平衡后利用支持向量机进行训练，有较好的诊断效果。有的提出综合上采样和特征学习的旋转机械不平衡数据故障诊断方法，用加权上采样法平衡数据分布，用增强的自动编码进行特征选择，可以更有效的检测故障样本。

不平衡学习方法在故障诊断领域已有较好的效果，但在电网故障诊断领域应用较少。基于电气量信息(电压、电流、电功耗、电能、相位、频率等)的电网故障诊断(赵耀.基于信息融合的电网故障诊断方法研究[D].山东:山东大学,2018.)，可提供较准确的故障诊断，并具有较强的解释性。但实际情况中电气测量较难，并且电网故障产生的原因较多，比如设备的老化，用电负荷，天气原因中恶劣天气、雷击等，无线通讯等，都会对精密电网设备造成一定的影响；其中部分原因是无规律的，并可能包括很多考虑不到的情况。

目前研究不平衡数据，以SMOTE方法为基础的改进模型居多，但SMOTE方法容易造成小类的生成样本重叠，因为生成样本是各小类盲目地生成相同的数量，忽略了其临近样本的分布特点。而自适应合成上采样(Adaptive Synthetic Sampling Approach，ADASYN)生成样本数量，是根据各小类的密度分布来计算得到的，更能增强分类模型的学习能力。图1为各采样算法生成模拟样本的对比，得出SMOTE采样在样本点之间线性插值生成新样本；SVMSMOTE采样基于SVM的超平面生成新的样本；BorderlineSMOTE采样在小类靠边界点附近生成样本；ADASYN采样在小类的样本聚集处生成较多样本。在集成算法中极端随机树算法(Extremely Randomized Trees，ET)能有效的降低分类的偏差和方差，并在小类的应用上有较好的效果。

本发明内容：

本发明所要解决的技术问题是：克服现有技术的不足，针对电网故障诊断数据的类别分布不平衡问题，即故障类别相对正常类别比值小，通过对多元数据库中的日常监控数据进行提取，经过数据预处理后，构建基于ADASYN-DHSD-ET算法的模型，然后根据相应的评价指标得到最优模型，最后对电网故障类型进行识别的基于ADASYN-DHSD-ET的电网故障诊断方法。

本发明的技术方案是：一种基于ADASYN-DHSD-ET的电网故障诊断方法，其特征是：对多元数据库中的日常监控数据进行提取，经过数据预处理后，构建基于ADASYN-DHSD-ET算法的模型，然后根据相应的评价指标得到最优模型，最后对电网故障类型进行识别，其具步骤为：步骤一、对多元数据库中电网的日常监控数据进行提取，经过预处理后，保留全部属性完整的记录；

步骤二、对预处理后的数据进行分类，按照一定比例对每个类进行随机采样，得到训练集D_train和测试集D_test；

步骤三、使用ADASYN-DHSD-ET算法对D_train训练故障类型诊断训练模型；

步骤四：使用D_test验证训练模型，根据每个参数设置进行验证，并根据评价指标，得到最优模型、

步骤五：重复步骤一并根据步骤四获得的最优模型识别电网中的故障类型。

进一步的，所述步骤一中，多元数据库为电网日常监控数据的历史存储数据库或实时监控数据；属性完整的记录为具有电压、电流、是否修复过、工作日、时间11个特征属性的记录。

进一步的，所述步骤二中，按照正常数据、信号丢失故障、MIB备份未对齐故障、R丢失故障、信号降级故障进行分类并形成数据集。

进一步的，所述步骤三中，训练模型建立的过程为：(1)、通过ADASYN-DHSD对训练集D_train中的样本进行采样，根据故障类的密度分布自动生成新样本，使用DHSD计算样本之间的合成数、合成数据、改进样本的平衡度，并使采样后的数据保持原样本的特征；

(2)、对生成新样本数量进行调参，使其与正常类样本数量相同，并与正常类样本形成新样本集；

(3)、ET算法中每个基分类器都使用新样本集中的全部样本进行训练，在基分类器节点分裂时随机从N个属性中选择n个分裂属性，以基尼系数或信息增益熵选择最优属性进行分裂，分裂过程中不剪枝，直到生成一个基分类器；

(4)、对所有基分类器进行投票，获得训练模型。

进一步的，所述步骤四中，以平均精度、小类的平均精度、F_score、G_mean和时间复杂度作为不平衡数据集的性能评价指标。

本发明的有益效果是：

1、本发明针对电网故障诊断数据的类别分布不平衡问题，即故障类别相对正常类别比值小，通过对多元数据库中的日常监控数据进行提取，经过数据预处理后，构建基于ADASYN-DHSD-ET算法的模型，然后根据相应的评价指标得到最优模型，最后对电网故障类型进行识别，较准确的识别电网中的故障类型，增强了电力系统安全运行的稳定性和可靠性。

2、本发明结合ADASYN的自适应合成和极端随机树的偏差和方差低优点，并在此基础上进行改进，提出了一种ADASYN-DHSD-ET算法，改进样本平衡度和模型的训练方法，在采样阶段根据故障类样本的内部分布密度自适应计算合成新样本数量；在合成新样本时，计算离散型数据样本点之间的高维空间距离，使点之间的合成数量与距离成负相关关系，进行合成新样本；在基分类器生成过程中，节点分裂时随机选择特征，巧妙借助极端随机树随机性强方差低的特性解决了噪声数据的影响。

3、本发明能够提高随机性，降低分类的偏差和方差，来克服模型的过拟合，提高模型的泛化能力；提高小类的正确率，并保证大类较高的正确率。

4、本发明从真实多源数据库出发，预处理得到的数据包含正常和故障样本，并用不平衡分类方法进行研究，从实际数据源出发，具有完整的检测路线，并更全面的考虑到正常和故障数据的所有特性。解决了之前大部分研究只抽取部分故障数据进行诊断所具有的弊端。

附图说明：

图1为各采样算法生成模拟样本的对比。

图2为基于ADASYN-DHSD-ET的电网故障诊断方法中建模流程图。

图3为传统分类模型与本申请中ADASYN-DHSD-ET算法的性能比较。

图4为常用不平衡分类模型与本申请中ADASYN-DHSD-ET算法的性能比较表。

具体实施方式：

实施例：参见图1、图2、图3和图4。

基于ADASYN-DHSD-ET的电网故障诊断方法，其通过对多元数据库中的日常监控数据进行提取，经过数据预处理后，构建基于ADASYN-DHSD-ET算法的模型，然后根据相应的评价指标得到最优模型，最后对电网故障类型进行识别。ADASYN-DHSD-ET是(AdaptiveSynthetic Sampling of Discrete High-dimensional Spatial Distance ExtremelyRandomized Trees)的简称。

下面结合附图和实施例对本申请进行详细描述。

ADASYN-DHSD算法是基于ADASYN在生成数据时根据离散高维空间距离改进算法。该方法考虑数据为多类不平衡问题，根据小类样本的分布自适应地合成新样本，在合成新样本时用高维空间距离来计算样本的离散型特征数据，根据样本点之间的距离确定合成的样本点的数量大小。距离越近合成样本点越多。创建一个定义所有特征向量的特征值之间高维空间距离的矩阵，两个特征向量的距离δ的定义如下：

式中：V₁和V₂是两个特征值，C₁是特征值V₁出现的总次数，C_1i是在i类中特征值V₁出现的次数，C₂和C_2i与上面的定义相似，k是常数。式(1)用来计算特征向量的每个标称特征值的差值矩阵，并给出一个确定的几何距离。

根据ADASYN，设小类的样本点x，有x₁,x₂,…x_t(t<K)个近邻点满足K近邻，x需合成新样本点数为n，样本点与各近邻点的距离为δ1,δ2,…δt，可计算样本点与各邻近点合成数量。与x_i的生成比例v_i为：

v_i＝1/δ_i (2)

正则化

为：

x与x_i的生成结点个数m_i为：

x依次与各x_i合成m_i个新样本。

ET算法是一种集成算法。其基分类器使用全部样本进行训练，为增强随机性，在节点分裂时随机从N个特征中选择n个特征，以基尼系数或信息增益熵选择最优属性进行分裂，分裂过程中不剪枝，直到生成一个决策树(基分类器)。利用投票决策对所有基分类器统计产生最终分类结果。

ET优于贪婪的决策树，在小样本上有更好的平滑性，能有效降低偏差和方差。为说明这一点，考虑大小为N的样本：

ls_N＝{(xⁱ,yⁱ):i＝1,2,...,N}

式中：

是一个n维的特征向量，yⁱ是对应的输出值，表示为：

j^th属性的样本值通过増序取得，符号简化为：

并

特征函数

的超区间为：

用这些符号表示，可以证明一个无限的ET可以近似表示为如下：

式中：参数

依赖于输入样本xⁱ和输出yⁱ以及方法的参数n_min和K。

当n_min＝2完全树的特殊情况下，有：

如果输入空间为一维(n＝1 and x＝(x₁))，以上公式退化为线性分段模型：

式中：I_(i)(x₁)为区间

的特征函数。

和

的值源自方程(6)的推导，N个连续约束条件为

ET当基分类器的数量M→∞时，对比其他基于树的集成分类方法，ET更连续光滑。从偏差和方差的角度看，模型的连续性使得目标函数平滑区域的方差和偏倚较小，从而使得该区域的模型更加精确。

本发明通过ADASYN-DHSD采样，利用小类中每个样本的K最临近，计算样本的分布，使用DHSD计算样本之间的合成数，合成数据，改进样本的平衡度，增强算法的训练效果；同时极端随机树算法中每个基分类器都使用新合成的全部样本进行训练，在基分类器节点分裂时随机选取分裂特征，计算其最优的分裂属性进行分裂，直到生成一个基分类器；最后对所有基分类器进行投票，形成ADASYN-DHSD-ET算法。

设训练样本集为D＝{(x₁,y₁),…,(x_m,y_m)},则ADASYN-DHSD-ET算法描述如下：

1.构造ADASYN_DHSD_ET(D)

输入训练集D＝{(x₁,y₁),…,(x_m,y_m)}

输出极端随机树T＝{t₁,…,t_M}

(1)for i＝1to M do

(2)生成决策树，t_i＝构造子分类器(D)

(3)end for

(4)投票策略

(5)返回极端随机树T

2.构造子分类器(D)

输入训练集D＝{(x₁,y₁),…,(x_m,y_m)}

输出子分类器t

(1)调用ADASYN_DHSD采样(D),返回采样后数据集D_new

(2)if停止分裂(D_new)then

(3)返回一个叶节点；

(4)else

(5)从所有候选属性中随机选择K个属性{a₁,...,a_K}；

(6)产生K个分裂阈值{s₁,...,s_K}，其中s_i＝选取分裂点

(7)根据Score(s_*,D_new)＝max_i＝1,...,KScore(s_*,D_new),选择最好的测试分裂阈值s_*；

(8)根据测试分裂阈值s_*，将样本集D_new分为两个子样本集D_l和D_r；

(9)分别用子集D_l和D_r构造左子树t_l＝构造子分类器(D_l)和右子树t_r＝构造子分类器(D_r)；

(10)根据s_*建立树节点，t_l和t_r分别为其左子树和右子树，并返回决策树t；

(11)End if

3.ADASYN_DHSD采样(D)

输入D为训练数据集，其中包含m个样本{x_i,y_i}，x_i是n维特征集合,y_i∈Y＝{1,…C}是类别集合,表示大类数目用m_l表示，各小类的数目用m_s1,…,m_sj表示。有m_si≤m_l，并且∑m_si+m_l＝m。

输出采样后样本D_new

(1)循环每个小类for i＝1to j do

(2)计算小类的不平衡度d_i:

d_i＝m_si/m_l,d_i∈(0,1] (8)

(3)If d_i<d_th(d_th是类不平衡度的最大阈值),then:

(4)计算需要合成的小类样本的总数目G_i，参数β表示小类样本合成后的不平衡度。β＝1表示大类样本数目和合成后的小类样本数目相同。

G_i＝(m_l-m_si)×β,β∈(0,1] (9)

(5)x_i表示小类的每个样本，并且计算其在n维空间的K近邻比率r_i，其中Δ_i是x_i的K近邻中样本的数目，因此r_i∈[0,1]。

r_i＝Δ_i/K,i＝1,...m_si (10)

(6)正则化r_i，那么r_i满足

为：

(7)g_i表示每个小类样本x_i期望的合成样本数量，式中G_i是公式(9)中合成样本的总数。

(8)用DHSD为每个样本x_i生成g_i个合成数据。

4.停止分裂(D)

输入训练集D

输出布尔值

(1)if D<n_min,then return TRUE；

(2)if D中所有属性确定不变，then return TRUE；

(3)if D中输出变量确定不变，then return TRUE；

(4)else return FALSE。

5.选取分裂点(D,a)

输入训练集D,属性a

输出分裂属性

(1)计算训练集D中属性a的最大值最小值

(2)从

中随机选择一个分裂属性a_c；

(3)返回分裂属性[a＜a_c]。

选取自江西省2016年9月至2018年4月之间的电网的日常监控数据，经过预处理后，保留全部属性完整的记录。样本如表1所示共有记录30039条，每条记录特征属性11个，包括电压、电流、是否修复过、修复时长、是否工作日、月份、日期、星期几、上午或下午、季节、温度等信息；故障类别分为5大类，如表1所示类别1表示正常类，类别2、3、4、5分别表示：信号丢失故障类、MIB备份未对齐故障类、R丢失故障类、信号降级故障类，其中正常类的数据极多为大类，4个故障类别数据极少为小类，类别比例如表格所示：0.9891:0.0036:0.003:0.0025:0.0018；该样本的特征为一个极大类，多个极小类，具有明显的数据不平衡特征。

表1数据集的特征

本发明实验的流程图如图2所示。首先基于多源数据库的数据进行数据预处理(数据清理，数据集成)，得到以上数据集。数据集按照6:4比例对每个类进行随机采样，得到训练集D_train和测试集D_test。

然后使用ADASYN-DHSD-ET算法对D_train训练故障诊断模型，算法对4个故障类进行过采样，根据故障类的密度分布自动生成新样本，改变数据集的平衡度，并使采样后的数据保持原样本的特征；对生成新样本数量进行调参，依次设置采样数量为原样本的10倍、20倍、50倍、100倍、200倍直到与正常类样本数量相同；然后算法中每个基分类器对全部的新数据集进行分类，在节点分裂时在11个特征中随机选取分裂特征，不减枝，充分考虑数据集特征；对基分类器的数量进行调参，依次设置生成基分类器数量100、200、500、1000；集成分类器进行投票得到训练模型。使用D_test验证训练模型，根据每个参数设置进行实验，根据以下评价指标，得到最优模型。

本发明选择基于平均精度(average accuracy,Avg_Acc)，小类的平均精度(Avg_Acc_m),F_score,G_mean和时间复杂度(Time)作为不平衡数据集的性能评价指标。

把混合矩阵扩展到k(k≥2)类分类问题上,用C₁,C₂,……C_k表示k个分类，设实际第k类正确被预测为k类的样本个数n_kk,预测为第i类的样本个数为n_ki，混合矩阵如表2所示。

表2扩展的混淆矩阵

由表2的混合矩阵可计算出如下评价指标：

(1)设P_i为第i类查准率，表示正确预测第i类n_ii在实际第i类样本

中所占的比例：

(2)设R_i为第i类的召回率，表示正确预测第i类n_ii在所有预测第i类

中所占的比例，即第i类的正确率：

(3)总体分类精度(overall accuracy,OA)，即预测正确的数量

在所有样本

中所占的比例：

(4)平均精度Avg_Acc，表示各类正确率的算术平均值：

OA在大类数量较多正确率高的情况下，不能体现小类的准确率，而Avg_Acc更能反映小类的准确率。C₁为大类，C₂,……C_k则为各小类，小类的平均精度(Avg_Acc_m)，表示各小类正确率的算术平均值：

(5)设F_i为第i类的查全率和查准率的调和均值，F_score表示所有类别F_i的平均值：

(6)G_mean表示为各类正确率的几何平均值：

使用各种传统的分类器和不平衡的分类方法训练、测试模型并与本发明提出的ADASYN-DHSD-ET模型进行对比分别得到表3和表4。

评价指标为以上定义的OA，Avg_Acc，R_large(大类的正确率)，Avg_Acc_m，F_score，G_mean和Time。全部实验为保证可重复性和一般性都取其50次实验结果的平均值。

图3为传统分类模型、集成分类模型与本发明算法的性能比较结果，传统分类模型包括多项朴素贝叶斯分类(Bayes)，最邻近分类(KNN)，决策树分类(Decision Tree)，支持向量机(SVM)，神经网络多层感知器(MLP)；集成方法包括：Bagging，AdaBoost，梯度提升(Gradient Boosting)，随机森林(Random Forest)，极端随机树(ET)。由表3的比较可知，ADASYN-DHSD-ET模型在性能指标Avg_Acc和G_mean上有明显的提升。大部分算法在指标R_large上表现较好，但在指标Avg_Acc_m上本模型比其他模型均高30％以上。说明在数量较大的类别进行训练，可以得到较好的模型，但在极小类上由于样本数量过少很难训练出有效的模型。因此传统的分类算法在不平衡问题上的表现较差，特别是样本数量过少的情况下，小样本类别识别率极低，应研究适合不平衡分类的新算法，本发明算法优于传统的分类算法。在传统的分类算法中Bayes和ET在指标Avg_Acc_m上表现较好，但在指标R_large上ET表现的更好，即在大类样本中ET保持较高的正确率，选择ET模型作进一步的改进。

图4是本发明算法与当前流行的不平衡分类方法进行比较，不平衡分类方法包括不平衡中常用的上采样与ET模型结合：SMOTE-ET，SMOTENC-ET，SVMSMOTE-ET，BorderlineSMOTE-ET，ADASYN-ET；内部子集采取采样的不平衡集成分类模型：BalancedRandomForest，RUSBoost，EasyEnsemble，BalancedBagging。由表4的对比可知，本发明算法和结合上采样的ET模型相比在指标Avg_Acc，F_score和Avg_Acc_m上表现较好，算法说明本发明算法在小类的识别上有较好的表现。SMOTENC-ET与本发明指标相差较少，但耗时过高，与本发明时间复杂度相比为78.09:21.96，本发明算法时间效率更高。本发明算法和不平衡集成分类相比在指标Avg_Acc，Rlarge和G_mean上表现较好，说明本发明算法在大类的识别上不会因为上采样而受影响，有较好的表现，虽然BalancedRandomForest在指标Avg_Acc_m上优于本发明模型，但在其他三个指标上明显低于本发明模型，这是由于BalancedRandomForest在上采样后生成的数据影响大类的识别率，在指标Rlarge中表现较差，而本发明算法依然在大类的识别率保持较好。针对电网故障诊断，ADASYN-DHSD-ET模型的性能更好，对大类即正常运行的类别保持较好的识别正确率达到99％，同时对小类即故障类别有较好的识别平均正确率达到70％，总体的平均正确率达到84.39％，F_score达到84.67％，G_mean达到82.6％。因此采用基于ADASYN-DHSD-ET的电网故障诊断方法，可以较准确的识别电网中的故障类型，增强了电力系统安全运行的稳定性和可靠性。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于ADASYN-DHSD-ET的电网故障诊断方法，其特征是：对多元数据库中的日常监控数据进行提取，经过数据预处理后，构建基于ADASYN-DHSD-ET算法的模型，然后根据相应的评价指标得到最优模型，最后对电网故障类型进行识别，其具步骤为：步骤一、对多元数据库中电网的日常监控数据进行提取，经过预处理后，保留全部属性完整的记录；

2.根据权利要求1所述的基于ADASYN-DHSD-ET的电网故障诊断方法，其特征是：所述步骤一中，多元数据库为电网日常监控数据的历史存储数据库或实时监控数据；属性完整的记录为具有电压、电流、是否修复过、修复时长、是否工作日、月份、日期、星期几、上午或下午、季节、温度11个特征属性的记录。

3.根据权利要求1所述的基于ADASYN-DHSD-ET的电网故障诊断方法，其特征是：所述步骤二中，按照正常数据、信号丢失故障、MIB备份未对齐故障、R丢失故障、信号降级故障进行分类并形成数据集。

4.根据权利要求1所述的基于ADASYN-DHSD-ET的电网故障诊断方法，其特征是：所述步骤三中，训练模型建立的过程为：(1)、通过ADASYN-DHSD对训练集D_train中的样本进行采样，根据故障类的密度分布自动生成新样本，使用DHSD计算样本之间的合成数、合成数据、改进样本的平衡度，并使采样后的数据保持原样本的特征；

(2)、使故障类与正常类样本数量相同，并与正常类样本形成新样本集；

(4)、对所有基分类器进行投票，获得训练模型。

5.根据权利要求1所述的基于ADASYN-DHSD-ET的电网故障诊断方法，其特征是：所述步骤四中，以平均精度、小类的平均精度、F_score、G_mean和时间复杂度作为不平衡数据集的性能评价指标。