CN110909977A - 基于adasyn-dhsd-et的电网故障诊断方法 - Google Patents

基于adasyn-dhsd-et的电网故障诊断方法 Download PDF

Info

Publication number
CN110909977A
CN110909977A CN201910969305.6A CN201910969305A CN110909977A CN 110909977 A CN110909977 A CN 110909977A CN 201910969305 A CN201910969305 A CN 201910969305A CN 110909977 A CN110909977 A CN 110909977A
Authority
CN
China
Prior art keywords
dhsd
adasyn
data
samples
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910969305.6A
Other languages
English (en)
Inventor
袁帅
张国锋
张慧丽
王晓燕
郭雷岗
王涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Electric Power College
Original Assignee
Zhengzhou Electric Power College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Electric Power College filed Critical Zhengzhou Electric Power College
Priority to CN201910969305.6A priority Critical patent/CN110909977A/zh
Publication of CN110909977A publication Critical patent/CN110909977A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/06Electricity, gas or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Administration (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • General Engineering & Computer Science (AREA)
  • Primary Health Care (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于ADASYN‑DHSD‑ET的电网故障诊断方法,一、对数据库中电网的监控数据进行提取,预处理后,保留全部属性完整的记录;二、对预处理后的数据进行分类,按照一定比例对每个类进行随机采样,得到训练集Dtrain和测试集Dtest;三、使用ADASYN‑DHSD‑ET算法对Dtrain训练故障类型诊断训练模型;四:使用Dtest验证训练模型,根据每个参数设置进行验证,并根据评价指标,得到最优模型、五:重复步骤一并根据最优模型识别电网中的故障类型;本发明针对电网故障诊断数据的类别分布不平衡问题,通过构建基于ADASYN‑DHSD‑ET算法的模型,然后根据相应的评价指标得到最优模型,较准确的识别电网中的故障类型,增强了电力系统安全运行的稳定性和可靠性。

Description

基于ADASYN-DHSD-ET的电网故障诊断方法
技术领域:
本发明涉及电力系统故障检修领域,特别是涉及一种基于ADASYN-DHSD-ET的电网故障诊断方法。
背景技术:
随着我国经济发展,对电力需求不断增大,保证电力系统的安全稳定运行,有效诊断预测电网故障尤为重要。近年来计算机和诊断技术的不断发展,电网故障诊断技术也得到飞速的提升,国内外学者已运用专家系统、神经网络、Petri网、机器学习和深度学习等的智能故障诊断技术。虽然在故障诊断上都取得了较好的效果,但存在前提条件苛刻(数据预处理要求过高)、局部欠学习和过学习等问题。但在样本中,如果正常数据占绝大部分,而故障数据只占小部分,正常和故障数据分别为大类和小类样本,即构成典型的不平衡数据。
当前,不平衡数据分类问题的解决方法主要有2个方面:①数据层面,上采样和下采样,改变数据分布,降低不平衡度,称之为重采样方法;②算法层面,分析已有算法在面对不平衡数据的缺陷,改进算法或者提出新算法来提升小类的分类准确率,例如代价敏感学习和集成学习等。
针对故障诊断的不平衡的样本数据,国内外不少学者在其特点下的故障诊断领域的应用进行了研究。有的提出了基于快速聚类和支持向量机的旋转机械故障诊断算法,通过快速聚类减少数据,平衡后利用支持向量机进行训练,有较好的诊断效果。有的提出综合上采样和特征学习的旋转机械不平衡数据故障诊断方法,用加权上采样法平衡数据分布,用增强的自动编码进行特征选择,可以更有效的检测故障样本。
不平衡学习方法在故障诊断领域已有较好的效果,但在电网故障诊断领域应用较少。基于电气量信息(电压、电流、电功耗、电能、相位、频率等)的电网故障诊断(赵耀.基于信息融合的电网故障诊断方法研究[D].山东:山东大学,2018.),可提供较准确的故障诊断,并具有较强的解释性。但实际情况中电气测量较难,并且电网故障产生的原因较多,比如设备的老化,用电负荷,天气原因中恶劣天气、雷击等,无线通讯等,都会对精密电网设备造成一定的影响;其中部分原因是无规律的,并可能包括很多考虑不到的情况。
目前研究不平衡数据,以SMOTE方法为基础的改进模型居多,但SMOTE方法容易造成小类的生成样本重叠,因为生成样本是各小类盲目地生成相同的数量,忽略了其临近样本的分布特点。而自适应合成上采样(Adaptive Synthetic Sampling Approach,ADASYN)生成样本数量,是根据各小类的密度分布来计算得到的,更能增强分类模型的学习能力。图1为各采样算法生成模拟样本的对比,得出SMOTE采样在样本点之间线性插值生成新样本;SVMSMOTE采样基于SVM的超平面生成新的样本;BorderlineSMOTE采样在小类靠边界点附近生成样本;ADASYN采样在小类的样本聚集处生成较多样本。在集成算法中极端随机树算法(Extremely Randomized Trees,ET)能有效的降低分类的偏差和方差,并在小类的应用上有较好的效果。
本发明内容:
本发明所要解决的技术问题是:克服现有技术的不足,针对电网故障诊断数据的类别分布不平衡问题,即故障类别相对正常类别比值小,通过对多元数据库中的日常监控数据进行提取,经过数据预处理后,构建基于ADASYN-DHSD-ET算法的模型,然后根据相应的评价指标得到最优模型,最后对电网故障类型进行识别的基于ADASYN-DHSD-ET的电网故障诊断方法。
本发明的技术方案是:一种基于ADASYN-DHSD-ET的电网故障诊断方法,其特征是:对多元数据库中的日常监控数据进行提取,经过数据预处理后,构建基于ADASYN-DHSD-ET算法的模型,然后根据相应的评价指标得到最优模型,最后对电网故障类型进行识别,其具步骤为:步骤一、对多元数据库中电网的日常监控数据进行提取,经过预处理后,保留全部属性完整的记录;
步骤二、对预处理后的数据进行分类,按照一定比例对每个类进行随机采样,得到训练集Dtrain和测试集Dtest
步骤三、使用ADASYN-DHSD-ET算法对Dtrain训练故障类型诊断训练模型;
步骤四:使用Dtest验证训练模型,根据每个参数设置进行验证,并根据评价指标,得到最优模型、
步骤五:重复步骤一并根据步骤四获得的最优模型识别电网中的故障类型。
进一步的,所述步骤一中,多元数据库为电网日常监控数据的历史存储数据库或实时监控数据;属性完整的记录为具有电压、电流、是否修复过、工作日、时间11个特征属性的记录。
进一步的,所述步骤二中,按照正常数据、信号丢失故障、MIB备份未对齐故障、R丢失故障、信号降级故障进行分类并形成数据集。
进一步的,所述步骤三中,训练模型建立的过程为:(1)、通过ADASYN-DHSD对训练集Dtrain中的样本进行采样,根据故障类的密度分布自动生成新样本,使用DHSD计算样本之间的合成数、合成数据、改进样本的平衡度,并使采样后的数据保持原样本的特征;
(2)、对生成新样本数量进行调参,使其与正常类样本数量相同,并与正常类样本形成新样本集;
(3)、ET算法中每个基分类器都使用新样本集中的全部样本进行训练,在基分类器节点分裂时随机从N个属性中选择n个分裂属性,以基尼系数或信息增益熵选择最优属性进行分裂,分裂过程中不剪枝,直到生成一个基分类器;
(4)、对所有基分类器进行投票,获得训练模型。
进一步的,所述步骤四中,以平均精度、小类的平均精度、F_score、G_mean和时间复杂度作为不平衡数据集的性能评价指标。
本发明的有益效果是:
1、本发明针对电网故障诊断数据的类别分布不平衡问题,即故障类别相对正常类别比值小,通过对多元数据库中的日常监控数据进行提取,经过数据预处理后,构建基于ADASYN-DHSD-ET算法的模型,然后根据相应的评价指标得到最优模型,最后对电网故障类型进行识别,较准确的识别电网中的故障类型,增强了电力系统安全运行的稳定性和可靠性。
2、本发明结合ADASYN的自适应合成和极端随机树的偏差和方差低优点,并在此基础上进行改进,提出了一种ADASYN-DHSD-ET算法,改进样本平衡度和模型的训练方法,在采样阶段根据故障类样本的内部分布密度自适应计算合成新样本数量;在合成新样本时,计算离散型数据样本点之间的高维空间距离,使点之间的合成数量与距离成负相关关系,进行合成新样本;在基分类器生成过程中,节点分裂时随机选择特征,巧妙借助极端随机树随机性强方差低的特性解决了噪声数据的影响。
3、本发明能够提高随机性,降低分类的偏差和方差,来克服模型的过拟合,提高模型的泛化能力;提高小类的正确率,并保证大类较高的正确率。
4、本发明从真实多源数据库出发,预处理得到的数据包含正常和故障样本,并用不平衡分类方法进行研究,从实际数据源出发,具有完整的检测路线,并更全面的考虑到正常和故障数据的所有特性。解决了之前大部分研究只抽取部分故障数据进行诊断所具有的弊端。
附图说明:
图1为各采样算法生成模拟样本的对比。
图2为基于ADASYN-DHSD-ET的电网故障诊断方法中建模流程图。
图3为传统分类模型与本申请中ADASYN-DHSD-ET算法的性能比较。
图4为常用不平衡分类模型与本申请中ADASYN-DHSD-ET算法的性能比较表。
具体实施方式:
实施例:参见图1、图2、图3和图4。
基于ADASYN-DHSD-ET的电网故障诊断方法,其通过对多元数据库中的日常监控数据进行提取,经过数据预处理后,构建基于ADASYN-DHSD-ET算法的模型,然后根据相应的评价指标得到最优模型,最后对电网故障类型进行识别。ADASYN-DHSD-ET是(AdaptiveSynthetic Sampling of Discrete High-dimensional Spatial Distance ExtremelyRandomized Trees)的简称。
下面结合附图和实施例对本申请进行详细描述。
ADASYN-DHSD算法是基于ADASYN在生成数据时根据离散高维空间距离改进算法。该方法考虑数据为多类不平衡问题,根据小类样本的分布自适应地合成新样本,在合成新样本时用高维空间距离来计算样本的离散型特征数据,根据样本点之间的距离确定合成的样本点的数量大小。距离越近合成样本点越多。创建一个定义所有特征向量的特征值之间高维空间距离的矩阵,两个特征向量的距离δ的定义如下:
Figure BDA0002231550820000061
式中:V1和V2是两个特征值,C1是特征值V1出现的总次数,C1i是在i类中特征值V1出现的次数,C2和C2i与上面的定义相似,k是常数。式(1)用来计算特征向量的每个标称特征值的差值矩阵,并给出一个确定的几何距离。
根据ADASYN,设小类的样本点x,有x1,x2,…xt(t<K)个近邻点满足K近邻,x需合成新样本点数为n,样本点与各近邻点的距离为δ1,δ2,…δt,可计算样本点与各邻近点合成数量。与xi的生成比例vi为:
vi=1/δi (2)
正则化
Figure BDA0002231550820000062
为:
Figure BDA0002231550820000063
x与xi的生成结点个数mi为:
Figure BDA0002231550820000064
x依次与各xi合成mi个新样本。
ET算法是一种集成算法。其基分类器使用全部样本进行训练,为增强随机性,在节点分裂时随机从N个特征中选择n个特征,以基尼系数或信息增益熵选择最优属性进行分裂,分裂过程中不剪枝,直到生成一个决策树(基分类器)。利用投票决策对所有基分类器统计产生最终分类结果。
ET优于贪婪的决策树,在小样本上有更好的平滑性,能有效降低偏差和方差。为说明这一点,考虑大小为N的样本:
lsN={(xi,yi):i=1,2,...,N}
式中:
Figure BDA0002231550820000065
是一个n维的特征向量,yi是对应的输出值,表示为:
Figure BDA0002231550820000066
jth属性的样本值通过増序取得,符号简化为:
Figure BDA0002231550820000067
Figure BDA0002231550820000068
特征函数
Figure BDA0002231550820000069
的超区间为:
Figure BDA0002231550820000071
用这些符号表示,可以证明一个无限的ET可以近似表示为如下:
Figure BDA0002231550820000072
式中:参数
Figure BDA0002231550820000073
依赖于输入样本xi和输出yi以及方法的参数nmin和K。
当nmin=2完全树的特殊情况下,有:
Figure BDA0002231550820000074
如果输入空间为一维(n=1 and x=(x1)),以上公式退化为线性分段模型:
Figure BDA0002231550820000075
式中:I(i)(x1)为区间
Figure BDA0002231550820000076
的特征函数。
Figure BDA0002231550820000077
Figure BDA0002231550820000078
的值源自方程(6)的推导,N个连续约束条件为
Figure BDA0002231550820000079
ET当基分类器的数量M→∞时,对比其他基于树的集成分类方法,ET更连续光滑。从偏差和方差的角度看,模型的连续性使得目标函数平滑区域的方差和偏倚较小,从而使得该区域的模型更加精确。
本发明通过ADASYN-DHSD采样,利用小类中每个样本的K最临近,计算样本的分布,使用DHSD计算样本之间的合成数,合成数据,改进样本的平衡度,增强算法的训练效果;同时极端随机树算法中每个基分类器都使用新合成的全部样本进行训练,在基分类器节点分裂时随机选取分裂特征,计算其最优的分裂属性进行分裂,直到生成一个基分类器;最后对所有基分类器进行投票,形成ADASYN-DHSD-ET算法。
设训练样本集为D={(x1,y1),…,(xm,ym)},则ADASYN-DHSD-ET算法描述如下:
1.构造ADASYN_DHSD_ET(D)
输入训练集D={(x1,y1),…,(xm,ym)}
输出极端随机树T={t1,…,tM}
(1)for i=1to M do
(2)生成决策树,ti=构造子分类器(D)
(3)end for
(4)投票策略
(5)返回极端随机树T
2.构造子分类器(D)
输入训练集D={(x1,y1),…,(xm,ym)}
输出子分类器t
(1)调用ADASYN_DHSD采样(D),返回采样后数据集Dnew
(2)if停止分裂(Dnew)then
(3)返回一个叶节点;
(4)else
(5)从所有候选属性中随机选择K个属性{a1,...,aK};
(6)产生K个分裂阈值{s1,...,sK},其中si=选取分裂点
Figure BDA0002231550820000081
(7)根据Score(s*,Dnew)=maxi=1,...,KScore(s*,Dnew),选择最好的测试分裂阈值s*
(8)根据测试分裂阈值s*,将样本集Dnew分为两个子样本集Dl和Dr
(9)分别用子集Dl和Dr构造左子树tl=构造子分类器(Dl)和右子树tr=构造子分类器(Dr);
(10)根据s*建立树节点,tl和tr分别为其左子树和右子树,并返回决策树t;
(11)End if
3.ADASYN_DHSD采样(D)
输入D为训练数据集,其中包含m个样本{xi,yi},xi是n维特征集合,yi∈Y={1,…C}是类别集合,表示大类数目用ml表示,各小类的数目用ms1,…,msj表示。有msi≤ml,并且∑msi+ml=m。
输出采样后样本Dnew
(1)循环每个小类for i=1to j do
(2)计算小类的不平衡度di:
di=msi/ml,di∈(0,1] (8)
(3)If di<dth(dth是类不平衡度的最大阈值),then:
(4)计算需要合成的小类样本的总数目Gi,参数β表示小类样本合成后的不平衡度。β=1表示大类样本数目和合成后的小类样本数目相同。
Gi=(ml-msi)×β,β∈(0,1] (9)
(5)xi表示小类的每个样本,并且计算其在n维空间的K近邻比率ri,其中Δi是xi的K近邻中样本的数目,因此ri∈[0,1]。
ri=Δi/K,i=1,...msi (10)
(6)正则化ri,那么ri满足
Figure BDA0002231550820000091
Figure BDA0002231550820000092
为:
Figure BDA0002231550820000093
(7)gi表示每个小类样本xi期望的合成样本数量,式中Gi是公式(9)中合成样本的总数。
Figure BDA0002231550820000101
(8)用DHSD为每个样本xi生成gi个合成数据。
4.停止分裂(D)
输入训练集D
输出布尔值
(1)if D<nmin,then return TRUE;
(2)if D中所有属性确定不变,then return TRUE;
(3)if D中输出变量确定不变,then return TRUE;
(4)else return FALSE。
5.选取分裂点(D,a)
输入训练集D,属性a
输出分裂属性
(1)计算训练集D中属性a的最大值最小值
Figure BDA0002231550820000103
(2)从
Figure BDA0002231550820000104
中随机选择一个分裂属性ac
(3)返回分裂属性[a<ac]。
选取自江西省2016年9月至2018年4月之间的电网的日常监控数据,经过预处理后,保留全部属性完整的记录。样本如表1所示共有记录30039条,每条记录特征属性11个,包括电压、电流、是否修复过、修复时长、是否工作日、月份、日期、星期几、上午或下午、季节、温度等信息;故障类别分为5大类,如表1所示类别1表示正常类,类别2、3、4、5分别表示:信号丢失故障类、MIB备份未对齐故障类、R丢失故障类、信号降级故障类,其中正常类的数据极多为大类,4个故障类别数据极少为小类,类别比例如表格所示:0.9891:0.0036:0.003:0.0025:0.0018;该样本的特征为一个极大类,多个极小类,具有明显的数据不平衡特征。
表1数据集的特征
Figure BDA0002231550820000111
本发明实验的流程图如图2所示。首先基于多源数据库的数据进行数据预处理(数据清理,数据集成),得到以上数据集。数据集按照6:4比例对每个类进行随机采样,得到训练集Dtrain和测试集Dtest
然后使用ADASYN-DHSD-ET算法对Dtrain训练故障诊断模型,算法对4个故障类进行过采样,根据故障类的密度分布自动生成新样本,改变数据集的平衡度,并使采样后的数据保持原样本的特征;对生成新样本数量进行调参,依次设置采样数量为原样本的10倍、20倍、50倍、100倍、200倍直到与正常类样本数量相同;然后算法中每个基分类器对全部的新数据集进行分类,在节点分裂时在11个特征中随机选取分裂特征,不减枝,充分考虑数据集特征;对基分类器的数量进行调参,依次设置生成基分类器数量100、200、500、1000;集成分类器进行投票得到训练模型。使用Dtest验证训练模型,根据每个参数设置进行实验,根据以下评价指标,得到最优模型。
本发明选择基于平均精度(average accuracy,Avg_Acc),小类的平均精度(Avg_Accm),F_score,G_mean和时间复杂度(Time)作为不平衡数据集的性能评价指标。
把混合矩阵扩展到k(k≥2)类分类问题上,用C1,C2,……Ck表示k个分类,设实际第k类正确被预测为k类的样本个数nkk,预测为第i类的样本个数为nki,混合矩阵如表2所示。
表2扩展的混淆矩阵
Figure BDA0002231550820000121
由表2的混合矩阵可计算出如下评价指标:
(1)设Pi为第i类查准率,表示正确预测第i类nii在实际第i类样本
Figure BDA0002231550820000122
中所占的比例:
Figure BDA0002231550820000123
(2)设Ri为第i类的召回率,表示正确预测第i类nii在所有预测第i类
Figure BDA0002231550820000124
中所占的比例,即第i类的正确率:
Figure BDA0002231550820000125
(3)总体分类精度(overall accuracy,OA),即预测正确的数量
Figure BDA0002231550820000126
在所有样本
Figure BDA0002231550820000127
中所占的比例:
Figure BDA0002231550820000131
(4)平均精度Avg_Acc,表示各类正确率的算术平均值:
Figure BDA0002231550820000132
OA在大类数量较多正确率高的情况下,不能体现小类的准确率,而Avg_Acc更能反映小类的准确率。C1为大类,C2,……Ck则为各小类,小类的平均精度(Avg_Accm),表示各小类正确率的算术平均值:
Figure BDA0002231550820000133
(5)设Fi为第i类的查全率和查准率的调和均值,F_score表示所有类别Fi的平均值:
Figure BDA0002231550820000134
Figure BDA0002231550820000135
(6)G_mean表示为各类正确率的几何平均值:
Figure BDA0002231550820000136
使用各种传统的分类器和不平衡的分类方法训练、测试模型并与本发明提出的ADASYN-DHSD-ET模型进行对比分别得到表3和表4。
评价指标为以上定义的OA,Avg_Acc,Rlarge(大类的正确率),Avg_Accm,F_score,G_mean和Time。全部实验为保证可重复性和一般性都取其50次实验结果的平均值。
图3为传统分类模型、集成分类模型与本发明算法的性能比较结果,传统分类模型包括多项朴素贝叶斯分类(Bayes),最邻近分类(KNN),决策树分类(Decision Tree),支持向量机(SVM),神经网络多层感知器(MLP);集成方法包括:Bagging,AdaBoost,梯度提升(Gradient Boosting),随机森林(Random Forest),极端随机树(ET)。由表3的比较可知,ADASYN-DHSD-ET模型在性能指标Avg_Acc和G_mean上有明显的提升。大部分算法在指标Rlarge上表现较好,但在指标Avg_Accm上本模型比其他模型均高30%以上。说明在数量较大的类别进行训练,可以得到较好的模型,但在极小类上由于样本数量过少很难训练出有效的模型。因此传统的分类算法在不平衡问题上的表现较差,特别是样本数量过少的情况下,小样本类别识别率极低,应研究适合不平衡分类的新算法,本发明算法优于传统的分类算法。在传统的分类算法中Bayes和ET在指标Avg_Accm上表现较好,但在指标Rlarge上ET表现的更好,即在大类样本中ET保持较高的正确率,选择ET模型作进一步的改进。
图4是本发明算法与当前流行的不平衡分类方法进行比较,不平衡分类方法包括不平衡中常用的上采样与ET模型结合:SMOTE-ET,SMOTENC-ET,SVMSMOTE-ET,BorderlineSMOTE-ET,ADASYN-ET;内部子集采取采样的不平衡集成分类模型:BalancedRandomForest,RUSBoost,EasyEnsemble,BalancedBagging。由表4的对比可知,本发明算法和结合上采样的ET模型相比在指标Avg_Acc,F_score和Avg_Accm上表现较好,算法说明本发明算法在小类的识别上有较好的表现。SMOTENC-ET与本发明指标相差较少,但耗时过高,与本发明时间复杂度相比为78.09:21.96,本发明算法时间效率更高。本发明算法和不平衡集成分类相比在指标Avg_Acc,Rlarge和G_mean上表现较好,说明本发明算法在大类的识别上不会因为上采样而受影响,有较好的表现,虽然BalancedRandomForest在指标Avg_Accm上优于本发明模型,但在其他三个指标上明显低于本发明模型,这是由于BalancedRandomForest在上采样后生成的数据影响大类的识别率,在指标Rlarge中表现较差,而本发明算法依然在大类的识别率保持较好。针对电网故障诊断,ADASYN-DHSD-ET模型的性能更好,对大类即正常运行的类别保持较好的识别正确率达到99%,同时对小类即故障类别有较好的识别平均正确率达到70%,总体的平均正确率达到84.39%,F_score达到84.67%,G_mean达到82.6%。因此采用基于ADASYN-DHSD-ET的电网故障诊断方法,可以较准确的识别电网中的故障类型,增强了电力系统安全运行的稳定性和可靠性。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (5)

1.一种基于ADASYN-DHSD-ET的电网故障诊断方法,其特征是:对多元数据库中的日常监控数据进行提取,经过数据预处理后,构建基于ADASYN-DHSD-ET算法的模型,然后根据相应的评价指标得到最优模型,最后对电网故障类型进行识别,其具步骤为:步骤一、对多元数据库中电网的日常监控数据进行提取,经过预处理后,保留全部属性完整的记录;
步骤二、对预处理后的数据进行分类,按照一定比例对每个类进行随机采样,得到训练集Dtrain和测试集Dtest
步骤三、使用ADASYN-DHSD-ET算法对Dtrain训练故障类型诊断训练模型;
步骤四:使用Dtest验证训练模型,根据每个参数设置进行验证,并根据评价指标,得到最优模型、
步骤五:重复步骤一并根据步骤四获得的最优模型识别电网中的故障类型。
2.根据权利要求1所述的基于ADASYN-DHSD-ET的电网故障诊断方法,其特征是:所述步骤一中,多元数据库为电网日常监控数据的历史存储数据库或实时监控数据;属性完整的记录为具有电压、电流、是否修复过、修复时长、是否工作日、月份、日期、星期几、上午或下午、季节、温度11个特征属性的记录。
3.根据权利要求1所述的基于ADASYN-DHSD-ET的电网故障诊断方法,其特征是:所述步骤二中,按照正常数据、信号丢失故障、MIB备份未对齐故障、R丢失故障、信号降级故障进行分类并形成数据集。
4.根据权利要求1所述的基于ADASYN-DHSD-ET的电网故障诊断方法,其特征是:所述步骤三中,训练模型建立的过程为:(1)、通过ADASYN-DHSD对训练集Dtrain中的样本进行采样,根据故障类的密度分布自动生成新样本,使用DHSD计算样本之间的合成数、合成数据、改进样本的平衡度,并使采样后的数据保持原样本的特征;
(2)、使故障类与正常类样本数量相同,并与正常类样本形成新样本集;
(3)、ET算法中每个基分类器都使用新样本集中的全部样本进行训练,在基分类器节点分裂时随机从N个属性中选择n个分裂属性,以基尼系数或信息增益熵选择最优属性进行分裂,分裂过程中不剪枝,直到生成一个基分类器;
(4)、对所有基分类器进行投票,获得训练模型。
5.根据权利要求1所述的基于ADASYN-DHSD-ET的电网故障诊断方法,其特征是:所述步骤四中,以平均精度、小类的平均精度、F_score、G_mean和时间复杂度作为不平衡数据集的性能评价指标。
CN201910969305.6A 2019-10-12 2019-10-12 基于adasyn-dhsd-et的电网故障诊断方法 Pending CN110909977A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910969305.6A CN110909977A (zh) 2019-10-12 2019-10-12 基于adasyn-dhsd-et的电网故障诊断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910969305.6A CN110909977A (zh) 2019-10-12 2019-10-12 基于adasyn-dhsd-et的电网故障诊断方法

Publications (1)

Publication Number Publication Date
CN110909977A true CN110909977A (zh) 2020-03-24

Family

ID=69815419

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910969305.6A Pending CN110909977A (zh) 2019-10-12 2019-10-12 基于adasyn-dhsd-et的电网故障诊断方法

Country Status (1)

Country Link
CN (1) CN110909977A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488946A (zh) * 2020-04-28 2020-08-04 东南大学 基于信息融合的雷达伺服系统故障诊断方法
CN111881159A (zh) * 2020-08-05 2020-11-03 长沙理工大学 一种基于代价敏感极端随机森林的故障检测方法及装置
CN112631226A (zh) * 2020-12-26 2021-04-09 太原师范学院 一种基于数据驱动的生产设备故障监测方法
CN113066540A (zh) * 2021-03-19 2021-07-02 新疆大学 一种油浸式变压器非平衡故障样本预处理方法
CN113505730A (zh) * 2021-07-26 2021-10-15 全景智联(武汉)科技有限公司 基于海量数据的模型评价方法、装置、设备及存储介质
CN113821976A (zh) * 2021-09-26 2021-12-21 中国华能集团清洁能源技术研究院有限公司 一种基于集成算法的锂电池故障诊断建模方法
CN114722923A (zh) * 2022-03-22 2022-07-08 西北工业大学 一种轻量型的机电设备故障诊断方法
CN115328062A (zh) * 2022-08-31 2022-11-11 济南永信新材料科技有限公司 水刺布生产线智能控制系统
CN117522177A (zh) * 2024-01-08 2024-02-06 国网江苏省电力有限公司信息通信分公司 一种智能电网稳定性预测方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488946A (zh) * 2020-04-28 2020-08-04 东南大学 基于信息融合的雷达伺服系统故障诊断方法
CN111881159B (zh) * 2020-08-05 2022-05-31 长沙理工大学 一种基于代价敏感极端随机森林的故障检测方法及装置
CN111881159A (zh) * 2020-08-05 2020-11-03 长沙理工大学 一种基于代价敏感极端随机森林的故障检测方法及装置
CN112631226A (zh) * 2020-12-26 2021-04-09 太原师范学院 一种基于数据驱动的生产设备故障监测方法
CN112631226B (zh) * 2020-12-26 2021-10-29 太原师范学院 一种基于数据驱动的生产设备故障监测方法
CN113066540A (zh) * 2021-03-19 2021-07-02 新疆大学 一种油浸式变压器非平衡故障样本预处理方法
CN113505730A (zh) * 2021-07-26 2021-10-15 全景智联(武汉)科技有限公司 基于海量数据的模型评价方法、装置、设备及存储介质
CN113821976A (zh) * 2021-09-26 2021-12-21 中国华能集团清洁能源技术研究院有限公司 一种基于集成算法的锂电池故障诊断建模方法
CN114722923A (zh) * 2022-03-22 2022-07-08 西北工业大学 一种轻量型的机电设备故障诊断方法
CN114722923B (zh) * 2022-03-22 2024-02-27 西北工业大学 一种轻量型的机电设备故障诊断方法
CN115328062A (zh) * 2022-08-31 2022-11-11 济南永信新材料科技有限公司 水刺布生产线智能控制系统
US11853019B1 (en) 2022-08-31 2023-12-26 Jinan Winson New Materials Technology Co., Ltd. Intelligent control of spunlace production line using classification of current production state of real-time production line data
CN117522177A (zh) * 2024-01-08 2024-02-06 国网江苏省电力有限公司信息通信分公司 一种智能电网稳定性预测方法
CN117522177B (zh) * 2024-01-08 2024-03-12 国网江苏省电力有限公司信息通信分公司 一种智能电网稳定性预测方法

Similar Documents

Publication Publication Date Title
CN110909977A (zh) 基于adasyn-dhsd-et的电网故障诊断方法
CN110443281B (zh) 基于hdbscan聚类的文本分类自适应过采样方法
CN109142946A (zh) 基于蚁群算法优化随机森林的变压器故障检测方法
CN109993236A (zh) 基于one-shot Siamese卷积神经网络的少样本满文匹配方法
CN111722046A (zh) 一种基于深度森林模型的变压器故障诊断方法
CN108805193A (zh) 一种基于混合策略的电力缺失数据填充方法
CN112613536A (zh) 一种基于smote和深度学习的近红外光谱柴油牌号识别方法
CN110837915A (zh) 一种基于混合集成深度学习的电力系统低压负荷点预测及概率预测方法
CN110263834A (zh) 一种新能源电能质量异常值的检测方法
CN113095162B (zh) 一种基于半监督深度学习的频谱感知方法
CN110991689A (zh) 基于LSTM-Morlet模型的分布式光伏发电系统短期预测方法
Li et al. Prediction of wind turbine blades icing based on CJBM with imbalanced data
Lingqing et al. Detection method for power theft based on SOM neural network and K-means clustering algorithm
CN116070458A (zh) 基于rac-gan的新建风电场场景生成方法
Rabcan et al. Classification by fuzzy decision trees inducted based on Cumulative Mutual Information
CN114781244A (zh) 一种风电场内分群与参数优化方法
CN114881176A (zh) 一种基于自适应优化随机森林的非侵入式负荷识别方法
CN115017988A (zh) 一种用于状态异常诊断的竞争聚类方法
Zhang et al. Unsupervised and supervised learning combined power load curve classification based on sequential trajectory feature extraction algorithm
CN110852628A (zh) 考虑发展模式影响的农村中长期负荷预测方法
CN116933182A (zh) 一种基于多层集成模型的窃电识别方法
Haiyang et al. An improved Canopy-FFCM clustering algorithm for ocean data analysis
Wang et al. Research on House Price Forecast Based on Hyper Parameter Optimization Gradient Boosting Regression Model
CN116538127B (zh) 轴流风机及其控制系统
CN109543976A (zh) 一种采用高斯混合模型的风电机组谐波发射模态辨识方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination