CN110852344A - 一种基于智能变电站网络故障分类的方法 - Google Patents
一种基于智能变电站网络故障分类的方法 Download PDFInfo
- Publication number
- CN110852344A CN110852344A CN201910925330.4A CN201910925330A CN110852344A CN 110852344 A CN110852344 A CN 110852344A CN 201910925330 A CN201910925330 A CN 201910925330A CN 110852344 A CN110852344 A CN 110852344A
- Authority
- CN
- China
- Prior art keywords
- data
- value
- particle
- max
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 239000002245 particle Substances 0.000 claims abstract description 66
- 238000005457 optimization Methods 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 14
- 230000002068 genetic effect Effects 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 7
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 230000014509 gene expression Effects 0.000 claims description 6
- 230000000717 retained effect Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 238000000926 separation method Methods 0.000 claims description 4
- 230000006978 adaptation Effects 0.000 claims description 3
- 238000002790 cross-validation Methods 0.000 claims description 3
- 230000009191 jumping Effects 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 abstract description 41
- 238000012706 support-vector machine Methods 0.000 abstract description 24
- 239000000523 sample Substances 0.000 description 39
- 238000002474 experimental method Methods 0.000 description 16
- 230000000694 effects Effects 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 6
- 230000002159 abnormal effect Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000003745 diagnosis Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013400 design of experiment Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000009828 non-uniform distribution Methods 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于智能变电站网络故障分类的方法,该分类方法包括一种混合优化算法,该算法由3部分组成,ANP抗噪处理,改进的分类间隔法,以及遗传粒子群算法。ANP清除了数据集的临界点以及噪音。ISIM使用了support vector machine(SVM)框架来优化SVM核函数。最后,我们提出了改进的GA‑PSO算法,该算法结合了GA遗传算法和PSO粒子群算法的优点来优化惩罚参数。实验结果显示我们提出的混合优化算法提高了智能变电站网络故障分类的精度,和已有的方法比,表现出更强的性能。
Description
技术领域
本发明属于电力自动化技术领域,具体涉及一种基于智能变电站网络故障分类的方法。
背景技术
随着智能变电站覆盖力度的加大,保护智能变电站免受侵袭和故障的困扰,达到安全供电无障碍是需要采取的硬性措施。在努力加强智能变电站的保护措施的时候,我们首先要关注的就是其网络安全问题,智能变电站网络故障诊断是在其整体安全防护的重要一环。如果智能变电站出现了网络故障之后,电力系统中的数据采集设备就会以最快的速率把采集到的大量的数据上传到调度端,来供工作人员进行研究处理。然而,这些上传的故障信息很多都有着错综关联的联系,会使得很难检测出故障类型。所以,我们要使用最合适的故障分类算法来将收集到的各类故障数据进行更加精准的分类,来判别出其所属的故障类型,从而达到一个很好的故障诊断效果,保障智能变电站的安全运行。
根据智能变电站所存在的网络安全问题,国内外许多专家学者做出过大量精细的研究。就如何更加高效地对智能变电站网络故障诊断,专家学者们提出了很多分类算法,有些现有技术将人工神经网络与故障诊断结合在一起,充分利用它的态势感知能力和自主学习能力,对智能变电站的网络故障进行高效和精准分类,但是在噪声数据较多时,性能受到限制。有些现有技术提出的贝叶斯理论在故障原因与表现形式之间寻找一定的对应关系,然后再在这些故障的表现形式上进行多次的练习和学习,最终找到相应的故障原因,从而得到很好的结果。但是该算法要求样本的特征属性的独立性比较高即关联度很低,而现实中常常不能满足这种要求,一旦属性的关联度提升后,其分类的准确度大大降低。还有些现有技术提到了将贝叶斯算法和人工神经网络结合起来,但都有一定的局限性和不足。
支持向量机(Support Vector Machine,SVM)是一类按监督学习方式对数据进行二元分类的广义线性分类器,自SVM提出以来出现了很多在此基础之上改进的新型算法,这些算法都能针对某些方面提高其性能,如收敛速度、泛化能力,但是这些新型算法也都各有其缺点。比如当进行数据采集时会存在很多的噪声,在这种情况下Lin等人提出了FSVM(Fuzzy support vector machine)(CF Lin,SD Wang,Fuzzy support vector machines[J]. IEEE Transactions on Neural Networks,2002,13(2):464-471)。该算法将模糊数学与SVM相结合,将噪声或孤立点从有效样本中分离出去。在实际的应用中,虽然后面的研究者对该算法做了相应的一些改进(B Jin,YC Tang,YQ Zhang.Support vector machineswith genetic fuzzy feature transformation for biomedical data classification[J].Information Sciences, 2007,177(2):476-489;R Min,HD Cheng,Effective imageretrieval using dominant color descriptor and fuzzy support vector machine[J].Pattern Recognition,2009,42(1):147-157),但仍然存在很多问题,如异常数据可能会有很多,或者这些异常数据服从某种分布,在这种情况下如果还按上述算法并分离出这些异常数据,就会造成信息的丢失。另外,模糊支持向量机还存在核函数计算量大、所需内存大、训练时间长等问题。LSVM (Lagrangian support vector machine)在非线性问题中不能处理大样本数据问题(Mangasarian,O.L.,Musicant,David R,Lagrangian SupportVector Machines[J].Journal of Machine Learning Research,2001,1(3):161-177;YWang,MA Simaan,A suction detection system for rotary blood pumps based on theLagrangian support vector machine algorithm[J].IEEE Journal of Biomedical&Health Informatics,2013,17(3):654-663)。GSVM(granular support vector machine)对分布均匀的数据集效果较好,然而实际所采集到的数据往往会出现分布不均匀的情况,而使得该算法性能受到限制(Z Ding,YQ Zhang,YG Zheng,Feature selection andgranular SVM classification for protein arginine methylation identification[C].IEEE International Conference on Systems,2009:2979-2983)。
发明内容
本发明所要解决的技术问题在于提供一种基于智能变电站网络故障分类的方法,该方法用于智能变电站的各类网络故障数据的分类时,具有更高的分类精度,同时,分类时间更快。
一种基于智能变电站网络故障分类的方法,包括以下步骤:
(1)接收智能变电站的网络故障数据;
(2)对接收的网络故障数据进行归一化处理;
(3)对归一化后的数据进行去噪声处理;
(4)将去噪后的数据分成训练数据集和测试数据集,采用所述训练数据集对分类器进行训练;
(5)采用训练后的分类器对测试集进行测试,得到分类结果。
步骤(2)中,所述的归一化处理是将所述的网络故障数据映射到[0,1] 的范围,所采用的公式如下:
其中,x是特征值进行数据处理之前的值,xmin是原来所有特征中的最小值,xmax是原来所有特征中的最大值,high与low分别为映射区间的最大最小值。
步骤(3)中,所述的去噪声处理过程如下:判断每个数据是否属于离群点,若属于离群点,则将该数据移除,否则,进行保留。
作为优选,判断离群点的方法如下:
(3.1)定义数据p的k-dist(p)需要满足以下条件,至少有k个o'∈D的样本满足d(p,o’)≤d(p,o),并且至多有(k-1)个o'∈D的样本满足 d(p,o’)<d(p,o);
其中,D表示数据集,o、p、q是数据集中的随机数据点,d(p,q)为数据点p,q间隔长度;
(3.2)定义数据p的Nk(p),是数据集D中与p的间隔小于k-dist(p)的数据集合:Nk(p)={q∈D{p},d(p,q)≤kdist(p)};
(3.3)定义样本p的局部概率是它的k-dist(p)的均值的倒数: denk(p)=1/avg(kdist(q)|q∈Nk(p));
(3.4)计算数据p的局部离群系数LOFk(p);LOFk(p)是数据p的k-最近邻中数据的均值概率与数据p的概率的比值,具体公式如下:
LOFk(p)=avg{denk(q)|q∈Nk(p)}/denk(p);
(3.5)将数据p的局部离群系数LOFk(p)与预先设置的上限值θ进行比较,若LOFk(p)高于上限值θ,数据p为离群点。
步骤(4)中,所述分类器的训练方法如下:
(4.1)选取Gauss径向基核函数作为数据处理的核函数,并采用改进的分离间隔法优化核参数σ;
(4.2)将优化后的核参数σ和指定的惩罚参数C作为初始值,采用改进的遗传粒子群算法进行优化,得到优化后的惩罚参数C和相应的核参数σ。
作为优选,步骤(4.1)中,优化核参数σ的过程如下:
(4.1.1)首先要获取所需要用到的样本数据集,将每一种类别中的每个样本数据都带入到公式(2)中,从而获得它们实际的表现形式;
(4.1.2)给核参数σ选择一定的取值范围(f1,f2),将寻优结束的条件值设为e=10-3;
(4.1.3)分别求解出f3=(f1+f2)/2、max(f1)和max(f2)的值;
(4.1.4)比较max(f1)和max(f2)的值,如果max(f1)>max(f2),就令 f2=f3,如果max(f1)<max(f2),就令f1=f3;
(4.1.5)计算是否有|max(f1)-max(f2)|≤e,如果满足,则得到最优值为(f1+f2)/2,结束整个寻优过程,否则返回到(4.1.3)。
作为优选,步骤(4.2)中,优化惩罚参数C的步骤如下:
(4.2.1)设置粒子群大小,然后初始化位置和每个粒子的速度,设置变量i=1,将n的初始值设置为进化的代数;
(4.2.2)将支持向量机应用于每一个粒子,以5倍交叉验证的分类精度作为粒子的适配值,计算群体中每个粒子的适配值fiti(i=1,2,…,k) 和粒子群的平均适配值fitv;
(4.2.3)将每个粒子的适合度值从大到小排序,根据粒子的当前适合度值和保留的各自的剩余极值更新当前粒子和总体极值,根据适合度顺序,将粒子群分为a和b两部分,如果fiti≥fitv,那么Pi∈{A},其中表示第i个粒子,如果fiti<fitv,那么Pi∈{B};
(4.2.4)对A(Pi∈{A})中的粒子进行交叉和突变操作,生成另一个新的粒子群C,将B替换为C,并与A结合重建一个新的粒子群;
(4.2.5)将每个粒子的当前适合度值与该粒子保留的最佳值进行比较,如果前者优于后者,则将粒子的当前位置设置为粒子所经历的最佳位置 Pbest;将每个粒子的当前适合度值与种群保留的最佳值进行比较,如果前者优于后者,则粒子的当前位置被设置为群体经历的最佳位置gbest;
(4.2.6)设定增量i,当i=n或最佳适应值增量小于给定阈值时,跳出循环,得到最优参数C;否则,返回步骤(4.2.3)。
同现有技术相比,本发明的有益效果体现在:
(1)本发明采用了ANP抗噪处理(anti-noise processing ANP)对数据进行预处理,使用去噪后的数据集来训练SVM;
(2)采用了改进的分类间隔法(ISIM)来优化核参数σ;
(3)采用了改进的GA-PSO算法,将得到的核参数σ和指定惩罚参数 C代入进行进一步的优化,得到优化后的惩罚参数和相应的核参数;最终达到了提高了分类精度,缩短了分类时间的目的。
附图说明
图1为本发明的方法的流程图。
具体实施方式
以下详细说明本发明进行数据处理的方法
1、预处理
1.1数据规范化
在实际情况中,随着采集的网络故障数据量的不断增多,数据规模越来越大的时候,我们就要考虑到离群点的存在,并且要针对离群点进行离群点检测。我们在分类问题中可以用到组合技术,以便达到一种效果就是前一个流程的产生的影响能被后一个流程观察的到,最后的结果就是一个加权组合的分析算法。然而在一些独立的组合里面,不一样的算法值用于不同部分的数据集当中。然后再对这些不同的算法结果组合在一起,从而检测到离群点。
数据归一化是在训练SVM中必不可少的一个环节,也是重要的前期工作。在采样得到的数据中,数据的范围大小的差异是很大的,这种情况下就会造成大数吃小数的情况,也就是数值范围较大的特征值会较大程度地影响分类器,而数值范围较小的特征值很容易就被忽略。
这里我们将属性映射到[0,1]的范围内,使用如下的归一化公式:
其中,x是特征值进行数据处理之前的值,xmin是原来所有特征中的最小值,xmax是原来所有特征中的最大值。high与low分别为映射区间的最大最小值。
1.2抗噪声处理
SVM在没有噪音的时候表现良好,但是当数据集中噪音太多的时候结果就不一样了。如在多维度的情况下,对于二值分类,如果x为噪声,这里出现的现象就是x虽然是属于正常的样本,但是表现出来的特点显示并非如此。因此如在最终计算的时候将这个点考虑在内,那么会使得计算结果跟实际计算值产生巨大的差异,也会导致我们的分类器出现严重的误差。
即使x是采集到的数据的正常情况,但是表现出来的特征却和大部分的正常样本数据相差甚远,甚至在有些时候感觉具备有异常数据的特征。明显的可以看出那些噪点独具的不同,它们虽然导致分类结果不能达到最好,但是它们有其独特一面,也就是说它们在更多维数的集合中就相当于一个个离散点,无论在哪个点群中,这个特点都一样。如果可以在训练 SVM之前去除这些噪声样本,就能极地提高分类的精准度。分类效果会更好。
为了使得分类器具有具备更加健壮的能力,对于噪声表现的不那么敏感,本发明采用了一种方案可以大大提高这种能力,在使用数据集对于 SVM模型进行学习训练前,采用高维空间去噪的方式对离群点进行检测,从而完成去噪过程。
假定D是数据集,o、p、q是数据集中的随机数据点,d(p,q)为数据点p,q间隔长度。
定义3.1数据p的k-dist(p)需要满足以下条件,至少有k个o'∈D的样本满足d(p,o')≤d(p,o),并且至多有(k-1)个o'∈D的样本满足d(p,o')< d(p,o)。
定义3.2数据p的Nk(p),是数据集D中与p的间隔小于k-dist(p)的数据集合:Nk(p)={q∈D{p},d(p,q)≤kdist(p)}。
定义3.3样本p的局部概率是它的k-dist(p)的均值的倒数:denk(p)= 1/avg(kdist(q)|q∈Nk(p))。数据p的局部离群系数LOFk(p)是数据p的k- 最近邻中数据的均值概率与数据p的概率的比值: LOFk(p)=avg{denk(q)|q∈Nk(p)}/denk(p),它反映了p相对于周围距离最近的k个点相互的非连续情况。
在过滤离散数据中噪音的时候,需要针对不同的数据p分别计算 LOFk(p),如果LOFk(p)高于上限值θ,LOFk(p)就是一个离群点,即p会对分类的结果产生影响,形成噪音效果,因此我们应该从数据集中将它移除掉。我们通过使用去噪后的数据集来训练SVM,从而获得更好的分类精度。
2、SVM模型优化
2.1核函数选取
由于样本数据的非线性原因,我们需要引入核函数将原始非线性的样本映射至高维特征空间,使得在新的空间里样本线性可分,进而可用线性样本的分类理论解决此类问题。在面向不同的样本数据时,我们可能需要选取不同的核函数。即使是面向同样类型的数据时,在选用不同的核函数以及不同的核参数的时候,也会有不一样的处理效果。所以,要选取合适的核函数来解决相关的计算。常用的几种核函数有线性核函数,多项式核函数,Gauss径向基核函数,以及Sigmoid核函数。本文中我们选取的是 Gauss径向基核函数,因为它只有σ这个参数,并且能够很好地进行属性与类别的关系处理,在性能上也会优于其它几种核函数,这在后面的实验中会进一步得到验证。早前有很多学者论证了Gauss核函数的性能更好,应用最广,这也是本文选取Guass核函数的理论依据[31-32]。
在选定核函数之后,需要选择合适的核参数。本文中用到的是高斯核参数σ。大量的实验数据表明,如果σ与样本点之间的距离很小,σ→0;如果σ与样本点之间的距离很大时,σ→∞;当σ很小,高斯核函数支持向量机得到的判别函数差不多是一个常数,出现“过度拟合”现象,即对样本的分类正确率降低。当σ很大时,样本的正确分类率也会比较低。因此为了能够得到更好的分类效果,我们需要优化选取合适的核参数的值。传统的分离间隔法(Separation Interval Method,SIM)是以同类样本数据到自身所在类别中心点距离最小作为选取核参数的方法。现在设定有这样两个样本集:X1={(xi,yi)|yi=1},X2={(xi,yi)|yi=-1},数据量分别为n1和n2,样本集的中心点分别表示为Q1和Q2,则:
核函数将选取的样本从低维映射到更高维的空间后,中心点Q1和Q2间距可以表示为:
这种方法只需根据式(5)求最值就可以得到核参数的取值,理论上是比较容易实现的,并且具备快速高效的特点。但是,对于比较分散的样本集来说,在求解中心点间的最大距离时往往会导致一些样本数据被忽略,这样就不具备说服力,也不能达到很好的分类效果,针对这种情况,本文提出了改进的分离间隔法(ImprovementofSeparation IntervalMethod, ISIM)。
2.2优化核参数
在每一类的数据集中,都会有一个明显特征:属于相同类别的样本数据总是相互靠拢,分布比较聚集。ISIM先要根据每个不同类别的样本数据分别来求解出它们的中心点Qi,接着去求解出不同类别的样本数据到其他类别样本中心点的距离的和。为了方便理解,我们以二分类为例:
针对低维空间来说,设有两个不同类别的非线性样本集,表示如下:
X1={(xi,yi)|yi=1},i=1,2,...,n1
X2={(xi,yi)|yi=-1},i=1,2,...,n2 (6)
上式中分别用n1与n2来表示这两个类别数据集各自包含样本的数量,yi则代表的是样本数据的类别。如果两个数据属于同一个类别,那么它们的y值是相等的,相反,如果它们两个不属于同一个类别,那么它们的y 值就不相等。
ISIM根据样本集来计算两个不同类别数据中心点:
X1的类别中的数据到Q2的平均距离的计算式为:
同样的,X2类别中的数据到Q1的平均距离的计算式为:
则有ISIM对核参数σ的选取方法:
max(σ)=max(X12+X21) (10)
映射到更高维的空间之后,式(10)的完全展开式为:
上面详细描述了优化核参数的方法,下面给出核参数寻优的具体过程。
过程如下:
步骤一:首先要获取所需要用到的样本数据集,将每一种类别中的每个样本数据都带入到前面所述的公式中,从而获得它们实际的表现形式;
步骤二:给核参数σ选择一定的取值范围(f1,f2),将寻优结束的条件值设为e=10-3;
步骤三:分别求解出f3=(f1+f2)/2、max(f1)和max(f2)的值;
步骤四:比较max(f1)和max(f2)的值,如果max(f1)>max(f2),就令 f2=f3,如果max(f1)<max(f2),就令f1=f3;
步骤五:计算是否有|max(f1)-max(f2)|≤e,如果满足,则得到最优值为(f1+f2)/2,结束整个寻优过程,否则返回到步骤三。
2.3优化惩罚参数
惩罚参数C是影响支持向量机算法性能的另一个重要因素,它通过平衡误差和风险来实现。该参数调整了支持向量机模型的置信区间与经验风险的比值,提高了支持向量机的泛化能力。当c值太小时,存在较小的经验误差,得到的误差变大,增加了支持向量机的经验风险值,导致“学习不足”状态。当C值过大时,模型的精度会提高,但会牺牲模型的泛化能力,出现“过学习”的情况。此外,合理的C值可以更好地处理样本中的异常值,有助于保持模型的稳定状态。因此,我们需要对惩罚参数的选择进行优化。
在支持向量机中引入遗传算法对参数集进行优化。但结果表明,该算法收敛速度较慢,计算结果不太理想。遗传算法是可以解决许多问题的通用算法,但所得结果并不理想。在支持向量机中引入粒子群算法对参数集进行优化。我们的研究发现收敛速度很快,但精度不理想。随着迭代次数的增加,粒子群算法的多样性逐渐丧失。这很容易导致人口的快速融合。然而,这只产生局部最优解。针对这两种算法的特点,我们提出了改进的 GA-PSO算法,将遗传运算引入到粒子群算法中,对惩罚参数C进行优化,虽然许多专家学者对GA-PSO算法进行了大量的研究,但我们的方法与他们的方法不同。
由于我们需要最大的分类精度,我们在算法中求解了适应度函数 fit(f(C,σ))=f(C,σ)。具体算法步骤如下。
Step 1:设置粒子群大小,然后初始化位置和每个粒子的速度。设置变量i=1。将n的初始值设置为进化的代数(也就是第几代)。
Step 2:将支持向量机应用于每一个粒子,以5倍交叉验证的分类精度作为粒子的适配值,计算群体中每个粒子的适配值fiti(i=1,2,…,k) 和粒子群的平均适配值fitv。
Step 3:将每个粒子的适合度值从大到小排序。根据粒子的当前适合度值和保留的各自的剩余极值更新当前粒子和总体极值。根据适合度顺序,将粒子群分为a和b两部分。如果fiti≥fitv,那么Pi∈{A},其中表示第i个粒子。如果fiti<fitv,那么Pi∈{B}。
Step 4:对A(Pi∈{A})中的粒子进行交叉和突变操作,生成另一个新的粒子群C,将B替换为C,并与A结合重建一个新的粒子群。
Step 5:将每个粒子的当前适合度值与该粒子保留的最佳值进行比较。如果前者优于后者,则将粒子的当前位置设置为粒子所经历的最佳位置Pbest;将每个粒子的当前适合度值与种群保留的最佳值进行比较,如果前者优于后者,则粒子的当前位置被设置为群体经历的最佳位置gbest。
Step 6:设定增量i.当i=n或最佳适应值增量小于给定阈值时,跳出循环。否则,返回步骤3。
Step 7:得到最优参数,并使用它来计算分类精度。
下面结合具体实验来对本发明做进一步的描述。
实验设计
实验基于开源软件LIBSVM与Matlab平台进行,LIBSVM是一个简单、易于使用和快速有效的SVM模式识别与回归的软件包。该软件不仅提供编译好的可在Windows系列系统的执行文件,还提供了源代码,方便改进、修改以及在其他操作系统上应用。实验利用LibSVM与Matlab 的接口,在Matlab环境下进行。
实验步骤如下:
(1)对数据预处理,如缺失值的处理,简单办法是直接将这些记录删除。
(2)对数据进行归一化处理,减少大属性值对小属性值的影响,同时降低数值计算困难。
(3)数据分析基于LIBSVM开源软件,所以还必须将数据转化为 LIBSVM格式。
(4)采用一些优化方法进行故障分类,具体为:
①采用ANP方法去噪声并优化数据集。
②选取Gauss径向基核函数。
③采用ISIM优化核参数
④采用改进的GA-PSO优化惩罚参数
⑤计算最终的分类结果Calculate the final classification result.
实验结果和分析
抗噪声实验
根据样本优化策略,我们为在数据集S中的每个样本p计算了LOFk(p),并且移除了噪音数据根据相应的阈值。由于更大的数据集有着更多的噪声数据,所以我们从智能变电站数据集中选择了800个样本数据。我们使用了x samples作为训练集,并将剩下的作为测试集。我们比较了噪音减少的结果,在我们提出的ANP-SVM算法和常规的LIB-SVM方法之间。表1显示了实验结果。
表1 ANP-SVM和LIB-SVM的分类精度
我们的ANP-SVM比起LIB-SVM有着更好的分类精度,因此在接下来的实验里我们都使用ANP-SVM去噪。
参数σ的作用
根据公式(2),我们通过使用ISIM方法在[0,100]的区间为核函数σ来找到最优的值。接下来的实验证明了我们改进的核参数选择方法更好一些。在实验里,我们设置了惩罚参数C为100,并在SVM里同时使用了C和σ。我们使用经过第一个实验处理的抗噪声数据集来测量分类性能。我们从智能变电站收集过来的数据集里选择了800个样本,使用x个样本用于训练并用剩下的作为测试集,表2显示了实验结果。
表2 核参数优化后的实验结果
这个实验显示仅仅通过优化一个σ并保持其他参数不变的情况下,可以改变分类精度。对于进一步的比较,我们分别使用了10%,20%,30%,40%,50%,60%和70%作为样本数据集的训练数据。对于每个训练数据集,我们计算了分类精度分别在优化前和优化后,如图1所示。当核参数σ被优化后分类精度会更好些。因此,我们确信我们的ISIM方法改进了智能变电站的分类精度。这个阶段也是为下个阶段的GA-PSO实验做准备。
惩罚参数C的优化
在这个实验里,我们在[0,200]范围内搜寻惩罚参数C的最优值。我们设置了2个学习因子c1and c2分别为1.5和1.7,We used a population size of 30 and a generationlimit of 100.我们使用了600个样本作为训练集并且设置剩下的200个作为测试集。从前面实验得到的被优化的核参数σ和指定的惩罚参数C一起形成的(C,σ)被设置为我们提出的GA-PSO算法的gbest的初始值。然而GA和PSO需要计算它们各自的分类精度而和ISIM优化无关。在反复训练后,我们的改进的GA-PSO算法得到了优化后的惩罚参数C和相应的核参数σ。表3显示了分类预测的结果。
表3分类OPTIMIZATION RESULTS OF CLASSIFICATION PREDICTION
表3表明当分类性能是最优时,惩罚参数C和核参数σ都被优化了。这个从GA算法得到的实验数据显示有更好的优化性能但是收敛速度较慢。从PSO算法的实验显示花的时间比GA更少,但是分类精度稍微下降了一点点。GA-PSO方法的数据显示有着最短的优化时间和最好的分类精度结果。并且要注意到GA-PSO算法的优化时间由以下几部分组成:ANP去噪,ISIM核参数优化,以及GA-PSO为惩罚参数优化。由于gbest被ISIM 优化,惩罚参数的优化时间大大减少了。因此该混合算法由3部分组成: ANP,ISIM,and GA-PSO。
Claims (7)
1.一种基于智能变电站网络故障分类的方法,其特征在于,包括以下步骤:
(1)接收智能变电站的网络故障数据;
(2)对接收的网络故障数据进行归一化处理;
(3)对归一化后的数据进行去噪声处理;
(4)将去噪后的数据分成训练数据集和测试数据集,采用所述训练数据集对分类器进行训练;
(5)采用训练后的分类器对测试集进行测试,得到分类结果。
3.根据权利要求1所述的方法,其特征在于,步骤(3)中,所述的去噪声处理过程如下:判断每个数据是否属于离群点,若属于离群点,则将该数据移除,否则,进行保留。
4.根据权利要求3所述的方法,其特征在于,判断离群点的方法如下:
(3.1)定义数据p的k-dist(p)需要满足以下条件,至少有k个o’∈D的样本满足d(p,o’)≤d(p,o),并且至多有(k-1)个o’∈D的样本满足d(p,o’)<d(p,o);
其中,D表示数据集,o、p、q是数据集中的随机数据点,d(p,q)为数据点p,q间隔长度;
(3.2)定义数据p的Nk(p),是数据集D中与p的间隔小于k-dist(p)的数据集合:Nk(p)={q∈D{p},d(p,q)≤kdist(p)};
(3.3)定义样本p的局部概率是它的k-dist(p)的均值的倒数:denk(p)=1/avg(kdist(q)|q∈Nk(p));
(3.4)计算数据p的局部离群系数LOFk(p);LOFk(p)是数据p的k-最近邻中数据的均值概率与数据p的概率的比值,具体公式如下:
LOFk(p)=avg{denk(q)|q∈Nk(p)}/denk(p);
(3.5)将数据p的局部离群系数LOFk(p)与预先设置的上限值θ进行比较,若LOFk(p)高于上限值θ,数据p为离群点。
5.根据权利要求1所述的方法,其特征在于,步骤(4)中,所述分类器的训练方法如下:
(4.1)选取Gauss径向基核函数作为数据处理的核函数,并采用改进的分离间隔法优化核参数σ;
(4.2)将优化后的核参数σ和指定的惩罚参数C作为初始值,采用改进的遗传粒子群算法进行优化,得到优化后的惩罚参数C和相应的核参数σ。
6.根据权利要求5所述的方法,其特征在于,步骤(4.1)中,优化核参数σ的过程如下:
(4.1.1)首先要获取所需要用到的样本数据集,将每一种类别中的每个样本数据都带入到公式(2)中,从而获得它们实际的表现形式;
(4.1.2)给核参数σ选择一定的取值范围(f1,f2),将寻优结束的条件值设为e=10-3;
(4.1.3)分别求解出f3=(f1+f2)/2、max(f1)和max(f2)的值;
(4.1.4)比较max(f1)和max(f2)的值,如果max(f1)>max(f2),就令f2=f3,如果max(f1)<max(f2),就令f1=f3;
(4.1.5)计算是否有|max(f1)-max(f2)|≤e,如果满足,则得到最优值为(f1+f2)/2,结束整个寻优过程,否则返回到(4.1.3)。
7.根据权利要求6所述的方法,其特征在于,步骤(4.2)中,优化惩罚参数C的步骤如下:
(4.2.1)设置粒子群大小,然后初始化位置和每个粒子的速度,设置变量i=1,将n的初始值设置为进化的代数;
(4.2.2)将支持向量机应用于每一个粒子,以5倍交叉验证的分类精度作为粒子的适配值,计算群体中每个粒子的适配值fiti(i=1,2,…,k)和粒子群的平均适配值fitv;
(4.2.3)将每个粒子的适合度值从大到小排序,根据粒子的当前适合度值和保留的各自的剩余极值更新当前粒子和总体极值,根据适合度顺序,将粒子群分为a和b两部分,如果fiti≥fitv,那么Pi∈{A},其中表示第i个粒子,如果fiti<fitv,那么Pi∈{B};
(4.2.4)对A(Pi∈{A})中的粒子进行交叉和突变操作,生成另一个新的粒子群C,将B替换为C,并与A结合重建一个新的粒子群;
(4.2.5)将每个粒子的当前适合度值与该粒子保留的最佳值进行比较,如果前者优于后者,则将粒子的当前位置设置为粒子所经历的最佳位置pbest;将每个粒子的当前适合度值与种群保留的最佳值进行比较,如果前者优于后者,则粒子的当前位置被设置为群体经历的最佳位置gbest;
(4.2.6)设定增量i,当i=n或最佳适应值增量小于给定阈值时,跳出循环,得到最优参数C;否则,返回步骤(4.2.3)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910925330.4A CN110852344A (zh) | 2019-09-27 | 2019-09-27 | 一种基于智能变电站网络故障分类的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910925330.4A CN110852344A (zh) | 2019-09-27 | 2019-09-27 | 一种基于智能变电站网络故障分类的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110852344A true CN110852344A (zh) | 2020-02-28 |
Family
ID=69597089
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910925330.4A Pending CN110852344A (zh) | 2019-09-27 | 2019-09-27 | 一种基于智能变电站网络故障分类的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110852344A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111553079A (zh) * | 2020-04-29 | 2020-08-18 | 武汉船舶职业技术学院 | 一种基于虚拟现实技术的三维电网培训仿真方法 |
CN113379030A (zh) * | 2021-05-19 | 2021-09-10 | 北京创安恒宇科技有限公司 | 一种基于多维安全控制措施模型识别的比对方法 |
CN113419050A (zh) * | 2021-07-20 | 2021-09-21 | 山东恒拓科技发展有限公司 | 水泥生料成分软测量的方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018072351A1 (zh) * | 2016-10-20 | 2018-04-26 | 北京工业大学 | 一种基于粒子群优化算法对支持向量机的优化方法 |
-
2019
- 2019-09-27 CN CN201910925330.4A patent/CN110852344A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018072351A1 (zh) * | 2016-10-20 | 2018-04-26 | 北京工业大学 | 一种基于粒子群优化算法对支持向量机的优化方法 |
Non-Patent Citations (5)
Title |
---|
张开延等: "基于ANP-SVM算法的智能变电站过程层网络故障分类", 《计算机与现代化》, no. 07, pages 72 - 77 * |
曹进华: "基于改进粒子群优化 SVM 的轴承故障识别研究", 《现代信息科技》, vol. 3, no. 12, pages 148 - 151 * |
王昕: "基于支持向量机的斜拉桥拉索损伤识别技术研究", 《中国优秀硕士学位论文全文数据库》, pages 034 - 84 * |
王维刚等: "多目标粒子群优化的支持向量机及其在齿轮故障诊断中的应用", 《振动工程学报》, vol. 26, no. 05, pages 743 - 750 * |
范抑伶: "基于KPCA和IHHO-LSSVM的变压器故障诊断算法的研究", 《中国优秀硕士学位论文全文数据库》, pages 042 - 1604 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111553079A (zh) * | 2020-04-29 | 2020-08-18 | 武汉船舶职业技术学院 | 一种基于虚拟现实技术的三维电网培训仿真方法 |
CN111553079B (zh) * | 2020-04-29 | 2023-06-09 | 武汉船舶职业技术学院 | 一种基于虚拟现实技术的三维电网培训仿真方法 |
CN113379030A (zh) * | 2021-05-19 | 2021-09-10 | 北京创安恒宇科技有限公司 | 一种基于多维安全控制措施模型识别的比对方法 |
CN113419050A (zh) * | 2021-07-20 | 2021-09-21 | 山东恒拓科技发展有限公司 | 水泥生料成分软测量的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shiue et al. | Real-time scheduling for a smart factory using a reinforcement learning approach | |
Zhou et al. | Fuzzy classifier design using genetic algorithms | |
CN109657945B (zh) | 一种基于数据驱动的工业生产过程故障诊断方法 | |
CN110852344A (zh) | 一种基于智能变电站网络故障分类的方法 | |
CN109902740B (zh) | 一种基于多算法融合并行的再学习工业控制入侵检测方法 | |
CN113541834B (zh) | 一种异常信号半监督分类方法、系统、数据处理终端 | |
CN109165160A (zh) | 基于核主成分分析算法的软件缺陷预测模型设计方法 | |
CN110795690A (zh) | 风电场运行异常数据检测方法 | |
CN117034179B (zh) | 基于图神经网络的异常电量识别及溯源方法及系统 | |
CN110826617A (zh) | 态势要素分类方法及其模型的训练方法、装置及服务器 | |
Xue et al. | Classification and identification of unknown network protocols based on CNN and T-SNE | |
CN113139570A (zh) | 一种基于最优混合估值的大坝安全监测数据补全方法 | |
CN112990371B (zh) | 一种基于特征扩增的无监督夜间图像分类方法 | |
Yan et al. | Optimizing cost-sensitive SVM for imbalanced data: connecting cluster to classification | |
CN112215490B (zh) | 一种基于相关性系数改进K-means的电力负荷聚类分析方法 | |
Wang et al. | A constrained many-objective evolutionary algorithm with learning vector quantization-based reference point adaptation | |
CN117493922A (zh) | 一种基于数据驱动的配电网户变关系识别方法 | |
CN111178387A (zh) | 一种基于多粒度相对密度的标签噪声检测方法 | |
CN113360772B (zh) | 一种可解释性推荐模型训练方法与装置 | |
CN111988192A (zh) | 一种基于机器学习的列车通信网络故障诊断方法 | |
Moreira et al. | Prototype generation using self-organizing maps for informativeness-based classifier | |
Xia et al. | Smart substation network fault classification based on a hybrid optimization algorithm | |
CN112749513B (zh) | 一种电源模块的智能统型方法 | |
Khotimah et al. | Adaptive SOMMI (Self Organizing Map Multiple Imputation) base on Variation Weight for Incomplete Data | |
Bose et al. | Semi-unsupervised clustering using reinforcement learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |