发明内容
本发明针对配电网小电流接地系统运行状态预测现状,根据小波包分析提取出各配电网运行状态信号标量小波特征量的不同,提出一种应用SVM理论的配电网运行状态预测方法。
本发明的技术方案为一种基于支持向量机的配电网运行状态分类识别方法,包括训练阶段和诊断阶段,
所述训练阶段构建两个混合支持向量机多类分类器,一个面向故障相电流提取特征,记为SVC-I,另一个面向零序电流提取特征,记为SVC-II;针对每个混合支持向量机多类分类器分别执行以下步骤,
步骤1.1,针对各种配网运行状态,建立包括多个训练样本的训练样本集;
步骤1.2,对训练样本集中所有训练样本进行特征提取,得到每个训练样本的原始标量小波特征集合;
步骤1.3,构建混合支持向量机多类分类器;
步骤1.4,基于混合支持向量机多类分类器,对原始标量小波特征集合中的标量小波系数特征元素进行训练和评估,提取最优特征子集;
所述诊断阶段进行配网运行状态在线诊断,包括判断是否有零序电流,没有则进入步骤a,有则进入步骤b,
步骤a,采集故障相电流得到待测样本,对待测样本进行特征提取得到待测样本的原始标量小波特征集合,根据步骤1.4所得最优特征子集从待测样本的原始标量小波特征集合提取相应元素并导入SVC-I,由此得到配网所属运行状态;
步骤b,基于零序电流得到待测样本,对待测样本进行特征提取得到待测样本的原始标量小波特征集合,根据步骤1.4所得最优特征子集从待测样本的原始标量小波特征集合提取相应元素并导入SVC-II,由此得到配网所属运行状态。
而且,步骤1.3的实现方式包括以下步骤,
步骤1.3.1,根据每个训练样本的原始标量小波特征集合得到相应特征向量,设定混合支持向量机多类分类器的核函数采用径向基核函数K(A,B)=(φ(A)·φ(B))=exp(-||A-B||2/σ2),其中A,B采用不同样本所对应的特征向量,σ2为核参数;
步骤1.3.2,若训练样本集中某训练样本的特征向量xc对应的Lagrange乘子λc=0,则特征向量xc为支持向量;训练求解每一个二元支持向量机分类器参数,包括先求得支持向量所对应的Lagrange乘子λc,然后计算最后计算 其中xc、yc表示支持向量及对应的类别标签,bc表示由该支持向量计算得到的分类偏差,nsv为支持向量的数目,λd,yd,xd分别为第d个支持向量所对应的Lagrange乘子,类别标签以及样本,1≤d≤nsv;
得到配电网运行特征基因库,包括分类字典CD1、CD2、CD3,分类字典CD1包含各个分类模式的训练样本中心,设分N个分类模式,每个分类模式对应一种配网运行状态,每种分类模式的训练样本数为L个,设Ce为第e类分类模式的训练样本中心,xe[h]为第e类分类模式中的第h个训练样本的特征向量,1≤e≤N,1≤h≤L,其中,
分类字典CD2包含混合支持向量机多类分类器中所有二元支持向量机分类器的训练参数;
分类字典CD3包含混合支持向量机多类分类器中所有二元支持向量机分类器中最优分类法向量模||ωe||的大小;
步骤1.3.3,基于核空间距离分析构造混合SVM多类分类器,包括以下子步骤,
步骤1.3.3.1,输入待测样本的特征向量x*,初始化数组Index[N]=0,变量Temp=0,K=1,m=0;定义训练样本中样本所对应类别标签Flag=+1为有效,将所有分类模式进行排序,包括根据分类字典CD1依次计算待测样本和分类字典CD1中第e类模式类中心Ce的欧式距离Ed(e)=||x*-Ce||,并按大小进行升序排列,随后把对应类标号e按顺序依次存储到数组Index[N]中的第n位,即Index(n)=e,n=1,…,N;
步骤1.3.3.2,根据排序的顺序,调用一类对应的决策函数De(x*)进行计算,同时将计算得到的决策函数输出值赋给临时变量Temp,即Temp=De(x*);
步骤1.3.3.3,根据当前Temp的符号Sign(Temp)判断是否Sign(Temp)>0;
如果是,则再计算下一个决策函数的输出,包括令K=K+1、m=m+1、e=Index(K),Temp=De(x*),再次判断是否Sign(Temp)>0;若否则判断是否m=1,m=1时待测样本属于当前e所对应类别并显示分类结果,m不等于1时认为该样本落入误分类区,进入步骤1.3.3.4;如果仍然Sign(Temp)>0,继续计算下一个决策函数的输出,直到出现负标签;
如果否,则K=K+1,然后判断是否K大于或等于N,否则返回步骤1.3.3.2,根据排序的顺序调用下一类对应的决策函数De(x*)继续处理,是则样本落入了拒绝识别区,进入步骤1.3.3.4;
其中,计算Temp=De(x*)根据分类字典CD2实现;
步骤1.3.3.4,根据待测样本落入误分类区或拒绝识别区分别处理:
当待测样本落入拒绝识别区时,计算所有二元支持向量机分类器的分类超平面的函数值随后计算待测样本到所有分类超平面的几何距离dp(x*)为待测样本和第p个分类超平面的空间几何距离大小,p=1,…,N,以空间距离最小对应的类作为待测样本的归属,
当待测样本落入误分类区时,计算使待测样本决策函数输出值为有效的分类超平面与它的几何距离v表示使待测样本决策函数输出值为有效的类别号;以空间距离最大对应的类作待测样本的归属,
其中,计算 和 根据分类字典CD3实现。
而且,步骤1.4的实现方式包括以下步骤,
步骤1.4.1,基于标量小波特征重要性评价准则对于步骤1.2所得原始标量小波特征集合中每个标量小波系数特征元素fr(r=1,2,…,R)进行重要性评估,R表示原始标量小波特征集合的标量小波系数特征元素个数;随后按重要性评估结果对各个特征元素进行降序排序,如f1 J>f2 J>...>fR J,其中fr J表示准则下的第r个特征元素;
步骤1.4.2,初始化特征子集S={fr J},以及下标变量r=1;
步骤1.4.3,把所有训练样本的特征子集S随机划分为训练子集Strain和测试子集Stest,利用Stest对基于核空间距离的混合支持向量机多类分类器进行训练,并利用Stest进行性能评估,同时记录该多类分类器的预测准确率Accuracy;
步骤1.4.4,r=r+1,如果r>R,评估结束,转向步骤1.4.5;否则S=S∪{fr J}并跳转至步骤1.4.3,;
步骤1.4.5,选择最大Accuracy所对应的特征子集作为最优特征子集并输出;如果有多个Accuracy均为最大,选择对应特征数目最少的特征子集。
而且,所述核参数选取方式如下,
设e取值范围为1,2,…,N,N表示分类模式总数;设e的初始值为1,对第r个特征元素执行以下步骤:
步骤1.3.1.1,把第e类运行状态模式中的所有训练样本的第r个特征元素复制至集合class(r)_I,其余类运行状态模式中的所有训练样本的第r个特征元素复制至集合class(r)_II;
步骤1.3.1.2,若e≤N,使e=e+1且跳转至步骤1.3.1.1;否则,顺序执行步骤1.3.1.3;
步骤1.3.1.3,计算所有核参数下第r个特征元素的标量小波特征重要性评估系数,
包括设任一核参数为第g个核参数,计算在第g个核参数下的标量小波特征重要性评估准则对第r个特征元素的度量结果
步骤1.3.1.4,对各核参数下第r个特征元素的标量小波特征重要性评估系数进行排序并求最大值如下,
选择最大值JMg相应的核参数为最优核参数。
而且,设有N类分类模式,每种分类模式的训练样本数均为L,每种分类模式对应一个二元支持向量机分类器,每个二元支持向量机分类器对应两类训练样本,该类记为类别I,余类记为类别II;其中,类别I训练样本数为L,类别II训练样本数为M=(N-1)L;
所述基于标量小波特征重要性评价准则如下,
其中,和分别表示类别I中第t个、第u个训练样本的第r个特征元素,t、u的取值为1,2…L;和分别表示类别II中第a个、第z个训练样本的第r个特征元素,a、z的取值为1,2…M。
本发明所提出方法主要基于SVM理论,同时对传统的SVM算法进行了改进。该方法从大量的数据样本中提取相似数据创建训练样本,采用小波包分解技术将故障信号分解成低频趋势信号和高频随机信号,采用SVM理论建模,合成得到配网运行状态分类数据,并训练得到基于核空间距离混合支持向量分类器,建立配电网运行特征基因库,从而去建立一种可靠的判别机制,甄别配电网的正常和异常及故障状态,从根本上提高配电网可靠性,经济性,安全性。通过大量的仿真数据验证,表明模型具有较强的泛化能力,同时程序运行时间可满足工程需要。
实施例流程图如图7所示:
本发明实施例提供的一种基于支持向量机的配电网运行状态分类识别方法,包括训练阶段和诊断阶段,
所述训练阶段构建两个混合支持向量机多类分类器,一个面向故障相电流提取特征,记为SVC-I,另一个面向零序电流提取特征,记为SVC-II;针对每个混合支持向量机多类分类器分别执行以下步骤,
步骤1.1,针对各种配网运行状态,建立包括多个训练样本的训练样本集;
步骤1.2,对训练样本集中所有训练样本进行特征提取,得到每个训练样本的原始标量小波特征集合;
步骤1.3,构建混合支持向量机多类分类器;
步骤1.4,基于混合支持向量机多类分类器,对原始标量小波特征集合中的标量小波系数特征元素进行训练和评估,提取最优特征子集;
所述诊断阶段进行配网运行状态在线诊断,包括判断是否有零序电流,没有则进入步骤a,有则进入步骤b,
步骤a,采集故障相电流得到待测样本,对待测样本进行特征提取得到待测样本的原始标量小波特征集合,根据步骤1.4所得最优特征子集从待测样本的原始标量小波特征集合提取相应元素并导入SVC-I,由此得到配网所属运行状态;
步骤b,基于零序电流得到待测样本,对待测样本进行特征提取得到待测样本的原始标量小波特征集合,根据步骤1.4所得最优特征子集从待测样本的原始标量小波特征集合提取相应元素并导入SVC-II,由此得到配网所属运行状态。
为便于说明本发明实施方式起见,首先提供本发明的理论分析。
1.配网运行信号特征提取
1.1相似数据的提取
配网各类故障波形(电压或电流)具有各自的特点,甚至故障发生的不同时段,波形的变化也是有规律的[9-10]。本发明利用这一特征,从大量的数据中选择相似数据(同一类故障或运行状态)创建训练样本,采用小波包分解技术将其分解为近似信号和细节信号,得到配网运行状态特征子集。
1.2基于小波包技术的信号特征的提取
作为一种常用的信号处理方法,小波在数据处理技术领域的地位十分重要[11-13]。相对于傅里叶变换反映的只是信号的整体特征,小波(包)变换能够体现信号的局部特征和细节描述。小波分析中的多分辨率分析可以对信号进行有效的时频分解,但由于其尺度是按二进制变化的,所以在高频段其频率分辨率较差,而在低频段其时间分辨率较差。小波包分析能够为信号提供一种更加精细的分析方法,将频带进行多层次划分,因此能对小波分析没有细分的高频部分作进一步分解,并能够根据被分析信号的特征,自适应地选择相应频带,使之与信号频谱相匹配,从而提高了时频分辨率,具有更广泛的应用价值。
与标准傅里叶变换相比,小波分析中所用到的小波函数具有不唯一性,即小波函数的选择具有多样性。用不同的小波基分析同一问题会产生不同的效果,所以目前并没有一个公认的原则来选择小波函数,一般采用实际中定性分析结合实验比较的办法进行选择。dbN小波系是工程上应用较多的小波函数,这一小波系的特点是能量无损性和功率互补性。通过采用多种小波进行多次仿真试验比较,再根据以往的经验,决定选用db4小波基。
对从零序电流互感器或零序电流滤过器获得的故障暂态电流进行小波包分解,其实质是让信号通过一组高低同组合的共轭正交滤波器组,不断地信号划分到不同的频段上,滤波器组每作用一次,采样将增加一倍,数据点数则减半。对于相同频段,小波分解系数的个数的多少与分解层数有关,分解层数越多,则得到的小波系数个数越多,由此得到的标量小波特征量越多,越有利于分类。但考虑到后续最优特征子集的选择,特征量的增加使计算量增大,同时加大了数据处理的难度,使分类器的训练时间增加。
2、支持向量机基本原理
支持向量机是基于统计学理论的新型机器学习方法,它通过用内积函数定义的非线性变化将输入样本空间映射到高维线性特征空间,在特征空间中,构建最优超平面,使分类器的分类距离达到最大,使真实样本风险最小,具有全局最优性和最大的泛化能力,在解决小样本、非线性以及高维模式识别问题中表现出很大的优势。最基本的支持向量机分类器(SVC)可以实现二元分类,即二元支持向量机分类器(BSVM),能够实现对带正、负标签的数据进行分类。但绝大部分的实际应用都属于多模式分类问题。多类SVC的构建主要包括两种类型:直接设计一个多类SVC,这种方法因优化时包含较多的变量,计算复杂,且分类模式较多时较前者也不占优势,在实际工程领域罕有应用。另一类型是集成多个二元支持向量机分类器以形成一个多类SVC;包括one-against-restSVC、one-against-oneSVC和决策树SVC等。本发明实施例采用one-against-restSVC以实现对配网运行状态模式的分类。
2.1最优分类超平面
对于前面所述,训练的目的就是找到多个超平面将训练样本完全分开。现假设两类模式分类问题(记为类别I和类别II),即训练一个BSVC(二元支持向量机分类器),该分类超平面可描述为:
H:<ω·x>+b=0(1)
其中,ω为分类超平面法向量,x为训练样本所对应的特征向量,b为分类超平面偏差,·为向量的点积运算。设定类别I中训练样本的特征向量xI满足<ω·xI>+b≥0,样本特征标签yI=+1;类别II中训练样本的特征向量xII满足(ω·xII)+b<0,样本特征标签yII=-1。超平面H能够把两类训练样本完全分开。显然能完全正确分开训练点的分类超平面不止一个。为了能得到最优的分类结果,往往选取这样的超平面:训练样本可以被无误差地划分,而且每一类数据与超平面距离最近的向量与超平面之间的距离最大,则称这个超平面为最优超平面。如图4、5所示最优超平面和普通超平面,其中,H为分类超平面,H1、H2分别为类别I与类别II中离分类超平面最近的训练样本所在平面且平行于分类超平面的平面,它们之间的距离就是所谓的分类间隔(Margin)。
下面计算两个分类面H1、H2之间的距离Margin;
对(ω,x)进行如下约束(归一化操作):
min|<ω·x>+b|=1(2)
则:
H1:<ω·x>+b=+1,
(3)
H2:<ω·x>+b=-1,
因此,对于类别I和类别II的训练样本需满足如下关系:
<ω·xI>+b≥1,yI=+1(4)
<ω·xII>+b≤-1,yII=-1
上式可合并为:
y·(ω·x+b)≥1(5)
其中,y的含义为特征向量x对应的类别标签。
由空间几何知识可知,H1、H2到H的距离都为1/||ω||,所以分类间隔为2/||ω||。
2.2线性可分及线性不可分情况
对于线性可分的情况,寻求最优超平面就是使分类间隔Margin最大,而求解该值的最大值,等价于求||ω||2/2的最小值。同时求该极值存在约束条件:yi·(ω·xi+b)≥1。因此可以引入拉格朗日(Lagrange)函数L(ω,b,λ)求解得到最优超平面,λ为Lagrange乘子:
s.t.λi≥0i=1,2,...,l
其中l为训练样本总数;λi为第i个训练样本的Lagrange乘子;xi、yi分别为第i个训练样本的特征向量和所对应的类别标签。对两个变量ω和b依次求偏导,得到:
(7)
将式(7)的结果代回式(6),并根据Karush-Kuhn-Tucker最优化条件,产生如下对偶式:
此时,最优超平面转化为通过求解函数W(λ)的最大值得到。其中l仍为训练样本总数;λj为第j个训练样本的Lagrange乘子;xj、yj分别为第j个训练样本的特征向量和所对应的类别标签,j=1,2,...,l。
该函数的解需满足:
λi[yi(ω·xi+b)-1]=0(9)
在所有训练样本中,大部分样本(一般样本),所对应的Lagrange乘子为0,解中只有一小部分Lagrange乘子不为0。若某训练样本的特征向量xc对应的λc=0,特征向量xc就是支持向量(SupportVector,SV),1≤c≤l。假设某待分类的待测样本的特征向量为x*,通过求解式(8)得到Lagrange乘子λc(不等于0)和分类超平面偏差b。同时由式(7)可知各支持向量的相应分类超平面法向量nsv为支持向量的数目,1≤d≤nsv;λd,yd分别为第d个支持向量xd所对应的Lagrange乘子,类别标签。则最优分类决策函数为:
其中,sign(·)表示符号判别函数;第d个支持向量所对应的分类偏差bd由式(9)可得:
其中,λk,yk分别为第k个支持向量xk所对应的Lagrange乘子,类别标签,1≤k≤nsv。最后分类偏差b为所有支持向量SV对应分类偏差bd的平均值。
对于线性不可分的情况,不同类别模式之间的训练样本相互重叠,不可能建立一个不具有分类误差的分类超平面。此时,需引入松弛因子ξ,以允许某些训练样本出现在分类间隔(Margin)内。仿照线性可分情况,正负标签的训练样本需满足以下关系式:
yi·(ω·xi+b)≥1-ξi,ξi≥0(12)
当第i个训练样本的松弛因子ξi大于0时,将会出现错误分类的训练样本。因此,可把对应为训练集中错分训练样本的数目。实际中应尽量减小训练样本的误分数。因此,需写入优化函数,变为:
其中,C为惩罚因子(惩罚错误分类训练样本数目,又称为惩罚系数)。
优化该函数的步骤与上述线性可分的情况基本一致,首先需建立拉格朗日(Lagrange)函数:
s.t.λi≥0i=1,2,...,l
其中l为训练样本总数;λi为第i个训练样本的Lagrange乘子;xi、yi分别为第i个训练样本的特征向量和所对应的类别标签。
对上述函数的三个参数(ω、b和松弛因子ξi)求偏导。类似的,我们也能够得到如下对偶式:
最终得到的分类决策函数D(x*)为:
分类偏差b的求法与线性可分的情况相同。
2.3非线性情况及核函数
当在输入空间无法用上述的线性判别函数来分类样本时,就不能简单地在原始输入空间来构造最优分类超平面了。此时必须通过一个非线性函数将训练集中所有训练样本映射到一个高维线性特征空间,在这个维数可能为无穷大的线性空间中构造最优超平面,并得到分类器的决策函数,如图6所示。
设有非线性变换φ,某样本的特征向量为x,将该样本从n维输入空间Rn映射到高维空间为φ(x)。以特征向量φ(x)代替输入的特征向量x。此时,无论目标函数还是决策函数都只涉及到训练样本之间的内积运算,避免了复杂的高维运算。同时,这种内积运算可以用原空间中的函数实现,这个函数就是所谓的“核函数”。此时的核函数对应着某一变换空间的内积K(xi,xj)=φ(xi)·φ(xj),由于这种内积运算可以转换为原空间中的函数运算,所以计算复杂度没有增加,不会出现“维数灾难”的现象。研究中发现在SVM中使用的有效核函数都必须满足Mercer条件,所谓Mercer条件,是指核函数矩阵必须为对称且半正定矩阵。下面给出了半正定矩阵的定义。
定义1(半正定矩阵)一个对称矩阵A是半正定的(positivesemi-definite),如果它的特征值都是非负数。即当且仅当对于所有的向量v都有v'Av≥0,
v'Av≥0(17)
v'表示向量v的转置。
比较常见的核函数有:
·线性核函数:
K(A,B)=A·B(18)
·q阶多项式核函数:
K(A,b)=(1+A·B)q(19)
·径向基RBF核函数:
K(A,B)=exp(-||A-B||2/σ2)(20)
(18)(19)(20)中,A和B为输入变量,q、σ为函数参数。
本发明采用RBF核函数。此时,式(15)所示的二次规划的目标函数变为:
对应的分类决策函数(16)也变为:
面对实际问题,SVM算法的一般流程是1)数据特征提取;2)SVM类型的选择3)SVM中核函数和已知参数(如惩罚系数C)的选择。这一流程称为模型选择。特征选择主要是指用何种参数表征训练样本集合的特征问题,而在训练样本集合特征和核函数的类型确定以后,模型选择则等价于SVC中各个参数的调整,即SVC的训练问题。
3.基于核空间距离分析的混合SVM多类分类器
一个基本的BSVC只能对两种类别数据进行分类,但实际的配网运行状态分类中是多种模式的分类问题。因此,需要设计多类SVC才能满足分类的需求。本发明采用one-against-restSVM多类分类器,此分类器基于核空间距离分析的混合SVC。在本方法中,如果待测样本对应的两个或多个决策函数的输出均为有效值,则表示待测样本落入了误分类区,落入该区域的待测样本可能会引起误诊断;如果待测样本对应的所有决策函数的输出均为无效值,则表示待测样本落入了拒绝识别区。为了解决待测样本落入不可分类区(包括误分类区和拒绝识别区)造成的分类器性能下降问题,提出了基于核空间距离判别分析方法。该方法的基本思想如下:当仅有一个决策函数有效时,进行正常的故障决策;当多个决策函数有效或所有决策函数都无效时,即当待测样本落入不可分类区时,计算待测样本和对应决策面的空间距离,根据空间距离大小进行故障决策,具体如下:
(1)假设待测样本的特征向量为x*,当待测样本落入误分类区时,需要计算待测样本和输出值为有效值所对应的分类面的空间距离d(x*)。待测样本和第p个最优分类超平面的空间距离大小记为dp(x*),则根据空间几何知识,有:
其中,||ωp||为第p个最优分类面法向量模,Dp(x*)为第p个最优分类面的决策函数,由通用的SVC决策公式给出:
其中,np sv表示第p个最优分类超平面所对应支持向量的数目;λps表示第p个超平面上第s个支持向量所对应的Lagrange乘子(不等于0),1≤s≤np sv;xps、yps分别表示第p个最优分类超平面上第s个支持向量所对应的特征向量和类别标签;bp表示第p个最优分类超平面所对应分类超平面偏差;K(xps,x*)表示待测样本的特征向量x*与支持向量xps之间的核函数值。
一般的,待测样本距离某个决策面越近,则代表待测样本的分类不确定性越大;反之,当距离越大时,表示该待测样本属于对应测试类的概率也越大。因此,此处应该以空间距离最大对应的类作为该待测样本的归属:
(2)当待测样本落入拒绝识别区时,仍然采用空间距离分析方法。此时,需要计算待测样本和所有超面的空间距离。一般的,待测样本越靠近某个分类面,表示该待测样本越接近超面另外一侧的故障模式类,该待测样本属于那一类的概率也越大。因此,此处应该以空间距离最小值作为判决该待测样本的归属依据:
大部分情况下,对某个待测样本而言,其归属仅和其中一个或几个决策函数有关,对于其他决策函数而言,不需要参与计算。简而言之,常规的one-against-restSVC的决策方法存在部分冗余计算。如果在决策阶段开始就知道哪些决策函数符号相同就可以避免这种冗余计算,这种情况只能通过计算所有的决策函数才行,但这样做又需要较高的计算复杂度,失去了本方法的意义。为了能够快速定位需要计算的决策函数,本文采用一个分类字典(称为CD1)计算待测样本和所有模式类的中心距离,根据距离远近粗略确定需要计算的决策函数,这是一种启发式方法,即待测样本总和自己的归属类具有较近的距离。CD1的构建十分简单,其中的内容是由各个运行状态模式类的训练样本中心组成。假设需要区分N种运行状态模式,每种状态模式的训练样本数目为L个,此处第e种运行状态模式的样本中心定义为:
其中,Ce为第e类运行状态模式的训练样本中心,xe[h]为第e类运行状态模式中的第h个训练样本的特征向量,1≤e≤N,1≤h≤L。
4标量小波特征重要性评价标准
现假设有N类分类模式,每种分类模式的训练样本数均为L,现定义第e类运行状态模式中的第h个训练样本的特征向量集统一为:Fe[h]={feh 1,feh 2,…,feh R},feh r为该集合中第r个特征元素,r=1,2,...,R,R为集合元素总数,1≤h≤L。
由上文所述,每种分类模式对应一个BSVC,对每个BSVC而言,共需两类样本-该类和余类(记为类别I和类别II)。其中,类别I训练样本数为L,类别II训练样本数为M=(N-1)L。在低维线性可分的情况下,现定义第e个BSVC中第r个特征元素的重要性评价准则系数Je(r)如下:
其中,和依次为类别I和类别II所有训练样本的特征向量集中第r个特征元素的样本均值,和依次为类别I和类别II所属训练样本的特征向量集中第r个特征元素的样本标准方差。一个好的特征应能使两类样本具有较大的类间距离和较小的类内方差,所以Je(r)值越大越好。
对于低维线性不可分的情况,BSVC可以利用非线性函数φ(·)把标量小波特征映射到高维,使其线性可分。因此,有必要借助φ(·)把特征选择准则同时映射至高维空间,变为:
其中,和分别表示类别I中第t个、第u个训练样本的第r个特征元素,t、u的取值为1,2…L;和分别表示类别II中第a个、第z个训练样本的第r个特征元素,a、z的取值为1,2…M。
考虑到核函数K(A,B)=(φ(A)·φ(B))=exp(-||A-B||2/σ2),上式最终可化简为:
上式反映的是某一个BSVC内的标量小波系数的重要性评估。为了体现某一个标量小波特征对多类分类器中所有BSVC的一个整体性影响,现定义标量小波系数重要性评估准则如下:
指标融合了多类分类器中所有BVSC的结构信息,值越大表明该特征的类别区分能力越强,提高了后续分类器的泛化性能。
以下在理论基础上进一步详细说明实施例的具体实现以供实施参考:
本领域技术人员可根据配电网实际运行情况和SVM的特点构造两个SVC。其中SVM分类器I:以故障相电流来构建特征向量,实施例构建的特征向量主要包括大电机启动、变压器励磁涌流、过负荷运行、雷击故障、相间短路(包括两相和三相短路)、断线故障、以及正常(当成一种特殊故障)7类。其中SVM分类器II:以零序电流来构建特征向量,实施例构建的特征向量主要为单相接地故障,包括稳定型故障、电弧型故障、高阻电弧型故障、放电型故障、和高阻放电型故障6类。
具体实现包括以下部分:
S1配电网运行状态多类分类器的训练
S1-1建立配网运行状态电流数据库
该步骤可以预先完成。建议通过在仿真软件PSCAD中搭建典型配网模型,模拟配网运行中的正常、异常(如大电机的启动,过负荷运行,以及变压器的励磁涌流)、不同故障(如雷击,短路,相间故障,接地故障,断线)状态,仿真得到大量电流数据样本(其中接地故障采集零序电流,其他采集故障相电流);同时采用配电网自动化系统运行故障在线监测录波数据库作为补充和校验;并通过以后实际在线运行录波装置不断添加更新数据;完成配网运行状态电流数据库的建立。
S1-2标量小波系数特征的提取
对训练样本集中所有训练样本和待测样本进行特征提取采用一致的方式。本领域技术人员可自行设定小波系数特征提取方式。实施例采用db4小波包分解技术,对所有均匀采样的样本数据分别进行4层小波变换和分解,并对第4层每个系数的能量值进行开方并组成一个16维特征的训练样本。第4层小波包分解可产生8个细节系数(依次记为d1,d2,…,d8)和8个粗系数(依次记为a1,a2,…,a8),假设每个系数经过小波分解之后的维数为Wdim,则取每个系数的能量值的开方作为故障信息特征。因此,产生16个故障特征量:
其中,Xw,U表示某系数U中的第w个数据点大小,例如Xw,a1表示第1个粗系数a1中的第w个数据点大小;Xw,d1表示第1个细节系数d1中的第w个数据点大小。故原始的运行状态特征集合为:F={f1,f2,...,f16},即r=1,2,...,16,R=16。(注意:在进行后续SVC的训练中,还需对这些特征量进行归一化操作,样本均值为0,方差为1)。
S1-3基于SVM配网运行特征多类分类器的设计
S1-3-1SVC核函数参数的选择
本发明采用径向基核函数K(A,B)=(φ(A)·φ(B))=exp(-||A-B||2/σ2),其中A,B采用不同样本所对应的特征向量,σ2为核参数。一般的,不同的核参数σ2可能会导致不同的特征选择结果,同时为了能得到最佳的分类精确度,因此可以预先确定一个较优的核参数,它不但关系到分类特征的选择结果,将来也需作为后续SVC的核参使用,能够使所有BSVC均能发挥较好的性能。针对于此,实施例进一步设计了以下的核参数寻优策略:
设定核参数σ2的选择范围为:{0.01,0.1,1,2,4,8,16,32,64,128},共10个核参数。
e取值范围为1,2,…,N,N表示分类模式总数;设e的初始值为1,对第r个特征元素执行以下步骤:
Step1:把第e类运行状态模式中的所有训练样本的第r个特征元素复制至集合class(r)_I,其余类运行状态模式中的所有训练样本的第r个特征元素复制至集合class(r)_II;
Step2:若e≤N,使e=e+1且跳转至Step1;否则,顺序执行下一步Step3;
Step3:计算所有核参数下第r个特征元素的标量小波特征重要性评估系数,
包括根据式(30)计算在第g个核参数下的标量小波特征重要性评估准则对第r个特征元素的度量结果实施例中1≤g≤10;
Step4:对各核参数下第r个特征元素的标量小波特征重要性评估系数进行排序并求最大值:
此式为最大特征准则系数,选择最大值JMg相应的核参数为最优核参数。
这种选取是一次性的、离线的,当最优核函数参数确定后,后续工作就不再重复此类步骤了。
S1-3-2基于径向基核二元支持向量机分类器(BinarySupportVectorClassifier,BSVC)的训练
在配电网运行特征分类中,各类运行状态模式往往是非线性不可分的。由SVM的理论分析可知,对线性可分的情况,寻求最优分类超平面的过程可以转换成一个二次规划的问题。考虑非线性可分的情况,利用非线性变换φ(x)将原始特征量映射到高维,使其线性可分;同时考虑非线性不可分的情况,引入松弛因子ξi(ξi≥0),当划分出现错误时,ξi大于零。所以每种故障模式的BSVC的训练对应的二次规划问题为:
(S1-3)
s.t.yi((ω·xi)+b)≥1-ξii=1,2,...,l
式中,ω为分类超平面法向量,b为分类超平面偏差,表示训练集中划分错误的相量的上界;C为惩罚因子,作用是使分类间隔和分类错误达到某种折中,C值越大对错误惩罚越重。
式(S1-3)是一个凸规划问题,采用Lagrange乘子法,引入Lagrange乘子λii=1,2,...,l,同时引入核函数K(A,B)=(φ(A)·φ(B))=exp(-||A-B||2/σ2)并根据Karush-Kuhn-Tucker最优化条件产生如下对偶式:
相应的配电网各类故障模式BSVC分类决策函数为:
其中,nsv为支持向量的数目,λd,yd,xd分别为第d个支持向量所对应的Lagrange乘子,类别标签以及样本,1≤d≤nsv。
每一个BSVC参数的训练求解过程如图1所示:
先求得支持向量SV所对应的Lagrange乘子λc≠0,然后计算最后计算 其中xc、yc表示支持向量及其对应的类别标签,bc表示由该支持向量计算得到的分类偏差。
通过实验表明选择惩罚因子C=100时可以得到较好的结果。得到配电网运行特征基因库—分类字典CD1、CD2、CD3。
分类字典CD1(ClassifyDictionary)(内容由各个分类模式类的训练样本中心组成。假设需要分区N类分类模式,每个分类模式对应一种配网运行状态,每个分类模式即一种运行状态模式。每种故障模式训练样本数为L个,设Ce为第e类运行状态模式的训练样本中心,xe[h]为第e类运行状态模式中的第h个训练样本的特征向量,1≤e≤N,1≤h≤L。其中,
分类字典CD2(该字典包含one-against-restSVC中所有BSVC的训练参数,包括支持向量和对应标签、拉氏系数、偏差等);
分类字典CD3(该字典包含了one-against-restSVC中所有BSVC中最优分类法向量模(2-范数)||ωe||的大小)。
S1-3-3基于核空间距离分析的混合SVM多类分类器的构造
参见图2,实施例的构造具体实现包括以下子步骤:
Step1,输入待测样本的特征向量x*;初始化数组Index[N]=0(即建立一个长度为N的数组Index[N]),变量Temp=0,K=1,m=0;定义训练样本中样本所对应类别标签Flag=+1为有效(即属于该类)。将所有分类模式进行排序,包括根据分类字典CD1依次计算待测样本和分类字典CD1中第e类(e=1,2,…,N)模式类中心Ce的欧式距离Ed(e)=||x*-Ce||。并按大小进行升序排列,随后把对应的类标号e按顺序存储到数组Index[N]中第n位,即Index(n)=e,n=1,…,N。该步骤中利用分类字典CD1对各候选决策函数进行排列(粗略定位有效决策函数)。
Step2,根据排序的顺序,调用一类对应的BSVC决策函数De(x*)进行计算,同时将计算得到的决策函数输出值赋给临时变量Temp,记为Temp=De(x*);
Step3,根据当前Temp的符号Sign(Temp)判断是否Sign(Temp)>0。
如果是,则当前计算得到的决策函数输出为正标签(有效标签),则再计算下一个决策函数的输出,包括K=K+1、m=m+1,令e=Index(K)(Index(K)为数组第K个元素的值),Temp=De(x*),再次判断是否Sign(Temp)>0。若否则判断是否m=1,m=1时待测样本属于当前e所对应类别并显示分类结果,m不等于1时认为该样本落入误分类区,进入Step4。如果仍然为正标签(即仍然Sign(Temp)>0),继续计算下一个决策函数的输出,即返回执行K=K+1、m=m+1,令e=Index(K),Temp=De(x*),再次判断是否Sign(Temp)>0,直到出现负标签。
如果否,则K=K+1,然后判断是否K大于或等于N,否则返回步骤2,根据排序的顺序调用下一类对应的BSVC决策函数De(x*)继续处理,是则说明全部决策函数计算完毕,但所有的函数输出均为负标签(无效标签),则表示样本落入了拒绝识别区(此步骤3利用到了分类字典CD2),进入Step4。
Step4,如果待测样本落入了误分类区或拒绝识别区,则算法进入Step4。在本步骤中,用到了分类字典CD3。
当待测样本落入拒绝识别区时:计算所有BSVC的分类超平面的函数值随后计算该待测样本到所有分类超平面的几何距离dp(x*)为待测样本和第p个分类超平面的空间几何距离大小。p=1,…,N,样本x*离某个类的决策面越近,则表示样本属于该类的概率越大。因此,此处以空间距离最小对应的类作为该待测样本的归属:
当待测样本落入误分类区时:计算使该待测样本决策函数输出值为有效的分类超平面与它的几何距离v表示使该样本决策函数输出值为有效的类别号。待测样本离某个类的决策面越远,则表示样本属于该类的概率也越大。因此,此处应以空间距离最大对应的类作为该待测样本的归属:
S1-4基于标量小波系数最优特征子集的选择
最优特征子集的选择算法如下:
(1)借助于式(30)所示标量小波特征重要性评价准则对于式(S1-1)所得原始标量小波特征集合中每个标量小波系数特征元素fr(r=1,2,…,R)进行重要性评估,R表示特征向量的维数(即原始标量小波特征集合的标量小波系数特征元素个数)。随后按重要性对各个特征元素进行降序排序,如f1 J>f2 J>...>fR J,其中fr J表示准则下的第r个特征元素。
(2)初始化特征子集S={fr J},以及下标变量r=1。
(3)把所有训练样本的特征子集S随机划分为训练子集Strain和测试子集Stest,利用Stest对基于核空间距离的混合SVM多类分类器进行训练,并利用Stest进行性能评估,同时记录该多类分类器的预测准确率Accuracy(定义为:分类正确的样本数目与全部待测样本数目之比值)。
(4)r=r+1,如果r>R,评估结束,转向第5步;否则S=S∪{fr J}并跳转至第3步。
(5)选择最大Accuracy所对应的特征子集作为最优特征子集并输出;如果有多个Accuracy均为最大,只需选择对应特征数目最少的一组即可(目的是使后面分类器训练以及样本分类识别耗时最少),整个基于标量小波系数最优特征子集选择算法的流程如图3所示。
对于待测样本,按S1-2提取标量小波系数特征后,按以上流程所得最优特征子集的特征元素组合选择出对应的特征元素组合作为待测样本的特征集(向量)输入分类器。
S2配电网运行状态分类器的构造
根据电流突变量启动配电网录波装置,由第一步得到的分类字典CD1-3构造得到两个基于核空间距离分析的混合SVC-I、SVC-II。构造流程见S1-3-3(基于核空间距离分析的混合SVM多类分类器的构造)。
S3配电网运行状态的诊断
配网运行状态诊断过程如下:
(1)判断是否有零序电流,如果没有,则采集故障相电流并把数据导入SVC-I,由此得到分类结果;否则进入第2步。
(2)将零序电流导入SVC-II,得到此时配网所属运行状态。
将数据导入SVC-I或SVC-II时,都是根据S1-2提取标量小波系数特征,然后根据S1-4基于标量小波系数特征选取最优特征子集得到待测样本的特征向量,输入根据步骤S1-3-3基于核空间距离分析所得混合SVM多类分类器,即可得到分类结果。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。