基于最佳鉴别准则的变电站接地网腐蚀率模式识别方法
技术领域
本发明属于电力输送领域,涉及一种变电站接地网腐蚀率的模式识别方法,具体为一种基于最佳鉴别准则的变电站接地网腐蚀率模式识别方法,能够建立土壤因素、环境因素等与腐蚀率等级关系,主要应用于变电站接地网腐蚀规律的测算。
背景技术
随着模式识别技术的迅速发展,它所研究的理论和方法在很多科学和技术领域中得到了广泛的重视,为人工智能系统的发展与研究提供了新的思想。变电站接地网是用于工作接地、防雷接地、保护接地,确保人身、设备和系统等安全不可缺少的重要装置。接地网埋设于地面下0.3~0.8m的土壤中,常常由于种种原因而发生腐蚀,影响接地网腐蚀的主要因素有:pH值、含水量、有机质、电导率、含氮量、可溶性盐离子和气象因素等。目前,碳钢是地下常用的金属材料,其土壤腐蚀性的大小受各种环境因素的影响,利用埋片法取得的土壤腐蚀数据,建立碳钢与土壤腐蚀环境因素间的回归数学模型,对已知土壤腐蚀环境因素的地区预测接地网的腐蚀速率,是一项非常有意义的工作。但是,土壤是一个非常复杂的三相混合体系,金属在土壤中的腐蚀受多种因素的影响,而且数据离散型也较大,样本数较少,与腐蚀的关系非常复杂,彼此之间很难形成整体综合分析,难以对腐蚀速率建立预测模型。因此,利用分类的方法对土壤腐蚀因素数据进行特征提取,分析土壤腐蚀因素特征,可以得到合理的接地网腐蚀规律,以便采取有效的防腐措施。
在目前接地网腐蚀速率的测算方法中,有一种典型的测算建模方法:神经网络预测建模法。
近年来,国内有学者提出采用人工神经网络腐蚀预测模型对接地网腐蚀速率进行预测,比如参考文献“运用BP人工神经网络方法构建碳钢区域土壤腐蚀预测模型”(曲良山,李晓刚,杜翠薇,等.运用BP人工神经网络方法构建碳钢区域土壤腐蚀预测模型[J].北京科技大学学报,2009,31(12):1569-1575.)利用BP人工神经网络建立了接地网腐蚀速率与环境腐蚀因素的相关数学模型,并利用试验数据对模型进行了预测,最终得到接地网腐蚀速率预测模型。但是,这种预测方法主要存在下述问题:
回归分析的动机是企望求出一个函数代替数据集合,但它是假设数据集合的变量有因果关系,一般需要给定一个数学待定的基函数,根据数据集合中变量的因果关系,计算这个数学基函数待定的参数。
这种事先假定数据服从某种分布的方法,对某些未知世界的解释是不合理的,因为这个假设可能是错误的。因此,参数分析法尚未能很好的解决接地网腐蚀速率预测问题。
发明内容
本发明的目的在于克服上述现有技术的缺点,提供一种基于最佳鉴别准则的变电站接地网腐蚀率模式识别方法,该方法基于特征提取的方法对腐蚀速率寻找腐蚀规律,通过将腐蚀率分等级,对土壤腐蚀因素数据进行特征提取,按照分类策略探讨建立土壤因素、环境因素等与腐蚀率等级关系,实现寻找接地网腐蚀规律。其能够针对不同地区、不同土壤环境的腐蚀因素数据,采用非参数分析的方法研究接地网腐蚀规律,并找到了影响接地网腐蚀的土壤腐蚀因素数据的特征,建立腐蚀因素与腐蚀等级关系的线性判别函数,过程简单、实用。
本发明的目的是通过以下技术方案来解决的:
这种基于最佳鉴别准则的变电站接地网腐蚀率模式识别方法,包括以下步骤:
(1)以接地网土壤腐蚀因素数据为试验数据,利用奇异值分解法得到奇异值和奇异向量,结合主成分分析的方法,将原始土壤腐蚀因素样本数据压缩至低维空间,计算得到新的维数低的样本数据;
(2)以国家土壤腐蚀等级标准为依据,将接地网腐蚀率分等级,由于土壤腐蚀速率与土壤环境因素之间存在着对应关系,那么相应的压缩后的土壤腐蚀因素样本数据也会分为不同的等级;
(3)利用最佳鉴别准则计算主成分分析法及分类后的土壤腐蚀样本数据的类间散布矩阵、类内散布矩阵和总体散布矩阵,构造Fisher准则线性判别函数,计算出Fisher准则函数取得最大值的特征向量,构造土壤腐蚀因素数据的特征空间;
(4)以构造的土壤腐蚀因素数据特征空间为指标,对土壤腐蚀测试数据进行判别,确定相应的腐蚀等级,建立接地网腐蚀率与土壤腐蚀因素的等级关系。
进一步的,以上步骤(1)具体按照以下进行:
1)对原始数据{xij,i=1,2…,n;j=1,2,…p}求平均值,计算协方差矩阵C;
2)将协方差矩阵进行奇异值分解,得到奇异值和奇异向量;
An×p=Un×nΣn×pVT p×p (3)
式子(3)中,Σ是奇异值矩阵,除了对角线的元素都是0,对角线上的元素称为奇异值,U和V是左奇异向量和右奇异向量,里面的向量都是正交的;
3)将奇异值从大到小排列,选择其中最大的r个,然后将其对应的r个奇异向量分别作为列向量组成特征向量矩阵V,并求出阈值b:
其中Σii表示公式(3)中的矩阵Σ中主对角线元素;
AV≈UΣ (5)
4)利用提取的奇异值向量和阈值,计算最终压缩的低维空间数据矩阵Y:
Y=xV+b (7)。
进一步,以上对经过奇异值分解和主成分分析法压缩降维后的数据,按照国家土壤腐蚀等级标准划分为5类。
进一步,以上步骤(3)具体按照以下进行:
设ω1,ω2,…ωc为c个模式类,模式x为样本;设Sb,Sw和St分别表示训练样本的类间散布矩阵、类内散布矩阵和总体散布矩阵,且满足St=Sb+Sw;
Fisher准则函数定义如下:
推广的Fisher准则函数定义为:
其中:xi是第i个站点的样本信息,μ是均值的协方差矩阵,μi是第i个站点样本的协方差矩阵,Ni是i类的样本个数;
取极大化目标函数Jf(x)的x作为投影方向,其物理意义是:特征样本在x上投影后,类间离散度和类内离散度之比达到最大;当类内散布矩阵Sw非奇异时,准则(8)和(9)完全等价;当Sw奇异时,准则(9)是准则(8)的推广。
本发明具有以下的优点和效果:
(1)利用奇异值分解和主成分分析法将高维数据变成了低维空间的数据,压缩了数据的维数,消除了数据之间不同的量纲和数量级的影响,又采用了最佳鉴别准则法对低维空间的数据进行特征提取,达到样本数据的类间离散型最大,类内离散性最小,得到特征空间,算法简单,容易实现。并且对于某地区接地网土壤腐蚀因素测试数据,就可以进一步预测接地网腐蚀等级,
(2)本发明第一次对不同区域、不同环境因素以及不同气候的接地网土壤腐蚀速率等级做出了一种非参数预测。同时克服了以往以参数分析的回归建模预测方法的不准确性,以及假设数据间的因果关系带来的盲目性。
具体实施方式
本发明基于最佳鉴别准则的变电站接地网腐蚀率模式识别方法,包括以下步骤:
(1)奇异值分解与主成分分析法的数据降维处理
以接地网土壤腐蚀因素数据为试验数据,采用奇异值分解法计算奇异值和奇异向量,并根据主成分分析的方法将原始土壤腐蚀因素样本数据压缩至低维空间。具体算法的步骤如下:
1)对原始数据{xij,i=1,2…,n;j=1,2,…p}求平均值,计算协方差矩阵C。
2)将协方差矩阵进行奇异值分解,得到奇异值和奇异向量。
An×p=Un×nΣn×pVT p×p (3)
式子(3)中,Σ是奇异值矩阵,除了对角线的元素都是0,对角线上的元素称为奇异值,U和V是左奇异向量和右奇异向量,里面的向量都是正交的。
3)将奇异值从大到小排列,选择其中最大的r个,r是自然数,然后将其对应的r个奇异向量分别作为列向量组成特征向量矩阵V,并求出阈值b。
其中Σii表示公式(3)中的矩阵Σ中主对角线元素;
A V≈UΣ (5)
4)利用提取的奇异值向量和阈值,计算最终压缩的低维空间数据矩阵Y。
Y=xV+b(7)
本发明采用主成分分析法和奇异值分解相结合的方法,对原始数据矩阵完成了一个基的变换,使得变换后的数据有着最大的方差。方差的大小描述的是一个变量的信息量,方差大的方向是信号的方向,方差小的方向是噪声的方向。而奇异值分解法是一个能适用于任意矩阵的一种分解方法,与主成分分析法结合,对原始数据矩阵完成了压缩降维的目的。
(2)按照国家土壤腐蚀等级标准将数据划分为不同的等级
由于土壤腐蚀等级与土壤环境因素之间存在着对应关系,那么不同类别的样本就处于模式空间的不同区域,这样只要将不同空间划分开来,就可以将未知等级的土壤腐蚀环境数据放入空间并判断它们所在空间的区域,就可以知道对应的腐蚀性等级。
因此,本发明查阅了相关文献资料,查到国家土壤腐蚀等级标准,见下表1,将接地网腐蚀率按照土壤腐蚀等级标准划分为不同的等级,相应地土壤腐蚀因素也分为不同的等级。由于土壤腐蚀速率与土壤环境因素之间存在着对应关系,那么相应的压缩后的土壤腐蚀因素样本数据也会分为不同的等级。
表1 金属腐蚀程度评价土壤腐蚀性
(3)利用最佳鉴别准则法进行特征提取
对经过奇异值分解和主成分分析法压缩降维后的数据,按照国家土壤腐蚀等级标准划分为5类后,利用最佳鉴别准则计算主成分分析法及分类后的土壤腐蚀样本数据的类间散布矩阵、类内散布矩阵和总体散布矩阵,构造Fisher准则线性判别函数,计算出Fisher准则函数取得最大值的特征向量,构造土壤腐蚀因素数据的特征空间,具体如下:
设ω1,ω2,…ωc为c个模式类,模式x为样本。设Sb,Sw和St分别表示训练样本的类间散布矩阵、类内散布矩阵和总体散布矩阵,且满足St=Sb+Sw。
Fisher准则函数定义如下:
推广的Fisher准则函数定义为:
其中:xi是第i个站点的样本信息,μ是均值的协方差矩阵,μi是第i个站点样本的协方差矩阵,Ni是i类的样本个数。
取极大化目标函数Jf(x)的矢量x作为投影方向,其物理意义是:特征样本在x上投影后,类间离散度和类内离散度之比达到最大。当类内散布矩阵Sw非奇异时,准则(8)和(9)完全等价;当Sw奇异时,准则(9)是准则(8)的推广。
因此,本发明利用最佳鉴别准则的方法对降维分类后的数据进行有效的特征提取,把提取的特征作为判别函数的系数,最终可以得到判别函数。
(4)以所得特征空间为指标,对土壤腐蚀测试数据进行预测判别
对于最佳鉴别准则得到的线性判别函数,最终建立接地网腐蚀率与土壤腐蚀因素的等级关系,对于接地网土壤腐蚀因素测试数据,对所得的判别函数进行进一步预测,检验结果。
计算线性判别函数在各类别处的中心得分值,在此基础上,通过比较待判数据的函数值与每一类别的中心值的距离来判别某一新样本归属于哪一类别。
以下结合实施例对本发明的技术方案作进一步描述。
实施例
用Matlab R2010a模拟本发明的算法,依据土壤腐蚀因素和腐蚀速率的样本数据,建立接地网土壤腐蚀因素和腐蚀率的等级关系的实施例。
这里采用国家材料环境腐蚀(老化)野外科学观测研究站网上的接地网碳钢土壤腐蚀数据,见下表2。表中有影响接地网腐蚀的土壤因素12种:pH值、含水量、电导率、有机质、全氮、可溶性盐离子和腐蚀速率,来自于全国34个站点。
表2 接地网碳钢土壤腐蚀数据
对各个试验点的样本数据进行均值化处理,计算处理后数据的协方差矩阵,通过对协方差矩阵进行奇异值分解,得到奇异值和奇异向量。结合主成分分析法的原则,最终得到奇异值、奇异向量和阈值如下表3所示,降维后的数据如表4所示。
表3 奇异值分解与主成分分析法矩阵的特征
通过将奇异向量和原始数据相乘,再加上阈值,最终得到降维后的土壤腐蚀因素数据。对每个站点的腐蚀速率数据按照上述国家土壤腐蚀等级标准划分为不同的类。
经过划分,最终将1,2,3,4组划分为第一类;
5,6,7,9,13,15,16,18,24,25,31,32,34组为第二类;
8,10,11,12,14,17,21,22,23,27,28,29,30,33组为三类;19,20,26组为第五类。因此,降维后的数据也被分为相应的类中,如下表4所示。
表4 降维后的接地网那土壤腐蚀因素数据
对表4中的数据进行最佳鉴别准则法进行特征提取,达到类间离散度最大,类内离散度最小。表5为第1、第2和第3类判别函数的系数项,因此,通过判别分析可以分别得出以下3个判别函数:
表5 判别函数系数
主成分 |
第1类判别函数 |
第2类判别函数 |
第3类判别函数 |
1 |
0.2414 |
-0.3058 |
0.1273 |
2 |
-0.2828 |
0.0466 |
0.9271 |
3 |
0.9283 |
0.9509 |
0.3525 |
y1=0.2414x1-0.2828x2+0.9283x3 (10)
y2=-0.3058x1+0.0466x2+0.9509x3 (11)
y3=0.1273x1+0.9271x2+0.3525x3 (12)
表6 判别函数附加特征值
函数 |
特征值 |
方差贡献率/% |
累计方差贡献率/% |
1 |
0.2422 |
91.36% |
91.36% |
2 |
0.0214 |
8.07% |
99.43% |
3 |
0.0015 |
0.57% |
100% |
将判别方程量可以用其方差所占的比例来揭示。从表6可以看出,第1判别函数方差贡献率为91.36%,说明该函数可以解释样品91.36%的信息,仅仅利用此函数可以完成绝大部分样品的判别。
计算每一类主成分提取后样本数据的平均值,通过式子(10)~(12)得到各判别函数在各组别的中心值如下表7所示。以第1判别式为例,其在Ⅰ级的中心得分为0.4725,在Ⅱ级的中心得分为0.8232,在Ⅲ级的中心得分为-0.9739,在Ⅴ级的得分为0.3475。
表7 各类判别函数在各类别的中心值
利用所建立的判别模型对新的接地网土壤腐蚀测试数据进行腐蚀等级判别。为了检验判别结果,取一组土壤腐蚀测试数据进行验证,其测试数据如下表8所示。
表8 接地网土壤腐蚀因素带判别数据
将以上指标带进第1个判别式中,可以得到土壤腐蚀测试数据的得分,结果如表9所示。然后分别计算各个土壤腐蚀测试数据的得分到各类别中心值的距离,距离最小的就是这组测试数据相对应的类别。测试数据判别分析结果如下表9所示。
表9 测试数据判别分析结果
|
得分值 |
距第Ⅰ类距离 |
距第Ⅱ类距离 |
距第Ⅲ类距离 |
距第Ⅴ类距离 |
第1类判别函数 |
20.8616 |
20.3892 |
20.0384 |
21.8355 |
20.5141 |
根据上表9得到,这组测试数据距离第Ⅱ类距离最短是20.0384,因此这组测试数据的腐蚀等级属于第Ⅱ级,即腐蚀速率在1~3之间。这组测试数据的真实腐蚀速率是2.047,表明预测结果正确。