CN114739977A - 基于随机森林法的油纸绝缘老化光谱特征提取方法及系统 - Google Patents
基于随机森林法的油纸绝缘老化光谱特征提取方法及系统 Download PDFInfo
- Publication number
- CN114739977A CN114739977A CN202210386234.9A CN202210386234A CN114739977A CN 114739977 A CN114739977 A CN 114739977A CN 202210386234 A CN202210386234 A CN 202210386234A CN 114739977 A CN114739977 A CN 114739977A
- Authority
- CN
- China
- Prior art keywords
- raman spectrum
- aging
- paper insulation
- oil paper
- segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000009413 insulation Methods 0.000 title claims abstract description 196
- 230000032683 aging Effects 0.000 title claims abstract description 168
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 52
- 230000003595 spectral effect Effects 0.000 title claims abstract description 44
- 238000001237 Raman spectrum Methods 0.000 claims abstract description 178
- 230000011218 segmentation Effects 0.000 claims abstract description 77
- 238000012549 training Methods 0.000 claims abstract description 61
- 238000012360 testing method Methods 0.000 claims abstract description 31
- 238000000605 extraction Methods 0.000 claims abstract description 25
- 238000003745 diagnosis Methods 0.000 claims abstract description 24
- 238000005070 sampling Methods 0.000 claims abstract description 20
- 238000003066 decision tree Methods 0.000 claims abstract description 18
- 238000002474 experimental method Methods 0.000 claims abstract description 13
- 238000004458 analytical method Methods 0.000 claims abstract description 9
- 238000001228 spectrum Methods 0.000 claims abstract description 9
- 230000008859 change Effects 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 26
- 239000013598 vector Substances 0.000 claims description 23
- 238000001069 Raman spectroscopy Methods 0.000 claims description 17
- 150000001875 compounds Chemical class 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 5
- 238000004891 communication Methods 0.000 claims description 3
- 238000005520 cutting process Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000008901 benefit Effects 0.000 description 5
- 238000006116 polymerization reaction Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 239000000126 substance Substances 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000000513 principal component analysis Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- HYBBIBNJHNGZAN-UHFFFAOYSA-N furfural Chemical compound O=CC1=CC=CO1 HYBBIBNJHNGZAN-UHFFFAOYSA-N 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000006722 reduction reaction Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000010998 test method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 229920002678 cellulose Polymers 0.000 description 1
- 239000001913 cellulose Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000012772 electrical insulation material Substances 0.000 description 1
- 230000002431 foraging effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000009659 non-destructive testing Methods 0.000 description 1
- 238000007254 oxidation reaction Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/62—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
- G01N21/63—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
- G01N21/65—Raman scattering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2132—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
Abstract
基于随机森林法的油纸绝缘老化光谱特征提取方法及系统,方法包括:通过实验获取油纸绝缘样本的拉曼光谱数据,利用线性判别分析法获取不同老化阶段的拉曼光谱数据;从每个老化阶段的拉曼光谱数据库中随机选取X个光谱数据构成拉曼光谱初始数据集D;基于自助采样法获取拉曼光谱训练集和拉曼光谱测试集;训练m个决策树模型进行组合以构建随机森林诊断模型;对随机森林诊断模型进行测试以获得第一错误率和第二错误率并计算切分变量在油纸绝缘老化中的重要性;以重要性超过阈值的切分变量构成油纸绝缘老化拉曼光谱特征集;从油纸绝缘老化拉曼光谱特征波形得到谱峰轮廓变化结果。本发明实现有监督的油纸绝缘拉曼光谱中与老化密切相关的特征提取。
Description
技术领域
本发明涉及电力设备绝缘检测技术领域,更具体地,涉及基于随机森林法的油纸绝缘老化光谱特征提取方法及系统。
背景技术
油纸绝缘装备是电网系统的重要组成,油纸绝缘的老化状态是影响其寿命及安全运行的关键因素。准确、有效的老化状态评估对保障电网系统安全、稳定运行具有重要意义。拉曼光谱技术,因具有单频率激光实现多种物质同时、无损、快速检测的优点,极适用于绝缘油物质成分的定性与定量分析,从而为油纸绝缘老化状态评估提供有力支撑。在油纸绝缘老化诊断方面,拉曼光谱技术主要具备以下优势,包括拉曼光谱是一种非接触式光谱检测方法,可以直接反映油纸绝缘的化学成分构成,长期稳定性好;与聚合度测试法、糠醛测试法以及CO、CO2测试法不同,可以实现无损检测;操作简单、快速,无需预先油气分离或萃取老化特征物后等一系列复杂操作,有利于在线检测分析等特点。
现有技术中,实际情况下绝缘油成分复杂,其经检测后的拉曼光谱所含信息非常丰富,同时也不乏诸多干扰信号,直接用于老化诊断的可能性非常低,所以需要通过一系列方法充分挖掘绝缘油老化拉曼光谱中的特征信息。由于经检测后的拉曼光谱样本数据点过多,而光谱中所包含的各个信息并非全都与油纸绝缘的老化程度有较大的关系,其中包含着许多冗杂重复的以及无关可以忽略的数据。因此如何在众多的光谱数据中提取出最主要的特征信息来解释油纸绝缘的老化状态便是关键。
光谱领域常用无监督的光谱特征提取方式,这种方式具有较强的普适性,对绝大多数数据都适用,它能够在一定程度上消除图谱特征之间的相关度、降低特征空间的维度、更有利于分类。然而对于油纸绝缘老化诊断而言,无监督的光谱特征提取方式只考虑了光谱数据本身的特点,并没有考虑到样本本身的老化类别信息。针对油纸绝缘的拉曼诊断,实际上有着更加丰富的可利用信息,因为在训练模型时各个谱图的所对应的老化状态是已知的,如果不将这个信息充分利用,难以达到更好的诊断效果。
发明内容
为解决现有技术中存在的不足,本发明的目的在于,提供一种基于随机森林法的油纸绝缘老化光谱特征提取方法及系统,实现了有监督的油纸绝缘拉曼光谱提取,并且在此基础上利用多种手段提取油纸绝缘拉曼光谱中与老化密切相关的特征。
本发明采用如下的技术方案。
本发明一方面提出基于随机森林法的油纸绝缘老化光谱特征提取方法,包括:
提取方法包括:
步骤1,通过实验获取油纸绝缘样本的拉曼光谱数据,利用线性判别分析法获取不同老化阶段的油纸绝缘样本的拉曼光谱数据;其中,老化阶段根据油纸绝缘老化规程中的指标进行确定;
步骤2,从每个老化阶段的油纸绝缘样本的拉曼光谱数据库中随机选取X个油纸绝缘样本的拉曼光谱数据,构成拉曼光谱初始数据集D;基于自助采样法从拉曼光谱初始数据集D中获取拉曼光谱训练集和拉曼光谱测试集;其中,拉曼光谱训练集D′包括m个训练子集,m为自助采样次数;
步骤3,对于m个训练子集一一对应的构建m个决策树模型;利用m个训练子集分别训练m个决策树模型;任意一个决策树模型中使用穷举搜索法训练切分变量和切分点;并且对当前切分点进行训练时,以切分后的左子节点和右子节点的不纯度来获取切分变量的基尼指数,以基尼指数最小值对应的切分变量和切分点分别作为最优特征和最优切分点;将m个训练好的决策树模型进行组合以构建随机森林诊断模型;
步骤4,使用拉曼光谱测试集对随机森林诊断模型进行测试以获得第一错误率;任一切分变量加入干扰后对随机森林诊断模型进行测试以获得第二错误率;使用第一错误率和第二错误率计算加入干扰后的切分变量在油纸绝缘老化中的重要性;
步骤5,将全部切分变量的重要性按照降序排序,以重要性超过重要性阈值的所有切分变量构成油纸绝缘老化拉曼光谱特征集;
步骤6,以油纸绝缘老化拉曼光谱特征集中的拉曼频移和强度构建坐标系,通过绘制油纸绝缘老化拉曼光谱特征波形,得到油纸绝缘老化拉曼光谱中谱峰的轮廓变化结果。
优选地,步骤1包括:
步骤1.1,通过实验获取油纸绝缘样本的拉曼光谱数据,根据实验阶段确定油纸绝缘样本的拉曼光谱数据处于的老化状态,实验获取的油纸绝缘样本的油样拉曼光谱数据与对应的老化状态的集合为{(Yp,Lp),p=1,2,…,Np},Yp为第p个油纸绝缘样本的拉曼光谱数据向量,Lp为Yp的老化状态标签,Np为油纸绝缘样本的个数;
步骤1.2,已如下关系式定义μq为老化状态标签为q的油纸绝缘样本的拉曼光谱数据的类别中心:
式中,
Nq为老化状态标签为q的油纸绝缘样本的个数,
Dq为老化状态标签为q的油纸绝缘样本的集合;
以如下关系式定义老化状态标签为q的油纸绝缘样本的协方差矩阵:
步骤1.3,根据油纸绝缘老化规程中的指标确定油纸绝缘样本的老化阶段基向量ωh,其中h为根据油纸绝缘老化指标确定的油纸绝缘样本的老化阶段,h=1,2,…,H,H为老化阶段的个数;利用老化阶段基向量组成超平面矩阵W;
步骤1.4,将任意一个油纸绝缘样本的拉曼光谱数据和油纸绝缘样本的拉曼光谱数据的类别中心均投影到超平面上;
步骤1.5,基于线性判别分析法,以不同老化阶段的油纸绝缘样本的拉曼光谱数据的类别中心之间的距离最大化和同一老化阶段的油纸绝缘样本的拉曼光谱数据之间的距离最小化为优化目标;以如下关系式获得优化后的超平面矩阵W:
其中,SW为类内散度矩阵,满足如下关系式:
式中,Nq为老化状态标签的个数,
Sb为类间散度矩阵,满足如下关系式:
式中,μ为油纸绝缘样本的拉曼光谱数据的所有类别中心的均值向量;
优选地,步骤2包括:
步骤2.1,从每个老化阶段的油纸绝缘样本的拉曼光谱数据库中随机选取X个油纸绝缘样本的拉曼光谱数据,构成拉曼光谱初始数据集D;
步骤2.2,每次自助采样时,从拉曼光谱初始数据集D中随机有放回的选取一个油纸绝缘样本的拉曼光谱数据,重复自助采样m次后,以选中的m个油纸绝缘样本的拉曼光谱数据构成拉曼光谱训练集D′;
步骤2.3,拉曼光谱初始数据集D中未被选中的油纸绝缘样本的拉曼光谱数据构成拉曼光谱测试集D-D′。
进一步,步骤2.2中,一个油纸绝缘样本的拉曼光谱数据在m次自助采样中从来没有被采样到的概率P满足如下关系式:
拉曼光谱训练集D′中拉曼光谱数据数量占拉曼光谱初始数据集D中拉曼光谱数据总数的1-P。
进一步,每次自助采样时形成一个训练子集,则拉曼光谱训练集D′包括m个训练子集。
优选地,步骤3中,当前切分点对应的切分变量的基尼指数满足如下关系式:
式中,
G(xi,vij)为切分变量和切分点的基尼指数,其中,xi为第i个切分变量,vij为第i个切分变量xi对应的第j个切分值,
nleft为切分后左子节点的训练样本的数量,
nright为切分后右子节点的训练样本的数量,
Ns为当前切分点的训练样本的数量,
H(Xleft)为衡量切分后左子节点不纯度的函数,其中,Xleft为切分后左子节点的训练样本集合,
H(Xright)为衡量切分后右子节点不纯度的函数,其中,Xright为切分后右子节点的训练样本集合。
进一步,以如下关系式表示的平方平均误差作为衡量切分后左子节点和右子节点不纯度的函数:
式中,
H( )为衡量切分后左子节点和右子节点不纯度的函数,
yi为当前切分点的样本目标变量,
Nm为当前切分点的样本数量,
Xm为当前切分点的训练样本集合。
优选地,步骤3中以基尼指数达到最小值时的切分变量的取值作为最优特征,最优特征满足如下关系式:
(x*,v*)=argminx,vG(xi,vij)
式中,argminx,vG(xi,vij)表示使基尼指数G(xi,vij)达到最小值时的切分变量的取值和切分值的取值;
以基尼指数达到最小值时的切分变量对应的切分点作为最优切分点。
优选地,步骤4中,任一切分变量加入干扰后在油纸绝缘老化中的重要性满足如下关系式:
Importancei=∑(Error2-Error1)/m
式中,
Importancei为加入干扰后的第i个切分变量在油纸绝缘老化中的重要性,
Error1为使用拉曼光谱测试集对随机森林诊断模型进行测试而获得的第一错误率,
Error2为对第i个切分变量加入干扰后对随机森林诊断模型进行测试而获得的第二错误率。
优选地,步骤5中,重要性阈值设置为0.1。
优选地,步骤6中,谱峰包括C-H键的峰、C-O键的峰、C=O键的峰、C-C键的峰、C=C键的峰。
本发明另一方面提出基于随机森林法的油纸绝缘老化光谱特征提取系统,用于实现基于随机森林法的油纸绝缘老化光谱特征提取方法。
基于随机森林法的油纸绝缘老化光谱特征提取系统包括存储器、处理器、无线通讯模块;所述存储器存储有计算机程序,处理器调用所述计算机程序执行基于随机森林法的油纸绝缘老化光谱特征提取方法的各个步骤。
本发明的有益效果在于,与现有技术相比:
1)本发明提出的基于随机森林算法的油纸绝缘老化拉曼光谱特征提取方法,通过拉曼光谱(Raman spectra)提取的油纸绝缘老化特征是油纸绝缘拉曼谱图中重要原始特征的直接体现,保障基于随机森林法的建模数据与油纸绝缘老化过程中成分变化的基本物理关联;
2)在油纸绝缘老化特征提取的过程中,充分利用线性判别分析法(LinearDiscriminant Analysis,LDA)进行特征提取时同一个老化程度样本的投影点会尽可能地接近并且不同老化程度样本的投影中心之间的距离会尽可能地大的特性,实现了有监督的油纸绝缘拉曼光谱提取,并且在此基础上利用多种手段,去提取油纸绝缘拉曼光谱中与老化程度密切相关的特征,有助于对油纸绝缘老化程度进行初步、粗略的判断;
3)本发明在提取油纸绝缘老化拉曼光谱特征之前通过使用穷举搜索法以及在随机森林法中以切分后节点的不纯度作为衡量指标,实现对油纸绝缘老化拉曼光谱特征的优选,从而得到丰富的可利用的油纸绝缘老化拉曼光谱信息,为后续诊断效果的可靠性和准确性提供保障,在电力设备在线监测与故障诊断等领域具有应用前景和推广价值。
附图说明
图1是基于随机森林法的油纸绝缘老化光谱特征提取方法的流程图;
图2是本发明实施例中提取得到的油纸绝缘老化拉曼光谱前30个重要数据点分布图;
图3是本发明实施例中提取得到的油纸绝缘老化拉曼光谱特征图;
图4是本发明实施例中LDA在油纸绝缘老化拉曼光谱特征提取中的优势示意图。
具体实施方式
下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本申请的保护范围。
如图1所示,本发明一方面提出基于随机森林法的油纸绝缘老化光谱特征提取方法,包括步骤1至步骤6。
步骤1,通过实验获取油纸绝缘样本的拉曼光谱数据,利用线性判别分析法获取不同老化阶段的油纸绝缘样本的拉曼光谱数据;其中,老化阶段根据油纸绝缘老化规程中的指标进行确定。
LDA在光谱领域常被用于诊断,但同时它也是一种有监督的光谱特征提取方法,本实施例中,在油纸绝缘样本的拉曼光谱数据提取工作中对LDA加以开发与应用,在消除谱图特征之间的相关度,减少数据信息的冗余的同时使用已知的样本的老化状态信息来进行监督,从而针对老化程度组合原始特征,以提取更具有针对性的新特征。
具体地,步骤1包括:
步骤1.1,通过实验获取油纸绝缘样本的拉曼光谱数据,根据实验阶段确定油纸绝缘样本的拉曼光谱数据处于的老化状态,实验获取的油纸绝缘样本的油样拉曼光谱数据与对应的老化状态的集合为{(Yp,Lp),p=1,2,…,Np},Yp为第p个油纸绝缘样本的拉曼光谱数据向量,Lp为Yp的老化状态标签,Np为油纸绝缘样本的个数;
本实施例中,对于实验获得的老化样本,根据IEC 60450《新老纤维素电绝缘材料聚合平均粘度的测定》测得各油纸绝缘样的聚合度,并根据各油纸绝缘样的聚合度划分了8个老化状态,根据实验过程中各油纸绝缘样处于的老化状态分别贴上老化状态标签。
步骤1.2,已如下关系式定义μq为老化状态标签为q的油纸绝缘样本的拉曼光谱数据的类别中心:
式中,
Nq为老化状态标签为q的油纸绝缘样本的个数,
Dq为老化状态标签为q的油纸绝缘样本的集合;
以如下关系式定义老化状态标签为q的油纸绝缘样本的协方差矩阵:
步骤1.3,根据油纸绝缘老化规程中的指标确定油纸绝缘样本的老化阶段基向量ωh,其中h为根据油纸绝缘老化指标确定的油纸绝缘样本的老化阶段,h=1,2,…,H,H为老化阶段的个数;利用老化阶段基向量组成超平面矩阵W;本实施例中,根据油纸绝缘老化规程中的指标确定需要监督的老化阶段标签为7个,即H=7,则利用基向量(ω1,ω2,…,ω7)组成一个7维的超平面矩阵W。
步骤1.4,将任意一个油纸绝缘样本的拉曼光谱数据和油纸绝缘样本的拉曼光谱数据的类别中心均投影到超平面上;
本实施例中,实验获得的油纸绝缘样本处于8个老化状态,将原始的拉曼光谱数据投影到7维的超平面矩阵W上,则任意一个油纸绝缘样本的拉曼光谱数据向量在超平面矩阵W的投影为WTYp,任意一个类别中心在超平面矩阵W的投影为WTμq。
步骤1.5,基于线性判别分析法,以不同老化阶段的油纸绝缘样本的拉曼光谱数据的类别中心之间的距离最大化和同一老化阶段的油纸绝缘样本的拉曼光谱数据之间的距离最小化为优化目标;
本实施例中,不同老化阶段的油纸绝缘样本的拉曼光谱数据的类别中心之间的距离满足如下关系式:
‖WTμ1-WTμ2‖
‖WTμ1-WTμ3‖
‖WTμ3-WTμ3‖
…
本实施例中,缩小同一老化阶段的油纸绝缘样本的拉曼光谱数据之间的距离,从样本投影后的协方差入手,即最小化∑WTΔq
因此,以如下关系式获得优化后的超平面矩阵W:
其中,SW为类内散度矩阵,满足如下关系式:
式中,Nq为老化状态标签的个数,
Sb为类间散度矩阵,满足如下关系式:
式中,μ为油纸绝缘样本的拉曼光谱数据的所有类别中心的均值向量;
本实施例中,通过计算矩阵SW -1Sb及其最大的7个特征值和对应的7个特征向量,得到优化后的超平面矩阵W。
通过步骤1的LDA特征提取,同一个老化程度的样本的投影点会尽可能的接近,不同老化程度的样本的投影中心之间的距离会尽可能地大,于是就实现了有监督的特征提取。
步骤2,从每个老化阶段的油纸绝缘样本的拉曼光谱数据库中随机选取X个油纸绝缘样本的拉曼光谱数据,构成拉曼光谱初始数据集D;基于自助采样法从拉曼光谱初始数据集D中获取拉曼光谱训练集和拉曼光谱测试集;其中,拉曼光谱训练集D′包括m个训练子集,m为自助采样次数。
具体地,步骤2包括:
步骤2.1,从每个老化阶段的油纸绝缘样本的拉曼光谱数据库中随机选取X个油纸绝缘样本的拉曼光谱数据,构成拉曼光谱初始数据集D。
步骤2.2,每次自助采样时,从拉曼光谱初始数据集D中随机有放回的选取一个油纸绝缘样本的拉曼光谱数据,重复自助采样m次后,以选中的m个油纸绝缘样本的拉曼光谱数据构成拉曼光谱训练集D′。
进一步,步骤2.2中,一个油纸绝缘样本的拉曼光谱数据在m次自助采样中从来没有被采样到的概率P满足如下关系式:
拉曼光谱训练集D′中拉曼光谱数据数量占拉曼光谱初始数据集D中拉曼光谱数据总数的1-P。
当m无限大时,概率P的值无限趋近于1/e=0.368,即在自助采样后,拉曼光谱初始数据集D中约有36.8%的拉曼光谱数据从未被选中过,形成训练集和测试集分配的一个绝佳比例。
本发明实施例中m取80,将80代入此时,拉曼光谱训练集D′中拉曼光谱数据数量占拉曼光谱初始数据集D中拉曼光谱数据总数的64.4%,拉曼光谱测试集D-D′中拉曼光谱数据数量占拉曼光谱初始数据集D中拉曼光谱数据总数的36.6%。
步骤2.3,拉曼光谱初始数据集D中未被选中的油纸绝缘样本的拉曼光谱数据构成拉曼光谱测试集D-D′。
优选地,每次自助采样时形成一个训练子集,则拉曼光谱训练集D′包括m个训练子集。本发明实施例中,获得了80个训练子集。
步骤3,对于m个训练子集一一对应的构建m个决策树模型;利用m个训练子集分别训练m个决策树模型;任意一个决策树模型中使用穷举搜索法训练切分变量和切分点;并且对当前切分点进行训练时,以切分后的左子节点和右子节点的不纯度来获取切分变量的基尼指数,以基尼指数最小值对应的切分变量和切分点分别作为最优特征和最优切分点;将m个训练好的决策树模型进行组合以构建随机森林诊断模型。
具体地,步骤3中,当前切分点对应的切分变量的基尼指数满足如下关系式:
式中,
G(xi,vij)为切分变量和切分点的基尼指数,其中,xi为第i个切分变量,vij为第i个切分变量xi对应的第j个切分值,
nleft为切分后左子节点的训练样本的数量,
nright为切分后右子节点的训练样本的数量,
Ns为当前切分点的训练样本的数量,
H(Xleft)为衡量切分后左子节点不纯度的函数,其中,Xleft为切分后左子节点的训练样本集合,
H(Xright)为衡量切分后右子节点不纯度的函数,其中,Xright为切分后右子节点的训练样本集合。
以如下关系式表示的平方平均误差作为衡量切分后左子节点和右子节点不纯度的函数:
式中,
H(Xm)为衡量切分后左子节点和右子节点不纯度的函数,
yi为当前切分点的样本目标变量,
Nm为当前切分点的样本数量,
Xm为当前切分点的训练样本集合。
本发明实施例中,当前切分点对应的切分变量的基尼指数还满足如下关系式:
式中,
进一步,步骤3中以基尼指数达到最小值时的切分变量的取值作为最优特征,最优特征满足如下关系式:
(x*,v*)=argminx,vG(xi,vij)
式中,argminx,vG(xi,vij)表示使基尼指数G(xi,vij)达到最小值时的切分变量的取值和切分值的取值;
以基尼指数达到最小值时的切分变量对应的切分点作为最优切分点。
本发明优选实施例中分别训练80个决策树模型,对于单个决策树模型,一张拉曼光谱具有1023个数据点,每个数据点都将作为训练样本的一个特征,利用得到的最优特征和最优切分点得到80个训练好的决策树模型,通过打包组合80个训练好的决策树模型生成随机森林判别模型。
本发明实施例中,对单个决策树模型进行训练的方法包括但不限于穷举搜索法。
步骤4,使用拉曼光谱测试集对随机森林诊断模型进行测试以获得第一错误率;任一切分变量加入干扰后对随机森林诊断模型进行测试以获得第二错误率;使用第一错误率和第二错误率计算加入干扰后的切分变量在油纸绝缘老化中的重要性。
具体地,步骤4中,任一切分变量加入干扰后在油纸绝缘老化中的重要性满足如下关系式:
Importancei=∑(Error2-Error1)/m
式中,
Importancei为加入干扰后的第i个切分变量在油纸绝缘老化中的重要性,
Error1为使用拉曼光谱测试集对随机森林诊断模型进行测试而获得的第一错误率,
Error2为对第i个切分变量加入干扰后对随机森林诊断模型进行测试而获得的第二错误率。
本发明实施例中,当切分变量加入噪声后,随机森林诊断模型测试获得的第二错误率显著提升,则该切分变量对油纸绝缘老化的诊断贡献较大,进而可确定该切分变量为能够反映油纸绝缘老化的重要特征。
步骤5,将全部切分变量的重要性按照降序排序,以重要性超过重要性阈值的所有切分变量构成油纸绝缘老化拉曼光谱特征集。
本发明实施例中,重要性阈值设置为0.1。值得注意的是,本领域技术人员可以根据实际需求选择不同的重要性阈值,本发明实施例中重要性阈值设置为0.1是一种非限制性的较优选择。
在降序排序的基础上设置重要性阈值,可以剔除绝大多数不重要的特征,保留下重要性较高的特征,从而得到油纸绝缘老化拉曼光谱特征集。
依据上述方法,在本发明实施例中,计算了油纸绝缘老化样本的原始拉曼光谱图中每个数据点特征的重要性,并按降序排序,将特征重要性阈值设置为0.1后可以剔除绝大多数不重要的特征,保留下重要性较高的59个特征,得到一个仅有59个新特征的特征集,其中,最为重要的30个特征如图2所示。图3中曲线上的黑色圆点即为所提取出来的59个重要特征。
步骤6,以油纸绝缘老化拉曼光谱特征集中的拉曼频移和强度构建坐标系,通过绘制油纸绝缘老化拉曼光谱特征波形,得到油纸绝缘老化拉曼光谱中谱峰的轮廓变化结果。
步骤6中,谱峰包括C-H键的峰、C-O键的峰、C=O键的峰、C-C键的峰、C=C键的峰。
从图3中可以看出,59个重要特征包含了油纸绝缘老化样本拉曼光谱图中的大多数谱峰,谱峰包括但不限于C-H键的峰、C-O键的峰、C=O键的峰、C-C键的峰、C=C键的峰。油纸绝缘的老化过程中有机物的氧化反应和还原反应居多,因此对这些反应的产物是老化诊断的关键。在老化过程中,这些谱峰轮廓上的变化就是通过波形上重要特征的值的变化来体现的。
本实施例中,油纸绝缘老化拉曼光谱特征是从原始谱图中直接选取的数据点(未经数学变换),覆盖了多个拉曼谱峰,是油纸绝缘拉曼谱图变化的直接体现,包括了由C-C键、C-O键、C-H键等产生的峰的重要轮廓信息。LDA提取的老化特征受各个波数位置拉曼数据点的影响较为均匀,因此能够获得较为综合和的特征;由于LDA提取的老化特征时以老化阶段(例如聚合度的一个范围)为类别标签进行监督,因此LDA提取的老化特征适用于相对宽范围的老化程度大致估计。如图4所示,使用主成分分析法(PCA)提取特征时,仅考虑到数据本身的特点来降维;这时提取后的特征不一定能够很好的区分出两种样本的类别信息,例如图4中在PCA方向投影后两个类别样本的特征有重叠;而使用老化程度信息监督时的LDA由于老化程度信息在特征提取时已知,降维时投影方向更具针对性,提取出的相应特征也在老化程度区分时具有更好的效果。对于原始图谱具有多个特征时,LDA的优势更加显著。
本发明另一方面提出基于随机森林法的油纸绝缘老化光谱特征提取系统,用于实现基于随机森林法的油纸绝缘老化光谱特征提取方法。
基于随机森林法的油纸绝缘老化光谱特征提取系统包括存储器、处理器、无线通讯模块;所述存储器存储有计算机程序,处理器调用所述计算机程序执行基于随机森林法的油纸绝缘老化光谱特征提取方法的各个步骤。
本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述,但是本领域技术人员应该理解,以上实施示例仅为本发明的优选实施方案,详尽的说明只是为了帮助读者更好地理解本发明精神,而并非对本发明保护范围的限制,相反,任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。
Claims (12)
1.基于随机森林法的油纸绝缘老化光谱特征提取方法,其特征在于,
所述提取方法包括:
步骤1,通过实验获取油纸绝缘样本的拉曼光谱数据,利用线性判别分析法获取不同老化阶段的油纸绝缘样本的拉曼光谱数据;其中,老化阶段根据油纸绝缘老化规程中的指标进行确定;
步骤2,从每个老化阶段的油纸绝缘样本的拉曼光谱数据库中随机选取X个油纸绝缘样本的拉曼光谱数据,构成拉曼光谱初始数据集D;基于自助采样法从拉曼光谱初始数据集D中获取拉曼光谱训练集和拉曼光谱测试集;其中,拉曼光谱训练集D′包括m个训练子集,m为自助采样次数;
步骤3,对于m个训练子集一一对应的构建m个决策树模型;利用m个训练子集分别训练m个决策树模型;任意一个决策树模型中使用穷举搜索法训练切分变量和切分点;并且对当前切分点进行训练时,以切分后的左子节点和右子节点的不纯度来获取切分变量的基尼指数,以基尼指数最小值对应的切分变量和切分点分别作为最优特征和最优切分点;将m个训练好的决策树模型进行组合以构建随机森林诊断模型;
步骤4,使用拉曼光谱测试集对随机森林诊断模型进行测试以获得第一错误率;任一切分变量加入干扰后对随机森林诊断模型进行测试以获得第二错误率;使用第一错误率和第二错误率计算加入干扰后的切分变量在油纸绝缘老化中的重要性;
步骤5,将全部切分变量的重要性按照降序排序,以重要性超过重要性阈值的所有切分变量构成油纸绝缘老化拉曼光谱特征集;
步骤6,以油纸绝缘老化拉曼光谱特征集中的拉曼频移和强度构建坐标系,通过绘制油纸绝缘老化拉曼光谱特征波形,得到油纸绝缘老化拉曼光谱中谱峰的轮廓变化结果。
2.根据权利要求1所述的基于随机森林法的油纸绝缘老化光谱特征提取方法,其特征在于,
步骤1包括:
步骤1.1,通过实验获取油纸绝缘样本的拉曼光谱数据,根据实验阶段确定油纸绝缘样本的拉曼光谱数据处于的老化状态,实验获取的油纸绝缘样本的油样拉曼光谱数据与对应的老化状态的集合为{(Yp,Lp),p=1,2,…,Np},Yp为第p个油纸绝缘样本的拉曼光谱数据向量,Lp为Yp的老化状态标签,Np为油纸绝缘样本的个数;
步骤1.2,已如下关系式定义μq为老化状态标签为q的油纸绝缘样本的拉曼光谱数据的类别中心:
式中,
Nq为老化状态标签为q的油纸绝缘样本的个数,
Dq为老化状态标签为q的油纸绝缘样本的集合;
以如下关系式定义老化状态标签为q的油纸绝缘样本的协方差矩阵:
步骤1.3,根据油纸绝缘老化规程中的指标确定油纸绝缘样本的老化阶段基向量ωh,其中h为根据油纸绝缘老化指标确定的油纸绝缘样本的老化阶段,h=1,2,…,H,H为老化阶段的个数;利用老化阶段基向量组成超平面矩阵W;
步骤1.4,将任意一个油纸绝缘样本的拉曼光谱数据和油纸绝缘样本的拉曼光谱数据的类别中心均投影到超平面上;
步骤1.5,基于线性判别分析法,以不同老化阶段的油纸绝缘样本的拉曼光谱数据的类别中心之间的距离最大化和同一老化阶段的油纸绝缘样本的拉曼光谱数据之间的距离最小化为优化目标;以如下关系式获得优化后的超平面矩阵W:
其中,SW为类内散度矩阵,满足如下关系式:
式中,Nq为老化状态标签的个数,
Sb为类间散度矩阵,满足如下关系式:
式中,μ为油纸绝缘样本的拉曼光谱数据的所有类别中心的均值向量;
3.根据权利要求1所述的基于随机森林法的油纸绝缘老化光谱特征提取方法,其特征在于,
步骤2包括:
步骤2.1,从每个老化阶段的油纸绝缘样本的拉曼光谱数据库中随机选取X个油纸绝缘样本的拉曼光谱数据,构成拉曼光谱初始数据集D;
步骤2.2,每次自助采样时,从拉曼光谱初始数据集D中随机有放回的选取一个油纸绝缘样本的拉曼光谱数据,重复自助采样m次后,以选中的m个油纸绝缘样本的拉曼光谱数据构成拉曼光谱训练集D′;
步骤2.3,拉曼光谱初始数据集D中未被选中的油纸绝缘样本的拉曼光谱数据构成拉曼光谱测试集D-D′。
5.根据权利要求3所述的基于随机森林法的油纸绝缘老化光谱特征提取方法,其特征在于,
每次自助采样时形成一个训练子集,则拉曼光谱训练集D′包括m个训练子集。
6.根据权利要求3所述的基于随机森林法的油纸绝缘老化光谱特征提取方法,其特征在于,
步骤3中,当前切分点对应的切分变量的基尼指数满足如下关系式:
式中,
G(xi,vij)为切分变量和切分点的基尼指数,其中,xi为第i个切分变量,vij为第i个切分变量xi对应的第j个切分值,
nleft为切分后左子节点的训练样本的数量,
nright为切分后右子节点的训练样本的数量,
Ns为当前切分点的训练样本的数量,
H(Xleft)为衡量切分后左子节点不纯度的函数,其中,Xleft为切分后左子节点的训练样本集合,
H(Xright)为衡量切分后右子节点不纯度的函数,其中,Xright为切分后右子节点的训练样本集合。
8.根据权利要求6所述的基于随机森林法的油纸绝缘老化光谱特征提取方法,其特征在于,
步骤3中以基尼指数达到最小值时的切分变量的取值作为最优特征,最优特征满足如下关系式:
(x*,v*)=argminx,vG(xi,bij)
式中,argminx,vG(xi,vij)表示使基尼指数G(xi,vij)达到最小值时的切分变量的取值和切分值的取值;
以基尼指数达到最小值时的切分变量对应的切分点作为最优切分点。
9.根据权利要求1所述的基于随机森林法的油纸绝缘老化光谱特征提取方法,其特征在于,
步骤4中,任一切分变量加入干扰后在油纸绝缘老化中的重要性满足如下关系式:
Importancei=∑(Error2-Error1)/m
式中,
Importancei为加入干扰后的第i个切分变量在油纸绝缘老化中的重要性,
Error1为使用拉曼光谱测试集对随机森林诊断模型进行测试而获得的第一错误率,
Error2为对第i个切分变量加入干扰后对随机森林诊断模型进行测试而获得的第二错误率。
10.根据权利要求1所述的基于随机森林法的油纸绝缘老化光谱特征提取方法,其特征在于,
步骤5中,重要性阈值设置为0.1。
11.根据权利要求1所述的基于随机森林法的油纸绝缘老化光谱特征提取方法,其特征在于,
步骤6中,谱峰包括C-H键的峰、C-O键的峰、C=O键的峰、C-C键的峰、C=C键的峰。
12.基于随机森林法的油纸绝缘老化光谱特征提取系统,用于实现如权利要求1-11任一项所述的基于随机森林法的油纸绝缘老化光谱特征提取方法,其特征在于,
所述提取系统包括存储器、处理器、无线通讯模块;所述存储器存储有计算机程序,处理器调用所述计算机程序执行权利要求1-11所述的基于随机森林法的油纸绝缘老化光谱特征提取方法的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210386234.9A CN114739977A (zh) | 2022-04-13 | 2022-04-13 | 基于随机森林法的油纸绝缘老化光谱特征提取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210386234.9A CN114739977A (zh) | 2022-04-13 | 2022-04-13 | 基于随机森林法的油纸绝缘老化光谱特征提取方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114739977A true CN114739977A (zh) | 2022-07-12 |
Family
ID=82280970
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210386234.9A Pending CN114739977A (zh) | 2022-04-13 | 2022-04-13 | 基于随机森林法的油纸绝缘老化光谱特征提取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114739977A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115452761A (zh) * | 2022-09-19 | 2022-12-09 | 重庆大学 | 一种绝缘纸纤维素劣化状态的快速测试方法 |
CN116151107A (zh) * | 2023-02-02 | 2023-05-23 | 中国地质大学(北京) | 一种岩浆型镍钴成矿潜力的识别方法、系统及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090281981A1 (en) * | 2008-05-06 | 2009-11-12 | Chen Barry Y | Discriminant Forest Classification Method and System |
WO2018045642A1 (zh) * | 2016-09-09 | 2018-03-15 | 国网山西省电力公司晋城供电公司 | 一种母线负荷预测方法 |
CN113052386A (zh) * | 2021-03-29 | 2021-06-29 | 国网电子商务有限公司 | 基于随机森林算法的分布式光伏日发电量预测方法和装置 |
US20210311071A1 (en) * | 2018-10-30 | 2021-10-07 | Somalogic, Inc. | Methods for Sample Quality Assessment |
-
2022
- 2022-04-13 CN CN202210386234.9A patent/CN114739977A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090281981A1 (en) * | 2008-05-06 | 2009-11-12 | Chen Barry Y | Discriminant Forest Classification Method and System |
WO2018045642A1 (zh) * | 2016-09-09 | 2018-03-15 | 国网山西省电力公司晋城供电公司 | 一种母线负荷预测方法 |
US20210311071A1 (en) * | 2018-10-30 | 2021-10-07 | Somalogic, Inc. | Methods for Sample Quality Assessment |
CN113052386A (zh) * | 2021-03-29 | 2021-06-29 | 国网电子商务有限公司 | 基于随机森林算法的分布式光伏日发电量预测方法和装置 |
Non-Patent Citations (2)
Title |
---|
HUAZHOU CHEN ET AL: "A combination strategy of random forest and back propagation network for variable selection in spectral calibration", 《CHEMOMETRICS AND INTELLIGENT LABORATORY SYSTEMS》, 11 September 2018 (2018-09-11), pages 101 - 108, XP085524199, DOI: 10.1016/j.chemolab.2018.09.002 * |
刘若辰 等: "不同类型食醋的香气特征及挥发性成分分析", 《食品科学》, 31 August 2021 (2021-08-31), pages 227 - 237 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115452761A (zh) * | 2022-09-19 | 2022-12-09 | 重庆大学 | 一种绝缘纸纤维素劣化状态的快速测试方法 |
CN116151107A (zh) * | 2023-02-02 | 2023-05-23 | 中国地质大学(北京) | 一种岩浆型镍钴成矿潜力的识别方法、系统及电子设备 |
CN116151107B (zh) * | 2023-02-02 | 2023-09-05 | 中国地质大学(北京) | 一种岩浆型镍钴成矿潜力的识别方法、系统及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114739977A (zh) | 基于随机森林法的油纸绝缘老化光谱特征提取方法及系统 | |
CN112036301B (zh) | 一种基于类内特征迁移学习与多源信息融合的驱动电机故障诊断模型构建方法 | |
CN111833172A (zh) | 一种基于孤立森林的消费信贷欺诈行为检测方法及其系统 | |
Friedman et al. | Graphics for the multivariate two-sample problem | |
CN103150498B (zh) | 基于单分类支持向量机的硬件木马识别方法 | |
CN113962259B (zh) | 一种燃料电池系统多模式双层故障诊断方法 | |
CN112819059B (zh) | 一种基于流行保持迁移学习的滚动轴承故障诊断方法 | |
CN104040561A (zh) | 通过质谱术和分数规整识别微生物的方法 | |
CN110765587A (zh) | 基于动态正则化判别局部保留投影的复杂石化过程故障诊断方法 | |
CN110650058A (zh) | 一种网络流量分析方法、装置、存储介质及设备 | |
CN112766227A (zh) | 一种高光谱遥感影像分类方法、装置、设备及存储介质 | |
Savage et al. | Evaluation of a hierarchical agglomerative clustering method applied to WIBS laboratory data for improved discrimination of biological particles by comparing data preparation techniques | |
CN112036450B (zh) | 一种基于迁移学习的高压电缆局放模式识别方法及系统 | |
Das et al. | Accurate identification of transformer faults from dissolved gas data using recursive feature elimination method | |
CN112199670A (zh) | 一种基于深度学习改进iforest对行为异常检测的日志监控方法 | |
US20080021897A1 (en) | Techniques for detection of multi-dimensional clusters in arbitrary subspaces of high-dimensional data | |
CN112528774A (zh) | 一种复杂电磁环境下未知雷达信号智能分选系统及方法 | |
CN116087647A (zh) | 基于pca和麻雀算法优化随机森林的建筑电气故障诊断方法 | |
CN115758183A (zh) | 日志异常检测模型的训练方法及装置 | |
CN116204831A (zh) | 一种基于神经网络的道地性分析方法 | |
Wang et al. | Raman spectrum model transfer method based on Cycle-GAN | |
CN112836731A (zh) | 基于决策树准确率和相关性度量的信号随机森林分类方法、系统及装置 | |
CN109587136B (zh) | 一种基于双极大值的射频指纹特征提取和识别方法 | |
CN112463852A (zh) | 一种基于机器学习的单个指标异常点自动判断系统 | |
CN116611003A (zh) | 一种变压器故障诊断方法、装置、介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |