CN114739977A - 基于随机森林法的油纸绝缘老化光谱特征提取方法及系统 - Google Patents

基于随机森林法的油纸绝缘老化光谱特征提取方法及系统 Download PDF

Info

Publication number
CN114739977A
CN114739977A CN202210386234.9A CN202210386234A CN114739977A CN 114739977 A CN114739977 A CN 114739977A CN 202210386234 A CN202210386234 A CN 202210386234A CN 114739977 A CN114739977 A CN 114739977A
Authority
CN
China
Prior art keywords
raman spectrum
aging
paper insulation
oil paper
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210386234.9A
Other languages
English (en)
Inventor
赵一晖
尹智贤
彭宇涵
张鑫源
陈伟根
杨定坤
王子懿
李剑
潘建宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202210386234.9A priority Critical patent/CN114739977A/zh
Publication of CN114739977A publication Critical patent/CN114739977A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/62Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
    • G01N21/63Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
    • G01N21/65Raman scattering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2132Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Abstract

基于随机森林法的油纸绝缘老化光谱特征提取方法及系统,方法包括:通过实验获取油纸绝缘样本的拉曼光谱数据,利用线性判别分析法获取不同老化阶段的拉曼光谱数据;从每个老化阶段的拉曼光谱数据库中随机选取X个光谱数据构成拉曼光谱初始数据集D;基于自助采样法获取拉曼光谱训练集和拉曼光谱测试集;训练m个决策树模型进行组合以构建随机森林诊断模型;对随机森林诊断模型进行测试以获得第一错误率和第二错误率并计算切分变量在油纸绝缘老化中的重要性;以重要性超过阈值的切分变量构成油纸绝缘老化拉曼光谱特征集;从油纸绝缘老化拉曼光谱特征波形得到谱峰轮廓变化结果。本发明实现有监督的油纸绝缘拉曼光谱中与老化密切相关的特征提取。

Description

基于随机森林法的油纸绝缘老化光谱特征提取方法及系统
技术领域
本发明涉及电力设备绝缘检测技术领域,更具体地,涉及基于随机森林法的油纸绝缘老化光谱特征提取方法及系统。
背景技术
油纸绝缘装备是电网系统的重要组成,油纸绝缘的老化状态是影响其寿命及安全运行的关键因素。准确、有效的老化状态评估对保障电网系统安全、稳定运行具有重要意义。拉曼光谱技术,因具有单频率激光实现多种物质同时、无损、快速检测的优点,极适用于绝缘油物质成分的定性与定量分析,从而为油纸绝缘老化状态评估提供有力支撑。在油纸绝缘老化诊断方面,拉曼光谱技术主要具备以下优势,包括拉曼光谱是一种非接触式光谱检测方法,可以直接反映油纸绝缘的化学成分构成,长期稳定性好;与聚合度测试法、糠醛测试法以及CO、CO2测试法不同,可以实现无损检测;操作简单、快速,无需预先油气分离或萃取老化特征物后等一系列复杂操作,有利于在线检测分析等特点。
现有技术中,实际情况下绝缘油成分复杂,其经检测后的拉曼光谱所含信息非常丰富,同时也不乏诸多干扰信号,直接用于老化诊断的可能性非常低,所以需要通过一系列方法充分挖掘绝缘油老化拉曼光谱中的特征信息。由于经检测后的拉曼光谱样本数据点过多,而光谱中所包含的各个信息并非全都与油纸绝缘的老化程度有较大的关系,其中包含着许多冗杂重复的以及无关可以忽略的数据。因此如何在众多的光谱数据中提取出最主要的特征信息来解释油纸绝缘的老化状态便是关键。
光谱领域常用无监督的光谱特征提取方式,这种方式具有较强的普适性,对绝大多数数据都适用,它能够在一定程度上消除图谱特征之间的相关度、降低特征空间的维度、更有利于分类。然而对于油纸绝缘老化诊断而言,无监督的光谱特征提取方式只考虑了光谱数据本身的特点,并没有考虑到样本本身的老化类别信息。针对油纸绝缘的拉曼诊断,实际上有着更加丰富的可利用信息,因为在训练模型时各个谱图的所对应的老化状态是已知的,如果不将这个信息充分利用,难以达到更好的诊断效果。
发明内容
为解决现有技术中存在的不足,本发明的目的在于,提供一种基于随机森林法的油纸绝缘老化光谱特征提取方法及系统,实现了有监督的油纸绝缘拉曼光谱提取,并且在此基础上利用多种手段提取油纸绝缘拉曼光谱中与老化密切相关的特征。
本发明采用如下的技术方案。
本发明一方面提出基于随机森林法的油纸绝缘老化光谱特征提取方法,包括:
提取方法包括:
步骤1,通过实验获取油纸绝缘样本的拉曼光谱数据,利用线性判别分析法获取不同老化阶段的油纸绝缘样本的拉曼光谱数据;其中,老化阶段根据油纸绝缘老化规程中的指标进行确定;
步骤2,从每个老化阶段的油纸绝缘样本的拉曼光谱数据库中随机选取X个油纸绝缘样本的拉曼光谱数据,构成拉曼光谱初始数据集D;基于自助采样法从拉曼光谱初始数据集D中获取拉曼光谱训练集和拉曼光谱测试集;其中,拉曼光谱训练集D′包括m个训练子集,m为自助采样次数;
步骤3,对于m个训练子集一一对应的构建m个决策树模型;利用m个训练子集分别训练m个决策树模型;任意一个决策树模型中使用穷举搜索法训练切分变量和切分点;并且对当前切分点进行训练时,以切分后的左子节点和右子节点的不纯度来获取切分变量的基尼指数,以基尼指数最小值对应的切分变量和切分点分别作为最优特征和最优切分点;将m个训练好的决策树模型进行组合以构建随机森林诊断模型;
步骤4,使用拉曼光谱测试集对随机森林诊断模型进行测试以获得第一错误率;任一切分变量加入干扰后对随机森林诊断模型进行测试以获得第二错误率;使用第一错误率和第二错误率计算加入干扰后的切分变量在油纸绝缘老化中的重要性;
步骤5,将全部切分变量的重要性按照降序排序,以重要性超过重要性阈值的所有切分变量构成油纸绝缘老化拉曼光谱特征集;
步骤6,以油纸绝缘老化拉曼光谱特征集中的拉曼频移和强度构建坐标系,通过绘制油纸绝缘老化拉曼光谱特征波形,得到油纸绝缘老化拉曼光谱中谱峰的轮廓变化结果。
优选地,步骤1包括:
步骤1.1,通过实验获取油纸绝缘样本的拉曼光谱数据,根据实验阶段确定油纸绝缘样本的拉曼光谱数据处于的老化状态,实验获取的油纸绝缘样本的油样拉曼光谱数据与对应的老化状态的集合为{(Yp,Lp),p=1,2,…,Np},Yp为第p个油纸绝缘样本的拉曼光谱数据向量,Lp为Yp的老化状态标签,Np为油纸绝缘样本的个数;
其中,任意一个油纸绝缘样本的拉曼光谱数据向量中的元素为拉曼光谱图谱中的各数据点,即满足
Figure BDA0003595082270000031
d为拉曼光谱图谱中数据点的个数;
步骤1.2,已如下关系式定义μq为老化状态标签为q的油纸绝缘样本的拉曼光谱数据的类别中心:
Figure BDA0003595082270000032
式中,
Nq为老化状态标签为q的油纸绝缘样本的个数,
Dq为老化状态标签为q的油纸绝缘样本的集合;
以如下关系式定义老化状态标签为q的油纸绝缘样本的协方差矩阵:
Figure BDA0003595082270000033
步骤1.3,根据油纸绝缘老化规程中的指标确定油纸绝缘样本的老化阶段基向量ωh,其中h为根据油纸绝缘老化指标确定的油纸绝缘样本的老化阶段,h=1,2,…,H,H为老化阶段的个数;利用老化阶段基向量组成超平面矩阵W;
步骤1.4,将任意一个油纸绝缘样本的拉曼光谱数据和油纸绝缘样本的拉曼光谱数据的类别中心均投影到超平面上;
步骤1.5,基于线性判别分析法,以不同老化阶段的油纸绝缘样本的拉曼光谱数据的类别中心之间的距离最大化和同一老化阶段的油纸绝缘样本的拉曼光谱数据之间的距离最小化为优化目标;以如下关系式获得优化后的超平面矩阵W:
Figure BDA0003595082270000041
其中,SW为类内散度矩阵,满足如下关系式:
Figure BDA0003595082270000042
式中,Nq为老化状态标签的个数,
Sb为类间散度矩阵,满足如下关系式:
Figure BDA0003595082270000043
式中,μ为油纸绝缘样本的拉曼光谱数据的所有类别中心的均值向量;
步骤1.6,将任意一个油纸绝缘样本的拉曼光谱数据向量投影到优化后的超平面矩阵上得到新的油纸绝缘样本的拉曼光谱数据和老化阶段标签,即
Figure BDA0003595082270000044
Zp为投影在超平面矩阵上的第p个油纸绝缘样本的拉曼光谱数据向量,
Figure BDA0003595082270000045
为Zp的老化状态标签。
优选地,步骤2包括:
步骤2.1,从每个老化阶段的油纸绝缘样本的拉曼光谱数据库中随机选取X个油纸绝缘样本的拉曼光谱数据,构成拉曼光谱初始数据集D;
步骤2.2,每次自助采样时,从拉曼光谱初始数据集D中随机有放回的选取一个油纸绝缘样本的拉曼光谱数据,重复自助采样m次后,以选中的m个油纸绝缘样本的拉曼光谱数据构成拉曼光谱训练集D′;
步骤2.3,拉曼光谱初始数据集D中未被选中的油纸绝缘样本的拉曼光谱数据构成拉曼光谱测试集D-D′。
进一步,步骤2.2中,一个油纸绝缘样本的拉曼光谱数据在m次自助采样中从来没有被采样到的概率P满足如下关系式:
Figure BDA0003595082270000046
拉曼光谱训练集D′中拉曼光谱数据数量占拉曼光谱初始数据集D中拉曼光谱数据总数的1-P。
进一步,每次自助采样时形成一个训练子集,则拉曼光谱训练集D′包括m个训练子集。
优选地,步骤3中,当前切分点对应的切分变量的基尼指数满足如下关系式:
Figure BDA0003595082270000051
式中,
G(xi,vij)为切分变量和切分点的基尼指数,其中,xi为第i个切分变量,vij为第i个切分变量xi对应的第j个切分值,
nleft为切分后左子节点的训练样本的数量,
nright为切分后右子节点的训练样本的数量,
Ns为当前切分点的训练样本的数量,
H(Xleft)为衡量切分后左子节点不纯度的函数,其中,Xleft为切分后左子节点的训练样本集合,
H(Xright)为衡量切分后右子节点不纯度的函数,其中,Xright为切分后右子节点的训练样本集合。
进一步,以如下关系式表示的平方平均误差作为衡量切分后左子节点和右子节点不纯度的函数:
Figure BDA0003595082270000052
式中,
H( )为衡量切分后左子节点和右子节点不纯度的函数,
yi为当前切分点的样本目标变量,
Figure BDA0003595082270000053
为当前切分点的样本目标变量的平均值,
Nm为当前切分点的样本数量,
Xm为当前切分点的训练样本集合。
优选地,步骤3中以基尼指数达到最小值时的切分变量的取值作为最优特征,最优特征满足如下关系式:
(x*,v*)=argminx,vG(xi,vij)
式中,argminx,vG(xi,vij)表示使基尼指数G(xi,vij)达到最小值时的切分变量的取值和切分值的取值;
以基尼指数达到最小值时的切分变量对应的切分点作为最优切分点。
优选地,步骤4中,任一切分变量加入干扰后在油纸绝缘老化中的重要性满足如下关系式:
Importancei=∑(Error2-Error1)/m
式中,
Importancei为加入干扰后的第i个切分变量在油纸绝缘老化中的重要性,
Error1为使用拉曼光谱测试集对随机森林诊断模型进行测试而获得的第一错误率,
Error2为对第i个切分变量加入干扰后对随机森林诊断模型进行测试而获得的第二错误率。
优选地,步骤5中,重要性阈值设置为0.1。
优选地,步骤6中,谱峰包括C-H键的峰、C-O键的峰、C=O键的峰、C-C键的峰、C=C键的峰。
本发明另一方面提出基于随机森林法的油纸绝缘老化光谱特征提取系统,用于实现基于随机森林法的油纸绝缘老化光谱特征提取方法。
基于随机森林法的油纸绝缘老化光谱特征提取系统包括存储器、处理器、无线通讯模块;所述存储器存储有计算机程序,处理器调用所述计算机程序执行基于随机森林法的油纸绝缘老化光谱特征提取方法的各个步骤。
本发明的有益效果在于,与现有技术相比:
1)本发明提出的基于随机森林算法的油纸绝缘老化拉曼光谱特征提取方法,通过拉曼光谱(Raman spectra)提取的油纸绝缘老化特征是油纸绝缘拉曼谱图中重要原始特征的直接体现,保障基于随机森林法的建模数据与油纸绝缘老化过程中成分变化的基本物理关联;
2)在油纸绝缘老化特征提取的过程中,充分利用线性判别分析法(LinearDiscriminant Analysis,LDA)进行特征提取时同一个老化程度样本的投影点会尽可能地接近并且不同老化程度样本的投影中心之间的距离会尽可能地大的特性,实现了有监督的油纸绝缘拉曼光谱提取,并且在此基础上利用多种手段,去提取油纸绝缘拉曼光谱中与老化程度密切相关的特征,有助于对油纸绝缘老化程度进行初步、粗略的判断;
3)本发明在提取油纸绝缘老化拉曼光谱特征之前通过使用穷举搜索法以及在随机森林法中以切分后节点的不纯度作为衡量指标,实现对油纸绝缘老化拉曼光谱特征的优选,从而得到丰富的可利用的油纸绝缘老化拉曼光谱信息,为后续诊断效果的可靠性和准确性提供保障,在电力设备在线监测与故障诊断等领域具有应用前景和推广价值。
附图说明
图1是基于随机森林法的油纸绝缘老化光谱特征提取方法的流程图;
图2是本发明实施例中提取得到的油纸绝缘老化拉曼光谱前30个重要数据点分布图;
图3是本发明实施例中提取得到的油纸绝缘老化拉曼光谱特征图;
图4是本发明实施例中LDA在油纸绝缘老化拉曼光谱特征提取中的优势示意图。
具体实施方式
下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本申请的保护范围。
如图1所示,本发明一方面提出基于随机森林法的油纸绝缘老化光谱特征提取方法,包括步骤1至步骤6。
步骤1,通过实验获取油纸绝缘样本的拉曼光谱数据,利用线性判别分析法获取不同老化阶段的油纸绝缘样本的拉曼光谱数据;其中,老化阶段根据油纸绝缘老化规程中的指标进行确定。
LDA在光谱领域常被用于诊断,但同时它也是一种有监督的光谱特征提取方法,本实施例中,在油纸绝缘样本的拉曼光谱数据提取工作中对LDA加以开发与应用,在消除谱图特征之间的相关度,减少数据信息的冗余的同时使用已知的样本的老化状态信息来进行监督,从而针对老化程度组合原始特征,以提取更具有针对性的新特征。
具体地,步骤1包括:
步骤1.1,通过实验获取油纸绝缘样本的拉曼光谱数据,根据实验阶段确定油纸绝缘样本的拉曼光谱数据处于的老化状态,实验获取的油纸绝缘样本的油样拉曼光谱数据与对应的老化状态的集合为{(Yp,Lp),p=1,2,…,Np},Yp为第p个油纸绝缘样本的拉曼光谱数据向量,Lp为Yp的老化状态标签,Np为油纸绝缘样本的个数;
本实施例中,对于实验获得的老化样本,根据IEC 60450《新老纤维素电绝缘材料聚合平均粘度的测定》测得各油纸绝缘样的聚合度,并根据各油纸绝缘样的聚合度划分了8个老化状态,根据实验过程中各油纸绝缘样处于的老化状态分别贴上老化状态标签。
其中,任意一个油纸绝缘样本的拉曼光谱数据向量中的元素为拉曼光谱图谱中的各数据点,即满足
Figure BDA0003595082270000081
d为拉曼光谱图谱中数据点的个数;本实施例中,实验获得的一张拉曼光谱谱图中具有1023个数据点,即d=1023。
步骤1.2,已如下关系式定义μq为老化状态标签为q的油纸绝缘样本的拉曼光谱数据的类别中心:
Figure BDA0003595082270000082
式中,
Nq为老化状态标签为q的油纸绝缘样本的个数,
Dq为老化状态标签为q的油纸绝缘样本的集合;
以如下关系式定义老化状态标签为q的油纸绝缘样本的协方差矩阵:
Figure BDA0003595082270000083
步骤1.3,根据油纸绝缘老化规程中的指标确定油纸绝缘样本的老化阶段基向量ωh,其中h为根据油纸绝缘老化指标确定的油纸绝缘样本的老化阶段,h=1,2,…,H,H为老化阶段的个数;利用老化阶段基向量组成超平面矩阵W;本实施例中,根据油纸绝缘老化规程中的指标确定需要监督的老化阶段标签为7个,即H=7,则利用基向量(ω12,…,ω7)组成一个7维的超平面矩阵W。
步骤1.4,将任意一个油纸绝缘样本的拉曼光谱数据和油纸绝缘样本的拉曼光谱数据的类别中心均投影到超平面上;
本实施例中,实验获得的油纸绝缘样本处于8个老化状态,将原始的拉曼光谱数据投影到7维的超平面矩阵W上,则任意一个油纸绝缘样本的拉曼光谱数据向量在超平面矩阵W的投影为WTYp,任意一个类别中心在超平面矩阵W的投影为WTμq
步骤1.5,基于线性判别分析法,以不同老化阶段的油纸绝缘样本的拉曼光谱数据的类别中心之间的距离最大化和同一老化阶段的油纸绝缘样本的拉曼光谱数据之间的距离最小化为优化目标;
本实施例中,不同老化阶段的油纸绝缘样本的拉曼光谱数据的类别中心之间的距离满足如下关系式:
‖WTμ1-WTμ2
‖WTμ1-WTμ3
‖WTμ3-WTμ3
本实施例中,缩小同一老化阶段的油纸绝缘样本的拉曼光谱数据之间的距离,从样本投影后的协方差入手,即最小化∑WTΔq
因此,以如下关系式获得优化后的超平面矩阵W:
Figure BDA0003595082270000091
其中,SW为类内散度矩阵,满足如下关系式:
Figure BDA0003595082270000092
式中,Nq为老化状态标签的个数,
Sb为类间散度矩阵,满足如下关系式:
Figure BDA0003595082270000101
式中,μ为油纸绝缘样本的拉曼光谱数据的所有类别中心的均值向量;
本实施例中,通过计算矩阵SW -1Sb及其最大的7个特征值和对应的7个特征向量,得到优化后的超平面矩阵W。
步骤1.6,将任意一个油纸绝缘样本的拉曼光谱数据向量投影到优化后的超平面矩阵上得到新的油纸绝缘样本的拉曼光谱数据和老化阶段标签,即
Figure BDA0003595082270000102
Zp为投影在超平面矩阵上的第p个油纸绝缘样本的拉曼光谱数据向量,
Figure BDA0003595082270000103
为Zp的老化状态标签。
通过步骤1的LDA特征提取,同一个老化程度的样本的投影点会尽可能的接近,不同老化程度的样本的投影中心之间的距离会尽可能地大,于是就实现了有监督的特征提取。
步骤2,从每个老化阶段的油纸绝缘样本的拉曼光谱数据库中随机选取X个油纸绝缘样本的拉曼光谱数据,构成拉曼光谱初始数据集D;基于自助采样法从拉曼光谱初始数据集D中获取拉曼光谱训练集和拉曼光谱测试集;其中,拉曼光谱训练集D′包括m个训练子集,m为自助采样次数。
具体地,步骤2包括:
步骤2.1,从每个老化阶段的油纸绝缘样本的拉曼光谱数据库中随机选取X个油纸绝缘样本的拉曼光谱数据,构成拉曼光谱初始数据集D。
步骤2.2,每次自助采样时,从拉曼光谱初始数据集D中随机有放回的选取一个油纸绝缘样本的拉曼光谱数据,重复自助采样m次后,以选中的m个油纸绝缘样本的拉曼光谱数据构成拉曼光谱训练集D′。
进一步,步骤2.2中,一个油纸绝缘样本的拉曼光谱数据在m次自助采样中从来没有被采样到的概率P满足如下关系式:
Figure BDA0003595082270000104
拉曼光谱训练集D′中拉曼光谱数据数量占拉曼光谱初始数据集D中拉曼光谱数据总数的1-P。
当m无限大时,概率P的值无限趋近于1/e=0.368,即在自助采样后,拉曼光谱初始数据集D中约有36.8%的拉曼光谱数据从未被选中过,形成训练集和测试集分配的一个绝佳比例。
本发明实施例中m取80,将80代入
Figure BDA0003595082270000111
此时,拉曼光谱训练集D′中拉曼光谱数据数量占拉曼光谱初始数据集D中拉曼光谱数据总数的64.4%,拉曼光谱测试集D-D′中拉曼光谱数据数量占拉曼光谱初始数据集D中拉曼光谱数据总数的36.6%。
步骤2.3,拉曼光谱初始数据集D中未被选中的油纸绝缘样本的拉曼光谱数据构成拉曼光谱测试集D-D′。
优选地,每次自助采样时形成一个训练子集,则拉曼光谱训练集D′包括m个训练子集。本发明实施例中,获得了80个训练子集。
步骤3,对于m个训练子集一一对应的构建m个决策树模型;利用m个训练子集分别训练m个决策树模型;任意一个决策树模型中使用穷举搜索法训练切分变量和切分点;并且对当前切分点进行训练时,以切分后的左子节点和右子节点的不纯度来获取切分变量的基尼指数,以基尼指数最小值对应的切分变量和切分点分别作为最优特征和最优切分点;将m个训练好的决策树模型进行组合以构建随机森林诊断模型。
具体地,步骤3中,当前切分点对应的切分变量的基尼指数满足如下关系式:
Figure BDA0003595082270000112
式中,
G(xi,vij)为切分变量和切分点的基尼指数,其中,xi为第i个切分变量,vij为第i个切分变量xi对应的第j个切分值,
nleft为切分后左子节点的训练样本的数量,
nright为切分后右子节点的训练样本的数量,
Ns为当前切分点的训练样本的数量,
H(Xleft)为衡量切分后左子节点不纯度的函数,其中,Xleft为切分后左子节点的训练样本集合,
H(Xright)为衡量切分后右子节点不纯度的函数,其中,Xright为切分后右子节点的训练样本集合。
以如下关系式表示的平方平均误差作为衡量切分后左子节点和右子节点不纯度的函数:
Figure BDA0003595082270000121
式中,
H(Xm)为衡量切分后左子节点和右子节点不纯度的函数,
yi为当前切分点的样本目标变量,
Figure BDA0003595082270000122
为当前切分点的样本目标变量的平均值,
Nm为当前切分点的样本数量,
Xm为当前切分点的训练样本集合。
本发明实施例中,当前切分点对应的切分变量的基尼指数还满足如下关系式:
Figure BDA0003595082270000123
式中,
Figure BDA0003595082270000124
为切分后左子节点的样本目标变量的平均值,
Figure BDA0003595082270000125
为切分后右子节点的样本目标变量的平均值。
进一步,步骤3中以基尼指数达到最小值时的切分变量的取值作为最优特征,最优特征满足如下关系式:
(x*,v*)=argminx,vG(xi,vij)
式中,argminx,vG(xi,vij)表示使基尼指数G(xi,vij)达到最小值时的切分变量的取值和切分值的取值;
以基尼指数达到最小值时的切分变量对应的切分点作为最优切分点。
本发明优选实施例中分别训练80个决策树模型,对于单个决策树模型,一张拉曼光谱具有1023个数据点,每个数据点都将作为训练样本的一个特征,利用得到的最优特征和最优切分点得到80个训练好的决策树模型,通过打包组合80个训练好的决策树模型生成随机森林判别模型。
本发明实施例中,对单个决策树模型进行训练的方法包括但不限于穷举搜索法。
步骤4,使用拉曼光谱测试集对随机森林诊断模型进行测试以获得第一错误率;任一切分变量加入干扰后对随机森林诊断模型进行测试以获得第二错误率;使用第一错误率和第二错误率计算加入干扰后的切分变量在油纸绝缘老化中的重要性。
具体地,步骤4中,任一切分变量加入干扰后在油纸绝缘老化中的重要性满足如下关系式:
Importancei=∑(Error2-Error1)/m
式中,
Importancei为加入干扰后的第i个切分变量在油纸绝缘老化中的重要性,
Error1为使用拉曼光谱测试集对随机森林诊断模型进行测试而获得的第一错误率,
Error2为对第i个切分变量加入干扰后对随机森林诊断模型进行测试而获得的第二错误率。
本发明实施例中,当切分变量加入噪声后,随机森林诊断模型测试获得的第二错误率显著提升,则该切分变量对油纸绝缘老化的诊断贡献较大,进而可确定该切分变量为能够反映油纸绝缘老化的重要特征。
步骤5,将全部切分变量的重要性按照降序排序,以重要性超过重要性阈值的所有切分变量构成油纸绝缘老化拉曼光谱特征集。
本发明实施例中,重要性阈值设置为0.1。值得注意的是,本领域技术人员可以根据实际需求选择不同的重要性阈值,本发明实施例中重要性阈值设置为0.1是一种非限制性的较优选择。
在降序排序的基础上设置重要性阈值,可以剔除绝大多数不重要的特征,保留下重要性较高的特征,从而得到油纸绝缘老化拉曼光谱特征集。
依据上述方法,在本发明实施例中,计算了油纸绝缘老化样本的原始拉曼光谱图中每个数据点特征的重要性,并按降序排序,将特征重要性阈值设置为0.1后可以剔除绝大多数不重要的特征,保留下重要性较高的59个特征,得到一个仅有59个新特征的特征集,其中,最为重要的30个特征如图2所示。图3中曲线上的黑色圆点即为所提取出来的59个重要特征。
步骤6,以油纸绝缘老化拉曼光谱特征集中的拉曼频移和强度构建坐标系,通过绘制油纸绝缘老化拉曼光谱特征波形,得到油纸绝缘老化拉曼光谱中谱峰的轮廓变化结果。
步骤6中,谱峰包括C-H键的峰、C-O键的峰、C=O键的峰、C-C键的峰、C=C键的峰。
从图3中可以看出,59个重要特征包含了油纸绝缘老化样本拉曼光谱图中的大多数谱峰,谱峰包括但不限于C-H键的峰、C-O键的峰、C=O键的峰、C-C键的峰、C=C键的峰。油纸绝缘的老化过程中有机物的氧化反应和还原反应居多,因此对这些反应的产物是老化诊断的关键。在老化过程中,这些谱峰轮廓上的变化就是通过波形上重要特征的值的变化来体现的。
本实施例中,油纸绝缘老化拉曼光谱特征是从原始谱图中直接选取的数据点(未经数学变换),覆盖了多个拉曼谱峰,是油纸绝缘拉曼谱图变化的直接体现,包括了由C-C键、C-O键、C-H键等产生的峰的重要轮廓信息。LDA提取的老化特征受各个波数位置拉曼数据点的影响较为均匀,因此能够获得较为综合和的特征;由于LDA提取的老化特征时以老化阶段(例如聚合度的一个范围)为类别标签进行监督,因此LDA提取的老化特征适用于相对宽范围的老化程度大致估计。如图4所示,使用主成分分析法(PCA)提取特征时,仅考虑到数据本身的特点来降维;这时提取后的特征不一定能够很好的区分出两种样本的类别信息,例如图4中在PCA方向投影后两个类别样本的特征有重叠;而使用老化程度信息监督时的LDA由于老化程度信息在特征提取时已知,降维时投影方向更具针对性,提取出的相应特征也在老化程度区分时具有更好的效果。对于原始图谱具有多个特征时,LDA的优势更加显著。
本发明另一方面提出基于随机森林法的油纸绝缘老化光谱特征提取系统,用于实现基于随机森林法的油纸绝缘老化光谱特征提取方法。
基于随机森林法的油纸绝缘老化光谱特征提取系统包括存储器、处理器、无线通讯模块;所述存储器存储有计算机程序,处理器调用所述计算机程序执行基于随机森林法的油纸绝缘老化光谱特征提取方法的各个步骤。
本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述,但是本领域技术人员应该理解,以上实施示例仅为本发明的优选实施方案,详尽的说明只是为了帮助读者更好地理解本发明精神,而并非对本发明保护范围的限制,相反,任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。

Claims (12)

1.基于随机森林法的油纸绝缘老化光谱特征提取方法,其特征在于,
所述提取方法包括:
步骤1,通过实验获取油纸绝缘样本的拉曼光谱数据,利用线性判别分析法获取不同老化阶段的油纸绝缘样本的拉曼光谱数据;其中,老化阶段根据油纸绝缘老化规程中的指标进行确定;
步骤2,从每个老化阶段的油纸绝缘样本的拉曼光谱数据库中随机选取X个油纸绝缘样本的拉曼光谱数据,构成拉曼光谱初始数据集D;基于自助采样法从拉曼光谱初始数据集D中获取拉曼光谱训练集和拉曼光谱测试集;其中,拉曼光谱训练集D′包括m个训练子集,m为自助采样次数;
步骤3,对于m个训练子集一一对应的构建m个决策树模型;利用m个训练子集分别训练m个决策树模型;任意一个决策树模型中使用穷举搜索法训练切分变量和切分点;并且对当前切分点进行训练时,以切分后的左子节点和右子节点的不纯度来获取切分变量的基尼指数,以基尼指数最小值对应的切分变量和切分点分别作为最优特征和最优切分点;将m个训练好的决策树模型进行组合以构建随机森林诊断模型;
步骤4,使用拉曼光谱测试集对随机森林诊断模型进行测试以获得第一错误率;任一切分变量加入干扰后对随机森林诊断模型进行测试以获得第二错误率;使用第一错误率和第二错误率计算加入干扰后的切分变量在油纸绝缘老化中的重要性;
步骤5,将全部切分变量的重要性按照降序排序,以重要性超过重要性阈值的所有切分变量构成油纸绝缘老化拉曼光谱特征集;
步骤6,以油纸绝缘老化拉曼光谱特征集中的拉曼频移和强度构建坐标系,通过绘制油纸绝缘老化拉曼光谱特征波形,得到油纸绝缘老化拉曼光谱中谱峰的轮廓变化结果。
2.根据权利要求1所述的基于随机森林法的油纸绝缘老化光谱特征提取方法,其特征在于,
步骤1包括:
步骤1.1,通过实验获取油纸绝缘样本的拉曼光谱数据,根据实验阶段确定油纸绝缘样本的拉曼光谱数据处于的老化状态,实验获取的油纸绝缘样本的油样拉曼光谱数据与对应的老化状态的集合为{(Yp,Lp),p=1,2,…,Np},Yp为第p个油纸绝缘样本的拉曼光谱数据向量,Lp为Yp的老化状态标签,Np为油纸绝缘样本的个数;
其中,任意一个油纸绝缘样本的拉曼光谱数据向量中的元素为拉曼光谱图谱中的各数据点,即满足
Figure FDA0003595082260000021
d为拉曼光谱图谱中数据点的个数;
步骤1.2,已如下关系式定义μq为老化状态标签为q的油纸绝缘样本的拉曼光谱数据的类别中心:
Figure FDA0003595082260000022
式中,
Nq为老化状态标签为q的油纸绝缘样本的个数,
Dq为老化状态标签为q的油纸绝缘样本的集合;
以如下关系式定义老化状态标签为q的油纸绝缘样本的协方差矩阵:
Figure FDA0003595082260000023
步骤1.3,根据油纸绝缘老化规程中的指标确定油纸绝缘样本的老化阶段基向量ωh,其中h为根据油纸绝缘老化指标确定的油纸绝缘样本的老化阶段,h=1,2,…,H,H为老化阶段的个数;利用老化阶段基向量组成超平面矩阵W;
步骤1.4,将任意一个油纸绝缘样本的拉曼光谱数据和油纸绝缘样本的拉曼光谱数据的类别中心均投影到超平面上;
步骤1.5,基于线性判别分析法,以不同老化阶段的油纸绝缘样本的拉曼光谱数据的类别中心之间的距离最大化和同一老化阶段的油纸绝缘样本的拉曼光谱数据之间的距离最小化为优化目标;以如下关系式获得优化后的超平面矩阵W:
Figure FDA0003595082260000024
其中,SW为类内散度矩阵,满足如下关系式:
Figure FDA0003595082260000031
式中,Nq为老化状态标签的个数,
Sb为类间散度矩阵,满足如下关系式:
Figure FDA0003595082260000032
式中,μ为油纸绝缘样本的拉曼光谱数据的所有类别中心的均值向量;
步骤1.6,将任意一个油纸绝缘样本的拉曼光谱数据向量投影到优化后的超平面矩阵上得到新的油纸绝缘样本的拉曼光谱数据和老化阶段标签,即
Figure FDA0003595082260000033
Zp为投影在超平面矩阵上的第p个油纸绝缘样本的拉曼光谱数据向量,
Figure FDA0003595082260000034
为Zp的老化状态标签。
3.根据权利要求1所述的基于随机森林法的油纸绝缘老化光谱特征提取方法,其特征在于,
步骤2包括:
步骤2.1,从每个老化阶段的油纸绝缘样本的拉曼光谱数据库中随机选取X个油纸绝缘样本的拉曼光谱数据,构成拉曼光谱初始数据集D;
步骤2.2,每次自助采样时,从拉曼光谱初始数据集D中随机有放回的选取一个油纸绝缘样本的拉曼光谱数据,重复自助采样m次后,以选中的m个油纸绝缘样本的拉曼光谱数据构成拉曼光谱训练集D′;
步骤2.3,拉曼光谱初始数据集D中未被选中的油纸绝缘样本的拉曼光谱数据构成拉曼光谱测试集D-D′。
4.根据权利要求3所述的基于随机森林法的油纸绝缘老化光谱特征提取方法,其特征在于,
步骤2.2中,一个油纸绝缘样本的拉曼光谱数据在m次自助采样中从来没有被采样到的概率P满足如下关系式:
Figure FDA0003595082260000035
拉曼光谱训练集D′中拉曼光谱数据数量占拉曼光谱初始数据集D中拉曼光谱数据总数的1-P。
5.根据权利要求3所述的基于随机森林法的油纸绝缘老化光谱特征提取方法,其特征在于,
每次自助采样时形成一个训练子集,则拉曼光谱训练集D′包括m个训练子集。
6.根据权利要求3所述的基于随机森林法的油纸绝缘老化光谱特征提取方法,其特征在于,
步骤3中,当前切分点对应的切分变量的基尼指数满足如下关系式:
Figure FDA0003595082260000041
式中,
G(xi,vij)为切分变量和切分点的基尼指数,其中,xi为第i个切分变量,vij为第i个切分变量xi对应的第j个切分值,
nleft为切分后左子节点的训练样本的数量,
nright为切分后右子节点的训练样本的数量,
Ns为当前切分点的训练样本的数量,
H(Xleft)为衡量切分后左子节点不纯度的函数,其中,Xleft为切分后左子节点的训练样本集合,
H(Xright)为衡量切分后右子节点不纯度的函数,其中,Xright为切分后右子节点的训练样本集合。
7.根据权利要求6所述的基于随机森林法的油纸绝缘老化光谱特征提取方法,其特征在于,
以如下关系式表示的平方平均误差作为衡量切分后左子节点和右子节点不纯度的函数:
Figure FDA0003595082260000042
式中,
H( )为衡量切分后左子节点和右子节点不纯度的函数,
yi为当前切分点的样本目标变量,
Figure FDA0003595082260000051
为当前切分点的样本目标变量的平均值,
Nm为当前切分点的样本数量,
Xm为当前切分点的训练样本集合。
8.根据权利要求6所述的基于随机森林法的油纸绝缘老化光谱特征提取方法,其特征在于,
步骤3中以基尼指数达到最小值时的切分变量的取值作为最优特征,最优特征满足如下关系式:
(x*,v*)=argminx,vG(xi,bij)
式中,argminx,vG(xi,vij)表示使基尼指数G(xi,vij)达到最小值时的切分变量的取值和切分值的取值;
以基尼指数达到最小值时的切分变量对应的切分点作为最优切分点。
9.根据权利要求1所述的基于随机森林法的油纸绝缘老化光谱特征提取方法,其特征在于,
步骤4中,任一切分变量加入干扰后在油纸绝缘老化中的重要性满足如下关系式:
Importancei=∑(Error2-Error1)/m
式中,
Importancei为加入干扰后的第i个切分变量在油纸绝缘老化中的重要性,
Error1为使用拉曼光谱测试集对随机森林诊断模型进行测试而获得的第一错误率,
Error2为对第i个切分变量加入干扰后对随机森林诊断模型进行测试而获得的第二错误率。
10.根据权利要求1所述的基于随机森林法的油纸绝缘老化光谱特征提取方法,其特征在于,
步骤5中,重要性阈值设置为0.1。
11.根据权利要求1所述的基于随机森林法的油纸绝缘老化光谱特征提取方法,其特征在于,
步骤6中,谱峰包括C-H键的峰、C-O键的峰、C=O键的峰、C-C键的峰、C=C键的峰。
12.基于随机森林法的油纸绝缘老化光谱特征提取系统,用于实现如权利要求1-11任一项所述的基于随机森林法的油纸绝缘老化光谱特征提取方法,其特征在于,
所述提取系统包括存储器、处理器、无线通讯模块;所述存储器存储有计算机程序,处理器调用所述计算机程序执行权利要求1-11所述的基于随机森林法的油纸绝缘老化光谱特征提取方法的各个步骤。
CN202210386234.9A 2022-04-13 2022-04-13 基于随机森林法的油纸绝缘老化光谱特征提取方法及系统 Pending CN114739977A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210386234.9A CN114739977A (zh) 2022-04-13 2022-04-13 基于随机森林法的油纸绝缘老化光谱特征提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210386234.9A CN114739977A (zh) 2022-04-13 2022-04-13 基于随机森林法的油纸绝缘老化光谱特征提取方法及系统

Publications (1)

Publication Number Publication Date
CN114739977A true CN114739977A (zh) 2022-07-12

Family

ID=82280970

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210386234.9A Pending CN114739977A (zh) 2022-04-13 2022-04-13 基于随机森林法的油纸绝缘老化光谱特征提取方法及系统

Country Status (1)

Country Link
CN (1) CN114739977A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116151107A (zh) * 2023-02-02 2023-05-23 中国地质大学(北京) 一种岩浆型镍钴成矿潜力的识别方法、系统及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116151107A (zh) * 2023-02-02 2023-05-23 中国地质大学(北京) 一种岩浆型镍钴成矿潜力的识别方法、系统及电子设备
CN116151107B (zh) * 2023-02-02 2023-09-05 中国地质大学(北京) 一种岩浆型镍钴成矿潜力的识别方法、系统及电子设备

Similar Documents

Publication Publication Date Title
CN111833172A (zh) 一种基于孤立森林的消费信贷欺诈行为检测方法及其系统
CN112036301B (zh) 一种基于类内特征迁移学习与多源信息融合的驱动电机故障诊断模型构建方法
CN103150498B (zh) 基于单分类支持向量机的硬件木马识别方法
CN113962259B (zh) 一种燃料电池系统多模式双层故障诊断方法
CN112819059B (zh) 一种基于流行保持迁移学习的滚动轴承故障诊断方法
CN110765587A (zh) 基于动态正则化判别局部保留投影的复杂石化过程故障诊断方法
CN104040561A (zh) 通过质谱术和分数规整识别微生物的方法
CN112766227A (zh) 一种高光谱遥感影像分类方法、装置、设备及存储介质
CN110650058A (zh) 一种网络流量分析方法、装置、存储介质及设备
CN112036450B (zh) 一种基于迁移学习的高压电缆局放模式识别方法及系统
CN114739977A (zh) 基于随机森林法的油纸绝缘老化光谱特征提取方法及系统
CN108009740B (zh) 一种烟用香精香料智能化精细识别系统及方法
US20080021897A1 (en) Techniques for detection of multi-dimensional clusters in arbitrary subspaces of high-dimensional data
CN107976417B (zh) 一种基于红外光谱的原油种类识别方法
CN112528774A (zh) 一种复杂电磁环境下未知雷达信号智能分选系统及方法
CN116087647A (zh) 基于pca和麻雀算法优化随机森林的建筑电气故障诊断方法
CN116204831A (zh) 一种基于神经网络的道地性分析方法
CN112906672A (zh) 钢轨缺陷识别方法及系统
CN111426657B (zh) 一种溶解性有机物三维荧光谱图的识别比对方法
CN112836731A (zh) 基于决策树准确率和相关性度量的信号随机森林分类方法、系统及装置
CN109587136B (zh) 一种基于双极大值的射频指纹特征提取和识别方法
CN112463852A (zh) 一种基于机器学习的单个指标异常点自动判断系统
CN116611003A (zh) 一种变压器故障诊断方法、装置、介质
CN106383103A (zh) 一种基于主成分分析的时间分辨油荧光鉴别方法
Wang et al. Raman spectrum model transfer method based on Cycle-GAN

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination