CN115201394B - 一种多组分变压器油色谱在线监测方法及相关装置 - Google Patents

一种多组分变压器油色谱在线监测方法及相关装置 Download PDF

Info

Publication number
CN115201394B
CN115201394B CN202211118612.1A CN202211118612A CN115201394B CN 115201394 B CN115201394 B CN 115201394B CN 202211118612 A CN202211118612 A CN 202211118612A CN 115201394 B CN115201394 B CN 115201394B
Authority
CN
China
Prior art keywords
data
model
training
transformer oil
lightgbm model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211118612.1A
Other languages
English (en)
Other versions
CN115201394A (zh
Inventor
何俊驰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhaoqing Power Supply Bureau of Guangdong Power Grid Co Ltd
Original Assignee
Zhaoqing Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhaoqing Power Supply Bureau of Guangdong Power Grid Co Ltd filed Critical Zhaoqing Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority to CN202211118612.1A priority Critical patent/CN115201394B/zh
Publication of CN115201394A publication Critical patent/CN115201394A/zh
Application granted granted Critical
Publication of CN115201394B publication Critical patent/CN115201394B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8696Details of Software
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Abstract

本申请公开了一种多组分变压器油色谱在线监测方法及相关装置,不仅实现对油色谱运行过程中不可靠数据的辨识,并根据prophet算法预测结果对数据进行修正,以达到对“脏数据”实现清洗效果的同时,避免误修改可靠数据;通过改进LightGBM模型,实现主变油色谱数据的针对性优化,依靠模型强大的分类能力自主分析各特征权重,使得依据主变油色谱判别主变故障发展情况及故障类别更加准确;利用油色谱数据中提取的特征判断主变故障发展过程及严重程度,更符合主变故障通常为渐进性故障的客观规律。解决了现有技术对油色谱数据清洗繁琐、容易过拟合且分类标准不符合实际,导致通过油色谱识别变压器故障效率低且不准确的问题。

Description

一种多组分变压器油色谱在线监测方法及相关装置
技术领域
本申请涉及变压器油色谱监测技术领域,尤其涉及一种多组分变压器油色谱在线监测方法及相关装置。
背景技术
由于传统实验室油色谱分析周期长、流程复杂、无法进行连续趋势的分析,而油色谱在线监测恰好弥补上述缺点,能够持续监测油中溶解气体状态,尽早发现主变内部潜在故障,以及更利于实现对未来趋势发展的分析和预测,对避免发生电力系统严重事故有重要意义。
近年来,随着待处理数据量的爆发式增长,传统的数学优化方法和启发式方法应对大样本量以及高维数据时效率低下,机器学习包括深度学习算法由于其非线性特性、对高维数据的高敏感度,以及在时间序列分析、图像识别等非结构化数据处理上的天然优势,契合油色谱分析领域需求,因此诞生了基于机器学习的新方法。例如,基于遗传算法与K-means聚类的RBF神经网络在线监测方法,通过对主变内部本体特征和外部所处环境两个维度,对装置选配影响因子进行筛选和分析得到最终的影响因子,从而解决在线监测装置的选配问题;又如,将基于密度模式的空间数据聚类算法与小波神经网络算法结合,实现对在线监测装置运行过程的数据清洗、甄别和预测。但上述方法存在以下问题,1)主变油色谱数据的清洗技术繁琐、模型复杂,调参难度大,且当数据量不足时容易产生“过拟合”,陷入局部最优解,极大降低模型的泛化能力;2)目前普遍按照行业判断标准(DL/T 722)对故障等级进行二分类(无故障,有故障,仅部分在线监测系统有告警值),客观上忽视了主变故障的渐进过程;3)初期潜伏故障轻微,特征数据不明显,目前方法难以提取最重要特征,无法进行有效辨别。
发明内容
本申请提供了一种多组分变压器油色谱在线监测方法及相关装置,用于解决现有技术对油色谱数据清洗繁琐、容易过拟合且分类标准不符合实际,导致通过油色谱识别变压器故障效率低且不准确的技术问题。
有鉴于此,本申请第一方面提供了一种多组分变压器油色谱在线监测方法,所述方法包括:
S1、获取油色谱的历史特征数据,对所述历史特征数据进行预处理,得到行向量为样本、列向量为特征值的二维矩阵的数据集,并将所述数据集划分为训练集、测试集和验证集;
S2、设置Prophet算法的趋势项、周期项、误差项和超参数后,通过所述训练集对Prophet算法进行训练,并定义异常数据的标签集,基于所述标签集通过训练好的Prophet算法分别对所述测试集和验证集进行清洗后,并同步更新所述数据集,得到清洗后的数据集;
S3、对清洗后的数据集中的特征值和对应标签均进行向量化处理后,进行细化分类,生成样本的类别标签,从而得到类别特征,其中所述类别标签包括:0表示良好、1表示一般、2表示严重和3表示紧急;
S4、建立LightGBM模型,通过调整故障分类赋予的权重值,同时引入L2正则项对LightGBM模型进行优化,得到改进后的LightGBM模型,对改进后的LightGBM模型的超参数和权重初始化,并人工调整叶子数和学习率后,通过所述类别特征对改进后的LightGBM模型进行训练,得到最终LightGBM模型;
S5、将实时的油色谱特征数据输入到最终LightGBM模型中,从而对变压器油色谱进行在线监测。
可选地,步骤S4之后,还包括:
根据所述最终LightGBM模型的训练曲线、特征权重、特征权重重要度排序和混淆矩阵可视化对所述最终LightGBM模型进行模型评价。
可选地,步骤S5之后,还包括:
将清洗后的数据集填充到训练集后,定期重复步骤S3-S4对LightGBM模型进行训练,从而定期对LightGBM模型进行更新。
可选地,所述并定义异常数据的标签集,基于所述标签集通过训练好的Prophet算法分别对所述测试集和验证集进行清洗后,并同步更新所述数据集,得到清洗后的数据集,具体包括:
定义异常数据的标签集,所述标签集的定义包括:0表示正常数据、1表示零值数据、2表示缺值数据,3表示异常数据;
搜索所述数据集中的零值数据集合,并修改对应的标签;
利用训练好的Prophet模型对测试集数据、验证集数据中的样本逐个进行预测,当对应样本特征值缺失,则通过预测值填补数据,并在异常数据标签集标记并修改标签;
计算对应样本预测偏差,若所述预测偏差大于预设偏差阈值,则修改标签,否则认为对应样本正常,并同步更新所述数据集,得到清洗后的数据集训练集、测试集、验证集和异常数据标签集。
可选地,所述改进后的LightGBM模型的第k棵树的损失函数为:
Figure 934788DEST_PATH_IMAGE001
式中,
Figure 389997DEST_PATH_IMAGE002
表示由前k-1棵树组成的模型在参数为
Figure 757525DEST_PATH_IMAGE003
的条件下对输入
Figure 671254DEST_PATH_IMAGE004
的预测值,
Figure 149640DEST_PATH_IMAGE005
表示损失函数,
Figure 730794DEST_PATH_IMAGE006
为L2正则化项,
Figure 65961DEST_PATH_IMAGE007
为系数。
可选地,所述历史特征数据包括:氧气和微水两个参考特征、以及若干特征气体。
本申请第二方面提供一种多组分变压器油色谱在线监测系统,所述系统包括:
获取单元,用于获取油色谱的历史特征数据,对所述历史特征数据进行预处理,得到行向量为样本、列向量为特征值的二维矩阵的数据集,并将所述数据集划分为训练集、测试集和验证集;
清洗单元,用于设置Prophet算法的趋势项、周期项、误差项和超参数后,通过所述训练集对Prophet算法进行训练,并定义异常数据的标签集,基于所述标签集通过训练好的Prophet算法分别对所述测试集和验证集进行清洗后,并同步更新所述数据集,得到清洗后的数据集;
分类单元,用于对清洗后的数据集中的特征值和对应标签均进行向量化处理后,进行细化分类,生成样本的类别标签,从而得到类别特征,其中所述类别标签包括:0表示良好、1表示一般、2表示严重和3表示紧急;
建模单元,用于建立LightGBM模型,通过调整故障分类赋予的权重值,同时引入L2正则项对LightGBM模型进行优化,得到改进后的LightGBM模型,对改进后的LightGBM模型的超参数和权重初始化,并人工调整叶子数和学习率后,通过所述类别特征对改进后的LightGBM模型进行训练,得到最终LightGBM模型;
监测单元,用于将实时的油色谱特征数据输入到最终LightGBM模型中,从而对变压器油色谱在线监测。
可选地,所述清洗单元,具体用于:
设置Prophet算法的趋势项、周期项、误差项和超参数后,通过所述训练集对Prophet算法进行训练;
定义异常数据的标签集,所述标签集的定义包括:0表示正常数据、1表示零值数据、2表示缺值数据,3表示异常数据;
搜索所述数据集中的零值数据集合,并修改对应的标签;
利用训练好的Prophet模型对测试集数据、验证集数据中的样本逐个进行预测,当对应样本特征值缺失,则通过预测值填补数据,并在异常数据标签集标记并修改标签;
计算对应样本预测偏差,若预测偏差大于预设偏差阈值,则修改标签,否则认为对应样本正常,并同步更新所述数据集,得到清洗后的数据集训练集、测试集、验证集和异常数据标签集。
本申请第三方面提供一种多组分变压器油色谱在线监测设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令,执行如上述第一方面所述的多组分变压器油色谱在线监测方法的步骤。
本申请第四方面提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行上述第一方面所述的多组分变压器油色谱在线监测方法。
从以上技术方案可以看出,本申请具有以下优点:
本申请提供了一种基于Prophet与lightGBM算法的变压器油色谱在线监测方法,不仅实现对油色谱在线监测装置运行过程中不可靠数据的辨识,并根据prophet算法预测结果对数据进行修正,以达到对“脏数据”实现清洗效果的同时,避免误修改可靠数据;通过改进LightGBM模型,实现主变油色谱数据的针对性优化,依靠模型强大的分类能力自主分析各特征权重,使得依据主变油色谱判别主变故障发展情况及故障类别更加准确;利用油色谱数据中提取的特征判断主变故障发展过程及严重程度,比行业标准(DL/T 722)的分类标准更加精细化,更符合主变故障通常为渐进性故障的客观规律。进一步地,改进模型的评价标准,从权重排序、准确率、总体召回率、混淆矩阵等多维度对模型效果进行评价,与常规单一标准(准确率)判别相比,更利于模型的调参及优化。最后,在方法应用后实时存储扩充数据集,并在排除“脏数据”后定期更新模型以扩充数据集,实现模型的自主升级。
与现有技术相比:
1)现有针对主变油色谱数据的清洗技术繁琐、模型复杂,调参难度大,且当数据量不足时容易产生“过拟合”,陷入局部最优解,极大降低模型的泛化能力。本发明利用预测模型进行数据清洗代替现有滑窗以及深度学习方法,模型更简单,且实现将“脏数据”进行标注以便对样本作出区分。
2)改进了LightGBM算法,定义总体召回率,赋予故障类别更高的类别权重,赋予“脏数据”包含的“异常”样本更低的样本权重,同时引入L2正则项。改进算法可以显著降低将故障样本误分类为正常样本的概率,利于尽早发现主变内部初发故障;同时尽可能降低“脏数据”对结果的影响。L2正则项的引入在一定程度上限制模型复杂度,限制模型学到高频振荡函数的能力,使模型更容易学习到低频平滑的函数,进而提升模型的泛化能力,进一步减小“过拟合”。
3)细化了目前行业标准DL/T 722通过主变油色谱判断主变故障情况的分类判别标准,在原有二分类基础上扩充为“良好”、“一般”、“严重”、“紧急”四个类别;并改进模型的评价标准,从权重排序、准确率、总体召回率、混淆矩阵等多维度对模型效果进行评价。此外,模型可以实现定期自主更新。
附图说明
图1为本申请实施例中提供的一种多组分变压器油色谱在线监测方法实施例的流程示意图;
图2为本申请实施例中提供的一种多组分变压器油色谱在线监测系统实施例的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参阅图1,本申请实施例中提供的一种多组分变压器油色谱在线监测方法,包括:
步骤101、获取油色谱的历史特征数据,对历史特征数据进行预处理,得到行向量为样本、列向量为特征值的二维矩阵的数据集,并将数据集划分为训练集、测试集和验证集;
需要说明的是,首先获取油色谱的历史特征数据;由于在机器学习模型中避免使用For循环,因此本发明使用二维矩阵以提高运算效率。采集主变油色谱数据后,形成
Figure 732565DEST_PATH_IMAGE008
数据集,其中N表示样本总量,m表示特征量维度,本方法中按照“DL/T 722”标准共采集氢气、一氧化碳、甲烷、二氧化碳、乙烷、乙烯、乙炔、氧气、微水等九个特征量。然后将数据集
Figure 749063DEST_PATH_IMAGE008
沿时间序列、按照60%、20%、20%的比例分别划分为训练集
Figure 935456DEST_PATH_IMAGE009
、测试集
Figure 379207DEST_PATH_IMAGE010
、验证集
Figure 363735DEST_PATH_IMAGE011
步骤102、设置Prophet算法的趋势项、周期项、误差项和超参数后,通过训练集对Prophet算法进行训练,并定义异常数据的标签集,基于标签集通过训练好的Prophet算法分别对测试集和验证集进行清洗后,并同步更新数据集,得到清洗后的数据集;
需要说明的是,Prophet算法是一种加法模型,常用于基于时间序列的预测,本发明利用该模型进行数据清洗,基本原理公式如下:
Figure 183923DEST_PATH_IMAGE012
其中,
Figure 474090DEST_PATH_IMAGE013
为趋势项,表示时间序列在非周期上的变化趋势;
Figure 354322DEST_PATH_IMAGE014
为周期项,本发明中表示主变油色谱受气温等变化影响;
Figure 792256DEST_PATH_IMAGE015
表示节假日项,本发明中根据主变计划检修等事项设置;
Figure 150556DEST_PATH_IMAGE016
称为剩余项或误差项,即模型未预测到的波动,一般情况下服从高斯分布。
本实施例的趋势项、周期项和误差项的设置的说明如下:
趋势项函数包含两部分,一是调节模型光滑度的超参数,二是不同程度的假设,通过参数的调整对时间序列中的非周期变化进行建模,根据数据的变化点检测趋势走向。根据所选数据的特性,本文选择logistic饱和增长模型,趋势项函数为逻辑回归模型:
Figure 560809DEST_PATH_IMAGE017
式中,k表示增长率;
Figure 346362DEST_PATH_IMAGE018
表示偏移量;
Figure 209276DEST_PATH_IMAGE019
为模型容量。
Figure 371267DEST_PATH_IMAGE014
代表周期项,Prophet 基于傅里叶级数提出了一个灵活的模型以拟合预测效果,
Figure 698343DEST_PATH_IMAGE014
根据如下公式进行估算:
Figure 920377DEST_PATH_IMAGE020
式中,n代表周期总数;T代表某个固定的周期(本发明采用周数据,T为7);
Figure 270587DEST_PATH_IMAGE021
代表期望在模型中使用该周期的个数;
Figure 970690DEST_PATH_IMAGE022
表示模型中需要估计的参数。
Figure 89956DEST_PATH_IMAGE015
为节假日项,由于主变计划或非计划停运、检修等事件会导致时间序列出现可预测的非周期性波动,即为节假日事件。在时间序列中对每个上述事件可单独建模,为每个模型制定单独的时间窗口,且同一个时间窗口的影响为相同值。节假日模型可如公式进行估算:
Figure 545208DEST_PATH_IMAGE023
其中,L为节假日事件集合;i为第i个节假日事件;为对应节假日对预测值的影响因子;为窗口期中包含的时间t。定义:
Figure 382714DEST_PATH_IMAGE024
可得:
Figure 886508DEST_PATH_IMAGE025
本实施例设置超参数的说明如下:
调用fbprophet软件库,关键超参数设置如下:增长趋势模型growth选择分段线性趋势“linear”;参数转折点n_changepoints根据主变油色谱数据规律设置为1,周期拟合度和节假日事件拟合度初始值按照经验分别设置7和3;误差函数设置为均方根误差MSE;其余超参数均为缺省值。
设置好上述参数后,导入训练集
Figure 860280DEST_PATH_IMAGE009
训练模型,导入测试集数据
Figure 418257DEST_PATH_IMAGE010
测试,根据测试集
Figure 743059DEST_PATH_IMAGE010
的拟合结果进行参数微调。最终使用验证集数据
Figure 784964DEST_PATH_IMAGE011
进行验证,保证验证数据未泄露到训练模型中,验证模型的泛化能力,避免发生“过拟合”。
本实施例定义异常数据的标签集,基于标签集通过训练好的Prophet算法分别对测试集和验证集进行清洗后,并同步更新数据集,得到清洗后的数据集的说明如下:
对异常数据标签做如下定义:定义标签“0”表示正常数据,“1”表示零值数据,“2”表示缺值数据,“3”表示异常数据。首先建立
Figure 941139DEST_PATH_IMAGE026
用于初始化异常数据标签集,搜索
Figure 675877DEST_PATH_IMAGE027
数据集中的零值数据集合
Figure 222396DEST_PATH_IMAGE028
,修改对应标签
Figure 333571DEST_PATH_IMAGE029
;同理,利用训练好的Prophet模型对测试集数据
Figure 344253DEST_PATH_IMAGE009
、验证集数据
Figure 187575DEST_PATH_IMAGE011
中的样本逐个进行预测,若对应样本特征值缺失,则由预测值填补数据,并在异常数据标签集标记,修改标签为
Figure 283707DEST_PATH_IMAGE030
;计算预测偏差(预测偏差=预测值与实际数据之差/实际数据*100%),若预测偏差大于偏差阈值a,修改标签为
Figure 667415DEST_PATH_IMAGE031
,否则视为正常样本。上述过程应同步更新数据集
Figure 735865DEST_PATH_IMAGE027
,最终形成清洗后的数据集
Figure 750089DEST_PATH_IMAGE032
、训练集
Figure 271200DEST_PATH_IMAGE033
、测试集
Figure 458599DEST_PATH_IMAGE034
、验证集
Figure 381555DEST_PATH_IMAGE035
及异常数据标签集
Figure 628997DEST_PATH_IMAGE036
步骤103、对清洗后的数据集中的特征值和对应标签均进行向量化处理后,进行细化分类,生成样本的类别标签,从而得到类别特征,其中类别标签包括:0表示良好、1表示一般、2表示严重和3表示紧急;
需要说明的是,在分类问题中,由于实验数据各个特征量的量纲不同,且数据绝对值相差较大,导致各特征量分布的均值和方差相差巨大,此时方差大的特征将在模型训练过程中占主导地位,模型表现变差,通常将样本标准化以消除上述影响。本发明采用sklearn库中的StandardScaler()函数,将全部特征值缩放到均值为0,方差为1。
由于样本进行向量化处理,对应标签也应进行向量化。根据DL/T 722行业标准中对油色谱气体含量的判别标准加以细化分类,形成样本的类别标签
Figure 631545DEST_PATH_IMAGE037
。标签“0”表示良好,“1”表示一般,“2”表示严重,“3”表示紧急。由于样本特征为连续特征值且具有实际物理意义,LightGBM算法可直接处理类别特征,无需进行One-hot 编码。
步骤104、建立LightGBM模型,通过调整故障分类赋予的权重值,同时引入L2正则项对LightGBM模型进行优化,得到改进后的LightGBM模型,对改进后的LightGBM模型的超参数和权重初始化,并人工调整叶子数和学习率后,通过类别特征对改进后的LightGBM模型进行训练,得到最终LightGBM模型;
需要说明的是,LightGBM算法是梯度提升决策树(GBDT)的优化算法,在多分类问题中使用二叉分类树。GBDT算法利用集成学习中的Boosting思想,用训练样本分别训练M个小决策树,将每一步训练得到的决策树的损失函数做负梯度累加,通过M个弱分类器构建最终的强分类器,以损失函数作为目标函数构建优化算法,优化方向即损失函数负梯度方向。优化算法即在每个叶子节点对所有特征做偏导数,在实际应用中通常采用贪心算法,即对每个叶子节点枚举所有可用特征,特征升序排序通过线性扫描方式寻找最佳分裂点,选择收益最大的分裂点作为分裂位置生长两个新的叶子节点,并不断重复直到达到目标深度或目标叶子节点数。在此基础上,LightGBM算法对GBDT算法进行优化,使用直方图索引将连续特征值离散化,提升运算效率、降低内存占用;使用带深度限制的Leaf-wise生长策略控制模型复杂度,相比于传统决策树的Level-wise生长策略更不易产生“过拟合”;此外,算法原生支持类别特征以及并行运算,计算效率进一步提升。
本实施例首先建立建立LightGBM模型;
接着,通过调整故障分类赋予的权重值,同时引入L2正则项对LightGBM模型进行优化,得到改进后的LightGBM模型,具体实施如下说明:
①为降低将“严重”“紧急”样本误判为“良好”“一般”样本概率,尽早发现油色谱异常,对“严重”、“紧急”故障分类赋予更高的权重,即赋予更高的类别权重;定义总体召回率
Figure 684952DEST_PATH_IMAGE038
Figure 462415DEST_PATH_IMAGE039
其中,
Figure 880758DEST_PATH_IMAGE040
表示正确分类的故障样本数量;
Figure 110882DEST_PATH_IMAGE041
表示正确分类的正常样本数量;
Figure 967979DEST_PATH_IMAGE042
表示错误分类的故障样本数量;
Figure 599949DEST_PATH_IMAGE043
表示错误分类的正常样本数量。
②减小“脏数据”对分类结果影响,降低异常数据标签为“3”即异常数据的样本权重,同时引入L2正则项以减少过拟合:
第k棵树的损失函数如公式(12):
Figure 189193DEST_PATH_IMAGE001
式中,
Figure 172193DEST_PATH_IMAGE002
表示由前k-1棵树组成的模型在参数为
Figure 505085DEST_PATH_IMAGE003
的条件下对输入
Figure 53878DEST_PATH_IMAGE004
的预测值,
Figure 79603DEST_PATH_IMAGE005
表示损失函数。
Figure 284319DEST_PATH_IMAGE006
为L2正则化项,系数
Figure 155324DEST_PATH_IMAGE007
为:
Figure 761885DEST_PATH_IMAGE044
Figure 958511DEST_PATH_IMAGE045
且为常数,
Figure 447262DEST_PATH_IMAGE046
标异常签号为3即异常样本,赋予较小权重。
然后,对改进后的LightGBM模型的超参数和权重初始化,并人工调整叶子数和学习率后,通过类别特征对改进后的LightGBM模型进行训练,得到最终LightGBM模型,具体如下:
1)进行模型参数初始化和权重随机初始化,以保证模型的泛化能力。
训练中的关键超参数设置如下:叶子数num_leaves设为50;学习率learning_rate设为0.001;循环次数boost_round为1000;优化算法boosting_type选择gbdt;损失函数为multi_logloss;目标问题objective选择multiclass;分类书目num_class设置为4,其他保持缺省值。
2)进行1000次训练循环后,计算训练集和测试集的精度、损失值。
3)调参分为自动调参和人工微调,自动调参调用sklearn库的GridSearchCV模块和LightGBM算法自带的CV模块进行网格搜索和交叉验证;
4)人工微调则优先调整叶子数、学习率,为防止出现过拟合,叶子数小于2的最大深度次幂以控制模型的复杂度;学习率设置不恰当将导致训练速度过低或损失函数振荡甚至发散,难以达到全局最优解。
5)优化算法、损失函数等参数根据求解问题设置,无需变动;循环次数及其他超参数根据经验进行细微调整,直到模型在训练集
Figure 387536DEST_PATH_IMAGE033
、测试集
Figure 848604DEST_PATH_IMAGE034
上的表现均达到最优,最后利用验证集数据
Figure 950552DEST_PATH_IMAGE035
进行模型验证,得到最终LightGBM模型。
需要说明的是,本实施例所使用LightGBM的训练过程如下:
规定为第m棵决策树,表示决策树的参数,M为树的个数,则根据Boosting算法原理,强分类器由所有训练得到的弱分类器线性叠加而成:
Figure 192178DEST_PATH_IMAGE047
则训练过程中的第m步表达如下:
Figure 664704DEST_PATH_IMAGE048
损失函数为:
Figure 980279DEST_PATH_IMAGE049
显然该损失函数需要迭代求解,梯度提升树的基本思想即构建弱分类器
Figure 518708DEST_PATH_IMAGE050
使目标函数
Figure 919733DEST_PATH_IMAGE051
达到最小值,针对多分类问题,模型效果最好的multi_logloss损失函数,其表达式如下:
Figure 264127DEST_PATH_IMAGE052
Figure 699788DEST_PATH_IMAGE053
带入并推导,求得偏导数结果如下:
Figure 143538DEST_PATH_IMAGE054
其中,K表示标签类别数。
步骤105、将实时的油色谱特征数据输入到最终LightGBM模型中,从而对变压器油色谱进行在线监测。
最后,将实时的油色谱特征数据输入到最终LightGBM模型中,从而实现对变压器油色谱进行在线监测。
进一步地,在一个可选地实施例中,得到最终LightGBM模型,之后还包括:根据所述最终LightGBM模型的训练曲线、特征权重、特征权重重要度排序和混淆矩阵可视化对所述最终LightGBM模型进行模型评价。
需要说明的是,模型训练完成后,本实施例分别将训练曲线、特征权重、特征权重重要度排序、混淆矩阵可视化,以评价模型表现。训练曲线中损失函数单调递减且趋近于0,特征权重与训练前相比出现明显变化,精度、召回率趋近于或等于100%,混淆矩阵非对角线元素趋近或等于0,可视为模型表现良好。
进一步地,在一个可选地实施例中,还包括:将清洗后的数据集填充到训练集后,定期重复步骤S3-S4对LightGBM模型进行训练,从而定期对LightGBM模型进行更新。
需要说明的是,机器学习的优势在于只要训练集数据足够多,模型参数就可以足够复杂到学习数据的全部特征,理论上具有绝对的泛化能力。因此本实施例在将数据集去除“异常”标签样本后,填充入训练集以扩大数据集规模,并定期更新模型,以保证模型不断升级,其分类能力跟随数据集的扩充而逐渐增强。
以上为本申请实施例中提供的一种多组分变压器油色谱在线监测方法,以下为本申请实施例中提供的一种多组分变压器油色谱在线监测系统。
请参阅图2,本申请实施例中提供的一种多组分变压器油色谱在线监测方法,包括:
获取单元201,用于获取油色谱的历史特征数据,对历史特征数据进行预处理,得到行向量为样本、列向量为特征值的二维矩阵的数据集,并将数据集划分为训练集、测试集和验证集;
清洗单元202,用于设置Prophet算法的趋势项、周期项、误差项和超参数后,通过训练集对Prophet算法进行训练,并定义异常数据的标签集,基于标签集通过训练好的Prophet算法分别对测试集和验证集进行清洗后,并同步更新数据集,得到清洗后的数据集;
分类单元203,用于对清洗后的数据集中的特征值和对应标签均进行向量化处理后,进行细化分类,生成样本的类别标签,从而得到类别特征,其中类别标签包括:0表示良好、1表示一般、2表示严重和3表示紧急;
建模单元204,用于建立LightGBM模型,通过调整故障分类赋予的权重值,同时引入L2正则项对LightGBM模型进行优化,得到改进后的LightGBM模型,对改进后的LightGBM模型的超参数和权重初始化,并人工调整叶子数和学习率后,通过类别特征对改进后的LightGBM模型进行训练,得到最终LightGBM模型;
监测单元205,用于将实时的油色谱特征数据输入到最终LightGBM模型中,从而对变压器油色谱在线监测。
进一步地,本申请实施例中还提供了一种多组分变压器油色谱在线监测设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行上述方法实施例所述的多组分变压器油色谱在线监测方法。
进一步地,本申请实施例中还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行上述方法实施例所述的多组分变压器油色谱在线监测方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (8)

1.一种多组分变压器油色谱在线监测方法,其特征在于,包括:
S1、获取油色谱的历史特征数据,对所述历史特征数据进行预处理,得到行向量为样本、列向量为特征值的二维矩阵的数据集,并将所述数据集划分为训练集、测试集和验证集;
S2、设置Prophet算法的趋势项、周期项、误差项和超参数后,通过所述训练集对Prophet算法进行训练;
定义异常数据的标签集,所述标签集的定义包括:0表示正常数据、1表示零值数据、2表示缺值数据,3表示异常数据;
搜索所述数据集中的零值数据集合,并修改对应的标签;
利用训练好的Prophet模型对测试集数据、验证集数据中的样本逐个进行预测,当对应样本特征值缺失,则通过预测值填补数据,并在异常数据标签集标记并修改标签;
计算对应样本预测偏差,若所述预测偏差大于预设偏差阈值,则修改标签,否则认为对应样本正常,并同步更新所述数据集,得到清洗后的数据集训练集、测试集、验证集和异常数据标签集;
S3、对清洗后的数据集中的特征值和对应标签均进行向量化处理后,进行细化分类,生成样本的类别标签,从而得到类别特征,其中所述类别标签包括:0表示良好、1表示一般、2表示严重和3表示紧急;
S4、建立LightGBM模型,通过调整故障分类赋予的权重值,同时引入L2正则项对LightGBM模型进行优化,得到改进后的LightGBM模型,对改进后的LightGBM模型的超参数和权重初始化,并人工调整叶子数和学习率后,通过所述类别特征对改进后的LightGBM模型进行训练,得到最终LightGBM模型;
S5、将实时的油色谱特征数据输入到最终LightGBM模型中,从而对变压器油色谱进行在线监测。
2.根据权利要求1所述的多组分变压器油色谱在线监测方法,其特征在于,步骤S4之后,还包括:
根据所述最终LightGBM模型的训练曲线、特征权重、特征权重重要度排序和混淆矩阵可视化对所述最终LightGBM模型进行模型评价。
3.根据权利要求1所述的多组分变压器油色谱在线监测方法,其特征在于,步骤S5之后,还包括:
将清洗后的数据集填充到训练集后,定期重复步骤S3-S4对LightGBM模型进行训练,从而定期对LightGBM模型进行更新。
4.根据权利要求1所述的多组分变压器油色谱在线监测方法,其特征在于,所述改进后的LightGBM模型的第k棵树的损失函数为:
Figure 174359DEST_PATH_IMAGE001
式中,
Figure 153816DEST_PATH_IMAGE002
表示由前k-1棵树组成的模型在参数为
Figure 58187DEST_PATH_IMAGE003
的条件下对输入
Figure 515713DEST_PATH_IMAGE004
的预测值,
Figure 392402DEST_PATH_IMAGE005
表示损失函数,
Figure 214865DEST_PATH_IMAGE006
为L2正则化项,
Figure 544215DEST_PATH_IMAGE007
为系数。
5.根据权利要求1所述的多组分变压器油色谱在线监测方法,其特征在于,所述历史特征数据包括:氧气和微水两个参考特征、以及若干特征气体。
6.一种多组分变压器油色谱在线监测系统,其特征在于,包括:
获取单元,用于获取油色谱的历史特征数据,对所述历史特征数据进行预处理,得到行向量为样本、列向量为特征值的二维矩阵的数据集,并将所述数据集划分为训练集、测试集和验证集;
清洗单元,用于设置Prophet算法的趋势项、周期项、误差项和超参数后,通过所述训练集对Prophet算法进行训练;
定义异常数据的标签集,所述标签集的定义包括:0表示正常数据、1表示零值数据、2表示缺值数据,3表示异常数据;
搜索所述数据集中的零值数据集合,并修改对应的标签;
利用训练好的Prophet模型对测试集数据、验证集数据中的样本逐个进行预测,当对应样本特征值缺失,则通过预测值填补数据,并在异常数据标签集标记并修改标签;
计算对应样本预测偏差,若所述预测偏差大于预设偏差阈值,则修改标签,否则认为对应样本正常,并同步更新所述数据集,得到清洗后的数据集训练集、测试集、验证集和异常数据标签集;
分类单元,用于对清洗后的数据集中的特征值和对应标签均进行向量化处理后,进行细化分类,生成样本的类别标签,从而得到类别特征,其中所述类别标签包括:0表示良好、1表示一般、2表示严重和3表示紧急;
建模单元,用于建立LightGBM模型,通过调整故障分类赋予的权重值,同时引入L2正则项对LightGBM模型进行优化,得到改进后的LightGBM模型,对改进后的LightGBM模型的超参数和权重初始化,并人工调整叶子数和学习率后,通过所述类别特征对改进后的LightGBM模型进行训练,得到最终LightGBM模型;
监测单元,用于将实时的油色谱特征数据输入到最终LightGBM模型中,从而对变压器油色谱在线监测。
7.一种多组分变压器油色谱在线监测设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-5任一项所述的多组分变压器油色谱在线监测方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-5任一项所述的多组分变压器油色谱在线监测方法。
CN202211118612.1A 2022-09-15 2022-09-15 一种多组分变压器油色谱在线监测方法及相关装置 Active CN115201394B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211118612.1A CN115201394B (zh) 2022-09-15 2022-09-15 一种多组分变压器油色谱在线监测方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211118612.1A CN115201394B (zh) 2022-09-15 2022-09-15 一种多组分变压器油色谱在线监测方法及相关装置

Publications (2)

Publication Number Publication Date
CN115201394A CN115201394A (zh) 2022-10-18
CN115201394B true CN115201394B (zh) 2023-01-24

Family

ID=83573615

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211118612.1A Active CN115201394B (zh) 2022-09-15 2022-09-15 一种多组分变压器油色谱在线监测方法及相关装置

Country Status (1)

Country Link
CN (1) CN115201394B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113723476B (zh) * 2021-08-13 2024-03-26 国网山东省电力公司枣庄供电公司 一种基于融合不定核特征提取的LightGBM变压器故障诊断方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113570254A (zh) * 2021-07-30 2021-10-29 江苏西格数据科技有限公司 一种工业数据质量分析方法
CN113672606A (zh) * 2021-08-19 2021-11-19 国网河南省电力公司电力科学研究院 油色谱监测数据质量评价方法
CN114970967A (zh) * 2022-04-27 2022-08-30 科润智能控制股份有限公司 一种基于贝叶斯优化和LightGBM的干式变压器寿命预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113570254A (zh) * 2021-07-30 2021-10-29 江苏西格数据科技有限公司 一种工业数据质量分析方法
CN113672606A (zh) * 2021-08-19 2021-11-19 国网河南省电力公司电力科学研究院 油色谱监测数据质量评价方法
CN114970967A (zh) * 2022-04-27 2022-08-30 科润智能控制股份有限公司 一种基于贝叶斯优化和LightGBM的干式变压器寿命预测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Study of application of composite sampling and improved LightGBM algorithm to the diagnosis of unbalanced transformer fault samples;Shanshan Liao 等;《 International Conference on Mechanical Engineering, Measurement Control, and Instrumentation》;20211014;1-12 *
基于机器学习的笼型异步电机故障在线诊断方法研究;何俊驰;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》;20220315(第03期);C042-774 *
基于集成学习的变压器故障预测方法研究;王凯;《中国优秀硕士学位论文全文数据库 工程科技II.辑》;20211215(第12期);C028-10 *
多类型基建现场感知设备数据分析与研究;于显浩 等;《第十五届全国信号和智能信息处理与应用学术会议论文集》;20220819;422-426 *

Also Published As

Publication number Publication date
CN115201394A (zh) 2022-10-18

Similar Documents

Publication Publication Date Title
CN111222290B (zh) 一种基于多参数特征融合的大型设备剩余使用寿命预测方法
CN107992976B (zh) 热点话题早期发展趋势预测系统及预测方法
CN111860897A (zh) 一种异常检测方法、装置、设备及计算机可读存储介质
CN110571792A (zh) 一种电网调控系统运行状态的分析评估方法及系统
CN111429415B (zh) 基于网络协同剪枝的产品表面缺陷高效检测模型构建方法
CN112069310A (zh) 基于主动学习策略的文本分类方法及系统
CN110969304A (zh) 数字工厂生产产能预测方法、系统、装置
CN115201394B (zh) 一种多组分变压器油色谱在线监测方法及相关装置
KR20220059120A (ko) 최적화된 하이퍼파라미터를 갖는 기계 학습 모델링 자동화 방법 및 이를 이용한 기계 학습 모델링 자동화 시스템
CN113780420B (zh) 基于gru-gcn的变压器油中溶解气体浓度预测方法
CN112819107A (zh) 基于人工智能的燃气调压设备故障预测方法
CN116153495A (zh) 一种食管癌患者免疫治疗预后生存预测方法
CN112184412A (zh) 一种信用评分卡模型的建模方法、装置、介质及电子设备
CN115936241A (zh) 一种电力施工作业节奏预测方法及系统
CN114219096A (zh) 一种机器学习算法模型的训练方法、装置及存储介质
CN111948561B (zh) 基于实测大数据和人工智能学习算法的电池寿命预测方法
CN113704389A (zh) 一种数据评估方法、装置、计算机设备及存储介质
CN112766548A (zh) 基于gasa-bp神经网络的订单完工时间预测方法
CN116993548A (zh) 基于增量学习的LightGBM-SVM的教育培训机构信用评估方法及系统
CN112163731A (zh) 一种基于加权随机森林的专变用户电费回收风险识别方法
CN116720743A (zh) 基于数据聚类和机器学习的碳排放测算方法
CN108363738B (zh) 一种工业设备数据分析算法的推荐方法
CN112348275A (zh) 一种基于在线增量学习的区域生态环境变化预测方法
CN110852178A (zh) 基于提升决策树的钢琴乐谱难度识别方法
CN117740632B (zh) 一种基于差分进化算法的pta粒径动态软测量方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant