CN116702063A

CN116702063A - 一种基于EMD-gcForest模型的变压器油中溶解气体浓度预测方法

Info

Publication number: CN116702063A
Application number: CN202310504001.9A
Authority: CN
Inventors: 苟家萁; 杨鹏; 徐长福; 曹铁山; 刘国建; 王福生; 肖骏逸; 王春又
Original assignee: China Yangtze Power Co Ltd
Current assignee: China Yangtze Power Co Ltd
Priority date: 2023-05-06
Filing date: 2023-05-06
Publication date: 2023-09-05

Abstract

本发明提供了一种基于EMD‑gcForest模型的变压器油中溶解气体浓度预测方法，首先利用EMD方法将油中溶解气体浓度序列分解为不同特征尺度的本征模态函数（Intrinsic Mode Function，IMF）分量和一个剩余分量，以减弱气体浓度序列的波动性，得到更平稳的IMF分量；然后，利用gcForest模型对分解得到各子序列分量分别进行预测，并叠加所有各子序列分量的预测值作为最终结果；最后，通过算例分析表明，本发明所提的EMD‑gcForest方法具有较高的预测精度和泛化能力，验证了该方法的有效性和优越性。

Description

一种基于EMD-gcForest模型的变压器油中溶解气体浓度预测方法

技术领域

本发明涉及变压器技术领域，具体涉及一种基于EMD-gcForest模型的变压器油中溶解气体浓度预测方法。

背景技术

电力变压器作为电力系统安全稳定运行的核心设备之一，根据历史油色谱数据精准预测变压器油中溶解气体浓度发展趋势，可以提前评估电力变压器的运行状况，对保证变压器长期稳定运行具有重要意义。油中溶解气体分析(Dissolved Gas Analysis,DGA)是基于油中溶解气体浓度进行分析，广泛应用于变压器内部潜伏性故障诊断。因此，基于历史油色谱数据准确的对油中溶解特征气体浓度预测，可以及时反映变压器内部潜伏性故障及其发展趋势，预测结果可为变压器状态评估和故障预测提供重要依据。

近年来，国内外学者对变压器油中溶解特征气体浓度预测进行了广泛的研究并取得了较好的结果。目前常用的气体浓度预测方法主要有灰色模型、深度置信网络和支持向量机等方法。灰色模型的预测结果与数据本身的趋势有关，当数据有明显的趋势时预测精度较高，否则预测效果较差。深度置信网络自主学习能力较高，但深度置信网络训练周期较长，超参数调整复杂和易陷入局部最优解，最终导致较大的预测误差。支持向量机预测模型对于数据特征学习能力较差，能够拟合的数据量较小。但是传统的预测方法忽视了油中溶解气体浓度序列的非线性和非平稳特性，导致预测过程不科学，以及预测精度较低。

发明内容

为解决以上技术问题，本发明提供一种基于EMD-gcForest模型的变压器油中溶解气体浓度预测方法，通过采用此组合式预测方法，其在单一方法基础上增加了数据分解的预处理过程，首先将油中溶解气体浓度序列数据分解成多个独立分量，然后用智能方法对结果进行预测，最终通过算例分析表明，EMD-gcForest组合预测模型能够更好地识别气体浓度的波动规律，从而提高油中溶解特征气体浓度的预测精度。

一种基于EMD-gcForest模型的变压器油中溶解气体浓度预测方法，所述预测方法基于变压器历史油中溶解气体浓度数据的非周期性和非平稳性，首先，采用经验模态分解法(Empirical Mode Decomposition，EMD)对原始气体浓度数据进行分解，得到不同特征尺度的子序列分量；然后，将分解后的子序列分量分别输入到多粒度级联森林(Multi-grained cascade forest，gcForest)模型中，获得各子序列分量的预测结果；最后，叠加各子序列分量的预测值作为油中溶解特征气体浓度的最终预测结果。

一种基于EMD-gcForest模型的变压器油中溶解气体浓度预测方法，包括以下具体步骤：

Step1.1：将变压器油色谱数据按相同的比例划分出训练集和测试集；针对变压器油中溶解特征气体浓度序列的非线性和非平稳特性，对各特征气体浓度序列进行经验模态分解，进而得到各子序列分量IMF1～IMFn和剩余分量RES；

Step1.2：针对分解处理得到的各子序列分量分别采用归一化处理，利用各子序列分量的训练集和测试集分别对gcForest模型进行训练和预测，获得各子序列分量的预测值；

Step1.3：对各预测值进行反归一化处理，并叠加各子序列分量的预测值得到油中溶解特征气体浓度的最终结果；

Step1.4：通过对比油中溶解特征气体浓度的真实值，计算预测结果误差分析来评估EMD-gcForest模型预测性能。

所述经验模态分解法即为EMD方法，能够将原始数据分解为各不相同特征尺度的本征模态函数(Intrinsic Mode Function,IMF)分量和一个剩余分量，能够显现油中溶解气体浓度序列的特征，进而准确分析历史数据的特征信息，从而提高预测精度，EMD方法的分解步骤具体如下：

Step2.1：对于原始气体浓度序列x(t)，确定所有局部极大值点和局部极小值点；

Step2.2：利用三次样条插值函数拟合全部的极值点，得到上包络线a₊(t)和下包络线a_-(t)，计算出上下包络线的平均值，如式(1)所示：

式中，b(t)为上下包络线的平均值；t为时间；a₊(t)为上包络线；a_-(t)下包络线；x(t)为原始气体浓度序列；

Step2.3：计算原始气体浓度序列x(t)与上下包络线平均值b(t)的差值，得到一个新数据序列c(t)，如式(2)所示：

c(t)＝x(t)-b(t) (2)

假如c(t)不符合IMF分量标准时，将其作为新的数据序列，重复以上步骤Step2.1-Step2.2，直至满足IMF分量标准，则得到的c(t)是原始序列x(t)的第一个IMF分量，如式(3)所示：

m₁(t)＝c(t) (3)

式中，m₁(t)为原始气体浓度序列x(t)分解得到的第一个IMF分量；

Step2.4：从原始气体浓度序列x(t)分解得到第一个IMF分量m₁(t)后，计算剩余分量序列，如式(4)所示：

r₁(t)＝x(t)-m₁(t) (4)

式中，r₁(t)为原始气体浓度序列x(t)分解得到的剩余分量序列；

Step2.5：将Step2.4中得到的r₁(t)作为新的数据序列，不断重复以上步骤Step2.4，当剩余分量r_n(t)是单调函数或常量时，或第n个IMF剩余分量r_n(t)低于预设值，则结束EMD过程，因此，原始气体浓度序列x(t)分解得到n个IMF分量和一个剩余分量r_n(t)，如式(5)所示：

IMF剩余分量r_n(t)是原始气体浓度序列x(t)的平均值或趋势，IMF分量m_i(t)反映不同的特征尺度的序列分量，运用EMD方法分解为一系列不同尺度的平稳数据序列；通过对油中溶解特征气体浓度序列进行EMD处理后，提高预测模型的准确性。

所述多粒度级联森林是基于决策树的深度集成学习方法，多粒度由多粒度扫描和级联森林两部分构成，通过多粒度扫描阶段提取各子序列分量的特征信息，级联森林结构能够自适应地确定级联层数，进行表征学习，提高模型的泛化能力。

所述多粒度扫描能够有效地学习原始数据特征，提取状态特征信息，进而提高模型预测的准确性，多粒度扫描包含两个步骤：窗口扫描和特征转换；

多粒度级联森林通过滑动窗口扫描原始输入特征向量，假设原始输入特征向量为n维，滑动窗口大小为m维，滑动步长为s，滑动窗口每次移动一个滑动步长扫描原始输入特征，总共可以产生d＝(n-m)/s+1个m维特征实例；从中提取的特征实例将用于训练随机森林和完全随机森林，并每个森林都产生一个l维类别概率向量，因此每个森林都会产生d个l维特征向量，最终将两个森林输出特征向量拼接得到最终的转换特征向量；通过使用不同大小的滑动窗口，能够产生多尺度的特征向量，将包含原始输入向量更多的特征信息，最终，该特征向量用作级联森林的输入。

所述级联森林反映了多粒度级联森林的深度学习过程，级联森林对输入特征向量进行逐层有监督训练，加强了特征信息的表征能力，进而提高模型预测精度；

级联森林包含多个级联层，为了满足级联森林层间有监督学习的多样性，每个级联层都有不同类型的森林组成，包括随机森林和完全随机森林；多粒度扫描最终获得特征向量将作为第一层级联层的输入特征向量，对于回归任务，输入特征向量经过每个森林训练输出类向量，然后每一层的类向量与输入特征向量拼接在一起输入下一层，直到级联层间的有监督学习不再提高预测精度，级联过程将自动终止；对最后一层级联森林产生的最终的类向量通过平均值产生最终类向量，从中取最大概率所对应的类别作为原始输入特征的预测结果；为了避免过拟合的风险，每个完全随机森林和随机森林产生类向量都经过k折交叉验证产生，每个样本都将训练k-1次，产生k-1个类向量，然后对其取平均值作为输出结果。

本发明有益效效果：

1、本发明通过采用经验模态分解法(Empirical Mode Decomposition，EMD)依据历史数据的时间尺度特征对其进行分解，是一种自适应处理非线性及非平稳时间序列数据的方法。多粒度级联森林(Multi-grained cascade forest，gcForest)是一种基于分布式任务并行高效且可扩展的深度集成学习，以更少的超参数设置获得更高的预测精度，已被广泛应用在短期电力负荷预测、滚动轴承剩余寿命预测、光伏出力预测等方面，并获得了较好的预测效果。鉴于此，本发明提出了一种基于经验模态分解和多粒度级联森林的油中溶解特征气体浓度组合预测方法。考虑到变压器历史油中溶解气体浓度数据的非周期性和非平稳性，采用EMD方法对原始气体浓度数据进行分解，得到不同特征尺度的子序列分量；然后将分解后的子序列分量分别输入到gcForest模型中，获得各子序列分量的预测结果；最后叠加各子序列分量的预测值作为油中溶解特征气体浓度的最终预测结果。算例分析表明，EMD-gcForest组合预测模型能够更好地识别气体浓度的波动规律，从而提高油中溶解特征气体浓度的预测精度。

2、本发明提出的预测方法基于人工智能技术，挖掘出丰富的有效特征信息，可更加准确的对油中溶解特征气体浓度预测，及时反映变压器内部潜伏性故障及其发展趋势，预测结果可为变压器状态评估和故障预测提供重要依据。

3、利用EMD方法处理变压器油中溶解特征气体浓度序列，减小了油中溶解气浓度的非线性和非平稳性对预测结果的影响，提高了预测模型的精度。有利于准确分析油中溶解气体浓度序列的特征信息，从而提高模型预测精度。

4、利用gcForest模型的的多粒度扫描过程充分提取序列特征信息，级联森林过程精准训练预测。相较于其他5种预测模型，EMD-gcForest预测模型在预测精度方面均有较大的提升。

附图说明

下面结合附图和实施例对本发明作进一步说明。

图1是本发明的多粒度扫描过程。

图2是本发明的级联森林过程。

图3是本发明的EMD-gcForest预测模型流程。

图4是本发明的EMD分解结果。

图5是本发明的EMD-gcForest预测结果。

图6是本发明的不同模型预测值与真实值对比。

具体实施方式

下面结合附图对本发明的实施方式做进一步的说明。

实施例1：

请参阅图1-6，本发明提出了一种基于经验模态分解和多粒度级联森林的油中溶解特征气体浓度组合预测方法。考虑到变压器历史油中溶解气体浓度数据的非周期性和非平稳性，采用EMD方法对原始气体浓度数据进行分解，得到不同特征尺度的子序列分量。然后将分解后的子序列分量分别输入到gcForest模型中，获得各子序列分量的预测结果。最后叠加各子序列分量的预测值作为油中溶解特征气体浓度的最终预测结果。算例分析表明，EMD-gcForest组合预测模型能够更好地识别气体浓度的波动规律，从而提高油中溶解特征气体浓度的预测精度。

进一步的，所述经验模态分解法(Empirical Mode Decomposition，EMD)可以将原始数据分解为各不相同特征尺度的本征模态函数(Intrinsic Mode Function,IMF)分量和一个剩余分量，可以显现油中溶解气体浓度序列的特征，有利于准确分析历史数据的特征信息，从而提高预测精度。EMD方法的分解步骤如下：

Step1：对于原始气体浓度序列x(t)，确定所有局部极大值点和局部极小值点。

Step2：利用三次样条插值函数拟合全部的极值点，得到上包络线a₊(t)和下包络线a_-(t)，计算出上下包络线的平均值，如式(1)所示：

Step3：计算原始气体浓度序列x(t)与上下包络线平均值b(t)的差值，得到一个新数据序列c(t)，如式(2)所示：

c(t)＝x(t)-b(t) (2)

假如c(t)不符合IMF分量标准时，将其作为新的数据序列，重复以上步骤，直至满足IMF分量标准，则得到的c(t)是原始序列x(t)的第一个IMF分量，如式(3)所示

m₁(t)＝c(t) (3)

Step4：从原始气体浓度序列x(t)分解得到第一个IMF分量m₁(t)后，计算剩余分量序列，如式(4)所示：

r₁(t)＝x(t)-m₁(t) (4)

Step5：将其作为新的数据序列，不断重复以上步骤，当剩余分量r_n(t)是单调函数或常量时，或第n个IMF剩余分量r_n(t)低于预设值，则结束EMD过程。因此，原始气体浓度序列x(t)分解得到n个IMF分量和一个剩余分量r_n(t)，如式(5)所示：

剩余分量r_n(t)是原始气体浓度序列x(t)的平均值或趋势，IMF分量m_i(t)反映不同的特征尺度的序列分量。运用EMD方法分解为一系列不同尺度的平稳数据序列。通过对油中溶解特征气体浓度序列进行EMD处理后，可大大的提高预测模型的准确性。

进一步的，所述多粒度级联森林是基于决策树的深度集成学习方法，具有强大的表征学习能力。多粒度由多粒度扫描和级联森林两部分构成，通过多粒度扫描阶段提取各子序列分量的特征信息，级联森林结构可以自适应地确定级联层数，进行表征学习，提高模型的泛化能力。

其中，所述多粒度扫描可以有效地学习原始数据特征，提取状态特征信息，可以提高模型预测的准确性。多粒度扫描包含两个步骤：窗口扫描和特征转换。如图1所示。

多粒度级联森林通过滑动窗口扫描原始输入特征向量。假设原始输入特征向量为n维，滑动窗口大小为m维，滑动步长为s，滑动窗口每次移动一个滑动步长扫描原始输入特征，总共可以产生d＝(n-m)/s+1个m维特征实例。从中提取的特征实例将用于训练随机森林和完全随机森林，并每个森林都产生一个l维类别概率向量，因此每个森林都会产生d个l维特征向量，最终将两个森林输出特征向量拼接得到最终的转换特征向量。通过使用不同大小的滑动窗口，可以产生多尺度的特征向量，将包含原始输入向量更多的特征信息，最终，该特征向量可以用作级联森林的输入。

其中，所述级联森林反映了多粒度级联森林的深度学习过程。级联森林对输入特征向量进行逐层有监督训练，加强了特征信息的表征能力，有利于提高模型预测精度。过程如图2所示。

级联森林包含多个级联层，为了满足级联森林层间有监督学习的多样性，每个级联层都有不同类型的森林组成，例如随机森林和完全随机森林。多粒度扫描最终获得特征向量将作为第一层级联层的输入特征向量，对于回归任务，输入特征向量经过每个森林训练输出类向量，然后每一层的类向量与输入特征向量拼接在一起输入下一层，直到级联层间的有监督学习不再提高预测精度，级联过程将自动终止。对最后一层级联森林产生的最终的类向量通过平均值产生最终类向量，从中取最大概率所对应的类别作为原始输入特征的预测结果。为了避免过拟合的风险，每个完全随机森林和随机森林产生类向量都经过k折交叉验证产生。每个样本都将训练k-1次，产生k-1个类向量，然后对其取平均值作为输出结果。

实施例2：

EMD-gcForest组合预测模型：

变压器油中溶解特征气体浓度的发展演变是一个随着时间变化逐步积累的过程，因此，气体浓度序列数据具有非线性和非平稳特性。考虑到EMD能将气体浓度序列数据逐步分解，从而将非平稳的非线性数据转化为较为平稳的数据。与原始数据相比，分解后的数据序列具有更大的规律性，对识别深层隐含关系具有很大帮助。并且多粒度级联森林处理时序数据具有强大的特征提取和表征学习能力。考虑到使用单一预测方法不能更好追踪油中溶解气体的浓度变化趋势，本发明提出一种EMD-gcForest组合预测模型，其具体过程如图3所示。具体方法为：

Step1：将变压器油色谱数据按相同的比例划分出训练集和测试集。针对变压器油中溶解特征气体浓度序列的非线性和非平稳特性，对各特征气体浓度序列进行经验模态分解，可以得到各子序列分量IMF₁～IMF_n和剩余分量RES；

Step2：针对分解处理得到的各子序列分量分别采用归一化处理，利用各子序列分量的训练集和测试集分别对gcForest模型进行训练和预测，获得各子序列分量的预测值；

Step3：对各预测值进行反归一化处理，并叠加各子序列分量的预测值得到油中溶解特征气体浓度的最终结果；

Step4：通过对比油中溶解特征气体浓度的真实值，计算预测结果误差分析来评估EMD-gcForest模型预测性能。

实施例3：

算例分析：

本发明以某变压器油色谱在线监测装置收集的340组油中溶解特征气体浓度为数据集，前310组为模型的训练集，后30组为模型的测试集，并且7种油中溶解特征气体浓度的单位均为μL/L。本发明分析以变压器油中溶解特征气体氢气(H₂)浓度为例。

一、数据预处理：

针对原始H₂浓度数据序列，利用EMD分解方法对其逐级分解，获得6组IMF分量和一组剩余分量，EMD分解结果如图4所示。

经过EMD分解之后，将非平稳非线性的H₂浓度数据序列转化为较为光滑的线性数据。与原始数据序列相比，分解后的序列具有更大的规律性，对识别H₂气体浓度的隐含关系有很大帮助，可以提高预测精度。

为了减少数据量级的差异对模型性能的影响，需要对EMD分解得到的各子序列分量进行归一化处理，从而提升模型的训练速度和预测精度。为了实现所有的数据是在同一取值范围中，将数据归一化如式(6)所示。

其中，y和y^*分别为归一化前后的数据；y_min、y_max为某子序列分量的最小值与最大值。

二、模型超参数设置：

多粒度级联森林模型的超参数设置具有较高的稳定性，本发明主要采用默认的超参数设置，且调参过程相对简单。采用三个不同大小的滑动窗口，大小分别为5、10、15，滑动步长设置为1。级联森林层数最大值设置为5，如果连续五层以内模型的预测误差没有明显的下降，级联过程将自动终止，且级联森林的训练均采用5折交叉验证。

三、模型评价指标：

为了准确验证本发明所提的EMD-gcForest预测模型的预测性能，选用两种指标来评估模型的预测性能，评估指标采用平均绝对百分比误差和均方根误差两个指标，表达如式(7)和(8)所示：

式中，和x_i分别表示油中溶解气体含量的预测值和真实值；N表示评估过程中需要检验的数据个数；i表示数据序列编号。

四、EMD-gcForest模型预测结果：

本发明采用EMD-gcForest组合模型对油中溶解特征气体H₂浓度进行预测，H₂真实气体浓度值曲线与其他模型预测H₂气体浓度值曲线如图5所示。

EMD-gcForest模型预测值与实际值对比如图5所示，不同预测模型与实际值对比如图6所示。不同模型预测结果的评价指标如表1所示。

由表1可知：与LSTM预测模型和SVM预测模型相比，gcForest预测模型具有较高的预测精度。gcForest预测模型的y_MAPE分别降低了22.61％、41.05％，y_RMSE分别降低了21.15％、43.25％，说明gcForest预测模型可以有效处理时间序列数据。经过EMD处理后，EMD-gcForest、EMD-LSTM、EMD-SVM组合预测模型具有更好的模型性能。与未结合EMD方法的对应模型相比，其y_MAPE分别降低了38.09％、30.07％、28.14％，y_RMSE分别降低了29.88％、7.21％、28.37％。说明了EMD方法可以减小气浓度时间序列数据的非线性和非平稳性对预测结果的影响，提高了预测模型的精度。与其他模型相比，EMD-gcForest具有更高的预测精度。

表1不同模型预测误差对比

表2真实值与预测值对比及绝对百分比误差

表2为经过EMD方法处理的不同预测模型连续15天H₂浓度真实值和预测值对比及绝对百分比误差的汇总表。EMD-gcForest预测模型最大绝对百分比误差为2.196％，相较于EMD-LSTM、EMD-SVM预测模型分别降低了2.247％、1.014％，预测误差均低于其他预测模型，精度更高，体现了其优越性和有效性。

五、其他气体浓度预测结果：

为验证EMD-gcForest预测模型的优越性，对历史监测数据的其他油中溶解特征气体浓度进行预测。结果如表3所示。由表3中数据可知，EMD-gcForest预测模型相较于其他预测模型预测误差更低，EMD-gcForest组合模型的y_MAPE、y_RMSE均低于其他预测模型的预测误差，具有较高的泛化能力和鲁棒性。表明了本发明所提的预测模型具有较高的预测精度，更适用于电力变压器油中溶解特征气体浓度预测。

表3其他特征气体浓度结果对比

Claims

1.一种基于EMD-gcForest模型的变压器油中溶解气体浓度预测方法，其特征在于，所述预测方法基于变压器历史油中溶解气体浓度数据的非周期性和非平稳性，首先，采用经验模态分解法(Empirical Mode Decomposition，EMD)对原始气体浓度数据进行分解，得到不同特征尺度的子序列分量；然后，将分解后的子序列分量分别输入到多粒度级联森林(Multi-grained cascade forest，gcForest)模型中，获得各子序列分量的预测结果；最后，叠加各子序列分量的预测值作为油中溶解特征气体浓度的最终预测结果。

2.根据权利要求1所述一种基于EMD-gcForest模型的变压器油中溶解气体浓度预测方法，其特征在于，包括以下具体步骤：

3.根据权利要求2所述一种基于EMD-gcForest模型的变压器油中溶解气体浓度预测方法，其特征在于，所述经验模态分解法即为EMD方法，能够将原始数据分解为各不相同特征尺度的本征模态函数(Intrinsic Mode Function,IMF)分量和一个剩余分量，能够显现油中溶解气体浓度序列的特征，进而准确分析历史数据的特征信息，从而提高预测精度，EMD方法的分解步骤具体如下：

c(t)＝x(t)-b(t) (2)

m₁(t)＝c(t) (3)

r₁(t)＝x(t)-m₁(t) (4)

4.根据权利要求2所述一种基于EMD-gcForest模型的变压器油中溶解气体浓度预测方法，其特征在于，所述多粒度级联森林是基于决策树的深度集成学习方法，多粒度由多粒度扫描和级联森林两部分构成，通过多粒度扫描阶段提取各子序列分量的特征信息，级联森林结构能够自适应地确定级联层数，进行表征学习，提高模型的泛化能力。

5.根据权利要求4所述一种基于EMD-gcForest模型的变压器油中溶解气体浓度预测方法，其特征在于，所述多粒度扫描能够有效地学习原始数据特征，提取状态特征信息，进而提高模型预测的准确性，多粒度扫描包含两个步骤：窗口扫描和特征转换；

6.根据权利要求4所述一种基于EMD-gcForest模型的变压器油中溶解气体浓度预测方法，其特征在于，所述级联森林反映了多粒度级联森林的深度学习过程，级联森林对输入特征向量进行逐层有监督训练，加强了特征信息的表征能力，进而提高模型预测精度；