CN116842433A

CN116842433A - 一种基于集成学习及天牛须算法的配电网故障分类方法

Info

Publication number: CN116842433A
Application number: CN202310573757.9A
Authority: CN
Inventors: 岑正军; 朱勇; 滕阳; 吴金群; 陈愿米; 杨昌龙; 李洋; 潘兴玉; 黄飞; 任小诚; 龙俊; 杨道湖; 王晓智; 梁勇
Original assignee: Guizhou Power Grid Co Ltd
Current assignee: Guizhou Power Grid Co Ltd
Priority date: 2023-05-22
Filing date: 2023-05-22
Publication date: 2023-10-03

Abstract

本发明公开了一种基于集成学习及天牛须算法的配电网故障分类方法包括：从变压器样本的油色谱中获取测量到气体含量的历史数据，并将气体含量及故障类型进行标记；对数据进行预处理，运用均值法填充缺失数据，并运用相关性指标分析；根据已有的历史数据训练子学习器；采用天牛须优化算法对众多机器学习算法的参数进行智能调优；调用完成训练的集成学习预测模型进行变压器故障分类预测。本发明提供的基于集成学习及天牛须算法的配电网故障分类方法计算速度较快，在完成训练的集成学习网络的作用下，适用于不同数据集场景，为变压器进行故障在线预测和分类提供了基础和依据。

Description

一种基于集成学习及天牛须算法的配电网故障分类方法

技术领域

本申请涉及变压器故障诊断领域，特别涉及一种基于集成学习及天牛须算法的配电网故障分类方法。

背景技术

现有的油浸式变压器故障诊断常常采用溶解气体分析(Dissolved GasAnalysis，DGA)，不需要对设备进行停电试验，即可实现在线监测和诊断，因此，基于DGA进行变压器故障诊断技术在实际工程得到广泛应用，但是由于在线气体监测采集到大量的历史数据，同时产生大量的在线数据，如何结合历史数据做出准确分类是变压器故障诊断中的一个关键难题。

常用的5种特征气体为：氢气H2，甲烷CH4，乙烷C2H6，乙烯C2H4，乙炔C2H2，目前基于经验知识的方法主要有比值法，专家系统等，基于数据驱动的方法包括神经网络方法，聚类分析，关联分析等。然而，目前这两类方法都有一定的缺点，基于经验知识的方法只适用于特定的场景，基于数据驱动的方法需要大量的数据集。近年来，随着机器学习理论的快速发展，随机森林，梯度提升机GBM，CatBoost等新颖的算法的涌现等为故障分类、预测和识别提供了理论依据。这类网络学习的学习能力非常强，可以得到良好的预测结果，然而不同的机器学习算法适用场景以及对数据集合数据特征的要求有所不同，导致所建立的模型只适用于部分数据，传统故障分类算法模型的通用性阻碍了算法在实际工程中的应用。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述存在的问题，提出了本发明。

因此，本发明解决的技术问题是：传统故障诊断中诊断算法适用性不强的问题。

为解决上述技术问题，本发明提供如下技术方案：一种基于集成学习及天牛须算法的配电网故障分类方法，包括：

从变压器样本的油色谱中获取测量到气体含量的历史数据，并将气体含量及故障类型进行标记；

对数据进行预处理，运用均值法填充缺失数据，并运用相关性指标分析；

根据已有的历史数据训练子学习器；

采用天牛须优化算法对众多机器学习算法的参数进行智能调优；

调用完成训练的集成学习预测模型进行变压器故障分类预测。

作为本发明所述的基于集成学习及天牛须算法的配电网故障分类方法的一种优选方案，其中：

所述气体含量包括：氢气含量、甲烷含量、乙烷含量、乙烯含量、乙炔含量；

五种所述气体含量对应标记为：X＝[X₁，X₂，X₃，X₄，X₅]，其中X₁到X₅为特征气体含量的所述历史数据向量集，其长度与所述历史数据的样本数N相关；

所述故障类型包括：热性故障、电性故障、受潮故障；

所述故障类型对应标记为：Y＝[Y_1i，Y_2i，Y_3i]，其中i为对应气体含量的数字标号。

作为本发明所述的基于集成学习及天牛须算法的配电网故障分类方法的一种优选方案，其中：所述相关性指标的相关性系数r的计算公式为：

其中，X_i表示为特征气体含量的所述历史数据向量集，N表示为样本数量，Y_ji表示为对应气体的故障类型。

作为本发明所述的基于集成学习及天牛须算法的配电网故障分类方法的一种优选方案，其中：所述训练子学习器步骤包括，分别以K邻近算法，逻辑斯蒂回归，线性判别分析，决策树，随机森林，梯度提升机，开源机器学习框架为子学习器，通过变压器历史油色谱数据对所述子学习器进行训练。

作为本发明所述的基于集成学习及天牛须算法的配电网故障分类方法的一种优选方案，其中：所述天牛须优化算法进行智能调参的步骤为：

根据不同机器学习算法参数的取值范围设置参数的上下限，初始化BAS基本参数；

将适应度函数设置为基于该参数x情况下运用该机器学习算法进行预测的误差值err；

调用BAS算法进行参数优化，目标是最小化综合误差值err；

各个子学习器完成训练后，可以得到各个子学习器在最优参数下分类准确率。

作为本发明所述的基于集成学习及天牛须算法的配电网故障分类方法的一种优选方案，其中：所述各个子学习器在训练集、5次交叉验证集、测试集、总体数据集的分类准确率、各个分类准确率分别记为acc₁、acc₂、acc₃、acc₄、acc₅，算法的适应度函数为各个子学习器的分类准确率加权和，以最小化模型综合误差err为适应度，其表达式为：

其中，err为最小化模型综合误差，acc₁、acc₂、acc₃、acc₄、acc₅为各个分类准确率；

在保证模型算法的精度下，提高模型和算法的适用性，采用加权投票法的思想进行变压器故障分类预测，最终得分最高的类别为最终的分类类别；

投票法的权重计算公式如下：

式中，acc_i表示学习器i在当前样本的预测准确率。

作为本发明所述的基于集成学习及天牛须算法的配电网故障分类方法的一种优选方案，其中：采用所述天牛须优化算法对众多机器学习算法的参数进行智能调优，

当某个子学习器在训练集和交叉验证集中的分类准确率都很高，但在测试集中表现不佳，则考虑是否出现了过拟合现象；

当判断出现了过拟合现象时，则减小模型的复杂度，减小决策树的最大深度或减少随机森林的学习器数量；否则，增加模型的复杂度，增加决策树的最大深度或增加随机森林的学习器数量。

为解决上述技术问题，本发明提供如下技术方案：一种基于集成学习及天牛须算法的配电网故障分类系统，包括：

数据采集模块，用于收集配电网故障数据；

数据预处理模块，用于对采集到的配电网故障数据进行预处理，包括数据清洗、特征选择和特征提取操作；

特征选择模块，用于使用特征选择算法从预处理后的数据中选择出最具有代表性的特征，以提高故障分类的准确性；

分类器训练模块，用于构建多个不同的分类器，并在训练数据集上进行训练；

集成学习模块，用于将训练好的多个分类器进行集成，通过投票或加权平均的方式得出最终的分类结果；

故障分类模块，用于将待分类的故障数据输入到已经训练好的分类器中，由分类器输出该故障数据所属的故障类型。

一种计算机设备，包括：存储器和处理器；所述存储器存储有计算机程序，其特征在于：所述处理器执行所述计算机程序时实现本发明中任一项所述的方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现本发明中所述的方法的步骤。

本发明的有益效果：本发明提供的基于集成学习及天牛须算法的配电网故障分类方法计算速度较快，在完成训练的集成学习网络的作用下，适用于不同数据集场景，为变压器进行故障在线预测和分类提供了基础和依据；原理简单，便于理解。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明第一个实施例提供的一种基于集成学习及天牛须算法的配电网故障分类方法的实施流程图；

图2为本发明第一个实施例提供的一种基于集成学习及天牛须算法的配电网故障分类方法的变压器故障分类框架示意图；

图3为本发明第一个实施例提供的一种基于集成学习及天牛须算法的配电网故障分类方法的天牛须优化算法寻优仿生原理示意图；

图4为本发明第一个实施例提供的一种基于集成学习及天牛须算法的配电网故障分类方法的天牛须优化算法抽象化模型示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

参照图1-4，为本发明的一个实施例，提供了一种基于集成学习及天牛须算法的配电网故障分类方法，包括：

S1：从变压器样本的油色谱中获取测量到气体含量的历史数据，并将气体含量及故障类型进行标记；

应说明的是，气体含量包括：

氢气含量，甲烷含量，乙烷含量，乙烯含量，乙炔含量。

更进一步的，五种所述气体含量对应标记为：X＝[X₁，X₂，X₃，X₄，X₅]，其中X₁到X₅为特征气体含量的所述历史数据向量集，其长度与所述历史数据的样本数N相关；

应说明的是，故障类型包括：

热性故障，电性故障，受潮故障(可根据历史数据扩展各种故障类型)。

应说明的是，气体含量及故障类型可根据历史数据扩展，为保证计算的有效性，本发明取相关系数最高的5项指标作为变压器故障评估的技术指标。

S2：对数据进行预处理，运用均值法填充缺失数据，并运用相关性指标分析；

更进一步的，挑选出与某种故障类型相关性最高的气体含量指标，相关系数r的计算公式如下：

S3：根据已有的历史数据训练子学习器；

更进一步的，在提取关键指标后，根据已有的历史数据训练子学习器，在本发明的说明案例中，分别以K邻近算法(KNN)，逻辑斯蒂回归(LR)，线性判别分析(LDA)，决策树(DT)，随机森林(RF)，梯度提升机(GBM)，CatBoost(开源机器学习框架)为子学习器对变压器历史油色谱数据进行训练。其中，KNN涉及的参数为K；LR涉及的参数有C；DT涉及的参数有max_depth；RF涉及的参数有n_estimators；GBM涉及的参数有n_estimators和max_depth。

更进一步的，采用无监督学习算法，有监督学习算法以及集成学习算法，这为进行集成学习集合各种机器学习算法的优势提供了基础。

以天牛须优化算法对每个学习器的参数进行智能优化，其决策变量X即为上述6个待定的参数：x₁为KNN的聚类数(K)，x₂为LR的惩罚项(C)，x₃为DT的最大深度(max_depth)，x₄为RF的学习器数量(n_estimators)，x₅和x₆为GBM的n_estimators和max_depth：

X＝[x₁,x₂,x₃,x₄,x₅,x₆]

S4：采用天牛须优化算法对众多机器学习算法的参数进行智能调优；

应说明的是，众多的子学习器的参数调优涉及大量的人工操作，为了实现参数的自适应调优以及节省人力成本，本发明提出采用天牛须优化算法对众多机器学习算法的参数进行智能调优；

应说明的是，采用天牛须优化算法，以各个学习器的分类准确率作为适应度函数进行算法的参数调优，可以自动实现参数调节，而不需要大量人工介入对参数进行调整，且模型易于迁移到其他数据集进行应用，增强了模型和算法的通用性。

更进一步的，基于天牛须优化算法进行智能调参的基本步骤为：

调用BAS算法进行参数优化，目标是最小化综合误差值err；

更进一步的，各个子学习器在训练集，5次交叉验证集(按照1:4的比例划分)，测试集，总体数据集的分类准确率，各个分类准确率分别记为acc₁，acc₂，acc₃，acc₄，acc₅，算法的适应度函数为各个子学习器的分类准确率加权和，本发明的目标函数同时考虑5种子学习器的准确率，并取权重为1/5，以最小化模型综合误差err为适应度，其表达式如下：

其中，err为最小化模型综合误差，acc₁、acc₂、acc₃、acc₄、acc₅为各个分类准确率。

在保证模型算法的精度下，提高模型和算法的适用性，本文采用加权投票法的思想进行变压器故障分类预测，最终得分最高的类别为最终的分类类别。

更进一步的，投票法的权重计算公式如下：

式中，acc_i表示学习器i在当前样本的预测准确率。可以看出，当学习器i的预测准确率越高，其在集成学习投票集成中所占比例越大。基于这一特性，可以充分发挥各个学习器的优势，却不忽略弱学习器的作用，取长补短，提升集成学习器在不同数据集中的预测准确率。

应说明的是，采用集成学习算法对上述的子学习器进行集成，发挥各个子学习器在不同场景的优势。

更进一步的，采用天牛须优化算法对众多机器学习算法的参数进行智能调优，当某个子学习器在训练集和交叉验证集中的分类准确率都很高，但在测试集中表现不佳，则考虑是否出现了过拟合现象；

当判断出现了过拟合现象时，则减小模型的复杂度，减小决策树的最大深度或者减少随机森林的学习器数量；否则，增加模型的复杂度，增加决策树的最大深度或增加随机森林的学习器数量；

同时，注意不同子学习器之间的协同作用，逻辑斯蒂回归和线性判别分析可以用于处理线性可分问题，而决策树和随机森林可以用于处理非线性问题。

S5：调用完成训练的集成学习预测模型进行变压器故障分类预测

更进一步的，在评估测试集或者变压器在线监测的油色谱数据集上，调用完成训练的集成学习预测模型进行变压器故障分类预测，辅助相应的工作人员完成故障分类预测工作。

应说明的是，将集成学习算法应用到在线监测上，快速实现故障分类，为电网运维人员指定检修计划提供了基础和依据。

本实施例还提供一种计算设备，包括，存储器和处理器；存储器用于存储计算机可执行指令，处理器用于执行计算机可执行指令，实现如上述实施例提出的实现一种基于集成学习及天牛须算法的配电网故障分类方法。

本实施例还提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例提出的一种基于集成学习及天牛须算法的配电网故障分类方法。

本实施例提出的存储介质与上述实施例提出的一种基于集成学习及天牛须算法的配电网故障分类方法属于同一发明构思，未在本实施例中详尽描述的技术细节可参见上述实施例，并且本实施例与上述实施例具有相同的有益效果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器、磁变存储器、铁电存储器、相变存储器、石墨烯存储器等。易失性存储器可包括随机存取存储器或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器或动态随机存取存储器等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

实施例2

本发明的第二个实施例，本实例结合南方电网某地市供电局一个变压器的数据开展分析，包含了以下几个变量：

氢气含量(H₂)：0-1000ppm；甲烷含量(CH₄)：0-200ppm；乙烷含量(C₂H₆)：0-100ppm；乙烯含量(C₂H₄)：0-50ppm；乙炔含量(C₂H₂)：0-20ppm；设备温度(T)：20-120℃；环境湿度(RH)：0-100％。

其中，每个样本都被标记为以下4种类型中的一种：

正常样本：0；热性故障：1；电性故障：2；受潮故障：3。

基于仿真软件生成1000个样本，其中500个为正常样本，200个为热性故障样本，200个为电性故障样本，100个为受潮故障样本。

数据预处理：在本案例中，我们使用均值法填充缺失数据，并采用相关性指标分析，选择氢气含量(H₂)和甲烷含量(CH₄)作为与故障类型相关性最高的气体含量指标。

子学习器训练：我们采用K邻近算法，逻辑斯蒂回归，线性判别分析，决策树，随机森林和梯度提升机作为子学习器，对数据集进行训练。

参数调优：我们采用天牛须优化算法对子学习器的参数进行智能调优，以提高模型的分类准确率和效率，实现学习算法参数自趋优，得到最优的参数，KNN的K，LR的C，DT的max_depth，RF的n_estimators，GBM的n_estimators和max_depth。

集成学习：我们使用加权投票法进行集成学习，以最终得分最高的类别作为最终的分类类别。在本案例中，我们均衡各个评价指标，4个分类准确率各占0.25的权重。

模型评估：我们使用交叉验证的方法对模型进行评估，以分类准确率和效率作为评价指标。在本案例中，我们采用10折交叉验证，并使用F1-score和AUC作为评价指标。

通过以上步骤，我们得到了以下结果：

集成学习模型的分类准确率为0.92，F1-score为0.90，AUC为0.95；

传统机器学习模型中，随机森林模型的分类准确率最高，为0.88，F1-score为0.85，AUC为0.92；

在集成学习模型中，天牛须优化算法对子学习器的参数调优可以提高模型的分类准确率和效率；

在样本数据较小的情况下，集成学习方法可以提高分类准确率和效率，并且能够避免单一算法的过拟合或欠拟合。

综上所述，本案例数据验证了本申请所述的基于集成学习和天牛须优化算法智能调优的变压器故障快速分类方法的有效性和优越性。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于集成学习及天牛须算法的配电网故障分类方法，其特征在于，包括：

根据已有的历史数据训练子学习器；

2.如权利要求1所述的基于集成学习及天牛须算法的配电网故障分类方法，其特征在于：

所述故障类型包括：热性故障、电性故障、受潮故障；

3.如权利要求1所述的基于集成学习及天牛须算法的配电网故障分类方法，其特征在于：所述相关性指标的相关性系数r的计算公式为：

4.如权利要求1所述的基于集成学习及天牛须算法的配电网故障分类方法，其特征在于：所述训练子学习器步骤包括，分别以K邻近算法、逻辑斯蒂回归、线性判别分析、决策树、随机森林、梯度提升机、开源机器学习框架为子学习器，通过变压器历史油色谱数据对所述子学习器进行训练。

5.如权利要求1所述的基于集成学习及天牛须算法的配电网故障分类方法，其特征在于：所述天牛须优化算法进行智能调参的步骤为：

调用BAS算法进行参数优化，目标是最小化综合误差值err；

6.如权利要求4所述的基于集成学习及天牛须算法的配电网故障分类方法，其特征在于：所述各个子学习器在训练集、5次交叉验证集、测试集、总体数据集的分类准确率、各个分类准确率分别记为acc₁、acc_2、acc_3、acc_4、acc_5，算法的适应度函数为各个子学习器的分类准确率加权和，以最小化模型综合误差err为适应度，其表达式为：

采用加权投票法的思想进行变压器故障分类预测，最终得分最高的类别为最终的分类类别；

投票法的权重计算公式如下：

式中，acc_i表示学习器i在当前样本的预测准确率。

7.如权利要求5所述的基于集成学习及天牛须算法的配电网故障分类方法，其特征在于：采用所述天牛须优化算法对众多机器学习算法的参数进行智能调优，

8.一种基于集成学习及天牛须算法的配电网故障分类系统，其特征在于，包括：

数据采集模块：用于收集配电网故障数据；

数据预处理模块：用于对采集到的配电网故障数据进行预处理，包括数据清洗、特征选择和特征提取操作；

特征选择模块：用于使用特征选择算法从预处理后的数据中选择出最具有代表性的特征，以提高故障分类的准确性；

分类器训练模块：用于构建多个不同的分类器，并在训练数据集上进行训练；

集成学习模块：用于将训练好的多个分类器进行集成，通过投票或加权平均的方式得出最终的分类结果；

故障分类模块：用于将待分类的故障数据输入到已经训练好的分类器中，由分类器输出该故障数据所属的故障类型。

9.一种计算机设备，包括：存储器和处理器；所述存储器存储有计算机程序，其特征在于：所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。