CN117992873A

CN117992873A - 基于异构联邦学习的变压器故障分类方法及模型训练方法

Info

Publication number: CN117992873A
Application number: CN202410318809.2A
Authority: CN
Inventors: 吕增威; 周浩东; 向念文; 魏振春; 邵冰冰; 李科杰; 陈志伟
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2024-03-20
Filing date: 2024-03-20
Publication date: 2024-05-07
Anticipated expiration: 2044-03-20
Also published as: CN117992873B

Abstract

本发明涉及人工智能和电力变压器故障分类技术领域，尤其是一种基于异构联邦学习的变压器故障分类方法及模型训练方法。本发明中，在变压器故障分类模型的参数聚合过程中，对特征提取和分类器分开聚合，聚合后再在本地先训练特征提取器，再训练分类器。本发明在客户端训练过程中，分别固定特征提取器和分类器，降低了模型训练的偏差；使用全局特征提取参数指导各客户端的特征提取器训练，解决了异构模型特征空间不同的问题；使用分类器聚合操作，提高了模型的泛化性。

Description

基于异构联邦学习的变压器故障分类方法及模型训练方法

技术领域

本发明涉及人工智能和电力变压器故障分类技术领域，尤其是一种基于异构联邦学习的变压器故障分类方法及模型训练方法。

背景技术

在现代电力系统中，变压器被广泛用于电能转换与能量传输，其可靠运行对电力系统的安全运行有着极为重要的意义。但是变压器的故障可能会对电网运行造成严重影响，甚至导致大规模停电等问题。为了提高变压器故障分类的准确性，采用人工智能技术是一种有效的方法。然而，训练人工智能模型需要大量的有标注样本，在现实场景中，由于人工标注具有高成本、耗时、需要先验知识的问题，有标注的变压器故障数据的数量有限。现有方法大都需要将来自不同变电站的数据样本收集到一个数据中心，集中训练模型。由于变压器故障数据包含高度敏感的变电站设备隐私信息，出于隐私保护的考虑，变电站往往不愿意将数据与他人共享。

联邦学习是一种分布式机器学习方法，允许在不共享数据的情况下对模型进行训练。传统的联邦学习要求客户端采用统一的模型，但是不同变电站的数据可能有故障类别不平衡、故障数据规模不同以及运行速度要求不同的问题，需要针对不同变电站的实际情况选择适合的深度学习算法。可见，在隐私保护的前提下，电力变压器故障分类存在异构性的问题，成为上述方法实际应用的阻碍。

发明内容

为了克服上述现有技术中现代电力系统中变压器故障分类模型训练困难的缺陷，本发明提出了一种基于异构联邦学习的变压器故障分类模型训练方法，考虑到各变电站变压器故障数据的隐私性以及故障数据分布和适用模型的异构性，对传统的联邦学习方法进行改进，提出模型分步训练方法，设计特征提取器聚合、分类器聚合机制，提高了模型故障分类的准确率和稳定性

本发明提出的一种基于异构联邦学习的变压器故障分类模型训练方法，包括以下步骤：

S1、令用于本地训练和部署变电站的变压器故障分类模型的计算机为客户端，令对各个客户端上的变压器故障分类模型进行聚合的计算器为服务端；获取各个客户端的故障数据集，故障数据集用于存储客户端对应的变电站的变压器故障数据D_i；对各故障数据集中的各故障数据D_i进行切分，以构建各个变电站的学习样本{x_i,y_i}；x_i为故障数据D_i的切分数据；y_i为切分数据x_i的故障类别，y_i的形式为独热向量；1≤i≤N，N为客户端的数量；

S2、各个客户端的变压器故障分类模型进行本地训练；

S3、服务端对各客户端的特征提取器参数进行聚合，以获取全局特征提取参数θ；服务器对各客户端的分类器参数进行加权聚合，以获取对应各客户端的聚合分类参数ω'_i；

θ=∑^N _i=1[θ_i×D_i ^num/∑^N _i=1D_i ^num]

ω'_i=∑^N _j=1(α_ij×ω_j)

α_ij=[logθ_i-logθ_j]/[logθ_i ^N-logΠ^N _k=1θ_k]

其中，D_i ^num表示第i个客户端的故障数据集的数据量；ω_j表示第j个客户端的分类器参数，α_ij为聚合系数，ω'_i表示第i个客户端的聚合分类参数；θ_i表示第i个客户端的特征提取器的参数，θ_j表示第j个客户端的特征提取器的参数，θ_k表示第k个客户端的特征提取器的参数；Π表示连乘；

S4、各客户端采用服务端下发的对应的聚合分类参数ω'_i更新变压器故障分类模型的分类器；

S5、客户端将分类器参数更新为对应的聚合分类参数ω'_i后的变压器故障分类模型记作本地模型，客户端的本地模型的特征提取器参数更新为全局特征提取参数θ后记作参照模型；

S6、通过对比本地模型的预测结果和参照模型的预测结果的差异在，本地的学习样本构成的训练集上训练本地模型的特征提取器；特征提取器收敛后，再在本地的学习样本构成的训练集上训练本地模型的分类器，获取分类器收敛后的本地模型作为训练完成的变压器故障分类模型；

S7、循环步骤S1-S6，直至参数聚合次数达到设定的聚合次数阈值。

优选的，S6中，第i个客户端的特征提取器的训练过程包括以下分步骤：

S61、从第i个客户端的学习样本中抽取Q2个训练样本，将训练样本分别代入本地模型和参照模型，令本地模型对第q2个训练样本的预测结果向量记作p_s,i,q2，令参照模型对第q2个训练样本的预测结果向量记作p_t,i,q2；1≤q2≤Q2；

S62、计算本地模型的损失函数L_f(θ_i,θ,ω_i)；

L_f(θ_i,θ,ω_i)=∑^Q2 _q2=1[-p_s,i,q2×logp_t,i,q2(y_i,q2/p_t,i,q2)^λ+D_KL(θ_i||θ)]

其中，y_i,q2为第q2个训练样本的真实类别向量；λ为人工设置的超参数，可在区间(0,1]上取值；D_KL(θ_i||θ)表示θ_i和θ的离散度；

S63、判断损失函数是否收敛；否，则结合损失函数L_f(θ_i,θ,ω_i)更新本地模型的特征提取器参数，然后返回步骤S61；是，则固定本地模型的特征提取器参数，然后训练本地模型的分类器。

优选的，S63中，令结合损失函数L_f(θ_i,θ,ω_i)更新后的本地模型的特征提取器参数更新为θ'_i，

θ'_i=θ_i-η_f▽(θ_i,L_f(θ_i,θ,ω_i))

其中，η_f为人工设置的超参数，▽(θ_i,L_f(θ_i,θ,ω_i))表示L_f(θ_i,θ,ω_i)对θ_i的求导。

优选的：

D_KL(θ_i||θ)=∑^G _g=1[θ_i,g×log(θ_i,g/θ_g)]

其中，θ_i,g为θ_i的第g维数值，θ_g为θ的第g维数值，G为θ_i的数据维度总数。

优选的，S6中，第i个客户端的分类器的训练方式为：从第i个客户端的学习样本中选择训练样本，根据本地模型在训练样本上的第一损失函数更新分类器，直至本地模型收敛；

第一损失函数为：L_CE(ω_i,θ_i)=-∑^Q3 _q'=1∑^C _h=1(y_i,q',h×logy'_i,q',h)

其中，C为故障类别总数，Q3为分类器训练过程中每个批次迭代的训练样本数量，y_i,q',h为第q'个训练样本的真实标签y_i在第h个类别下的取值，y'_i,q',h为本地模型预测第q'个训练样本为第h个类别的概率值。

优选的，S6中，令第i个客户端的本地模型中，迭代前的分类器参数记作ω_i，令第i个客户端的本地模型中，迭代后的分类器参数记作ω''_i；

则，ω''_i=ω_i-η_c▽(ω_i,L_CE(ω_i,θ_i))

其中，η_c为人工设置的超参数；▽(ω_i,L_CE(ω_i,θ_i))表示L_CE(ω_i,θ_i)对ω_i的求导；S6中，本地模型的分类器迭代过程中，ω_i的初始化值为ω'_i。

优选的，各客户端的学习样本的构建方式为：获取客户端对应的变电站的变压器故障数据D_i；设定长度为s的窗口，以步长k对故障数据D_i进行切分，以获取多个切分数据构建学习样本；0.25s≤k≤0.75s。

本发明提出的一种变压器故障分类方法，包括以下步骤：

SA1、首先采用所述的基于异构联邦学习的变压器故障分类模型训练方法，对各客户端的变压器故障分类模型进行联邦训练；

SA2、然后采集变压器的振荡数据，对振荡数据进行切片以形成切片样本，切片样本与学习样本中的数据x_i等长，将切片样本输入本地的故障分类模型；

SA3、故障分类模型输出各切片样本对应的故障类别概率分布，故障类别概率分布中最大值对应的故障类别作为切片样本的故障诊断结果；

SA4、统计振荡数据切分后的所有切片样本中各故障诊断结果的出现频次，取频次最高的故障诊断结果作为当前诊断结果。

本发明的优点在于：

（1）本发明使用联邦学习框架完成变电站的变压器故障分类模型的训练，在保护变电站数据隐私的前提下，使模型达到较高的准确率。本发明将深度学习网络模型拆分为特征提取器和分类器，分别进行训练，解决了模型异构的问题。

（2）本发明在客户端训练过程中，分别固定特征提取器和分类器模块，降低了模型训练的偏差；使用全局特征提取参数指导各客户端的特征提取器训练，解决了异构模型特征空间不同的问题；使用分类器聚合操作，提高了模型的泛化性。

附图说明

图1为基于异构联邦学习的变压器故障分类模型训练方法流程图；

图2为客户端和服务端的通信示意图；

图3为客户端在全局聚合后进行本地更新的流程图；

图4为本发明方法训练的变压器故障分类模型精确度统计；

图5为传统联邦学习方法训练的变压器故障分类模型精确度统计。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施方式中，令用于本地训练和部署变电站的变压器故障分类模型的计算机为客户端，令对各个客户端上的变压器故障分类模型进行聚合的计算器为服务端；客户端的数量为N；服务端数量为1个；令第i个变电站的变压器故障数据记作D_i；1≤i≤N。

变压器故障分类模型划分为特征提取器和分类器，特征提取器用于提取数据样本的数据特征，分类器基于数据特征判断变压器的故障类别；第i个变电站对应的变压器故障分类模型的特征提取器参数记作θ_i，第i个变电站对应的变压器故障分类模型的分类器参数记作ω_i；

变压器的故障类别具体可设置为：接地短路、匝间短路、铁芯松动、绕组变形、直流偏磁、绕组松动，一共6类。

参照图1、图2，本实施方式提供的基于异构联邦学习的变压器故障分类模型训练方法，包括以下步骤：

S1、获取各个客户端的故障数据集，故障数据集用于存储客户端对应的变电站的变压器故障数据D_i；对各故障数据集中的各故障数据D_i进行切分，以构建各个变电站的学习样本{x_i,y_i}；x_i为故障数据D_i的切分数据，其长度为设定的切片窗口长度；y_i为切分数据x_i的故障类别，即变电站在生成切分数据x_i时的故障类别，以独热向量表示；

具体实施时，可设定长度为s的窗口，以步长k对故障数据D_i进行切分，以获取多个切分数据构建学习样本；相邻切分数据的重叠率r=(s-k)/s；

S2、各个客户端的变压器故障分类模型进行本地训练；

第i个客户端的变压器故障分类模型的本地训练包括以下分步骤：

S21、抽取第i个客户端的多个学习样本作为训练样本，令变压器故障分类模型对训练样本进行学习；

S22、抽取第i个客户端的Q1个学习样本作为验证样本，令变压器故障分类模型预测验证样本的故障类别概率分布，结合验证样本的故障类别预测值和真实值计算模型损失；

模型损失的计算公式为：

L_CE=-∑^Q1 _q=1∑^C _h=1(y_i,q,h×logy'_i,q,h)

其中，C为故障类别总数；y_i,q,h为第q个验证样本的真实标签y_i在第h个类别下的取值，如果第q个验证样本属于第h个类别，则y_i,q,h=1，反之y_i,q,h=0；y'_i,q,h为变压器故障分类模型预测的第q个验证样本的故障类别概率分布中第h个类别对应的概率值。

S23、判断模型损失是否收敛；否，则返回步骤S21；是，则完成本地训练。

S3、服务端对各客户端的特征提取器参数θ_i进行聚合，以获取全局特征提取参数θ；服务器对各客户端的分类器参数ω_i进行加权聚合，以获取对应各客户端的聚合分类参数ω'_i；

θ=∑^N _i=1[θ_i×D_i ^num/∑^N _i=1D_i ^num]

其中，D_i ^num表示第i个客户端的故障数据集的数据量。

ω'_i=∑^N _j=1(α_ij×ω_j)

α_ij=[logθ_i-logθ_j]/[logθ_i ^N-logΠ^N _k=1θ_k]

其中，α_ij为聚合系数，ω'_i表示第i个客户端的聚合分类参数；θ_j表示第j个客户端的特征提取器的参数，θ_k表示第k个客户端的特征提取器的参数；Π表示连乘；

S4、第i个客户端采用服务端下发的聚合分类参数ω'_i更新变压器故障分类模型的分类器；

S5、令第i个客户端将分类器参数更新为聚合分类参数ω'_i后的变压器故障分类模型记作本地模型，将第i个客户端的本地模型的特征提取器参数更新为全局特征提取参数θ后记作第i个客户端的参照模型；

S6、训练各个客户端的特征提取器和分类器；

参照图3，第i个客户端的特征提取器的训练过程包括以下分步骤：

S61、从第i个客户端的学习样本中抽取Q2个训练样本，将训练样本分别代入本地模型和参照模型，令本地模型对第q2个训练样本的预测结果向量记作p_s,i,q2，令参照模型对训练样本的预测结果向量记作p_t,i,q2；1≤q2≤Q2；

S62、计算本地模型的损失函数L_f(θ_i,θ,ω_i)；

D_KL(θ_i||θ)=∑^G _g=1[θ_i,g×log(θ_i,g/θ_g)]

其中，θ_i,g为θ_i的第g维数值，θ_g为θ的第g维数值，G为θ_i的数据维度总数；

值得注意的是，为了提高训练效率，S61中对学习样本采用不放回抽样方式，随机抽取训练样本。

S63、判断损失函数是否收敛；否，则将本地模型的特征提取器参数更新为θ'_i，然后返回步骤S61；是，则固定本地模型的特征提取器参数，然后训练本地模型的分类器；

θ'_i=θ_i-η_f▽(θ_i,L_f(θ_i,θ,ω_i))

其中，η_f为人工设置的超参数，可在区间(0,0.1]上取值；▽(θ_i,L_f(θ_i,θ,ω_i))表示L_f(θ_i,θ,ω_i)对θ_i的求导。

本实施方式中，判断损失函数收敛的条件为：连续M1次的损失函数变化幅度小于设定的损失浮差值。

本地模型的分类器的训练方式为：从第i个客户端的学习样本中选择训练样本，根据本地模型在训练样本上的第一损失函数更新分类器，直至本地模型收敛；

具体的，第一损失函数，可以是任意损失，比如均方差损失、交叉熵损失等。

本实施例中，定义第一损失函数的计算公式为：

L_CE(ω_i,θ_i)=-∑^Q3 _q'=1∑^C _h=1(y_i,q',h×logy'_i,q',h)

其中，C为故障类别总数，Q3为分类器训练过程中每个批次迭代的训练样本数量；y_i,q',h为第q'个训练样本的真实标签y_i在第h个类别下的取值，如果第q'个训练样本属于第h个类别，则y_i,q',h=1，反之y_i,q',h=0；y'_i,q',h为本地模型预测第q'个训练样本为第h个类别的概率值。

第i个客户端的分类器的训练过程包括以下分步骤：

S64、从第i个客户端的学习样本中抽取Q3个训练样本，令本地模型对训练样本进行预测，输出预测的故障类别概率分布；

S65、计算第一损失函数，判断第一损失函数是否收敛；是，则固定本地模型，执行步骤S7；否，则根据第一损失函数将本地模型的分类器参数更新为ω''_i，然后返回步骤S64；

ω''_i=ω_i-η_c▽(ω_i,L_CE(ω_i,θ_i))

其中，η_c为人工设置的超参数，可在区间(0,0.1]上取值；▽(ω_i,L_CE(ω_i,θ_i))表示L_CE(ω_i,θ_i)对ω_i的求导；ω_i为本地模型迭代前的分类器参数，本地模型的分类器迭代过程中，ω_i的初始化值为ω'_i。

S7、判断客户端的参数聚合次数是否达到设定的聚合次数阈值；否，则客户端的变压器故障分类模型更新为本地模型，然后返回步骤S3；是，则完成训练。

实施例

本实施例中，选取多个不同地区的变电站故障状态下采集到的变压器振动数据作为研究对象，训练变压器故障分类模型，以对本发明提出的基于异构联邦学习的变压器故障分类方法进行验证。

本实施例中，采用上述变压器故障分类模型对上述故障数据进行分类。

令用于本地训练和部署变电站的变压器故障分类模型的计算机为客户端，令对各个客户端上的变压器故障分类模型进行聚合的计算器为服务端。

本实施例中，变压器的故障类别设置为6类，包括：接地短路、匝间短路、铁芯松动、绕组变形、直流偏磁、绕组松动，故障标注以独热向量表示，例如向量100000表示接地短路，010000表示匝间短路，以此类推。

本实施例中，以变电站采集到的变压器振动数据作为客户端的故障数据集，构建各客户端的学习样本{x_i,y_i}，为x_i变压器振动数据切片；本实施例中，构建学习样本时，设置s=512，r=0.5；即针对变电站采集到的变压器振动数据采用宽度为s的窗口以步长256进行切片获取数据x_i，以构建学习样本。

本实施例中，将学习样本按照7:3的比例分为训练集和测试集。

在训练集上分别采用本发明提供的基于异构联邦学习的变压器故障分类模型训练方法和传统的联邦学习方法FedAvg对客户端上的变压器故障分类模型进行训练；在测试集上对变压器故障分类模型的精确度进行测试。

本实施例中，采用本发明提供的基于异构联邦学习的变压器故障分类模型训练方法训练变压器故障分类模型时，超参数设置为：λ=0.9，η_f=η_c=0.01。

本实施例中，模型训练的终止条件设置为：客户端与服务器总计通信200次，即参数聚合200次。

本实施例中，为了验证本方法在解决异构电力变压器分类模型训练问题方面的有效性，按照提供的数据量，设置不同客户端的变压器故障分类模型的结构；具体的，提供数据量最少的变电站电力变压器故障分类模型选用MLP模型，提供数据量最多的变电站电力变压器故障分类模型选用Transformer模型，其他变电站电力变压器故障分类模型选用12层一维卷积神经网络模型。

本实施例中，在本发明提供的基于异构联邦学习的变压器故障分类模型训练方法下，各变压器故障分类模型的诊断结果的正确率随全局通信轮次的变化曲线图如图4所示；在传统联邦学习方法FedAvg的训练方法下，各变压器故障分类模型的分类结果的正确率随全局通信轮次的变化曲线如图5所示。结合图4、图5可知，本发明提供的基于异构联邦学习的变压器故障分类模型训练方法下，全局通信次数达到50次时，变压器故障分类模型的准确率达到70%以上，且随着全局通信次数的增加，模型的准确性波动较小，模型收敛时的精确度可达到77%左右；传统联邦学习方法FedAvg的训练方法下，变压器故障分类模型的准确率始终未达到70%，且随着全局通信次数的增加，模型的准确性波动较为剧烈。可见，相较于FedAvg方法在分类准确率和稳定性方面都有较大的提升。

当然，对于本领域技术人员而言，本发明不限于上述示范性实施例的细节，而还包括在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现的相同或类似结构。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

本发明未详细描述的技术、形状、构造部分均为公知技术。

Claims

1.一种基于异构联邦学习的变压器故障分类模型训练方法，其特征在于，包括以下步骤：

S2、各个客户端的变压器故障分类模型进行本地训练；

θ=∑^N _i=1[θ_i×D_i ^num/∑^N _i=1D_i ^num]

ω'_i=∑^N _j=1(α_ij×ω_j)

α_ij=[logθ_i-logθ_j]/[logθ_i ^N-logΠ^N _k=1θ_k]

S6、通过对比本地模型的预测结果和参照模型的预测结果的差异，在本地的学习样本构成的训练集上训练本地模型的特征提取器；特征提取器收敛后，再在本地的学习样本构成的训练集上训练本地模型的分类器，获取分类器收敛后的本地模型作为训练完成的变压器故障分类模型；

2.如权利要求1所述的基于异构联邦学习的变压器故障分类模型训练方法，其特征在于，S6中，第i个客户端的特征提取器的训练过程包括以下分步骤：

S62、计算本地模型的损失函数L_f(θ_i,θ,ω_i)；

3.如权利要求2所述的基于异构联邦学习的变压器故障分类模型训练方法，其特征在于，S63中，令结合损失函数L_f(θ_i,θ,ω_i)更新后的本地模型的特征提取器参数更新为θ'_i，

θ'_i=θ_i-η_f▽(θ_i,L_f(θ_i,θ,ω_i))

4.如权利要求2所述的基于异构联邦学习的变压器故障分类模型训练方法，其特征在于：

D_KL(θ_i||θ)=∑^G _g=1[θ_i,g×log(θ_i,g/θ_g)]

5.如权利要求1所述的基于异构联邦学习的变压器故障分类模型训练方法，其特征在于，S6中，第i个客户端的分类器的训练方式为：从第i个客户端的学习样本中选择训练样本，根据本地模型在训练样本上的第一损失函数更新分类器，直至本地模型收敛；

6.如权利要求5所述的基于异构联邦学习的变压器故障分类模型训练方法，其特征在于，S6中，令第i个客户端的本地模型中，迭代前的分类器参数记作ω_i，令第i个客户端的本地模型中，迭代后的分类器参数记作ω''_i；

则，ω''_i=ω_i-η_c▽(ω_i,L_CE(ω_i,θ_i))

7.如权利要求1所述的基于异构联邦学习的变压器故障分类模型训练方法，其特征在于，各客户端的学习样本的构建方式为：获取客户端对应的变电站的变压器故障数据D_i；设定长度为s的窗口，以步长k对故障数据D_i进行切分，以获取多个切分数据构建学习样本；0.25s≤k≤0.75s。

8.一种采用如权利要求1-7任一项所述的基于异构联邦学习的变压器故障分类模型训练方法的变压器故障分类方法，其特征在于，包括以下步骤：

SA1、首先采用如权利要求1-7任一项所述的基于异构联邦学习的变压器故障分类模型训练方法，对各客户端的变压器故障分类模型进行联邦训练；