CN110927478B

CN110927478B - 一种确定电力系统变压器设备的状态的方法和系统

Info

Publication number: CN110927478B
Application number: CN201911017379.6A
Authority: CN
Inventors: 张书琦; 王健一; 程涣超; 汪可; 刘雪丽; 遇心如; 孙建涛; 赵志刚; 汤浩; 吴超; 赵晓宇; 赵晓林; 王琳; 徐征宇; 杨帆; 梁宁川; 吕晓露
Original assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI
Current assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI
Priority date: 2019-10-24
Filing date: 2019-10-24
Publication date: 2022-11-08
Anticipated expiration: 2039-10-24
Also published as: CN110927478A

Abstract

本发明提供一种确定电力系统变压器设备的状态的方法和系统。所述方法和系统通过对采集的确定电力系统变压器设备的状态的N种气体的特征值数据进行处理后，生成有效样本集，按照预先设置的比例对有效样本集进行分配，生成训练集和测试集；根据建立的logistic回归模型，以及训练集和测试集确定最优logistic分类器，并利用所述最优logistic分类器，根据变压器设备的实际运行中的N种气体的特征值数据，输出电力系统变压器的状态。所述方法利用正样本合成算法，对模型的精准度有一定的提升，而且模型对数据的要求较低，对于海量的变压器气体特征值的分析能力较强，能够较好地实现分类，进而对变压器的运行状态做出判断。

Description

一种确定电力系统变压器设备的状态的方法和系统

技术领域

本发明涉及电力设备监控领域,并且更具体地，涉及一种确定电力系统变压器设备的状态的方法和系统。

背景技术

传统的电力设备检修方法主要基于对设备的油中溶解气体的组分和含量进行分析的油中溶解气体分析方法(Dissolved Gas Analysis，DGA)。近年来，大量的学者们将各种大数据分析的方法广泛运用于电力设备的状态检修工作中，取得了较好的成果。主要的方法为：BP神经网络、模糊聚类、随机森林和支持向量机等非参数的方法，此类方法在一定程度上极大地提升了状态评价的准确性，但结果还是相对比较模糊，无法显示表现各气体组分与电力设备之间存在的相关性。

发明内容

为了解决现有技术中电力设备检修方法的结果相对模糊，无法显示表现各气体组分与电力设备之间存在的相关性的技术问题，本发明提供一种确定电力系统变压器设备的状态的方法，所述方法包括：

采集若干组确定电力系统变压器设备的状态的N种气体的特征值数据，生成初始样本集，其中，所述变压器设备的状态包括正常和异常；

对初始样本集中的数据进行缺失值和异常值处理，并对所述初始样本集中的正样本进行正样本合成，建立有效样本集，其中，所述缺失值是样本中缺失的N种气体的特征值，异常值是预先设置的N种气体特征值的极端值；

按照预先设置的比例对有效样本集进行分配，生成训练集和测试集；

建立以变压器的状态为响应变量，以N种气体的特征值数据为解释变量的logistic回归模型；

基于训练集和设置的所述回归模型的误差限值，确定所述logistic回归模型的回归参数，生成确定变压器设备的状态的第一初始logistic分类器；

基于训练集，采用交叉验证法对所述第一初始logistic分类器进行训练和测试，生成确定变压器设备的状态的第二原始logistic分类器；

基于测试集和确定变压器设备的状态的第二原始logistic分类器，生成确定变压器设备的状态的最优logistic分类器；

基于确定的最优logistic分类器，根据变压器设备的实际运行中的N种气体的特征值数据，输出电力系统变压器的状态。

进一步地，所述对初始样本集中的数据进行缺失值和异常值处理，并对所述初始样本集中的正样本进行正样本合成，建立有效样本集包括：

去除原始样本集中存在无效数据的样本，其中，所述无效数据是指一组样本中有n个缺失值和/或异常值；

当一组样本中存在小于n个的缺失值和/或异常值时，采用邻近均值法替代所述样本中的缺失值和/或异常值；

对于原始样本集中的正样本，采用SMOTE过采样算法进行正样本合成，生成新的正样本；

将新的正样本加入原始样本集中，形成有效样本集。

进一步地，所述建立以变压器的状态为响应变量，以N种气体的特征值数据为解释变量的logistic回归模型，所述logistic回归模型的表达式为：

式中，p表示设备处于正常状态时的概率，Y为变压器设备的状态，1表示正常，X为模型的输入，即所述有效样本集中N种气体的特征值数据，β为回归系数，β₀为截距项，其中，所述β₀的设置的常数，β的初始值为随机设定的值；

当训练集的样本数据为m时，其目标函数为：

采用最小二乘法或者梯度下降法确定使所述目标函数最小的回归系数β。

进一步地，所述基于训练集和设置的所述回归模型的误差限值，确定所述logistic回归模型的回归参数，生成确定变压器设备的状态的第一初始logistic分类器包括：

步骤1、引入sigmoid函数将所述训练集中的连续化的数值离散化；

步骤2、将所述β的初始值代入logistic回归模型h_β(x)进行训练；

步骤3、根据所述训练的误差小于设置的误差限值时的回归参数β的值，生成确定变压器设备的状态的第一初始logistic分类器；

步骤4、当所述训练的误差大于等于设置的误差限值时，采用最小二乘法或者梯度下降法调整回归参数β，并返回步骤2。

进一步地，所述基于训练集，采用交叉验证法优化回归参数，生成确定变压器设备的状态的最优logistic分类器是指采用随机抽样的方法将训练集中的一部分作为测试集，其余的部分作为新的训练集，构建logistic回归模型，并求解所述logistic回归模型的平均误差，将最小平均误差所对应的logistic回归模型作为最优logistic分类器。

根据本发明的另一方面，本发明提供一种确定电力系统变压器设备的状态的系统，所述系统包括：

初始样本单元，其用于采集若干组确定电力系统变压器设备的状态的N种气体的特征值数据，生成初始样本集，其中，所述变压器设备的状态包括正常和异常；

有效样本单元，其用于对初始样本集中的数据进行缺失值和异常值处理，并对所述初始样本集中的正样本进行正样本合成，建立有效样本集，其中，所述缺失值是样本中缺失的N种气体的特征值，异常值是预先设置的N种气体特征值的极端值；

样本分配单元，其用于按照预先设置的比例对有效样本集进行分配，生成训练集和测试集；

模型建立单元，其用于建立以变压器的状态为响应变量，以N种气体的特征值数据为解释变量的logistic回归模型；

初始模型单元，其用于基于训练集和设置的所述回归模型的误差限值，确定所述logistic回归模型的回归参数，生成确定变压器设备的状态的第一初始logistic分类器，以及基于训练集，采用交叉验证法对所述第一初始logistic分类器进行训练和测试，生成确定变压器设备的状态的第二原始logistic分类器；

最优模型单元，其用于基于测试集和确定变压器设备的状态的第二原始logistic分类器，生成确定变压器设备的状态的最优logistic分类器；

状态确定单元，其用于基于确定的最优logistic分类器，根据变压器设备的实际运行中的N种气体的特征值数据，输出电力系统变压器的状态。

进一步地，所述有效样本单元包括：

第一处理单元，其用于去除原始样本集中存在无效数据的样本，其中，所述无效数据是指一组样本中有n个缺失值和/或异常值；

第二处理单元，其用于当一组样本中存在小于n个的缺失值和/或异常值时，采用邻近均值法替代所述样本中的缺失值和/或异常值；

第三处理单元，其用于对于原始样本集中的正样本，采用SMOTE过采样算法进行正样本合成，生成新的正样本；

样本合并单元，其用于将新的正样本加入原始样本集中，形成有效样本集。

进一步地，所述模型建立单元确定的logistic回归模型的表达式为：

当训练集的样本数据为m时，其目标函数为：

进一步地，所述初始模型单元基于训练集和设置的所述回归模型的误差限值，确定所述logistic回归模型的回归参数，生成确定变压器设备的状态的第一初始logistic分类器包括：

进一步地，所述最优模型单元基于训练集，采用交叉验证法优化回归参数，生成确定变压器设备的状态的最优logistic分类器是指采用随机抽样的方法将训练集中的一部分作为测试集，其余的部分作为新的训练集，构建logistic回归模型，并求解所述logistic回归模型的平均误差，将最小平均误差所对应的logistic回归模型作为最优logistic分类器。

本发明技术方案提供的确定电力系统变压器设备的状态的方法和系统通过对采集的确定电力系统变压器设备的状态的N种气体的特征值数据进行处理后，生成有效样本集，按照预先设置的比例对有效样本集进行分配，生成训练集和测试集；根据建立的logistic回归模型，以及训练集和测试集确定最优logistic分类器，并利用所述最优logistic分类器，根据变压器设备的实际运行中的N种气体的特征值数据，输出电力系统变压器的状态。本发明所述的确定电力系统变压器设备的状态的方法和系统采用logistic回归模型对设备的运行状态进行评价，其有益效果为：

首先，利用正样本合成算法，解决了实际生产信息化系统中的数据缺失严重、类别不平衡问题，对模型的精准度有一定的提升；

其次，logistic模型较其他分类模型而言，能够较好地处理二分类问题，并且可以极大程度上避免模型的“过拟合”，同时该模型可以显示表达回归方程，也即模型的可解释能力较强；

最后，在实际应用中，模型易于实现，对数据的要求较低，对于海量的变压器气体特征值的分析能力较强，能够较好地实现分类，进而对变压器的运行状态做出判断。

附图说明

通过参考下面的附图，可以更为完整地理解本发明的示例性实施方式：

图1为根据本发明优选实施方式的确定电力系统变压器设备的状态的方法的流程图；

图2为根据本发明优选实施方式的确定电力系统变压器设备的状态的系统的结构示意图。

具体实施方式

现在参考附图介绍本发明的示例性实施方式，然而，本发明可以用许多不同的形式来实施，并且不局限于此处描述的实施例，提供这些实施例是为了详尽地且完全地公开本发明，并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中，相同的单元/元件使用相同的附图标记。

除非另有说明，此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外，可以理解的是，以通常使用的词典限定的术语，应当被理解为与其相关领域的语境具有一致的含义，而不应该被理解为理想化的或过于正式的意义。

图1为根据本发明优选实施方式的确定电力系统变压器设备的状态的方法的流程图。如图1所示，本优选实施方式所述的确定电力系统变压器设备的状态的方法100从步骤101开始。

在步骤101，采集若干组确定电力系统变压器设备的状态的N种气体的特征值数据，生成初始样本集，其中，所述变压器设备的状态包括正常和异常。

在本优选实施方式中，所述气体一共8种，分别是CH4、C2H6、C2H4、C₂H₂、H₂、CO、CO₂。

在步骤102，对初始样本集中的数据进行缺失值和异常值处理，并对所述初始样本集中的正样本进行正样本合成，建立有效样本集，其中，所述缺失值是样本中缺失的N种气体的特征值，异常值是预先设置的N种气体特征值的极端值。

在实际应用中，由于目前在线监测装置在传回数据时具有不稳定性，所述数据中会存在缺失值和异常值。至于变压器工作异常本身就是一个绝对稀少的小概率事件，对正样本进行合成，构建数量均衡的样本，对建立准确的评估模型意义重大。

优选地，所述对初始样本集中的数据进行缺失值和异常值处理，并对所述初始样本集中的正样本进行正样本合成，建立有效样本集包括：

将新的正样本加入原始样本集中，形成有效样本集。

在本优选实施方式中，采用SMOTE算法合成新的正样本的策略是对每个正样本a，从它的最近邻中随机选一个样本b，然后在a、b之间的连线上随机选一点作为新合成的正样本。

具体步骤如下：

1、对于每一个正样本a，以欧氏距离为标准计算它到少数类样本集中所有样本的距离，得到其k近邻。

2、根据样本不平衡比例设置一个采样比例以确定采样倍率N，对于每一个正样本a，从其k近邻中随机选择若干个样本，假设选择的近邻为b。

3、对于每一个随机选出的近邻b，分别与原样本a按照如下的公式构建新的样本:c＝a+rand(0,1)*|a-b|。

在步骤103，按照预先设置的比例对有效样本集进行分配，生成训练集和测试集。通常设置的比例为7:3，或者8:2。

在步骤104，建立以变压器的状态为响应变量，以N种气体的特征值数据为解释变量的logistic回归模型。

优选地，所述建立以变压器的状态为响应变量，以N种气体的特征值数据为解释变量的logistic回归模型，所述logistic回归模型的表达式为：

式中，p表示设备处于正常状态时的概率，Y为变压器设备的状态，1表示正常，X为模型的输入，即所述有效样本集中N种气体的特征值数据，β为回归系数，β₀为截距项，其中，所述β₀是预先设置的常数，β的初始值为随机设定的值；

当训练集的样本数据为m时，其目标函数为：

在步骤105，基于训练集和设置的所述回归模型的误差限值，确定所述logistic回归模型的回归参数，生成确定变压器设备的状态的第一初始logistic分类器。

优选地，所述基于训练集和设置的所述回归模型的误差限值，确定所述logistic回归模型的回归参数，生成确定变压器设备的状态的第一初始logistic分类器包括：

Logistic回归处理二分类问题的实质就是对数据集建立回归公式，进而实现分类。为了更好的实现分类，引入sigmoid函数将连续化的数值离散化，这样的计算结果只会是[0,1]之间的值，故将0.5以上的归为一类，0.5以下的归为一类。其核心问题就是分类器的训练，也即最优回归参数的确定，实质上就是根据已知的数据(训练集)确定一个使得目标函数的值最小的a(参数向量/回归系数)的过程。

在步骤106，基于训练集，采用交叉验证法对所述第一初始logistic分类器进行训练和测试，生成确定变压器设备的状态的第二原始logistic分类器。

优选地，所述基于训练集，采用交叉验证法优化回归参数，生成确定变压器设备的状态的最优logistic分类器是指采用随机抽样的方法将训练集中的一部分作为测试集，其余的部分作为新的训练集，构建logistic回归模型，并求解所述logistic回归模型的平均误差，将最小平均误差所对应的logistic回归模型作为最优logistic分类器。

在步骤107，基于测试集和确定变压器设备的状态的第二原始logistic分类器，生成确定变压器设备的状态的最优logistic分类器。

一般情况下可以利用logistic分类器的整体正确率来对模型的预测性能进行评价，但是，作为一个分类任务，我们更需要关注的是该模型在每种类别上的预测能力，所以采用FPR(特异度)和TPR(灵敏度)对模型的分类效果做一个综合评价，一个好的分类器，灵敏度应接近1，特异度应接近0。

基于logistic回归模型确定变压器的设备状态的混淆矩阵如表1所示：

表1混淆矩阵

基于混淆矩阵，可以计算模型的特异度和灵敏度，公式分别为：

本发明所述的最优logistic分类器充分考虑模型的泛化能力和稳定性，并采用交叉验证方法避免“欠拟合”问题，通过校核，最优logistic分类器预测的准确率为86.25％，召回率(TPR)为94.29％。

在步骤108，基于确定的最优logistic分类器，根据变压器设备的实际运行中的N种气体的特征值数据，输出电力系统变压器的状态。

图2为根据本发明优选实施方式的确定电力系统变压器设备的状态的系统的结构示意图。如图2所示，本优选实施方式所述的确定电力系统变压器设备的系统200包括：

初始样本单元201，其用于采集若干组确定电力系统变压器设备的状态的种气体的特征值数据，生成初始样本集，其中，所述变压器设备的状态包括正常和异常；

有效样本单元202，其用于对初始样本集中的数据进行缺失值和异常值处理，并对所述初始样本集中的正样本进行正样本合成，建立有效样本集，其中，所述缺失值是样本中缺失的种气体的特征值，异常值是预先设置的种气体特征值的极端值；

样本分配单元203，其用于按照预先设置的比例对有效样本集进行分配，生成训练集和测试集；

模型建立单元204，其用于建立以变压器的状态为响应变量，以种气体的特征值数据为解释变量的logistic回归模型；

初始模型单元205，其用于基于训练集和设置的所述回归模型的误差限值，确定所述logistic回归模型的回归参数，生成确定变压器设备的状态的第一初始logistic分类器，以及基于训练集，采用交叉验证法对所述第一初始logistic分类器进行训练和测试，生成确定变压器设备的状态的第二原始logistic分类器；

最优模型单元206，其用于基于测试集和确定变压器设备的状态的第二原始logistic分类器，生成确定变压器设备的状态的最优logistic分类器；

状态确定单元207，其用于基于确定的最优logistic分类器，根据变压器设备的实际运行中的种气体的特征值数据，输出电力系统变压器的状态。

优选地，所述有效样本单元202包括：

第一处理单元221，其用于去除原始样本集中存在无效数据的样本，其中，所述无效数据是指一组样本中有个缺失值和/或异常值；

第二处理单元222，其用于当一组样本中存在小于个的缺失值和/或异常值时，采用邻近均值法替代所述样本中的缺失值和/或异常值；

第三处理单元223，其用于对于原始样本集中的正样本，采用SMOTE过采样算法进行正样本合成，生成新的正样本；

样本合并单元224，其用于将新的正样本加入原始样本集中，形成有效样本集。

优选地，所述模型建立单元204确定的logistic回归模型的表达式为：

当训练集的样本数据为m时，其目标函数为：

优选地，所述初始模型单元205基于训练集和设置的所述回归模型的误差限值，确定所述logistic回归模型的回归参数，生成确定变压器设备的状态的第一初始logistic分类器包括：

步骤2、将所述的初始值代入logistic回归模型进行训练；

步骤3、根据所述训练的误差小于设置的误差限值时的回归参数的值，生成确定变压器设备的状态的第一初始logistic分类器；

步骤4、当所述训练的误差大于等于设置的误差限值时，采用最小二乘法或者梯度下降法调整回归参数，并返回步骤2。

优选地，所述最优模型单元206基于训练集，采用交叉验证法优化回归参数，生成确定变压器设备的状态的最优logistic分类器是指采用随机抽样的方法将训练集中的一部分作为测试集，其余的部分作为新的训练集，构建logistic回归模型，并求解所述logistic回归模型的平均误差，将最小平均误差所对应的logistic回归模型作为最优logistic分类器。

本发明所述确定电力系统变压器设备的状态的系统确定电力系统变压器设备的状态的步骤与本发明所述确定电力系统变压器设备的状态的方法的步骤相同，并且达到的技术效果也相同，此处不再赘述。

已经通过参考少量实施方式描述了本发明。然而，本领域技术人员所公知的，正如附带的专利权利要求所限定的，除了本发明以上公开的其他的实施例等同地落在本发明的范围内。

通常地，在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释，除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例，除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行，除非明确地说明。

Claims

1.一种确定电力系统变压器设备的状态的方法，其特征在于，所述方法包括：

采集若干组确定电力系统变压器设备的状态的

种气体的特征值数据，生成初始样本集，其中，所述变压器设备的状态包括正常和异常；

对初始样本集中的数据进行缺失值和异常值处理，并对所述初始样本集中的正样本进行正样本合成，建立有效样本集，其中，所述缺失值是样本中缺失的

种气体的特征值，异常值是预先设置的

种气体特征值的极端值；

建立以变压器的状态为响应变量，以

种气体的特征值数据为解释变量的logistic回归模型；

基于确定的最优logistic分类器，根据变压器设备的实际运行中的

种气体的特征值数据，输出电力系统变压器的状态。

2.根据权利要求1所述的方法，其特征在于，所述对初始样本集中的数据进行缺失值和异常值处理，并对所述初始样本集中的正样本进行正样本合成，建立有效样本集包括：

去除原始样本集中存在无效数据的样本，其中，所述无效数据是指一组样本中有

个缺失值和/或异常值；

当一组样本中存在小于

个的缺失值和/或异常值时，采用邻近均值法替代所述样本中的缺失值和/或异常值；

将新的正样本加入原始样本集中，形成有效样本集。

3.根据权利要求1所述的方法，其特征在于，所述logistic回归模型的表达式为：

式中，

表示设备处于正常状态时的概率，

为变压器设备的状态，1表示正常，

为模型的输入，即所述有效样本集中

种气体的特征值数据，

为回归系数，

为截距项，其中，所述

的值为设置的常数，

的初始值为随机设定的值；

当训练集的样本数据为

组时，其目标函数为：

采用最小二乘法或者梯度下降法确定使所述目标函数最小的回归系数

。

4.根据权利要求3所述的方法，其特征在于，所述基于训练集和设置的所述回归模型的误差限值，确定所述logistic回归模型的回归参数，生成确定变压器设备的状态的第一初始logistic分类器包括：

步骤2、将所述

的初始值代入logistic回归模型

进行训练；

步骤3、根据所述训练的误差小于设置的误差限值时的回归参数

的值，生成确定变压器设备的状态的第一初始logistic分类器；

步骤4、当所述训练的误差大于等于设置的误差限值时，采用最小二乘法或者梯度下降法调整回归参数

，并返回步骤2。

5.根据权利要求1所述的方法，其特征在于，基于训练集，采用交叉验证法对所述第一初始logistic分类器进行训练和测试，生成确定变压器设备的状态的第二原始logistic分类器是指采用随机抽样的方法将训练集中的一部分作为测试集，其余的部分作为新的训练集，求解所述第一初始logistic分类器的平均误差，将最小平均误差所对应的第一初始logistic分类器作为第二原始logistic分类器。

6.一种确定电力系统变压器设备的状态的系统，其特征在于，所述系统包括：

初始样本单元，其用于采集若干组确定电力系统变压器设备的状态的

有效样本单元，其用于对初始样本集中的数据进行缺失值和异常值处理，并对所述初始样本集中的正样本进行正样本合成，建立有效样本集，其中，所述缺失值是样本中缺失的

种气体的特征值，异常值是预先设置的

种气体特征值的极端值；

模型建立单元，其用于建立以变压器的状态为响应变量，以

种气体的特征值数据为解释变量的logistic回归模型；

状态确定单元，其用于基于确定的最优logistic分类器，根据变压器设备的实际运行中的

种气体的特征值数据，输出电力系统变压器的状态。

7.根据权利要求6所述的系统，其特征在于，所述有效样本单元包括：

第一处理单元，其用于去除原始样本集中存在无效数据的样本，其中，所述无效数据是指一组样本中有

个缺失值和/或异常值；

第二处理单元，其用于当一组样本中存在小于

8.根据权利要求6所述的系统，其特征在于，所述模型建立单元确定的logistic回归模型的表达式为：

式中，

表示设备处于正常状态时的概率，

为变压器设备的状态，1表示正常，

为模型的输入，即所述有效样本集中

种气体的特征值数据，

为回归系数，

为截距项，其中，所述

的值为设置的常数，

的初始值为随机设定的值；

当训练集的样本数据为

组时，其目标函数为：

。

9.根据权利要求8所述的系统，其特征在于，所述初始模型单元基于训练集和设置的所述回归模型的误差限值，确定所述logistic回归模型的回归参数，生成确定变压器设备的状态的第一初始logistic分类器包括：

步骤2、将所述

的初始值代入logistic回归模型

进行训练；

，并返回步骤2。

10.根据权利要求6所述的系统，其特征在于，所述初始模型单元基于训练集，采用交叉验证法对所述第一初始logistic分类器进行训练和测试，生成确定变压器设备的状态的第二原始logistic分类器是指采用随机抽样的方法将训练集中的一部分作为测试集，其余的部分作为新的训练集，求解所述第一初始logistic分类器的平均误差，将最小平均误差所对应的第一初始logistic分类器作为第二原始logistic分类器。