CN114186639A

CN114186639A - 基于双重加权朴素贝叶斯的电气事故分类方法

Info

Publication number: CN114186639A
Application number: CN202111519596.2A
Authority: CN
Inventors: 舒一飞; 郭汶昇; 樊博; 康洁滢; 许诗雨; 王登峰
Original assignee: Marketing Service Center Of State Grid Ningxia Electric Power Co ltd Metering Center Of State Grid Ningxia Electric Power Co ltd
Current assignee: Marketing Service Center Of State Grid Ningxia Electric Power Co ltd Metering Center Of State Grid Ningxia Electric Power Co ltd
Priority date: 2021-12-13
Filing date: 2021-12-13
Publication date: 2022-03-15

Abstract

本发明公开了一种基于双重加权朴素贝叶斯的电气事故分类方法，包括：获取用户用电数据作为原始数据集，其中，原始数据集包括用户用电数据的属性和实例；将原始数据集拆分为训练集和测试集；采用训练集对朴素贝叶斯分类器进行实例加权和属性加权训练，得到双重加权的朴素贝叶斯架构；采用双重加权的朴素贝叶斯架构对测试集进行测试，得到电气事故类别。本发明将属性加权和实例加权有机结合在朴素贝叶斯统一框架内，能实现对电气事故快速、准确和动态的分类。

Description

基于双重加权朴素贝叶斯的电气事故分类方法

技术领域

本发明涉及电气事故诊断技术，具体是基于双重加权朴素贝叶斯的电气事故分类方法。

背景技术

随着电气工程的发展，电气化进程对人们生活改善显著，但由诸多因素引起的电气事故也时有发生，会给用电安全、经济建设及电气市场发展带来直接影响。及时、快速、准确地对电气事故进行分类，对后续检修、防治及用电线路升级都具有重要意义。居民用电过程中的电气事故主要包括漏电、短路、过压、断相等，传统电气事故诊断分类方法是基于知识驱动的，其应用时依赖故障诊断知识库、专家知识库、故障诊断推理机等，通过将监视的物理征兆导入故障诊断推理机，并由故障诊断推理机与专家知识库交互，获得物理征兆下的事故类型，从而完成分类。该方法简单易行，但存在较大的主观性，不能做到对电网监测数据的实时充分利用和准确的故障分析分类。

近年来，诸如神经网络、支持向量机等快速发展的数据驱动方式为事故分类提供了新的手段，其具备坚实的数学基础，无需先验知识，可仅利用原始的数据特征就完成事故分类任务。然而，这些方法的数据驱动方式对数据的数量及质量都有着较高的要求，数据量不足将导致网络架构无法拟合，过差的数据质量将使得网络的推广能力下降，对于居民用电事故分类来说，缺乏大量真实事故数据，需仿真产生大量的模拟事故数据片段，不具有较强的推广能力。同时这些方法无法明确地表征数据特征，仅在架构内部进行学习，没有充分完整地对数据属性及特征进行分析和利用，造成了数据资源的浪费。

发明内容

本发明的目的在于克服现有技术的不足，提供了一种基于双重加权朴素贝叶斯的电气事故分类方法，其将属性加权和实例加权有机结合在朴素贝叶斯统一框架内，能实现对电气事故快速、准确和动态的分类。

本发明的目的主要通过以下技术方案实现：

基于双重加权朴素贝叶斯的电气事故分类方法，包括：

获取用户用电数据作为原始数据集，所述原始数据集包括用户用电数据的属性和实例；

将原始数据集拆分为训练集和测试集，所述训练集包括属性和训练实例，所述测试集包括属性和测试实例；

采用训练集对朴素贝叶斯分类器进行实例加权和属性加权训练，得到双重加权的朴素贝叶斯架构；

采用双重加权的朴素贝叶斯架构对测试集进行测试，得到电气事故类别。

朴素贝叶斯将贝叶斯概率、统计学理论和特征条件独立假设相结合，对样本的数据信息进行了严密的推理计算，形成了稳固的理论体系与方法，可以解决数据分析不确定性和不完整性问题。同时为降低属性条件独立假设所带来的负面影响，改进朴素贝叶斯网络分类算法引起了越来越多学者的广泛关注，并由此产生了许多改进的分类模型和学习算法，其中效果较优的为属性加权朴素贝叶斯和实例加权朴素贝叶斯。属性加权是根据属性对分类预测的影响力来为不同的属性分配不同的权值，然后在加权以后的实例样本集上构建贝叶斯分类器。实例加权则根据实例分布情况对训练实例赋予不同的权重，然后在加权的训练集上构建分类器。加权方式可以科学严谨地表征数据特征，并且能够充分对其进行计算与分析，使得输入算法框架内的特征信息浓度更高，较充分地提升算法性能表现。然而，目前的研究局限于仅采用一种加权方法，未将属性加权与实例加权有机结合在朴素贝叶斯框架内，本发明充分考虑不同属性应具有不同重要性，不同实例应具有不同可靠性，在朴素贝叶斯框架内采用双重加权，解决数据分析不确定性和数据不完整性问题，增加对数据片段特征的捕捉和利用，提高算法的实用性和鲁棒性，完成对电气事故高效准确的分类，并可推广至其他分类情形。

进一步的，采用训练集对朴素贝叶斯分类器进行实例加权和属性加权训练得到的双重加权的朴素贝叶斯架构为：

其中，a_i为属性变量A_i的取值，A_i为训练集D＝{A₁,A₂,…,A_m}中的属性变量，i＝1,2,…，m，m为属性变量的个数，c_J为类别集C＝{c₁,c₂,…,c_q}中的类别，J＝1,2,…，q，q为类别变量总数，

为第i个属性的权重，

为第j个训练实例的权重,

为先验概率，

为条件概率。

进一步的，采用训练集对朴素贝叶斯分类器进行实例加权训练时，按照训练实例与测试实例之间的距离为训练实例来分配不同的权值，权值大小与距离呈负相关。

进一步的，采用训练集对朴素贝叶斯分类器进行实例加权训练时采用积极实例进行权值设置，其基于属性值频度的实例加权滤波器来学习每个实例的权重，每个属性值的频率的计算公式为：

其中，a_ji为第j个实例第i个属性值，f_ji为a_ji的频率，n为训练实例的数量，a_rj为第j个实例第r个属性值。

令n_i为第i个属性的值的数量，并且可表示为<n₁,n₂,...,n_m>，然后将第j个实例的权重定义为属性值频率向量与属性值个数向量的内积，公式如下：

进一步的，采用训练集对朴素贝叶斯分类器进行实例加权训练时采用消极实例进行权值设置，其测试实例x与第j个训练实例y_j间的相似性定义为：

第j个训练实例的权重定义为：

进一步的，获取用户用电数据作为原始数据集时还包括对异常数据进行清洗，以及通过在事故数据段内的每个属性叠加随机高斯噪声增加数据片段，叠加随机高斯噪声的公式如下：

其中，Gauss(x)为按照设定的均值及标注差产生的高斯噪声，μ为高斯噪声的均值，δ为高斯噪声的标准差。

进一步的，将原始数据集拆分为训练集和测试集后，还包括采用min-max归一化方法对训练集与测试集进行归一化。

进一步的，采用训练集对朴素贝叶斯分类器进行属性加权训练时，根据属性在预测分类时的重要性分配权重，属性权重大小与其重要性高低成正比。

进一步的，所述属性权重设置时利用互信息来度量属性-类之间、属性-属性之间的相关性，计算得到类关联度和属性间的相互关联度，每个属性的权重通过对归一化后的类关联度与平均相互关联度之间的差值进行Sigmoid变换后获取。

综上所述，本发明与现有技术相比具有以下有益效果：本发明有机结合实例和属性加权的朴素贝叶斯进行电气事故分类，朴素贝叶斯分类中的先验概率和条件概率采用两种实例加权方式加以改进，积极实例权值取决于各属性值频度的统计值，而消极实例权值通过逐条计算训练实例与测试实例间的相关性加以确定。属性权值则基于互信息定义为属性-属性相关性和属性-类相关性之间的残差。本发明将属性加权和实例加权有机结合在朴素贝叶斯统一框架内，能实现对电气事故快速、准确和动态的分类。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明一个具体实施例的流程图；

图2为本发明一个具体实施例的架构图；

图3为本发明一个具体实施例的与现有方法对比的曲线图；

图4为本发明一个具体实施例采用积极实例加权时的混淆矩阵图；

图5为本发明一个具体实施例采用消极实例加权时的混淆矩阵图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例1：

如图1及图2所示，基于双重加权朴素贝叶斯的电气事故分类方法，包括：获取用户用电数据作为原始数据集，其中，原始数据集包括用户用电数据的属性和实例；将原始数据集拆分为训练集和测试集，训练集包括属性和训练实例，测试集包括属性和测试实例；采用训练集对朴素贝叶斯分类器进行实例加权和属性加权训练，得到双重加权的朴素贝叶斯架构；采用双重加权的朴素贝叶斯架构对测试集进行测试，得到电气事故类别。

朴素贝叶斯分类是依据贝叶斯定理计算条件概率从而实现分类预测，而贝叶斯定理的前提条件是各条件属性相互独立且对分类结果影响相同。对于训练集D＝{A₁,A₂,…,A_m}、类别集C＝{c₁,c₂,…,c_q}，其中，A_i为属性，i＝1,2,…，m，m为属性的个数，c_J为类别，J＝1,2,…，q，q为类别变量总数。设a_i为属性变量A_i的取值，一个待分类实例x_i＝<a₁,a₂,…,a_m>属于c_J类的条件概率，根据贝叶斯定理有

其中，P(c_J|a₁,a₂,…,a_m)为进行分类预测的后验概率，P(a₁,a₂,…,a_m|c_J)为给定第c_J类下属性值为(a₁,a₂,…,a_m)的条件概率，P(c_J)是第c_J类的先验概率，P(a₁,a₂,…,a_m)是属性的先验概率，对于各类别都相同。

基于各属性相互独立的前提条件，条件概率可表示为：

其中，P(a_i|c_J)表示第c_J类下属性a_i的条件概率。对于待分类实例x_i,基于后验概率最大的原则，朴素贝叶斯分类可表示为：

式中，P(c_J)和P(a_i|c_J)通过训练样本(即本实施例所述的训练实例)而求得，其计算方式如下：

其中，n为训练样本总数，c_j为第j个训练样本的类别，c_j′为第j′个训练样本的类别，a_ij为第j个训练样本的第i个属性值，n_i为第i个属性值在训练样本中的个数，δ()为二值函数，定义为：

朴素贝叶斯分类基于各条件属性相互独立且对分类结果影响相同的假设条件，这在现实中难以满足。事实上，属性集中的一些属性比其他属性对预测分类更加重要，因此，本实施例采用训练集对朴素贝叶斯分类器进行属性加权训练时，根据属性在预测分类时的重要性分配权重，属性权重大小与其重要性高低成正比。通过属性加权为每个属性分配一个不同的权重，通常，对预测分类越重要的属性为其分配越大的权重，反之亦然。此外，一些训练实例比其他实例对预测分类更可靠，它们对最终模型的影响应该也更大，因此实例加权也是另一种缓解朴素贝叶斯劣势的有效方法。

鉴于此，本实施例融合属性加权和实例加权的优势，提出属性和实例加权的朴素贝叶斯分类。本实施例一方面采用属性加权方法对不同的属性分别赋予不同的权重，另一方面，采用实例加权方法更准确地估计先验概率和条件概率。因此，本实施例可以同时继承属性加权的优点和实例加权的优点，从而获得比单一属性加权或单一实例加权更好的性能。

在本实施例中，将属性权重纳入朴素贝叶斯分类公式中，并将实例权重纳入先验概率和条件概率中。因此，本实施例采用训练集对朴素贝叶斯分类器进行实例加权和属性加权训练得到的双重加权的朴素贝叶斯架构为：

为第i个属性的权重，

为第j个训练实例的权重,

为先验概率，

为条件概率。

先验概率

和条件概率

计算公式分别为：

本实施例采用训练集对朴素贝叶斯分类器进行实例加权训练时，按照训练实例与测试实例之间的距离为训练实例来分配不同的权值，权值大小与距离呈负相关，即在实例加权中，与测试实例最相近的给予最大的权值，反之，最远的给予最小的权值。本实施例寻找实例权值的方法采用积极学习方法和消极学习方法。采用积极实例进行权值设置时，为了保持朴素贝叶斯的计算简单性，采用一种简单、高效、有效的方法--基于属性值频度的实例加权滤波器来学习每个实例的权重。这种方法是基于以下观察结果：1)每个属性值的频率包含一些重要的信息，这些信息可以用来定义训练实例的权重；2)每个训练实例的权重与其属性值频率向量和整个训练集的属性值个数向量呈正相关。

首先，每个属性值的频率的计算公式为：

令n_i为第i个属性的值的数量，并且可表示为<n₁,n₂,...,n_m>。然后将第j个实例的权重定义为属性值频率向量与属性值个数向量的内积，公式如下：

采用消极实例进行权值设置时，不同于积极实例加权，消极实例加权集中注意力于计算并统计训练实例与测试实例间的相关性，虽然时间复杂度较积极加权方式更高，但是可以在分类准确率上得到提升。x为测试实例，y_j为第j个训练实例，它们间的相似性定义为：

从上式可以看出，s(x,y_j)简单地对x和y_j的相同属性的数量进行统计的函数，进而粗略地衡量两个实例间的相似程度，定义第j个训练实例的权重为：

本实施例中每个属性的权重通过对归一化后的类关联度与平均相互关联度之间的差值进行Sigmoid变换后获取，具体的计算步骤如下所示：

属性(A_i)-类(C)的相关性、属性(A_i)-属性(A_k)的相关性采用互信息来度量，分别定义为：

其中，

为实例加权后的先验概率

对I(A_i；C)和I(A_i；A_k)进行归一化操作：

其中，NI(A_i；C)和NI(A_i；A_k)分别为归一化类关联度和相互关联度。

将属性权重定义为类关联度与平均相互关联度的差值

即为属性A_i的权值。

根据上式计算得到的权值可能为负数，应使权值范围落入[0,1]，利用sigmoid函数对其进行变换，可得到各属性权值

本实施例将属性加权和两种实例加权相结合，由此得到如下两种用于电气设备故障分类的方法。

本实施例利用基于相关性的属性权重方法为每个属性指定不同的权重，具有强预测性的属性应该与类别标签相关，与其他属性低相关或无关。鉴于互信息可以度量每对随机离散变量之间的相关性，因此，本实施例利用互信息来度量属性-类之间、属性-属性之间的相关性，从而计算得到类关联度和属性间的相互关联度。

本实施例获取用户用电数据作为原始数据集时还包括对异常数据进行清洗，以及通过在事故数据段内的每个属性叠加随机高斯噪声增加数据片段，叠加随机高斯噪声的公式如下：

本实施例将原始数据集拆分为训练集和测试集后，还包括采用min-max归一化方法对训练集与测试集进行归一化。

本实施例应用于国网宁夏电气有限公司计量中心的用电数据分析时，采集包含高低压用户783户为期31天的三相电压，三相电流，功率及功率因数8项数据。获得数据后对异常数据进行清洗，因电气事故的发生将导致各项数据发生相应变化，仅去除掉空值、数值偏差极大、重复值的数据段。根据已统计到的用电情况，并结合事故发生时电压电流变化情况，可总结为如表1的事故类别及判定依据。如果设备负载是家用热电偶、灯、加热器等，供电线路出现以下四种故障时设备电流、电压和功率变化趋势如表1所示，正常运行数据段类别标签为“1”。

表1电气事故判据

由于数据集内包含的事故数据段过少，通过在事故数据段内的每个属性叠加随机高斯噪声，增加少量事故数据片段，提升加权朴素贝叶斯对其特征的捕捉能力；随机噪声与真实情况接近，保证数据可用，较大程度模拟真实事故数据。公式如下：

其中，Gauss(x)为按照设定的均值及标准差产生的高斯噪声；μ为高斯噪声的均值，本实施例数据处理时设置为0，δ为高斯噪声的标准差，文本实施例数据处理时设置为0.1；仅针对事故类型进行数据增强，正常运行类型不作处理。原始数据及数据增强后的各事故类型数量对比如表2所示。

表2数据增强前后事故类型数量

事故标签	原始数量	增强后数量
			1	23159	23159
2	41	8241
			3	88	8888
4	53	8003
			5	522	9918

经由数据增强后总共获得58209条数据段，随机取得10000条数据作为测试集，并对训练集与测试集进行归一化，归一化可提高本实施例的收敛速度以及分类精度，本实施例采取min-max归一化方法，其公式如下：

其中，min为所有数据段的当前属性A_i的最小值，max为所有数据段的当前属性A_i的最大值。

为准确评估本实施例在分类中的表现，选择准确率(Accuracy)和F1分数也作为衡量模型性能和有效性的指标，其计算公式如下：

其中，精准率(Precision)及召回率(Recall)计算公式如下：

其中，TP表示正类别中正确分类样本的数量，TN表示负类别中正确分类样本的数量，FP表示正类别中错误分类样本的数量，FN是负类别中错误分类样本的数量。

本实施例对属性及实例进行加权，为使实验更严谨、更具说服性，将分别使用单独属性加权、单独积极实例加权、单独消极实例加权、属性-积极实例加权、属性-消极实力加权与原始朴素贝叶斯实验结果进行对比，以验证本实施例应用时的性能。

通过对属性-类相关性和属性-属性相关性的残差进行sigmoid变化得到各属性权值，基于互信息的各属性权值如表3所示。

表3基于互信息的各属性权值

属性	电压-A相	电压-B相	电压-C相	电流-A相
					权值	0.6146	0.6327	0.5808	0.4162
属性	电流-B相	电流-C相	功率	功率因数
					权值	0.4169	0.4164	0.4231	0.4962

积极实例加权依赖于对各属性的属性值频率计算，本实施例按照表1所述的各属性值变化界定范围，进而计算得到各类实例的权值，如表4所示。

表4积极实例加权各类实例权值

类别	1	2	3	4	5
						权值	0.2955	0.1144	0.0267	0.3944	0.1690

消极实例加权更注重于训练实例与测试实例的相似性，通过计算每条训练实例与每条测试实例的相似性对实例进行权值的划分，进而改善朴素贝叶斯对不同实例的注意程度，提升分类精度。因数据片段过多，部分实例权值如表5所示。

表5消极实例加权-部分实例权值

数据段序号	权值	数据段序号	权值
				1	0.8732	131	0.7336
3645	0.8775	7603	0.9040

为全面评价算法的整体性能，对各算法的各指标进行计算，具体值如表6、表7所示，各算法总体正确率如图3所示。

表6算法准确率对比

表7算法F1分数对比

可以看出，加权朴素贝叶斯在纳入不同属性、实例的权值后，相较于单一朴素贝叶斯提高了对电气事故分类的准确率，同时获得较高的F1分数，证明算法的实用性及有效性。积极实例加权与消极实例加权的准确率相差较小，但在实验过程中，消极实例加权因需要对训练实例及测试实例逐条计算相关性，耗费更多的运算时间，实际情况中可更偏向于积极实例加权。而双重加权后，消极实例加权的优势更大，可以获得最高的分类准确率。

本实施例利用高低压用户的电气实测数据进行算法验证，实验结果表明，与朴素贝叶斯相比，本实施例加权后的朴素贝叶斯方法更具竞争性，双重加权朴素贝叶斯较单一朴素贝叶斯的准确率提升为0.11％-3.09％，F1分数提升为0.32％-9.39％，证明本实施例所提的方法在电气事故分类的实用性及有效性。

属性-实例双重加权朴素贝叶斯对于待分类的电气事故的高准确率来源于对属性和实例两者权值的同时分析，并且在第4类与第5类取得接近完全正确的分类效果，属性-积极实例加权朴素贝叶斯(AIWNB^E)的混淆矩阵如图4所示，属性-消极实例加权朴素贝叶斯(AIWNB^L)的混淆矩阵如图5所示。

AIWNB^E与AIWNB^L在面对第2、3、4、5类时几乎可以取得完全正确的分类结果，并且在1类的偏差也是较小的；由于消极实例加权更注重于对测试实例的分析，进而会取得更加优良的分类效果，而代价则是增加运算时间，积极实例加权的分类效果稍弱，但运算时间较少，仅需根据属性范围确定权值。

本实施例采用朴素贝叶斯架构，提出了基于属性加权和实例加权的电气事故分类方法，该方法通过互信息统计属性-类间依赖性和属性-属性冗余度获取各属性权值，提升算法对各属性特征的提取与利用能力；分别计算实例属性值频率和实例间相关性完成积极、消极实例加权，进一步提升算法对数据全局特征的把控能力。在实验过程中，双重加权朴素贝叶斯在准确率、F1分数均优于单独加权朴素贝叶斯与单一朴素贝叶斯，并降低误分数量，提高分类准确性。本实施例在具体实施时不局限于电气事故分类，可以推广至其他待分类情形，譬如心电信号、岩爆等。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于双重加权朴素贝叶斯的电气事故分类方法，其特征在于，包括：

2.根据权利要求1所述的基于双重加权朴素贝叶斯的电气事故分类方法，其特征在于，采用训练集对朴素贝叶斯分类器进行实例加权和属性加权训练得到的双重加权的朴素贝叶斯架构为：

为第i个属性的权重，

为第j个训练实例的权重,

为先验概率，

为条件概率。

3.根据权利要求2所述的基于双重加权朴素贝叶斯的电气事故分类方法，其特征在于，采用训练集对朴素贝叶斯分类器进行实例加权训练时，按照训练实例与测试实例之间的距离为训练实例来分配不同的权值，权值大小与距离呈负相关。

4.根据权利要求3所述的基于双重加权朴素贝叶斯的电气事故分类方法，其特征在于，采用训练集对朴素贝叶斯分类器进行实例加权训练时采用积极实例进行权值设置，其基于属性值频度的实例加权滤波器来学习每个实例的权重，每个属性值的频率的计算公式为：

5.根据权利要求3所述的基于双重加权朴素贝叶斯的电气事故分类方法，其特征在于，采用训练集对朴素贝叶斯分类器进行实例加权训练时采用消极实例进行权值设置，其测试实例x与第j个训练实例y_j间的相似性定义为：

第j个训练实例的权重定义为：

6.根据权利要求1所述的基于双重加权朴素贝叶斯的电气事故分类方法，其特征在于，获取用户用电数据作为原始数据集时还包括对异常数据进行清洗，以及通过在事故数据段内的每个属性叠加随机高斯噪声增加数据片段，叠加随机高斯噪声的公式如下：

7.根据权利要求1所述的基于双重加权朴素贝叶斯的电气事故分类方法，其特征在于，将原始数据集拆分为训练集和测试集后，还包括采用min-max归一化方法对训练集与测试集进行归一化。

8.根据权利要求1～7中任意一项所述的基于双重加权朴素贝叶斯的电气事故分类方法，其特征在于，采用训练集对朴素贝叶斯分类器进行属性加权训练时，根据属性在预测分类时的重要性分配权重，属性权重大小与其重要性高低成正比。

9.根据权利要求8所述的基于双重加权朴素贝叶斯的电气事故分类方法，其特征在于，所述属性权重设置时利用互信息来度量属性-类之间、属性-属性之间的相关性，计算得到类关联度和属性间的相互关联度，每个属性的权重通过对归一化后的类关联度与平均相互关联度之间的差值进行Sigmoid变换后获取。