CN116432123A - 一种基于cart决策树算法的电能表故障预警方法 - Google Patents

一种基于cart决策树算法的电能表故障预警方法 Download PDF

Info

Publication number
CN116432123A
CN116432123A CN202310276838.2A CN202310276838A CN116432123A CN 116432123 A CN116432123 A CN 116432123A CN 202310276838 A CN202310276838 A CN 202310276838A CN 116432123 A CN116432123 A CN 116432123A
Authority
CN
China
Prior art keywords
decision tree
electric energy
early warning
energy meter
pruning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310276838.2A
Other languages
English (en)
Inventor
冯昌森
龚瑛
张有兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202310276838.2A priority Critical patent/CN116432123A/zh
Publication of CN116432123A publication Critical patent/CN116432123A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Marketing (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于CART决策树算法的电能表故障预警方法,首先采集电能表历史故障数据,对数据进行预处理;通过CART决策树算法构建电能表故障预警模型,利用训练集对初步预警模型进行训练,通过测试集对预警模型进行评估,若评估未达到设定的预警准确度,将重新进行训练,直至满足设定条件为止;再根据构建的决策树模型,创新MMP剪枝算法,同时考虑决策树的优势劣势,提前中止剪枝;最后验证基于CART决策树模型的电能表故障预警的可行性,利用MATLAB软件实现算法编写并对结果进行分析对比。本发明提高了电能表故障预测的评估精度,并应用MMP剪枝算法,在保证提高预测准确度的同时,也减少了模型的复杂度,避免了因剪枝造成的决策树失衡,进而保证了评估结果的可靠性。

Description

一种基于CART决策树算法的电能表故障预警方法
技术领域
本发明提出了一种电能表故障预警方法。
背景技术
国务院关于印发计量发展规划(2021—2035年)的通知中明确指出充分运用大数据、区块链、人工智能等技术,探索推行以预警防控为特征的非现场监管,积极打造新型智慧计量体系。推广新型智慧计量监管模式,建立智慧计量监管平台和数据库,提升计量设备质量控制与智慧管理水平。
国家电网公司发布的《国家电网公司电能表质量管控办法》中也明确指出要加强电能表质量管控,落实公司技术监管的各项要求,健全质量管控保障体系,强化预警机制建立,及时排查电能表故障隐患,提高质量问题和舆情处置的响应速度和处理能力,建立电能表质量预警机制,及时统计上报所发现的电能表质量缺陷,分析电能表质量缺陷的外在表现、内在根源、影响深度,提前预防电能表批次故障的发生,并建立舆情预警制度和联动工作机制,保障国家电网公司电力系统运行的稳定。
伴随智能电网的飞速发展及电能表智能化程度的提高,智能电能表得以大规模推广应用。截至目前,全国范围内已安装了数亿只电能表。面对数量如此庞大的在运电能表,电能表出现的故障类型及其故障数据也愈发增加,电能表作为用电信息采集系统的数据源头,一旦发生批次故障,将严重危害整个电网运行的稳定性。
目前中心尚未建立高效的电能表故障预警机制,对于批次故障问题无法及时发现,缺少有效的信息收集和管理手段,容易出现电能表故障问题突然爆发的情况。现在电能表批次问题主要依靠地市公司上报,中心收集样表,通知生产厂家进行故障原因分析。事后监管的模式无法使得批次故障及时发现并解决。
发明内容
本发明要克服现有技术的上述缺点,提供一种基于CART决策树算法的电能表故障预警方法。本发明充分考虑到智能电能表应用范围广、数量大、故障成因多种多样等约束条件。
为了解决上述问题,本发明技术方案为:
构建了一个基于数据挖掘技术的电能表故障等级预警方法,即利用CART决策树算法构建电能表的故障预警模型,通过大量训练集d对初始模型进行训练,再通过测试集对预警模型进行评估,若评估未达到设定的预警准确度,将重新进行训练,直至满足设定条件为止;最后根据构建的决策树模型,创新MMP剪枝算法。
本发明的一种基于CART决策树算法的电能表故障预警方法包括以下步骤:
S1:分构建智能电能表数据库,并对数据进行预处理;
S2:通过CART决策树算法构建智能电能表故障预警模型,再利用训练集对初步预警模型进行训练;通过测试集对预警模型进行评估,若评估未达到设定的预警准确度,将重新进行训练,直至满足设定条件为止;
S3:根据构建的决策树模型,创新MMP剪枝算法,同时考虑决策树的优势劣势,提前中止剪枝;
S4:由结果判断该方法是否在保证决策树结构相对平衡的情况下,提高了电能表故障预警结果的准确度,也进一步降低了决策树的复杂度。若是,则将当前的决策树模型作为电能表故障预警的最终模型,求解完成;若否,返回步骤S2、S3重新进行训练和剪枝。
进一步,所述步骤S1中,数据处理包括以下步骤:
S1-1:数据预处理;
将采集的智能电能表历史故障数据和实时数据进行离散化处理,即选取影响智能电能表故障的几个重要因素;影响智能电能表故障的原因多种多样,大致可分为3类:设备自身质量问题(各零部件的可靠性)、外部运行环境(温湿度、海拔、维护等)、电能表运行状况(过载情况、投运时长等)。
电能表原始数据在采集过程中存在人工统计失误等因素,会导致数据中可能存在重复、丢失、或者异常的情况。因此,正对这些情况,需要在建模前,对数据进行数据清洗。
表1电能表故障等级划分
Figure BDA0004136643170000031
S1-2:根据我国的智能电能表故障等级划分标准共划分了3个预警等级:无故障(OK)、轻微故障预警(Minor)和严重故障预警(Major),如表1所示。维护工作人员可根据故障预警等级对智能电能表进行针对性检查。
在所述步骤S2中,通过CART决策树算法构建智能电能表故障预警模型,包括以下步骤:
S2-1:本研究选取了对智能电能表故障影响最为突出的6个因素进行离散化处理,并定义为故障预警模型的输入变量,分别为自身可靠度(SR)、地区环境(OE)、维护情况(MA)、投运时长(OT)、过载情况(OL)和计量异常(AF),情况如表2。
表2电能表历史数据的定义
Figure BDA0004136643170000041
S2-2:将预处理的数据分为训练集和测试集,根据cart决策树原理构建分类算法:
决策树本质上是一种分叉树,由节点和分支组成,节点又可分为内节点和叶子节点。一般情况下,一个决策树只有一个根节点,但有多个内节点和叶子节点,内节点对应着决策树分叉的特征属性,而叶子节点则是决策树最后的分类结果。决策树分类的基本原理就是通过训练数据生成分类规则,然后根据关键自变量的不同取值建立分支,分支之后不断细分逐步形成决策树。CART决策树是一种二叉树分类模型,它以基尼指数(Gini Index)作为最优划分特征的依据。基尼值是指从一个样本集D中随机选出两个样本,这两个样本不属于同一类的概率,因此基尼值越小,杂质越低,样本纯净度越高。
Figure BDA0004136643170000051
基尼指数作为选择划分特征的依据,是由属性α划分后各样本集基尼值的加权求和得到的,公式如下:
Figure BDA0004136643170000052
其中,ɑ是候选属性,m是该属性的分支数,
Figure BDA0004136643170000053
是样本集中样本属于第i(i=I,2,…m)个子集的概率,D是划分前的数据集,Di是根据ɑ属性划分而成的数据子集。基尼指数最小的特征就是CART决策树选择的最优划分特征再采用一样的方法递归建立决策树的子节点。
S2-3:CART决策树是一种有监督的分类预测算法。其样本集结构以及决策树停止分支条件如下:
1)训练样本结构:N={X1,X2,X3,…,Xn,Y}。其中X1,X2,X3,…,Xn是自变量,即样本特征属性,Y是分类标签。在本发明中,X1,X2,X3,…,Xn表示电能表的各个故障特征,Y表示电能表的故障等级。
2)CART决策树算法停止生长的条件,在本研究中有三:一是所有叶结点的样本数为1或者样本数小于预设定的阈值;二是决策树分支后的叶节点中的样本都属于同一类别;三是数据集中没有特征变量可以作为下一分叉的依据。
S2-4:CART决策树构建算法将输出变量看作发送端发出的数据X,输入变量看作接收端收到的数据Y。构建过程就是选取输入属性中基尼指数最小的变量作为最佳分枝,以消除分裂过程中的系统干扰,增加输出变量的趋同度。
在所述S3步骤中,根据构建的决策树模型,创新MMP剪枝算法,包括以下步骤:
S3-1:在决策树初步构建完成后,需利用修剪算法对其进行修剪,以提升模型可靠性。修剪过程是从叶子节点逐层向上,利用统计学中的估计法在训练集样本上进行误差估计。创新MMP剪枝算法(Maxadvantage-Mindisadvantage-pruning),同时考虑决策树的优势劣势;优势:决策树的预测准确率提高、决策树复杂度减小,劣势:决策树结构不平衡;根据优势劣势,提前中止剪枝。
S3-2:MMP剪枝算法涉及三种因素:(1)准确度:是指把中间的非叶子节点跟换位叶节点后,不能降低决策树的正确率;(2)复杂度:是指剪枝后叶子节点的数量减少,减低模型的复杂度与计算量;(3)平衡度:是指剪枝过程让决策树的分支保持均衡,避免决策树失衡。同时考虑这三个因素,在提高准确度的前提下,降低决策树复杂度,同时不能让决策树结构处于失衡状态。
利用CART算法生成决策树T0的一系列子树Tk:T1>T2>T3…>Tk。当树T在节点t被剪枝时,它的表面误差率增加C(t)-C(Tt),而叶的数量减少|T|-1,则:
Figure BDA0004136643170000071
其中,T是任意的子树,C(t)是节点t的代价误差,C(Tt)是子树Tt的误差代价,|T|是子树的叶子节点数。α可以衡量训练数据的拟合程度与模型的复杂度。
算法对每棵子树计算α,并选择具有最小α值的子树进行剪枝,即找出剪枝后能使决策树在测试数据集D下预测准确率最大的节点tmax,当有多个节点使预测准确率最大时选择其中使决策树复杂度减少最多的节点为tmax
S3-3:在前面考虑了决策树的准确度和复杂度,之后考虑决策树的平衡度。在此定义决策树的平衡度P为所有叶子节点之和/树最大深度/所有有叶子节点个数。当剪去节点tmax后,更新决策树Tt
计算决策树平衡度比例:
Figure BDA0004136643170000072
这样能够在小样本情况下提供鲁棒性、泛化能力更强的决策树,在大样本情况下,能够在保证准确率的前提下,减少剪枝的运算耗时。
本发明的有益效果是:
选用CART决策树模型对智能电能表进行故障预警分析,在一定程度上得到较高的预警精度;创新的MMP剪枝算法,在保证提高预测准确度的同时,也减少了模型的复杂度,避免了因剪枝造成的决策树失衡,进而保证了该方法的可靠性与精确性。
附图说明
图1是本发明的电能表故障预警的流程图。
图2是本发明的CART决策树原理图。
图3是本发明的CART决策树失衡图。
图4是本发明方法的流程图。
具体实施方法
下面结合附图对本发明做进一步说明。
参照附图,一种基于CART决策树算法的电能表故障预警方法,所述方法包括以下步骤:
S1:分构建智能电能表数据库,并对数据进行预处理;
S2:通过CART决策树算法构建智能电能表故障预警模型,再利用训练集对初步预警模型进行训练;通过测试集对预警模型进行评估,若评估未达到设定的预警准确度,将重新进行训练,直至满足设定条件为止;
S3:根据构建的决策树模型,创新MMP剪枝算法,同时考虑决策树的优势劣势,提前中止剪枝;
S4:由结果判断该方法是否在保证决策树结构相对平衡的情况下,提高了电能表故障预警结果的准确度,也进一步降低了决策树的复杂度。若是,则将当前的决策树模型作为电能表故障预警的最终模型,求解完成;若否,返回步骤S2、S3重新进行训练和剪枝。
所述步骤S1中,数据处理包括以下步骤:
S1-1:数据预处理;
将采集的智能电能表历史故障数据和实时数据进行离散化处理,即选取影响智能电能表故障的几个重要因素;影响智能电能表故障的原因多种多样,大致可分为3类:设备自身质量问题(各零部件的可靠性)、外部运行环境(温湿度、海拔、维护等)、电能表运行状况(过载情况、投运时长等)。
电能表原始数据在采集过程中存在人工统计失误等因素,会导致数据中可能存在重复、丢失、或者异常的情况。因此,正对这些情况,需要在建模前,对数据进行数据清洗。
S1-2:根据我国的智能电能表故障等级划分标准共划分了3个预警等级:无故障(OK)、轻微故障预警(Minor)和严重故障预警(Major),如表1所示。维护工作人员可根据故障预警等级对智能电能表进行针对性检查。
表1电能表故障等级划分
Figure BDA0004136643170000091
在所述步骤S2中,通过CART决策树算法构建智能电能表故障预警模型,包括以下步骤:
S2-1:本研究选取了对智能电能表故障影响最为突出的6个因素进行离散化处理,并定义为故障预警模型的输入变量,分别为自身可靠度(SR)、地区环境(OE)、维护情况(MA)、投运时长(OT)、过载情况(OL)和计量异常(AF),情况如表2。
表2电能表历史数据的定义
Figure BDA0004136643170000101
S2-2:将预处理的数据分为训练集和测试集,根据cart决策树原理构建分类算法:
决策树本质上是一种分叉树,由节点和分支组成,节点又可分为内节点和叶子节点。一般情况下,一个决策树只有一个根节点,但有多个内节点和叶子节点,内节点对应着决策树分叉的特征属性,而叶子节点则是决策树最后的分类结果。决策树分类的基本原理就是通过训练数据生成分类规则,然后根据关键自变量的不同取值建立分支,分支之后不断细分逐步形成决策树。CART决策树是一种二叉树分类模型,它以基尼指数(Gini Index)作为最优划分特征的依据。基尼值是指从一个样本集D中随机选出两个样本,这两个样本不属于同一类的概率,因此基尼值越小,杂质越低,样本纯净度越高。
Figure BDA0004136643170000111
基尼指数作为选择划分特征的依据,是由属性α划分后各样本集基尼值的加权求和得到的,公式如下:
Figure BDA0004136643170000112
其中,ɑ是候选属性,m是该属性的分支数,
Figure BDA0004136643170000113
是样本集中样本属于第i(i=I,2,…m)个子集的概率,D是划分前的数据集,Di是根据ɑ属性划分而成的数据子集。基尼指数最小的特征就是CART决策树选择的最优划分特征再采用一样的方法递归建立决策树的子节点。
S2-3:CART决策树是一种有监督的分类预测算法。其样本集结构以及决策树停止分支条件如下:
1)训练样本结构:N={X1,X2,X3,…,Xn,Y}。其中X1,X2,X3,…,Xn是自变量,即样本特征属性,Y是分类标签。在本研究中,X1,X2,X3,…,Xn表示电能表的各个故障特征,Y表示电能表的故障等级。
2)CART决策树算法停止生长的条件,在本研究中有三:一是所有叶结点的样本数为1或者样本数小于预设定的阈值;二是决策树分支后的叶节点中的样本都属于同一类别;三是数据集中没有特征变量可以作为下一分叉的依据。
S2-4:CART决策树构建算法将输出变量看作发送端发出的数据X,输入变量看作接收端收到的数据Y。构建过程就是选取输入属性中基尼指数最小的变量作为最佳分枝,以消除分裂过程中的系统干扰,增加输出变量的趋同度。
在所述S3步骤中,根据构建的决策树模型,创新MMP剪枝算法,包括以下步骤:
S3-1:在决策树初步构建完成后,需利用修剪算法对其进行修剪,以提升模型可靠性。修剪过程是从叶子节点逐层向上,利用统计学中的估计法在训练集样本上进行误差估计。创新MMP剪枝算法(Maxadvantage-Mindisadvantage-pruning),同时考虑决策树的优势劣势;优势:决策树的预测准确率提高、决策树复杂度减小,劣势:决策树结构不平衡;根据优势劣势,提前中止剪枝。
S3-2:MMP剪枝算法涉及三种因素:(1)准确度:是指把中间的非叶子节点跟换位叶节点后,不能降低决策树的正确率;(2)复杂度:是指剪枝后叶子节点的数量减少,减低模型的复杂度与计算量;(3)平衡度:是指剪枝过程让决策树的分支保持均衡,避免决策树失衡。同时考虑这三个因素,在提高准确度的前提下,降低决策树复杂度,同时不能让决策树结构处于失衡状态。
利用CART算法生成决策树T0的一系列子树Tk:T1>T2>T3…>Tk。当树T在节点t被剪枝时,它的表面误差率增加C(t)-C(Tt),而叶的数量减少|T|-1,则:
Figure BDA0004136643170000121
其中,T是任意的子树,C(t)是节点t的代价误差,C(Tt)是子树Tt的误差代价,|T|是子树的叶子节点数。α可以衡量训练数据的拟合程度与模型的复杂度。
算法对每棵子树计算α,并选择具有最小α值的子树进行剪枝,即找出剪枝后能使决策树在测试数据集D下预测准确率最大的节点tmax,当有多个节点使预测准确率最大时选择其中使决策树复杂度减少最多的节点为tmax
S3-3:在前面我们考虑了决策树的准确度和复杂度,之后考虑决策树的平衡度。在此定义决策树的平衡度P为所有叶子节点之和/树最大深度/所有有叶子节点个数。当剪去节点tmax后,更新决策树Tt
计算决策树平衡度比例:
Figure BDA0004136643170000131
这样能够在小样本情况下提供鲁棒性、泛化能力更强的决策树,在大样本情况下,能够在保证准确率的前提下,减少剪枝的运算耗时。
进一步,所述步骤S4中,验证CART决策树模型的可行性过程为:
S4-1:进行样本数据的构造,文中的研究数据来自于新疆某地区电力计量部门,共采集了各型号智能电能表近一年的历史计量数据。将原始数据筛选预处理后,构建样本数据库,依次输入自身可靠度、地区环境、维护情况、投运时长、过载情况、异常频率等变量,针对上面所划分的3种智能电能表故障预警等级构建决策树,并利用测试集对生成的最终预警模型进行准确度计算。
S4-2:选取输入的特征值,利用CART决策树,根据特征值计算基尼指数,并选取最优特征进行决策树的生成。
决策树生成后,依据MMP剪枝算法对决策树进行优化,剪枝后的决策树不仅提高了电能表故障预测的准确度,同时降低了决策树复杂度,也避免了决策树结构失衡。
S4-3:本研究共采集4000个样本,其中取了800个样本作为测试集数据,结果剪枝前通过模型正确预警的个数为736个,所以剪枝前模型的准确度q为92%,剪枝后通过模型正确预警的个数为744个,所建模型的准确度q为93%;且剪枝前后模型复杂度之比为1:0.247,大大减少了模型复杂度,减少剪枝时的运算耗时。
综上所述,相比于传统决策树及其剪枝方法,CART决策树方法确实有助于提高电能表故障预测的评估精度,并在应用过程中MMP剪枝算法,在保证提高预测准确度的同时,也减少了模型的复杂度,避免了因剪枝造成的决策树失衡,进而保证了评估结果的可靠性。
在本说明书的描述中,对本发明的示意性表述不必须针对的是相同的实施例或示例,本领域的技术人员可以将本说明书中描述的不同实施或示例进行结合和组合。此外,本说明书实施所述的额内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施案例所陈述的具体形式,本发明的保护范围也包括本领域技术人员根据发明构思所能想到的等同技术手段。

Claims (5)

1.一种基于CART决策树算法的电能表故障等级预警方法,其特征在于,包括以下步骤:
S1:分构建智能电能表数据库,并对数据进行预处理;
S2:通过CART决策树算法构建智能电能表故障预警模型,再利用训练集对初步预警模型进行训练;通过测试集对预警模型进行评估,若评估未达到设定的预警准确度,将重新进行训练,直至满足设定条件为止;
S3:根据构建的决策树模型,创新MMP剪枝算法,同时考虑决策树的优势劣势、提前中止剪枝;
S4:由系统结果判断该方法是否在保证决策树结构相对平衡的情况下,提高了电能表故障预警结果的准确度,也进一步降低了决策树的复杂度;若是,则将当前的决策树模型作为电能表故障预警的最终模型,求解完成;若否,返回步骤S2、S3重新进行训练和剪枝。
2.如权利要求1所述的基于CART决策树算法的电能表故障预警方法,其特征在于,所述步骤S1中,数据处理包括以下步骤:
S1-1:数据预处理;
将采集的智能电能表历史故障数据和实时数据进行离散化处理,即选取影响智能电能表故障的重要因素,分为3类:设备自身质量问题(各零部件的可靠性)、外部运行环境(温湿度、海拔、维护等)、电能表运行状况(过载情况、投运时长等)。
电能表原始数据在采集过程中存在人工统计失误等因素,会导致数据中可能存在重复、丢失、或者异常的情况;因此,正对这些情况,需要在建模前,对数据进行数据清洗;
S1-2:根据我国的智能电能表故障等级划分标准共划分了3个预警等级:无故障(OK)、轻微故障预警(Minor)和严重故障预警(Major),如表1所示;维护工作人员根据故障预警等级对智能电能表进行针对性检查。
表1电能表故障等级划分
Figure FDA0004136643150000021
3.如权利要求1所述的基于CART决策树算法的电能表故障预警方法,其特征在于,所述步骤S2中,通过CART决策树算法构建智能电能表故障预警模型,包括以下步骤:
S2-1:选取对智能电能表故障影响最为突出的6个因素进行离散化处理,并定义为故障预警模型的输入变量,分别为自身可靠度(SR)、地区环境(OE)、维护情况(MA)、投运时长(OT)、过载情况(OL)和计量异常(AF),情况如表2;
表2电能表历史数据的定义
Figure FDA0004136643150000031
S2-2:将预处理的数据分为训练集和测试集,根据cart决策树原理构建分类算法:
决策树本质上是一种分叉树,由节点和分支组成,节点又可分为内节点和叶子节点;一般情况下,一个决策树只有一个根节点,但有多个内节点和叶子节点,内节点对应着决策树分叉的特征属性,而叶子节点则是决策树最后的分类结果;决策树分类的基本原理就是通过训练数据生成分类规则,然后根据关键自变量的不同取值建立分支,分支之后不断细分逐步形成决策树;CART决策树是一种二叉树分类模型,它以基尼指数(Gini Index)作为最优划分特征的依据;基尼值是指从一个样本集D中随机选出两个样本,这两个样本不属于同一类的概率,因此基尼值越小,杂质越低,样本纯净度越高;
Figure FDA0004136643150000041
基尼指数作为选择划分特征的依据,是由属性α划分后各样本集基尼值的加权求和得到的,公式如下:
Figure FDA0004136643150000042
其中,ɑ是候选属性,m是该属性的分支数,
Figure FDA0004136643150000043
是样本集中样本属于第i(i=I,2,…m)个子集的概率,D是划分前的数据集,Di是根据ɑ属性划分而成的数据子集。基尼指数最小的特征就是CART决策树选择的最优划分特征再采用一样的方法递归建立决策树的子节点;
S2-3:CART决策树是一种有监督的分类预测算法,其样本集结构以及决策树停止分支条件如下:
1)训练样本结构:N={X1,X2,X3,…,Xn,Y};其中X1,X2,X3,…,Xn是自变量,即样本特征属性,Y是分类标签;在本研究中,X1,X2,X3,…,Xn表示电能表的各个故障特征,Y表示电能表的故障等级;
2)CART决策树算法停止生长的条件,在本研究中有三:一是所有叶结点的样本数为1或者样本数小于预设定的阈值;二是决策树分支后的叶节点中的样本都属于同一类别;三是数据集中没有特征变量可以作为下一分叉的依据;
S2-4:CART决策树构建算法将输出变量看作发送端发出的数据X,输入变量看作接收端收到的数据Y;构建过程就是选取输入属性中基尼指数最小的变量作为最佳分枝,以消除分裂过程中的系统干扰,增加输出变量的趋同度。
4.如权利要求1所述的基于CART决策树算法的电能表故障预警方法,其特征在于,所述步骤S3中,根据构建的决策树模型,创新MMP剪枝算法,包括以下步骤:
S3-1:在决策树初步构建完成后,需利用修剪算法对其进行修剪,以提升模型可靠性;修剪过程是从叶子节点逐层向上,利用统计学中的估计法在训练集样本上进行误差估计;创新MMP剪枝算法(Maxadvantage-Mindisadvantage-pruning),同时考虑决策树的优势劣势;优势:决策树的预测准确率提高、决策树复杂度减小,劣势:决策树结构不平衡;根据优势劣势,提前中止剪枝;
S3-2:MMP剪枝算法涉及三种因素:(1)准确度:是指把中间的非叶子节点跟换位叶节点后,不能降低决策树的正确率;(2)复杂度:是指剪枝后叶子节点的数量减少,减低模型的复杂度与计算量;(3)平衡度:是指剪枝过程让决策树的分支保持均衡,避免决策树失衡;同时考虑这三个因素,在提高准确度的前提下,降低决策树复杂度,同时不能让决策树结构处于失衡状态;
利用CART算法生成决策树T0的一系列子树Tk:T1>T2>T3…>Tk;当树T在节点t被剪枝时,它的表面误差率增加C(t)-C(Tt),而叶的数量减少|T|-1,则:
Figure FDA0004136643150000051
其中,T是任意的子树,C(t)是节点t的代价误差,C(Tt)是子树Tt的误差代价,|T|是子树的叶子节点数;α可以衡量训练数据的拟合程度与模型的复杂度;
算法对每棵子树计算α,并选择具有最小α值的子树进行剪枝,即找出剪枝后能使决策树在测试数据集D下预测准确率最大的节点tmax,当有多个节点使预测准确率最大时选择其中使决策树复杂度减少最多的节点为tmax
S3-3:在前面考虑了决策树的准确度和复杂度,之后考虑决策树的平衡度;在此定义决策树的平衡度P为所有叶子节点之和/树最大深度/所有有叶子节点个数;当剪去节点tmax后,更新决策树Tt
计算决策树平衡度比例:
Figure FDA0004136643150000061
5.如权利要求1所述的基于CART决策树算法的电能表故障预警方法,其特征在于,所述步骤S4中,验证CART决策树模型的可行性包括以下步骤:
S4-1:进行样本数据的构造;将原始数据筛选预处理后,构建样本数据库,依次输入自身可靠度、地区环境、维护情况、投运时长、过载情况、异常频率等变量,针对上面所划分的3种智能电能表故障预警等级构建决策树,并利用测试集对生成的最终预警模型进行准确度计算;
S4-2:选取输入的特征值,利用CART决策树,根据特征值计算基尼指数,并选取最优特征进行决策树的生成;
决策树生成后,依据MMP剪枝算法对决策树进行优化,剪枝后的决策树不仅提高了电能表故障预测的准确度,同时降低了决策树复杂度,也避免了决策树结构失衡;
S4-3:统计剪枝前通过模型正确预警的个数占测试集数据的样本总数的比例,计算剪枝前模型的准确度q1,在统计剪枝后通过模型正确预警占测试集数据的样本总数的比例,计算所建模型的准确度q2
再计算剪枝前后模型复杂度之比。
CN202310276838.2A 2023-03-16 2023-03-16 一种基于cart决策树算法的电能表故障预警方法 Pending CN116432123A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310276838.2A CN116432123A (zh) 2023-03-16 2023-03-16 一种基于cart决策树算法的电能表故障预警方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310276838.2A CN116432123A (zh) 2023-03-16 2023-03-16 一种基于cart决策树算法的电能表故障预警方法

Publications (1)

Publication Number Publication Date
CN116432123A true CN116432123A (zh) 2023-07-14

Family

ID=87086432

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310276838.2A Pending CN116432123A (zh) 2023-03-16 2023-03-16 一种基于cart决策树算法的电能表故障预警方法

Country Status (1)

Country Link
CN (1) CN116432123A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117150282A (zh) * 2023-09-16 2023-12-01 石家庄正和网络有限公司 一种基于预测模型的二手设备回收评估方法及系统
CN117252335A (zh) * 2023-09-20 2023-12-19 杭州中微感联信息技术有限公司 一种基于机器学习的市政设备设施智能管理方法及系统
CN117370899A (zh) * 2023-12-08 2024-01-09 中国地质大学(武汉) 一种基于主成分-决策树模型的控矿因素权重确定方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117150282A (zh) * 2023-09-16 2023-12-01 石家庄正和网络有限公司 一种基于预测模型的二手设备回收评估方法及系统
CN117150282B (zh) * 2023-09-16 2024-01-30 石家庄正和网络有限公司 一种基于预测模型的二手设备回收评估方法及系统
CN117252335A (zh) * 2023-09-20 2023-12-19 杭州中微感联信息技术有限公司 一种基于机器学习的市政设备设施智能管理方法及系统
CN117370899A (zh) * 2023-12-08 2024-01-09 中国地质大学(武汉) 一种基于主成分-决策树模型的控矿因素权重确定方法
CN117370899B (zh) * 2023-12-08 2024-02-20 中国地质大学(武汉) 一种基于主成分-决策树模型的控矿因素权重确定方法

Similar Documents

Publication Publication Date Title
CN110223196B (zh) 基于典型行业特征库和反窃电样本库的反窃电分析方法
CN108320040B (zh) 基于贝叶斯网络优化算法的采集终端故障预测方法及系统
CN116432123A (zh) 一种基于cart决策树算法的电能表故障预警方法
CN107169628B (zh) 一种基于大数据互信息属性约简的配电网可靠性评估方法
CN112016175B (zh) 一种基于树状层次聚类的供水管网测压点优化布置方法
CN105678481A (zh) 一种基于随机森林模型的管线健康状态评估方法
CN108053128A (zh) 一种基于elm和tf的电网暂态稳定快速评估方法
YANG Power grid fault prediction method based on feature selection and classification algorithm
CN112735097A (zh) 一种区域滑坡预警方法及系统
CN113298297A (zh) 一种基于孤立森林与wgan网络的风电输出功率预测方法
CN113420162B (zh) 一种基于知识图谱的设备运行链状态监测方法
CN116579768B (zh) 一种发电厂在线仪表运维管理方法及系统
CN113408659A (zh) 一种基于数据挖掘的建筑能耗集成分析方法
CN116186624A (zh) 一种基于人工智能的锅炉评估方法及系统
CN115730962A (zh) 一种基于大数据的电力营销稽查分析系统及方法
CN110781206A (zh) 一种学习拆回表故障特征规则预测在运电能表是否故障的方法
CN110968703A (zh) 基于lstm端到端抽取算法的异常计量点知识库构建方法及系统
CN117034149A (zh) 故障处理策略确定方法、装置、电子设备和存储介质
CN117350146A (zh) 一种基于ga-bp神经网络的排水管网健康性评价方法
CN116663393A (zh) 一种基于随机森林的配电网持续高温下故障风险等级预测方法
CN107977727B (zh) 一种基于社会发展和气候因素预测光缆网阻断概率的方法
CN116151799A (zh) 一种基于bp神经网络的配电线路多工况故障率快速评估方法
CN114897262A (zh) 一种基于深度学习的轨道交通设备故障预测方法
CN115598459A (zh) 一种配电网10kV馈线故障停电预测方法
Sicheng et al. Abnormal line loss data detection and correction method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination