CN108733966A - 一种基于决策树群的多维电能表现场状态检验方法 - Google Patents
一种基于决策树群的多维电能表现场状态检验方法 Download PDFInfo
- Publication number
- CN108733966A CN108733966A CN201710244397.2A CN201710244397A CN108733966A CN 108733966 A CN108733966 A CN 108733966A CN 201710244397 A CN201710244397 A CN 201710244397A CN 108733966 A CN108733966 A CN 108733966A
- Authority
- CN
- China
- Prior art keywords
- decision
- electric energy
- decision tree
- energy meter
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明一种基于决策树群的多维电能表现场状态检验方法,包括以下步骤:将用电信息采集系统提供的电能表相关采集数据建立决策树;针对每棵决策树进行分类形成下一级分枝;生成完全生长的初级决策树;对初级决策树基于代价复杂性剪枝算法进行剪枝优化;使用独立的测试集评估被剪枝优化后的初级决策树的准确率;每组次级决策树选出一棵最优的决策树,由所有最优决策树组成决策树群异常诊断模型,判定结果以投票的方式获取优胜;将决策树群异常诊断模型运算规则传递给用电信息采集系统Hadoop大数据处理集群,实现对在运电能表的异常运行状况进行异常检测。
Description
技术领域
本发明属于电能表检验的技术领域,尤其涉及一种基于决策树群的多维电能表现场状态检验方法。
背景技术
目前,电能表检测面临的问题是:我国幅员辽阔且人口密度较大,地势多以丘陵和山地为主,且随着社会的发展以及人口的不断增长,国网电力公司接入的电能表等装置不断增多,电能表的故障诊断涉及到户外作业等等;这些现象均导致国网电力公司的工作量剧增,出现现场检测繁琐且覆盖面积狭小等问题。
现有的诊断系统的不足之处是其往往需要在建设中投入较多的软硬件设备,而不能合理利用现有用电信息采集系统平台所提供软硬件设备及数据进行远程诊断和预警,尤其在国网电力公司用电信息采集系统的现有软硬件设备内包含海量数据信息(如用户分类、通讯方式、用户抄表信息、用户日/月冻结数据、电能表数据等),且用电信息采集系统现有的大数据处理平台的数据并行处理模块可有效实现复杂模型的海量数据处理速度,因此,利用此平台所提供的现有软硬件设备及数据建立合理的异常诊断模型进行信息的深度分析与挖掘,发展电能计量装置的远程故障诊断系统以辅助用电信息采集系统实现电能表等设备的高效校验。
综上所述,现有技术中如何处理现有电能表的诊断系统现场检测繁琐、覆盖面积狭小的问题,以及如何有效利用现有的用电信息采集平台进行电能表运行状况远程、全面、智能、精准检测的检测与维护的问题,尚缺乏有效的解决方案。
发明内容
本发明为了解决上述问题,提供一种基于决策树群的多维电能表现场状态检验方法,实现在现有的国网电力公司用电信息采集系统平台基础上构建多维电能表现场状态检验系统,满足及时对在运电能表的运行状态进行检测预警的业务需求。
为了实现上述目的,本发明采用如下技术方案:
一种基于决策树群的多维电能表现场状态检验方法,包括以下步骤:
(1)将用电信息采集系统提供的电能表相关采集数据作为训练集,由训练集别建立决策树,并确定其判定属性类别与特征属性,树以单个节点为根开始;
(2)针对每棵决策树所拥有的特征属性进行初步处理,结合电力领域专家经验,取分割点,将连续特征属性离散化;
(3)根据所述步骤(2)中的分割点,以信息增益率的熵度量作为特征属性的启发信息,计算连续特征属性与离散特征属性的信息增益率;
(4)选择信息增益率最大的特征属性作为样本分类的特征属性,该特征属性成为节点的判定属性,对判定属性的每个已知的值创建一个分支,并据此将训练集进行分类形成下一级分枝;
(5)判断决策树的该节点是否满足停止生长条件,若不满足返回步骤(1),递归自上而下地形成每个归类上的样本决策树分枝,直至所有节点满足停止生长条件,生成完全生长的初级决策树;
(6)对初级决策树基于代价复杂性剪枝算法进行剪枝优化,依次剪去表面误差率增益值最低的分枝,每剪掉一枝生成一棵次级决策数;
(7)使用独立的测试集评估被剪枝优化后的初级决策树的准确率,若仍有较多噪声数据存在,则返回步骤(6),直至获得满足评估需求的一组剪枝优化后的初级决策树,每棵初级决策树生成一组次级决策树组;
(8)采用所有次级决策树对测试集进行样本检测,结合用电信息采集系统检测的需求,每组次级决策树选出一棵最优的决策树,由所有最优决策树组成决策树群异常诊断模型,判定结果以投票的方式获取优胜;
(9)将决策树群异常诊断模型运算规则传递给用电信息采集系统Hadoop大数据处理集群,实现对在运电能表的异常运行状况进行异常检测。
优选的,在所述步骤(1)中,取训练集的样本数为N,设定产生n+1棵决策树,由整体训练集作为一个训练样本集,根据训练样本集建立1棵决策树;对训练集随机抽取1/n的样本形成训练样本子集,总共形成n个训练样本子集,根据训练样本子集建立n棵决策树。
优选的,在所述步骤(2)中,特征属性包括连续特征属性和离散特征属性,所述分割点选取所述连续特征属性对应的电能表正常与异常之间的中点作为可能的分裂点,将连续特征属性离散化。
优选的,在所述步骤(3)中,计算连续特征属性的信息增益率具体包括以下步骤:
(3-1a)计算每个可能的分裂点的信息增益;
(3-2a)对每个连续特征属性分裂点的信息增益进行修正;
(3-3a)比较每个连续特征属性分裂点修正后的信息增益,选取修正后的信息增益最大的分裂点作为该特征属性的最佳分裂点,对于较大数值区间的连续特征属性,采取分段多分裂点计算其信息增益和作为其信息增益;
(3-4a)连续特征属性的信息增益率为最佳分裂点的信息增益与分割信息率之商。
优选的,在所述步骤(3)中,计算离散特征属性的信息增益率具体包括以下步骤:
(3-1b)计算离散特征属性的信息增益;
(3-2b)计算离散特征属性的信息增益率:计算离散特征属性的信息增益与分割信息率之商。
优选的,所述步骤(3-1a)或步骤(3-1b)的信息增益的具体步骤为:
(3-1-1):假设在训练集中的异常运行与正常运行电能表的数量分别为p和n,通常一棵决策树能对一类异常状况做出类别分类所需的信息量为
(3-1-2):选取某一连续特征属性记为A,其各分裂点将连续数据样本集分成v个子集(H1,H2,…,Hv),Hi为样本集假设子集Hi中含有Pi个异常运行电能表和Ni个正常运行电能表;
(3-1-3):计算子集Hi的信息熵E(Hi)
(3-1-4):计算特征属性A为分类节点的信息熵为E(A)
(3-1-5):计算特征属性A的信息增益Gain(A)
Gain(A)=I(p,n)-E(A)。
优选的,所述步骤(3-2a)中修正的具体方法为:分别将步骤(3-1)中每个连续特征属性的可能分裂点的信息增益减去log2(N-1)/|D|得到每个连续特征属性分裂点修正后的信息增益。
优选的,在所述步骤(5)中,停止生长条件具体包括:
①判定节点的属于各分枝的训练集属于同一类;
②没有剩余特征属性对节点的属于各分枝的训练集进一步分类,则将该节点作为叶节点,并用属于各分枝的训练集中最多的类判为该叶节点的类。
优选的,在所述步骤(6)中,对初级决策树基于代价复杂性剪枝算法进行剪枝优化的具体步骤为:
(6-1)初级决策树中的每一个分枝成为一个子树,计算初级决策树中的每一个子树Tt的叶子节点t的误差代价;
(6-2)计算初级决策树中的每一个子树Tt的表面误差率增益值;
(6-3)选取表面误差率增益值最小的子树,进行剪枝优化,当多个子树的表面误差率增益值同时达到最小时,取子树生长的叶子节点数最大的子树进行剪枝,直到达到模型的评估需求为止。
优选的,计算初级决策树中的每一个子树Tt的叶子节点t的误差代价R(t):
R(t)=r(t)*p(t)
其中,r(t)是叶子节点t的误差率,p(t)是叶子节点t归类的数据占所有数据的比例。
优选的,初级决策树中的每一个子树Tt的表面误差率增益值α:
其中,是子树生长的叶子节点数,R(t)是叶子节点t的误差代价,R(Tt)是子树Tt的误差代价,其值为子树Tt所包含的所有叶子节点的误差代价之和。
本发明的有益效果:
(1)本发明的一种基于决策树群的多维电能表现场状态检验方法,针对国网电力公司用电信息采集系统现有的软硬件平台,合理利用现有平台所提供信息及资源,提出基于决策树群的多维电能表现场状态检验系统,实现对电能表等设备的单一异常运行状态的深度分析与挖掘,解决了传统远程检测系统对软硬件设备及实现成本要求较高的问题。
(2)本发明的一种基于决策树群的多维电能表现场状态检验方法,基于决策树群的异常诊断算法建立多维电能表现场状态异常诊断模型,对特征属性选择最优的分割方式,并以剪枝策略对建立的决策树加以优化,为确保异常分析准确,在实际运行时以决策树群投票的方式选出最佳预测结果,决策树群的投票策略检测速度快且不会产生过拟合现象,采用异常敏感的策略,尽可能全面的对潜在的电能表等装置的异常状态作出判断,保障电能表现场状态检测的合理性,防止发生异常漏检的情况,为电能表检验业务的开展提供有力支撑。
(3)本发明的一种基于决策树群的多维电能表现场状态检验方法,多维电能表现场状态检验系统面向的数据处理对象为国网电力公司用电信息采集系统的电能表相关采集数据,数据量大且属性特征繁杂,且采用基于决策树群的异常诊断这一复杂模型以提高系统的检测准确率,故系统计算量呈指数级上升,系统数据处理基于Hadoop的用电信息大数据处理平台,有效地解决了系统海量数据的计算和处理可靠性差、计算易错等问题,满足多维电能表现场状态检验系统对实时性和响应时间的高要求,且优势明显。
附图说明
图1为基于决策树群的多维电能表现场状态检验方法流程图;
图2为电能表倒走诊断的完全生长决策树部分分支图;
图3为电能表倒走诊断决策树组内单棵树测试结果图。
具体实施方式:
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面结合附图与实施例对本发明作进一步说明。
实施例1:
在本实施例中,针对国网重庆市电力公司面临的:重庆市幅员辽阔且人口密度较大,地势多以丘陵和山地为主,且随着社会的发展以及人口的不断增长,国网重庆市电力公司接入的电能表等装置不断增多,电能表的故障诊断涉及到户外作业,这些现象均导致国网重庆市电力公司的工作量剧增,出现现场检测繁琐且覆盖面积狭小等问题。现阶段,国网重庆市电力公司已投入使用用电信息采集系统,用电信息采集系统采集海量数据信息(如用户分类、通讯方式、用户抄表信息、用户日/月冻结数据、电能表数据等)。然而现有技术在电能表的现场状态检验中并没有应用该系统。
本发明为了解决上述问题,针对建设智能电网过程中带来的电能表异常诊断的校验问题,提供一种基于决策树群的多维电能表现场状态检验方法,针对国网重庆市电力公司电能表运行状况的现场检测与维护问题,建立一种合理且响应及时的多维电能表远程异常诊断方法,满足在较短时间内实现多维电能表现场运行状态预警的业务需求。本实施例基于决策树群异常诊断模型,高效完成多维电能表现场状态检验。
为了实现上述目的,本发明针对电能表倒走这一异常状态的检测,采用如下实施方式:
一种基于决策树群的多维电能表现场状态检验方法,流程图如图1所示,具体步骤包括:
(1)根据国网重庆市电力公司用电信息采集系统提供的电能表相关采集数据,取电能表相关采集数据中的14207例,选取其中70%作为训练集,即训练集的样本数为9945例,选取14207例中剩余的30%作为测试集,即测试集的样本数为4262例。
设定产生11棵决策树,从训练集中随机抽取1/10的样本形成样本训练子集,并由整体训练集作为一个样本训练集,对样本训练集与样本训练子集分别建立决策树,确定电能表倒走单一异常分析决策树的判定属性类别与特征属性,决策树以单个节点为根开始;
其中,产生11棵决策树的具体方法为:
从训练集中随机抽取1/10的样本形成样本训练子集,由该样本训练子集组成一棵决策树;
重复上述方法直至形成10棵由样本训练子集组成的决策树;
由整体训练集作为一个样本训练集,由该样本训练集组成一棵决策树;
11棵决策树分别为10棵由样本训练子集组成的决策树和1棵由样本训练集组成的决策树。
(2)针对每棵决策树所拥有的特征属性进行初步处理,特征属性包括连续特征属性和离散特征属性,将连续特征属性进行离散化;
连续特征属性离散化:使连续特征属性分段计算其信息增益,结合电力领域专家经验,取分割点,从而将连续特征属性离散化;
在本实施例中的连续特征属性选取用户月用电量,对用户月用电量的取值进行排序,用户月用电量部分排序如表1所示。在本实施例中的离散特征属性选取用户分类。
表1
电能表编号 | 月用电量(度) | 用户分类 | 运行状态 |
2127987 | 123 | 高压用户 | 异常 |
1127958 | 123 | 低压居民 | 正常 |
1127977 | 124 | 低压非居民 | 异常 |
1127963 | 125 | 低压居民 | 正常 |
1127421 | 125 | 低压居民 | 正常 |
1126582 | 125 | 低压居民 | 正常 |
用户月用电量对应的电能表异常与正常之间的中点作为可能的分裂点,在本实施例中2127987号异常电能表与1127958号正常电能之间的中点,即123度;1127977号异常电能表与1127963号正常电能之间的中点,即124.5度,以此123度和124.5度两个分裂点将数据集分成四部分;
(3)以信息增益率的熵度量作为特征属性的启发信息,计算连续属性与离散属性的信息增益率。
计算连续属性的信息增益率步骤为:
(3-1a)如表1所示,计算表1所呈现的每个可能的分裂点的信息增益:
(3-1-1)假设在训练集中的异常运行与正常运行电能表的数量分别为p和n,在本实施例中异常运行电能表的数量p为2,正常运行电能表的数量n为4,将本实施例中的p,n的取值代入通常一棵决策树能对一类异常状况做出类别分类所需的信息量公式得到用户月用电量信息量I(2,4)为0.918;
(3-1-2)选取连续特征属性用户月用电量记为A,其各分裂点(123度和124.5度)将连续数据样本集分成v个子集(H1,H2,…,Hv),假设子集Hi中含有Pi个异常运行电能表和Ni个正常运行电能表;
计算子集Hi的信息熵E(Hi)
计算特征属性A为分类节点的信息熵为E(A)
(3-1-3)将步骤(3-1-1)计算的用户月用电量信息量和步骤(3-1-2)计算的用户月用电量信息熵代入特征属性的信息增益公式Gain(A)=I(p,n)-E(A),计算得到以123度为分裂点的信息增益为0.318,以124.5度分裂点的信息增益为0.459;
(3-2a)对每个分裂点(123度和124.5度)的信息增益进行修正,即减去修正值log2(N-1)/|D|,其中N为可能的分裂点个数,在本实施例中N为2,|D|是数据集大小,在本实施例中|D|为6,故修正值log2(N-1)/|D|计算得到-2.584,由于两个分裂点(123度和124.5度)修正值相等,故以123度为分裂点的修正信息增益为2.902,以124.5度分裂点的修正信息增益为3.043;
(3-3a)通过比较以123度为分裂点的修正信息增益和以124.5度分裂点的修正信息增益可得,用户月用电量的最佳分裂点为124.5度;
(3-4a)计算最佳分裂点的信息增益率作为用户月用电量的信息增益率,分割信息率为0.918,故连续特征属性用户月用电量的信息增益率为3.314。
计算离散属性的信息增益率步骤为:
(3-1b)计算离散特征用户分类的信息增益:
(3-1-1)假设在训练集中的异常运行与正常运行电能表的数量分别为p和n,在本实施例中异常运行电能表的数量p为2,正常运行电能表的数量n为4,将本实施例中的p,n的取值代入通常一棵决策树能对一类异常状况做出类别分类所需的信息量公式得到用户分类信息量I(2,4)为0.918;
(3-1-2)因离散特征属性本身即为离散值,无需选取分裂点将其离散,因此信息熵为0;
(3-1-3)将步骤(3-1-1)计算的用户分类信息量0.918和步骤(3-1-2)计算的用户分类信息熵代入特征属性的信息增益公式Gain(A)=I(p,n)-E(A),计算得到离散特征属性用户分类的信息增益为0.918;
(3-2b)计算离散特征属性用户分类的信息增益率:
因离散特征属性本身即为离散值,无需选取分裂点将其离散,离散特征属性用户分类的分割信息率为0,代入信息增益率公式故此时获得的离散特征属性的信息增益率为+∞。
(4)选择信息增益率最大的特征属性作为训练集样本分类的特征属性,该特征属性成为节点的判定属性,对判定属性的每个已知的值创建一个分支,并据此将训练集进行分类,由该树节点的不同取值建立决策树的分枝;
在本实施例中,以单棵决策树为例,如图2所示,特征属性a1(如用户分类)为选择出的选择信息增益率最大的特征属性,此时,特征属性a1(如用户分类)为该初级节点的判定属性,根据a1(如用户分类)将该棵决策树的训练集数据分为4类形成一级分枝,分别为c1(如高压用户一个月用电123度,此时肯定不符合实际,故可以直接判定为电能表运行异常)、a2、a3和a4;在本实施例中,如图2所示,初级节点以a1命名,一级分枝的一级节点以c1、a2、a3和a4命名。命名规则:当前分枝或分枝的节点以当前的判定属性命名或无法进行进一步分枝的特征属性命名。
分别针对属于各分枝的训练集递归调用上述算法,直至决策树停止生长;用该方法建立决策树的各节点与分枝;
根据步骤(1)确定节点判定属性类别与特征属性;
根据步骤(2)和步骤(3)分别计算属于各一级分枝的训练集样本数据的各剩余特征属性的信息增益率,剩余特征属性代表除去上级节点或分枝的特征属性(此处指除去节点特征属性a1(如用户分类));
根据步骤(4)选择信息增益率最大的特征属性,以一级分枝节点a2为例,选择信息增益率最大的特征属性a2(由于a2是一级分枝的判定属性,故此处一级分枝的一级节点命名为a2)作为样本分类的特征属性,该特征属性a2成为该节点的判定属性,对判定属性的每个已知的值(此处的值,连续属性是指分段,离散属性是指如高压用户、低压用户)创建一个分支,并据此将属于一级分枝a2的训练集进行进一步分类形成二级分枝,即a5和c2,由该树节点的不同取值建立树分枝。
(5)判断决策树是否满足以下停止生长条件
①判定节点的属于各分枝的训练集属于同一类;
②没有剩余特征属性对节点的属于各分枝的训练集进一步分类,则将该节点作为叶节点,并用属于各分枝的训练集中最多的类判为该叶节点的类;
若判定节点不满足上述任何条件,则算法返回步骤(1)确定节点判定属性类别与特征属性,递归自上而下地形成节点每个归类上的样本决策树分枝,一旦一个属性出现在一个节点上,则该节点的子节点则消除这一特征属性,直至所有节点满足以上停止生长条件,此时,每一棵树均完全生长,由此生成11棵初级决策树;
如图2所示,c1已满足停止条件,则停止分类;a2、a3和a4分支中还含有异常与正常混合数据,故返回步骤(1)继续进行分枝,直至满足停止条件。递归自上而下是指每次选取各分支数据的最大信息增益率的特征属性作为分枝节点进行下一级的分类,是建立父与子的关系。归类是每一个特征属性都可将本分枝所包含数据的分为几类(如用户类别属性以高压用户与低压用户进行归类)。
(6)对完全生长的11棵初级决策树基于代价复杂性剪枝算法进行剪枝优化,依次剪去表面误差率增益值最低的子树,本文构建的9945例训练集的某棵电能表倒走诊断的完全生长决策树的部分分支,如图2所示,节点下的数据从左往右依次为本节点的判断正确数据与判断错误数据,对于枝节点,其各层分枝的含义如下所示:
①属性a1为测量点月冻结最大需量{300度~330度},其值域为{-∞,0}、{0度~50度}、{50度~100度}、{100度~330度};
②属性a2为测量点月电差值{0度~50度},其值域为{有倒走记录,无倒走记录};
③属性a3为测量点月电差值{50度~100度},其值域为{有倒走记录,无倒走记录};
④属性a4为测量点月电差值{100度~330度},其值域为{有倒走记录,无倒走记录};
⑤属性a5为有倒走记录,其值域为{[1,3],[4,∞)};
⑥属性a6为有倒走记录,其值域为{[1],[2,∞)}。
根据专业人员以及特征属性分割策略计算,对电能表倒走数据市集的决策,将本实施例中的判定属性类别定义如下:
1)决策c1为电能表倒走;
2)决策c2为电能表正常。
计算各枝节点的表面误差率增益值α值如表2所示:
表2
枝节点 | 表面误差率增益值α |
a1 | 4.3992*10-4 |
a2 | 4.5249*10-4 |
a3 | 2.5138*10-4 |
a4 | 0 |
a5 | 5.0277*10-4 |
a6 | 2.0111*10-4 |
由上表可得,对本决策分支的a4枝节点的表面误差率增益值α最小,故剪枝优化时首先令a4左右孩子为0,并将其归类为c1电能表倒走,在实际调查中,a4的c2分类即为由于用户外出导致当月用电量显著降低,由此导致所建立的决策树相对于训练数据而言过渡拟合,而不切合实际数据,通过剪枝优化策略可减少过拟合现象.
(7)产生被剪枝的树后,使用一个独立的测试集评估该决策树的准确率,若仍然有较多噪声数据存在,则返回步骤(6),最终获得到满足模型评估需求的一组剪枝决策树,共计每棵初级决策树进行6次剪枝,每剪掉一枝则生成一棵决策树,故每棵初级决策树生成12棵次级决策树组;
(8)以66棵次级决策树对4262例测试集进行样本测试,结合用电信息采集系统检测的需求,对实际异常但测试异常较少的决策树优先选取的思想,每组次级决策树选出一棵最优的决策树,最终生成11棵最优决策树,由11棵最优决策树组合成为决策树群异常诊断模型,判定结果以投票的方式获取优胜,如图3所示,为电能表倒走这一异常状态构建的11棵决策树组,分别对4262例测试集进行试验得出测试结果,在决策树组内,正确率在59%~80%左右,召回率在70%~90%左右,单棵决策树对于电能表倒走这一状况的判断存在较大误差,不满足系统需求,但以投票优胜的方式,电能表倒走预测数据与实际数据对比结果如表3所示。
表3
测试为异常 | 测试为正常 | 测试总数 | |
实际异常 | 21 | 4 | 25 |
实际正常 | 134 | 4081 | 4215 |
实际总数 | 155 | 4085 | 4262 |
根据试验结果得基于决策树群的多维电能表现场状态检验系统的正确率和召回率,如图3所示,电能表倒走试验结果如下所示:
以决策树群对测试集进行异常状态诊断,系统的正确率与召测率均得到较好提升,可有效指导涉外工作人员对异常运行电能表等设备的目标锁定。
(9)将决策树群异常诊断模型运算规则传递给用电信息采集系统Hadoop大数据处理集群,实现对在运电能表的异常运行状况进行异常检测。
本实施例的有益效果是:
1、针对国网重庆市电力公司用电信息采集系统现有的软硬件平台,合理利用现有平台所提供信息及资源,提出基于决策树群的多维电能表现场状态检验系统,实现对电能表等设备的单一异常运行状态的深度分析与挖掘,解决了传统远程检测系统对软硬件设备及实现成本要求较高的问题。
2、基于决策树群的异常诊断算法建立多维电能表现场状态异常诊断模型,对特征属性选择最优的分割方式,并以剪枝策略对建立的决策树加以优化,为确保异常分析准确,在实际运行时以决策树群投票的方式选出最佳预测结果,决策树群的投票策略检测速度快且不会产生过拟合现象,采用异常敏感的策略,尽可能全面的对潜在的电能表等装置的异常状态作出判断,保障电能表现场状态检测的合理性,防止发生异常漏检的情况,为电能表检验业务的开展提供有力支撑。
3、多维电能表现场状态检验系统面向的数据处理对象为国网重庆市电力公司用电信息采集系统的电能表相关采集数据,数据量大且属性特征繁杂,且采用基于决策树群的异常诊断这一复杂模型以提高系统的检测准确率,故系统计算量呈指数级上升,系统数据处理基于Hadoop的用电信息大数据处理平台,有效地解决了系统海量数据的计算和处理可靠性差、计算易错等问题,满足多维电能表现场状态检验系统对实时性和响应时间的高要求,且优势明显。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (10)
1.一种基于决策树群的多维电能表现场状态检验方法,其特征是:包括以下步骤:
(1)将用电信息采集系统提供的电能表相关采集数据作为训练集,由训练集别建立决策树,并确定其判定属性类别与特征属性,树以单个节点为根开始;
(2)针对每棵决策树所拥有的特征属性进行初步处理,结合电力领域专家经验,取分割点,将连续特征属性离散化;
(3)根据所述步骤(2)中的分割点,以信息增益率的熵度量作为特征属性的启发信息,计算连续特征属性与离散特征属性的信息增益率;
(4)选择信息增益率最大的特征属性作为样本分类的特征属性,该特征属性成为节点的判定属性,对判定属性的每个已知的值创建一个分支,并据此将训练集进行分类形成下一级分枝;
(5)判断决策树的该节点是否满足停止生长条件,若不满足返回步骤(1),递归自上而下地形成每个归类上的样本决策树分枝,直至所有节点满足停止生长条件,生成完全生长的初级决策树;
(6)对初级决策树基于代价复杂性剪枝算法进行剪枝优化,依次剪去表面误差率增益值最低的分枝,每剪掉一枝生成一棵次级决策数;
(7)使用独立的测试集评估被剪枝优化后的初级决策树的准确率,若仍有较多噪声数据存在,则返回步骤(6),直至获得满足评估需求的一组剪枝优化后的初级决策树,每棵初级决策树生成一组次级决策树组;
(8)采用所有次级决策树对测试集进行样本检测,结合用电信息采集系统检测的需求,每组次级决策树选出一棵最优的决策树,由所有最优决策树组成决策树群异常诊断模型,判定结果以投票的方式获取优胜;
(9)将决策树群异常诊断模型运算规则传递给用电信息采集系统Hadoop大数据处理集群,实现对在运电能表的异常运行状况进行异常检测。
2.如权利要求1所述的一种基于决策树群的多维电能表现场状态检验方法,其特征是:在所述步骤(1)中,取训练集的样本数为N,设定产生n+1棵决策树,由整体训练集作为一个训练样本集,根据训练样本集建立1棵决策树;对训练集随机抽取1/n的样本形成训练样本子集,总共形成n个训练样本子集,根据训练样本子集建立n棵决策树。
3.如权利要求1所述的一种基于决策树群的多维电能表现场状态检验方法,其特征是:在所述步骤(2)中,特征属性包括连续特征属性和离散特征属性,所述分割点选取所述连续特征属性对应的电能表正常与异常之间的中点作为可能的分裂点,将连续特征属性离散化。
4.如权利要求1所述的一种基于决策树群的多维电能表现场状态检验方法,其特征是:在所述步骤(3)中,计算连续特征属性的信息增益率具体包括以下步骤:
(3-1a)计算每个可能的分裂点的信息增益;
(3-2a)对每个连续特征属性分裂点的信息增益进行修正;
(3-3a)比较每个连续特征属性分裂点修正后的信息增益,选取修正后的信息增益最大的分裂点作为该特征属性的最佳分裂点,对于较大数值区间的连续特征属性,采取分段多分裂点计算其信息增益和作为其信息增益;
(3-4a)连续特征属性的信息增益率为最佳分裂点的信息增益与分割信息率之商。
5.如权利要求1所述的一种基于决策树群的多维电能表现场状态检验方法,其特征是:在所述步骤(3)中,计算离散特征属性的信息增益率具体包括以下步骤:
(3-1b)计算离散特征属性的信息增益;
(3-2b)计算离散特征属性的信息增益率:计算离散特征属性的信息增益与分割信息率之商。
6.如权利要求4或5所述的一种基于决策树群的多维电能表现场状态检验方法,其特征是:所述步骤(3-1a)或步骤(3-1b)的信息增益的具体步骤为:
(3-1-1):假设在训练集中的异常运行与正常运行电能表的数量分别为p和n,通常一棵决策树能对一类异常状况做出类别分类所需的信息量为
(3-1-2):选取某一连续特征属性记为A,其各分裂点将连续数据样本集分成v个子集(H1,H2,…,Hv),Hi为样本集假设子集Hi中含有Pi个异常运行电能表和Ni个正常运行电能表;
(3-1-3):计算子集Hi的信息熵E(Hi)
(3-1-4):计算特征属性A为分类节点的信息熵为E(A)
(3-1-5):计算特征属性A的信息增益Gain(A)
Gain(A)=I(p,n)-E(A)。
7.如权利要求4所述的一种基于决策树群的多维电能表现场状态检验方法,其特征是:所述步骤(3-2a)中修正的具体方法为:分别将步骤(3-1)中每个连续特征属性的可能分裂点的信息增益减去log2(N-1)/|D|得到每个连续特征属性分裂点修正后的信息增益。
8.如权利要求1所述的一种基于决策树群的多维电能表现场状态检验方法,其特征是:在所述步骤(5)中,停止生长条件具体包括:
①判定节点的属于各分枝的训练集属于同一类;
②没有剩余特征属性对节点的属于各分枝的训练集进一步分类,则将该节点作为叶节点,并用属于各分枝的训练集中最多的类判为该叶节点的类。
9.如权利要求1所述的一种基于决策树群的多维电能表现场状态检验方法,其特征是:在所述步骤(6)中,对初级决策树基于代价复杂性剪枝算法进行剪枝优化的具体步骤为:
(6-1)初级决策树中的每一个分枝成为一个子树,计算初级决策树中的每一个子树Tt的叶子节点t的误差代价;
(6-2)计算初级决策树中的每一个子树Tt的表面误差率增益值;
(6-3)选取表面误差率增益值最小的子树,进行剪枝优化,当多个子树的表面误差率增益值同时达到最小时,取子树生长的叶子节点数最大的子树进行剪枝,直到达到模型的评估需求为止。
10.如权利要求9所述的一种基于决策树群的多维电能表现场状态检验方法,其特征是:在所述步骤(6-1)中,计算初级决策树中的每一个子树Tt的叶子节点t的误差代价R(t):
R(t)=r(t)*p(t)
其中,r(t)是叶子节点t的误差率,p(t)是叶子节点t归类的数据占所有数据的比例;
在所述步骤(6-2)中,初级决策树中的每一个子树Tt的表面误差率增益值α:
其中,|NTt|是子树生长的叶子节点数,R(t)是叶子节点t的误差代价,R(Tt)是子树Tt的误差代价,其值为子树Tt所包含的所有叶子节点的误差代价之和。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710244397.2A CN108733966A (zh) | 2017-04-14 | 2017-04-14 | 一种基于决策树群的多维电能表现场状态检验方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710244397.2A CN108733966A (zh) | 2017-04-14 | 2017-04-14 | 一种基于决策树群的多维电能表现场状态检验方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108733966A true CN108733966A (zh) | 2018-11-02 |
Family
ID=63924864
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710244397.2A Pending CN108733966A (zh) | 2017-04-14 | 2017-04-14 | 一种基于决策树群的多维电能表现场状态检验方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108733966A (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110046179A (zh) * | 2018-12-25 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 一种报警维度的挖掘方法、装置及设备 |
CN110569867A (zh) * | 2019-07-15 | 2019-12-13 | 山东电工电气集团有限公司 | 基于决策树算法的输电线路故障原因判别方法、介质及设备 |
CN111199243A (zh) * | 2019-12-19 | 2020-05-26 | 中国人民解放军战略支援部队信息工程大学 | 一种基于改进决策树的空中目标识别方法及系统 |
CN111242175A (zh) * | 2019-12-31 | 2020-06-05 | 国网北京市电力公司 | 基于机器学习的计量点电压异常检测方法及系统 |
CN111241056A (zh) * | 2019-12-31 | 2020-06-05 | 国网浙江省电力有限公司电力科学研究院 | 一种基于决策树模型的电力用能数据存储优化方法 |
CN111445080A (zh) * | 2020-04-01 | 2020-07-24 | 中电万维信息技术有限责任公司 | 一种基于随机森林的西北内陆河生态基流预测方法 |
CN111612149A (zh) * | 2020-05-21 | 2020-09-01 | 国网湖南省电力有限公司 | 一种基于决策树的主网线路状态检测方法、系统及介质 |
CN112183604A (zh) * | 2020-09-22 | 2021-01-05 | 国网江苏省电力有限公司营销服务中心 | 一种基于决策树的电能计量装置选型方法和系统 |
CN112308122A (zh) * | 2020-10-20 | 2021-02-02 | 中国刑事警察学院 | 基于双树的高维向量空间样本快速搜索方法及装置 |
CN112943224A (zh) * | 2019-12-11 | 2021-06-11 | 中国石油化工股份有限公司 | 稠油井动液面的计算方法 |
CN112966023A (zh) * | 2021-03-12 | 2021-06-15 | 中海石油(中国)有限公司 | 一种井筒的完整性预判方法 |
CN113011481A (zh) * | 2021-03-10 | 2021-06-22 | 广东电网有限责任公司计量中心 | 一种基于决策树算法的电能表功能异常评估方法及系统 |
CN113051553A (zh) * | 2019-12-27 | 2021-06-29 | 北京安控科技股份有限公司 | 一种事故规则的生成方法和系统 |
CN113505274A (zh) * | 2021-07-30 | 2021-10-15 | 绿漫科技有限公司 | 一种适用于多网络状态的仪表抄表方法 |
CN113538063A (zh) * | 2021-07-28 | 2021-10-22 | 广东电网有限责任公司 | 基于决策树的电费异常数据分析方法、装置、设备及介质 |
CN113642660A (zh) * | 2021-08-20 | 2021-11-12 | 招商局重庆交通科研设计院有限公司 | 一种道面多维检测数据的信息增益表征方法 |
CN115168848A (zh) * | 2022-09-08 | 2022-10-11 | 南京鼎山信息科技有限公司 | 基于大数据分析拦截的拦截反馈处理方法 |
CN115759236A (zh) * | 2022-12-30 | 2023-03-07 | 北京德风新征程科技有限公司 | 模型训练方法、信息发送方法、装置、设备和介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102473247A (zh) * | 2009-06-30 | 2012-05-23 | 陶氏益农公司 | 用于在包含分子遗传标志物的植物和动物数据集中挖掘关联规则,继而利用由这些关联规则创建的特征进行分类或预测的机器学习方法的应用 |
CN103714348A (zh) * | 2014-01-09 | 2014-04-09 | 北京泰乐德信息技术有限公司 | 一种基于决策树的轨道交通故障诊断方法和系统 |
CN103902816A (zh) * | 2014-03-12 | 2014-07-02 | 郑州轻工业学院 | 基于数据挖掘技术的带电检测数据处理方法 |
CN106054104A (zh) * | 2016-05-20 | 2016-10-26 | 国网新疆电力公司电力科学研究院 | 一种基于决策树的智能电表故障实时预测方法 |
CN106154209A (zh) * | 2016-07-29 | 2016-11-23 | 国电南瑞科技股份有限公司 | 基于决策树算法的电能表故障预测方法 |
CN106355209A (zh) * | 2016-09-07 | 2017-01-25 | 国网电力科学研究院武汉南瑞有限责任公司 | 基于决策树算法的窃电诊断系统及方法 |
CN106372671A (zh) * | 2016-09-06 | 2017-02-01 | 东南大学 | 一种c4.5决策树算法下的连续属性度量选择的增量学习方法 |
-
2017
- 2017-04-14 CN CN201710244397.2A patent/CN108733966A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102473247A (zh) * | 2009-06-30 | 2012-05-23 | 陶氏益农公司 | 用于在包含分子遗传标志物的植物和动物数据集中挖掘关联规则,继而利用由这些关联规则创建的特征进行分类或预测的机器学习方法的应用 |
CN103714348A (zh) * | 2014-01-09 | 2014-04-09 | 北京泰乐德信息技术有限公司 | 一种基于决策树的轨道交通故障诊断方法和系统 |
CN103902816A (zh) * | 2014-03-12 | 2014-07-02 | 郑州轻工业学院 | 基于数据挖掘技术的带电检测数据处理方法 |
CN106054104A (zh) * | 2016-05-20 | 2016-10-26 | 国网新疆电力公司电力科学研究院 | 一种基于决策树的智能电表故障实时预测方法 |
CN106154209A (zh) * | 2016-07-29 | 2016-11-23 | 国电南瑞科技股份有限公司 | 基于决策树算法的电能表故障预测方法 |
CN106372671A (zh) * | 2016-09-06 | 2017-02-01 | 东南大学 | 一种c4.5决策树算法下的连续属性度量选择的增量学习方法 |
CN106355209A (zh) * | 2016-09-07 | 2017-01-25 | 国网电力科学研究院武汉南瑞有限责任公司 | 基于决策树算法的窃电诊断系统及方法 |
Non-Patent Citations (2)
Title |
---|
吕旭冬: "基于机器学习的终端光学元件损伤识别及分类研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
陈景祥: "《R软件 应用统计方法》", 15 July 2014, 东北财经大学出版社 * |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110046179A (zh) * | 2018-12-25 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 一种报警维度的挖掘方法、装置及设备 |
CN110569867A (zh) * | 2019-07-15 | 2019-12-13 | 山东电工电气集团有限公司 | 基于决策树算法的输电线路故障原因判别方法、介质及设备 |
CN112943224A (zh) * | 2019-12-11 | 2021-06-11 | 中国石油化工股份有限公司 | 稠油井动液面的计算方法 |
CN111199243A (zh) * | 2019-12-19 | 2020-05-26 | 中国人民解放军战略支援部队信息工程大学 | 一种基于改进决策树的空中目标识别方法及系统 |
CN113051553A (zh) * | 2019-12-27 | 2021-06-29 | 北京安控科技股份有限公司 | 一种事故规则的生成方法和系统 |
CN111242175A (zh) * | 2019-12-31 | 2020-06-05 | 国网北京市电力公司 | 基于机器学习的计量点电压异常检测方法及系统 |
CN111241056A (zh) * | 2019-12-31 | 2020-06-05 | 国网浙江省电力有限公司电力科学研究院 | 一种基于决策树模型的电力用能数据存储优化方法 |
CN111241056B (zh) * | 2019-12-31 | 2024-03-01 | 国网浙江省电力有限公司营销服务中心 | 一种基于决策树模型的电力用能数据存储优化方法 |
CN111445080A (zh) * | 2020-04-01 | 2020-07-24 | 中电万维信息技术有限责任公司 | 一种基于随机森林的西北内陆河生态基流预测方法 |
CN111612149A (zh) * | 2020-05-21 | 2020-09-01 | 国网湖南省电力有限公司 | 一种基于决策树的主网线路状态检测方法、系统及介质 |
CN112183604A (zh) * | 2020-09-22 | 2021-01-05 | 国网江苏省电力有限公司营销服务中心 | 一种基于决策树的电能计量装置选型方法和系统 |
CN112308122A (zh) * | 2020-10-20 | 2021-02-02 | 中国刑事警察学院 | 基于双树的高维向量空间样本快速搜索方法及装置 |
CN112308122B (zh) * | 2020-10-20 | 2024-03-01 | 中国刑事警察学院 | 基于双树的高维向量空间样本快速搜索方法及装置 |
CN113011481A (zh) * | 2021-03-10 | 2021-06-22 | 广东电网有限责任公司计量中心 | 一种基于决策树算法的电能表功能异常评估方法及系统 |
CN113011481B (zh) * | 2021-03-10 | 2024-04-30 | 广东电网有限责任公司计量中心 | 一种基于决策树算法的电能表功能异常评估方法及系统 |
CN112966023A (zh) * | 2021-03-12 | 2021-06-15 | 中海石油(中国)有限公司 | 一种井筒的完整性预判方法 |
CN113538063A (zh) * | 2021-07-28 | 2021-10-22 | 广东电网有限责任公司 | 基于决策树的电费异常数据分析方法、装置、设备及介质 |
CN113505274A (zh) * | 2021-07-30 | 2021-10-15 | 绿漫科技有限公司 | 一种适用于多网络状态的仪表抄表方法 |
CN113505274B (zh) * | 2021-07-30 | 2024-02-27 | 绿漫科技有限公司 | 一种适用于多网络状态的仪表抄表方法 |
CN113642660B (zh) * | 2021-08-20 | 2023-06-23 | 招商局重庆交通科研设计院有限公司 | 一种道面多维检测数据的信息增益表征方法 |
CN113642660A (zh) * | 2021-08-20 | 2021-11-12 | 招商局重庆交通科研设计院有限公司 | 一种道面多维检测数据的信息增益表征方法 |
CN115168848B (zh) * | 2022-09-08 | 2022-12-16 | 南京鼎山信息科技有限公司 | 基于大数据分析拦截的拦截反馈处理方法 |
CN115168848A (zh) * | 2022-09-08 | 2022-10-11 | 南京鼎山信息科技有限公司 | 基于大数据分析拦截的拦截反馈处理方法 |
CN115759236B (zh) * | 2022-12-30 | 2024-01-12 | 北京德风新征程科技股份有限公司 | 模型训练方法、信息发送方法、装置、设备和介质 |
CN115759236A (zh) * | 2022-12-30 | 2023-03-07 | 北京德风新征程科技有限公司 | 模型训练方法、信息发送方法、装置、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108733966A (zh) | 一种基于决策树群的多维电能表现场状态检验方法 | |
CN110097297B (zh) | 一种多维度窃电态势智能感知方法、系统、设备及介质 | |
CN106154209B (zh) | 基于决策树算法的电能表故障预测方法 | |
CN111639237B (zh) | 一种基于聚类和关联规则挖掘的电力通信网风险评估系统 | |
CN106779505A (zh) | 一种基于大数据驱动的输电线路故障预警方法及系统 | |
CN106203679A (zh) | 一种用户流失预测方法及系统 | |
CN109978222A (zh) | 一种基于贝叶斯网络的风电爬坡事件概率预测方法及系统 | |
CN106707099A (zh) | 基于异常用电检测模型的监测定位方法 | |
CN110929918A (zh) | 一种基于CNN和LightGBM的10kV馈线故障预测方法 | |
CN103679544A (zh) | 一种智能配电网运行综合评估方法 | |
CN107437135B (zh) | 一种新型储能选型方法 | |
CN113267692A (zh) | 一种低压台区线损智能诊断分析方法和系统 | |
CN107256442A (zh) | 基于移动客户端的线损计算方法 | |
CN106709823A (zh) | 一种电力用户用电信息采集系统的运行性能评价方法 | |
CN108846555A (zh) | 一种电力负荷大数据缺失值的高效精确填补法 | |
CN114202129A (zh) | 风电出力预测方法、电子设备、存储介质及系统 | |
CN108399503A (zh) | 一种架空输电线路鸟害故障预警方法 | |
CN114519514B (zh) | 一种低压台区合理线损值测算方法、系统及计算机设备 | |
Hong et al. | Artificial intelligence for load forecasting: history, illusions, and opportunities | |
CN104599087A (zh) | 一种输电线路巡检判定方法 | |
CN105930900A (zh) | 一种混合风力发电的预测方法及系统 | |
Erhan et al. | Analyzing objective and subjective data in social sciences: Implications for smart cities | |
CN110889565B (zh) | 一种基于多维矩阵决策的配网巡检周期计算方法 | |
CN109902133A (zh) | 基于电网任意分割区域的多源数据纠错处理方法及系统 | |
CN104484546B (zh) | 一种电网规划项目自动潮流校核文件的生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20221018 |