CN113011481B - 一种基于决策树算法的电能表功能异常评估方法及系统 - Google Patents

一种基于决策树算法的电能表功能异常评估方法及系统 Download PDF

Info

Publication number
CN113011481B
CN113011481B CN202110262053.0A CN202110262053A CN113011481B CN 113011481 B CN113011481 B CN 113011481B CN 202110262053 A CN202110262053 A CN 202110262053A CN 113011481 B CN113011481 B CN 113011481B
Authority
CN
China
Prior art keywords
data
feature quantity
decision tree
feature
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110262053.0A
Other languages
English (en)
Other versions
CN113011481A (zh
Inventor
黄友朋
路韬
化振谦
唐捷
招景明
纪伊琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Measurement Center of Guangdong Power Grid Co Ltd
Original Assignee
Measurement Center of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Measurement Center of Guangdong Power Grid Co Ltd filed Critical Measurement Center of Guangdong Power Grid Co Ltd
Priority to CN202110262053.0A priority Critical patent/CN113011481B/zh
Publication of CN113011481A publication Critical patent/CN113011481A/zh
Application granted granted Critical
Publication of CN113011481B publication Critical patent/CN113011481B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/06Electricity, gas or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/80Management or planning
    • Y02P90/82Energy audits or management systems therefor

Abstract

本发明提供一种基于决策树算法的电能表功能异常评估方法及系统,其中方法包括:对获取到的原始测量数据进行预处理得到样本数据,以剔除原始测量数据中的噪声数据;根据历史工单对第一异常判定规则进行改进,得到第二异常判定规则并提取特征量;通过所述训练集数据,利用C4.5算法搭建决策树模型,并由所述测试集数据对所述决策树模型进行剪枝优化处理,生成基于决策树算法的计量设备功能异常评估模型;将所述特征量输入所述计量设备功能异常评估模型,得到异常的判定结果。本发明利用功能异常的历史反馈工单提出了异常判定规则的修改建议,合理考虑了电表实际运行中的不同因素的影响,避免了几种较为普遍的误判情形,降低了运维成本。

Description

一种基于决策树算法的电能表功能异常评估方法及系统
技术领域
本发明涉及智能电表仪器检测技术领域,特别是涉及一种基于决策树算法的电能表功能异常评估方法及系统。
背景技术
由于国民经济的快速发展,日渐庞大的用电需求为电网运营管理提出了更高的要求,为保证向用户提供精准服务,信息化技术手段在电力系统得到越来越多的应用。然而,计量设备智能水平的不断提升也带来了新的问题,设备复杂性的持续增加使得计量装置异常表现的持续更加。各种类型的电能计量装置异常问题很大程度上影响着电网和用户之间的利益。对电能表进行运行监测和状态评估,及时发现计量设备功能异常情况并采取措施处理,保证设备的稳定运行,实现计量的可靠、准确,不仅有利于电网公司的经济效益和用户的切身利益,更有利于社会的和谐稳定。随着“互联网+”时代的来临,电力公司信息化工作日渐完善,用电信息采集数据的广度和深度也逐步提高,大数据特征愈发明显,如何通过上述海量的数据及时的判知各类异常,及早发现设备隐患并完成现场处置,已成为智能化运维工作的迫切需求。
目前国内研究电能计量设备功能异常主要方法是基于用户用电信息采集系统,包括智能电表在内地各种采集终端都可以自主地诊断自身运行状态,及时发现运行过程中自身出现的各种异常并实时上报到采集系统主站。这些采集信息如用户用电电量、电压、电流、频率等电能状态量为计量设备的远程监测提供了数据基础。
但是,现有技术存在以下问题:
(1)现行的功能异常诊断方法准确度还有提升空间,对现场故障存在较多误判情形,易将电参量的偶然波动判断为功能异常,造成时间和人力的耗费,给用户带来不便,导致电能表运行的维护成本过高;(2)模型适应性较差,基于某些实验地区的数据特征得到的诊断方案对数据的依赖性较强,对于用户用电特征有差异的地区不适用,对电网的实际情况缺乏考虑;(3)对异常产生的原因缺乏机理分析和实际数据验证,异常特征建模还需要考虑其与异常产生原因之间的关系,并通过现场反馈从而不断的完善。(4)决策树分类算法还不够完善,需要搜集大量现场实例完善运维反馈信息,对算法进行优化。
发明内容
为解决以上现有技术的问题,本发明提供一种基于决策树算法的电能表功能异常评估方法及系统,对计量装置在线功能异常评估模型进行完善,提升功能异常分析的准确度,提高功能异常的诊断效率,为智能化运维提供支撑。
本发明一个实施例提供一种基于决策树算法的电能表功能异常评估方法,包括:
对获取到的原始测量数据进行预处理得到样本数据,以剔除原始测量数据中的噪声数据;其中,所述样本数据包括:训练集数据及测试集数据;
根据历史工单对第一异常判定规则进行改进,得到第二异常判定规则并提取特征量;
通过所述训练集数据,利用C4.5算法搭建决策树模型,并由所述测试集数据对所述决策树模型进行剪枝优化处理,生成基于决策树算法的计量设备功能异常评估模型;
将所述特征量输入所述计量设备功能异常评估模型,得到异常的判定结果。
进一步地,所述对获取到的原始测量数据进行预处理得到样本数据,具体地:
根据局部异常因子算法检测所述原始测量数据,将异常数据及缺失数据进行填充或过滤。
进一步地,所述将所述特征量输入所述计量设备功能异常评估模型,包括:
基于所述C4.5算法,计算所述特征量的信息增益;
将所述信息增益最大值所对应的特征量作为决策树根节点;
根据所述根节点的不同取值对应的子集递归生成决策树子节点,直至满足决策树生成条件。
进一步地,所述通过所述训练集数据,利用C4.5算法搭建决策树模型,包括:
获取目标样本个数占训练总样本的比例;
通过所述目标样本个数占训练总样本的比例计算训练集的类别信息熵;所述训练集的类别信息熵通过以下公式进行计算:
其中,为训练集的类别信息熵,/>为目标样本个数占训练总样本的比例;
通过目标样本概率计算以特征量划分的条件信息熵;所述以特征量划分的条件信息熵通过以下公式进行计算:
其中,为/>以特征量A划分的条件信息熵,/>为/>种目标样本概率;
将所述训练集以预设规则进行划分,得到若干子训练集;
通过所述训练集的类别信息熵、所述子训练集,计算特征量的条件信息熵;所述特征量的条件信息熵通过以下公式进行计算:
其中,为特征量A的条件信息熵,/>表示按照特征量A为分裂特征,若特征量A由K个不相关的值,则训练集S被划分为/>训练子集,/>为/>以特征量A划分的训练集的类别信息熵;
根据所述训练集的类别信息熵及所述特征量的条件信息熵计算条件特征量的信息增益;通过以下公式进行计算:
其中,为条件特征量的信息增益,/>为训练集的类别信息熵,/>为特征量A的条件信息熵;
通过当前样本个数占训练总样本的比例计算特征量在样本中的信息熵;所述特征量在样本中的信息熵通过以下公式计算:
其中,为特征量在样本中的信息熵,/>为当前样本个数占训练总样本的比例;
通过所述条件特征量的信息增益及所述特征量在样本中的信息熵计算特征量的信息增益;所述特征量的信息增益通过以下公式进行计算:
其中,为条件特征量的信息增益,/>为特征量在样本中的信息熵。
进一步地,所述由所述测试集数据对所述决策树模型进行剪枝优化处理,包括:
根据叶子节点的误差率及叶子节点归类的数据占所有数据的比例计算叶子节点的误差代价;所述叶子节点的误差代价通过以下公式计算:
其中,是叶子节点t的误差代价,/>为叶子节点的误差率,/>为叶子节点归类的数据占所有数据的比例;
根据所述叶子节点的误差代价、子树生长的叶子节点数、子树的误差代价计算树中每一个子树的表面误差率增益,所述树中每一个子树的表面误差率增益通过以下公式进行计算:
其中,为每一个子树/>的表面误差率增益,/>是叶子节点t的误差代价,/>是子树/>的误差代价,其值为子树/>所包含的所有叶子节点的误差代价之和,/>是子树生长的叶子节点数;
选取子树的表面误差率增益最小的子树,将其生成的分支进行剪枝;当多个子树的表面误差率增益同时到达最小时,取子树生长的叶子节点数最大的进行剪枝,直至到达模型的评估要求为止。
本发明一实施例提供一种基于决策树算法的电能表功能异常评估系统,包括:
预处理模块,用于对获取到的原始测量数据进行预处理得到样本数据,以剔除原始测量数据中的噪声数据;其中,所述样本数据包括:训练集数据及测试集数据;
异常判定规则改进模块,用于根据历史工单对第一异常判定规则进行改进,得到第二异常判定规则并提取特征量;
计量设备功能异常评估模型建立模块,用于通过所述训练集数据,利用C4.5算法搭建决策树模型,并由所述测试集数据对所述决策树模型进行剪枝优化处理,生成基于决策树算法的计量设备功能异常评估模型;
判定结果生成模块,用于将所述特征量输入所述计量设备功能异常评估模型,得到异常的判定结果。
进一步地,所述预处理模块,还用于:
根据局部异常因子算法检测所述原始测量数据,将异常数据及缺失数据进行填充或过滤。
进一步地,所述判定结果生成模块,包括:
特征量的信息增益计算子模块,用于基于所述C4.5算法,计算所述特征量的信息增益;
将所述信息增益最大值所对应的特征量作为决策树根节点;
根据所述根节点的不同取值对应的子集递归生成决策树子节点,直至满足决策树生成条件。
进一步地,所述特征量的信息增益计算子模块,还用于:
获取目标样本个数占训练总样本的比例;
通过所述目标样本个数占训练总样本的比例计算训练集的类别信息熵;所述训练集的类别信息熵通过以下公式进行计算:
其中,为训练集的类别信息熵,/>为目标样本个数占训练总样本的比例;
通过目标样本概率计算以特征量划分的条件信息熵;所述以特征量划分的条件信息熵通过以下公式进行计算:
其中,为/>以特征量A划分的条件信息熵,/>为/>种目标样本概率;
将所述训练集以预设规则进行划分,得到若干子训练集;
通过所述训练集的类别信息熵、所述子训练集,计算特征量的条件信息熵;所述特征量的条件信息熵通过以下公式进行计算:
其中,为特征量A的条件信息熵,/>表示按照特征量A为分裂特征,若特征量A由K个不相关的值,则训练集S被划分为/>训练子集,/>为/>以特征量A划分的训练集的类别信息熵;
根据所述训练集的类别信息熵及所述特征量的条件信息熵计算条件特征量的信息增益;通过以下公式进行计算:
其中,为条件特征量的信息增益,/>为训练集的类别信息熵,/>为特征量A的条件信息熵;
通过当前样本个数占训练总样本的比例计算特征量在样本中的信息熵;所述特征量在样本中的信息熵通过以下公式计算:
其中,为特征量在样本中的信息熵,/>为当前样本个数占训练总样本的比例;
通过所述条件特征量的信息增益及所述特征量在样本中的信息熵计算特征量的信息增益;所述特征量的信息增益通过以下公式进行计算:
其中,为条件特征量的信息增益,/>为特征量在样本中的信息熵。
进一步地,所述计量设备功能异常评估模型建立模块,还用于:
根据叶子节点的误差率及叶子节点归类的数据占所有数据的比例计算叶子节点的误差代价;所述叶子节点的误差代价通过以下公式计算:
其中,是叶子节点t的误差代价,/>为叶子节点的误差率,/>为叶子节点归类的数据占所有数据的比例;
根据所述叶子节点的误差代价、子树生长的叶子节点数、子树的误差代价计算树中每一个子树的表面误差率增益,所述树中每一个子树的表面误差率增益通过以下公式进行计算:
其中,为每一个子树/>的表面误差率增益,/>是叶子节点t的误差代价,/>是子树/>的误差代价,其值为子树/>所包含的所有叶子节点的误差代价之和,/>是子树生长的叶子节点数;
选取子树的表面误差率增益最小的子树,将其生成的分支进行剪枝;当多个子树的表面误差率增益同时到达最小时,取子树生长的叶子节点数最大的进行剪枝,直至到达模型的评估要求为止。
与现有技术相比,本发明实施例的有益效果在于:
本发明一个实施例提供一种基于决策树算法的电能表功能异常评估方法,包括:对获取到的原始测量数据进行预处理得到样本数据,以剔除原始测量数据中的噪声数据;其中,所述样本数据包括:训练集数据及测试集数据;根据历史工单对第一异常判定规则进行改进,得到第二异常判定规则并提取特征量;通过所述训练集数据,利用C4.5算法搭建决策树模型,并由所述测试集数据对所述决策树模型进行剪枝优化处理,生成基于决策树算法的计量设备功能异常评估模型;将所述特征量输入所述计量设备功能异常评估模型,得到异常的判定结果。本发明利用功能异常的历史反馈工单提出了异常判定规则的修改建议,合理考虑了电表实际运行中的不同因素的影响,避免了几种较为普遍的误判情形,降低了运维成本。此外,本方法提出的剪枝优化方法对于现有的决策树算法的进行优化,有效提高了算法的效率。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明某一实施例提供的一种基于决策树算法的电能表功能异常评估方法的流程图;
图2是本发明另一实施例提供的反向电量异常验证结果的示意图;
图3是本发明又一实施例提供的不同算法误判率随训练样本变化的示意图;
图4是本发明某一实施例提供的一种基于决策树算法的电能表功能异常评估系统的装置图;
图5是本发明某一实施例提供的一种电子设备的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,文中所使用的步骤编号仅是为了方便描述,不对作为对步骤执行先后顺序的限定。
应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
目前国内研究电能计量设备功能异常主要方法是基于用户用电信息采集系统,包括智能电表在内地各种采集终端都可以自主地诊断自身运行状态,及时发现运行过程中自身出现的各种异常并实时上报到采集系统主站。这些采集信息如用户用电电量、电压、电流、频率等电能状态量为计量设备的远程监测提供了数据基础。国家电网公司基于采集系统中的原始数据完成了原始专家知识库构建,并设计了37个智能诊断分析模型,更加准确的对各类计量异常、用电异常实现远程诊断。
但是这些现有技术存在以下问题:
(1)现行的功能异常诊断方法准确度还有提升空间,对现场故障存在较多误判情形,易将电参量的偶然波动判断为功能异常,造成时间和人力的耗费,给用户带来不便,导致电能表运行的维护成本过过高。
(2)模型适应性较差,基于某些实验地区的数据特征得到的诊断方案对数据的依赖性较强,对于用户用电特征有差异的地区不适用,对电网的实际情况缺乏考虑。
(3)对异常产生的原因缺乏机理分析和实际数据验证,异常特征建模还需要考虑其与异常产生原因之间的关系,并通过现场反馈从而不断的完善。
(4)目前,决策树分类算法还不够完善,需要搜集大量现场实例完善运维反馈信息,对算法进行优化。
本发明的目的在于运用数据挖掘技术,对计量装置在线功能异常评估模型进行完善,提升功能异常分析的准确度,提高功能异常的诊断效率,为智能化运维提供支撑。
第一方面。
请参阅图1,本发明一实施例提供一种基于决策树算法的电能表功能异常评估方法,包括:
S10、对获取到的原始测量数据进行预处理得到样本数据,以剔除原始测量数据中的噪声数据。
其中,所述样本数据包括:训练集数据及测试集数据。
在某一具体实施方式中,所述对获取到的原始测量数据进行预处理得到样本数据,具体地:
根据局部异常因子算法检测所述原始测量数据,将异常数据及缺失数据进行填充或过滤。
在某一具体实施例中,所述步骤S10包括:
(1):获取智能电表功能异常在线评估所需信息:台区及用户档案信息;智能电表采集电参量信息;功能异常上报信息。台区用户档案信息可以由所在地计量中心获得,智能电表运行过程中的电参量信息主要通过基于AMI的智能电表数据采集系统测量获得,功能异常上报信息由主站工作人员统计获得。
(2):对上述原始测量数据进行预处理。由于通信故障、电磁信号干扰等情况偶尔会导致一些数据异常的问题,例如有功示值突变、有功示值串户、电流电压示值远远超出正常值等现象,针对以上问题采用局部异常因子算法(LOF)等方法检测出异常值,避免该不良测量数据影响电表功能异常评估的准确性。
基于AMI数据采集系统所获取的原始测量数据进行预处理。利用LOF因子检测异常数据,将异常数据当作缺失数据处理,并对缺失数据进行填充或过滤。预处理后的数据作为特征工程的数据变量。该步骤主要包括:
1)异常值处理:
上述异常数据主要是由于通信故障、电磁信号干扰等情况偶尔会导致一些数据异常的问题,从而导致异常采样数据大幅度偏离附近几次采样数据。对于异常数据的识别主要通过异常因子算法(LOF)实现。基于异常因子算法的数据异常值识别过程如下:
1、输入第i天近一周的日冻结反向有功数据
2、在中,计算第k个最近的数据点跟数据点/>之间的距离,记为/>,计算与另外一个数据点/>之间的距离记为/>
3、计算的第k距离领域:/>
4、计算与第k距离领域中的点的可达距离。
5、计算的局部可达密度。
6、计算的局部异常因子(LOF)。
若其LOF大于1,则认为是异常值,然后将其是为缺失值,用上述缺失值的处理办法进行缺失值补全。
2)缺失值处理:
对于少量缺失,采用线性插值法进行填充,具体如式,其中n取2。针对大量缺失,则将当天数据过滤,其中,缺失是否严重定义为一天电气参数缺失超过四个点数。
其中、/>和/>分别为第t个点第/>数据类型缺失值、第t-i个点第/>数据类型的值、第t+i个点第/>数据类型的值,/>包括电压、电流、日冻结正反有功。
S20、根据历史工单对第一异常判定规则进行改进,得到第二异常判定规则并提取特征量。
在某一具体实施例中,所述步骤S20包括:
根据各种类型的功能产生原因以及反馈工单的分析,对传统的异常判定规则进行改进,提出异常特征。该步骤具体包括:
(1)对可能发生的各种异常的原因进行必要的机理分析,给出传统的异常判定规则。
(2)通过分析历史工单以及实地调查,总结传统判定算法判定功能异常的过程中存在的问题以及产生误判的原因,并针对相应的误判原因提出改进的判定规则。
(3)根据提出的规则通过一系列的特征工程工作生成具体的特征量。
在另一具体实施例中,所述步骤S20包括:
(1)传统的反向电量判断规则为:电能表反向有功总示值大于0,当天反向电量大于1KWh。
(2)根据历史工单反馈分析发现,产生反向电量的主要有以下几种情况:
情景1:用户属于光伏用户或小水电上网用户,发电期间向电网传输电能;
情景2:用户内部有电机类或能量转换设备,此类型设备具体工作过程中会引起反向电量;
情景3:用户内部有感性负载;
情景4:拥有多电源的用户在并列运行时会向电网方向传送有功电能量;
情景5:容性补偿过大;
情景6:接线错误,包括电流互感器极性接反、相序接错;
情景7:表计内部故障;
根据现场调研以及历史工单的反馈发现,上述出现几种情况虽均表现为反向电量,但由于电能表计量功能异常引起的反向电量异常情况只有情景7;而其他情况下,电能表计量功能实际正常,但根据传统判断规则,将会造成误判。
(3)针对第(2)点提出的误判情形,对传统规则进行修改,提出改进的判断规则如下:
1)按照传统电能表反向电量异常判定规则进行反向电量的初步判断;满足则判为反向电量异常疑似表,然后进行下一步的判断;
2)判断用户是否在光伏发电用户或小水电上网用户名单中,如果在,则剔除,如果不在,则进行下一步的判断;
3)判断用户是否存在某一相或多相 96 点电流全为负,如果存在则可推断为接线错误导致的反向电量异常,如果不存在,则进行下一步判断;
4)判断用户正向有功电量走字是否远大于反向有功电量走字,本文采用反向电量和正向电量的比值 M,并根据接线方式设置阈值。通过大量的实地考察,最终将阈值设定为:单相电能表 M=0.1,三相三线电能表 M=0.9,三相四线电能表 M=0.45。如果大于设定的阈值,则判定为现场异常,下发工单进行处理,否则进行下一步的判断;
5)用户在三天时间内正向有功电量走字情况是否正常;本文采用连续三天电量的方差,经大量实验后将阈值设定为 1。
(4)根据第(3)点提出的改进的判断规则,提取如下特征量:
1)根据电能表反向有功总示值p(单位:kWh),计算反向电量概率特征量RAP:
依据相关规约可拟定参数a=0,b=1。该特征作为最基本的反向电流异常特征。
2)根据台区及用户档案信息中的光伏标识,计算光伏特征量PV:
增加该特征,有利于降低误判为情景1的概率。
3)根据电流信息,计算电流特征量Cur:
增加该特征,有利于降低误判为情景6的概率。
4)根据正反向电量,计算正反电量比特征量Ratio
其中M的取值如下:
增加该特征,有利于降低误判为情景4的概率。
5)根据反向电量,计算反向电量波动特征量Std_p:
增加该特征,有利于降低误判为情景2的概率。
6)根据电压、电流、功率,计算出电压与电流间的相角,然后根据/>计算感性负载特征量Inductive:
增加该特征,有利于降低误判为情景3的概率。
S30、通过所述训练集数据,利用C4.5算法搭建决策树模型,并由所述测试集数据对所述决策树模型进行剪枝优化处理,生成基于决策树算法的计量设备功能异常评估模型。
在某一具体实施方式中,所述由所述测试集数据对所述决策树模型进行剪枝优化处理,包括:
根据叶子节点的误差率及叶子节点归类的数据占所有数据的比例计算叶子节点的误差代价;所述叶子节点的误差代价通过以下公式计算:
其中,是叶子节点t的误差代价,/>为叶子节点的误差率,/>为叶子节点归类的数据占所有数据的比例;
根据所述叶子节点的误差代价、子树生长的叶子节点数、子树的误差代价计算树中每一个子树的表面误差率增益,所述树中每一个子树的表面误差率增益通过以下公式进行计算:
其中,为每一个子树/>的表面误差率增益,/>是叶子节点t的误差代价,/>是子树/>的误差代价,其值为子树/>所包含的所有叶子节点的误差代价之和,/>是子树生长的叶子节点数;/>
选取子树的表面误差率增益最小的子树,将其生成的分支进行剪枝;当多个子树的表面误差率增益同时到达最小时,取子树生长的叶子节点数最大的进行剪枝,直至到达模型的评估要求为止。
在某一具体实施方式中,所述C4.5算法是决策树算法的一种。决策树算法作为一种分类算法,目标就是将具有p维特征的n个样本分到c个类别中去。相当于做一个投影,c=f(n),将样本经过一种变换赋予一种类别标签。决策树为了达到这一目的,可以把分类的过程表示成一棵树,每次通过选择一个特征pi来进行分叉。
S40、将所述特征量输入所述计量设备功能异常评估模型,得到异常的判定结果。
在某一具体实施方式中,所述将所述特征量输入所述计量设备功能异常评估模型,包括:
基于所述C4.5算法,计算所述特征量的信息增益;
将所述信息增益最大值所对应的特征量作为决策树根节点;
根据所述根节点的不同取值对应的子集递归生成决策树子节点,直至满足决策树生成条件。
在某一具体实施方式中,所述通过所述训练集数据,利用C4.5算法搭建决策树模型,包括:
获取目标样本个数占训练总样本的比例;
通过所述目标样本个数占训练总样本的比例计算训练集的类别信息熵;所述训练集的类别信息熵通过以下公式进行计算:
其中,为训练集的类别信息熵,/>为目标样本个数占训练总样本的比例;
通过目标样本概率计算以特征量划分的条件信息熵;所述以特征量划分的条件信息熵通过以下公式进行计算:
其中,为/>以特征量A划分的条件信息熵,/>为/>种目标样本概率;
将所述训练集以预设规则进行划分,得到若干子训练集;
通过所述训练集的类别信息熵、所述子训练集,计算特征量的条件信息熵;所述特征量的条件信息熵通过以下公式进行计算:
其中,为特征量A的条件信息熵,/>表示按照特征量A为分裂特征,若特征量A由K个不相关的值,则训练集S被划分为/>训练子集,/>为/>以特征量A划分的训练集的类别信息熵;
根据所述训练集的类别信息熵及所述特征量的条件信息熵计算条件特征量的信息增益;通过以下公式进行计算:
其中,为条件特征量的信息增益,/>为训练集的类别信息熵,/>为特征量A的条件信息熵;
通过当前样本个数占训练总样本的比例计算特征量在样本中的信息熵;所述特征量在样本中的信息熵通过以下公式计算:
其中,为特征量在样本中的信息熵,/>为当前样本个数占训练总样本的比例;
通过所述条件特征量的信息增益及所述特征量在样本中的信息熵计算特征量的信息增益;所述特征量的信息增益通过以下公式进行计算:
其中,为条件特征量的信息增益,/>为特征量在样本中的信息熵。
在某一具体实施例中,所述步骤S40通过对不同台区的数据进行测试,将提取的特征量输入到获取的决策树中,得到异常的判定结果。并现场获取电表的真实状态与S40评估结果进行对比,分析基于决策树算法的电能表功能异常评估方法的性能。
在另一具体实施例中,将以上样本数据集分为训练集和测试集,利用C4.5算法计算不同属性的信息增益,形成决策树的搭建,由测试集的数据对决策树进行训练,由最后确定的决策树形成计量设备功能异常评估模型。该步骤具体包括:
(1)将经过特征计算处理后的异常特征量作为电能表异常评估模型的输入样本;
(2)基于的C4.5算法,分别计算输入的异常特征量{RAP、PV、Cur、Ratio、Std_p、Inductive}的信息增益,并用最大信息增益所对应的特征量作为决策树根节点,对根节点的不同取值对应的子集递归用上述过程生成决策树子节点,直至满足决策树生成停止条件。其中,特征量A的改进信息增益计算步骤:
1)计算样本集S的类别信息熵
其中为第i类样本个数占训练总样本的比例。
2)计算特征量A的条件信息熵
其中表示按照特征量A为分裂特征,若特征量A由K个不相关的值,则样本集S被划分为/>。/>为/>以特征量A划分的条件信息熵,其表达式为:
/>
其中,为/>种第i类的样本概率。
3)计算条件特征量A的信息增益
4)计算特征量A在样本S中的信息熵
5)计算特征量A的信息增益:
(3)采用复杂性剪枝算法对(2)生成的决策树进行剪枝处理。剪枝优化步骤如下:
1)计算树中每一个子树的表面误差率增益/>
其中是子树生长的叶子节点数;/>是叶子节点t的误差代价,其计算公式如下:
式中式叶子节点t的误差率;/>式叶子节点t归类的数据占所有数据的比例;式子树/>的误差代价,其值为子树/>所包含的所有叶子节点的误差代价之和。
2)选取最小的子树,将其生成的分支进行剪枝。当多个子树的/>值同时到达最小时,取/>最大的进行剪枝,直至到达模型的评估要求为止。
通过对台区内智能电表抽样检测,获得智能电表计量功能异常的实际类型,并与电能表计量异常估计类型对比,分析基于决策树算法的电表异常远程估计算法的性能。
对智能电表异常估计结果进行分析,具体包括:
(1)对台区内智能电表的实际异常类型进行检测:对于规模较大的台区,采用分层抽样的方式,按照各用户用电量水平进行分层,并确定各层抽取的样本数量;对于规模较小的台区,可以采用全部检测的方式,并统计反向电量异常的电能表ID号。
(2)获取抽取的智能电表的台区及用户档案信息和智能电表运行数据,并将其输入至特征量计算模块。得到的相应特征值输入至基于决策树算法的电能表异常评估模型,得到反向电量异常的电能表ID号。
(3)选取一个实际的台区进行现场测试,对步骤S14中评估算法的性能进行分析。
本发明实例首先对一个包含10万组数据的台区用电数据进行分析。对搜集的原始测量数据采用局部异常因子检测算法进行数据预处理,剔除了300组不良测量数据,并对剩余的测量数据提取相应的特征作为电表功能异常评估模型的输入变量。利用决策树算法判定电表的反向电量异常情况,得到的判定结果如图2所示。同样用传统的反向电量异常判定规则进行判定作为对比,此外,我们也进行了现场验证以判断模型的准确性。从图2可以看出,改进后的规则判断结果与真实值较为相近,而传统的异常判定规则存在较多误判情形。
此外,我们还对不同算法的性能进行分析,综合比较了ID3、C4.5和进行剪枝优化的C4.5算法误判率,图3显示了各个算法的误判率随训练样本数目的变化,可以看出训练样本数目增加会显著降低每一个算法的误判率,经过剪枝优化的C4.5算法性能最好。
第二方面。
请参阅图4,本发明一实施例提供一种基于决策树算法的电能表功能异常评估系统,包括:
预处理模块10,用于对获取到的原始测量数据进行预处理得到样本数据,以剔除原始测量数据中的噪声数据。
其中,所述样本数据包括:训练集数据及测试集数据。
在某一具体实施方式中,所述对获取到的原始测量数据进行预处理得到样本数据,具体地:
根据局部异常因子算法检测所述原始测量数据,将异常数据及缺失数据进行填充或过滤。
在某一具体实施例中,所述预处理模块10还用于:
(1)获取智能电表功能异常在线评估所需信息:台区及用户档案信息;智能电表采集电参量信息;功能异常上报信息。台区用户档案信息可以由所在地计量中心获得,智能电表运行过程中的电参量信息主要通过基于AMI的智能电表数据采集系统测量获得,功能异常上报信息由主站工作人员统计获得。
(2)对上述原始测量数据进行预处理。由于通信故障、电磁信号干扰等情况偶尔会导致一些数据异常的问题,例如有功示值突变、有功示值串户、电流电压示值远远超出正常值等现象,针对以上问题采用局部异常因子算法(LOF)等方法检测出异常值,避免该不良测量数据影响电表功能异常评估的准确性。
基于AMI数据采集系统所获取的原始测量数据进行预处理。利用LOF因子检测异常数据,将异常数据当作缺失数据处理,并对缺失数据进行填充或过滤。预处理后的数据作为特征工程的数据变量。该步骤主要包括:
1)异常值处理:
上述异常数据主要是由于通信故障、电磁信号干扰等情况偶尔会导致一些数据异常的问题,从而导致异常采样数据大幅度偏离附近几次采样数据。对于异常数据的识别主要通过异常因子算法(LOF)实现。基于异常因子算法的数据异常值识别过程如下:
1、输入第i天近一周的日冻结反向有功数据
2、在中,计算第k个最近的数据点跟数据点/>之间的距离,记为/>,计算与另外一个数据点/>之间的距离记为/>
3、计算的第k距离领域:/>
4、计算与第k距离领域中的点的可达距离。
5、计算的局部可达密度。/>
6、计算的局部异常因子(LOF)。
若其LOF大于1,则认为是异常值,然后将其是为缺失值,用上述缺失值的处理办法进行缺失值补全。
2)缺失值处理:
对于少量缺失,采用线性插值法进行填充,具体如式,其中n取2。针对大量缺失,则将当天数据过滤,其中,缺失是否严重定义为一天电气参数缺失超过四个点数。
其中、/>和/>分别为第t个点第/>数据类型缺失值、第t-i个点第/>数据类型的值、第t+i个点第/>数据类型的值,/>包括电压、电流、日冻结正反有功。
异常判定规则改进模块20,用于根据历史工单对第一异常判定规则进行改进,得到第二异常判定规则并提取特征量。
在某一具体实施例中,所述异常判定规则改进模块20还用于:
根据各种类型的功能产生原因以及反馈工单的分析,对传统的异常判定规则进行改进,提出异常特征。该步骤具体包括:
(1)对可能发生的各种异常的原因进行必要的机理分析,给出传统的异常判定规则;
(2)通过分析历史工单以及实地调查,总结传统判定算法判定功能异常的过程中存在的问题以及产生误判的原因,并针对相应的误判原因提出改进的判定规则;
(3) 根据提出的规则通过一系列的特征工程工作生成具体的特征量。
在另一具体实施例中,所述异常判定规则改进模块20还用于:
(1)传统的反向电量判断规则为:电能表反向有功总示值大于0,当天反向电量大于1KWh。
(2)根据历史工单反馈分析发现,产生反向电量的主要有以下几种情况:
情景1:用户属于光伏用户或小水电上网用户,发电期间向电网传输电能;
情景2:用户内部有电机类或能量转换设备,此类型设备具体工作过程中会引起反向电量;
情景3:用户内部有感性负载;
情景4:拥有多电源的用户在并列运行时会向电网方向传送有功电能量;
情景5:容性补偿过大;
情景6:接线错误,包括电流互感器极性接反、相序接错;
情景7:表计内部故障;
根据现场调研以及历史工单的反馈发现,上述出现几种情况虽均表现为反向电量,但由于电能表计量功能异常引起的反向电量异常情况只有情景7;而其他情况下,电能表计量功能实际正常,但根据传统判断规则,将会造成误判。
(3)针对第(2)点提出的误判情形,对传统规则进行修改,提出改进的判断规则如下:
1)按照传统电能表反向电量异常判定规则进行反向电量的初步判断;满足则判为反向电量异常疑似表,然后进行下一步的判断;
2)判断用户是否在光伏发电用户或小水电上网用户名单中,如果在,则剔除,如果不在,则进行下一步的判断;
3)判断用户是否存在某一相或多相 96 点电流全为负,如果存在则可推断为接线错误导致的反向电量异常,如果不存在,则进行下一步判断;
4)判断用户正向有功电量走字是否远大于反向有功电量走字,本文采用反向电量和正向电量的比值 M,并根据接线方式设置阈值。通过大量的实地考察,最终将阈值设定为:单相电能表 M=0.1,三相三线电能表 M=0.9,三相四线电能表 M=0.45。如果大于设定的阈值,则判定为现场异常,下发工单进行处理,否则进行下一步的判断;
5)用户在三天时间内正向有功电量走字情况是否正常;本文采用连续三天电量的方差,经大量实验后将阈值设定为 1。
(4)根据第(3)点提出的改进的判断规则,提取如下特征量:
1)根据电能表反向有功总示值p(单位:kWh),计算反向电量概率特征量RAP:
依据相关规约可拟定参数a=0,b=1。该特征作为最基本的反向电流异常特征。
2)根据台区及用户档案信息中的光伏标识,计算光伏特征量PV:
增加该特征,有利于降低误判为情景1的概率。
3)根据电流信息,计算电流特征量Cur:
增加该特征,有利于降低误判为情景6的概率。
4)根据正反向电量,计算正反电量比特征量Ratio
/>
其中M的取值如下:
增加该特征,有利于降低误判为情景4的概率。
5)根据反向电量,计算反向电量波动特征量Std_p:
增加该特征,有利于降低误判为情景2的概率。
6)根据电压、电流、功率,计算出电压与电流间的相角,然后根据/>计算感性负载特征量Inductive:
增加该特征,有利于降低误判为情景3的概率。
计量设备功能异常评估模型建立模块30,用于通过所述训练集数据,利用C4.5算法搭建决策树模型,并由所述测试集数据对所述决策树模型进行剪枝优化处理,生成基于决策树算法的计量设备功能异常评估模型。
在某一具体实施方式中,所述计量设备功能异常评估模型建立模块30,还用于:
根据叶子节点的误差率及叶子节点归类的数据占所有数据的比例计算叶子节点的误差代价;所述叶子节点的误差代价通过以下公式计算:
其中,是叶子节点t的误差代价,/>为叶子节点的误差率,/>为叶子节点归类的数据占所有数据的比例;
根据所述叶子节点的误差代价、子树生长的叶子节点数、子树的误差代价计算树中每一个子树的表面误差率增益,所述树中每一个子树的表面误差率增益通过以下公式进行计算:
其中,为每一个子树/>的表面误差率增益,/>是叶子节点t的误差代价,/>式子树/>的误差代价,其值为子树/>所包含的所有叶子节点的误差代价之和,/>是子树生长的叶子节点数;
选取子树的表面误差率增益最小的子树,将其生成的分支进行剪枝;当多个子树的子树的表面误差率增益同时到达最小时,取子树生长的叶子节点数最大的进行剪枝,直至到达模型的评估要求为止。
判定结果生成模块40,用于将所述特征量输入所述计量设备功能异常评估模型,得到异常的判定结果。
在某一具体实施方式中,所述判定结果生成模块40包括:
特征量的信息增益计算子模块,用于基于所述C4.5算法,计算所述特征量的信息增益;
将所述信息增益最大值所对应的特征量作为决策树根节点;
根据所述根节点的不同取值对应的子集递归生成决策树子节点,直至满足决策树生成条件。
在某一具体实施方式中,所述特征量的信息增益计算子模块,还用于:
获取目标样本个数占训练总样本的比例;
通过所述目标样本个数占训练总样本的比例计算训练集的类别信息熵;所述训练集的类别信息熵通过以下公式进行计算:
其中,为训练集的类别信息熵,/>为目标样本个数占训练总样本的比例;
通过目标样本概率计算以特征量划分的条件信息熵;所述以特征量划分的条件信息熵通过以下公式进行计算:
其中,为/>以特征量A划分的条件信息熵,/>为/>种目标样本概率;
将所述训练集以预设规则进行划分,得到若干子训练集;
通过所述训练集的类别信息熵、所述子训练集,计算特征量的条件信息熵;所述特征量的条件信息熵通过以下公式进行计算:
其中,为特征量A的条件信息熵,/>表示按照特征量A为分裂特征,若特征量A由K个不相关的值,则训练集S被划分为/>训练子集,/>为/>以特征量A划分的训练集的类别信息熵;
根据所述训练集的类别信息熵及所述特征量的条件信息熵计算条件特征量的信息增益;通过以下公式进行计算:
其中,为条件特征量的信息增益,/>为训练集的类别信息熵,/>为特征量A的条件信息熵;
通过当前样本个数占训练总样本的比例计算特征量在样本中的信息熵;所述特征量在样本中的信息熵通过以下公式计算:
其中,为特征量在样本中的信息熵,/>为当前样本个数占训练总样本的比例;
通过所述条件特征量的信息增益及所述特征量在样本中的信息熵计算特征量的信息增益;所述特征量的信息增益通过以下公式进行计算:
其中,为条件特征量的信息增益,/>为特征量在样本中的信息熵。
在某一具体实施例中,所述通过对不同台区的数据进行测试,将提取的特征量输入到获取的决策树中,得到异常的判定结果。并现场获取电表的真实状态与评估结果进行对比,分析基于决策树算法的电能表功能异常评估方法的性能。
在另一具体实施例中,将以上样本数据集分为训练集和测试集,利用C4.5算法计算不同属性的信息增益,形成决策树的搭建,由测试集的数据对决策树进行训练,由最后确定的决策树形成计量设备功能异常评估模型。具体包括:
(1)将经过特征计算处理后的异常特征量作为电能表异常评估模型的输入样本;
(2)基于的C4.5算法,分别计算输入的异常特征量{RAP、PV、Cur、Ratio、Std_p、Inductive}的信息增益,并用最大信息增益所对应的特征量作为决策树根节点,对根节点的不同取值对应的子集递归用上述过程生成决策树子节点,直至满足决策树生成停止条件。其中,特征量A的改进信息增益计算步骤:
1)计算样本集S的类别信息熵
其中为第i类样本个数占训练总样本的比例。
2)计算特征量A的条件信息熵
其中表示按照特征量A为分裂特征,若特征量A由K个不相关的值,则样本集S被划分为/>。/>为/>以特征量A划分的条件信息熵,其表达式为:
其中,为/>种第i类的样本概率。
3)计算条件特征量A的信息增益
4)计算特征量A在样本S中的信息熵
5)计算特征量A的信息增益:
1)采用复杂性剪枝算法对(2)生成的决策树进行剪枝处理。剪枝优化步骤如下:
①计算树中每一个子树的表面误差率增益/>
其中是子树生长的叶子节点数;/>是叶子节点t的误差代价,其计算公式如下:
式中是叶子节点t的误差率;/>是叶子节点t归类的数据占所有数据的比例;是子树/>的误差代价,其值为子树/>所包含的所有叶子节点的误差代价之和。
②选取最小的子树,将其生成的分支进行剪枝。当多个子树的/>值同时到达最小时,取/>最大的进行剪枝,直至到达模型的评估要求为止。
通过对台区内智能电表抽样检测,获得智能电表计量功能异常的实际类型,并与电能表计量异常估计类型对比,分析基于决策树算法的电表异常远程估计算法的性能。
对智能电表异常估计结果进行分析,具体包括:
(1)对台区内智能电表的实际异常类型进行检测:对于规模较大的台区,采用分层抽样的方式,按照各用户用电量水平进行分层,并确定各层抽取的样本数量;对于规模较小的台区,可以采用全部检测的方式,并统计反向电量异常的电能表ID号。
(2)获取抽取的智能电表的台区及用户档案信息和智能电表运行数据,并将其输入至特征量计算模块。得到的相应特征值输入至基于决策树算法的电能表异常评估模型,得到反向电量异常的电能表ID号。
(3)选取一个实际的台区进行现场测试,对步骤S14中评估算法的性能进行分析。
第三方面。
本发明提供了一种电子设备,该电子设备包括:
处理器、存储器和总线;
所述总线,用于连接所述处理器和所述存储器;
所述存储器,用于存储操作指令;
所述处理器,用于通过调用所述操作指令,可执行指令使处理器执行如本申请的第一方面所示的一种基于决策树算法的电能表功能异常评估方法对应的操作。
在一个可选实施例中提供了一种电子设备,如图5所示,图5所示的电子设备5000包括:处理器5001和存储器5003。其中,处理器5001和存储器5003相连,如通过总线5002相连。可选地,电子设备5000还可以包括收发器5004。需要说明的是,实际应用中收发器5004不限于一个,该电子设备5000的结构并不构成对本申请实施例的限定。
处理器5001可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器5001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线5002可包括一通路,在上述组件之间传送信息。总线5002可以是PCI总线或EISA总线等。总线5002可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器5003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器5003用于存储执行本申请方案的应用程序代码,并由处理器5001来控制执行。处理器5001用于执行存储器5003中存储的应用程序代码,以实现前述任一方法实施例所示的内容。
其中,电子设备包括但不限于:移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。
第四方面。
本发明提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现本申请第一方面所示的一种基于决策树算法的电能表功能异常评估方法。
本申请的又一实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。

Claims (8)

1.一种基于决策树算法的电能表功能异常评估方法,其特征在于,包括:
对获取到的原始测量数据进行预处理得到样本数据,以剔除原始测量数据中的噪声数据;其中,所述样本数据包括:训练集数据及测试集数据;
根据历史工单对第一异常判定规则进行改进,得到第二异常判定规则并提取特征量;其中,所述第二异常判定规则包括:
按照传统电能表反向电量异常判定规则对用户电能表进行反向电量的初步判断,若满足传统电能表反向电量异常判定规则,则判定为反向电量异常疑似表;
判断用户是否在光伏发电用户或小水电上网用户名单中,若在名单中,则从反向电量异常疑似表中剔除用户电能表,若不在名单中,则判断用户电能表是否存在某一相或多相96点电流全为负;
若存在全为负,则判定为接线错误导致的反向电量异常,若不存在全为负,则判断用户电能表正向有功电量走字是否大于反向有功电量走字,若大于设定阈值,则判定为现场异常,否则,判断用户电能表在三天时间内正向有功电量走字情况是否正常;所述设定阈值采用反向电量和正向电量的比值,并根据接线方式设置得到;所述特征量包括反向电量概率特征量、光伏特征量、电流特征量、正反电量比特征量、反向电量波动特征量和感性负载特征量;
通过所述训练集数据,利用C4.5算法搭建决策树模型,并由所述测试集数据对所述决策树模型进行剪枝优化处理,生成基于决策树算法的计量设备功能异常评估模型;
将所述特征量输入所述计量设备功能异常评估模型,得到异常的判定结果,包括:
将经过特征计算处理后的特征量作为计量设备功能异常评估模型的输入样本;
基于所述C4.5算法,分别计算输入的所述特征量的信息增益;
将所述信息增益最大值所对应的特征量作为决策树根节点;
根据所述根节点的不同取值对应的子集递归生成决策树子节点,直至满足决策树生成条件。
2.如权利要求1所述的一种基于决策树算法的电能表功能异常评估方法,其特征在于,所述对获取到的原始测量数据进行预处理得到样本数据,具体地:
根据局部异常因子算法检测所述原始测量数据,将异常数据及缺失数据进行填充或过滤。
3.如权利要求1所述的一种基于决策树算法的电能表功能异常评估方法,其特征在于,所述通过所述训练集数据,利用C4.5算法搭建决策树模型,包括:
获取目标样本个数占训练总样本的比例;
通过所述目标样本个数占训练总样本的比例计算训练集的类别信息熵;所述训练集的类别信息熵通过以下公式进行计算:
其中,为训练集的类别信息熵,/>为目标样本个数占训练总样本的比例;
通过目标样本概率计算以特征量划分的条件信息熵;所述以特征量划分的条件信息熵通过以下公式进行计算:
其中,为/>以特征量A划分的条件信息熵,/>为/>种目标样本概率;
将所述训练集以预设规则进行划分,得到若干子训练集;
通过所述训练集的类别信息熵、所述子训练集,计算特征量的条件信息熵;所述特征量的条件信息熵通过以下公式进行计算:
其中,为特征量A的条件信息熵,/>表示按照特征量A为分裂特征,若特征量A由K个不相关的值,则训练集S被划分为/>训练子集,/>为/>以特征量A划分的训练集的类别信息熵;
根据所述训练集的类别信息熵及所述特征量的条件信息熵计算条件特征量的信息增益;通过以下公式进行计算:
其中,为条件特征量的信息增益,/>为训练集的类别信息熵,/>为特征量A的条件信息熵;
通过当前样本个数占训练总样本的比例计算特征量在样本中的信息熵;所述特征量在样本中的信息熵通过以下公式计算:
其中,为特征量在样本中的信息熵,/>为当前样本个数占训练总样本的比例;
通过所述条件特征量的信息增益及所述特征量在样本中的信息熵计算特征量的信息增益;所述特征量的信息增益通过以下公式进行计算:
其中,为条件特征量的信息增益,/>为特征量在样本中的信息熵。
4.如权利要求1所述的一种基于决策树算法的电能表功能异常评估方法,其特征在于,所述由所述测试集数据对所述决策树模型进行剪枝优化处理,包括:
根据叶子节点的误差率及叶子节点归类的数据占所有数据的比例计算叶子节点的误差代价;所述叶子节点的误差代价通过以下公式计算:
其中,是叶子节点t的误差代价,/>为叶子节点的误差率,/>为叶子节点归类的数据占所有数据的比例;
根据所述叶子节点的误差代价、子树生长的叶子节点数、子树的误差代价计算树中每一个子树的表面误差率增益,所述树中每一个子树的表面误差率增益通过以下公式进行计算:
其中,为每一个子树/>的表面误差率增益,/>是叶子节点t的误差代价,/>是子树/>的误差代价,其值为子树/>所包含的所有叶子节点的误差代价之和,/>是子树生长的叶子节点数;
选取子树的表面误差率增益最小的子树,将其生成的分支进行剪枝;当多个子树的表面误差率增益同时到达最小时,取子树生长的叶子节点数最大的进行剪枝,直至到达模型的评估要求为止。
5.一种基于决策树算法的电能表功能异常评估系统,其特征在于,包括:
预处理模块,用于对获取到的原始测量数据进行预处理得到样本数据,以剔除原始测量数据中的噪声数据;其中,所述样本数据包括:训练集数据及测试集数据;
异常判定规则改进模块,用于根据历史工单对第一异常判定规则进行改进,得到第二异常判定规则并提取特征量;其中,所述第二异常判定规则包括:
按照传统电能表反向电量异常判定规则对用户电能表进行反向电量的初步判断,若满足传统电能表反向电量异常判定规则,则判定为反向电量异常疑似表;
判断用户是否在光伏发电用户或小水电上网用户名单中,若在名单中,则从反向电量异常疑似表中剔除用户电能表,若不在名单中,则判断用户电能表是否存在某一相或多相96点电流全为负;
若存在全为负,则判定为接线错误导致的反向电量异常,若不存在全为负,则判断用户电能表正向有功电量走字是否大于反向有功电量走字,若大于设定阈值,则判定为现场异常,否则,判断用户电能表在三天时间内正向有功电量走字情况是否正常;所述设定阈值采用反向电量和正向电量的比值,并根据接线方式设置得到;所述特征量包括反向电量概率特征量、光伏特征量、电流特征量、正反电量比特征量、反向电量波动特征量和感性负载特征量;
计量设备功能异常评估模型建立模块,用于通过所述训练集数据,利用C4.5算法搭建决策树模型,并由所述测试集数据对所述决策树模型进行剪枝优化处理,生成基于决策树算法的计量设备功能异常评估模型;
判定结果生成模块,用于将所述特征量输入所述计量设备功能异常评估模型,得到异常的判定结果,包括:
将经过特征计算处理后的特征量作为计量设备功能异常评估模型的输入样本;
基于所述C4.5算法,分别计算输入的所述特征量的信息增益;
将所述信息增益最大值所对应的特征量作为决策树根节点;
根据所述根节点的不同取值对应的子集递归生成决策树子节点,直至满足决策树生成条件。
6.如权利要求5所述的一种基于决策树算法的电能表功能异常评估系统,其特征在于,所述预处理模块,还用于:
根据局部异常因子算法检测所述原始测量数据,将异常数据及缺失数据进行填充或过滤。
7.如权利要求5所述的一种基于决策树算法的电能表功能异常评估系统,其特征在于,所述特征量的信息增益计算子模块,还用于:
获取目标样本个数占训练总样本的比例;
通过所述目标样本个数占训练总样本的比例计算训练集的类别信息熵;所述训练集的类别信息熵通过以下公式进行计算:
其中,为训练集的类别信息熵,/>为目标样本个数占训练总样本的比例;
通过目标样本概率计算以特征量划分的条件信息熵;所述以特征量划分的条件信息熵通过以下公式进行计算:
其中,为/>以特征量A划分的条件信息熵,/>为/>种目标样本概率;
将所述训练集以预设规则进行划分,得到若干子训练集;
通过所述训练集的类别信息熵、所述子训练集,计算特征量的条件信息熵;所述特征量的条件信息熵通过以下公式进行计算:
其中,为特征量A的条件信息熵,/>表示按照特征量A为分裂特征,若特征量A由K个不相关的值,则训练集S被划分为/>训练子集,/>为/>以特征量A划分的训练集的类别信息熵;
根据所述训练集的类别信息熵及所述特征量的条件信息熵计算条件特征量的信息增益;通过以下公式进行计算:
其中,为条件特征量的信息增益,/>为训练集的类别信息熵,/>为特征量A的条件信息熵;
通过当前样本个数占训练总样本的比例计算特征量在样本中的信息熵;所述特征量在样本中的信息熵通过以下公式计算:
其中,为特征量在样本中的信息熵,/>为当前样本个数占训练总样本的比例;
通过所述条件特征量的信息增益及所述特征量在样本中的信息熵计算特征量的信息增益;所述特征量的信息增益通过以下公式进行计算:
其中,为条件特征量的信息增益,/>为特征量在样本中的信息熵。
8.如权利要求5所述的一种基于决策树算法的电能表功能异常评估系统,其特征在于,所述计量设备功能异常评估模型建立模块,还用于:
根据叶子节点的误差率及叶子节点归类的数据占所有数据的比例计算叶子节点的误差代价;所述叶子节点的误差代价通过以下公式计算:
其中,是叶子节点t的误差代价,/>为叶子节点的误差率,/>为叶子节点归类的数据占所有数据的比例;
根据所述叶子节点的误差代价、子树生长的叶子节点数、子树的误差代价计算树中每一个子树的表面误差率增益,所述树中每一个子树的表面误差率增益通过以下公式进行计算:
其中,为每一个子树/>的表面误差率增益,/>是叶子节点t的误差代价,/>是子树/>的误差代价,其值为子树/>所包含的所有叶子节点的误差代价之和,/>是子树生长的叶子节点数;
选取子树的表面误差率增益最小的子树,将其生成的分支进行剪枝;当多个子树的表面误差率增益同时到达最小时,取子树生长的叶子节点数最大的进行剪枝,直至到达模型的评估要求为止。
CN202110262053.0A 2021-03-10 2021-03-10 一种基于决策树算法的电能表功能异常评估方法及系统 Active CN113011481B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110262053.0A CN113011481B (zh) 2021-03-10 2021-03-10 一种基于决策树算法的电能表功能异常评估方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110262053.0A CN113011481B (zh) 2021-03-10 2021-03-10 一种基于决策树算法的电能表功能异常评估方法及系统

Publications (2)

Publication Number Publication Date
CN113011481A CN113011481A (zh) 2021-06-22
CN113011481B true CN113011481B (zh) 2024-04-30

Family

ID=76404557

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110262053.0A Active CN113011481B (zh) 2021-03-10 2021-03-10 一种基于决策树算法的电能表功能异常评估方法及系统

Country Status (1)

Country Link
CN (1) CN113011481B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113538063A (zh) * 2021-07-28 2021-10-22 广东电网有限责任公司 基于决策树的电费异常数据分析方法、装置、设备及介质
CN113688923B (zh) * 2021-08-31 2024-04-05 中国平安财产保险股份有限公司 订单异常智能检测方法、装置、电子设备及存储介质
CN114565065B (zh) * 2022-04-29 2022-08-12 长江水利委员会水文局 一种水文序列数据异常值检测方法
CN115170000B (zh) * 2022-09-06 2023-01-13 浙江万胜智能科技股份有限公司 一种基于电能表通信模块的远程监测方法及系统
CN116738865B (zh) * 2023-08-11 2023-12-19 深圳市金威源科技股份有限公司 一种基于物联网的储能电源评估方法及系统
CN117113234A (zh) * 2023-10-12 2023-11-24 济南泉晓电气设备有限公司 一种基于机器学习的输电线路故障检测方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106611283A (zh) * 2016-06-16 2017-05-03 四川用联信息技术有限公司 一种基于决策树算法的制造业材料采购分析方法
CN108733966A (zh) * 2017-04-14 2018-11-02 国网重庆市电力公司 一种基于决策树群的多维电能表现场状态检验方法
CN109242041A (zh) * 2018-09-28 2019-01-18 南方电网科学研究院有限责任公司 一种电能表异常数据检测方法、装置、设备及存储介质
CN110569867A (zh) * 2019-07-15 2019-12-13 山东电工电气集团有限公司 基于决策树算法的输电线路故障原因判别方法、介质及设备
CN110942098A (zh) * 2019-11-28 2020-03-31 江苏电力信息技术有限公司 一种基于贝叶斯剪枝决策树的供电服务质量分析方法
CN111126759A (zh) * 2019-11-18 2020-05-08 国网浙江省电力有限公司 一种基于异常事件故障关联度的电能表状态评估方法
CN111144435A (zh) * 2019-11-11 2020-05-12 国电南瑞科技股份有限公司 基于lof和验证过滤框架的电能量异常数据监测方法
CN111222556A (zh) * 2019-12-31 2020-06-02 中国南方电网有限责任公司 一种基于决策树算法识别用电类别的方法及系统
CN112183606A (zh) * 2020-09-23 2021-01-05 内蒙古电力(集团)有限责任公司乌海电业局 基于c4.5算法的电力系统故障识别分类方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106611283A (zh) * 2016-06-16 2017-05-03 四川用联信息技术有限公司 一种基于决策树算法的制造业材料采购分析方法
CN108733966A (zh) * 2017-04-14 2018-11-02 国网重庆市电力公司 一种基于决策树群的多维电能表现场状态检验方法
CN109242041A (zh) * 2018-09-28 2019-01-18 南方电网科学研究院有限责任公司 一种电能表异常数据检测方法、装置、设备及存储介质
CN110569867A (zh) * 2019-07-15 2019-12-13 山东电工电气集团有限公司 基于决策树算法的输电线路故障原因判别方法、介质及设备
CN111144435A (zh) * 2019-11-11 2020-05-12 国电南瑞科技股份有限公司 基于lof和验证过滤框架的电能量异常数据监测方法
CN111126759A (zh) * 2019-11-18 2020-05-08 国网浙江省电力有限公司 一种基于异常事件故障关联度的电能表状态评估方法
CN110942098A (zh) * 2019-11-28 2020-03-31 江苏电力信息技术有限公司 一种基于贝叶斯剪枝决策树的供电服务质量分析方法
CN111222556A (zh) * 2019-12-31 2020-06-02 中国南方电网有限责任公司 一种基于决策树算法识别用电类别的方法及系统
CN112183606A (zh) * 2020-09-23 2021-01-05 内蒙古电力(集团)有限责任公司乌海电业局 基于c4.5算法的电力系统故障识别分类方法及系统

Also Published As

Publication number Publication date
CN113011481A (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
CN113011481B (zh) 一种基于决策树算法的电能表功能异常评估方法及系统
Shen et al. A combined algorithm for cleaning abnormal data of wind turbine power curve based on change point grouping algorithm and quartile algorithm
Zhang et al. Time series anomaly detection for smart grids: A survey
CN104280612B (zh) 一种基于单频电流传输特性的分布式谐波源辨识方法
CN109767054A (zh) 基于深度神经网络算法的能效云评估方法及边缘能效网关
CN110363334B (zh) 基于灰色神经网络模型的光伏并网的电网线损预测方法
Xu et al. A water level prediction model based on ARIMA-RNN
CN113036759B (zh) 一种电力用户负荷细粒度识别方法及识别系统
CN112215405A (zh) 一种基于dann域适应学习的非侵入式居民用电负荷分解方法
CN116796403A (zh) 一种基于商业建筑综合能耗预测的建筑节能方法
CN112651576A (zh) 长期风电功率预测方法及装置
CN115758151A (zh) 联合诊断模型建立方法、光伏组件故障诊断方法
CN116186624A (zh) 一种基于人工智能的锅炉评估方法及系统
CN112508254B (zh) 变电站工程项目投资预测数据的确定方法
CN114595762A (zh) 一种光伏电站异常数据序列提取方法
CN112182499B (zh) 一种基于时序电量数据的低压配电网拓扑结构辨识方法
CN117559443A (zh) 尖峰负荷下大工业用户集群有序用电控制方法
CN110968703B (zh) 基于lstm端到端抽取算法的异常计量点知识库构建方法及系统
CN117331017A (zh) 一种三相四线电能表错接线研判方法及系统
CN115907198A (zh) 一种长距离供热负荷智能预测系统
CN111199014B (zh) 一种基于时间序列的seq2point的NILM方法及装置
CN114168662A (zh) 一种基于多数据源的配电网问题梳理分析方法及系统
Hong et al. Deep-Learning-Assisted Topology Identification and Sensor Placement for Active Distribution Network
Wang et al. Research on line loss prediction model based on clustering and multi prediction model fusion
Xie et al. Energy System Time Series Data Quality Maintenance System Based on Data Mining Technology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant