CN115905319A - 一种海量用户电费异常的自动识别方法及系统 - Google Patents
一种海量用户电费异常的自动识别方法及系统 Download PDFInfo
- Publication number
- CN115905319A CN115905319A CN202211434720.XA CN202211434720A CN115905319A CN 115905319 A CN115905319 A CN 115905319A CN 202211434720 A CN202211434720 A CN 202211434720A CN 115905319 A CN115905319 A CN 115905319A
- Authority
- CN
- China
- Prior art keywords
- electricity
- user
- auditing
- abnormal
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005611 electricity Effects 0.000 title claims abstract description 147
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 112
- 238000000034 method Methods 0.000 title claims abstract description 61
- 230000008569 process Effects 0.000 claims abstract description 17
- 238000012550 audit Methods 0.000 claims description 30
- 239000011159 matrix material Substances 0.000 claims description 19
- 238000005457 optimization Methods 0.000 claims description 15
- 238000004458 analytical method Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000010801 machine learning Methods 0.000 claims description 10
- 230000007246 mechanism Effects 0.000 claims description 8
- 230000005856 abnormality Effects 0.000 claims description 7
- 238000007726 management method Methods 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 5
- 238000010219 correlation analysis Methods 0.000 claims description 4
- 230000008030 elimination Effects 0.000 claims description 4
- 238000003379 elimination reaction Methods 0.000 claims description 4
- 238000013210 evaluation model Methods 0.000 claims description 4
- 238000007619 statistical method Methods 0.000 claims description 4
- 238000007667 floating Methods 0.000 claims description 3
- 238000011835 investigation Methods 0.000 claims description 2
- 238000012216 screening Methods 0.000 abstract description 4
- 238000004422 calculation algorithm Methods 0.000 description 15
- 238000012360 testing method Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000010276 construction Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000009795 derivation Methods 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 238000007637 random forest analysis Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- 238000013024 troubleshooting Methods 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000013479 data entry Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 239000005997 Calcium carbide Substances 0.000 description 1
- 229910000640 Fe alloy Inorganic materials 0.000 description 1
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000012271 agricultural production Methods 0.000 description 1
- 229910045601 alloy Inorganic materials 0.000 description 1
- 239000000956 alloy Substances 0.000 description 1
- XAGFODPZIPBFFR-UHFFFAOYSA-N aluminium Chemical compound [Al] XAGFODPZIPBFFR-UHFFFAOYSA-N 0.000 description 1
- 229910052782 aluminium Inorganic materials 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000009960 carding Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000003337 fertilizer Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000003973 irrigation Methods 0.000 description 1
- 230000002262 irrigation Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical compound C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- CLZWAWBPWVRRGI-UHFFFAOYSA-N tert-butyl 2-[2-[2-[2-[bis[2-[(2-methylpropan-2-yl)oxy]-2-oxoethyl]amino]-5-bromophenoxy]ethoxy]-4-methyl-n-[2-[(2-methylpropan-2-yl)oxy]-2-oxoethyl]anilino]acetate Chemical compound CC1=CC=C(N(CC(=O)OC(C)(C)C)CC(=O)OC(C)(C)C)C(OCCOC=2C(=CC=C(Br)C=2)N(CC(=O)OC(C)(C)C)CC(=O)OC(C)(C)C)=C1 CLZWAWBPWVRRGI-UHFFFAOYSA-N 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本公开属于电力营销技术领域,具体涉及一种海量用户电费异常的自动识别方法及系统,包括:获取用户电费的数据信息;对所获取的用户电费数据信息进行审核核算,完成用户电费异常的自动识别;其中,在审核核算的过程中,采用配置审核规则进行用户电费数据信息异常的初步筛查,基于大数据核算规则对初步筛查后的用户电费数据信息进行自动核算,完成海量用户电费异常的自动识别。
Description
技术领域
本公开属于电力营销技术领域,具体涉及一种海量用户电费异常的自动识别方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
电费核算智能化是电网工作人员的重点工作任务之一,要求通过完善电费核算异常审核体系、优化审查规则、部署应用电费试算等措施,持续提升智能核算水平。
据发明人了解,目前的非市场化电费核算自动化流程判定为异常后,自动化工单会停留在当前环节,转交人工处理。市场化电费核算包括制定抄表计划、抄表数据准备、自动化抄表、抄表数据复核、电量计算、交割电量确认、分割电量确认、电费计算、电量电费审核以及电费发行九个环节,整体业务运转由人工线上进行处理,未自动化开展;针对审核规则管理,未建立相应的组织管理机制,没有明确的管理分工,只是简单地通过层层上报汇总后,交由系统方进行开发实现;规则的调整优化没有形成长期书面记录,缺乏对中间过程的管控以及使用情况的跟踪。
发明内容
为了解决上述问题,本公开提出了一种海量用户电费异常的自动识别方法及系统,通过构建智能审核引擎,提升审核智能化水平,提高电费审核自动化率和精准度,有效减轻一线审核人员的人工审核工作量,提升电量电费风险防控能力,同时促进电费发行自动化率有效提升。
根据一些实施例,本公开的第一方案提供了一种海量用户电费异常的自动识别方法,采用如下技术方案:
一种海量用户电费异常的自动识别方法,包括:
获取用户电费的数据信息;
对所获取的用户电费数据信息进行审核核算,完成用户电费异常的自动识别;
其中,在审核核算的过程中,采用配置审核规则进行用户电费数据信息异常的初步筛查,基于大数据核算规则对初步筛查后的用户电费数据信息进行自动核算,完成海量用户电费异常的自动识别。
作为进一步的技术限定,所述配置审核规则包括目录电价电费审核、基本电费审核、功率因数调整电费审核和代征费审核;将所获取的用户电费的数据信息依次进行配置审核规则的审核,进行用户电费数据信息异常的初步筛查,将筛查出的异常的用户电费数据信息直接进行数据的标记,将标记后的用户电费数据信息识别为异常数据信息。
进一步的,所述目录电价电费审核是根据现行电价政策所进行的电费审核,包括分类电价标准执行正确的审核、电价类别执行正确的审核、丰枯峰谷浮动电价执行正确的审核和目录电费计算正确的审核;所述基本电费审核是根据现行基本电费管理要求所进行的电费审核,包括基本电费收取范围正确的审核、基本电费计量容量正确的审核、基本电费收取标准正确的审核和基本电费正确的审核;所述功率因数调整电费审核包括功率因数调整执行范围正确的审核、功率因数标准正确的审核、功率因数计算正确的审核和功率因数调整电费正确的审核;所述代征费审核是根据现行电价政策所进行的代征费审核,包括代征费征收范围正确的审核、代征费征收标准正确的审核、代征电量正确的审核和代征电费正确的审核。
作为进一步的技术限定,所述基于大数据核算规则采用基于客户细分的核算规则优化模型,根据初步筛查后的用户电费数据信息,基于不同的用户群体构建数据稀疏矩阵,通过关联分析进行所构建的稀疏矩阵中核算规则的有效性检验分析,筛选出稀疏矩阵中有效的核算规则,采用后项剔除法对所筛选出来的稀疏矩阵中的有效核算规则进行综合分析,确定有效核算规则的阈值范围,实现用户电费异常的识别。
作为进一步的技术限定,所述基于大数据核算规则采用基于机器学习的核算规则阈值动态调整模型,基于动态调整模型调整设置阈值,筛查疑似异常的用户用电电费,实现用户电费异常的识别。
作为进一步的技术限定,所述基于大数据核算规则采用基于一户一模型的自动化审核机制,按户分析所采用的核算规则对用户电费异常识别的有效性,通过规则有效性评价模型将用户现行核算规则分成有效规则和无效规则;通过数据统计分析分别进行所述有效规则和所述无效规则的阈值优化,提升用户电费的异常排查的命中率,减少疑似异常电费用户的数量。
作为进一步的技术限定,在自动核算的过程中,基于负荷预测进行用户电量的预测,通过对预核算的电量与预测电量之间的比较,提前发现电量异常的用户,自动识别电费异常的用户。
根据一些实施例,本公开的第二方案提供了一种海量用户电费异常的自动识别系统,采用如下技术方案:
一种海量用户电费异常的自动识别系统,包括:
获取模块,其被配置为获取用户电费的数据信息;
识别模块,其被配置为对所获取的用户电费数据信息进行审核核算,完成用户电费异常的自动识别;
其中,在审核核算的过程中,采用配置审核规则进行用户电费数据信息异常的初步筛查,基于大数据核算规则对初步筛查后的用户电费数据信息进行自动核算,完成海量用户电费异常的自动识别。
根据一些实施例,本公开的第三方案提供了一种计算机可读存储介质,采用如下技术方案:
一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本公开第一方面所述的海量用户电费异常的自动识别方法中的步骤。
根据一些实施例,本公开的第四方案提供了一种电子设备,采用如下技术方案:
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开第一方面所述的海量用户电费异常的自动识别方法中的步骤。
与现有技术相比,本公开的有益效果为:
本公开针对电费异常的自动识别进行了相关研究,针对不同群体、不同类型,构建了多样电费核算模型、自动化审核发行机制、电费负荷预测分析和数据回测分析,全方位对电费进行核算核查,及时识别异常,进一步提高电费回收效率。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1是本公开实施例一中的海量用户电费异常的自动识别方法的流程图;
图2是本公开实施例一中的配置审核规则的流程图;
图3是本公开实施例一中的基于客户细分的核算规则优化模型的流程图;
图4是本公开实施例一中的客户群体异常工单处理数据示意图;
图5是本公开实施例一中的阈值动态调整的示意图;
图6是本公开实施例一中的所构建的稀疏矩阵的数据示意图;
图7是本公开实施例一中的预测模型构建的流程图;
图8是本公开实施例一中的预核算结果比对结果示意图;
图9是本公开实施例二中的海量用户电费异常的自动识别系统的结构框图。
具体实施方式
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在本公开中,术语如“上”、“下”、“左”、“右”、“前”、“后”、“竖直”、“水平”、“侧”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系,只是为了便于叙述本公开各部件或元件结构关系而确定的关系词,并非特指本公开中任一部件或元件,不能理解为对本公开的限制。
本公开中,术语如“固接”、“相连”、“连接”等应做广义理解,表示可以是固定连接,也可以是一体地连接或可拆卸连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的相关科研或技术人员,可以根据具体情况确定上述术语在本实公开中的具体含义,不能理解为对本公开的限制。
在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
实施例一
本公开实施例一介绍了一种海量用户电费异常的自动识别方法。
如图1所示的一种海量用户电费异常的自动识别方法,包括:
获取用户电费的数据信息;
对所获取的用户电费数据信息进行审核核算,完成用户电费异常的自动识别;
其中,在审核核算的过程中,采用配置审核规则进行用户电费数据信息异常的初步筛查,基于大数据核算规则对初步筛查后的用户电费数据信息进行自动核算,完成海量用户电费异常的自动识别。
本实施例基于统一审核引擎建设,依托审核规则和审核插件建设智能审核服务,通过配置审核规则来实现,基于大数据技术的核算规则优化则是利用大数据、云计算和机器学习等技术,实现电费的自动核算。结合电费审核服务流程,将基于大数据技术的核算规则优化集成到系统中,系统能够自动识别用户电费异常数据,并进行拦截和异常警报,告知工作人员及时进行复核。
作为一种或多种实施方式,如图2所示的配置审核规则的流程图,具体包括:
(1)目录电价电费审核是根据现行电价政策所进行的电费审核,包括分类电价标准执行正确的审核、电价类别执行正确的审核、丰枯峰谷浮动电价执行正确的审核和目录电费计算正确的审核;
(2)基本电费审核是根据现行基本电费管理要求所进行的电费审核,包括基本电费收取范围正确的审核、基本电费计量容量正确的审核、基本电费收取标准正确的审核和基本电费正确的审核;
(3)功率因数调整电费审核包括功率因数调整执行范围正确的审核、功率因数标准正确的审核、功率因数计算正确的审核和功率因数调整电费正确的审核;
(4)代征费审核是根据现行电价政策所进行的代征费审核,包括代征费征收范围正确的审核、代征费征收标准正确的审核、代征电量正确的审核和代征电费正确的审核。
作为一种或多种实施方式,所采用的大数据核算规则为:
(1)构建基于客户细分的核算规则优化模型,基于用户历史用电数据,按居民、农业、一般工商业、大工业等不同的用户分类构建不同的样本数据库,梳理数据集合的统计特征,通过检验不同算法模型在不同样本数据库上的表现形成历史经验库,其中不同数据统计特征都对应有最优算法模型。对于待检测的数据集合,依据统计特征采用相似度算法从历史库中匹配出最适合的异常检测模型,从而为核算规则精简、异常排查工作效率提升提供数据支撑;
(2)构建基于机器学习算法的核算规则阈值动态调整模型,通过模型评估各核算规则在不同阈值条件下的重要性差异,从而为核算规则优化提供数据支撑;
(3)创建基于一户一模型的自动化审核发行机制,按户分析现行核算规则对用户异常识别的有效性,通过规则有效性评价模型将用户现行核算规则分成有效规则及无效规则两类;在此基础上,基于数据统计分析方法分别针对以上两类规则进行阈值优化,以此达到提升用户的异常排查命中率的目标,进而为减少疑似异常用户发生数量、提升异常用户识别命中率提供帮助。
(4)针对大用户,基于电能量采集、用户历史用电情况、用户侧数据、外部环境因素,开展负荷预测,基于负荷预测进行电量预测,正式核算前针对大客户做预核算,将预核算电量与预测电量进行比对,提前发现异常。
基于客户细分的核算规则优化模型
如图3所示的基于客户细分的核算规则优化模型的流程图,根据近两年电费核算异常处理业务数据,对不同客户群分别构建数据稀疏矩阵;基于关联分析对稀疏矩阵中各核算规则的有效性进行检验,从而为减少无效规则提供决策依据;基于后项剔除算法对有效规则进行综合分析,从而为减少可替代规则提供决策依据。
具体的,按不同的客户群体,根据近两年电费核算异常处理的业务数据,分别构建数据稀疏矩阵。如图4所示的客户群体异常工单处理数据,某一客户群体的异常工单处理的数据矩阵包含异常用户信息、异常规则触发情况信息和异常处理结果信息三部分;在图4中,每行数据表示经系统基于当前的核算规则查出的异常用户情况,“异常规则触发情况”下各规则的取值为0或1,0代表未触发此项规则,1代表触发了此项规则;“结果标签”的取值为0或1,0代表已处理无异常用户,即审核出的异常客户经人工核查发现并无异常,1代表异常用户,即审核出的异常客户经人工核查发现确有异常,异常情况包括:估抄/抄错、计量装置故障、违约窃电、档案差错等。
电力用户可以分为居民生活用电和大工业用电。其中对单耗电量特大的如电石、电介铝、铁合金等再分别列价。此外,还分普通工业和非工业用电。后者为机关、机场、学校、医院、科研单位等用电。再有商业用电、部队,敬老院用电等。农业生产用电,中、小化肥用电、贫困县农业排灌用电等。在矩阵中,若数值为0的元素数目远远多于非0元素的数目,并且非0元素分布没有规律时,则称该矩阵为稀疏矩阵。在数据预处理过程结束后,就能够得到不同客户群体的稀疏矩阵。
针对不同客户群体的数据稀疏矩阵,将各规则分别与“结果标签”做关联分析,得出不同规则于异常处理结果之间的相关系数(取值范围为[-1,1]),实现对不同核算规则有效性的量化,相关系数绝对值越大表示核算规则在识别异常用户过程中越有效。
根据系数数据矩阵当中核算规则触发及异常处理结果数据分布情况,针对相关系数制定合适阈值,不同核算规则与异常处理结果之间相关系数小于阈值的核算规则即是有效性差的,从而为减少无效规则提供决策依据。
基于关联分析后得到的有效规则作为模型特征,“结果标签”作为因变量构建模型。通过向后剔除算法,依次从模型中去掉一个能够最大化降低损失函数的特征,直到模型的损失函数不再降低或损失函数降低的值低于一个阈值∈;通过多轮次的损失函数评估,从而确定可替代规则的范围。
其中,损失函数的构建结合异常处理结果中异常用户的查全率和查准率,给予查全率较高的权重,达到在最大程度识别异常用户的前提下,减少异常工单发生量的目的。
基于机器学习算法的核算规则阈值动态调整模型
如图5所示,电费核算异常用户核查过程中,各项核算规则阈值设置的合理与否直接影响疑似异常用户的筛选结果;构建基于机器学习算法的核算规则阈值动态调整模型,通过模型评估各核算规则在不同阈值条件下的重要性差异,从而为核算规则优化提供数据支撑。
按不同客户群,选取近两年疑似异常用户的数据特征指标,将规则作为特征指标名,各指标的数据为各规则下对应指标的真实值,比如:同比波动突增规则对应的特征数据为抄见电量同比增长率,环比波动突增规则对应的特征数据为抄见电量环比波动增长率等,并获取异常用户的异常信息处理结果,所构建的稀疏矩阵的数据示意图如图6所示,其中,异常用户数据特征中阴影部分的数据表示在原规则下的异常数据。
基于原指标数据的数值范围,结合指标异常规则,将指标数据划分为n段,去除原始数据的左右端点,取其余分段点作为衍生指标的数值。比如环比波动突增指标,假设其数值范围为0%-200%,指标预测判定规则为“≥80%”,将环比波动率“80%到200%”分为6段,得到6个衍生指标,衍生指标及其对应的数值如下:环比波动突增指标1:100%,环比波动突增指标2:120%,环比波动突增指标3:140%,……,环比波动突增指标9:200%。
基于原指标(未进行指标衍生)数据集,将数据集分为训练集和测试集。使用不同的机器学习算法模型(随机森林、XGBoost、支持向量机、神经网络等)对训练集进行模型训练,然后使用测试集对各模型进行测试,计算不同算法构建出来的模型准确率和召回率,并对其进行调优,选出最优的模型,以及其准确率、召回率和f1-score,具体如表1所示,根据准确率、召回率和F1-score得出随机森林为最优算法模型,保留最优模型。
在最优模型基础上,分别使用基尼系数、信息增益率和互信息等评价指标重要程度的方法计算各核算规则在识别异常用户时的重要性,并将所有规则按重要性从大到小进行排序。
表1不同算法的测试结果
核算规则动态调整分多轮进行,每轮只对一个核算规则指标阈值进行调整。因此每轮将一个原始指标衍生出来的新的核算规则作为特征加入到模型当中进行规则重要性分析,指标衍生顺序按重要性程度排名从大到小进行,具体步骤如下:
依次将测试集的需要调整规则替换为衍生规则指标,得到新测试集;
基于最优模型对新测试集进行测试,得到准确率、召回率和f1-score;
选出替换后准确率、召回率和f1-score综合结果较优的衍生规则指标,并将该规则指标对应的值作为该规则新的阈值。
环比波动突增指标重要性最大,那么第一轮只使用环比波动突增指标的衍生规则为环比波动突增1、环比波动突增2、…、环比波动突增6,而其余指标保持不变,构成新的模型指标集,具体步骤如下:
依次将测试集的环比波动特征指标替换为衍生规则,构成新测试集;
对训练得到的最优模型进行测试,得到准确率、召回率和f1-score,具体如表2所示:
表2测试结果示意图
衍生规则指标“环比波动突增3”结果最优,则环比波动突增规则的阈值定为120%。
得到所有规则的优化结果之后,通过新的规则对所有疑似异常的用户重新进行判断,统计新规则下的疑似异常用户数,以及疑似异常用户中真实异常用户数。基于原疑似异常用户数、原真实异常数、新规则下异常用户数和新规则异常用户中真实异常用户数,计算新规则异常定位准确率提升情况以及异常用户损失情况,从而为评估核算规则优化效果提供数据支撑。
异常定位准确率提升情况以及异常用户损失情况计算公式如下:
①异常定位准确率提升情况
②异常用户损失情况
基于一户一模型的自动化审核发行机制创建
由于全用户的自动化审核规则需要涵盖所有用户的异常情况,导致现行规则应用到具体用户时,判断的疑似异常情况经核实为真正异常的概率非常低,如针对某一用户,部分适用于全用户的自动化审核规则筛选出来该用户的疑似异常情况,经核实极少是真正异常。考虑以上情况,创建基于一户一模型的自动化审核发行机制,按户分析现行核算规则对用户异常识别的有效性,总体设计思路为:
选取客户历史近2年异常处理数据,构建数据稀疏矩阵,将没有触发异常的核算规则视为沉默规则,不作为数据稀疏矩阵中的特征项;
针对某一户,基于机器学习算法构建核算规则有效性评价模型,评估各项现行核算规则针对当前用户异常识别的有效性,,从而将规则分为有效规则和无效规则两类;
基于数据统计分析方法分别针对以上两类规则进行阈值优化,以此达到提升用户的异常排查命中率的目标,进而为减少疑似异常用户发生数量、提升异常用户识别命中率提供帮助。
基于负荷预测及早发现异常
基于电能量采集、用户历史用电情况、用户侧数据、外部环境因素,开展负荷预测,基于负荷预测进行电量预测,正式核算前针对大客户做预核算,将预核算电量与预测电量进行比对,提前发现异常。
基于用户侧数据、电网用电采集数据、外部气象数据、节假日等数据,通过大数据和深度学习技术,进行用户日用电量预测,具体的:
(1)数据搜集
a.用户数据录入,提供用户数据录入界面,录入用户侧相关数据;
b.电网侧数据搜集,包括用户近4年历史用电数据、用户基本档案(含变更记录)作为机器学习训练样本数据;用电数据内容包括:用电采集数据(电压、电流、最大需量等)、电量电费;用户基本档案信息包括:用户编号、单位、行业分类、用电类别、生产班次等。
c.外部数据搜集,通过爬虫、数据购买等方式获取外部分地区分时间气象数据、节假日数据等,外部数据通过离线方式导入到内网。
(2)数据预处理
a.数据观测,主要包含:数据完整性、数据有效性,数据趋势;
数据完整性观测,即观测所提供的数据表中各条记录中各用户是否均有数据,观测行业类别、用电类别、统计年月等数据指标是否有缺失;
数据有效性观测,即观测采集点电量数据是否存在负用电量;观测行业类别、用电类别字段数据是否存在乱码;观测所获取的外部信息数据是否合理,比如日平均气温在合理范围内等;
数据趋势观测,即通过图表分析观测采集点电量指标的时间趋势。
b.数据清洗,对于数据中出现特殊字符、乱码、异常值、空值的情况,结合业务实际情况进行修订,修正影响建模效果的数据;
c.数据编码,对行业分类、用电类别、天气等字符类型指标进行编码,变成计算机能够识别的语言。
数据特征构建
筛选与用电量相关的因素作为特性,如行业分类、用电类别、天气、用户生产数据、用电采集数据(电压、电流等)等进行特征构建。
(4)样本数据划分
将数据集分为三个部分:训练集、测试集、验证集,数据比例分别为0.8,0.1,0.1。
根据实际应用情况选择合适的数据集的划分规则,例如:基于时间段、基于随机切分等。
(5)预测模型构建
传统的预测模型方法,大多通过统计学或者神经网络算法实现预测,其准确性方面存在一定误差。此发明融合了统计学与神经网络算法,使用随机森林、贝叶斯过程回归、XGBOOST、GBDT、LSTM(递归神经网络)机器学习方法,基于用户数据,构建用户短期日用电预测模型,极大程度避免了预测的偶然性与随机性,提高预测精确度,具体的预测模型构建的流程图如图7所示。
(6)模型融合
考虑单模型都有自身的优点和局限性,为提高预测结果的稳定性和准确率,基于各模型对测试集的预测结果,运用损失函数法确定各个模型设置相应的权重系数,确定用户短期电量预测模型的融合策略。通过选取MSE损失函数,设定初始的权重值以及lr学习率,通过优化损失函数逐步迭代到最优的权重系数,确定用户短期电量预测模型的融合策略;所采用的损失函数为:具体的优化过程为
模型融合预测结果=随机森林模型预测结果*W1+贝叶斯过程回归结果*W2+XGBOOST模型预测结果*W3+GBDT模型预测结果*W4+ARIMA时间序列模型预测结果*W5(W1+W2+W3+W4+W5=1)。
(7)模型输出
根据行业分类、用电类别、天气、用户生产数据、用电采集数据等请求参数输出未来一段时间内的用户短期内(日、周、月)电量的预测结果,如图8所示。
本实施例提供了一种电费异常的自动识别方法;解决了在电费结算中难免会遇到清算错误或者异常的情况、未发现会造成重大经济损失、重新核算又耗费大量人力所导致的电费回收效率低下的难题;针对不同群体、不同类型,构建了多样电费核算模型、自动化审核发行机制、电费负荷预测分析和数据回测分析,全方位对电费进行核算核查,及时识别异常并拦截,提高电费回收效率。
实施例二
本公开实施例二介绍了一种海量用户电费异常的自动识别系统。
如图9所示的一种海量用户电费异常的自动识别系统,包括:
获取模块,其被配置为获取用户电费的数据信息;
识别模块,其被配置为对所获取的用户电费数据信息进行审核核算,完成用户电费异常的自动识别;
其中,在审核核算的过程中,采用配置审核规则进行用户电费数据信息异常的初步筛查,基于大数据核算规则对初步筛查后的用户电费数据信息进行自动核算,完成海量用户电费异常的自动识别。
详细步骤与实施例一提供的海量用户电费异常的自动识别方法相同,在此不再赘述。
实施例三
本公开实施例三提供了一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本公开实施例一所述的海量用户电费异常的自动识别方法中的步骤。
详细步骤与实施例一提供的海量用户电费异常的自动识别方法相同,在此不再赘述。
实施例四
本公开实施例四提供了一种电子设备。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开实施例一所述的海量用户电费异常的自动识别方法中的步骤。
详细步骤与实施例一提供的海量用户电费异常的自动识别方法相同,在此不再赘述。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。
Claims (10)
1.一种海量用户电费异常的自动识别方法,其特征在于,包括:
获取用户电费的数据信息;
对所获取的用户电费数据信息进行审核核算,完成用户电费异常的自动识别;
其中,在审核核算的过程中,采用配置审核规则进行用户电费数据信息异常的初步筛查,基于大数据核算规则对初步筛查后的用户电费数据信息进行自动核算,完成海量用户电费异常的自动识别。
2.如权利要求1中所述的一种海量用户电费异常的自动识别方法,其特征在于,所述配置审核规则包括目录电价电费审核、基本电费审核、功率因数调整电费审核和代征费审核;将所获取的用户电费的数据信息依次进行配置审核规则的审核,进行用户电费数据信息异常的初步筛查,将筛查出的异常的用户电费数据信息直接进行数据的标记,将标记后的用户电费数据信息识别为异常数据信息。
3.如权利要求2中所述的一种海量用户电费异常的自动识别方法,其特征在于,所述目录电价电费审核是根据现行电价政策所进行的电费审核,包括分类电价标准执行正确的审核、电价类别执行正确的审核、丰枯峰谷浮动电价执行正确的审核和目录电费计算正确的审核;所述基本电费审核是根据现行基本电费管理要求所进行的电费审核,包括基本电费收取范围正确的审核、基本电费计量容量正确的审核、基本电费收取标准正确的审核和基本电费正确的审核;所述功率因数调整电费审核包括功率因数调整执行范围正确的审核、功率因数标准正确的审核、功率因数计算正确的审核和功率因数调整电费正确的审核;所述代征费审核是根据现行电价政策所进行的代征费审核,包括代征费征收范围正确的审核、代征费征收标准正确的审核、代征电量正确的审核和代征电费正确的审核。
4.如权利要求1中所述的一种海量用户电费异常的自动识别方法,其特征在于,所述基于大数据核算规则采用基于客户细分的核算规则优化模型,根据初步筛查后的用户电费数据信息,基于不同的用户群体构建数据稀疏矩阵,通过关联分析进行所构建的稀疏矩阵中核算规则的有效性检验分析,筛选出稀疏矩阵中有效的核算规则,采用后项剔除法对所筛选出来的稀疏矩阵中的有效核算规则进行综合分析,确定有效核算规则的阈值范围,实现用户电费异常的识别。
5.如权利要求1中所述的一种海量用户电费异常的自动识别方法,其特征在于,所述基于大数据核算规则采用基于机器学习的核算规则阈值动态调整模型,基于动态调整模型调整设置阈值,筛查疑似异常的用户用电电费,实现用户电费异常的识别。
6.如权利要求1中所述的一种海量用户电费异常的自动识别方法,其特征在于,所述基于大数据核算规则采用基于一户一模型的自动化审核机制,按户分析所采用的核算规则对用户电费异常识别的有效性,通过规则有效性评价模型将用户现行核算规则分成有效规则和无效规则;通过数据统计分析分别进行所述有效规则和所述无效规则的阈值优化,提升用户电费的异常排查的命中率,减少疑似异常电费用户的数量。
7.如权利要求1中所述的一种海量用户电费异常的自动识别方法,其特征在于,在自动核算的过程中,基于负荷预测进行用户电量的预测,通过对预核算的电量与预测电量之间的比较,提前发现电量异常的用户,自动识别电费异常的用户。
8.一种海量用户电费异常的自动识别系统,其特征在于,包括:
获取模块,其被配置为获取用户电费的数据信息;
识别模块,其被配置为对所获取的用户电费数据信息进行审核核算,完成用户电费异常的自动识别;
其中,在审核核算的过程中,采用配置审核规则进行用户电费数据信息异常的初步筛查,基于大数据核算规则对初步筛查后的用户电费数据信息进行自动核算,完成海量用户电费异常的自动识别。
9.一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的海量用户电费异常的自动识别方法中的步骤。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的海量用户电费异常的自动识别方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211434720.XA CN115905319B (zh) | 2022-11-16 | 2022-11-16 | 一种海量用户电费异常的自动识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211434720.XA CN115905319B (zh) | 2022-11-16 | 2022-11-16 | 一种海量用户电费异常的自动识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115905319A true CN115905319A (zh) | 2023-04-04 |
CN115905319B CN115905319B (zh) | 2024-04-19 |
Family
ID=86487290
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211434720.XA Active CN115905319B (zh) | 2022-11-16 | 2022-11-16 | 一种海量用户电费异常的自动识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115905319B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116433402A (zh) * | 2023-04-11 | 2023-07-14 | 国网浙江省电力有限公司 | 用户电费自动化销账的分析处理装置、方法和存储介质 |
CN118365397A (zh) * | 2024-06-14 | 2024-07-19 | 云南电网有限责任公司信息中心 | 一种基于大数据分析用电电费核算方法 |
Citations (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1932815A (zh) * | 2006-09-21 | 2007-03-21 | 公安部第一研究所 | 大数据量动态模糊查控算法模型 |
US8645232B1 (en) * | 2009-12-31 | 2014-02-04 | Inmar, Inc. | System and method for threshold billing for returned goods |
US20140278804A1 (en) * | 2013-03-14 | 2014-09-18 | Feedvisor Ltd. | Dynamic re-pricing of items on electronic marketplaces and/or online stores |
CN104598569A (zh) * | 2015-01-12 | 2015-05-06 | 北京航空航天大学 | 一种基于关联规则的mbd数据集完整性检查方法 |
WO2016151620A1 (ja) * | 2015-03-23 | 2016-09-29 | 日本電気株式会社 | シミュレートシステム、シミュレート方法およびシミュレート用プログラム |
CN109035021A (zh) * | 2018-07-17 | 2018-12-18 | 阿里巴巴集团控股有限公司 | 一种交易指标的监控方法、装置及设备 |
CN110210686A (zh) * | 2019-06-13 | 2019-09-06 | 郑州轻工业学院 | 一种电力大数据的电费风险模型构建方法 |
CN111008193A (zh) * | 2019-12-03 | 2020-04-14 | 国网天津市电力公司电力科学研究院 | 一种数据清洗与质量评价方法及系统 |
EP3667578A1 (en) * | 2018-12-13 | 2020-06-17 | Siemens Aktiengesellschaft | System and method for automatic optimization of a manufacturing bop (bill-of-process) for a production process |
WO2020240304A1 (en) * | 2019-05-29 | 2020-12-03 | International Business Machines Corporation | System and method for siem rule sorting and conditional execution |
CN112101635A (zh) * | 2020-08-25 | 2020-12-18 | 南方电网深圳数字电网研究院有限公司 | 一种用电异常的监测方法和系统 |
CN112966163A (zh) * | 2021-03-31 | 2021-06-15 | 国家电网有限公司华东分部 | 电力用户用电费用的审计方法、系统及电子设备 |
CN113095391A (zh) * | 2021-04-06 | 2021-07-09 | 国网上海市电力公司市北供电公司 | 一种用户窃电行为检测方法、系统、终端及介质 |
CN113139802A (zh) * | 2020-01-16 | 2021-07-20 | 中国移动通信集团山东有限公司 | 内容计费规则调度方法、装置、存储介质和计算机设备 |
CN113221187A (zh) * | 2021-04-16 | 2021-08-06 | 宁波市民卡运营管理有限公司 | 一种数据处理方法、计费装置及系统、计算机设备及储存介质 |
CN113643113A (zh) * | 2021-08-06 | 2021-11-12 | 国网山东省电力公司营销服务中心(计量中心) | 一种电费自动审核方法、系统、介质及电子设备 |
CN114005530A (zh) * | 2021-11-04 | 2022-02-01 | 中电通商数字技术(上海)有限公司 | 区域内医学重复检查、检验智能提醒与监管方法及系统 |
CN114090646A (zh) * | 2021-10-21 | 2022-02-25 | 国网山东省电力公司昌邑市供电公司 | 异常用电辨识方法及系统 |
CN114328625A (zh) * | 2021-12-29 | 2022-04-12 | 深圳供电局有限公司 | 一种电费数据的复筛方法及系统 |
CN114693067A (zh) * | 2022-02-28 | 2022-07-01 | 国网上海市电力公司 | 一种异常用电用户识别方法 |
CN114778936A (zh) * | 2022-03-14 | 2022-07-22 | 国网河北省电力有限公司邯郸供电分公司 | 电能计量异常的监控方法、监控器、系统以及电子设备 |
CN115033591A (zh) * | 2022-06-01 | 2022-09-09 | 广东技术师范大学 | 一种电费数据异常智能检测方法、系统、存储介质及计算机设备 |
CN115328902A (zh) * | 2022-08-30 | 2022-11-11 | 云南电网有限责任公司信息中心 | 一种数据质量检查规则匹配方法、存储介质及系统 |
-
2022
- 2022-11-16 CN CN202211434720.XA patent/CN115905319B/zh active Active
Patent Citations (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1932815A (zh) * | 2006-09-21 | 2007-03-21 | 公安部第一研究所 | 大数据量动态模糊查控算法模型 |
US8645232B1 (en) * | 2009-12-31 | 2014-02-04 | Inmar, Inc. | System and method for threshold billing for returned goods |
US20140278804A1 (en) * | 2013-03-14 | 2014-09-18 | Feedvisor Ltd. | Dynamic re-pricing of items on electronic marketplaces and/or online stores |
CN104598569A (zh) * | 2015-01-12 | 2015-05-06 | 北京航空航天大学 | 一种基于关联规则的mbd数据集完整性检查方法 |
WO2016151620A1 (ja) * | 2015-03-23 | 2016-09-29 | 日本電気株式会社 | シミュレートシステム、シミュレート方法およびシミュレート用プログラム |
CN109035021A (zh) * | 2018-07-17 | 2018-12-18 | 阿里巴巴集团控股有限公司 | 一种交易指标的监控方法、装置及设备 |
EP3667578A1 (en) * | 2018-12-13 | 2020-06-17 | Siemens Aktiengesellschaft | System and method for automatic optimization of a manufacturing bop (bill-of-process) for a production process |
WO2020240304A1 (en) * | 2019-05-29 | 2020-12-03 | International Business Machines Corporation | System and method for siem rule sorting and conditional execution |
CN110210686A (zh) * | 2019-06-13 | 2019-09-06 | 郑州轻工业学院 | 一种电力大数据的电费风险模型构建方法 |
CN111008193A (zh) * | 2019-12-03 | 2020-04-14 | 国网天津市电力公司电力科学研究院 | 一种数据清洗与质量评价方法及系统 |
CN113139802A (zh) * | 2020-01-16 | 2021-07-20 | 中国移动通信集团山东有限公司 | 内容计费规则调度方法、装置、存储介质和计算机设备 |
CN112101635A (zh) * | 2020-08-25 | 2020-12-18 | 南方电网深圳数字电网研究院有限公司 | 一种用电异常的监测方法和系统 |
CN112966163A (zh) * | 2021-03-31 | 2021-06-15 | 国家电网有限公司华东分部 | 电力用户用电费用的审计方法、系统及电子设备 |
CN113095391A (zh) * | 2021-04-06 | 2021-07-09 | 国网上海市电力公司市北供电公司 | 一种用户窃电行为检测方法、系统、终端及介质 |
CN113221187A (zh) * | 2021-04-16 | 2021-08-06 | 宁波市民卡运营管理有限公司 | 一种数据处理方法、计费装置及系统、计算机设备及储存介质 |
CN113643113A (zh) * | 2021-08-06 | 2021-11-12 | 国网山东省电力公司营销服务中心(计量中心) | 一种电费自动审核方法、系统、介质及电子设备 |
CN114090646A (zh) * | 2021-10-21 | 2022-02-25 | 国网山东省电力公司昌邑市供电公司 | 异常用电辨识方法及系统 |
CN114005530A (zh) * | 2021-11-04 | 2022-02-01 | 中电通商数字技术(上海)有限公司 | 区域内医学重复检查、检验智能提醒与监管方法及系统 |
CN114328625A (zh) * | 2021-12-29 | 2022-04-12 | 深圳供电局有限公司 | 一种电费数据的复筛方法及系统 |
CN114693067A (zh) * | 2022-02-28 | 2022-07-01 | 国网上海市电力公司 | 一种异常用电用户识别方法 |
CN114778936A (zh) * | 2022-03-14 | 2022-07-22 | 国网河北省电力有限公司邯郸供电分公司 | 电能计量异常的监控方法、监控器、系统以及电子设备 |
CN115033591A (zh) * | 2022-06-01 | 2022-09-09 | 广东技术师范大学 | 一种电费数据异常智能检测方法、系统、存储介质及计算机设备 |
CN115328902A (zh) * | 2022-08-30 | 2022-11-11 | 云南电网有限责任公司信息中心 | 一种数据质量检查规则匹配方法、存储介质及系统 |
Non-Patent Citations (3)
Title |
---|
LEI XIE: "Research and application of key technologies for intelligent audit of market-based electricity sales charges based on artificial intelligence", 《PROCEEDINGS VOLUME 12500, FIFTH INTERNATIONAL CONFERENCE ON MECHATRONICS AND COMPUTER TECHNOLOGY ENGINEERING (MCTE 2022)》, vol. 125000, 16 December 2022 (2022-12-16), pages 1 - 6, XP060169674, DOI: 10.1117/12.2662693 * |
刘依伶: "基于数据挖掘下电费精准核算算法优化设计分析", 《电气技术与经济》, no. 5, 20 October 2022 (2022-10-20), pages 196 - 198 * |
梁波: "电费核算智能审核体系的构建与应用", 《大众用电》, vol. 36, no. 5, 25 May 2021 (2021-05-25), pages 27 - 29 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116433402A (zh) * | 2023-04-11 | 2023-07-14 | 国网浙江省电力有限公司 | 用户电费自动化销账的分析处理装置、方法和存储介质 |
CN116433402B (zh) * | 2023-04-11 | 2024-03-08 | 国网浙江省电力有限公司 | 用户电费自动化销账的分析处理装置、方法和存储介质 |
CN118365397A (zh) * | 2024-06-14 | 2024-07-19 | 云南电网有限责任公司信息中心 | 一种基于大数据分析用电电费核算方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115905319B (zh) | 2024-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110097297B (zh) | 一种多维度窃电态势智能感知方法、系统、设备及介质 | |
CN115905319A (zh) | 一种海量用户电费异常的自动识别方法及系统 | |
CN110222991B (zh) | 基于rf-gbdt的计量装置故障诊断方法 | |
CN108520357A (zh) | 一种线损异常原因的判别方法、装置及服务器 | |
CN111695800A (zh) | 一种云边协同逐级分析定位异常用电行为用户的方法 | |
CN109615004A (zh) | 一种多源数据融合的防窃电预警方法 | |
CN105389636A (zh) | 一种低压台区kfcm-svr合理线损预测方法 | |
CN106570581A (zh) | 能源互联网环境下基于属性关联的负荷预测系统及其方法 | |
CN111008193B (zh) | 一种数据清洗与质量评价方法及系统 | |
CN110930198A (zh) | 基于随机森林的电能替代潜力预测方法、系统、存储介质及计算机设备 | |
CN111291076A (zh) | 基于大数据的异常用水监测报警系统及其构建方法 | |
CN112766550A (zh) | 基于随机森林的停电敏感用户预测方法、系统、存储介质及计算机设备 | |
CN110503570A (zh) | 一种异常用电数据检测方法、系统、设备、存储介质 | |
CN113554361B (zh) | 一种综合能源系统数据处理计算方法及处理系统 | |
CN111861786A (zh) | 一种基于特征选择和孤立随机森林的专变窃电识别方法 | |
CN106651024A (zh) | 一种电费回收预测模型的构建方法 | |
CN114820036A (zh) | 面向大数据和回归分析预测算法的充电市场分析系统 | |
CN117993540A (zh) | 一种基于随机森林算法预测用户用电量方法及系统 | |
CN116933201A (zh) | 低压充电桩违约用电行为识别的方法和系统 | |
CN114676931B (zh) | 一种基于数据中台技术的电量预测系统 | |
CN115951295A (zh) | 一种日清电量异常的自动识别方法及系统 | |
CN112001551B (zh) | 一种基于大用户电量信息的地市电网售电量预测方法 | |
CN104268804A (zh) | 基于层次化数据包络分析的电力优质客户数据挖掘方法 | |
CN114154617A (zh) | 一种基于vfl的低压居民用户异常用电识别方法及系统 | |
CN114048200A (zh) | 一种计及缺失数据补齐的用户用电行为分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |