CN111160791A - 一种基于gbdt算法及因素融合的异常用户识别方法 - Google Patents
一种基于gbdt算法及因素融合的异常用户识别方法 Download PDFInfo
- Publication number
- CN111160791A CN111160791A CN201911411394.9A CN201911411394A CN111160791A CN 111160791 A CN111160791 A CN 111160791A CN 201911411394 A CN201911411394 A CN 201911411394A CN 111160791 A CN111160791 A CN 111160791A
- Authority
- CN
- China
- Prior art keywords
- data
- abnormal
- electricity
- power supply
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/06—Electricity, gas or water supply
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Water Supply & Treatment (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- General Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种基于GBDT算法及因素融合的异常用户识别方法,包括:步骤1、数据预处理:采集用户用电量数据以及台区供电量数据并进行预处理;步骤2、特征抽取:采用支持向量机算法根据各特征与窃电行为之间的关系,从历史用电量与用电量异动相关特征中筛选出与窃电相关特征;步骤3、模型构建:将步骤2筛选的与窃电相关特征作为异常用户识别模型的输入数据,利用GBDT作为建模算法构建异常用户识别模型;通过异常用户识别模型计算得出疑似异常用电用户,同时根据疑似窃电概率公式计算异常用户的窃电概率P。本发明能够有效实现用电行为异常的精准识别以及用户窃电概率的计算,以缩小排查范围的同时具有排查重点,减轻排查人员的工作量,提交准确性。
Description
技术领域
本发明属于电力信息技术领域,特别涉及一种基于图融合技术的统一配网网架拓扑构建方法。
背景技术
随着我国现代化建设步伐的加快,国家对能源的消耗也在不断增长,尤其是对电力的需求量呈现逐年增加的态势。在这样的背景下,一些不法分子通过各种手段窃取电力资源,甚至有些地区非常猖獗。窃电行为不仅严重影响正常的供用电秩序,给电网企业带来严重经济损失,还会造成供输电设备损害,甚至危及电网安全。
目前大都采取日常巡检的方式进行反窃电行为发现,但这种排查的方式工作效率低下,对于较为隐蔽的窃电手段显得束手无策。利用大数据分析和反窃电异常行为发现的方法能够有效避免巡检效率低的问题。在计量自动化系统及营销系统等信息系统的实时数据基础上,建立用电异常模型和反窃电模型,可实现对用电异常情况进行智能分析从而判断疑似窃电用户,为反窃电工作提供更具针对性的排查手段。
然而现有用电异常模型和反窃电模型预测精度低,没有输出用户窃电概率可以使反窃电工作在缩小排查范围的同时具有排查重点。
发明内容
本发明的目的在于提供一种基于GBDT算法及因素融合的异常用户识别方法,以解决上述技术问题。本发明能够有效实现用电行为异常的精准识别以及用户窃电概率的计算,以缩小排查范围的同时具有排查重点,减轻排查人员的工作量,提交准确性。
为了实现上述目的,本发明采用如下技术方案:
一种基于GBDT算法及因素融合的异常用户识别方法,包括以下步骤:
步骤1、数据预处理:
采集用户用电量数据以及台区供电量数据并进行预处理;
步骤2、特征抽取:
采用支持向量机算法根据各特征与窃电行为之间的关系,从历史用电量与用电量异动相关特征中筛选出与窃电相关特征;
步骤3、模型构建:
将步骤2筛选的与窃电相关特征作为异常用户识别模型的输入数据,利用GBDT作为建模算法构建异常用户识别模型;通过异常用户识别模型计算得出疑似异常用电用户,同时根据疑似窃电概率公式计算异常用户的窃电概率P。
进一步的,用户用电量数据包括:用户的档案数据、用户用电量数据。
进一步的,台区供电量数据包括:供用电量数据以及高线损台区清单数据。
进一步的,预处理具体包括:
首先,对台区供电数据进行筛选,剔除台区供用电量数据中正向有功供电量或正向有功用电量小于等于0的数据,以及剔除正向有功供电量或正向有功用电量为空的数据;如果台区供用电量数据中正向有功供电量除以正向有功用电量小于0.5或者大于2认为台区供电量和用电量差距过大,说明存在数据采集问题,剔除上述数据;台区供用电量数据除了原始数据之外再计算以下指标:线损、线损率、正向有功采集成功率和正向有功用电量采集成功率并加入原始供用电量数据表中;
然后,基于ID3算法计算对应属性的熵值来对用户用电量数据以及台区供电量数据中的缺失值进行补充,然后用箱线图方法进行异常值检测,并采用平均值对异常值进行修改;最后对数据进行z-score标准化处理。
进一步的,窃电概率P的计算公式为:
进一步的,还包括对疑似异常用电用户进行检修、检查的的步骤。
相对于现有技术,本发明具有以下有益效果:
1、采用ID3算法进行缺失值处理;
2、采用支持向量机算法进行相关特征选择;
3、构建的GBDT训练算法能够有效进行异常用户识别;
4、通过疑似窃电概率水平得出异常用电用户窃电概率。
本发明能够有效实现用电行为异常的精准识别以及用户窃电概率的计算,以缩小排查范围的同时具有排查重点,减轻排查人员的工作量,提交准确性。
具体实施方式
下面将结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
以下详细说明均是示例性的说明,旨在对本发明提供进一步的详细说明。除非另有指明,本发明所采用的所有技术术语与本申请所属领域的一般技术人员的通常理解的含义相同。本发明所使用的术语仅是为了描述具体实施方式,而并非意图限制根据本发明的示例性实施方式。
本发明的所有数据采用自某供电公司营销业务应用系统。主要包括用户档案、用户用电量数据、线损数据、台区供用电力数据。本模型适合对区县进行窃电行为分析,也就是说,每次只分析一个区县窃电情况。所以在建模前需要确定对哪个区县进行窃电分析。一般是选取近三个月平均线损较高的区县进行建模分析。在确定区县后,通过对反窃电问题的业务理解和数据探索,选取该区县下的高损台区作为目标检测台区。台区选择完成后,将这些台区下的所有用户的档案数据、供用电量数据、用户用电量数据以及高损台区清单数据进行初步的缺失值以及异常值处理。
本发明将经过数据预处理之后的用户的档案数据、供用电量数据、用户用电量数据以及高损台区清单数据加载至反窃电模型中,完成挖掘场景运算后,反窃电模型即可输出具有窃电嫌疑用户的清单,以及这些用户的疑似窃电概率(P值)。综上所述,基于大数据挖掘算法的用电异常用户识别模型能够较精准的识别出用电异常用户,带有目的性的排查大大缩小了排查范围,使反窃电工作的效率得到很大提升。
本发明提供一种基于GBDT算法及因素融合的异常用户识别方法,包括以下步骤:
步骤1、数据预处理:
首先,采集用户用电量数据以及台区供电量数据;基于ID3算法计算对应属性的熵值来对用户用电量数据以及台区供电量数据中的缺失值进行补充,然后用箱线图方法进行异常值检测,并采用平均值对异常值进行修改;最后为了消除数据之间可能存在的不同量纲关系对数据进行z-score标准化处理。
用户用电量数据包括:用户的档案数据、用户用电量数据;台区供电量数据包括:供用电量数据以及高线损台区清单数据;
步骤2、特征抽取:
为了避免属性过多造成的维数灾难问题,所以需要对不相关特征进行剔除,在本发明中采用支持向量机算法根据各特征与窃电行为之间的关系从历史用电量与用电量异动相关特征中筛选出与窃电相关特征。
步骤3、模型构建
将步骤2筛选的与窃电相关特征作为异常用户识别模型的输入数据,利用GBDT作为建模算法构建异常用户识别模型;通过模型计算得出疑似异常用电用户,同时根据疑似窃电概率公式计算异常用户的窃电概率P:
本发明适用于以台区为单位进行用电异常用户识别,根据用户用电数据以及台区供电数据通过模型计算得出异常用电用户以及其对应的窃电概率,使反窃电工作的排查具有针对性
本发明的数据主要采集自某供电公司营销业务应用系统。选取一年的台区供用电量数据和用户用量电数据进行建模分析,为了保证模型的正常运行,需要对数据进行筛选和处理来保证数据质量。首先对台区供电数据进行筛选,如果台区供电量或用电量数据为0,说明数据采集有问题,剔除‘台区供用电量数据’中‘正向有功供电量’或‘正向有功用电量’小于等于0的数据,以及剔除‘正向有功供电量’或‘正向有功用电量’为空的数据。如果‘台区供用电量数据’中‘正向有功供电量’除以‘正向有功用电量’小于0.5或者大于2认为台区供电量和用电量差距过大,说明存在数据采集问题,即可剔除上述数据。台区供用电量数据除了原始数据之外再计算以下指标:线损、线损率、正向有功采集成功率和正向有功用电量采集成功率并加入原始供用电量数据表中。
其次对样本数据采用ID3算法通过计算属性的熵值进行缺失值的补充得到可以正常使用的数据,基于支持向量机算法筛选出与窃电有关的特征。最终使用某台区的24872户数据进行分析。将24872的80%作为训练数据(共18985户数据,其中93户为窃电用户,18892户为正常用户),20%作为测试数据(共4748户数据,其中17户为窃电用户,4731户为正常用户)。将训练数据作为模型的输入,通过基于梯度提升树和疑似窃电概率公式的异常用电用户识别模型得出41户疑似窃电用户及其窃电概率,其中部分数据如下:
表1异常用户及其窃电概率
通过与测试数据对比发现预测出的41户疑似窃电用户中有14户为窃电用户,预测准确率为82.35%。通过模型得出的异常用电用户和其对应窃电概率使得反窃电工作具有目的性,只需从疑似窃电用户中进行现场排查,大大的缩小了排查范围,在增加反窃电工作效率的同时减小工作成本。
本发明采用的基于GBDT算法模型经过对多个台区实验测试,能够有效识别出用电异常用户,提高反窃电工作排查效率降低公司损失。
由技术常识可知,本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此,上述公开的实施方案,就各方面而言,都只是举例说明,并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。
Claims (6)
1.一种基于GBDT算法及因素融合的异常用户识别方法,其特征在于,包括以下步骤:
步骤1、数据预处理:
采集用户用电量数据以及台区供电量数据并进行预处理;
步骤2、特征抽取:
采用支持向量机算法根据各特征与窃电行为之间的关系,从历史用电量与用电量异动相关特征中筛选出与窃电相关特征;
步骤3、模型构建:
将步骤2筛选的与窃电相关特征作为异常用户识别模型的输入数据,利用GBDT作为建模算法构建异常用户识别模型;通过异常用户识别模型计算得出疑似异常用电用户,同时根据疑似窃电概率公式计算异常用户的窃电概率P。
2.根据权利要求1所述的一种基于GBDT算法及因素融合的异常用户识别方法,其特征在于,用户用电量数据包括:用户的档案数据、用户用电量数据。
3.根据权利要求1所述的一种基于GBDT算法及因素融合的异常用户识别方法,其特征在于,台区供电量数据包括:供用电量数据以及高线损台区清单数据。
4.根据权利要求1所述的一种基于GBDT算法及因素融合的异常用户识别方法,其特征在于,预处理具体包括:
首先,对台区供电数据进行筛选,剔除台区供用电量数据中正向有功供电量或正向有功用电量小于等于0的数据,以及剔除正向有功供电量或正向有功用电量为空的数据;如果台区供用电量数据中正向有功供电量除以正向有功用电量小于0.5或者大于2认为台区供电量和用电量差距过大,说明存在数据采集问题,剔除上述数据;台区供用电量数据除了原始数据之外再计算以下指标:线损、线损率、正向有功采集成功率和正向有功用电量采集成功率并加入原始供用电量数据表中;
然后,基于ID3算法计算对应属性的熵值来对用户用电量数据以及台区供电量数据中的缺失值进行补充,然后用箱线图方法进行异常值检测,并采用平均值对异常值进行修改;最后对数据进行z-score标准化处理。
6.根据权利要求1所述的一种基于GBDT算法及因素融合的异常用户识别方法,其特征在于,还包括对疑似异常用电用户进行检修、检查的的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911411394.9A CN111160791A (zh) | 2019-12-31 | 2019-12-31 | 一种基于gbdt算法及因素融合的异常用户识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911411394.9A CN111160791A (zh) | 2019-12-31 | 2019-12-31 | 一种基于gbdt算法及因素融合的异常用户识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111160791A true CN111160791A (zh) | 2020-05-15 |
Family
ID=70560238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911411394.9A Pending CN111160791A (zh) | 2019-12-31 | 2019-12-31 | 一种基于gbdt算法及因素融合的异常用户识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111160791A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111915189A (zh) * | 2020-08-01 | 2020-11-10 | 青岛鼎信通讯股份有限公司 | 一种基于四分位方法的窃电行为检测方法 |
CN112101420A (zh) * | 2020-08-17 | 2020-12-18 | 广东工业大学 | 一种相异模型下Stacking集成算法的异常用电用户识别方法 |
CN112131441A (zh) * | 2020-09-27 | 2020-12-25 | 国网内蒙古东部电力有限公司 | 一种快速识别用电异常行为的方法及系统 |
CN112257784A (zh) * | 2020-10-22 | 2021-01-22 | 福州大学 | 一种基于梯度提升决策树的窃电检测方法 |
CN112308437A (zh) * | 2020-11-04 | 2021-02-02 | 国网北京市电力公司 | 基于大数据分析的线损治理方法、系统、装置和存储介质 |
CN113095739A (zh) * | 2021-05-17 | 2021-07-09 | 广东电网有限责任公司 | 一种电网数据异常检测方法及装置 |
CN113128567A (zh) * | 2021-03-25 | 2021-07-16 | 云南电网有限责任公司 | 一种基于用电量数据的异常用电行为识别方法 |
CN113408676A (zh) * | 2021-08-23 | 2021-09-17 | 国网江西综合能源服务有限公司 | 一种结合云端与边端的窃电用户识别方法及装置 |
CN113516192A (zh) * | 2021-07-19 | 2021-10-19 | 国网北京市电力公司 | 一种用户用电异动识别方法、系统、装置及存储介质 |
CN113570002A (zh) * | 2021-09-23 | 2021-10-29 | 泰豪软件股份有限公司 | 窃电用户预测模型的建立方法、系统、存储介质及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108765004A (zh) * | 2018-05-28 | 2018-11-06 | 贵州黔驰信息股份有限公司 | 一种基于数据挖掘识别用户窃电行为的方法 |
CN109270372A (zh) * | 2018-09-14 | 2019-01-25 | 美林数据技术股份有限公司 | 一种基于线损和用户用电量变化关系的窃电识别系统及方法 |
CN109753989A (zh) * | 2018-11-18 | 2019-05-14 | 韩霞 | 基于大数据与机器学习的电力用户窃电行为分析方法 |
CN110264015A (zh) * | 2019-06-28 | 2019-09-20 | 国网河南省电力公司电力科学研究院 | 反窃电稽查监控方法及平台 |
CN110349050A (zh) * | 2019-06-19 | 2019-10-18 | 国网江西省电力有限公司电力科学研究院 | 一种基于电网参数关键特征抽取的智能窃电判据方法及装置 |
-
2019
- 2019-12-31 CN CN201911411394.9A patent/CN111160791A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108765004A (zh) * | 2018-05-28 | 2018-11-06 | 贵州黔驰信息股份有限公司 | 一种基于数据挖掘识别用户窃电行为的方法 |
CN109270372A (zh) * | 2018-09-14 | 2019-01-25 | 美林数据技术股份有限公司 | 一种基于线损和用户用电量变化关系的窃电识别系统及方法 |
CN109753989A (zh) * | 2018-11-18 | 2019-05-14 | 韩霞 | 基于大数据与机器学习的电力用户窃电行为分析方法 |
CN110349050A (zh) * | 2019-06-19 | 2019-10-18 | 国网江西省电力有限公司电力科学研究院 | 一种基于电网参数关键特征抽取的智能窃电判据方法及装置 |
CN110264015A (zh) * | 2019-06-28 | 2019-09-20 | 国网河南省电力公司电力科学研究院 | 反窃电稽查监控方法及平台 |
Non-Patent Citations (1)
Title |
---|
李博: "基于深度学习的用户窃电行为检测", 《中国优秀硕士学位论文全文库 工程科技Ⅱ辑》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111915189A (zh) * | 2020-08-01 | 2020-11-10 | 青岛鼎信通讯股份有限公司 | 一种基于四分位方法的窃电行为检测方法 |
CN112101420A (zh) * | 2020-08-17 | 2020-12-18 | 广东工业大学 | 一种相异模型下Stacking集成算法的异常用电用户识别方法 |
CN112131441A (zh) * | 2020-09-27 | 2020-12-25 | 国网内蒙古东部电力有限公司 | 一种快速识别用电异常行为的方法及系统 |
CN112131441B (zh) * | 2020-09-27 | 2023-09-19 | 国网内蒙古东部电力有限公司 | 一种快速识别用电异常行为的方法及系统 |
CN112257784A (zh) * | 2020-10-22 | 2021-01-22 | 福州大学 | 一种基于梯度提升决策树的窃电检测方法 |
CN112308437A (zh) * | 2020-11-04 | 2021-02-02 | 国网北京市电力公司 | 基于大数据分析的线损治理方法、系统、装置和存储介质 |
CN113128567A (zh) * | 2021-03-25 | 2021-07-16 | 云南电网有限责任公司 | 一种基于用电量数据的异常用电行为识别方法 |
CN113095739A (zh) * | 2021-05-17 | 2021-07-09 | 广东电网有限责任公司 | 一种电网数据异常检测方法及装置 |
CN113516192A (zh) * | 2021-07-19 | 2021-10-19 | 国网北京市电力公司 | 一种用户用电异动识别方法、系统、装置及存储介质 |
CN113408676A (zh) * | 2021-08-23 | 2021-09-17 | 国网江西综合能源服务有限公司 | 一种结合云端与边端的窃电用户识别方法及装置 |
CN113570002A (zh) * | 2021-09-23 | 2021-10-29 | 泰豪软件股份有限公司 | 窃电用户预测模型的建立方法、系统、存储介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111160791A (zh) | 一种基于gbdt算法及因素融合的异常用户识别方法 | |
CN106022592B (zh) | 一种用电行为异常检测与治安风险预警方法及装置 | |
CN106780121B (zh) | 一种基于用电负荷模式分析的用电异常识别方法 | |
CN112131441B (zh) | 一种快速识别用电异常行为的方法及系统 | |
CN105740975B (zh) | 一种基于数据关联关系的设备缺陷评估与预测方法 | |
CN108647328B (zh) | 可靠性停电事件采集完整性分析与自动补全方法 | |
CN206312210U (zh) | 一种配电网设备的状态评估系统 | |
CN106327062A (zh) | 一种配电网设备的状态评估方法 | |
CN108198408B (zh) | 一种基于用电信息采集系统的自适应反窃电监控方法及系统 | |
CN105548744A (zh) | 一种基于运检大数据的变电设备故障识别方法及其系统 | |
CN105426980A (zh) | 一种配电网健康指数评估工程应用系统 | |
CN111506618A (zh) | 一种结合lightgbm-stacking算法的异常用电行为分析方法 | |
CN112307003A (zh) | 电网数据多维辅助分析方法、系统、终端及可读存储介质 | |
CN115270974B (zh) | 基于大数据分析的智能窃电检测系统 | |
CN114118588A (zh) | 聚类欠采样下基于博弈特征提取的迎峰度夏停电预测方法 | |
CN110738415A (zh) | 基于用电采集系统和离群点算法的窃电用户分析方法 | |
CN111080484A (zh) | 一种配电网异常数据监测方法及装置 | |
CN103617447A (zh) | 智能变电站的评价系统及评价方法 | |
CN103529337B (zh) | 设备故障与电气量信息间非线性相关关系的识别方法 | |
CN110555619A (zh) | 一种基于智能配电网的供电能力评估方法 | |
CN107862459B (zh) | 一种基于大数据的计量设备状态评估方法及系统 | |
CN115587635A (zh) | 一种基于中性点偏移判断的台区线损分析方法、系统 | |
CN116522746A (zh) | 高耗能企业配电托管方法 | |
CN112069633B (zh) | 一种采用大数据聚类的基于粒子群原理的配电网数据预处理方法 | |
Ya’An | Application of artificial intelligence in computer network technology in the era of big data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200515 |