CN114399076A - 基于大数据分析的窃电嫌疑用户筛选方法 - Google Patents
基于大数据分析的窃电嫌疑用户筛选方法 Download PDFInfo
- Publication number
- CN114399076A CN114399076A CN202111445017.4A CN202111445017A CN114399076A CN 114399076 A CN114399076 A CN 114399076A CN 202111445017 A CN202111445017 A CN 202111445017A CN 114399076 A CN114399076 A CN 114399076A
- Authority
- CN
- China
- Prior art keywords
- meter data
- data
- electricity stealing
- users
- real
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005611 electricity Effects 0.000 title claims abstract description 117
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012216 screening Methods 0.000 title claims abstract description 35
- 238000007405 data analysis Methods 0.000 title claims abstract description 15
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims abstract description 27
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000000819 phase cycle Methods 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000011835 investigation Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Game Theory and Decision Science (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Entrepreneurship & Innovation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Operations Research (AREA)
- Bioinformatics & Computational Biology (AREA)
- Development Economics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于大数据分析的窃电嫌疑用户筛选方法,该方法包括:通过Spark Streaming从综合能源数据平台上获取正常用户在相同历史时间段内的关联表数据;对在相同历史时间段内的关联表数据进行数据预处理;采用DBSCAN聚类方法按照数量值分别对预处理后的水表数据、气表数据和热表数据进行聚类,得到水、气和热表数据分别与电表数据之间的相关系数;获取待筛查用户当前月的真实关联表数据;根据水表数据、气表数据和热表数据分别与电表数据之间的相关系数,以及当前月的真实水表数据、真实气表数据和真实热表数据作为输入,采用预先训练好的LSTM用电预测模型确定用户当前月的预测电表数据;比较用户当前月的真实电表数据和预测电表数据,确定窃电嫌疑用户。
Description
技术领域
本发明涉及电力资源管理技术领域,尤其涉及一种基于大数据分析的窃电嫌疑用户筛选方法。
背景技术
目前筛选窃电嫌疑用户的方法主要是将采集到的数据按单相用户是否欠压(阀值一般取20%),三相用户是否欠压、电压逆相序、电流反向、开盖告警等信息来判断的。但这种方法筛查出来的窃电用户数量非常少,并且该方法的筛查结果中遗漏了通过欠流法窃电的窃电用户;此外,由于各种干扰,筛查结果中可能还包括有误筛查结果,如此筛查出来的真实窃电用户的数量更少。同时,确定的窃电用户信息未能有效反馈,基于这种规则的筛选方法本身不能自动提高筛选精准度。
发明内容
针对传统窃电用户筛查方法会造成欠流法窃电用户的遗漏或者无法及时反馈窃电用户信息以便自动提高筛选精准度的问题,本发明提供一种基于大数据分析的窃电嫌疑用户筛选方法,能够筛选出欠流法窃电嫌疑用户,能够根据窃电嫌疑程度对嫌疑用户精准排序,并且窃电规则能够根据现场窃电检查结果对初始的窃电嫌疑用户进行重新核实和排序,实现了窃电用户信息的及时有效反馈,能够自动不断提高筛选精准度。
本发明提供的基于大数据分析的窃电嫌疑用户筛选方法,包括:
步骤1:通过Spark Streaming从综合能源数据平台上获取正常用户在相同历史时间段内的关联表数据,所述关联表数据包括:水表数据、气表数据、热表数据和电表数据;
步骤2:对在相同历史时间段内的所述关联表数据进行数据预处理,所述数据预处理包括数据清洗和缺失值填充;
步骤3:采用DBSCAN聚类方法按照数量值分别对预处理后的所述水表数据、所述气表数据和所述热表数据进行聚类,得到所述水表数据、所述气表数据和所述热表数据分别与所述电表数据之间的相关系数;
步骤4:通过Spark Streaming从综合能源数据平台上获取待筛查用户当前月的真实关联表数据;
步骤5:根据所述水表数据、所述气表数据和所述热表数据分别与所述电表数据之间的相关系数,以及当前月的真实水表数据、真实气表数据和真实热表数据作为输入,采用预先训练好的LSTM用电预测模型确定用户当前月的预测电表数据;
步骤6:比较用户当前月的真实电表数据和预测电表数据,确定窃电嫌疑用户。
进一步地,步骤6具体包括:若待筛查用户的真实电表数据低于预测电表数据的80%,则将该待筛查用户标定为窃电嫌疑用户。
进一步地,所述方法还包括:根据电表出现欠压、逆相序、反向或开盖告警的信号的次数,对窃电嫌疑用户进行排序。
进一步地,所述方法还包括:根据用户当前月的预测电表数据和真实电表数据的比值大小,对窃电嫌疑用户进行排序。
进一步地,所述方法还包括:按照窃电嫌疑用户排序结果,依次对窃电嫌疑用户进行现场排查,若标定的窃电嫌疑用户为真实窃电用户,则按照窃电比例将该真实窃电用户的电表数据还原成实际电表数据,并重新对未排查的窃电嫌疑用户进行排序。
进一步地,所述方法还包括:将已经查获的真实窃电用户的关联表数据和用户信息增加至案例库中进行存储。
本发明的有益效果:
(1)由于水、气、热用量通常与用电量具有相关性,本发明增加了水表数据、气表数据、热表数据作为窃电嫌疑用户筛选的依据,从而避免在筛选过程中遗漏欠流法窃电用户,使得具备四表合一的用户中的大多数窃电用户都能被发现,使得窃电嫌疑用户的筛选更加全面和精准;
(2)本发明根据嫌疑程度的排序使现场窃电排查更有针对性,而参数修正过程(即将真实窃电用户的电表数据按窃电比例还原成实际用电数据)则使得窃电嫌疑用户筛选过程形成一个闭环,从而可以不断提高筛选精准度。
附图说明
图1为本发明实施例提供的基于大数据分析的窃电嫌疑用户筛选方法的流程示意图之一;
图2为本发明实施例提供的基于大数据分析的窃电嫌疑用户筛选方法的流程示意图之二。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,本发明实施例提供的基于大数据分析的窃电嫌疑用户筛选方法,包括以下步骤:
S101:通过Spark Streaming从综合能源数据平台上获取正常用户在相同历史时间段内的关联表数据,所述关联表数据包括:水表数据、气表数据、热表数据和电表数据;
S102:对在相同历史时间段内的所述关联表数据进行数据预处理,所述数据预处理包括数据清洗和缺失值填充;
S103:采用DBSCAN聚类方法按照数量值分别对预处理后的所述水表数据、所述气表数据和所述热表数据进行聚类,得到所述水表数据、所述气表数据和所述热表数据分别与所述电表数据之间的相关系数;
S104:通过Spark Streaming从综合能源数据平台上获取待筛查用户当前月的真实关联表数据;
S105:根据所述水表数据、所述气表数据和所述热表数据分别与所述电表数据之间的相关系数,以及当前月的真实水表数据、真实气表数据和真实热表数据作为输入,采用预先训练好的LSTM用电预测模型确定用户当前月的预测电表数据;
S106:比较用户当前月的真实电表数据和预测电表数据,确定窃电嫌疑用户。
具体地,若待筛查用户的真实电表数据低于预测电表数据的80%,则将该待筛查用户标定为窃电嫌疑用户。
由于水、气、热用量通常与用电量具有相关性,本发明实施例中,增加了水表数据、气表数据、热表数据作为窃电嫌疑用户筛选的依据,从而避免在筛选过程中遗漏欠流法窃电用户(例如,某欠流法窃电用户,按通过判断是否欠压、逆相序、反向、开盖告警这些传统手段不能发现窃电,但通过该用户的电量数据与水、气、热表数据进行比对,如果按历史数据月度水、气、热表数据正常,而电表月度数据异常减少,如果少于某一阈值(例如20%),即可判断为窃电嫌疑用户),使得具备四表合一的用户中的大多数窃电用户都能被发现,使得窃电嫌疑用户的筛选更加全面和精准。
实施例2
由于水、气、热三表的数据与用电量往往存在关联,基于历史数据和实际结果,精细化模型,探究多源数据与用电异常的耦合关系,对用电异常进行量化分析,完成窃电嫌疑排序。
如图2所示,在上述实施例的基础上,本发明实施例与上述实施例的不同之处在于本发明实施例还包括以下步骤:
S107:根据电表出现欠压、逆相序、反向或开盖告警的信号的次数,对窃电嫌疑用户进行排序;或者,根据用户当前月的预测电表数据和真实电表数据的比值大小,对窃电嫌疑用户进行排序;
具体地,电表出现欠压、逆相序、反向或开盖告警的信号的次数越多,表明该窃电嫌疑用户为真实窃电用户的可能性越大,则该窃电嫌疑用户排序越靠前。
预测电表数据与真实电表数据的比值越大,表明该窃电嫌疑用户为真实窃电用户的可能性越大,则该窃电嫌疑用户排序越靠前。
S108:按照窃电嫌疑用户排序结果,依次对窃电嫌疑用户进行现场排查,若标定的窃电嫌疑用户为真实窃电用户,则按照窃电比例将该真实窃电用户的电表数据还原成实际电表数据,并重新对未排查的窃电嫌疑用户进行筛查和排序;迭代执行本步骤,直至排查完所有的窃电嫌疑用户;
具体地,将真实窃电用户的电表数据按窃电比例还原成实际用电数据之后,可以恢复正常的电量与水、气、热量的相关性,从而基于正常的相关性重新对未排查的窃电嫌疑用户进行筛查和排序,可以使判断结果更加精准。
S109:将已经查获的真实窃电用户的关联表数据和用户信息增加至案例库中进行存储。
具体地,对已查获的真实窃电用户,通过将其信息和关联数据加入中,可以方便以后作为特征对比分析。例如,从该案例库中输出实际窃电的数据,作为训练数据,不断优化窃电识别的学习模型,可以提高其窃电检查准确率。
本发明实施例中,增加了水、气、热表数据作为窃电嫌疑用户筛选的依据后,使得窃电嫌疑用户筛选更加全面和精准;并且根据嫌疑程度的排序使现场窃电排查更有针对性,而参数修正过程(即将真实窃电用户的电表数据按窃电比例还原成实际用电数据)则使得窃电嫌疑用户筛选过程形成一个闭环,从而可以不断提高筛选精准度。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (6)
1.基于大数据分析的窃电嫌疑用户筛选方法,其特征在于,包括:
步骤1:通过Spark Streaming从综合能源数据平台上获取正常用户在相同历史时间段内的关联表数据,所述关联表数据包括:水表数据、气表数据、热表数据和电表数据;
步骤2:对在相同历史时间段内的所述关联表数据进行数据预处理,所述数据预处理包括数据清洗和缺失值填充;
步骤3:采用DBSCAN聚类方法按照数量值分别对预处理后的所述水表数据、所述气表数据和所述热表数据进行聚类,得到所述水表数据、所述气表数据和所述热表数据分别与所述电表数据之间的相关系数;
步骤4:通过Spark Streaming从综合能源数据平台上获取待筛查用户当前月的真实关联表数据;
步骤5:根据所述水表数据、所述气表数据和所述热表数据分别与所述电表数据之间的相关系数,以及当前月的真实水表数据、真实气表数据和真实热表数据作为输入,采用预先训练好的LSTM用电预测模型确定用户当前月的预测电表数据;
步骤6:比较用户当前月的真实电表数据和预测电表数据,确定窃电嫌疑用户。
2.根据权利要求1所述的基于大数据分析的窃电嫌疑用户筛选方法,其特征在于,步骤6具体包括:若待筛查用户的真实电表数据低于预测电表数据的80%,则将该待筛查用户标定为窃电嫌疑用户。
3.根据权利要求1所述的基于大数据分析的窃电嫌疑用户筛选方法,其特征在于,还包括:
根据电表出现欠压、逆相序、反向或开盖告警的信号的次数,对窃电嫌疑用户进行排序。
4.根据权利要求1所述的基于大数据分析的窃电嫌疑用户筛选方法,其特征在于,还包括:
根据用户当前月的预测电表数据和真实电表数据的比值大小,对窃电嫌疑用户进行排序。
5.根据权利要求3或4所述的基于大数据分析的窃电嫌疑用户筛选方法,其特征在于,还包括:按照窃电嫌疑用户排序结果,依次对窃电嫌疑用户进行现场排查,若标定的窃电嫌疑用户为真实窃电用户,则按照窃电比例将该真实窃电用户的电表数据还原成实际电表数据,并重新对未排查的窃电嫌疑用户进行排序。
6.根据权利要求5所述的基于大数据分析的窃电嫌疑用户筛选方法,其特征在于,还包括:将已经查获的真实窃电用户的关联表数据和用户信息增加至案例库中进行存储。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111445017.4A CN114399076A (zh) | 2021-11-30 | 2021-11-30 | 基于大数据分析的窃电嫌疑用户筛选方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111445017.4A CN114399076A (zh) | 2021-11-30 | 2021-11-30 | 基于大数据分析的窃电嫌疑用户筛选方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114399076A true CN114399076A (zh) | 2022-04-26 |
Family
ID=81225221
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111445017.4A Pending CN114399076A (zh) | 2021-11-30 | 2021-11-30 | 基于大数据分析的窃电嫌疑用户筛选方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114399076A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114841474A (zh) * | 2022-07-01 | 2022-08-02 | 南京匠拓电力科技有限公司 | 适用于智能水电气采控终端的数据处理方法及系统 |
CN116449284A (zh) * | 2023-03-30 | 2023-07-18 | 宁夏隆基宁光仪表股份有限公司 | 居民用电异常监测方法及其智能电表 |
-
2021
- 2021-11-30 CN CN202111445017.4A patent/CN114399076A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114841474A (zh) * | 2022-07-01 | 2022-08-02 | 南京匠拓电力科技有限公司 | 适用于智能水电气采控终端的数据处理方法及系统 |
CN114841474B (zh) * | 2022-07-01 | 2022-09-09 | 南京匠拓电力科技有限公司 | 适用于智能水电气采控终端的数据处理方法及系统 |
CN116449284A (zh) * | 2023-03-30 | 2023-07-18 | 宁夏隆基宁光仪表股份有限公司 | 居民用电异常监测方法及其智能电表 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110223196B (zh) | 基于典型行业特征库和反窃电样本库的反窃电分析方法 | |
CN110097297B (zh) | 一种多维度窃电态势智能感知方法、系统、设备及介质 | |
CN110988422B (zh) | 一种窃电识别方法、装置及电子设备 | |
Zhu et al. | Time series shapelet classification based online short-term voltage stability assessment | |
CN114399076A (zh) | 基于大数据分析的窃电嫌疑用户筛选方法 | |
CN107506868B (zh) | 一种短时电力负荷预测的方法及装置 | |
CN111967512B (zh) | 一种异常用电检测方法、系统和存储介质 | |
CN107832927B (zh) | 基于灰色关联分析法的10kV线路线变关系评价方法 | |
CN109359665A (zh) | 一种基于支持向量机的家电负荷识别方法及装置 | |
Zhu et al. | Networked time series shapelet learning for power system transient stability assessment | |
CN110968703B (zh) | 基于lstm端到端抽取算法的异常计量点知识库构建方法及系统 | |
CN115293257A (zh) | 一种针对异常用电用户的检测方法及系统 | |
CN114648316B (zh) | 基于稽查标签库的数字化处理方法及系统 | |
Hartmann et al. | Suspicious electric consumption detection based on multi-profiling using live machine learning | |
CN111539840A (zh) | 一种融合聚类与密度估计的窃电检测方法及系统 | |
Yu et al. | On statistical modeling and forecasting of energy usage in smart grid | |
CN116401601B (zh) | 基于逻辑回归模型的停电敏感用户处置方法 | |
CN112950048A (zh) | 基于模糊综合评价的国家高等教育体系健康评价 | |
CN108846505A (zh) | 可再生能源并网消纳信息多维度校核方法及设备 | |
CN111475548A (zh) | 一种基于大数据挖掘技术的用电异常分析决策系统 | |
CN111612149A (zh) | 一种基于决策树的主网线路状态检测方法、系统及介质 | |
CN113806899B (zh) | 一种配电网拓扑关系的识别方法、装置及移动终端 | |
CN113468811B (zh) | 含新能源机组的电网备用容量概率化动态评估方法及系统 | |
CN113065234B (zh) | 一种智能电表的批次可靠性风险等级评估方法及系统 | |
CN114168662A (zh) | 一种基于多数据源的配电网问题梳理分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |