CN111506618B - 一种结合lightgbm-stacking算法的异常用电行为分析方法 - Google Patents
一种结合lightgbm-stacking算法的异常用电行为分析方法 Download PDFInfo
- Publication number
- CN111506618B CN111506618B CN201911264550.3A CN201911264550A CN111506618B CN 111506618 B CN111506618 B CN 111506618B CN 201911264550 A CN201911264550 A CN 201911264550A CN 111506618 B CN111506618 B CN 111506618B
- Authority
- CN
- China
- Prior art keywords
- sample
- data
- date
- samples
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/06—Electricity, gas or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明提供一种结合lightgbm‑stacking算法的异常用电行为分析方法,包括以下步骤:步骤一:样本数据收集、校核和预处理,建立样本数据库;步骤二:构建特征库,特征预处理;步骤三:征筛选以及模型构建;步骤四:第二轮特征筛选以及模型构建;步骤五:模型结果过滤。能够解决目前的现场排查方法的工作人员缺乏以及排查效率低的技术问题,同时能够解决加装设备方法的适用范围窄和安装成本高的问题。
Description
技术领域
本发明涉及电力领域,具体为一种结合lightgbm-stacking算法的异常用电行 为分析方法。
背景技术
随着国内经济的快速发展,居民用户和工商企业的用电量逐步上升,同时 窃电相关的案件数量也在逐年上升,直接影响供电企业的正常运行。为规范用 电客户的正常用电行为,提高电能利用率,降低供电企业成本,需要准确定位 并及时处理存在异常用电行为的用电客户。目前在工程领域中,异常用电行为 的识别主要通过现场排查和加装设备实现,其中现场排查指的是通过工作人员的现场检查,包括接线检查、电气量测量对比等检查,随着供电设备的不断增 加,人员数量难以支撑当前的供电区域,加装设备指的是针对部分嫌疑用电客 户,在变压器、分支点等区域加装相关设备进行电气量的测量,经过对比各节 点的电气量后实现异常用电行为的识别。在学术领域也进行了相关探讨,主要 包括基于电气理论和数据挖掘的方法,但均未考虑当前数据基础,难以在实际 工程中应用,因此,在考虑当前数据基础的情况下,如何实现异常用电行为的分析是当前面临的十分重要且迫切的问题。
发明内容
为了解决现有技术中存在的某种或某些技术问题,本发明提供一种结合lightgbm-stacking算法的异常用电行为分析方法,能够解决目前的现场排查方法 的工作人员缺乏以及排查效率低的技术问题,同时能够解决加装设备方法的适 用范围窄和安装成本高的问题。
为解决上述现有的技术问题,本发明采用如下方案:一种结合 lightgbm-stacking算法的异常用电行为分析方法,其特征在于:包括以下步骤:
步骤一:样本数据收集、校核和预处理,建立样本数据库;
步骤二:构建特征库,特征预处理:针对目前供电企业的数据基础,包括用 电信息采集数据、变压器运行数据、用户档案数据、台区线损数据,构建多 维度的异常特征库;特征预处理为对特征数据进行统计值分析,对数值型特 征进行包括标准差、最大值、最小值、1/4分位数、1/2分位数、3/4分位数、 缺失值数量统计,对类别型特征进行类别数统计、缺失值统计,过滤标准差接近0、缺失比例超过50%的特征;
步骤三:征筛选以及模型构建:(1)选择80%的1级样本作为样本,每次选 择1:5的比例选择正常用户,共选择5次,构成5批训练样本;(2)对每一 批训练样本进行各特征的相关性矩阵计算,按照与打标的相关性进行特征重 要性排序。删除多重线性相关的特征,保留原则为按照特征重要性进行保留; (3)针对每一批样本,分别运用LightGBM算法进行训练,得到对应的模型; (4)针对5个LightGBM模型,上层运用逻辑回归模型进行模型融合,共同输出模型结果;
步骤四:第二轮特征筛选以及模型构建:(1)使用第一轮训练得到的模型, 对2级样本进行预测,得到2级样本的预测结果;(2)将2级样本中能够正 确分类的样本与1级样本合并,构成新的样本集合;(3)运用合并后的样本级,重新进行步骤三的过程,得到更新后的特征与模型;
步骤五:模型结果过滤:将训练后的模型进行部署,对新的数据进行预测, 针对预测的结果,综合考虑用户电量水平、台区线损情况进行结果过滤,保 留重点嫌疑用户。
作为优选,所述步骤一中具体步骤为:(1)样本数据收集,从各供电区 域的工作人员以及业务流程管理系统获取样本数据,需要包括户号、查处日 期、现场描述、异常用电时长信息;(2)针对收集的样本数据,绘制用户电量曲线、台区供电量曲线、台区用电量曲线、台区线损电量曲线、台区线损 率曲线,结合样本中的文本信息,综合多维度进行样本校核,确保样本的准 确性;(3)在样本进行校核以后,提取样本关键信息,形成结构化数据,包 括户号、异常用电起始日期、异常用电截止日期、估计异常用电天数、备注 信息字段,形成样本数据库,起始日期和截止日期均准确的情况下,无需估 算异常用电时长信息,并定义为1级样本,截止日期准确但起始日期不准确的情况下,需要估算异常用电天数,并定义为2级样本;(4)从样本数据库 中进行样本清单构造,针对1级样本,用户在起始日期前1个月和截止日期后1个月的日期进行打标为0,起始日期至截止日期的日期区间打标1,针对 2级样本,根据估算的异常用电天数,对截止日期前打标1,截止日期后打标 0。
相比现有技术,本发明的有益效果在于:
本发明提供一种结合lightgbm-stacking算法的异常用电行为分析方法,能够 解决目前的现场排查方法的工作人员缺乏以及排查效率低的技术问题,同时能 够解决加装设备方法的适用范围窄和安装成本高的问题。
具体实施方式
下面,结合具体实施方式,对本发明做进一步描述,需要说明的是,在不 相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形 成新的实施例。
本发明提供一种结合lightgbm-stacking算法的异常用电行为分析方法,包括 以下步骤:
步骤一:样本数据收集、校核和预处理,建立样本数据库:(1)样本数据收 集,从各供电区域的工作人员以及业务流程管理系统获取样本数据,需要包 括户号、查处日期、现场描述、异常用电时长信息;(2)针对收集的样本数 据,绘制用户电量曲线、台区供电量曲线、台区用电量曲线、台区线损电量 曲线、台区线损率曲线,结合样本中的文本信息,综合多维度进行样本校核, 确保样本的准确性;(3)在样本进行校核以后,提取样本关键信息,形成结 构化数据,包括户号、异常用电起始日期、异常用电截止日期、估计异常用电天数、备注信息字段,形成样本数据库,起始日期和截止日期均准确的情 况下,无需估算异常用电时长信息,并定义为1级样本,截止日期准确但起 始日期不准确的情况下,需要估算异常用电天数,并定义为2级样本;(4) 从样本数据库中进行样本清单构造,针对1级样本,用户在起始日期前1个 月和截止日期后1个月的日期进行打标为0,起始日期至截止日期的日期区 间打标1,针对2级样本,根据估算的异常用电天数,对截止日期前打标1, 截止日期后打标0;
步骤二:构建特征库,特征预处理:针对目前供电企业的数据基础,包括用 电信息采集数据、变压器运行数据、用户档案数据、台区线损数据,构建多 维度的异常特征库;特征预处理为对特征数据进行统计值分析,对数值型特 征进行包括标准差、最大值、最小值、1/4分位数、1/2分位数、3/4分位数、 缺失值数量统计,对类别型特征进行类别数统计、缺失值统计,过滤标准差 接近0、缺失比例超过50%的特征;
步骤三:征筛选以及模型构建:(1)选择80%的1级样本作为样本,每次选 择1:5的比例选择正常用户,共选择5次,构成5批训练样本;(2)对每一 批训练样本进行各特征的相关性矩阵计算,按照与打标的相关性进行特征重 要性排序。删除多重线性相关的特征,保留原则为按照特征重要性进行保留; (3)针对每一批样本,分别运用LightGBM算法进行训练,得到对应的模型; (4)针对5个LightGBM模型,上层运用逻辑回归模型进行模型融合,共同输出模型结果;
步骤四:第二轮特征筛选以及模型构建:(1)使用第一轮训练得到的模型, 对2级样本进行预测,得到2级样本的预测结果;(2)将2级样本中能够正 确分类的样本与1级样本合并,构成新的样本集合;(3)运用合并后的样本级,重新进行步骤三的过程,得到更新后的特征与模型;
步骤五:模型结果过滤:将训练后的模型进行部署,对新的数据进行预测, 针对预测的结果,综合考虑用户电量水平、台区线损情况进行结果过滤,保 留重点嫌疑用户。
本发明采用“对样本进行广泛收集,结合数据情况对样本进行校核和预处 理,构建样本数据库,在保证数据准确性的基础上进行样本二级分类”的技术 手段,实现了样本数据的扩充和准确性确定,解决了当前样本数据准确性较差 且样本数据较少的问题;采用“随机样本选择的方式构建多重样本集合,分别 评价每个样本集合的特征缺失、常量、异常、相关性和多重共线性,筛选强关联特征”的技术方法,实现模型与当前数据基础的结合,实现特征的筛选和过 滤;采用“lightgbm-stacking构建模型,1级样本对模型进行初步训练,并集合 2级样本预测结果对1级样本进行扩充,实现多轮模型训练”的技术方法,使用类似半监督的方法,克服1级样本数量较少、2级样本数量充足的问题。能够解 决目前的现场排查方法的工作人员缺乏以及排查效率低的技术问题,同时能够 解决加装设备方法的适用范围窄和安装成本高的问题。
上述实施方式仅为本发明的优选实施方式,不能以此来限定本发明保护的 范围,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换 均属于本发明所要求保护的范围。
Claims (1)
1.一种结合lightgbm-stacking算法的异常用电行为分析方法,其特征在于:包括以下步骤:
步骤一:样本数据收集、校核和预处理,建立样本数据库:(1)样本数据收集,从各供电区域的工作人员以及业务流程管理系统获取样本数据,需要包括户号、查处日期、现场描述、异常用电时长信息;(2)针对收集的样本数据,绘制用户电量曲线、台区供电量曲线、台区用电量曲线、台区线损电量曲线、台区线损率曲线,结合样本中的文本信息,综合多维度进行样本校核,确保样本的准确性;(3)在样本进行校核以后,提取样本关键信息,形成结构化数据,包括户号、异常用电起始日期、异常用电截止日期、估计异常用电天数、备注信息字段,形成样本数据库,起始日期和截止日期均准确的情况下,无需估算异常用电时长信息,并定义为1级样本,截止日期准确但起始日期不准确的情况下,需要估算异常用电天数,并定义为2级样本;(4)从样本数据库中进行样本清单构造,针对1级样本,用户在起始日期前1个月和截止日期后1个月的日期进行打标为0,起始日期至截止日期的日期区间打标1,针对2级样本,根据估算的异常用电天数,对截止日期前打标1,截止日期后打标0;
步骤二:构建特征库,特征预处理:针对目前供电企业的数据基础,包括用电信息采集数据、变压器运行数据、用户档案数据、台区线损数据,构建多维度的异常特征库;特征预处理为对特征数据进行统计值分析,对数值型特征进行包括标准差、最大值、最小值、1/4分位数、1/2分位数、3/4分位数、缺失值数量统计,对类别型特征进行类别数统计、缺失值统计,过滤标准差接近0、缺失比例超过50%的特征;
步骤三:征筛选以及模型构建:(1)选择80%的1级样本作为样本,每次选择1:5的比例选择正常用户,共选择5次,构成5批训练样本;(2)对每一批训练样本进行各特征的相关性矩阵计算,按照与打标的相关性进行特征重要性排序,删除多重线性相关的特征,保留原则为按照特征重要性进行保留;(3)针对每一批样本,分别运用LightGBM算法进行训练,得到对应的模型;(4)针对5个LightGBM模型,上层运用逻辑回归模型进行模型融合,共同输出模型结果;
步骤四:第二轮特征筛选以及模型构建:(1)使用第一轮训练得到的模型,对2级样本进行预测,得到2级样本的预测结果;(2)将2级样本中能够正确分类的样本与1级样本合并,构成新的样本集合;(3)运用合并后的样本级,重新进行步骤三的过程,得到更新后的特征与模型;
步骤五:模型结果过滤:将训练后的模型进行部署,对新的数据进行预测,针对预测的结果,综合考虑用户电量水平、台区线损情况进行结果过滤,保留重点嫌疑用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911264550.3A CN111506618B (zh) | 2019-12-11 | 2019-12-11 | 一种结合lightgbm-stacking算法的异常用电行为分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911264550.3A CN111506618B (zh) | 2019-12-11 | 2019-12-11 | 一种结合lightgbm-stacking算法的异常用电行为分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111506618A CN111506618A (zh) | 2020-08-07 |
CN111506618B true CN111506618B (zh) | 2023-09-01 |
Family
ID=71866992
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911264550.3A Active CN111506618B (zh) | 2019-12-11 | 2019-12-11 | 一种结合lightgbm-stacking算法的异常用电行为分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111506618B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101420A (zh) * | 2020-08-17 | 2020-12-18 | 广东工业大学 | 一种相异模型下Stacking集成算法的异常用电用户识别方法 |
CN112232892B (zh) * | 2020-12-14 | 2021-03-30 | 南京华苏科技有限公司 | 基于移动运营商的满意度的易访用户的挖掘方法 |
CN113033089B (zh) * | 2021-03-23 | 2023-07-14 | 中国联合网络通信集团有限公司 | 用电量异常用户识别方法和装置 |
CN113762600B (zh) * | 2021-08-12 | 2022-07-12 | 北京市燃气集团有限责任公司 | 一种基于LightGBM的月用气量预测方法及装置 |
CN116304762A (zh) * | 2023-05-17 | 2023-06-23 | 杭州致成电子科技有限公司 | 负荷的分解方法和装置 |
CN116881647A (zh) * | 2023-09-08 | 2023-10-13 | 中国长江电力股份有限公司 | 一种面向水电多业务场景的时序样本管理系统构建方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN207457487U (zh) * | 2017-08-16 | 2018-06-05 | 广东电网有限责任公司揭阳供电局 | 一种电子化排查及分析电能表异常的系统 |
CN108959356A (zh) * | 2018-05-07 | 2018-12-07 | 国网上海市电力公司 | 一种智能配用电大数据应用系统数据集市建立方法 |
CN109614997A (zh) * | 2018-11-29 | 2019-04-12 | 武汉大学 | 一种基于深度学习的窃电风险预测方法及装置 |
CN110383308A (zh) * | 2017-04-13 | 2019-10-25 | 甲骨文国际公司 | 预测管道泄漏的新型自动人工智能系统 |
CN110458387A (zh) * | 2019-06-27 | 2019-11-15 | 广东电网有限责任公司信息中心 | 一种基于机器学习技术的智能电网信息管理方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190361058A1 (en) * | 2018-05-26 | 2019-11-28 | Dalchemy Inc. | Workload optimization based on energy characteristics |
-
2019
- 2019-12-11 CN CN201911264550.3A patent/CN111506618B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110383308A (zh) * | 2017-04-13 | 2019-10-25 | 甲骨文国际公司 | 预测管道泄漏的新型自动人工智能系统 |
CN207457487U (zh) * | 2017-08-16 | 2018-06-05 | 广东电网有限责任公司揭阳供电局 | 一种电子化排查及分析电能表异常的系统 |
CN108959356A (zh) * | 2018-05-07 | 2018-12-07 | 国网上海市电力公司 | 一种智能配用电大数据应用系统数据集市建立方法 |
CN109614997A (zh) * | 2018-11-29 | 2019-04-12 | 武汉大学 | 一种基于深度学习的窃电风险预测方法及装置 |
CN110458387A (zh) * | 2019-06-27 | 2019-11-15 | 广东电网有限责任公司信息中心 | 一种基于机器学习技术的智能电网信息管理方法及系统 |
Non-Patent Citations (1)
Title |
---|
GuoLin K,Qi M,Thomas F."LightGBM: Light Gradient Boosting Machine".《31 st Annual Conference on Neural Information Processing Systems》.2017,3147-3155. * |
Also Published As
Publication number | Publication date |
---|---|
CN111506618A (zh) | 2020-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111506618B (zh) | 一种结合lightgbm-stacking算法的异常用电行为分析方法 | |
CN110097297B (zh) | 一种多维度窃电态势智能感知方法、系统、设备及介质 | |
Luo et al. | Electric load shape benchmarking for small-and medium-sized commercial buildings | |
Park et al. | Apples or oranges? Identification of fundamental load shape profiles for benchmarking buildings using a large and diverse dataset | |
CN106022592B (zh) | 一种用电行为异常检测与治安风险预警方法及装置 | |
Pereira et al. | Sustdata: A public dataset for ict4s electric energy research | |
CN104657788B (zh) | 基于行业景气指数的重点行业用电量预测方法 | |
CN106570778A (zh) | 一种基于大数据的数据集成与线损分析计算的方法 | |
CN111160791A (zh) | 一种基于gbdt算法及因素融合的异常用户识别方法 | |
Serrano-Guerrero et al. | Statistical methodology to assess changes in the electrical consumption profile of buildings | |
CN113111053A (zh) | 一种基于大数据的线损诊断与反窃电系统、方法及模型 | |
CN106447534A (zh) | 一种基于灰色关联度分析的用电模式稳定性判别方法 | |
CN103413188A (zh) | 一种基于工业业扩报装的月度工业用电量预测方法 | |
CN112633779B (zh) | 一种对环境监测数据可信度进行评估的方法 | |
Ye et al. | Passenger flow prediction in bus transportation system using ARIMA models with big data | |
CN114240086A (zh) | 碳排放监测方法、装置、存储介质及处理器 | |
CN108256724B (zh) | 一种基于动态行业系数的配电网可开放容量规划方法 | |
CN106845748A (zh) | 一种低压集抄系统数据偏差原因的智能辨识方法 | |
CN106022640B (zh) | 电量指数核对系统及方法 | |
CN109325641A (zh) | 一种工业能效管理系统及方法 | |
CN111552686B (zh) | 一种电力数据质量评估方法及其装置 | |
CN106651093A (zh) | 一种用于低压集抄系统的智能复核管控方法 | |
CN116226720A (zh) | 基于多维数据交叉验证的高可靠负荷异常识别修补方法 | |
CN115333232A (zh) | 变压器启停状态异常的在线监测方法及相关装置 | |
EP4235481A1 (de) | Verfahren zum erstellen eines lastprofils |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |