CN114662563A - 一种基于梯度提升算法的工业用电非侵入负荷分解方法 - Google Patents

一种基于梯度提升算法的工业用电非侵入负荷分解方法 Download PDF

Info

Publication number
CN114662563A
CN114662563A CN202210163779.3A CN202210163779A CN114662563A CN 114662563 A CN114662563 A CN 114662563A CN 202210163779 A CN202210163779 A CN 202210163779A CN 114662563 A CN114662563 A CN 114662563A
Authority
CN
China
Prior art keywords
data
power
model
electric
equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202210163779.3A
Other languages
English (en)
Inventor
李策
魏军
杨蓉
杨波
李方军
王�华
郭芳琳
刘宁
冯丽丽
申富泰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information and Telecommunication Branch of State Grid Gansu Electric Power Co Ltd
Original Assignee
Information and Telecommunication Branch of State Grid Gansu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information and Telecommunication Branch of State Grid Gansu Electric Power Co Ltd filed Critical Information and Telecommunication Branch of State Grid Gansu Electric Power Co Ltd
Priority to CN202210163779.3A priority Critical patent/CN114662563A/zh
Publication of CN114662563A publication Critical patent/CN114662563A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2477Temporal data queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Mathematical Physics (AREA)
  • Operations Research (AREA)
  • Educational Administration (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Marketing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Water Supply & Treatment (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Algebra (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)

Abstract

本发明公开了一种基于梯度提升算法的工业用电非侵入负荷分解方法,属于工业用电负荷分解技术领域,解决了现有非侵入式负荷分解都是基于家庭用电进行分解,对工业领域研究极少的问题,包括以下步骤:数据来源、数据清洗及拆分、构建负荷运行状态识别模型、构建负荷功率分解模型、构建负荷日用电量拟合模型、模型评估。本发明利用传感器采集的工业设备的有功功率和电网提供的电表总有功功率读数,结合设备运行时间规律进行了工业场景的负荷用电量分解,便于掌握工业基础设备用电情况,比直接采用功率与时间的乘积累加结果作为电量近似的方法更接近于实际用电量,有助于实现对工业基础设施用电行为的全面分析。

Description

一种基于梯度提升算法的工业用电非侵入负荷分解方法
技术领域
本发明属于工业用电负荷分解技术领域,是基于电力数据对工业用电场景进行负荷分解,具体涉及一种基于梯度提升算法的工业用电非侵入负荷分解方法。
背景技术
电力系统中所有电力用户的用电设备所消耗的电功率的总和就是电力系统的负荷,电力负荷是电力系统中的重要组成部分,负荷大小是影响电网安全稳定运行的重要因素。随着用电设备的种类和数量增多,用电量也大大增加,设备故障也时有发生,为了实现电力负荷预测和设备故障诊断,分项计量技术得到了广泛应用。电力分项计量对于电力公司准确预测电力负荷、科学制定电网调度方案、提高电力系统稳定性和可靠性有着重要意义;对用户而言可以帮助用户了解用电设备的使用情况、提高用户的节能意识、促进科学合理用电。另一方面,分项计量还可以针对能耗数据来实现设备老化、故障预警的功能,在我们的生产、生活中有非常实际的意义。
工业场景用电复杂,且很多设备都在一条流水线上,多个设备之前的开关状态也存在关联,而且在发展中国家,工业用电占国家总用电的60%~80%,围绕工业用电领域开展非侵入式负荷研究对现有工业基础设施的能耗进行监测,使电力用户全面掌握用电行为特征,将会提高用户用电的电能效率。
目前的非侵入式负荷分解都是基于家庭用电进行分解,对工业领域的研究极少,而且负荷分解采用的数据频率都远远高于电表所采集的数据频率。因此,对现有工业用电非侵入负荷分解方法进行优化对于降低成本、提高电能管理方面具有重要意义。
发明内容
本发明的目的在于,针对以上现有技术中存在的问题,提供了一种基于梯度提升算法的工业用电非侵入负荷分解方法,通过采用循环神经网络结合用电设备工作时间分布等从总的用电数据信息中分解出每个用电设备的用电情况,能够有效提高分解的准确率,便于掌握工业基础设备用电情况,有助于实现对工业基础设施用电行为的全面分析,从而推动电力数据增值服务工作,塑造数据增值服务商业模式,建设电力数据商业化运营生态圈。
为了实现上述目的,本发明具体采用以下技术方案:
一种基于梯度提升算法的工业用电非侵入负荷分解方法,包括以下步骤:
S1:数据来源:采集各用电设备的用电特征数据,并收集电表上15分钟周期的总用电特征读数作为用电用户的总用电特征数据;
S2:数据清洗及拆分:首先统一各用电设备和总用电的数据的频率为15分钟,之后对数据进行异常值处理,然后提取时间戳中小时值特征;
S3:构建负荷运行状态识别模型:为每个用电设备设置一个功率阈值,即实际功率值大于功率阈值时设备为开启状态1,反之,即设备为关闭状态0,结合各用电设备的用电时间分布和总用电功率变化采用集成算法lightGBM为每个用电设备训练一个二分类器判识各用电设备的运行状态;
S4:构建负荷功率分解模型:结合各用电设备的运行状态从总用电功率中分解出各用电设备的功率序列;
S5:构建负荷日用电量拟合模型:利用模型分解出的各用电设备每日的具体功率序列计算各用电设备的日电量消耗;
S6:模型评估:选择分类模型的评价指标评估模型,并且在此基础上自定义“日电量相对误差”指标进一步评估指标。
所述步骤S4中采用lightGBM回归算法实现各用电设备的功率值分解。
所述步骤S5中采用lightGBM回归拟合的方法对不同用电设备的历史日电量分别进行拟合训练模型来计算每日电量消耗。
所述步骤S6中分类模型的评估指标包括查准率、查全率和F1分数,具体计算方法如下:
Figure BDA0003515155850000031
Figure BDA0003515155850000032
Figure BDA0003515155850000033
Figure BDA0003515155850000034
其中,PRE是准确度,即查准率,REC为召回率,即查全率,F1代表F1分数;TP表示用电设备实际处于工作状态且模型分解结果也为工作状态的序列总数;FP表示用电设备实际处于工作状态但是模型分解结果为非工作状态的序列点总数;FN表示用电设备实际未工作但模型分解结果为在工作状态的序列点总数;yt为t时刻用电设备真实功率;y~t为t时刻模型分解功率,MAE为时间段T0到T1内功率分解值的平均绝对误差。
所述步骤S6中自定义评价指标是采用平均日电量相对误差来反映设备的日电量消耗估计的准确度,日电量相对误差的计算公式如下:
Figure BDA0003515155850000035
真实日电量为0值时,上式计算结果为无穷大,调整过的日电量相对误差计算公式如下:
Figure BDA0003515155850000041
与现有技术相比,本发明具有如下有益效果:
本发明利用传感器采集的工业设备的有功功率和电网提供的电表总有功功率读数,结合设备运行时间规律进行了工业场景的负荷用电量分解,便于掌握工业基础设备用电情况,比直接采用功率与时间的乘积累加结果作为电量近似的方法更接近于实际用电量,有助于实现对工业基础设施用电行为的全面分析,从而推动电力数据增值服务工作,塑造数据增值服务商业模式,建设电力数据商业化运营生态圈。
附图说明
图1是本发明的工作原理示意图。
图2是本发明实施例中电负荷分解模型流程图。
图3是本发明实施例中Leaf-wise策略分裂叶子结点的过程示意图。
图4是本发明实施例中特征直方图化的过程示意图。
具体实施方式
下面将结合附图以及具体实施例来详细说明本发明,在此本发明的示意性实施例以及说明来解释本发明,但并不作为对本发明的限定。
如图1所示,本发明所述的一种基于梯度提升算法的工业用电非侵入负荷分解方法,具体包括如下内容:
一、数据准备
本发明主要是通过国网公司电表测量的电力数据变化趋势,对工商业用电用户开启的用电设备以及其有功功率值进行预测。通过分解总电负荷确定每个用电设备产生的用电量,从而对用户用电设备的用电行为习惯进行分析,提升对负荷的认知水平,短期电量预测模型预测未来一段时间内的耗电量,从而提升用电需求侧相应潜力。本发明涉及的数据主要有三个来源:
1.1数据来源
1.1.1用户侧物联网传感器测量数据
对总的用电情况进行分解之前,需要采集大量的设备用电数据,即对待分解设备进行用电测量,利用电流互感器、交流支路电量监测仪、数据发送设备DTU等对观测点加油站的部分用电设备进行量测。
测量周期为1分钟,测量指标主要包括电流、电量、有功功率、无功功率、功率因数等共22个测量指标,其中elec、maxElec、demandElec、activePower、reactivePower、demandActivePower、maxDemandActivePower、activeElectricity、powerFactor这些指标分别分为了三相,即A,B,C三相。
1.1.2国网电力侧提供的电力数据
总用电情况从国网电力侧获取,目前国网电力侧能够提供工商业用电的15分钟粒度的总用电情况数据,主要包括15分钟电流、电压、电表示值、有功功率、无功功率、功率因数等数据。
1.1.3气象数据
经调研发现,实际用电情况和气温有很大的关系,比如冬天温度下降,取暖设备就要开启,而其他季节取暖设备都是关停的状态,夏天温度较高,制冷设备——中央空调会在最热的时候开启,温度下降后就不再使用。所以该项目中我们还引入了气象数据——温度。
1.2.数据质量
数据分析的前提就是数据的质量,数据质量分析的主要任务就是检查数据中是否存在脏数据,脏数据即不符合要求以及不能直接进行相关分析的数据,脏数据包括缺省值、异常值、不一致的值、重复数据以及含有特殊符号的数据。本发明数据质量分析按照数据来源分别分析。
1.2.1用户侧物联网传感器数据
传感器测量的数据也会存在脏数据,如测量的功率值或者电量值不在正常范围内,出现负值等,这样的数据需要进行清洗,具体处理方式见数据预处理部分。总功率数据在设备功率值大于0的情况下不可能为0,所以这样的数据也被认为是脏数据,处理时根据脏数据出现的时间戳进行处理,如果连续多个时间戳总功率值为0,则直接删除这部分数据。
1.2.2国网电力侧的电力数据
国网电力侧提供的15分钟数据是以宽表形式呈现,且数据在拿到之前对部分数值已经做过校验,但是空值并没有处理,在电量预测模型中,直接将缺失电表示值数据做删除处理,因为这样处理对模型的训练没有多大的影响。
1.2.3气象数据
气象数据只选择了温度数据,选择与电表示值数据时间跨度相同的小时温度数据,数据中存在一部分缺失值和异常值,异常值即超出了室外温度正常范围的值,用999999标记为异常,并将异常数据直接删除。
1.3.数据预处理
数据预处理部分根据三种数据来源依次进行。
1.3.1量测数据预处理
传感器当前有8个回路,每个回路有3个槽口,如果某个用电设备是三相电设备,那么该设备就占一整个回路的3个槽口,所以该设备就会有A,B,C三相电的数据,如果用电设备是单相设备,那么一个回路上可以接多个设备,一般就接两个设备,但是在合相测量指标上,同一个回路的合相测量指标是这个回路上所有分相的和,所以需要按照实际情况用分相的测量值替换合相的测量值。
1.3.1.1提取数据
因为传感器测回的数据是8个回路24个槽口都有数据,但是实际情况是有些槽口的数据是无效的,所以需要根据给出的设备列表,以及设备对应的槽口来提取数据。
1.3.1.2单相电设备合相测量值替换
单相电设备需要用分相的值替换合相的值,如有功功率,用activePower的值替换fitActivePower的值。替换之后删除不需要的字段,保留的字段有:elec,fitActivePower,fitActiveElec,powerFactor,dateTime,slot。
1.3.1.2删除重复数据
根据设备列表将槽口标号用设备标号替换,然后对于不同的测量指标,将数据转化成宽表形式,转化成宽表,数据转置,设备编号重复的数据去重,并删除含有空值的数据,最后数据剩余29768行。因为数据都是小数且较小,所以所有设备的数据都乘以100,这样就达到整数化的目的。
1.3.2电力数据预处理
电力公司提供的数据是15分钟周期的电表数据,为了防止电表被烧坏,电表中安装了互感器设备,有电流互感器和电压互感器,所以电流和电压以及电表示值数据的真实值都需要乘以一个互感器倍率。
并且电力公司提供的电表示值数据是每个时刻电表上面的值,该值是一个累加值,实际应用中需要做差分计算
1.3.2.1剔除无效字段
功率数据表、电压数据表、电流数据表、电表示值数据表等中含有多个指标,但是我们只关注对我们有用的字段,其余字段全部剔除。
1.3.2.2条件删选数据
根据电表示值数据中的CONS_NO、ID、DATA_TYPE筛选数据,DATA_TYPE=1(选择有功电能数据),CONS_NO根据需要处理的站点做相应的选择,ID是和CONS_NO对应的,一个CONS_NO可能会有超过一个的电表编号ID,则该用户的用电量是多个电表测量电量的加和。
功率数据中根据CONS_NO、ID、DATA_TYPE筛选数据,DATA_TYPE=1(选择有功功率),CONS_NO根据需要处理的站点做相应的选择。如上所述,对应多个电表就将多个电表的值求和。
1.3.2.3宽表数据转换成窄表数据
将电表示值数据以及有功功率数据的宽表形式转化为窄表形式,原来的数据是将每个时间点设置成一个字段存储数据。
现将R1到R96(功率数据是P1到P96)的列名用具体的时刻值替换,并进行列转行操作,将宽表转化成窄表,合并日期列和时刻列生成新的时间列,然后根据时间排序。
1.3.2.4数据转换
电表中装有互感器设备,所以实际的用电量需要在电表示值的基础上乘以综合倍率,查看数据得到城西站的电表的综合倍率为300,计算方式如下:
累计用电量=电表示值×300
实际有功功率=有功功率值×300
又因为用电量是累计用电量,所以需要对15分钟数据做一个一阶差分,得到的数据才是每15分钟真实的用电量。
1.3.2.5数据重采样
在对用电特征进行分析时,发现15分钟的用电量数据成锯齿状分布,很难发现有价值的信息,即很难准确的知道每个15分钟内具体使用的电量,将数据整理到小时粒度上,即重采样数据,以小时为频率。
1.3.2.6异常值处理
利用四分位法检测异常值点,并将异常值用上下值替换(前提:数据按照时间排序)。
1.3.2.7空值数据处理
该项目中直接将空值数据行进行记录删除处理。
1.3.3温度数据预处理
温度数据预处理过程包括剔除无效字段、异常值处理和空值处理。有效字段主要为:OBSERVERTIME、TEM;异常值包括那些超出正常范围的值,比如温度小于-50,大于100的数据以及非数值型数据都是异常值数据,在该项目中温度异常值用上下值替换,空值数据与电力数据预处理的过程中空值的处理方式一致,直接删除温度值为空的行。
1.3.4数据合并
根据时间戳将预处理后的电力15分钟有功功率数据和物联网测量的设备功率数据合并。合并前需要提取设备数据的15分钟功率数据。合并完后数据剩余3706条记录。
根据时间戳将处理后的小时电量数据与小时温度数据进行合并。
二、数据探索
2.1数据分布分析
观测点选择潜泵、中央空调、雨棚灯带、厨房插座、综合办公插座、大立牌灯箱和进出口灯箱。
2.2多维统计分析
国网电力公司提供的数据中包含了加油站点的月度用电量以及月度电费数据,根据这些数据统计分析加油站季度、季节、月度、天、小时等粒度用电变化情况和设备用电情况,分析的站点选择观测点加油站数据。
2.3数据分析结论
用电量与季节有着密切的关系,冬春季节由于温度低,用电量和电费处于用电高峰,夏秋季节用电量和电费情况比高峰用电时段低很多,这是因为加油站所处地理位置原因,导致冬季温度很低,需要取暖设备供暖导致。
设备用电方面,形象光源设备即雨棚灯、雨棚灯带和大立牌灯箱+进出口灯箱这些设备在夜晚是需要处于一直开启的状态,且这些设备都属于简单开关型设备,一旦开启后功率不会发生大的变化。但是像厨房插座和综合办公插座设备等组合设备实际可以和潜泵设备一样看做是24小时常开设备,且它们有多个运行状态,但是这些设备的高功率状态每一天的维持时间基本是固定的,比如厨房插座设备在10:00到13:00和15:45到18:00这两个时间段内达到高峰用电,其他时间的功率基本都在70~80W之间。
三、模型构建
3.1基于GBDT的电负荷分解模型
3.1.1算法选择
本发明针对工业使用电能的情况进行能耗分析以期达到节约电能损耗的目的,电网公司能够提供专变用户每15分钟采集一次的电能信息,所以模型选择低频稳态特征进行构建。特征选择有功功率以及时间属性,算法选择混合模型算法进行建模,将负荷分解需求分解成两部分:负荷状态识别和负荷功率分解,状态识别部分采用lightGBM方法,负荷功率分解部分选用GBDT方法,电负荷分解模型流程图如图2所示。
该模型需要低频采样的总负荷有功功率数据实现负荷分解,对于不同的用电设备,分别构建机器学习模型并对其进行训练,不同用电设备所对应的模型框架完全相同,但是模型中的参数,如树的最大深度,学习率,训练次数等参数不同。
模型主要分为两部分:负荷运行状态识别和负荷功率分解,负荷运行状态识别部分采用提升树的一种方法——lightGBM,具体原理如下:
LightGBM是由微软提供的针对梯度提升决策树(Gradient Boosting DecisionTree,GBDT)的改进算法,具有内存使用低、训练速度快和准确率高等优点。LightGBM算法抛弃传统GBDT算法按层生长(level-wise)的决策树生长策略,采用带有深度限制的按叶子生长(leaf-wise)策略。Leaf-wise策略分裂叶子结点的过程如图3所示,每次从当前所有叶子中找到分裂增益最大的一个叶子,然后分裂,如此循环。这样做可以在相同分裂次数情况下得到误差更低,性能更好的决策树,但是也容易长出深度较深的决策树导致过拟合,所以会增加一个决策树深度限制来防治过拟合的出现。
此外,相较于传统的GBDT算法,LightGBM算法更加高效,主要是因为采用直方图算法(Histogram Algorithm)、单边梯度采样算法(Grandient-based One-Side Samlping,GOSS)和互斥特征绑定,Exclusive Feature Bundling(EFB)。
直方图算法的思想是将连续浮点型的特征值用K个整数来离散化表示,并为样本集合的每一个特征用宽度为K的直方图来统计数据信息,最后直方图里的信息会被用来计算分裂增益,从而选出增益最大的特征和分割点。特征直方图化的过程如图4所示,这样做可以使得LightGBM在计算分裂增益上的时间开销从O(样本数×特征数)减少到O(K×特征数),大幅提升算法训练效率。
直方图算法有几个需要注意的地方:
①使用bin替代原始数据相当于增加了正则化;
②使用bin意味着很多数据的细节特征被放弃了,相似的数据可能被划分到相同的桶中,这样的数据之间的差异就消失了;
③bin数量选择决定了正则化的程度,bin越少惩罚越严重,欠拟合风险越高。
Histogram算法并不是完美的。由于特征被离散化后,找到的并不是很精确的分割点,所以会对结果产生影响。但在实际的数据集上表明,离散化的分裂点对最终的精度影响并不大,甚至会好一些。原因在于decision tree本身就是一个弱学习器,采用Histogram算法会起到正则化的效果,有效地防止模型的过拟合。
GOSS算法的改进在于仅适用部分训练样本来估算整个训练样本的分裂增益,从而提升LightGBM的训练速度。假设存在一个训练样本集S={x1,x2,…,xn},特征维度为m,每次梯度迭代中,训练样本集S对模型输出的负向梯度记为{g1,g2,…,gn}。GOSS算法会先对训练样本集S的梯度绝对值进行降序排列,然后选取前a×100%梯度绝对值较大的样本作为一个新的子集A;剩余的后(1-a)×100%梯度绝对值较小的样本集合记为Ac,并从中随机采样b×|Ac|个样本作为子集B;最后使用样本集合A∪B来计算信息增益估计值
Figure BDA0003515155850000111
并根据该增益值来进行分割点的选择。
Figure BDA0003515155850000112
的定义如下公式所示:
Figure BDA0003515155850000113
公式中,Al={xi∈A:xij≤d},Ar={xi∈A:xij>d},Bl={xi∈B:xij≤d},Br={xi∈B:xij>d},分别表示子集A中样本在第j个特征上特征值小于等于d的样本的集合,大于d的样本集合以及子集B中样本在第j个特征上特征值小于等于d的样本集合,大于d的样本集合;而乘上系数(1-a)/b是为了让子集B的梯度和尽可能接近Ac。GOSS算法的这种抽样方式不仅可以减少计算资源的消耗和提升训练速度,还可以在不损失过多训练精度的同时提高模型的泛化能力。
GOSS是一种在减少数据量和保证精度上平衡的算法。GOSS是通过区分不同梯度的实例,保留较大梯度实例同时对较小梯度随机采样的方式减少计算量,从而达到提升效率的目的。
EFB(从减少特征角度):捆绑互斥特征,也就是他们很少同时取非零值(也就是用一个合成特征代替)。通常真实应用中,虽然特征量比较多,但是由于特征空间十分稀疏,是否可以设计一种无损的方法来减少有效特征呢?特别在稀疏特征空间上,许多特征几乎是互斥的(例如许多特征不会同时为非零值,像one-hot),我们可以捆绑互斥的特征。最后,我们将捆绑问题归约到图着色问题,通过贪心算法求得近似解。
实际上大多数机器学习工具都无法直接支持类别特征,一般需要把类别特征,转化one-hotting特征,降低了空间和时间的效率。而类别特征的使用是在实践中很常用的。基于这个考虑,LightGBM优化了对类别特征的支持,可以直接输入类别特征,不需要额外的0/1展开。并在决策树算法上增加了类别特征的决策规则。
所以在特征选择过程中,除了总有功功率的特征值外,还选择了时间特征,即某个时刻所在的小时数据,将用户用电的时间概率分布特征也融入到模型中。
用户的用电行为习惯很大程度上决定了用电设备的使用情况,其中最关键的信息就是用电设备的工作时间,提取用电设备的工作时间概率分布可以提高分解算法的分解准确度。
用电设备的工作状态根据用电设备类型不同分类也不同,不同用电设备的运行状态个数不同。
④负荷功率值分解
利用时间特征和总有功功率特征对某个时刻某设备进行负荷状态识别之后,就需要根据这个状态结果与总有功功率值分解某设备在该时刻的功率值。此处采用GBDT的回归方法实现负荷功率值分解。
GBDT全称为Gradient Boosting Decision Tree,梯度提升决策树,它属于boosting算法家族的一员,Boosting是一族可将弱学习器提升为强学习器的算法,属于集成学习(ensemble learning)的范畴,Boosting方法基于这样一种思想:对于一个复杂任务来说,将多个专家的判断进行适当的综合所得出的判断,要比其中任何一个专家单独的判断要好。
基于梯度提升算法的学习器叫做GBM(Gradient Boosting Machine)。理论上,GBM可以选择各种不同的学习算法作为基学习器。GBDT实际上是GBM的一种情况。
梯度提升方法倾向于选择决策树作为基学习器是因为决策树可以认为是if-then规则的集合,易于理解,可解释性强,预测速度快。同时,决策树算法相比于其他的算法需要更少的特征工程,比如可以不用做特征标准化,可以很好的处理字段缺失的数据,也可以不用关心特征见是否相互依赖等。决策树能够自动组合多个特征。
GBDT的基函数为CART树,即将回归树应用到GBM中。假设ART树为g(X),它将样本空间划分了J个区域,在预测过程中会判断样本落入哪块区域Rj中,并输出落入区域的固定值cj作为预测结果,具体如下:
Figure BDA0003515155850000131
根据梯度提升方法,每次新添加的基学习器与权重就变成了:
Figure BDA0003515155850000132
CART树mse作为训练指标,以贪心的方式挑选出最佳分裂属性、划分值形成结点。
算法的流程如下:
第m次迭代:
1、对每一个样本点计算对应的伪残差,构成新的数据集
Figure BDA0003515155850000141
Figure BDA0003515155850000142
2、以新的数据集去训练一棵CART树作为gm(X);
3、计算gm(X)的叶子结点区域Rmj的最佳系数γmj
Figure BDA0003515155850000143
4、完成当前迭代的计算,
Figure BDA0003515155850000144
单独使用决策树算法时,有容易过拟合的缺点,所幸的是通过各种方法,抑制决策树的复杂相,降低单颗决策树的拟合能力,再通过梯度提升的方法集成多个决策树,最终能够很好地解决过拟合问题,由此可见,梯度提升方法和决策树学习方法可以互相取长补短,是一对完美的搭档。至于抑制单颗决策树的复杂度的方法有很多,比如限制树的最大深度、限制叶子节点的最少样本数量、限制节点分裂时的最少样本数量、吸收bagging的思想对训练样本采样(subsample),在学习单颗决策树时只使用一部分训练样本、借鉴随机森林的思路在学习单颗决策树时只采样一部分特征、在目标函数中添加正则项惩罚复杂的树结构等。
⑤模型评估指标
选择分类模型的评价指标评估模型,并且在此基础上自定义“日电量相对误差”指标进一步评估指标。分类模型的评估指标有查准率(precision)、查全率(recall)和F1分数,具体计算方法如下所示:
Figure BDA0003515155850000145
Figure BDA0003515155850000146
Figure BDA0003515155850000151
Figure BDA0003515155850000152
其中,PRE是准确度,即查准率,REC为召回率,即查全率,F1代表F1分数;TP表示用电设备实际处于工作状态且模型分解结果也为工作状态的序列总数;FP表示用电设备实际处于工作状态但是模型分解结果为非工作状态的序列点总数;FN表示用电设备实际未工作但模型分解结果为在工作状态的序列点总数;yt为t时刻用电设备真实功率;y~t为t时刻模型分解功率,MAE为时间段T0到T1内功率分解值的平均绝对误差。
PRE、REC及F1分数可以反映模型判断用电设备是否处于工作状态的准确度,是负荷分解的基本指标。MAE可以反映模型每时刻分解功率值的准确性,其值越低,则功率分解值的准确性越高,这也是目前该模型最亟待提升的指标之一。
自定义评价指标——日电量相对误差的计算如下所示:
Figure BDA0003515155850000153
真实日电量为0值时,上式计算结果为无穷大,调整过的日电量相对误差计算公式如下:
Figure BDA0003515155850000154
3.1.2样本选择
由于电力公司提供的总有功功率数据与传感器测量的设备的有功功率数据的采集时间点不一致,所以选择传感器测量的总的有功功率数据与传感器测量的设备的有功功率数据进行模型训练。
电力公司提供的总有功功率数据的频率为15分钟一条数据,传感器的测量数据频率为平均1分钟一条数据,所以利用传感器数据进行训练模型前,需要将数据进行重采样,即提取15分钟周期的数据进行训练。模型训练好后使用电力提供的15分钟总有功功率数据进行测试,模型输入某个时刻的总有功功率值以及这个时刻所在的小时值,模型第一阶段输出为设备在该时刻的运行状态(0关闭,1开启),模型第二阶段输入为上一阶段得到的运行状态结果以及该时刻总有功功率值,输出为设备在该时刻的分解功率值。
3.1.3参数训练
lightGBM算法的参数需要训练的主要有限制树的最大深度、限制叶子节点的最少样本数量、学习率、正则项系数(L1,L2)、限制节点分裂时的最少样本数量、吸收bagging的思想对训练样本采样(subsample)。
四、模型应用
4.1基于GBDT的电负荷分解模型
4.1.1应用场景
本发明选择中国石油金昌分公司——城西加油站为应用场景,该站点有四个加油机,一个营业室及综合办公室等。由于没有历史的设备用电数据,所以卡扣式电流互感器、交流支路电量监测仪、数据发送设备DTU等对金昌市城西加油站的部分用电设备进行量测。共测量了配电箱中的14组设备,变电室中的3组设备,但是由于采集状态安装期间中央空调使用频率很低,导致可用数据极少,且一些设备的用电量极小,如卫生间、便利店插座、餐台插座等设备用电量极小,只占配电箱总电的0.22%。冰柜设备从采集数据开始功率值就一直为140W,也不做分解,咔咔汽服在数据采集期间打开的次数很少,暂时不考虑,所以最后分解的只有9组设备,即潜泵、雨棚灯带、厨房插座、综合办公插座、大立牌灯箱+进出口灯箱、UPS电源、休息室插座、雨棚灯、锅炉房。
该模型需要在前期根据历史数据训练出一个模型,模型输入的是总有功功率和时间数据,输出为每个设备的有功功率值。在实际使用过程中,由于传感器测量的数据保留了2为小数,单位是KW,所以数据统一乘以100,转化成整数,此时功率单位为:十瓦。训练过程中总功率数据采用传感器15分钟总功率数据,模型训练好后,使用电力15分钟数据进行测试及应用。
4.1.2应用结论
基于深度学习的电负荷模型在城西站点上的应用,使得用户不再只是了解每个月的用电量,通过这个模型,用户可以了解到每个设备在每个时间段内的具体用电量,以及每个设备的用电时长,然后通过联合业务数据,从而判断出设备用电是否属于正常使用范围,且根据用电设备的使用情况,制定合理的用电计划。
将训练好的电负荷分解模型应用到测试数据集中,查看其运行状态和日电量相对误差变化:从电表采集的15分钟总有功功率数据中分解9个设备的结果的评价如下表所示,大多数设备的F1值评价指标可以达到85%,平均日电量相对误差也基本在10%以下,最小的可以达到2.06%。
设备名称 PRE REC F1分数 MAE 平均日电量相对误差
潜泵 85.11% 83.96% 83.83% 60.53 8.76%
雨棚灯带 96.42% 96.70% 96.70% 3 2.21%
厨房插座 68.00% 87.26% 89.62% 13.83 43.75%
综合办公插座 51.35% 79.72% 79.19% 2.48 9.53%
大立牌灯箱+进出口灯箱 96.92% 96.93% 96.93% 8.26 7.57%
UPS电源 62.91% 81.37% 80.39% 1.942 1.72%
休息室插座 71.14% 71.43% 71.24% 51.12 16.37%
雨棚灯 96.53% 96.46% 96.45% 2.493 2.06%
锅炉房 97.75% 97.26% 97.24% 48.82 8.5%
从使用场景中发现,对于简单的设备,模型的分解准确率极高,但是对于复杂设备且是组合设备,模型的精度并没有简单设备的精度高,因为复杂设备的稳定功率状态比较多,需要有更多的数据来训练模型,所以复杂的设备分解需要更多数据来训练模型,目前模型采用两个月的数据进行训练,在之前的数据分析中我们也提到了用电量与温度有关,即有些设备的使用与季节有关,我们采集的数据只涵盖了一个季节,所以对于复杂模型的解释度就会降低一些。
以上对本发明实施例所提供的技术方案进行了详细介绍,本文中应用了具体个例对本发明实施例的原理以及实施方式进行了阐述,以上实施例的说明只适用于帮助理解本发明实施例的原理。

Claims (5)

1.一种基于梯度提升算法的工业用电非侵入负荷分解方法,其特征在于,包括以下步骤:
S1:数据准备:获取国网公司电表测量的总电力数据;
S2:数据预处理:对步骤S1中获取的总电力数据进行清洗,剔除总电力数据中的异常数据,并对经过预处理的总电力数据进行合并;
S3:数据分布分析:对剔除异常数据的总电力数据进行分析,确定用电设备和用电情况,得到模型数据;
S4:模型构建:选择算法,根据算法和模型数据搭建能耗减排模型,利用模型实现总电力数据的分解,并根据分解数据实现构建模型的评估;
S5:模型训练预测:根据用电设备不同,分别构建能耗减排模型并对其进行训练,并选择电力数据样本进行电量预测;
S6:模型验证调优:根据预测结果,对构建的能耗减排模型进行调整优化,重复步骤S5-S6,直至构建的能耗减排模型预测精度达到要求。
2.根据权利要求1所述的一种基于梯度提升算法的工业用电非侵入负荷分解方法,其特征在于:所述步骤S4中采用lightGBM回归算法实现各用电设备的功率值分解。
3.根据权利要求1所述的一种基于梯度提升算法的工业用电非侵入负荷分解方法,其特征在于:所述步骤S5中采用lightGBM回归拟合的方法对不同用电设备的历史日电量分别进行拟合训练模型来计算每日电量消耗。
4.根据权利要求1所述的一种基于梯度提升算法的工业用电非侵入负荷分解方法,其特征在于:所述步骤S6中分类模型的评估指标包括查准率、查全率和F1分数,具体计算方法如下:
Figure FDA0003515155840000011
Figure FDA0003515155840000021
Figure FDA0003515155840000022
Figure FDA0003515155840000023
其中,PRE是准确度,即查准率,REC为召回率,即查全率,F1代表F1分数;TP表示用电设备实际处于工作状态且模型分解结果也为工作状态的序列总数;FP表示用电设备实际处于工作状态但是模型分解结果为非工作状态的序列点总数;FN表示用电设备实际未工作但模型分解结果为在工作状态的序列点总数;yt为t时刻用电设备真实功率;
Figure FDA0003515155840000024
为t时刻模型分解功率,MAE为时间段T0到T1内功率分解值的平均绝对误差。
5.根据权利要求1所述的一种基于梯度提升算法的工业用电非侵入负荷分解方法,其特征在于:所述步骤S6中自定义评价指标是采用平均日电量相对误差来反映设备的日电量消耗估计的准确度,日电量相对误差的计算公式如下:
Figure FDA0003515155840000025
真实日电量为0值时,上式计算结果为无穷大,调整过的日电量相对误差计算公式如下:
Figure FDA0003515155840000026
CN202210163779.3A 2022-02-22 2022-02-22 一种基于梯度提升算法的工业用电非侵入负荷分解方法 Withdrawn CN114662563A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210163779.3A CN114662563A (zh) 2022-02-22 2022-02-22 一种基于梯度提升算法的工业用电非侵入负荷分解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210163779.3A CN114662563A (zh) 2022-02-22 2022-02-22 一种基于梯度提升算法的工业用电非侵入负荷分解方法

Publications (1)

Publication Number Publication Date
CN114662563A true CN114662563A (zh) 2022-06-24

Family

ID=82027725

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210163779.3A Withdrawn CN114662563A (zh) 2022-02-22 2022-02-22 一种基于梯度提升算法的工业用电非侵入负荷分解方法

Country Status (1)

Country Link
CN (1) CN114662563A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117134480A (zh) * 2023-10-26 2023-11-28 常州满旺半导体科技有限公司 一种基于大数据分析的电源调节监测系统及方法
CN117151243A (zh) * 2023-08-23 2023-12-01 赛力斯汽车有限公司 蓄电池低压预测模型的训练方法、预测方法、装置和介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117151243A (zh) * 2023-08-23 2023-12-01 赛力斯汽车有限公司 蓄电池低压预测模型的训练方法、预测方法、装置和介质
CN117134480A (zh) * 2023-10-26 2023-11-28 常州满旺半导体科技有限公司 一种基于大数据分析的电源调节监测系统及方法
CN117134480B (zh) * 2023-10-26 2024-01-12 常州满旺半导体科技有限公司 一种基于大数据分析的电源调节监测系统及方法

Similar Documents

Publication Publication Date Title
CN110097297B (zh) 一种多维度窃电态势智能感知方法、系统、设备及介质
Rashid AMI smart meter big data analytics for time series of electricity consumption
CN114662563A (zh) 一种基于梯度提升算法的工业用电非侵入负荷分解方法
CN112149873A (zh) 一种基于深度学习的低压台区线损合理区间预测方法
CN115545119B (zh) 一种用电数据的识别方法、系统及应用
JP2006011715A (ja) 資源消費量の推定方法及び装置
CN112633924A (zh) 一种基于负荷分解的小区电能替代需求分析方法
CN107862459B (zh) 一种基于大数据的计量设备状态评估方法及系统
CN115907822A (zh) 一种考虑区域及经济影响的负荷特征指标关联性挖掘方法
Fontanini et al. A data-driven BIRCH clustering method for extracting typical load profiles for big data
CN106327359A (zh) 一种基于用电模式分析的集抄数据异常判定方法
CN116402187A (zh) 一种基于电力大数据的企业排污预测方法
CN115409120A (zh) 一种基于数据驱动的用户窃电行为检测辅助方法
CN115600722A (zh) 企业电碳因子长期预测方法
CN106651093A (zh) 一种用于低压集抄系统的智能复核管控方法
CN113837473A (zh) 基于bp神经网络的充电设备故障率分析系统和方法
CN113536205A (zh) 低压台区用能优化潜力评价方法及用能优化台区筛选系统
WO2022041265A1 (zh) 一种面向电动汽车电力用户大数据服务方法
CN111489270A (zh) 一种以线路为单元的配网停电敏感度评价方法
CN116662860A (zh) 一种基于能源大数据的用户画像与分类方法
CN113837486B (zh) 一种基于rnn-rbm的配网馈线长期负荷预测方法
CN107194529B (zh) 基于挖掘技术的配电网可靠性经济效益分析方法及装置
CN114168662A (zh) 一种基于多数据源的配电网问题梳理分析方法及系统
CN112613670A (zh) 一种基于权重分配预测电力用户需量的装置及方法
Ye et al. Short term output prediction method of runoff type medium and small hydropower stations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20220624