CN116596136A - 一种基于双预测误差的用电异常实时检测方法 - Google Patents
一种基于双预测误差的用电异常实时检测方法 Download PDFInfo
- Publication number
- CN116596136A CN116596136A CN202310542733.7A CN202310542733A CN116596136A CN 116596136 A CN116596136 A CN 116596136A CN 202310542733 A CN202310542733 A CN 202310542733A CN 116596136 A CN116596136 A CN 116596136A
- Authority
- CN
- China
- Prior art keywords
- lstm
- layer
- model
- period
- decomposition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005856 abnormality Effects 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000011897 real-time detection Methods 0.000 title claims description 7
- 230000005611 electricity Effects 0.000 claims abstract description 118
- 239000013598 vector Substances 0.000 claims abstract description 71
- 238000007637 random forest analysis Methods 0.000 claims abstract description 33
- 238000000605 extraction Methods 0.000 claims abstract description 25
- 230000002159 abnormal effect Effects 0.000 claims abstract description 19
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 12
- 210000002569 neuron Anatomy 0.000 claims description 41
- 238000012549 training Methods 0.000 claims description 36
- 230000001932 seasonal effect Effects 0.000 claims description 24
- 230000001419 dependent effect Effects 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 7
- 230000006403 short-term memory Effects 0.000 claims description 7
- 238000010438 heat treatment Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 239000002131 composite material Substances 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000036962 time dependent Effects 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 claims description 2
- 238000005259 measurement Methods 0.000 claims 1
- 238000001514 detection method Methods 0.000 abstract description 9
- 238000010276 construction Methods 0.000 abstract description 5
- 238000002474 experimental method Methods 0.000 description 16
- 238000005265 energy consumption Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 3
- 230000036961 partial effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 101001095088 Homo sapiens Melanoma antigen preferentially expressed in tumors Proteins 0.000 description 1
- 102100037020 Melanoma antigen preferentially expressed in tumors Human genes 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 229910052799 carbon Inorganic materials 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000003595 mist Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Economics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Resources & Organizations (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Mathematical Physics (AREA)
- General Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Marketing (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Operations Research (AREA)
- Primary Health Care (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Quality & Reliability (AREA)
- Molecular Biology (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于用电异常检测技术领域,公开了一种基于双预测误差的用电异常实时检测方法。设计一种名为分解‑合成‑LSTM的用电量预测模型,该模型以LSTM网络为基础,通过嵌入序列分解模块与隐向量提取模块增强用电时序的平稳性与可预测性,进而提高LSTM模型预测建筑用电量的精度;通过一种基于随机森林的用电量预测模型与相应的输入特征构造方法;设计一种基于双预测误差的用电异常判别方法,该方法融合分解‑合成‑LSTM用电量预测误差与随机森林用电量预测误差计算用电异常得分,通过比较异常得分与预先设置的阈值的大小关系判别用电异常。本发明可以区分正常用电数据和异常用电数据,提升用电管理效率。
Description
技术领域
本发明涉及用电异常检测技术领域,尤其涉及一种基于双预测误差的用电异常实时检测方法。
背景技术
异常用电行为的实时检测是能源管理的重要内容,对节能减排,“双碳”目标的实现具有重要意义。近年来,大量建筑能耗监测管理系统的建立为实时发现用电异常提供了重要的数据支撑,然而传统方法无法挖掘海量数据中的潜在信息,导致建筑用电数据的应用局限于简单的数据统计,不能通过数据发现异常用电情况。如何使用新兴的机器学习方法挖掘海量用电数据中的有用信息,及时发现用电异常数据成为目前耗能建筑管理中亟待解决的问题。
当前,常用的基于机器学习的实时建筑用电异常检测方法为基于预测的方法。基于预测的方法是训练出用电预测模型后,对目标值进行预测,根据预测值与真实值的偏差大小来判断是否为异常,因此挖掘用电量与其他因素的相关关系并建立高精度的预测模型是至关重要的。在影响因素上,用电量既有时序依赖性,即当前用电量与历史用电量高度相关,也有特征关联性,即与时间、天气等外部因素相关。由此,从模型考虑的影响因素上划分,用电量预测模型分为基于时序依赖的预测模型与基于特征关联的预测模型。
在基于时序依赖的预测模型中,常用的基础模型为LSTM及其变体(如GRU),但实验楼用电时序具有非平稳性,而LSTM对非平稳时序的预测效果不如对非平稳时序的预测效果。针对这一问题,“Chou S Y,Dewabharata A,Zulvia F E,et al.Forecasting BuildingEnergy Consumption Using Ensemble Empirical Pattern Decomposition,WaveletTransformation,and Long Short-Term Memory Algorithms[J].Energies,2022,15(3):1035.”中使用小波变换与经验模式分解对原始序列进行分解,使分解后的子序列具有更高的平稳性,最后使用LSTM对分解后的各序列分别进行预测,效果优于直接使用原始序列进行预测。但这种方法存在“数据泄露”问题,数据泄露又名特征穿越,指的是在建模过程中的数据收集、处理时不小心将未来信息引入到训练集中。当把未来信息引入到训练集中时,模型训练的效果往往非常好,但真实的预测效果会大打折扣。若将序列分解作为数据预处理步骤,那么除最后一个数据外,对任何时间点数据的分解必然会使用到这个时间点之后的信息,虽然在离线情境下能取得更高的精度,但在实时应用中是与现实情况相矛盾的。目前还未有用电量预测研究针对数据泄露问题对此种方法进行改进。
在基于特征关联的预测模型中,常用的基础模型为树模型(如决策树)以及集成的树模型(如随机森林、XGBoost)等。不同的应用场景下模型的特征构造也不尽相同,常见的特征有天气、时间、历史用电量等。高校实验楼的用电特征具有特殊性,如受是否在学期中、是否供暖等因素的影响,因此无法直接使用其他场景下的特征构造方法,并且目前未有针对高校实验楼的特征构造的方法。
基于时序依赖的预测模型与基于关联特征的预测模型从不同的角度对用电量进行建模,因此在检测用电异常上二者都具有重要的、不可相互替代的参考价值。现有技术方法多是只根据其中一种预测模型的预测结果对异常进行检测,因此考虑并不全面,漏报率高。
发明内容
本发明要解决的技术问题是针对耗能建筑设计实时用电异常检测方法。为解决这一问题,本发明提供了一种基于双预测误差的用电异常实时检测方法,实现对检测建筑用电量的自动实时异常检测。
本发明的技术方案如下:一种基于双预测误差的用电异常实时检测方法,包括步骤如下:
步骤(1)、基于时序依赖预测用电量;
建立分解-合成-LSTM模型,通过用电量历史大数据优化分解-合成-LSTM模型参数,训练好的分解-合成-LSTM模型对待检测时段的用电量进行预测;
步骤1.1:用电量历史数据预处理;
获取目标建筑的历史用电量数据,删除无效零值,遍历所有历史时段;对于每一时段i,该时段及与之相连的L个历史时段的用电量数据皆为有效值时,则使用该时段用电量及与之相连的L个历史时段的用电量组成一条数据,否则,跳过该时段;长度为L的历史用电量时序为特征变量数据,该时段用电量/>为目标变量数据;所有满足上述条件的特征变量-目标变量数据对共同组成数据集,将数据集打乱排序,按比例分为训练集和测试集;
步骤1.2:训练分解-合成-LSTM模型;
所述分解-合成-LSTM模型包括序列分解模块、隐向量提取模块和双通道预测模块;模型输入为即过去L个时段内的用电时序,模型输出为与/>与/>为当前时段用电量的预测值;
随机初始化分解-合成-LSTM模型各网络参数;在训练集数据上使用自适应矩阵估计ADAM调整网络参数使损失函数Ltotal最小化,在达到最大迭代次数后停止训练,使用测试集数据判断分解-合成-LSTM模型有效性,获得训练好的分解-合成-LSTM模型;
所述网络参数有
步骤1.3:训练好的分解-合成-LSTM模型预测待检测时段的用电量;
获取待检测时段j之前L个时段的用电量数据,组成特征向量将输入分解-合成-LSTM模型,训练好的分解-合成-LSTM模型输出为待检测时段用电量的基于时序依赖预测值/>
步骤(2)、基于特征关联预测用电量;
步骤2.1:关联特征数据预处理;
获取目标建筑的历史用量数据,删除无效零值,遍历所有时段,对于每一个时段i,获取该时段的各输入特征的原始数据,构造该时段的输入特征变量向量该时段用电量/>为目标变量数据;所有满足上述条件的特征变量-目标变量数据对共同组成数据集,将数据集打乱排序,按比例分为训练集和测试集;
步骤2.2:训练随机森林模型;
使用步骤2.1中的训练集训练随机森林模型并使用网格搜索优化模型超参数,保留最优超参数下训练出的随机森林模型作为用于预测目标建筑用电量的预测模型;
步骤2.3:使用训练好的随机森林模型预测待检测时段的用电量;
获取待检测时段j的输入特征的原始数据,构造该时段的输入特征变量向量将/>输入随机森林模型,随机森林模型的输出为待检测时段用电量的基于特征关联预测值/>
(3)基于双预测误差判别用电异常;
基于分解-合成-LSTM模型的预测结果计算时序依赖异常得分,基于随机森林模型的预测结果计算特征关联异常得分,融合时序依赖异常得分与特征关联异常得分计算综合异常得分,根据综合异常得分与阈值的大小关系判别是否为异常用电数据;
步骤3.1:设置异常阈值
设定异常阈值θ;
步骤3.1:计算时序依赖异常得分;
根据基于时序依赖预测值果真实用电量/>分解-合成-LSTM模型在训练集数据上的最大百分比误差s_max1,采用时序依赖异常得分计算方法计算时序依赖异常得分/>
步骤3.2:计算特征关联异常得分;
根据基于特征关联预测值真实用电量/>随机森林模型在训练集数据上的最大百分比误差s_max2,计算时序依赖异常得分/>
步骤3.3:计算综合异常得分
根据时序依赖异常得分特征关联异常得分/>计算综合异常得分sj;
步骤3.4:判别异常
当si>θ,θ为异常阈值,i时段的用电量被判别为异常用电;否则,i时段的用电量被判别为正常用电。
所述分解-合成-LSTM模型的具体运行流程如下:输入至分解-合成-LSTM模型后,进入序列分解模块,通过滑动平均分解为季节子序列/> 与趋势子序列/>季节子序列/>的计算公式为趋势子序列/>的计算公式为/>
趋势子序列输入至隐向量提取模块;隐向量提取模块包括堆叠的3层LSTM神经网络、一个回归层、一个加和层,将/>转化为/>的过程中生成隐向量;隐向量提取模块中堆叠LSTM网络的第1层第t个LSTM神经元的输出为:其中,Θ1,t为第1层第t个LSTM神经元的参数;堆叠LSTM网络中第2层第t个LSTM神经元的输出为:/>其中,Θ2,t为第2层第t个LSTM神经元的参数;堆叠LSTM网络中第3层第t个LSTM神经元的输出为:/>其中,Θ3,t为第3层第t个LSTM神经元的参数;即为所求隐向量;将/>输入到回归层中,回归层输出为/>表达式为/>其中,/>为回归层在t时刻的权重,为偏差向量;连接/>与/>组成转换后的季节子序列向量 输入至隐向量提取模块,则隐向量提取模块对第t时刻的最终输出为为整个分解-合成-LSTM模型的第一个输出;分解-合成-LSTM模型在隐向量提取模块的损失函数Lrecon的计算公式为:/>
趋势子序列隐向量与季节子序列/>输入至双通道预测模块;双通道预测模块依次包括堆叠LSTM网络层、回归层、加和层;
将趋势子序列隐向量输入2层堆叠LSTM中;第1层第t时刻的LSTM神经元的输出为:/>其中,/>为双通道预测模块第1层第t个LSTM神经元的参数;第2层第t时刻的LSTM神经元的输出为:其中,/>为第2层第t个LSTM神经元的参数;设/>为第2层LSTM网络在第L时刻的短期记忆,将/>投入回归层得到趋势序列预测值为:/> 其中wt,h为回归层权重,/>为偏差向量;将季节子序列/>投入2层堆叠LSTM中;第1层第t时刻的LSTM神经元的输出为: 其中,/>为双通道预测模块第1层第t个LSTM神经元的参数;第2层第t时刻的LSTM神经元的输出为:其中,/>为第2层第t个LSTM神经元的参数;/>为双通道预测模块第2层LSTM网络在第L时刻的短期记忆,将输入至回归层得到季节序列预测值为:/> 其中ws,h为回归层权重,/>为偏差向量;
季节子序列经过堆叠LSTM与回归层得到季节子序列预测值,趋势子序列经过堆叠LSTM与回归层得到趋势序列预测值/>;将/>与/>相加得到/>作为对下一时刻用电量的预测,/>;双通道预测模块的损失为:/>Lpre越小,模型对用电量的预测能力越强。分解-合成-LSTM模型总损失函数为双通道预测模块损失函数与隐向量提取模块损失函数的和:Ltotal=Lpre+Lrecon。
所述输入特征变量向量根据输入特征确定,所述输入特征包括时、是否为周末、季节、是否为节假日、是否在学期中、气温、特殊天气类型、上一时段的用电量、是否供暖。
基于时序依赖预测用电量是通过分解-合成-LSTM模型挖掘用电量的时序依赖性以达到精准预测用电量的目的;基于特征关联预测用电量是通过构造科学的输入特征集合并使用随机森林模型挖掘用电量与其他因素的特征关联性以达到精准预测用电量的目的;基于双预测误差判别用电异常判别综合考虑时序依赖异常与特征关联异常,检出综合异常得分高于阈值的用电量数值,达到实时检测用电异常的目的。
基于时序依赖预测用电量是计算时序依赖异常得分的基础。基于特征关联预测用电量是计算特征关联异常得分的基础。
本发明的有益效果:
本发明提供一种基于双预测误差的用电异常实时检测方法,可以区分目标建筑中正常用电数据和异常用电数据,提升用电管理效率。
(1)设计一种基于分解-合成-LSTM模型的用电量预测方法,基于时序依赖预测用电量,通过引入序列分解与隐向量提取增强了时间序列的可预测性,提高用电量预测精度并避免了“数据泄露”问题。
(2)设计一种基于随机森林的用电量预测方法与相应的输入特征构造方法,基于特征关联预测用电量,面向目标建筑预测问题有针对性地构造输入特征,以随机森林模型为基础构造其用电量预测模型,提高了预测精度。
(3)设计一种基于双预测误差的用电异常判别方法,兼顾时序依赖异常与特征关联异常,降低了漏报率。
附图说明
图1是基于双预测误差的用电异常实时检测方法框架示意图。
图2是分解-合成-LSTM模型结构示意图。
图3是分解-合成-LSTM模型训练过程示意图。
图4是分解-合成-LSTM在测试集上的预测值与真实值局部对比示意图。
图5是2022年2月17日的用电量折线图。
具体实施方式
以下结合附图和技术方案,进一步说明本发明的具体实施方式。针对用电异常管理,提出了一种基于双预测误差的用电异常实时检测方法,以北方高校实验楼用电数据为例进行了验证。
本发明实施例基于实际的案例——D大学X实验楼,D大学X实验楼是一个综合实验楼,楼内多个实验室由于学科原因配有高耗能设备,是用电安全管理和节电管理的重点对象,因此跟踪该实验楼用电情况并实时判别实验楼是否处于正常运转,对及时排除楼内故障与隐患有重要意义。
如图1所示,本发明设计的一种基于双预测误差的实时高校实验楼用电异常检测方法包括基于时序依赖预测高校实验楼用电量、基于特征关联预测高校实验楼用电量、基于双预测误差判别高校实验楼用电量异常。具体包括以下步骤:
步骤1:基于时序依赖预测目标实验楼待检测时段的用电量
步骤1.1:目标实验楼历史用电量数据预处理
用电量数据来源于该校能耗监测平台中的用电数据,该平台统计的用电来源为整栋大楼的电源开关,因此,照明插座用电、空调用电、动力用电、特殊用电都包含在内。用电量数据的最小粒度为每小时建筑总用电量,用电量单位为kwh。数据的时间跨度为2021年1月1日00:00:00至2022年4月1日00:00:00,部分日期的用电数据为缺失值或无效零值,去除缺失值与无效零值后共9198条数据。其中2021年的数据被用于训练模型,2022年的数据被用于异常检测。扫描2021年的所有时段,对于每一时段i,若该时段及与之相连的24个历史时段的用电量数据皆为有效值,则使用该时段用电量及与之相连的24个历史时段的用电量组成一条数据。长度为24的历史用电量时序为特征变量数据,该时段用电量/>为目标变量数据。所有满足上述条件的特征变量-目标变量数据对共同组成数据集,将数据集打乱排序,取前70%的数据构成训练集,后30%的数据构成测试集。
步骤1.2:训练分解-合成-LSTM模型
根据图2中的模型结构构建分解-合成-LSTM模型,分解-合成-LSTM模型由基于滑动平均的序列分解模块、基于堆叠LSTM的隐向量模块、基于双通道的小时用电量预测模块组成。按照如下方法搭建神经网络:进入模型后首先进入序列分解模块,使用滑动平均技术将其分解为季节子序列/>与趋势子序列的计算公式为的计算公式为投入隐向量提取模块,隐向量提取模块由堆叠的3层LSTM神经网络、一个回归层、一个加和层组成,在将/>转化为/>的过程中生成隐向量,该隐向量随后将被输入双通道预测模块中。隐向量提取模块中堆叠LSTM网络的第1层第t个(t=1,2,…,24)LSTM神经元的输出为:其中,Θ1,t为第1层第t个LSTM神经元的参数。堆叠LSTM网络中第2层第t个LSTM神经元的输出为:/>其中,Θ2,t为第2层第t个LSTM神经元的参数。堆叠LSTM网络中第3层第t个LSTM神经元的输出为:/>其中,Θ3,t为第3层第t个LSTM神经元的参数。即是所求隐向量。将/>输入到回归层中,回归层输出为/>表达式为/> 其中/>为回归层在t时刻的权重,/>为偏差向量。设/> 则隐向量提取模块对第t时刻的最终输出为为整个分解-合成-LSTM模型的第一个输出。趋势子序列隐向量/>与季节子序列/>被投入双通道预测模块。将趋势子序列隐向量/>输入2层堆叠LSTM中,第1层第t时刻的LSTM神经元的输出为:/> 其中,/>为第1层第t个LSTM神经元的参数。第2层第t时刻的LSTM神经元的输出为:其中,/>为第2层第t个LSTM神经元的参数。设/>为第2层LSTM网络在第24时刻的短期记忆,将/>投入回归层得到趋势序列预测值为:/>其中wt,h为回归层权重,/>为偏差向量。将季节子序列/>投入2层堆叠LSTM中。第1层第t时刻的LSTM神经元的输出为:其中,/>为第1层第t个LSTM神经元的参数。第2层第t时刻的LSTM神经元的输出为:/> 其中,/>为第2层第t个LSTM神经元的参数。设/>为第2层LSTM网络在第24时刻的短期记忆,将/>投入回归层得到季节序列预测值为:/>其中ws,h为回归层权重,/>为偏差向量。至此,季节子序列经过堆叠LSTM与回归层得到季节序列预测值/>趋势子序列经过堆叠LSTM与回归层得到趋势序列预测值/>将/>与/>相加得到/>作为对下一时刻用电量/>的预测,/>为模型的第二个输出,
搭建完神经网络后,对模型参数Θ1,t(t=1,2,…,24)、Θ2,t(t=1,2,…,24)、Θ3,t(t=1,2,…,24)、 wt,h、/> 随机初始化,以最小化训练集上的损失函数
ws,h、
为目标使用ADAM算法对上述参数进行更新,迭代次数为76。图3为模型训练过程,Ltotal随迭代次数增加而减小。
训练好的分解-合成-LSTM模型在测试集上的MAPE为5.48%,MAE为3.84,RMSE为5.73。图4是分解-合成-LSTM在测试集上的预测值与真实值局部对比。
步骤1.3:使用训练好的分解-合成-LSTM模型预测待检测时段的用电量
获取待检测时段j之前L个时段的用电量数据,组成特征向量将输入分解-合成-LSTM模型,设模型的第二个输出为/> 即是分解-合成-LSTM模型对待检测时段用电量的预测值。以2022年2月17日16:00到17:00这一时段为例,该时段前24小时的小时用电量数据为[64.7,57.1,57.9,59.4,51.6,53.8,46.6,41.7,37.8,40.7,40.7,37.4,37.6,44,37.9,45,57.7,62.5,69.2,68.6,67.1,63.9,69.9,63.9],将前24小时的小时用电量组成的特征向量输入训练好的分解-合成-LSTM模型中得到模型输出49.89,即对于2022年2月17日16:00到17:00这一时段,基于时序依赖的预测值为49.89。
步骤2:基于特征关联预测高校实验楼用电量
步骤2.1:关联特征数据预处理
用电量数据来源于该校能耗监测平台中的用电数据,气温数据来源于https://www.ecmwf.int/特殊天气类型数据来源于http://www.meteomanz.com。遍历2021年中所有有效时段,对每一个时段i,按照如下方法构造输入特征:在时这一维度上,对一天内的24小时进行分段,分别为23:00到次日6:00、6:00到7:00、7:00到8:00、8:00到9:00、10:00到11:00、11:00到12:00、12:00到13:00、13:00到14:00、14:00到15:00、15:00到16:00、16:00到17:00、17:00到18:00、18:00到19:00、19:00到20:00、20:00到21:00、21:00到22:00、22:00到23:00,共17个时间段,对这17个时间段进行one-hot编码并使用PCA技术将17维向量压缩为3维特征向量用以表征时特征,例如若待检测时段处于23:00到次日6:00间,经过分段、one-hot编码与PCA压缩后该时段在时这一维度上的特征向量为(1.88,0.30,-0.66);在是否为周末这一维度上,若待预测时间段处于周末,则此特征的取值为1,否则,此特征的取值为0;在季节这一维度上,若待预测时间段的日期位于3月1日到6月22日之间,则季节特征向量为(1,0,0,0),若待预测时间段的日期位于6月23日到9月23日之间,则季节特征向量为(0,1,0,0),若待预测时间段的日期位于9月24日到12月23日之间,则季节特征向量为(0,0,1,0),若待预测时间段的日期位于12月24日到3月22日之间,季节特征向量为(0,0,0,1),例如3月1日的月特征为(1,0,0,0),6月23日的月特征为(0,1,0,0);在是否为节假日这一维度上,参照当年节假日安排,若待预测时间段处于节假日,则节假日特征取值为1,否则,节假日特征取值为0;在是否为学期中这一维度上,参照D大学校历,若待预测时间段处于学期中,则学期特征取值为1,否则学期特征取值为0;在气温这一维度上,设待预测时间段的平均气温为temperarure,则气温特征取值为|12.5-temperarure|;在特殊天气类型这一维度上,若待预测时间段内有雾,则雾特征取值为1,否则雾特征为0,若待预测时间段内有薄雾,则薄雾特征取值为1,否则为0,若待预测时间段内有雨,则雨特征取值为1,否则为0,若待预测时间段内有小雨,则小雨特征取值为1,否则小雨特征为0,若待预测时间段内有雪,则雪特征取值为1,否则雪特征为0;在上一时段的用电量这一维度上,特征取值为待预测时间段的相邻历史时段的用电量;在是否供暖这一维度上,参照当年当地供暖安排,若待预测时间段处于学校所在地的供暖时间内,则供暖特征为1,否则供暖特征为0。上述特征值构成输入特征变量向量该时段用电量/>为目标变量数据。所有满足上述条件的特征变量-目标变量数据对共同组成数据集,将数据集打乱排序,取前70%的数据构成训练集,后30%的数据构成测试集。
步骤2.2:训练随机森林模型
使用步骤2.1中的训练集训练随机森林模型并使用网格搜索优化模型超参数,待优化的超参数包括预测器数量、最大特征数、最大树深度,预测器数量的取值范围是{30,40,50,60,70,80,90,100},最大特征数取值范围为{2,4,6,8,10,12,14,16,18},最大树深度取值范围为{2,4,6,8,10,12,14,16,18},网格搜索结果显示{max_depth=18,max_features=10,n_estimators=80}为最优超参数,保留最优超参数下训练出的随机森林模型作为用于预测实验楼用电量的预测模型。
步骤2.3:使用训练好的随机森林模型预测预测待检测时段的用电量
获取待检测时段j的输入特征的原始数据,采用步骤2.1中的高校实验楼用电量预测输入特征构造方法构造该时段的输入特征变量向量将输入随机森林模型,设模型的输出为/>即是随机森林模型对待检测时段用电量的预测值。以2022年2月17日16:00到17:00这一时段为例,该时段的输入特征向量为[-0.44,-0.83,0.21,0,0,0,0,1,0,0,19.5,0,0,0,0,0,63.9,1],将此向量输入训练好的随机森林模型中得到模型输出67.1,即对于2022年2月17日16:00到17:00这一时段,基于特征关联的预测值为67.1。
步骤3:基于双预测误差判别高校实验楼用电异常
步骤3.1:设置异常阈值
确定异常阈值θ,θ取0.85,θ将在步骤3.5中被用于判别异常。
步骤3.2:计算时序依赖异常得分
根据分解-合成-LSTM模型预测结果真实用电量/>分解-合成-LSTM模型在训练集数据上的最大百分比误差s_max1,采用发明内容三中时序依赖异常得分计算方法计算时序依赖异常得分/>以2022年2月17日16:00到17:00这一时段为例,该时段的分解-合成-LSTM模型预测结果为49.89该时段的真实用电量为47.8,误差百分比为4.58%,分解-合成-LSTM模型在训练集数据上的最大百分比误差为18.32%,则时序依赖异常得分为0.25。
步骤3.3:计算特征关联异常得分
根据随机森林模型预测结果真实用电量/>随机森林模型在训练集数据上的最大百分比误差s_max2,采用发明内容三中特征关联异常得分计算方法计算时序依赖异常得分/>以2022年2月17日16:00到17:00这一时段为例,该时段的随机森林模型预测结果为67.1,该时段的真实用电量为47.8,误差百分比为40.4%,随机森林模型在训练集数据上的最大百分比误差为40.5%,则时序依赖异常得分为1.00。
步骤3.4:计算综合异常得分
根据时序依赖异常得分特征关联异常得分/>采用发明内容三中综合异常得分计算方法计算综合异常得分si。以2022年2月17日16:00到17:00这一时段为例,该时段的综合异常得分为0.25+1.00,即1.25。
步骤3.5:判别异常
若si>θ,i时段的用电量被判别为异常用电;否则,i时段的用电量被判别为正常用电。以2022年2月17日16:00到17:00这一时段为例,该时段的综合异常得分为1.25,高于阈值0.85,因此被判别为异常用电。图5为2022年2月17日的用电量折线图,16:00到17:00的用电量被标记为圆圈。
Claims (3)
1.一种基于双预测误差的用电异常实时检测方法,其特征在于,包括步骤如下:步骤(1)、基于时序依赖预测用电量;
建立分解-合成-LSTM模型,通过用电量历史大数据优化分解-合成-LSTM模型参数,训练好的分解-合成-LSTM模型对待检测时段的用电量进行预测;
步骤1.1:用电量历史数据预处理;
获取目标建筑的历史用电量数据,删除无效零值,遍历所有历史时段;对于每一时段i,该时段及与之相连的L个历史时段的用电量数据皆为有效值时,则使用该时段用电量及与之相连的L个历史时段的用电量组成一条数据,否则,跳过该时段;长度为L的历史用电量时序为特征变量数据,该时段用电量/>为目标变量数据;所有满足上述条件的特征变量-目标变量数据对共同组成数据集,将数据集打乱排序,按比例分为训练集和测试集;
步骤1.2:训练分解-合成-LSTM模型;
所述分解-合成-LSTM模型包括序列分解模块、隐向量提取模块和双通道预测模块;模型输入为即过去L个时段内的用电时序,模型输出为与/> 与/>为当前时段用电量的预测值;
随机初始化分解-合成-LSTM模型各网络参数;在训练集数据上使用自适应矩阵估计ADAM调整网络参数使损失函数Ltotal最小化,在达到最大迭代次数后停止训练,使用测试集数据判断分解-合成-LSTM模型有效性,获得训练好的分解-合成-LSTM模型;
步骤1.3:训练好的分解-合成-LSTM模型预测待检测时段的用电量;
获取待检测时段j之前L个时段的用电量数据,组成特征向量将输入分解-合成-LSTM模型,训练好的分解-合成-LSTM模型输出为待检测时段用电量的基于时序依赖预测值/>
步骤(2)、基于特征关联预测用电量;
步骤2.1:关联特征数据预处理;
获取目标建筑的历史用量数据,删除无效零值,遍历所有时段,对于每一个时段i,获取该时段的各输入特征的原始数据,构造该时段的输入特征变量向量该时段用电量/>为目标变量数据;所有满足上述条件的特征变量-目标变量数据对共同组成数据集,将数据集打乱排序,按比例分为训练集和测试集;
步骤2.2:训练随机森林模型;
使用步骤2.1中的训练集训练随机森林模型并使用网格搜索优化模型超参数,保留最优超参数下训练出的随机森林模型作为用于预测目标建筑用电量的预测模型;
步骤2.3:使用训练好的随机森林模型预测待检测时段的用电量;
获取待检测时段j的输入特征的原始数据,构造该时段的输入特征变量向量将/>输入随机森林模型,随机森林模型的输出为待检测时段用电量的基于特征关联预测值/>
(3)基于双预测误差判别用电异常;
基于分解-合成-LSTM模型的预测结果计算时序依赖异常得分,基于随机森林模型的预测结果计算特征关联异常得分,融合时序依赖异常得分与特征关联异常得分计算综合异常得分,根据综合异常得分与阈值的大小关系判别是否为异常用电数据;
步骤3.1:设置异常阈值
设定异常阈值θ;
步骤3.1:计算时序依赖异常得分;
根据基于时序依赖预测值果真实用电量/>分解-合成-LSTM模型在训练集数据上的最大百分比误差s_max1,采用时序依赖异常得分计算方法计算时序依赖异常得分/>
步骤3.2:计算特征关联异常得分;
根据基于特征关联预测值真实用电量/>随机森林模型在训练集数据上的最大百分比误差s_max2,计算时序依赖异常得分/>
步骤3.3:计算综合异常得分
根据时序依赖异常得分特征关联异常得分/>计算综合异常得分sj;
步骤3.4:判别异常
当si>θ,θ为异常阈值,i时段的用电量被判别为异常用电;否则,i时段的用电量被判别为正常用电。
2.根据权利要求1所述的基于双预测误差的用电异常实时检测方法,其特征在于,所述分解-合成-LSTM模型的具体运行流程如下:输入至分解-合成-LSTM模型后,进入序列分解模块,通过滑动平均分解为季节子序列/> 与趋势子序列季节子序列/>的计算公式为趋势子序列/>的计算公式为/>
趋势子序列输入至隐向量提取模块;隐向量提取模块包括堆叠的3层LSTM神经网络、一个回归层、一个加和层,将/>转化为/>的过程中生成隐向量;隐向量提取模块中堆叠LSTM网络的第1层第t个LSTM神经元的输出为:其中,Θ1,t为第1层第t个LSTM神经元的参数;堆叠LSTM网络中第2层第t个LSTM神经元的输出为:其中,Θ2,t为第2层第t个LSTM神经元的参数;堆叠LSTM网络中第3层第t个LSTM神经元的输出为:/>其中,v3,t为第3层第t个LSTM神经元的参数;/>即为所求隐向量;将/>输入到回归层中,回归层输出为/>表达式为/>其中,/>为回归层在t时刻的权重,bgt为偏差向量;连接/>与/>组成转换后的季节子序列向量/> 输入至隐向量提取模块,则隐向量提取模块对第t时刻的最终输出为为整个分解-合成-LSTM模型的第一个输出;分解-合成-LSTM模型在隐向量提取模块的损失函数Lrecon的计算公式为:/>
趋势子序列隐向量与季节子序列/>输入至双通道预测模块;双通道预测模块依次包括堆叠LSTM网络层、回归层、加和层;
将趋势子序列隐向量输入2层堆叠LSTM中;第1层第t时刻的LSTM神经元的输出为:/>t=1,2,…,L,其中,/>为双通道预测模块第1层第t个LSTM神经元的参数;第2层第t时刻的LSTM神经元的输出为:t=1,2,…,L,其中,/>为第2层第t个LSTM神经元的参数;设/>为第2层LSTM网络在第L时刻的短期记忆,将/>投入回归层得到趋势序列预测值为:/> 其中wt,h为回归层权重,/>为偏差向量;将季节子序列/>投入2层堆叠LSTM中;第1层第t时刻的LSTM神经元的输出为: 其中,/>为双通道预测模块第1层第t个LSTM神经元的参数;第2层第t时刻的LSTM神经元的输出为:其中,/>为第2层第t个LSTM神经元的参数;/>为双通道预测模块第2层LSTM网络在第L时刻的短期记忆,将输入至回归层得到季节序列预测值为:/> 其中ws,h为回归层权重,/>为偏差向量;
季节子序列经过堆叠LSTM与回归层得到季节子序列预测值趋势子序列经过堆叠LSTM与回归层得到趋势序列预测值/>将/>与/>相加得到/>作为对下一时刻用电量的预测,/>双通道预测模块的损失为:/>分解-合成-LSTM模型总损失函数为双通道预测模块损失函数与隐向量提取模块损失函数的和:Ltotal=Lpre+Lrecon。
3.根据权利要求1或2所述的基于双预测误差的用电异常实时检测方法,其特征在于,所述输入特征变量向量根据输入特征确定,所述输入特征包括时、是否为周末、季节、是否为节假日、是否在学期中、气温、特殊天气类型、上一时段的用电量、是否供暖。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310542733.7A CN116596136A (zh) | 2023-05-15 | 2023-05-15 | 一种基于双预测误差的用电异常实时检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310542733.7A CN116596136A (zh) | 2023-05-15 | 2023-05-15 | 一种基于双预测误差的用电异常实时检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116596136A true CN116596136A (zh) | 2023-08-15 |
Family
ID=87605628
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310542733.7A Pending CN116596136A (zh) | 2023-05-15 | 2023-05-15 | 一种基于双预测误差的用电异常实时检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116596136A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117290797A (zh) * | 2023-11-24 | 2023-12-26 | 国网山东省电力公司济宁供电公司 | 一种建筑能耗预测方法、系统、装置及介质 |
CN117668740A (zh) * | 2024-02-02 | 2024-03-08 | 浙江晶盛机电股份有限公司 | 蓝宝石的长速异常检测方法、装置、电子装置和存储介质 |
CN118133185A (zh) * | 2024-03-28 | 2024-06-04 | 中电装备山东电子有限公司 | 基于智能电能采集终端的区域用电异常预测的用户安全评估系统 |
-
2023
- 2023-05-15 CN CN202310542733.7A patent/CN116596136A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117290797A (zh) * | 2023-11-24 | 2023-12-26 | 国网山东省电力公司济宁供电公司 | 一种建筑能耗预测方法、系统、装置及介质 |
CN117290797B (zh) * | 2023-11-24 | 2024-02-02 | 国网山东省电力公司济宁供电公司 | 一种建筑能耗预测方法、系统、装置及介质 |
CN117668740A (zh) * | 2024-02-02 | 2024-03-08 | 浙江晶盛机电股份有限公司 | 蓝宝石的长速异常检测方法、装置、电子装置和存储介质 |
CN118133185A (zh) * | 2024-03-28 | 2024-06-04 | 中电装备山东电子有限公司 | 基于智能电能采集终端的区域用电异常预测的用户安全评估系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cao et al. | Hybrid ensemble deep learning for deterministic and probabilistic low-voltage load forecasting | |
CN116596136A (zh) | 一种基于双预测误差的用电异常实时检测方法 | |
Almalaq et al. | Parallel building: a complex system approach for smart building energy management | |
CN109948845A (zh) | 一种配电网负荷长短期记忆神经网络预测方法 | |
CN114358213B (zh) | 非线性时序数据预测的误差消融处理方法及系统与介质 | |
CN111191835A (zh) | 基于c-gan迁移学习的ies不完备数据负荷预测方法及系统 | |
Akter et al. | Analysis and prediction of hourly energy consumption based on long short-term memory neural network | |
Wu et al. | Gridtopo-GAN for distribution system topology identification | |
CN115828768A (zh) | 一种数据驱动的配电网无功功率预测方法 | |
CN113762591B (zh) | 一种基于gru和多核svm对抗学习的短期电量预测方法及系统 | |
CN117951577A (zh) | 一种虚拟电厂能源状态感知方法 | |
Nawar et al. | Transfer learning in deep learning models for building load forecasting: Case of limited data | |
Wang et al. | Short-term wind power probabilistic forecasting using a new neural computing approach: GMC-DeepNN-PF | |
CN110837934A (zh) | 一种基于深度学习的智能电网短期住宅负荷预测方法 | |
Das et al. | Data analytics to increase efficiency of the AI based energy consumption predictor | |
Usman et al. | Data analytics for short term price and load forecasting in smart grids using enhanced recurrent neural network | |
Wang et al. | Evsense: A robust and scalable approach to non-intrusive ev charging detection | |
CN117856248A (zh) | 一种基于频率分解和聚类修正的电力负荷预测方法 | |
Ali et al. | Application of intelligent algorithms for residential building energy performance rating prediction | |
Zhang | Short‐Term Power Load Forecasting Based on SAPSO‐CNN‐LSTM Model considering Autocorrelated Errors | |
Poudel et al. | Artificial intelligence for energy fraud detection: a review | |
He et al. | A deep neural network for anomaly detection and forecasting for multivariate time series in smart city | |
Haque et al. | Short-Term Electrical Load Prediction for Future Generation Using Hybrid Deep Learning Model | |
Inteha et al. | An Artificial Intelligence Based Day Lag Technique for Day Ahead Short Term Load Forecasting | |
Xu et al. | Research on abnormal detection of gas load based on LSTM-WGAN |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |