CN116596136A

CN116596136A - 一种基于双预测误差的用电异常实时检测方法

Info

Publication number: CN116596136A
Application number: CN202310542733.7A
Authority: CN
Inventors: 孙雪萍; 李永刚; 郭帅; 王瑞敏; 胡祥培
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2023-05-15
Filing date: 2023-05-15
Publication date: 2023-08-15

Abstract

本发明属于用电异常检测技术领域，公开了一种基于双预测误差的用电异常实时检测方法。设计一种名为分解‑合成‑LSTM的用电量预测模型，该模型以LSTM网络为基础，通过嵌入序列分解模块与隐向量提取模块增强用电时序的平稳性与可预测性，进而提高LSTM模型预测建筑用电量的精度；通过一种基于随机森林的用电量预测模型与相应的输入特征构造方法；设计一种基于双预测误差的用电异常判别方法，该方法融合分解‑合成‑LSTM用电量预测误差与随机森林用电量预测误差计算用电异常得分，通过比较异常得分与预先设置的阈值的大小关系判别用电异常。本发明可以区分正常用电数据和异常用电数据，提升用电管理效率。

Description

一种基于双预测误差的用电异常实时检测方法

技术领域

本发明涉及用电异常检测技术领域，尤其涉及一种基于双预测误差的用电异常实时检测方法。

背景技术

异常用电行为的实时检测是能源管理的重要内容，对节能减排，“双碳”目标的实现具有重要意义。近年来，大量建筑能耗监测管理系统的建立为实时发现用电异常提供了重要的数据支撑，然而传统方法无法挖掘海量数据中的潜在信息，导致建筑用电数据的应用局限于简单的数据统计，不能通过数据发现异常用电情况。如何使用新兴的机器学习方法挖掘海量用电数据中的有用信息，及时发现用电异常数据成为目前耗能建筑管理中亟待解决的问题。

当前，常用的基于机器学习的实时建筑用电异常检测方法为基于预测的方法。基于预测的方法是训练出用电预测模型后，对目标值进行预测，根据预测值与真实值的偏差大小来判断是否为异常，因此挖掘用电量与其他因素的相关关系并建立高精度的预测模型是至关重要的。在影响因素上，用电量既有时序依赖性，即当前用电量与历史用电量高度相关，也有特征关联性，即与时间、天气等外部因素相关。由此，从模型考虑的影响因素上划分，用电量预测模型分为基于时序依赖的预测模型与基于特征关联的预测模型。

在基于时序依赖的预测模型中，常用的基础模型为LSTM及其变体(如GRU)，但实验楼用电时序具有非平稳性，而LSTM对非平稳时序的预测效果不如对非平稳时序的预测效果。针对这一问题，“Chou S Y,Dewabharata A,Zulvia F E,et al.Forecasting BuildingEnergy Consumption Using Ensemble Empirical Pattern Decomposition,WaveletTransformation,and Long Short-Term Memory Algorithms[J].Energies,2022,15(3):1035.”中使用小波变换与经验模式分解对原始序列进行分解，使分解后的子序列具有更高的平稳性，最后使用LSTM对分解后的各序列分别进行预测，效果优于直接使用原始序列进行预测。但这种方法存在“数据泄露”问题，数据泄露又名特征穿越，指的是在建模过程中的数据收集、处理时不小心将未来信息引入到训练集中。当把未来信息引入到训练集中时，模型训练的效果往往非常好，但真实的预测效果会大打折扣。若将序列分解作为数据预处理步骤，那么除最后一个数据外，对任何时间点数据的分解必然会使用到这个时间点之后的信息，虽然在离线情境下能取得更高的精度，但在实时应用中是与现实情况相矛盾的。目前还未有用电量预测研究针对数据泄露问题对此种方法进行改进。

在基于特征关联的预测模型中，常用的基础模型为树模型(如决策树)以及集成的树模型(如随机森林、XGBoost)等。不同的应用场景下模型的特征构造也不尽相同，常见的特征有天气、时间、历史用电量等。高校实验楼的用电特征具有特殊性，如受是否在学期中、是否供暖等因素的影响，因此无法直接使用其他场景下的特征构造方法，并且目前未有针对高校实验楼的特征构造的方法。

基于时序依赖的预测模型与基于关联特征的预测模型从不同的角度对用电量进行建模，因此在检测用电异常上二者都具有重要的、不可相互替代的参考价值。现有技术方法多是只根据其中一种预测模型的预测结果对异常进行检测，因此考虑并不全面，漏报率高。

发明内容

本发明要解决的技术问题是针对耗能建筑设计实时用电异常检测方法。为解决这一问题，本发明提供了一种基于双预测误差的用电异常实时检测方法，实现对检测建筑用电量的自动实时异常检测。

本发明的技术方案如下：一种基于双预测误差的用电异常实时检测方法，包括步骤如下：

步骤(1)、基于时序依赖预测用电量；

建立分解-合成-LSTM模型，通过用电量历史大数据优化分解-合成-LSTM模型参数，训练好的分解-合成-LSTM模型对待检测时段的用电量进行预测；

步骤1.1：用电量历史数据预处理；

获取目标建筑的历史用电量数据，删除无效零值，遍历所有历史时段；对于每一时段i，该时段及与之相连的L个历史时段的用电量数据皆为有效值时，则使用该时段用电量及与之相连的L个历史时段的用电量组成一条数据，否则，跳过该时段；长度为L的历史用电量时序为特征变量数据，该时段用电量/>为目标变量数据；所有满足上述条件的特征变量-目标变量数据对共同组成数据集，将数据集打乱排序，按比例分为训练集和测试集；

步骤1.2：训练分解-合成-LSTM模型；

所述分解-合成-LSTM模型包括序列分解模块、隐向量提取模块和双通道预测模块；模型输入为即过去L个时段内的用电时序，模型输出为与/>与/>为当前时段用电量的预测值；

随机初始化分解-合成-LSTM模型各网络参数；在训练集数据上使用自适应矩阵估计ADAM调整网络参数使损失函数L_total最小化，在达到最大迭代次数后停止训练，使用测试集数据判断分解-合成-LSTM模型有效性，获得训练好的分解-合成-LSTM模型；

所述网络参数有

步骤1.3：训练好的分解-合成-LSTM模型预测待检测时段的用电量；

获取待检测时段j之前L个时段的用电量数据，组成特征向量将输入分解-合成-LSTM模型，训练好的分解-合成-LSTM模型输出为待检测时段用电量的基于时序依赖预测值/>

步骤(2)、基于特征关联预测用电量；

步骤2.1：关联特征数据预处理；

获取目标建筑的历史用量数据，删除无效零值，遍历所有时段，对于每一个时段i，获取该时段的各输入特征的原始数据，构造该时段的输入特征变量向量该时段用电量/>为目标变量数据；所有满足上述条件的特征变量-目标变量数据对共同组成数据集，将数据集打乱排序，按比例分为训练集和测试集；

步骤2.2：训练随机森林模型；

使用步骤2.1中的训练集训练随机森林模型并使用网格搜索优化模型超参数，保留最优超参数下训练出的随机森林模型作为用于预测目标建筑用电量的预测模型；

步骤2.3：使用训练好的随机森林模型预测待检测时段的用电量；

获取待检测时段j的输入特征的原始数据，构造该时段的输入特征变量向量将/>输入随机森林模型，随机森林模型的输出为待检测时段用电量的基于特征关联预测值/>

(3)基于双预测误差判别用电异常；

基于分解-合成-LSTM模型的预测结果计算时序依赖异常得分，基于随机森林模型的预测结果计算特征关联异常得分，融合时序依赖异常得分与特征关联异常得分计算综合异常得分，根据综合异常得分与阈值的大小关系判别是否为异常用电数据；

步骤3.1：设置异常阈值

设定异常阈值θ；

步骤3.1：计算时序依赖异常得分；

根据基于时序依赖预测值果真实用电量/>分解-合成-LSTM模型在训练集数据上的最大百分比误差s_max₁，采用时序依赖异常得分计算方法计算时序依赖异常得分/>

步骤3.2：计算特征关联异常得分；

根据基于特征关联预测值真实用电量/>随机森林模型在训练集数据上的最大百分比误差s_max₂，计算时序依赖异常得分/>

步骤3.3：计算综合异常得分

根据时序依赖异常得分特征关联异常得分/>计算综合异常得分s^j；

步骤3.4：判别异常

当sⁱ>θ，θ为异常阈值，i时段的用电量被判别为异常用电；否则，i时段的用电量被判别为正常用电。

所述分解-合成-LSTM模型的具体运行流程如下：输入至分解-合成-LSTM模型后，进入序列分解模块，通过滑动平均分解为季节子序列/> 与趋势子序列/>季节子序列/>的计算公式为趋势子序列/>的计算公式为/>

趋势子序列输入至隐向量提取模块；隐向量提取模块包括堆叠的3层LSTM神经网络、一个回归层、一个加和层，将/>转化为/>的过程中生成隐向量；隐向量提取模块中堆叠LSTM网络的第1层第t个LSTM神经元的输出为：其中，Θ_1,t为第1层第t个LSTM神经元的参数；堆叠LSTM网络中第2层第t个LSTM神经元的输出为：/>其中，Θ_2,t为第2层第t个LSTM神经元的参数；堆叠LSTM网络中第3层第t个LSTM神经元的输出为：/>其中，Θ_3,t为第3层第t个LSTM神经元的参数；即为所求隐向量；将/>输入到回归层中，回归层输出为/>表达式为/>其中，/>为回归层在t时刻的权重，为偏差向量；连接/>与/>组成转换后的季节子序列向量输入至隐向量提取模块，则隐向量提取模块对第t时刻的最终输出为为整个分解-合成-LSTM模型的第一个输出；分解-合成-LSTM模型在隐向量提取模块的损失函数L_recon的计算公式为：/>

趋势子序列隐向量与季节子序列/>输入至双通道预测模块；双通道预测模块依次包括堆叠LSTM网络层、回归层、加和层；

将趋势子序列隐向量输入2层堆叠LSTM中；第1层第t时刻的LSTM神经元的输出为：/>其中，/>为双通道预测模块第1层第t个LSTM神经元的参数；第2层第t时刻的LSTM神经元的输出为：其中，/>为第2层第t个LSTM神经元的参数；设/>为第2层LSTM网络在第L时刻的短期记忆，将/>投入回归层得到趋势序列预测值为：/> 其中w_t,h为回归层权重，/>为偏差向量；将季节子序列/>投入2层堆叠LSTM中；第1层第t时刻的LSTM神经元的输出为：其中，/>为双通道预测模块第1层第t个LSTM神经元的参数；第2层第t时刻的LSTM神经元的输出为：其中，/>为第2层第t个LSTM神经元的参数；/>为双通道预测模块第2层LSTM网络在第L时刻的短期记忆，将输入至回归层得到季节序列预测值为：/> 其中w_s,h为回归层权重，/>为偏差向量；

季节子序列经过堆叠LSTM与回归层得到季节子序列预测值，趋势子序列经过堆叠LSTM与回归层得到趋势序列预测值/>；将/>与/>相加得到/>作为对下一时刻用电量的预测，/>；双通道预测模块的损失为：/>L_pre越小，模型对用电量的预测能力越强。分解-合成-LSTM模型总损失函数为双通道预测模块损失函数与隐向量提取模块损失函数的和：L_total＝L_pre+L_recon。

所述输入特征变量向量根据输入特征确定，所述输入特征包括时、是否为周末、季节、是否为节假日、是否在学期中、气温、特殊天气类型、上一时段的用电量、是否供暖。

基于时序依赖预测用电量是通过分解-合成-LSTM模型挖掘用电量的时序依赖性以达到精准预测用电量的目的；基于特征关联预测用电量是通过构造科学的输入特征集合并使用随机森林模型挖掘用电量与其他因素的特征关联性以达到精准预测用电量的目的；基于双预测误差判别用电异常判别综合考虑时序依赖异常与特征关联异常，检出综合异常得分高于阈值的用电量数值，达到实时检测用电异常的目的。

基于时序依赖预测用电量是计算时序依赖异常得分的基础。基于特征关联预测用电量是计算特征关联异常得分的基础。

本发明的有益效果：

本发明提供一种基于双预测误差的用电异常实时检测方法，可以区分目标建筑中正常用电数据和异常用电数据，提升用电管理效率。

(1)设计一种基于分解-合成-LSTM模型的用电量预测方法，基于时序依赖预测用电量，通过引入序列分解与隐向量提取增强了时间序列的可预测性，提高用电量预测精度并避免了“数据泄露”问题。

(2)设计一种基于随机森林的用电量预测方法与相应的输入特征构造方法，基于特征关联预测用电量，面向目标建筑预测问题有针对性地构造输入特征，以随机森林模型为基础构造其用电量预测模型，提高了预测精度。

(3)设计一种基于双预测误差的用电异常判别方法，兼顾时序依赖异常与特征关联异常，降低了漏报率。

附图说明

图1是基于双预测误差的用电异常实时检测方法框架示意图。

图2是分解-合成-LSTM模型结构示意图。

图3是分解-合成-LSTM模型训练过程示意图。

图4是分解-合成-LSTM在测试集上的预测值与真实值局部对比示意图。

图5是2022年2月17日的用电量折线图。

具体实施方式

以下结合附图和技术方案，进一步说明本发明的具体实施方式。针对用电异常管理，提出了一种基于双预测误差的用电异常实时检测方法，以北方高校实验楼用电数据为例进行了验证。

本发明实施例基于实际的案例——D大学X实验楼，D大学X实验楼是一个综合实验楼，楼内多个实验室由于学科原因配有高耗能设备，是用电安全管理和节电管理的重点对象，因此跟踪该实验楼用电情况并实时判别实验楼是否处于正常运转，对及时排除楼内故障与隐患有重要意义。

如图1所示，本发明设计的一种基于双预测误差的实时高校实验楼用电异常检测方法包括基于时序依赖预测高校实验楼用电量、基于特征关联预测高校实验楼用电量、基于双预测误差判别高校实验楼用电量异常。具体包括以下步骤：

步骤1：基于时序依赖预测目标实验楼待检测时段的用电量

步骤1.1：目标实验楼历史用电量数据预处理

用电量数据来源于该校能耗监测平台中的用电数据，该平台统计的用电来源为整栋大楼的电源开关，因此，照明插座用电、空调用电、动力用电、特殊用电都包含在内。用电量数据的最小粒度为每小时建筑总用电量，用电量单位为kwh。数据的时间跨度为2021年1月1日00:00:00至2022年4月1日00:00:00，部分日期的用电数据为缺失值或无效零值，去除缺失值与无效零值后共9198条数据。其中2021年的数据被用于训练模型，2022年的数据被用于异常检测。扫描2021年的所有时段，对于每一时段i，若该时段及与之相连的24个历史时段的用电量数据皆为有效值，则使用该时段用电量及与之相连的24个历史时段的用电量组成一条数据。长度为24的历史用电量时序为特征变量数据，该时段用电量/>为目标变量数据。所有满足上述条件的特征变量-目标变量数据对共同组成数据集，将数据集打乱排序，取前70％的数据构成训练集，后30％的数据构成测试集。

步骤1.2：训练分解-合成-LSTM模型

根据图2中的模型结构构建分解-合成-LSTM模型，分解-合成-LSTM模型由基于滑动平均的序列分解模块、基于堆叠LSTM的隐向量模块、基于双通道的小时用电量预测模块组成。按照如下方法搭建神经网络：进入模型后首先进入序列分解模块，使用滑动平均技术将其分解为季节子序列/>与趋势子序列的计算公式为的计算公式为投入隐向量提取模块，隐向量提取模块由堆叠的3层LSTM神经网络、一个回归层、一个加和层组成，在将/>转化为/>的过程中生成隐向量，该隐向量随后将被输入双通道预测模块中。隐向量提取模块中堆叠LSTM网络的第1层第t个(t＝1,2,…，24)LSTM神经元的输出为：其中，Θ_1,t为第1层第t个LSTM神经元的参数。堆叠LSTM网络中第2层第t个LSTM神经元的输出为：/>其中，Θ_2,t为第2层第t个LSTM神经元的参数。堆叠LSTM网络中第3层第t个LSTM神经元的输出为：/>其中，Θ_3,t为第3层第t个LSTM神经元的参数。即是所求隐向量。将/>输入到回归层中，回归层输出为/>表达式为/> 其中/>为回归层在t时刻的权重，/>为偏差向量。设/> 则隐向量提取模块对第t时刻的最终输出为为整个分解-合成-LSTM模型的第一个输出。趋势子序列隐向量/>与季节子序列/>被投入双通道预测模块。将趋势子序列隐向量/>输入2层堆叠LSTM中，第1层第t时刻的LSTM神经元的输出为：/> 其中，/>为第1层第t个LSTM神经元的参数。第2层第t时刻的LSTM神经元的输出为：其中，/>为第2层第t个LSTM神经元的参数。设/>为第2层LSTM网络在第24时刻的短期记忆，将/>投入回归层得到趋势序列预测值为：/>其中w_t,h为回归层权重，/>为偏差向量。将季节子序列/>投入2层堆叠LSTM中。第1层第t时刻的LSTM神经元的输出为：其中，/>为第1层第t个LSTM神经元的参数。第2层第t时刻的LSTM神经元的输出为：/> 其中，/>为第2层第t个LSTM神经元的参数。设/>为第2层LSTM网络在第24时刻的短期记忆，将/>投入回归层得到季节序列预测值为：/>其中w_s,h为回归层权重，/>为偏差向量。至此，季节子序列经过堆叠LSTM与回归层得到季节序列预测值/>趋势子序列经过堆叠LSTM与回归层得到趋势序列预测值/>将/>与/>相加得到/>作为对下一时刻用电量/>的预测，/>为模型的第二个输出，

搭建完神经网络后，对模型参数Θ_1,t(t＝1,2,…,24)、Θ_2,t(t＝1,2,…,24)、Θ_3,t(t＝1,2,…,24)、 w_t,h、/> 随机初始化，以最小化训练集上的损失函数

w_s,h、

为目标使用ADAM算法对上述参数进行更新，迭代次数为76。图3为模型训练过程，L_total随迭代次数增加而减小。

训练好的分解-合成-LSTM模型在测试集上的MAPE为5.48％，MAE为3.84，RMSE为5.73。图4是分解-合成-LSTM在测试集上的预测值与真实值局部对比。

步骤1.3：使用训练好的分解-合成-LSTM模型预测待检测时段的用电量

获取待检测时段j之前L个时段的用电量数据，组成特征向量将输入分解-合成-LSTM模型，设模型的第二个输出为/> 即是分解-合成-LSTM模型对待检测时段用电量的预测值。以2022年2月17日16:00到17:00这一时段为例，该时段前24小时的小时用电量数据为[64.7，57.1，57.9，59.4，51.6，53.8，46.6，41.7，37.8，40.7，40.7，37.4，37.6，44，37.9，45，57.7，62.5，69.2，68.6，67.1，63.9，69.9，63.9]，将前24小时的小时用电量组成的特征向量输入训练好的分解-合成-LSTM模型中得到模型输出49.89，即对于2022年2月17日16:00到17:00这一时段，基于时序依赖的预测值为49.89。

步骤2：基于特征关联预测高校实验楼用电量

步骤2.1：关联特征数据预处理

用电量数据来源于该校能耗监测平台中的用电数据，气温数据来源于https://www.ecmwf.int/特殊天气类型数据来源于http://www.meteomanz.com。遍历2021年中所有有效时段，对每一个时段i，按照如下方法构造输入特征：在时这一维度上，对一天内的24小时进行分段，分别为23:00到次日6:00、6:00到7:00、7:00到8:00、8:00到9:00、10:00到11:00、11:00到12:00、12:00到13:00、13:00到14:00、14:00到15:00、15:00到16:00、16:00到17:00、17:00到18:00、18:00到19:00、19:00到20:00、20:00到21:00、21:00到22:00、22:00到23:00，共17个时间段，对这17个时间段进行one-hot编码并使用PCA技术将17维向量压缩为3维特征向量用以表征时特征，例如若待检测时段处于23:00到次日6:00间，经过分段、one-hot编码与PCA压缩后该时段在时这一维度上的特征向量为(1.88，0.30，-0.66)；在是否为周末这一维度上，若待预测时间段处于周末，则此特征的取值为1，否则，此特征的取值为0；在季节这一维度上，若待预测时间段的日期位于3月1日到6月22日之间，则季节特征向量为(1，0，0，0)，若待预测时间段的日期位于6月23日到9月23日之间，则季节特征向量为(0，1，0，0)，若待预测时间段的日期位于9月24日到12月23日之间，则季节特征向量为(0，0，1，0)，若待预测时间段的日期位于12月24日到3月22日之间，季节特征向量为(0，0，0，1)，例如3月1日的月特征为(1，0，0，0)，6月23日的月特征为(0，1，0，0)；在是否为节假日这一维度上，参照当年节假日安排，若待预测时间段处于节假日，则节假日特征取值为1，否则，节假日特征取值为0；在是否为学期中这一维度上，参照D大学校历，若待预测时间段处于学期中，则学期特征取值为1，否则学期特征取值为0；在气温这一维度上，设待预测时间段的平均气温为temperarure，则气温特征取值为|12.5-temperarure|；在特殊天气类型这一维度上，若待预测时间段内有雾，则雾特征取值为1，否则雾特征为0，若待预测时间段内有薄雾，则薄雾特征取值为1，否则为0，若待预测时间段内有雨，则雨特征取值为1，否则为0，若待预测时间段内有小雨，则小雨特征取值为1，否则小雨特征为0，若待预测时间段内有雪，则雪特征取值为1，否则雪特征为0；在上一时段的用电量这一维度上，特征取值为待预测时间段的相邻历史时段的用电量；在是否供暖这一维度上，参照当年当地供暖安排，若待预测时间段处于学校所在地的供暖时间内，则供暖特征为1，否则供暖特征为0。上述特征值构成输入特征变量向量该时段用电量/>为目标变量数据。所有满足上述条件的特征变量-目标变量数据对共同组成数据集，将数据集打乱排序，取前70％的数据构成训练集，后30％的数据构成测试集。

步骤2.2：训练随机森林模型

使用步骤2.1中的训练集训练随机森林模型并使用网格搜索优化模型超参数，待优化的超参数包括预测器数量、最大特征数、最大树深度，预测器数量的取值范围是{30，40，50，60，70，80，90，100}，最大特征数取值范围为{2，4，6，8，10，12，14，16，18}，最大树深度取值范围为{2，4，6，8，10，12，14，16，18}，网格搜索结果显示{max_depth＝18,max_features＝10,n_estimators＝80}为最优超参数，保留最优超参数下训练出的随机森林模型作为用于预测实验楼用电量的预测模型。

步骤2.3：使用训练好的随机森林模型预测预测待检测时段的用电量

获取待检测时段j的输入特征的原始数据，采用步骤2.1中的高校实验楼用电量预测输入特征构造方法构造该时段的输入特征变量向量将输入随机森林模型，设模型的输出为/>即是随机森林模型对待检测时段用电量的预测值。以2022年2月17日16:00到17:00这一时段为例，该时段的输入特征向量为[-0.44，-0.83，0.21，0，0，0，0，1，0，0，19.5，0，0，0，0，0，63.9，1]，将此向量输入训练好的随机森林模型中得到模型输出67.1，即对于2022年2月17日16:00到17:00这一时段，基于特征关联的预测值为67.1。

步骤3：基于双预测误差判别高校实验楼用电异常

步骤3.1：设置异常阈值

确定异常阈值θ，θ取0.85，θ将在步骤3.5中被用于判别异常。

步骤3.2：计算时序依赖异常得分

根据分解-合成-LSTM模型预测结果真实用电量/>分解-合成-LSTM模型在训练集数据上的最大百分比误差s_max₁，采用发明内容三中时序依赖异常得分计算方法计算时序依赖异常得分/>以2022年2月17日16:00到17:00这一时段为例，该时段的分解-合成-LSTM模型预测结果为49.89该时段的真实用电量为47.8，误差百分比为4.58％，分解-合成-LSTM模型在训练集数据上的最大百分比误差为18.32％，则时序依赖异常得分为0.25。

步骤3.3：计算特征关联异常得分

根据随机森林模型预测结果真实用电量/>随机森林模型在训练集数据上的最大百分比误差s_max₂，采用发明内容三中特征关联异常得分计算方法计算时序依赖异常得分/>以2022年2月17日16:00到17:00这一时段为例，该时段的随机森林模型预测结果为67.1，该时段的真实用电量为47.8，误差百分比为40.4％，随机森林模型在训练集数据上的最大百分比误差为40.5％，则时序依赖异常得分为1.00。

步骤3.4：计算综合异常得分

根据时序依赖异常得分特征关联异常得分/>采用发明内容三中综合异常得分计算方法计算综合异常得分sⁱ。以2022年2月17日16:00到17:00这一时段为例，该时段的综合异常得分为0.25+1.00，即1.25。

步骤3.5：判别异常

若sⁱ>θ，i时段的用电量被判别为异常用电；否则，i时段的用电量被判别为正常用电。以2022年2月17日16:00到17:00这一时段为例，该时段的综合异常得分为1.25，高于阈值0.85，因此被判别为异常用电。图5为2022年2月17日的用电量折线图，16:00到17:00的用电量被标记为圆圈。

Claims

1.一种基于双预测误差的用电异常实时检测方法，其特征在于，包括步骤如下：步骤(1)、基于时序依赖预测用电量；

步骤1.1：用电量历史数据预处理；

步骤1.2：训练分解-合成-LSTM模型；

所述分解-合成-LSTM模型包括序列分解模块、隐向量提取模块和双通道预测模块；模型输入为即过去L个时段内的用电时序，模型输出为与/> 与/>为当前时段用电量的预测值；

步骤(2)、基于特征关联预测用电量；

步骤2.1：关联特征数据预处理；

步骤2.2：训练随机森林模型；

(3)基于双预测误差判别用电异常；

步骤3.1：设置异常阈值

设定异常阈值θ；

步骤3.1：计算时序依赖异常得分；

步骤3.2：计算特征关联异常得分；

步骤3.3：计算综合异常得分

步骤3.4：判别异常

2.根据权利要求1所述的基于双预测误差的用电异常实时检测方法，其特征在于，所述分解-合成-LSTM模型的具体运行流程如下：输入至分解-合成-LSTM模型后，进入序列分解模块，通过滑动平均分解为季节子序列/> 与趋势子序列季节子序列/>的计算公式为趋势子序列/>的计算公式为/>

趋势子序列输入至隐向量提取模块；隐向量提取模块包括堆叠的3层LSTM神经网络、一个回归层、一个加和层，将/>转化为/>的过程中生成隐向量；隐向量提取模块中堆叠LSTM网络的第1层第t个LSTM神经元的输出为：其中，Θ_1,t为第1层第t个LSTM神经元的参数；堆叠LSTM网络中第2层第t个LSTM神经元的输出为：其中，Θ_2,t为第2层第t个LSTM神经元的参数；堆叠LSTM网络中第3层第t个LSTM神经元的输出为：/>其中，v_3,t为第3层第t个LSTM神经元的参数；/>即为所求隐向量；将/>输入到回归层中，回归层输出为/>表达式为/>其中，/>为回归层在t时刻的权重，b_gt为偏差向量；连接/>与/>组成转换后的季节子序列向量/> 输入至隐向量提取模块，则隐向量提取模块对第t时刻的最终输出为为整个分解-合成-LSTM模型的第一个输出；分解-合成-LSTM模型在隐向量提取模块的损失函数L_recon的计算公式为：/>

将趋势子序列隐向量输入2层堆叠LSTM中；第1层第t时刻的LSTM神经元的输出为：/>t＝1,2,…,L，其中，/>为双通道预测模块第1层第t个LSTM神经元的参数；第2层第t时刻的LSTM神经元的输出为：t＝1,2,…,L，其中，/>为第2层第t个LSTM神经元的参数；设/>为第2层LSTM网络在第L时刻的短期记忆，将/>投入回归层得到趋势序列预测值为：/> 其中w_t,h为回归层权重，/>为偏差向量；将季节子序列/>投入2层堆叠LSTM中；第1层第t时刻的LSTM神经元的输出为：其中，/>为双通道预测模块第1层第t个LSTM神经元的参数；第2层第t时刻的LSTM神经元的输出为：其中，/>为第2层第t个LSTM神经元的参数；/>为双通道预测模块第2层LSTM网络在第L时刻的短期记忆，将输入至回归层得到季节序列预测值为：/> 其中w_s,h为回归层权重，/>为偏差向量；

季节子序列经过堆叠LSTM与回归层得到季节子序列预测值趋势子序列经过堆叠LSTM与回归层得到趋势序列预测值/>将/>与/>相加得到/>作为对下一时刻用电量的预测，/>双通道预测模块的损失为：/>分解-合成-LSTM模型总损失函数为双通道预测模块损失函数与隐向量提取模块损失函数的和：L_total＝L_pre+L_recon。

3.根据权利要求1或2所述的基于双预测误差的用电异常实时检测方法，其特征在于，所述输入特征变量向量根据输入特征确定，所述输入特征包括时、是否为周末、季节、是否为节假日、是否在学期中、气温、特殊天气类型、上一时段的用电量、是否供暖。