CN109726865A

CN109726865A - 基于emd-qrf的用户负荷概率密度预测方法、装置和存储介质

Info

Publication number: CN109726865A
Application number: CN201811607008.9A
Authority: CN
Inventors: 陈振宇; 杨斌; 栾开宁; 杨世海; 纪峰; 曹晓冬; 陈宇沁; 李波; 梁智; 卫志农; 孙国强; 臧海祥
Original assignee: State Grid Corp of China SGCC; State Grid Jiangsu Electric Power Co Ltd; Hohai University HHU; Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Jiangsu Electric Power Co Ltd; Hohai University HHU; Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2018-12-27
Filing date: 2018-12-27
Publication date: 2019-05-07

Abstract

本发明公开了一种基于EMD‑QRF的用户负荷概率密度预测方法、装置和存储介质，属于电力系统技术领域，该方法包括以下步骤：获取实测用户负荷数据，采用EMD信号处理算法对用户负荷原始时间序列数据进行分解处理，得到若干特征互异的IMF；计算各模态函数样本熵值并采用样本熵衡量IMF复杂度，将样本熵值相近的IMF重构为趋势分量、细节分量和随机分量；对重构分量分别建立QRF用户负荷预测模型，叠加不同分量预测结果从而获得预测值的条件分布；利用核密度估计方法输出任意时刻用户负荷概率密度预测结果。相对于确定性点预测方法，概率密度预测具有描述用户负荷未来可能的波动范围及不确定性等优势，有利于为售电公司购售电业务提供更多决策支撑。

Description

基于EMD-QRF的用户负荷概率密度预测方法、装置和存储介质

技术领域

本发明属于电力系统技术领域，具体涉及一种电力系统用户负荷概率密度预测方法、装置和计算机可读存储介质。

背景技术

电力市场化改革促进了售电侧产业链迅速发展，现有供电、大型发电与节能服务企业相继成立并运营大量性质、规模不同的售电公司。售电公司从发电厂以较低价格批量购买电能并以较高零售价格卖给工业用户，依靠替用户承担风险获得相应的收益。然而，受经济政治、气候条件、生产计划等因素的影响，工业用户实际的用电量与合同电量往往存在不同程度的偏差。

售电公司必须细致把握用户负荷特性及用电规律，从而准确预测用户未来用电量，规避偏差考核损失。然而，用户负荷基数小、随机性与波动性强烈、用户用电模式多样及受多种因素共同作用的特点增加了用户负荷预测的难度，也使得用户负荷预测精度低于系统级负荷预测。因此，亟需研究用户负荷预测技术与方法，以应对电力交易中心偏差考核压力。

目前，用户负荷预测研究较少且主要集中于对工业负荷、空调负荷及楼宇负荷进行预测。工业用户相对于普通的居民和商业用户，其特点是用电体量大，电费支出在所有成本中占较大比重，如钢铁、水泥、炼铝、冶金、矿产等高能耗工矿企业。这些用户的大容量设备电压等级较高，设备的频繁启停会对电网造成不同程度的冲击与谐波影响，其负荷曲线变化剧烈，随机性与波动性也较强。

概率密度预测能够描述用户负荷未来可能的波动范围、不确定性及面临的风险，可为售电公司购售电业务提供更多决策信息，但现有文献对用户负荷概率密度预测关注较少。

发明内容

发明目的：针对用户负荷未来可能的波动范围、不确定性以及面临的风险，本发明提出一种基于经验模态分解EMD(Empirical Mode Decomposition)和分位数回归预测QRF(Quantile RegressionForecasting)的用户负荷概率密度预测方法，能够获得任意时刻用户负荷概率密度预测结果。

本发明的另一目的在于提供一种基于EMD-QRF的用户负荷概率密度预测装置以及一种计算机可读存储介质。

技术方案：根据本发明的第一方面，提供一种基于EMD-QRF的用户负荷概率密度预测方法，该方法包括以下步骤：

获取实测用户负荷数据，采用EMD信号处理算法对用户负荷原始时间序列数据进行分解处理，得到若干特征互异的固有模态函数IMF(Intrinsic Mode Function)；

采用样本熵衡量IMF复杂度，将样本熵值相近的IMF重构为趋势分量、细节分量和随机分量；

对各分量建立QRF预测模型，得到不同分位点回归预测结果，并将不同分量预测结果叠加，获得预测值的条件分布；

采用核密度估计从预测值条件分布结果获得概率密度预测输出。

优选地，所述采用EMD信号处理算法对用户负荷原始时间序列数据进行分解处理，得到若干特征互异的IMF包括以下步骤：

S11、找出用户负荷时间序列y(t)中的所有极大值，通过插值法拟合其包络线为u(t)；同理，识别y(t)中所有极小值，通过插值法拟合其包络线为v(t)；由此，计算上下包络线的平均值m₁(t)为：

S12、将原始信号y(t)与m₁(t)相减得到h₁(t)

h₁(t)＝y(t)-m₁(t)

判断h₁(t)是否满足IMF分量条件，若不满足，则将h₁(t)视为新的信号y(t)，重复步骤S11，直到h₁(t)满足IMF分量条件；若满足，则第1个IMF分量表示为：

c₁(t)＝h₁(t)

S13、从原始信号y(t)中分离出第1个IMF分量，相应的剩余分量可表示为：

r₁(t)＝y(t)-c₁(t)

S14、将剩余分量r₁(t)作为新的原始信号，重复步骤S11至步骤S13，得到其它IMF分量和1个余量。

优选地，所述采用样本熵衡量IMF复杂度，将样本熵值相近的IMF重构为趋势分量、细节分量和随机分量包括以下步骤：

S21、计算各IMF样本熵值；

S22、根据样本熵值大小对模态函数进行重构处理，得到趋势分量、细节分量和随机分量，其中，趋势分量与用户负荷原始时间序列总体变化趋势一致，用于刻画用户负荷的周周期变化特征；细节分量与用户负荷原始数据变化规律相似，用于反映用户负荷日周期与周周期特征；随机分量用于表示噪声或干扰对负荷造成的影响。

优选地，所述对各分量建立QRF预测模型，得到不同分位点回归预测结果，并将不同分量预测结果叠加，获得预测值的条件分布包括以下步骤：

S31、利用随机森林算法生成k棵决策树T(θ_t)，t＝1,2,…,k，对每棵决策树每个叶节点，考察该叶节点所有观测值；

S32、计算每棵决策树观测值的权重w_i(x,θ_t)，i∈{1,2,…,n}，并取平均值得到每个观测值i∈{1,2,…,n}的权重w_i(x)；

S33、对所有y∈R，利用步骤S32得出的权重，计算分布函数的估计。

优选地，所述采用核密度估计从预测值条件分布结果获得概率密度预测输出包括：设X₁、X₂、…、X_M是取自一元连续总体的样本，计算在任意点x处的总体密度函数f(x)的核密度估计：

式中：K(x)为核函数，h为带宽系数。

根据本发明的第二方面，提供一种计算机可读存储介质，该介质上存储有计算机程序，在处理器执行所述计算机程序时可以实现以上所描述的方法。

根据本发明的第三方面，提供一种基于EMD-QRF的用户负荷概率密度预测装置，所述装置包括：

分解模块，用于基于EMD算法对输入的用户负荷原始时间序列数据进行分解，得到若干特征互异的IMF；

重构模块，用于利用样本熵衡量IMF复杂度，将样本熵值相近的IMF重构为趋势分量、细节分量和随机分量；

预测模块，用于对各分量建立QRF模型，得到不同分位点回归预测结果，将不同分量预测结果叠加获得预测值的条件分布；

核密度估计模块，用于采用核密度估计方法从预测值条件分布结果获得概率密度预测输出。

优选地，所述分解模块包络线单元、IMF分量计算单元和剩余IMF分量计算单元，通过以下过程将原始信号y(t)分解为n个IMF分量c_i(t)和一个剩余分量r_n(t)：

包络线单元找出用户负荷时间序列y(t)中的所有极大值，通过插值法拟合其包络线为u(t)；同理识别y(t)中所有极小值，通过插值法拟合其包络线为v(t)；由此得到上下包络线的平均值m₁(t)：

IMF分量计算单元将原始信号y(t)与m₁(t)相减得到h₁(t)，并判断h₁(t)是否满足IMF分量条件，若不满足，则将h₁(t)视为新的信号y(t)，返回至包络线单元处理，直到h₁(t)满足IMF条件；若满足，则得到第1个IMF分量：

剩余IMF分量计算单元将第1个IMF分量从原始信号y(t)中分离，得到相应的剩余分量r₁(t)，并将剩余分量r₁(t)作为新的原始信号，返回至包络线单元继续上述处理，从而得到其它IMF分量和1个余量。

优选地，所述重构模块包括熵值计算单元和分量划分单元，熵值计算单元用于计算各模态函数样本熵值，分量划分单元用于根据样本熵值大小对模态函数进行重构处理，得到趋势分量、细节分量和随机分量，其中趋势分量与用户负荷原始时间序列总体变化趋势一致，用于刻画用户负荷的周周期变化特征；细节分量与用户负荷原始数据变化规律相似，用于反映用户负荷日周期与周周期特征，描述人类日常活动规律；随机分量规律性差，波动强烈，一般难以预测或预测误差较大，用于反映气象因素等噪声或干扰对负荷造成的影响。

优选地，所述预测模块包括决策树生成单元、权重计算单元和分位点回归预测单元，决策树生成单元用于以标准随机森林算法生成^k棵决策树T(θ_t)，t＝1,2,…,k；权重计算单元用于对每棵决策树每个叶节点，考察该叶节点所有观测值，计算每棵决策树观测值的权重w_i(x,θ_t)，i∈{1,2,…,n}并求其平均值作为每个观测值的权重；分位点回归预测单元用于获得不同分位点条件下用户负荷预测结果，为实现用户负荷概率密度预测提供数据基础。

有益效果：

1、本发明提出基于分位数回归森林与核密度估计算法的用户负荷概率密度预测模型，获得了任意时刻用户负荷概率密度预测结果。相对传统的确定性点预测方法，能够给出用户负荷未来波动范围等更多信息，有利于电厂合理调整短时发电计划，避免资源浪费，也有利于为售电公司购售电业务提供更多决策支撑。

2、为分析用户负荷时间序列的波动性与随机性，本发明采用经验模态分解算法对用户负荷原始时间序列数据进行预处理，将其分解为若干特征互异的固有模态函数，使得原始时间序列中各特征尺度间信息解耦，弱化信息间干扰，能够细致把握用户负荷局部变化特征，从而提高了预测精度。

3、本发明对EMD分解得到的IMF进行重构，并且将分解特性相近的IMF划分到同一类分量，再基于重构后的分量建立预测模型，不仅降低了建立预测模型的重复工作量，降低内存消耗，而且利用了不同分量间的相关关系，提高运算效率，更好地满足用户负荷预测的时效性要求。

附图说明

图1为根据本发明的用户负荷概率密度预测方法流程图；

图2为根据本发明的用户负荷概率密度预测装置结构框图；

图3为本发明实施例提供的用户负荷时间序列经EMD算法分解得到的结果图；

图4为本发明实施例提供的原始数据及EMD分解结果样本熵值分布图；

图5为本发明实施例提供的原始数据及重构分量图；

图6为本发明实施例提供的7月30日用户负荷预测结果图；

图7为本发明实施例提供的7月31日用户负荷预测结果图；

图8为本发明实施例提供的7月31日不同时刻概率密度预测结果图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

参照图1，本发明实施例中的一种基于EMD-QRF的用户负荷概率密度预测方法，包括如下步骤：

S10、获取实测用户负荷数据，采用经验模态分解EMD信号处理算法对用户负荷原始时间序列数据进行分解处理，得到若干特征互异的固有模态函数IMF。

EMD目标是实现对原始信号的自适应分解，从而细致把握信号局部变化信息，在非线性非平稳时间序列处理中获得了广泛应用。EMD假设任何复杂信号皆由简单的IMF组成，且各IMF相互独立。具体包括以下步骤：

S11、找出用户负荷时间序列y(t)中的所有极大值，通过插值法拟合其包络线为u(t)；同理，识别y(t)中所有极小值，通过插值法拟合其包络线为v(t)。由此，计算上下包络线的平均值m₁(t)为：

S12、将原始信号y(t)与m₁(t)相减得到h₁(t)：

h₁(t)＝y(t)-m₁(t)

判断h₁(t)是否满足IMF分量条件。IMF必须满足的2个条件为：1)在时序信号中，极值的数量和穿越零点的数量相同，或最多相差为1；2)在任意时刻，上包络线与下包络线的均值为零。若不满足，则将h₁(t)视为新的信号y(t)，重复步骤S11，直到h₁(t)满足IMF条件。若满足，则第1个IMF分量可表示为：

c₁(t)＝h₁(t)

S13、从原始信号y(t)中分离出分量，相应的剩余分量可表示为：

r₁(t)＝y(t)-c₁(t)

S14、将剩余分量r₁(t)作为新的原始信号，重复步骤S11至步骤S13，从而可得到其它IMF分量和1个余量。

通过上述EMD方法将原始信号y(t)分解为n个IMF分量c_i(t)和一个剩余分量r_n(t)，由此原始信号y(t)可表示为：

S20、通过计算各模态函数样本熵值并采用样本熵衡量IMF复杂度，将样本熵值相近的IMF重构为趋势分量、细节分量和随机分量。

采用EMD算法对用户负荷时间序列进行分解后，产生较多的IMF且部分IMF存在分解特性相近的现象。如果对EMD分解产生的所有IMF直接建立预测模型，则不仅增加了建模重复工作量，占用计算机宝贵的内存资源，而且容易忽视不同分量间的相关关系，导致降低运算效率，不能满足用户负荷预测的时效性要求。因此有必要对IMF进行重构，具体包括以下步骤：

S21、计算各模态函数样本熵值。用户负荷时间序列经EMD算法分解得到的结果反映出用户负荷的周周期和日周期用电特征与规律，因此首先计算各模态函数样本熵值。

样本熵值与时间序列的自相似性表现出负相关，与序列的复杂度表现出正相关的特征，使得样本熵可有效描述时间序列的某些特性。样本熵值可用数学符号SampEn(N,m,r)描述，表示条件概率的严格自然对数。其中，N为时间序列样本个数，m为样本维数，r为容限。选取原始时间序列为{x_i}＝{x(1),x(2),…,x(N)}，样本熵具体实现过程如下：

1)首先，将所有原始时间序列数据{x_i}变换成m维的矢量，各矢量形式即如X(i)＝[x(i),x(i+1),…,x(i+m-1)]所示。其中，i＝1,2,…,N-m+1。

2)X(i)与X(j)两样本间对应元素的最大距离可表示为d_m(X(i),X(j))，即：

接着，计算各i值对应的最大距离，即计算X(i)与X(j)之间的d_m(X(i),X(j))。其中，j≠i且j＝1,2,…,N-m+1。

3)当容限r(r>0)值确定时，计算d_m(X(i),X(j))<r个数，得到其与N-m的比值，记作即

式中，i＝1,2,…,N-m+1，j≠i，num为d_m(X(i),X(j))＜r的数目。通过该步骤实现了X(i)模板匹配，为任一X(j)与模板的匹配概率。

4)由此计算平均值，即：

5)维数由m变化为m+1，重复过程1)至4)。同样，获得平均值为：

最终，计算样本熵值，即：

对于N取有限值的情形，上述得出的样本熵可表示为：

SampEn(N,m,r)＝-ln[B^m+1(r)/B^m(r)]

样本熵SampEn值受到m和r取值的共同影响。实际应用中，m可取为1或2，r可在0.1～0.25S范围内取值，S为时间序列标准差。实施例中选取的参数为：m＝2，r＝0.15SD。

S22、根据样本熵值大小对模态函数进行重构处理，得到趋势分量、细节分量和随机分量。其中趋势分量与用户负荷原始时间序列总体变化趋势一致，用于刻画用户负荷的周周期变化特征；细节分量与用户负荷原始数据变化规律相似，用于反映用户负荷日周期与周周期特征，描述人类日常活动规律；随机分量规律性差，波动强烈，一般难以预测或预测误差较大，用于反映气象因素等噪声或干扰对负荷造成的影响。

在具体实施时，可以将得到的各IMF及余量序列的样本熵值分布图形化展示，观察各IMF样本熵值与原始数据样本熵值之间的差别，将样本熵值与原始数据相近且都在一定阈值范围内的IMF重构为细节分量；将样本熵值相对较小，模态函数序列波动性小且变化平缓的IMF重构为趋势分量；将表现出强烈的随机性与波动性，该序列是杂乱无章的，规律性差的IMF重构为随机分量。

S30、对各分量建立分位数回归预测QRF模型，得到不同分位点回归预测结果，并将不同分量预测结果叠加即获得预测值的条件分布。

QRF由分位数回归和随机森林发展得到，但保留了两种算法的优点，其输出值为不同分位点的回归预测结果。QRF运算速度快，模型性能受参数影响小，且具有较强容噪性。因此，QRF适用于对大量用户负荷进行短期预测。

QRF可看作是适应性近邻分类与回归过程，对所有X＝x，可以得到原始n个观察值的一个权重集合w_i(x)，i＝1,2,…,n。QRF将所有因变量观测值的加权和作为因变量Y条件均值E(Y|X＝x)的估计。QRF决策树是以标准随机森林算法产生，条件分布是通过观测到的因变量加权估计得到，其中每个观测值的权重等于随机森林算法权重。QRF定义E(1{Y≤y}|X＝x)的估计为观测值1_{Y≤y}的加权平均，即

具体地，步骤S30包括以下步骤：

S31、生成k棵决策树T(θ_t)，t＝1,2,…,k，对每棵决策树每个叶节点，考察该叶节点所有观测值。

S32、给定X＝x遍历所有决策树，计算每棵决策树观测值的权重w_i(x,θ_t)，i∈{1,2,…,n}，通过对决策树权重w_i(x,θ_t)，t＝1,2,…,k取平均得到每个观测值i∈{1,2,…,n}的权重w_i(x)。

其中，X为变量，x表示某一个具体样本，即输入，y表示对应于x的输出，R表示实数。分布函数是指对于一个输入x，QRF可以输出99个预测结果y，即99个y构成一个分布函数。这里得到了不同分位点回归预测结果，不同分位点回归预测结果构成了分布函数，分位点回归预测结果由得到。

S40、采用核密度估计方法从预测值条件分布结果获得概率密度预测输出。

核密度估计通过同一未知分布函数的随机变量来估计其密度函数。设Y₁、Y₂、…、Y_M是取自一元连续总体的样本，Yi为某分位点下用户负荷预测值，在任意点y处的总体密度函数f(y)的核密度估计定义为：

式中：K(y)为核函数，常用的高斯核函数形式为h为带宽系数，取值范围为1.8～2.0。

核密度估计即能得到在任意随机时刻的电力负荷的概率密度曲线，波动范围可以由概率密度曲线趋于0时对应的负荷值确定。

为了检验本发明区间预测模型有效性，本发明的方法还可以包括：

S50、对区间预测模型有效性的检验，本发明用FICP和FIAW指标进行定量检验。

本发明采用平均绝对百分比误差(Mean Absolute Percentage Error，MAPE)和均方根误差(Root Mean Square Error，RMSE)、预测区间覆盖率(Forecasting IntervalCoverage Percentage，FICP)和预测区间平均宽度(Forecasting Interval AverageWidth，FIAW)四项指标，对区间预测的效果进行评判。

S51、MAPE和RMSE用于评价预测值与真实值之间的偏差，其值越小越好，计算如下：

式中：n为预测点个数；y_i为第i个预测点用户负荷真实值，为第i个预测点模型预测值。

S52、FICP指标描述实际观测值落入预测区间的概率，用于评价构建区间的可信程度，其绝对值越大，可信度越高；FIAW指标刻画预测区间宽度，用于评价预测结果描述不确定信息的能力，其值越小，效果越好，越有利于做决策，计算如下：

式中：置信水平为1-α时，ξ值为0或1。当实际值在预测区间范围内时，ξ^(1-α)＝1；否则ξ^(1-α)＝0。u_i、l_i分别为第i个预测点置信区间上限和下限。

本发明实施例还提供一种计算机可读存储介质，该介质上存储有计算机程序，在处理器执行所述计算机程序时可实现以上所描述的方法。所述计算机可读介质可以被认为是有形的且非暂时性的。非暂时性有形计算机可读介质的非限制性示例包括非易失性存储器电路(例如闪存电路、可擦除可编程只读存储器电路或掩膜只读存储器电路)、易失性存储器电路(例如静态随机存取存储器电路或动态随机存取存储器电路)、磁存储介质(例如模拟或数字磁带或硬盘驱动器)和光存储介质(例如CD、DVD或蓝光光盘)等。计算机程序包括存储在至少一个非暂时性有形计算机可读介质上的处理器可执行指令。计算机程序还可以包括或依赖于存储的数据。计算机程序可以包括与专用计算机的硬件交互的基本输入/输出系统(BIOS)、与专用计算机的特定设备交互的设备驱动程序、一个或多个操作系统、用户应用程序、后台服务、后台应用程序等。

参照图2，本发明实施例提供一种基于EMD-QRF的用户负荷概率密度预测装置，其包括分解模块100、重构模块200、预测模块300、核密度估计模块400，其中分解模块100被配置为用EMD算法对输入的用户负荷原始时间序列数据进行分解，得到若干特征互异的IMF；重构模块200被配置为利用样本熵衡量IMF复杂度，将样本熵值相近的IMF重构为趋势分量、细节分量和随机分量；预测模块300被配置为对各分量建立QRF模型，得到不同分位点回归预测结果；核密度估计模块400被配置为将不同分量预测结果叠加获得预测值的条件分布，采用核密度估计方法从预测值条件分布结果获得概率密度预测输出。

在具体实施中，分解模块100包括包络线单元102、IMF分量计算单元104和剩余IMF分量计算单元106，通过以下过程将原始信号y(t)分解为n个IMF分量c_i(t)和一个剩余分量r_n(t)：

包络线单元102找出用户负荷时间序列y(t)中的所有极大值，通过插值法拟合其包络线为u(t)；同理识别y(t)中所有极小值，通过插值法拟合其包络线为v(t)；由此得到上下包络线的平均值m₁(t)：

IMF分量计算单元104将原始信号y(t)与m₁(t)相减得到h₁(t)：

h₁(t)＝y(t)-m₁(t)

并判断h₁(t)是否满足IMF分量条件，若不满足，则将h₁(t)视为新的信号y(t)，返回至包络线单元102处理，直到h₁(t)满足IMF条件；若满足，则得到第1个IMF分量：

c₁(t)＝h₁(t)

剩余IMF分量计算单元106将第1个IMF分量从原始信号y(t)中分离，得到相应的剩余分量：

r₁(t)＝y(t)-c₁(t)

并将剩余分量r₁(t)作为新的原始信号，返回至包络线单元102继续上述处理，从而可得到其它IMF分量和1个余量。

重构模块200包括熵值计算单元202和分量划分单元204，熵值计算单元202用于计算各模态函数样本熵值，分量划分单元204用于根据样本熵值大小对模态函数进行重构处理，得到趋势分量、细节分量和随机分量，其中趋势分量与用户负荷原始时间序列总体变化趋势一致，用于刻画用户负荷的周周期变化特征；细节分量与用户负荷原始数据变化规律相似，用于反映用户负荷日周期与周周期特征，描述人类日常活动规律；随机分量规律性差，波动强烈，一般难以预测或预测误差较大，用于反映气象因素等噪声或干扰对负荷造成的影响。

具体实施时，熵值计算单元202根据下式计算各IMF的样本熵：

SampEn(N,m,r)＝-ln[B^m+1(r)/B^m(r)]

样本熵SampEn值受到m和r取值的共同影响，N为时间序列样本个数，m为样本维数，r为容限。为任一时间序列X(j)与模板的匹配概率，i＝1,2,…,N-m+1，j≠i，num为d_m(X(i),X(j))＜r的数目，d_m(X(i),X(j))表示X(i)与X(j)两样本间对应元素的最大距离。

分量划分单元204在进行分量重构时，根据IMF及余量序列的样本熵值分布，将样本熵值与原始数据相近且都在一定阈值范围内的IMF重构为细节分量；将样本熵值相对较小，模态函数序列波动性小且变化平缓的IMF重构为趋势分量；将表现出强烈的随机性与波动性，该序列是杂乱无章的，规律性差的IMF重构为随机分量。

预测模块300包括决策树生成单元302、权重计算单元304和分位点回归预测单元306，决策树生成单元302用于以标准随机森林算法生成k棵决策树T(θ_t)，t＝1,2,…,k；权重计算单元304用于对每棵决策树每个叶节点，考察该叶节点所有观测值，计算每棵决策树观测值的权重w_i(x,θ_t)，i∈{1,2,…,n}并求其平均值作为每个观测值的权重；分位点回归预测单元306用于获得不同分位点条件下用户负荷预测结果，为实现用户负荷概率密度预测提供数据基础。

核密度估计模块400根据预测模块输出的电力负荷预测数据进行核密度估计，得到用户电力负荷的概率密度曲线。

优选地，该基于EMD-QRF的用户负荷概率密度预测装置还可以包括评价模块500，该评价模块用于对区间预测模型有效性进行评价，在具体实施中，可以采用MAPE和RMSE、FICP和FIAW四项指标，对区间预测的效果进行评判。指标计算公式同上述步骤S51-S52中，不再赘述。

下面以一具体实例验证本发明的有效性，以江苏省某用户2016年7月1日1:00时至2016年7月29日24:00时共696个(采样时间间隔为1h)负荷数据为实施对象，建立BP、SVM、QRF、EMD-BP、EMD-SVM及EMD-QRF用户负荷预测模型，并对比不同模型的预测精度，以验证本发明模型有效性。

由图3可以看出，用户负荷原始时间序列数据经EMD算法分解后得到IMF1、IMF2、IMF3、IMF4、IMF5、IMF6、IMF7共7个模态函数和1个余量序列r，且各模态函数具有一定的周期性，反映出用户负荷的周周期和日周期用电特征与规律。图4为各IMF及余量序列的样本熵值分布。结合图3和图4可以看出，IMF1样本熵值与原始数据样本熵值差别最大，模态函数表现出强烈的随机性与波动性，该序列是杂乱无章的，规律性差。IMF2-IMF5各模态函数样本熵值与原始数据相近，且都在一定阈值范围内，这些序列表现出较好的规律性。IMF6、IMF7以及r的样本熵值相对较小，模态函数序列波动性小且变化平缓。因此，依据样本熵值分布，将IMF1重构为随机分量，IMF2-IMF5重构为细节分量，IMF6、IMF7以及r重构为趋势分量，重构后的部分序列如图5所示。

对不同分量利用互信息理论从历史数据中选取输入变量。互信息描述多个线性或非线性变量间共同包含信息量的多少，对于随机变量X,Y，互信息值表示为：

式中：n、m分别为随机变量X和Y的数据总个数。

若X与Y间共同信息量很大，则说明两变量间相关性较强；若两变量间共同信息量小，甚至为0时，表示变量间相关性较弱，甚至相互独立。

设待预测时刻用户负荷为L_t，基于用户负荷的周周期和日周期特性，设置原始输入特征集合为待预测时刻前1至前168个时刻负荷值，即待选输入变量集合为{L_t-1,L_t-2,…,L_t-168}。经过测试，用户负荷原始时间序列及不同重构分量利用互信息选取输入变量集合结果如表1所示。其中，Day_type表示日期类型，并用数字1-7代表周一至周日。

表1原始数据及重构分量输入变量集合

为验证模型有效性，对该用户7月30日负荷进行提前24h预测。设置QRF模型分位点范围为0.01～0.99，步长为0.01，对每个预测点即可获得99个预测值，在此基础上获得不同置信水平下的用户负荷区间预测结果。进一步的，结合核密度估计及不同分位点预测值实现用户负荷的概率密度预测。

图6和表2分别为不同模型预测曲线及评价指标统计。可以看出，用户负荷真实值曲线基值较小且波动较大，但不同预测模型都能够较好的跟踪用户负荷变化趋势。QRF预测模型优于BP和SVM方法，体现为较小的MAPE和RMSE指标。此外，QRF模型还能够提供区间预测结果，为售电公司购售电业务提供更多的决策依据。采用EMD算法对用户负荷原始时间序列数据进行预处理后，可以进一步提高预测精度，EMD-BP、EMD-SVM及EMD-QRF模型的MAPE指标相对于BP、SVM、QRF模型分别降低了13.09％、7.25％和7.72％，RMSE指标分别降低了5.46％、10.98％和12.45％。EMD-QRF模型MAPE和RMSE指标最小，验证所提模型的有效性。同时，EMD-QRF模型区间覆盖率较高，预测结果更可靠，但以增加预测区间宽度为代价，体现FICP和FIAW指标间的矛盾性。

表2 7月30日用户负荷预测误差

采用同样步骤对该用户7月31日负荷进行提前24h预测以验证模型的适应性。图7为QRF、EMD-QRF模型预测曲线及80％置信区间范围，表3为不同模型误差指标比较。可以看出，EMD-QRF具有更好的预测性能，表现为较小的MAPE和RMSE指标。

表3 7月31日用户负荷预测误差

对QRF及EMD-QRF模型获得的条件分布采用核密度估计可给出任意时刻用户负荷概率密度预测结果，选取一天中不同时刻概率密度预测如图8所示。从图中可以看出，QRF和EMD-QRF模型以较高概率接近真实值，并可给出用户负荷的波动范围及预测值出现的概率，从而更有利于做出科学决策，具有实际应用价值。

以上仿真结果验证了本发明的有效性和实用性。相对于确定性点预测方法，概率密度预测具有描述用户负荷未来可能的波动范围及不确定性等优势。本发明能给出用户负荷未来波动范围等更多信息，有利于为售电公司购售电业务提供更多决策支撑。同时，利用EMD自适应分解算法对用户负荷原始时间序列进行预处理，能够细致把握用户负荷局部变化特征，提高了预测精度。

Claims

1.一种基于EMD-QRF的用户负荷概率密度预测方法，其特征在于，包括以下步骤：

获取实测用户负荷数据，采用经验模态分解EMD信号处理算法对用户负荷原始时间序列数据进行分解处理，得到若干特征互异的固有模态函数IMF；

对各分量建立分位数回归预测QRF模型，得到不同分位点回归预测结果，并将不同分量预测结果叠加，获得预测值的条件分布；

2.根据权利要求1所述的基于EMD-QRF的用户负荷概率密度预测方法，其特征在于：所述采用经验模态分解EMD信号处理算法对用户负荷原始时间序列数据进行分解处理，得到若干特征互异的固有模态函数IMF包括以下步骤：

S12、将原始信号y(t)与m₁(t)相减得到h₁(t)

h₁(t)＝y(t)-m₁(t)

判断h₁(t)是否满足IMF分量条件，若不满足，则将h₁(t)视为新的信号y(t)，重复步骤S11，直到h₁(t)满足IMF分量条件；若满足，则第一个IMF分量表示为：

c₁(t)＝h₁(t)

S13、从原始信号y(t)中分离出第一个IMF分量，相应的剩余分量表示为：

r₁(t)＝y(t)-c₁(t)

3.根据权利要求1所述的基于EMD-QRF的用户负荷概率密度预测方法，其特征在于：所述采用样本熵衡量IMF复杂度，将样本熵值相近的IMF重构为趋势分量、细节分量和随机分量包括以下步骤：

S21、计算各IMF样本熵值；

4.根据权利要求1所述的基于EMD-QRF的用户负荷概率密度预测方法，其特征在于：所述对各分量建立分位数回归预测QRF预测模型，得到不同分位点回归预测结果，并将不同分量预测结果叠加，获得预测值的条件分布包括以下步骤：

5.根据权利要求1所述的基于EMD-QRF的用户负荷概率密度预测方法，其特征在于：所述采用核密度估计从预测值条件分布结果获得概率密度预测输出包括：设X₁、X₂、…、X_M是取自一元连续总体的样本，在任意点x处的总体密度函数f(x)的核密度估计定义为：

式中：K(x)为核函数，h为带宽系数。

6.一种基于EMD-QRF的用户负荷概率密度预测装置，其特征在于，所述装置包括：

分解模块，用于基于经验模态分解EMD算法对输入的用户负荷原始时间序列数据进行分解，得到若干特征互异的固有模态函数IMF；

预测模块，用于对各分量建立分位数回归预测QRF模型，得到不同分位点回归预测结果，并将不同分量预测结果叠加获得预测值的条件分布；

7.根据权利要求6所述的基于EMD-QRF的用户负荷概率密度预测装置，其特征在于，所述分解模块包络线单元、IMF分量计算单元和剩余IMF分量计算单元，通过以下过程将原始信号y(t)分解为n个IMF分量c_i(t)和一个剩余分量r_n(t)：

8.根据权利要求6所述的基于EMD-QRF的用户负荷概率密度预测装置，其特征在于，所述重构模块包括熵值计算单元和分量划分单元，熵值计算单元用于计算各模态函数样本熵值，分量划分单元用于根据样本熵值大小对模态函数进行重构处理，得到趋势分量、细节分量和随机分量，其中趋势分量与用户负荷原始时间序列总体变化趋势一致，用于刻画用户负荷的周周期变化特征；细节分量与用户负荷原始数据变化规律相似，用于反映用户负荷日周期与周周期特征，描述人类日常活动规律；随机分量规律性差，波动强烈，一般难以预测或预测误差较大，用于反映气象因素等噪声或干扰对负荷造成的影响。

9.根据权利要求6所述的基于EMD-QRF的用户负荷概率密度预测装置，其特征在于，所述预测模块包括决策树生成单元、权重计算单元和分位点回归预测单元，决策树生成单元用于以标准随机森林算法生成k棵决策树T(θ_t)，t＝1,2,…,k；权重计算单元用于对每棵决策树每个叶节点，考察该叶节点所有观测值，计算每棵决策树观测值的权重w_i(x,θ_t)，i∈{1,2,…,n}并求其平均值作为每个观测值的权重；分位点回归预测单元用于获得不同分位点条件下用户负荷预测结果，为实现用户负荷概率密度预测提供数据基础。

10.一种计算机可读存储介质，该介质上存储有计算机程序，其特征在于，在处理器执行所述计算机程序时可实现权利要求1～5任一所述的方法。