CN110969293A

CN110969293A - 一种基于迁移学习的短期广义负荷预测方法

Info

Publication number: CN110969293A
Application number: CN201911159416.7A
Authority: CN
Inventors: 顾洁; 温洪林; 蔡珑; 金之俭
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2020-04-07
Anticipated expiration: 2039-11-22
Also published as: CN110969293B

Abstract

本发明公开了一种基于迁移学习的短期广义负荷预测方法，包括以下步骤：构建短期负荷预测集成模型，对短期负荷预测模型的预测误差进行分析；利用基于迭代和交叉验证的算法来求解权重；构建基于负荷时间序列分解和实例迁移的短期负荷预测模型；基于隐变量模型，让目标问题和源问题构建的一个公共模型；基于负荷仿射曲线设计隐变量提取模块；本发明通过通过在短期负荷预测问题中引入迁移学习的目标，巧妙地利用源问题与目标问题的相似性，引入源问题数据集来辅助目标问题的训练过程，能够达到提升目标问题预测效果的目标；通过利用隐变量模型能够提升预测精度；通过基于负荷仿射曲线并基于这个假设设计的隐变量提取模块，能减小计算复杂度。

Description

一种基于迁移学习的短期广义负荷预测方法

技术领域

本发明涉及电力电网技术领域，尤其涉及一种基于迁移学习的短期广义负荷预测方法。

背景技术

电力系统短期负荷预测是电力系统调度运营部门一项重要的日常工作，预测精度的高低直接影响到电力系统运行的安全性、经济性和供电质量。依据统计学的理论，模型预测的精度与数据量满足-1/2幂的关系，这意味着数据量对负荷预测模型精度的提升有重要的作用，是负荷预测精度提高的重要驱动力；

但在实际情况下，数据缺乏问题却是非常常见的现象，这就限制了负荷预测精度的提高，例如：(1)当用电场景发生变化时(例如电价调整)，负荷特性可能会有较大变化。此时，新场景下负荷预测问题尚未积累足够多的训练数据，同时原始场景下的负荷数据包含了大量的有用信息；(2)当新用户出现时，电力系统中缺乏新用户的历史负荷数据，直接使用少量的数据训练预测模型会导致较差的预测效果；(3)另可再生能源、电动汽车及主动负荷等广义新型负荷处于快速发展阶段，较难获得足够的历史数据，如何解决数据缺乏条件下的高精度广义负荷预测问题是关键之处，因此，本发明提出一种基于迁移学习的短期广义负荷预测方法，以解决现有技术中的不足之处。

发明内容

针对上述问题，本发明提出一种基于迁移学习的短期广义负荷预测方法，通过在短期负荷预测问题中引入迁移学习的目标，巧妙地利用源问题与目标问题的相似性，引入源问题数据集来辅助目标问题的训练过程，能够达到提升目标问题预测效果的目标；通过利用隐变量模型能够提升预测精度；通过基于负荷仿射曲线并基于这个假设设计的隐变量提取模块，能减小计算复杂度。

本发明提出一种基于迁移学习的短期广义负荷预测方法，包括以下步骤：

步骤一：基于传递熵和相关系数分析不同区域负荷数据集之间的相关性：

基于相关系数的负荷数据集相关性分析具体包括：将第k个数据集的历史负荷值依照时间排列构成一个向量，用y^(k)表示，y^(k)的表达公式如公式(1)所示，第k个数据集与第l个数据集之间的相关系数用M_cov(k,l)表示，M_cov(k,l)的计算公式如公式(2)所示：

基于交叉熵的负荷数据集相关性分析具体包括：对于两个变量X和Y，他们的交叉熵I(X,Y)的定义如公式(3)所示；

步骤二：构建短期负荷预测集成模型，首先将目标问题P^target的数据集用S^(target)＝(x^(target),y^(target))表示，然后将S^target作为训练集进行训练，得到的预测模型如公式(6)所示，然后再引入源问题数据集S^(k)＝(x^(k),y^(k))，然后基于源问题数据集S^(k)进行训练，得到的预测模型如公式(7)所示：

y^(target)＝f^(target)(x^(target)) (6)

y^(k)＝f^(k)(x^(k)) (7)

其中，f^(target)是由S^(target)训练得到的预测函数；

步骤三：对短期负荷预测模型的预测误差进行分析，首先将预测误差分为系统误差和随机误差，目标问题的随机误差用

表示，源问题k的随机误差用

表示，将步骤二中的公式(6)和(7)变换为公式(8)和(9)：

用

表示P^(k)中i个元素的系统误差，然后得到公式(10)，然后在公式(8)中引入然后源问题的系统误差，将公式(8)和(9)变换为公式(11)和(12)；

步骤四：设定系统误差

源问题k的随机误差

和目标问题的随机误差

均是独立的且都服从正态分布，然后使用

和

分别表示系统误差

源问题k的随机误差

目标问题的随机误差

以及

的标准差，并保证标准差均符合公式(13)；

步骤五：用w^(target)表示目标问题数据集的权重，使用w^(k)表示各个源问题数据集的权重，将短期负荷预测集成模型训练过程中的加权损失函数loss形式用公式(14)表示：

然后采用于最大似然算法推导权重的取值，优化问题的损失函数loss的表达用公式(15)表示：

最后得到目标问题P^target的数据集S^(target)和源问题数据集S^(k)所加的权重，如公式(16)和(17)所示；

步骤六：对公式(16)和(17)进行归一化处理，得到公式(18)和(19)：

其中，w^(k)的最大取值为1；

步骤七：利用基于迭代和交叉验证的算法来求解权重w^(k)和w^(target)，w^(k)通过迭代来求解，w^(target)是一个超参数，w^(target)的值由交叉验证进行确定；

步骤八：构建基于负荷时间序列分解和实例迁移的短期负荷预测模型，所述短期负荷预测模型采用的预测方法具体为：首先基于负荷时间序列分解得到去除了趋势分量和周期分量的负荷序列，然后基于实例迁移算法，使用目标问题和源问题的数据共同训练公共预测模型，最后在公共预测模型的基础上加入目标问题负荷序列的趋势分量和周期分量；

步骤九：假定目标问题和相关的预测问题可以被建模为隐变量模型，然后基于隐变量模型，让目标问题和源问题构建的一个公共模型f满足公式(20)和(21)：

k＝1，2，…，K. (21)

其中，L表示隐变量模型引入的隐变量，

表示目标问题P^(target)的第i个数据点处隐变量的取值，

表示源问题P^(k)第i个数据点处隐变量的取值；

步骤十：建立一个隐变量提取模块进行提取隐变量

和

将S^(target)的子集作为隐变量提取模块的输入；

步骤十一：当不同训练集中的数据权重不同时，根据负荷预测模型内核是否支持对训练数据加权进行分情况处理，当负荷预测模型内核不支持对训练数据加权时，使用小批量采样数据训练模型，并通过权重确定数据采样率；当负荷预测模型内核支持对训练数据加权时，直接将权重交由负荷预测模型内核处理或采用小批量采样数据训练模型；

步骤十二：对公共模型f和隐变量提取模块进行训练，具体包括：

对于手动设计隐变量的提取模块，直接训练公共模型f，以L和X作为输入，以到达缩小训练误差loss(y,y^)；

对于需要训练的隐变量提取模块，将公共模型f与隐变量提取模块的训练结合起来，将公共模型f与隐变量提取模块组合为一个整体并直接训练这个整体，

和S^(k)为这个整体的输入，以到达缩小训练误差loss(y,y^)；

步骤十三：假设不同区域的负荷曲线是一系仿射曲线，然后将目标预测问题的负荷曲线

和源预测问题的负荷曲线

假定为一系列的仿射曲线，再引入了一个基础曲线f(X_i,0)，将目标问题负荷曲线和源预测问题负荷曲线与基础曲线之间的偏差分别由

和

表示，

和

的定义如公式(22)所示；

步骤十四：将隐变量模型与迭代赋权算法的组合构建为双层迁移学习负荷预测算法框架，首先将隐变量模型作为内层，源问题的迭代赋权算法最为外层，将源问题的迭代赋权算法的负荷预测模型内核替换为隐变量模型，得到双层迁移学习负荷预测框架；

步骤十五：假定目标问题和源问题数据集完全符合公共模型f，目标问题和源问题的预测模型如公式(23)和(24)所示：

k＝1，2，…，K. (24)

然后从随机误差和系统误差两个方面目标问题和源问题的预测模型的预测误差，参照步骤二中内容将目标问题的随机误差依旧用

表示，源问题k的随机误差依旧用

表示，加入随机误差后，将公式(23)和(24)变换为公式(25)和(26)；

步骤十六：选择梯度提升树作为双层迁移学习框架的短期负荷预测模型内核，得到双层迁移学习梯度提升树算法，然后假设待求解的拟合函数在第i个样本点处的取值为

则第t个阶段结束后的拟合函数系综在第i个样本点处的取值如公式(27)所示：

第t个阶段结束后，新的系综模型的损失L^(t)的计算公式如公式(28)所示，然后根据公式(29)计算出L^(t)对任意一个

的梯度；

步骤十七：拟合L^(t)的负梯度

选择CART决策树作为基础学习器，然后基于

分裂叶子节点并生成树，假设生成的树有K^(t)个叶子节点，第k个节点包含的数据点构成集合

然后用

表示CART决策树在第k个叶子节点处的取值，则均方根误差如公式(30)所示，成功构建第t个阶段的树后，新的基于决策树的预测函数被乘以一个学习率λ后再加到第t-1个阶段结束时得到的预测函数f^(t-1)之中，则对任意的从属于树模型的第k个叶子节点的自变量X_i，第t个阶段结束时新的预测模型f^(t)(Xi)满足下公式(31)。

进一步改进在于：所述步骤一公式(3)中μ(x,y)表示随机变量X和Y的联合分布，μ_x(x)和μ_y(y)是分别变量X和Y的边缘分布，μ_x(x)和μ_y(y)满足公式(4)和(5)：

μ_x(x)＝∫dyμ(x，y) (4)

μ_y(y)＝∫dxμ(x，y) (5)

然后定义交叉熵衡量两个序列之间的相关性，当交叉熵越高，相关性越高；当两个变量完全独立时，交叉熵为0。

进一步改进在于：所述步骤十一中当采用小批量采样数据训练模型时，不同训练集中采样的样本数由公式(32)和(33)确定:

其中，N_batch表示一个小批量训练集采样的总数据量，

表示此小批量训练集在目标问题训练集中采样的数据量，

表示此小批量训练集在第k个源问题训练集中采样的数据量。

进一步改进在于：所述步骤十五的双层迁移学习负荷预测框架中，源问题的系统误差表示的是源问题与基于隐变量的公共预测模型的差别，然后加入系统误差，新的预测模型如公式(34)和(35)所示。

进一步改进在于：所述步骤十六中双层迁移学习梯度提升树算法采用均方根误差作为损失函数，当以f^(t-1)表示第t-1个阶段结束后的拟合函数系综，则在t个阶段开始前，双层迁移学习框架的短期负荷预测模型遗留下来的残差表达如公式(36)所示。

进一步改进在于：所述步骤十七中为了确定叶子节点的最优取值，需要将L^(t)对叶子节点取值求导，求导公式如公式(37)所示。

本发明的有益效果为：本发明方法通过在短期负荷预测问题中引入迁移学习的目标，巧妙地利用源问题与目标问题的相似性，引入源问题数据集来辅助目标问题的训练过程，能够达到提升目标问题预测效果的目标，通过对短期负荷预测模型的预测误差进行分析，将预测误差分为系统误差和随机误差，可以实现将较大的权重赋予与目标问题关系密切的数据集，将较小的权重赋予与目标问题无关的数据集，从而可以在正迁移与负迁移之间找到最佳的平衡点；

通过利用隐变量模型，相比于由小的目标问题数据集直接训练得到的目标问题，当把目标问题与源问题连接在一起构建公共模型时，在训练的公共模型的过程中就可以引入源问题的数据集，增大的训练数据集可以抑制模型的过拟合，且考虑到目标问题缺乏数据是迁移学习的一个基本的假设，引入额外的训练数据对提升预测精度是非常有意义的；且相比于由所有目标问题数据和源问题数据训练的公共模型，隐含参数的引入考虑了不同问题之间的不同点并避免了负迁移；通过基于负荷仿射曲线并基于这个假设设计的隐变量提取模块，能减小计算复杂度。

附图说明

图1为本发明基于迭代和交叉验证的权重求解算法流程示意图。

图2为本发明实施例中基于迭代和交叉验证的权重求解算法模型训练结果示意图。

图3隐变量模型结构示意图。

图4双层迁移学习短期复合预测算法模型结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

根据图1、2、3、4所示，本实施例提出一种基于迁移学习的短期广义负荷预测方法，包括以下步骤：

μ(x,y)表示随机变量X和Y的联合分布，μ_x(x)和μ_y(y)是分别变量X和Y的边缘分布，μ_x(x)和μ_y(y)满足公式(4)和(5)：

μ_x(x)＝∫dyμ(x，y) (4)

μ_y(y)＝∫dxμ(x，y) (5)

然后定义交叉熵衡量两个序列之间的相关性，当交叉熵越高，相关性越高；当两个变量完全独立时，交叉熵为0；

y^(target)＝f^(target)(x^(target)) (6)

y^(k)＝f^(k)(x^(k)) (7)

其中，f^(target)是由S^(target)训练得到的预测函数；

使用目标问题数据集训练一个预测模型f^(target)，并将其赋予权重w^(target)(w^(target)的值由交叉验证确定)，再加入到最终的预测模型之中，此时，集成预测模型f^(ensemble)如公式(38)所示：

表示，源问题k的随机误差用

表示，将步骤二中的公式(6)和(7)变换为公式(8)和(9)：

用

步骤四：设定系统误差

源问题k的随机误差

和目标问题的随机误差

均是独立的且都服从正态分布，然后使用

和

分别表示系统误差

源问题k的随机误差

目标问题的随机误差

以及

的标准差，并保证标准差均符合公式(13)；

然后采用于最大似然算法推导权重的取值，对于预测函数f^(target)，

表示f^(target)所有可能的选择的集合，对于集合中的任意一个预测函数

(θ表示预测函数的参数)，

是正确的预测函数的可能性计算公式如下所示：

基于最大似然算法，参数θ的可能性最大的取值

计算公式如下：

为求解最优的

优化问题的损失函数loss的表达用公式(15)表示：

其中，w^(k)的最大取值为1；

为w^(k)赋初值时，因为对于每个源问题的没有任何的了解，所以所有的源问题不应被区别对待。因此所有的源问题的权重都被初始化为一个相同的值1，在w^(target)和w^(k)已经确定的情况下，可以基于已知的权重训练内层的负荷预测模型内核，在内层的负荷预测模型内核训练好之后，可计算得到模型误差的方差

然后可基于公式(19)更新w^(k)，基于更新过的w^(k)，可开始下一轮循环，当所有w^(k)都收敛时，循环停止；

基于迭代和交叉验证的权重求解算法过程为：

本实施例中基于两个公开的数据集，2012年全球负荷预测大赛(GlobalEnergyForecastingCompetition2012，GEFCom2012)数据集和新英格兰地区独立系统调度机构(ISONewEngland，ISONE)数据集；GEFCom2012数据集包含2004年-2008年20个区域(后文中以Z1～Z20表示)的小时负荷数据、11个气象站的小时气象数据和当地的节假日列表，比赛要求参赛者预测七天后的20个区域的小时负荷和20个区域的总负荷；由于区域Z2、Z3和Z7的负荷数据满足倍数关系，因此删去区域3和区域7的数据只保留区域Z2的数据，ISONewEngland数据集由新英格兰地区的负荷数据组成；新英格兰地区独立系统调度机构将新英格兰地区分为8个区域来统计负荷，这8个区域分别是：康涅狄格(CT)、缅因(ME)、新罕布什尔(NH)、罗德岛(RI)、佛蒙特(VT)、马萨诸塞中西部(WCMA)、马萨诸塞东南部(SEMA)和马萨诸塞东北部(NEMA)；这8个区域对应8个数据集；其中，2012-2016年的数据作为训练集，2017年的数据作为测试集：

选取区域Z1的预测问题作为目标问题，对其它区域的负荷预测问题作为源问题，本实施例选取GBDT作为基本的短期负荷预测算法内核，此时，迭代赋权的短期负荷预测归纳迁移模型可被称为IterativeWeight-assignment-basedGBDT(缩写为IWA-GBDT)；w^(target)是一个超参数，他的取值由交叉验证确定，依据交叉验证的结果，本实施例选取w^(target)＝200，依照基于迭代和交叉验证的权重求解算法，模型开始训练，得到如图2所示结果，权重的收敛过程如表1所示，权重w^(target)是一个超参数，当权重w^(target)取不同的值时，基于迭代和交叉验证的权重求解算法的预测误差如表2所示：

表1

表2

k＝1，2，…，K. (21)

其中，L表示隐变量模型引入的隐变量，

表示目标问题P^(target)的第i个数据点处隐变量的取值，

表示源问题P^(k)第i个数据点处隐变量的取值；

步骤十：建立一个隐变量提取模块进行提取隐变量

和

将S^(target)的子集作为隐变量提取模块的输入；

当采用小批量采样数据训练模型时，不同训练集中采样的样本数由公式(32)和(33)确定:

其中，N_batch表示一个小批量训练集采样的总数据量，

表示此小批量训练集在目标问题训练集中采样的数据量，

表示此小批量训练集在第k个源问题训练集中采样的数据量；

隐变量提取模块不需要训练的情形下，隐变量模型的小批量训练过程如下所示：

和S^(k)为这个整体的输入，以到达缩小训练误差loss(y,y^)；

隐变量提取模块需要训练的情形下，隐变量模型的小批量训练过程如下所示：

和源预测问题的负荷曲线

和

表示，

和

的定义如公式(22)所示；

由于D_i记录了不同地区的负荷曲线的不同点，因此D_i符合对隐变量的定义，并可以被选作隐变量L_i，另外由于

(或

)并不能被直接计算，故使用

(或

)来估算

(或

)的取值，

(或

)与

(或

)的关系如下所示：

则，每个

(或

)附近的点的平均值与

(或

)相等，对附近点的

(或

)取平均值后，固有的随机误差和系统误差却能有效地相互抵消，因此选取平均过的

(或

)作为隐变量的最终取值，其推导过程如下：

其中，K_r，M表示距离点r最接近的M个点组成的集合；

对于不同的预测问题，选取参数M的原则是使M的取值与数据集数据量N成正比，此时，M与N的关系可以通过公式表达为：

其中，m是表示M与N比例的超参数。当超参数m的值确定后，可以通过下式确定M^(target)和M^(k)的取值；

M^(target)＝mN(^target)

M^(k)＝mN^(k).

无需训练的隐变量提取模块的算法流程如下所示：

双层迁移学习短期负荷预测算法如下所示：

k＝1，2，…，K. (24)

表示，源问题k的随机误差依旧用

双层迁移学习负荷预测框架中，源问题的系统误差表示的是源问题与基于隐变量的公共预测模型的差别，然后加入系统误差，新的预测模型如公式(34)和(35)所示。

的梯度；

双层迁移学习梯度提升树算法采用均方根误差作为损失函数，当以f^(t-1)表示第t-1个阶段结束后的拟合函数系综，则在t个阶段开始前，双层迁移学习框架的短期负荷预测模型遗留下来的残差表达如公式(36)所示：

步骤十七：拟合L^(t)的负梯度

选择CART决策树作为基础学习器，然后基于

然后用

表示CART决策树在第k个叶子节点处的取值，则均方根误差如公式(30)所示，成功构建第t个阶段的树后，新的基于决策树的预测函数被乘以一个学习率λ后再加到第t-1个阶段结束时得到的预测函数f^(t-1)之中，则对任意的从属于树模型的第k个叶子节点的自变量X_i，第t个阶段结束时新的预测模型f^(t)(Xi)满足下公式(31)；

为了确定叶子节点的最优取值，需要将L^(t)对叶子节点取值求导，求导公式如公式(37)所示。

本发明方法通过在短期负荷预测问题中引入迁移学习的目标，巧妙地利用源问题与目标问题的相似性，引入源问题数据集来辅助目标问题的训练过程，能够达到提升目标问题预测效果的目标，通过对短期负荷预测模型的预测误差进行分析，将预测误差分为系统误差和随机误差，可以实现将较大的权重赋予与目标问题关系密切的数据集，将较小的权重赋予与目标问题无关的数据集，从而可以在正迁移与负迁移之间找到最佳的平衡点；

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。