CN111598721A

CN111598721A - 一种基于强化学习和lstm网络的负荷实时调度方法

Info

Publication number: CN111598721A
Application number: CN202010383555.4A
Authority: CN
Inventors: 孔祥玉; 孔德谦; 孔令桐; 王晟晨; 李彬; 李志新; 田世明; 韩凝辉
Original assignee: Tianjin University; China Electric Power Research Institute Co Ltd CEPRI; State Grid Jiangsu Electric Power Co Ltd; North China Electric Power University
Current assignee: Tianjin University; China Electric Power Research Institute Co Ltd CEPRI; State Grid Jiangsu Electric Power Co Ltd; North China Electric Power University
Priority date: 2020-05-08
Filing date: 2020-05-08
Publication date: 2020-08-28
Anticipated expiration: 2040-05-08
Also published as: CN111598721B

Abstract

本发明公开了一种基于强化学习和LSTM网络的负荷实时调度方法，包括：建立负荷实时调度模型，所述模型为奖励最大化模型，同时定义目标函数；将负荷实时调度问题制定为马尔可夫决策过程；在负荷调度时段开始前，获取负荷削减信息和电价范围，并获得最近一次训练的LSTM网络；利用强化学习和LSTM网络进行最优负荷调度价格的虚拟探索；将总奖励f(X_T)最大时当前时段的价格x_t作为当前时段的负荷调度价格，并公布给用户；当前调度时段结束，得到用户的实际负荷变化；将当前时段的实际价格和用户负荷变化添加至历史数据集，更新历史数据集；根据最新的数据集重新训练LSTM网络。本发明引导用户主动削减高峰负荷，达到精准削减电网高峰负荷、保障电网安全可靠运行的目的。

Description

一种基于强化学习和LSTM网络的负荷实时调度方法

技术领域

本发明涉及负荷调度领域，尤其涉及一种基于强化学习和LSTM网络的负荷实时调度方法。

背景技术

随着可再生能源的大规模并网、电动汽车的大量使用以及空调负荷的不断攀升等多重因素的影响，电网面临的不确定性日益增大，负荷的实时调度可以实现电网负荷水平的实时调节，因而受到越来越广泛的重视。随着信息和通讯技术的进步，使得负荷的实时调度方式得以实现。电力市场化改革的推进让用户负荷参与电网调度成为可能，如何实现用户负荷的实时调度，以达到精准削减电网高峰负荷的目的，成为一个亟需解决的问题。

尽管对于用户负荷的实时调度已经有了很多研究，但在一些方面仍存在局限。首先，很多方法建立了用户的具体负荷变化模型，事实上，在从未实施过用户负荷调度的地区，用户的负荷变化模型是无法得知的。其次，大多数方法忽略了不同时段用户负荷变化的差异，事实上不同时段的用户负荷变化是不相同的，将所有时段统一考虑可能会导致偏差。

因此，在没有任何用户先验知识的情况下，现有的技术无法做到精准调度用户负荷。

发明内容

本发明提供了一种基于强化学习和LSTM网络的负荷实时调度方法，本发明充分利用用户历史信息，引导用户主动削减高峰负荷，达到精准削减电网高峰负荷、保障电网安全可靠运行的目的，详见下文描述：

一种基于强化学习和LSTM网络的负荷实时调度方法，所述方法包括以下步骤：

建立负荷实时调度模型，所述模型为奖励最大化模型，同时定义目标函数；

将负荷实时调度问题制定为马尔可夫决策过程；在负荷调度时段开始前，获取负荷削减信息和电价范围，并获得最近一次训练的LSTM网络；

利用强化学习和LSTM网络进行最优负荷调度价格的虚拟探索；将总奖励f(X_T)最大时当前时段的价格x_t作为当前时段的负荷调度价格，并公布给用户；

当前调度时段结束，得到用户的实际负荷变化；将当前时段的实际价格和用户负荷变化添加至历史数据集，更新历史数据集；根据最新的数据集重新训练LSTM网络。

其中，所述目标函数为：

其中，T表示一日内高峰时段数量，X_T＝{x₁,x₂,…,x_T}表示一日内高峰时段需要设定的负荷调度价格集合。

进一步地，所述将负荷实时调度问题制定为马尔可夫决策过程具体为：

将决策变量即时段t的价格x_t作为动作a_t，将所有用户的总负荷变化D_total,t作为环境状态s_t，将时段t的奖励f(x_t)作为环境的奖励r_t，将P(s_t,a_t,s_t+1)表示为在环境状态s_t时采取动作a_t使环境状态转移到s_t+1的概率。

其中，所述方法还包括：

建立用户历史数据集，用H₁表示，

H₁＝{(x₁,D₁),(x₂,D₂),…,(x_t-1,D_t-1),(x_t,D_t)}

其中，(x_t,D_t)为一次负荷调度的数据对；

对历史数据集H₁进行扩展，使其包含过去时段的信息，用H₂表示，

H₂＝{(I₁,D₁),(I₂,D₂),…,(I_t-1,D_t-1),(I_t,D_t)}

其中，I_t表示与当前时段的负荷变化可能相关的特征量，不仅包含了当前时段的价格，还包含了之前时段的价格和负荷变化：

I_t＝{x_t-L,D_t-L,…,x_t-₂,D_t-2,x_t-1,D_t-1,x_t}

其中，L为时间步长。

进一步地，所述方法还包括：

在训练时，用历史数据集H₂中的特征量{I₁,I₂,…,I_t}作为网络的输入，用对应的用户总负荷变化{D₁,D₂,…,D_t}作为网络的输出，用来训练LSTM网络。

进一步地，所述利用强化学习和LSTM网络进行最优负荷调度价格的虚拟探索具体为：

在当前虚拟时段t，用贪婪策略选择一个价格x_t；

将价格x_t和最新的历史数据集制定成时间序列形式，输入到LSTM网络，预测得到x_t对应的负荷变化；

计算价格x_t的对应奖励f(x_t)；使用价格x_t，到达下一个虚拟时段，基于其所有可能的价格，获得下一个时段最大的Q值maxQ(s_t+1,a_t+1)，更新矩阵Q：

设置下一个时段作为当前时段，最后一个时段结束时计算价格序列对应的总奖励。

本发明提供的技术方案的有益效果是：

(1)相较于现有技术中建立用户具体负荷变化模型的技术方案，本发明通过结合LSTM网络强大的预测能力，利用强化学习算法进行最优负荷调度价格的虚拟探索，可以有效利用用户历史负荷变化信息，从而达到精准削减电网高峰负荷的目的；

(2)相对于现有技术中的短视优化方法，即只对当前时段的负荷进行最优调度，不考虑对未来时段的影响，本发明由于考虑不同时段的负荷最优调度对用户其他时段负荷变化的影响，可以避免进行单个时段负荷的最优调度时对其他时段负荷调度产生的负效用，以减小电网负荷高峰时段实时调度的偏差；

(3)相对于现有技术中将所有时段无偏差考虑的方法，本发明利用历史价格和负荷变化作为当前时段的影响因素，在不同时段训练不同的负荷变化模型，考虑了用户在不同时段的负荷差异。

因此，本发明可以充分利用已有的用户历史负荷变化信息，为用户负荷变化模型未知地区的负荷实时调度问题，提供一个精准削减电网高峰负荷的方案。

附图说明

图1为本发明的流程图；

图2为本发明面向的电力市场架构；

图3为负荷实时调度问题的马尔可夫决策过程定义；

图4为负荷实时调度过程示意图；

图5为LSTM网络的训练和预测过程；

图6为本发明方法的实际实施过程示意图；

图7为300天当天本发明方法和只利用强化学习方法进行负荷实时调度得到的奖励对比。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

为了解决背景技术中存在的问题，本发明实施例利用强化学习进行负荷的实时动态调度，利用LSTM网络预测用户的负荷变化，可以有效利用用户历史负荷变化信息，准确地实时调度用户负荷，避免非充分利用用户历史信息时偏差过大的情形。

实施例1

一种基于强化学习和LSTM网络的负荷实时调度方法，参见图1，该方法包括以下步骤：

101：建立负荷实时调度模型；

其中，该步骤具体为：在每个调度时段t，x_t为负荷调度价格，f(x_t)为当前调度时段的奖励，其目标是在每个当前时段t，实时制定合适的价格x_t，使其一日内的奖励f(X_T)最大。将负荷实时调度模型建立为奖励最大化模型，目标函数为

其中T表示一日内高峰时段数量，X_T＝{x₁,x₂,…,x_T}表示一日内高峰时段需要设定的负荷调度价格集合。

102：将负荷实时调度问题制定为马尔可夫决策过程；

103：在负荷调度时段开始前，获取负荷削减信息和电价范围，并获得最近一次训练的LSTM网络；

104：在每个负荷调度时段开始时，利用强化学习算法和LSTM网络进行最优负荷调度价格的虚拟探索。

进一步地，在步骤104中，虚拟探索方法由强化学习算法和LSTM网络构成，其基本步骤为：

1041：在当前虚拟时段t，用贪婪策略选择一个价格x_t；

1042：将价格x_t和最新的历史数据集制定成时间序列形式，输入到LSTM网络，预测得到x_t对应的负荷变化；

1043：计算价格x_t的对应奖励f(x_t)；

1044：使用价格x_t，到达下一个虚拟时段，基于其所有可能的价格，获得下一个时段最大的Q值maxQ(s_t+1,a_t+1)，更新矩阵Q：

Q(s_t,a_t)＝Q(s_t,a_t)+α(f(x_t)+γmaxQ(s_t+1,a_t+1)-Q(s_t,a_t))；

1045：设置下一个时段作为当前时段，最后一个时段结束时计算价格序列对应的总奖励

105：将总奖励f(X_T)最大时当前时段的价格x_t作为当前时段的负荷调度价格，并公布给用户；

106：当前调度时段结束，得到用户的实际负荷变化；

107：将当前时段的实际价格和用户负荷变化添加至历史数据集，更新历史数据集；

108：一天结束时根据最新的数据集重新训练LSTM网络。

实施例2

下面结合具体的计算公式对实施例1中的方案进行进一步地介绍，详见下文描述：

本发明所提方法用于进行负荷削减或提升服务时起到聚合用户作用的电力服务机构。电力服务机构进行用户负荷调度的架构如图2所示，图中绘制了电力服务机构在负荷调度的过程中与电网运营机构以及用户之间的关系，以下是实施例的具体实施方式。

201：建立负荷实时调度模型；

将时段t的奖励设定为f(x_t)，如式(1)所示。

f(x_t)＝f_r(x_t)-f_p(x_t) (1)

其中，x_t为在时段t需要制定的负荷调度价格，单位为$/kWh，f_r(x_t)表示时段t的净收入，f_p(x_t)表示在时段t由于总负荷变化的偏差带来的惩罚费用，分别如式(2)和(3)所示。

f_r(x_t)＝(λ_r,t-x_t)D_total,t (2)

f_p(x_t)＝λ_p,t|D_to_tal,t-D_bid,t| (3)

式(2)中，λ_r,t表示时段t的单位补偿价格，单位为$/kWh。D_total,t表示时段t所有用户的总负荷变化，单位为kWh。式(3)中，λ_p,_t和D_bid,t分别表示时段t的单位惩罚价格和负荷削减量，单位分别为$/kWh和kWh，|D_to_tal,t-D_bid,t|表示实际负荷削减与事先确定的负荷削减之间的偏差。

设定负荷调度的目标是在每个当前时段t，实时制定合适的价格x_t，使其一日内的奖励f(X_T)最大。负荷实时调度模型的目标函数为：

约束条件为：

其中，

表示负荷削减的平衡，即电网获得的总负荷削减等于所有用户的负荷削减之和，d_i,t为用户i在时段t的负荷削减，单位为kWh，N为用户的数量；

表示负荷调度价格范围约束，x_t和

分别表示负荷调度价格的上下限。

202：将负荷实时调度问题制定成马尔可夫决策过程；

负荷实时调度问题可以制定成马尔可夫决策过程，将决策变量即时段t的价格x_t看成动作a_t，将所有用户的总负荷变化D_total,t看作是环境状态s_t。

将时段t的奖励f(x_t)看成是环境的奖励r_t，将P(s_t,a_t,s_t+1)表示为在环境状态s_t时采取动作a_t使环境状态转移到s_t+1的概率。以上就定义了强化学习的四个要素，如图3所示。

采用常用的Q学习算法来解决马尔可夫决策过程。将Q学习算法设置为实时运行，在每个时段开始时进行虚拟探索，通过探索当前时段及其当天剩余时段的奖励序列，获取总奖励最大时的价格序列作为最优价格序列。然后将最优价格序列的第一个价格作为当前时段的实际负荷调度价格公布给用户。

例如在一天的第一个高峰时段，通过Q学习算法探索当天T个时段的奖励序列{r₁,r₂,…,r_T}，获取总奖励最大时对应的价格序列{x₁,x₂,…,x_T}，然后将第一个价格x₁作为一天初始时段的价格。

在第一个时段结束即第二个时段开始时，已获知第一个时段的实际负荷变化D_total,1，这时更新历史数据集H₁和H₂，继续探索剩余T-1个时段的奖励序列{r₂,r₃…,r_T}，获取总奖励最大时对应的价格序列{x₂,x₃,…,x_T}，然后将a₂作为第二个时段的价格。

以此类推，随着一天内前面负荷调度时段价格的不断确定和公布，后续需要探索的时段越来越少，以至于到最后一个时段时，只需要确定使当前时段奖励最大的价格即可。负荷实时调度的过程示意图如图4所示，其中每一行表示当前时段可以探索到的最优负荷调度价格序列，深灰色为当前时段制定的实际负荷调度价格。

203：获取相关负荷削减信息和最近一次训练的LSTM网络；

在负荷调度时段开始前，电力服务机构通过竞价或协商的方式向电网运营机构发送申请信息，然后得到电网运营机构的反馈，得到负荷削减信息和电价范围：

T,D_bid,t,λ_r,t,λ_p,t,

获取最近一次训练的LSTM网络；初始化t＝1，为虚拟探索过程做好准备。

训练LSTM网络首先需要建立相关的数据集，在初始实施负荷实时调度的地区，用户负荷变化数据逐渐增多。

为了保存用户的历史负荷变化信息，建立用户历史数据集，用H₁表示。

H₁＝{(x₁,D₁),(x₂,D₂),…,(x_t-1,D_t-1),(x_t,D_t)} (6)

其中，(x_t,D_t)为一次负荷调度的数据对。

对历史数据集H₁进行扩展，使其包含过去时段的信息，用H₂表示。

H₂＝{(I₁,D₁),(I₂,D₂),…,(I_t-1,D_t-1),(I_t,D_t)} (7)

其中，I_t表示与当前时段的负荷变化可能相关的特征量，不仅包含了当前时段的价格，还包含了之前时段的价格和负荷变化，如下所示。

I_t＝{x_t-L,D_t-L,…,x_t-2,D_t-2,x_t-1,D_t-1,x_t} (8)

其中，L为时间步长。

在利用LSTM网络进行训练之前，首先需要对数据进行归一化，采用的归一化方法如下。

其中，z_max和z_min分别表示数据集z的最大值和最小值，z_i和z_i*分别为归一化前后的数据。

每次进行训练时，将历史数据集H₂划分为训练集和验证集，将前90％的数据作为训练集，将后10％的数据作为验证集，并用后续一天的数据作为测试集。

用均方根误差(Root Mean Square Error，RMSE)作为LSTM网络的损失函数，计算公式为：

其中，D_i和

分别代表用户负荷变化的实际值和预测值，n为数据量。

由于每个时段的特性不同，需要分别训练不同时段的网络参数。在训练时，用历史数据集H₂中的特征量{I₁,I₂,…,I_t}作为网络的输入，用对应的用户总负荷变化{D₁,D₂,…,D_t}作为网络的输出，用来训练LSTM网络。建立LSTM网络的训练和预测过程，如图5所示。

204：在每个负荷调度时段开始时，利用强化学习算法和LSTM网络进行最优负荷调度价格的虚拟探索；

在每个负荷调度时段开始时，用贪婪策略选择一个价格x_t。设置探索策略为ε贪婪策略，即在算法运行过程中，用ε的概率去探索未知的价格，用1-ε的概率利用以往的经验。并且设置ε是随着算法运行次数增加而逐渐增大的，即在初始时段主要用来探索不同的动作，在一定数量的积累之后，主要利用先前的经验。ε的设置如下：

其中，episode表示总迭代次数，i表示当前的迭代次数，且i∈[0,episode]。

将价格x_t和最新的历史数据集H₂制定成时间序列形式，输入到LSTM网络，预测得到x_t对应的负荷变化D_total,t。在预测时，将t+1时段的特征量I_t+1输入到训练好的LSTM网络，就可以预测得到对应的负荷变化D_t+1，如图5所示。

计算价格x_t的对应奖励f(x_t)＝(λ_r,t-x_t)D_total,t-λ_p,t|D_total,t-D_bid,t|。

使用价格x_t，到达下一个虚拟时段，基于其所有可能的价格，获得下一个时段最大的Q值maxQ(s_t+1,a_t+1)，更新矩阵Q：

Q(s_t,a_t)＝Q(s_t,a_t)+α(f(x_t)+γmaxQ(s_t+1,a_t+1)-Q(s_t,a_t))

设置下一个时段作为当前时段，最后一个时段结束时计算价格序列对应的总奖励

当达到最大迭代次数时，输出总奖励最大时对应的当前时段的价格。

205：将总奖励f(X_T)最大时当前时段的价格x_t作为当前时段的实际负荷调度价格，并公布给用户，用户自主进行负荷的调整；

206：当前调度时段结束后，得到用户实际负荷变化量D_t；

207：将当前时段实际的价格和用户的负荷变化(x_t,D_t)添加至历史数据集H₂，更新历史数据集。

208：一天结束时根据最新的数据集H₂重新训练LSTM网络。

其中，详细的训练过程参见步骤203和图5，在此不再赘述。

本发明的主要步骤在实际中的应用流程如图6所示，电力服务机构通过竞价或协商的方式向电网运营机构发送申请信息，然后得到电网运营机构的反馈，确定负荷削减的时段和信息。在每个调度时段开始时执行虚拟探索的部分。

通过对以上实施例进行仿真分析，本发明得到的有益效果如图7所示。图7对比了300天当天本发明方法和只利用强化学习进行负荷实时调度得到的奖励对比，上图表示只利用强化学习的实际探索过程，下图表示本发明方法的虚拟探索过程。从对比结果可以看出，在实际中只利用强化学习进行实时调度是鲁莽的，现实情况也不允许采用这种探索效率过低的行为。而利用预测的方式进行虚拟探索就可以有效地利用历史信息，避免实际数据过少和波动带来的探索效率过低的弊端，从而达到精准削减高峰负荷的目的。

综上所述，本发明实施例提供了一种基于强化学习和LSTM网络的负荷实时调度方法，可以解决用户负荷变化模型未知地区的负荷实时调度问题。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于强化学习和LSTM网络的负荷实时调度方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的一种基于强化学习和LSTM网络的负荷实时调度方法，其特征在于，所述目标函数为：

3.根据权利要求1所述的一种基于强化学习和LSTM网络的负荷实时调度方法，其特征在于，所述将负荷实时调度问题制定为马尔可夫决策过程具体为：

4.根据权利要求1所述的一种基于强化学习和LSTM网络的负荷实时调度方法，其特征在于，所述方法还包括：

建立用户历史数据集，用H₁表示，

H₁＝{(x₁,D₁),(x₂,D₂),…,(x_t-1,D_t-1),(x_t,D_t)}

其中，(x_t,D_t)为一次负荷调度的数据对；

H₂＝{(I₁,D₁),(I₂,D₂),…,(I_t-1,D_t-1),(I_t,D_t)}

其中，L为时间步长。

5.根据权利要求4所述的一种基于强化学习和LSTM网络的负荷实时调度方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的一种基于强化学习和LSTM网络的负荷实时调度方法，其特征在于，所述利用强化学习和LSTM网络进行最优负荷调度价格的虚拟探索具体为：

在当前虚拟时段t，用贪婪策略选择一个价格x_t；