CN113902176A

CN113902176A - 基于深度强化学习的电力系统源-荷前瞻调度方法及装置

Info

Publication number: CN113902176A
Application number: CN202111112177.7A
Authority: CN
Inventors: 虞泽宽; 张广伦; 肖彤; 王心月; 钟海旺; 夏清; 康重庆
Original assignee: Tsinghua University; State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; Electric Power Research Institute of State Grid Anhui Electric Power Co Ltd
Current assignee: Tsinghua University; State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; Electric Power Research Institute of State Grid Anhui Electric Power Co Ltd
Priority date: 2021-09-18
Filing date: 2021-09-18
Publication date: 2022-01-07

Abstract

本申请提出一种基于深度强化学习的电力系统源‑荷前瞻调度方法和装置，其中，方法包括：获取电力系统经济运行基础数据，根据电力系统经济运行基础数据构建电力系统源‑荷前瞻调度模型，以构建含需求侧响应的电力系统前瞻调度模型；基于电力系统前瞻调度模型，设计状态空间、动作空间和奖励函数，以设计电力系统经济调度问题的时序决策机制；根据时序决策机制，将深度强化学习算法应用于电力系统前瞻调度模型，并对深度强化学习算法进行改进与应用，得到基于深度强化学习的前瞻调度策略。本发明为供需充分互动、大量主体参与、不确定性提升的智能电网经济优化调度提供了解决方案，提升电力系统调度的决策速度、可靠性、自动化与智能化水平。

Description

基于深度强化学习的电力系统源-荷前瞻调度方法及装置

技术领域

本发明涉及电力系统优化调度与强化学习技术领域，特别涉及一种基于深度强化学习的电力系统源-荷前瞻调度方法及装置。

背景技术

随着我国新型电力系统建设的逐步推进，传统电网正逐步发展成为大量主体参与的复杂电力系统，源-荷互动的加强显著增加了参与电力系统运行的主体数量。此外，逐年提升的新能源渗透率也为电力系统运行带来了一定的不确定性，增加了电力系统优化运行的难度。传统的人工日前调度方式难以适应这一新变化，而更加灵活高效的数据驱动方法为解决未来智能电网运行问题提供了可行方案，例如强化学习算法。

现有的研究已将强化学习技术应用于智能电网运行与管理的一些方向。在智能微电网领域，已有研究将强化学习算法应用于智能微网的储能管理策略。有文献将强化学习算法应用于含可再生能源的电-热综合能源系统储能管理中，形成了中长期可持续的自动化能量管理策略。在需求侧响应领域，也有研究将强化学习算法应用于需求侧响应主体的管理与定价策略等问题。有研究将强化学习算法应用于基于价格的需求侧响应定价，智能体生成的定价策略能够提升系统鲁棒性、降低负荷服务商成本。在电力系统调度领域，需求侧响应同样被应用于高实时性的智能调度策略生成问题。有文献将强化学习算法应用于含可再生能源的电力系统多目标优化调度，以最小化系统运行成本、最大化可再生能源消纳。

现有的将强化学习应用于电力系统相关问题的研究主要集中于以上三方面，尚无将强化学习应用于电力系统前瞻优化调度的文献。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的目的是填补强化学习在电力系统前瞻优化调度应用的空白，提出了一种基于深度强化学习的电力系统源-荷前瞻调度方法，本发明将深度强化学习应用于电力系统前瞻优化调度，并考虑了需求侧响应，从而为供需充分互动、大量主体参与、不确定性提升的智能电网经济优化调度提供了解决方案。

本发明的第二个目的在于提出一种基于深度强化学习的电力系统源-荷前瞻调度装置。

为达上述目的，本发明第一方面实施例提出了一种基于深度强化学习的电力系统源-荷前瞻调度方法，包括：

获取电力系统经济运行基础数据，根据所述电力系统经济运行基础数据构建电力系统源-荷前瞻调度模型，以构建含需求侧响应的电力系统前瞻调度模型；

基于所述电力系统前瞻调度模型，设计状态空间、动作空间和奖励函数，以设计电力系统经济调度问题的时序决策机制；

根据所述时序决策机制，将深度强化学习算法应用于所述电力系统前瞻调度模型，并对所述深度强化学习算法进行改进与应用，得到基于深度强化学习的前瞻调度策略。

另外，根据本发明上述实施例的基于深度强化学习的电力系统源-荷前瞻调度方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述电力系统经济运行基础数据，包括：

机组出力上下限、机组爬坡增减速率上下限、机组成本函数、需求侧响应负荷上限和需求侧响应价格函数。

进一步地，在本发明的一个实施例中，所述根据所述电力系统经济运行基础数据构建电力系统源-荷前瞻调度模型，包括：

1)建立电力系统运行约束条件，表达式如下：

其中，(1)为系统功率平衡约束；式中

为发电机组i在时段t的出力，N_g为可调度机组的数目；

是电网中母线j在时段t的负荷，N_b为电网中母线的数量；

为需求侧响应主体k在时段t削减的负荷，N_dr为需求侧响应主体总数；

式(2)为发电机组出力约束；式中

为发电机组i的出力上下限；

式(3)为各机组的增、减出力速率约束；式中

分别为机组i在相邻时段增加、减少出力上限；式中Δt为单位时间间隔；

式(4)为各需求侧响应主体削减负荷约束；式中αd_r,i为需求侧响应主体i的最大负荷削减比率，B(i)表示需求侧响应主体i所在的系统母线编号，

为其在t时刻的最大负荷削减量；

上述四项约束中，时刻t代表前瞻窗口0,1,...,T-1的任意时刻；

2)确定电力系统经济调度目标函数，表达式如下：

其中，(5)为目标函数；前瞻窗口内总运行成本最小，包含发电机组运行总成本(6)与需求侧响应总成本(7)；

式(6)为发电机组运行总成本，由各个发电机的成本函数(8)求和而得；式(8)为各个发电机的成本函数，采用二次函数的形式，a_g,i、b_g,i与c_g,i为其系数；

式(7)为需求侧响应总成本，由各个需求侧响应主体的成本函数(9)求和而得；式(9)为各个需求侧响应主体的成本函数，采用K_i+1段的分段函数形式，

为各段斜率，

为各段截距，

为分段点。

进一步地，在本发明的一个实施例中，所述设计状态空间，表达式如下：

其中，(10)为状态向量定义，状态量包含上一时刻发电机组出力(11)、前瞻窗口内母线负荷(12)与当前时刻t(15)；

式(11)为t时刻发电机组出力状态向量，包含所有N_g台发电机的出力状态值(13)；

式(12)为t时刻母线负荷状态向量，包含所有N_b条母线的负荷状态值(14)；

式(13)、式(14)与式(15)均使用以下归一化函数将有名值按照对应的上下界归一化：

其中，x为有名值，

为归一化结果，L为x的下界，U为上界；

式(14)中，

与

为母线j在整个训练时段0,1,…,T_train-1中负荷的最大值与最小值，所述

与所述

的上下限仅与训练时刻的负荷状况有关，测试与应用时仍需使用所述

与所述

的上下限值；式(15)中T_train为总训练时长。

进一步地，在本发明的一个实施例中，所述设计动作空间，表达式如下：

其中，(17)为动作向量定义，动作量包含前瞻窗口内所有时刻的发电机组出力(18)与需求侧响应削减负荷(19)；

式(18)为t时刻发电机组出力动作向量，包含除平衡机组外所有N_g-1台发电机的出力动作值(20)，平衡机组的出力根据系统功率平衡约束(1)计算得到；

式(19)为t时刻需求侧响应主体削减负荷动作向量，包含所有N_dr个主体的负荷削减动作值(21)；

式(20)与式(21)均使用式(16)的归一化函数将有名值按照对应的上下界归一化。

进一步地，在本发明的一个实施例中，所述设计奖励函数，表达式如下：

R^t＝(1-I(M^t,M^t+1,...,M^t+T-1))R (25)

其中，(22)为奖励函数定义，包含最小化前瞻窗口内总运行成本(23)、罚项(24)与奖励项(25)；

式(23)为t时刻系统运行成本，包含发电机组运行成本与需求侧响应成本；

式(24)为罚项，其中M_g与M_r为机组出力约束(2)与爬坡约束(3)的惩罚系数，

与

由式(26)与式(27)定义，分别为机组出力约束与爬坡约束的越界值；

式(25)为奖励项，其中I(·)为逻辑函数：若M^t,M^t+1,…,M^t+T-1均为0，前瞻窗口内所有时刻均无越限情况，则I＝0，R^t＝R为一正奖励值；若前瞻窗口内存在越限情况，则I＝1，R^t＝0无奖励。

进一步地，在本发明的一个实施例中，对所述深度强化学习算法进行改进与应用，包括：预训练智能体、训练智能体、测试与应用智能体，其中所述深度强化学习算法采用深度确定性策略梯度算法。

进一步地，在本发明的一个实施例中，所述预训练智能体，包括：

准备预训练数据，将真实的历史调度数据按照所述状态空间、动作空间与奖励函数定义进行转换，供智能体训练；以及，

分别对动作和评价网络进行预训练，并使用相同的参数初始化专家网络。

进一步地，在本发明的一个实施例中，所述训练智能体，包括：

令所述智能体在时序决策过程中与环境进行交互，并在经验回放池中存储所有交互经验，将不越限的经验额外存储进单独的经验回放池；以及，

每决策一定次数，从两个经验回放池中随机抽取经验样本对智能体网络进行更新，并更新专家网络参数。

本发明实施例的基于深度强化学习的电力系统源-荷前瞻调度方法，通过获取电力系统经济运行基础数据，根据电力系统经济运行基础数据构建电力系统源-荷前瞻调度模型，以构建含需求侧响应的电力系统前瞻调度模型；以及，基于电力系统前瞻调度模型，设计状态空间、动作空间和奖励函数，以设计电力系统经济调度问题的时序决策机制；根据时序决策机制，将深度强化学习算法应用于电力系统前瞻调度模型，并对深度强化学习算法进行改进与应用，得到基于深度强化学习的前瞻调度策略。本发明将深度强化学习应用于电力系统前瞻优化调度，并考虑了需求侧响应，可服务于多主体参与的智能电网前瞻优化调度，有利于提升电力系统调度的决策速度、可靠性、自动化与智能化水平。

为达上述目的，本发明第二方面实施例提出了一种基于深度强化学习的电力系统源-荷前瞻调度装置，包括：

构建模块，用于获取电力系统经济运行基础数据，根据所述电力系统经济运行基础数据构建电力系统源-荷前瞻调度模型，以构建含需求侧响应的电力系统前瞻调度模型；并基于所述电力系统前瞻调度模型，设计状态空间、动作空间和奖励函数，以设计电力系统经济调度问题的时序决策机制；

优化模块，用于根据所述时序决策机制，将深度强化学习算法应用于所述电力系统前瞻调度模型，并对所述深度强化学习算法进行改进与应用，得到基于深度强化学习的前瞻调度策略。

本发明实施例的基于深度强化学习的电力系统源-荷前瞻调度装置，通过构建模块，用于获取电力系统经济运行基础数据，根据电力系统经济运行基础数据构建电力系统源-荷前瞻调度模型，以构建含需求侧响应的电力系统前瞻调度模型；并基于电力系统前瞻调度模型，设计状态空间、动作空间和奖励函数，以设计电力系统经济调度问题的时序决策机制；优化模块，用于根据时序决策机制，将深度强化学习算法应用于电力系统前瞻调度模型，并对深度强化学习算法进行改进与应用，得到基于深度强化学习的前瞻调度策略。本发明将深度强化学习应用于电力系统前瞻优化调度，并考虑了需求侧响应，可服务于多主体参与的智能电网前瞻优化调度，有利于提升电力系统调度的决策速度、可靠性、自动化与智能化水平。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的基于深度强化学习的电力系统源-荷前瞻调度方法的流程图；

图2为根据本发明一个实施例的基于深度强化学习的电力系统源-荷前瞻调度方法的流程框图；

图3为根据本发明一个实施例的基于深度强化学习的电力系统源-荷前瞻调度装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的基于深度强化学习的电力系统源-荷前瞻调度方法和装置。

图1为本发明实施例所提供的一种基于超图结构的大规模数据分类方法的流程图。

如图1所示，该基于超图结构的大规模数据分类方法包括以下步骤：

步骤S1，获取电力系统经济运行基础数据，根据电力系统经济运行基础数据构建电力系统源-荷前瞻调度模型，以构建含需求侧响应的电力系统前瞻调度模型。

具体地，如图2所示：

1)构建含需求侧响应的电力系统前瞻调度模型，包括2步：获取电力系统经济运行基础数据、构建电力系统源-荷前瞻调度模型；

1-1)获取电力系统经济运行基础数据：

所述电力系统经济运行基础数据包括机组出力上下限、机组爬坡增减速率上下限、机组成本函数、需求侧响应负荷上限、需求侧响应价格函数；

1-2)构建电力系统源-荷前瞻调度模型：

1-2-1)建立电力系统运行约束条件，表达式如下：

其中(1)为系统功率平衡约束；式中

为发电机组i在时段t的出力，N_g为可调度机组的数目；

是电网中母线j在时段t的负荷，N_b为电网中母线的数量；

式(2)为发电机组出力约束；式中

为发电机组i的出力上下限；

式(3)为各机组的增、减出力速率约束；式中

式(4)为各需求侧响应主体削减负荷约束；式中α_dr,i为需求侧响应主体i的最大负荷削减比率，B(i)表示需求侧响应主体i所在的系统母线编号，

即为其在t时刻的最大负荷削减量；

上述四项约束中，除非特殊说明，时刻t均代表前瞻窗口0,1,...,T-1的任意时刻；

1-2-2)确定电力系统经济调度目标函数，表达式如下：

其中(5)为目标函数，即前瞻窗口内总运行成本最小，包含发电机组运行总成本(6)与需求侧响应总成本(7)；

为各段斜率，

为各段截距，

为分段点。

步骤S2，基于电力系统前瞻调度模型，设计状态空间、动作空间和奖励函数，以设计电力系统经济调度问题的时序决策机制。

具体地，如图2所示：

2)设计电力系统经济调度问题的时序决策机制，包括3步：设计状态空间、设计动作空间、设计奖励函数；

2-1)设计状态空间，表达式如下：

其中(10)为状态向量定义，状态量包含上一时刻发电机组出力(11)、前瞻窗口内母线负荷(12)与当前时刻t(15)；

其中x为有名值，

为归一化结果，L为x的下界，U为上界；

式(14)中，

与

为母线j在整个训练时段0,1,…,T_train-1中负荷的最大值与最小值，该上下限仅与训练时刻的负荷状况有关，测试与应用时仍需使用该上下限值；式(15)中T_train为总训练时长；

2-2)设计动作空间，表达式如下：

其中(17)为动作向量定义，动作量包含前瞻窗口内所有时刻的发电机组出力(18)与需求侧响应削减负荷(19)；

式(18)为t时刻发电机组出力动作向量，包含除平衡机组外所有N_g-1台发电机的出力动作值(20)，平衡机组的出力不由算法给出，而是根据系统功率平衡约束(1)计算得到；

式(20)与式(21)均使用式(16)的归一化函数将有名值按照对应的上下界归一化；

2-3)设计奖励函数，表达式如下：

R^t＝(1-I(M^t,M^t+1,...,M^t+T-1))R (25)

其中(22)为奖励函数定义，包含最小化前瞻窗口内总运行成本(23)、罚项(24)与奖励项(25)；由于智能体优化目标为最大化奖励，式中运行成本项前有负号，以最小化总成本；

与

式(25)为奖励项，其中I(·)为逻辑函数：若Mt,M^t+1,…,M^t+T-1均为0，即前瞻窗口内所有时刻均无越限情况，则I＝0，R^t＝R为一正奖励值；若前瞻窗口内存在越限情况，则I＝1，R^t＝0无奖励。

步骤S3，根据时序决策机制，将深度强化学习算法应用于电力系统前瞻调度模型，并对深度强化学习算法进行改进与应用，得到基于深度强化学习的前瞻调度策略。

具体地，如图2所示：

3)应用与改进深度强化学习算法，包括3步：预训练、训练、测试与应用；本专利采用深度确定性策略梯度算法(DDPG)作为深度强化学习算法，以下步骤均针对该算法；

3-1)预训练智能体：在正式训练智能体前，需利用历史数据对智能体的网络进行预训练，以初始化其参数，加速正式训练的收敛：

3-1-1)准备预训练数据，将真实的历史调度数据按照步骤2)中的状态空间、动作空间与奖励函数定义进行转换，供智能体训练；

3-1-2)使用梯度下降法等方法分别对动作和评价网络进行预训练，并使用相同的参数初始化专家网络；

3-2)训练智能体：依据DDPG算法的定义，将智能体置于环境中，令其在与环境的交互中学习经验；

3-2-1)令智能体在时序决策过程中与环境进行交互，并在经验回放池中存储所有交互经验，将不越限的经验额外存储进单独的经验回放池；

3-2-2)每决策一定次数，从两个经验回放池中随机抽取经验样本对智能体网络进行更新，并更新专家网络参数；

3-3)测试与应用智能体：智能体训练完成后，只需将其再次放入环境中与之交互，并收集其每一步的决策，即可得到基于深度强化学习的前瞻调度策略。

本发明实施例的提出的基于深度强化学习的电力系统源-荷前瞻调度方法，通过获取电力系统经济运行基础数据，根据电力系统经济运行基础数据构建电力系统源-荷前瞻调度模型，以构建含需求侧响应的电力系统前瞻调度模型；以及，基于电力系统前瞻调度模型，设计状态空间、动作空间和奖励函数，以设计电力系统经济调度问题的时序决策机制；根据时序决策机制，将深度强化学习算法应用于电力系统前瞻调度模型，并对深度强化学习算法进行改进与应用，得到基于深度强化学习的前瞻调度策略。本发明将深度强化学习应用于电力系统前瞻优化调度，并考虑了需求侧响应，可服务于多主体参与的智能电网前瞻优化调度，有利于提升电力系统调度的决策速度、可靠性、自动化与智能化水平。

如图3所示，该装置10包括：构建模块100和优化模块200。

构建模块100，用于获取电力系统经济运行基础数据，根据电力系统经济运行基础数据构建电力系统源-荷前瞻调度模型，以构建含需求侧响应的电力系统前瞻调度模型；并基于电力系统前瞻调度模型，设计状态空间、动作空间和奖励函数，以设计电力系统经济调度问题的时序决策机制；

优化模块200，用于根据时序决策机制，将深度强化学习算法应用于电力系统前瞻调度模型，并对深度强化学习算法进行改进与应用，得到基于深度强化学习的前瞻调度策略。

根据本发明实施例的基于深度强化学习的电力系统源-荷前瞻调度装置，通过构建模块，用于获取电力系统经济运行基础数据，根据电力系统经济运行基础数据构建电力系统源-荷前瞻调度模型，以构建含需求侧响应的电力系统前瞻调度模型；并基于电力系统前瞻调度模型，设计状态空间、动作空间和奖励函数，以设计电力系统经济调度问题的时序决策机制；优化模块，用于根据时序决策机制，将深度强化学习算法应用于电力系统前瞻调度模型，并对深度强化学习算法进行改进与应用，得到基于深度强化学习的前瞻调度策略。本发明将深度强化学习应用于电力系统前瞻优化调度，并考虑了需求侧响应，可服务于多主体参与的智能电网前瞻优化调度，有利于提升电力系统调度的决策速度、可靠性、自动化与智能化水平。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。