CN113902176A - 基于深度强化学习的电力系统源-荷前瞻调度方法及装置 - Google Patents

基于深度强化学习的电力系统源-荷前瞻调度方法及装置 Download PDF

Info

Publication number
CN113902176A
CN113902176A CN202111112177.7A CN202111112177A CN113902176A CN 113902176 A CN113902176 A CN 113902176A CN 202111112177 A CN202111112177 A CN 202111112177A CN 113902176 A CN113902176 A CN 113902176A
Authority
CN
China
Prior art keywords
power system
load
reinforcement learning
look
scheduling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111112177.7A
Other languages
English (en)
Inventor
虞泽宽
张广伦
肖彤
王心月
钟海旺
夏清
康重庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
Electric Power Research Institute of State Grid Anhui Electric Power Co Ltd
Original Assignee
Tsinghua University
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
Electric Power Research Institute of State Grid Anhui Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, State Grid Corp of China SGCC, China Electric Power Research Institute Co Ltd CEPRI, Electric Power Research Institute of State Grid Anhui Electric Power Co Ltd filed Critical Tsinghua University
Priority to CN202111112177.7A priority Critical patent/CN113902176A/zh
Publication of CN113902176A publication Critical patent/CN113902176A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06312Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06315Needs-based resource requirements planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Marketing (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Educational Administration (AREA)
  • Health & Medical Sciences (AREA)
  • Water Supply & Treatment (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本申请提出一种基于深度强化学习的电力系统源‑荷前瞻调度方法和装置,其中,方法包括:获取电力系统经济运行基础数据,根据电力系统经济运行基础数据构建电力系统源‑荷前瞻调度模型,以构建含需求侧响应的电力系统前瞻调度模型;基于电力系统前瞻调度模型,设计状态空间、动作空间和奖励函数,以设计电力系统经济调度问题的时序决策机制;根据时序决策机制,将深度强化学习算法应用于电力系统前瞻调度模型,并对深度强化学习算法进行改进与应用,得到基于深度强化学习的前瞻调度策略。本发明为供需充分互动、大量主体参与、不确定性提升的智能电网经济优化调度提供了解决方案,提升电力系统调度的决策速度、可靠性、自动化与智能化水平。

Description

基于深度强化学习的电力系统源-荷前瞻调度方法及装置
技术领域
本发明涉及电力系统优化调度与强化学习技术领域,特别涉及一种基于深度强化学习的电力系统源-荷前瞻调度方法及装置。
背景技术
随着我国新型电力系统建设的逐步推进,传统电网正逐步发展成为大量主体参与的复杂电力系统,源-荷互动的加强显著增加了参与电力系统运行的主体数量。此外,逐年提升的新能源渗透率也为电力系统运行带来了一定的不确定性,增加了电力系统优化运行的难度。传统的人工日前调度方式难以适应这一新变化,而更加灵活高效的数据驱动方法为解决未来智能电网运行问题提供了可行方案,例如强化学习算法。
现有的研究已将强化学习技术应用于智能电网运行与管理的一些方向。在智能微电网领域,已有研究将强化学习算法应用于智能微网的储能管理策略。有文献将强化学习算法应用于含可再生能源的电-热综合能源系统储能管理中,形成了中长期可持续的自动化能量管理策略。在需求侧响应领域,也有研究将强化学习算法应用于需求侧响应主体的管理与定价策略等问题。有研究将强化学习算法应用于基于价格的需求侧响应定价,智能体生成的定价策略能够提升系统鲁棒性、降低负荷服务商成本。在电力系统调度领域,需求侧响应同样被应用于高实时性的智能调度策略生成问题。有文献将强化学习算法应用于含可再生能源的电力系统多目标优化调度,以最小化系统运行成本、最大化可再生能源消纳。
现有的将强化学习应用于电力系统相关问题的研究主要集中于以上三方面,尚无将强化学习应用于电力系统前瞻优化调度的文献。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的目的是填补强化学习在电力系统前瞻优化调度应用的空白,提出了一种基于深度强化学习的电力系统源-荷前瞻调度方法,本发明将深度强化学习应用于电力系统前瞻优化调度,并考虑了需求侧响应,从而为供需充分互动、大量主体参与、不确定性提升的智能电网经济优化调度提供了解决方案。
本发明的第二个目的在于提出一种基于深度强化学习的电力系统源-荷前瞻调度装置。
为达上述目的,本发明第一方面实施例提出了一种基于深度强化学习的电力系统源-荷前瞻调度方法,包括:
获取电力系统经济运行基础数据,根据所述电力系统经济运行基础数据构建电力系统源-荷前瞻调度模型,以构建含需求侧响应的电力系统前瞻调度模型;
基于所述电力系统前瞻调度模型,设计状态空间、动作空间和奖励函数,以设计电力系统经济调度问题的时序决策机制;
根据所述时序决策机制,将深度强化学习算法应用于所述电力系统前瞻调度模型,并对所述深度强化学习算法进行改进与应用,得到基于深度强化学习的前瞻调度策略。
另外,根据本发明上述实施例的基于深度强化学习的电力系统源-荷前瞻调度方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述电力系统经济运行基础数据,包括:
机组出力上下限、机组爬坡增减速率上下限、机组成本函数、需求侧响应负荷上限和需求侧响应价格函数。
进一步地,在本发明的一个实施例中,所述根据所述电力系统经济运行基础数据构建电力系统源-荷前瞻调度模型,包括:
1)建立电力系统运行约束条件,表达式如下:
Figure BDA0003270671800000021
Figure BDA0003270671800000022
Figure BDA0003270671800000023
Figure BDA0003270671800000024
其中,(1)为系统功率平衡约束;式中
Figure BDA0003270671800000025
为发电机组i在时段t的出力,Ng为可调度机组的数目;
Figure BDA0003270671800000026
是电网中母线j在时段t的负荷,Nb为电网中母线的数量;
Figure BDA0003270671800000027
为需求侧响应主体k在时段t削减的负荷,Ndr为需求侧响应主体总数;
式(2)为发电机组出力约束;式中
Figure BDA0003270671800000028
为发电机组i的出力上下限;
式(3)为各机组的增、减出力速率约束;式中
Figure BDA0003270671800000029
分别为机组i在相邻时段增加、减少出力上限;式中Δt为单位时间间隔;
式(4)为各需求侧响应主体削减负荷约束;式中αdr,i为需求侧响应主体i的最大负荷削减比率,B(i)表示需求侧响应主体i所在的系统母线编号,
Figure BDA0003270671800000031
为其在t时刻的最大负荷削减量;
上述四项约束中,时刻t代表前瞻窗口0,1,...,T-1的任意时刻;
2)确定电力系统经济调度目标函数,表达式如下:
Figure BDA0003270671800000032
Figure BDA0003270671800000033
Figure BDA0003270671800000034
Figure BDA0003270671800000035
Figure BDA0003270671800000036
其中,(5)为目标函数;前瞻窗口内总运行成本最小,包含发电机组运行总成本(6)与需求侧响应总成本(7);
式(6)为发电机组运行总成本,由各个发电机的成本函数(8)求和而得;式(8)为各个发电机的成本函数,采用二次函数的形式,ag,i、bg,i与cg,i为其系数;
式(7)为需求侧响应总成本,由各个需求侧响应主体的成本函数(9)求和而得;式(9)为各个需求侧响应主体的成本函数,采用Ki+1段的分段函数形式,
Figure BDA0003270671800000037
为各段斜率,
Figure BDA0003270671800000038
为各段截距,
Figure BDA0003270671800000039
为分段点。
进一步地,在本发明的一个实施例中,所述设计状态空间,表达式如下:
Figure BDA00032706718000000310
Figure BDA00032706718000000311
Figure BDA00032706718000000312
Figure BDA00032706718000000313
Figure BDA00032706718000000314
Figure BDA0003270671800000041
其中,(10)为状态向量定义,状态量包含上一时刻发电机组出力(11)、前瞻窗口内母线负荷(12)与当前时刻t(15);
式(11)为t时刻发电机组出力状态向量,包含所有Ng台发电机的出力状态值(13);
式(12)为t时刻母线负荷状态向量,包含所有Nb条母线的负荷状态值(14);
式(13)、式(14)与式(15)均使用以下归一化函数将有名值按照对应的上下界归一化:
Figure BDA0003270671800000042
其中,x为有名值,
Figure BDA0003270671800000043
为归一化结果,L为x的下界,U为上界;
式(14)中,
Figure BDA0003270671800000044
Figure BDA0003270671800000045
为母线j在整个训练时段0,1,…,Ttrain-1中负荷的最大值与最小值,所述
Figure BDA0003270671800000046
与所述
Figure BDA0003270671800000047
的上下限仅与训练时刻的负荷状况有关,测试与应用时仍需使用所述
Figure BDA0003270671800000048
与所述
Figure BDA0003270671800000049
的上下限值;式(15)中Ttrain为总训练时长。
进一步地,在本发明的一个实施例中,所述设计动作空间,表达式如下:
Figure BDA00032706718000000410
Figure BDA00032706718000000411
Figure BDA00032706718000000412
Figure BDA00032706718000000413
Figure BDA00032706718000000414
其中,(17)为动作向量定义,动作量包含前瞻窗口内所有时刻的发电机组出力(18)与需求侧响应削减负荷(19);
式(18)为t时刻发电机组出力动作向量,包含除平衡机组外所有Ng-1台发电机的出力动作值(20),平衡机组的出力根据系统功率平衡约束(1)计算得到;
式(19)为t时刻需求侧响应主体削减负荷动作向量,包含所有Ndr个主体的负荷削减动作值(21);
式(20)与式(21)均使用式(16)的归一化函数将有名值按照对应的上下界归一化。
进一步地,在本发明的一个实施例中,所述设计奖励函数,表达式如下:
Figure BDA0003270671800000051
Figure BDA0003270671800000052
Figure BDA0003270671800000053
Rt=(1-I(Mt,Mt+1,...,Mt+T-1))R (25)
Figure BDA0003270671800000054
Figure BDA0003270671800000055
其中,(22)为奖励函数定义,包含最小化前瞻窗口内总运行成本(23)、罚项(24)与奖励项(25);
式(23)为t时刻系统运行成本,包含发电机组运行成本与需求侧响应成本;
式(24)为罚项,其中Mg与Mr为机组出力约束(2)与爬坡约束(3)的惩罚系数,
Figure BDA0003270671800000056
Figure BDA0003270671800000057
由式(26)与式(27)定义,分别为机组出力约束与爬坡约束的越界值;
式(25)为奖励项,其中I(·)为逻辑函数:若Mt,Mt+1,…,Mt+T-1均为0,前瞻窗口内所有时刻均无越限情况,则I=0,Rt=R为一正奖励值;若前瞻窗口内存在越限情况,则I=1,Rt=0无奖励。
进一步地,在本发明的一个实施例中,对所述深度强化学习算法进行改进与应用,包括:预训练智能体、训练智能体、测试与应用智能体,其中所述深度强化学习算法采用深度确定性策略梯度算法。
进一步地,在本发明的一个实施例中,所述预训练智能体,包括:
准备预训练数据,将真实的历史调度数据按照所述状态空间、动作空间与奖励函数定义进行转换,供智能体训练;以及,
分别对动作和评价网络进行预训练,并使用相同的参数初始化专家网络。
进一步地,在本发明的一个实施例中,所述训练智能体,包括:
令所述智能体在时序决策过程中与环境进行交互,并在经验回放池中存储所有交互经验,将不越限的经验额外存储进单独的经验回放池;以及,
每决策一定次数,从两个经验回放池中随机抽取经验样本对智能体网络进行更新,并更新专家网络参数。
本发明实施例的基于深度强化学习的电力系统源-荷前瞻调度方法,通过获取电力系统经济运行基础数据,根据电力系统经济运行基础数据构建电力系统源-荷前瞻调度模型,以构建含需求侧响应的电力系统前瞻调度模型;以及,基于电力系统前瞻调度模型,设计状态空间、动作空间和奖励函数,以设计电力系统经济调度问题的时序决策机制;根据时序决策机制,将深度强化学习算法应用于电力系统前瞻调度模型,并对深度强化学习算法进行改进与应用,得到基于深度强化学习的前瞻调度策略。本发明将深度强化学习应用于电力系统前瞻优化调度,并考虑了需求侧响应,可服务于多主体参与的智能电网前瞻优化调度,有利于提升电力系统调度的决策速度、可靠性、自动化与智能化水平。
为达上述目的,本发明第二方面实施例提出了一种基于深度强化学习的电力系统源-荷前瞻调度装置,包括:
构建模块,用于获取电力系统经济运行基础数据,根据所述电力系统经济运行基础数据构建电力系统源-荷前瞻调度模型,以构建含需求侧响应的电力系统前瞻调度模型;并基于所述电力系统前瞻调度模型,设计状态空间、动作空间和奖励函数,以设计电力系统经济调度问题的时序决策机制;
优化模块,用于根据所述时序决策机制,将深度强化学习算法应用于所述电力系统前瞻调度模型,并对所述深度强化学习算法进行改进与应用,得到基于深度强化学习的前瞻调度策略。
本发明实施例的基于深度强化学习的电力系统源-荷前瞻调度装置,通过构建模块,用于获取电力系统经济运行基础数据,根据电力系统经济运行基础数据构建电力系统源-荷前瞻调度模型,以构建含需求侧响应的电力系统前瞻调度模型;并基于电力系统前瞻调度模型,设计状态空间、动作空间和奖励函数,以设计电力系统经济调度问题的时序决策机制;优化模块,用于根据时序决策机制,将深度强化学习算法应用于电力系统前瞻调度模型,并对深度强化学习算法进行改进与应用,得到基于深度强化学习的前瞻调度策略。本发明将深度强化学习应用于电力系统前瞻优化调度,并考虑了需求侧响应,可服务于多主体参与的智能电网前瞻优化调度,有利于提升电力系统调度的决策速度、可靠性、自动化与智能化水平。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的基于深度强化学习的电力系统源-荷前瞻调度方法的流程图;
图2为根据本发明一个实施例的基于深度强化学习的电力系统源-荷前瞻调度方法的流程框图;
图3为根据本发明一个实施例的基于深度强化学习的电力系统源-荷前瞻调度装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的基于深度强化学习的电力系统源-荷前瞻调度方法和装置。
图1为本发明实施例所提供的一种基于超图结构的大规模数据分类方法的流程图。
如图1所示,该基于超图结构的大规模数据分类方法包括以下步骤:
步骤S1,获取电力系统经济运行基础数据,根据电力系统经济运行基础数据构建电力系统源-荷前瞻调度模型,以构建含需求侧响应的电力系统前瞻调度模型。
具体地,如图2所示:
1)构建含需求侧响应的电力系统前瞻调度模型,包括2步:获取电力系统经济运行基础数据、构建电力系统源-荷前瞻调度模型;
1-1)获取电力系统经济运行基础数据:
所述电力系统经济运行基础数据包括机组出力上下限、机组爬坡增减速率上下限、机组成本函数、需求侧响应负荷上限、需求侧响应价格函数;
1-2)构建电力系统源-荷前瞻调度模型:
1-2-1)建立电力系统运行约束条件,表达式如下:
Figure BDA0003270671800000071
Figure BDA0003270671800000072
Figure BDA0003270671800000073
Figure BDA0003270671800000074
其中(1)为系统功率平衡约束;式中
Figure BDA0003270671800000081
为发电机组i在时段t的出力,Ng为可调度机组的数目;
Figure BDA0003270671800000082
是电网中母线j在时段t的负荷,Nb为电网中母线的数量;
Figure BDA0003270671800000083
为需求侧响应主体k在时段t削减的负荷,Ndr为需求侧响应主体总数;
式(2)为发电机组出力约束;式中
Figure BDA0003270671800000084
为发电机组i的出力上下限;
式(3)为各机组的增、减出力速率约束;式中
Figure BDA0003270671800000085
分别为机组i在相邻时段增加、减少出力上限;式中Δt为单位时间间隔;
式(4)为各需求侧响应主体削减负荷约束;式中αdr,i为需求侧响应主体i的最大负荷削减比率,B(i)表示需求侧响应主体i所在的系统母线编号,
Figure BDA0003270671800000086
即为其在t时刻的最大负荷削减量;
上述四项约束中,除非特殊说明,时刻t均代表前瞻窗口0,1,...,T-1的任意时刻;
1-2-2)确定电力系统经济调度目标函数,表达式如下:
Figure BDA0003270671800000087
Figure BDA0003270671800000088
Figure BDA0003270671800000089
Figure BDA00032706718000000810
Figure BDA00032706718000000811
其中(5)为目标函数,即前瞻窗口内总运行成本最小,包含发电机组运行总成本(6)与需求侧响应总成本(7);
式(6)为发电机组运行总成本,由各个发电机的成本函数(8)求和而得;式(8)为各个发电机的成本函数,采用二次函数的形式,ag,i、bg,i与cg,i为其系数;
式(7)为需求侧响应总成本,由各个需求侧响应主体的成本函数(9)求和而得;式(9)为各个需求侧响应主体的成本函数,采用Ki+1段的分段函数形式,
Figure BDA00032706718000000812
为各段斜率,
Figure BDA00032706718000000813
为各段截距,
Figure BDA00032706718000000814
为分段点。
步骤S2,基于电力系统前瞻调度模型,设计状态空间、动作空间和奖励函数,以设计电力系统经济调度问题的时序决策机制。
具体地,如图2所示:
2)设计电力系统经济调度问题的时序决策机制,包括3步:设计状态空间、设计动作空间、设计奖励函数;
2-1)设计状态空间,表达式如下:
Figure BDA0003270671800000091
Figure BDA0003270671800000092
Figure BDA0003270671800000093
Figure BDA0003270671800000094
Figure BDA0003270671800000095
Figure BDA0003270671800000096
其中(10)为状态向量定义,状态量包含上一时刻发电机组出力(11)、前瞻窗口内母线负荷(12)与当前时刻t(15);
式(11)为t时刻发电机组出力状态向量,包含所有Ng台发电机的出力状态值(13);
式(12)为t时刻母线负荷状态向量,包含所有Nb条母线的负荷状态值(14);
式(13)、式(14)与式(15)均使用以下归一化函数将有名值按照对应的上下界归一化:
Figure BDA0003270671800000097
其中x为有名值,
Figure BDA0003270671800000098
为归一化结果,L为x的下界,U为上界;
式(14)中,
Figure BDA0003270671800000099
Figure BDA00032706718000000910
为母线j在整个训练时段0,1,…,Ttrain-1中负荷的最大值与最小值,该上下限仅与训练时刻的负荷状况有关,测试与应用时仍需使用该上下限值;式(15)中Ttrain为总训练时长;
2-2)设计动作空间,表达式如下:
Figure BDA00032706718000000911
Figure BDA00032706718000000912
Figure BDA00032706718000000913
Figure BDA00032706718000000914
Figure BDA00032706718000000915
其中(17)为动作向量定义,动作量包含前瞻窗口内所有时刻的发电机组出力(18)与需求侧响应削减负荷(19);
式(18)为t时刻发电机组出力动作向量,包含除平衡机组外所有Ng-1台发电机的出力动作值(20),平衡机组的出力不由算法给出,而是根据系统功率平衡约束(1)计算得到;
式(19)为t时刻需求侧响应主体削减负荷动作向量,包含所有Ndr个主体的负荷削减动作值(21);
式(20)与式(21)均使用式(16)的归一化函数将有名值按照对应的上下界归一化;
2-3)设计奖励函数,表达式如下:
Figure BDA0003270671800000101
Figure BDA0003270671800000102
Figure BDA0003270671800000103
Rt=(1-I(Mt,Mt+1,...,Mt+T-1))R (25)
Figure BDA0003270671800000104
Figure BDA0003270671800000105
其中(22)为奖励函数定义,包含最小化前瞻窗口内总运行成本(23)、罚项(24)与奖励项(25);由于智能体优化目标为最大化奖励,式中运行成本项前有负号,以最小化总成本;
式(23)为t时刻系统运行成本,包含发电机组运行成本与需求侧响应成本;
式(24)为罚项,其中Mg与Mr为机组出力约束(2)与爬坡约束(3)的惩罚系数,
Figure BDA0003270671800000106
Figure BDA0003270671800000107
由式(26)与式(27)定义,分别为机组出力约束与爬坡约束的越界值;
式(25)为奖励项,其中I(·)为逻辑函数:若Mt,Mt+1,…,Mt+T-1均为0,即前瞻窗口内所有时刻均无越限情况,则I=0,Rt=R为一正奖励值;若前瞻窗口内存在越限情况,则I=1,Rt=0无奖励。
步骤S3,根据时序决策机制,将深度强化学习算法应用于电力系统前瞻调度模型,并对深度强化学习算法进行改进与应用,得到基于深度强化学习的前瞻调度策略。
具体地,如图2所示:
3)应用与改进深度强化学习算法,包括3步:预训练、训练、测试与应用;本专利采用深度确定性策略梯度算法(DDPG)作为深度强化学习算法,以下步骤均针对该算法;
3-1)预训练智能体:在正式训练智能体前,需利用历史数据对智能体的网络进行预训练,以初始化其参数,加速正式训练的收敛:
3-1-1)准备预训练数据,将真实的历史调度数据按照步骤2)中的状态空间、动作空间与奖励函数定义进行转换,供智能体训练;
3-1-2)使用梯度下降法等方法分别对动作和评价网络进行预训练,并使用相同的参数初始化专家网络;
3-2)训练智能体:依据DDPG算法的定义,将智能体置于环境中,令其在与环境的交互中学习经验;
3-2-1)令智能体在时序决策过程中与环境进行交互,并在经验回放池中存储所有交互经验,将不越限的经验额外存储进单独的经验回放池;
3-2-2)每决策一定次数,从两个经验回放池中随机抽取经验样本对智能体网络进行更新,并更新专家网络参数;
3-3)测试与应用智能体:智能体训练完成后,只需将其再次放入环境中与之交互,并收集其每一步的决策,即可得到基于深度强化学习的前瞻调度策略。
本发明实施例的提出的基于深度强化学习的电力系统源-荷前瞻调度方法,通过获取电力系统经济运行基础数据,根据电力系统经济运行基础数据构建电力系统源-荷前瞻调度模型,以构建含需求侧响应的电力系统前瞻调度模型;以及,基于电力系统前瞻调度模型,设计状态空间、动作空间和奖励函数,以设计电力系统经济调度问题的时序决策机制;根据时序决策机制,将深度强化学习算法应用于电力系统前瞻调度模型,并对深度强化学习算法进行改进与应用,得到基于深度强化学习的前瞻调度策略。本发明将深度强化学习应用于电力系统前瞻优化调度,并考虑了需求侧响应,可服务于多主体参与的智能电网前瞻优化调度,有利于提升电力系统调度的决策速度、可靠性、自动化与智能化水平。
图3为根据本发明一个实施例的基于深度强化学习的电力系统源-荷前瞻调度装置的结构示意图。
如图3所示,该装置10包括:构建模块100和优化模块200。
构建模块100,用于获取电力系统经济运行基础数据,根据电力系统经济运行基础数据构建电力系统源-荷前瞻调度模型,以构建含需求侧响应的电力系统前瞻调度模型;并基于电力系统前瞻调度模型,设计状态空间、动作空间和奖励函数,以设计电力系统经济调度问题的时序决策机制;
优化模块200,用于根据时序决策机制,将深度强化学习算法应用于电力系统前瞻调度模型,并对深度强化学习算法进行改进与应用,得到基于深度强化学习的前瞻调度策略。
根据本发明实施例的基于深度强化学习的电力系统源-荷前瞻调度装置,通过构建模块,用于获取电力系统经济运行基础数据,根据电力系统经济运行基础数据构建电力系统源-荷前瞻调度模型,以构建含需求侧响应的电力系统前瞻调度模型;并基于电力系统前瞻调度模型,设计状态空间、动作空间和奖励函数,以设计电力系统经济调度问题的时序决策机制;优化模块,用于根据时序决策机制,将深度强化学习算法应用于电力系统前瞻调度模型,并对深度强化学习算法进行改进与应用,得到基于深度强化学习的前瞻调度策略。本发明将深度强化学习应用于电力系统前瞻优化调度,并考虑了需求侧响应,可服务于多主体参与的智能电网前瞻优化调度,有利于提升电力系统调度的决策速度、可靠性、自动化与智能化水平。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于深度强化学习的电力系统源-荷前瞻调度方法,其特征在于,所述方法包括以下步骤:
获取电力系统经济运行基础数据,根据所述电力系统经济运行基础数据构建电力系统源-荷前瞻调度模型,以构建含需求侧响应的电力系统前瞻调度模型;以及,
基于所述电力系统前瞻调度模型,设计状态空间、动作空间和奖励函数,以设计电力系统经济调度问题的时序决策机制;
根据所述时序决策机制,将深度强化学习算法应用于所述电力系统前瞻调度模型,并对所述深度强化学习算法进行改进与应用,得到基于深度强化学习的前瞻调度策略。
2.根据权利要求1所述的基于深度强化学习的电力系统源-荷前瞻调度方法,其特征在于,所述电力系统经济运行基础数据,包括:
机组出力上下限、机组爬坡增减速率上下限、机组成本函数、需求侧响应负荷上限和需求侧响应价格函数。
3.根据权利要求1所述的基于深度强化学习的电力系统源-荷前瞻调度方法,其特征在于,所述根据所述电力系统经济运行基础数据构建电力系统源-荷前瞻调度模型,包括:
1)建立电力系统运行约束条件,表达式如下:
Figure FDA0003270671790000011
Figure FDA0003270671790000012
Figure FDA0003270671790000013
Figure FDA0003270671790000014
其中,(1)为系统功率平衡约束;式中
Figure FDA0003270671790000015
为发电机组i在时段t的出力,Ng为可调度机组的数目;
Figure FDA0003270671790000016
是电网中母线j在时段t的负荷,Nb为电网中母线的数量;
Figure FDA0003270671790000017
为需求侧响应主体k在时段t削减的负荷,Ndr为需求侧响应主体总数;
式(2)为发电机组出力约束;式中
Figure FDA0003270671790000018
为发电机组i的出力上下限;
式(3)为各机组的增、减出力速率约束;式中
Figure FDA0003270671790000019
分别为机组i在相邻时段增加、减少出力上限;式中Δt为单位时间间隔;
式(4)为各需求侧响应主体削减负荷约束;式中αdr,i为需求侧响应主体i的最大负荷削减比率,B(i)表示需求侧响应主体i所在的系统母线编号,
Figure FDA0003270671790000021
为其在t时刻的最大负荷削减量;
上述四项约束中,时刻t代表前瞻窗口0,1,...,T-1的任意时刻;
2)确定电力系统经济调度目标函数,表达式如下:
Figure FDA0003270671790000022
Figure FDA0003270671790000023
Figure FDA0003270671790000024
Figure FDA0003270671790000025
Figure FDA0003270671790000026
其中,(5)为目标函数;前瞻窗口内总运行成本最小,包含发电机组运行总成本(6)与需求侧响应总成本(7);
式(6)为发电机组运行总成本,由各个发电机的成本函数(8)求和而得;式(8)为各个发电机的成本函数,采用二次函数的形式,ag,i、bg,i与cg,i为其系数;
式(7)为需求侧响应总成本,由各个需求侧响应主体的成本函数(9)求和而得;式(9)为各个需求侧响应主体的成本函数,采用Ki+1段的分段函数形式,
Figure FDA0003270671790000027
为各段斜率,
Figure FDA0003270671790000028
为各段截距,
Figure FDA0003270671790000029
为分段点。
4.根据权利要求1所述的基于深度强化学习的电力系统源-荷前瞻调度方法,其特征在于,所述设计状态空间,表达式如下:
Figure FDA00032706717900000210
Figure FDA00032706717900000211
Figure FDA00032706717900000212
Figure FDA0003270671790000031
Figure FDA0003270671790000032
Figure FDA0003270671790000033
其中,(10)为状态向量定义,状态量包含上一时刻发电机组出力(11)、前瞻窗口内母线负荷(12)与当前时刻t(15);
式(11)为t时刻发电机组出力状态向量,包含所有Ng台发电机的出力状态值(13);
式(12)为t时刻母线负荷状态向量,包含所有Nb条母线的负荷状态值(14);
式(13)、式(14)与式(15)均使用以下归一化函数将有名值按照对应的上下界归一化:
Figure FDA0003270671790000034
其中,x为有名值,
Figure FDA0003270671790000035
为归一化结果,L为x的下界,U为上界;
式(14)中,
Figure FDA0003270671790000036
Figure FDA0003270671790000037
为母线j在整个训练时段0,1,…,Ttrain-1中负荷的最大值与最小值,所述
Figure FDA0003270671790000038
与所述
Figure FDA0003270671790000039
的上下限仅与训练时刻的负荷状况有关,测试与应用时仍需使用所述
Figure FDA00032706717900000310
与所述
Figure FDA00032706717900000311
的上下限值;式(15)中Ttrain为总训练时长。
5.根据权利要求1所述的基于深度强化学习的电力系统源-荷前瞻调度方法,其特征在于,设计动作空间,表达式如下:
Figure FDA00032706717900000312
Figure FDA00032706717900000313
Figure FDA00032706717900000314
Figure FDA00032706717900000315
Figure FDA00032706717900000316
其中,(17)为动作向量定义,动作量包含前瞻窗口内所有时刻的发电机组出力(18)与需求侧响应削减负荷(19);
式(18)为t时刻发电机组出力动作向量,包含除平衡机组外所有Ng-1台发电机的出力动作值(20),平衡机组的出力根据系统功率平衡约束(1)计算得到;
式(19)为t时刻需求侧响应主体削减负荷动作向量,包含所有Ndr个主体的负荷削减动作值(21);
式(20)与式(21)均使用式(16)的归一化函数将有名值按照对应的上下界归一化。
6.根据权利要求1所述的基于深度强化学习的电力系统源-荷前瞻调度方法,其特征在于,所述设计奖励函数,表达式如下:
Figure FDA0003270671790000041
Figure FDA0003270671790000042
Figure FDA0003270671790000043
Rt=(1-I(Mt,Mt+1,...,Mt+T-1))R (25)
Figure FDA0003270671790000044
Figure FDA0003270671790000045
其中,(22)为奖励函数定义,包含最小化前瞻窗口内总运行成本(23)、罚项(24)与奖励项(25);
式(23)为t时刻系统运行成本,包含发电机组运行成本与需求侧响应成本;
式(24)为罚项,其中Mg与Mr为机组出力约束(2)与爬坡约束(3)的惩罚系数,
Figure FDA0003270671790000046
Figure FDA0003270671790000047
由式(26)与式(27)定义,分别为机组出力约束与爬坡约束的越界值;
式(25)为奖励项,其中I(·)为逻辑函数:若Mt,Mt+1,…,Mt+T-1均为0,前瞻窗口内所有时刻均无越限情况,则I=0,Rt=R为一正奖励值;若前瞻窗口内存在越限情况,则I=1,Rt=0无奖励。
7.根据权利要求1所述的基于深度强化学习的电力系统源-荷前瞻调度方法,其特征在于,对所述深度强化学习算法进行改进与应用,包括:预训练智能体、训练智能体、测试与应用智能体,其中所述深度强化学习算法采用深度确定性策略梯度算法。
8.根据权利要求7所述的基于深度强化学习的电力系统源-荷前瞻调度方法,其特征在于,所述预训练智能体,包括:
准备预训练数据,将真实的历史调度数据按照所述状态空间、动作空间与奖励函数定义进行转换,供智能体训练;以及,
分别对动作和评价网络进行预训练,并使用相同的参数初始化专家网络。
9.根据权利要求7所述的基于深度强化学习的电力系统源-荷前瞻调度方法,所述训练智能体,包括:
令所述智能体在时序决策过程中与环境进行交互,并在经验回放池中存储所有交互经验,将不越限的经验额外存储进单独的经验回放池;以及,
每决策一定次数,从两个经验回放池中随机抽取经验样本对智能体网络进行更新,并更新专家网络参数。
10.一种基于深度强化学习的电力系统源-荷前瞻调度装置,其特征在于,包括:
构建模块,用于获取电力系统经济运行基础数据,根据所述电力系统经济运行基础数据构建电力系统源-荷前瞻调度模型,以构建含需求侧响应的电力系统前瞻调度模型;并基于所述电力系统前瞻调度模型,设计状态空间、动作空间和奖励函数,以设计电力系统经济调度问题的时序决策机制;
优化模块,用于根据所述时序决策机制,将深度强化学习算法应用于所述电力系统前瞻调度模型,并对所述深度强化学习算法进行改进与应用,得到基于深度强化学习的前瞻调度策略。
CN202111112177.7A 2021-09-18 2021-09-18 基于深度强化学习的电力系统源-荷前瞻调度方法及装置 Pending CN113902176A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111112177.7A CN113902176A (zh) 2021-09-18 2021-09-18 基于深度强化学习的电力系统源-荷前瞻调度方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111112177.7A CN113902176A (zh) 2021-09-18 2021-09-18 基于深度强化学习的电力系统源-荷前瞻调度方法及装置

Publications (1)

Publication Number Publication Date
CN113902176A true CN113902176A (zh) 2022-01-07

Family

ID=79028902

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111112177.7A Pending CN113902176A (zh) 2021-09-18 2021-09-18 基于深度强化学习的电力系统源-荷前瞻调度方法及装置

Country Status (1)

Country Link
CN (1) CN113902176A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114897388A (zh) * 2022-05-23 2022-08-12 国家电网公司华中分部 一种自适应不确定性的电力系统动态经济调度方法
CN115358534A (zh) * 2022-07-28 2022-11-18 河海大学 基于同态加密强化学习的电器负荷需求响应方法
WO2024022194A1 (zh) * 2022-07-26 2024-02-01 中国电力科学研究院有限公司 电网实时调度优化方法、系统、计算机设备及存储介质
CN117913920A (zh) * 2024-03-19 2024-04-19 山东大学 计及机组爬坡速率约束与系统初始状态的调度方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114897388A (zh) * 2022-05-23 2022-08-12 国家电网公司华中分部 一种自适应不确定性的电力系统动态经济调度方法
WO2024022194A1 (zh) * 2022-07-26 2024-02-01 中国电力科学研究院有限公司 电网实时调度优化方法、系统、计算机设备及存储介质
CN115358534A (zh) * 2022-07-28 2022-11-18 河海大学 基于同态加密强化学习的电器负荷需求响应方法
CN115358534B (zh) * 2022-07-28 2024-04-23 河海大学 基于同态加密强化学习的电器负荷需求响应方法
CN117913920A (zh) * 2024-03-19 2024-04-19 山东大学 计及机组爬坡速率约束与系统初始状态的调度方法及系统
CN117913920B (zh) * 2024-03-19 2024-06-04 山东大学 计及机组爬坡速率约束与系统初始状态的调度方法及系统

Similar Documents

Publication Publication Date Title
CN113902176A (zh) 基于深度强化学习的电力系统源-荷前瞻调度方法及装置
CN112117760A (zh) 基于双q值网络深度强化学习的微电网能量调度方法
CN111769600B (zh) 一种基于灵活性裕度的电力系统源荷储协调滚动调度方法
CN112186743A (zh) 一种基于深度强化学习的动态电力系统经济调度方法
CN111525627B (zh) 含抽蓄与新能源发电的柔性直流输电系统日前调度方法
CN111626527B (zh) 计及可调度电动汽车快/慢充放电形式的智能电网深度学习调度方法
CN107919675B (zh) 综合考虑车主和运营商利益的充电站负荷调度模型
CN113627993A (zh) 一种基于深度强化学习的智能电动汽车充放电决策方法
CN110556822B (zh) 一种含电动汽车消纳大规模风电机组的组合计算方法
CN109572478B (zh) 充电站电动汽车在线平稳充电系统及方法
CN103345663B (zh) 考虑爬坡速率约束的电力系统机组组合优化方法
CN111553750A (zh) 一种计及电价不确定性和损耗成本的储能竞价策略方法
CN115714382A (zh) 一种基于安全强化学习的主动配电网实时调度方法及装置
CN113131529A (zh) 一种计及多种灵活性资源的可再生能源承载力评估的方法
CN116307603A (zh) 根据环境特征进行数据驱动的园区综合能源系统灵活性检测方法
CN109149658B (zh) 基于一致性理论的独立微电网分布式动态经济调度方法
CN110738356A (zh) 一种基于sdn增强网络的电动汽车充电智能调度方法
CN114619907B (zh) 基于分布式深度强化学习的协调充电方法及协调充电系统
Sridharan et al. A hybrid approach based energy management for building resilience against power outage by shared parking station for EVs
CN113344283A (zh) 基于边缘智能的能源互联网新能源消纳能力评估方法
CN116050632B (zh) 一种基于纳什q学习的微电网群互动博弈策略学习进化方法
CN109213104B (zh) 基于启发式动态规划的储能系统的调度方法及调度系统
CN115912430A (zh) 基于云边端协同的大规模储能电站资源分配方法及系统
CN110458405A (zh) 一种基于电力-微气象特征数据的电力系统安全预警方法
CN113013905B (zh) 一种风光储微能量收集无线传感系统调度方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination