CN113902176A - 基于深度强化学习的电力系统源-荷前瞻调度方法及装置 - Google Patents
基于深度强化学习的电力系统源-荷前瞻调度方法及装置 Download PDFInfo
- Publication number
- CN113902176A CN113902176A CN202111112177.7A CN202111112177A CN113902176A CN 113902176 A CN113902176 A CN 113902176A CN 202111112177 A CN202111112177 A CN 202111112177A CN 113902176 A CN113902176 A CN 113902176A
- Authority
- CN
- China
- Prior art keywords
- power system
- load
- reinforcement learning
- look
- scheduling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 80
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000006870 function Effects 0.000 claims abstract description 56
- 230000004044 response Effects 0.000 claims abstract description 54
- 230000009471 action Effects 0.000 claims abstract description 33
- 230000007246 mechanism Effects 0.000 claims abstract description 23
- 238000005457 optimization Methods 0.000 claims abstract description 20
- 238000013461 design Methods 0.000 claims abstract description 12
- 230000003993 interaction Effects 0.000 claims abstract description 6
- 239000003795 chemical substances by application Substances 0.000 claims description 33
- 238000012549 training Methods 0.000 claims description 27
- 239000013598 vector Substances 0.000 claims description 24
- 230000009467 reduction Effects 0.000 claims description 10
- 230000009194 climbing Effects 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 230000003247 decreasing effect Effects 0.000 claims description 5
- 150000001875 compounds Chemical class 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000012887 quadratic function Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004146 energy storage Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035699 permeability Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06312—Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06315—Needs-based resource requirements planning or analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Marketing (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Operations Research (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Educational Administration (AREA)
- Health & Medical Sciences (AREA)
- Water Supply & Treatment (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本申请提出一种基于深度强化学习的电力系统源‑荷前瞻调度方法和装置,其中,方法包括:获取电力系统经济运行基础数据,根据电力系统经济运行基础数据构建电力系统源‑荷前瞻调度模型,以构建含需求侧响应的电力系统前瞻调度模型;基于电力系统前瞻调度模型,设计状态空间、动作空间和奖励函数,以设计电力系统经济调度问题的时序决策机制;根据时序决策机制,将深度强化学习算法应用于电力系统前瞻调度模型,并对深度强化学习算法进行改进与应用,得到基于深度强化学习的前瞻调度策略。本发明为供需充分互动、大量主体参与、不确定性提升的智能电网经济优化调度提供了解决方案,提升电力系统调度的决策速度、可靠性、自动化与智能化水平。
Description
技术领域
本发明涉及电力系统优化调度与强化学习技术领域,特别涉及一种基于深度强化学习的电力系统源-荷前瞻调度方法及装置。
背景技术
随着我国新型电力系统建设的逐步推进,传统电网正逐步发展成为大量主体参与的复杂电力系统,源-荷互动的加强显著增加了参与电力系统运行的主体数量。此外,逐年提升的新能源渗透率也为电力系统运行带来了一定的不确定性,增加了电力系统优化运行的难度。传统的人工日前调度方式难以适应这一新变化,而更加灵活高效的数据驱动方法为解决未来智能电网运行问题提供了可行方案,例如强化学习算法。
现有的研究已将强化学习技术应用于智能电网运行与管理的一些方向。在智能微电网领域,已有研究将强化学习算法应用于智能微网的储能管理策略。有文献将强化学习算法应用于含可再生能源的电-热综合能源系统储能管理中,形成了中长期可持续的自动化能量管理策略。在需求侧响应领域,也有研究将强化学习算法应用于需求侧响应主体的管理与定价策略等问题。有研究将强化学习算法应用于基于价格的需求侧响应定价,智能体生成的定价策略能够提升系统鲁棒性、降低负荷服务商成本。在电力系统调度领域,需求侧响应同样被应用于高实时性的智能调度策略生成问题。有文献将强化学习算法应用于含可再生能源的电力系统多目标优化调度,以最小化系统运行成本、最大化可再生能源消纳。
现有的将强化学习应用于电力系统相关问题的研究主要集中于以上三方面,尚无将强化学习应用于电力系统前瞻优化调度的文献。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的目的是填补强化学习在电力系统前瞻优化调度应用的空白,提出了一种基于深度强化学习的电力系统源-荷前瞻调度方法,本发明将深度强化学习应用于电力系统前瞻优化调度,并考虑了需求侧响应,从而为供需充分互动、大量主体参与、不确定性提升的智能电网经济优化调度提供了解决方案。
本发明的第二个目的在于提出一种基于深度强化学习的电力系统源-荷前瞻调度装置。
为达上述目的,本发明第一方面实施例提出了一种基于深度强化学习的电力系统源-荷前瞻调度方法,包括:
获取电力系统经济运行基础数据,根据所述电力系统经济运行基础数据构建电力系统源-荷前瞻调度模型,以构建含需求侧响应的电力系统前瞻调度模型;
基于所述电力系统前瞻调度模型,设计状态空间、动作空间和奖励函数,以设计电力系统经济调度问题的时序决策机制;
根据所述时序决策机制,将深度强化学习算法应用于所述电力系统前瞻调度模型,并对所述深度强化学习算法进行改进与应用,得到基于深度强化学习的前瞻调度策略。
另外,根据本发明上述实施例的基于深度强化学习的电力系统源-荷前瞻调度方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述电力系统经济运行基础数据,包括:
机组出力上下限、机组爬坡增减速率上下限、机组成本函数、需求侧响应负荷上限和需求侧响应价格函数。
进一步地,在本发明的一个实施例中,所述根据所述电力系统经济运行基础数据构建电力系统源-荷前瞻调度模型,包括:
1)建立电力系统运行约束条件,表达式如下:
其中,(1)为系统功率平衡约束;式中为发电机组i在时段t的出力,Ng为可调度机组的数目;是电网中母线j在时段t的负荷,Nb为电网中母线的数量;为需求侧响应主体k在时段t削减的负荷,Ndr为需求侧响应主体总数;
上述四项约束中,时刻t代表前瞻窗口0,1,...,T-1的任意时刻;
2)确定电力系统经济调度目标函数,表达式如下:
其中,(5)为目标函数;前瞻窗口内总运行成本最小,包含发电机组运行总成本(6)与需求侧响应总成本(7);
式(6)为发电机组运行总成本,由各个发电机的成本函数(8)求和而得;式(8)为各个发电机的成本函数,采用二次函数的形式,ag,i、bg,i与cg,i为其系数;
进一步地,在本发明的一个实施例中,所述设计状态空间,表达式如下:
其中,(10)为状态向量定义,状态量包含上一时刻发电机组出力(11)、前瞻窗口内母线负荷(12)与当前时刻t(15);
式(11)为t时刻发电机组出力状态向量,包含所有Ng台发电机的出力状态值(13);
式(12)为t时刻母线负荷状态向量,包含所有Nb条母线的负荷状态值(14);
式(13)、式(14)与式(15)均使用以下归一化函数将有名值按照对应的上下界归一化:
式(14)中,与为母线j在整个训练时段0,1,…,Ttrain-1中负荷的最大值与最小值,所述与所述的上下限仅与训练时刻的负荷状况有关,测试与应用时仍需使用所述与所述的上下限值;式(15)中Ttrain为总训练时长。
进一步地,在本发明的一个实施例中,所述设计动作空间,表达式如下:
其中,(17)为动作向量定义,动作量包含前瞻窗口内所有时刻的发电机组出力(18)与需求侧响应削减负荷(19);
式(18)为t时刻发电机组出力动作向量,包含除平衡机组外所有Ng-1台发电机的出力动作值(20),平衡机组的出力根据系统功率平衡约束(1)计算得到;
式(19)为t时刻需求侧响应主体削减负荷动作向量,包含所有Ndr个主体的负荷削减动作值(21);
式(20)与式(21)均使用式(16)的归一化函数将有名值按照对应的上下界归一化。
进一步地,在本发明的一个实施例中,所述设计奖励函数,表达式如下:
Rt=(1-I(Mt,Mt+1,...,Mt+T-1))R (25)
其中,(22)为奖励函数定义,包含最小化前瞻窗口内总运行成本(23)、罚项(24)与奖励项(25);
式(23)为t时刻系统运行成本,包含发电机组运行成本与需求侧响应成本;
式(25)为奖励项,其中I(·)为逻辑函数:若Mt,Mt+1,…,Mt+T-1均为0,前瞻窗口内所有时刻均无越限情况,则I=0,Rt=R为一正奖励值;若前瞻窗口内存在越限情况,则I=1,Rt=0无奖励。
进一步地,在本发明的一个实施例中,对所述深度强化学习算法进行改进与应用,包括:预训练智能体、训练智能体、测试与应用智能体,其中所述深度强化学习算法采用深度确定性策略梯度算法。
进一步地,在本发明的一个实施例中,所述预训练智能体,包括:
准备预训练数据,将真实的历史调度数据按照所述状态空间、动作空间与奖励函数定义进行转换,供智能体训练;以及,
分别对动作和评价网络进行预训练,并使用相同的参数初始化专家网络。
进一步地,在本发明的一个实施例中,所述训练智能体,包括:
令所述智能体在时序决策过程中与环境进行交互,并在经验回放池中存储所有交互经验,将不越限的经验额外存储进单独的经验回放池;以及,
每决策一定次数,从两个经验回放池中随机抽取经验样本对智能体网络进行更新,并更新专家网络参数。
本发明实施例的基于深度强化学习的电力系统源-荷前瞻调度方法,通过获取电力系统经济运行基础数据,根据电力系统经济运行基础数据构建电力系统源-荷前瞻调度模型,以构建含需求侧响应的电力系统前瞻调度模型;以及,基于电力系统前瞻调度模型,设计状态空间、动作空间和奖励函数,以设计电力系统经济调度问题的时序决策机制;根据时序决策机制,将深度强化学习算法应用于电力系统前瞻调度模型,并对深度强化学习算法进行改进与应用,得到基于深度强化学习的前瞻调度策略。本发明将深度强化学习应用于电力系统前瞻优化调度,并考虑了需求侧响应,可服务于多主体参与的智能电网前瞻优化调度,有利于提升电力系统调度的决策速度、可靠性、自动化与智能化水平。
为达上述目的,本发明第二方面实施例提出了一种基于深度强化学习的电力系统源-荷前瞻调度装置,包括:
构建模块,用于获取电力系统经济运行基础数据,根据所述电力系统经济运行基础数据构建电力系统源-荷前瞻调度模型,以构建含需求侧响应的电力系统前瞻调度模型;并基于所述电力系统前瞻调度模型,设计状态空间、动作空间和奖励函数,以设计电力系统经济调度问题的时序决策机制;
优化模块,用于根据所述时序决策机制,将深度强化学习算法应用于所述电力系统前瞻调度模型,并对所述深度强化学习算法进行改进与应用,得到基于深度强化学习的前瞻调度策略。
本发明实施例的基于深度强化学习的电力系统源-荷前瞻调度装置,通过构建模块,用于获取电力系统经济运行基础数据,根据电力系统经济运行基础数据构建电力系统源-荷前瞻调度模型,以构建含需求侧响应的电力系统前瞻调度模型;并基于电力系统前瞻调度模型,设计状态空间、动作空间和奖励函数,以设计电力系统经济调度问题的时序决策机制;优化模块,用于根据时序决策机制,将深度强化学习算法应用于电力系统前瞻调度模型,并对深度强化学习算法进行改进与应用,得到基于深度强化学习的前瞻调度策略。本发明将深度强化学习应用于电力系统前瞻优化调度,并考虑了需求侧响应,可服务于多主体参与的智能电网前瞻优化调度,有利于提升电力系统调度的决策速度、可靠性、自动化与智能化水平。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的基于深度强化学习的电力系统源-荷前瞻调度方法的流程图;
图2为根据本发明一个实施例的基于深度强化学习的电力系统源-荷前瞻调度方法的流程框图;
图3为根据本发明一个实施例的基于深度强化学习的电力系统源-荷前瞻调度装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的基于深度强化学习的电力系统源-荷前瞻调度方法和装置。
图1为本发明实施例所提供的一种基于超图结构的大规模数据分类方法的流程图。
如图1所示,该基于超图结构的大规模数据分类方法包括以下步骤:
步骤S1,获取电力系统经济运行基础数据,根据电力系统经济运行基础数据构建电力系统源-荷前瞻调度模型,以构建含需求侧响应的电力系统前瞻调度模型。
具体地,如图2所示:
1)构建含需求侧响应的电力系统前瞻调度模型,包括2步:获取电力系统经济运行基础数据、构建电力系统源-荷前瞻调度模型;
1-1)获取电力系统经济运行基础数据:
所述电力系统经济运行基础数据包括机组出力上下限、机组爬坡增减速率上下限、机组成本函数、需求侧响应负荷上限、需求侧响应价格函数;
1-2)构建电力系统源-荷前瞻调度模型:
1-2-1)建立电力系统运行约束条件,表达式如下:
其中(1)为系统功率平衡约束;式中为发电机组i在时段t的出力,Ng为可调度机组的数目;是电网中母线j在时段t的负荷,Nb为电网中母线的数量;为需求侧响应主体k在时段t削减的负荷,Ndr为需求侧响应主体总数;
上述四项约束中,除非特殊说明,时刻t均代表前瞻窗口0,1,...,T-1的任意时刻;
1-2-2)确定电力系统经济调度目标函数,表达式如下:
其中(5)为目标函数,即前瞻窗口内总运行成本最小,包含发电机组运行总成本(6)与需求侧响应总成本(7);
式(6)为发电机组运行总成本,由各个发电机的成本函数(8)求和而得;式(8)为各个发电机的成本函数,采用二次函数的形式,ag,i、bg,i与cg,i为其系数;
步骤S2,基于电力系统前瞻调度模型,设计状态空间、动作空间和奖励函数,以设计电力系统经济调度问题的时序决策机制。
具体地,如图2所示:
2)设计电力系统经济调度问题的时序决策机制,包括3步:设计状态空间、设计动作空间、设计奖励函数;
2-1)设计状态空间,表达式如下:
其中(10)为状态向量定义,状态量包含上一时刻发电机组出力(11)、前瞻窗口内母线负荷(12)与当前时刻t(15);
式(11)为t时刻发电机组出力状态向量,包含所有Ng台发电机的出力状态值(13);
式(12)为t时刻母线负荷状态向量,包含所有Nb条母线的负荷状态值(14);
式(13)、式(14)与式(15)均使用以下归一化函数将有名值按照对应的上下界归一化:
2-2)设计动作空间,表达式如下:
其中(17)为动作向量定义,动作量包含前瞻窗口内所有时刻的发电机组出力(18)与需求侧响应削减负荷(19);
式(18)为t时刻发电机组出力动作向量,包含除平衡机组外所有Ng-1台发电机的出力动作值(20),平衡机组的出力不由算法给出,而是根据系统功率平衡约束(1)计算得到;
式(19)为t时刻需求侧响应主体削减负荷动作向量,包含所有Ndr个主体的负荷削减动作值(21);
式(20)与式(21)均使用式(16)的归一化函数将有名值按照对应的上下界归一化;
2-3)设计奖励函数,表达式如下:
Rt=(1-I(Mt,Mt+1,...,Mt+T-1))R (25)
其中(22)为奖励函数定义,包含最小化前瞻窗口内总运行成本(23)、罚项(24)与奖励项(25);由于智能体优化目标为最大化奖励,式中运行成本项前有负号,以最小化总成本;
式(23)为t时刻系统运行成本,包含发电机组运行成本与需求侧响应成本;
式(25)为奖励项,其中I(·)为逻辑函数:若Mt,Mt+1,…,Mt+T-1均为0,即前瞻窗口内所有时刻均无越限情况,则I=0,Rt=R为一正奖励值;若前瞻窗口内存在越限情况,则I=1,Rt=0无奖励。
步骤S3,根据时序决策机制,将深度强化学习算法应用于电力系统前瞻调度模型,并对深度强化学习算法进行改进与应用,得到基于深度强化学习的前瞻调度策略。
具体地,如图2所示:
3)应用与改进深度强化学习算法,包括3步:预训练、训练、测试与应用;本专利采用深度确定性策略梯度算法(DDPG)作为深度强化学习算法,以下步骤均针对该算法;
3-1)预训练智能体:在正式训练智能体前,需利用历史数据对智能体的网络进行预训练,以初始化其参数,加速正式训练的收敛:
3-1-1)准备预训练数据,将真实的历史调度数据按照步骤2)中的状态空间、动作空间与奖励函数定义进行转换,供智能体训练;
3-1-2)使用梯度下降法等方法分别对动作和评价网络进行预训练,并使用相同的参数初始化专家网络;
3-2)训练智能体:依据DDPG算法的定义,将智能体置于环境中,令其在与环境的交互中学习经验;
3-2-1)令智能体在时序决策过程中与环境进行交互,并在经验回放池中存储所有交互经验,将不越限的经验额外存储进单独的经验回放池;
3-2-2)每决策一定次数,从两个经验回放池中随机抽取经验样本对智能体网络进行更新,并更新专家网络参数;
3-3)测试与应用智能体:智能体训练完成后,只需将其再次放入环境中与之交互,并收集其每一步的决策,即可得到基于深度强化学习的前瞻调度策略。
本发明实施例的提出的基于深度强化学习的电力系统源-荷前瞻调度方法,通过获取电力系统经济运行基础数据,根据电力系统经济运行基础数据构建电力系统源-荷前瞻调度模型,以构建含需求侧响应的电力系统前瞻调度模型;以及,基于电力系统前瞻调度模型,设计状态空间、动作空间和奖励函数,以设计电力系统经济调度问题的时序决策机制;根据时序决策机制,将深度强化学习算法应用于电力系统前瞻调度模型,并对深度强化学习算法进行改进与应用,得到基于深度强化学习的前瞻调度策略。本发明将深度强化学习应用于电力系统前瞻优化调度,并考虑了需求侧响应,可服务于多主体参与的智能电网前瞻优化调度,有利于提升电力系统调度的决策速度、可靠性、自动化与智能化水平。
图3为根据本发明一个实施例的基于深度强化学习的电力系统源-荷前瞻调度装置的结构示意图。
如图3所示,该装置10包括:构建模块100和优化模块200。
构建模块100,用于获取电力系统经济运行基础数据,根据电力系统经济运行基础数据构建电力系统源-荷前瞻调度模型,以构建含需求侧响应的电力系统前瞻调度模型;并基于电力系统前瞻调度模型,设计状态空间、动作空间和奖励函数,以设计电力系统经济调度问题的时序决策机制;
优化模块200,用于根据时序决策机制,将深度强化学习算法应用于电力系统前瞻调度模型,并对深度强化学习算法进行改进与应用,得到基于深度强化学习的前瞻调度策略。
根据本发明实施例的基于深度强化学习的电力系统源-荷前瞻调度装置,通过构建模块,用于获取电力系统经济运行基础数据,根据电力系统经济运行基础数据构建电力系统源-荷前瞻调度模型,以构建含需求侧响应的电力系统前瞻调度模型;并基于电力系统前瞻调度模型,设计状态空间、动作空间和奖励函数,以设计电力系统经济调度问题的时序决策机制;优化模块,用于根据时序决策机制,将深度强化学习算法应用于电力系统前瞻调度模型,并对深度强化学习算法进行改进与应用,得到基于深度强化学习的前瞻调度策略。本发明将深度强化学习应用于电力系统前瞻优化调度,并考虑了需求侧响应,可服务于多主体参与的智能电网前瞻优化调度,有利于提升电力系统调度的决策速度、可靠性、自动化与智能化水平。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种基于深度强化学习的电力系统源-荷前瞻调度方法,其特征在于,所述方法包括以下步骤:
获取电力系统经济运行基础数据,根据所述电力系统经济运行基础数据构建电力系统源-荷前瞻调度模型,以构建含需求侧响应的电力系统前瞻调度模型;以及,
基于所述电力系统前瞻调度模型,设计状态空间、动作空间和奖励函数,以设计电力系统经济调度问题的时序决策机制;
根据所述时序决策机制,将深度强化学习算法应用于所述电力系统前瞻调度模型,并对所述深度强化学习算法进行改进与应用,得到基于深度强化学习的前瞻调度策略。
2.根据权利要求1所述的基于深度强化学习的电力系统源-荷前瞻调度方法,其特征在于,所述电力系统经济运行基础数据,包括:
机组出力上下限、机组爬坡增减速率上下限、机组成本函数、需求侧响应负荷上限和需求侧响应价格函数。
3.根据权利要求1所述的基于深度强化学习的电力系统源-荷前瞻调度方法,其特征在于,所述根据所述电力系统经济运行基础数据构建电力系统源-荷前瞻调度模型,包括:
1)建立电力系统运行约束条件,表达式如下:
其中,(1)为系统功率平衡约束;式中为发电机组i在时段t的出力,Ng为可调度机组的数目;是电网中母线j在时段t的负荷,Nb为电网中母线的数量;为需求侧响应主体k在时段t削减的负荷,Ndr为需求侧响应主体总数;
上述四项约束中,时刻t代表前瞻窗口0,1,...,T-1的任意时刻;
2)确定电力系统经济调度目标函数,表达式如下:
其中,(5)为目标函数;前瞻窗口内总运行成本最小,包含发电机组运行总成本(6)与需求侧响应总成本(7);
式(6)为发电机组运行总成本,由各个发电机的成本函数(8)求和而得;式(8)为各个发电机的成本函数,采用二次函数的形式,ag,i、bg,i与cg,i为其系数;
4.根据权利要求1所述的基于深度强化学习的电力系统源-荷前瞻调度方法,其特征在于,所述设计状态空间,表达式如下:
其中,(10)为状态向量定义,状态量包含上一时刻发电机组出力(11)、前瞻窗口内母线负荷(12)与当前时刻t(15);
式(11)为t时刻发电机组出力状态向量,包含所有Ng台发电机的出力状态值(13);
式(12)为t时刻母线负荷状态向量,包含所有Nb条母线的负荷状态值(14);
式(13)、式(14)与式(15)均使用以下归一化函数将有名值按照对应的上下界归一化:
6.根据权利要求1所述的基于深度强化学习的电力系统源-荷前瞻调度方法,其特征在于,所述设计奖励函数,表达式如下:
Rt=(1-I(Mt,Mt+1,...,Mt+T-1))R (25)
其中,(22)为奖励函数定义,包含最小化前瞻窗口内总运行成本(23)、罚项(24)与奖励项(25);
式(23)为t时刻系统运行成本,包含发电机组运行成本与需求侧响应成本;
式(25)为奖励项,其中I(·)为逻辑函数:若Mt,Mt+1,…,Mt+T-1均为0,前瞻窗口内所有时刻均无越限情况,则I=0,Rt=R为一正奖励值;若前瞻窗口内存在越限情况,则I=1,Rt=0无奖励。
7.根据权利要求1所述的基于深度强化学习的电力系统源-荷前瞻调度方法,其特征在于,对所述深度强化学习算法进行改进与应用,包括:预训练智能体、训练智能体、测试与应用智能体,其中所述深度强化学习算法采用深度确定性策略梯度算法。
8.根据权利要求7所述的基于深度强化学习的电力系统源-荷前瞻调度方法,其特征在于,所述预训练智能体,包括:
准备预训练数据,将真实的历史调度数据按照所述状态空间、动作空间与奖励函数定义进行转换,供智能体训练;以及,
分别对动作和评价网络进行预训练,并使用相同的参数初始化专家网络。
9.根据权利要求7所述的基于深度强化学习的电力系统源-荷前瞻调度方法,所述训练智能体,包括:
令所述智能体在时序决策过程中与环境进行交互,并在经验回放池中存储所有交互经验,将不越限的经验额外存储进单独的经验回放池;以及,
每决策一定次数,从两个经验回放池中随机抽取经验样本对智能体网络进行更新,并更新专家网络参数。
10.一种基于深度强化学习的电力系统源-荷前瞻调度装置,其特征在于,包括:
构建模块,用于获取电力系统经济运行基础数据,根据所述电力系统经济运行基础数据构建电力系统源-荷前瞻调度模型,以构建含需求侧响应的电力系统前瞻调度模型;并基于所述电力系统前瞻调度模型,设计状态空间、动作空间和奖励函数,以设计电力系统经济调度问题的时序决策机制;
优化模块,用于根据所述时序决策机制,将深度强化学习算法应用于所述电力系统前瞻调度模型,并对所述深度强化学习算法进行改进与应用,得到基于深度强化学习的前瞻调度策略。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111112177.7A CN113902176A (zh) | 2021-09-18 | 2021-09-18 | 基于深度强化学习的电力系统源-荷前瞻调度方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111112177.7A CN113902176A (zh) | 2021-09-18 | 2021-09-18 | 基于深度强化学习的电力系统源-荷前瞻调度方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113902176A true CN113902176A (zh) | 2022-01-07 |
Family
ID=79028902
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111112177.7A Pending CN113902176A (zh) | 2021-09-18 | 2021-09-18 | 基于深度强化学习的电力系统源-荷前瞻调度方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113902176A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114897388A (zh) * | 2022-05-23 | 2022-08-12 | 国家电网公司华中分部 | 一种自适应不确定性的电力系统动态经济调度方法 |
CN115358534A (zh) * | 2022-07-28 | 2022-11-18 | 河海大学 | 基于同态加密强化学习的电器负荷需求响应方法 |
WO2024022194A1 (zh) * | 2022-07-26 | 2024-02-01 | 中国电力科学研究院有限公司 | 电网实时调度优化方法、系统、计算机设备及存储介质 |
CN117913920A (zh) * | 2024-03-19 | 2024-04-19 | 山东大学 | 计及机组爬坡速率约束与系统初始状态的调度方法及系统 |
-
2021
- 2021-09-18 CN CN202111112177.7A patent/CN113902176A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114897388A (zh) * | 2022-05-23 | 2022-08-12 | 国家电网公司华中分部 | 一种自适应不确定性的电力系统动态经济调度方法 |
WO2024022194A1 (zh) * | 2022-07-26 | 2024-02-01 | 中国电力科学研究院有限公司 | 电网实时调度优化方法、系统、计算机设备及存储介质 |
CN115358534A (zh) * | 2022-07-28 | 2022-11-18 | 河海大学 | 基于同态加密强化学习的电器负荷需求响应方法 |
CN115358534B (zh) * | 2022-07-28 | 2024-04-23 | 河海大学 | 基于同态加密强化学习的电器负荷需求响应方法 |
CN117913920A (zh) * | 2024-03-19 | 2024-04-19 | 山东大学 | 计及机组爬坡速率约束与系统初始状态的调度方法及系统 |
CN117913920B (zh) * | 2024-03-19 | 2024-06-04 | 山东大学 | 计及机组爬坡速率约束与系统初始状态的调度方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113902176A (zh) | 基于深度强化学习的电力系统源-荷前瞻调度方法及装置 | |
CN112117760A (zh) | 基于双q值网络深度强化学习的微电网能量调度方法 | |
CN111769600B (zh) | 一种基于灵活性裕度的电力系统源荷储协调滚动调度方法 | |
CN112186743A (zh) | 一种基于深度强化学习的动态电力系统经济调度方法 | |
CN111525627B (zh) | 含抽蓄与新能源发电的柔性直流输电系统日前调度方法 | |
CN111626527B (zh) | 计及可调度电动汽车快/慢充放电形式的智能电网深度学习调度方法 | |
CN107919675B (zh) | 综合考虑车主和运营商利益的充电站负荷调度模型 | |
CN113627993A (zh) | 一种基于深度强化学习的智能电动汽车充放电决策方法 | |
CN110556822B (zh) | 一种含电动汽车消纳大规模风电机组的组合计算方法 | |
CN109572478B (zh) | 充电站电动汽车在线平稳充电系统及方法 | |
CN103345663B (zh) | 考虑爬坡速率约束的电力系统机组组合优化方法 | |
CN111553750A (zh) | 一种计及电价不确定性和损耗成本的储能竞价策略方法 | |
CN115714382A (zh) | 一种基于安全强化学习的主动配电网实时调度方法及装置 | |
CN113131529A (zh) | 一种计及多种灵活性资源的可再生能源承载力评估的方法 | |
CN116307603A (zh) | 根据环境特征进行数据驱动的园区综合能源系统灵活性检测方法 | |
CN109149658B (zh) | 基于一致性理论的独立微电网分布式动态经济调度方法 | |
CN110738356A (zh) | 一种基于sdn增强网络的电动汽车充电智能调度方法 | |
CN114619907B (zh) | 基于分布式深度强化学习的协调充电方法及协调充电系统 | |
Sridharan et al. | A hybrid approach based energy management for building resilience against power outage by shared parking station for EVs | |
CN113344283A (zh) | 基于边缘智能的能源互联网新能源消纳能力评估方法 | |
CN116050632B (zh) | 一种基于纳什q学习的微电网群互动博弈策略学习进化方法 | |
CN109213104B (zh) | 基于启发式动态规划的储能系统的调度方法及调度系统 | |
CN115912430A (zh) | 基于云边端协同的大规模储能电站资源分配方法及系统 | |
CN110458405A (zh) | 一种基于电力-微气象特征数据的电力系统安全预警方法 | |
CN113013905B (zh) | 一种风光储微能量收集无线传感系统调度方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |