CN115986839A - 一种风-水-火综合能源系统的智能调度方法及系统 - Google Patents

一种风-水-火综合能源系统的智能调度方法及系统 Download PDF

Info

Publication number
CN115986839A
CN115986839A CN202211678735.0A CN202211678735A CN115986839A CN 115986839 A CN115986839 A CN 115986839A CN 202211678735 A CN202211678735 A CN 202211678735A CN 115986839 A CN115986839 A CN 115986839A
Authority
CN
China
Prior art keywords
wind
water
scheduling
fire
optimization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211678735.0A
Other languages
English (en)
Inventor
李远征
郝国凯
俞耀文
赵勇
曾志刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202211678735.0A priority Critical patent/CN115986839A/zh
Publication of CN115986839A publication Critical patent/CN115986839A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Feedback Control In General (AREA)

Abstract

本发明公开了一种风‑水‑火综合能源系统的智能调度方法及系统,该方法,为应对新能源不确定性对系统造成的影响,将滚动优化应用于风‑水‑火综合能源系统中,依据全局信息制定调度方案,利用局部优化代替全局优化,根据最新信息进行反馈校正;将滚动优化构建为马尔科夫决策过程,以确保其数学机理适用于深度强化学习。为保证调度方案求解时间与求解质量,提出混合增强智能调度算法结合深度强化学习与演化计算,利用深度强化学习挖掘历史数据价值,并与能源系统进行交互学习,优化自身控制策略,实现初步调度方案的快速给出;并利用演化计算进一步对初步调度方案进行再次优化,保障了风‑水‑火综合能源系统的经济性与稳定性。

Description

一种风-水-火综合能源系统的智能调度方法及系统
技术领域
本发明属于综合能源能量管理与智能调度技术领域,更具体地,涉及一种风-水-火综合能源系统的智能调度方法及系统。
背景技术
火电是我国电力行业中最重要的能源之一,它具有稳定可控等特点,但其运行成本较高、环境污染严重。相比而言,风力发电运行费用低廉、对环境影响较小,但其逆峰性、随机性、间断性等特点可能对电网造成一定的影响。水力发电具有起停速度快,调节能力强等特点,可以提高电网应对不确定因素的能力,但由于受其自身来水影响较大,过于注重调峰,会造成较大的弃水损失与容量安全隐患。为了使风电、水电、火电三者的特性得到互补,建立综合分析风-水-火特性的联合优化调度模型,对于提升多能电力工业系统运行效率,促进新能源消纳意义重大。
相比与单一能源系统调度,风-水-火综合能源系统调度方案的求解更为困难,其主要原因为能源系统规模增大与种类的增加致使问题规模与复杂性增加,同时,各不同能源子系统之间的时空耦合特性也使得调度方案的求解更为困难。目前已有的计算方法可以概括地分为两类:数学计算方法与演化计算方法。对于数学求解方法,最为常用的算法包括混合整数线性规划(Mixed-integer linear programming,MILP),以及混合整数非线性规划(Mixed-integernonlinearprogramming,MINLP)等。该类方法虽然在理论上可以得到问题的最优解,但在处理大规模非凸非线性问题时,难以在多项式时间内得到求解方案,同时该方法的求解精度通常也与问题的松弛精度存在较大关系。对于演化计算方法,最为常用的包含粒子群算法(Particle swarm optimization,PSO),遗传算法(Genetic algorithm,GA),以及捕食者与猎物进化策略算法(Evolutionarypredator andprey strategy,EPPS)等。虽然该方法在诸多领域都得到了广泛的应用,但其易于早熟以及计算量大等缺点仍然十分明显。因此,针对该问题,如何考虑风电出力不确定性,设计灵活,快速以及稳定的调度方法,进而保障风-水-火联合调度系统的经济性与安全性,提高系统消纳能力,是当前亟待解决的问题。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种风-水-火综合能源系统的智能调度方法及系统,能够实现风电、水电及火电各系统的协同互补调度,从而提高综合能源系统的响应能力,降低系统发电成本,增强系统风电消纳能力,确保系统稳定安全运行。
为实现上述目的,按照本发明的第一方面,提供了一种风-水-火综合能源系统的智能调度方法,包括:
S1,建立风-水-火综合能源系统的目标函数和约束条件;
S2,将求解所述目标函数的过程转化为马尔科夫决策过程,基于风-水-火综合能源系统的历史数据,采用滚动优化策略使智能体与系统进行交互,并采集交互数据对所述智能体进行控制策略更新,以训练所述智能体;
S3,采用训练好的智能体求解实际调度问题,得到初步调度方案,并利用粒子群算法对所述初步调度方案进行二次优化,得到最优调度方案。
按照本发明的第二方面,提供了一种风-水-火综合能源系统的智能调度系统,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行如第一方面所述的方法。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
1、相较于传统的单一能源调度,本发明构建的风-水-火协同模型可以充分发挥风-水-火优势互补特性,进而提升综合能源系统经济性与稳定性。在此基础上,利用滚动优化方法实现了综合考虑全局信息,以局部优化代替全局优化,并不断利用最新信息进行反馈校正的效果,有利于应对风电不确定性对系统造成的影响。同时,所提出的混合增强智能算法,充分利用了深度强化学习算法挖掘数据价值与历史信息价值,实现了调度方案的快速给出,并由于演化计算的加入,使得算法可以根据当前信息调整调度方案,实现了调度方案再优化。以此设计的风-水-火智能控制系统能够根据环境变化灵活快速给出调度方案,并最大程度的提高风电消纳能力,降低系统运行成本,同时增加系统稳定性。
2、本发明提供的风-水-火综合能源系统的智能调度方法,在离线学习+线上应用的基础上,在线上应用阶段增加了演化计算环节。这使得离线学习的泛化能力可以与线上演化计算的个性化能力相结合,形成优势互补,显著增加风-水-火系统的调度能力与适应能力。现存的研究大多首先利用深度强化学习在离线阶段根据历史数据对智能体进行训练,当训练完成时便将其直接应用于在线阶段;此外,还有部分研究为直接将演化计算应用于线上以解决调度问题。然而考虑到风-水-火联合调度系统的复杂时空耦合关系,风速的随机性与不确定性,以及历史数据的有限性,仅采用历史数据对智能体训练难以完全覆盖庞大的系统状态空间,进而可能出现部分调度结果不理想的情况;于此同时仅利用演化计算在在线阶段计算调度计划无疑会造成巨大的计算负担与求解时间压力。因此不同于上述两种方法,本发明依据深度强化学习在离线阶段对模型进行泛化学习,同时利用演化计算在在线阶段进一步进行个性化优化可以克服上述问题。
3、本发明提供的风-水-火综合能源系统的智能调度方法,将滚动优化决策过程表征为深度强化学习中的MDP,使得深度强化学习也可以采用滚动优化策略来与环境进行交互。现存研究在利用深度强化学习解决能源调度问题时,并未考虑采用滚动优化策略。然而,本发明所构建的风-水-火联合调度模型具有十分明显的时间耦合特性,即当前调度计划会对系统未来的状态造成一定的影响,同时考虑到风速的不确定性,这就使得在制定调度计划时,适当的考虑当前调度计划对未来的影响很有必要。因此在将调度过程构建为MDP时,对滚动优化策略进行了考虑。
4、本发明提供的风-水-火综合能源系统的智能调度方法,将深度强化学习与演化计算PSO进行了结合,所设计的动态指导方式可以平衡寻优过程中算法的探索与利用能力。本发明在利用深度强化学习指导PSO算法时,设计了一种动态指导方式,该方式可以根据PSO种群中的最优值与深度强化学习给出的进行比较,通过二者之间的差值调整对PSO种群的指导能力。
附图说明
图1为本发明实施例提供的风-水-火综合能源系统示意图:
图2为本发明实施例提供的基于深度强化学习与演化计算的风-水-火混合增强智能调度流程图;
图3为本发明实施例提供的滚动优化方案流程图;
图4为本发明实施例提供的将滚动优化构建为马尔科夫决策过程的示意图;
图5为本发明实施例提供的智能体内部结构示意图;
图6为本发明实施例提供的深度强化学习中智能体的训练过程流程图;
图7为本发明实施例提供的利用演化计算进一步对调度方案进行调整的流程图;
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明实施例提供一种风-水-火综合能源系统的智能调度方法,如图1-2所示,包括:
S1,建立风-水-火综合能源系统的目标函数和约束条件。
具体地,依据风电,阶梯水电,火电实际物理特性构建如图1所示的风-水-火综合能源系统,同时对系统供需平衡关系,水库容量时空耦合特性,水电机组,火电机组及风电机组物理特性进行表征。
S2,将求解所述目标函数的过程转化为马尔科夫决策过程,基于风-水-火综合能源系统的历史数据,采用滚动优化策略使智能体与系统进行交互,并采集交互数据对所述智能体进行控制策略更新,以训练所述智能体。
具体地,依据风-水-火综合能源系统时空耦合关系,利用滚动优化策略,求解目标函数,确定优化调度周期以及执行周期,并设计二者交替关系。
进一步地,所述滚动优化策略中,优化调度周期大于执行周期。
具体地,优化调度周期与执行周期交替关系如下:
在滚动优化中,考虑到风电等数据预测误差及系统时空耦合关系的存在,在制定调度方案时通常需要对较长时间尺度进行考虑,而在实际执行时仅执行部分时间尺度所对应的调度方案。在本发明中,优化调度周期是指在制定调度方案时所考虑的时间尺度大小,执行周期是指具体执行的调度方案所对应的时间尺度大小。在本发明中,优化调度周期仅需大于执行周期即可。
根据水库上游来水,水库容量,火电机组出力,净负荷等系统信息刻画状态变量,根据阶梯水电发电流量,火电机组爬坡等决策信息刻画动作变量,依据系统调度优化目标函数确立奖励映射规则,进而将滚动优化模型构建为马尔科夫决策过程。
基于历史数据,使深度强化学习中的智能体与系统进行交互,采集交互数据对智能体进行策略更新,进而提高智能体泛化能力,实现初步调度方案的快速给出。
S3,采用训练好的智能体求解实际调度问题,得到初步调度方案,并利用粒子群算法对所述初步调度方案进行二次优化,得到最优调度方案。
具体地,结合演化计算算法:粒子群算法,在深度强化学习的基础上,根据当前实际数据进一步调整调度方案。从而确保算法适应能力,在确保系统稳定安全运行的前提下,优化系统的运行成本及风电消纳能力。
进一步地,为保证风-水-火综合能源系统的稳定高效运行,需要依据风电机组,水电机组与火电机组实际物理模型及功率转换关系建立约束条件。主要包含电量供需平衡约束、梯级水库容量平衡约束、以及水电机组,风电机组,火电机组发电功率约束等,其具体约束条件如下所示:
Figure BDA0004018239170000061
Figure BDA0004018239170000062
Figure BDA0004018239170000063
Vh min≤Vh,t≤Vh max     (4)
Figure BDA0004018239170000071
Figure BDA0004018239170000072
Figure BDA0004018239170000073
Figure BDA0004018239170000074
Figure BDA0004018239170000075
Figure BDA0004018239170000076
Figure BDA0004018239170000077
相应的,在上述约束条件下,为减小综合能源系统运行成本,提高风电利用率,保障系统稳定性,系统进行调度时构建其目标函数如下:
Figure BDA0004018239170000078
Figure BDA0004018239170000079
Figure BDA00040182391700000710
Figure BDA00040182391700000711
Ft=FI+Fp+Fc+Fh (16)
其中,F(t)系统的目标函数,FI为火电机组出力成本,T为制定调度方案时所考虑的时间尺度,ai、bi、ci为火电机组i的成本参数,ei、hi为火电机组i的阀点效应参数;Fp为风-水-火系统额外购电成本,Cp为额外购电的价格;Fc为弃风惩罚,Cc为弃风惩罚因子;Fh为容量偏离惩罚,EVh,t为水电站h在t时段的期望容量,
Figure BDA0004018239170000081
为水电站h在t时段的允许偏离系数,Ch1、Ch2为常数。
Figure BDA0004018239170000082
为火电机组i在时段t的出力,Ni为火电机组数目;
Figure BDA0004018239170000083
为水电站h在t时段的出力,Nh为风电机组数目;
Figure BDA0004018239170000084
为第w台风电机组在时段t的出力,Nw为风电机组数目;Δt为时段t所包含的小时数;
Figure BDA0004018239170000085
为第t时段,系统从外部额外购买的电量,
Figure BDA0004018239170000086
为第t时段系统的弃风量,
Figure BDA0004018239170000087
为系统在时段t的需求电量;Vh,t为水电站h在t时段经调度之后的容量,Ih,t为水电站h在时段t的自然来水流量,Qh,t为水电站h在时段t的发电流量,Sh,t为水电站h在时段t的弃水流量,
Figure BDA0004018239170000088
为水电站h的直接上游电站个数,k为其直接上游水电站编号,tkh为上游电站k到电站h的水流时滞;ξh1~ξh6为水电站h的发电系数;Vh max与Vh min分别为水电站h的容量上下限,
Figure BDA0004018239170000089
Figure BDA00040182391700000810
分别为发电流量的上下限,
Figure BDA00040182391700000811
Figure BDA00040182391700000812
分别为出库流量的上下限;
Figure BDA00040182391700000813
Figure BDA00040182391700000814
分别为水电站h出力的上下限,
Figure BDA00040182391700000815
Figure BDA00040182391700000816
分别为火电机组i的出力上下限;URi与DRi分别为火电机组i的爬坡上下限;
Figure BDA00040182391700000817
为风电机组w在时段t的出力,Pra,w为风电机组w的额定功率,vw,t为风电机组w处时段t的风速,vin,w、vout,w、vra,w分别为风电机组w的切入、切出以及额定风速。
在步骤S2中,基于上述优化模型,考虑风电,阶梯水电,火电之间的时空耦合关系,以及风电出力不确定性对系统造成的影响,本发明将滚动优化策略应用于风-水-火综合能源系统中。其具体过程如下所示:
为便于理解,此处给出一具体案例,并配以附图3进行解释。在本案例中,设优化调度周期为4h,执行周期为1h,同时从t时刻开始执行滚动优化。此时,在t时刻制定相应调度方案时,需要对t~(t+3)共4h时段信息进行综合考虑,并制定相应调度方案,进而达到4h内整体最优。而在具体执行调度方案时,由于执行周期为1h,因此只执行1h内的调度方案,即仅执行t时刻的调度方案。之后,随着时间推移,系统进入t+1时刻,根据(t+1)~(t+4)时刻的预测信息,构建为新一轮的优化调度周期决策信息,并重新制定调度方案,且仅执行t+1时段的调度方案。重复上述过程,以实现滚动优化。
为便于后续利用深度强化学习求解,此处需要使滚动优化与深度强化学习数据机理相适应,需将滚动优化构建为马尔科夫决策过程形式。及具体流程如附图4所示。从整体来看,首先依据系统整个优化调度周期内的决策信息新建状态变量s1,并将其输入智能体(Agent)中,Agent会依据自身控制策略输出相应动作a1,以及在状态s1下,输出a1的概率p1。此后,环境依据状态s1与动作a1给出奖励值r1,并将状态转移至下一时刻状态s2。类似的,Agent依据s2给出a2与p2,重复上述过程,直至给出奖励值r4,此时a1~a4即为t1~t4优化调度周期的调度方案。
Agent的状态变量表示如下:
Figure BDA0004018239170000101
Figure BDA0004018239170000102
Figure BDA0004018239170000103
Figure BDA0004018239170000104
Figure BDA0004018239170000105
Figure BDA0004018239170000106
Figure BDA0004018239170000107
Figure BDA0004018239170000108
其中,st为t时刻智能体的状态。
通过上述构造方法,实现了Agent对阶梯水库上游来水,水库当前容量,火电机组出力,净负荷需求能信息的提取与利用。以便于Agent分析状态间的差异,提高训练效率。
本发明实施例提供的基于深度强化学习与演化计算的风-水-火混合增强智能调度方法,通过将梯级水电上游来水,梯级水电区间自然来水,火电机组当前出力,系统净负荷等数据信息构造为深度强化学习智能体状态变量,实现了最大程度捕捉系统关键影响因素,为智能体决策提供了充足的系统信息,提升智能体训练效果。
Agent的动作表示如下:
at=[Qt,Δpt] (25)
Figure BDA0004018239170000111
Figure BDA0004018239170000112
Figure BDA0004018239170000113
其中,at为t时刻智能体的动作。
依据智能体动作at,可以确定水库发电流量以及火电机组爬坡功率,从而获得风-水-火综合能源系统的调度计划,实现系统的智能控制。
本发明实施例提供的基于深度强化学习与演化计算的风-水-火混合增强智能调度方法,通过将阶梯水电发电流量,火电机爬坡功率作为深度强化学习中智能体动作变量,实现了实际物理系统控制变量与智能体动作变量一致性。进而使得智能体动作输出无需再处理便可应用于风-水-火联合调度系统。增加了控制系统的便利性。
依据调度后系统状态确立奖励映射规则方式如下:
Figure BDA0004018239170000114
其中,
Figure BDA0004018239170000115
为t时刻智能体的奖励值。
具体地,奖励值定义为目标函数(16)的负值,即:
rt=-Ft (29)
在本发明中,环境定义为风-水-火综合能源系统。依据状态st,环境可以确定综合能源系统当前的状态信息。于此同时,依据动作at,环境可以确定综合能源系统当前的调度方案。此时,基于式(1)-(16)可以计算得目标函数Ft,并通过式(29)进一步计算得出环境应当给予Agent的奖励值rt
本发明实施例提供的基于深度强化学习与演化计算的风-水-火混合增强智能调度方法,依据调度目标函数构造深度强化学习奖励函数,保证了马尔科夫决策过程与综合能源系统调度目标的一致性。进而使得智能体以优化综合能源系统调度目标为驱动进行学习,优化自身控制策略。
在本发明中,Agent为综合能源系统中的分析-决策单元。详细构造如附图5所示,其中,决策网络用于依据状态s给出动作的均值μ与方差σ,进而通过高斯分布采样得到动作a。而评价网络则用于评价状态s的价值V(s),并在后续过程中协助策略网络更新。
进一步地,进一步地,训练智能体控制策略的方法如下:
Figure BDA0004018239170000121
Figure BDA0004018239170000122
Figure BDA0004018239170000123
Figure BDA0004018239170000124
Figure BDA0004018239170000125
Figure BDA0004018239170000126
Figure BDA0004018239170000127
Figure BDA0004018239170000128
其中,θ为策略网络参数,α为学习率;
Figure BDA0004018239170000129
为目标函数的梯度,πθ(at|st)为智能体在控制策略πθ下,当状态为st时,输出动作at的概率;
Figure BDA0004018239170000131
为状态为st时,动作at的优势;
Figure BDA0004018239170000132
为状态为st时,动作at的价值,
Figure BDA0004018239170000133
为状态st的价值;
Figure BDA0004018239170000134
为状态为st时,动作at的奖励值,τ为轨迹,记录了智能体在与环境交互过程中经过的状态与做出的动作,为一系列状态与动作的集合。
具体地,利用近端策略优化(Proximal Policy Optimization,PPO)对Agent进行训练,训练流程图如附图6所示。该过程主要分为三个阶段:与环境交互生成样本阶段,策略网络训练阶段以及评价网络训练阶段。其中与环境交互生成样本阶段具体步骤如下所示:
1.环境依据上一时刻Agent动作与历史数据输出状态变量st
2.策略网络依据st输出μ与σ,并基于此构建高斯分布
Figure BDA0004018239170000135
同时通过对πθ(·|st)采样得到动作at
3.此后环境根据st与at对状态进行转移得到状态st+1,同时依据式(29)输出奖励值rt
4.重复上述过程,直到达到终止条件,并将该过程所产生的变量<st,at,π(at|st),r,st+1>保存在记忆库Memory中,用于后续训练网络。
好的策略可以使Agent依据当前状态s输出最优动作a*,从而最大化奖励值。策略网络训练阶段具体流程如下所示:
1.从Memory中采样得到训练数据
Figure BDA0004018239170000136
2.策略网络依据st构建高斯分布πθ,并根据at计算得πθ(at|st)。
3.依据πθ(at|st),
Figure BDA0004018239170000141
以及评价网络训练阶段所输出的优势
Figure BDA0004018239170000142
对网络进行梯度更新。计算方式如下:
Figure BDA0004018239170000143
Figure BDA0004018239170000144
Figure BDA0004018239170000145
评价网络主要用于协助策略网络进行更新,其主要原理为通过拟合状态价值函数
Figure BDA0004018239170000146
进而为策略网络训练提供优势函数
Figure BDA0004018239170000147
因此,我们也需要对评价网络进行更新,使其更好的拟合状态价值函数。该过程如下所示:
1.评价网络首先提取训练样本数据中的状态st及st+1,之后对其价值进行估计,得到
Figure BDA0004018239170000148
Figure BDA0004018239170000149
其中θc为策略网络参数。
2.依据奖励值rt
Figure BDA00040182391700001410
计算优势
Figure BDA00040182391700001411
并将其传递于策略网络训练阶段。优势函数的计算方式如下:
Figure BDA00040182391700001412
Figure BDA00040182391700001413
3.依据奖励值rt
Figure BDA0004018239170000151
对评价网络进行参数更新。计算方式如下:
Figure BDA0004018239170000152
Figure BDA0004018239170000153
Figure BDA0004018239170000154
其中,ac为评价网络更新的学习率。
进一步地,在步骤S3中,一种演化计算方法:粒子群算法(Particle SwarmOptimization,PSO)被用于进一步对调度方案xDRL进行调整,进而增强算法的适应能力与鲁棒性。
本发明中,利用PSO算法进一步对调度方案xDRL进行调整的过程可进一步分为四个时期:初始化时期,迭代初期,迭代中期以及迭代后期。以调度周期为4Δt为例,其流程图如附图7所示。
在初始化时期,风-水-火综合能源系统将首先被环境构造为s0。此后,Agent与环境进行交互,得到4个时期的动作a1~a4,并直接将其作为调度方案xDRL(即初步调度方案)。
在迭代初期,xDRL将被用于指导PSO中粒子的运动,进而使粒子种群快速运动到较优位置。该过程可以由下式表示:
Figure BDA0004018239170000155
Figure BDA0004018239170000161
在迭代中期,粒子种群将持续受到xDRL的影响,为保证种群可以充分利用xDRL的同时,提高种群的探索能力,实现算法探索与利用的均衡,本发明定义指导因子c3的大小与xDRL、Gbestk函数值之间的差值相关,其具体计算方式如下所示。
Figure BDA0004018239170000162
其中,
Figure BDA0004018239170000163
分别表示第j个粒子在第k次迭代中的速度与位置,j=1,2,…,Nj、k=1,2,…,Nk,Nj与Nk分别表示算法中粒子的总数以及总的迭代次数;
Figure BDA0004018239170000164
为粒子j在前k次迭代过程中的最优位置,Gbestk代表粒子群在前k次迭代过程中的最优位置;xDRL为初步调度方案;w为惯性权重,rand为(0,1]之间的随机数,c1、c2为学习因子,c3为指导因子,c3越大表明xDRL对粒子的指导能力越强;
Figure BDA0004018239170000165
Figure BDA0004018239170000166
分别为Gbestk与xDRL的函数值,Cpso为常数。
在迭代后期,依据式(40),指导因子c3将逐渐减小为0。此时,深度强化学习所给出的调度方案将不再具有指导作用,同时Gbestk的函数值已经更为优越。此后,粒子种群将完全处于自主运动状态,同时继续对系统进行优化。最后,
Figure BDA0004018239170000167
将作为风-水-火综合能源系统的调度方案(即最优调度方案)。
本发明实施例提供的基于深度强化学习与演化计算的风-水-火混合增强智能调度方法,通过构建自适应指导因子,实现了演化计算充分平衡探索与利用的能力,在迭代初期通过较大的指导因子加快算法利用能力,迅速提升调度方案质量。在调度方案优于智能体给出方案时加大探索能力,进一步探索更优的调度方案。进而实现了算法依据调度方案优劣自动调整优化方向。
综上,本发明实施例提供的基于深度强化学习与演化计算的风-水-火混合增强智能调度方法,考虑风电,阶梯水电以及传统火电优缺点,确立风电,水电及火电物理特征,搭建了风-水-火联合互补综合能源系统,进而提出了风-水-火联合互补能源调度问题。相较于传统的单一能源调度,本发明构建的风-水-火协同模型可以充分发挥风-水-火优势互补特性,进而提升综合能源系统经济性与稳定性。通过引入滚动优化策略以应对风电不确定性对综合能源系统带来的影响,该策略以风速预测误差随时序推移下降客观事实为基础依据,利用预测数据制定全局调度方案,但仅对部分调度方案进行实施,实现了以局部优化代替全局优化,并利用最新预测数据反馈校正,进而提升调度效果。此外,为保证调度方案求解时间与求解质量,本发明提出了混合增强智能调度算法,该算法结合深度强化学习与演化计算,利用深度强化学习挖掘历史数据价值,并与风-水-火综合能源系统进行交互学习,优化自身控制策略,进而实现调度方案快速给出。在此基础上,利用演化计算进一步对深度强化学习给出方案进行调整,增强算法调节能力,再次优化调度方案,从而实现风-水-火联合调度快速决策,并确保电力供需平衡,新能源高效消纳以及阶梯水电容量安全。本发明提供的方法可为风-水-火等综合能源系统的决策者制定快速,稳定的调度方案提供一定参考价值;同时提高新能源消纳能力,降低系统响应时间,提高系统稳定性与经济性。
本发明实施例提供一种风-水-火综合能源系统的智能调度系统,包括:
计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行如上述任一实施例所述的方法。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种风-水-火综合能源系统的智能调度方法,其特征在于,包括:
S1,建立风-水-火综合能源系统的目标函数和约束条件;
S2,将求解所述目标函数的过程转化为马尔科夫决策过程,基于风-水-火综合能源系统的历史数据,采用滚动优化策略使智能体与系统进行交互,并采集交互数据对所述智能体进行控制策略更新,以训练所述智能体;
S3,采用训练好的智能体求解实际调度问题,得到初步调度方案,并利用粒子群算法对所述初步调度方案进行二次优化,得到最优调度方案。
2.如权利要求1所述的方法,其特征在于,所述目标函数为:
F(t)=FI+Fp+Fc+Fh
Figure FDA0004018239160000011
Figure FDA0004018239160000012
Figure FDA0004018239160000013
Figure FDA0004018239160000014
其中,F(t)系统的目标函数,FI为火电机组出力成本,T为制定调度方案时所考虑的时间尺度,ai、bi、ci为火电机组i的成本参数,ei、hi为火电机组i的阀点效应参数;Fp为风-水-火系统额外购电成本,Cp为额外购电的价格;Fc为弃风惩罚,Cc为弃风惩罚因子;Fh为容量偏离惩罚,EVh,t为水电站h在t时段的期望容量,
Figure FDA0004018239160000015
为水电站h在t时段的允许偏离系数,Ch1、Ch2为常数。
3.如权利要求1所述的方法,其特征在于,所述约束条件包括:
Figure FDA0004018239160000021
Figure FDA0004018239160000022
Figure FDA0004018239160000023
Figure FDA0004018239160000024
Figure FDA0004018239160000025
Figure FDA0004018239160000026
Figure FDA0004018239160000027
Figure FDA0004018239160000028
Figure FDA0004018239160000029
Figure FDA00040182391600000210
Figure FDA00040182391600000211
其中,
Figure FDA0004018239160000031
为火电机组i在时段t的出力,Ni为火电机组数目;
Figure FDA0004018239160000032
为水电站h在t时段的出力,Nh为风电机组数目;
Figure FDA0004018239160000033
为第w台风电机组在时段t的出力,Nw为风电机组数目;Δt为时段t所包含的小时数;
Figure FDA0004018239160000034
为第t时段,系统从外部额外购买的电量,
Figure FDA00040182391600000318
为第t时段系统的弃风量,
Figure FDA0004018239160000035
为系统在时段t的需求电量;Vh,t为水电站h在t时段经调度之后的容量,Ih,t为水电站h在时段t的自然来水流量,Qh,t为水电站h在时段t的发电流量,Sh,t为水电站h在时段t的弃水流量,
Figure FDA0004018239160000036
为水电站h的直接上游电站个数,k为其直接上游水电站编号,tkh为上游电站k到电站h的水流时滞;ξh1~ξh6为水电站h的发电系数;
Figure FDA0004018239160000037
Figure FDA0004018239160000038
分别为水电站h的容量上下限,
Figure FDA0004018239160000039
Figure FDA00040182391600000310
分别为发电流量的上下限,
Figure FDA00040182391600000311
Figure FDA00040182391600000312
分别为出库流量的上下限;
Figure FDA00040182391600000313
Figure FDA00040182391600000314
分别为水电站h出力的上下限,
Figure FDA00040182391600000315
Figure FDA00040182391600000316
分别为火电机组i的出力上下限;URi与DRi分别为火电机组i的爬坡上下限;
Figure FDA00040182391600000317
为风电机组w在时段t的出力,Pra,w为风电机组w的额定功率,vw,t为风电机组w处时段t的风速,vin,w、vout,w、vra,w分别为风电机组w的切入、切出以及额定风速。
4.如权利要求1或2所述的方法,其特征在于,所述滚动优化策略中,优化调度周期大于执行周期。
5.如权利要求1所述的方法,其特征在于,所述智能体的状态变量为:
Figure FDA0004018239160000041
Figure FDA0004018239160000048
Figure FDA0004018239160000042
Figure FDA0004018239160000043
Figure FDA0004018239160000049
Figure FDA0004018239160000044
Figure FDA0004018239160000045
Figure FDA0004018239160000046
所述智能体的动作变量为:
at=[Qt,Δpt];
Figure FDA00040182391600000411
Figure FDA00040182391600000410
Figure FDA0004018239160000047
所述智能体的奖励函数为:
Figure FDA0004018239160000051
6.如权利要求1或5所述的方法,其特征在于,采用以下近端策略优化方法对所述智能体进行训练:
Figure FDA0004018239160000052
Figure FDA0004018239160000053
Figure FDA0004018239160000054
Figure FDA0004018239160000055
Figure FDA0004018239160000056
Figure FDA0004018239160000057
Figure FDA0004018239160000058
Figure FDA0004018239160000059
其中,θ为策略网络参数,α为学习率;
Figure FDA00040182391600000510
为目标函数的梯度,πθ(at|st)为智能体在控制策略πθ下,当状态为st时,输出动作at的概率;
Figure FDA00040182391600000511
为状态为st时,动作at的优势;
Figure FDA00040182391600000512
为状态为st时,动作at的价值,
Figure FDA00040182391600000513
为状态st的价值;
Figure FDA00040182391600000514
为状态为st时,动作at的奖励值,τ为轨迹,记录了智能体在与环境交互过程中经过的状态与做出的动作,为一系列状态与动作的集合。
7.如权利要求1所述的方法,其特征在于,所述二次优化的过程为:
Figure FDA0004018239160000061
Figure FDA0004018239160000062
Figure FDA0004018239160000063
其中,
Figure FDA0004018239160000064
分别表示第j个粒子在第k次迭代中的速度与位置,j=1,2,…,Nj、k=1,2,…,Nk,Nj与Nk分别表示算法中粒子的总数以及总的迭代次数;
Figure FDA0004018239160000065
为粒子j在前k次迭代过程中的最优位置,Gbestk代表粒子群在前k次迭代过程中的最优位置;xDRL为初步调度方案;w为惯性权重,rand为(0,1]之间的随机数,c1、c2为学习因子,c3为指导因子,c3越大表明xDRL对粒子的指导能力越强;
Figure FDA0004018239160000066
与fxDRL分别为Gbestk与xDRL的函数值,Cpso为常数。
8.一种风-水-火综合能源系统的智能调度系统,其特征在于,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行如权利要求1-7任一项所述的方法。
CN202211678735.0A 2022-12-26 2022-12-26 一种风-水-火综合能源系统的智能调度方法及系统 Pending CN115986839A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211678735.0A CN115986839A (zh) 2022-12-26 2022-12-26 一种风-水-火综合能源系统的智能调度方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211678735.0A CN115986839A (zh) 2022-12-26 2022-12-26 一种风-水-火综合能源系统的智能调度方法及系统

Publications (1)

Publication Number Publication Date
CN115986839A true CN115986839A (zh) 2023-04-18

Family

ID=85964389

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211678735.0A Pending CN115986839A (zh) 2022-12-26 2022-12-26 一种风-水-火综合能源系统的智能调度方法及系统

Country Status (1)

Country Link
CN (1) CN115986839A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114781274A (zh) * 2022-05-17 2022-07-22 江苏泰坦智慧科技有限公司 仿真与决策交替学习的综合能源系统控制优化方法与系统
CN116866084A (zh) * 2023-08-30 2023-10-10 国网山东省电力公司信息通信公司 基于强化学习的入侵响应决策方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114781274A (zh) * 2022-05-17 2022-07-22 江苏泰坦智慧科技有限公司 仿真与决策交替学习的综合能源系统控制优化方法与系统
CN116866084A (zh) * 2023-08-30 2023-10-10 国网山东省电力公司信息通信公司 基于强化学习的入侵响应决策方法及系统
CN116866084B (zh) * 2023-08-30 2023-11-21 国网山东省电力公司信息通信公司 基于强化学习的入侵响应决策方法及系统

Similar Documents

Publication Publication Date Title
CN115986839A (zh) 一种风-水-火综合能源系统的智能调度方法及系统
CN114424217A (zh) 综合能源系统的优化方法、装置和计算机可读存储介质
CN109063992A (zh) 考虑区域综合能源系统优化运行的配电网扩展规划方法
WO2019237316A1 (zh) 一种基于知识迁移的高炉煤气调度系统建模方法
CN103729695A (zh) 基于粒子群和bp神经网络的短期电力负荷预测方法
CN114503120A (zh) 综合能源系统的仿真方法、装置和计算机可读存储介质
CN106372756A (zh) 一种基于繁殖粒子群算法的火电厂负荷优化分配方法
CN111144728A (zh) 基于深度强化学习的热电联产系统经济调度方法
CN112491094B (zh) 一种混合驱动的微电网能量管理方法、系统及装置
CN114331059A (zh) 电氢互补的园区多楼宇供能系统及其协调调度方法
CN105870942A (zh) 一种基于近似动态规划算法的一次调频附加学习控制方法
CN114450682A (zh) 综合能源系统的控制方法、装置和计算机可读存储介质
CN116432824A (zh) 基于多目标粒子群的综合能源系统优化方法及系统
CN115795992A (zh) 一种基于运行态势虚拟推演的园区能源互联网在线调度方法
CN116993128B (zh) 一种综合能源系统深度强化学习低碳调度方法及系统
CN113962140A (zh) 基于ga-lstm的汽轮机阀门流量特性函数的优化方法
Hou et al. Application of multi-agent EADRC in flexible operation of combined heat and power plant considering carbon emission and economy
CN112084680A (zh) 一种基于dqn算法的能源互联网优化策略方法
CN115001002B (zh) 一种求解储能参与削峰填谷的优化调度方法和系统
CN116562423A (zh) 基于深度强化学习的电-热耦合新能源系统能量管理方法
CN115860169A (zh) 一种火电机组深度调峰改造多目标优化规划方法及系统
CN115759604A (zh) 一种综合能源系统优化调度方法
CN114943448A (zh) 一种微电网优化调度模型的构建方法和系统
Feng et al. Nonlinear model predictive control for pumped storage plants based on online sequential extreme learning machine with forgetting factor
CN113824116B (zh) 一种基于混合时间尺度drl的综合能源在线调度方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination