CN114462696A - 基于td3的综合能源系统源荷协同运行优化方法 - Google Patents

基于td3的综合能源系统源荷协同运行优化方法 Download PDF

Info

Publication number
CN114462696A
CN114462696A CN202210102710.XA CN202210102710A CN114462696A CN 114462696 A CN114462696 A CN 114462696A CN 202210102710 A CN202210102710 A CN 202210102710A CN 114462696 A CN114462696 A CN 114462696A
Authority
CN
China
Prior art keywords
power
load
network
energy system
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210102710.XA
Other languages
English (en)
Inventor
唐昊
李世彦
吕凯
方道宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202210102710.XA priority Critical patent/CN114462696A/zh
Publication of CN114462696A publication Critical patent/CN114462696A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for AC mains or AC distribution networks
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for AC mains or AC distribution networks
    • H02J3/008Circuit arrangements for AC mains or AC distribution networks involving trading of energy or energy transmission rights
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for AC mains or AC distribution networks
    • H02J3/28Arrangements for balancing of the load in a network by storage of energy
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for AC mains or AC distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/46Controlling of the sharing of output between the generators, converters, or transformers
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/10Power transmission or distribution systems management focussing at grid-level, e.g. load flow analysis, node profile computation, meshed network optimisation, active network management or spinning reserve management
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2300/00Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
    • H02J2300/20The dispersed energy generation being of renewable origin
    • H02J2300/22The renewable source being solar energy
    • H02J2300/24The renewable source being solar energy of photovoltaic origin
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2300/00Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
    • H02J2300/40Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation wherein a plurality of decentralised, dispersed or local energy generation technologies are operated simultaneously
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E40/00Technologies for an efficient electrical power generation, transmission or distribution
    • Y02E40/70Smart grids as climate change mitigation technology in the energy generation sector
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Power Engineering (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Development Economics (AREA)
  • Molecular Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Educational Administration (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于TD3的综合能源系统源荷协同运行优化方法,考虑了多类型负荷和可再生能源在内的源荷双侧随机因素,并根据综合能源系统的多能耦合特性,提出了协同能量运行优化,构建系统运行经济性为优化目标的能量管理系统运行优化模型,通过TD3算法优化求解综合能源系统的能量管理运行策略;结合系统对当前状态的感知与策略网络可以映射出当前最优动作。本发明中的TD3算法将强化学习成功引入连续动作空间,避免了动作空间自由度成指数增长的问题。结合TD3算法的综合能源系统运行优化方法具有优化性能好、学习效率高的优点。

Description

基于TD3的综合能源系统源荷协同运行优化方法
技术领域
本发明属于区域综合能源系统运行技术领域,具体的说是一种基于TD3的综合能源系统源荷协同运行优化方法。
背景技术
冷热电联供综合能源系统作为一种新型的功能模式,可以实现大规模可再生能源的利用、冷热电等异质能的互补,并且作为一种弹性资源,可以给电网提供足够的调峰裕度,其中综合能源系统协调运行和优化控制是实现上述目标的关键技术。
现有的关于协调运行和优化控制的研究,其中也有采用传统强化学习算法的研究,但相比于单一能源系统,综合能源系统包含多种能量动态特性和互补关系,在系统结构和运行约束上比单一能源系统更复杂,其体现在传统强化学习中,具有更高维度的状态和行动,传统强化学习算法将面临“维数灾”问题;此外,现有的综合能源系统研究很少有将综合能源系统作为一种可参与电网调峰的弹性资源而考虑,对其用能行为缺乏引导。
发明内容
针对现有技术中存在的不足之处,本发明提出一种基于TD3的综合能源系统运行优化方法。利用连续的输入和输出,避免了随着行动维数的增加,神经网络的维数成指数增长,计算复杂度过高的问题,完全规避了传统强化学习“维数灾”问题,极大提升了学习优化的速度。此外,本发明通过挖掘某一区域的综合能源系统源荷协同关系,给出了可再生能源和多类型负荷的随机动态变化过程,构建了并网型区域综合能源系统动态运行模型,利用TD3算法可以极大的降低求解优化问题的复杂度,得到最优运行模型。
为实现上述目的,本发明采用如下技术方案:
基于TD3的综合能源系统源荷协同运行优化方法,所述综合能源系统包括燃气轮机组,光伏,电储能设备,热储能设备,余热回收装置,燃气锅炉,吸收式制冷机,空调设备,电、热、冷负荷需求,所述优化方法包括如下步骤,
步骤S1、获取能源系统内光伏、电网、燃气轮机组、余热回收装置、燃气锅炉的输出功率,冷负荷、热负荷、电负荷的需求功率,电储能设备和热储能设备的状态及充放电功率,吸收式制冷机、空调设备的电制冷和热制冷功率;
步骤S2、构建可用TD3算法优化的综合能源系统协同运行框架,其框架包含多个Actor网络和Critic网络、状态变量、行动变量和优化目标;并通过Actor网络与综合能源系统仿真环境交互获得学习样本;其中综合能源系统仿真环境由步骤S1所述各个设备与负荷需求功率所构成,且将其设备和负荷需求功率等状态信息归一化为状态变量,输入到Actor网络得到行动a并在仿真环境中执行得到样本;
步骤S3、按照TD3算法更新Actor网络和Critic网络。
本技术方案进一步的优化,所述步骤S1具体包括:
步骤S1.1、针对并网型综合能源系统仿真建模,假设在运行日内任意时刻t下光伏出力功率预测值为
Figure BDA0003492978870000021
电网供电功率为
Figure BDA0003492978870000022
机组出力为
Figure BDA0003492978870000023
冷、热、电负荷需求功率预测值分别为
Figure BDA0003492978870000024
步骤S1.2、将区域中光伏发电出力实际值
Figure BDA0003492978870000025
在t时刻相对于预测值
Figure BDA0003492978870000026
的出力偏差功率的随机波动设为
Figure BDA0003492978870000027
则区域综合能源系统在t时刻光伏出力为:
Figure BDA0003492978870000028
步骤S1.3、将区域中t时刻冷负荷需求实际功率
Figure BDA0003492978870000029
相对于预测值
Figure BDA00034929788700000210
的偏差功率的随机波动设为
Figure BDA00034929788700000211
区域综合能源系统在t时刻冷负荷需求实际功率为:
Figure BDA00034929788700000212
步骤S1.4、将区域中t时刻热负荷需求实际功率
Figure BDA00034929788700000213
相对于预测值
Figure BDA00034929788700000214
的偏差功率的随机波动设为
Figure BDA00034929788700000215
区域综合能源系统在t时刻热负荷需求实际功率为:
Figure BDA00034929788700000216
步骤S1.5、将区域中t时刻电负荷需求实际功率
Figure BDA00034929788700000217
相对于预测值
Figure BDA00034929788700000218
的偏差功率的随机波动设为
Figure BDA00034929788700000219
区域综合能源系统在t时刻电负荷需求实际功率为:
Figure BDA00034929788700000220
步骤S1.6、确定区域中每台燃气轮机机组在t时刻的机组输出功率为
Figure BDA00034929788700000221
其中燃气轮机机组的出力约束设为:
Figure BDA0003492978870000031
定义燃气轮机机组的爬坡约束为:
Figure BDA0003492978870000032
其含义是在Δt时间段内发电机组的向上爬坡功率不能超过
Figure BDA0003492978870000033
向下爬坡功率不能超过
Figure BDA0003492978870000034
步骤S1.7、配置包含燃气轮机机组等供能设备时,考率综合能源系统的热负荷需求,配置余热回收装置和燃气锅炉以输出热功率,其中余热回收装置回收燃气轮机运行过程产生的废热,定义废热回收效率为ηgt,H,废热回收功率设置为:
Figure BDA0003492978870000035
燃气锅炉通过消耗天然气提供功率,其在t时刻产生的热功率为
Figure BDA0003492978870000036
步骤S1.8、确定区域中电储能设备在t时刻的荷电状态为
Figure BDA0003492978870000037
热储能状态按电储能的荷电状态形式定义
Figure BDA0003492978870000038
其含义是电、热能占剩余容量比;
步骤S1.9、确定区域中电、热储能设备在t时刻的实时充放功率为
Figure BDA0003492978870000039
正放负充;其中充放功率约束设为:
Figure BDA00034929788700000310
Figure BDA00034929788700000311
其中
Figure BDA00034929788700000312
分别为电储能的最小放电功率、最大放电功率、最小充电功率和最大充电功率;同理,
Figure BDA00034929788700000313
分别为热储能的最小放热功率、最大放热功率、最小充热功率和最大充热功率;
步骤S1.10、系统中的制冷设备包含空调设备、吸收式制冷机,分别用电能、热能驱动供冷,设定
Figure BDA00034929788700000314
分别为电制冷、热制冷功率,
Figure BDA00034929788700000315
Figure BDA00034929788700000316
表示电制冷和热制冷的效率,
Figure BDA00034929788700000317
表示用来制冷的电功率、热功率。
本技术方案更进一步的优化,针对综合能源系统,设置冷热电三种平衡约束,其中冷负荷平衡约束如下:
Figure BDA0003492978870000041
热负荷平衡约束如下:
Figure BDA0003492978870000042
电负荷平衡约束如下:
Figure BDA0003492978870000043
本技术方案进一步的优化,所述步骤S2中TD算法架构中包含多个Actor网络和Critic网络、状态变量、行动变量和优化目标。
本技术方案更进一步的优化,所述步骤S2状态变量构建如下:
确定t时刻光伏波动范围
Figure BDA0003492978870000044
并将当前时刻光伏出力波动
Figure BDA0003492978870000045
归一化处理为t时刻光伏波动等级:
Figure BDA0003492978870000046
同理可建立冷、热、电偏差功率建立为随机状态变量:
Figure BDA0003492978870000047
Figure BDA0003492978870000048
Figure BDA0003492978870000049
确定第n台机组的容量
Figure BDA00034929788700000410
并将t时刻第n台机组的出力归一化为其状态等级:
Figure BDA00034929788700000411
加上电、热储能容量
Figure BDA00034929788700000412
构成决策周期t时刻的状态向量:
Figure BDA00034929788700000413
本技术方案更进一步的优化,所述S2具体步骤如下,
步骤S2.1、初始化Actor网络参数θμ和两个Critic网络参数
Figure BDA0003492978870000059
θQ2,并将Actor网络参数和Critic网络参数复制到目标网络,将其作为智能体的架构;
步骤S2.2、初始化经验回放池R,初始化当前学习步数m=0;
步骤S2.3、初始化综合能源系统模型参数及学习参数,将其作为环境;
步骤S2.4、初始化当前决策周期t=0,和系统的总周期T=23,其中每个决策时段为1小时,设定系统的总周期为一幕;
步骤S2.5、考虑到综合能源系统能源的不确定性和负荷的随机性,随机初始化当前时刻状态不确定部分
Figure BDA0003492978870000051
其中,分别为t时刻光伏波动等级、冷负荷偏差功率、热负荷偏差功率、电负荷偏差功率;
步骤S2.6、智能体和环境进行交互,以感知当前时刻综合能源系统状态st,并将其输入到现实Actor网络从而得到当前时刻的行动集at=μ(stμ),其中at包含了综合能源系统当前可调动作
Figure BDA0003492978870000052
动作分别为调整空调出力和吸收式制冷机出力比例,调整各台燃气轮机出力等级,调整电、热储能充放功率等级;
步骤S2.7、对环境施加当前时刻的行动向量at,并返回当前时刻的代价ct和下一时刻的状态st+1,从而得到一个四元组<st,at,ct,st+1>,将此四元组作为学习样本放入经验回放池R中;
步骤S2.8、令t=t+1;若t小于决策周期总数T,返回步骤S2.6;否则令t=0。
本技术方案更进一步的优化,所述步骤S2.6确定可调动作变量:
步骤S2.6.1、将负荷中的电热制冷转换配比作为决策变量,其行动等级为
Figure BDA0003492978870000053
是一个连续的区间,其含义是电制冷功率占总制冷功率的配比,相反则是热制冷功率在总功率的配比,电制冷功率
Figure BDA0003492978870000054
和热制冷功率
Figure BDA0003492978870000055
受行动等级控制出力公式如下:
Figure BDA0003492978870000056
步骤S2.6.2、设定电、热储能行动等级
Figure BDA0003492978870000057
其含义是决策周期t时刻在储能出力约束下的出力等级,t时刻电储能、热储能出力受行动等级
Figure BDA0003492978870000058
控制公式如下所示:
Figure BDA0003492978870000061
Figure BDA0003492978870000062
步骤S2.6.3、设定每台燃气轮机机组出力调整行动等级为
Figure BDA0003492978870000063
则t到t+1时间段内机组出力受行动等级
Figure BDA0003492978870000064
调整变化公式为:
Figure BDA0003492978870000065
步骤S2.6.4、上述动作变量构成一组可调动作向量:
Figure BDA0003492978870000066
定义能量管理系统策略π为状态向量-动作向量映射,即对于任意状态向量st,都可根据π选择动作向量at控制综合能源系统运行,在TD3算法框架中策略π为actor网络拟合而成,即状态向量输入到actor网络得到动作向量。
本技术方案更进一步的优化,所述步骤S2中TD算法的优化目标:
在决策周期t内,系统的运行代价可定义为式(24):
c(st,at)=cgt(st,at)+cgb(st,at)+ces(st,at)+chs(st,at)+ctl(st,at) (24)
其中cgt(st,at)表示燃气轮机机组运行代价,cgb(st,at)表示燃气锅炉的运行代价,ces(st,at)、chs(st,at)表示电、热储能充放损耗代价,ctl(st,at)表示向配电网购售电代价;由此可将综合能源系统运行优化问题描述为有限时间尺度内的动态规划问题,并定义一天的日运行代价为:
Figure BDA0003492978870000067
因此可将综合能源系统运行构造成一组优化问题,优化现实actor网络参数,使其输出动作可使一天的日运行代价最小,即:
Figure BDA0003492978870000068
本技术方案更进一步的优化,采用TD3算法更新Actor网络和Critic网络,
步骤13.1、计算现实Critic网络的梯度:
两个现实Critic网络值函数定义为
Figure BDA00034929788700000710
其含义是<st,at>二元组输入到神经网络后的输出值,<st,at>从经验回放池中采样所得,并将损失函数定义如下:
Figure BDA0003492978870000071
Figure BDA0003492978870000072
其含义是从经验回放池随机采样<st,at,ct,st+1>作为样本输入到上式,损失函数可以看作这些样本经过计算后的均方误差,N是从经验回放池随机采样的样本数量,yt可以看作标签,其计算方式如下:
Figure BDA0003492978870000073
Figure BDA0003492978870000074
yt=min(yt1,yt2) (31)
Figure BDA0003492978870000075
Figure BDA0003492978870000076
是两个目标Critic网络的参数,θμ′是目标Actor网络的参数,Q′1、Q′2和μ′是网络的输出,ε是添加在动作上的随机噪声,目的是使得Critic值函数的估计具有鲁棒性;使用双目标Critic网络和目标Actor网络输出较小的一个作为标签,可以避免Critic值函数被高估,减小更新过程中误差的积累,使得现实Critic网络参数的学习过程更加稳定,易于收敛;之后使用反向传播算法即可计算出现实Critic网络梯度;
步骤13.2、基于现实Critic网络梯度并采用Adam optimizer优化方法更新两个现实Critic网络参数
Figure BDA0003492978870000077
步骤13.3、计算现实Actor网络的策略梯度:
现实Actor网络参数的学习方法基于一种性能度量J(θμ)的梯度,这些梯度是标量J(θμ)对现实Actor网络参数的梯度,其计算方法如下:
Figure BDA0003492978870000078
其中ρβ代表状态st分布函数,st~ρβ则代表在一个决策周期t内的状态st根据ρβ分布,也即
Figure BDA0003492978870000079
是在st根据ρβ的分布时,现实Critic网络输出梯度的期望值,并使用蒙特卡洛来估算这个期望值:
在经验回放池中存储的学习样本<st,at,ct,st+1>是基于现实Actor网络的输出at=μ(stμ)和决策时刻的状态st产生的,其分布函数为ρβ,从经验回放池里随机采样获取N个学习样本;
根据蒙特卡洛方法,将随机采样的N个学习样本代入上述的梯度计算公式,可以作为对上述期望值的一个无偏估计,策略梯度可以定义为:
Figure BDA0003492978870000081
步骤13.4、根据策略梯度并采用Adam optimizer优化方法更新现实Actor网络参数θμ
步骤13.5、采用滑动平均值方法更新目标Actor网络参数和目标Critic网络参数:
Figure BDA0003492978870000082
Figure BDA0003492978870000083
θμ'=τθμ+(1-τ)θμ' (36)
采用滑动平均值方法更新目标网络参数时,目标网络参数变化小,用于训练过程中计算现实Critic网络梯度比较稳定,易于收敛;
步骤13.6、令m=m+1;若m小于总的学习步数M,更新学习率,返回步骤S2.4;否则结束程序。
区别于现有技术,上述技术方案具有如下有益效果:
本发明构建利用不同类型的能源以及负荷的综合能源系统协同运行框架,体现了能量管理系统实现能量阶梯、高效利用的特点;TD3算法的引用成功的将传统强化学习下离散动作空间转入连续动作空间,进一步提高了动作精度和优化效率。
附图说明
图1为综合能源系统架构示意图;
图2为基于TD3的综合能源系统运行优化方法的流程图。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
请参阅图1所示,为综合能源系统架构示意图,综合能源系统包括各区域内部的燃气轮机,光伏机组,电储能,热储能,余热回收装置,燃气锅炉,吸收式制冷机,空调设备,电、热、冷三种负荷需求;运行机构在决策时刻通过检测与通信设备获取综合能源系统各单元出力情况与功率需求,并根据综合能源系统运行学习优化方法所得的策略选择最优行动来调整燃气轮机出力功率、调整吸收式制冷剂和空调设备满足冷负荷的出力占比以及热储能、电储能的充放行为,提高综合能源系统运行经济性。
参见图2所示,为基于TD3的综合能源系统运行优化方法的流程图,本实施例中综合能源系统运行学习优化方法,该方法按如下步骤进行:
步骤1、针对并网型综合能源系统仿真建模,假设在运行日内任意时刻t下光伏出力功率预测值为
Figure BDA0003492978870000091
与电网交互功率为
Figure BDA0003492978870000092
机组出力为
Figure BDA0003492978870000093
冷热电负荷需求功率预测值分别为
Figure BDA0003492978870000094
步骤2、将区域中光伏发电出力实际值
Figure BDA0003492978870000095
在t时刻相对于预测值
Figure BDA0003492978870000096
的出力偏差功率的随机波动设为
Figure BDA0003492978870000097
则区域综合能源系统在t时刻光伏出力为:
Figure BDA0003492978870000098
步骤3、将区域中t时刻冷负荷需求实际功率
Figure BDA0003492978870000099
相对于预测值
Figure BDA00034929788700000910
的偏差功率的随机波动设为
Figure BDA00034929788700000911
区域综合能源系统在t时刻冷负荷需求实际功率为:
Figure BDA00034929788700000912
步骤4、将区域中t时刻热负荷需求实际功率
Figure BDA00034929788700000913
相对于预测值
Figure BDA00034929788700000914
的偏差功率的随机波动设为
Figure BDA00034929788700000915
区域综合能源系统在t时刻热负荷需求实际功率为:
Figure BDA00034929788700000916
步骤5、将区域中t时刻电负荷需求实际功率
Figure BDA00034929788700000917
相对于预测值
Figure BDA00034929788700000918
的偏差功率的随机波动设为
Figure BDA00034929788700000919
区域综合能源系统在t时刻电负荷需求实际功率为:
Figure BDA00034929788700000920
步骤6、确定区域中每台燃气轮机机组在t时刻的机组输出功率为
Figure BDA00034929788700000921
其中燃气轮机机组的出力约束设为:
Figure BDA0003492978870000101
定义燃气轮机机组的爬坡约束为:
Figure BDA0003492978870000102
其含义是在Δt时间段内发电机组的向上爬坡功率不能超过
Figure BDA0003492978870000103
向下爬坡功率不能超过
Figure BDA0003492978870000104
步骤7、配置包含燃气轮机机组等供能设备时,考率综合能源系统的热负荷需求,配置余热回收装置和燃气锅炉以输出热功率,其中余热回收装置回收燃气轮机运行过程产生的废热,定义废热回收效率为ηgt,H,废热回收功率设置为:
Figure BDA0003492978870000105
燃气锅炉通过消耗天然气提供功率,其在t时刻产生的热功率为
Figure BDA0003492978870000106
步骤8、确定区域中电储能设备在t时刻的荷电状态为
Figure BDA0003492978870000107
热储能状态按电储能的荷电状态形式定义
Figure BDA0003492978870000108
其含义是电、热能占剩余容量比;
步骤9、确定区域中电、热储能设备在t时刻的实时充放功率为
Figure BDA0003492978870000109
正放负充;其中充放功率约束设为:
Figure BDA00034929788700001010
Figure BDA00034929788700001011
其中
Figure BDA00034929788700001012
分别为电储能的最小放电功率、最大放电功率、最小充电功率和最大充电功率;同理,
Figure BDA00034929788700001013
分别为热储能的最小放热功率、最大放热功率、最小充热功率和最大充热功率;
步骤10、区域中的制冷设备包含空调设备、吸收式制冷机,分别用电能、热能驱动供冷,设定
Figure BDA00034929788700001014
分别为电制冷、热制冷功率,
Figure BDA00034929788700001015
Figure BDA00034929788700001016
表示电制冷和热制冷的效率,
Figure BDA00034929788700001017
表示用来制冷的电功率、热功率;
步骤11、针对并网型综合能源系统,设置冷热电三种平衡约束;其中冷负荷平衡约束如下:
Figure BDA0003492978870000111
热负荷平衡约束如下:
Figure BDA0003492978870000112
电负荷平衡约束如下:
Figure BDA0003492978870000113
步骤12、为了采用TD3算法进行策略优化,需要构建对应综合能源系统系统运行架构,架构中包含一个现实Actor、两个现实Critic网络、一个目标Actor网络、两个目标Critic网络、行动变量、状态变量、运行代价和优化目标;通过与环境交互获得学习样本,其具体步骤如下:
步骤12.1、初始化现实Actor网络参数θμ和两个现实Critic网络参数
Figure BDA0003492978870000114
θQ2,并将现实Actor网络参数和现实Critic网络参数复制到目标网络,将其作为智能体的架构;
步骤12.2、初始化经验回放池R,初始化当前学习步数m=0,
步骤12.3、初始化区域综合能源系统模型参数及学习参数,将其作为环境;
步骤12.4、考虑到区域综合能源系统能源的不确定性和负荷的随机性,随机初始化当前时刻状态不确定部分
Figure BDA0003492978870000115
确定步骤12.4中系统随机状态变量:
确定t时刻光伏波动范围
Figure BDA0003492978870000116
并将当前时刻光伏出力波动
Figure BDA0003492978870000117
归一化处理为t时刻光伏波动等级:
Figure BDA0003492978870000118
同理可建立冷、热、电偏差功率建立为随机状态变量:
Figure BDA0003492978870000119
Figure BDA00034929788700001110
Figure BDA0003492978870000121
确定其余状态变量:
确定第n台机组的容量
Figure BDA0003492978870000122
并将t时刻第n台机组的出力归一化为其状态等级:
Figure BDA0003492978870000123
加上电、热储能容量
Figure BDA0003492978870000124
构成决策周期t时刻的状态向量:
Figure BDA0003492978870000125
步骤12.5、智能体和环境进行交互,以感知当前时刻综合能源系统状态st,并将其输入到现实Actor网络从而得到当前时刻的行动at=μ(stμ),其中at包含了综合能源系统当前可调动作集
Figure BDA0003492978870000126
确定行动变量:
步骤12.5.1、将负荷中的电热制冷转换配比作为决策变量,其行动等级为
Figure BDA0003492978870000127
是一个连续的区间,其含义是电制冷功率占总制冷功率的配比,相反则是热制冷功率在总功率的配比;电制冷功率
Figure BDA0003492978870000128
和热制冷功率
Figure BDA0003492978870000129
受行动等级控制出力公式如下:
Figure BDA00034929788700001210
步骤12.5.2、设定电、热储能行动等级
Figure BDA00034929788700001211
其含义是决策周期t时刻在储能出力约束下的出力等级,t时刻电储能、热储能出力受行动等级
Figure BDA00034929788700001212
控制公式如下所示:
Figure BDA00034929788700001213
Figure BDA00034929788700001214
步骤12.5.3、设定每台燃气轮机机组出力调整行动等级为
Figure BDA00034929788700001215
则t到t+1时间段内机组出力受行动等级
Figure BDA00034929788700001216
调整变化公式为:
Figure BDA0003492978870000131
步骤12.5.4、上述动作变量构成一组可调动作向量:
Figure BDA0003492978870000132
定义能量管理系统策略π为状态向量-动作向量映射,即对于任意状态向量st,都可根据π选择动作向量at控制综合能源系统运行,在TD3算法框架中策略π为actor网络拟合而成,即状态向量输入到actor网络得到动作向量。
步骤12.6、在决策周期t内,系统的运行代价可定义为式(23):
c(st,at)=cgt(st,at)+cgb(st,at)+ces(st,at)+chs(st,at)+ctl(st,at) (24)
其中cgt(st,at)表示燃气轮机机组运行代价,cgb(st,at)表示燃气锅炉的运行代价,ces(st,at)、chs(st,at)表示电、热储能充放损耗代价,ctl(st,at)表示向配电网购售电代价;由此可将综合能源系统运行优化问题描述为有限时间尺度内的动态规划问题,并定义一天的日运行代价为:
Figure BDA0003492978870000133
因此可将综合能源系统运行构造成一组优化问题,优化现实actor网络参数,使其输出动作可使一天的日运行代价最小,即:
Figure BDA0003492978870000134
步骤12.7、初始化当前决策周期t=0,和系统的总周期T=23,其中每个决策时段为1小时,设定系统的总周期为一幕;
步骤12.8、在确认好状态变量、动作变量和优化目标后对环境施加当前时刻的行动向量at,并返回当前时刻的运行代价ct和下一时刻的状态st+1,从而得到一个四元组<st,at,ct,st+1>,将此四元组作为学习样本放入经验回放池R中;
步骤12.9、令t=t+1;若t小于决策周期总数T,返回步骤12.7;否则令t=0。
步骤13、按照TD3算法更新Actor网络和Critic网络,Actor网络指步骤12中输出行动集的Actor网络,Critic网络是用于辅助更新Actor网络;
步骤13.1、计算现实Critic网络的梯度:
两个现实Critic网络值函数定义为
Figure BDA00034929788700001410
其含义是<st,at>二元组输入到神经网络后的输出值,<st,at>从经验回放池中采样所得,并将损失函数定义如下:
Figure BDA0003492978870000141
Figure BDA0003492978870000142
其含义是从经验回放池随机采样<st,at,ct,st+1>作为样本输入到上式,损失函数可以看作这些样本经过计算后的均方误差,N是从经验回放池随机采样的样本数量,yt可以看作标签,其计算方式如下:
Figure BDA0003492978870000143
Figure BDA0003492978870000144
yt=min(yt1,yt2) (31)
Figure BDA0003492978870000145
Figure BDA0003492978870000146
是两个目标Critic网络的参数,θμ′是目标Actor网络的参数,Q′1、Q′2和μ′是网络的输出,ε是添加在动作上的随机噪声,目的是使得Critic值函数的估计具有鲁棒性;使用双目标Critic网络和目标Actor网络输出较小的一个作为标签,可以避免Critic值函数被高估,减小更新过程中误差的积累,使得现实Critic网络参数的学习过程更加稳定,易于收敛;之后使用反向传播算法即可计算出现实Critic网络梯度;
步骤13.2、基于现实Critic网络梯度并采用Adam optimizer优化方法更新两个现实Critic网络参数
Figure BDA0003492978870000147
步骤13.3、计算现实Actor网络的策略梯度:
现实Actor网络参数的学习方法基于一种性能度量J(θμ)的梯度,这些梯度是标量J(θμ)对现实Actor网络参数的梯度,其计算方法如下:
Figure BDA0003492978870000148
其中ρβ代表状态st分布函数,st~ρβ则代表在一个决策周期t内的状态st根据ρβ分布,也即
Figure BDA0003492978870000149
是在st根据ρβ的分布时,现实Critic网络输出梯度的期望值,并使用蒙特卡洛来估算这个期望值:
在经验回放池中存储的学习样本<st,at,ct,st+1>是基于现实Actor网络的输出at=μ(stμ)和决策时刻的状态st产生的,其分布函数为ρβ,从经验回放池里随机采样获取N个学习样本;
根据蒙特卡洛方法,将随机采样的N个学习样本代入上述的梯度计算公式,可以作为对上述期望值的一个无偏估计,策略梯度可以定义为:
Figure BDA0003492978870000151
步骤13.4、根据策略梯度并采用Adam optimizer优化方法更新现实Actor网络参数θμ
步骤13.5、采用滑动平均值方法更新目标Actor网络参数和目标Critic网络参数:
Figure BDA0003492978870000152
Figure BDA0003492978870000153
θμ'=τθμ+(1-τ)θμ' (36)
采用滑动平均值方法更新目标网络参数时,目标网络参数变化小,用于训练过程中计算现实Critic网络梯度比较稳定,易于收敛;
步骤13.6、令m=m+1;若m小于总的学习步数M,更新学习率,返回步骤12.7;否则结束程序。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括……”或“包含……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外,在本文中,“大于”、“小于”、“超过”等理解为不包括本数;“以上”、“以下”、“以内”等理解为包括本数。
尽管已经对上述各实施例进行了描述,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改,所以以上所述仅为本发明的实施例,并非因此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围之内。

Claims (9)

1.基于TD3的综合能源系统源荷协同运行优化方法,其特征在于,所述综合能源系统包括燃气轮机组,光伏,电储能设备,热储能设备,余热回收装置,燃气锅炉,吸收式制冷机,空调设备,电、热、冷负荷需求,所述优化方法包括如下步骤,
步骤S1、获取能源系统内光伏、电网、燃气轮机组、余热回收装置、燃气锅炉的输出功率,冷负荷、热负荷、电负荷的需求功率,电储能设备和热储能设备的状态及充放电功率,吸收式制冷机、空调设备的电制冷和热制冷功率;
步骤S2、构建可用TD3算法优化的综合能源系统协同运行框架,其框架包含多个Actor网络和Critic网络、状态变量、行动变量和优化目标;并通过Actor网络与综合能源系统仿真环境交互获得学习样本;其中综合能源系统仿真环境由步骤S1所述各个设备与负荷需求功率所构成,且将其设备和负荷需求功率等状态信息归一化为状态变量,输入到Actor网络得到行动a并在仿真环境中执行得到样本;
步骤S3、按照TD3算法更新Actor网络和Critic网络。
2.如权利要求1所述的基于TD3的综合能源系统源荷协同运行优化方法,其特征在于,所述步骤S1具体包括:
步骤S1.1、针对并网型综合能源系统仿真建模,假设在运行日内任意时刻t下光伏出力功率预测值为
Figure FDA0003492978860000011
电网供电功率为
Figure FDA0003492978860000012
机组出力为
Figure FDA0003492978860000013
冷、热、电负荷需求功率预测值分别为
Figure FDA0003492978860000014
步骤S1.2、将区域中光伏发电出力实际值
Figure FDA0003492978860000015
在t时刻相对于预测值
Figure FDA0003492978860000016
的出力偏差功率的随机波动设为
Figure FDA0003492978860000017
则区域综合能源系统在t时刻光伏出力为:
Figure FDA0003492978860000018
步骤S1.3、将区域中t时刻冷负荷需求实际功率
Figure FDA0003492978860000019
相对于预测值
Figure FDA00034929788600000110
的偏差功率的随机波动设为
Figure FDA00034929788600000111
区域综合能源系统在t时刻冷负荷需求实际功率为:
Figure FDA00034929788600000112
步骤S1.4、将区域中t时刻热负荷需求实际功率
Figure FDA00034929788600000113
相对于预测值
Figure FDA00034929788600000114
的偏差功率的随机波动设为
Figure FDA0003492978860000021
区域综合能源系统在t时刻热负荷需求实际功率为:
Figure FDA0003492978860000022
步骤S1.5、将区域中t时刻电负荷需求实际功率
Figure FDA0003492978860000023
相对于预测值
Figure FDA0003492978860000024
的偏差功率的随机波动设为
Figure FDA0003492978860000025
区域综合能源系统在t时刻电负荷需求实际功率为:
Figure FDA0003492978860000026
步骤S1.6、确定区域中每台燃气轮机机组在t时刻的机组输出功率为
Figure FDA0003492978860000027
其中燃气轮机机组的出力约束设为:
Figure FDA0003492978860000028
定义燃气轮机机组的爬坡约束为:
Figure FDA0003492978860000029
其含义是在Δt时间段内发电机组的向上爬坡功率不能超过
Figure FDA00034929788600000210
向下爬坡功率不能超过
Figure FDA00034929788600000211
步骤S1.7、配置包含燃气轮机机组等供能设备时,考率综合能源系统的热负荷需求,配置余热回收装置和燃气锅炉以输出热功率,其中余热回收装置回收燃气轮机运行过程产生的废热,定义废热回收效率为ηgt,H,废热回收功率设置为:
Figure FDA00034929788600000212
燃气锅炉通过消耗天然气提供功率,其在t时刻产生的热功率为
Figure FDA00034929788600000213
步骤S1.8、确定区域中电储能设备在t时刻的荷电状态为
Figure FDA00034929788600000214
热储能状态按电储能的荷电状态形式定义
Figure FDA00034929788600000215
其含义是电、热能占剩余容量比;
步骤S1.9、确定区域中电、热储能设备在t时刻的实时充放功率为
Figure FDA00034929788600000216
正放负充;其中充放功率约束设为:
Figure FDA00034929788600000217
Figure FDA0003492978860000031
其中
Figure FDA00034929788600000314
分别为电储能的最小放电功率、最大放电功率、最小充电功率和最大充电功率;同理,
Figure FDA0003492978860000033
分别为热储能的最小放热功率、最大放热功率、最小充热功率和最大充热功率;
步骤S1.10、系统中的制冷设备包含空调设备、吸收式制冷机,分别用电能、热能驱动供冷,设定
Figure FDA0003492978860000034
分别为电制冷、热制冷功率,
Figure FDA0003492978860000035
Figure FDA0003492978860000036
表示电制冷和热制冷的效率,
Figure FDA0003492978860000037
表示用来制冷的电功率、热功率。
3.如权利要求2所述的基于TD3的综合能源系统源荷协同运行优化方法,其特征在于,针对综合能源系统,设置冷热电三种平衡约束,其中冷负荷平衡约束如下:
Figure FDA0003492978860000038
热负荷平衡约束如下:
Figure FDA0003492978860000039
电负荷平衡约束如下:
Figure FDA00034929788600000310
4.如权利要求1所述的基于TD3的综合能源系统源荷协同运行优化方法,其特征在于,所述步骤S2中TD算法架构中包含多个Actor网络和Critic网络、状态变量、行动变量和优化目标。
5.如权利要求2所述的基于TD3的综合能源系统源荷协同运行优化方法,其特征在于,所述步骤S2状态变量构建如下:
确定t时刻光伏波动范围
Figure FDA00034929788600000311
并将当前时刻光伏出力波动
Figure FDA00034929788600000312
归一化处理为t时刻光伏波动等级:
Figure FDA00034929788600000313
同理可建立冷、热、电偏差功率建立为随机状态变量:
Figure FDA0003492978860000041
Figure FDA0003492978860000042
Figure FDA0003492978860000043
确定第n台机组的容量
Figure FDA0003492978860000044
并将t时刻第n台机组的出力归一化为其状态等级:
Figure FDA0003492978860000045
加上电、热储能容量
Figure FDA0003492978860000046
构成决策周期t时刻的状态向量:
Figure FDA0003492978860000047
6.如权利要求5所述的基于TD3的综合能源系统源荷协同运行优化方法,其特征在于,所述S2具体步骤如下,
步骤S2.1、初始化Actor网络参数θμ和两个Critic网络参数
Figure FDA00034929788600000410
θQ2,并将Actor网络参数和Critic网络参数复制到目标网络,将其作为智能体的架构;
步骤S2.2、初始化经验回放池R,初始化当前学习步数m=0;
步骤S2.3、初始化综合能源系统模型参数及学习参数,将其作为环境;
步骤S2.4、初始化当前决策周期t=0,和系统的总周期T=23,其中每个决策时段为1小时,设定系统的总周期为一幕;
步骤S2.5、考虑到综合能源系统能源的不确定性和负荷的随机性,随机初始化当前时刻状态不确定部分
Figure FDA0003492978860000048
其中,分别为t时刻光伏波动等级、冷负荷偏差功率、热负荷偏差功率、电负荷偏差功率;
步骤S2.6、智能体和环境进行交互,以感知当前时刻综合能源系统状态st,并将其输入到现实Actor网络从而得到当前时刻的行动集at=μ(stμ),其中at包含了综合能源系统当前可调动作
Figure FDA0003492978860000049
动作分别为调整空调出力和吸收式制冷机出力比例,调整各台燃气轮机出力等级,调整电、热储能充放功率等级;
步骤S2.7、对环境施加当前时刻的行动向量at,并返回当前时刻的代价ct和下一时刻的状态st+1,从而得到一个四元组<st,at,ct,st+1>,将此四元组作为学习样本放入经验回放池R中;
步骤S2.8、令t=t+1;若t小于决策周期总数T,返回步骤S2.6;否则令t=0。
7.如权利要求6所述的基于TD3的综合能源系统源荷协同运行优化方法,其特征在于,所述步骤S2.6确定可调动作变量:
步骤S2.6.1、将负荷中的电热制冷转换配比作为决策变量,其行动等级为
Figure FDA0003492978860000051
是一个连续的区间,其含义是电制冷功率占总制冷功率的配比,相反则是热制冷功率在总功率的配比,电制冷功率
Figure FDA0003492978860000052
和热制冷功率
Figure FDA0003492978860000053
受行动等级控制出力公式如下:
Figure FDA0003492978860000054
步骤S2.6.2、设定电、热储能行动等级
Figure FDA0003492978860000055
其含义是决策周期t时刻在储能出力约束下的出力等级,t时刻电储能、热储能出力受行动等级
Figure FDA0003492978860000056
控制公式如下所示:
Figure FDA0003492978860000057
Figure FDA0003492978860000058
步骤S2.6.3、设定每台燃气轮机机组出力调整行动等级为
Figure FDA0003492978860000059
则t到t+1时间段内机组出力受行动等级
Figure FDA00034929788600000510
调整变化公式为:
Figure FDA00034929788600000511
步骤S2.6.4、上述动作变量构成一组可调动作向量:
Figure FDA00034929788600000512
定义能量管理系统策略π为状态向量-动作向量映射,即对于任意状态向量st,都可根据π选择动作向量at控制综合能源系统运行,在TD3算法框架中策略π为actor网络拟合而成,即状态向量输入到actor网络得到动作向量。
8.如权利要求6所述的基于TD3的综合能源系统源荷协同运行优化方法,其特征在于,所述步骤S2中TD算法的优化目标:
在决策周期t内,系统的运行代价可定义为式(24):
c(st,at)=cgt(st,at)+cgb(st,at)+ces(st,at)+chs(st,at)+ctl(st,at) (24)
其中cgt(st,at)表示燃气轮机机组运行代价,cgb(st,at)表示燃气锅炉的运行代价,ces(st,at)、chs(st,at)表示电、热储能充放损耗代价,ctl(st,at)表示向配电网购售电代价;由此可将综合能源系统运行优化问题描述为有限时间尺度内的动态规划问题,并定义一天的日运行代价为:
Figure FDA0003492978860000061
因此可将综合能源系统运行构造成一组优化问题,优化现实actor网络参数,使其输出动作可使一天的日运行代价最小,即:
Figure FDA0003492978860000062
9.如权利要求6所述的基于TD3的综合能源系统源荷协同运行优化方法,其特征在于,采用TD3算法更新Actor网络和Critic网络,
步骤13.1、计算现实Critic网络的梯度:
两个现实Critic网络值函数定义为
Figure FDA0003492978860000067
其含义是<st,at>二元组输入到神经网络后的输出值,<st,at>从经验回放池中采样所得,并将损失函数定义如下:
Figure FDA0003492978860000063
Figure FDA0003492978860000064
其含义是从经验回放池随机采样<st,at,ct,st+1>作为样本输入到上式,损失函数可以看作这些样本经过计算后的均方误差,N是从经验回放池随机采样的样本数量,yt可以看作标签,其计算方式如下:
Figure FDA0003492978860000065
Figure FDA0003492978860000066
yt=min(yt1,yt2) (31)
Figure FDA0003492978860000071
Figure FDA0003492978860000072
是两个目标Critic网络的参数,θμ′是目标Actor网络的参数,Q′1、Q′2和μ′是网络的输出,ε是添加在动作上的随机噪声,目的是使得Critic值函数的估计具有鲁棒性;使用双目标Critic网络和目标Actor网络输出较小的一个作为标签,可以避免Critic值函数被高估,减小更新过程中误差的积累,使得现实Critic网络参数的学习过程更加稳定,易于收敛;之后使用反向传播算法即可计算出现实Critic网络梯度;
步骤13.2、基于现实Critic网络梯度并采用Adam optimizer优化方法更新两个现实Critic网络参数
Figure FDA0003492978860000073
步骤13.3、计算现实Actor网络的策略梯度:
现实Actor网络参数的学习方法基于一种性能度量J(θμ)的梯度,这些梯度是标量J(θμ)对现实Actor网络参数的梯度,其计算方法如下:
Figure FDA0003492978860000074
其中ρβ代表状态st分布函数,st~ρβ则代表在一个决策周期t内的状态st根据ρβ分布,也即
Figure FDA0003492978860000075
是在st根据ρβ的分布时,现实Critic网络输出梯度的期望值,并使用蒙特卡洛来估算这个期望值:
在经验回放池中存储的学习样本<st,at,ct,st+1>是基于现实Actor网络的输出at=μ(stμ)和决策时刻的状态st产生的,其分布函数为ρβ,从经验回放池里随机采样获取N个学习样本;
根据蒙特卡洛方法,将随机采样的N个学习样本代入上述的梯度计算公式,可以作为对上述期望值的一个无偏估计,策略梯度可以定义为:
Figure FDA0003492978860000076
步骤13.4、根据策略梯度并采用Adam optimizer优化方法更新现实Actor网络参数θμ
步骤13.5、采用滑动平均值方法更新目标Actor网络参数和目标Critic网络参数:
Figure FDA0003492978860000077
Figure FDA0003492978860000078
θμ′=τθμ+(1-τ)θμ′ (36)
采用滑动平均值方法更新目标网络参数时,目标网络参数变化小,用于训练过程中计算现实Critic网络梯度比较稳定,易于收敛;
步骤13.6、令m=m+1;若m小于总的学习步数M,更新学习率,返回步骤S2.4;否则结束程序。
CN202210102710.XA 2022-01-27 2022-01-27 基于td3的综合能源系统源荷协同运行优化方法 Pending CN114462696A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210102710.XA CN114462696A (zh) 2022-01-27 2022-01-27 基于td3的综合能源系统源荷协同运行优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210102710.XA CN114462696A (zh) 2022-01-27 2022-01-27 基于td3的综合能源系统源荷协同运行优化方法

Publications (1)

Publication Number Publication Date
CN114462696A true CN114462696A (zh) 2022-05-10

Family

ID=81411715

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210102710.XA Pending CN114462696A (zh) 2022-01-27 2022-01-27 基于td3的综合能源系统源荷协同运行优化方法

Country Status (1)

Country Link
CN (1) CN114462696A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117394461A (zh) * 2023-12-11 2024-01-12 中国电建集团西北勘测设计研究院有限公司 用于综合能源系统的供需协同调控系统及方法
CN117455183A (zh) * 2023-11-09 2024-01-26 国能江苏新能源科技开发有限公司 一种基于深度强化学习的综合能源系统优化调度方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117455183A (zh) * 2023-11-09 2024-01-26 国能江苏新能源科技开发有限公司 一种基于深度强化学习的综合能源系统优化调度方法
CN117394461A (zh) * 2023-12-11 2024-01-12 中国电建集团西北勘测设计研究院有限公司 用于综合能源系统的供需协同调控系统及方法
CN117394461B (zh) * 2023-12-11 2024-03-15 中国电建集团西北勘测设计研究院有限公司 用于综合能源系统的供需协同调控系统及方法

Similar Documents

Publication Publication Date Title
Fontenot et al. Modeling and control of building-integrated microgrids for optimal energy management–a review
Luo et al. A multistage home energy management system with residential photovoltaic penetration
Megahed et al. Energy management in zero-energy building using neural network predictive control
Ju et al. Multi-objective stochastic scheduling optimization model for connecting a virtual power plant to wind-photovoltaic-electric vehicles considering uncertainties and demand response
CN107732897B (zh) 融合虚拟储能系统的楼宇微网模型预测调控方法
CN112003330B (zh) 一种基于自适应控制的微网能量优化调度方法
CN113572157A (zh) 一种基于近端策略优化的用户实时自治能量管理优化方法
CN110323740B (zh) 计及光伏出力和空调负荷动态相关性的经济调峰方法
CN110474370B (zh) 一种空调可控负荷、光伏储能系统的协同控制系统及方法
Yang et al. Building electrification and carbon emissions: Integrated energy management considering the dynamics of the electricity mix and pricing
CN112508325B (zh) 一种家庭微电网多时间尺度电能调度方法
CN114462696A (zh) 基于td3的综合能源系统源荷协同运行优化方法
CN114243727B (zh) 一种基于广域感知预测的源网荷自趋优智能调控体系和实时控制优化技术方法
CN117172499A (zh) 一种基于强化学习的智慧社区能量优化调度方法、系统及存储介质
Cheng et al. A day-ahead scheduling of large-scale thermostatically controlled loads model considering second-order equivalent thermal parameters model
Georgiou et al. Implementing artificial neural networks in energy building applications—A review
Wang et al. Event-triggered online energy flow control strategy for regional integrated energy system using Lyapunov optimization
Liu et al. Multi-objective optimization strategy of integrated electric-heat system based on energy storage situation division
Lin et al. Grouping control strategy for aggregated thermostatically controlled loads
CN116683445A (zh) 基于模型预测控制的园区微电网多时间尺度运行优化方法
Lu et al. Two-stage robust scheduling and real-time load control of community microgrid with multiple uncertainties
Kyriakou et al. Optimal frequency support method for urban microgrids of building prosumers
CN112994036B (zh) 一种基于模型预测的温控负荷参与微电网调控方法及系统
Ruelens et al. Residential demand response applications using batch reinforcement learning
Roy et al. Application of ANFASO for optimal power flow management of MG‐connected system with energy storage

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination