CN114462696A - 基于td3的综合能源系统源荷协同运行优化方法 - Google Patents
基于td3的综合能源系统源荷协同运行优化方法 Download PDFInfo
- Publication number
- CN114462696A CN114462696A CN202210102710.XA CN202210102710A CN114462696A CN 114462696 A CN114462696 A CN 114462696A CN 202210102710 A CN202210102710 A CN 202210102710A CN 114462696 A CN114462696 A CN 114462696A
- Authority
- CN
- China
- Prior art keywords
- power
- load
- network
- energy system
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000005457 optimization Methods 0.000 title claims abstract description 53
- 230000009471 action Effects 0.000 claims abstract description 59
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 24
- 239000007789 gas Substances 0.000 claims description 43
- 238000004146 energy storage Methods 0.000 claims description 38
- 238000005057 refrigeration Methods 0.000 claims description 27
- 239000013598 vector Substances 0.000 claims description 24
- 238000001816 cooling Methods 0.000 claims description 22
- 230000005611 electricity Effects 0.000 claims description 22
- 239000002918 waste heat Substances 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 17
- 238000011084 recovery Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 15
- 238000010521 absorption reaction Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000004378 air conditioning Methods 0.000 claims description 9
- 238000007599 discharging Methods 0.000 claims description 7
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 6
- 239000003795 chemical substances by application Substances 0.000 claims description 6
- 230000009194 climbing Effects 0.000 claims description 6
- 238000005315 distribution function Methods 0.000 claims description 6
- VNWKTOKETHGBQD-UHFFFAOYSA-N methane Chemical compound C VNWKTOKETHGBQD-UHFFFAOYSA-N 0.000 claims description 6
- 238000004088 simulation Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 4
- 238000010438 heat treatment Methods 0.000 claims description 4
- 238000007726 management method Methods 0.000 claims description 4
- 238000000342 Monte Carlo simulation Methods 0.000 claims description 3
- 238000009825 accumulation Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 239000002131 composite material Substances 0.000 claims description 3
- 238000005094 computer simulation Methods 0.000 claims description 3
- 238000005485 electric heating Methods 0.000 claims description 3
- 238000005338 heat storage Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 239000003345 natural gas Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000010248 power generation Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 230000002787 reinforcement Effects 0.000 abstract description 5
- 230000002146 bilateral effect Effects 0.000 abstract 1
- 230000008878 coupling Effects 0.000 abstract 1
- 238000010168 coupling process Methods 0.000 abstract 1
- 238000005859 coupling reaction Methods 0.000 abstract 1
- 238000013486 operation strategy Methods 0.000 abstract 1
- 230000008447 perception Effects 0.000 abstract 1
- 238000011160 research Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000003507 refrigerant Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for AC mains or AC distribution networks
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for AC mains or AC distribution networks
- H02J3/008—Circuit arrangements for AC mains or AC distribution networks involving trading of energy or energy transmission rights
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for AC mains or AC distribution networks
- H02J3/28—Arrangements for balancing of the load in a network by storage of energy
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for AC mains or AC distribution networks
- H02J3/38—Arrangements for parallely feeding a single network by two or more generators, converters or transformers
- H02J3/46—Controlling of the sharing of output between the generators, converters, or transformers
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/10—Power transmission or distribution systems management focussing at grid-level, e.g. load flow analysis, node profile computation, meshed network optimisation, active network management or spinning reserve management
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/20—Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2300/00—Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
- H02J2300/20—The dispersed energy generation being of renewable origin
- H02J2300/22—The renewable source being solar energy
- H02J2300/24—The renewable source being solar energy of photovoltaic origin
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2300/00—Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
- H02J2300/40—Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation wherein a plurality of decentralised, dispersed or local energy generation technologies are operated simultaneously
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02E—REDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
- Y02E40/00—Technologies for an efficient electrical power generation, transmission or distribution
- Y02E40/70—Smart grids as climate change mitigation technology in the energy generation sector
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Power Engineering (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Development Economics (AREA)
- Molecular Biology (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Educational Administration (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于TD3的综合能源系统源荷协同运行优化方法,考虑了多类型负荷和可再生能源在内的源荷双侧随机因素,并根据综合能源系统的多能耦合特性,提出了协同能量运行优化,构建系统运行经济性为优化目标的能量管理系统运行优化模型,通过TD3算法优化求解综合能源系统的能量管理运行策略;结合系统对当前状态的感知与策略网络可以映射出当前最优动作。本发明中的TD3算法将强化学习成功引入连续动作空间,避免了动作空间自由度成指数增长的问题。结合TD3算法的综合能源系统运行优化方法具有优化性能好、学习效率高的优点。
Description
技术领域
本发明属于区域综合能源系统运行技术领域,具体的说是一种基于TD3的综合能源系统源荷协同运行优化方法。
背景技术
冷热电联供综合能源系统作为一种新型的功能模式,可以实现大规模可再生能源的利用、冷热电等异质能的互补,并且作为一种弹性资源,可以给电网提供足够的调峰裕度,其中综合能源系统协调运行和优化控制是实现上述目标的关键技术。
现有的关于协调运行和优化控制的研究,其中也有采用传统强化学习算法的研究,但相比于单一能源系统,综合能源系统包含多种能量动态特性和互补关系,在系统结构和运行约束上比单一能源系统更复杂,其体现在传统强化学习中,具有更高维度的状态和行动,传统强化学习算法将面临“维数灾”问题;此外,现有的综合能源系统研究很少有将综合能源系统作为一种可参与电网调峰的弹性资源而考虑,对其用能行为缺乏引导。
发明内容
针对现有技术中存在的不足之处,本发明提出一种基于TD3的综合能源系统运行优化方法。利用连续的输入和输出,避免了随着行动维数的增加,神经网络的维数成指数增长,计算复杂度过高的问题,完全规避了传统强化学习“维数灾”问题,极大提升了学习优化的速度。此外,本发明通过挖掘某一区域的综合能源系统源荷协同关系,给出了可再生能源和多类型负荷的随机动态变化过程,构建了并网型区域综合能源系统动态运行模型,利用TD3算法可以极大的降低求解优化问题的复杂度,得到最优运行模型。
为实现上述目的,本发明采用如下技术方案:
基于TD3的综合能源系统源荷协同运行优化方法,所述综合能源系统包括燃气轮机组,光伏,电储能设备,热储能设备,余热回收装置,燃气锅炉,吸收式制冷机,空调设备,电、热、冷负荷需求,所述优化方法包括如下步骤,
步骤S1、获取能源系统内光伏、电网、燃气轮机组、余热回收装置、燃气锅炉的输出功率,冷负荷、热负荷、电负荷的需求功率,电储能设备和热储能设备的状态及充放电功率,吸收式制冷机、空调设备的电制冷和热制冷功率;
步骤S2、构建可用TD3算法优化的综合能源系统协同运行框架,其框架包含多个Actor网络和Critic网络、状态变量、行动变量和优化目标;并通过Actor网络与综合能源系统仿真环境交互获得学习样本;其中综合能源系统仿真环境由步骤S1所述各个设备与负荷需求功率所构成,且将其设备和负荷需求功率等状态信息归一化为状态变量,输入到Actor网络得到行动a并在仿真环境中执行得到样本;
步骤S3、按照TD3算法更新Actor网络和Critic网络。
本技术方案进一步的优化,所述步骤S1具体包括:
定义燃气轮机机组的爬坡约束为:
步骤S1.7、配置包含燃气轮机机组等供能设备时,考率综合能源系统的热负荷需求,配置余热回收装置和燃气锅炉以输出热功率,其中余热回收装置回收燃气轮机运行过程产生的废热,定义废热回收效率为ηgt,H,废热回收功率设置为:
本技术方案更进一步的优化,针对综合能源系统,设置冷热电三种平衡约束,其中冷负荷平衡约束如下:
热负荷平衡约束如下:
电负荷平衡约束如下:
本技术方案进一步的优化,所述步骤S2中TD算法架构中包含多个Actor网络和Critic网络、状态变量、行动变量和优化目标。
本技术方案更进一步的优化,所述步骤S2状态变量构建如下:
同理可建立冷、热、电偏差功率建立为随机状态变量:
本技术方案更进一步的优化,所述S2具体步骤如下,
步骤S2.2、初始化经验回放池R,初始化当前学习步数m=0;
步骤S2.3、初始化综合能源系统模型参数及学习参数,将其作为环境;
步骤S2.4、初始化当前决策周期t=0,和系统的总周期T=23,其中每个决策时段为1小时,设定系统的总周期为一幕;
步骤S2.6、智能体和环境进行交互,以感知当前时刻综合能源系统状态st,并将其输入到现实Actor网络从而得到当前时刻的行动集at=μ(st|θμ),其中at包含了综合能源系统当前可调动作动作分别为调整空调出力和吸收式制冷机出力比例,调整各台燃气轮机出力等级,调整电、热储能充放功率等级;
步骤S2.7、对环境施加当前时刻的行动向量at,并返回当前时刻的代价ct和下一时刻的状态st+1,从而得到一个四元组<st,at,ct,st+1>,将此四元组作为学习样本放入经验回放池R中;
步骤S2.8、令t=t+1;若t小于决策周期总数T,返回步骤S2.6;否则令t=0。
本技术方案更进一步的优化,所述步骤S2.6确定可调动作变量:
步骤S2.6.1、将负荷中的电热制冷转换配比作为决策变量,其行动等级为是一个连续的区间,其含义是电制冷功率占总制冷功率的配比,相反则是热制冷功率在总功率的配比,电制冷功率和热制冷功率受行动等级控制出力公式如下:
步骤S2.6.4、上述动作变量构成一组可调动作向量:
定义能量管理系统策略π为状态向量-动作向量映射,即对于任意状态向量st,都可根据π选择动作向量at控制综合能源系统运行,在TD3算法框架中策略π为actor网络拟合而成,即状态向量输入到actor网络得到动作向量。
本技术方案更进一步的优化,所述步骤S2中TD算法的优化目标:
在决策周期t内,系统的运行代价可定义为式(24):
c(st,at)=cgt(st,at)+cgb(st,at)+ces(st,at)+chs(st,at)+ctl(st,at) (24)
其中cgt(st,at)表示燃气轮机机组运行代价,cgb(st,at)表示燃气锅炉的运行代价,ces(st,at)、chs(st,at)表示电、热储能充放损耗代价,ctl(st,at)表示向配电网购售电代价;由此可将综合能源系统运行优化问题描述为有限时间尺度内的动态规划问题,并定义一天的日运行代价为:
因此可将综合能源系统运行构造成一组优化问题,优化现实actor网络参数,使其输出动作可使一天的日运行代价最小,即:
本技术方案更进一步的优化,采用TD3算法更新Actor网络和Critic网络,
步骤13.1、计算现实Critic网络的梯度:
其含义是从经验回放池随机采样<st,at,ct,st+1>作为样本输入到上式,损失函数可以看作这些样本经过计算后的均方误差,N是从经验回放池随机采样的样本数量,yt可以看作标签,其计算方式如下:
yt=min(yt1,yt2) (31)和是两个目标Critic网络的参数,θμ′是目标Actor网络的参数,Q′1、Q′2和μ′是网络的输出,ε是添加在动作上的随机噪声,目的是使得Critic值函数的估计具有鲁棒性;使用双目标Critic网络和目标Actor网络输出较小的一个作为标签,可以避免Critic值函数被高估,减小更新过程中误差的积累,使得现实Critic网络参数的学习过程更加稳定,易于收敛;之后使用反向传播算法即可计算出现实Critic网络梯度;
步骤13.3、计算现实Actor网络的策略梯度:
现实Actor网络参数的学习方法基于一种性能度量J(θμ)的梯度,这些梯度是标量J(θμ)对现实Actor网络参数的梯度,其计算方法如下:
在经验回放池中存储的学习样本<st,at,ct,st+1>是基于现实Actor网络的输出at=μ(st|θμ)和决策时刻的状态st产生的,其分布函数为ρβ,从经验回放池里随机采样获取N个学习样本;
根据蒙特卡洛方法,将随机采样的N个学习样本代入上述的梯度计算公式,可以作为对上述期望值的一个无偏估计,策略梯度可以定义为:
步骤13.4、根据策略梯度并采用Adam optimizer优化方法更新现实Actor网络参数θμ;
步骤13.5、采用滑动平均值方法更新目标Actor网络参数和目标Critic网络参数:
θμ'=τθμ+(1-τ)θμ' (36)
采用滑动平均值方法更新目标网络参数时,目标网络参数变化小,用于训练过程中计算现实Critic网络梯度比较稳定,易于收敛;
步骤13.6、令m=m+1;若m小于总的学习步数M,更新学习率,返回步骤S2.4;否则结束程序。
区别于现有技术,上述技术方案具有如下有益效果:
本发明构建利用不同类型的能源以及负荷的综合能源系统协同运行框架,体现了能量管理系统实现能量阶梯、高效利用的特点;TD3算法的引用成功的将传统强化学习下离散动作空间转入连续动作空间,进一步提高了动作精度和优化效率。
附图说明
图1为综合能源系统架构示意图;
图2为基于TD3的综合能源系统运行优化方法的流程图。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
请参阅图1所示,为综合能源系统架构示意图,综合能源系统包括各区域内部的燃气轮机,光伏机组,电储能,热储能,余热回收装置,燃气锅炉,吸收式制冷机,空调设备,电、热、冷三种负荷需求;运行机构在决策时刻通过检测与通信设备获取综合能源系统各单元出力情况与功率需求,并根据综合能源系统运行学习优化方法所得的策略选择最优行动来调整燃气轮机出力功率、调整吸收式制冷剂和空调设备满足冷负荷的出力占比以及热储能、电储能的充放行为,提高综合能源系统运行经济性。
参见图2所示,为基于TD3的综合能源系统运行优化方法的流程图,本实施例中综合能源系统运行学习优化方法,该方法按如下步骤进行:
定义燃气轮机机组的爬坡约束为:
步骤7、配置包含燃气轮机机组等供能设备时,考率综合能源系统的热负荷需求,配置余热回收装置和燃气锅炉以输出热功率,其中余热回收装置回收燃气轮机运行过程产生的废热,定义废热回收效率为ηgt,H,废热回收功率设置为:
步骤11、针对并网型综合能源系统,设置冷热电三种平衡约束;其中冷负荷平衡约束如下:
热负荷平衡约束如下:
电负荷平衡约束如下:
步骤12、为了采用TD3算法进行策略优化,需要构建对应综合能源系统系统运行架构,架构中包含一个现实Actor、两个现实Critic网络、一个目标Actor网络、两个目标Critic网络、行动变量、状态变量、运行代价和优化目标;通过与环境交互获得学习样本,其具体步骤如下:
步骤12.2、初始化经验回放池R,初始化当前学习步数m=0,
步骤12.3、初始化区域综合能源系统模型参数及学习参数,将其作为环境;
确定步骤12.4中系统随机状态变量:
同理可建立冷、热、电偏差功率建立为随机状态变量:
确定其余状态变量:
确定行动变量:
步骤12.5.1、将负荷中的电热制冷转换配比作为决策变量,其行动等级为是一个连续的区间,其含义是电制冷功率占总制冷功率的配比,相反则是热制冷功率在总功率的配比;电制冷功率和热制冷功率受行动等级控制出力公式如下:
步骤12.5.4、上述动作变量构成一组可调动作向量:
定义能量管理系统策略π为状态向量-动作向量映射,即对于任意状态向量st,都可根据π选择动作向量at控制综合能源系统运行,在TD3算法框架中策略π为actor网络拟合而成,即状态向量输入到actor网络得到动作向量。
步骤12.6、在决策周期t内,系统的运行代价可定义为式(23):
c(st,at)=cgt(st,at)+cgb(st,at)+ces(st,at)+chs(st,at)+ctl(st,at) (24)
其中cgt(st,at)表示燃气轮机机组运行代价,cgb(st,at)表示燃气锅炉的运行代价,ces(st,at)、chs(st,at)表示电、热储能充放损耗代价,ctl(st,at)表示向配电网购售电代价;由此可将综合能源系统运行优化问题描述为有限时间尺度内的动态规划问题,并定义一天的日运行代价为:
因此可将综合能源系统运行构造成一组优化问题,优化现实actor网络参数,使其输出动作可使一天的日运行代价最小,即:
步骤12.7、初始化当前决策周期t=0,和系统的总周期T=23,其中每个决策时段为1小时,设定系统的总周期为一幕;
步骤12.8、在确认好状态变量、动作变量和优化目标后对环境施加当前时刻的行动向量at,并返回当前时刻的运行代价ct和下一时刻的状态st+1,从而得到一个四元组<st,at,ct,st+1>,将此四元组作为学习样本放入经验回放池R中;
步骤12.9、令t=t+1;若t小于决策周期总数T,返回步骤12.7;否则令t=0。
步骤13、按照TD3算法更新Actor网络和Critic网络,Actor网络指步骤12中输出行动集的Actor网络,Critic网络是用于辅助更新Actor网络;
步骤13.1、计算现实Critic网络的梯度:
其含义是从经验回放池随机采样<st,at,ct,st+1>作为样本输入到上式,损失函数可以看作这些样本经过计算后的均方误差,N是从经验回放池随机采样的样本数量,yt可以看作标签,其计算方式如下:
yt=min(yt1,yt2) (31)和是两个目标Critic网络的参数,θμ′是目标Actor网络的参数,Q′1、Q′2和μ′是网络的输出,ε是添加在动作上的随机噪声,目的是使得Critic值函数的估计具有鲁棒性;使用双目标Critic网络和目标Actor网络输出较小的一个作为标签,可以避免Critic值函数被高估,减小更新过程中误差的积累,使得现实Critic网络参数的学习过程更加稳定,易于收敛;之后使用反向传播算法即可计算出现实Critic网络梯度;
步骤13.3、计算现实Actor网络的策略梯度:
现实Actor网络参数的学习方法基于一种性能度量J(θμ)的梯度,这些梯度是标量J(θμ)对现实Actor网络参数的梯度,其计算方法如下:
在经验回放池中存储的学习样本<st,at,ct,st+1>是基于现实Actor网络的输出at=μ(st|θμ)和决策时刻的状态st产生的,其分布函数为ρβ,从经验回放池里随机采样获取N个学习样本;
根据蒙特卡洛方法,将随机采样的N个学习样本代入上述的梯度计算公式,可以作为对上述期望值的一个无偏估计,策略梯度可以定义为:
步骤13.4、根据策略梯度并采用Adam optimizer优化方法更新现实Actor网络参数θμ;
步骤13.5、采用滑动平均值方法更新目标Actor网络参数和目标Critic网络参数:
θμ'=τθμ+(1-τ)θμ' (36)
采用滑动平均值方法更新目标网络参数时,目标网络参数变化小,用于训练过程中计算现实Critic网络梯度比较稳定,易于收敛;
步骤13.6、令m=m+1;若m小于总的学习步数M,更新学习率,返回步骤12.7;否则结束程序。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括……”或“包含……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外,在本文中,“大于”、“小于”、“超过”等理解为不包括本数;“以上”、“以下”、“以内”等理解为包括本数。
尽管已经对上述各实施例进行了描述,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改,所以以上所述仅为本发明的实施例,并非因此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围之内。
Claims (9)
1.基于TD3的综合能源系统源荷协同运行优化方法,其特征在于,所述综合能源系统包括燃气轮机组,光伏,电储能设备,热储能设备,余热回收装置,燃气锅炉,吸收式制冷机,空调设备,电、热、冷负荷需求,所述优化方法包括如下步骤,
步骤S1、获取能源系统内光伏、电网、燃气轮机组、余热回收装置、燃气锅炉的输出功率,冷负荷、热负荷、电负荷的需求功率,电储能设备和热储能设备的状态及充放电功率,吸收式制冷机、空调设备的电制冷和热制冷功率;
步骤S2、构建可用TD3算法优化的综合能源系统协同运行框架,其框架包含多个Actor网络和Critic网络、状态变量、行动变量和优化目标;并通过Actor网络与综合能源系统仿真环境交互获得学习样本;其中综合能源系统仿真环境由步骤S1所述各个设备与负荷需求功率所构成,且将其设备和负荷需求功率等状态信息归一化为状态变量,输入到Actor网络得到行动a并在仿真环境中执行得到样本;
步骤S3、按照TD3算法更新Actor网络和Critic网络。
2.如权利要求1所述的基于TD3的综合能源系统源荷协同运行优化方法,其特征在于,所述步骤S1具体包括:
定义燃气轮机机组的爬坡约束为:
步骤S1.7、配置包含燃气轮机机组等供能设备时,考率综合能源系统的热负荷需求,配置余热回收装置和燃气锅炉以输出热功率,其中余热回收装置回收燃气轮机运行过程产生的废热,定义废热回收效率为ηgt,H,废热回收功率设置为:
4.如权利要求1所述的基于TD3的综合能源系统源荷协同运行优化方法,其特征在于,所述步骤S2中TD算法架构中包含多个Actor网络和Critic网络、状态变量、行动变量和优化目标。
6.如权利要求5所述的基于TD3的综合能源系统源荷协同运行优化方法,其特征在于,所述S2具体步骤如下,
步骤S2.2、初始化经验回放池R,初始化当前学习步数m=0;
步骤S2.3、初始化综合能源系统模型参数及学习参数,将其作为环境;
步骤S2.4、初始化当前决策周期t=0,和系统的总周期T=23,其中每个决策时段为1小时,设定系统的总周期为一幕;
步骤S2.6、智能体和环境进行交互,以感知当前时刻综合能源系统状态st,并将其输入到现实Actor网络从而得到当前时刻的行动集at=μ(st|θμ),其中at包含了综合能源系统当前可调动作动作分别为调整空调出力和吸收式制冷机出力比例,调整各台燃气轮机出力等级,调整电、热储能充放功率等级;
步骤S2.7、对环境施加当前时刻的行动向量at,并返回当前时刻的代价ct和下一时刻的状态st+1,从而得到一个四元组<st,at,ct,st+1>,将此四元组作为学习样本放入经验回放池R中;
步骤S2.8、令t=t+1;若t小于决策周期总数T,返回步骤S2.6;否则令t=0。
7.如权利要求6所述的基于TD3的综合能源系统源荷协同运行优化方法,其特征在于,所述步骤S2.6确定可调动作变量:
步骤S2.6.1、将负荷中的电热制冷转换配比作为决策变量,其行动等级为是一个连续的区间,其含义是电制冷功率占总制冷功率的配比,相反则是热制冷功率在总功率的配比,电制冷功率和热制冷功率受行动等级控制出力公式如下:
步骤S2.6.4、上述动作变量构成一组可调动作向量:
定义能量管理系统策略π为状态向量-动作向量映射,即对于任意状态向量st,都可根据π选择动作向量at控制综合能源系统运行,在TD3算法框架中策略π为actor网络拟合而成,即状态向量输入到actor网络得到动作向量。
8.如权利要求6所述的基于TD3的综合能源系统源荷协同运行优化方法,其特征在于,所述步骤S2中TD算法的优化目标:
在决策周期t内,系统的运行代价可定义为式(24):
c(st,at)=cgt(st,at)+cgb(st,at)+ces(st,at)+chs(st,at)+ctl(st,at) (24)
其中cgt(st,at)表示燃气轮机机组运行代价,cgb(st,at)表示燃气锅炉的运行代价,ces(st,at)、chs(st,at)表示电、热储能充放损耗代价,ctl(st,at)表示向配电网购售电代价;由此可将综合能源系统运行优化问题描述为有限时间尺度内的动态规划问题,并定义一天的日运行代价为:
因此可将综合能源系统运行构造成一组优化问题,优化现实actor网络参数,使其输出动作可使一天的日运行代价最小,即:
9.如权利要求6所述的基于TD3的综合能源系统源荷协同运行优化方法,其特征在于,采用TD3算法更新Actor网络和Critic网络,
步骤13.1、计算现实Critic网络的梯度:
其含义是从经验回放池随机采样<st,at,ct,st+1>作为样本输入到上式,损失函数可以看作这些样本经过计算后的均方误差,N是从经验回放池随机采样的样本数量,yt可以看作标签,其计算方式如下:
yt=min(yt1,yt2) (31)
和是两个目标Critic网络的参数,θμ′是目标Actor网络的参数,Q′1、Q′2和μ′是网络的输出,ε是添加在动作上的随机噪声,目的是使得Critic值函数的估计具有鲁棒性;使用双目标Critic网络和目标Actor网络输出较小的一个作为标签,可以避免Critic值函数被高估,减小更新过程中误差的积累,使得现实Critic网络参数的学习过程更加稳定,易于收敛;之后使用反向传播算法即可计算出现实Critic网络梯度;
步骤13.3、计算现实Actor网络的策略梯度:
现实Actor网络参数的学习方法基于一种性能度量J(θμ)的梯度,这些梯度是标量J(θμ)对现实Actor网络参数的梯度,其计算方法如下:
在经验回放池中存储的学习样本<st,at,ct,st+1>是基于现实Actor网络的输出at=μ(st|θμ)和决策时刻的状态st产生的,其分布函数为ρβ,从经验回放池里随机采样获取N个学习样本;
根据蒙特卡洛方法,将随机采样的N个学习样本代入上述的梯度计算公式,可以作为对上述期望值的一个无偏估计,策略梯度可以定义为:
步骤13.4、根据策略梯度并采用Adam optimizer优化方法更新现实Actor网络参数θμ;
步骤13.5、采用滑动平均值方法更新目标Actor网络参数和目标Critic网络参数:
θμ′=τθμ+(1-τ)θμ′ (36)
采用滑动平均值方法更新目标网络参数时,目标网络参数变化小,用于训练过程中计算现实Critic网络梯度比较稳定,易于收敛;
步骤13.6、令m=m+1;若m小于总的学习步数M,更新学习率,返回步骤S2.4;否则结束程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210102710.XA CN114462696A (zh) | 2022-01-27 | 2022-01-27 | 基于td3的综合能源系统源荷协同运行优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210102710.XA CN114462696A (zh) | 2022-01-27 | 2022-01-27 | 基于td3的综合能源系统源荷协同运行优化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114462696A true CN114462696A (zh) | 2022-05-10 |
Family
ID=81411715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210102710.XA Pending CN114462696A (zh) | 2022-01-27 | 2022-01-27 | 基于td3的综合能源系统源荷协同运行优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114462696A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117394461A (zh) * | 2023-12-11 | 2024-01-12 | 中国电建集团西北勘测设计研究院有限公司 | 用于综合能源系统的供需协同调控系统及方法 |
CN117455183A (zh) * | 2023-11-09 | 2024-01-26 | 国能江苏新能源科技开发有限公司 | 一种基于深度强化学习的综合能源系统优化调度方法 |
-
2022
- 2022-01-27 CN CN202210102710.XA patent/CN114462696A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117455183A (zh) * | 2023-11-09 | 2024-01-26 | 国能江苏新能源科技开发有限公司 | 一种基于深度强化学习的综合能源系统优化调度方法 |
CN117394461A (zh) * | 2023-12-11 | 2024-01-12 | 中国电建集团西北勘测设计研究院有限公司 | 用于综合能源系统的供需协同调控系统及方法 |
CN117394461B (zh) * | 2023-12-11 | 2024-03-15 | 中国电建集团西北勘测设计研究院有限公司 | 用于综合能源系统的供需协同调控系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fontenot et al. | Modeling and control of building-integrated microgrids for optimal energy management–a review | |
Luo et al. | A multistage home energy management system with residential photovoltaic penetration | |
Megahed et al. | Energy management in zero-energy building using neural network predictive control | |
Ju et al. | Multi-objective stochastic scheduling optimization model for connecting a virtual power plant to wind-photovoltaic-electric vehicles considering uncertainties and demand response | |
CN107732897B (zh) | 融合虚拟储能系统的楼宇微网模型预测调控方法 | |
CN112003330B (zh) | 一种基于自适应控制的微网能量优化调度方法 | |
CN113572157A (zh) | 一种基于近端策略优化的用户实时自治能量管理优化方法 | |
CN110323740B (zh) | 计及光伏出力和空调负荷动态相关性的经济调峰方法 | |
CN110474370B (zh) | 一种空调可控负荷、光伏储能系统的协同控制系统及方法 | |
Yang et al. | Building electrification and carbon emissions: Integrated energy management considering the dynamics of the electricity mix and pricing | |
CN112508325B (zh) | 一种家庭微电网多时间尺度电能调度方法 | |
CN114462696A (zh) | 基于td3的综合能源系统源荷协同运行优化方法 | |
CN114243727B (zh) | 一种基于广域感知预测的源网荷自趋优智能调控体系和实时控制优化技术方法 | |
CN117172499A (zh) | 一种基于强化学习的智慧社区能量优化调度方法、系统及存储介质 | |
Cheng et al. | A day-ahead scheduling of large-scale thermostatically controlled loads model considering second-order equivalent thermal parameters model | |
Georgiou et al. | Implementing artificial neural networks in energy building applications—A review | |
Wang et al. | Event-triggered online energy flow control strategy for regional integrated energy system using Lyapunov optimization | |
Liu et al. | Multi-objective optimization strategy of integrated electric-heat system based on energy storage situation division | |
Lin et al. | Grouping control strategy for aggregated thermostatically controlled loads | |
CN116683445A (zh) | 基于模型预测控制的园区微电网多时间尺度运行优化方法 | |
Lu et al. | Two-stage robust scheduling and real-time load control of community microgrid with multiple uncertainties | |
Kyriakou et al. | Optimal frequency support method for urban microgrids of building prosumers | |
CN112994036B (zh) | 一种基于模型预测的温控负荷参与微电网调控方法及系统 | |
Ruelens et al. | Residential demand response applications using batch reinforcement learning | |
Roy et al. | Application of ANFASO for optimal power flow management of MG‐connected system with energy storage |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |