CN113991654B - 一种能源互联网混合能量系统及其调度方法 - Google Patents
一种能源互联网混合能量系统及其调度方法 Download PDFInfo
- Publication number
- CN113991654B CN113991654B CN202111259032.XA CN202111259032A CN113991654B CN 113991654 B CN113991654 B CN 113991654B CN 202111259032 A CN202111259032 A CN 202111259032A CN 113991654 B CN113991654 B CN 113991654B
- Authority
- CN
- China
- Prior art keywords
- network
- energy
- depth
- time slot
- strategy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000009471 action Effects 0.000 claims abstract description 43
- 239000001257 hydrogen Substances 0.000 claims abstract description 42
- 229910052739 hydrogen Inorganic materials 0.000 claims abstract description 42
- UFHFLCQGNIYNRP-UHFFFAOYSA-N Hydrogen Chemical compound [H][H] UFHFLCQGNIYNRP-UHFFFAOYSA-N 0.000 claims abstract description 36
- 238000006243 chemical reaction Methods 0.000 claims abstract description 21
- 239000000446 fuel Substances 0.000 claims abstract description 18
- 238000010248 power generation Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 16
- 150000002431 hydrogen Chemical class 0.000 claims abstract description 6
- 230000005611 electricity Effects 0.000 claims description 47
- 230000006870 function Effects 0.000 claims description 45
- 230000008901 benefit Effects 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 230000001174 ascending effect Effects 0.000 claims description 3
- 230000002787 reinforcement Effects 0.000 abstract description 4
- 238000010521 absorption reaction Methods 0.000 abstract description 2
- 238000005265 energy consumption Methods 0.000 description 10
- 230000001186 cumulative effect Effects 0.000 description 6
- 239000007789 gas Substances 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 238000005457 optimization Methods 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 230000035699 permeability Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000004146 energy storage Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 125000004435 hydrogen atom Chemical group [H]* 0.000 description 1
- 208000001491 myopia Diseases 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J15/00—Systems for storing electric energy
- H02J15/008—Systems for storing electric energy using hydrogen as energy vector
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/008—Circuit arrangements for ac mains or ac distribution networks involving trading of energy or energy transmission rights
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/28—Arrangements for balancing of the load in a network by storage of energy
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/38—Arrangements for parallely feeding a single network by two or more generators, converters or transformers
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/38—Arrangements for parallely feeding a single network by two or more generators, converters or transformers
- H02J3/381—Dispersed generators
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/38—Arrangements for parallely feeding a single network by two or more generators, converters or transformers
- H02J3/46—Controlling of the sharing of output between the generators, converters, or transformers
- H02J3/466—Scheduling the operation of the generators, e.g. connecting or disconnecting generators to meet a given demand
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/10—Power transmission or distribution systems management focussing at grid-level, e.g. load flow analysis, node profile computation, meshed network optimisation, active network management or spinning reserve management
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/20—Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02E—REDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
- Y02E60/00—Enabling technologies; Technologies with a potential or indirect contribution to GHG emissions mitigation
- Y02E60/30—Hydrogen technology
- Y02E60/36—Hydrogen production from non-carbon containing sources, e.g. by water electrolysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02E—REDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
- Y02E70/00—Other energy conversion or management systems reducing GHG emissions
- Y02E70/30—Systems combining energy storage with energy generation of non-fossil origin
Landscapes
- Engineering & Computer Science (AREA)
- Power Engineering (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明涉及一种能源互联网混合能量系统及其调度方法,该系统包括可再生能源发电单元,可再生能源发电单元分别与用户负载、电转气设备连接,用户负载还分别与电转气设备、外部电网连接,电转气设备用于将可再生能源发电单元输出的电能转换为氢气,用户负载与电转气设备之间连接有燃料电池,燃料电池将电转气设备输出的氢气再次转换为电能。与现有技术相比,本发明根据当前状态选择连续充放电能量调度动作决策,并采用适用于大规模连续动作空间的深度确定性策略梯度算法(DDPG)进行训练,同时将深度强化学习应用于能源互联网混合能量调度控制,以制定优化能量调度策略,能够有效降低能源互联网的运行总成本、提高可再生能源的消纳率。
Description
技术领域
本发明涉及能源互联网能量管理与调度技术领域,尤其是涉及一种能源互联网混合能量系统及其调度方法。
背景技术
迄今为止,传统化石能源的消耗和电力需求飞速增长导致了世界上大面积的能源短缺和停电事故。预计到2050年,电能在总能源的使用比例将从目前的20%增长到50%。可再生能源作为一种清洁环保的能源,被认为是解决能源短缺和电力需求快速增长,降低能源互联网系统成本的有效替代品之一。“能源互联网”在2011年《第三次工业革命》著作中首次被提出,被喻为“基于可再生能源的、分布式、开放共享的网络”。作为集中式电网的有力补充,包含分布式可再生能源的能源互联网,既可以通过公共接入点接入外部电网支撑配电网的稳定运行,也可以组成离网型多能源互联网系统独立运作,目前已在世界范围内快速发展。
但由于可再生能源发电和用户的用电需求在时间上缺乏同步性,而且可再生能源大规模并网会对能源互联网的稳定性造成一定的冲击,导致可再生能源的消纳率十分低下,大多数情况被丢弃,变成所谓的“垃圾电”,最终导致系统运行成本过高,不利于能源互联网的持续可靠发展。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种能源互联网混合能量系统及其调度方法,以提高系统中可再生能源消纳率、降低系统运行成本。
本发明的目的可以通过以下技术方案来实现:一种能源互联网混合能量系统,包括可再生能源发电单元,所述可再生能源发电单元分别与用户负载、电转气设备连接,所述用户负载还分别与电转气设备、外部电网连接,所述电转气设备用于将可再生能源发电单元输出的电能转换为氢气,所述用户负载与电转气设备之间连接有燃料电池,所述燃料电池将电转气设备输出的氢气再次转换为电能。
进一步地,所述电转气设备包括依次连接的电解槽和储氢罐,所述电解槽与可再生能源发电单元相连接,所述储氢罐与燃料电池相连接。
一种能源互联网混合能量系统调度方法,包括以下步骤:
S1、基于Actor-Critic网络架构,构建深度价值网络和深度策略网络,并初始化网络参数、初始化一个经验回放池、初始化随机噪声用于动作探索;
S2、按照设定的时隙间隔,获取当前时隙的系统状态,并输入给深度策略网络中,输出得到随机噪声干扰下当前时隙的连续能量调度动作;
S3、执行步骤S2输出得到的连续能量调度动作,得到下一个时隙的系统状态,并计算当前时隙的奖励函数;
S4、将当前时隙的系统状态、当前时隙的连续能量调度动作、当前时隙的奖励函数以及下一个时隙的系统状态作为一个样本数据,存入经验回放池;
S5、以下一个时隙的系统状态作为当前时隙的系统状态,返回步骤S2,直至经验回放池存满,则执行步骤S6;
S6、从经验回放池中随机选取N个数据样本,通过计算对应的累计折扣回报和状态-动作价值函数,并基于策略梯度方法,以更新深度策略网络和深度价值网络的网络参数;
S7、重复执行步骤S2~S6,直至达到设定的最大迭代次数,完成对深度策略网络和深度价值网络的迭代训练;
S8、将实际的系统状态输入给步骤S7得到的深度策略网络,输出得到对应的连续能量调度动作策略,并在系统中执行该动作策略,完成对能源互联网混合能量系统的调度。
进一步地,所述步骤S1具体包括以下步骤:
S11、基于Actor-Critic网络架构,构建深度价值网络和深度策略网络,其中,深度价值网络和深度策略网络均具有三层隐藏层;
S12、分别初始化深度价值网络和深度策略网络的网络参数,并初始化策略函数;
S13、将深度价值网络和深度策略网络的初始参数复制到对应的两个target网络,并分别设置网络学习率、平衡当前与未来奖励的折扣因子以及软更新系数;
S14、初始化经验回放池的容量,初始化随机噪声用于动作探索。
进一步地,所述步骤S2中设定的时隙间隔为15分钟。
进一步地,所述系统状态包括可再生能源产量、电价、电池电量、储氢罐存储量、基础用电需求量、灵活用电需求量以及时间指数。
进一步地,所述连续能量调度动作包括电池充放电电量、可再生能源对总用电需求的供给量、供给给燃料电池的氢量、用于售卖的氢量以及实际给到灵活用电需求的电量。
进一步地,所述当前时隙的奖励函数具体为当前时隙负的系统总成本与用户用电满意度惩罚项的加权和。
进一步地,所述系统总成本具体为用电成本减去售卖氢气所得收益。
进一步地,所述步骤S6具体包括以下步骤:
S61、计算深度价值网络的损失函数:
yi=ri+γQ′(si+1,μ′(si+1)|θμ′)|θQ′)
其中,yi为训练时的“标签”,i∈[1,N]为样本索引,Q(si,ai)为状态动作价值函数,si为系统状态,ai为连续能量调度动作,θQ为深度价值网络初始参数,ri为建立函数,γ为平衡当前与未来奖励的折扣因子,μ为初始策略函数,Q′为深度价值网络对应target网络的状态动作价值函数,μ′为深度策略网络对应target网络的策略函数,θμ′为深度策略网络对应target网络的初始参数,θQ′为深度价值网络对应target网络的初始参数;
利用梯度下降方法最小化损失函数L,并通过反向传播更新深度价值网络参数;
S62、计算深度策略网络的累计折扣回报:
τ=(s0,a0,s1,a1,…,sT,aT)
其中,τ为系统从t=0到T时隙的训练轨迹,利用梯度上升方法最大化累计折扣回报J,并通过反向传播更新深度策略网络参数;
S63、通过软更新的方式更新两个target网络的参数。
与现有技术相比,本发明具有以下优点:
一、本发明在能源互联网内引入电转气设备,并结合燃料电池,以实现可靠储能,不仅能将可再生能源输出的过剩电力转换为氢气形式进行存储利用,通知还能再次将氢气转换为电能进行存储利用,由此能够有效提高能源互联网系统中可再生能源的消纳率和渗透率。
二、本发明通过构建深度价值网络和深度策略网络,结合强化学习方式,基于target网络进行软更新,以保证网络模型训练可靠性,更加适用于大规模场景下的连续动作空间的策略学习,在未知状态转移概率下实现了对系统成本和可再生能源消纳率的优化;本发明通过设计奖励函数,以保证系统总成本最优,同时能够兼顾用户用电满意度,使得输出的动作策略能够实现最优能量调度。
附图说明
图1为本发明的系统结构示意图;
图2为本发明的方法流程示意图;
图3为本发明方法与传统基准算法的累计平均总成本的对比图;
图4是本发明方法与传统基准算法在不同的断电概率δ下得到的系统总成本对比图;
图5是本发明所提的能源网混合能量调度系统模型与传统基线模型的累计平均总成本的对比图;
图6为本发明所提的能源网混合能量调度系统模型与传统基线模型的可再生能源消纳率对比图;
图7是本发明方法在不同的权重系数ζ下的累计平均总成本对比图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例
如图1所示,能源互联网混合能量系统,包括可再生能源发电单元,可再生能源发电单元分别与用户负载、电转气设备连接,用户负载还分别与电转气设备、外部电网连接,电转气设备用于将可再生能源发电单元输出的电能转换为氢气,用户负载与电转气设备之间连接有燃料电池,燃料电池将电转气设备输出的氢气再次转换为电能。
其中,电转气设备包括依次连接的电解槽和储氢罐,电解槽与可再生能源发电单元相连接,储氢罐与燃料电池相连接。
针对上述能源互联网混合能量系统,为优化系统总成本以及可再生能源消纳率,本发明还提出一种能源互联网混合能量系统调度方法,如图2所示,包括以下步骤:
S1、基于Actor-Critic网络架构,构建深度价值网络和深度策略网络,深度价值网络和深度策略网络均具有三层隐藏层,分别初始化深度价值网络和深度策略网络的网络参数,并初始化策略函数;
将深度价值网络和深度策略网络的初始参数复制到对应的两个target网络,并分别设置网络学习率、平衡当前与未来奖励的折扣因子以及软更新系数;
初始化经验回放池的容量,初始化随机噪声用于动作探索;
S2、按照设定的时隙间隔(本实施例中设定时隙间隔为15分钟),获取当前时隙的系统状态(包括可再生能源产量、电价、电池电量、储氢罐存储量、基础用电需求量、灵活用电需求量以及时间指数),并输入给深度策略网络中,输出得到随机噪声干扰下当前时隙的连续能量调度动作(包括电池充放电电量、可再生能源对总用电需求的供给量、供给给燃料电池的氢量、用于售卖的氢量以及实际给到灵活用电需求的电量);
S3、执行步骤S2输出得到的连续能量调度动作,得到下一个时隙的系统状态,并计算当前时隙的奖励函数,其中,当前时隙的奖励函数具体为当前时隙负的系统总成本与用户用电满意度惩罚项的加权和,系统总成本具体为用电成本减去售卖氢气所得收益;
S4、将当前时隙的系统状态、当前时隙的连续能量调度动作、当前时隙的奖励函数以及下一个时隙的系统状态作为一个样本数据,存入经验回放池;
S5、以下一个时隙的系统状态作为当前时隙的系统状态,返回步骤S2,直至经验回放池存满,则执行步骤S6;
S6、从经验回放池中随机选取N个数据样本,通过计算对应的累计折扣回报和状态-动作价值函数,并基于策略梯度方法,以更新深度策略网络和深度价值网络的网络参数,具体的:
S61、计算深度价值网络的损失函数:
yi=ri+γQ′(si+1,μ′(si+1)|θμ′)|θQ′)
其中,yi为训练时的“标签”,i∈[1,N]为样本索引,Q(si,ai)为状态动作价值函数,si为系统状态,ai为连续能量调度动作,θQ为深度价值网络初始参数,ri为建立函数,γ为平衡当前与未来奖励的折扣因子,μ为初始策略函数,Q′为深度价值网络对应target网络的状态动作价值函数,μ′为深度策略网络对应target网络的策略函数,θμ′为深度策略网络对应target网络的初始参数,θQ′为深度价值网络对应target网络的初始参数;
利用梯度下降方法最小化损失函数L,并通过反向传播更新深度价值网络参数;
S62、计算深度策略网络的累计折扣回报:
τ=(s0,a0,s1,a1,…,sT,aT)
其中,τ为系统从t=0到T时隙的训练轨迹,利用梯度上升方法最大化累计折扣回报J,并通过反向传播更新深度策略网络参数;
S63、通过软更新的方式更新两个target网络的参数;
S7、重复执行步骤S2~S6,直至达到设定的最大迭代次数,完成对深度策略网络和深度价值网络的迭代训练;
S8、将实际的系统状态输入给步骤S7得到的深度策略网络,输出得到对应的连续能量调度动作策略,并在系统中执行该动作策略,完成对能源互联网混合能量系统的调度。
本发明提出的能源互联网混合能量系统,配备有可再生能源、电池储能系统、用电负载、电转气设备,其中电转气设备由一个电解槽、氢存储罐以及燃料电池组成。电解槽可以将电制成氢气存储,燃料电池可以将氢气再次转化成电使用,氢存储罐作为一个中间环节,存储的氢气也可以售出获取利润。系统的总成本主要由向外部电网购电的成本减去售卖氢气的利润组成,该系统需要根据当前的可再生能源产量、时变电价、用户用电需求等高度随机的状态,通过在线学习算法,合理的调度系统内电能和氢能,从而在满足用户需求的同时减少系统运行总成本,并且有效提高可再生能源消纳率和渗透率,减少资源浪费。
本实施例应用上述能源互联网混合能量系统的调度方法,主要包括以下过程:
1)、初始化系统参数,设置每个时隙为15mins,基于Actor-Critic网络架构,设置具有三层隐藏层的深度价值网络(critic network)和深度策略网络(actor network),并初始化两个神经网络的参数记为θQ和θμ,初始化策略函数μ;将以上两个网络的模型和初始参数复制到对应的两个target网络,用于软更新;设置网络学习率分别为αc=10-4和αa=10-5,平衡当前与未来奖励的折扣因子γ=0.75,软更新系数τ=0.01;初始化一个K大小的经验回放池,初始化随机噪声用于动作探索;
两个target网络的结构及初始参数,对应与深度价值网络和深度策略网络是一致的,后续会加上“′”符号代表target网络参数进行区分,target网络通过软更新的形式更新网络参数,后面用于在训练过程中计算深度价值网络和深度策略网络的梯度,使得训练较稳定,易于收敛。
2)、观察当前时隙的系统状态从左至右分别表示当前时隙的可再生能源产量、电价、电池电量、氢储罐存储量、基础用电需求量、灵活用电需求量以及时间指数,其中时间指数指的是当前时隙属于当天的第几个时隙。将状态st输入到深度策略网络中,输出随机噪声干扰下的连续能量调度动作/>从左至右分别表示当前时隙的能量调度策略,即电池充放电电量、可再生能源对总用电需求的供给量、供给给燃料电池的氢量、用于售卖的氢量以及实际给到灵活用电需求的电量。
3)、执行当前动作at,到达下一个状态st+1,计算当前系统总成本(即系统的用电成本减去售卖氢气所得收益),获取奖励函数rt(即t时隙负的系统总成本与用户用电满意度惩罚项的加权和);
4)、将得到的数据样本(st,at,rt,st+1)存入经验回放池;
5)、设置下一个状态st+1作为当前状态,判断经验回放池是否已存满,若样本数大于K,则转至步骤6),反之跳转至步骤2);
6)、从经验回放池中随机取N个数据样本,计算对应的累计折扣回报J和状态-动作价值函数Q(st,at),通过策略梯度方法更新策略网络和价值网络参数,策略梯度方法是用梯度下降最小化损失函数L以及梯度上升最大化累计折扣回报J,以上神经网络均使用的是Adam优化器。具体的优化步骤如下:
a、计算深度价值网络的损失函数其中yi=ri+γQ′(si+1,μ′(si+1)|θμ′)|θQ′)可以看作训练时的“标签”,i∈[1,N]为样本索引,状态动作价值函数根据贝尔曼等式计算,即/>利用梯度下降方法最小化损失函数L,并通过反向传播更新深度价值网络参数;
b、计算深度策略网络的累计折扣回报其中τ为系统从t=0到T时隙的训练轨迹,即τ=(s0,a0,s1,a1,…,sT,aT),并利用梯度上升方法最大化累计折扣回报J,并通过反向传播更新深度策略网络参数;
c、通过软更新的方式更新两个target网络的参数。;
7)、重复步骤2)-6)直至到达最大迭代次数,保存两个神经网络的模型参数,至此网络训练部分完成;
8)、在实际决策阶段,下载策略网络模型及参数,给定一个状态输入,输出能够最小化系统总成本的动作,即最优的能量调度决策。
相比于其他能源互联网能量调度优化方法,本发明利用深度强化学习算法中适用于大规模状态输入和连续动作空间的深度确定性策略梯度(DDPG)算法,在不知道状态转移概率的情况下,降低了系统的总成本并兼顾了用户的用电满意度。因此,本发明所提算法可以达到能源互联网系统成本和可再生能源消纳率最优化的目的,具有良好的可行性和有效性。
在每个时隙内,系统接收到当前的可再生能源产量、时变电价、用户用电需求等状态信息后,将其输入到深度策略神经网络,输出连续动作空间下的能量调度决策,进行系统的能量调度,得到当前调度下的系统总成本,并转到下一时隙的状态。对本发明的混合能量调度模型进行仿真性能验证,仿真结果如图3-图7所示。
图3的仿真结果表明,与其他发明采用的算法相比,本发明的DDPG算法能够节省更多的系统总成本;
图4比较了四种算法在不同的断电概率δ下的系统总成本,其中断电概率δ指的是用户能够接受的最大的不被满足的用电需求的比例,仿真结果表明,其中DDPG算法、短视算法、贪婪算法都是随着δ的增大而减少系统成本,这是因为用户能够忍受的断电概率越大,这就表明系统能够根据当前状态更加灵活的调度电力,从而减少购电成本。而保守算法下的系统成本并没有因为δ的增大而下降,毕竟保守算法偏向于在每一时隙都完全满足用户的用电需求;
图5将本发明的混合能量调度模型与其它三个基线模型进行比较,分别是只有氢能调度模型、只有电能调度模型、以及两种存储方式都无的调度模型,结果表明,本发明在节约系统成本方面具有更优的表现;
图6比较了以上四个模型的可再生能源消纳率,可以看出本发明获得了最高的可再生能源消纳率结果,由于基线2模型没有考虑氢能调度模型,即没有电转气设施,因此可能会导致过剩的可再生能源无法被充分利用起来;
图7是比较了成本项中购电成本与售氢收入之间的权重系数ζ不同取值的表现,结果表明,ζ越大,系统更多的关注如何售卖更多的氢气以弥补成本,因此会获得更少的成本,甚至还能为系统带来利润,但这却是以牺牲用户用电满意度为前提的。
综上所述,与其它发明相比,本发明在节约系统运行总成本和提高可再生能源消纳率上具有更加优秀的性能表现,具有较高的可行性和有效性。本发明中奖励函数的设计不仅优化了能源网系统的总成本,还兼顾了能源网内用户的用电满意度。通过将深度神经网络引入强化学习,更加适用于大规模场景下的连续动作空间的策略学习,在未知状态转移概率下实现了对系统成本和可再生能源消纳率的优化,相对其他技术能获得更低的成本和更高的用户满意度,并且提高可再生能源的渗透率。
Claims (6)
1.一种调度方法,应用于一种能源互联网混合能量系统,其特征在于,该系统包括可再生能源发电单元,所述可再生能源发电单元分别与用户负载、电转气设备连接,所述用户负载还分别与电转气设备、外部电网连接,所述电转气设备用于将可再生能源发电单元输出的电能转换为氢气,所述用户负载与电转气设备之间连接有燃料电池,所述燃料电池将电转气设备输出的氢气再次转换为电能;
该调度方法包括以下步骤:
S1、基于Actor-Critic网络架构,构建深度价值网络和深度策略网络,并初始化网络参数、初始化一个经验回放池、初始化随机噪声用于动作探索;
S2、按照设定的时隙间隔,获取当前时隙的系统状态,并输入给深度策略网络中,输出得到随机噪声干扰下当前时隙的连续能量调度动作;
S3、执行步骤S2输出得到的连续能量调度动作,得到下一个时隙的系统状态,并计算当前时隙的奖励函数;
S4、将当前时隙的系统状态、当前时隙的连续能量调度动作、当前时隙的奖励函数以及下一个时隙的系统状态作为一个样本数据,存入经验回放池;
其中,所述系统状态包括可再生能源产量、电价、电池电量、储氢罐存储量、基础用电需求量、灵活用电需求量以及时间指数;
所述连续能量调度动作包括电池充放电电量、可再生能源对总用电需求的供给量、供给给燃料电池的氢量、用于售卖的氢量以及实际给到灵活用电需求的电量;
所述当前时隙的奖励函数具体为当前时隙负的系统总成本与用户用电满意度惩罚项的加权和;
S5、以下一个时隙的系统状态作为当前时隙的系统状态,返回步骤S2,直至经验回放池存满,则执行步骤S6;
S6、从经验回放池中随机选取N个数据样本,通过计算对应的累计折扣回报和状态-动作价值函数,并基于策略梯度方法,以更新深度策略网络和深度价值网络的网络参数;
S7、重复执行步骤S2~S6,直至达到设定的最大迭代次数,完成对深度策略网络和深度价值网络的迭代训练;
S8、将实际的系统状态输入给步骤S7得到的深度策略网络,输出得到对应的连续能量调度动作策略,并在系统中执行该动作策略,完成对能源互联网混合能量系统的调度。
2.根据权利要求1所述的一种调度方法,其特征在于,所述电转气设备包括依次连接的电解槽和储氢罐,所述电解槽与可再生能源发电单元相连接,所述储氢罐与燃料电池相连接。
3.根据权利要求1所述的一种调度方法,其特征在于,所述步骤S1具体包括以下步骤:
S11、基于Actor-Critic网络架构,构建深度价值网络和深度策略网络,其中,深度价值网络和深度策略网络均具有三层隐藏层;
S12、分别初始化深度价值网络和深度策略网络的网络参数,并初始化策略函数;
S13、将深度价值网络和深度策略网络的初始参数复制到对应的两个target网络,并分别设置网络学习率、平衡当前与未来奖励的折扣因子以及软更新系数;
S14、初始化经验回放池的容量,初始化随机噪声用于动作探索。
4.根据权利要求1所述的一种调度方法,其特征在于,所述步骤S2中设定的时隙间隔为15分钟。
5.根据权利要求1所述的一种调度方法,其特征在于,所述系统总成本具体为用电成本减去售卖氢气所得收益。
6.根据权利要求1所述的一种调度方法,其特征在于,所述步骤S6具体包括以下步骤:
S61、计算深度价值网络的损失函数:
yi=ri+γQ'(si+1,μ'(si+1)|[θμ′)|θQ')
其中,yi为训练时的“标签”,i∈[1,N]为样本索引,Q(si,ai)为状态动作价值函数,si为系统状态,ai为连续能量调度动作,θQ为深度价值网络初始参数,ri为建立函数,γ为平衡当前与未来奖励的折扣因子,μ为初始策略函数,Q′为深度价值网络对应target网络的状态动作价值函数,μ′为深度策略网络对应target网络的策略函数,θμ′为深度策略网络对应target网络的初始参数,θQ′为深度价值网络对应target网络的初始参数;
利用梯度下降方法最小化损失函数L,并通过反向传播更新深度价值网络参数;
S62、计算深度策略网络的累计折扣回报:
τ=(s0,a0,s1,a1,…,sT,aT)
其中,τ为系统从t=0到T时隙的训练轨迹,利用梯度上升方法最大化累计折扣回报J,并通过反向传播更新深度策略网络参数;
S63、通过软更新的方式更新两个target网络的参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111259032.XA CN113991654B (zh) | 2021-10-28 | 2021-10-28 | 一种能源互联网混合能量系统及其调度方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111259032.XA CN113991654B (zh) | 2021-10-28 | 2021-10-28 | 一种能源互联网混合能量系统及其调度方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113991654A CN113991654A (zh) | 2022-01-28 |
CN113991654B true CN113991654B (zh) | 2024-01-23 |
Family
ID=79742953
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111259032.XA Active CN113991654B (zh) | 2021-10-28 | 2021-10-28 | 一种能源互联网混合能量系统及其调度方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113991654B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115534764A (zh) * | 2022-08-29 | 2022-12-30 | 华东理工大学 | 基于深度强化学习的车载燃料电池系统控制方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109862610A (zh) * | 2019-01-08 | 2019-06-07 | 华中科技大学 | 一种基于深度强化学习ddpg算法的d2d用户资源分配方法 |
CN112099496A (zh) * | 2020-09-08 | 2020-12-18 | 苏州浪潮智能科技有限公司 | 一种自动驾驶训练方法、装置、设备及介质 |
CN112186743A (zh) * | 2020-09-16 | 2021-01-05 | 北京交通大学 | 一种基于深度强化学习的动态电力系统经济调度方法 |
CN113095715A (zh) * | 2021-04-29 | 2021-07-09 | 福州大学 | 基于深度强化学习的含氢储能微网优化运行方法 |
CN113553770A (zh) * | 2021-07-28 | 2021-10-26 | 国网江苏省电力有限公司常州供电分公司 | 一种基于主从博弈的电氢综合能源系统优化运行方法 |
-
2021
- 2021-10-28 CN CN202111259032.XA patent/CN113991654B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109862610A (zh) * | 2019-01-08 | 2019-06-07 | 华中科技大学 | 一种基于深度强化学习ddpg算法的d2d用户资源分配方法 |
CN112099496A (zh) * | 2020-09-08 | 2020-12-18 | 苏州浪潮智能科技有限公司 | 一种自动驾驶训练方法、装置、设备及介质 |
CN112186743A (zh) * | 2020-09-16 | 2021-01-05 | 北京交通大学 | 一种基于深度强化学习的动态电力系统经济调度方法 |
CN113095715A (zh) * | 2021-04-29 | 2021-07-09 | 福州大学 | 基于深度强化学习的含氢储能微网优化运行方法 |
CN113553770A (zh) * | 2021-07-28 | 2021-10-26 | 国网江苏省电力有限公司常州供电分公司 | 一种基于主从博弈的电氢综合能源系统优化运行方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113991654A (zh) | 2022-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Multi-objective load dispatch for microgrid with electric vehicles using modified gravitational search and particle swarm optimization algorithm | |
CN108875992B (zh) | 一种考虑需求响应的虚拟电厂日前优化调度方法 | |
CN112713618B (zh) | 基于多场景技术的主动配电网源网荷储协同优化运行方法 | |
CN111340299B (zh) | 一种微电网多目标优化调度方法 | |
CN105071389B (zh) | 计及源网荷互动的交直流混合微电网优化运行方法及装置 | |
CN112651105B (zh) | 一种基于博弈论的微网容量配置优化方法 | |
CN114519459B (zh) | 基于场景分析和混合储能的热电联合系统优化调度方法 | |
CN111064192A (zh) | 一种计及源荷不确定性的独立型微网容量优化配置方法 | |
CN116061742B (zh) | 一种分时电价光伏园区内电动汽车的充电控制方法和系统 | |
CN116667325B (zh) | 一种基于改进布谷鸟算法的微电网并网运行优化调度方法 | |
CN117578409A (zh) | 一种电力市场环境下的多能互补优化调度方法及系统 | |
CN108039741B (zh) | 计及微源余电上网的交直流混合微网优化运行方法 | |
CN113991654B (zh) | 一种能源互联网混合能量系统及其调度方法 | |
CN114971071A (zh) | 计及风光接入和电热混合储能的园区综合能源系统时序规划方法 | |
CN114567009A (zh) | 一种光氢储综合充电站设备容量配置方法及装置 | |
Jin et al. | Optimization of power dispatching strategies integrating management attitudes with low carbon factors | |
CN117833285A (zh) | 一种基于深度强化学习的微电网储能优化调度方法 | |
CN117318031A (zh) | 一种基于ddpg的电-氢耦合系统优化调度方法和系统 | |
CN111967646A (zh) | 一种虚拟电厂可再生能源优化配置方法 | |
CN116468291A (zh) | 含电动汽车充电站的商业建筑混合能源调度方法 | |
CN116674411A (zh) | 基于充能决策预测的电-氢复合充能站优化调度策略 | |
CN113488990B (zh) | 基于改进的蝙蝠算法的微电网优化调度方法 | |
CN106600078A (zh) | 一种基于新能源发电预测的微网能量管理方案 | |
CN114336597A (zh) | 基于自适应惩罚函数粒子群算法的光储逆变器能量调度 | |
Jain et al. | Operational cost minimization of grid connected microgrid system using fire fly technique |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |