CN113991654A - 一种能源互联网混合能量系统及其调度方法 - Google Patents

一种能源互联网混合能量系统及其调度方法 Download PDF

Info

Publication number
CN113991654A
CN113991654A CN202111259032.XA CN202111259032A CN113991654A CN 113991654 A CN113991654 A CN 113991654A CN 202111259032 A CN202111259032 A CN 202111259032A CN 113991654 A CN113991654 A CN 113991654A
Authority
CN
China
Prior art keywords
network
energy
strategy
time slot
scheduling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111259032.XA
Other languages
English (en)
Other versions
CN113991654B (zh
Inventor
张光林
陈茗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Donghua University
Original Assignee
Donghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Donghua University filed Critical Donghua University
Priority to CN202111259032.XA priority Critical patent/CN113991654B/zh
Publication of CN113991654A publication Critical patent/CN113991654A/zh
Application granted granted Critical
Publication of CN113991654B publication Critical patent/CN113991654B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J15/00Systems for storing electric energy
    • H02J15/008Systems for storing electric energy using hydrogen as energy vector
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/008Circuit arrangements for ac mains or ac distribution networks involving trading of energy or energy transmission rights
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/28Arrangements for balancing of the load in a network by storage of energy
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/381Dispersed generators
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/46Controlling of the sharing of output between the generators, converters, or transformers
    • H02J3/466Scheduling the operation of the generators, e.g. connecting or disconnecting generators to meet a given demand
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/10Power transmission or distribution systems management focussing at grid-level, e.g. load flow analysis, node profile computation, meshed network optimisation, active network management or spinning reserve management
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E60/00Enabling technologies; Technologies with a potential or indirect contribution to GHG emissions mitigation
    • Y02E60/30Hydrogen technology
    • Y02E60/36Hydrogen production from non-carbon containing sources, e.g. by water electrolysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E70/00Other energy conversion or management systems reducing GHG emissions
    • Y02E70/30Systems combining energy storage with energy generation of non-fossil origin

Landscapes

  • Engineering & Computer Science (AREA)
  • Power Engineering (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明涉及一种能源互联网混合能量系统及其调度方法,该系统包括可再生能源发电单元,可再生能源发电单元分别与用户负载、电转气设备连接,用户负载还分别与电转气设备、外部电网连接,电转气设备用于将可再生能源发电单元输出的电能转换为氢气,用户负载与电转气设备之间连接有燃料电池,燃料电池将电转气设备输出的氢气再次转换为电能。与现有技术相比,本发明根据当前状态选择连续充放电能量调度动作决策,并采用适用于大规模连续动作空间的深度确定性策略梯度算法(DDPG)进行训练,同时将深度强化学习应用于能源互联网混合能量调度控制,以制定优化能量调度策略,能够有效降低能源互联网的运行总成本、提高可再生能源的消纳率。

Description

一种能源互联网混合能量系统及其调度方法
技术领域
本发明涉及能源互联网能量管理与调度技术领域,尤其是涉及一种能源互联网混合能量系统及其调度方法。
背景技术
迄今为止,传统化石能源的消耗和电力需求飞速增长导致了世界上大面积的能源短缺和停电事故。预计到2050年,电能在总能源的使用比例将从目前的20%增长到50%。可再生能源作为一种清洁环保的能源,被认为是解决能源短缺和电力需求快速增长,降低能源互联网系统成本的有效替代品之一。“能源互联网”在2011年《第三次工业革命》著作中首次被提出,被喻为“基于可再生能源的、分布式、开放共享的网络”。作为集中式电网的有力补充,包含分布式可再生能源的能源互联网,既可以通过公共接入点接入外部电网支撑配电网的稳定运行,也可以组成离网型多能源互联网系统独立运作,目前已在世界范围内快速发展。
但由于可再生能源发电和用户的用电需求在时间上缺乏同步性,而且可再生能源大规模并网会对能源互联网的稳定性造成一定的冲击,导致可再生能源的消纳率十分低下,大多数情况被丢弃,变成所谓的“垃圾电”,最终导致系统运行成本过高,不利于能源互联网的持续可靠发展。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种能源互联网混合能量系统及其调度方法,以提高系统中可再生能源消纳率、降低系统运行成本。
本发明的目的可以通过以下技术方案来实现:一种能源互联网混合能量系统,包括可再生能源发电单元,所述可再生能源发电单元分别与用户负载、电转气设备连接,所述用户负载还分别与电转气设备、外部电网连接,所述电转气设备用于将可再生能源发电单元输出的电能转换为氢气,所述用户负载与电转气设备之间连接有燃料电池,所述燃料电池将电转气设备输出的氢气再次转换为电能。
进一步地,所述电转气设备包括依次连接的电解槽和储氢罐,所述电解槽与可再生能源发电单元相连接,所述储氢罐与燃料电池相连接。
一种能源互联网混合能量系统调度方法,包括以下步骤:
S1、基于Actor-Critic网络架构,构建深度价值网络和深度策略网络,并初始化网络参数、初始化一个经验回放池、初始化随机噪声用于动作探索;
S2、按照设定的时隙间隔,获取当前时隙的系统状态,并输入给深度策略网络中,输出得到随机噪声干扰下当前时隙的连续能量调度动作;
S3、执行步骤S2输出得到的连续能量调度动作,得到下一个时隙的系统状态,并计算当前时隙的奖励函数;
S4、将当前时隙的系统状态、当前时隙的连续能量调度动作、当前时隙的奖励函数以及下一个时隙的系统状态作为一个样本数据,存入经验回放池;
S5、以下一个时隙的系统状态作为当前时隙的系统状态,返回步骤S2,直至经验回放池存满,则执行步骤S6;
S6、从经验回放池中随机选取N个数据样本,通过计算对应的累计折扣回报和状态-动作价值函数,并基于策略梯度方法,以更新深度策略网络和深度价值网络的网络参数;
S7、重复执行步骤S2~S6,直至达到设定的最大迭代次数,完成对深度策略网络和深度价值网络的迭代训练;
S8、将实际的系统状态输入给步骤S7得到的深度策略网络,输出得到对应的连续能量调度动作策略,并在系统中执行该动作策略,完成对能源互联网混合能量系统的调度。
进一步地,所述步骤S1具体包括以下步骤:
S11、基于Actor-Critic网络架构,构建深度价值网络和深度策略网络,其中,深度价值网络和深度策略网络均具有三层隐藏层;
S12、分别初始化深度价值网络和深度策略网络的网络参数,并初始化策略函数;
S13、将深度价值网络和深度策略网络的初始参数复制到对应的两个target网络,并分别设置网络学习率、平衡当前与未来奖励的折扣因子以及软更新系数;
S14、初始化经验回放池的容量,初始化随机噪声用于动作探索。
进一步地,所述步骤S2中设定的时隙间隔为15分钟。
进一步地,所述系统状态包括可再生能源产量、电价、电池电量、储氢罐存储量、基础用电需求量、灵活用电需求量以及时间指数。
进一步地,所述连续能量调度动作包括电池充放电电量、可再生能源对总用电需求的供给量、供给给燃料电池的氢量、用于售卖的氢量以及实际给到灵活用电需求的电量。
进一步地,所述当前时隙的奖励函数具体为当前时隙负的系统总成本与用户用电满意度惩罚项的加权和。
进一步地,所述系统总成本具体为用电成本减去售卖氢气所得收益。
进一步地,所述步骤S6具体包括以下步骤:
S61、计算深度价值网络的损失函数:
Figure BDA0003324972270000031
yi=ri+γQ′(si+1,μ′(si+1)|θμ′)|θQ′)
Figure BDA0003324972270000032
其中,yi为训练时的“标签”,i∈[1,N]为样本索引,Q(si,ai)为状态动作价值函数,si为系统状态,ai为连续能量调度动作,θQ为深度价值网络初始参数,ri为建立函数,γ为平衡当前与未来奖励的折扣因子,μ为初始策略函数,Q′为深度价值网络对应target网络的状态动作价值函数,μ′为深度策略网络对应target网络的策略函数,θμ′为深度策略网络对应target网络的初始参数,θQ′为深度价值网络对应target网络的初始参数;
利用梯度下降方法最小化损失函数L,并通过反向传播更新深度价值网络参数;
S62、计算深度策略网络的累计折扣回报:
Figure BDA0003324972270000033
τ=(s0,a0,s1,a1,…,sT,aT)
其中,τ为系统从t=0到T时隙的训练轨迹,利用梯度上升方法最大化累计折扣回报J,并通过反向传播更新深度策略网络参数;
S63、通过软更新的方式更新两个target网络的参数。
与现有技术相比,本发明具有以下优点:
一、本发明在能源互联网内引入电转气设备,并结合燃料电池,以实现可靠储能,不仅能将可再生能源输出的过剩电力转换为氢气形式进行存储利用,通知还能再次将氢气转换为电能进行存储利用,由此能够有效提高能源互联网系统中可再生能源的消纳率和渗透率。
二、本发明通过构建深度价值网络和深度策略网络,结合强化学习方式,基于target网络进行软更新,以保证网络模型训练可靠性,更加适用于大规模场景下的连续动作空间的策略学习,在未知状态转移概率下实现了对系统成本和可再生能源消纳率的优化;本发明通过设计奖励函数,以保证系统总成本最优,同时能够兼顾用户用电满意度,使得输出的动作策略能够实现最优能量调度。
附图说明
图1为本发明的系统结构示意图;
图2为本发明的方法流程示意图;
图3为本发明方法与传统基准算法的累计平均总成本的对比图;
图4是本发明方法与传统基准算法在不同的断电概率δ下得到的系统总成本对比图;
图5是本发明所提的能源网混合能量调度系统模型与传统基线模型的累计平均总成本的对比图;
图6为本发明所提的能源网混合能量调度系统模型与传统基线模型的可再生能源消纳率对比图;
图7是本发明方法在不同的权重系数ζ下的累计平均总成本对比图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例
如图1所示,能源互联网混合能量系统,包括可再生能源发电单元,可再生能源发电单元分别与用户负载、电转气设备连接,用户负载还分别与电转气设备、外部电网连接,电转气设备用于将可再生能源发电单元输出的电能转换为氢气,用户负载与电转气设备之间连接有燃料电池,燃料电池将电转气设备输出的氢气再次转换为电能。
其中,电转气设备包括依次连接的电解槽和储氢罐,电解槽与可再生能源发电单元相连接,储氢罐与燃料电池相连接。
针对上述能源互联网混合能量系统,为优化系统总成本以及可再生能源消纳率,本发明还提出一种能源互联网混合能量系统调度方法,如图2所示,包括以下步骤:
S1、基于Actor-Critic网络架构,构建深度价值网络和深度策略网络,深度价值网络和深度策略网络均具有三层隐藏层,分别初始化深度价值网络和深度策略网络的网络参数,并初始化策略函数;
将深度价值网络和深度策略网络的初始参数复制到对应的两个target网络,并分别设置网络学习率、平衡当前与未来奖励的折扣因子以及软更新系数;
初始化经验回放池的容量,初始化随机噪声用于动作探索;
S2、按照设定的时隙间隔(本实施例中设定时隙间隔为15分钟),获取当前时隙的系统状态(包括可再生能源产量、电价、电池电量、储氢罐存储量、基础用电需求量、灵活用电需求量以及时间指数),并输入给深度策略网络中,输出得到随机噪声干扰下当前时隙的连续能量调度动作(包括电池充放电电量、可再生能源对总用电需求的供给量、供给给燃料电池的氢量、用于售卖的氢量以及实际给到灵活用电需求的电量);
S3、执行步骤S2输出得到的连续能量调度动作,得到下一个时隙的系统状态,并计算当前时隙的奖励函数,其中,当前时隙的奖励函数具体为当前时隙负的系统总成本与用户用电满意度惩罚项的加权和,系统总成本具体为用电成本减去售卖氢气所得收益;
S4、将当前时隙的系统状态、当前时隙的连续能量调度动作、当前时隙的奖励函数以及下一个时隙的系统状态作为一个样本数据,存入经验回放池;
S5、以下一个时隙的系统状态作为当前时隙的系统状态,返回步骤S2,直至经验回放池存满,则执行步骤S6;
S6、从经验回放池中随机选取N个数据样本,通过计算对应的累计折扣回报和状态-动作价值函数,并基于策略梯度方法,以更新深度策略网络和深度价值网络的网络参数,具体的:
S61、计算深度价值网络的损失函数:
Figure BDA0003324972270000051
yi=ri+γQ′(si+1,μ′(si+1)|θμ′)|θQ′)
Figure BDA0003324972270000061
其中,yi为训练时的“标签”,i∈[1,N]为样本索引,Q(si,ai)为状态动作价值函数,si为系统状态,ai为连续能量调度动作,θQ为深度价值网络初始参数,ri为建立函数,γ为平衡当前与未来奖励的折扣因子,μ为初始策略函数,Q′为深度价值网络对应target网络的状态动作价值函数,μ′为深度策略网络对应target网络的策略函数,θμ′为深度策略网络对应target网络的初始参数,θQ′为深度价值网络对应target网络的初始参数;
利用梯度下降方法最小化损失函数L,并通过反向传播更新深度价值网络参数;
S62、计算深度策略网络的累计折扣回报:
Figure BDA0003324972270000062
τ=(s0,a0,s1,a1,…,sT,aT)
其中,τ为系统从t=0到T时隙的训练轨迹,利用梯度上升方法最大化累计折扣回报J,并通过反向传播更新深度策略网络参数;
S63、通过软更新的方式更新两个target网络的参数;
S7、重复执行步骤S2~S6,直至达到设定的最大迭代次数,完成对深度策略网络和深度价值网络的迭代训练;
S8、将实际的系统状态输入给步骤S7得到的深度策略网络,输出得到对应的连续能量调度动作策略,并在系统中执行该动作策略,完成对能源互联网混合能量系统的调度。
本发明提出的能源互联网混合能量系统,配备有可再生能源、电池储能系统、用电负载、电转气设备,其中电转气设备由一个电解槽、氢存储罐以及燃料电池组成。电解槽可以将电制成氢气存储,燃料电池可以将氢气再次转化成电使用,氢存储罐作为一个中间环节,存储的氢气也可以售出获取利润。系统的总成本主要由向外部电网购电的成本减去售卖氢气的利润组成,该系统需要根据当前的可再生能源产量、时变电价、用户用电需求等高度随机的状态,通过在线学习算法,合理的调度系统内电能和氢能,从而在满足用户需求的同时减少系统运行总成本,并且有效提高可再生能源消纳率和渗透率,减少资源浪费。
本实施例应用上述能源互联网混合能量系统的调度方法,主要包括以下过程:
1)、初始化系统参数,设置每个时隙为15mins,基于Actor-Critic网络架构,设置具有三层隐藏层的深度价值网络(critic network)和深度策略网络(actor network),并初始化两个神经网络的参数记为θQ和θμ,初始化策略函数μ;将以上两个网络的模型和初始参数复制到对应的两个target网络,用于软更新;设置网络学习率分别为αc=10-4和αa=10-5,平衡当前与未来奖励的折扣因子γ=0.75,软更新系数τ=0.01;初始化一个K大小的经验回放池,初始化随机噪声用于动作探索;
两个target网络的结构及初始参数,对应与深度价值网络和深度策略网络是一致的,后续会加上“′”符号代表target网络参数进行区分,target网络通过软更新的形式更新网络参数,后面用于在训练过程中计算深度价值网络和深度策略网络的梯度,使得训练较稳定,易于收敛。
2)、观察当前时隙的系统状态
Figure BDA0003324972270000071
从左至右分别表示当前时隙的可再生能源产量、电价、电池电量、氢储罐存储量、基础用电需求量、灵活用电需求量以及时间指数,其中时间指数指的是当前时隙属于当天的第几个时隙。将状态st输入到深度策略网络中,输出随机噪声干扰下的连续能量调度动作
Figure BDA0003324972270000072
从左至右分别表示当前时隙的能量调度策略,即电池充放电电量、可再生能源对总用电需求的供给量、供给给燃料电池的氢量、用于售卖的氢量以及实际给到灵活用电需求的电量。
3)、执行当前动作at,到达下一个状态st+1,计算当前系统总成本(即系统的用电成本减去售卖氢气所得收益),获取奖励函数rt(即t时隙负的系统总成本与用户用电满意度惩罚项的加权和);
4)、将得到的数据样本(st,at,rt,st+1)存入经验回放池;
5)、设置下一个状态st+1作为当前状态,判断经验回放池是否已存满,若样本数大于K,则转至步骤6),反之跳转至步骤2);
6)、从经验回放池中随机取N个数据样本,计算对应的累计折扣回报J和状态-动作价值函数Q(st,at),通过策略梯度方法更新策略网络和价值网络参数,策略梯度方法是用梯度下降最小化损失函数L以及梯度上升最大化累计折扣回报J,以上神经网络均使用的是Adam优化器。具体的优化步骤如下:
a、计算深度价值网络的损失函数
Figure BDA0003324972270000073
其中yi=ri+γQ′(si+1,μ′(si+1)|θμ′)|θQ′)可以看作训练时的“标签”,i∈[1,N]为样本索引,状态动作价值函数根据贝尔曼等式计算,即
Figure BDA0003324972270000081
利用梯度下降方法最小化损失函数L,并通过反向传播更新深度价值网络参数;
b、计算深度策略网络的累计折扣回报
Figure BDA0003324972270000082
其中τ为系统从t=0到T时隙的训练轨迹,即τ=(s0,a0,s1,a1,…,sT,aT),并利用梯度上升方法最大化累计折扣回报J,并通过反向传播更新深度策略网络参数;
c、通过软更新的方式更新两个target网络的参数。;
7)、重复步骤2)-6)直至到达最大迭代次数,保存两个神经网络的模型参数,至此网络训练部分完成;
8)、在实际决策阶段,下载策略网络模型及参数,给定一个状态输入,输出能够最小化系统总成本的动作,即最优的能量调度决策。
相比于其他能源互联网能量调度优化方法,本发明利用深度强化学习算法中适用于大规模状态输入和连续动作空间的深度确定性策略梯度(DDPG)算法,在不知道状态转移概率的情况下,降低了系统的总成本并兼顾了用户的用电满意度。因此,本发明所提算法可以达到能源互联网系统成本和可再生能源消纳率最优化的目的,具有良好的可行性和有效性。
在每个时隙内,系统接收到当前的可再生能源产量、时变电价、用户用电需求等状态信息后,将其输入到深度策略神经网络,输出连续动作空间下的能量调度决策,进行系统的能量调度,得到当前调度下的系统总成本,并转到下一时隙的状态。对本发明的混合能量调度模型进行仿真性能验证,仿真结果如图3-图7所示。
图3的仿真结果表明,与其他发明采用的算法相比,本发明的DDPG算法能够节省更多的系统总成本;
图4比较了四种算法在不同的断电概率δ下的系统总成本,其中断电概率δ指的是用户能够接受的最大的不被满足的用电需求的比例,仿真结果表明,其中DDPG算法、短视算法、贪婪算法都是随着δ的增大而减少系统成本,这是因为用户能够忍受的断电概率越大,这就表明系统能够根据当前状态更加灵活的调度电力,从而减少购电成本。而保守算法下的系统成本并没有因为δ的增大而下降,毕竟保守算法偏向于在每一时隙都完全满足用户的用电需求;
图5将本发明的混合能量调度模型与其它三个基线模型进行比较,分别是只有氢能调度模型、只有电能调度模型、以及两种存储方式都无的调度模型,结果表明,本发明在节约系统成本方面具有更优的表现;
图6比较了以上四个模型的可再生能源消纳率,可以看出本发明获得了最高的可再生能源消纳率结果,由于基线2模型没有考虑氢能调度模型,即没有电转气设施,因此可能会导致过剩的可再生能源无法被充分利用起来;
图7是比较了成本项中购电成本与售氢收入之间的权重系数ζ不同取值的表现,结果表明,ζ越大,系统更多的关注如何售卖更多的氢气以弥补成本,因此会获得更少的成本,甚至还能为系统带来利润,但这却是以牺牲用户用电满意度为前提的。
综上所述,与其它发明相比,本发明在节约系统运行总成本和提高可再生能源消纳率上具有更加优秀的性能表现,具有较高的可行性和有效性。本发明中奖励函数的设计不仅优化了能源网系统的总成本,还兼顾了能源网内用户的用电满意度。通过将深度神经网络引入强化学习,更加适用于大规模场景下的连续动作空间的策略学习,在未知状态转移概率下实现了对系统成本和可再生能源消纳率的优化,相对其他技术能获得更低的成本和更高的用户满意度,并且提高可再生能源的渗透率。

Claims (10)

1.一种能源互联网混合能量系统,其特征在于,包括可再生能源发电单元,所述可再生能源发电单元分别与用户负载、电转气设备连接,所述用户负载还分别与电转气设备、外部电网连接,所述电转气设备用于将可再生能源发电单元输出的电能转换为氢气,所述用户负载与电转气设备之间连接有燃料电池,所述燃料电池将电转气设备输出的氢气再次转换为电能。
2.根据权利要求1所述的一种能源互联网混合能量系统,其特征在于,所述电转气设备包括依次连接的电解槽和储氢罐,所述电解槽与可再生能源发电单元相连接,所述储氢罐与燃料电池相连接。
3.一种应用于如权利要求1所述能源互联网混合能量系统的调度方法,其特征在于,包括以下步骤:
S1、基于Actor-Critic网络架构,构建深度价值网络和深度策略网络,并初始化网络参数、初始化一个经验回放池、初始化随机噪声用于动作探索;
S2、按照设定的时隙间隔,获取当前时隙的系统状态,并输入给深度策略网络中,输出得到随机噪声干扰下当前时隙的连续能量调度动作;
S3、执行步骤S2输出得到的连续能量调度动作,得到下一个时隙的系统状态,并计算当前时隙的奖励函数;
S4、将当前时隙的系统状态、当前时隙的连续能量调度动作、当前时隙的奖励函数以及下一个时隙的系统状态作为一个样本数据,存入经验回放池;
S5、以下一个时隙的系统状态作为当前时隙的系统状态,返回步骤S2,直至经验回放池存满,则执行步骤S6;
S6、从经验回放池中随机选取N个数据样本,通过计算对应的累计折扣回报和状态-动作价值函数,并基于策略梯度方法,以更新深度策略网络和深度价值网络的网络参数;
S7、重复执行步骤S2~S6,直至达到设定的最大迭代次数,完成对深度策略网络和深度价值网络的迭代训练;
S8、将实际的系统状态输入给步骤S7得到的深度策略网络,输出得到对应的连续能量调度动作策略,并在系统中执行该动作策略,完成对能源互联网混合能量系统的调度。
4.根据权利要求3所述的一种调度方法,其特征在于,所述步骤S1具体包括以下步骤:
S11、基于Actor-Critic网络架构,构建深度价值网络和深度策略网络,其中,深度价值网络和深度策略网络均具有三层隐藏层;
S12、分别初始化深度价值网络和深度策略网络的网络参数,并初始化策略函数;
S13、将深度价值网络和深度策略网络的初始参数复制到对应的两个target网络,并分别设置网络学习率、平衡当前与未来奖励的折扣因子以及软更新系数;
S14、初始化经验回放池的容量,初始化随机噪声用于动作探索。
5.根据权利要求3所述的一种调度方法,其特征在于,所述步骤S2中设定的时隙间隔为15分钟。
6.根据权利要求3所述的一种调度方法,其特征在于,所述系统状态包括可再生能源产量、电价、电池电量、储氢罐存储量、基础用电需求量、灵活用电需求量以及时间指数。
7.根据权利要求3所述的一种调度方法,其特征在于,所述连续能量调度动作包括电池充放电电量、可再生能源对总用电需求的供给量、供给给燃料电池的氢量、用于售卖的氢量以及实际给到灵活用电需求的电量。
8.根据权利要求3所述的一种调度方法,其特征在于,所述当前时隙的奖励函数具体为当前时隙负的系统总成本与用户用电满意度惩罚项的加权和。
9.根据权利要求8所述的一种调度方法,其特征在于,所述系统总成本具体为用电成本减去售卖氢气所得收益。
10.根据权利要求3所述的一种调度方法,其特征在于,所述步骤S6具体包括以下步骤:
S61、计算深度价值网络的损失函数:
Figure FDA0003324972260000021
yi=ri+γQ′(si+1,μ′(si+1)|θμ′)|θQ′)
Figure FDA0003324972260000022
其中,yi为训练时的“标签”,i∈[1,N]为样本索引,Q(si,ai)为状态动作价值函数,si为系统状态,ai为连续能量调度动作,θQ为深度价值网络初始参数,ri为建立函数,γ为平衡当前与未来奖励的折扣因子,μ为初始策略函数,Q′为深度价值网络对应target网络的状态动作价值函数,μ′为深度策略网络对应target网络的策略函数,θμ′为深度策略网络对应target网络的初始参数,θQ′为深度价值网络对应target网络的初始参数;
利用梯度下降方法最小化损失函数L,并通过反向传播更新深度价值网络参数;
S62、计算深度策略网络的累计折扣回报:
Figure FDA0003324972260000031
τ=(s0,a0,s1,a1,…,sT,aT)
其中,τ为系统从t=0到T时隙的训练轨迹,利用梯度上升方法最大化累计折扣回报J,并通过反向传播更新深度策略网络参数;
S63、通过软更新的方式更新两个target网络的参数。
CN202111259032.XA 2021-10-28 2021-10-28 一种能源互联网混合能量系统及其调度方法 Active CN113991654B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111259032.XA CN113991654B (zh) 2021-10-28 2021-10-28 一种能源互联网混合能量系统及其调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111259032.XA CN113991654B (zh) 2021-10-28 2021-10-28 一种能源互联网混合能量系统及其调度方法

Publications (2)

Publication Number Publication Date
CN113991654A true CN113991654A (zh) 2022-01-28
CN113991654B CN113991654B (zh) 2024-01-23

Family

ID=79742953

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111259032.XA Active CN113991654B (zh) 2021-10-28 2021-10-28 一种能源互联网混合能量系统及其调度方法

Country Status (1)

Country Link
CN (1) CN113991654B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109862610A (zh) * 2019-01-08 2019-06-07 华中科技大学 一种基于深度强化学习ddpg算法的d2d用户资源分配方法
CN112099496A (zh) * 2020-09-08 2020-12-18 苏州浪潮智能科技有限公司 一种自动驾驶训练方法、装置、设备及介质
CN112186743A (zh) * 2020-09-16 2021-01-05 北京交通大学 一种基于深度强化学习的动态电力系统经济调度方法
CN113095715A (zh) * 2021-04-29 2021-07-09 福州大学 基于深度强化学习的含氢储能微网优化运行方法
CN113553770A (zh) * 2021-07-28 2021-10-26 国网江苏省电力有限公司常州供电分公司 一种基于主从博弈的电氢综合能源系统优化运行方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109862610A (zh) * 2019-01-08 2019-06-07 华中科技大学 一种基于深度强化学习ddpg算法的d2d用户资源分配方法
CN112099496A (zh) * 2020-09-08 2020-12-18 苏州浪潮智能科技有限公司 一种自动驾驶训练方法、装置、设备及介质
CN112186743A (zh) * 2020-09-16 2021-01-05 北京交通大学 一种基于深度强化学习的动态电力系统经济调度方法
CN113095715A (zh) * 2021-04-29 2021-07-09 福州大学 基于深度强化学习的含氢储能微网优化运行方法
CN113553770A (zh) * 2021-07-28 2021-10-26 国网江苏省电力有限公司常州供电分公司 一种基于主从博弈的电氢综合能源系统优化运行方法

Also Published As

Publication number Publication date
CN113991654B (zh) 2024-01-23

Similar Documents

Publication Publication Date Title
CN111030188B (zh) 一种含分布式和储能的分层分级控制策略
CN112713618B (zh) 基于多场景技术的主动配电网源网荷储协同优化运行方法
CN106602557B (zh) 一种含电动汽车的主动配电网多时段优化重构方法
CN105071389B (zh) 计及源网荷互动的交直流混合微电网优化运行方法及装置
CN113393172B (zh) 一种考虑配电网多设备时序运行的“源网储”规划方法
CN113326467B (zh) 基于多重不确定性的多站融合综合能源系统多目标优化方法、存储介质及优化系统
CN112651634A (zh) 基于序列运算的有源配电系统源网荷储日前有功调度方法
CN116667325B (zh) 一种基于改进布谷鸟算法的微电网并网运行优化调度方法
CN114243791A (zh) 风光氢蓄系统的多目标优化配置方法、系统及存储介质
CN112202206A (zh) 一种基于势博弈的多能源微网分布式调度方法
CN115115130A (zh) 一种基于模拟退火算法的风光储制氢系统日前调度方法
CN115496273A (zh) 一种可再生能源集群分布鲁棒优化配置方法及系统
CN108512238A (zh) 基于需求侧响应的智能家居两阶段优化调度方法
CN114462854A (zh) 含新能源和电动汽车并网的分层调度方法及其系统
Pan et al. Dual‐Layer Optimal Dispatching Strategy for Microgrid Energy Management Systems considering Demand Response
CN113052498A (zh) 基于综合能源系统的电转气两阶段转化装置调度方法
CN111967646A (zh) 一种虚拟电厂可再生能源优化配置方法
CN113488990B (zh) 基于改进的蝙蝠算法的微电网优化调度方法
CN116061742B (zh) 一种分时电价光伏园区内电动汽车的充电控制方法和系统
CN113991654A (zh) 一种能源互联网混合能量系统及其调度方法
CN115841216A (zh) 计及分布式光伏消纳率的配电网储能优化配置方法
CN113011718A (zh) 基于和声搜索算法的配电网有功-无功联合优化调度方法
Zhang et al. Optimization of Microgrid Hybrid Energy Storage System Operation Based on tGRIME Algorithm
CN117791673A (zh) 一种用户侧储能运行优化方法
CN115935636A (zh) 一种配电网多元新能源接入量配置优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant