CN113991654B

CN113991654B - 一种能源互联网混合能量系统及其调度方法

Info

Publication number: CN113991654B
Application number: CN202111259032.XA
Authority: CN
Inventors: 张光林; 陈茗
Original assignee: Donghua University
Current assignee: Donghua University
Priority date: 2021-10-28
Filing date: 2021-10-28
Publication date: 2024-01-23
Anticipated expiration: 2041-10-28
Also published as: CN113991654A

Abstract

本发明涉及一种能源互联网混合能量系统及其调度方法，该系统包括可再生能源发电单元，可再生能源发电单元分别与用户负载、电转气设备连接，用户负载还分别与电转气设备、外部电网连接，电转气设备用于将可再生能源发电单元输出的电能转换为氢气，用户负载与电转气设备之间连接有燃料电池，燃料电池将电转气设备输出的氢气再次转换为电能。与现有技术相比，本发明根据当前状态选择连续充放电能量调度动作决策，并采用适用于大规模连续动作空间的深度确定性策略梯度算法(DDPG)进行训练，同时将深度强化学习应用于能源互联网混合能量调度控制，以制定优化能量调度策略，能够有效降低能源互联网的运行总成本、提高可再生能源的消纳率。

Description

一种能源互联网混合能量系统及其调度方法

技术领域

本发明涉及能源互联网能量管理与调度技术领域，尤其是涉及一种能源互联网混合能量系统及其调度方法。

背景技术

迄今为止，传统化石能源的消耗和电力需求飞速增长导致了世界上大面积的能源短缺和停电事故。预计到2050年，电能在总能源的使用比例将从目前的20％增长到50％。可再生能源作为一种清洁环保的能源，被认为是解决能源短缺和电力需求快速增长，降低能源互联网系统成本的有效替代品之一。“能源互联网”在2011年《第三次工业革命》著作中首次被提出，被喻为“基于可再生能源的、分布式、开放共享的网络”。作为集中式电网的有力补充，包含分布式可再生能源的能源互联网，既可以通过公共接入点接入外部电网支撑配电网的稳定运行，也可以组成离网型多能源互联网系统独立运作，目前已在世界范围内快速发展。

但由于可再生能源发电和用户的用电需求在时间上缺乏同步性，而且可再生能源大规模并网会对能源互联网的稳定性造成一定的冲击，导致可再生能源的消纳率十分低下，大多数情况被丢弃，变成所谓的“垃圾电”，最终导致系统运行成本过高，不利于能源互联网的持续可靠发展。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种能源互联网混合能量系统及其调度方法，以提高系统中可再生能源消纳率、降低系统运行成本。

本发明的目的可以通过以下技术方案来实现：一种能源互联网混合能量系统，包括可再生能源发电单元，所述可再生能源发电单元分别与用户负载、电转气设备连接，所述用户负载还分别与电转气设备、外部电网连接，所述电转气设备用于将可再生能源发电单元输出的电能转换为氢气，所述用户负载与电转气设备之间连接有燃料电池，所述燃料电池将电转气设备输出的氢气再次转换为电能。

进一步地，所述电转气设备包括依次连接的电解槽和储氢罐，所述电解槽与可再生能源发电单元相连接，所述储氢罐与燃料电池相连接。

一种能源互联网混合能量系统调度方法，包括以下步骤：

S1、基于Actor-Critic网络架构，构建深度价值网络和深度策略网络，并初始化网络参数、初始化一个经验回放池、初始化随机噪声用于动作探索；

S2、按照设定的时隙间隔，获取当前时隙的系统状态，并输入给深度策略网络中，输出得到随机噪声干扰下当前时隙的连续能量调度动作；

S3、执行步骤S2输出得到的连续能量调度动作，得到下一个时隙的系统状态，并计算当前时隙的奖励函数；

S4、将当前时隙的系统状态、当前时隙的连续能量调度动作、当前时隙的奖励函数以及下一个时隙的系统状态作为一个样本数据，存入经验回放池；

S5、以下一个时隙的系统状态作为当前时隙的系统状态，返回步骤S2，直至经验回放池存满，则执行步骤S6；

S6、从经验回放池中随机选取N个数据样本，通过计算对应的累计折扣回报和状态-动作价值函数，并基于策略梯度方法，以更新深度策略网络和深度价值网络的网络参数；

S7、重复执行步骤S2～S6，直至达到设定的最大迭代次数，完成对深度策略网络和深度价值网络的迭代训练；

S8、将实际的系统状态输入给步骤S7得到的深度策略网络，输出得到对应的连续能量调度动作策略，并在系统中执行该动作策略，完成对能源互联网混合能量系统的调度。

进一步地，所述步骤S1具体包括以下步骤：

S11、基于Actor-Critic网络架构，构建深度价值网络和深度策略网络，其中，深度价值网络和深度策略网络均具有三层隐藏层；

S12、分别初始化深度价值网络和深度策略网络的网络参数，并初始化策略函数；

S13、将深度价值网络和深度策略网络的初始参数复制到对应的两个target网络，并分别设置网络学习率、平衡当前与未来奖励的折扣因子以及软更新系数；

S14、初始化经验回放池的容量，初始化随机噪声用于动作探索。

进一步地，所述步骤S2中设定的时隙间隔为15分钟。

进一步地，所述系统状态包括可再生能源产量、电价、电池电量、储氢罐存储量、基础用电需求量、灵活用电需求量以及时间指数。

进一步地，所述连续能量调度动作包括电池充放电电量、可再生能源对总用电需求的供给量、供给给燃料电池的氢量、用于售卖的氢量以及实际给到灵活用电需求的电量。

进一步地，所述当前时隙的奖励函数具体为当前时隙负的系统总成本与用户用电满意度惩罚项的加权和。

进一步地，所述系统总成本具体为用电成本减去售卖氢气所得收益。

进一步地，所述步骤S6具体包括以下步骤：

S61、计算深度价值网络的损失函数：

y_i＝r_i+γQ′(s_i+1,μ′(s_i+1)|θ^μ′)|θ^Q′)

其中，y_i为训练时的“标签”，i∈[1,N]为样本索引，Q(s_i,a_i)为状态动作价值函数，s_i为系统状态，a_i为连续能量调度动作，θ^Q为深度价值网络初始参数，r_i为建立函数，γ为平衡当前与未来奖励的折扣因子，μ为初始策略函数，Q′为深度价值网络对应target网络的状态动作价值函数，μ′为深度策略网络对应target网络的策略函数，θ^μ′为深度策略网络对应target网络的初始参数，θ^Q′为深度价值网络对应target网络的初始参数；

利用梯度下降方法最小化损失函数L，并通过反向传播更新深度价值网络参数；

S62、计算深度策略网络的累计折扣回报：

τ＝(s₀,a₀,s₁,a₁,…,s_T,a_T)

其中，τ为系统从t＝0到T时隙的训练轨迹，利用梯度上升方法最大化累计折扣回报J，并通过反向传播更新深度策略网络参数；

S63、通过软更新的方式更新两个target网络的参数。

与现有技术相比，本发明具有以下优点：

一、本发明在能源互联网内引入电转气设备，并结合燃料电池，以实现可靠储能，不仅能将可再生能源输出的过剩电力转换为氢气形式进行存储利用，通知还能再次将氢气转换为电能进行存储利用，由此能够有效提高能源互联网系统中可再生能源的消纳率和渗透率。

二、本发明通过构建深度价值网络和深度策略网络，结合强化学习方式，基于target网络进行软更新，以保证网络模型训练可靠性，更加适用于大规模场景下的连续动作空间的策略学习，在未知状态转移概率下实现了对系统成本和可再生能源消纳率的优化；本发明通过设计奖励函数，以保证系统总成本最优，同时能够兼顾用户用电满意度，使得输出的动作策略能够实现最优能量调度。

附图说明

图1为本发明的系统结构示意图；

图2为本发明的方法流程示意图；

图3为本发明方法与传统基准算法的累计平均总成本的对比图；

图4是本发明方法与传统基准算法在不同的断电概率δ下得到的系统总成本对比图；

图5是本发明所提的能源网混合能量调度系统模型与传统基线模型的累计平均总成本的对比图；

图6为本发明所提的能源网混合能量调度系统模型与传统基线模型的可再生能源消纳率对比图；

图7是本发明方法在不同的权重系数ζ下的累计平均总成本对比图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例

如图1所示，能源互联网混合能量系统，包括可再生能源发电单元，可再生能源发电单元分别与用户负载、电转气设备连接，用户负载还分别与电转气设备、外部电网连接，电转气设备用于将可再生能源发电单元输出的电能转换为氢气，用户负载与电转气设备之间连接有燃料电池，燃料电池将电转气设备输出的氢气再次转换为电能。

其中，电转气设备包括依次连接的电解槽和储氢罐，电解槽与可再生能源发电单元相连接，储氢罐与燃料电池相连接。

针对上述能源互联网混合能量系统，为优化系统总成本以及可再生能源消纳率，本发明还提出一种能源互联网混合能量系统调度方法，如图2所示，包括以下步骤：

S1、基于Actor-Critic网络架构，构建深度价值网络和深度策略网络，深度价值网络和深度策略网络均具有三层隐藏层，分别初始化深度价值网络和深度策略网络的网络参数，并初始化策略函数；

将深度价值网络和深度策略网络的初始参数复制到对应的两个target网络，并分别设置网络学习率、平衡当前与未来奖励的折扣因子以及软更新系数；

初始化经验回放池的容量，初始化随机噪声用于动作探索；

S2、按照设定的时隙间隔(本实施例中设定时隙间隔为15分钟)，获取当前时隙的系统状态(包括可再生能源产量、电价、电池电量、储氢罐存储量、基础用电需求量、灵活用电需求量以及时间指数)，并输入给深度策略网络中，输出得到随机噪声干扰下当前时隙的连续能量调度动作(包括电池充放电电量、可再生能源对总用电需求的供给量、供给给燃料电池的氢量、用于售卖的氢量以及实际给到灵活用电需求的电量)；

S3、执行步骤S2输出得到的连续能量调度动作，得到下一个时隙的系统状态，并计算当前时隙的奖励函数，其中，当前时隙的奖励函数具体为当前时隙负的系统总成本与用户用电满意度惩罚项的加权和，系统总成本具体为用电成本减去售卖氢气所得收益；

S6、从经验回放池中随机选取N个数据样本，通过计算对应的累计折扣回报和状态-动作价值函数，并基于策略梯度方法，以更新深度策略网络和深度价值网络的网络参数，具体的：

S61、计算深度价值网络的损失函数：

y_i＝r_i+γQ′(s_i+1,μ′(s_i+1)|θ^μ′)|θ^Q′)

S62、计算深度策略网络的累计折扣回报：

τ＝(s₀,a₀,s₁,a₁,…,s_T,a_T)

S63、通过软更新的方式更新两个target网络的参数；

本发明提出的能源互联网混合能量系统，配备有可再生能源、电池储能系统、用电负载、电转气设备，其中电转气设备由一个电解槽、氢存储罐以及燃料电池组成。电解槽可以将电制成氢气存储，燃料电池可以将氢气再次转化成电使用，氢存储罐作为一个中间环节，存储的氢气也可以售出获取利润。系统的总成本主要由向外部电网购电的成本减去售卖氢气的利润组成，该系统需要根据当前的可再生能源产量、时变电价、用户用电需求等高度随机的状态，通过在线学习算法，合理的调度系统内电能和氢能，从而在满足用户需求的同时减少系统运行总成本，并且有效提高可再生能源消纳率和渗透率，减少资源浪费。

本实施例应用上述能源互联网混合能量系统的调度方法，主要包括以下过程：

1)、初始化系统参数，设置每个时隙为15mins，基于Actor-Critic网络架构，设置具有三层隐藏层的深度价值网络(critic network)和深度策略网络(actor network)，并初始化两个神经网络的参数记为θ^Q和θ^μ，初始化策略函数μ；将以上两个网络的模型和初始参数复制到对应的两个target网络，用于软更新；设置网络学习率分别为α_c＝10^-4和α_a＝10^-5，平衡当前与未来奖励的折扣因子γ＝0.75，软更新系数τ＝0.01；初始化一个K大小的经验回放池，初始化随机噪声用于动作探索；

两个target网络的结构及初始参数，对应与深度价值网络和深度策略网络是一致的，后续会加上“′”符号代表target网络参数进行区分，target网络通过软更新的形式更新网络参数，后面用于在训练过程中计算深度价值网络和深度策略网络的梯度，使得训练较稳定，易于收敛。

2)、观察当前时隙的系统状态从左至右分别表示当前时隙的可再生能源产量、电价、电池电量、氢储罐存储量、基础用电需求量、灵活用电需求量以及时间指数，其中时间指数指的是当前时隙属于当天的第几个时隙。将状态s_t输入到深度策略网络中，输出随机噪声干扰下的连续能量调度动作/>从左至右分别表示当前时隙的能量调度策略，即电池充放电电量、可再生能源对总用电需求的供给量、供给给燃料电池的氢量、用于售卖的氢量以及实际给到灵活用电需求的电量。

3)、执行当前动作a_t，到达下一个状态s_t+1，计算当前系统总成本(即系统的用电成本减去售卖氢气所得收益)，获取奖励函数r_t(即t时隙负的系统总成本与用户用电满意度惩罚项的加权和)；

4)、将得到的数据样本(s_t,a_t,r_t,s_t+1)存入经验回放池；

5)、设置下一个状态s_t+1作为当前状态，判断经验回放池是否已存满，若样本数大于K，则转至步骤6)，反之跳转至步骤2)；

6)、从经验回放池中随机取N个数据样本，计算对应的累计折扣回报J和状态-动作价值函数Q(s_t,a_t)，通过策略梯度方法更新策略网络和价值网络参数，策略梯度方法是用梯度下降最小化损失函数L以及梯度上升最大化累计折扣回报J，以上神经网络均使用的是Adam优化器。具体的优化步骤如下：

a、计算深度价值网络的损失函数其中y_i＝r_i+γQ′(s_i+1,μ′(s_i+1)|θ^μ′)|θ^Q′)可以看作训练时的“标签”，i∈[1,N]为样本索引，状态动作价值函数根据贝尔曼等式计算，即/>利用梯度下降方法最小化损失函数L，并通过反向传播更新深度价值网络参数；

b、计算深度策略网络的累计折扣回报其中τ为系统从t＝0到T时隙的训练轨迹，即τ＝(s₀,a₀,s₁,a₁,…,s_T,a_T)，并利用梯度上升方法最大化累计折扣回报J，并通过反向传播更新深度策略网络参数；

c、通过软更新的方式更新两个target网络的参数。；

7)、重复步骤2)-6)直至到达最大迭代次数，保存两个神经网络的模型参数，至此网络训练部分完成；

8)、在实际决策阶段，下载策略网络模型及参数，给定一个状态输入，输出能够最小化系统总成本的动作，即最优的能量调度决策。

相比于其他能源互联网能量调度优化方法，本发明利用深度强化学习算法中适用于大规模状态输入和连续动作空间的深度确定性策略梯度(DDPG)算法，在不知道状态转移概率的情况下，降低了系统的总成本并兼顾了用户的用电满意度。因此，本发明所提算法可以达到能源互联网系统成本和可再生能源消纳率最优化的目的，具有良好的可行性和有效性。

在每个时隙内，系统接收到当前的可再生能源产量、时变电价、用户用电需求等状态信息后，将其输入到深度策略神经网络，输出连续动作空间下的能量调度决策，进行系统的能量调度，得到当前调度下的系统总成本，并转到下一时隙的状态。对本发明的混合能量调度模型进行仿真性能验证，仿真结果如图3-图7所示。

图3的仿真结果表明，与其他发明采用的算法相比，本发明的DDPG算法能够节省更多的系统总成本；

图4比较了四种算法在不同的断电概率δ下的系统总成本，其中断电概率δ指的是用户能够接受的最大的不被满足的用电需求的比例，仿真结果表明，其中DDPG算法、短视算法、贪婪算法都是随着δ的增大而减少系统成本，这是因为用户能够忍受的断电概率越大，这就表明系统能够根据当前状态更加灵活的调度电力，从而减少购电成本。而保守算法下的系统成本并没有因为δ的增大而下降，毕竟保守算法偏向于在每一时隙都完全满足用户的用电需求；

图5将本发明的混合能量调度模型与其它三个基线模型进行比较，分别是只有氢能调度模型、只有电能调度模型、以及两种存储方式都无的调度模型，结果表明，本发明在节约系统成本方面具有更优的表现；

图6比较了以上四个模型的可再生能源消纳率，可以看出本发明获得了最高的可再生能源消纳率结果，由于基线2模型没有考虑氢能调度模型，即没有电转气设施，因此可能会导致过剩的可再生能源无法被充分利用起来；

图7是比较了成本项中购电成本与售氢收入之间的权重系数ζ不同取值的表现，结果表明，ζ越大，系统更多的关注如何售卖更多的氢气以弥补成本，因此会获得更少的成本，甚至还能为系统带来利润，但这却是以牺牲用户用电满意度为前提的。

综上所述，与其它发明相比，本发明在节约系统运行总成本和提高可再生能源消纳率上具有更加优秀的性能表现，具有较高的可行性和有效性。本发明中奖励函数的设计不仅优化了能源网系统的总成本，还兼顾了能源网内用户的用电满意度。通过将深度神经网络引入强化学习，更加适用于大规模场景下的连续动作空间的策略学习，在未知状态转移概率下实现了对系统成本和可再生能源消纳率的优化，相对其他技术能获得更低的成本和更高的用户满意度，并且提高可再生能源的渗透率。

Claims

1.一种调度方法，应用于一种能源互联网混合能量系统，其特征在于，该系统包括可再生能源发电单元，所述可再生能源发电单元分别与用户负载、电转气设备连接，所述用户负载还分别与电转气设备、外部电网连接，所述电转气设备用于将可再生能源发电单元输出的电能转换为氢气，所述用户负载与电转气设备之间连接有燃料电池，所述燃料电池将电转气设备输出的氢气再次转换为电能；

该调度方法包括以下步骤：

其中，所述系统状态包括可再生能源产量、电价、电池电量、储氢罐存储量、基础用电需求量、灵活用电需求量以及时间指数；

所述连续能量调度动作包括电池充放电电量、可再生能源对总用电需求的供给量、供给给燃料电池的氢量、用于售卖的氢量以及实际给到灵活用电需求的电量；

所述当前时隙的奖励函数具体为当前时隙负的系统总成本与用户用电满意度惩罚项的加权和；

2.根据权利要求1所述的一种调度方法，其特征在于，所述电转气设备包括依次连接的电解槽和储氢罐，所述电解槽与可再生能源发电单元相连接，所述储氢罐与燃料电池相连接。

3.根据权利要求1所述的一种调度方法，其特征在于，所述步骤S1具体包括以下步骤：

4.根据权利要求1所述的一种调度方法，其特征在于，所述步骤S2中设定的时隙间隔为15分钟。

5.根据权利要求1所述的一种调度方法，其特征在于，所述系统总成本具体为用电成本减去售卖氢气所得收益。

6.根据权利要求1所述的一种调度方法，其特征在于，所述步骤S6具体包括以下步骤：

S61、计算深度价值网络的损失函数：

y_i＝r_i+γQ'(s_i+1，μ'(s_i+1)|[θ^μ′)|θ^Q')

S62、计算深度策略网络的累计折扣回报：

τ＝(s₀，a₀，s₁，a₁，…，s_T，a_T)

S63、通过软更新的方式更新两个target网络的参数。