CN114462696A

CN114462696A - 基于td3的综合能源系统源荷协同运行优化方法

Info

Publication number: CN114462696A
Application number: CN202210102710.XA
Authority: CN
Inventors: 唐昊; 李世彦; 吕凯; 方道宏
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2022-01-27
Filing date: 2022-01-27
Publication date: 2022-05-10

Abstract

本发明公开了一种基于TD3的综合能源系统源荷协同运行优化方法，考虑了多类型负荷和可再生能源在内的源荷双侧随机因素，并根据综合能源系统的多能耦合特性，提出了协同能量运行优化，构建系统运行经济性为优化目标的能量管理系统运行优化模型，通过TD3算法优化求解综合能源系统的能量管理运行策略；结合系统对当前状态的感知与策略网络可以映射出当前最优动作。本发明中的TD3算法将强化学习成功引入连续动作空间，避免了动作空间自由度成指数增长的问题。结合TD3算法的综合能源系统运行优化方法具有优化性能好、学习效率高的优点。

Description

基于TD3的综合能源系统源荷协同运行优化方法

技术领域

本发明属于区域综合能源系统运行技术领域，具体的说是一种基于TD3的综合能源系统源荷协同运行优化方法。

背景技术

冷热电联供综合能源系统作为一种新型的功能模式，可以实现大规模可再生能源的利用、冷热电等异质能的互补，并且作为一种弹性资源，可以给电网提供足够的调峰裕度，其中综合能源系统协调运行和优化控制是实现上述目标的关键技术。

现有的关于协调运行和优化控制的研究，其中也有采用传统强化学习算法的研究，但相比于单一能源系统，综合能源系统包含多种能量动态特性和互补关系，在系统结构和运行约束上比单一能源系统更复杂，其体现在传统强化学习中，具有更高维度的状态和行动，传统强化学习算法将面临“维数灾”问题；此外，现有的综合能源系统研究很少有将综合能源系统作为一种可参与电网调峰的弹性资源而考虑，对其用能行为缺乏引导。

发明内容

针对现有技术中存在的不足之处，本发明提出一种基于TD3的综合能源系统运行优化方法。利用连续的输入和输出，避免了随着行动维数的增加，神经网络的维数成指数增长，计算复杂度过高的问题，完全规避了传统强化学习“维数灾”问题，极大提升了学习优化的速度。此外，本发明通过挖掘某一区域的综合能源系统源荷协同关系，给出了可再生能源和多类型负荷的随机动态变化过程，构建了并网型区域综合能源系统动态运行模型，利用TD3算法可以极大的降低求解优化问题的复杂度，得到最优运行模型。

为实现上述目的，本发明采用如下技术方案：

基于TD3的综合能源系统源荷协同运行优化方法，所述综合能源系统包括燃气轮机组，光伏，电储能设备，热储能设备，余热回收装置，燃气锅炉，吸收式制冷机，空调设备，电、热、冷负荷需求，所述优化方法包括如下步骤，

步骤S1、获取能源系统内光伏、电网、燃气轮机组、余热回收装置、燃气锅炉的输出功率，冷负荷、热负荷、电负荷的需求功率，电储能设备和热储能设备的状态及充放电功率，吸收式制冷机、空调设备的电制冷和热制冷功率；

步骤S2、构建可用TD3算法优化的综合能源系统协同运行框架，其框架包含多个Actor网络和Critic网络、状态变量、行动变量和优化目标；并通过Actor网络与综合能源系统仿真环境交互获得学习样本；其中综合能源系统仿真环境由步骤S1所述各个设备与负荷需求功率所构成，且将其设备和负荷需求功率等状态信息归一化为状态变量，输入到Actor网络得到行动a并在仿真环境中执行得到样本；

步骤S3、按照TD3算法更新Actor网络和Critic网络。

本技术方案进一步的优化，所述步骤S1具体包括：

步骤S1.1、针对并网型综合能源系统仿真建模，假设在运行日内任意时刻t下光伏出力功率预测值为

电网供电功率为

机组出力为

冷、热、电负荷需求功率预测值分别为

步骤S1.2、将区域中光伏发电出力实际值

在t时刻相对于预测值

的出力偏差功率的随机波动设为

则区域综合能源系统在t时刻光伏出力为：

步骤S1.3、将区域中t时刻冷负荷需求实际功率

相对于预测值

的偏差功率的随机波动设为

区域综合能源系统在t时刻冷负荷需求实际功率为：

步骤S1.4、将区域中t时刻热负荷需求实际功率

相对于预测值

的偏差功率的随机波动设为

区域综合能源系统在t时刻热负荷需求实际功率为：

步骤S1.5、将区域中t时刻电负荷需求实际功率

相对于预测值

的偏差功率的随机波动设为

区域综合能源系统在t时刻电负荷需求实际功率为：

步骤S1.6、确定区域中每台燃气轮机机组在t时刻的机组输出功率为

其中燃气轮机机组的出力约束设为：

定义燃气轮机机组的爬坡约束为：

其含义是在Δt时间段内发电机组的向上爬坡功率不能超过

向下爬坡功率不能超过

步骤S1.7、配置包含燃气轮机机组等供能设备时，考率综合能源系统的热负荷需求，配置余热回收装置和燃气锅炉以输出热功率，其中余热回收装置回收燃气轮机运行过程产生的废热，定义废热回收效率为η_gt，H，废热回收功率设置为：

燃气锅炉通过消耗天然气提供功率，其在t时刻产生的热功率为

步骤S1.8、确定区域中电储能设备在t时刻的荷电状态为

热储能状态按电储能的荷电状态形式定义

其含义是电、热能占剩余容量比；

步骤S1.9、确定区域中电、热储能设备在t时刻的实时充放功率为

正放负充；其中充放功率约束设为：

其中

分别为电储能的最小放电功率、最大放电功率、最小充电功率和最大充电功率；同理，

分别为热储能的最小放热功率、最大放热功率、最小充热功率和最大充热功率；

步骤S1.10、系统中的制冷设备包含空调设备、吸收式制冷机，分别用电能、热能驱动供冷，设定

分别为电制冷、热制冷功率，

和

表示电制冷和热制冷的效率，

表示用来制冷的电功率、热功率。

本技术方案更进一步的优化，针对综合能源系统，设置冷热电三种平衡约束，其中冷负荷平衡约束如下：

热负荷平衡约束如下：

电负荷平衡约束如下：

本技术方案进一步的优化，所述步骤S2中TD算法架构中包含多个Actor网络和Critic网络、状态变量、行动变量和优化目标。

本技术方案更进一步的优化，所述步骤S2状态变量构建如下：

确定t时刻光伏波动范围

并将当前时刻光伏出力波动

归一化处理为t时刻光伏波动等级:

同理可建立冷、热、电偏差功率建立为随机状态变量：

确定第n台机组的容量

并将t时刻第n台机组的出力归一化为其状态等级：

加上电、热储能容量

构成决策周期t时刻的状态向量：

本技术方案更进一步的优化，所述S2具体步骤如下，

步骤S2.1、初始化Actor网络参数θ^μ和两个Critic网络参数

θ^Q2，并将Actor网络参数和Critic网络参数复制到目标网络，将其作为智能体的架构；

步骤S2.2、初始化经验回放池R，初始化当前学习步数m＝0；

步骤S2.3、初始化综合能源系统模型参数及学习参数，将其作为环境；

步骤S2.4、初始化当前决策周期t＝0，和系统的总周期T＝23，其中每个决策时段为1小时，设定系统的总周期为一幕；

步骤S2.5、考虑到综合能源系统能源的不确定性和负荷的随机性，随机初始化当前时刻状态不确定部分

其中，分别为t时刻光伏波动等级、冷负荷偏差功率、热负荷偏差功率、电负荷偏差功率；

步骤S2.6、智能体和环境进行交互，以感知当前时刻综合能源系统状态s^t，并将其输入到现实Actor网络从而得到当前时刻的行动集a^t＝μ(s^t|θ^μ)，其中a^t包含了综合能源系统当前可调动作

动作分别为调整空调出力和吸收式制冷机出力比例，调整各台燃气轮机出力等级，调整电、热储能充放功率等级；

步骤S2.7、对环境施加当前时刻的行动向量a^t,并返回当前时刻的代价c^t和下一时刻的状态s^t+1，从而得到一个四元组<s^t，a^t，c^t，s^t+1>，将此四元组作为学习样本放入经验回放池R中；

步骤S2.8、令t＝t+1；若t小于决策周期总数T，返回步骤S2.6；否则令t＝0。

本技术方案更进一步的优化，所述步骤S2.6确定可调动作变量：

步骤S2.6.1、将负荷中的电热制冷转换配比作为决策变量，其行动等级为

是一个连续的区间，其含义是电制冷功率占总制冷功率的配比，相反则是热制冷功率在总功率的配比，电制冷功率

和热制冷功率

受行动等级控制出力公式如下：

步骤S2.6.2、设定电、热储能行动等级

其含义是决策周期t时刻在储能出力约束下的出力等级,t时刻电储能、热储能出力受行动等级

控制公式如下所示：

步骤S2.6.3、设定每台燃气轮机机组出力调整行动等级为

则t到t+1时间段内机组出力受行动等级

调整变化公式为：

步骤S2.6.4、上述动作变量构成一组可调动作向量：

定义能量管理系统策略π为状态向量-动作向量映射，即对于任意状态向量s^t，都可根据π选择动作向量a^t控制综合能源系统运行，在TD3算法框架中策略π为actor网络拟合而成，即状态向量输入到actor网络得到动作向量。

本技术方案更进一步的优化，所述步骤S2中TD算法的优化目标：

在决策周期t内，系统的运行代价可定义为式(24)：

c(s^t，a^t)＝c_gt(s^t，a^t)+c_gb(s^t，a^t)+ces(s^t，a^t)+chs(s^t，a^t)+c_tl(s^t，a^t) (24)

其中c_gt(s^t，a^t)表示燃气轮机机组运行代价，c_gb(s^t，a^t)表示燃气锅炉的运行代价，c_es(s^t，a^t)、c_hs(s^t，a^t)表示电、热储能充放损耗代价，c_tl(s^t，a^t)表示向配电网购售电代价；由此可将综合能源系统运行优化问题描述为有限时间尺度内的动态规划问题，并定义一天的日运行代价为：

因此可将综合能源系统运行构造成一组优化问题，优化现实actor网络参数，使其输出动作可使一天的日运行代价最小，即：

本技术方案更进一步的优化，采用TD3算法更新Actor网络和Critic网络，

步骤13.1、计算现实Critic网络的梯度：

两个现实Critic网络值函数定义为

其含义是<s^t，a^t>二元组输入到神经网络后的输出值，<s^t，a^t>从经验回放池中采样所得，并将损失函数定义如下：

其含义是从经验回放池随机采样<s^t，a^t，c^t，s^t+1>作为样本输入到上式，损失函数可以看作这些样本经过计算后的均方误差，N是从经验回放池随机采样的样本数量，y_t可以看作标签，其计算方式如下：

y_t＝min(y_t1，y_t2) (31)

和

是两个目标Critic网络的参数，θ^μ′是目标Actor网络的参数，Q′₁、Q′₂和μ′是网络的输出，ε是添加在动作上的随机噪声，目的是使得Critic值函数的估计具有鲁棒性；使用双目标Critic网络和目标Actor网络输出较小的一个作为标签，可以避免Critic值函数被高估，减小更新过程中误差的积累，使得现实Critic网络参数的学习过程更加稳定，易于收敛；之后使用反向传播算法即可计算出现实Critic网络梯度；

步骤13.2、基于现实Critic网络梯度并采用Adam optimizer优化方法更新两个现实Critic网络参数

步骤13.3、计算现实Actor网络的策略梯度：

现实Actor网络参数的学习方法基于一种性能度量J(θ^μ)的梯度，这些梯度是标量J(θ^μ)对现实Actor网络参数的梯度，其计算方法如下：

其中ρ^β代表状态s^t分布函数，s^t～ρ^β则代表在一个决策周期t内的状态s^t根据ρ^β分布，也即

是在s^t根据ρ^β的分布时，现实Critic网络输出梯度的期望值，并使用蒙特卡洛来估算这个期望值：

在经验回放池中存储的学习样本<s^t，a^t，c^t，s^t+1>是基于现实Actor网络的输出a^t＝μ(s^t|θ^μ)和决策时刻的状态s^t产生的，其分布函数为ρ^β，从经验回放池里随机采样获取N个学习样本；

根据蒙特卡洛方法，将随机采样的N个学习样本代入上述的梯度计算公式，可以作为对上述期望值的一个无偏估计，策略梯度可以定义为：

步骤13.4、根据策略梯度并采用Adam optimizer优化方法更新现实Actor网络参数θ^μ；

步骤13.5、采用滑动平均值方法更新目标Actor网络参数和目标Critic网络参数：

θ^μ'＝τθ^μ+(1-τ)θ^μ' (36)

采用滑动平均值方法更新目标网络参数时，目标网络参数变化小，用于训练过程中计算现实Critic网络梯度比较稳定，易于收敛；

步骤13.6、令m＝m+1；若m小于总的学习步数M，更新学习率，返回步骤S2.4；否则结束程序。

区别于现有技术，上述技术方案具有如下有益效果：

本发明构建利用不同类型的能源以及负荷的综合能源系统协同运行框架，体现了能量管理系统实现能量阶梯、高效利用的特点；TD3算法的引用成功的将传统强化学习下离散动作空间转入连续动作空间，进一步提高了动作精度和优化效率。

附图说明

图1为综合能源系统架构示意图；

图2为基于TD3的综合能源系统运行优化方法的流程图。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

请参阅图1所示，为综合能源系统架构示意图，综合能源系统包括各区域内部的燃气轮机，光伏机组，电储能，热储能，余热回收装置，燃气锅炉，吸收式制冷机，空调设备，电、热、冷三种负荷需求；运行机构在决策时刻通过检测与通信设备获取综合能源系统各单元出力情况与功率需求，并根据综合能源系统运行学习优化方法所得的策略选择最优行动来调整燃气轮机出力功率、调整吸收式制冷剂和空调设备满足冷负荷的出力占比以及热储能、电储能的充放行为，提高综合能源系统运行经济性。

参见图2所示，为基于TD3的综合能源系统运行优化方法的流程图，本实施例中综合能源系统运行学习优化方法，该方法按如下步骤进行：

步骤1、针对并网型综合能源系统仿真建模，假设在运行日内任意时刻t下光伏出力功率预测值为

与电网交互功率为

机组出力为

冷热电负荷需求功率预测值分别为

步骤2、将区域中光伏发电出力实际值

在t时刻相对于预测值

的出力偏差功率的随机波动设为

则区域综合能源系统在t时刻光伏出力为：

步骤3、将区域中t时刻冷负荷需求实际功率

相对于预测值

的偏差功率的随机波动设为

区域综合能源系统在t时刻冷负荷需求实际功率为：

步骤4、将区域中t时刻热负荷需求实际功率

相对于预测值

的偏差功率的随机波动设为

区域综合能源系统在t时刻热负荷需求实际功率为：

步骤5、将区域中t时刻电负荷需求实际功率

相对于预测值

的偏差功率的随机波动设为

区域综合能源系统在t时刻电负荷需求实际功率为：

步骤6、确定区域中每台燃气轮机机组在t时刻的机组输出功率为

其中燃气轮机机组的出力约束设为：

定义燃气轮机机组的爬坡约束为：

其含义是在Δt时间段内发电机组的向上爬坡功率不能超过

向下爬坡功率不能超过

步骤7、配置包含燃气轮机机组等供能设备时，考率综合能源系统的热负荷需求，配置余热回收装置和燃气锅炉以输出热功率，其中余热回收装置回收燃气轮机运行过程产生的废热，定义废热回收效率为η_gt，H，废热回收功率设置为：

步骤8、确定区域中电储能设备在t时刻的荷电状态为

热储能状态按电储能的荷电状态形式定义

其含义是电、热能占剩余容量比；

步骤9、确定区域中电、热储能设备在t时刻的实时充放功率为

正放负充；其中充放功率约束设为：

其中

步骤10、区域中的制冷设备包含空调设备、吸收式制冷机，分别用电能、热能驱动供冷，设定

分别为电制冷、热制冷功率，

和

表示电制冷和热制冷的效率，

表示用来制冷的电功率、热功率；

步骤11、针对并网型综合能源系统，设置冷热电三种平衡约束；其中冷负荷平衡约束如下：

热负荷平衡约束如下：

电负荷平衡约束如下：

步骤12、为了采用TD3算法进行策略优化，需要构建对应综合能源系统系统运行架构，架构中包含一个现实Actor、两个现实Critic网络、一个目标Actor网络、两个目标Critic网络、行动变量、状态变量、运行代价和优化目标；通过与环境交互获得学习样本，其具体步骤如下：

步骤12.1、初始化现实Actor网络参数θ^μ和两个现实Critic网络参数

θ^Q2，并将现实Actor网络参数和现实Critic网络参数复制到目标网络，将其作为智能体的架构；

步骤12.2、初始化经验回放池R，初始化当前学习步数m＝0，

步骤12.3、初始化区域综合能源系统模型参数及学习参数，将其作为环境；

步骤12.4、考虑到区域综合能源系统能源的不确定性和负荷的随机性，随机初始化当前时刻状态不确定部分

确定步骤12.4中系统随机状态变量：

确定t时刻光伏波动范围

并将当前时刻光伏出力波动

归一化处理为t时刻光伏波动等级:

同理可建立冷、热、电偏差功率建立为随机状态变量：

确定其余状态变量：

确定第n台机组的容量

并将t时刻第n台机组的出力归一化为其状态等级：

加上电、热储能容量

构成决策周期t时刻的状态向量：

步骤12.5、智能体和环境进行交互，以感知当前时刻综合能源系统状态s^t，并将其输入到现实Actor网络从而得到当前时刻的行动a^t＝μ(s^t|θ^μ)，其中a^t包含了综合能源系统当前可调动作集

确定行动变量：

步骤12.5.1、将负荷中的电热制冷转换配比作为决策变量，其行动等级为

是一个连续的区间，其含义是电制冷功率占总制冷功率的配比，相反则是热制冷功率在总功率的配比；电制冷功率

和热制冷功率

受行动等级控制出力公式如下：

步骤12.5.2、设定电、热储能行动等级

控制公式如下所示：

步骤12.5.3、设定每台燃气轮机机组出力调整行动等级为

则t到t+1时间段内机组出力受行动等级

调整变化公式为：

步骤12.5.4、上述动作变量构成一组可调动作向量：

步骤12.6、在决策周期t内，系统的运行代价可定义为式(23)：

c(s^t,a^t)＝c_gt(s^t,a^t)+c_gb(s^t,a^t)+c_es(s^t,a^t)+c_hs(s^t,a^t)+c_tl(s^t,a^t) （24）

步骤12.7、初始化当前决策周期t＝0，和系统的总周期T＝23，其中每个决策时段为1小时，设定系统的总周期为一幕；

步骤12.8、在确认好状态变量、动作变量和优化目标后对环境施加当前时刻的行动向量a^t,并返回当前时刻的运行代价c^t和下一时刻的状态s^t+1，从而得到一个四元组<s^t，a^t，c^t，s^t+1>，将此四元组作为学习样本放入经验回放池R中；

步骤12.9、令t＝t+1；若t小于决策周期总数T，返回步骤12.7；否则令t＝0。

步骤13、按照TD3算法更新Actor网络和Critic网络，Actor网络指步骤12中输出行动集的Actor网络，Critic网络是用于辅助更新Actor网络；

步骤13.1、计算现实Critic网络的梯度：

两个现实Critic网络值函数定义为

y_t＝min(y_t1，y_t2) (31)

和

步骤13.3、计算现实Actor网络的策略梯度：

θ^μ'＝τθ^μ+(1-τ)θ^μ' (36)

步骤13.6、令m＝m+1；若m小于总的学习步数M，更新学习率，返回步骤12.7；否则结束程序。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括……”或“包含……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外，在本文中，“大于”、“小于”、“超过”等理解为不包括本数；“以上”、“以下”、“以内”等理解为包括本数。

尽管已经对上述各实施例进行了描述，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改，所以以上所述仅为本发明的实施例，并非因此限制本发明的专利保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围之内。