CN112862282A

CN112862282A - 一种基于ddqn算法的综合能源系统源-荷协同调度优化方法

Info

Publication number: CN112862282A
Application number: CN202110107659.7A
Authority: CN
Inventors: 唐昊; 李怡瑾; 徐春雷; 吕凯
Original assignee: State Grid Corp of China SGCC; State Grid Jiangsu Electric Power Co Ltd; Hefei University of Technology
Current assignee: State Grid Corp of China SGCC; State Grid Jiangsu Electric Power Co Ltd; Hefei University of Technology
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2021-05-28
Anticipated expiration: 2041-01-27
Also published as: CN112862282B

Abstract

本发明属于能量管理技术领域，公开了一种基于DDQN算法的综合能源系统源‑荷协同调度优化方法，包括以下步骤：步骤1：建立综合能源系统源‑荷协同能量调度优化模型；步骤2：构建DDQN算法所需神经网络；步骤3：根据步骤1建立的模型，利用EMC与系统交互数据产生学习所需样本并存入样本池，同时利用DDQN算法实现网络1和网络2的优化；步骤4：根据步骤3所得优化网络1控制综合能源系统运行。本发明方法有利于经济合理地安排综合能源系统中能量分配，进一步提高能量调度灵活性和优化空间，从而维持系统经济性运行。

Description

一种基于DDQN算法的综合能源系统源-荷协同调度优化方法

技术领域

本发明属于能量管理技术领域，更具体地，涉及一种基于DDQN算法的综合能源系统源-荷协同调度优化方法。

背景技术

随着近些年分布式发电、微电网以及信息技术的发展，综合能源系统通过对不同形式能量的统一规划与调度，以其高效率、低污染、配置灵活等优点日益得到广泛关注，逐渐成为未来能源系统的主要结构形态之一。区域综合能源系统的能量管理系统可以通过协调各类分布式能源产生的电力与热能，通过能量互补与阶梯利用更好地实现供能的经济性并提高能源利用率。

综合能源系统中往往存在多种类型的能源与能量系统，不仅在系统结构与运行约束上较单一能源系统具有更强的复杂性，同时不同能量系统之间存在很强的耦合性，系统中多种类型负荷与可再生能源使得源-荷双侧均存在多种随机不确定性以及不可控特性。能量管理系统通过对各类供能、储能与能量转换设备的管理从而能够实现各类型能源的协调规划、多种形式能源互补、供需互动，是保证系统内不同能量供需平衡、稳定运行的前提。对于存在多种能量形式子系统与冷、热、电多类型负荷需求，综合能源系统能量管理面临大规模状态数据观测与决策变量等问题。而利用深度神经网络强大的拟合功能来逼近强化学习算法中的值函数的深度强化学习算法可以利用网络实现值函数的存储，同时利用线下学习、线上决策的方式可以实现系统实时运行决策。

发明内容

针对目前综合能源系统能量调度在现有技术中存在的问题，本发明提出一种基于DDQN算法的综合能源系统源-荷协同调度优化方法，该方法能够实现对综合能源系统在多种随机因素影响下的经济性运行。

为实现上述目的，本发明采用如下技术方案：

一种基于DDQN算法的综合能源系统源-荷协同调度优化方法，包括综合能源系统，所述综合能源系统中包括能量管理中心(EMC)、光伏发电设备(PV)、电力系统、燃气系统、可控能源设备、能量消耗单元、能量转换设备，所述可控能源设备包括热储能设备(HS)、电储能设备(ES)、燃气轮机组(GT)、锅炉设备(GB)，所述能量消耗单元包括电负荷需求、热负荷需求、冷负荷需求，所述能量转换设备包括热制冷/热设备、电制冷/热设备，所述能量管理中心(EMC)向可控能源设备、能量转换设备传递控制信息，所述(EMC)与可控能源设备、能量转换设备、光伏发电设备(PV)、能量消耗单元向能量管理中心(EMC)传递状态信息，所述燃气系统向能量管理中心(EMC)传递价格信息，所述能量管理中心(EMC)与电力系统通过电力联络线相联，可根据配电网实时调峰需求和实时电价模式实时进行运行调整，实现实时调峰需求响应以及经济性运行；其特征在于，调度优化方法具体包括如下步骤：

步骤1：考虑到配电网实时调峰需求是以一天中综合能源系统中可控能源设备运行产生的代价以及与配电网电力交互产生的购电和调峰代价最小化为优化目标，因此，首先建立综合能源系统源-荷协同能量调度优化模型：

步骤1.1、建立随机性出力、调峰需求与负荷离散化模型；

步骤1.2、建立综合能源系统源-荷协同模型；

步骤1.3、建立可控设备调度模型；

步骤1.4、建立综合能源系统调度优化模型；

步骤2：构建DDQN算法所需神经网络：

DDQN算法包括两个中间层数为4的深度神经网络，分别为网络1和网络2，对于两个深度神经网络，其网络间为全连接结构，其中输入层与中间层、中间层与中间层之间为卷积层结构，激活为Relu函数，最后一层中间层与输出层间为全连接层，激活为matmul函数；

步骤3：根据步骤1建立的模型，利用EMC与系统交互数据产生学习所需样本并存入样本池，同时利用DDQN算法实现网络1和网络2的优化：

步骤4：根据步骤3所得优化网络1控制综合能源系统运行：

利用所得训练完成的网络1，在所述综合能源系统运行过程中任意决策时刻t_k，根据能量管理中心(EMC)观测的运行状态s_k，经过归一化后获得运行状态

并将其输入网络1，经过前向传播获得网络1输出，即运行状态s_k对应所有行动的值函数；选择最小值函数对应的行动，即为最优策略行动，执行并观测系统运行结果。

进一步地，所述的一种基于DDQN算法的综合能源系统源-荷协同调度优化方法，其特征在于，步骤1.1所述的建立随机性出力、调峰需求与负荷离散化模型，具体步骤为：

光伏出力离散化：

在决策时刻t_k将光伏当前时刻最大可能出力P_pv,max(t_k)与最小可能出力P_pv,min(t_k)差值离散为N_pv个等级，并确定当前出力P_pv(t_k)的离散状态等级n_pv(t_k)：

电负荷需求离散化：

在决策时刻t_k将电负荷需求可能最大值P_ele,max(t_k)与最小值P_ele,min(t_k)差值离散为N_ele个等级，并确定当前需求P_ele(t_k)的离散状态等级n_ele(t_k)：

热负荷离散化：

在决策时刻t_k将热负荷需求可能最大值P_h,max(t_k)与最小值P_h,min(t_k)离散为N_h个等级，并确定当前需求P_ele(t_k)的离散状态等级n_ele(t_k)：

冷负荷需求离散化：

在决策时刻t_k将冷负荷需求可能最大值P_cool,max(t_k)与最小值P_cool,min(t_k)差值离散为N_cool个等级，并确定当前需求P_cool(t_k)的离散状态等级n_cool(t_k)：

电网实时调峰需求离散化：

在决策时刻t_k将电网实时可能最大调峰需求P_peak,max(t_k)与最小调峰需求P_peak,min(t_k)差值离散为N_pv个等级，并确定当前调峰需求P_peak(t_k)的离散状态等级n_peak(t_k)：

进一步地，所述的一种基于DDQN算法的综合能源系统源-荷协同调度优化方法，其特征在于，步骤1.2所述的建立综合能源系统源-荷协同模型，具体步骤为：

在决策时刻t_k，系统电负荷需求为P_ele(t_k)，热负荷需求为P_h(t_k)，冷负荷需求为P_cool(t_k)，定义热负荷电热分配率为η_h(t_k)，冷负荷热电分配率为η_cool(t_k)，则当前通过电能满足的热负荷需求为P_h(t_k)η_h(t_k)，通过电能满足的冷负荷需求为P_h(t_k)η_h(t_k)，由此可得系统当前电能需求总量为：

P_ele,sum＝P_ele+P_coolη_cool+P_hη_h

热能需求总量为：

P_h,sum＝P_cool(1-η_cool)+P_h(1-η_h)。

进一步地，所述的一种基于DDQN算法的综合能源系统源-荷协同调度优化方法，其特征在于，步骤1.3所述的建立可控设备调度模型，具体步骤为：

GT调度过程与运行代价：

N_gt为GT总台数，在决策时刻t_k，GT调度优化状态等级为运行机组数n_gt(t_k)，GT行动为a_gt(t_k)∈[-N_gt,-N_gt]表示GT启停个数，当a_gt(t_k)<0时表示关闭|a_gt(t_k)|台机组；从决策时刻t_k到下一决策时刻t_k+1过程中，GT运行代价函数为式(2)，其中P_gt(t)为输出功率，c_op为运行代价系数，c_st为启停代价系数：

ES设备调度过程与运行代价：

在决策时刻t_k，ES剩余电能水平用soc_es(t_k)＝E_es(t_k)/E_es,max，其中E_es(t_k)表示时刻t_k电储能剩余电量，E_es,max表示ES容量；将E_es,max离散为N_es等级，则确定时刻t_kES离散状态等级n_es(t_k)：

ES行动为a_es(t_k)∈{-1,0,1}分别表示充电、静置和放电，从决策时刻t_k到下一决策时刻t_k过程中，ES运行代价函数为式(4)，其中，η_es为ES充放电效率，β_es为损耗代价系数；

HS调度过程与运行代价：

在决策时刻t_k，HS剩余电能水平用soc_hs(t_k)＝E_hs(t_k)/E_hs,max，其中E_hs(t_k)表示时刻t_kHS剩余电量，E_hs,max表示HS容量；将E_hs,max离散为N_hs等级，则确定时刻t_kHS离散状态等级n_hs(t_k)：

HS行动为a_es(t_k)∈{-1,0,1}分别表示储热、静置和放热，从决策时刻t_k到下一决策时刻t_k过程中，HS运行代价函数为式(4)，其中，η_hs为HS储放热效率，β_hs为损耗代价系数；

实时调峰需求响应代价：

在决策时刻t_k，电网对综合能源系统提出的实时调峰需求为P_peak(t_k)，由于系统经济性运行需求，实际实现的调峰需求响应功率为P_demand(t_k)，由此产生的调峰代价为：

c_peak(t_k)＝λ|P_peak(t_k)-P_demand(t_k)|。

进一步地，所述的一种基于DDQN算法的综合能源系统源-荷协同调度优化方法，其特征在于，步骤1.4所述的建立综合能源系统调度优化模型，具体步骤为：

综合能源系统在一个决策周期内运行代价包括：燃气轮机组运行与启停代价、电储能运行代价、热储能运行代价、从电网购电代价以及调峰代价，如下式所述：

c(s_k,a_k)＝c_gt(s_k,a_k)+c_es(s_k,a_k)+c_ths(s_k,a_k)+c_tl(s_k,a_k)+c_peak(s_k,a_k)

假设日内决策周期数为K，则为日运行代价V可表示为下式：所述协同优化调度目标是找到最优运行策略使得日运行代价期望最低，如下式所示，其中π^*表示最优策略：

π*＝argminE_π[V]。

进一步地，所述的一种基于DDQN算法的综合能源系统源-荷协同调度优化方法，其特征在于，步骤3所述的利用DDQN算法实现网络1和网络2的优化，具体步骤为：

步骤4.1、初始化学习与决策参数，包括：初始化一天内决策周期数K；初始化样本池容量和学习样本批量为M与Batch；初始化学习完成步数STEP；初始化网络参数替换周期Cycle；初始化经验池更新周期loop；初始化神经网络，包括：初始化评估神经网络1的结构与网络参数为θ；初始化目标神经网络2结构与网络参数，其中网络2结构与1相同，且θ^-＝θ；

步骤4.2、初始化学习步数step＝0；初始化状态s₀，将所述系统运行数据经过EMC处理，并产生样本存入经验池直到经验池达到设定容量：

步骤4.2.1、将状态s₀通过线性归一化为

并根据

与当前网络1选择行动

同时随机选取行动a_random；若满足不等式

则选择a_min为当前状态s_k下的行动a_k，即a_k＝a_min；否则a_k＝a_random，其中Temp为模拟退火温度，rand为(0,1)区间内的随机数.执行当前所选行动a_k，经过一周决策周期后系统到达下一状态s_k+1并在此过程中观察运行代价c_k，获得样本(s_k,a_k,c_k,s_k+1,v_k+1)，并通过归一化处理用入栈方式存入经验池中，k＝k+1，Temp＝α_temp×Temp，α_temp∈(0,1)为模拟退火温度下降系数；

步骤4.2.2、若k<K则k＝k+1，返回步骤4.2.1；若k＝K，判断n_sample＝N_sample是否成立，若不成立则返回步骤4.3.1，否则执行步骤4.3；

步骤4.3、从经验池中随机选取批量为Batch的样本，并将

输入网络1，获得网络1输出向量

步骤4.4、计算Q^target(s_k,:)，分别将

输入网络1和网络2，分别得到网络输出

与

根据

选择行动

并计算出

步骤4.5、计算损失函数

利用loss通过梯度下降法更新评估网络Q的参数θ，step＝step+1；

步骤4.6、若step＝N_l*Cycle,N_l∈Z⁺则将评估网络Q的网络参数θ赋值给目标网络，即θ^-＝θ,若step＝N_m*loop,N_m∈Z⁺，则返回步骤4.2随机初始化系统状态，并更新样本池；若step＝STEP则停止学习，网络训练完成；若以上均不成立，则返回步骤4.3。

区别于现有技术，本发明的上述技术方案的有益效果如下：

1.本发明将将负荷侧能量分配与分布式能源与储能行为共同作为决策变量，构建了区域综合能源系统源-荷协同调度优化模式，有利于经济合理地安排综合能源系统中能量分配，进一步提高能量调度灵活性和优化空间，从而维持系统经济性运行。

2.本发明选取的DDQN算法是一类有效的深度学习算法，具有强大的无监督学习能力，同时可以有效地避免传统深度强化学习方法带来的过估计问题，有利于算法收敛到最优，从而提高优化性能。

3.本发明针对负荷分配、燃气轮机组GT、电储能设备ES、热储能设备HS建立基于实时电价模式的综合能源系统源-荷协同调度模型，该模型同时考虑了电网实时调峰需求，借助综合能源系统能量转换与调度优化，引导系统合理配置不同形式供能，从而不仅有利于提高系统运行经济性，同时有利于引导系统相应电网调峰需求，实现削峰填谷，减小电网负荷峰谷差。

附图说明

图1为综合能源系统源荷协同能量调度优化与控制流程图；

图2为综合能源系统能量管理框图；

图3为人工神经元结构；

图4为深度神经网络结构；

图5为DDQN算法流程图。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

实施例1

参阅图2所示，综合能源系统中包括能量管理中心EMC、光伏发电设备PV、电力系统、燃气系统、可控能源设备、能量消耗单元、能量转换设备，可控能源设备包括热储能设备HS、电储能设备ES、燃气轮机组GT、锅炉设备GB，能量消耗单元包括电负荷需求ELOAD、热负荷需求HLOAD、冷负荷需求CLOAD，能量转换设备包括热制冷/热设备、电制冷/热设备，能量管理中心EMC向可控能源设备、能量转换设备传递控制信息，EMC与可控能源设备、能量转换设备、光伏发电设备PV、能量消耗单元向能量管理中心EMC传递状态信息，燃气系统向能量管理中心EMC传递价格信息，能量管理中心EMC与电力系统通过电力联络线相联，可根据配电网实时调峰需求和实时电价模式实时进行运行调整，实现实时调峰需求响应以及经济性运行。

参阅如图1所示，一种基于DDQN算法的综合能源系统源-荷协同调度优化方法，包括如下步骤：

步骤1.1、建立随机性出力、调峰需求与负荷离散化模型；

光伏出力离散化：

电负荷需求离散化：

热负荷离散化：

冷负荷需求离散化：

电网实时调峰需求离散化：

步骤1.2、建立综合能源系统源-荷协同模型：

P_ele,sum＝P_ele+P_coolη_cool+P_hη_h

热能需求总量为：

P_h,sum＝P_cool(1-η_cool)+P_h(1-η_h)。

步骤1.3、建立可控设备调度模型：

GT调度过程与运行代价：

N_gt为GT总台数，在决策时刻t_k，GT调度优化状态等级为运行机组数n_gt(t_k)，GT行动为a_gt(t_k)∈[-N_gt,-N_gt]表示GT启停个数，当a_gt(t_k)<0时表示关闭|a_gt(t_k)|台机组。从决策时刻t_k到下一决策时刻t_k+1过程中，GT运行代价函数为式(2)，其中P_gt(t)为输出功率，c_op为运行代价系数，c_st为启停代价系数：

ES设备调度过程与运行代价：

在决策时刻t_k，ES剩余电能水平用soc_es(t_k)＝E_es(t_k)/E_es,max，其中E_es(t_k)表示时刻t_k电储能剩余电量，E_es,max表示ES容量。将E_es,max离散为N_es等级，则确定时刻t_kES离散状态等级n_es(t_k)：

ES行动为a_es(t_k)∈{-1,0,1}分别表示充电、静置和放电，从决策时刻t_k到下一决策时刻t_k过程中，ES运行代价函数为式(4)，其中，η_es为ES充放电效率，β_es为损耗代价系数。

HS调度过程与运行代价：

在决策时刻t_k，HS剩余电能水平用soc_hs(t_k)＝E_hs(t_k)/E_hs,max，其中E_hs(t_k)表示时刻t_kHS剩余电量，E_hs,max表示HS容量。将E_hs,max离散为N_hs等级，则确定时刻t_kHS离散状态等级n_hs(t_k)：

HS行动为a_es(t_k)∈{-1,0,1}分别表示储热、静置和放热，从决策时刻t_k到下一决策时刻t_k过程中，HS运行代价函数为式(4)，其中，η_hs为HS储放热效率，β_hs为损耗代价系数。

实时调峰需求响应代价：

c_peak(t_k)＝λ|P_peak(t_k)-P_demand(t_k)|。

步骤1.4、建立综合能源系统调度优化模型：

假设日内决策周期数为K，则为日运行代价V可表示为下式。所述协同优化调度目标是找到最优运行策略使得日运行代价期望最低，如下式所示，其中π^*表示最优策略：

π*＝argminE_π[V]

步骤2：构建DDQN算法所需神经网络。

参阅图3和图4分别为人工神经元结构与深度神经网络结构，其中深度网络结构中各结点均由人工神经网络构成。DDQN算法包括两个中间层数为4的深层神经网络，分别为网络1和网络2。对于两个深度神经网络，其网络间为全连接结构，其中输入层与中间层、中间层与中间层之间为卷积层结构，激活为Relu函数，最后一层中间层与输出层间为全连接层，激活为matmul函数。

参阅图5为DDQN算法的优化过程：

步骤4.2.1、将状态s₀通过线性归一化为

并根据

与当前网络1选择行动

同时随机选取行动a_random；若满足不等式

步骤4.3、从经验池中随机选取批量为Batch的样本，并将

输入网络1，获得网络1输出向量

步骤4.4、计算Q^target(s_k,:)。分别将

输入网络1和网络2，分别得到网络输出

与

根据

选择行动

并计算出

步骤4.5、计算损失函数

步骤4.6、若step＝N_l*Cycle,N_l∈Z⁺则将评估网络Q的网络参数θ赋值给目标网络，即θ^-＝θ,若step＝N_m*loop,N_m∈Z⁺，则返回步骤4.2随机初始化系统状态，并更新样本池；若step＝STEP则停止学习，网络训练完成。若以上均不成立，则返回步骤4.3。

步骤4：根据步骤3所得优化神经网络1控制综合能源系统运行：

利用所得训练完成的深度神经网络1，在所述综合能源系统运行过程中任意决策时刻t_k，根据EMC观测的运行状态s_k，经过归一化后获得

并将其输入网络1，经过前向传播获得网络1输出，即状态s_k对应所有行动的值函数；选择最小值函数对应的行动，即为最优策略行动，执行并观测系统运行结果。

Claims

1.一种基于DDQN算法的综合能源系统源-荷协同调度优化方法，包括综合能源系统，所述综合能源系统中包括能量管理中心(EMC)、光伏发电设备(PV)、电力系统、燃气系统、可控能源设备、能量消耗单元、能量转换设备，所述可控能源设备包括热储能设备(HS)、电储能设备(ES)、燃气轮机组(GT)、锅炉设备(GB)，所述能量消耗单元包括电负荷需求、热负荷需求、冷负荷需求，所述能量转换设备包括热制冷/热设备、电制冷/热设备，所述能量管理中心(EMC)向可控能源设备、能量转换设备传递控制信息，所述(EMC)与可控能源设备、能量转换设备、光伏发电设备(PV)、能量消耗单元向能量管理中心(EMC)传递状态信息，所述燃气系统向能量管理中心(EMC)传递价格信息，所述能量管理中心(EMC)与电力系统通过电力联络线相联，可根据配电网实时调峰需求和实时电价模式实时进行运行调整，实现实时调峰需求响应以及经济性运行；其特征在于，调度优化方法具体包括如下步骤：

步骤1.1、建立随机性出力、调峰需求与负荷离散化模型；

步骤1.2、建立综合能源系统源-荷协同模型；

步骤1.3、建立可控设备调度模型；

步骤1.4、建立综合能源系统调度优化模型；

步骤2：构建DDQN算法所需神经网络：

步骤4：根据步骤3所得优化网络1控制综合能源系统运行：