CN114417695A

CN114417695A - 多园区综合能源系统经济调度方法

Info

Publication number: CN114417695A
Application number: CN202111443064.5A
Authority: CN
Inventors: 高强; 周洪青; 王天群; 朱逸芝; 王海龙; 黄堃; 付明
Original assignee: Nari Technology Co Ltd; Taizhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Current assignee: Nari Technology Co Ltd; Taizhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-04-29

Abstract

本发明公开了一种多园区综合能源系统经济调度方法，包括如下步骤：根据综合能源系统经济调度模型，建立系统最小运行成本目标函数，并构建所述调度模型的约束条件；建立多智能体近端策略优化的状态观测空间、动作空间和奖励函数；将t时刻的状态变量和动作变量作为策略网络和动作网络的输入，采用策略梯度与时序差分方法，对MAPPO模型进行迭代训练，得到最优实时调度模型；根据最优实时调度模型对多园区综合能源系统进行调度。本发明采用多智能体深度强化学习方法去解决多园区综合能源系统经济调度问题，可以得到最优实时调度模型，实现综合能源系统的经济调度。

Description

多园区综合能源系统经济调度方法

技术领域

本发明属于电力调度技术领域，具体涉及能源互联网综合能源系统经济调度技术。

背景技术

随着全球经济的快速发展，能源工业因环境保护问题面临着很多挑战，通过多种能源的互补来提高能源利用效率、减少污染排放的综合能源系统为解决环境保护问题提出了新的思路。但由于单个园区综合能源系统构成的微网自身调节能力有限，而多个园区之间形成合作关系去制定合适的运行调度策略，不但能够增加对分布式可再生能源的消纳，还能提高各种能源的综合能效。因此，多园区综合能源系统联合调度是未来综合能源系统研究关键技术之一。

由于多园区综合能源系统联合调度的数据处理需要很庞大的计算，传统的调度模式存在时效性不足、调度策略优化程度不高等问题。

发明内容

本发明所要解决的技术问题就是提供一种多园区综合能源系统经济调度方法，解决调度模式存在时效性不足、调度策略优化程度不高等问题。

为解决上述技术问题，本发明采用如下技术方案：

多园区综合能源系统经济调度方法，包括如下步骤：

根据综合能源系统经济调度模型，建立系统最小运行成本目标函数，并构建所述综合能源系统经济调度模型的约束条件；

建立多智能体近端策略优化的状态观测空间、动作空间和奖励函数；

将t时刻的状态变量和动作变量作为策略网络和动作网络的输入，采用策略梯度与时序差分方法，对MAPPO模型进行迭代训练，得到最优实时调度模型；

根据最优实时调度模型对多园区综合能源系统进行调度。

优选的，园区综合能源系统中的发电装置包括风电场和CHP装置，产热装置包括燃气锅炉和电热泵，储能装置包括蓄电池、储气罐和储热罐，天然气产生装置为P2G装置。

优选的，综合能源系统经济调度模型中，各园区只与其相邻的园区进行能源和信息交互；园区间的能源交易包括内外两层的交易行为，内层交易行为是相邻园区之间进行能源的交易，外层交易行为是园区与市场进行能源的交易，当内层交易无法满足园区系统供给平衡时再进行外层交易。

优选的，所述综合能源系统经济调度模型中系统运行成本目标函数公式为：

F_soc(t，i)＝|P_soc(t,i)|·α (2)

式中：F为系统运行的总成本；T为表示一个调度周期内所包括的调度时段数；n为园区数量；F_soc(t，i)为园区i在t时刻蓄电池的充放电折旧成本；F_w(t,i)为园区i在t时刻调度计划弃风电量的惩罚项；F_e(t,i)为园区i在t时刻电能交易的总成本；F_g(t,i)为园区i在t时刻天然气交易的成本；

为园区i在一个调度周期内碳交易的成本；P_soc(t,i)为园区i在t时刻蓄电池充放电功率；α为蓄电池的折旧成本；

为园区i在t时刻的弃风功率；β为弃风惩罚因子；P_buy(t,i)为园区i在t时刻从园区间购电功率；χ(t)为园区i从园区间交易电能的电价；

为园区i在t时刻从市场购电功率；χ_market(t)为t时刻市场电价；P_sale(t,i)园区i在t时刻在园区间售电功率；

为园区i在t时刻向市场售电功率；G_buy(t,i)为园区i在t时刻在园区间所购天然气体积；δ(i)为园区i从园区间交易天然气的价格；

为园区i在t时刻从市场所购天然气体积；δ_market(t)为t时刻市场交易天然气价格；G_sale(t,i)园区i在t时刻在园区间出售的天然气体积；

为园区i在t时刻向市场出售的天然气体积；G_CHP(t,i)为园区i在t时刻CHP装置的天然气输入体积；ε_CHP(i)为园区i的CHP装置燃烧单位体积天然气产生CO₂的效率；G_boiler为园区i在t时刻锅炉装置的天然气输入体积；ε_boiler(i)为园区i锅炉装置燃烧单位体积天然气产生CO₂的效率；C_P2G(t,i)为园区i在t时刻P2G装置消耗CO₂体积；

为市场碳交易价格。

优选的，所述综合能源系统经济调度模型的约束条件为：

1)电力负荷平衡约束条件：

式中：P_w(t,i)园区i在t时刻的发电功率；P_deal(t,i)为园区i在t时刻总交易电量；P_P2G(t,i)为园区i在t时刻的P2G装置输入电功率；P_pump(t,i)为园区i在t时刻电热泵输入功率；P_load(t,i)为园区i在t时刻电力负荷功率；

为园区i在t时刻购买电量的最小值；

为园区i在t时刻购买电量的最大值；

为园区i在t时刻售卖电量的最小值；

为园区i在t时刻售卖电量的最大值。

2)热力负荷平衡约束条件：

式中：H_CHP(t,i)为园区i在t时刻CHP装置产生的热功率；

为园区i电热泵装置电转热效率；H_boiler(t,i)为园区i在t时刻锅炉装置产生的热功率；H_pot(t,i)为园区i在t时刻储热装置充放热的热功率；γ_i为园区i在热量传输过程中的损失因子；H_load(t,i)为园区i在t时刻热负荷功率。

3)天然气网约束条件：

式中：G_P2G(t,i)为园区i在t时刻P2G装置产气体积；G_pot(t,i)为园区i在t时刻储气罐充放气的体积；

为园区i在t时刻购买天然气的下限；

为园区i在t时刻购买天然气的上限；

为园区i在t时刻售卖天然气的下限；

为园区i在t时刻售卖天然气的上限。

4)蓄电池装置约束条件：

式中：

分为园区i在t时刻蓄电池充放电的下限、上限；C_soc(t,i)为园区i在t时刻蓄电池的荷电状态；η_soc(i)为园区i蓄电池的充放电系数；Δt为一个时段；Q_soc(i)为园区i蓄电池的容量；

分别为园区i蓄电池荷电状态的下限和上限；η_ch(i)为园区i蓄电池的充电效率，η_dis(i)为园区i蓄电池的放电效率。

5)P2G装置约束条件：

式中：

分别为园区i在t时刻P2G装置输入功率的下限和上限；m为热值与功率的换算值；λ(i)为园区P2G装置生产转换效率；

为天然气的燃烧热值；

为CO₂的气态密度。

6)储热/气罐装置约束条件：

G_min(i)≤G_pot(t,i)≤G_max(i) (27)

H_min(i)≤H_pot(t,i)≤H_max(i) (28)

式中：G(t,i)为园区i在t时刻储气罐所储存的能量；H(t,i)为园区i在t时刻储热罐所储存的能量；

为园区i储气罐储能的效率；

为园区i储气罐放能的效率；

为园区i储热罐储能的效率；

为园区i储热罐放能的效率；S_G(i)为园区i储气罐的储能水平；S_H(i)为园区i储热罐的储能水平；G_rated(i)为园区i储气罐的额定储能量；H_rated(i)为园区i储热罐的额定储能量；G_min(i)、G_max(i)分别为园区i储气罐充放气体积的下限和上限；H_min(i)、H_max(i)分别为园区i充放热功率的下限和上限；

分别为园区i储气罐储能水平的下限和上限；

分别为园区i储热罐储能水平的下限和上限。

7)CHP机组装置约束：

式中：σ_CHP(i)和

分为园区i的CHP装置将能量转化为电能、热能的效率；

与

与

与

分别是园区i的CHP装置输出电功率、输出热功率、输入天然气体积的下限和上限。

8)电热泵装置约束条件：

H_pump(t,i)＝P_pump(t,i)·τ(i) (36)

式中：τ(i)为园区i电热泵装置的热效率；

分别为园区i电热泵装置输入功率的下限和上限。

9)锅炉装置约束条件：

式中：υ_boiler(i)为园区i锅炉装置的将能量转化为热能的效率；

分别为园区i锅炉装置天然气输入量的下限和上限。

优选的，T＝96，系每隔15分钟将获取的实际状态观测值输入到MAPPO算法的神经网络中。

优选的，状态观测值包括：

1)各园区风电场出力数据；

2)各园区热、电负荷数据；

3)各园区储能装置的储能状态；

4)t时刻的实时电价、天然气价格；

状态观测空间S为：

优选的，动作空间A为：

所有智能体共享一个奖励函数，奖励函数r(t)为：

优选的，迭代训练流程为：将t时刻观测数据输入到MAPPO算法的神经网络中，生成动作

奖励r(t)和状态

通过

和

计算估计函数、优势函数；将

r(t)、

估计函数和优势函数储存到记忆池D中；随机打乱D中数据的顺序并从新编号，抽取部分数据以此计算神经网络参数的梯度；利用神经网络参数的梯度更新神经网络参数，完成一次迭代。

机器学习强大的数据处理能力使其在很多领域都有应用，特别是深度强化学习对解决随机序贯决策方面的问题有很好的实用性，因此，本发明采用多智能体深度强化学习方法去解决多园区综合能源系统经济调度问题，可以得到最优实时调度模型，实现综合能源系统的经济调度。

本发明的具体技术方案及其有益效果将会在下面的具体实施方式中结合附图进行详细的说明。

附图说明

下面结合附图和具体实施方式对本发明作进一步描述：

图1为本发明的调度模型的流程图；

图2为园区综合能源系统拓扑结构；

图3为多园区综合能源系统的能源交互网络物理框架。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出用MAPPO(多智能体近端策略优化)深度强化学习算法来解决多园区综合能源系统经济调度问题。首先建立考虑碳交易及多园区的综合能源系统经济调度模型，建立最小目标成本函数和约束条件，然后定义MAPPO算法神经网络的的状态空间、动作空间和奖励函数，将t时刻的各园区状态变量和动作变量作为策略网络和动作网络的输入，采用策略梯度与时序差分方法，对MAPPO模型进行迭代训练，得到最优实时调度模型，以实现综合能源系统的经济调度。

为实现上述目的，本发明提供了一种基于MAPPO的多园区综合能源系统经济调度方法，参考图1至图3所示，所述方法包括：

步骤1：建立考虑碳交易及多园区的综合能源系统经济调度模型；园区内装置包括电-热-气耦合调度系统和一些储能设备，各园区与相邻园区在制定相关协议后进行能源和有限信息交互，并在相邻园区之间建立能源交互网络作为园区能源的输入；园区之间的交易主要基于内外两层交易行为，外层交易是在园区间进行，外层交易是园区与市场进行交易，当内层交易无法满足园区供给平衡时再进行外层交易；

步骤2：基于所述调度模型建立系统最小运行成本目标函数；以系统一个调度周期内总运行成本最小为目标函数，运行包括园区弃风惩罚、蓄电池充放电折旧成本以及园区进行能源交易的成本；

步骤3：构建所述调度模型的约束条件；模型在满足电力负荷平衡、热力负荷平衡和天然气网平衡的同时，还需满足各种设备装置的平衡约束；

步骤4：基于所述调度模型，建立MAPPO的状态观测空间、动作空间和奖励函数；将每个园区看作一个智能体，多智能体之间采用集中式训练、分布式执行架构，一旦确定训练处最优的收敛策略，各智能体就可以基于各自局部观测做出最优决策。

步骤5：将t时刻的状态变量和动作变量作为策略网络和动作网络的输入，采用策略梯度与时序差分方法，对MAPPO模型进行迭代训练，得到t时刻的最优调度模型。

如图2所示，园区综合能源系统的发电装置包括风电场和CHP(热电联产)装置，产热装置包括燃气锅炉和电热泵，产生的热能通过换热站将能量传输给热力用户，储能装置包括蓄电池、储气罐和储热罐，天然气产生装置为P2G(电转气)装置。

各园区首先通过内部发电、产热装置达到内部供给平衡，当风电场发电功率和CHP最低运行模式下的发电功率大于负荷功率时，园区先在内部通过蓄电池、电热泵和P2G装置最大程度的消纳风电；若此时园区不需要天然气可储气罐储存生成的天然气，若热力负荷侧不需要热能则把多余的热能储存到储热罐中，同时也可以选择进行园区间的能源交易，如果通过这些手段仍然无法完全消纳风电时，风电场可选择弃掉部分风能达到供给平衡。

当园区需要进行能源交易时，可以通过图3所示的能源交互网络进行能源的交易，通过这样的协同调度策略达到园区内部的供给平衡，同时使运行成本最小。

基于上述园区综合能源系统模型，建立系统最小运行成本目标函数，目标函数为：

为园区i在一个调度周期内碳交易的成本。

其中，蓄电池充放电的折旧成本为：

F_so_c(t，i)＝|P_so_c(t,i)|·α (2)

式中：P_soc(t,i)为园区i在t时刻蓄电池充放电功率；α为蓄电池的折旧成本。

当园区内风电场发电和CHP装置最低运行状态发电功率之和大于负荷功率时，蓄电池通过电网充电，当园区内风电场发电和CHP装置最低运行状态发电功率之和小于负荷功率时，蓄电池向电网放电；

园区弃风惩罚项为：

式中：

为园区i在t时刻的弃风功率；β为弃风惩罚因子。

当园区通过内部调节和外部交易无法完全消纳风电时，应当弃掉部分风能以满足系统供给平衡。

园区电能交易总成本为：

式中：P_buy(t,i)为园区i在t时刻从园区间购电功率；χ(t)为园区i从园区间交易电能的电价；

为园区i在t时刻向市场售电功率。

园区天然气交易成本为：

式中：G_buy(t,i)为园区i在t时刻在园区间所购天然气体积；δ(i)为园区i从园区间交易天然气的价格；

为园区i在t时刻向市场出售的天然气体积。

园区碳交易成本为：

式中：G_CHP(t,i)为园区i在t时刻CHP装置的天然气输入体积；ε_CHP(i)为园区i的CHP装置燃烧单位体积天然气产生CO₂的效率；G_boiler为园区i在t时刻锅炉装置的天然气输入体积；ε_boiler(i)为园区i锅炉装置燃烧单位体积天然气产生CO₂的效率；C_P2G(t,i)为园区i在t时刻P2G装置消耗CO₂体积；

为市场碳交易价格。

建立好系统的目标函数和各部分成本后，园区内负荷侧主要有热负荷和电负荷，通过满足热负荷和电力负荷的供给平衡来建立电力负荷平衡约束、热力负荷平衡约束和天然气网平衡约束。

当系统无法通过自身调度满足供给平衡时，园区通过交易来满足供给平衡，首先选择在园区间进行交易，当园区间的交易无法满足需求时，再进行市场交易；电力负荷平衡约束条件：

为园区i在t时刻购买电量的最小值；

为园区i在t时刻购买电量的最大值；

为园区i在t时刻售卖电量的最小值；

为园区i在t时刻售卖电量的最大值。

当系统热力负荷很小且系统无法避免的产生一些热能时，储热罐从系统吸收热能并储存；当系统热力负荷侧需要热能时，储热罐释放之前储存的热能；

热力负荷平衡约束条件：

式中：H_CHP(t,i)为园区i在t时刻CHP装置产生的热功率；

园区天然气的输入主要包括市场天然气网、能源交互网络和自身P2G装置产生的天然气，消耗装置主要是CHP装置和燃气锅炉；当天然气消耗装置不需要天然气而P2G装置需要产生气体以降低运行成本时，生产的天然气储存到储气罐中；当园区需要天然气输入时，储气罐释放储存的天然气到天然气网中。

天然气网约束条件：

为园区i在t时刻购买天然气的下限；

为园区i在t时刻购买天然气的上限；

为园区i在t时刻售卖天然气的下限；

为园区i在t时刻售卖天然气的上限。

然后通过电-气-热网的约束条件来确定园区各种设备的约束条件：

蓄电池装置约束条件：

式中：

P2G装置约束条件：

式中：

为天然气的燃烧热值；

为CO₂的气态密度。

储热/气罐装置约束条件：

G_min(i)≤G_pot(t,i)≤G_max(i) (65)

H_min(i)≤H_pot(t,i)≤H_max(i) (66)

为园区i储气罐储能的效率；

为园区i储气罐放能的效率；

为园区i储热罐储能的效率；

分别为园区i储气罐储能水平的下限和上限；

分别为园区i储热罐储能水平的下限和上限。

CHP机组装置约束：

式中：σ_CHP(i)和

分为园区i的CHP装置将能量转化为电能、热能的效率；

与

与

与

电热泵装置约束条件：

H_pump(t,i)＝P_pump(t,i)·τ(i) (74)

式中：τ(i)为园区i电热泵装置的热效率；

分别为园区i电热泵装置输入功率的下限和上限。

锅炉装置约束条件：

分别为园区i锅炉装置天然气输入量的下限和上限。

建立好目标函数和约束条件后，定义MAPPO的状态空间S、动作空间A和奖励函数r(t)。

状态空间为：

动作空间A为：

所有智能体共享一个奖励函数，奖励函数r(t)为:

将t时刻观测到的P_w(t,i)、P_load(t,i)、H_load(t,i)、C_soc(t,i)、S_G(i)、S_H(i)、χ_market(t)和δ_market(t)数据输入到搭建好的MAPPO算法的神经网络中，进行迭代训练，得到此时刻的最优调度模型。

取T＝96，即一个调度周期内分为了96个时段，系统每隔15分钟更新一下调度策略。

t+1时刻也即t时刻的15分钟以后，将t+1时刻的P_w(t+1,i)、P_load(t+1,i)、H_load(t+1,i)、C_soc(t+1,i)、S_G(i)、S_H(i)、χ_market(t+1)和δ_market(t+1)观测值输入到MAPPO算法的神经网络中，得到t+1时刻的最优调度模型。

循环操作，输入下一时刻的观测状态值，得到一个调度周期内每个时段的最优调度模型。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，熟悉该本领域的技术人员应该明白本发明包括但不限于上面具体实施方式中描述的内容。任何不偏离本发明的功能和结构原理的修改都将包括在权利要求书的范围中。

Claims

1.多园区综合能源系统经济调度方法，其特征在于，包括如下步骤：

根据最优实时调度模型对多园区综合能源系统进行调度。

2.根据权利要求1所述的多园区综合能源系统经济调度方法，其特征在于：园区综合能源系统中的发电装置包括风电场和CHP装置，产热装置包括燃气锅炉和电热泵，储能装置包括蓄电池、储气罐和储热罐，天然气产生装置为P2G装置。

3.根据权利要求2所述的多园区综合能源系统经济调度方法，其特征在于：综合能源系统经济调度模型中，各园区只与其相邻的园区进行能源和信息交互；园区间的能源交易包括内外两层的交易行为，内层交易行为是相邻园区之间进行能源的交易，外层交易行为是园区与市场进行能源的交易，当内层交易无法满足园区系统供给平衡时再进行外层交易。

4.根据权利要求3所述的多园区综合能源系统经济调度方法，其特征在于：所述综合能源系统经济调度模型中系统运行成本目标函数公式为：