CN113902040A

CN113902040A - 电-热综合能源系统协调优化方法、系统、设备及存储介质

Info

Publication number: CN113902040A
Application number: CN202111349881.4A
Authority: CN
Inventors: 蒲天骄; 董雷; 李烨; 王新迎; 王继业
Original assignee: China Electric Power Research Institute Co Ltd CEPRI
Current assignee: China Electric Power Research Institute Co Ltd CEPRI
Priority date: 2021-11-15
Filing date: 2021-11-15
Publication date: 2022-01-07
Anticipated expiration: 2041-11-15
Also published as: WO2023082697A1; CN113902040B

Abstract

本发明提供一种电‑热综合能源系统协调优化方法、系统、设备及存储介质，方法包括：获取实时电‑热综合能源系统参数；基于所述电‑热综合能源系统参数，分别计算电‑热综合能源系统的电力系统、热力系统和耦合装置的发电功率；将所述发电功率输入预先训练的基于SAC框架优化调度模型中，输出调度动作，形成电‑热综合能源系统协调策略。可以直接通过已经训练好的策略网络给出调度动作，无需再进行传统非线性整体迭代求解，计算速度得到了显著的提升，计算效率更高。

Description

电-热综合能源系统协调优化方法、系统、设备及存储介质

技术领域

本发明涉及综合能源系统优化调度领域，特别是涉及一种电-热综合能源系统协调优化方法、系统、设备及存储介质。

背景技术

在能源互联网的背景下，为了进一步提高能源利用率，缓解能源危机，突破传统能源体系结构和行业壁垒，研究电热综合能源系统协调优化问题成为一种有效的途径。

电-热综合能源系统通过利用热力与电力的互补特性，有利于促进可再生能源的消纳，提高能源利用率。现今对电-热综合能源系统优化问题的求解，主要包括传统非线性方法求解如粒子群算法，智能算法如“Q学习”、“DQN”算法等求解思路。粒子群算法与“Q学习”算法均存在精确度不足、计算速度慢、适用范围局限等问题，“DQN”算法存在探索能力不足，易陷入局部最优解等问题。

总体来说，耦合愈加密切的综合能源系统优化调度问题存在高度的非线性特征，目前缺少一种经济、准确、可靠的求解方法。因此需要一种收敛可靠、探索最优策略能力强、满足高精度要求的智能算法。

现有技术一“粒子群优化算法”的技术方案：粒子群算法是一种进化计算机技术，该算法通过粒子的简单行为、粒子群体与环境的信息交互，从系统随机初始值开始，经过迭代寻求最优值。在IEHS优化调度模型中，首先需要建立目标函数以及约束条件，如电网、热网潮流约束、设备出力约束、安全运行约束等，然后利用粒子群算法对IEHS优化问题进行求解。

粒子群算法求解步骤为：1）设置参数：迭代次数、自变量个数、粒子最大速度、粒子群初始速度和位置。2）定义适应度函数：根据IEHS优化调度模型优化目标确定。在每次迭代过程中，粒子的最优解即为粒子的极值，全局最优解取所有粒子的最小值，与上一次全局最优比较，按照下式进行更新：

3）停止迭代条件：达到最大迭代次数或迭代差值满足精度要求。

其缺点为：（1）粒子群算法收敛性不足，甚至会出现难以收敛的情况。并且易陷入局部最优解，无法得到电热综合能源系统经济调度的最优解，计算精度欠缺，从而失去了多能源协同优化的意义。（2）耦合愈来愈密切的电热综合能源系统呈现出高度非线性特征，粒子群算法在求解时存在计算速度显著降低，计算效率无法满足电热综合能源系统经济调度的问题。

现有技术二“Q学习”的技术方案：

Q学习算法以马尔科夫决策过程为基础，是一种与模型无关的强化学习算法。采用Q学习算法的进行电-热综合能源系统优化的一般步骤为，设计动作状态空间，对连续动作空间以及状态空间进行离散化，根据系统优化目标和运行约束建立Q学习奖惩机制，智能体通过不断试错探索，与环境进行交互并更新Q值表，最终达到自主选择最优动作的目标。

在Q值表的每次训练内，针对某时刻T，根据该时刻状态st从Q值表中选取动作at。将该动作作用于环境得到即时奖励，并完成状态转移进入下一个状态

。根据贝尔曼最优准则，得到最优策略所对应的最优指标为该时刻下电-热综合能源系统智能体动作at所得到的即时奖励为rt与后续状态转移所得到的最大Q值

之和。因此可根据贝尔曼最优准则进行Q值表的更新:

经过多次训练后，智能体可根据输入的状态信息和Q值表，做出电-热综合能源系统最优控制动作。

其缺点为：

（1）电-热综合能源系统动作状态空间多为连续区间，为应用Q学习算法需要对连续空间进行离散化处理。以离散后的动作空间、状态空间为基础进行计算会导致计算准确度大幅下降；

（2）Q学习算法不适用于大规模电-热综合能源系统优化问题求解。问题规模增大导致动作空间维度以及网络复杂度增大。动作空间增大导致Q指标维度大幅度增大，提高训练难度；Q指标拟合能力差，难以对高复杂度电热综合能源系统网络进行建模。

现有技术三“DQN”的技术方案:

DQN是深度学习和具有决策能力的强化学习相结合的产物。DQN构建深度学习网络，直接从高维原始数据中学习控制策略，扩展了强化学习实用性。应用DQN进行电-热综合能源系统优化，首先应设计动作、状态空间，构建深度学习网络拟合Q值，构建经验回放单元存储历史样本。每次训练对经验回放单元进行随机采样，根据采样样本进行Q网络训练。

DQN算法首先从环境中获取观测值，智能体根据值函数神经网络得到的关于该观测值的所有

。然后智能体利用策略算法做出决策，得到动作，并从环境中得到反馈的奖励值r。利用得到的奖励r去更新值函数网络的参数，从而进入下一次迭代。迭代过程将循环进行下去，直到完成网络训练。

DQN需要定义相应的损失函数，并利用梯度下降算法来更新参数。通过不断更新神经网络权重参数，使得Q网络的输出值能够逐渐逼近最优的Q值。损失函数的定义基于残差模型，即真实值和网络输出的差的平方：

为了减少相关性提高算法稳定性，DQN在原来的Q网络的基础之上又引入了一个target Q网络，该网络和Q网络的结构一样，初始的权重也是一样的，只是Q网络在每次迭代过程中都会更新参数，而target Q网络的参数则是每隔一段时间才会更新。

其缺点为：（1）相较于Q学习方法更适用于连续控制动作场景，但是连续动作空间探索难度更为复杂，探索难度大，DQN采用特定的策略算法难以保证对状态空间的有效探索，可能会出现局部最优解问题。

发明内容

本发明的目的在于提供一种电-热综合能源系统协调优化方法、系统、设备及存储介质，本发明的电-热综合能源系统协调优化方法可以直接通过已经训练好的策略网络给出调度动作，无需再进行传统非线性整体迭代求解，计算速度得到了显著的提升，计算效率更高。

为达到上述目的，本发明采用了以下技术方案：

一种电-热综合能源系统协调优化方法，包括以下步骤：

获取实时电-热综合能源系统参数；

基于所述电-热综合能源系统参数，分别计算电-热综合能源系统的电力系统、热力系统和耦合装置的发电功率；

将所述发电功率输入预先训练的基于SAC框架优化调度模型中，输出调度动作，形成电-热综合能源系统协调策略。

作为本发明的进一步改进，所述预先训练的基于SAC框架优化调度模型的训练优化方法包括：

获取历史电-热综合能源系统参数；

基于所述电-热综合能源系统参数，分别计算电-热综合能源系统的电力系统、热力系统和耦合装置的发电功率，并以电力系统、热力系统和耦合装置的发电功率为基础建立电-热综合能源系统模型；

以强化学习环境、状态、动作及奖励作为基本要素，结合电-热综合能源系统调度模型建立基于SAC框架优化调度模型；

对基于SAC框架优化调度模型进行训练，得到预先训练的基于SAC框架优化调度模型。

作为本发明的进一步改进，所述电-热综合能源系统参数包括电热综合能源系统网络参数和电热负荷出力及风电出力。

作为本发明的进一步改进，所述基于所述电-热综合能源系统参数，分别计算电-热综合能源系统的电力系统、热力系统和耦合装置的发电功率，具体包括：

1)电力系统

以交流潮流作为电力系统的分析方法，电力系统的功率平衡方程具体为：

式中P_i，Q_i分别为节点i的注入有功、无功功率，Vi为节点i的电压幅值，G_ij、B_ij分别为支路ij的电导和电纳，θij为支路ij的相角差；

2)热力系统

热力系统分为水力模型和热力模型两部分：

热力系统的水力模型由流量连续性方程、回路压力方程和压头损失方程构成，具体为：

式中，A_h为节点-支路关联矩阵，B为回路-支路关联矩阵；

为管道质量流量速率，

表示节点注入流量，

表示压头损失，K为管道的阻尼系数；

热力模型由节点功率方程、管道温度下降方程和节点介质混合方程构成，具体为：

式中，

为节点i的注入热功率，

为水的比热容，

为节点i的送热管道水温和出口水温，

下标ij表示以i、j为首末端节点的热网管道支路，

为支路的i、j端温度，Te表示外界环境温度；

3) 耦合装置

耦合装置产电产热功率具体为：

式中，

分别为时段t，第i台抽凝机组电出力和热出力；

，

分别为电出力上下限；

为多边形区域表示系数，在给定热电联产装置下为常数。

作为本发明的进一步改进，所述以电力系统、热力系统和耦合装置的发电功率为基础建立电-热综合能源系统模型，具体包括：

以实现电-热综合能源系统的总运行成本最小为目标，同时为实现可在生能源的最大消纳，将可在生能源未消纳的部分作为惩罚项，建立目标函数；

建立电-热综合能源系统模型的约束条件，约束条件包括：节点功率平衡等式约束、网络安全约束、热电联产装置约束、可再生能源约束和常规机组出力约束。

作为本发明的进一步改进，所述目标函数为：

式中，f1为常规机组运行成本，f2为热电联产装置运行成本，f3为弃风惩罚；

其中，常规机组运行成本具体为：

式中，

为常规机组发电功率，

为常规机组能耗系数，

为常规机组的数量；T为调度周期，

为调度时间间隔；

其中，热电联产机组运行成本具体为：

式中，

分别为在时段t，节点i所连热电联产装置发电功率和产热功率；

为热电联产装置能耗系数，

为热电联产的数量；

其中，弃风惩罚具体为：

式中，

表示在时段t，节点i所连风力发电机出力，k为弃风惩罚系数，为常数。

作为本发明的进一步改进，所述节点功率平衡等式约束条件基于网络节点有功功率平衡方程，具体为：

式中，

为电力系统、热力系统节点集合，T为调度时段；

、

分别为时段t，节点i的电负荷和热负荷功率；

所述网络安全约束具体为：

式中：

分别为节点i电压幅值的上限和下限；

为流入热网节点j的热水温度，

为供水温度上、下限；

为热水管道k的质量流量速率，

分别为其上、下限；

所述热电联产装置约束具体为：

式中：

分别为前后两个时段的热电联产发电功率，

，

分别为热电联产装置爬坡速率上下限；

所述可再生能源约束具体为：

式中，

表示时段t，风机i发电功率，

为其最大出力值；

所述常规机组出力约束具体为：

同时满足爬坡约束：

式中：

分别为机组出力上、下限，

分别为机组爬坡速率上、下限。

作为本发明的进一步改进，所述以强化学习环境、状态、动作及奖励作为基本要素，结合电-热综合能源系统调度模型建立基于SAC框架优化调度模型，具体包括：

将常规机组发电功率、热电联产发电功率以及热电联产热功率作为动作变量，具体如下：

式中，

分别为常规机组发电功率，热电联产发电功率，热电联产热功率；

选取为电负荷、风力发电功率、热电联产装置发电功率、常规机组出力、热负荷、热电联产装置产热功率以及环境温度作为状态空间变量，具体为：

式中，

分别为电负荷、风力发电功率、热电联产装置发电功率、常规机组出力、热负荷、热电联产装置产热功率以及环境温度；

搭建强化学习环境，通过策略网络得到当前动作作用于环境，得到即时奖励和下一时段的状态，并为策略评估提供奖励；

强化学习目标为实现长期奖励最大化，将优化目标的相反数设计为即时奖励，同时根据约束条件设置惩罚机制加入到即时奖励中得到最终的奖励函数，惩罚项统一表达形式为：

式中，

为惩罚系数，根据不同的越限惩罚设置相应的常数系数；

奖励函数包括常规机组运行成本，弃风惩罚，热电联产装置运行成本以及变量越限惩罚，具体为：

式中

分别为电力系统、热力系统运行成本以及弃风惩罚，

，

分别为常规机组出力越限及爬坡越限惩罚项，

为系统节点电压越限惩罚，

为热电联产机组出力及爬坡越限惩罚项，

为系统节点温度越限惩罚，

为系统管道质量流量速率越限惩罚。

作为本发明的进一步改进，所述对基于SAC框架优化调度模型进行训练，得到预先训练的基于SAC框架优化调度模型，具体包括：

给评判器目标网络赋值，设置智能记忆库容量D；

当连续

轮训练的奖励平均值变化幅度

时，对于每一时段，都从行动器策略网络中采样控制动作

，并将所述控制动作施加在电-热综合能源系统上，并针对风电不确定性进行采样，得到系统下一个时刻运行状态

，再将状态转移及奖励置入经验库D；

并更新评判器Q网络、行动器策略网络

、温度系数、目标网络得到训练好的策略网络，作为优化的SAC框架的优化调度模型。

作为本发明的进一步改进，更新评判器Q网络、行动器策略网络、温度系数、目标网络采用的方法为SGD算法或Adam算法。

一种电-热综合能源系统协调优化系统，包括：

第一参数获取模块，用于获取实时电-热综合能源系统参数；

功率计算模块，用于基于所述电-热综合能源系统参数，分别计算电-热综合能源系统的电力系统、热力系统和耦合装置的发电功率；

调度输出模块，用于将所述发电功率输入预先训练的基于SAC框架优化调度模型中，输出调度动作，形成电-热综合能源系统协调策略。

作为本发明的进一步改进，所述调度输出模块中预先训练的基于SAC框架优化调度模型包括：

第二参数获取模块，用于获取历史电-热综合能源系统参数；

模型建立模块，用于基于所述电-热综合能源系统参数，分别计算电-热综合能源系统的电力系统、热力系统和耦合装置的发电功率，并以电力系统、热力系统和耦合装置的发电功率为基础建立电-热综合能源系统模型；

模型优化模块，用于以强化学习环境、状态、动作及奖励作为基本要素，结合电-热综合能源系统调度模型建立基于SAC框架优化调度模型；

模型训练模块，用于对基于SAC框架优化调度模型进行训练，得到预先训练的基于SAC框架优化调度模型。

作为本发明的进一步改进，所述模型建立模块具体用于：

作为本发明的进一步改进，所述目标函数为：

其中，常规机组运行成本具体为：

式中，

为常规机组发电功率，

为常规机组能耗系数，

为常规机组的数量；T为调度周期，

为调度时间间隔；

其中，热电联产机组运行成本具体为：

式中，

为热电联产装置能耗系数，

为热电联产的数量；

其中，弃风惩罚具体为：

式中，

式中，

为电力系统、热力系统节点集合，T为调度时段；

、

分别为时段t，节点i的电负荷和热负荷功率；

所述网络安全约束具体为：

式中：

分别为节点i电压幅值的上限和下限；

为流入热网节点j的热水温度，

为供水温度上、下限；

为热水管道k的质量流量速率，

分别为其上、下限；

所述热电联产装置约束具体为：

式中：

分别为前后两个时段的热电联产发电功率，

，

分别为热电联产装置爬坡速率上下限；

所述可再生能源约束具体为：

式中，

表示时段t，风机i发电功率，

为其最大出力值；

所述常规机组出力约束具体为：

同时满足爬坡约束：

式中：

分别为机组出力上、下限，

分为机组爬坡速率上、下限。

作为本发明的进一步改进，所述模型优化模块具体用于：

式中，

式中，

式中，

为惩罚系数，根据不同的越限惩罚设置相应的常数系数；

式中

分别为电力系统、热力系统运行成本以及弃风惩罚，

，

分别为常规机组出力越限及爬坡越限惩罚项，

为系统节点电压越限惩罚，

为热电联产机组出力及爬坡越限惩罚项，

为系统节点温度越限惩罚，

为系统管道质量流量速率越限惩罚。

作为本发明的进一步改进，所述模型训练模块具体用于：

给评判器目标网络赋值，设置智能记忆库容量D；

当连续

轮训练的奖励平均值变化幅度

时，对于每一时段，都从行动器策略网络中采样控制动作

，再将状态转移及奖励置入经验库D；

并更新评判器Q网络、行动器策略网络

一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述电-热综合能源系统协调优化方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述电-热综合能源系统协调优化方法的步骤。

与现有技术相比，本发明的有益效果体现在：

本发明采用基于优化的SAC框架的优化调度模型在给定负荷等系统状态时给出调度动作，进而生成策略；当系统给出确定的负荷等系统状态时，该算法可以直接通过已经训练好的策略网络给出调度动作，无需再进行传统非线性整体迭代求解，计算速度得到了显著的提升，计算效率更高。

本发明建立电-热综合能源系统模型后建立基于SAC框架的优化调度模型，SAC算法属于随机离线策略算法，其自趋优的特性对综合能源优化调度问题进行自主学习，通过和环境交互观测得到奖励值评价策略优劣，学习探索所有的最优策略途径，从而在无监督下实现调度周期内成本最优。经过学习训练之后的网络模型，解决了离散处理状态和动作所带来维数灾难的问题。并且能够可靠收敛，适用范围广，例如可以适用于考虑风电等可再生能源及负荷的出力随机性变化的场景，更加具有普适性。

附图说明

图1为本发明的电-热综合能源系统协调优化方法流程示意图；

图2为本发明的预先训练的基于SAC框架优化调度模型的训练优化方法流程示意图；

图3为本发明的电-热综合能源系统图；

图4为本发明的供热网示意图；

图5为本发明基于SAC框架的优化调度模型进行训练具体算法流程图；

图6为本发明一种电-热综合能源系统协调优化系统结构示意图；

图7为本发明预先训练的基于SAC框架优化调度模型结构示意图；

图8为本发明一种电子设备结构示意图。

具体实施方式

下面将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

以下详细说明均是示例性的说明，旨在对本发明提供进一步的详细说明。除非另有指明，本发明所采用的所有技术术语与本申请所属领域的一般技术人员的通常理解的含义相同。本发明所使用的术语仅是为了描述具体实施方式，而并非意图限制根据本发明的示例性实施方式。

缩略语和关键术语定义

IEHS Integrated electricity-heat energy system 电热综合能源系统

SAC Soft Actor-Critic 柔性行动器-评判器

DQN Deep Q Network 深度Q学习

Adam Adaptive Moment Estimation 自适应矩估计

本发明即采用SAC算法主要是解决电-热综合能源系统经济调度求解问题。提出了一种电-热综合能源系统协调优化方法，如图1所示，包括以下步骤：

获取实时电-热综合能源系统参数；

其中，如图2所示，所述预先训练的基于SAC框架优化调度模型的训练优化方法包括：

获取历史电-热综合能源系统参数；

本发明基于SAC算法的电-热综合能源系统经济调度方法，采用连续控制策略，同时将最大熵添加到优化目标中，能够与电热综合能源系统交互、学习并生成最优控制策略，很好地解决了电-热综合能源系统协同优化求解过程中高维求解、收敛困难、难以精准寻优的问题。因此，本发明为综合能源系统协同优化思路提供了有力的技术支持，为综合能源调度决策人员提供决策依据，对实现系统的多能互补、可再生能源消纳、提高系统运行经济性具有重要意义。

本发明采用深度强化学习方法求解电热综合能源系统经济调度问题，主要用于解决传统方法存在以下几点技术问题：

1）深度强化学习方法利用神经网络拟合电热综合能源系统不同状态下的最优策略，网络训练完成后可实时得出调度策略，而传统的非线性传统算法需要全局寻优，深度强化学习方法提升了计算效率。

2）深度强化学习在电-热综合能源系统的优化调度问题中探索能力更强，收敛稳定性更好，相较于智能体算法粒子群算法，调度成本更低。

3）本发明提出的基于柔性行动器-评判器（Soft Actor-Critic，SAC）算法的电-热综合能源系统深度强化学习经济调度方法，采用连续控制策略，避免了基于值函数强化学习方法离散化变量带来的高维求解困难问题，同时将最大熵添加到优化目标中，探索各种最优可能性。

以下结合具体实施和附图对发明的电-热综合能源系统协调优化方法进行详细说明。

本发明的方法包括以下步骤：

步骤1 导入电-热综合能源系统参数。

如图3所示为电-热综合能源系统图，首先收集如图3所示电热综合能源系统网络参数和电热负荷出力及风电出力。采集的数据如表1所示。

表1 电-热综合能源参数表

步骤2 建立电-热综合能源系统模型。

采用本发明将电-热综合能源系统分电力、热力系统和耦合装置这三部分进行建模。

(1)电力系统

本发明以交流潮流作为电力系统的分析方法，电力系统的功率平衡方程表示为：

（4）

式中P_i，Q_i分别为节点i的注入有功、无功功率，V_i为节点i的电压幅值，G_ij、B_ij分别为支路ij的电导和电纳，θ_ij为支路ij的相角差；

(2)热力系统

区域热力系统采用集中供热方式进行供暖，如图4表示热力系统简易示意图。

热力系统在热源处产生热能，通过送水管道输送到热负荷，经热负荷降温后通过回水管道回流，形成闭合回路。热力系统分为水力模型和热力模型两部分：

1）水力模型。热力系统的水力模型表示介质流动，由流量连续性方程，回路压力方程和压头损失方程构成。

（5）

式中，A_h为节点-支路关联矩阵，B为回路-支路关联矩阵。

为管道质量流量速率，

表示节点注入流量，

表示压头损失，K为管道的阻尼系数。

2）热力模型。热力模型表示能量传输过程，由节点功率方程，管道温度下降方程和节点介质混合方程构成。

（6）

式中，

为节点i的注入热功率，

为水的比热容，

为节点i的送热管道水温和出口水温，

下标ij表示以i、j为首末端节点的热网管道支路，

为支路的i、j端温度，T_e表示外界环境温度。

(3) 耦合装置

本发明热电联产机组采用抽凝式机组，运行点在多边形区域内，其产电产热功率可用式(7)表示：

（7）

式中，

分别为时段t，第i台抽凝机组电出力和热出力；

，

分别为电出力上下限；

为多边形区域表示系数，在给定热电联产装置下为常数。

步骤201 建立目标函数。本发明以实现电-热综合能源系统的总运行成本最小为目标，同时为实现可在生能源的最大消纳，将可在生能源未消纳的部分作为惩罚项：

（8）

式中，f₁为常规机组运行成本，f₂为热电联产装置运行成本，f₃为弃风惩罚。

1）常规机组运行成本

（9）

式中，

为常规机组发电功率，

为常规机组能耗系数，

为常规机组的数量；T为调度周期，

为调度时间间隔。

2）热电联产机组运行成本

（10）

式中，

分别为在时段

，节点

所连热电联产装置发电功率和产热功率；

为热电联产装置能耗系数，

为热电联产的数量。

3）弃风惩罚

（11）

式中，

步骤202 建立优化模型的约束条件。

1）节点功率平衡等式约束条件，式(12)、(13)表示网络节点有功功率平衡方程。

（12）-（13）

式中，

为电力系统、热力系统节点集合，T为调度时段；

、

分别为时段t，节点i的电负荷和热负荷功率。

2）网络安全约束

为实现电-热综合能源系统安全可靠运行，系统应满足式(14)-式(16)的网络约束。

（14）-（16）

式中：

分别为节点i电压幅值的上限和下限；

为流入热网节点j的热水温度，

为供水温度上、下限；

为热水管道k的质量流量速率，

分别为其上、下限。

3）热电联产装置约束

热电联产机组应满足爬坡约束：

（17）

式中：

分别为前后两个时段的热电联产发电功率，

，

分别为热电联产装置爬坡速率上下限。

4）可再生能源约束

（18）

式中，

表示时段t，风机i发电功率，

为其最大出力值。

5）常规机组出力约束

（19）

同时满足爬坡约束：

（20）

式中：

分别为机组出力上、下限，

分为机组爬坡速率上、下限。

步骤3 建立基于SAC的电-热耦合综合能源系统优化调度模型。根据强化学习环境，状态，动作，奖励这4个基本要素，结合电-热综合能源系统调度模型建立基于SAC框架的优化调度模型。

1）动作空间。动作空间变量与所研究系统的控制变量相对应，将常规机组发电功率，热电联产发电功率以及热电联产热功率作为动作变量，如下所示。

（21）

式中，

2）状态空间。状态空间变量与所研究系统的状态变量对应，状态空间选取为电负荷，风力发电功率，热电联产装置发电功率，常规机组出力，热负荷，热电联产装置产热功率以及环境温度：

（22）

式中，

3）环境。本发明搭建强化学习环境，通过策略网络得到当前动作作用于环境，得到即时奖励和下一时段的状态，起到状态转移的作用，并为策略评估提供奖励。

4）奖励函数。强化学习目标为实现长期奖励最大化，则将优化目标的相反数设计为即时奖励，同时根据约束条件设置惩罚机制加入到即时奖励中得到最终的奖励函数。惩罚项统一表达形式为式(23)

（23）-（24）

式中，

为惩罚系数，根据不同的越限惩罚设置相应的常数系数。

奖励函数包括常规机组运行成本，弃风惩罚，热电联产装置运行成本以及变量越限惩罚。

（25）

式中

分别为电力系统、热力系统运行成本以及弃风惩罚，

，

分别为常规机组出力越限及爬坡越限惩罚项，

为系统节点电压越限惩罚，

为热电联产机组出力及爬坡越限惩罚项，

为系统节点温度越限惩罚，

为系统管道质量流量速率越限惩罚。

步骤4 SAC训练过程。首先对优化调度智能体行动器策略网络

和评判器Q网络；具体流程如图5的算法流程图。

初始化，并给评判器目标网络赋值，即

，设置智能记忆库D容量。当连续

轮训练的奖励平均值变化幅度

时，对于每一时段，都需要从行动器策略网络中采样控制动作

，并将动作施加在电-热综合能源系统上，针对风电不确定性进行采样，得到系统下一个时刻运行状态

，再将状态转移及奖励置入经验库D，即

；对于每一次梯度更新，采用Adam策略更新评判器Q网络

、行动器策略网络

、温度系数

、目标网络

。

并且训练好的策略网络在给定负荷等系统状态时可以直接给出调度动作，生成策略。

另外，作为优选实施例，发电机以及热电联产机组成本的计算可采用线性模型替代，但会影响计算结果精度；CHP机组惩罚项可采用定电热比形式进行建模，但其控制灵活性和计算准确度不如多边形区域模型；奖惩机制中的惩罚函数可以采用阶跃函数的形式建立，但阶跃函数或噪声神经网络拟合困难，降低求解精度。训练方法可采用随机梯度下降法SGD替代Adam，但实践表明Adam算法更好。

如图6所示，本发明还提供一种电-热综合能源系统协调优化系统，包括：

第一参数获取模块，用于获取实时电-热综合能源系统参数；

其中，如图7所示，所述调度输出模块中预先训练的基于SAC框架优化调度模型包括：

第二参数获取模块，用于获取历史电-热综合能源系统参数；

优选的，所述模型建立模块具体用于：

优选的，所述目标函数为：

式中，f₁为常规机组运行成本，f₂为热电联产装置运行成本，f₃为弃风惩罚；

其中，常规机组运行成本具体为：

式中，

为常规机组发电功率，

为常规机组能耗系数，

为常规机组的数量；T为调度周期，

为调度时间间隔；

其中，热电联产机组运行成本具体为：

式中，

为热电联产装置能耗系数，

为热电联产的数量。

其中，弃风惩罚具体为：

式中，

优选的，所述节点功率平衡等式约束条件基于网络节点有功功率平衡方程，具体为：

式中，

为电力系统、热力系统节点集合，T为调度时段；

、

分别为时段t，节点i的电负荷和热负荷功率；

所述网络安全约束具体为：

式中：

分别为节点i电压幅值的上限和下限；

为流入热网节点j的热水温度，

为供水温度上、下限；

为热水管道k的质量流量速率，

分别为其上、下限；

所述热电联产装置约束具体为：

式中：

分别为前后两个时段的热电联产发电功率，

，

分别为热电联产装置爬坡速率上下限；

所述可再生能源约束具体为：

式中，

表示时段t，风机i发电功率，

为其最大出力值。

所述常规机组出力约束具体为：

同时满足爬坡约束：

式中：

分别为机组出力上、下限，

分为机组爬坡速率上、下限。

优选的，所述模型优化模块具体用于：

所述模型优化模块具体用于：

式中，

式中，

式中，

为惩罚系数，根据不同的越限惩罚设置相应的常数系数；

式中

分别为电力系统、热力系统运行成本以及弃风惩罚，

，

分别为常规机组出力越限及爬坡越限惩罚项，

为系统节点电压越限惩罚，

为热电联产机组出力及爬坡越限惩罚项，

为系统节点温度越限惩罚，

为系统管道质量流量速率越限惩罚。

优选的，所述模型训练模块具体用于：

给评判器目标网络赋值，设置智能记忆库容量D；

当连续

轮训练的奖励平均值变化幅度

时，对于每一时段，都从行动器策略网络中采样控制动作

，再将状态转移及奖励置入经验库D；

并更新评判器Q网络、行动器策略网络

如图8所示，本发明第三个目的是提供一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述电-热综合能源系统协调优化方法的步骤。

所述电-热综合能源系统协调优化方法包括以下步骤：

获取电-热综合能源系统参数；

基于所述电-热综合能源系统参数，计算电-热综合能源系统的电力系统、热力系统和耦合装置，并以电力系统、热力系统和耦合装置为基础建立电-热综合能源系统模型；

以强化学习环境、状态、动作及奖励作为基本要素，结合电-热综合能源系统调度模型建立基于SAC框架的优化调度模型；

对基于SAC框架的优化调度模型进行训练，得到优化的SAC框架的优化调度模型；通过优化的SAC框架的优化调度模型在给定负荷等系统状态时给出调度动作，进而生成策略。

本发明第四个目的是提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述电-热综合能源系统协调优化方法的步骤。

所述电-热综合能源系统协调优化方法包括以下步骤：

获取电-热综合能源系统参数；

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种电-热综合能源系统协调优化方法，其特征在于，包括以下步骤：

获取实时电-热综合能源系统参数；

2.根据权利要求1所述的电-热综合能源系统协调优化方法，其特征在于，

所述预先训练的基于SAC框架优化调度模型的训练优化方法包括：

获取历史电-热综合能源系统参数；

3.根据权利要求1或2所述的电-热综合能源系统协调优化方法，其特征在于，

所述电-热综合能源系统参数包括电热综合能源系统网络参数和电热负荷出力及风电出力。

4.根据权利要求1或2所述的电-热综合能源系统协调优化方法，其特征在于，

所述基于所述电-热综合能源系统参数，分别计算电-热综合能源系统的电力系统、热力系统和耦合装置的发电功率，具体包括：

1)电力系统

2)热力系统

热力系统分为水力模型和热力模型两部分：

式中，A_h为节点-支路关联矩阵，B为回路-支路关联矩阵；

为管道质量流量速率，

表示节点注入流量，

表示压头损失，K为管道的阻尼系数；

式中，

为节点i的注入热功率，

为水的比热容，

为节点i的送热管道水温和出口水温，

下标ij表示以i、j为首末端节点的热网管道支路，

为支路的i、j端温度，T_e表示外界环境温度；

3) 耦合装置

耦合装置产电产热功率具体为：

式中，

分别为时段t，第i台抽凝机组电出力和热出力；

，

分别为电出力上下限；

为多边形区域表示系数，在给定热电联产装置下为常数。

5.根据权利要求2所述的电-热综合能源系统协调优化方法，其特征在于，

所述以电力系统、热力系统和耦合装置的发电功率为基础建立电-热综合能源系统模型，具体包括：

6.根据权利要求5所述的电-热综合能源系统协调优化方法，其特征在于，

所述目标函数为：

其中，常规机组运行成本具体为：

式中，

为常规机组发电功率，

为常规机组能耗系数，

为常规机组的数量；T为调度周期，

为调度时间间隔；

其中，热电联产机组运行成本具体为：

式中，

为热电联产装置能耗系数，

为热电联产的数量；

其中，弃风惩罚具体为：

式中，

7.根据权利要求5所述的电-热综合能源系统协调优化方法，其特征在于，

所述节点功率平衡等式约束条件基于网络节点有功功率平衡方程，具体为：

式中，

为电力系统、热力系统节点集合，T为调度时段；

、

分别为时段t，节点i的电负荷和热负荷功率；

所述网络安全约束具体为：

式中：

分别为节点i电压幅值的上限和下限；

为流入热网节点j的热水温度，

为供水温度上、下限；

为热水管道k的质量流量速率，

分别为其上、下限；

所述热电联产装置约束具体为：

式中：

分别为前后两个时段的热电联产发电功率，

，

分别为热电联产装置爬坡速率上下限；

所述可再生能源约束具体为：

式中，

表示时段t，风机i发电功率，

为其最大出力值；

所述常规机组出力约束具体为：

同时满足爬坡约束：

式中：

分别为机组出力上、下限，

分别为机组爬坡速率上、下限。

8.根据权利要求2所述的电-热综合能源系统协调优化方法，其特征在于，

所述以强化学习环境、状态、动作及奖励作为基本要素，结合电-热综合能源系统调度模型建立基于SAC框架优化调度模型，具体包括：

式中，

式中，

式中，

为惩罚系数，根据不同的越限惩罚设置相应的常数系数；

式中

分别为电力系统、热力系统运行成本以及弃风惩罚，

，

分别为常规机组出力越限及爬坡越限惩罚项，

为系统节点电压越限惩罚，

为热电联产机组出力及爬坡越限惩罚项，

为系统节点温度越限惩罚，

为系统管道质量流量速率越限惩罚。

9.根据权利要求2所述的电-热综合能源系统协调优化方法，其特征在于，

所述对基于SAC框架优化调度模型进行训练，得到预先训练的基于SAC框架优化调度模型，具体包括：

给评判器目标网络赋值，设置智能记忆库容量D；

当连续

轮训练的奖励平均值变化幅度

时，对于每一时段，都从行动器策略网络中采样控制动作

，再将状态转移及奖励置入经验库D；

并更新评判器Q网络、行动器策略网络

10.根据权利要求2所述的电-热综合能源系统协调优化方法，其特征在于，

更新评判器Q网络、行动器策略网络、温度系数、目标网络采用的方法为SGD算法或Adam算法。

11.一种电-热综合能源系统协调优化系统，其特征在于，包括：

第一参数获取模块，用于获取实时电-热综合能源系统参数；

12.根据权利要求11所述的一种电-热综合能源系统协调优化系统，其特征在于，所述调度输出模块中预先训练的基于SAC框架优化调度模型包括：

第二参数获取模块，用于获取历史电-热综合能源系统参数；

13.根据权利要求12所述的一种电-热综合能源系统协调优化系统，其特征在于，所述模型建立模块具体用于：

14.根据权利要求13所述的一种电-热综合能源系统协调优化系统，其特征在于，

所述目标函数为：

其中，常规机组运行成本具体为：

式中，

为常规机组发电功率，

为常规机组能耗系数，

为常规机组的数量；T为调度周期，

为调度时间间隔；

其中，热电联产机组运行成本具体为：

式中，

为热电联产装置能耗系数，

为热电联产的数量；

其中，弃风惩罚具体为：

式中，

15.根据权利要求13所述的一种电-热综合能源系统协调优化系统，其特征在于，所述节点功率平衡等式约束条件基于网络节点有功功率平衡方程，具体为：

式中，

为电力系统、热力系统节点集合，T为调度时段；

、

分别为时段t，节点i的电负荷和热负荷功率；

所述网络安全约束具体为：

式中：

分别为节点i电压幅值的上限和下限；

为流入热网节点j的热水温度，

为供水温度上、下限；

为热水管道k的质量流量速率，

分别为其上、下限；

所述热电联产装置约束具体为：

式中：

分别为前后两个时段的热电联产发电功率，

，

分别为热电联产装置爬坡速率上下限；

所述可再生能源约束具体为：

式中，

表示时段t，风机i发电功率，

为其最大出力值；

所述常规机组出力约束具体为：

同时满足爬坡约束：

式中：

分别为机组出力上、下限，

分为机组爬坡速率上、下限。

16.根据权利要求12所述的一种电-热综合能源系统协调优化系统，其特征在于，所述模型优化模块具体用于：

式中，

式中，

式中，

为惩罚系数，根据不同的越限惩罚设置相应的常数系数；

式中

分别为电力系统、热力系统运行成本以及弃风惩罚，

，

分别为常规机组出力越限及爬坡越限惩罚项，

为系统节点电压越限惩罚，

为热电联产机组出力及爬坡越限惩罚项，

为系统节点温度越限惩罚，

为系统管道质量流量速率越限惩罚。

17.根据权利要求12所述的一种电-热综合能源系统协调优化系统，其特征在于，所述模型训练模块具体用于：

给评判器目标网络赋值，设置智能记忆库容量D；

当连续

轮训练的奖励平均值变化幅度

时，对于每一时段，都从行动器策略网络中采样控制动作

，再将状态转移及奖励置入经验库D；

并更新评判器Q网络、行动器策略网络

18.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1-10任一项所述电-热综合能源系统协调优化方法的步骤。

19.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-10任一项所述电-热综合能源系统协调优化方法的步骤。