CN113723749A

CN113723749A - 一种多园区综合能源系统协调调度方法及装置

Info

Publication number: CN113723749A
Application number: CN202110820297.6A
Authority: CN
Inventors: 李�昊; 张静; 刘畅; 林晶怡; 张思瑞; 李斌; 蒋利民; 李文
Original assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; State Grid Anhui Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; State Grid Anhui Electric Power Co Ltd
Priority date: 2021-07-20
Filing date: 2021-07-20
Publication date: 2021-11-30

Abstract

本发明涉及电力系统调度技术领域，具体提供了一种多园区综合能源系统协调调度方法及装置，旨在解决无法满足综合能源系统多源、多能流和多尺度的需求的技术问题。包括：获取多园区综合能源系统的当前状态量；将所述当前状态量作为预先训练的强化学习模型的输入，获取预先训练的强化学习模型输出的多园区综合能源系统的动作控制量；其中，所述预先训练的强化学习模型的训练样本为多园区综合能源系统的历史状态量。本发明提供的技术方案有利于实现多园区综合能源系统内部各个园区间的供能互补以及资源的合理分配，从而更好的提高了多园区综合能源系统内能源的利用率。

Description

一种多园区综合能源系统协调调度方法及装置

技术领域

本发明涉及电力系统调度领域，具体涉及一种多园区综合能源系统协调调度方法及装置。

背景技术

随着经济的快速发展，人类对能源的需求不断增加，而传统的化石能源却日益枯竭。为此，人们力图通过增加新能源消费比例，同时提高能源综合利用率来解决当下面临的能源供给问题。以分布式能源为基础的综合能源系统，通过能量的梯级利用以及多种能源间的协调互补，使不同能源形态之间的耦合更加紧密，对构建清洁、低碳、安全、高效的现代化能源体系具有十分重要的意义。

园区型综合能源系统是一个复杂的多能耦合系统，可向终端用户提供灵活的多品位能源。随着经济社会的发展，同一区域内多个园区互联，并接入上级配网形成多园区综合能源系统。园区间的能量交互会对园区优化运行以及配网安全经济调度产生较大影响，亟需对多园区综合能源系统的协调优化调度问题展开研究。

新能源的不稳定性、能量流动的多向性、以及多种能量在不同时间和空间尺度的需求差异性等问题，使得多园区综合能源系统的协调优化调度面临重大挑战。针对新能源出力的波动性以及用户负荷的随机性，一般采用随机优化或鲁棒优化的方法予以应对，但这两种方法各有其优缺点，仍无法满足综合能源系统多源、多能流和多尺度的需求。

发明内容

为了克服上述缺陷，提出了本发明，以提供解决或至少部分地解决如何更有效的实现多园区综合能源系统内部各个园区间的供能互补以及资源的合理分配的技术问题的多园区综合能源系统协调调度方法及装置。

第一方面，提供一种多园区综合能源系统协调调度方法，所述多园区综合能源系统协调调度方法包括：

获取多园区综合能源系统的当前状态量；

将所述当前状态量作为预先训练的强化学习模型的输入，获取预先训练的强化学习模型输出的多园区综合能源系统的动作控制量；

其中，所述预先训练的强化学习模型的训练样本为多园区综合能源系统的历史状态量。

优选的，所述状态量至少包括下述中的一种：光伏发电功率、电负荷、热负荷、冷负荷、蓄电池储能荷电状态、热储能荷电状态、调度时段；

所述动作控制量至少包括下述中的一种：蓄电池储能充放电功率、热储能储放热功率、电锅炉热功率、热电联产单元电功率、电制冷空调冷功率、燃气锅炉热功率、吸收式制冷机冷功率。

优选的，所述预先训练的强化学习模型的状态空间的数学模型如下：

上式中，S为状态集合；s_i,t为第i个园区综合能源系统在调度时段t时的状态集合；

为第i个园区综合能源系统在调度时段t时的光伏发电功率；

为第i个园区综合能源系统在调度时段t时的电负荷；

为第i个园区综合能源系统在调度时段t时的热负荷；

为第i个园区综合能源系统在调度时段t时的冷负荷；

为第i个园区综合能源系统在调度时段t时的蓄电池储能荷电状态；

为第i个园区综合能源系统在调度时段t时的热储能荷电状态；t为调度时段；

所述预先训练的强化学习模型的动作空间的数学模型如下：

上式中，A为动作集合；a_i,t为第i个园区综合能源系统在调度时段t时的状态集合；

为第i个园区综合能源系统在调度时段t时的蓄电池储能充放电功率；

为第i个园区综合能源系统在调度时段t时的热储能储放热功率；

为第i个园区综合能源系统在调度时段t时的电锅炉热功率；

为第i个园区综合能源系统在调度时段t时的热电联产单元电功率；

为第i个园区综合能源系统在调度时段t时的电制冷空调冷功率；

为第i个园区综合能源系统在调度时段t时的燃气锅炉热功率；

为第i个园区综合能源系统在调度时段t时的吸收式制冷机冷功率；

所述预先训练的强化学习模型的奖励函数的数学模型如下：

上式中，r_i,t为第i个园区综合能源系统在调度时段t时的奖励函数；1/2500为收益值缩放系数；

为第i个园区综合能源系统在调度时段t时的电力市场收益；

为第i个园区综合能源系统在调度时段t时的热电联供单元和燃气锅炉购买天然气成本；

为第i个园区综合能源系统在调度时段t时的中断负荷成本。

进一步的，所述第i个园区综合能源系统在调度时段t时的电力市场收益

的计算式如下：

所述第i个园区综合能源系统在调度时段t时的热电联供单元和燃气锅炉购买天然气成本

的计算式如下：

所述第i个园区综合能源系统在调度时段t时的中断负荷成本

的计算式如下：

上式中，

为调度时段t时电力市场的电价；

为第i个园区综合能源系统在调度时段t时与主电网的交易量；

为调度时段t时的天然气价格；K为中断等级数；

为第k级中断负荷补偿价格；

为第i个园区综合能源系统在调度时段t时的第k级中断负荷；

为第i个园区综合能源系统在调度时段t时热电联供单元天然气耗量；

为第i个园区综合能源系统在调度时段t时燃气锅炉天然气耗量。

优选的，所述预先训练的强化学习模型的约束条件至少包括下述中的一种：冷热电功率平衡约束、热冷管道约束、蓄电池储能约束、热储能约束、中断负荷约束和设备出力上下限约束。

优选的，所述预先训练的强化学习模型的损失函数的数学模型如下：

上式中，Q为动作-值函数；

为第i个园区综合能源系统对应的智能体的损失函数；y_i,t为目标Q值；ω(i,j)是第j个园区综合能源系统对应的智能体发送给第i个园区综合能源系统对应的智能体的Q值权重；N为园区综合能源系统总数；

分别为第i个园区综合能源系统对应的智能体和第j个园区综合能源系统对应的智能体的评论家网络参数；s_i,t为第i个园区综合能源系统在调度时段t时的状态集合；a_i,t为第i个园区综合能源系统在调度时段t时的动作集合；s_j,t-1为第j个园区综合能源系统在调度时段t-1时的状态集合；a_j,t-1为第j个园区综合能源系统在调度时段t-1时的动作集合；E为求期望。

进一步的，所述目标Q值y_i,t的数学模型如下：

上式中，γ为奖励折扣系数，γ∈[0,1]；

为第i个园区综合能源系统对应的智能体的评论家网络对应的目标网络参数；

为第i个园区综合能源系统对应的智能体的演员网络对应的目标网络参数；s_i,t+1为第i个园区综合能源系统在调度时段t+1时的状态集合；π′为目标策略；

所述第i个园区综合能源系统对应的智能体的评论家网络参数的更新公式为：

上式中，α^Q为评论家网络的学习率；

所述第i个园区综合能源系统对应的智能体的评论家网络对应的目标网络参数

的更新公式为：

所述第i个园区综合能源系统对应的智能体的演员网络对应的目标网络参数

的更新公式为：

上式中，τ为软更新系数；

为第i个园区综合能源系统对应的智能体的演员网络参数，其更新公式为：

上式中，α^π为演员网络的学习率；

为确定性策略；N_i,t为随机噪声。

优选的，所述预先训练的强化学习模型的训练过程包括：

以多园区综合能源系统的历史状态量为训练样本，采用mini-batch的方式对初始强化学习模型进行训练。

第二方面，提供一种多园区综合能源系统协调调度装置，所述多园区综合能源系统协调调度装置包括：

获取模块，用于获取多园区综合能源系统的当前状态量；

输出模块，用于将所述当前状态量作为预先训练的强化学习模型的输入，获取预先训练的强化学习模型输出的多园区综合能源系统的动作控制量；

第三方面，提供一种多园区综合能源系统协调调度设备，所述设备包括：处理器以及存储有计算机程序指令的存储器；所述处理器执行所述计算机程序指令时实现所述的多园区综合能源系统协调调度方法。

本发明上述一个或多个技术方案，至少具有如下一种或多种有益效果：

本发明提供了一种多园区综合能源系统协调调度方法及装置，旨在解决无法满足综合能源系统多源、多能流和多尺度的需求的技术问题。包括：获取多园区综合能源系统的当前状态量；将所述当前状态量作为预先训练的强化学习模型的输入，获取预先训练的强化学习模型输出的多园区综合能源系统的动作控制量；其中，所述预先训练的强化学习模型的训练样本为多园区综合能源系统的历史状态量。与各园区单独优化相比，本发明提供的技术方案实现了多园区协调运行，能够更加有效地利用不同园区的能源，实现资源的合理分配以及各个园区间的供能互补，从而更好的提高了多园区综合能源系统内能源系统收益及利用率；

进一步的，本发明提供的技术方案中预先训练的强化学习模型的损失函数中引入了其它园区综合能源系统对应的智能体在最近时刻的Q值，且不同园区综合能源系统对应的智能体的Q值具有不同的权重，实现了各智能体间的信息交互，相比于传统深度强化算法不考虑智能体间信息交互，从算法层面上考虑了各园区间的相互影响，此模型更贴合多园区综合能源系统运行实际。此外，利用历史状态量对强化学习模型进行训练，输出多园区综合能源系统的动作控制量，与已有的综合能源系统调度方法不同，此过程不依赖于对可再生能源和负荷进行预测或建模，精度高，适用性更强。

附图说明

图1是根据本发明的一个实施例的多园区综合能源系统协调调度方法的主要步骤流程示意图；

图2是本发明实施例中多园区综合能源系统架构图；

图3是本发明实施例中冷热电联产系统结构图；

图4是本发明实施例中单智能体训练过程示意图；

图5是本发明实施例中训练过程中的奖励曲线；

图6是本发明实施例中典型日工业区电能调度结果；

图7是本发明实施例中典型日工业区热能调度结果；

图8是本发明实施例中典型日工业区冷能调度结果；

图9是根据本发明的一个实施例的多园区综合能源系统协调调度装置的主要结构框图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步的详细说明。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

参阅附图1，图1是根据本发明的一个实施例的多园区综合能源系统协调调度方法的主要步骤流程示意图。如图1所示，本发明实施例中的多园区综合能源系统协调调度方法主要包括以下步骤：

步骤S101：获取多园区综合能源系统的当前状态量；

步骤S102：将所述当前状态量作为预先训练的强化学习模型的输入，获取预先训练的强化学习模型输出的多园区综合能源系统的动作控制量；

所述状态量至少包括下述中的一种：光伏发电功率、电负荷、热负荷、冷负荷、蓄电池储能荷电状态、热储能荷电状态、调度时段；

本实施例中，在构建强化学习模型之前，需构建多园区综合能源系统架构，建立多园区综合能源系统协调调度的目标函数和约束条件，具体包括下述步骤：

(1)以冷热电联供系统结构为基础，构建多园区综合能源系统架构，系统内部包含工业区、商业区和居民区三个园区，每个园区均配置相应的冷热电联供机组；

(2)建立热电联供单元、电制冷空调、冷热管道等内部资源能量转换模型，以最大化系统收益为目标，建立多园区综合能源系统协调调度模型；

进一步的，在本发明的多园区综合能源系统中，不同区域间存在信息和能源的交互。每一个区域都配有独立的冷热电联供机组。在整体研究对象中，电网为辐射型网络，热网和冷网为环形网络，多园区综合能源系统架构如图2所示。

冷热电联供机组实现了不同能源之间的相互耦合，其中包含光伏电站、蓄电池、热储能、热电联供单元、余热回收装置、燃气锅炉、电锅炉、电制冷空调、吸收式制冷机以及冷热电负荷等，通过多种能源的耦合转换可同时满足冷、热、电多种能源的供应需求，冷热电联产系统结构如图3所示。

根据本发明所建立的多园区综合能源系统基本架构，对内部资源进行建模。

热电联供单元的发电功率为：

式中：

为t时段i区域热电联供单元电功率；

为t时段i区域热电联供单元天然气耗量；

为i区域热电联供单元效率。

热电联产单元在发电的同时，还可以利用相关装置对排出的高温烟气进行收集制热，用于供热和热水供应，热电联供单元的热功率与电功率比值为热电比a，可表示为：

式中：a为热电比；

为t时段i区域燃气轮机热功率。

余热回收装置收集来自热电联供单元的高温烟气供给系统的热负荷需求，供热功率计算如下：

式中：

为t时段i区域余热回收装置供热功率；

为i区域余热回收装置效率。

燃气锅炉消耗天然气提供热能，热功率计算如下：

式中：

为t时段i区域燃气锅炉热功率；

为t时段i区域燃气锅炉天然气耗量；

为i区域燃气锅炉效率。

电锅炉通过消耗电能直接产生热能以满足用户供热需求，热功率计算如下：

式中：

为t时段区域i电锅炉热功率；

为t时段区域i电锅炉输入电功率；

为区域i电锅炉效率。

电制冷空调和吸收式制冷机分别通过耗电和吸热的方式产冷来满足冷负荷需求，功率转换关系为:

式中：

分别为t时段区域i电制冷空调输入电功率和输出冷功率；

分别为t时段i区域吸收式制冷机输入热功率和输出冷功率；

分别为区域i电制冷空调和吸收式制冷机制冷系数。

蓄电池储能和热储能的荷电状态计算如下：

式中：

分别为t+1时段区域i蓄电池荷电状态和热储能荷电状态；

分别为t时段区域i蓄电池荷电状态和热储能荷电状态；

分别为t时段区域i蓄电池充、放电功率和热储能储、放热功率；

分别为区域i蓄电池充、放电效率和热储能储、放热效率；

分别为区域i蓄电池容量和热储能容量；Δt为时间步长。

热能和冷能的传输通过热、冷管道的输送来实现，计及热能和冷能损耗的热、冷管道模型如下：

式中：

分别为t时段区域i向j输送能量时i输出的热功率和j输入的热功率；

分别为t时段区域i向j输送能量时i输出的冷功率和j输入的冷功率；η^TF、η^CF分别为单位距离热能和冷能损耗率；D_i,j为区域i到j的距离。

多园区综合能源系统优化调度问题的目标是协调系统中各单元出力，获得最大化收益(最小化成本)，其目标函数为：

式中：

为电力市场收益；

为热电联供单元和燃气锅炉购买天然气成本；

为中断负荷成本，T为总调度时段，N为总园区个数。

目标函数中各部分具体表达式为：

式中：

为电力市场收益；

为t时段电力市场的电价；

为t时段区域i与主电网的交易量(正为售电，负为购电)。

式中：

为热电联供单元和燃气锅炉购买天然气成本；

为t时段天然气价格。

式中：

为中断负荷成本；K为中断等级数；

为第k级中断负荷补偿价格；

为第k级中断负荷。

以最大化收益为目标的多园区综合能源系统优化调度模型的约束条件包括冷热电功率平衡约束、热冷管道约束、蓄电池储能约束、热储能约束、中断负荷约束和设备出力上下限约束。

利用强化学习适合求解含不确定性因素的优化决策问题的优势，基于上述构建的多园区综合能源系统架构，以及多园区综合能源系统协调调度的目标函数和约束条件，本发明将多园区综合能源系统调度决策问题表述为强化学习框架，利用强化学习框架对计及间歇性新能源发电和用户负荷需求随机波动的多园区综合能源系统的协调优化调度问题进行求解。

强化学习的基本组成部分包括表征环境的状态集合S，表征智能体动作的动作集合A及对智能体的奖励r。在本发明中，综合能源系统是智能体的环境，智能体通过调节系统中的设备出力进行最优调度决策。综合能源系统的观测状态包括光伏发电功率、电负荷、热负荷、冷负荷、蓄电池储能荷电状态、热储能荷电状态以及调度时段。因此，所述预先训练的强化学习模型的状态空间的数学模型如下：

为第i个园区综合能源系统在调度时段t时的光伏发电功率；

为第i个园区综合能源系统在调度时段t时的电负荷；

为第i个园区综合能源系统在调度时段t时的热负荷；

为第i个园区综合能源系统在调度时段t时的冷负荷；

在时段t，综合能源系统中的动作可由设备的出力情况来表示，包括蓄电池储能充放电功率、热储能储放热功率、电锅炉热功率、热电联产单元电功率、电制冷空调冷功率、燃气锅炉热功率以及吸收式制冷机冷功率，其它动作量可由这些动作量间接求出。因此，所述预先训练的强化学习模型的动作空间的数学模型如下：

为第i个园区综合能源系统在调度时段t时的电锅炉热功率；

所述预先训练的强化学习模型的奖励函数的数学模型如下：

为第i个园区综合能源系统在调度时段t时的电力市场收益；

为第i个园区综合能源系统在调度时段t时的中断负荷成本。

的计算式如下：

的计算式如下：

所述第i个园区综合能源系统在调度时段t时的中断负荷成本

的计算式如下：

上式中，

为调度时段t时电力市场的电价；

为调度时段t时的天然气价格；K为中断等级数；

为第k级中断负荷补偿价格；

为第i个园区综合能源系统在调度时段t时的第k级中断负荷；

其中，所述预先训练的强化学习模型的约束条件至少包括下述中的一种：冷热电功率平衡约束、热冷管道约束、蓄电池储能约束、热储能约束、中断负荷约束和设备出力上下限约束。

本发明实施例中，还将其它智能体最近时刻的最优Q值迁移到每个智能体的损失函数中，提出一种带有Q值迁移的协同深度确定性策略梯度算法；

针对多园区综合能源系统的协调调度问题，为使得各园区间能够更好地协调运行，本发明提出一种带有Q值迁移的协同深度确定性策略梯度算法。该算法将整个综合能源系统建模为多智能体系统，每个智能体控制其中一个园区，为使各智能体协同工作，每个智能体考虑其它智能体的最近动作对自身的影响，将其它智能体最近时刻的最优Q值迁移到当前智能体的评论家网络的损失函数中，以实现各园区相互学习、协调运行。

深度确定性策略梯度算法分别使用参数为θ^π、θ^Q的演员网络和评论家网络来表示确定性策略a＝π(s|θ^π)和动作-值函数Q(s,a|θ^Q)，其中，演员网络用来更新策略，对应演员-评论家框架中的演员；评论家网络用来逼近状态动作对的值函数，并提供梯度信息，对应演员-评论家框架中的评论家。每个网络均有各自的目标网络，对应网络参数分别为θ^π′和θ^Q′。

评论家网络通过最小化损失函数来优化参数，考虑到各园区间相互影响，将其它智能体最近时刻的最优Q值迁移到每个智能体的损失函数中，形成各智能体的损失函数，因此，所述预先训练的强化学习模型的损失函数的数学模型如下：

上式中，Q为动作-值函数；

进一步的，所述目标Q值y_i,t的数学模型如下：

上式中，γ为奖励折扣系数，γ∈[0,1]；

上式中，α^Q为评论家网络的学习率；

的更新公式为：

的更新公式为：

上式中，τ为软更新系数；

上式中，α^π为演员网络的学习率；

为确定性策略；N_i,t为随机噪声。

本实施例中，所述预先训练的强化学习模型的训练过程包括：

在一个实施方式中，对智能体进行训练直至总奖励值收敛，根据训练好的智能体得到多园区综合能源系统协调调度策略，并应用于系统一天的实时调度。

在学习过程中，由于智能体与环境的顺序交互，样本是有关联的，这意味着这些样本并不像大多数深度学习算法所假设的具备独立同分布特性。为此，本发明中深度确定性策略梯度算法采用了深度Q网络中的经验回放机制，通过在每个时段存储智能体的经验，形成回放记忆序列D。训练时，每次从D中随机提取小批量(mini-batch，大小为M)的经验样本，并基于梯度规则更新网络参数。经验回放机制通过随机采样历史数据打破了数据之间的相关性，而经验的重复使用也增加了数据的使用效率。

演员网络和评论家网络的隐含层层数均为2层，每层有128个神经元，隐含层均采用Relu非线性激活函数，输出层采用Softmax激活函数；折扣因子为0.95，mini-batch大小为128，经验池大小为30 000，评论家网络学习率为0.001，演员网络学习率为0.0001，软更新系数为0.001。单智能体训练过程如图4所示。

为了进一步理解本发明，下面以图2所示的冷热电联供型多园区综合能源系统为例，来解释本发明的实际应用。

各区域设备容量配置相同，其工作参数如表1所示。系统调度时段长度为24h，相邻2个时段的间隔为1h。蓄电池容量为600kW·h，热储能容量为400kW·h，二者初始荷电状态均为0.4。其他设备参数如表2所示。

表1 设备工作参数

表2 其它设备参数

为了展现所提方法的收敛性能，图5给出了智能体训练过程中每100个调度周期的平均奖励值曲线。该算法经过约40000个周期后收敛，得到了最优的协调优化调度策略。可以观察到，由于智能体最初对环境不熟悉，其执行调度决策后获得的奖励值较小，不过随着训练过程的持续，智能体不断地与环境交互并获得经验，奖励值的整体趋势为逐渐增加并最终收敛。这说明智能体已经学习到了最大化系统收益的最优调度策略。由于在每个周期中的日训练数据，如负荷数据和光伏发电数据都有变化，因此在训练过程中奖励值会出现振荡。

为说明本发明优化调度方案的优越性，设置以下2种运行方案：

方案1：综合能源系统各园区间未通过冷热管道相连，每个园区的负荷由各园区独自供给，各园区单独运行。

方案2：综合能源系统各园区间通过冷热管道相连，各园区协调运行。

采用上述2种方案构建典型日调度优化模型，运行成本如表3所示。

表3 两种方案运行收益与成本

方案2相比于方案1来说，各园区间通过冷、热管道相连，通过管道连接，轻负荷区域可以向重负荷区域供能，使得典型日热电联产单元成本增加。热电联产单元供热增加的同时，电锅炉和燃气锅炉输出减少，导致综合能源系统向主网购电减少，燃气锅炉成本降低。并且更多的热能通过吸收式制冷机供冷，减少了电制冷空调输出，向主网购电量进一步减少，电力市场收益提高，综合能源系统总成本进一步降低。由此可见，与各区域的单独优化相比，多个园区协同运行确实可以更有效地利用不同区域的能源，实现资源的合理配置，从而获得更好的经济效益。

限于篇幅，以该综合能源系统内工业区为例，探究区域内电、热、冷功率优化情况如图6-8所示。

由图6可以看出，工业区中的电能供应主要来自于热电联供单元供电和向主网购电。1-7时段和22-24时段，热电联供单元输出功率为零，电负荷需求通过向主网购电和蓄电池放电满足。随着热电联供单元输出功率的增加，综合能源向主网购电量逐渐减少。在15-20时段，热电联供单元输出较大功率，中断负荷量和蓄电池放电量也达到较大值。

由图7可以看出，工业区的热能供应主要来自于余热装置供热、电锅炉供热、燃气锅炉功率、热储能放热和热管道输入。余热装置供热趋势基本与热电联供单元供电趋势相对应。1-7时段，工业区主要通过电锅炉供热、燃气锅炉供热、热储能放热和热管道输入满足热负荷需求。15-18时段，工业区热能供应不足，其他园区通过热管道向工业区输入热能，实现了功能互补。

由图8可以看出，工业区的冷能供应来自于电制冷空调输出、吸收式制冷机输出和冷管道输入。13-20时段，工业区内多余热功率通过吸收式制冷机转换为冷功率，同时冷管道输入冷功率以弥补冷功率缺额。由此可知，通过园区间协调优化调度，综合能源内各园区间实现了很好的供能互补，当工业区冷能和热能供应不足时，其他园区通过热、冷管道向该区供能。

为进一步说明本发明提出的基于深度强化学习的多园区综合能源系统协调调度方法的优越性，将此算法与基于遗传算法、深度Q网络以及深度确定性策略梯度的调度方法进行对比。表4给出了从测试集中随机选取的15个测试日的四种算法日运行成本对比结果。从日运行成本的最大值、最小值、平均值以及随机选取的测试日的日运行成本来看，本发明算法较其它3种算法获得了更好的经济性能，能有效地降低系统运行成本。

表4 四种算法日运行成本

基于同一发明构思，本发明还提供一种多园区综合能源系统协调调度装置，如图9所示，所述多园区综合能源系统协调调度装置包括：

获取模块，用于获取多园区综合能源系统的当前状态量；

为第i个园区综合能源系统在调度时段t时的光伏发电功率；

为第i个园区综合能源系统在调度时段t时的电负荷；

为第i个园区综合能源系统在调度时段t时的热负荷；

为第i个园区综合能源系统在调度时段t时的冷负荷；

所述预先训练的强化学习模型的动作空间的数学模型如下：

为第i个园区综合能源系统在调度时段t时的电锅炉热功率；

所述预先训练的强化学习模型的奖励函数的数学模型如下：

为第i个园区综合能源系统在调度时段t时的电力市场收益；

为第i个园区综合能源系统在调度时段t时的中断负荷成本。

的计算式如下：

的计算式如下：

所述第i个园区综合能源系统在调度时段t时的中断负荷成本

的计算式如下：

上式中，

为调度时段t时电力市场的电价；

为调度时段t时的天然气价格；K为中断等级数；

为第k级中断负荷补偿价格；

为第i个园区综合能源系统在调度时段t时的第k级中断负荷；

上式中，Q为动作-值函数；

进一步的，所述目标Q值y_i,t的数学模型如下：

上式中，γ为奖励折扣系数，γ∈[0,1]；

上式中，α^Q为评论家网络的学习率；

的更新公式为：

的更新公式为：

上式中，τ为软更新系数；

上式中，α^π为演员网络的学习率；

为确定性策略；N_i,t为随机噪声。

优选的，所述预先训练的强化学习模型的训练过程包括：

基于同一发明构思，本发明还提供一种多园区综合能源系统协调调度设备，所述设备包括：处理器以及存储有计算机程序指令的存储器；所述处理器执行所述计算机程序指令时实现所述的多园区综合能源系统协调调度方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。