CN113378456B

CN113378456B - 多园区综合能源调度方法和系统

Info

Publication number: CN113378456B
Application number: CN202110560538.8A
Authority: CN
Inventors: 陈颖; 司杨; 陈来军; 黄少伟
Original assignee: Tsinghua University; Qinghai University
Current assignee: Tsinghua University; Qinghai University
Priority date: 2021-05-21
Filing date: 2021-05-21
Publication date: 2023-04-07
Anticipated expiration: 2041-05-21
Also published as: CN113378456A

Abstract

本发明实施例提供一种多园区综合能源调度方法和系统，其中所述方法包括：基于每个园区的新能源、储能、能量转换设备和多能用户，对每个园区分别建立一个强化学习智能体；将每个强化学习智能体输入到多智能体深度确定性策略梯度模型，采用分散执行方法在真实物理空间进行调度决策；所述多智能体深度确定性策略梯度模型是采用集中训练方法在虚拟环境中进行训练后得到。本发明实施例建立单个园区的强化学习智能体，然后基于建立的多智能体深度确定性策略梯度模型，采用集中训练方法在虚拟环境中进行训练，采用分散执行方法在真实物理空间进行调度决策，不依赖对不确定量的准确预测，保护了各园区的隐私，同时降低了各个园区的运行成本。

Description

多园区综合能源调度方法和系统

技术领域

本发明涉及多园区综合能源领域，尤其涉及一种多园区综合能源调度方法和系统。

背景技术

多园区综合能源系统的协同优化运行能充分利用多能耦合的灵活性，释放分布式资源的潜力，进一步降低运行成本，同时可减轻对外部能源网络的依赖。但多主体利益分配问题、隐私保护需求以及多重不确定量的存在给多园区协同运行带来了巨大挑战。

目前对多园区综合能源系统协同优化调度方法的研究主要有集中优化和分布式优化两种方法。例如，一种基于可再生能源配额制的多园区综合能源系统优化调度模型，并采用集中优化进行求解，可有效提高系统可再生能源消纳能力，减少系统碳排放，并保证系统经济性。集中优化需要一个集中决策者，需要各个园区的详细设备信息和负荷数据等，会对通信造成较大负担，不利于隐私的保护。考虑到集中优化存在的问题，很多现有技术利用分布式优化算法求解多园区协同优化问题。例如同一能源配送网络下多能源枢纽的协同优化运行问题，采用基于交替方向乘子法(ADMM)的分布式优化算法进行求解，保护了个能源枢纽的隐私，保证了调度的相对独立性。

上述方案并没有考虑多利益主体的收益分配问题，也较少考虑新能源出力以及多能负荷的多重不确定性。基于数据驱动的强化学习算法(RL)无需对不确定量进行精准预测，目前已有较多的研究将强化学习应用于综合能源系统的决策控制中，例如采用将RL和传统优化方法进行结合的方式，提出了一种双层强化学习模型以实现综合能源系统的实时经济调度。但上述研究多将强化学习应用于将综合能源系统建模成单智能体的场景中，尚缺乏对强化学习应用在综合能源系统多利益主体场景中的研究。

发明内容

本发明提供一种多园区综合能源调度方法和系统，用以解决现有技术中存在的技术缺陷。

本发明提供一种多园区综合能源调度方法，包括：

基于每个园区的新能源、储能、能量转换设备和多能用户，对每个园区分别建立一个强化学习智能体；

将每个强化学习智能体输入到多智能体深度确定性策略梯度模型，采用分散执行方法在真实物理空间进行调度决策；

所述多智能体深度确定性策略梯度模型是采用集中训练方法在虚拟环境中进行训练后得到。

根据本发明实施例所述的多园区综合能源调度方法，所述基于每个园区的新能源、储能、能量转换设备和多能用户，对每个园区分别建立一个强化学习智能体包括获取每个园区的用能成本和调度变量，每个园区的用能成本包括购能成本和售能收益，每个园区的调度变量主要为电锅炉的运行功率

电储能系统充放电功率

总购电量

总售电量

总购热量

和总售热量

其中，每个园区的用能成本公式和调度变量公式如下：

其中，

分别代表与外部电网、与外部热网、与内部其他园区的交易成本，

分别表示外部电网购售价格、内部电力交易购售价格、外部热网购售价格、内部热力交易购售价格。

根据本发明实施例所述的多园区综合能源调度方法，所述每个园区的用能成本和调度变量的约束条件包括功率平衡约束：

其中，

表示电锅炉的效率。

根据本发明实施例所述的多园区综合能源调度方法，所述每个园区的用能成本和调度变量的约束条件包括储能动作约束：

SOC_min≤SOC_t≤SOC_max

其中，

和

分别表示最大充放电功率，

和

分别代表电储能的充放电效率。

根据本发明实施例所述的多园区综合能源调度方法，所述每个园区的用能成本和调度变量的约束条件包括设备运行约束：

其中，

和

分别为电锅炉最小和最大输入功率。

根据本发明实施例所述的多园区综合能源调度方法，所述每个园区的用能成本和调度变量的约束条件包括传输线功率约束：

0≤E_i,t,b≤E_i,t,b,max

0≤E_i,t,s≤E_i,t,s,max

0≤H_i,t,b≤H_i,t,b,max

0≤H_i,t,s≤H_i,t,s,max。

本发明还提供了一种多园区综合能源调度系统，包括：

强化学习智能体建立模块，用于基于每个园区的新能源、储能、能量转换设备和多能用户，对每个园区分别建立一个强化学习智能体；

调度决策模块，用于将每个强化学习智能体输入到多智能体深度确定性策略梯度模型，采用分散执行方法在真实物理空间进行调度决策；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述多园区综合能源调度方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述多园区综合能源调度方法的步骤。

本发明实施例针对多园区综合能源系统建立系统模型和收益分配机制，并建立单个园区的强化学习智能体，然后基于建立的多智能体深度确定性策略梯度模型，采用集中训练方法在虚拟环境中进行训练，采用分散执行方法在真实物理空间进行调度决策，不依赖对不确定量的准确预测，保护了各园区的隐私，同时降低了各个园区的运行成本。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的多园区综合能源调度方法的流程示意图；

图2是本发明一实施例提供的典型场景下三个园区的新能源出力和电热负荷曲线的示意图；

图3是本发明一实施例提供的三个园区奖励总和的收敛曲线的示意图；

图4是本发明一实施例提供的典型场景下内部市场价格出清曲线的示意图；

图5是本发明一实施例提供的确定场景下的各园区用能曲线的示意图；

图6是本发明一实施例提供的园区1的100个测试场景的示意图；

图7是本发明一实施例提供的不确定场景下园区智能体总的奖励收敛曲线的示意图；

图8是本发明一实施例提供的多园区综合能源调度系统的示意图；

图9是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在区域综合能源系统中，往往存在多个多能园区，园区之间可以进行能量的双向传递，因此相比于园区的单独运行，多园区协同运行可充分发挥各园区的灵活性和能量互补特性。本发明实施例采用内部市场(Inner Market)实现园区间的能量交易，假定综合能源系统存在一个内部市场，园区间能量交易的结算可在内部市场中进行。

各园区的管理者分属不同的利益主体，因此采用微电网内部电力市场结算方案建立多园区内部市场出清方法，如下所示：

其中，E_s和E_b分别表示园区的总售能和总购能量，

表示向外部能源网络售能价格，

表示向外部能源网络购能价格，pⁱⁿ表示内部出清价格阈值，表示最大的内部市场售能价格和最小的内部市场购能价格，设定

由上述公式可见出清价格由各个园区共同决定，当园区之间供过于求时，内部的购能价格将达到下限，远低于向外部网络购能的价格；当园区之间供不应求时，内部的售能价格将达到上限，远高于向外部网络售能的价格，因此通过此出清机制不难看出向内部市场售能价格高于向外部网络售能价格，向内部市场购能价格将低于向外部网络购能价格，即

因此多园区协同优化可充分发挥园区间能量互补的优势，降低园区运行成本，减轻对外部网络的依赖。

基于上述方法，本发明实施例公开了一种多园区综合能源调度方法，参见图1，包括：

S1：基于每个园区的新能源、储能、能量转换设备(如电锅炉、CHP等)和多能用户，对每个园区分别建立一个强化学习智能体；

从外部能源网络购入电、热等能源，经过能量存储和转换并输出至内部多能用户，园区可将剩余的能量卖给外部能源网络。主要制定园区内部设备的运行计划从而实现园区的经济运行。多能园区的目标为最小化用能成本，用能成本主要由购能成本和售能收益组成。

S2：将每个强化学习智能体输入到多智能体深度确定性策略梯度模型，采用分散执行方法在真实物理空间进行调度决策；

多智能体深度确定性策略梯度模型(也就是MADDPG模型)是进行优化后的模型。

不同于用马尔可夫决策过程(Markov Decision Process)来描述单智能体系统，常用马尔科夫博弈(Markov Game)来描述多智能体系统。由于本发明实施例所建立的系统中每个智能体都是部分可观的，即只能观测到系统的外部状态、园区内部的设备运行状态和负荷状态，无法观测到其他园区内部的设备状态和负荷状态，因此本发明实施例用多元组(O₁...O_i...O_n,A₁...A_i...A_n，T,r₁...r_i...r_n)来描述此马尔科夫博弈，其中，O₁...O_i...O_n分别为n个园区智能体的观测空间，因此定义联合状态空间

A₁...A_i...A_n分别为n个园区智能体的动作空间，r₁...r_i...r_n分别为n个园区智能体的奖励函数，T为联合状态转移概率。在每一时步t，每个智能体得到其观测o_i，t，通过Actor网络得到要采取的动作a_i，t，所有智能体的动作形成联合动作

作用于环境，然后得到下一时步的观测o_i,t+1和这一时段的奖励r_i,t，各个智能体的目标是通过训练最大化其累积奖励

其中γ为奖励衰减因子，表征当前决策偏向阶段最优还是全部调度时段的最优。

本发明实施例根据园区结构分别设计了各个智能体的状态空间、动作空间和奖励函数，考虑本发明实施例设计的各园区结构相同，因此每个园区的状态空间、动作空间和奖励函数的形式也相同。

1)观测空间：本发明实施例对每个智能体建立了一个9维的观测空间向量

2)动作空间：本发明实施例中每个智能体需要决策的变量有

为了提高收敛速度，本发明实施例对动作空间进行了简化，对每个智能体建立了一个2维的动作空间

分别表示储能的充放电动作和电锅炉的动作，而向外部网络或园区的购能或售能量则由功率平衡约束直接求得。

3)奖励函数：根据各个园区的目标函数设计了智能体的奖励函数如下式所示。

4)联合状态转移概率：若不考虑新能源出力和负荷的不确定性，本发明实施例定义

若考虑新能源出力和负荷的不确定性，本发明实施例定义

其中p_i为不确定量的概率分布，由于强化学习算法是model-free的，因此在决策时不需要环境的联合状态转移概率信息。

强化学习基于智能体与环境的交互进行试错学习，因此其不需要对环境的准确建模，目前已有很多研究将其应用于电力系统和综合能源系统的控制决策中。但是面对多主体系统，直接使用多个强化学习智能体进行决策，会带来环境不稳定的问题，因为每个智能体均在按照自己的学习策略进行训练，因此从单个智能体的角度来看，其面对的环境是不固定的，很难通过训练得到一个稳定的策略分布。

MADDPG算法是DDPG算法的多智能体版本，具有集中训练、分散执行的特点，在训练阶段，其需要全局信息进行训练，在执行阶段每个智能体只需要局部观测就能给出最优动作，可降低对信息的要求。

在本发明实施例所建立的多园区综合能源系统模型中，每个园区的调度决策由园区的能量管理系统进行，由于每个园区有单独的优化目标，因此可针对每个园区建立单独的智能体Agent，每个智能体由需要全局信息的评论家(Critic)网络和只需要局部观测的动作家(Actor)网络组成。评论家网络在训练阶段可利用全局信息评估联合状态和联合动作的价值，即拟合联合值函数

并修正动作家网络的策略分布，训练好的动作家网络在执行阶段仅需要根据当前局部观测即可给出对应的最优动作，即a_i,t＝u_i(o_i,t|θ_i)。

由设计的损失函数更新评论家网络的参数，根据联合行为值函数

对动作家网络的参数进行更新，具体的更新公式如下面的公式所示。值得注意的是，DDPG算法的评论家网络和动作家网络分别包含一个估计网络和采用软更新方式更新参数的目标网络用以提高训练的稳定性和收敛性。

目标网络采用软更新的方式更新参数，即：

θ'_i←τθ_i+(1-τ)θ'_i

φ'_i←τφ_i+(1-τ)φ'_i

MADDPG算法训练过程的流程如下表1所示：

表1

电储能系统充放电功率

总购电量

总售电量

总购热量

和总售热量

其中，每个园区的用能成本公式和调度变量公式如下：

其中，

分别表示外部电网购售价格、内部电力交易购售价格、外部热网购售价格、内部热力交易购售价格。考虑内部市场售电价格远低于外部市场购电价格，不存在套利空间，因此不存在一时刻内向电网买电转而向市场卖电的行为。由于内部市场的出清由多个园区共同决定，每个园区的收益受到其他园区的影响，且园区只决定单个园区的总售能

和总购能量

而具体向内部市场购能量、售能量以及内部市场价格由内部市场出清决定。

其中，

表示电锅炉的效率，上述两个公式分别表示电平衡和热平衡约束。

SOC_min≤SOC_t≤SOC_max

其中，

和

分别表示最大充放电功率，

和

分别代表电储能的充放电效率。

其中，

和

分别为电锅炉最小和最大输入功率。

0≤E_i,t,b≤E_i,t,b,max

0≤E_i,t,s≤E_i,t,s,max

0≤H_i,t,b≤H_i,t,b,max

0≤H_i,t,s≤H_i,t,s,max。

为了进一步说明本发明实施例的多园区综合能源调度，以下提供了一个具体的实施例：

设定园区数目有3个，每个园区的设备参数如表2所示：

表2

电网电价采用分时电价，如表3所示：

表3

热网热价

热网价格采用统一价格，向热网购热价格设置为0.518元/kW*h，向热网售热价格设置为0.318元/kW*h。

网络结构和超参设置：

设定各个园区智能体的网络结构相同，设置Actor网络的学习率为1e-4，Critic网络的学习率为1e-3，奖励衰减因子γ＝1。

确定场景仿真结果分析如下：

在确定性场景中，假设各园区的负荷和新能源出力可精准预测，基于预测值，可进行多园区协同优化，分别采取以下两种方案进行对比：1)集中优化方法(CO)，假设多园区综合能源系统有一个共同的管理者，其根据各个园区的数据和参数进行集中统一调度，所得结果作为本发明实施例所提方法的参考；2)单独优化方法(DO)，假设各园区互相不能进行能量交换，各园区只能与外部网络进行能量交换，各园区单独优化的结果可作为本发明实施例所提方法的第二个参考。理论上集中优化的结果是最优的，而单独优化的结果各园区运行成本最高。

一个典型的场景如图2所示，由于各园区新能源出力具有时空相关性，因此本发明实施例假设各园区新能源出力形状相同，幅值不同。

三种方法在典型场景下得到的结果如表4所示，随着训练次数的增加，各园区之间的动作逐渐协调，经过10000次训练，三个园区奖励总和逼近集中调度的最优值。从表4中可以看出，相比于各园区单独优化的结果，园区1和园区3的用能成本下降比例较大，且园区1开始盈利，这是由于园区1新能源出力较高，其在内部市场扮演售能者(能量提供者)的角色，园区3新能源出力较低，在内部扮演购能者(能量接收者)的角色，多园区协同运行既提高了售能者的收益，也降低了购能者的运行成本。

表4

园区间内部市场的出清结果如图3所示，从内部出清曲线可得：内部热市场全天处于供不应求的状态，电力市场在新能源高发时刻会出现短暂供过于求，其余时刻也处于供不应求状态。

园区间内部市场的出清结果如图4所示，从内部出清曲线可得：内部热市场全天处于供不应求的状态，电力市场在新能源高发时刻会出现短暂供过于求，其余时刻也处于供不应求状态。

在确定场景下各园区间用能曲线如图5所示，在曲线中可以分析得到，由于园区1新能源发电量较大，因此其在内部市场售电较多，且因为其热负荷水平较低，因此园区1会在光伏高发时刻向其他园区出售多余的热能，而园区3由于新能源发电量最小，因此其主要是一个购能者。

在不确定场景中，假设新能源出力、电热负荷等不确定变量不能准确预测，本发明实施例建立的模型是否能够实现多园区的协同优化运行是本节需要探究的内容。为了刻画实际中的不确定性，本发明实施例基于采样的方式建立了多种场景供模型训练，并建立了100个随机测试场景来测试模型的训练效果。假设新能源和负荷的基准曲线为上一节建立的典型场景，并以基准曲线为均值、以0.1倍的基准值为标准差采样形成多种可能的场景，按照此方法建立的100个园区1的测试场景如图6所示，园区2和3按照相同的方法进行采样。

在不确定性场景测试中，本发明实施例建立了两种对比算法：1)考虑预测信息已知的集中优化(CO)，2)园区独立运行的单时段最优算法(short-sight DO)，即当预测信息未知时，单独运行的园区只根据当前阶段的实时信息做出单时段的最优调度，而不考虑全天最优。理论上三种优化方法得到的园区总运行成本关系为：考虑预测信息已知的集中优化<本发明实施例方法<园区独立运行的单时段最优算法。

100个测试场景下各园区平均运行成本统计结果如表5所示，本发明实施例所提方法的3个园区智能体奖励总和的收敛曲线如图7所示。从结果可得，在不确定场景中，相比于各园区的独立运行，基于MADDPG算法的协同优化可降低各园区的运行成本，总成本降低比例为7.78％。需要说明的是，集中优化需要对多重不确定量的准确预测，而基于MADDPG的协同优化在不需要精准预测信息的情况下可以接近集中优化的结果。

表5

本发明实施例将多智能体强化学习算法MADDPG应用于多园区综合能源系统的协同优化调度中，该算法的特点是集中训练、分散执行，可降低系统对通信的要求，在能够保护各个园区的隐私的前提下降低各个园区的运行成本，实现各个园区的协同运行优化。

确定场景的仿真结果表明基于MADDPG算法的多园区综合能源系统协同优化相比于各园区的单独优化可充分发挥各园区的分布式资源潜力，充分利用园区之间的能量互补优势，降低各园区的运行成本。不确定场景的仿真结果表明，本发明实施例提出的算法可不依赖于对不确定变量的准确预测，可应用于实时经济调度中。

本发明实施例公开了一种多园区综合能源调度系统，参见图2，包括：

强化学习智能体建立模块10，用于基于每个园区的新能源、储能、能量转换设备和多能用户，对每个园区分别建立一个强化学习智能体；

调度决策模块20，用于将每个强化学习智能体输入到多智能体深度确定性策略梯度模型，采用分散执行方法在真实物理空间进行调度决策；

图9示例了一种电子设备的实体结构示意图，该电子设备可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行一种多园区综合能源调度方法，该方法包括：

S1：基于每个园区的新能源、储能、能量转换设备和多能用户，对每个园区分别建立一个强化学习智能体；

此外，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行一种多园区综合能源调度方法，该方法包括：

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行一种多园区综合能源调度方法，该方法包括：

以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。