CN114091879A

CN114091879A - 基于深度强化学习的多园区能源调度方法和系统

Info

Publication number: CN114091879A
Application number: CN202111348528.4A
Authority: CN
Inventors: 张帆; 徐汶; 伊比益; 毛毳; 陈玉萍; 武东昊; 兰哲雄; 苏昊成; 张有兵; 王力成; 冯昌森
Original assignee: Zhejiang University of Technology ZJUT; Zhejiang Huayun Electric Power Engineering Design Consulting Co
Current assignee: Zhejiang University of Technology ZJUT; Zhejiang Huayun Electric Power Engineering Design Consulting Co
Priority date: 2021-11-15
Filing date: 2021-11-15
Publication date: 2022-02-25

Abstract

基于深度强化学习的多园区能源调度方法，包括：S1：构建分布式园区综合能源系统模型；S2：用基于多智能体的深度强化学习算法解决综合能源系统的动态调度问题，搭建分布式园区综合能源系统的多智能体深度强化学习框架；S3：以实时奖励函数代替目标函数，利用各园区内的智能体与环境互动，寻找分布式园区综合能源系统最优调度策略；S4：将测试集数据用于训练后的智能体进行调度决策，并将其获得的目标成本与经由线性化处理后的综合能源系统模型通过求解器获得的目标成本进行比较，证明算法的有效性。本发明还包括基于深度强化学习的多园区能源调度系统。本发明在促进各园区内的光伏消纳的同时，提高了综合能源系统经济运行的有效性。

Description

基于深度强化学习的多园区能源调度方法和系统

技术领域

本发明涉及一种基于多智能体深度强化学习的多能源协调互补优化调度办法。

背景技术

随着环境压力的增加和可再生能源技术的发展，以化石能源为主的传统电力系统正逐渐被化石能源与可再生能源协调使用的综合能源系统(Integrated EnergySystem,IES)所替代。而综合能源系统内的多种类能源在提升系统灵活性、供能多样性的同时，也为系统提高整体的能源利用率，实现经济运行带来困难。因此研究综合能源系统内的多能协调优化调度策略对于促进可再生能源消纳，提高系统经济性具有重要意义。

对综合能源系统的研究主要集中在日前的调度，依赖于对可再生能源出力、负荷需求等数据的预测，受限于固定的调度计划，不能动态地对源和荷的随机变化做出响应。为解决上述问题，近年来随着人工智能技术的发展，强化学习(reinforcementlearning，RL)算法受到越来越多的青睐。已有研究将强化学习用于电力能源系统的经济调度和能量管理中，但是传统的强化学习算法，在面对综合能源系统的复杂环境时，无法合理从环境中读取状态变量，易发生维数灾难，难以在综合能源场景下实际应用与推广。所以同时具备环境感知能力和决策能力的深度强化学习(deepreinforcementlearning，DRL)算法，慢慢走入研究者们的视线。

由于传统优化调度方法主要集中在综合能源系统的日前调度，依赖于对日前可再生能源出力、负荷需求等数据的预测，受限于固定的调度计划，不能动态地对源和荷的随机变化做出响应。随着以光电为代表的具有强不确定性的可再生能源接入综合能源系统，传统优化调度方法逐渐不能满足综合能源系统的需求。但目前深度强化学习在综合能源系统方面的研究，大多为集中式决策。这种结构的综合能源系统需要控制中心预先建立精确的网络架构，并实时采集综合能源系统内各设备运行工况，这对于结构复杂多变的综合能源系统来说难以实现。且单个主体统一运营的情况，与当前综合能源系统内含多个子能源系统运营相对独立的现状不相符，尤其是在当前市场机制下存在信息隐私的问题。

发明内容

为了克服现有技术的不足，本发明为实现含多个能源子系统的综合能源系统优化调度提出一种基于多智能体深度强化学习的多能源协调互补优化调度办法。通过一种以最优经济运行为目标的分布式园区综合能源系统优化调度架构，并对各园区之间的能源交互进行设计。在促进各园区内的光伏消纳的同时，提高了综合能源系统经济运行的有效性。

为了实现上述目的，本发明的技术方案为：

基于深度强化学习的多园区能源调度方法，包括以下步骤：

S1：构建分布式园区综合能源系统模型，提出一种以最优经济运行为目标的分布式园区综合能源系统优化调度架构，并对各园区之间的能源交互进行设计，分为多园区共享层和单园区消纳层；

S2：在所提架构的基础上，用基于多智能体的深度强化学习算法解决综合能源系统的动态调度问题，搭建分布式园区综合能源系统的多智能体深度强化学习框架；

S3：以实时奖励函数代替目标函数，利用各园区内的智能体与环境互动，寻找综合能源系统最优调度策略，避免传统能源调度方式中无法实时响应源和荷随机变动的问题；

S4：将测试集数据用于训练后的智能体进行调度决策，并将其获得的目标成本与经由线性化处理后的综合能源系统模型通过求解器获得的目标成本进行比较，证明算法的有效性。

进一步，步骤S1所述的构建的分布式园区综合能源系统模型，具体包括：

分布式园区综合能源系统具体架构，分为多园区共享层和单园区消纳层；

S1-1：在多园区共享层中，不同的多能源园区之间可进行信息交流，并通过能源母线进行园区间的能源协调互补。园区间进行能源交互时，能源富余的园区优先考虑将多余的能源供给其他园区，若在供给结束后仍有余能，则考虑将余能卖给外部能源供应商；能源不足的园区优先考虑园区间的内部能源消纳，若园区间的内部供能仍无法满足用能需求，则考虑向外部能源供应商购能。因各园区进行能源交互时，热能传递损耗率大、成本高。所以文中提及的园区间能源交互仍以电能交互为主，热能用于满足各园区内的能源消耗；

S1-2：单个多能源园区平稳运行所需要的能源由其他园区、上级电网、天然气源共同提供；园区内包含电、热两种类型的负荷和燃气轮机、燃气锅炉、光伏、电锅炉和储能电池等设备；各单元按照能量传输介质用电、热两条能量总线连接，忽略线路损耗；

S1-3：多能源园区优化调度的目标是最小化园区运行成本，主要为从上级电网购买的电力成本以及从燃气供应商处购买的天然气成本。目标成本的函数表达式为：

C_min＝C_e+C_f (1)

式中，C_min为最小运行成本；C_e为向电网购售电的成本；C_f为向燃气供应商购买天然气的成本；购电成本由下式定义：

式中，T为系统调度的总时间段数；Δt为时隙长度；

为时间t内的园区向电网的购/售电价格；p_grid(t)为时间t内园区与电网的交互功率，为正表示向电网购电，为负表示向电网售电；园区购入天然气的成本为：

式中，ε_gas(t)为时间t内的天然气单位热值价格；γ(t)为天然气消耗速率；

S1-4：单园区优化调度的约束包括功率平衡约束、电网交互功率约束和设备运行约束；

(1)功率平衡约束；

多能源园区内包含多种能源类型，但其主要考虑的功率平衡约束为电功率平衡约束、热功率平衡约束两类，具体如下：

式中：p_op(t)为时间t内的其他园区功能，为正时表示接受其他园区能量，为负时表示将能量供给其他园区；p_pv(t)为时间t内的光伏设备输出功率；p_gt(t)为时间t内的燃气轮机输出功率；p_eb(t)为时间t内的电锅炉需求功率；p_bes(t)为时间t内储能电池的充放电功率，为正时表示储能电池的放电功率，为负时表示储能电池的充电功率；h_eb(t)为时间t内的电锅炉输出热功率；h_gt(t)为时间t内的燃气轮机回收热功率；h_bt(t)为时间t内的燃气锅炉输出功率；p_load(t)、h_load(t)分别为时间t内的需求侧电、热负荷；

(2)电网交互功率约束；

考虑到电网侧的稳定运行，上级电网对多能源园区的功率交互有上下限约束要求：

式中，

分别为微能源网系统和主电网交互功率的上下限；

(3)设备运行约束；

多能源园区中各设备均有设备运行上、下限约束，对于燃气锅炉、燃气轮机、电锅炉输出功率、储能电池充电/放电功率有：

式中，

分别为燃气锅炉、燃气轮机、电锅炉输出功率、储能电池充电/放电功率的下限；

分别为燃气锅炉、燃气轮机、电锅炉输出功率、储能电池充电/放电功率的上限；

对于储能电池，还需避免深度充放电对储能的损害，因此储能电池的荷电状态需要被限定在一定范围内：

式中，

分别为储能电池荷电状态的上、下限；E_soc(t)为时间t内的储能电池荷电状态。其中E_soc(t)的表达式如下：

式中Q_bes为储能电池的容量；η_bes为储能电池充/放电系数，如式(10)所示：

式中，η_dis和η_ch分别为储能电池的放电效率和充电效率；

此外，为保证储能电池能持续稳定运行，一个调度周期初末应保持储能容量相等。所以储能电池充放电应满足约束：

式中，

为储能电池初始时的荷电状态。

进一步，步骤S2所述的基于多智能体深度强化学习框架模型，具体包括：

S2-1：综合能源系统环境提供给各智能体的信息一般为园区内的光伏设备出力、储能电池的荷电状态以及热、电负荷需求；因此综合能源系统园区内的状态空间可以定义为：

S＝[p_pv(t)，E_soc(t),h_load(t),p_load(t)] (12)

智能体观测到综合能源系统园区内的状态信息后，根据自身策略在动作空间A中选择一个动作；本发明所考虑园区内的动作设备，包括燃气轮机、储能电池和电锅炉；对于燃气轮机，其动作是t时段内设备的输出功率p_gt(t)；对于储能电池，p_bes(t)的正负，表示的是t时段内设备的充/放电功率；对于电锅炉，其动作是t时段内设备的输出功率p_eb(t)；因此综合能源系统的动作空间为：

A＝[p_gt(t),p_bes(t),p_eb(t)] (13)

考虑到深度Q网络算法无法输出连续动作，所以对综合能源系统的动作空间做离散化处理，离散后的动作空间为：

A＝[p_gt(t),p_bes(t),p_eb(t),|g] (14)

式中，g为离散化的粒度，粒度越大动作空间包含的动作越少，粒度越小动作空间可以描述的动作越多。

S2-2：在深度强化学习中奖励负责引导智能体挖掘状态信息中的决策相关因素并经过提炼后用于动作空间中进行动作选取；

在考虑综合能源系统模型中，系统运行成本来自于向电网购电的成本和购买天然气的成本。据式(1)将系统总成本最小化问题转化为强化学习经典的奖励最大化形式，因此智能体在t时段内的奖励由下式定义：

r_t＝-(C_e+C_f) (15)

在智能体学习综合能源系统优化调度策略时，有可能会选择不符合系统运行约束条件的动作；面对这种情况需要定义智能体在采取越限动作时的惩罚，通过在奖励函数中增加惩罚项的方式来引导智能体做出正确的决策；

在搭建的综合能源系统框架中存在各种设备运行功率上下限约束、储能电池的荷电状态约束以及储能电池在一个调度周期初末需要保持容量相等的约束条件；在这些约束条件中，燃气轮机的输出功率约束、储能电池的充/放电功率约束以及电锅炉的出力约束，在设置智能体动作空间时就已经进行过考量，无需再对其额外处理；而面对其他的约束条件，本文通过在奖励函数中增加惩罚项的方式进行处理，以使智能体学会合理的调度策略，惩罚项的设置如下式所示：

D＝d₀+d₁+d₂ (16)

式中，d₀为各设备出力功率越限时的惩罚，其数值大小设置为M,M为一个较小的负数；d₁为储能电池出现过充电或过放电时的惩罚，其数值大小同样设置为M；d₂惩罚项体现的是储能电池在一个调度周期初末需要保持容量相等的约束，但深度Q网络所能设定的动作空间内只有离散动作，且储能电池在进行充放电动作时受充电/放电效率影响，所以在一个调度周期初末储能电池容量无法达到完全相等；因此定义惩罚项d₂为：

当调度周期初末电荷状态处于一定误差内时d₂等于0，否则d₂为一个远小于M的负数；由以上奖励与惩罚项，定义奖励函数为：

进一步，在S3步骤中，基于多智能体深度Q网络的求解方法如下：

S3-1：智能体的训练过程可以概括为“集中学习，分散执行”，属于多智能体训练方案中的并行学习范畴，具有较高的计算效率；此外，多智能体深度Q网络通过探索共享环境，将全局控制动作分配给综合能源系统各个分布式园区内执行协调动作的智能体；具体来说，每个智能体根据自己的局部观察来采取动作，并通过特定状态下所有智能体组合动作的总Q值对动作进行评估；

S3-2:各智能体中的神经网络，其作用是对在状态s下采取动作a的价值，即动作值函数Q(s，a)进行近似：

Q(s，a，θ)≈Q(s，a) (19)

深度Q网络通过Q-learning算法获得神经网络可学习的目标函数，即构建神经网络可优化的损

失函数：

L(θ)＝E[(Target Q-Predict Q)²] (20)

式中，θ为神经网络的权重参数；Target Q为目标神经网络输出的目标Q值；Predict Q为预测网络输出的预测Q值；

Predict Q＝Q(s_t，a_t，θ_i) (21)

式中，s_t为t时段的综合能源系统环境状态，即各园区内的光伏设备出力、储能电池的荷电状态以及热、电负荷需求；a_t为预测神经网络根据t时段的状态，从动作空间A中选取的调度动作；当综合能源系统执行动作a_t后，获得奖励r_t,同时系统进入下一时段的环境状态；

式中，γ为未来的Q值在当前时刻的衰减率；s_t+1为t+1时段的微能源网环境状态；a_t+1为目标神经网络根据t+1时段的状态，从动作空间A中选取的使动作值函数Q最大的调度动作；

在获得损失函数后，采用Adam算法(Adaptive moment estimation)算法对神经网络损失函数模型L(θ)的权重参数θ进行求解，并将更新后的权重参数θ复制给预测神经网络；经过固定轮次迭代后，将预测神经网络的相关参数复制给目标网络，保持一段时间内目标Q值不变，降低预测Q值和目标Q值的相关性，提高算法稳定性；

深度Q网络算法具有独特的经验池回放机制，在进行每一步循环操作时会将神经网络和微能源网环境交互得到的样本数据即当前状态、当前选取动作、当前动作获得奖励、下一时刻状态及布尔值存储于经验池中，当需要对预测网络和目标网络训练时，从经验池中随机抽取小批量的历史经验样本数据来对神经网络参数进行训练；

每个经验样本以如下(s_t,a_t,r_t,s_t+1,done)五元组的形式存储到经验池中，其中，done为布尔值类型，表示新的状态s_t+1是否为终止状态；微能源网环境每执行一步后，需要把执行该步所获得的经验信息存储于经验池；在执行数步后，从经验池中随机抽小批量经验样本数据，输入到预测网络和目标网络中；基于抽样的经验样本数据，执行式(22)，对预测网络和目标网络中的参数θ、

进行更新。

在步骤S4中，以分布式园区综合能源系统为算例的仿真如下：

各分布式园区内的智能体，其神经网络结构相同为两层256、128个神经元，在这种神经网络结构下进行训练时，加入惩罚项对智能体所学策略进行约束；

在通过历史数据对智能体神经网络参数进行迭代更新时，当固定间隔达到10000步数，于训练用数据外，采取一组随机光伏设备出力和电、热负荷需求数据为测试集；通过观察智能体在测试集数据上进行实时调度的平均奖励，分析其是否已经学会合理、有效的调度策略，平均奖励的计算方式如式(23)所示:

式中N为调度天数；

为在调度天数内各智能体神经网络对测试集进行调度所获得的平均奖励总和。

实施本发明的基于深度强化学习的多园区能源调度方法的系统，包括依次连接的分布式园区综合能源系统模型构建模块、分布式园区综合能源系统的多智能体深度强化学习框架搭建模块、分布式园区综合能源系统最优调度策略寻找模块、算法有效性证明模块；其中，

分布式园区综合能源系统模型构建模块，提出一种以最优经济运行为目标的分布式园区综合能源系统优化调度架构，并对各园区之间的能源交互进行设计，分为多园区共享层和单园区消纳层；

分布式园区综合能源系统的多智能体深度强化学习框架搭建模块，在所提架构的基础上，用基于多智能体的深度强化学习算法解决综合能源系统的动态调度问题，搭建分布式园区综合能源系统的多智能体深度强化学习框架；

分布式园区综合能源系统最优调度策略寻找模块，以实时奖励函数代替目标函数，利用各园区内的智能体与环境互动，寻找综合能源系统最优调度策略，避免传统能源调度方式中无法实时响应源和荷随机变动的问题；

算法有效性证明模块，将测试集数据用于训练后的智能体进行调度决策，并将其获得的目标成本与经由线性化处理后的综合能源系统模型通过求解器获得的目标成本进行比较，证明算法的有效性。

本发明的有益效果是：

1.提出了一种以最优经济运行为目标的分布式园区综合能源系统优化调度架构，并对各园区之间的能源交互进行设计。在促进各园区内的光伏消纳的同时，提高了综合能源系统经济运行的有效性。

2.在所提架构的基础上，用基于多智能体的深度强化学习算法解决综合能源系统的动态调度问题。以实时奖励函数代替目标函数，利用各园区内的智能体与环境互动，寻找综合能源系统最优调度策略，避免了传统能源调度方式中无法实时响应源和荷随机变动的问题。

3.将测试集数据用于训练后的智能体进行调度决策，并将其获得的目标成本与经由线性化处理后的综合能源系统模型通过求解器获得的目标成本进行比较，证明了算法的有效性。

附图说明

图1是本发明的分布式园区综合能源系统图。

图2是本发明的单园区能源消纳模型图。

图3是本发明的单智能体神经网络结构图。

图4是本发明的多智能体训练循环图。

图5是本发明的基于数据驱动的智能体神经网络参数训练过程图。

图6是本发明的智能体训练样本数据图。

图7是本发明的各时段能源价格曲线图。

图8是本发明的综合能源系统平均奖励总和收敛曲线图。

图9是本发明的各园区储能电池荷电状态变化图。

图10是本发明方法的流程图。

具体实施方法

下面结合附图对本发明做进一步说明。

参照图1～图9，基于深度强化学习的多园区能源调度方法，包括以下步骤：

S1：构建分布式园区综合能源系统模型，提出了一种以最优经济运行为目标的分布式园区综合能源系统优化调度架构，并对各园区之间的能源交互进行设计，分为多园区共享层和单园区消纳层；

S3：以实时奖励函数代替目标函数，利用各园区内的智能体与环境互动，寻找综合能源系统最优调度策略，避免了传统能源调度方式中无法实时响应源和荷随机变动的问题；

S4：将测试集数据用于训练后的智能体进行调度决策，并将其获得的目标成本与经由线性化处理后的综合能源系统模型通过求解器获得的目标成本进行比较，证明了算法的有效性。

进一步，在所述步骤S1中，所构建的分布式园区综合能源系统模型具体内容如下：

分布式园区综合能源系统具体架构，分为多园区共享层和单园区消纳层。

S1-1：在多园区共享层中，不同的多能源园区之间可进行信息交流，并通过能源母线进行园区间的能源协调互补。园区间进行能源交互时，能源富余的园区优先考虑将多余的能源供给其他园区，若在供给结束后仍有余能，则考虑将余能卖给外部能源供应商；能源不足的园区优先考虑园区间的内部能源消纳，若园区间的内部供能仍无法满足用能需求，则考虑向外部能源供应商购能。因各园区进行能源交互时，热能传递损耗率大、成本高。所以文中提及的园区间能源交互仍以电能交互为主，热能用于满足各园区内的能源消耗。

S1-2：单个多能源园区平稳运行所需要的能源由其他园区、上级电网、天然气源共同提供。园区内包含电、热两种类型的负荷和燃气轮机、燃气锅炉、光伏、电锅炉和储能电池等设备。各单元按照能量传输介质用电、热两条能量总线连接，忽略线路损耗。

C_min＝C_e+C_f (1)

式中，C_min为最小运行成本；C_e为向电网购售电的成本；C_f为向燃气供应商购买天然气的成本。购电成本由下式定义：

式中，T为系统调度的总时间段数；Δt为时隙长度；

为时间t内的园区向电网的购/售电价格；p_grid(t)为时间t内园区与电网的交互功率，为正表示向电网购电，为负表示向电网售电。园区购入天然气的成本为：

式中，ε_gas(t)为时间t内的天然气单位热值价格；γ(t)为天然气消耗速率。

S1-4：单园区优化调度的约束包括功率平衡约束、电网交互功率约束和设备运行约束。

(1)功率平衡约束

式中：p_op(t)为时间t内的其他园区功能，为正时表示接受其他园区能量，为负时表示将能量供给其他园区；p_pv(t)为时间t内的光伏设备输出功率；p_gt(t)为时间t内的燃气轮机输出功率；p_eb(t)为时间t内的电锅炉需求功率；p_bes(t)为时间t内储能电池的充放电功率，为正时表示储能电池的放电功率，为负时表示储能电池的充电功率；h_eb(t)为时间t内的电锅炉输出热功率；h_gt(t)为时间t内的燃气轮机回收热功率；h_bt(t)为时间t内的燃气锅炉输出功率；p_load(t)、h_load(t)分别为时间t内的需求侧电、热负荷。

(2)电网交互功率约束

式中，

分别为微能源网系统和主电网交互功率的上下限。

(3)设备运行约束

式中，

分别为燃气锅炉、燃气轮机、电锅炉输出功率、储能电池充电/放电功率的上限。

式中，

式中，η_dis和η_ch分别为储能电池的放电效率和充电效率。

式中，

为储能电池初始时的荷电状态。

进一步，在S2步骤中，基于多智能体深度强化学习框架模型如下：

S2-1：综合能源系统环境提供给各智能体的信息一般为园区内的光伏设备出力、储能电池的荷电状态以及热、电负荷需求。因此综合能源系统园区内的状态空间可以定义为：

S＝[p_pv(t)，E_soc(t),h_load(t),p_load(t)] (12)

智能体观测到综合能源系统园区内的状态信息后，根据自身策略在动作空间A中选择一个动作。本文所考虑园区内的动作设备，包括燃气轮机、储能电池和电锅炉。对于燃气轮机，其动作是t时段内设备的输出功率p_gt(t)；对于储能电池，p_bes(t)的正负，表示的是t时段内设备的充/放电功率；对于电锅炉，其动作是t时段内设备的输出功率p_eb(t)；因此综合能源系统的动作空间为：

A＝[p_gt(t),p_bes(t),p_eb(t)] (13)

A＝[p_gt(t),p_bes(t),p_eb(t),|g] (14)

S2-2：在深度强化学习中奖励负责引导智能体挖掘状态信息中的决策相关因素并经过提炼后用于动作空间中进行动作选取。

r_t＝-(C_e+C_f) (15)

在智能体学习综合能源系统优化调度策略时，有可能会选择不符合系统运行约束条件的动作。面对这种情况需要定义智能体在采取越限动作时的惩罚，通过在奖励函数中增加惩罚项的方式来引导智能体做出正确的决策

在搭建的综合能源系统框架中存在各种设备运行功率上下限约束、储能电池的荷电状态约束以及储能电池在一个调度周期初末需要保持容量相等的约束条件。在这些约束条件中，燃气轮机的输出功率约束、储能电池的充/放电功率约束以及电锅炉的出力约束，在设置智能体动作空间时就已经进行过考量，无需再对其额外处理。而面对其他的约束条件，本文通过在奖励函数中增加惩罚项的方式进行处理，以使智能体学会合理的调度策略，惩罚项的设置如下式所示：

D＝d₀+d₁+d₂ (16)

式中，d₀为各设备出力功率越限时的惩罚，其数值大小设置为M,M为一个较小的负数；d₁为储能电池出现过充电或过放电时的惩罚，其数值大小同样设置为M；d₂惩罚项体现的是储能电池在一个调度周期初末需要保持容量相等的约束，但深度Q网络所能设定的动作空间内只有离散动作，且储能电池在进行充放电动作时受充电/放电效率影响，所以在一个调度周期初末储能电池容量无法达到完全相等。因此定义惩罚项d₂为：

当调度周期初末电荷状态处于一定误差内时d₂等于0，否则d₂为一个远小于M的负数。由以上奖励与惩罚项，定义奖励函数为：

S3-1：智能体的训练过程可以概括为“集中学习，分散执行”，属于多智能体训练方案中的并行学习范畴，具有较高的计算效率。此外，多智能体深度Q网络通过探索共享环境，将全局控制动作分配给综合能源系统各个分布式园区内执行协调动作的智能体。具体来说，每个智能体根据自己的局部观察来采取动作，并通过特定状态下所有智能体组合动作的总Q值对动作进行评估。

Q(s，a，θ)≈Q(s，a) (19)

失函数：

L(θ)＝E[(Target Q-Predict Q)2] (20)

式中，θ为神经网络的权重参数；Target Q为目标神经网络输出的目标Q值；Predict Q为预测网络输出的预测Q值。

Predict Q＝Q(s_t，a_t，θ_i) (21)

式中，s_t为t时段的综合能源系统环境状态，即各园区内的光伏设备出力、储能电池的荷电状态以及热、电负荷需求；a_t为预测神经网络根据t时段的状态，从动作空间A中选取的调度动作。当综合能源系统执行动作a_t后，获得奖励r_t,同时系统进入下一时段的环境状态。

式中，γ为未来的Q值在当前时刻的衰减率；s_t+1为t+1时段的微能源网环境状态；a_t+1为目标神经网络根据t+1时段的状态，从动作空间A中选取的使动作值函数Q最大的调度动作。

在获得损失函数后，采用Adam算法(Adaptive moment estimation)算法对神经网络损失函数模型L(θ)的权重参数θ进行求解，并将更新后的权重参数θ复制给预测神经网络。经过固定轮次迭代后，将预测神经网络的相关参数复制给目标网络，保持一段时间内目标Q值不变，降低预测Q值和目标Q值的相关性，提高算法稳定性。

深度Q网络算法具有独特的经验池回放机制，在进行每一步循环操作时会将神经网络和微能源网环境交互得到的样本数据即当前状态、当前选取动作、当前动作获得奖励、下一时刻状态及布尔值存储于经验池中，当需要对预测网络和目标网络训练时，从经验池中随机抽取小批量的历史经验样本数据来对神经网络参数进行训练。

每个经验样本以如下(s_t,a_t,r_t,s_t+1,done)五元组的形式存储到经验池中，其中，done为布尔值类型，表示新的状态s_t+1是否为终止状态。微能源网环境每执行一步后，需要把执行该步所获得的经验信息存储于经验池。在执行数步后，从经验池中随机抽小批量经验样本数据，输入到预测网络和目标网络中。基于抽样的经验样本数据，执行式(22)，对预测网络和目标网络中的参数θ、

进行更新。

各分布式园区内的智能体，其神经网络结构相同为两层256、128个神经元，在这种神经网络结构下进行训练时，加入惩罚项对智能体所学策略进行约束。

在通过历史数据对智能体神经网络参数进行迭代更新时，当固定间隔达到10000步数，于训练用数据外，采取一组随机光伏设备出力和电、热负荷需求数据为测试集。通过观察智能体在测试集数据上进行实时调度的平均奖励，分析其是否已经学会合理、有效的调度策略，平均奖励的计算方式如式(23)所示:

式中N为调度天数；

实施本发明的基于深度强化学习的多园区能源调度方法的系统，包括依次连接的分布式园区综合能源系统模型构建模块、分布式园区综合能源系统的多智能体深度强化学习框架搭建模块、分布式园区综合能源系统最优调度策略寻找模块、算法有效性证明模块。各模块依次分别对应包含本发明方法的步骤1～步骤4的技术内容。

为使本领域技术人员更好地理解本发明，本文以图1所示的分布式园区综合能源系统为算例进行仿真，包括以下构成：

一、设备参数

为了验证所提基于深度强化学习的分布式园区综合能源系统调度策略的有效性，本文以图1所示的分布式园区综合能源系统为算例进行仿真。本文设定分布式园区数量为3，各园区配有光伏设备、储能电池、燃气轮机和燃气锅炉等，设备参数见表1，实时电价为某小型产业园区实际电价数据，天然气价格固定为0.4元/(kW·h)。

二、训练数据与多智能体网络超参数设置

本文设计的各智能体在应用于综合能源系统前，需要先通过历史数据对其神经网络进行训练，以得到适配于综合能源系统环境的网络参数。训练采用的历史数据为某工业园区6-11月的实际光伏设备出力和电、热负荷需求，部分历史样本数据如图6所示。

以6月1日的0点为起始，智能体接收来自综合能源系统环境的状态信息，然后根据第3章所述的学习过程，进行循环迭代，更新神经网络参数，直至训练结束。训练时采用的电价数据如图7所示。

经过多次尝试，本文设定多智能体深度强化学习中经验回放的样本存储量为480000，每次小批量采样规模为32；初始探索率为0.1，最终探索率为0.001，探索步数为1600000；学习率取0.01；每训练10次更新一次神经网络网络参数。

三、智能体实时调度训练

本文所提各分布式园区内的智能体，其神经网络结构相同为两层256、128个神经元，在这种神经网络结构下进行训练时，加入惩罚项对智能体所学策略进行约束。

四、结果分析对比

在上述各园区内智能体训练完毕的基础上，采用训练样本外，某一日内随机的光伏设备出力和电、热负荷需求数据进行综合能源系统的优化调度，得到基于多智能体深度强化学习调度决策下的综合能源系统稳定运行的目标成本约为为1120元。当天各园区内的储能电池荷电状态变化如图9所示，由图中可以看出，智能体所学会的调度策略处于储能电池充放电容许范围内，而且不会采取过度充、放电的越限动作，最终储能设备会回到与调度周期初相近的电池荷电状态，使得综合能源系统可持续稳定运行。

对比两种方法得到的结果，可以看出能反映模型非线性关系的深度强化学习方法较传统优化调度方法得到的结果更为优秀，减少了18％目标成本，证明了所提方法在综合能源系统下进行能量管理的有效性。

综上所述，本方法将综合能源系统的动态调度问题即随机序贯决策问题转变为马尔科夫决策过程，用实时奖励函数和惩罚函数代替目标函数和约束条件，利用神经网络与环境互动，寻找系统内的最优调度策略，实现了微能源网系统中的多能源协调互补优化，有效的避免了传统调度方式中无法实时响应源荷随机变动的问题。

本发明在保证数据信息完整性的前提下，利用数据本身的分布信息与代价敏感学习思想对过采样的原样本与数量进行精确控制，增加了过采样样本的泛化信息，降低了分类器分类难度。

在本说明书中，对本发明的示意性表述不是必须针对的是相同的实施例或示例,本领域的技术人员可以将本说明书中描述的不同实施例或示例进行结合和组合。此外，本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施案例所陈述的具体形式，本发明的保护范围也包括本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.基于深度强化学习的多园区能源调度方法，其特征在于，包括以下步骤：

S3：以实时奖励函数代替目标函数，利用各园区内的智能体与环境互动，寻找分布式园区综合能源系统最优调度策略，避免传统能源调度方式中无法实时响应源和荷随机变动的问题；

2.如权利要求1所述的基于深度强化学习的多园区能源调度方法，其特征在于，步骤S1所述的构建的分布式园区综合能源系统模型，具体包括：

分布式园区综合能源系统模型的具体架构，分为多园区共享层和单园区消纳层；

S1-1：在多园区共享层中，不同的多能源园区之间可进行信息交流，并通过能源母线进行园区间的能源协调互补；园区间进行能源交互时，能源富余的园区优先考虑将多余的能源供给其他园区，若在供给结束后仍有余能，则考虑将余能卖给外部能源供应商；能源不足的园区优先考虑园区间的内部能源消纳，若园区间的内部供能仍无法满足用能需求，则考虑向外部能源供应商购能；因各园区进行能源交互时，热能传递损耗率大、成本高；所述的园区间能源交互仍以电能交互为主，热能用于满足各园区内的能源消耗；

S1-3：多能源园区优化调度的目标是最小化园区运行成本，包括从上级电网购买的电力成本以及从燃气供应商处购买的天然气成本；目标成本的函数表达式为：

C_min＝C_e+C_f (1)

式中，T为系统调度的总时间段数；Δt为时隙长度；

(1)功率平衡约束

(2)电网交互功率约束

式中，

分别为微能源网系统和主电网交互功率的上下限；

(3)设备运行约束

式中，

式中，

分别为储能电池荷电状态的上、下限；E_soc(t)为时间t内的储能电池荷电状态；其中E_soc(t)的表达式如下：

式中，η_dis和η_ch分别为储能电池的放电效率和充电效率；

此外，为保证储能电池能持续稳定运行，一个调度周期初末应保持储能容量相等；所以储能电池充放电应满足约束：

式中，

为储能电池初始时的荷电状态。

3.如权利要求1或2所述的基于深度强化学习的多园区能源调度方法，其特征在于，步骤S2所述的基于多智能体深度强化学习框架模型，具体包括：

S＝[p_pv(t)，E_soc(t),h_load(t),p_load(t)] (12)

智能体观测到综合能源系统园区内的状态信息后，根据自身策略在动作空间A中选择一个动作；园区内的动作设备，包括燃气轮机、储能电池和电锅炉；对于燃气轮机，其动作是t时段内设备的输出功率p_gt(t)；对于储能电池，p_bes(t)的正负，表示的是t时段内设备的充/放电功率；对于电锅炉，其动作是t时段内设备的输出功率p_eb(t)；因此综合能源系统的动作空间为：

A＝[p_gt(t),p_bes(t),p_eb(t)] (13)

A＝[p_gt(t),p_bes(t),p_eb(t),|g] (14)

式中，g为离散化的粒度，粒度越大动作空间包含的动作越少，粒度越小动作空间可以描述的动作越多；

在考虑综合能源系统模型中，系统运行成本来自于向电网购电的成本和购买天然气的成本；据式(1)将系统总成本最小化问题转化为强化学习经典的奖励最大化形式，因此智能体在t时段内的奖励由下式定义：

r_t＝-(C_e+C_f) (15)

在智能体学习综合能源系统优化调度策略时，有可能会选择不符合系统运行约束条件的动作；面对这种情况需要定义智能体在采取越限动作时的惩罚，通过在奖励函数中增加惩罚项的方式来引导智能体做出正确的决策

在搭建的综合能源系统框架中存在各种设备运行功率上下限约束、储能电池的荷电状态约束以及储能电池在一个调度周期初末需要保持容量相等的约束条件；在这些约束条件中，燃气轮机的输出功率约束、储能电池的充/放电功率约束以及电锅炉的出力约束，在设置智能体动作空间时就已经进行过考量，无需再对其额外处理；而面对其他的约束条件，通过在奖励函数中增加惩罚项的方式进行处理，以使智能体学会合理的调度策略，惩罚项的设置如下式所示：

D＝d₀+d₁+d₂ (16)

4.如权利要求1或2所述的基于深度强化学习的多园区能源调度方法，其特征在于，步骤S3所述的基于多智能体深度Q网络的求解方法如下：

Q(s，a，θ)≈Q(s，a) (19)

失函数：

L(θ)＝E[(Target Q-Predict Q)²] (20)

Predict Q＝Q(s_t，a_t，θ_i) (21)

进行更新。

5.如权利要求1或2所述的基于深度强化学习的多园区能源调度方法，其特征在于，步骤S4所述的以分布式园区综合能源系统为算例的仿真，具体包括：

式中N为调度天数；

6.实施权利要求1所述的基于深度强化学习的多园区能源调度方法的系统，其特征在于：包括依次连接的分布式园区综合能源系统模型构建模块、分布式园区综合能源系统的多智能体深度强化学习框架搭建模块、分布式园区综合能源系统最优调度策略寻找模块、算法有效性证明模块；其中，