CN111181201B

CN111181201B - 基于双层强化学习的多能园区调度方法及系统

Info

Publication number: CN111181201B
Application number: CN202010108574.6A
Authority: CN
Inventors: 聂欢欢; 吴涵; 张明龙; 刘冰倩; 王健; 陈颖; 张家琦
Original assignee: Tsinghua University; Electric Power Research Institute of State Grid Fujian Electric Power Co Ltd
Current assignee: Tsinghua University; Electric Power Research Institute of State Grid Fujian Electric Power Co Ltd
Priority date: 2020-02-21
Filing date: 2020-02-21
Publication date: 2021-06-11
Anticipated expiration: 2040-02-21
Also published as: CN111181201A

Abstract

本发明提供的基于双层强化学习的多能园区调度方法及系统，包括获取综合能源系统中的调度可控对象，即源侧单元、负荷侧单元、能量转化单元与存储单元；构建双层优化决策模型，包括上层强化学习子模型和下层混合整数线性规划子模型；上层强化学习子模型获取存储单元在当前时刻的状态变量信息下的动作变量信息，并传输至下层混合整数线性规划子模型；下层混合整数线性规划子模型获取对应的奖励变量和存储单元在下一时刻的状态变量信息，并反馈至上层强化学习子模型；迭代执行上述步骤直至调度结束。本发明实施例通过数据驱动的强化学习方法，仅需根据当前状态进行决策，而无需对未来信息的预测，决策时效性高、决策效果优，能实现实时趋优决策。

Description

基于双层强化学习的多能园区调度方法及系统

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种基于双层强化学习的多能园区调度方法及系统。

背景技术

近年来，随着化石能源的危机和环境问题的日益突出，世界各国都在寻找新的能量利用方式。未来能源的发展趋势有以下几个特点：能源需求持续增长，化石能源在未来很长一段时间内仍是主要一次能源；环境问题的迫切性，使得能源结构需以环境问题为核心不断调整；可再生能源占比不断提高。

在种种能源压力下，构建综合能源系统，由于可以实现多种能源耦合互补及梯级利用，以使得多种能源能够在不同时间尺度上具有互补性和相关性，进而实现多时间尺度的能量转换与传递、促进可再生能源消纳、提高能量利用效率，成为适应社会能源变革、确保社会用能的必由之路。综合能源系统的特点是其内部存在冷、热、电、气等多种能量形式，且不同形式的能源之间可以实现互相转化，以及实现能量的耦合互补。

近年来电力系统的发展也为电网及能源互联网的运行调度带来了许多问题。例如：可再生能源的大规模接入引入了大量不确定性，给电网的运行调度增添了难度；电力市场的放宽和用户的积极参与使分布式能源的协同利用变得更加复杂，给电网的商业交易和运行带来了日益增加的不确定和复杂性；同时，信息的爆炸和数据的波动使得传统的决策方法难以有效地解决系统的运行、规划等问题。因此，亟需一种新的方法来处理高维数据及其波动性与不确定性。

现阶段，多能园区综合能源系统的调度一般存在三种场景：确定性无储能场景、确定性有储能场景和不确定性有储能场景。其中：

一方面，确定性场景是指可以对未来的信息进行准确预测，即未来信息准确已知的情景，系统可以根据这些已知的未来信息进行系统的运行调度。当系统不存在储能时，该多能流的经济调度问题为一个多步优化问题，常见的方法为将运行调度问题离散为多个时间段内的优化问题，在每个时间段利用优化/凸优化等方法进行求解。

另一方面，当确定性系统存在储能时，由于储能会带来时间上的能量耦合关系，每一个时刻系统的储能出力均会对系统的未来运行状态产生影响。此时该调度问题不再是一个多步优化问题，而变成了一个序列决策问题。针对此问题，可以采用混合整数规划等方式求解，也可将该调度问题建立为马尔可夫决策模型利用动态规划等方法进行求解。

最后，可再生能源的引入会给综合能源系统带来很大的不确定性，且当多能园区规模较小时，负荷由于受用户随机性的影响效果更为明显。因此，当系统负荷的未来信息，如：可再生能源出力及系统负荷等难以获取或难以准确预测时，传统优化及动态规划等方法均难以求解多能园区能源系统的调度困难问题。

综上所述，现有技术一方面难以处理强不确定性场景，对于未来信息难以预测的场景难以进行处理，并且进行优化求解时，求解速度较慢。

发明内容

本发明实施例提供一种基于双层强化学习的多能园区调度方法及系统，用以克服现有技术在不同农作物根果的表型研究和精准分类预测方面存在的缺陷。

第一方面，本发明实施例提供一种基于双层强化学习的多能园区调度方法，包括：

S1：获取在不确定性有储能场景下的综合能源系统中的调度可控对象，该调度可控对象包括源侧单元、负荷侧单元、能量转化单元与存储单元；

S2：构建双层优化决策模型，所述双层优化决策模型包括上层强化学习子模型和下层混合整数线性规划子模型；

S3：上层强化学习子模型获取存储单元在当前时刻的状态变量信息下的动作变量信息，并将动作变量信息和状态变量信息传输至下层混合整数线性规划子模型；

S4：下层混合整数线性规划子模型获取所述源侧单元、负荷侧单元和能量转化单元对应的奖励变量和存储单元在下一时刻的状态变量信息，并反馈至上层强化学习子模型；

S5：上层强化学习子模型对所述奖励变量进行学习后，迭代执行上述步骤S3-S4，直至调度结束。

优选地，上述不确定性有储能场景下的综合能源系统具体为热电联储系统。

优选地，上述热电联储系统中的所述源侧单元包括燃气单元、电网单元和新能源单元；上述负荷侧单元包括电负荷和热负荷；上述能量转化单元包括微燃机、热交换器和电锅炉；上述存储单元为电池。

优选地，上述上层强化学习子模型的当前时刻的状态变量包括：

s_t＝(c_e，c_g，p_l，p_h，p_re，SOC)，

其中，c_e为实时电价，c_g为实时燃气价格，p_l为实时电负荷，p_h为实时热负荷，p_re为新能源可提供出力，SOC为电池负荷状态。

优选地，上述上层强化学习子模型的奖励函数为：

r_t＝-C(t)-λ(1-l_{{a≤SOC≤b}})

其中，r_t为上层强化学习子模型的奖励函数，C(t)为系统在t时刻的成本，λ为惩罚系数，表示SOC未处于a、b之间时的奖励惩罚值；a、b为SOC的变化范围约束且0≤a＜b≤1，l_{{a≤SOC≤b}}为指示函数，当SOC未处于a、b之间时其值为0，否则其值为1。

优选地，上述上层强化学习子模型获取所述存储单元在当前时刻的状态变量信息下的动作变量信息为：

其中，p_b为电池输出功率，

为电池额定功率。

优选地，上述下层混合整数线性规划子模型以所述在不确定性有储能场景下的综合能源系统的运行总成本和能源未消纳惩罚最小为目标函数。

优选地，上述目标函数定义为：

C(t)＝c_ep_e+c_gV_g+c_re(p_re-p_re，u)，

其中，T为优化时间总步数，为当前优化所在步，c_e为实时电价，p_e为从电网所获取电量，c_g为实时燃气价格，V_g为燃气消耗体积，c_re为新能源未消纳惩罚系数，p_re为新能源可提供出力，p_re，u为新能源实际消纳出力。

优选地，上述下层混合整数线性规划子模型的约束包括：能量平衡约束、微燃机约束、热交换机功率约束、电池动作及状态约束、电锅炉约束以及新能源出力约束。

第二方面，本发明实施例提供一种基于双层强化学习的多能园区调度系统，包括统计单元和经济调度单元，其中：

统计单元，用于获取在不确定性有储能场景下的综合能源系统中的调度可控对象，所述调度可控对象包括源侧单元、负荷侧单元、能量转化单元与存储单元；经济调度单元中存储有双层优化决策模型运算单元以及迭代运算单元；双层优化决策模型运算单元包括上层强化学习子模型运算单元和下层混合整数线性规划子模型运算单元；上层强化学习子模型运算单元，用于获取存储单元在当前时刻的状态变量信息下的动作变量信息，并将动作变量信息和状态变量信息传输至下层混合整数线性规划子模型运算单元；下层混合整数线性规划子模型运算单元，用于获取源侧单元、负荷侧单元和能量转化单元对应的奖励变量和存储单元在下一时刻的状态变量信息，并反馈至上层强化学习子模型运算单元；迭代运算单元，用于控制上层强化学习子模型运算单元对奖励变量进行学习后，控制上层强化学习子模型运算单元和下层混合整数线性规划子模型迭代运行，直至调度结束。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现如第一方面任一所述的基于双层强化学习的多能园区调度方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面任一所述的基于双层强化学习的多能园区调度方法的步骤。

本发明实施例提供的基于双层强化学习的多能园区调度方法及系统，通过建立双层优化决策模型，利用上层强化学习子模型对不确定性有储能场景下的综合能源系统的调度问题进行优化，把该调度问题归结成一个线性规划数学模型，再通过下层混合整数线性规划子模型进行线性规划，即仅需根据当前状态进行决策，而无需对未来信息的预测，从而达到决策时效性高、决策效果优的效果，能更优的实现实时趋优决策。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于双层强化学习的多能园区调度方法流程示意图；

图2为本发明实施例提供的上层强化学习子模型的结构示意图；

图3为本发明实施例提供的热电联储系统的结构示意图；

图4为本发明实施例提供的双层优化决策模型单步求解过程示意图；

图5为本发明实施例提供的双层优化决策模型在整个优化时间区间内的决策模型求解过程示意图；

图6为本发明实施例提供的一种基于双层强化学习的多能园区调度系统的结构示意图；

图7为本发明实施例提供的一种电子设备的实体结构图；

图8为本发明实施例提供的一个随机抽样获取的确定性场景中各负荷的线性示意图；

图9为图8所示的确定性场景中三种不同优化策略的性能比较示意图；

图10为1000个不确定性场景中各负荷的线性示意图；

图11为100个抽样场景下三种不同优化策略的总成本对照示意图；

图12为在双层决策优化模型的调度下综合能源系统中的电池SOC在一天内的变化示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

多能园区的经济调度问题是一个多变量、多约束、存在时间上能量耦合关系的优化问题。对不同的多能园区系统，其系统规模大小不一，内部能量种类及能量转换设备均有较大差别。但就其原理来说，作为一个综合能源系统的经济调度问题，用于调度的模型的目标函数为尽量最小化所属系统在一段时间T内的成本：

其中，C(t)为系统在t时刻的成本。

其一：在确定性无储能场景下，由于没有时间上的能量耦合关系，系统每一时刻的控制措施仅对当前时刻的成本有影响，故只需要在每一个时刻分别求解一个优化问题：

minC(t)

s.t.g(x)≥0

h(x)＝0.........................公式2

其中，x表示系统中的状态及控制变量，g(x)和h(x)分别为系统的不等式及等式约束。

最后，将各个时刻的最优化解按照时间顺序合并在一起便得到一个最优的控制方案。

其二：在有确定性储能的情况下，由于系统在每一时刻的控制措施对未来时刻的成本会产生影响，因此对于综合能源系统的调度不再是多步优化问题，而变成了一个序列决策问题。

针对这一问题，当未来信息是完全可确定时，可以利用混合整数规划在整个时间段T上进行求解，但其会面对变量数目过多，计算速度慢等问题。进一步地，可以将上述问题处理为马尔可夫决策过程利用动态规划等进求解。

设状态下的综合能源系统的状态参数为s，控制动作为a，设马尔可夫决策过程的奖励r和系统收益(即负的系统成本)相同，则马尔可夫决策过程的目标函数为：

r(t)＝-C(t)....................公式3

并进一步的结合动态规划，则可以对上述问题进行求解。

其三、当综合能源系统中存在不确定性单元，即未来信息不是完全可确定时，由于未来信息未知，动态规划难以进行应用。故现有技术在解决不确定性有储能场景下的综合能源系统中的调度上凸显出弊端。

有鉴于此，本发明实施例提供一种基于双层强化学习的多能园区调度方法，如图1所示，包括但不限于以下步骤：

步骤S1：获取在不确定性有储能场景下的综合能源系统中的调度可控对象，其中的调度可控对象可以包括源侧单元、负荷侧单元、能量转化单元以及存储单元。

步骤S2：构建双层优化决策模型，该双层优化决策模型包括上层强化学习子模型(简称DRL子模型)和下层混合整数线性规划子模型(简称MILP子模型)。

步骤S3：利用上层强化学习子模型获取存储单元在当前时刻的状态变量信息下的动作变量信息，并将该动作变量信息和状态变量信息传输至下层混合整数线性规划子模型。

步骤S4：利用下层混合整数线性规划子模型获取源侧单元、负荷侧单元和能量转化单元对应的奖励变量和存储单元在下一时刻的状态变量信息，并反馈至上层强化学习子模型；

步骤S5：上层强化学习子模型对奖励变量进行学习后，迭代执行上述步骤S3-S4，直至调度结束。

本发明实施例提供的基于双层强化学习的多能园区调度方法，基于强化学习，构建由上层强化学习子模型下层混合整数线性规划子模型组成的双层优化决策模型，进行不确定性有储能场景下的综合能源系统的调度问题的求解。其中，上层强化学习子模型(DRL)所开展的强化学习(RL)作为一种数据驱动的机器学习方法，通过学习历史或训练数据中的规律，在不需要知道未来信息的情况下做出其认为的能最大化未来收益的动作，在数据充分的情况下可以较好地处理不确定场景。

具体的，RL是指智能体在与环境的连续互动中学习最优行为策略的机器学习问题，其解决的是一个序列决策问题。RL中有两个主要元素：智能体(agent)和环境(environment)，如图2所示。

在每一个时刻t，agent会观察环境并接收一个存储单元在当前时刻的状态(state)s_t，采取一个对应的动作(action)a_t。environment根据智能体选择的动作，给出反映此步动作好坏的奖励信号(reward)r_t，并进入下一状态s_t+1。强化学习不断重复此循环过程，利用奖励信号进行学习，并经过下层混合整数线性规划子模型进行线性逐步规划，直至调度结束。

其中，强化学习中有一些关键概念，现进行阐述如下：

·智能体：一般是我们设计的控制算法，用来接收环境的状态(即调度可控对象的状态)、给出动作(即调度可控对象针对当前状态作出的动作)及接收奖励(即对应生成奖励变量)；

·环境：是智能体交互的对象，接收智能体给出的动作，给出状态及奖励信息；

·观察(observation)：智能体从环境中观察到的原始信息，如在当前时刻的源侧单元、负荷侧单元、能量转化单元的状态观察；

·状态：状态是观察的函数，或历史序列的函数，可以自行定义。状态需要包含那些可以支持决策的信息；

·动作：可以是多维向量，用来改变环境的状态；

·奖励：标量，反应某一步动作的好坏；

·回报(return)：回报G_t定义为加权的奖励之和，其中γ∈[0，1]为折扣系数：

·策略(policy)：策略实现了从状态到动作的映射，确定性策略根据状态直接输出相应动作a＝π(s)，随机性策略根据状态输出动作空间上的概率密度分布π(a|s)＝P[a_t＝a|s_t＝s]。

·价值函数(value function)：关于状态的函数，从长远角度评价了一个状态的好坏，常用折扣未来期望来描述，用V^π(s)表示：

V^π(s)＝E[G_t|s_t＝s]............公式5

·Q-value函数：是关于状态和动作的函数，从长远角度评价一个状态-动作对的好坏，用Q^π(s，a)表示：

Q^π(s，a)＝E[G_t|s_t＝s，a_t＝a].........公式6

根据贝尔曼方程，Q-value函数可进一步写为：

Q^π(s，a)＝E[r_t+γ^Vπ(s_t+1)|s_t＝s，a_t＝a].......公式7

本发明实施例提供的基于双层强化学习的多能园区调度方法，通过建立双层优化决策模型，利用上层强化学习子模型对不确定性有储能场景下的综合能源系统的调度问题进行优化，把该调度问题归结成一个线性规划数学模型，再通过下层混合整数线性规划子模型进行线性规划，即仅需根据当前状态进行决策，而无需对未来信息的预测，从而达到决策时效性高、决策效果优的效果，能更优的实现实时趋优决策。

基于上述实施例的内容，作为一种可选实施例，其中所述的不确定性有储能场景下的综合能源系统具体为热电联储系统。

具体地，如图3所示，在该热电联储系统中，热电联储系统中的源侧单元可以包括燃气单元、电网单元和安装于园区内的新能源单元等；负荷侧单元可以包括电负荷和热负荷等；能量转化单元可以包括微燃机、热交换器和电锅炉等；存储单元可以为电池等储能装置。

表1：多能园区内各设备和负荷符号定义

一方面，本发明实施例提供的热电联储系统可以从外部购入电力以及燃气作为能量输入。另一方面，该热电联储系统内部包含有新能源单元和储能单元等。新能源单元可以是风力发电机组、太阳能发电机组等，其作为能源输入无需考虑成本；储能单元可以是电池等各式储电装置。园区中的能量转化和存储装置包括微燃机、电池、热交换器和电锅炉等。最后，整个热电联储系统可以通过热、电、气之间的转换来满足正常符合的需求。其中，作为整个热电联储系统的调度可控对象则主要包括微燃机功率、电池动作、电锅炉功率和风机出力的消纳比例。如上面的表1所示，为方便表述对多能园区内各设备及各设备的负荷给予了对应的符号定义。

在本发明实施例提供的综合能源系统中，由于电池储能带来了时间上的能量耦合关系，使得调度优化算法的计算复杂度大大增加。同时，可再生能源和负荷所含有的不确定性，也要求调度优化算法对随机性场景具有较强的适应能力。

有鉴于此，本发明实施例提供一种双层优化决策模型，该双层优化决策模型的上层由强化学习子模型管理电池从放电的最优动作，即管理电池在当前时刻的状态变量信息下的动作变量信息；该双层优化决策模型的下层为混合整数线性规划子模型，根据电池的动作变量信息以及所有调度可控对象所处的当前状态变量信息，求解其余可控设备的最优出力，即控制除电池外的其余可控对象的最优出力。

具体的，本发明实施例提供的双层优化决策模型的单步求解过程即任意时刻的求解过程，如图4所示。首先，由上层的DRL子模型给出在该时刻状态变量下的最优电池出力功率；然后状态变量信息和电池出力功率信息被传递至下层MILP子模型中，由MILP求解器对剩余的动作变量进行求解，并计算得到下一步的电池初始状态传递给上层的DRL模型。

进一步地，在整个优化时间区间内的决策模型求解过程，如图5所示：上层的DRL模型不断调用下层MILP求解器进行求解，并基于返回的信息进行下一步的计算，从而完成整个时间区间内的调度优化问题。该双层决策模型的算法如表2所示：

表2：双层强化学习决策模型算法

基于上述实施例的内容，作为一种可选实施例，上述上层强化学习子模型的当前时刻的状态变量主要包括：

s_t＝(c_e，c_g，p_l，p_h，p_re，SOC)，

整个双层优化决策模型的优化目标函数定义如下：

C(t)＝c_ep_e+c_gV_g+c_re(p_re-p_re，u)....................公式7

其中，T表示优化时间总步数，t表示当前优化所在步，本文中取调度计算时间步长为1 h，计算范围为一天24h；c_e是实时电价，p_e是从电网所购电量，c_g是实时燃气价格，V_g是燃气消耗体积，c_re是新能源未消纳惩罚系数，p_re是新能源可提供出力，p_re，u是新能源实际消纳出力。

进一步地，双层决策模型中上层所采用的DRL子模型的奖励函数可设计如下：

r_t＝-C(t)-λ(1-l_{{a≤SOC≤b}}).......................公式8

其中，r_t为上层强化学习子模型的奖励函数，C(t)为系统在t时刻的成本，λ为惩罚系数，表示SOC未处于a、b之间时的奖励惩罚值；a、b为SOC的变化范围约束且0≤a＜b≤1，l_{{a≤SOC≤b}}为指示函数，当SOC未处于a、b之间时其值为0，否则其值为1，该项表示了SOC未处于a、b之间时的奖励函数中会有一个额外的惩罚项。其中a、b可以根据实际需要进行取值，例如a＝0.2，b＝0.8。

相比

中所设计的的整个模型的最小化目标函数，本发明实施例中的DRL字模型的奖励函数考虑了对电池负荷状态(SOC)的变化范围约束，从而避免了电池的寿命衰减速度过快。

进一步地，在本发明实施例中，上层强化学习子模型获取所述存储单元在当前时刻的状态变量信息下的动作变量信息，是指上层的DRL至模型负责管理电池充放电的最优动作，考虑到电池充放电功率的限制以及动作变量数目较多给DRL带来的训练难度，在本实施例中将电池的动作变量设计如下：

其中，p_b为电池输出功率，

为电池额定功率。

作为一种可选实施例，进一步地，在本发明实施例提供的基于双层强化学习的多能园区调度方法中，下层混合整数线性规划子模型以在不确定性有储能场景下的综合能源系统的运行总成本和能源未消纳惩罚最小为目标函数。其目标函数可以为公式8所示。

进一步地，在本发明实施例中所提供的下层混合整数线性规划子模型的约束包括：能量平衡约束、微燃机约束、热交换机功率约束、电池动作及状态约束、电锅炉约束以及新能源出力约束。

其中，能量平衡约束主要包括电负荷平衡约束和热负荷平衡约束。

其中，电负荷平衡约束可以为：

p_e+p_re，u+δ_gp_ge-δ_ebp_eb-p_l+p_b＝0..............公式12

热负荷平衡约束可以为：

δ_gp_he+δ_ebp_ebη_eb-p_h≥0.....................公式13

其中，δ_g为微燃机开关状态，δ_eb为电锅炉开关状态，p_eb为电锅炉输入电功率，η_eb为电锅炉电热转换效率。

进一步地，微燃机约束可以为：

p_gh＝p_ge(1-η_ge-η_L)/η_ge...............公式15

δ_g∈{0，1}......................公式17

其中，p_ge为微燃机输出电功率，ΔT为单位计算时间，在本实施例中为1h，η_ge为微燃机发电效率，R_LHVT为天然气低位热值，p_gh为微燃机输出热功率，η_L为微燃机散热损失率，ge为微燃机最小负荷率，

为微燃机额定功率，δ_g为微燃机开关状态。

进一步地，热交换机的功率约束可以为：

p_he＝p_ghη_he......................公式18

其中，η_he为热交换机热交换效率，p_he为热交换机输出功率，

为热交换机额定功率。

进一步地，电池动作和状态约束可以为：

0.2≤SOC≤0.8.........................公式21

其中，η_b为电池的转化效率。

进一步地，电锅炉功率约束可以为：

δ_eb∈{0，1}.............................公式23

其中，eb为电锅炉最小负荷率，

为电锅炉额定功率，δ_eb为电锅炉开关状态。

进一步地，新能源出力约束可以为：

0≤p_re，u≤p_re.......................公式24

本发明实施例提供一种基于双层强化学习的多能园区调度系统，如图6所示，包括但不限于统计单元和经济调度单元，其中：

统计单元，用于获取在不确定性有储能场景下的综合能源系统中的调度可控对象，该调度可控对象包括源侧单元、负荷侧单元、能量转化单元与存储单元。

其中，经济调度单元中存储有双层优化决策模型运算单元以及迭代运算单元；双层优化决策模型运算单元包括上层强化学习子模型运算单元和下层混合整数线性规划子模型运算单元。

上层强化学习子模型运算单元，主要用于获取存储单元在当前时刻的状态变量信息下的动作变量信息，并将动作变量信息和状态变量信息传输至下层混合整数线性规划子模型运算单元。

下层混合整数线性规划子模型运算单元，主要用于获取源侧单元、负荷侧单元和能量转化单元对应的奖励变量和存储单元在下一时刻的状态变量信息，并反馈至上层强化学习子模型运算单元。

迭代运算单元，主要用于控制上层强化学习子模型运算单元对奖励变量进行学习后，控制上层强化学习子模型运算单元和下层混合整数线性规划子模型迭代运行，直至调度结束。

本发明实施例提供的基于双层强化学习的多能园区调度系统，在运行时执行上述任一实施例所述的多能园区调度方法，在此不作赘述。

本发明实施例提供的基于双层强化学习的多能园区调度系统，基于强化学习，构建由上层强化学习子模型下层混合整数线性规划子模型组成的双层优化决策模型，进行不确定性有储能场景下的综合能源系统的调度问题的求解。其中，上层强化学习子模型(DRL)所开展的强化学习(RL)作为一种数据驱动的机器学习方法，通过学习历史或训练数据中的规律，在不需要知道未来信息的情况下做出其认为的能最大化未来收益的动作，在数据充分的情况下可以较好地处理不确定场景。

图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器430中的逻辑指令，以执行如下方法：S1：获取在不确定性有储能场景下的综合能源系统中的调度可控对象，所述调度可控对象包括源侧单元、负荷侧单元、能量转化单元与存储单元；S2：构建双层优化决策模型，所述双层优化决策模型包括上层强化学习子模型和下层混合整数线性规划子模型；S3：所述上层强化学习子模型获取所述存储单元在当前时刻的状态变量信息下的动作变量信息，并将所述动作变量信息和所述状态变量信息传输至所述下层混合整数线性规划子模型；S4：所述下层混合整数线性规划子模型获取所述源侧单元、所述负荷侧单元和所述能量转化单元对应的奖励变量和所述存储单元在下一时刻的状态变量信息，并反馈至所述上层强化学习子模型；S5：所述上层强化学习子模型对所述奖励变量进行学习后，迭代执行上述步骤S3-S4，直至调度结束。

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法，例如包括：S1：获取在不确定性有储能场景下的综合能源系统中的调度可控对象，所述调度可控对象包括源侧单元、负荷侧单元、能量转化单元与存储单元；S2：构建双层优化决策模型，所述双层优化决策模型包括上层强化学习子模型和下层混合整数线性规划子模型；S3：所述上层强化学习子模型获取所述存储单元在当前时刻的状态变量信息下的动作变量信息，并将所述动作变量信息和所述状态变量信息传输至所述下层混合整数线性规划子模型；S4：所述下层混合整数线性规划子模型获取所述源侧单元、所述负荷侧单元和所述能量转化单元对应的奖励变量和所述存储单元在下一时刻的状态变量信息，并反馈至所述上层强化学习子模型；S5：所述上层强化学习子模型对所述奖励变量进行学习后，迭代执行上述步骤S3-S4，直至调度结束。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根果据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

为了更好的验证本发明实施例所提供的基于双层强化学习的多能园区调度方法及系统的有效性，提供以下算例作为可选实施例进行验证：在本实施例中的的综合能源系统的具体物理拓扑如图2所示，其中每个单元设备的参数如表3所示：

表3：设备组成及参数

表3中的有功功率单位为Kw，成本单位为元/Kwh，燃气的低位热值为R_LHVT＝9.7kW·h/m³，燃气价格为3.45元/m³，电价为按照所在地峰平谷各时段购电的分时电价进行计价，具体如表4所示：

表4：购电价格

首先，本发明实施例在确定性场景下，对所设计的双层优化决策模型进行了测试。即不考虑实时电价、燃气价格、热负荷、电负荷和新能源出力的波动性，它们的值可以由时间t而确定。在确定性场景下，DRL子模型的状态变量缩减为s_t＝(SOC，t)，动作变量任按公式11中所定义。在本实施例中分别采取以下两种优化策略作为结果对照：一是考虑多能园区中不合有电池储能；二是采用动态规划(Dynamic Programming，简称DP)。在所有环境信息已知的情况下进行近似最优搜索。此时DP的状态变量为SOC，离散维数为100；电池动作同DRL中动作变量定义。设搜索时间步数为N＝24，即整个搜索空间为Ω＝100×5×24＝12000。如图8所示，为本发明实施例提供的一个随机抽样所获取的确定性场景，其中包含有24h内的电负荷曲线(L1)、新能源出力信息曲线(L2)和热负荷曲线(L3)。

在本实施例中，分别采取不同的SOC的初值，共进行了8组测试。图9所示，即为确定性场景下的性能比较。由图9可知：当园区中无储能装置时，总成本约为1587元/天；而在给定的电池安装容量下，DP给出的总成本消耗始终能保持在一个较低位。如当初始SOC＝0.2时，总成本可降低70元/天。而如图9所示，利用本实施例所提出的双层优化决策模型中的DRL给出的总成本则可以始终较好地追踪DP的性能表现，符合理论上的预测，验证了在确定性场景下所设计决策模型的有效性。

进一步地，作为另一可选实施例，其中所设计的双层优化决策模型中不确定性的来源主要包括：实时电价、燃气价格、电负荷、热负荷和新能源出力。在本实施例中即对所设计的双层决策优化模型在含不确定性的场景下进行测试，所考虑的不确定性种类有电负荷、热负荷和新能源出力。其中，所采取的风电出力基准曲线为单峰型，抽样概率分布为伽马分布；电负荷和热负荷的基准曲线均为双峰型，抽样概率分布为正态分布。具体地，如图10所示，记载了风电出力、电负荷和热负荷在各自的基准负荷曲线基础上根据统计抽样得到的100条样本曲线图。

结合上述实施例的内容，在不确定性场景下，DRL子模型的状态变量为s_t＝(p_l，p_h，p_re，SOC，t)。动作变量如公式11中所定义。在本实施例中仍采用无储能和DP两种优化策略作为测试结果对照，其中，DP的离散参数与确定性场景下的相同。

如图11所示即为100个抽样场景下三种不同优化策略各自的总成本对照。相比无储能情况，DP给出的总成本平均降低68.9元/天；而DRL给出的总成本平均降低61.7元/天。由此，验证了在含不确定性场景下，本发明实施例所提出的双层决策优化模型也可以给出接近近似动态规划的结果。

需要强调指出的是：强化学习给出的决策方案是实时的，而动态规划在每个场景下求解的搜索时间为1-2分钟，故要获取到图11所示的结果需要约2个小时的计算，其中动态规划占据了绝大部分时间。因此，本发明实施例提供的基于双层强化学习的多能园区调度方法中的强化学习在能达到和动态规划几乎相同的效果的同时，能够实现高时效的决策，实时性更好。

进一步地，如图12所示，为在双层决策优化模型的调度下综合能源系统电池SOC在一天内的变化(Battery SOC)示意图，充分验证了本发明实施例提供的基于双层强化学习的多能园区调度方法及系统具有良好的负荷平衡关系。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于双层强化学习的多能园区调度方法，其特征在于，包括：

S1：获取在不确定性有储能场景下的综合能源系统中的调度可控对象，所述调度可控对象包括源侧单元、负荷侧单元、能量转化单元与存储单元；

S3：所述上层强化学习子模型获取所述存储单元在当前时刻的状态变量信息下的动作变量信息，并将所述动作变量信息和所述状态变量信息传输至所述下层混合整数线性规划子模型；

S4：所述下层混合整数线性规划子模型获取所述源侧单元、所述负荷侧单元和所述能量转化单元对应的奖励变量和所述存储单元在下一时刻的状态变量信息，并反馈至所述上层强化学习子模型；

S5：所述上层强化学习子模型对所述奖励变量进行学习后，迭代执行上述步骤S3-S4，直至调度结束。

2.根据权利要求1所述的基于双层强化学习的多能园区调度方法，其特征在于，所述不确定性有储能场景下的综合能源系统为热电联储系统。

3.根据权利要求2所述的基于双层强化学习的多能园区调度方法，其特征在于，所述热电联储系统中的所述源侧单元包括燃气单元、电网单元和新能源单元；所述负荷侧单元包括电负荷和热负荷；所述能量转化单元包括微燃机、热交换器和电锅炉；所述存储单元为电池。

4.根据权利要求3所述的基于双层强化学习的多能园区调度方法，其特征在于，所述上层强化学习子模型的当前时刻的状态变量包括：

s_t＝(c_e,c_g,p_l,p_h,p_re,SOC)，

5.根据权利要求4所述的基于双层强化学习的多能园区调度方法，其特征在于，所述上层强化学习子模型的奖励函数为：

r_t＝-C(t)-λ(1-l_{{a≤SOC≤b}})

其中，r_t为上层强化学习子模型的奖励函数，C(t)为系统在t时刻的成本，λ为惩罚系数，表示SOC未处于a、b之间时的奖励惩罚值；a、b为SOC的变化范围约束且0≤a<b≤1，l_{{a≤SOC≤b}}为指示函数，当SOC未处于a、b之间时其值为0，否则其值为1。

6.根据权利要求4所述的基于双层强化学习的多能园区调度方法，其特征在于，所述上层强化学习子模型获取所述存储单元在当前时刻的状态变量信息下的动作变量信息为：

其中，p_b为电池输出功率，

为电池额定功率。

7.根据权利要求3所述的基于双层强化学习的多能园区调度方法，其特征在于，所述下层混合整数线性规划子模型以所述在不确定性有储能场景下的综合能源系统的运行总成本和能源未消纳惩罚最小为目标函数。

8.根据权利要求7所述的基于双层强化学习的多能园区调度方法，其特征在于，所述目标函数定义为：

C(t)＝c_ep_e+c_gV_g+c_re(p_re-p_re,u)，

其中，T为优化时间总步数，为当前优化所在步，c_e为实时电价，p_e为从电网所获取电量，c_g为实时燃气价格，V_g为燃气消耗体积，c_re为新能源未消纳惩罚系数，p_re为新能源可提供出力，p_re,u为新能源实际消纳出力。

9.根据权利要求7所述的基于双层强化学习的多能园区调度方法，其特征在于，所述下层混合整数线性规划子模型的约束包括：能量平衡约束、微燃机约束、热交换机功率约束、电池动作及状态约束、电锅炉约束以及新能源出力约束。

10.一种基于双层强化学习的多能园区调度系统，其特征在于，包括统计单元和经济调度单元，其中：

所述统计单元，用于获取在不确定性有储能场景下的综合能源系统中的调度可控对象，所述调度可控对象包括源侧单元、负荷侧单元、能量转化单元与存储单元；

所述经济调度单元中存储有双层优化决策模型运算单元以及迭代运算单元；

所述双层优化决策模型运算单元包括上层强化学习子模型运算单元和下层混合整数线性规划子模型运算单元；

所述上层强化学习子模型运算单元，用于获取所述存储单元在当前时刻的状态变量信息下的动作变量信息，并将所述动作变量信息和所述状态变量信息传输至所述下层混合整数线性规划子模型运算单元；

所述下层混合整数线性规划子模型运算单元，用于获取所述源侧单元、所述负荷侧单元和所述能量转化单元对应的奖励变量和所述存储单元在下一时刻的状态变量信息，并反馈至所述上层强化学习子模型运算单元；

所述迭代运算单元，用于控制所述上层强化学习子模型运算单元对所述奖励变量进行学习后，控制所述上层强化学习子模型运算单元和所述下层混合整数线性规划子模型迭代运行，直至调度结束。

11.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至9任一项所述基于双层强化学习的多能园区调度方法的步骤。

12.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至9任一项所述基于双层强化学习的多能园区调度方法的步骤。