CN115375015A

CN115375015A - 基于多智能体强化学习的多能源优化方法、系统和介质

Info

Publication number: CN115375015A
Application number: CN202210949981.9A
Authority: CN
Inventors: 李健; 韩笑; 傅凯; 王新迎; 马慧远
Original assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; State Grid Beijing Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; State Grid Beijing Electric Power Co Ltd
Priority date: 2022-08-09
Filing date: 2022-08-09
Publication date: 2022-11-22

Abstract

本发明公开了基于多智能体强化学习的多能源优化方法、系统和介质，获取区域能源互联网数据；根据区域能源互联网数据设置区域能源互联网环境；将多智能体深度强化学习与区域能源互联网环境进行交互训练，在交互训练过程中引入注意力机制，得到多能源协同优化运行策略。本发明通过多智能体深度强化学习和注意力机制相结合，以集中训练分布执行的模式，利用人工智能算法，保护多主体利益隐私的同时，实现区域能源互联网运行优化，进一步提高多能源利用率，从而保证能源互联网安全、稳定、高效运行。

Description

基于多智能体强化学习的多能源优化方法、系统和介质

技术领域

本发明属于区域能源互联网领域，具体涉及一种基于多智能体强化学习的多能源优化方法、系统和介质。

背景技术

区域能源互联网是电力、天然气、热力及新能源等多种能源相耦合的综合能源系统，因此区域能源互联网运行优化问题，涉及到非线性、随机性、非凸性以及多目标问题求解问题，并且由于不同的能源体系中行业壁垒的存在，导致能源数据无法完全的交互，如何在多种能源的生产、传输、存储、消费等环节，更好的消纳可再生能源，同时提高多能源利用率，确保能源互联网多能源协同优化和系统安全、稳定、高效的运行，变得至关重要。

目前，清洁可再生能源大规模发展，区域能源互联网成为解决可再生能源就地消纳问题，实现能源网络紧密融合、提高整体系统能效的必然趋势。区域能源互联网具有更强的灵活性和可靠性，因此，获取能源供需信息，并实施快速合理优化策略，是控制多能源系统生产运行和实现能源的安全高效流动的关键。

区域能源互联网优化面临多种能源和多主体利益，目前应用于优化模型求解的方法，一般分为两方面，一类是为解决非凸非线性问题采用的传统非线性数学求解方法如序列二次规划算法，但是由于非线性数学优化属于局部最优搜索算法，所以非凸优化模型的全局最优性无法保证，并且计算求解时间较长；另一方面是启发类算法，如遗传算法和神经网络算法，然而启发式算法的构建，更多的是基于一种直观或经验的算法，所以无法保证给出最优解，只能求得一个近似最优解，并且区域能源互联网多主体之前的隐私信息无法保证。

目前的多智能体深度强化学习技术，指将深度学习和强化学习相结合，智能体以“试错”的方式进行学习，通过与区域能源互联网环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏，强化学习中由区域能源互联网环境对智能体产生的协同优化决策动作的好坏做出一种评价，智能体依靠自身的经历进行学习，通过这种方式，智能体在动作-评价的环境中获得知识，改进协同优化动作方案以适应环境，如图1所示。当同时存在多个智能体与环境交互时，整个系统就变成一个多智能体系统，所有智能体根据当前的环境状态(或者是观测值)来同时选择并执行各自的动作，该各自动作带来的联合动作影响了环境状态的转移和更新，并决定了智能体获得的奖励反馈，从而达到最终的纳什均衡。

然而区域能源互联网运行优化，涉及多种能源形式的相互耦合和转化，决策结果大多集中在各种能源设备如发电机组、燃气轮机、电锅炉等设备出力多少，以满足系统的供需平衡和优化目标，但是对能源设备本身的工作效率关注较少，使得一些工作效率较低的能源出力设备为达到计划出力，造成能源浪费。其次，基于多智能体深度强化学习的区域能源互联网协同优化决策主要存在如下问题：1.区域能源互联网环境的不稳定性，每个智能体在做决策的同时，其他智能体也在采取动作，所有智能体的联合动作将导致环境状态的不断变化。2.智能体获取信息的局限性，智能体不一定能够获得全局的信息，存在智能体仅能获取局部的观测信息，多智能体之间的信息交互程度设置存在困难。3.区域能源互联网中各智能体的优化目标和奖励函数设置，以及如何达到纳什均衡存在一定困难。4.随着能源互联网环境模型的复杂程度增加，而导致智能体数量的增加，也会造成状态和动作空间过大,以至于无法进行有效的探索和训练，从而使得区域能源互联网的优化问题难以得到很好的解决。

发明内容

本发明的目的在于提供一种基于多智能体强化学习的多能源优化方法、系统和介质，以解决现有技术存在的缺陷，本发明通过多智能体深度强化学习和注意力机制相结合，以集中训练分布执行的模式，利用人工智能算法，保护多主体利益隐私的同时，实现区域能源互联网运行优化，进一步提高多能源利用率，从而保证能源互联网安全、稳定、高效运行。

为达到上述目的，本发明采用如下技术方案：

基于多智能体强化学习的多能源优化方法，包括：

获取区域能源互联网数据；

根据区域能源互联网数据设置区域能源互联网环境；

将多智能体深度强化学习与区域能源互联网环境进行交互训练，在交互训练过程中引入注意力机制，得到多能源协同优化运行策略。

进一步地，所述区域能源互联网数据包括电力系统参数、热力系统参数、天然气系统参数和可再生能源参数；

所述电力系统参数包括：系统频率、火力发电机组有功功率和无功功率、发电机组燃料输入量、电负荷消耗的有功功率和无功功率、电力系统网络节点数、系统电压幅值、相角以及电储能容量；

所述天然气系统参数包括：天然气管道稳态流量、节点气压和温度以及气负荷；

所述热力系统参数包括：电锅炉的功率和实际转换热量、燃气锅炉的功率和实际转换热量、热网中各节点气压和温度、管道中介质流量和热负荷；

所述可再生能源参数包括：风力发电机组有功功率以及光伏发电机组有功功率。

进一步地，所述区域能源互联网环境包括状态空间和动作空间；

所述状态空间如下式所示：

式中，S_i,T为状态空间，T为当前所处调度时段，

为i子区域T时段火电机组有功功率，

为i子区域T时段火电机组燃煤输入，

为i子区域T时段不包含电锅炉的其他电负荷功率，

为i子区域T时段电储能电量，

为i子区域T时段电锅炉有功功率，

为i子区域T时段燃气锅炉燃气输入量，

为i子区域T时段风电有功功率，

为i子区域T时段光伏有功功率；

所述动作空间如下式所示：

式中，A_i,T为动作空间，

为i子区域T时段火电机组有功功率，

为i子区域T时段电储能有功功率，

为i子区域T时段电锅炉有功功率，

为i子区域T时段燃气锅炉燃气输入量，

为i子区域T时段风电有功功率，

为i子区域T时段光伏有功功率。

进一步地，所述将多智能体深度强化学习与区域能源互联网环境进行交互训练过程中，通过设置奖励机制使智能体获得最大奖赏目标，所述奖励机制包括优化目标函数、约束条件及奖励函数。

进一步地，所述优化目标函数如下式所示：

式中：C_in为区域能源互联网总体能源输入成本，

为区域能源互联网火力发电燃煤输入，α为燃煤成本系数，

为区域能源互联网天然气能源输入，β为燃气成本系数；

其中，

式中，n为区域能源互联网中子区域的个数，每个子区域对应一个智能体，m为子区域中设备数量，

为第i子区域第j个火力发电出力功率，

为第i子区域第j个火力发电机工作效率；

为i子区域在T时段第j个燃气锅炉天然气输入量，

为i子区域在T时段第j个不包括燃气锅炉的气负荷；

其中，

式中，

为i子区域T时段风电有功功率，

为i子区域T时段光伏有功功率，

为i子区域T时段电储能有功功率，

为i子区域T时段不包含电锅炉的其他电负荷功率，

为i子区域在T时段第j个电锅炉有功功率。

进一步地，所述约束条件包括：

1)满足电力系统、热力系统和天热气系统运行供需平衡；

2)电力系统、热力系统和天热气系统中各能量生产转换设备均在设备功率上下限范围内；电能、热能生产转换设备的爬坡率满足爬坡率上下限范围内；

3)电力系统满足系统节点电压标幺值在[0.95,1.05]之间。

7.根据权利要求6所述的基于多智能体强化学习的多能源优化方法，其特征在于，所述奖励函数表示如下：

R＝R₁+R₂+R₃+R₄+R₅

式中，R为总奖励函数，R₁为第一奖励函数，R₂为第二奖励函数，R₃为第三奖励函数，R₄为第四奖励函数，R₅为第五奖励函数，R₂和R₃中有一个满足条件时，另一个数值为0，R₄和R₅中有一个满足条件时，另一个数值为0；

式中，L_step为强化学习算法迭代步长，v为系统节点电压标幺值，k₁和k₂为奖励系数，k₃为惩罚系数，C₁和C₂分别为结果满足条件时的奖励常数值。

进一步地，所述将多智能体深度强化学习与区域能源互联网环境进行交互训练，具体为：

构建区域能源互联网优化运行算法模型框架；

设计多智能体深度强化学习算法；

基于区域能源互联网优化运行算法模型框架，利用多智能体深度强化学习算法生成多能源协同优化运行策略；

所述利用多智能体深度强化学习算法生成多能源协同优化运行策略，具体为：

初始化智能体训练网络参数，预设多智能体训练轮次；

随机初始化区域能源互联网环境，获得当前区域能源互联网状态数据；

将当前区域能源互联网状态数据输入多智能体中，各子区域智能体进行优化决策，生成联合决策动作，同时环境反馈奖励值和下一时刻状态数据；

将当前区域能源互联网状态数据、联合决策动作、奖励值和下一时刻状态数据存储到经验池中；

通过经验池中数据对智能体训练网络参数进行更新，循环训练直至满足约束条件收敛或训练轮次大于预设的多智能体训练轮次，生成多能源协同优化运行策略。

进一步地，所述在交互训练过程中引入注意力机制，具体为：

各个智能体将观测到的环境信息输入到注意力机制中，进行关键特征提取，并且将特征权重输入到各智能体价值网络中，所述关键特征为可控设备的工作转换效率；

各个智能体通过观测注意到其他智能体的可控设备情况后，调高工作转换效率高的可控设备能源输入，同时降低工作转换效率低的可控设备能源输入，达到每台可控设备的合理出力，实现能源互联网运行优化；

其中，工作转换效率高的可控设备指的是工作转换效果大于全部可控设备平均工作转换效率的可控设备；

工作转换效率低的可控设备指的是工作转换效果小于全部可控设备平均工作转换效率的可控设备。

基于注意力机制多智能体深度强化学习的多能源协同优化系统，包括：

数据获取模块：用于获取区域能源互联网数据；

环境设置模块：用于根据区域能源互联网数据设置区域能源互联网环境；

运行策略优化模块：用于将多智能体深度强化学习与区域能源互联网环境进行交互训练，在交互训练过程中引入注意力机制，得到多能源协同优化运行策略。

进一步地，所述数据获取模块中，区域能源互联网数据包括电力系统参数、热力系统参数、天然气系统参数和可再生能源参数；

进一步地，所述环境设置模块中，区域能源互联网环境包括状态空间和动作空间；

所述状态空间如下式所示：

式中，S_i,T为状态空间，T为当前所处调度时段，

为i子区域T时段火电机组有功功率，

为i子区域T时段火电机组燃煤输入，

为i子区域T时段不包含电锅炉的其他电负荷功率，

为i子区域T时段电储能电量，

为i子区域T时段电锅炉有功功率，

为i子区域T时段燃气锅炉燃气输入量，

为i子区域T时段风电有功功率，

为i子区域T时段光伏有功功率；

所述动作空间如下式所示：

式中，A_i,T为动作空间，

为i子区域T时段火电机组有功功率，

为i子区域T时段电储能有功功率，

为i子区域T时段电锅炉有功功率，

为i子区域T时段燃气锅炉燃气输入量，

为i子区域T时段风电有功功率，

为i子区域T时段光伏有功功率。

进一步地，所述运行策略优化模块中，将多智能体深度强化学习与区域能源互联网环境进行交互训练过程中，通过设置奖励机制使智能体获得最大奖赏目标，所述奖励机制包括优化目标函数、约束条件及奖励函数。

进一步地，所述运行策略优化模块中，将多智能体深度强化学习与区域能源互联网环境进行交互训练，具体为：

构建区域能源互联网优化运行算法模型框架；

设计多智能体深度强化学习算法；

初始化智能体训练网络参数，预设多智能体训练轮次；

进一步地，所述运行策略优化模块中，在交互训练过程中引入注意力机制，具体为：

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述基于多智能体强化学习的多能源优化方法的步骤。

与现有技术相比，本发明具有以下有益的技术效果：

本发明根据区域能源互联网运行特性，利用供需平衡原则和运行约束条件，采用多智能体深度强化学习引入注意力机制方式，实现区域能源互联网多能源多主体的人工智能算法协同互动，确保系统安全稳定运行，通过多智能体深度强化学习智能算法解决传统机理模型优化求解非凸非线性问题困难，实现多智能体非完全信息下多能源系统协同优化策略的自动快速生成。

进一步地，通过计算可控设备如火力发电机组、电锅炉、燃气轮机工作转换效率的方法，设计区域能源互联网可控设备的合理能源输入控制，避免同一单位内可控设备控制策略不够精细，导致工作效率低的影响。

进一步地，从可控设备的工作转换效率角度考虑区域能源互联网能源转换设备的控制问题，采用工作转换效率高的可控设备承担部分工作效率较低的可控设备出力，从而提升设备利用率，降低能源输入消耗，提高控制准确性，不仅提高了能源利用的经济效益，而且在节能环保低碳运行方面具有重要意义。

附图说明

说明书附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为现有多智能体深度强化学习技术示意图；

图2为本发明区域能源互联网优化运行模型算法框架示意图；

图3为本发明多智能体深度强化学习算法流程示意图；

图4为本发明多智能体深度强化学习引入注意力机制示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

本发明提供一种基于多智能体强化学习的多能源优化方法，通过多智能体深度强化学习方法求解区域能源互联网优化运行问题，并且在多智能体深度强化学习算法中引入注意力机制，通过智能体关注可控设备的工作转换效率，并且以提高工作转换效率较高可控设备出力，降低工作转换效率较低可控设备出力的方式，快速求解区域能源互联网多能源协同优化运行，提高多能源利用效率，主要包括七部分：

(1)获取区域能源互联网数据，主要包含电力系统、热力系统、天然气系统和可再生能源参数四个方面的参数数据，如下所示：

电力系统参数主要包括：系统频率、火力发电机组有功功率和无功功率、发电机组燃料输入量、电负荷消耗的有功功率和无功功率，电力系统网络节点数，系统电压幅值、相角以及电储能容量等参数。

天然气系统参数主要包括：天然气管道稳态流量、节点气压和温度、气负荷等参数。

热力系统参数主要包括：电锅炉的功率和实际转换热量、燃气锅炉的功率和实际转换热量、以及热网中各节点气压、温度、管道中介质流量和热负荷等参数。

可再生能源参数主要包括：风力发电机组有功功率，光伏发电机组有功功率。

(2)区域能源互联网环境设置，通过对区域能源互联网电气热等多类能源生产模式进行模型建立，为多智能体深度强化学习与环境的交互训练提供便利条件，同时确定区域能源互联网的状态空间和动作空间。

状态空间设置：

设定的每个区域的智能体的状态空间包括区域内火电机组有功功率、火电机组燃煤量、电负荷功率、电储能电量，电锅炉有功功率，燃气锅炉燃气输入量，风电有功功率，光伏有功功率，以及所处调度时段T。如下式所示：

式中：S_i,T为状态空间，T为当前所处调度时段，

为i子区域T时段火电机组有功功率，

为i子区域T时段火电机组燃煤输入，

为i子区域T时段不包含电锅炉的其他电负荷功率，

为i子区域T时段电储能电量，

为i子区域T时段电锅炉有功功率，

为i子区域T时段燃气锅炉燃气输入量，

为i子区域T时段风电有功功率，

为i子区域T时段光伏有功功率。

动作空间设置：

设置区域内可控设备如火电机组有功功率、电锅炉有功功率燃气锅炉燃气输入量、风电有功功率、光伏有功功率和电储能电量为动作空间。如下式所示：

式中，A_i,T为动作空间，

为i子区域T时段火电机组有功功率，

为i子区域T时段电储能有功功率，

为i子区域T时段电锅炉有功功率，

为i子区域T时段燃气锅炉燃气输入量，

为i子区域T时段风电有功功率，

为i子区域T时段光伏有功功率。

(3)奖励机制设置，该部分主要阐述多智能体深度强化学习的奖励机制，使智能体获得最大的奖赏目标，引导智能体与环境进行交互获得最优策略动作，包含多智能体深度强化学习的优化目标函数、约束条件及奖励函数设置。

优化目标函数具体设置如下：

本发明以区域能源互联网能源消耗最低为优化目标，优化目标函数如下：

式中：C_in为区域能源互联网总体能源输入成本，

为区域能源互联网火力发电燃煤输入，α为燃煤成本系数，

为区域能源互联网天然气能源输入，β为燃气成本系数。

其中，公式(1)中：

式中，

为第i子区域第j个火力发电出力功率，

为第i子区域第j个火力发电机工作效率。

其中，n为区域能源互联网中子区域的个数，每个子区域对应一个智能体，m为子区域中设备数量，

为i子区域T时段风电有功功率，

为i子区域T时段光伏有功功率，

为i子区域T时段电储能有功功率，

为i子区域T时段不包含电锅炉的其他电负荷功率，

为i子区域第j个T时段电锅炉有功功率。

公式(1)中：

其中，

为i子区域在T时段第j个燃气锅炉天然气输入量，

为i子区域在T时段第j个不包括燃气锅炉的气负荷。

约束条件具体设置如下：

①系统平衡约束：满足电力系统、热力系统、天热气系统运行供需平衡；

②能量生产转换设备约束：各能量生产转换设备如火电机组出力、电锅炉出力、燃气锅炉出力、风电出力、光伏出力、电储能均在其设备功率上下限范围内；电能、热能生产转换设备，如火电机组、电锅炉、燃气锅炉的爬坡率满足爬坡率上下限范围内；

③系统稳定约束：电力系统满足系统节点电压标幺值在[0.95,1.05]之间。

由以上内容，奖励函数具体主要包含两部分：

第一、即在T时段区域能源互联网系统能源消耗越小，该时段给予各智能体的奖励越大。如下式所示：

式中，R₁为第一奖励函数，k₁为奖励系数。

第二、系统稳定约束：电力系统满足系统节点电压标幺值在[0.95,1.05]之间，奖励函数如下：

式中，R₂为第二奖励函数，R₃为第三奖励函数，R₄为第四奖励函数，R₅为第五奖励函数，k₂奖励系数，k₃为惩罚系数，C₁和C₂分别为结果满足条件时的奖励常数值。

最终奖励函数如下式：

R＝R₁+R₂+R₃+R₄+R₅ (7)

其中，R为总奖励函数，R₂和R₃有一个满足条件时，另一个数值为0，R₄和R₅有一个满足条件时，另一个数值为0。

(4)多智能体深度强化学习算法流程设计，利用多智能体深度强化学习算法进行区域能源互联网多主体的划分，构建基于多智能体深度强化学习的区域能源互联网优化运行算法模型框架，利用多智能体深度强化学习算法进行区域能源互联网运行优化控制决策生成。

具体如图2所示，区域能源互联网为多智能体强化学习算法提供状态数据，然后由多智能体强化进行数据的输入，并且根据优化目标函数、奖励函数以及约束条件进行训练，生成控制决策反馈到区域能源互联网中运行。

区域能源互联网主要分为电力系统、热力系统和天然气系统，电力系统又分为传统火力发电和新能源发电，新能源发电包含风力发电和光伏发电，整个能源互联网系统运行逻辑是首先各个区域满足各自区域电、气、热负荷需求，如果本区域还有多余的能量剩余，可以提供给其他区域进行协同优化。

电力系统中优先进行风电、光伏消纳，满足电负荷和热力系统中电锅炉需求，多余电量可以存入电储能装置中，可控设备为传统火电发电机组和电锅炉设备。天然气系统一部分供给气负荷使用，另一部供给热力系统燃气锅炉设备供热，可控设备为燃气锅炉。通过不同能源系统之间和不能区域之间的能源协同互动，达到区域能源互联网优化运行。

本发明主要通过消纳新能源和控制传统火电机组，电锅炉、燃气轮机等可控设备，调节可控设备出力，一次达到能源优化目的。

其中，使用的多智能体强化学习流程设计如图3所示：

初始化智能体训练网络参数，预设智能体训练迭代的轮次M，通过随机初始化环境参数，获得当前区域能源互联网状态数据S_t，状态数据输入多智能体中，进行模型训练，生成联合决策动作A，每个智能体代表区域能源互联网中的一个子区域，该子区域包含冷热器等可控设备，动作策略通过智能体与环境的不断交互，环境生成相应的奖励值R和下一时刻的状态数据S_t+1，将{S_t，A，R，S_t+1}存储到经验池中，与此同时，通过存储在经验池中的数据，对智能体训练网络参数进行更新，从而使得累积的值函数期望值最大，最后当系统满足全部约束条件或训练轮次达到设置值时，结束模型训练，否则重复训练，直至满足收敛。

(5)在(4)中引入注意力机制，通过每个智能体向其他智能体查询关于它们的观察和操作的部分可观信息，实现高效率可调节能源利用。

在(4)中的多智能体深度强化学习算法中引入注意力机制，如图4所示，通过多个智能体将每个智能体观测到的环境信息输入到注意力机制中，进行关键特征提取，并且将特征权重输入到各智能体价值网络中，通过这种方式实现智能体对其他智能体关键特征的关注，从而引导多智能体对本区域的可控设备控制，提高能源利用率。

(6)可调节设备能源工作转换效率判断，根据区域能源互联网实际工况，计算每个可调节发电机、电锅炉和燃气轮机等可控设备工作转换效率，并根据全部可控设备的平均工作转换效率来区分高或低工作转换效率的可控设备，用于(5)的注意力机制下智能体重点关注特征信息。

采用可控设备发电机组工作转换效率，电锅炉工作转换效率和燃气轮机工作转换效率作为注意力机制关键特征，根据以下公式可以分别求得相应工作转换效率。

式中，

为第i子区域第j个火力发电机工作转换效率，

为第i子区域第j个火力发电出力功率，

为第i子区域第j个火力发电机燃煤输入量，

为第i子区域第j个电锅炉换热量，

为i子区域在T时段第j个电锅炉有功功率，

为第i子区域第j个燃气锅炉换热量，

为i子区域在T时段第j个燃气锅炉天然气输入量；

换热量可通过以下通式计算：

H＝CmΔT

式中：H为设备换热量，C为水比热容，ΔT为热力系统管道中水的初始温度和加热后的温度差。

将发电机组工作转换效率，电锅炉工作转换效率和燃气轮机工作转换效率返回给各个智能体，各个智能体通过观测注意到其他智能体的可控设备情况后，调高转换效率高的可控设备能源输入，同时降低转换效率低的可控设备能源输入，达到每台可控设备的合理出力，实现能源互联网运行优化，从而节省能源消耗。

以火力发电机组为例，区域中有10台发电机组，定义i子区域j台火电机组的工作转换效率为：

式中，

为第i子区域第j个火力发电机工作转换效率，

为第i子区域第j个火力发电出力功率，

为第i子区域第j个火力发电机燃煤输入量。

定义i子区域火电机组平均工作转换效率为所有火力发电机工作转换效率加和后除以总台数：

高于平均工作转换效率的机组为高工作转换效率火力发电机，低于平均工作转换效率的机组为低工作转换效率火力发电机。

如公式(8)，假设各个火力发电机有功出力一定，那么工作转换效率高的火力发电机，其消耗的燃煤输入量必然小。也就是说，如果同样的有功出力由工作转换效率高的火力发电机完成，其燃煤消耗要小于工作转换效率低的火力发电机。

根据火力发电机组工作转换效率的高低，提高工作转换效率高的火力发电机燃煤输入量，降低工作转换效率低的火力发电机燃煤输入量，调整后的单台火力发电机的燃煤输入量为：

式中，

为单台火力发电机调整后的燃煤输入量，

为单台火力发电机调整前的燃煤输入量，Δ为火力发电机组的调整量。

Δ＝(Δ₁,Δ₂,…,Δ₁₀) (11)

所以在总有功出力不变的前提下，如果适当的增加工作转换效率高的火力发电机燃煤输入量，同时降低工作转换效率低的火力发电机燃煤输入量，则高效发电机增加的煤耗必然小于低效发电机降低的煤耗，从而达到调整后发电机组的燃煤输入量必然小于调整前的燃煤输入量。

如下式所示：

根据公式(8)至(12)所示的推理过程，电锅炉和燃气锅炉的调整原理依次类推，调高区域内工作效率较高的设备有功出力和天然气输入量。

调整量的控制策略，均由多智能体深度强化学习算法生成，最终实现多能源协同优化运行。

(7)结合(1)至(6)进行多智能体深度强化学习训练，生成多能源协同优化运行策略。

通过(1)至(4)构建了多智能体强化学习的状态空间、动作空间、奖励函数以及区域能源互联网运行优化框架，并且引入(5)和(6)的注意力机制，从而更好的引导多智能体的能源优化策略生成，最终实现区域能源互联网以能源消耗最低为目标函数的多智能体深度强化学习生成方法。

实施例二

基于多智能体强化学习的多能源优化系统，包括：

数据获取模块：用于获取区域能源互联网数据；区域能源互联网数据包括电力系统参数、热力系统参数、天然气系统参数和可再生能源参数；

环境设置模块：用于根据区域能源互联网数据设置区域能源互联网环境；区域能源互联网环境包括状态空间和动作空间；

所述状态空间如下式所示：

式中，S_i,T为状态空间，T为当前所处调度时段，

为i子区域T时段火电机组有功功率，

为i子区域T时段火电机组燃煤输入，

为i子区域T时段不包含电锅炉的其他电负荷功率，

为i子区域T时段电储能电量，

为i子区域T时段电锅炉有功功率，

为i子区域T时段燃气锅炉燃气输入量，

为i子区域T时段风电有功功率，

为i子区域T时段光伏有功功率；

所述动作空间如下式所示：

式中，A_i,T为动作空间，

为i子区域T时段火电机组有功功率，

为i子区域T时段电储能有功功率，

为i子区域T时段电锅炉有功功率，

为i子区域T时段燃气锅炉燃气输入量，

为i子区域T时段风电有功功率，

为i子区域T时段光伏有功功率。

运行策略优化模块：用于将多智能体深度强化学习与区域能源互联网环境进行交互训练，通过设置奖励机制使智能体获得最大奖赏目标，所述奖励机制包括优化目标函数、约束条件及奖励函数，另外在交互训练过程中引入注意力机制，得到多能源协同优化运行策略。

其中，所述优化目标函数如下式所示：

式中：C_in为区域能源互联网总体能源输入成本，

为区域能源互联网火力发电燃煤输入，α为燃煤成本系数，

为区域能源互联网天然气能源输入，β为燃气成本系数；

其中，

为第i子区域第j个火力发电出力功率，

为第i子区域第j个火力发电机工作效率；

为i子区域在T时段第j个燃气锅炉天然气输入量，

为i子区域在T时段第j个不包括燃气锅炉的气负荷；

其中，

式中，

为i子区域T时段风电有功功率，

为i子区域T时段光伏有功功率，

为i子区域T时段电储能有功功率，

为i子区域T时段不包含电锅炉的其他电负荷功率，

为i子区域在T时段第j个电锅炉有功功率。

所述约束条件包括：

1)满足电力系统、热力系统和天热气系统运行供需平衡；

3)电力系统满足系统节点电压标幺值在[0.95,1.05]之间。

所述奖励函数表示如下：

R＝R₁+R₂+R₃+R₄+R₅

另外，将多智能体深度强化学习与区域能源互联网环境进行交互训练，具体为：

构建区域能源互联网优化运行算法模型框架；

设计多智能体深度强化学习算法；

初始化智能体训练网络参数，预设多智能体训练轮次；

在交互训练过程中引入注意力机制，具体为：

Claims

1.基于多智能体强化学习的多能源优化方法，其特征在于，包括：

获取区域能源互联网数据；

根据区域能源互联网数据设置区域能源互联网环境；

2.根据权利要求1所述的基于多智能体强化学习的多能源优化方法，其特征在于，所述区域能源互联网数据包括电力系统参数、热力系统参数、天然气系统参数和可再生能源参数；

3.根据权利要求2所述的基于多智能体强化学习的多能源优化方法，其特征在于，所述区域能源互联网环境包括状态空间和动作空间；

所述状态空间如下式所示：

式中，S_i,T为状态空间，T为当前所处调度时段，

为i子区域T时段火电机组有功功率，

为i子区域T时段火电机组燃煤输入，

为i子区域T时段不包含电锅炉的其他电负荷功率，

为i子区域T时段电储能电量，

为i子区域T时段电锅炉有功功率，

为i子区域T时段燃气锅炉燃气输入量，

为i子区域T时段风电有功功率，

为i子区域T时段光伏有功功率；

所述动作空间如下式所示：

式中，A_i,T为动作空间，

为i子区域T时段火电机组有功功率，

为i子区域T时段电储能有功功率，

为i子区域T时段电锅炉有功功率，

为i子区域T时段燃气锅炉燃气输入量，

为i子区域T时段风电有功功率，

为i子区域T时段光伏有功功率。

4.根据权利要求2所述的基于多智能体强化学习的多能源优化方法，其特征在于，所述将多智能体深度强化学习与区域能源互联网环境进行交互训练过程中，通过设置奖励机制使智能体获得最大奖赏目标，所述奖励机制包括优化目标函数、约束条件及奖励函数。

5.根据权利要求4所述的基于多智能体强化学习的多能源优化方法，其特征在于，所述优化目标函数如下式所示：

式中：C_in为区域能源互联网总体能源输入成本，

为区域能源互联网火力发电燃煤输入，α为燃煤成本系数，

为区域能源互联网天然气能源输入，β为燃气成本系数；

其中，

为第i子区域第j个火力发电出力功率，

为第i子区域第j个火力发电机工作效率；

为i子区域在T时段第j个燃气锅炉天然气输入量，

为i子区域在T时段第j个不包括燃气锅炉的气负荷；

其中，

式中，

为i子区域T时段风电有功功率，

为i子区域T时段光伏有功功率，

为i子区域T时段电储能有功功率，

为i子区域T时段不包含电锅炉的其他电负荷功率，

为i子区域在T时段第j个电锅炉有功功率。

6.根据权利要求5所述的基于多智能体强化学习的多能源优化方法，其特征在于，所述约束条件包括：

1)满足电力系统、热力系统和天热气系统运行供需平衡；

3)电力系统满足系统节点电压标幺值在[0.95,1.05]之间。

R＝R₁+R₂+R₃+R₄+R₅

8.根据权利要求4所述的基于多智能体强化学习的多能源优化方法，其特征在于，所述将多智能体深度强化学习与区域能源互联网环境进行交互训练，具体为：

构建区域能源互联网优化运行算法模型框架；

设计多智能体深度强化学习算法；

初始化智能体训练网络参数，预设多智能体训练轮次；

9.根据权利要求4所述的基于多智能体强化学习的多能源优化方法，其特征在于，所述在交互训练过程中引入注意力机制，具体为：

10.基于多智能体强化学习的多能源优化系统，其特征在于，包括：

数据获取模块：用于获取区域能源互联网数据；

11.根据权利要求10所述的基于多智能体强化学习的多能源优化系统，其特征在于，所述数据获取模块中，区域能源互联网数据包括电力系统参数、热力系统参数、天然气系统参数和可再生能源参数；

12.根据权利要求11所述的基于多智能体强化学习的多能源优化系统，其特征在于，所述环境设置模块中，区域能源互联网环境包括状态空间和动作空间；

所述状态空间如下式所示：

式中，S_i,T为状态空间，T为当前所处调度时段，

为i子区域T时段火电机组有功功率，

为i子区域T时段火电机组燃煤输入，

为i子区域T时段不包含电锅炉的其他电负荷功率，

为i子区域T时段电储能电量，

为i子区域T时段电锅炉有功功率，

为i子区域T时段燃气锅炉燃气输入量，

为i子区域T时段风电有功功率，

为i子区域T时段光伏有功功率；

所述动作空间如下式所示：

式中，A_i,T为动作空间，

为i子区域T时段火电机组有功功率，

为i子区域T时段电储能有功功率，

为i子区域T时段电锅炉有功功率，

为i子区域T时段燃气锅炉燃气输入量，

为i子区域T时段风电有功功率，

为i子区域T时段光伏有功功率。

13.根据权利要求11所述的基于多智能体强化学习的多能源优化系统，其特征在于，所述运行策略优化模块中，将多智能体深度强化学习与区域能源互联网环境进行交互训练过程中，通过设置奖励机制使智能体获得最大奖赏目标，所述奖励机制包括优化目标函数、约束条件及奖励函数。

14.根据权利要求13所述的基于多智能体强化学习的多能源优化系统，其特征在于，所述运行策略优化模块中，将多智能体深度强化学习与区域能源互联网环境进行交互训练，具体为：

构建区域能源互联网优化运行算法模型框架；

设计多智能体深度强化学习算法；

初始化智能体训练网络参数，预设多智能体训练轮次；

15.根据权利要求13所述的基于多智能体强化学习的多能源优化系统，其特征在于，所述运行策略优化模块中，在交互训练过程中引入注意力机制，具体为：

16.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9任一项所述基于多智能体强化学习的多能源优化方法的步骤。