CN117272842B

CN117272842B - 多工业园区综合能源系统的协同控制系统及方法

Info

Publication number: CN117272842B
Application number: CN202311555960.XA
Authority: CN
Inventors: 肖斌; 彭怀午; 郜振鑫; 周治; 牛东圣; 彭厚博; 刘坤
Original assignee: Xian Jiaotong University; PowerChina Northwest Engineering Corp Ltd
Current assignee: Xian Jiaotong University; PowerChina Northwest Engineering Corp Ltd
Priority date: 2023-11-21
Filing date: 2023-11-21
Publication date: 2024-02-27
Anticipated expiration: 2043-11-21
Also published as: CN117272842A

Abstract

本公开提供了一种用于多工业园区综合能源系统的协同控制系统及方法，涉及自动控制技术领域，该协同控制系统包括：多个综合能源子系统，智能体驱动装置和协同控制模块，智能体驱动装置包括多个智能体，并且各智能体与各综合能源子系统一一对应进行信息交互和强化学习，并利用多智能体深度确定性策略梯度算法MADDPG对协同调控状态模型POMDP进行求解，得到由各训练好的智能体选择的调控动作构成的联合动作，通过联合动作实现对多个综合能源子系统的协同控制。本公开实现在保护工业园区隐私的基础上，降低各园区的经济成本；利用集中训练、分散执行的方法提高了算法的性能，降低了精确建模和求解难度。

Description

多工业园区综合能源系统的协同控制系统及方法

技术领域

本公开涉及自动控制技术领域，具体而言，涉及一种用于多工业园区综合能源系统的协同控制系统及方法。

背景技术

为提升工业园区内用能主体的负荷需求满意度，普遍引入综合能源系统，通过借助多能互补、需求响应和多元储能的方式，有效降低工业园区内的运转成本，并提高能源利用率以及维护电网的稳定运行；对于多个工业园区的综合能源系统，能够满足在单个工业园区协同的基础上，发挥各个工业园区内部市场和内部能源交易的优势，提高抗风险性和市场竞争力。

对于多个工业园区的综合能源系统，其受益于多个利益相关方的共同作用，存在内部市场和外部市场的交易机制；同时，兼顾光伏、风电系统的出力和用户负荷的多重不确定特点；目前，针对工业园区综合能源系统的调控模型求解方法包括数学规划方法及启发式方法，现有的数学规划方法在面对大规模问题时全局优化速度慢，求解困难大；而启发式方法往往需要依靠专家经验，不依赖模型性质导致求解质量不稳定；相关技术中的调控模型求解方法无法满足多个工业园区的综合能源系统的全局最优运行策略的求解过程，求解难度大，大大增加了多工业园区综合能源系统的协同调控难度。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开实施例的目的在于提供一种协同控制系统及方法，在一定程度上以改善现有的调控模型求解方法对多能源系统最优运行策略的求解过程难度大以及协同调控难度较高的问题。

根据本公开实施例的第一方面，提供了一种用于多工业园区综合能源系统的协同控制系统，包括：

多个综合能源子系统；

智能体驱动装置，包括预训练的多个智能体，各智能体与各综合能源子系统一一对应设置，用于基于智能体与对应综合能源子系统之间的信息交互进行强化学习；

协同控制模块，与智能体驱动装置电连接，用于利用多智能体深度确定性策略梯度算法MADDPG对预构建的协同调控状态模型POMDP进行求解，得到由各训练好的智能体选择的调控动作构成的联合动作，以通过联合动作实现对多个综合能源子系统的协同控制；

其中，协同调控状态模型是用于描述多个工业园区综合能源系统的协同调控的过程的状态模型。

根据本公开实施例的第二方面，提供了一种用于多工业园区综合能源系统的协同控制方法，包括：

通过各智能体与对应综合能源子系统的信息交互并进行强化学习，并根据强化学习的结果选择控制动作；

根据各智能体选择的控制动作，获得联合动作；

利用联合动作，对多个综合能源子系统进行协同调控；

其中，采用协同调控状态模型POMDP对多个综合能源子系统的协同调控的过程进行描述，并利用多智能体深度确定性策略梯度算法MADDPG对协同调控状态模型POMDP模型进行求解。

本公开的实施例提供的技术方案可以包括以下有益效果：

通过本公开的实施例，利用多个智能体与多个工业园区综合能源系统之间的信息交互，实现多个园区协同控制的智能化；每个工业园区综合能源系统对应一个有决策能力的智能体，一方面，实现在运行优化的基础上进行滚动修正，在保护工业园区隐私的基础上，降低各园区的经济成本；另一方面，采用协同调控状态模型POMDP对多个工业园区综合能源系统的协同调控的过程进行描述，并利用多智能体深度确定性策略梯度算法进行求解，利用集中训练、分散执行的方法提高了算法的性能，降低了精确建模和求解难度，进而降低对多工业园区综合能源系统的协同控制的难度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本公开的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1示意性示出了根据本公开的一些实施例中协同控制系统的架构框图。

图2示意性示出了根据本公开的一些实施例中综合能源子系统的场景示意图。

图3示意性示出了根据本公开的一些实施例中对协同调控状态模型进行求解的框架示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

1、多个综合能源子系统；11、外部电网；12、内部市场；13、工业园区；

2、智能体驱动装置；21、智能体；

3、协同控制模块；

4、虚拟电厂；

5、模型求解模块。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

在相关技术中，存在以下技术问题：

相关技术中，调控模型求解方法无法满足多个工业园区的综合能源系统的全局最优运行策略的求解过程，求解难度大，大大增加了多工业园区综合能源系统的协同调控难度的技术问题。

基于相关技术中的一个或者多个问题，本公开首先提出了一种用于多工业园区综合能源系统的协同控制系统，该用于多工业园区综合能源系统的协同控制系统包括多个综合能源子系统，智能体驱动装置和协同控制模块，其中：

智能体驱动装置包括预训练的多个智能体，各智能体与各综合能源子系统一一对应设置，用于基于智能体与对应综合能源子系统之间的信息交互进行强化学习，协同控制模块，与智能体驱动装置电连接，用于利用多智能体深度确定性策略梯度算法MADDPG对预构建的协同调控状态模型POMDP进行求解，得到由各训练好的智能体选择的调控动作构成的联合动作，以通过联合动作实现对多个综合能源子系统的协同控制，其中，协同调控状态模型是用于描述多个工业园区综合能源系统的协同调控的过程的状态模型。

参考图1至图3所示，协同控制系统可以包括多个综合能源子系统1，智能体驱动装置2和协同控制模块3，其中：

智能体驱动装置2，包括预训练的多个智能体21，各智能体21与各综合能源子系统一一对应设置，用于基于智能体21与对应综合能源子系统之间的信息交互进行强化学习；

协同控制模块3，与智能体驱动装置2电连接，用于利用多智能体深度确定性策略梯度算法MADDPG对预构建的协同调控状态模型POMDP进行求解，得到由各训练好的智能体21选择的调控动作构成的联合动作，以通过联合动作实现对多个综合能源子系统1的协同控制；

其中，智能体驱动装置2是指用于驱动智能体21与多个综合能源子系统1进行信息交互的装置，从而通过智能体21与对应综合能源子系统之间的信息交互进行强化学习。智能体驱动装置2中包括多个智能体21，智能体21与综合能源子系统一一对应，举例而言，当协同控制系统中含有5个综合能源子系统时，则与综合能源子系统相对应的智能体21的个数也为5，只要保证智能体21与综合能源子系统一一对应即可，本实施例对于智能体驱动装置2中的智能体21的个数不做特别限定。

智能体21是指具有自主决策和学习能力的计算机程序或系统，用于与多个综合能源子系统1之间进行信息交互并利用POMDP模型进行强化学习做出决策并执行控制动作。智能体21可以通过与综合能源子系统进行数据共享从而进行信息交互，也可以通过通信协议和网络实现信息交互，当然，还可以根据具体的情况选择合适的方式使智能体21与综合能源子系统进行信息交互，本实施例对于智能体21与综合能源子系统进行信息交互的方式不做特别限定。

可选的，每个智能体21通过反复地交互与学习，能够获得一个较好的调控策略，而多个智能体21之间能够通过共享经验，以提高学习的效率。

综合能源子系统是指各工业园区13的供电或用电的设备，用于满足工业园区13的用电需求。综合能源子系统可以是储能系统，也可以是发电系统，还可以是根据各工业园区13的用电数据构建的虚拟的电厂，当然，综合能源子系统内包含的系统的种类可以根据具体的情况确定不同种类的供电系统，本实施例对于综合能源子系统中的供电系统的种类不做特别限定。

协同控制模块3是指用于根据由所有智能体21选择的控制动作确定的联合动作对多个综合能源子系统1进行协同控制的模块。举例而言，协同控制模块3可以根据由多智能体深度确定性策略梯度算法MADDPG对预构建的协同调控状态模型POMDP进行求解的结果对多个综合能源子系统1进行控制，从而实现对多个工业园区综合能源系统之间的协同调控，可选的，协同调控状态模型POMDP可以对协同控制综合能源系统的过程进行描述，使得智能体21可以基于最优策略选择控制动作，进一步的基于每个智能体21选择的控制动作在协同调控状态模型POMDP中的动作空间中形成联合动作，从而使协同控制模块可以利用联合动作对多个综合能源子系统1进行控制，满足各工业园区13的需求。

可选的，利用多智能体深度确定性策略梯度算法MADDPG对预构建的协同调控状态模型POMDP进行求解可以沿用改进的经验回放、目标网络、确定性策略、演员评论家结构，中心化、去中心化机制以及策略集成机制，其中，经验回放，目标网络，确定性策略，演员-评论家网络为多智能体深度确定性策略梯度算法MADDPG在对协同调控状态模型POMDP进行求解时智能体21对应的求解方法，在此不做详细说明。

可选的，在通过多智能体深度确定性策略梯度算法MADDPG在对协同调控状态模型POMDP进行求解时可以引入中心化和去中心化机制，可以根据价值网络对所有智能体21的信息和各工业园区13综合能源系统的环境信息形成一个中心化的价值参数的过程，一方面，用于在利用价值网络进行训练智能体21的过程中使得每个智能体21都能建立其他智能体21的策略模型，从而提高策略的稳定性和复用性，另一方面，通过中心化以及去中心化机制可以利用集中训练、分散执行的方法提高算法的性能，在一定程度上降低了精确建模和求解难度。

举例而言，在多智能体深度确定性策略梯度算法（MADDPG）中引入中心化机制可以将所有的智能体21的信息与环境信息汇总，形成一个中心化的价值参数，从而用于训练协同调控状态模型POMDP，可以利用价值网络对所有的智能体21的信息进行建模，使得每个智能体21能够考虑其他智能体21的策略和行为，从而提高策略的稳定性和复用性，通过中心化机制，智能体21可以更好地协同合作，相互之间的策略模型可以得到更新和改进，以达到整体协同调控的目标。

可选的，在多智能体深度确定性策略梯度算法（MADDPG）中引入去中心化机制可以使每个智能体21独立地学习和决策，不依赖于中心化的价值参数，每个智能体21根据自己的感知和目标进行决策，无需依赖全局信息，通过去中心化机制，多智能体深度确定性策略梯度算法（MADDPG）可以更好地应对实际问题中的分布式、异构性和不确定性，同时降低了精确建模和求解的难度。

可选的，可以将中心化和去中心化机制结合，如果需要强调整体协同调控和信息共享，中心化机制可以提供更好的效果，而如果任务需求更加分散且需要处理大规模的复杂环境，去中心化机制可以提供更好的效果，综合利用中心化和去中心化机制，可以提高算法的性能和适应性，从而能够更好地解决协同调控的问题。

可选的，在通过多智能体深度确定性策略梯度算法MADDPG在对协同调控状态模型POMDP进行求解时，可以引入策略集成机制即在每个训练回合中对智能体21对应的策略集合中的某一子策略进行训练，从而根据训练的结果确定每个智能体21对应的策略集合的最大化目标，从而根据最大化目标确定每个智能体21选择的控制动作，一方面可以提高策略的多样性和广度，增加策略搜索的效率，提高学习的稳定性和鲁棒性；另一方面可以实现策略的协同和互补，有助于智能体21在复杂任务和环境中具备更强的适应性和性能。

以下，对协同控制系统进行详细展开说明。

在本公开的一种示例实施例中，协同控制系统包括联合动作确定模块，联合动作确定模块被配置为：

获取当前时段多个综合能源子系统1的环境联合状态；根据当前时段多个综合能源子系统1的环境联合状态，每个智能体21根据环境联合状态生成对应的控制策略，并根据控制策略，选择控制动作，根据训练好的各智能体21选择的控制动作，生成并发送联合动作至多个综合能源子系统1中，联合动作用于触发多个综合能源子系统1发生状态转移，形成下一时段多个综合能源子系统1的环境联合状态，并且每个综合能源子系统分别生成对相应智能体21的反馈响应，反馈响应包括下一时段综合能源子系统的观测状态及奖励信号，每个智能体21根据奖励信号，对控制策略进行更新，直至多个综合能源子系统1的协同控制的任务结束为止。

本实施例中，利用多个智能体21与多个综合能源子系统1之间的信息交互进行协同控制，即利用多智能体强化学习方法实现多园区综合能源协同控制系统的原因在于：针对各工业园区13的综合能源子系统而言，发电系统和储能系统中设备在单位时间内所产生或提供的能量或功率具有时序性，而强化学习方法能够考虑数据的时间耦合性；由于各工业园区13的综合能源子系统中，储能系统在某时段的充电策略并不能立刻得到奖励，当前的策略并不一定能体现在即时奖励上，强化学习方法能够适合处理延迟奖励的情况；针对多个综合能源子系统1，由于组合状态和组合动作情况复杂，通过强化学习方法在智能体21与环境的交互中，能够获取足够多的样本数据；对于多园区综合能源子系统中能源的复杂场景，通过深度学习网络解决组合状态和组合动作维数高计算量大的问题，降低精确建模的难度；其次，通过离线训练和在线调控提高响应速度和信息复用率；对于多个园区的多个综合能源子系统1而言，各工业园区13独立运行，设置多个智能体21分别决策充分保护了各工业园区13的隐私；在线调控时分散决策可以减轻网络的通信负担，集中训练可以保证策略的有效性和稳定性。

在本公开的一种示例实施例中，协同控制系统包括协同调控状态模型配置模块，协同调控状态模型配置模块被配置为：

通过在协同调控状态模型POMDP中采用状态空间、观测状态空间、动作空间、联合状态转移概率、奖励函数、观测函数及折扣因子对多个综合能源子系统1的协同控制的过程进行描述；其中，状态空间，可以用于聚合多个综合能源子系统1中全部会发生的状态；观测状态空间，用于聚合多个综合能源子系统1中全部会发生的观测状态；动作空间，用于聚合全部会发生的联合动作；联合状态转移概率，用于表示多个综合能源子系统1的观测状态的转移概率；奖励函数，用于表示综合能源子系统反馈给与综合能源子系统对应的智能体21的奖励信号；观测函数，用于描述状态与观测状态之间的关系；折扣因子，用于平衡当前时段和未来时段的奖励。

可选的，对多个工业园区13综合能源系统的协同控制是一个马尔可夫博弈问题；因此，采用POMDP模型对多个工业园区13综合能源系统的协同调控的过程进行描述。具体的，多个智能体21的状态具备马尔可夫性，博弈则表示具备自控能力并且可以相互作用的多智能体之间的关系，可以通过采用元组参数来描述多个智能体21系统；其中，/>表示智能体21个数，/>表示当前控制系统的联合状态，表示多个智能体21的动作集合，/>表示状态转移概率，/>表示折扣因子，表示多个智能体21获得的奖励集合，对于单个工业园区13综合能源系统而言，无法获取其他工业园区13的信息，即每个智能体21只能观测到环境中的部分信息，因此，本实施例中，对MDP模型进行扩展，建立部分可见的马尔可夫决策过程（POMDP)模型，对多个工业园区综合能源系统的协同调控的过程进行描述。

可选的，在协同调控状态模型配置模块中利用POMDP模型中采用状态空间、观测状态空间、动作空间、联合状态转移概率、奖励函数、观测函数及折扣因子，对多个工业园区综合能源系统的协同调控的过程进行描述，即采用一个七元组来描述问题。以下对七元组进行详细说明：

（1）状态空间：其中，当前时段多个综合能源子系统1的环境联合状态定义为：其中，/>为/>时刻多个综合能源子系统1的环境联合状态；/>为/>时刻智能体/>的观测值；/>为智能体21的总个数；/>为多个智能体21的联合状态空间。

（2）观测状态空间：当工业园区综合能源系统为一个时，该工业园区综合能源系统完全可被智能体21观测；其中，每个智能体21的观测状态结构相同，且每个智能体21的观测状态均被定义为：，其中，/>为当前时段/>各工业园区13向外网买电的单价，/>为当前时段/>各工业园区13向外网卖电的单价；/>为当前时段/>第/>个工业园区综合能源系统中的光伏系统的实际出力，/>为当前时段/>第/>个工业园区综合能源系统中的风电系统的实际出力；/>为当前时段/>第/>个工业园区综合能源系统中的储能系统的存储荷电状态；/>当前时段/>第/>个工业园区综合能源系统中的工业企业总负荷。

（3）动作空间：联合动作由所有智能体21的决策动作组成，每个智能体21的动作空间设计相同，每个智能体21的动作空间定义为：，/>，其中，/>表示智能体/>在/>时刻的状态；/>表示时段/>智能体/>向虚拟电厂4提交的总买电量信息，/>表示时段/>智能体/>向虚拟电厂4提交的总卖电量信息；/>表示时段/>智能体/>所控制工业园区13中的燃气系统的输出功率，/>表示时段/>智能体/>所控制工业园区13中的储能系统的充放电功率。

（4）联合状态转移概率：由于工业园区综合能源系统中的风电系统和光伏出力的随机性和工业企业负荷不确定性，对于协同调控网络中的多个智能体21而言，状态转移概率不完全已知，下式描述了观测状态转移的方式：，，/>，/>，/>，，/>，/>为/>时刻多个综合能源子系统的环境联合状态/>的多智能体采取/>时刻的联合动作/>，从而转移到t+1时刻多个综合能源子系统的环境联合状态/>的联合状态转移概率；为t+1时刻多个综合能源子系统的环境联合状态；/>为智能体/>的状态转移概率；为向主网买电单价的转移函数；/>为向主网卖电单价的转移函数；/>为光伏系统的转移函数；/>为风电系统的转移函数；/>为工业企业负荷的转移函数；为/>时刻智能体/>的储能状态；/>为储能系统性能系数；/>为储能系统充放电时储能电池的损耗系数；/>为/>时刻智能体/>的工业负荷。需要说明的是，当时，下一时段的储能容量为当前储能容量减去放电量；当/>时，储能系统中下一时段的储能容量为当前储能容量加上充电量。

（5）奖励函数：即是环境反馈给每个智能体21的一个即时信号；其中，每个智能体21奖励函数设计相同，见下式：，其中，/>表示时段/>向外部电网11的买电价格，/>表示时段/>向外部电网11的卖电价格，/>表示时段/>向虚拟电厂4的买电价格，/>表示时段/>向虚拟电厂4的卖电价格；表示时段/>工业园区/>向外部电网11的买电量，/>表示时段/>工业园区/>向外部电网11的卖电量，/>表示时段/>工业园区/>向虚拟电厂4的买电量，/>表示时段/>工业园区/>向虚拟电厂4的卖电量。

（6）观测函数：即环境在执行动作状态转移至/>后，观察值为/>的概率；其中，观测函数定义为：/>，其中，为定义的观测函数，用于描述状态与观测状态之间的关系，/>为执行动作/>后发生状态转移的状态；/>为观测值；/>为在执行动作状态转移至/>后，观察值为/>的概率。

（7）折扣因子：折扣因子是一个衰减系数，取值范围为/>；其中，折扣奖励/>为：/>，其中，/>为折扣奖励；/>为多智能体联合奖励的期望；/>为折扣因子的乘方；/>为/>时刻多智能体联合奖励函数；/>为折扣因子，即衰减系数，取值范围为[0,1]。

可选的，本公开采用的POMDP模型中包含多个智能体21，智能体21之间存在合作或竞争关系或同时具备，而在单智能体算法训练中，由于单个智能体21的策略分布一直变化，对于其他智能体21而言无法理解环境的变化，导致训练过程稳定性差；同时，单个智能体21的反馈信号各异，大的策略梯度方差会导致算法较难收敛；经验重放方法也无法直接使用；因此，单智能体算法很难得到稳定的策略分布，并且需要智能体21之间的相互模型。

在本公开的一示例实施例中，协同控制系统包括模型求解模块5，模型求解模块5包括：

训练子模块，用于利用一个价值网络对多智能体深度确定性策略梯度算法中的每个策略网络进行辅助训练，价值网络，用于运用各智能体21的信息和各综合能源子系统的环境信息形成一个中心化的价值函数。

可选的，在训练子模块进行训练的过程中利用同一个价值网络对多智能体深度确定性策略梯度（MADDPG）算法中的每个策略网络进行辅助训练，可以使得所有智能体21共享一个价值网络，减少需要收集的样本数，并且在各智能体21训练过程中可以利用其他的智能体21进行辅助学习，避免了单个智能体21的经验采样过程。

在本公开的一示例实施例中，模型求解模块5包括：

更新子模块，用于通过价值网络进行辅助训练时，根据最小化损失函数更新价值网络，最小化损失函数表示为：其中，为最小化损失函数；/>为最小批量；/>为/>时刻智能体/>的奖励；/>为折扣因子；为目标价值网络计算出的奖励；/>为/>时刻多个综合能源子系统1的环境联合状态；/>为/>时刻的联合动作；/>为目标价值网络对于智能体的网络参数；/>为智能体/>在/>时刻的状态；/>为目标策略网络对于智能体/>的动作更新函数；/>为/>时刻智能体/>的观测值；/>为目标策略网络对于智能体/>的网络参数；/>为价值网络计算出的奖励；/>为/>时刻多个综合能源子系统1的环境联合状态；/>为/>时刻联合动作；/>为价值网络对于智能体/>的网络参数。

可选的，更新子模块中更新功能的完成依赖于多智能体深度确定性策略梯度（MADDPG）算法对协同调控状态模型POMDP进行求解的过程中引进的中心化机制，基于在协同调控状态模型POMDP的学习阶段利用最小化损失函数更新价值网络的过程中，价值网络能够运用所有智能体21的信息和所有工业园区综合能源系统的环境信息形成一个中心化的价值函数，并且在价值网络的反向传播过程中，利用最小化损失函数更新价值网络，可以使每个智能体21建立其他智能体21的策略模型，提高策略的稳定性和复用性。

在本公开的一示例实施例中，每个智能体21对应一个策略集合，策略集合包括多个子策略，模型求解模块5包括：

策略集成子模块，用于在每个训练回合中对一个子策略进行训练，并根据对各子策略训练的结果确定策略集合的最大化目标，策略集合的最大化目标表示为：其中，/>为策略集合的最大化目标；为奖励函数的期望；/>为奖励函数；/>为多智能体的状态；/>为多智能体的动作；/>为第/>个子策略服从均匀分布/>；/>为状态的分布；/>为第/>个子策略的分布。

可选的，本实施例中策略集成子模块的完成依赖于多智能体深度确定性策略梯度（MADDPG）算法对协同调控状态模型POMDP进行求解的过程引用的策略集成机制，基于在协同调控状态模型POMDP的学习阶段中分别对智能体21的策略集合中的子策略进行训练，并根据所有子策略训练的结果确定策略集合的最大化目标，可以提高策略的多样性和广度，增加策略搜索的效率，提高学习的稳定性和鲁棒性，以及实现策略的协同和互补，有助于智能体21在复杂任务和环境中具备更强的适应性和性能。

在本公开的一示例实施例中，策略集成子模块包括：

策略优化单元，用于在多个训练回合中对策略集合中的所有子策略进行训练时，通过每个子策略维护子策略对应的经验回放缓冲区。

可选的，可以通过在每个智能体21对应的策略集合中的所有子策略进行训练的过程中，利用被训练的子策略实时的维护一个对应的经验回放缓冲区，从而实现对每个智能体21对应的策略网络的优化。

可选的，策略优化单元优化策略的完成依赖于在利用多智能体深度确定性策略梯度（MADDPG）算法对协同调控状态模型POMDP进行求解的过程引用的策略集成机制，利用子策略维护对应的经验回放缓冲区可以避免样本的相关性，实现独立更新子策略，从而提高样本利用率，有助于提高对智能体21进行训练时的稳定性、收敛性和效率，使得多智能体系统能够更好地学习到最优的策略。

在本公开的一示例实施例中，模型求解模块5包括策略确定子模块，策略确定子模块被配置为：

获取每个智能体21的局部观测信息，根据多智能体深度确定性策略梯度算法MADDPG以及局部观测信息确定各智能体21的去中心化的控制动作的选择，从而确定各智能体21选择的控制动作。

其中，局部观测信息是指智能体21通过传感器收集到的局部的环境状态，用于确定训练好的智能体21的最优策略。局部观测信息可以是智能体21周围的一些局部状态信息，如位置，距离或障碍物，当然，也可以根据具体的情况获取表征某些特征的观测信息，本实施例对于局部观测信息种类不做特别限定。

可选的，策略确定子模块的完成依赖于利用多智能体深度确定性策略梯度（MADDPG）算法对协同调控状态模型POMDP进行求解过程中的实时决策阶段以及多智能体深度确定性策略梯度（MADDPG）算法引进的去中心化机制，在实时决策阶段，多智能体深度确定性策略梯度算法中的策略网络利用局部的观测信息根据自身的策略进行去中心化的动作选择，使得每个智能体21能够根据训练出的最优策略选择最优的控制动作，从而使得通过利用各智能体21选择的控制动作确定的联合动作对多个综合能源子系统1进行协同控制的有效性。

可选的，利用多智能体深度确定性策略梯度（MADDPG）算法对协同调控状态模型POMDP进行求解的具体实现方式进行详细说明：

首先可以输入最小批量，子策略数目/>,策略网络学习率/>，价值网络学习率，软更新系数/>，价值网络与策略网络更新频率比值/>，智能体的数目/>,迭代回合数/>；然后初始化经验回放/>，随机初始化所有策略网络/>，所有价值网络/>，策略网络参数/>，价值网络对于智能体i的网络参数/>，目标策略网络对于智能体i的网络参数，目标价值网络对于智能体i的网络参数/>，根据观测到的初始状态/>，得到特征向量/>；对于I个智能体循环T次，分别加入噪声选择动作，/>，在环境执行联合动作/>，得到t时刻对应的折扣因子/>，下一时段状态/>，奖励/>，终止标记/>；之后将存储到/>中，在得到经验回放缓冲区/>，并更新观测状态/>，对于每个智能体均从/>采样最小批为的数据/>计算价值网络最小化损失函数，然后更新价值网络对于智能体i的网络参数/>，更新价值网络参数后则利用/>计算策略梯度，然后计算策略网络参数/>并更新/>，并计算策略目标网络参数/>，和价值目标网络参数/>，从而得到协同调控状态模型POMDP对应的参数，以得到协同调控状态模型POMDP的求解结果。

可选的，可以通过选取多工业园区系统中真实的数据完成仿真实验，通过数据增强方法得更多的状态转移观测样本，并进行模型训练和在线测试，实验表明可以通过内部市场机制和储能系统有效发挥各工业园区13之间的协同作用，可节约经济成本为9.35%；即，相比传统的独立非协同调控策略，利用本实施例的协同调控系统及方法，降低了9.35%的经济成本；因此，表明了多工业园区综合能源系统的协同控制系统及方法的有效性。

在本公开的一示例实施例中，每个综合能源子系统的环境元素包括发电系统、储能系统、外部电网11、内部市场12及工业企业。

其中，内部市场12是指基于多个工业园区13的用电数据构建的虚拟电厂4，用于通过自动化智能技术参与多园区综合能源系统协同管理，从而有效的聚合各个工业园区13并且行使工业园区13间通信的职能。如附图2所示，附图2中给出了虚拟电厂4和多个工业园区13的管理关系示意图；从附图2中可以看出，在虚拟电厂4参与下能够有效协调各工业园区13的资源，实现工业园区13之间以及工业园区13与外部电网11的电能交易，通过对内部资源的系统调控保证电力来源的稳定性，同时降低经济成本。

可选的，利用内部市场12通过构建虚拟电厂4和多工业园区协同管理的模式，由虚拟电厂4引导建立内部市场价格出清机制；根据各类能源的特性，构建了多工业园区协同调控问题的数学模型，确定了仿真环境中的约束条件；为多园区协同调控问题建立了基于多智能体强化学习的网络架构，各工业园区13自行决策自身行动，并向虚拟电厂4提交总售电量和总购电量信息；利用建立POMDP模型对协同调控过程进行描述，并通过MADDPG算法求解，结合集中训练、分散执行的方法提高了算法的性能，策略集成的方法使得算法更加稳健。

根据本公开的第二方面，提出了一种用于多工业园区综合能源系统的协同控制方法，该方法可以由智能体的控制终端或服务器执行，下面以智能体的控制终端执行为例进行说明，包括：

通过各智能体与对应综合能源子系统的信息交互并进行强化学习，并根据强化学习的结果选择控制动作，根据各智能体选择的控制动作，获得联合动作，利用联合动作，对多个综合能源子系统进行协同调控，其中，控制动作是采用协同调控状态模型POMDP对多个综合能源子系统的协同调控的过程进行描述，并利用多智能体深度确定性策略梯度算法MADDPG对协同调控状态模型POMDP模型进行求解。

根据本公开的用于多工业园区综合能源系统的协同控制方法，利用多个智能体与多个综合能源子系统之间进行信息交互，实现多个园区协同调控的智能化；每个工业园区综合能源系统对应一个有决策能力的智能体，实现在运行优化的基础上进行滚动修正，一方面，在保护工业园区隐私的基础上，降低各园区的经济成本，为电力市场注入活力；另一方面，采用POMDP模型对各工业园区的协同调控的过程进行描述，并利用多智能体深度确定性策略梯度算法进行求解，利用集中训练、分散执行的方法降低了精确建模和求解难度，进而降低对多工业园区综合能源系统的协同调控难度。

本公开的协同调控控制及方法，建立基于多智能体强化学习方法的多工业园区实时协同调控的系统，多工业园区及内外部市场环境和多智能体之间进行信息交互，实现对多个综合能源子系统调控的智能化，建立虚拟电厂模式，为多园区协同调控方法的实现提供了途径，通过对各个园区中燃气系统出力、储能系统出力和购电售电行为的实时调控，建立基于多智能体强化学习的方法和POMDP模型，利用数据增强补充仿真环境，并用多智能体深度强化学习算法对问题求解，在多工业园区的真实数据集上完成了仿真实验，多园区协同智能体在训练中优化自身行为，得到的调控策略可以降低多工业园区系统的总经济成本。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种用于多工业园区综合能源系统的协同控制系统，其特征在于，包括：

多个综合能源子系统；

智能体驱动装置，包括预训练的多个智能体，各所述智能体与各所述综合能源子系统一一对应设置，用于基于所述智能体与对应所述综合能源子系统之间的信息交互进行强化学习；

协同控制模块，与所述智能体驱动装置电连接，用于利用多智能体深度确定性策略梯度算法MADDPG对预构建的协同调控状态模型POMDP进行求解，得到由各训练好的智能体选择的调控动作构成的联合动作，以通过所述联合动作实现对多个所述综合能源子系统的协同控制，所述协同调控状态模型是用于描述多个工业园区综合能源系统的协同调控的过程的状态模型；

其中，所述利用多智能体深度确定性策略梯度算法MADDPG对预构建的协同调控状态模型POMDP进行求解，包括：

获取输入的最小批量，子策略数目/>，策略网络学习率/>，价值网络学习率/>，软更新系数/>，价值网络与策略网络更新频率比值/>，智能体的数目/>，迭代回合数/>；

然后初始化经验回放，随机初始化所有策略网络/>，所有价值网络/>，策略网络参数/>，价值网络对于智能体i的网络参数/>，目标策略网络对于智能体i的网络参数/>，目标价值网络对于智能体i的网络参数/>；

根据观测到的初始状态，得到特征向量/>，对于I个智能体循环T次，分别加入噪声选择动作/>，/>，在环境执行联合动作，得到t时刻对应的折扣因子/>，下一时段状态/>，奖励/>，终止标记/>；

之后将存储到/>中，在得到经验回放缓冲区/>，并更新观测状态/>；

对于每个智能体均从采样最小批为/>的数据计算价值网络最小化损失函数/>；

然后更新价值网络对于智能体i的网络参数，更新价值网络参数后则利用计算策略梯度；

然后计算策略网络参数并更新/>，并计算策略目标网络参数/>，和价值目标网络参数/>，从而得到协同调控状态模型POMDP对应的参数，以得到协同调控状态模型POMDP的求解结果。

2.根据权利要求1所述的协同控制系统，其特征在于，所述协同控制系统包括联合动作确定模块，所述联合动作确定模块被配置为：

获取当前时段多个所述综合能源子系统的环境联合状态；

每个所述智能体根据所述环境联合状态生成对应的控制策略，并根据所述控制策略，选择控制动作；

根据训练好的各所述智能体选择的控制动作，生成并发送联合动作至多个所述综合能源子系统中；

其中，所述联合动作用于触发多个所述综合能源子系统发生状态转移，形成下一时段多个所述综合能源子系统的环境联合状态，并且每个所述综合能源子系统分别生成对相应智能体的反馈响应，所述反馈响应包括下一时段所述综合能源子系统的观测状态及奖励信号；

每个所述智能体根据所述奖励信号，对所述控制策略进行更新，直至多个所述综合能源子系统的协同控制的任务结束为止。

3.根据权利要求1所述的协同控制系统，其特征在于，所述协同控制系统包括协同调控状态模型配置模块，所述协同调控状态模型配置模块被配置为：

通过在所述协同调控状态模型POMDP中采用状态空间、观测状态空间、动作空间、联合状态转移概率、奖励函数、观测函数及折扣因子对多个所述综合能源子系统的协同控制的过程进行描述；

其中，所述状态空间，用于聚合多个所述综合能源子系统中全部会发生的状态；

所述观测状态空间，用于聚合多个所述综合能源子系统中全部会发生的观测状态；

所述动作空间，用于聚合全部会发生的联合动作；

所述联合状态转移概率，用于表示多个所述综合能源子系统的观测状态的转移概率；

所述奖励函数，用于表示所述综合能源子系统反馈给与所述综合能源子系统对应的智能体的奖励信号；

所述观测函数，用于描述状态与观测状态之间的关系；

所述折扣因子，用于平衡当前时段和未来时段的奖励。

4.根据权利要求1所述的协同控制系统，其特征在于，所述协同控制系统包括模型求解模块，所述模型求解模块，包括：

训练子模块，用于利用一个价值网络对所述多智能体深度确定性策略梯度算法中的每个策略网络进行辅助训练；

其中，所述价值网络用于运用各所述智能体的信息和各所述综合能源子系统的环境信息形成一个中心化的价值函数。

5.根据权利要求4所述的协同控制系统，其特征在于，所述模型求解模块，包括：

更新子模块，用于通过所述价值网络进行辅助训练时，根据最小化损失函数更新所述价值网络；

其中，所述最小化损失函数表示为：

；

其中，为最小化损失函数；/>为最小批量；/>为/>时刻智能体/>的奖励；/>为折扣因子；/>为目标价值网络计算出的奖励；/>为/>时刻多个所述综合能源子系统的环境联合状态；/>为/>时刻的联合动作；/>为目标价值网络对于智能体/>的网络参数；/>为智能体/>在/>时刻的状态；/>为目标策略网络对于智能体/>的动作更新函数；/>为/>时刻智能体/>的观测值；/>为目标策略网络对于智能体/>的网络参数；/>为价值网络计算出的奖励；/>为/>时刻多个所述综合能源子系统的环境联合状态；/>为/>时刻联合动作；/>为价值网络对于智能体/>的网络参数。

6.根据权利要求5所述的协同控制系统，其特征在于，每个所述智能体对应一个策略集合，所述策略集合包括多个子策略，所述模型求解模块，包括：

策略集成子模块，用于在每个训练回合中对一个所述子策略进行训练，并根据对各所述子策略训练的结果确定所述策略集合的最大化目标；

其中，所述策略集合的最大化目标表示为：

；

其中，为策略集合的最大化目标；/>为奖励函数的期望；/>为奖励函数；/>为多智能体的状态；/>为多智能体的动作；/>为第/>个子策略服从均匀分布/>；/>为状态的分布；/>为第/>个子策略的分布。

7.根据权利要求6所述的协同控制系统，其特征在于，所述策略集成子模块，包括：

策略优化单元，用于在多个训练回合中对所述策略集合中的所有子策略进行训练时，通过每个所述子策略维护所述子策略对应的经验回放缓冲区。

8.根据权利要求5所述的协同控制系统，其特征在于，所述模型求解模块包括策略确定子模块，所述策略确定子模块被配置为：

获取每个智能体的局部观测信息；

根据多智能体深度确定性策略梯度算法MADDPG以及所述局部观测信息确定各所述智能体的去中心化的控制动作的选择，从而确定各所述智能体选择的控制动作。

9.根据权利要求1所述的协同控制系统，其特征在于，每个所述综合能源子系统包括发电系统、储能系统、外部电网、内部市场及工业企业。

10.一种用于多工业园区综合能源系统的协同控制方法，其特征在于，应用于权利要求1-9任意一项所述的协同控制系统，包括：

通过各所述智能体与对应综合能源子系统的信息交互并进行强化学习，并根据强化学习的结果选择控制动作；

根据各智能体选择的控制动作，获得联合动作；

利用所述联合动作，对多个所述综合能源子系统进行协同调控；

其中，所述控制动作是采用协同调控状态模型POMDP对多个所述综合能源子系统的协同调控的过程进行描述，并利用多智能体深度确定性策略梯度算法MADDPG对所述协同调控状态模型POMDP模型进行求解得到的。