CN114693101B

CN114693101B - 多智能体强化学习和双层策略分配的多区域热电协调控制方法

Info

Publication number: CN114693101B
Application number: CN202210296959.9A
Authority: CN
Inventors: 时伟; 穆佩红; 李岚; 谢金芳
Original assignee: Zhejiang Yingji Power Technology Co ltd
Current assignee: Zhejiang Yingji Power Technology Co ltd
Priority date: 2022-03-24
Filing date: 2022-03-24
Publication date: 2024-05-31
Anticipated expiration: 2042-03-24
Also published as: CN114693101A

Abstract

本发明公开了一种基于多智能体强化学习和双层策略分配的多区域热电协调控制方法，包括：建立多区域热电联合系统数字孪生模型；创建多个区域智能体，并建立多个区域智能体间的通信机制；设计基于多智能体均衡学习算法的多区域均衡控制器，包括奖励函数、均衡选择函数和资格迹的选取；通过多区域均衡控制器对各个区域进行状态估计、更新资格迹、奖励值观测和更新状态‑动作值函数操作后，再进行多个区域部分信息的交互，在线寻求各区域最优均衡总控制策略；将区域热电联合系统中每台机组作为一个机组智能体，以各机组的爬升时间作为一致性变量，采用一致性算法将各区域总控制策略分配给各个机组，实现区域内各机组之间的协调控制。

Description

多智能体强化学习和双层策略分配的多区域热电协调控制方法

技术领域

本发明属于智慧供热技术领域，具体涉及一种基于多智能体强化学习和双层策略分配的多区域热电协调控制方法。

背景技术

能源互联网是当前国际学术界和产业界关注的新焦点，在此背景下，如何提高能源利用效率，促进可再生能源的消纳以及实现能源可持续发展是当前能源系统的发展目标。热电联合系统的研究，对于打破原有供能系统单独规划、单独运行的既有模式，实现能源系统的多能互补集成优化具有重要意义。

为更好地解决中国北方地区在冬季供暖期由于多数热电机组处于“以热定电”模式运行，系统调节能力不足而产生的弃风问题，考虑多个互联电热联合系统间的分区调度来提高系统整体风电消纳能力。由于热力系统是一个局域系统，电力系统是一个广域系统，因此所谓多区域电热联合分区调度是指多个电热联合系统通过其互联的电力子系统间的分区调度实现总系统的优化调度，其中热力子系统与电力子系统间依靠热电机组、储热装置、电锅炉等机组有相互约束关系，电力子系统间通过联络线联系并受到联络线交易计划的约束。

多智能体系统的功能结构和行为特性是基于智能体和智能体之间的互解、合作、协调、通讯、调度、控制和管理去表达的。多智能体的系统不仅拥有分布性、自主性、协调性的三个特性，并且还具有着学习能力、自组织能力、推理的能力。在解决实际应用问题时，若使用多智能体系统的方法。不仅可以大大提高问题求解效率，而且还具有很高的可靠性和鲁棒性。

然而，目前关于多区域互联热电联合系统协调控制的研究相对较少，针对热电联合系统优化问题求解，主要包括传统非线性方法求解，如非线性求解器，智能算法求解，如粒子群算法，但是运算时间过长，难以满足在线计算的要求，同时存在易陷入局部最优解的问题。

基于上述技术问题，需要设计一种新的基于多智能体强化学习和双层策略分配的多区域热电协调控制方法。

发明内容

本发明所要解决的技术问题是，克服现有技术的不足，提供一种基于多智能体强化学习和双层策略分配的多区域热电协调控制方法。

为了解决上述技术问题，本发明的技术方案是：

本发明提供了一种基于多智能体强化学习和双层策略分配的多区域热电协调控制方法，它包括：

步骤S1、采用机理建模和数据辨识方法建立多区域热电联合系统数字孪生模型；所述多区域热电联合系统在各区域间存在资源差异和建筑储热有余量时，通过联络线将送端区域的富余资源输送给受端区域，优化分配各机组的电出力和热出力；

步骤S2、将多区域热电联合系统创建为多个区域智能体，并基于多智能体仿真平台建立多个区域智能体间的通信机制，进行各个区域部分信息的交互；

步骤S3、设计基于多智能体均衡学习算法的多区域均衡控制器，包括奖励函数、均衡选择函数和资格迹的选取；

步骤S4、通过所述多区域均衡控制器对各个区域进行状态估计、更新资格迹、奖励值观测和更新状态-动作值函数操作后，再进行多个区域部分信息的交互，并基于多区域热电联合系统数字孪生模型在线寻求各区域最优均衡总控制策略，实现各区域之间的协调控制；

步骤S5、将区域热电联合系统中每台机组作为一个机组智能体，以各机组的爬升时间作为一致性变量，并基于多区域热电联合系统数字孪生模型和采用一致性算法将各区域总控制策略分配给各个机组，实现区域内各机组之间的协调控制；以及基于多区域热电联合系统数字孪生模型对各区域和各机组的控制策略进行可行性验证。

进一步，所述步骤S1中，采用机理建模和数据辨识方法建立多区域热电联合系统数字孪生模型；所述多区域热电联合系统在各区域间存在资源差异和建筑储热有余量时，通过联络线将送端区域的富余资源输送给受端区域，优化分配各机组的电出力和热出力，具体包括：

步骤S101、构建多区域热电联合系统虚拟实体，包括：

构建物理设备实体模型、行为模型和规则模型；首先通过构建多区域热电联合系统的结构机理模型，并导入可视化平台，添加设备物理属性；然后基于多区域热电联合系统热力学和电力学基本理论构建行为模型，建立具有交互功能和模拟真实操作环境的多区域热电联合虚拟仿真系统；最后建立虚拟实体的规则模型制定虚拟实体的控制策略；

所述多区域热电联合系统包括多个区域的热电联合系统，各个区域间的资源特点不同，电源结构、负荷构成存在差异，不同区域热力系统各自独立，电力系统通过联络线互联，热力系统和电力系统间依靠各个机组、储热装置有相互约束关系，电力系统间通过联络线联系并收到联络线交易计划的约束；当各区域间存在系统资源构成差异且建筑储热尚有余量时，通过电力联络线将建筑储热能力在多区域电热系统中协调控制，优化分配各机组的电出力和热出力；

步骤S102、进行多区域热电联合系统虚实数据连接，包括：

首先布置多区域热电联合系统物理设备上的传感器检测点，通过物联网技术采集多区域热电联合系统物理设备的实际运行数据，以及在虚拟设备上设置对应检测点，采集相应位置的仿真数据；然后通过调用采集的实际运行数据驱动虚拟空间中的对应模型，与多区域热电联合系统虚拟设备形成的仿真数据建立映射关系，形成多区域热电联合系统作业策略；最后通过不断迭代和优化数据采集控制过程，实现物理实体与虚拟空间实时数据的连接与动态交互，完成多区域热电联合系统数字孪生模型的建立；

步骤S103、对数字孪生模型进行辨识，包括：

将多区域热电联合系统设备的多工况实时运行数据接入已建立的数字孪生模型中，采用反向辨识方法对数字孪生模型的仿真结果进行自适应辨识修正，获得辨识修正后的多区域热电联合系统数字孪生模型。

进一步，所述多区域热电联合系统中电力系统模型表示为：

其中，为电力系统节点集合；P_E,i为节点i的注入有功功率；Q_E,i为节点i的注入无功功率；U_i为节点i的电压幅值；U_j为节点j的电压幅值；G_ij为支路ij的电导；B_ij为支路ij的电纳；θ_ij为支路ij的相角差；

热力系统分为水力和热力模型，水力模型表示为：

其中，A为节点-支路关联矩阵；B为回路-支路关联矩阵；m为管道质量流量速率；m_q为节点注入功率，定义注入为正，流出为负；h_f为压头损失；K为管道的阻尼系数；

热力模型表示为：

其中，P_H,i为注入节点i的热功率，下标H为热网变量；C_p为水的比热容；m_q,i为热网节点i的注入质量流量速率；T_s,i为节点i的送热管道水温；T_o,i为节点i的出口水温；T_j(ij)为支路ij的j端温度；T_i(ij)为支路ij的i端温度；T_e为外界环境温度；λ为导热系数；L_ij为管道支路ij的长度；m_ij为管道支路ij的质量流量速率；

建筑储热包括散热器和围护结构，散热器模型表示为：

其中，C_rad,k为第k栋建筑内散热器的热容量；T_rad,k,r为第k栋建筑内散热器的回水温度；T_rad,k,s为第k栋建筑内散热器的供水温度；G_rad,k为第k栋的散热器内水的质流量；K_rad,k为第k栋建筑内散热器的散热系数；F_rad,k为第k栋建筑内散热器的散热面积；T_bin,k为第k栋建筑室内温度；

所述围护结构的热量模型表示为：

进一步，步骤S2中，将多区域热电联合系统创建为多个区域智能体，并基于多智能体仿真平台建立多个区域智能体间的通信机制，进行各个区域部分信息的交互，具体包括：

创建智能体：基于JADE仿真平台，将多区域热电联合系统创建为多个区域智能体，并对每个区域智能体引入不同的行为进行智能体内部活动的高效执行；所述行为包括简单行为、一次性行为、循环执行行为和组合行为；

建立消息传输机制：每个区域智能体中设有一个消息队列，在与其他区域智能体通信时，消息会被传输至其消息队列中，同时相应的区域智能体被通知对消息做出响应；

建立消息交互协议：各个区域JADE平台的数据传输由传输智能体完成，各区域传输智能体与多区域均衡控制器之间通过MTP协议进行通信。

进一步，所述步骤S3中，设计基于多智能体均衡学习算法的多区域均衡控制器，包括奖励函数、均衡选择函数和资格迹的选取，具体包括：

奖励函数设计：奖励目标和多区域热电联合系统的最优调度成本相对应，将优化目标的相反数定义为即时奖励，同时根据约束条件设置惩罚机制加入到即时奖励中获得最终的奖励函数；

针对电力系统智能体，所述电力系统智能体的奖励函数包括调度周期内多区域的常规机组运行成本、弃风惩罚和变量越限惩罚，所述电力系统智能体的表示为：

r_t＝-(f₁+f₃+φ_U+φ_chp+φ_Δchp+φ_G+φ_ΔG+φ_l)；

其中，f₁、f₃分别为电力系统常规机组运行成本和弃风惩罚；φ_U为系统节点电压越限惩罚项；φ_chp、φ_Δchp分别为热电联产机组出力和爬坡越限惩罚项；φ_G、φ_ΔG分为常规机组出力和爬坡越限惩罚项；φ_l为联络线传输功率惩罚项；

所述常规机组运行成本表示为：其中，a_i、b_i、c_i为总系统内第i台常规机组的能耗系数；P_i,t为t时刻总系统内第i台常规机组的发电功率；T为调度周期；Δt为调度时间间隔；N₁为总系统内常规机组台数；

所述弃风惩罚表示为：其中，/>为t时刻总系统内第i台风电机组预测最大发电功率；P_wi,t为实际调度运行中t时刻总系统内第i台风电机组的发电功率；N_w为总系统内风电机组台数；

针对热力系统智能体，所述热力系统智能体的奖励函数包括热电联产机组运行成本和变量越限惩罚，所述热力系统智能体的表示为：

r_t＝-(f₂+φ_chp+φ_Δchp+φ_T+φ_m+φ_b+φ_p+φ_j)；

其中，f₂为热电联产机组运行成本；φ_T为系统热网节点混合温度越限惩罚项；φ_m为系统管道质量流量速率越限惩罚项；φ_b为建筑的热动态特性越限惩罚项；φ_p为建筑的室温越限惩罚项；φ_j为管网储热特性越限惩罚项；

所述热电联产机组运行成本表示为：

其中，a_i、b_i、c_i为总系统内第i台热电联产机组的能耗系数；P_chpi,t为t时刻总系统内第i台热电联产机组的净发电功率；Q_chpi,t为第t时刻总系统内第i台热电联产机组的供热功率；α_chp为热电联产机组热出力的等效电出力系数；

均衡选择函数设计：选取uCEQ均衡选择函数公平计算每个区域热电联合系统奖励值；

资格迹选取：采用资格迹算法SARSA(λ)记录各联合动作策略发生的频率，并对各动作策略的迭代Q值进行更新。

进一步，所述步骤S4中，通过所述多区域均衡控制器对各个区域进行状态估计、更新资格迹、奖励值观测和更新状态-动作值函数操作后，再进行多个区域部分信息的交互，并基于多区域热电联合系统数字孪生模型在线寻求各区域最优均衡总控制策略，实现各区域之间的协调控制，具体包括：

初始化所有区域热电联产系统的Q矩阵、V矩阵和资格迹矩阵；初始化所有的学习参数、均衡选择函数；设置当前系统状态S₀，联合动作策略；

基于当前系统状态，根据最优策略选择一个可执行动作，并执行所选择的动作；

观测系统状态的变化和其他区域的联合控制动作；

计算该区域的立即奖励；

计算最优相关均衡策略；

任意选择一控制区域，计算状态值函数V、更新资格迹矩阵、计算该区域Q函数误差；

对该区域所有状态-动作对(s,a)，更新Q函数矩阵；

判断所有区域是否完成，若完成，则对该区域所有状态-动作对(s,a)，更新Q函数矩阵；否则重新选择一控制区域；

根据更新后的Q函数矩阵再次求取最优相关均衡策略

计算区域Q函数误差：

更新Q函数矩阵：

计算均衡策略：

ζ_i为区域i的均衡因子；f为系统的控制目标，即最大化所有区域的折扣奖励之和；R_i为智能体i的立即奖励函数；π为均衡策略。

进一步，所述步骤S5中，将区域热电联合系统中每台机组作为一个机组智能体，以各机组的爬升时间作为一致性变量，并基于多区域热电联合系统数字孪生模型和采用一致性算法将各区域总控制策略分配给各个机组，实现区域内各机组之间的协调控制，具体包括：

将区域内热电联合系统中每台机组作为一个机组智能体，选取机组的爬升时间作为各机组的一致性变量，将爬升速率最大的机组作为领导者，其他机组作为跟随者；

输入各个区域的控制策略，更新机组爬升速率；

以所有机组爬升时间最小为目标，执行协同一致性算法，计算第w个机组功率控制策略；

判断机组功率控制策略是否越限，若越限，则更新爬升时间和行随机矩阵；否则，直接输出第w个机组的功率控制策略；

计算功率偏差值，判断偏差值是否在允许的范围内，若是，则输出第w个机组的功率控制策略；否则重新执行协同一致性算法。

进一步，所述机组的爬升时间表示为：其中，ΔP_iw、/>分别为第i个区域中第w个机组功率控制策略和爬升速率；

所述机组的爬升速率表示为：

每个所述跟随者的一致性变量更新表示为：其中，w_i为机组数量；d_wv[k]为行随机矩阵；

所述领导者的一致性变量更新表示为：

其中，σ_i为功率控制策略调整因子；ΔP_error-i为功率控制策略偏差值；

当机组的功率控制策略超过机组容量的约束条件时，各机组的功率控制策略与最大爬升时间设置为：

本发明的有益效果是：

本发明将多区域热电协调控制分为两层，第一层为各个区域之间的协调控制，第二层基于第一层的协调控制策略，对区域内各机组的出力进行协调控制，且第一层采用多智能体强化学习均衡算法，第二层采用多智能体一致性算法进行求解，与传统方法相比能够提高协调策略的生成速度，通过双层交互协同和自学习特点的算法，提升了双层策略分配在复杂随机环境下的适应性，进而提高能源利用率，具有更强的鲁棒性、更快的动态优化速度和更优的协同控制性能。

其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种基于多智能体强化学习和双层策略分配的多区域热电协调控制方法流程图；

图2为本发明两区域热电联系系统架构示意图；

图3为本发明基于多智能体均衡学习算法的两区域协调控制示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明所涉及的一种基于多智能体强化学习和双层策略分配的多区域热电协调控制方法流程图。

图2是本发明所涉及的两区域热电联系系统架构示意图。

图3是本发明所涉及的基于多智能体均衡学习算法的两区域协调控制示意图。

如图1-3所示，本实施例提供了一种基于多智能体强化学习和双层策略分配的多区域热电协调控制方法，它包括：

步骤S1、采用机理建模和数据辨识方法建立多区域热电联合系统数字孪生模型；多区域热电联合系统在各区域间存在资源差异和建筑储热有余量时，通过联络线将送端区域的富余资源输送给受端区域，优化分配各机组的电出力和热出力；

需要说明的是，一方面，基于多区域热电联合系统数字孪生模型进行控制策略的预测：通过数字孪生模型对多个控制策略进行模拟预测，可以剔除不符合控制模型约束条件、边界条件和相关系统参数的方案，例如，在各区域之间输送富余资源时，依据资源受限约束条件，判断是否存在资源输送受限，资源传输不过去的情况，若存在资源输送受限，则需要动态调整策略，将受限的部分资源传输至其他可接受的区域，实现资源的合理分配；另一方面，基于多区域热电联合系统数字孪生模型进行控制策略的决策：在获得控制策略后，基于多区域热电联合系统数字孪生模型推演最优策略集的相关调度方案，验证策略的可行性，在策略验证通过后执行该策略，实现多区域热电协调控制；否则，重新计算获取控制策略。通过数字孪生模型对控制策略进行可行性验证、参数校核和结果可视化操作，实现方案的科学验证，使得控制策略更加符合预期。

在本实施例中，步骤S1中，采用机理建模和数据辨识方法建立多区域热电联合系统数字孪生模型；多区域热电联合系统在各区域间存在资源差异和建筑储热有余量时，通过联络线将送端区域的富余资源输送给受端区域，优化分配各机组的电出力和热出力，具体包括：

步骤S101、构建多区域热电联合系统虚拟实体，包括：

多区域热电联合系统包括多个区域的热电联合系统，各个区域间的资源特点不同，电源结构、负荷构成存在差异，不同区域热力系统各自独立，电力系统通过联络线互联，热力系统和电力系统间依靠各个机组、储热装置有相互约束关系，电力系统间通过联络线联系并收到联络线交易计划的约束；当各区域间存在系统资源构成差异且建筑储热尚有余量时，通过电力联络线将建筑储热能力在多区域电热系统中协调控制，优化分配各机组的电出力和热出力；

步骤S102、进行多区域热电联合系统虚实数据连接，包括：

步骤S103、对数字孪生模型进行辨识，包括：

需要说明的是，区域间的资源特点不同，电源结构、负荷构成等均存在差异，故区域间具有协调的基础和空间，通过多区域热电协调可优化利用现有资源，提高系统运行经济性。例如，区域A、B两区域热电协调示意图，A、B两区域热力各自独立，电力通过联络线互联，如A区域风电装机比例较高、B区域风电装机比例较低时，若仅限于单区域热电联合运行，因电源结构的差异，可能出现A区域的建筑储热容量对于完全消纳弃风而言还不够充足，而B区域几乎没有利用、尚有较多建筑储热容量的情况，可以考虑调整联络线输送功率、利用B区域建筑的储热特性帮助A区域消纳风电，系统整体运行经济性随之提升。

各区域应在满足其区域内部风电能够全部消纳且建筑的储热能力没有完全发挥的前提下，再帮助其他区域进行电热协调，消纳风电；而当该区域风电大发，在利用其区域内建筑的储热能力后仍有弃风存在的时候，该区域便没有储热容量帮助其他区域消纳风电，此时应避免其参与多区域电热协调以免损害自身利益。

两个电热区域的热电联合分区调度是通过将送端区域机组富余电出力利用联络线传输给受端区域，使得机组的可调空间增大，备用功率增多，再经两区域热电联合分区调度优化分配各机组电、热出力，使送端区域机组电出力减少，并将送端区域富余电功率通过联络线输送给受端区域，实现系统调节能力的提高和弃风问题的缓解。

在本实施例中，多区域热电联合系统中电力系统模型表示为：

热力系统分为水力和热力模型，水力模型表示为：

热力模型表示为：

建筑储热包括散热器和围护结构，散热器模型表示为：

围护结构的热量模型表示为：

在本实施例中，步骤S2中，将多区域热电联合系统创建为多个区域智能体，并基于多智能体仿真平台建立多个区域智能体间的通信机制，进行各个区域部分信息的交互，具体包括：

创建智能体：基于JADE仿真平台，将多区域热电联合系统创建为多个区域智能体，并对每个区域智能体引入不同的行为进行智能体内部活动的高效执行；行为包括简单行为、一次性行为、循环执行行为和组合行为；

在本实施例中，步骤S3中，设计基于多智能体均衡学习算法的多区域均衡控制器，包括奖励函数、均衡选择函数和资格迹的选取，具体包括：

针对电力系统智能体，电力系统智能体的奖励函数包括调度周期内多区域的常规机组运行成本、弃风惩罚和变量越限惩罚，电力系统智能体的奖励函数表示为：

r_t＝-(f₁+f₃+φ_U+φ_chp+φ_Δchp+φ_G+φ_ΔG+φ_l)；

常规机组运行成本表示为：

其中，a_i、b_i、c_i为总系统内第i台常规机组的能耗系数；P_i,t为t时刻总系统内第i台常规机组的发电功率；T为调度周期；Δt为调度时间间隔；N₁为总系统内常规机组台数；

弃风惩罚表示为：

其中，为t时刻总系统内第i台风电机组预测最大发电功率；P_wi,t为实际调度运行中t时刻总系统内第i台风电机组的发电功率；N_w为总系统内风电机组台数；

针对热力系统智能体，热力系统智能体的奖励函数包括热电联产机组运行成本和变量越限惩罚，热力系统智能体的奖励函数表示为：

r_t＝-(f₂+φ_chp+φ_Δchp+φ_T+φ_m+φ_b+φ_p+φ_j)；

热电联产机组运行成本表示为：

需要说明的是，联络线传输功率约束，是指为了保障联络线安全、正常的运行，联络线在传输资源的过程中需保证其传输资源不超过导线的物理极限功率，因此联络线传输功率存在上下限；另外，将联络线传输电能进行等效处理后，联络线调整功率值的确定与各区域的系统构成和资源配置相关。针对不同区域，联络线传输功率的变化量具有一定限制，其限值可根据区域建筑储热容量还能消纳的弃风电量进行估计；建筑的热动态特性约束是指建筑的热量变化为热源通过热网传递给建筑的得热量与建筑的耗热量二者的差值；建筑的室温约束是指为了保证供热满足室内人们的正常生产生活，房间温度应设定在合理的舒适范围内；管道储热特性约束是指热力系统中，热电联产机组热源产生的热量，通过一次管网、换热站、二次管网传递给热负荷，在这一过程中存在着热量的传输延迟和衰减，表现为管网中的水在传递过程中时间的延迟和温度的损耗；热网节点混合温度与流量约束是指对于供水管网，连接同一热网节点的管道水温应保持一致，而回水管道应满足温度混合后管道的质流量代数和为零。

在本实施例中，步骤S4中，通过多区域均衡控制器对各个区域进行状态估计、更新资格迹、奖励值观测和更新状态-动作值函数操作后，再进行多个区域部分信息的交互，并基于多区域热电联合系统数字孪生模型在线寻求各区域最优均衡总控制策略，实现各区域之间的协调控制，具体包括：

观测系统状态的变化和其他区域的联合控制动作；

计算该区域的立即奖励；

计算最优相关均衡策略；

对该区域所有状态-动作对(s,a)，更新Q函数矩阵；

根据更新后的Q函数矩阵再次求取最优相关均衡策略

计算区域Q函数误差：

更新Q函数矩阵：

计算均衡策略：

在本实施例中，步骤S5中，将区域热电联合系统中每台机组作为一个机组智能体，以各机组的爬升时间作为一致性变量，并基于多区域热电联合系统数字孪生模型和采用一致性算法将各区域总控制策略分配给各个机组，实现区域内各机组之间的协调控制，具体包括：

输入各个区域的控制策略，更新机组爬升速率；

需要说明的是，

在本实施例中，机组的爬升时间表示为：ΔP_iw、/>分别为第i个区域中第w个机组功率控制策略和爬升速率；

机组的爬升速率表示为：

每个跟随者的一致性变量更新表示为：w_i为机组数量；d_wv[k]为行随机矩阵；

领导者的一致性变量更新表示为：

σ_i为功率控制策略调整因子；ΔP_error-i为功率控制策略偏差值；

在本申请所提供的实施例中，应该理解到，所揭露的系统和方法，也可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.一种基于多智能体强化学习和双层策略分配的多区域热电协调控制方法，其特征在于，它包括：

2.根据权利要求1所述的多区域热电协调控制方法，其特征在于，所述步骤S1中，采用机理建模和数据辨识方法建立多区域热电联合系统数字孪生模型；所述多区域热电联合系统在各区域间存在资源差异和建筑储热有余量时，通过联络线将送端区域的富余资源输送给受端区域，优化分配各机组的电出力和热出力，具体包括：

步骤S101、构建多区域热电联合系统虚拟实体，包括：

步骤S102、进行多区域热电联合系统虚实数据连接，包括：

步骤S103、对数字孪生模型进行辨识，包括：

3.根据权利要求2所述的多区域热电协调控制方法，其特征在于，所述多区域热电联合系统中的电力系统模型表示为：

所述热力系统分为水力和热力模型，水力模型表示为：

热力模型表示为：

所述建筑储热包括散热器和围护结构，散热器模型表示为：

所述围护结构的热量模型表示为：

4.根据权利要求1所述的多区域热电协调控制方法，其特征在于，步骤S2中，将多区域热电联合系统创建为多个区域智能体，并基于多智能体仿真平台建立多个区域智能体间的通信机制，进行各个区域部分信息的交互，具体包括：

5.根据权利要求1所述的多区域热电协调控制方法，其特征在于，所述步骤S3中，设计基于多智能体均衡学习算法的多区域均衡控制器，包括奖励函数、均衡选择函数和资格迹的选取，具体包括：

针对电力系统智能体，所述电力系统智能体的奖励函数包括调度周期内多区域的常规机组运行成本、弃风惩罚和变量越限惩罚，所述电力系统智能体的奖励函数表示为：

r_t＝-(f₁+f₃+φ_U+φ_chp+φ_Δchp+φ_G+φ_ΔG+φ_l)；

所述常规机组运行成本表示为：

所述弃风惩罚表示为：

针对热力系统智能体，所述热力系统智能体的奖励函数包括热电联产机组运行成本和变量越限惩罚，所述电力系统智能体的奖励函数表示为：

r_t＝-(f₂+φ_chp+φ_Δchp+φ_T+φ_m+φ_b+φ_p+φ_j)；

所述热电联产机组运行成本表示为：

6.根据权利要求1所述的多区域热电协调控制方法，其特征在于，所述步骤S4中，通过所述多区域均衡控制器对各个区域进行状态估计、更新资格迹、奖励值观测和更新状态-动作值函数操作后，再进行多个区域部分信息的交互，并基于多区域热电联合系统数字孪生模型在线寻求各区域最优均衡总控制策略，实现各区域之间的协调控制，具体包括：

观测系统状态的变化和其他区域的联合控制动作；

计算该区域的立即奖励；

计算最优相关均衡策略；

对该区域所有状态-动作对(s,a)，更新Q函数矩阵；

根据更新后的Q函数矩阵再次求取最优相关均衡策略

7.根据权利要求6所述的多区域热电协调控制方法，其特征在于：

计算区域Q函数误差：

更新Q函数矩阵：

计算均衡策略：

其中，ζ_i为区域i的均衡因子；f为系统的控制目标，即最大化所有区域的折扣奖励之和；R_i为智能体i的立即奖励函数；π为均衡策略。

8.根据权利要求1所述的多区域热电协调控制方法，其特征在于，所述步骤S5中，将区域热电联合系统中每台机组作为一个机组智能体，以各机组的爬升时间作为一致性变量，并基于多区域热电联合系统数字孪生模型和采用一致性算法将各区域总控制策略分配给各个机组，实现区域内各机组之间的协调控制，具体包括：

输入各个区域的控制策略，更新机组爬升速率；

9.根据权利要求8所述的多区域热电协调控制方法，其特征在于：

所述机组的爬升时间表示为：其中，ΔP_iw、/>分别为第i个区域中第w个机组功率控制策略和爬升速率；

所述机组的爬升速率表示为：

所述领导者的一致性变量更新表示为：