CN115421390A

CN115421390A - 计及深度强化学习的热电联产机组多工况自适应控制方法

Info

Publication number: CN115421390A
Application number: CN202211166934.3A
Authority: CN
Inventors: 叶婧; 周正坤; 张磊; 黄悦华; 杨楠; 程江州; 薛田良; 李振华; 肖繁; 徐雄军; 潘鹏程; 徐恒山; 陈庆; 卢天林
Original assignee: China Three Gorges University CTGU
Current assignee: China Three Gorges University CTGU
Priority date: 2022-09-23
Filing date: 2022-09-23
Publication date: 2022-12-02

Abstract

计及深度强化学习的热电联产机组多工况自适应控制方法，考虑CHP机组在大范围工况随机出力运行时部分状态参数会发生非线性变化，建立表征不同出力工况下的CHP机组状态运行模型；基于建立的CHP机组状态运行模型，计及系统状态参数不确定变化建立多工况自适应控制模型；针对多工况自适应控制模型中控制模块的参数优化问题，设计MA‑DDPG算法多工况自适应控制参数优化策略；通过上述步骤，实现热电联产机组在多工况自适应控制下的负荷快速跟踪。本发明控制方法旨在保证系统控制可靠性的同时，实现热电联产机组在多工况自适应控制下的负荷快速跟踪，显著提升控制系统面对不确定复杂环境的自适应能力。

Description

计及深度强化学习的热电联产机组多工况自适应控制方法

技术领域

本发明涉及热电联产技术控制领域，具体涉及一种计及深度强化学习的热电联产机组多工况自适应控制方法。

背景技术

随着热电联产灵活性改造不断进行，“三北地区”大规模装机的热电联产(combined heat and power，CHP)机组能够在大范围出力区间内参与电网灵活性快速调节。CHP机组大范围随机出力运行时，被控对象延迟、非线性特性会出现显著差异，导致机组响应过程变得更为复杂甚至不可控。因此，展开考虑整个出力工况复杂特性的控制研究，对于提升机组大范围区间快速响应及稳定供热，从而满足电网灵活性运行要求具有重要意义。

目前，传统控制方法采用计及抽汽供热调节，在保证供热质量的基础上，有效提升了CHP机组额定工况负荷响应速率。但是，该控制方法仅围绕机组额定出力工况展开，很少关注机组特定工况模型受大范围随机出力波动性影响以及易忽略系统状态参数变化重要信息，导致整体控制效果变差；且CHP机组传统控制方法往往采用固定控制器，无法适应多模型控制工况切换过程。

发明内容

为进一步解决CHP机组在传统控制方法中受大范围随机出力波动性影响以及易忽略系统状态参数变化等重要信息，导致机组响应速度慢、动态性能差等问题。本发明提供一种计及深度强化学习的热电联产机组多工况自适应控制方法，旨在保证系统控制可靠性的同时，实现热电联产机组在多工况自适应控制下的负荷快速跟踪，显著提升控制系统面对不确定复杂环境的自适应能力。

本发明采取的技术方案为：

计及深度强化学习的热电联产机组多工况自适应控制方法，包括以下步骤：

步骤1：考虑CHP机组在大范围工况随机出力运行时部分状态参数会发生非线性变化，建立表征不同出力工况下的CHP机组状态运行模型；

步骤2：基于步骤1建立的CHP机组状态运行模型，计及系统状态参数不确定变化建立多工况自适应控制模型；

步骤3：针对多工况自适应控制模型中控制模块的参数优化问题，设计MA-DDPG算法多工况自适应控制参数优化策略；

通过上述步骤，实现热电联产机组在多工况自适应控制下的负荷快速跟踪。

所述步骤1中，CHP机组大范围工况随机出力运行时，部分状态参数会发生非线性变化，其动态响应过程是一个包含了机械能量转换、热交换和两相流动的多工况复杂过程，典型抽汽式CHP机组的非线性动态过程为：

正压直吹式制粉系统惯性描述：

式(1)中，T_b为制粉惯性；t为时间，单位：s；r_B(t)为锅炉燃烧转换率，单位：t/h；

为锅炉燃烧转换率对时间t的求导；u_B为给煤量，单位：t/h；τ为制粉延迟时间，单位：s；

锅炉能量平衡方程：

式(2)中，C_b为蓄热系数；p_d为汽包压力，单位：MPa；

为汽包压力对时间t的求导；K₃为汽轮机增益；p_T为机前压力，单位：MPa；u_T为高调门开度，单位：％；K₁为燃料增益；r_B为锅炉燃烧率，单位：t/h。

过热器机前压力差压特性描述：

p_T＝p_d-K₂(K₁r_B)^1.5(3)；

式(3)中，p_T为机前压力，单位：MPa；p_d为汽包压力，单位：MPa；K₂为压差拟合系数；K₁为燃料增益；r_B为锅炉燃烧率。

汽轮机能量平衡方程：

式(4)中，T_t为汽轮机惯性时间，单位：s；P_e为机组发电负荷，单位：MW；

为机组发电负荷对时间t求导；K₅为低压缸蒸汽作功增益；p_z为供热抽汽压力，单位：MPa；u_H为抽汽蝶阀开度，单位：％；K₄为高中压缸占汽轮机作功比例；K₃为汽轮机增益；p_T为机前压力，单位：MPa；u_T为高调门开度，单位：％。

中间抽汽压力动态关系：

式(5)中，C_h为热网加热器蓄热系数；p_z为供热抽汽压力，单位：MPa；

为供热抽汽压力对时间t的求导；K₆为热网循环水有效比热容；q_b为热网循环水流量，单位：t/h；t_c为热网循环水回水温度，单位：℃；K₄为高中压缸占汽轮机作功比例；K₃为汽轮机增益；p_T为机前压力，单位：MPa；u_T为高调门开度，单位：％；K₅为低压缸蒸汽作功增益；u_H为抽汽蝶阀开度，单位：％。

抽汽流量计算：

q_m＝K₇K₆q_b(96p_z-t_c+103)(6)；

式(6)中，q_m为抽汽流量，单位：t/h；K₇供热抽汽有效热量折合蒸汽流量系数；K₆热网循环水有效比热容；q_b为热网循环水流量，单位：t/h；p_z供热抽汽压力，单位：MPa；t_c为热网循环水回水温度，单位：℃。

机组在大范围工况随机出力运行时，上述式(1)-式(6)所表示的被控对象状态参数非线性变化明显，本发明将其视作变量考虑，更为精确的建立表征不同出力工况下的CHP机组状态运行模型，具体如下所示：

式(7)中：F_i为划分的第i个工况模型；T_b,i为第i个工况模型下的制粉惯性；r_B(t)为锅炉燃烧转换率，单位：t/h；

为锅炉燃烧转换率对时间t的求导；u_B,i为第i个工况模型下的给煤量，单位：t/h；τ_i为第i个工况模型下的制粉延迟时间，单位：s；

C_b,i为第i个工况模型下的蓄热系数；p_d为汽包压力，单位：MPa；K₃为汽轮机增益；p_T为机前压力，单位：MPa；u_T,i为第i个工况模型下的高调门开度，单位：％；K_1,i为第i个工况模型下的燃料增益；

K₂为压差拟合系数；T_t为汽轮机惯性时间，单位：s；P_e为机组发电负荷，单位：MW；K₅为低压缸蒸汽作功增益；p_z为供热抽汽压力，单位：MPa；

u_H,i为第i个工况模型下的抽汽蝶阀开度，单位：％；K₄为高中压缸占汽轮机作功比例；

C_h为热网加热器蓄热系数；K₆为热网循环水有效比热容；q_b,i为第i个工况模型下的热网循环水流量，单位：t/h；t_c,i为第i个工况模型下的热网循环水回水温度，单位：℃；q_m为抽汽流量，单位：t/h；K₇为供热抽汽有效热量折合蒸汽流量系数；

为锅炉燃烧转换率对时间t的求导；

为汽包压力对时间t的求导；

为机组发电负荷对时间t的求导；

为供热抽汽压力对时间t求导。

所述步骤2中，建立的多工况自适应控制模型过程，包括多工况模型切换和多变量控制系统PID自适应控制设计两个过程。

其中，多变量控制系统共有三条控制回路，CHP机组将机前压力偏差△p_T送入第1条高调门开度控制回路，发电负荷偏差△P_e送入第2条蝶阀开度控制回路，第3条燃料量控制回路输入由△P_e与抽汽流量扰动△q_m等效发电负荷偏差构成。

因此，CHP机组控制系统为：

式(8)中：Y为三条控制回路输出矩阵，其中△y_i、y_i,0、△x_i、k_p,i、k_I,i、k_d,i分别为第i条控制回路控制器的输出增量、输出初始值、输入偏差以及3个控制参数，这些控制参数决定了机组调节性能。

多工况模型切换由积分型函数切换机制完成，其具体包括以下步骤：

S3.1：根据式(7)构造包含n个工况的模型库来覆盖被控对象整个区间的运行特性：

Ω＝{F_i|i＝1,2,…,n}(9)；

式(9)中：F_i为第i个工况下所对应的系统模型；Ω为模型元素F_i的集合，

S3.2：根据式(8)建立工况模型控制系统：

C＝{Y_i|i＝1,2,…n}(10)；

式(10)中：Y_i为第i个工况子模型所对应的子控制系统，C为其集合。

S3.3：利用积分型函数切换指标，评估各工况子模型与当前被控对象的匹配程度，切换至最优工况模型F_o：

式(11)中：J为切换机制；△x_i,j(t)为第i个工况模型与实际被控对象的第j条控制回路输入x_i.j(t)与x_ref,j(t)的误差；α和β分别为当前瞬态误差和记忆长度内误差的权重；γ为遗忘因子，保证J_i(t)的收敛性，α>0,β>0,γ>0。

S3.4：通过滞后切换法实现无扰切换，设采样时刻t，系统采样偶对(F_i,Y_i)，下一采样时刻J_k＝min{J_i(t)}，切换如下：

式(12)中：F_i为第i个工况下所对应的系统模型；Y_i为第i个工况子模型所对应的子控制系统；J_i为第i个工况子模型所对应的切换机制；δ为滞后时间；

由积分型函数切换机制能够获取最匹配工况模型，其输出

与机组负荷指令x_ref(t)相减，构成闭环最优工况控制模型。

所述步骤3中，MA-DDPG算法是在传统的DDPG算法上所提出的一种多智能体同步运行机制。MA-DDPG算法考虑到了热电联产机组发电负荷控制回路响应快速性、抽汽流量控制回路供热稳定性、机前压力控制回路运行安全性的多回路控制结构及其控制指标，保证了每个智能体相对独立地训练对应控制回路，克服了单智能体对多控制回路训练周期长、收敛困难的缺点；同时借助奖励函数辅助机制，协调各智能体之间的学习动作，达到各智能体回路决策最优与全局控制最优，有效提升机组整个出力区间的控制效果。

对于MA-DDPG算法，其在任意优化时刻，3个Agent共同探索工况子模型环境，借助经验回放池R在训练周期T内用N个随机样本快速更新各自网络参数和策略制定，及时用最小化损失函数L(Q)和确定性策略梯度(deterministic policy gradient，DPG)训练更新Q、μ网络参数。因此，每个Agent梯度更新公式：

式(13)、式(14)中：N为样本总数；i为回放池的随机样本编号，

为控制器被控变量的响应性能指标惩罚；s为当前状态；a为决策动作；ω为Q值迭代折扣因子；μ(s|θ^μ)为用于决策动作的Actor网络；Q(s,a|θ^Q)为用于动作评估的Critic网络；

为当前网络μ、Q所拷贝的目标网络；

为在状态

下执行动作

的Q值；θ^Q、

θ^μ、

为每个Agent的Critic、Actor的当前网络Q、μ的网络参数和目标网络

的网络参数。

接着，更新该Agent的Critic网络和Actor网络的参数θ^Q、

和θ^μ、

式中：

和

为第k+1次迭代的Q、μ和

网络参数；φ和

分别为Critic、Actor当前网络学习权重值；σ为目标网络更新权重；j为智能体的编号；Y_j为第j个智能体的目标值函数；c为目标网络相对当前网络所延迟的步数；

步骤3中，奖励函数辅助机制的设计要在保证3个Agent决策相对独立基础上，协调各Agent之间的学习动作，实现每个Agent决策最优与全局最优：

式(19)～式(21)中：u_T0为高调门开度初始值；u_B0为给煤量初始值；t为迭代次数；r_1,t、r_2,t、r_3,t分别为3个Agent各自PID控制器被控变量的响应性能指标惩罚；△x_1,t、△x_2,t、△x_3,t分别为第1、2、3条控制回路发电负荷偏差值；△x₂₀为第2条控制回路发电负荷初始偏差；ξ₀、ξ₁、ξ₂、ξ₃分别通过试验获得，ξ₀＝2、ξ₁＝5、ξ₂＝3、ξ₃＝15。

由于多智能体DDPG同步训练多个Agent来分别获得最大累积奖励，因此发明所述多目标控制问题等价于最大化各自控制回路控制器最优响应策略下的期望奖励值：

MaxE[R_i|π_i],i＝1,2,3(22)；

式(22)中：

π_i分别表示第i个控制器在周期T内作用于工况子模型的总奖惩值及最优响应策略。

所述步骤3中，计及MA-DDPG算法的多工况自适应控制参数优化策略，其具体过程为：

Step1：多智能体Actor网络μ(s|θ^μ)，根据当前状态s_k决策动作a。

Step2：通过执行决策动作a得到新状态s_k+1,并通过式(19)、式(20)、式(21)计算出奖励值r_1,t、r_2,t、r_3,t。

Step3：Critic网络Q(s,a|θ^Q)对当前动作策略进行估计，在与环境交互过程中通过离线训练-在线测试运作模式，使智能体不断评估Q值并修正策略，以实现期望回报最优决策，获取当前工况模型最优子控制系统。

在离线训练过程中，应保持工况子模型基本热电需求不变，然后尽可能多的考虑随机扰动，在“动作-评估”反复迭代过程中收获最优μ、Q网络，获取相应子控制系统，从而构建工况子模型-子控制系统偶对离线数据库。

在线学习决策过程中，系统不断输出离线经验数据用以指导在线自适应学习过程，即可以利用在线储备知识超快速更新各个Agent的μ、Q网络参数。当实际环境与离线环境存在差异时，DDPG快速适应新工况环境，从而在线指导CHP机组控制系统更快更有效地响应需求。

本发明一种计及深度强化学习的热电联产机组多工况自适应控制方法，技术效果如下：

1)本发明提出多模型控制以解决非线性、变工况、参数不确定性复杂问题，为解决CHP机组大范围出力过程中状态参数变化问题提供了新思路。

2)本发明设计MA-DDPG算法多工况自适应控制参数优化策略，融合了深度强化学习的奖励值优化模式和对高维数据的快速优化决策能力，将其引入控制系统自适应设计环节后，可在保证系统控制可靠性的基础上，显著提升面对复杂环境的自适应能力。

3)本发明考虑了CHP机组在不同出力工况下动态响应特性的变化情况，并将深度强化学习融入到多模型控制模块当中，利用其奖励值优化模式和对高维数据的快速优化决策能力，在保证系统控制可靠性的基础上，显著提升了CHP机组在面对复杂环境时的自适应能力。

附图说明

图1为多工况模型自适应控制模型框图。

图2为DDPG多工况模型自适应控制设计流程图。

图3为DDPG多智能体同步运行示意图。

图4为多智能体DDPG离线在线互动模型图。

图5(a)为不同模型控制方法下CHP机组典型工况发电负荷误差响应曲线图；

图5(b)为不同模型控制方法下CHP机组典型工况抽汽流量误差响应曲线图；

图5(c)为不同模型控制方法下CHP机组典型工况机前压力误差响应曲线图。

图6为不同算法训练过程累计奖励曲线图。

图7(a)为CHP机组不同工况阶跃扰动发电负荷误差响应曲线图簇图；

图7(b)为CHP机组不同工况阶跃扰动抽汽流量误差响应曲线图簇图；

图7(c)为CHP机组不同工况阶跃扰动机前压力误差响应曲线图簇图。

图8(a)为CHP机组低负荷工况连续扰动发电负荷误差响应曲线簇图；

图8(b)为CHP机组低负荷工况连续扰动抽汽流量误差响应曲线簇图；

图8(c)为CHP机组低负荷工况连续扰动机前压力误差响应曲线簇图。

具体实施方式

步骤2：基于步骤1建立的CHP机组状态运行模型，计及系统状态参数不确定变化，建立多工况自适应控制模型；

以CHP机组多变量反馈控制架构为基础，提出一种计及系统状态参数不确定变化所构建的多工况自适应控制模型，即通过构造多个工况子模型来精确逼近机组整个出力区间特性，以消除系统不确定变化参数给机组控制带来的影响，并利用积分型函数切换机制为多个工况子模型选取对应最优子控制系统，从而构建工况子模型-子控制系统偶对离线数据库，如图1所示。

在此基础上，针对传统控制方法中固定控制器工况适应性差及模型库模型有限问题，提出一种基于多智能体深度确定性策略梯度的工况子模型-子控制系统在线自适应控制方法，即利用DDPG离线数据库对在线运行决策过程的快速指导作用，实现机组大范围出力区间复杂控制需求的在线快速自适应控制，具体如图2所示。其中，考虑到热电联产机组发电负荷控制回路响应快速性、抽汽流量控制回路供热稳定性、机前压力控制回路运行安全性的多回路控制结构及其控制指标，提出一种MA-DDPG同步运行策略，保证了每个智能体相对独立地训练对应控制回路，克服了单智能体对多控制回路训练周期长、收敛困难的缺点；同时借助奖励函数辅助机制，协调各智能体之间的学习动作，达到各智能体回路决策最优与全局控制最优，有效提升了机组整个出力区间的整体控制效果。

实施例：

以330MW抽汽式CHP机组为例，在Matlab2020b/Simulink中搭建相应仿真模型。机组不同工况模型关键状态参数变化情况见表1所示。

表1 CHP机组典型出力工况关键参数变化情况

发明设计如下算例，验证多工况模型DDPG自适应控制方法有效性：

算例1：对比理想全工况模型控制方法与实际多工况模型控制方法效果分析；

本算例分析计及系统状态参数变化的多工况模型控制方法的有效性。CHP机组响应达到稳态后，1800s时施加+20MW负荷扰动，观察图5不同模型控制方法下的机组误差响应曲线簇。

表2不同模型控制方法下发电负荷误差响应指标

表2为其发电负荷误差响应曲线性能指标。机组控制系统采用固定控制器，其控制参数为：[(12,0.1,0),(25,0.0004,0),(0.6,0.0028,0)]。

对比图5(a)～图5(c)虚实线及表2可知，采用多工况模型控制方法，CHP机组大范围负荷工况出力运行时，发电负荷上升时间平均由244.11s延长至360.30s，抽汽流量响应缓慢、稳态误差达35t/h，机组响应过程波动趋势复杂、过渡时间不一、跟踪效果差异显著。可见，大范围工况出力时实际状态参数变化给机组特性造成影响极大，理想全工况模型控制方法无法准确描述机组整个区间特性，控制效果亦较差。

算例2：针对多工况模型控制方法，对比发明所提MA-DDPG与其他算法的自适应收敛性能分析；

本算例对比发明所提MA-DDPG与其他算法的收敛性能。以训练机组子控制系统中发电负荷控制回路的Agent2为例，MA-DDPG、DDPG与DQN不同算法训练过程如图6所示。

从图6可知，训练开始时不同算法Agent累计奖励均为负值，学习效果较差。但是，MA-DDPG在多个Agent相互学习、独立决策训练过程中，奖励值不断增加直至迭代75次左右便基本收敛。

表3算法性能比较

由表3可知，与基准方法DDPG、DQN以及GA算法相比，发明所提MA-DDPG累计奖励值有效提升了18.76％、38.28％、12.55％。可见，多个Agent协同合作相较于单个Agent连续和离散动作算法，具有更快的收敛速度和更好的训练效果。此外，表3也显示了MA-DDPG、DDPG和DQN以及GA算法平均运行时间，证实了深度强化学习的收敛速度优势，这是由于在线测试环节得到离线知识的快速指导作用，避免了大量迭代工作。

算例3：对比发明多工况模型在传统控制方案与DDPG自适应控制方案下，大范围出力工况阶跃扰动控制效果分析；

本算例验证多工况模型在DDPG自适应控制方案下对大范围工况阶跃扰动的控制效果。

表4典型工况模型-子控制系统偶对自适应结果

表4为MA-DDPG的工况子模型-子控制系统自适应结果。CHP机组响应达稳态后，1800s施加+20MW负荷扰动，对比传统控制方案与发明自适应控制方案下图5(a)～图5(c)的误差响应曲线簇。

由图7(a)～图7(c)及表4可知，与传统控制方案相比，CHP机组采用自适应控制方案后，发电负荷上升时间由252～345s大幅缩短至57～82s，响应时间平均减少了37.34％；抽汽流量误差短时波动后迅速稳定至零附近；机前压力峰值平均缩减了25.07％，有效避免安全失稳现象。可见，在MA-DDPG的况子模型-子控制系统自适应作用下，CHP机组能够在大范围区间迅速准确地响应负荷需求而不影响供热及运行安全。

算例4：对比发明多工况模型在传统控制方案与DDPG自适应控制方案下，低负荷出力工况连续扰动控制效果分析。

本算例验证多工况模型在DDPG自适应控制方案下对低负荷工况连续扰动的控制效果。在30％～50％THA低负荷工况下进行该实验。CHP机组发电负荷在83～160MW内波动，9.96MPa定压运行，抽汽流量保持220t/h。相应仿真结果见图8(a)～图8(c)所示基于传统控制方案与自适应控制方案的误差响应曲线簇。其响应指标见表5。

表5 CHP机组不同工况的阶跃扰动响应指标

由图8(a)～图8(c)及表5可知，相比于传统控制方案下发电负荷响应缓慢、抽汽流量和机前压力的长时、大幅波动失稳趋势，发明自适应控制方案使得机组发电负荷上升时间平均减小了79.54％，响应时间由220～445s大幅缩至71～162s，且抽汽流量及机前压力响应过程过渡极为迅速平稳。

表6 CHP机组低负荷工况的连续扰动响应指标

综上所述，由表5、表6以及图7(a)～图7(c)、图8(a)～图8(c)分析可见，面对整个运行区间大范围随机出力要求，本发明所提多工况模型DDPG自适应控制发电负荷快速性、供热稳定性和运行安全性等指标均优于传统控制。

Claims

1.计及深度强化学习的热电联产机组多工况自适应控制方法，其特征在于包括以下步骤：

步骤1：建立表征不同出力工况下的CHP机组状态运行模型；

2.根据权利要求1所述计及深度强化学习的热电联产机组多工况自适应控制方法，其特征在于：所述步骤1中，CHP机组大范围工况随机出力运行时，部分状态参数会发生非线性变化，其动态响应过程是一个包含了机械能量转换、热交换和两相流动的多工况复杂过程，典型抽汽式CHP机组的非线性动态过程为：

正压直吹式制粉系统惯性描述：

式(1)中，T_b为制粉惯性；t为时间；r_B(t)为锅炉燃烧转换率；

为锅炉燃烧转换率对时间t的求导；u_B为给煤量；τ为制粉延迟时间s；

锅炉能量平衡方程：

式(2)中，C_b为蓄热系数；p_d为汽包压力；

为汽包压力对时间t的求导；K₃为汽轮机增益；p_T为机前压力；u_T为高调门开度；K₁为燃料增益；r_B为锅炉燃烧率；

过热器机前压力差压特性描述：

p_T＝p_d-K₂(K₁r_B)^1.5 (3)；

式(3)中，p_T为机前压力；p_d为汽包压力；K₂为压差拟合系数；K₁为燃料增益；r_B为锅炉燃烧率；

汽轮机能量平衡方程：

式(4)中，T_t为汽轮机惯性时间；P_e为机组发电负荷；

为机组发电负荷对时间t求导；K₅为低压缸蒸汽作功增益；p_z为供热抽汽压力；u_H为抽汽蝶阀开度；K₄为高中压缸占汽轮机作功比例；K₃为汽轮机增益；p_T为机前压力；u_T为高调门开度；

中间抽汽压力动态关系：

式(5)中，C_h为热网加热器蓄热系数；p_z为供热抽汽压力；

为供热抽汽压力对时间t的求导；K₆为热网循环水有效比热容；q_b为热网循环水流量；t_c为热网循环水回水温度；K₄为高中压缸占汽轮机作功比例；K₃为汽轮机增益；p_T为机前压力；u_T为高调门开度；K₅为低压缸蒸汽作功增益；u_H为抽汽蝶阀开度；

抽汽流量计算：

q_m＝K₇K₆q_b(96p_z-t_c+103) (6)；

式(6)中，q_m为抽汽流量；K₇供热抽汽有效热量折合蒸汽流量系数；K₆热网循环水有效比热容；q_b为热网循环水流量；p_z供热抽汽压力；t_c为热网循环水回水温度；

机组在大范围工况随机出力运行时，上述式(1)-式(6)所表示的被控对象状态参数非线性变化明显。

3.根据权利要求2所述计及深度强化学习的热电联产机组多工况自适应控制方法，其特征在于：建立表征不同出力工况下的CHP机组状态运行模型，具体如下所示：

式(7)中：F_i为划分的第i个工况模型；T_b,i为第i个工况模型下的制粉惯性；r_B(t)为锅炉燃烧转换率；

为锅炉燃烧转换率对时间t的求导；u_B,i为第i个工况模型下的给煤量；τ_i为第i个工况模型下的制粉延迟时间；

C_b,i为第i个工况模型下的蓄热系数；p_d为汽包压力；K₃为汽轮机增益；p_T为机前压力；u_T,i为第i个工况模型下的高调门开度；K_1,i为第i个工况模型下的燃料增益；

K₂为压差拟合系数；T_t为汽轮机惯性时间；P_e为机组发电负荷；K₅为低压缸蒸汽作功增益；p_z为供热抽汽压力；

u_H,i为第i个工况模型下的抽汽蝶阀开度；K₄为高中压缸占汽轮机作功比例；

C_h为热网加热器蓄热系数；K₆为热网循环水有效比热容；q_b,i为第i个工况模型下的热网循环水流量；t_c,i为第i个工况模型下的热网循环水回水温度；q_m为抽汽流量；K₇为供热抽汽有效热量折合蒸汽流量系数；

为锅炉燃烧转换率对时间t的求导；

为汽包压力对时间t的求导；

为机组发电负荷对时间t的求导；

为供热抽汽压力对时间t求导。

4.根据权利要求1所述计及深度强化学习的热电联产机组多工况自适应控制方法，其特征在于：所述步骤2中，建立的多工况自适应控制模型过程，包括多工况模型切换和多变量控制系统PID自适应控制设计两个过程；

其中，多变量控制系统共有三条控制回路，CHP机组将机前压力偏差△p_T送入第1条高调门开度控制回路，发电负荷偏差△P_e送入第2条蝶阀开度控制回路，第3条燃料量控制回路输入由△P_e与抽汽流量扰动△q_m等效发电负荷偏差构成；

因此，CHP机组控制系统为：

式(8)中：Y为三条控制回路输出矩阵，其中△y_i、y_i,0、△x_i、k_p,i、k_I,i、k_d,i分别为第i条控制回路控制器的输出增量、输出初始值、输入偏差以及3个控制参数，这些控制参数决定了机组调节性能；

Ω＝{F_i|i＝1,2,…,n} (9)；

S3.2：根据式(8)建立工况模型控制系统：

C＝{Y_i|i＝1,2,…n} (10)；

式(10)中：Y_i为第i个工况子模型所对应的子控制系统，C为其集合；

式(11)中：J为切换机制；△x_i,j(t)为第i个工况模型与实际被控对象的第j条控制回路输入x_i.j(t)与x_ref,j(t)的误差；α和β分别为当前瞬态误差和记忆长度内误差的权重；γ为遗忘因子，保证J_i(t)的收敛性，α>0,β>0,γ>0；

S3.4：设采样时刻t，系统采样偶对(F_i,Y_i)，下一采样时刻J_k＝min{J_i(t)}，切换如下：

由积分型函数切换机制能够获取最匹配工况模型，其输出

与机组负荷指令x_ref(t)相减，构成闭环最优工况控制模型。

5.根据权利要求1所述计及深度强化学习的热电联产机组多工况自适应控制方法，其特征在于：所述步骤3中，对于MA-DDPG算法，其在任意优化时刻，3个Agent共同探索工况子模型环境，借助经验回放池R在训练周期T内用N个随机样本快速更新各自网络参数和策略制定，及时用最小化损失函数L(Q)和确定性策略梯度DPG训练更新Q、μ网络参数；因此，每个Agent梯度更新公式：

式(13)、式(14)中：N为样本总数；i为回放池的随机样本编号；

为当前网络μ、Q所拷贝的目标网络；

为在状态

下执行动作

的Q值；θ^Q、

θ^μ、

的网络参数；

接着，更新该Agent的Critic网络和Actor网络的参数θ^Q、

和θ^μ、

式中：

和

为第k+1次迭代的Q、μ和

网络参数；φ和

分别为Critic、Actor当前网络学习权重值；σ为目标网络更新权重；j为智能体的编号；Y_j为第j个智能体的目标值函数；c为目标网络相对当前网络所延迟的步数。

6.根据权利要求5所述计及深度强化学习的热电联产机组多工况自适应控制方法，其特征在于：奖励函数辅助机制的设计在保证3个Agent决策相对独立基础上，协调各Agent之间的学习动作，实现每个Agent决策最优与全局最优：

式(19)～式(21)中：u_T0为高调门开度初始值；u_B0为给煤量初始值；t为迭代次数；r_1,t、r_2,t、r_3,t分别为3个Agent各自PID控制器被控变量的响应性能指标惩罚；△x_1,t、△x_2,t、△x_3,t分别为第1、2、3条控制回路发电负荷偏差值；△x₂₀为第2条控制回路发电负荷初始偏差；ξ₀、ξ₁、ξ₂、ξ₃分别通过试验获得，ξ₀＝2、ξ₁＝5、ξ₂＝3、ξ₃＝15；

MaxE[R_i|π_i],i＝1,2,3 (22)；

式(22)中：

7.根据权利要求6所述计及深度强化学习的热电联产机组多工况自适应控制方法，其特征在于：所述步骤3中，计及MA-DDPG算法的多工况自适应控制参数优化策略，其具体过程为：

Step1：多智能体Actor网络μ(s|θ^μ)，根据当前状态s_k决策动作a；

Step2：通过执行决策动作a得到新状态s_k+1,并通过式(19)、式(20)、式(21)计算出奖励值r_1,t、r_2,t、r_3,t；

Step3：Critic网络Q(s,a|θ^Q)对当前动作策略进行估计，在与环境交互过程中通过离线训练-在线测试运作模式，使智能体不断评估Q值并修正策略，以实现期望回报最优决策，获取当前工况模型最优子控制系统；

在离线训练过程中，应保持工况子模型基本热电需求不变，然后尽可能多的考虑随机扰动，在“动作-评估”反复迭代过程中收获最优μ、Q网络，获取相应子控制系统，从而构建工况子模型-子控制系统偶对离线数据库；

在线学习决策过程中，系统不断输出离线经验数据用以指导在线自适应学习过程，即可以利用在线储备知识超快速更新各个Agent的μ、Q网络参数；当实际环境与离线环境存在差异时，DDPG快速适应新工况环境，从而在线指导CHP机组控制系统更快更有效地响应需求。