CN115421390A - 计及深度强化学习的热电联产机组多工况自适应控制方法 - Google Patents

计及深度强化学习的热电联产机组多工况自适应控制方法 Download PDF

Info

Publication number
CN115421390A
CN115421390A CN202211166934.3A CN202211166934A CN115421390A CN 115421390 A CN115421390 A CN 115421390A CN 202211166934 A CN202211166934 A CN 202211166934A CN 115421390 A CN115421390 A CN 115421390A
Authority
CN
China
Prior art keywords
working
model
working condition
condition
pressure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211166934.3A
Other languages
English (en)
Inventor
叶婧
周正坤
张磊
黄悦华
杨楠
程江州
薛田良
李振华
肖繁
徐雄军
潘鹏程
徐恒山
陈庆
卢天林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Three Gorges University CTGU
Original Assignee
China Three Gorges University CTGU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Three Gorges University CTGU filed Critical China Three Gorges University CTGU
Priority to CN202211166934.3A priority Critical patent/CN115421390A/zh
Publication of CN115421390A publication Critical patent/CN115421390A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E20/00Combustion technologies with mitigation potential
    • Y02E20/14Combined heat and power generation [CHP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

计及深度强化学习的热电联产机组多工况自适应控制方法,考虑CHP机组在大范围工况随机出力运行时部分状态参数会发生非线性变化,建立表征不同出力工况下的CHP机组状态运行模型;基于建立的CHP机组状态运行模型,计及系统状态参数不确定变化建立多工况自适应控制模型;针对多工况自适应控制模型中控制模块的参数优化问题,设计MA‑DDPG算法多工况自适应控制参数优化策略;通过上述步骤,实现热电联产机组在多工况自适应控制下的负荷快速跟踪。本发明控制方法旨在保证系统控制可靠性的同时,实现热电联产机组在多工况自适应控制下的负荷快速跟踪,显著提升控制系统面对不确定复杂环境的自适应能力。

Description

计及深度强化学习的热电联产机组多工况自适应控制方法
技术领域
本发明涉及热电联产技术控制领域,具体涉及一种计及深度强化学习的热电联产机组多工况自适应控制方法。
背景技术
随着热电联产灵活性改造不断进行,“三北地区”大规模装机的热电联产(combined heat and power,CHP)机组能够在大范围出力区间内参与电网灵活性快速调节。CHP机组大范围随机出力运行时,被控对象延迟、非线性特性会出现显著差异,导致机组响应过程变得更为复杂甚至不可控。因此,展开考虑整个出力工况复杂特性的控制研究,对于提升机组大范围区间快速响应及稳定供热,从而满足电网灵活性运行要求具有重要意义。
目前,传统控制方法采用计及抽汽供热调节,在保证供热质量的基础上,有效提升了CHP机组额定工况负荷响应速率。但是,该控制方法仅围绕机组额定出力工况展开,很少关注机组特定工况模型受大范围随机出力波动性影响以及易忽略系统状态参数变化重要信息,导致整体控制效果变差;且CHP机组传统控制方法往往采用固定控制器,无法适应多模型控制工况切换过程。
发明内容
为进一步解决CHP机组在传统控制方法中受大范围随机出力波动性影响以及易忽略系统状态参数变化等重要信息,导致机组响应速度慢、动态性能差等问题。本发明提供一种计及深度强化学习的热电联产机组多工况自适应控制方法,旨在保证系统控制可靠性的同时,实现热电联产机组在多工况自适应控制下的负荷快速跟踪,显著提升控制系统面对不确定复杂环境的自适应能力。
本发明采取的技术方案为:
计及深度强化学习的热电联产机组多工况自适应控制方法,包括以下步骤:
步骤1:考虑CHP机组在大范围工况随机出力运行时部分状态参数会发生非线性变化,建立表征不同出力工况下的CHP机组状态运行模型;
步骤2:基于步骤1建立的CHP机组状态运行模型,计及系统状态参数不确定变化建立多工况自适应控制模型;
步骤3:针对多工况自适应控制模型中控制模块的参数优化问题,设计MA-DDPG算法多工况自适应控制参数优化策略;
通过上述步骤,实现热电联产机组在多工况自适应控制下的负荷快速跟踪。
所述步骤1中,CHP机组大范围工况随机出力运行时,部分状态参数会发生非线性变化,其动态响应过程是一个包含了机械能量转换、热交换和两相流动的多工况复杂过程,典型抽汽式CHP机组的非线性动态过程为:
正压直吹式制粉系统惯性描述:
Figure BDA0003862107450000021
式(1)中,Tb为制粉惯性;t为时间,单位:s;rB(t)为锅炉燃烧转换率,单位:t/h;
Figure BDA0003862107450000022
为锅炉燃烧转换率对时间t的求导;uB为给煤量,单位:t/h;τ为制粉延迟时间,单位:s;
锅炉能量平衡方程:
Figure BDA0003862107450000023
式(2)中,Cb为蓄热系数;pd为汽包压力,单位:MPa;
Figure BDA0003862107450000024
为汽包压力对时间t的求导;K3为汽轮机增益;pT为机前压力,单位:MPa;uT为高调门开度,单位:%;K1为燃料增益;rB为锅炉燃烧率,单位:t/h。
过热器机前压力差压特性描述:
pT=pd-K2(K1rB)1.5(3);
式(3)中,pT为机前压力,单位:MPa;pd为汽包压力,单位:MPa;K2为压差拟合系数;K1为燃料增益;rB为锅炉燃烧率。
汽轮机能量平衡方程:
Figure BDA0003862107450000025
式(4)中,Tt为汽轮机惯性时间,单位:s;Pe为机组发电负荷,单位:MW;
Figure BDA0003862107450000026
为机组发电负荷对时间t求导;K5为低压缸蒸汽作功增益;pz为供热抽汽压力,单位:MPa;uH为抽汽蝶阀开度,单位:%;K4为高中压缸占汽轮机作功比例;K3为汽轮机增益;pT为机前压力,单位:MPa;uT为高调门开度,单位:%。
中间抽汽压力动态关系:
Figure BDA0003862107450000027
式(5)中,Ch为热网加热器蓄热系数;pz为供热抽汽压力,单位:MPa;
Figure BDA0003862107450000028
为供热抽汽压力对时间t的求导;K6为热网循环水有效比热容;qb为热网循环水流量,单位:t/h;tc为热网循环水回水温度,单位:℃;K4为高中压缸占汽轮机作功比例;K3为汽轮机增益;pT为机前压力,单位:MPa;uT为高调门开度,单位:%;K5为低压缸蒸汽作功增益;uH为抽汽蝶阀开度,单位:%。
抽汽流量计算:
qm=K7K6qb(96pz-tc+103)(6);
式(6)中,qm为抽汽流量,单位:t/h;K7供热抽汽有效热量折合蒸汽流量系数;K6热网循环水有效比热容;qb为热网循环水流量,单位:t/h;pz供热抽汽压力,单位:MPa;tc为热网循环水回水温度,单位:℃。
机组在大范围工况随机出力运行时,上述式(1)-式(6)所表示的被控对象状态参数非线性变化明显,本发明将其视作变量考虑,更为精确的建立表征不同出力工况下的CHP机组状态运行模型,具体如下所示:
Figure BDA0003862107450000031
式(7)中:Fi为划分的第i个工况模型;Tb,i为第i个工况模型下的制粉惯性;rB(t)为锅炉燃烧转换率,单位:t/h;
Figure BDA0003862107450000032
为锅炉燃烧转换率对时间t的求导;uB,i为第i个工况模型下的给煤量,单位:t/h;τi为第i个工况模型下的制粉延迟时间,单位:s;
Cb,i为第i个工况模型下的蓄热系数;pd为汽包压力,单位:MPa;K3为汽轮机增益;pT为机前压力,单位:MPa;uT,i为第i个工况模型下的高调门开度,单位:%;K1,i为第i个工况模型下的燃料增益;
K2为压差拟合系数;Tt为汽轮机惯性时间,单位:s;Pe为机组发电负荷,单位:MW;K5为低压缸蒸汽作功增益;pz为供热抽汽压力,单位:MPa;
uH,i为第i个工况模型下的抽汽蝶阀开度,单位:%;K4为高中压缸占汽轮机作功比例;
Ch为热网加热器蓄热系数;K6为热网循环水有效比热容;qb,i为第i个工况模型下的热网循环水流量,单位:t/h;tc,i为第i个工况模型下的热网循环水回水温度,单位:℃;qm为抽汽流量,单位:t/h;K7为供热抽汽有效热量折合蒸汽流量系数;
Figure BDA0003862107450000033
为锅炉燃烧转换率对时间t的求导;
Figure BDA0003862107450000041
为汽包压力对时间t的求导;
Figure BDA0003862107450000042
为机组发电负荷对时间t的求导;
Figure BDA0003862107450000043
为供热抽汽压力对时间t求导。
所述步骤2中,建立的多工况自适应控制模型过程,包括多工况模型切换和多变量控制系统PID自适应控制设计两个过程。
其中,多变量控制系统共有三条控制回路,CHP机组将机前压力偏差△pT送入第1条高调门开度控制回路,发电负荷偏差△Pe送入第2条蝶阀开度控制回路,第3条燃料量控制回路输入由△Pe与抽汽流量扰动△qm等效发电负荷偏差构成。
因此,CHP机组控制系统为:
Figure BDA0003862107450000044
式(8)中:Y为三条控制回路输出矩阵,其中△yi、yi,0、△xi、kp,i、kI,i、kd,i分别为第i条控制回路控制器的输出增量、输出初始值、输入偏差以及3个控制参数,这些控制参数决定了机组调节性能。
多工况模型切换由积分型函数切换机制完成,其具体包括以下步骤:
S3.1:根据式(7)构造包含n个工况的模型库来覆盖被控对象整个区间的运行特性:
Ω={Fi|i=1,2,…,n}(9);
式(9)中:Fi为第i个工况下所对应的系统模型;Ω为模型元素Fi的集合,
S3.2:根据式(8)建立工况模型控制系统:
C={Yi|i=1,2,…n}(10);
式(10)中:Yi为第i个工况子模型所对应的子控制系统,C为其集合。
S3.3:利用积分型函数切换指标,评估各工况子模型与当前被控对象的匹配程度,切换至最优工况模型Fo
Figure BDA0003862107450000045
Figure BDA0003862107450000046
式(11)中:J为切换机制;△xi,j(t)为第i个工况模型与实际被控对象的第j条控制回路输入xi.j(t)与xref,j(t)的误差;α和β分别为当前瞬态误差和记忆长度内误差的权重;γ为遗忘因子,保证Ji(t)的收敛性,α>0,β>0,γ>0。
S3.4:通过滞后切换法实现无扰切换,设采样时刻t,系统采样偶对(Fi,Yi),下一采样时刻Jk=min{Ji(t)},切换如下:
Figure BDA0003862107450000051
式(12)中:Fi为第i个工况下所对应的系统模型;Yi为第i个工况子模型所对应的子控制系统;Ji为第i个工况子模型所对应的切换机制;δ为滞后时间;
由积分型函数切换机制能够获取最匹配工况模型,其输出
Figure BDA0003862107450000052
与机组负荷指令xref(t)相减,构成闭环最优工况控制模型。
所述步骤3中,MA-DDPG算法是在传统的DDPG算法上所提出的一种多智能体同步运行机制。MA-DDPG算法考虑到了热电联产机组发电负荷控制回路响应快速性、抽汽流量控制回路供热稳定性、机前压力控制回路运行安全性的多回路控制结构及其控制指标,保证了每个智能体相对独立地训练对应控制回路,克服了单智能体对多控制回路训练周期长、收敛困难的缺点;同时借助奖励函数辅助机制,协调各智能体之间的学习动作,达到各智能体回路决策最优与全局控制最优,有效提升机组整个出力区间的控制效果。
对于MA-DDPG算法,其在任意优化时刻,3个Agent共同探索工况子模型环境,借助经验回放池R在训练周期T内用N个随机样本快速更新各自网络参数和策略制定,及时用最小化损失函数L(Q)和确定性策略梯度(deterministic policy gradient,DPG)训练更新Q、μ网络参数。因此,每个Agent梯度更新公式:
Figure BDA0003862107450000053
Figure BDA0003862107450000054
式(13)、式(14)中:N为样本总数;i为回放池的随机样本编号,
Figure BDA0003862107450000055
Figure BDA0003862107450000056
为控制器被控变量的响应性能指标惩罚;s为当前状态;a为决策动作;ω为Q值迭代折扣因子;μ(s|θμ)为用于决策动作的Actor网络;Q(s,a|θQ)为用于动作评估的Critic网络;
Figure BDA0003862107450000057
为当前网络μ、Q所拷贝的目标网络;
Figure BDA0003862107450000058
为在状态
Figure BDA0003862107450000059
下执行动作
Figure BDA00038621074500000510
的Q值;θQ
Figure BDA00038621074500000511
θμ
Figure BDA00038621074500000512
为每个Agent的Critic、Actor的当前网络Q、μ的网络参数和目标网络
Figure BDA00038621074500000513
的网络参数。
接着,更新该Agent的Critic网络和Actor网络的参数θQ
Figure BDA00038621074500000514
和θμ
Figure BDA00038621074500000515
Figure BDA0003862107450000061
Figure BDA0003862107450000062
Figure BDA0003862107450000063
Figure BDA0003862107450000064
式中:
Figure BDA0003862107450000065
Figure BDA0003862107450000066
为第k+1次迭代的Q、μ和
Figure BDA0003862107450000067
网络参数;φ和
Figure BDA0003862107450000068
分别为Critic、Actor当前网络学习权重值;σ为目标网络更新权重;j为智能体的编号;Yj为第j个智能体的目标值函数;c为目标网络相对当前网络所延迟的步数;
步骤3中,奖励函数辅助机制的设计要在保证3个Agent决策相对独立基础上,协调各Agent之间的学习动作,实现每个Agent决策最优与全局最优:
Figure BDA0003862107450000069
Figure BDA00038621074500000610
Figure BDA00038621074500000611
式(19)~式(21)中:uT0为高调门开度初始值;uB0为给煤量初始值;t为迭代次数;r1,t、r2,t、r3,t分别为3个Agent各自PID控制器被控变量的响应性能指标惩罚;△x1,t、△x2,t、△x3,t分别为第1、2、3条控制回路发电负荷偏差值;△x20为第2条控制回路发电负荷初始偏差;ξ0、ξ1、ξ2、ξ3分别通过试验获得,ξ0=2、ξ1=5、ξ2=3、ξ3=15。
由于多智能体DDPG同步训练多个Agent来分别获得最大累积奖励,因此发明所述多目标控制问题等价于最大化各自控制回路控制器最优响应策略下的期望奖励值:
MaxE[Rii],i=1,2,3(22);
式(22)中:
Figure BDA0003862107450000071
πi分别表示第i个控制器在周期T内作用于工况子模型的总奖惩值及最优响应策略。
所述步骤3中,计及MA-DDPG算法的多工况自适应控制参数优化策略,其具体过程为:
Step1:多智能体Actor网络μ(s|θμ),根据当前状态sk决策动作a。
Step2:通过执行决策动作a得到新状态sk+1,并通过式(19)、式(20)、式(21)计算出奖励值r1,t、r2,t、r3,t
Step3:Critic网络Q(s,a|θQ)对当前动作策略进行估计,在与环境交互过程中通过离线训练-在线测试运作模式,使智能体不断评估Q值并修正策略,以实现期望回报最优决策,获取当前工况模型最优子控制系统。
在离线训练过程中,应保持工况子模型基本热电需求不变,然后尽可能多的考虑随机扰动,在“动作-评估”反复迭代过程中收获最优μ、Q网络,获取相应子控制系统,从而构建工况子模型-子控制系统偶对离线数据库。
在线学习决策过程中,系统不断输出离线经验数据用以指导在线自适应学习过程,即可以利用在线储备知识超快速更新各个Agent的μ、Q网络参数。当实际环境与离线环境存在差异时,DDPG快速适应新工况环境,从而在线指导CHP机组控制系统更快更有效地响应需求。
本发明一种计及深度强化学习的热电联产机组多工况自适应控制方法,技术效果如下:
1)本发明提出多模型控制以解决非线性、变工况、参数不确定性复杂问题,为解决CHP机组大范围出力过程中状态参数变化问题提供了新思路。
2)本发明设计MA-DDPG算法多工况自适应控制参数优化策略,融合了深度强化学习的奖励值优化模式和对高维数据的快速优化决策能力,将其引入控制系统自适应设计环节后,可在保证系统控制可靠性的基础上,显著提升面对复杂环境的自适应能力。
3)本发明考虑了CHP机组在不同出力工况下动态响应特性的变化情况,并将深度强化学习融入到多模型控制模块当中,利用其奖励值优化模式和对高维数据的快速优化决策能力,在保证系统控制可靠性的基础上,显著提升了CHP机组在面对复杂环境时的自适应能力。
附图说明
图1为多工况模型自适应控制模型框图。
图2为DDPG多工况模型自适应控制设计流程图。
图3为DDPG多智能体同步运行示意图。
图4为多智能体DDPG离线在线互动模型图。
图5(a)为不同模型控制方法下CHP机组典型工况发电负荷误差响应曲线图;
图5(b)为不同模型控制方法下CHP机组典型工况抽汽流量误差响应曲线图;
图5(c)为不同模型控制方法下CHP机组典型工况机前压力误差响应曲线图。
图6为不同算法训练过程累计奖励曲线图。
图7(a)为CHP机组不同工况阶跃扰动发电负荷误差响应曲线图簇图;
图7(b)为CHP机组不同工况阶跃扰动抽汽流量误差响应曲线图簇图;
图7(c)为CHP机组不同工况阶跃扰动机前压力误差响应曲线图簇图。
图8(a)为CHP机组低负荷工况连续扰动发电负荷误差响应曲线簇图;
图8(b)为CHP机组低负荷工况连续扰动抽汽流量误差响应曲线簇图;
图8(c)为CHP机组低负荷工况连续扰动机前压力误差响应曲线簇图。
具体实施方式
计及深度强化学习的热电联产机组多工况自适应控制方法,包括以下步骤:
步骤1:考虑CHP机组在大范围工况随机出力运行时部分状态参数会发生非线性变化,建立表征不同出力工况下的CHP机组状态运行模型;
步骤2:基于步骤1建立的CHP机组状态运行模型,计及系统状态参数不确定变化,建立多工况自适应控制模型;
步骤3:针对多工况自适应控制模型中控制模块的参数优化问题,设计MA-DDPG算法多工况自适应控制参数优化策略;
通过上述步骤,实现热电联产机组在多工况自适应控制下的负荷快速跟踪。
以CHP机组多变量反馈控制架构为基础,提出一种计及系统状态参数不确定变化所构建的多工况自适应控制模型,即通过构造多个工况子模型来精确逼近机组整个出力区间特性,以消除系统不确定变化参数给机组控制带来的影响,并利用积分型函数切换机制为多个工况子模型选取对应最优子控制系统,从而构建工况子模型-子控制系统偶对离线数据库,如图1所示。
在此基础上,针对传统控制方法中固定控制器工况适应性差及模型库模型有限问题,提出一种基于多智能体深度确定性策略梯度的工况子模型-子控制系统在线自适应控制方法,即利用DDPG离线数据库对在线运行决策过程的快速指导作用,实现机组大范围出力区间复杂控制需求的在线快速自适应控制,具体如图2所示。其中,考虑到热电联产机组发电负荷控制回路响应快速性、抽汽流量控制回路供热稳定性、机前压力控制回路运行安全性的多回路控制结构及其控制指标,提出一种MA-DDPG同步运行策略,保证了每个智能体相对独立地训练对应控制回路,克服了单智能体对多控制回路训练周期长、收敛困难的缺点;同时借助奖励函数辅助机制,协调各智能体之间的学习动作,达到各智能体回路决策最优与全局控制最优,有效提升了机组整个出力区间的整体控制效果。
实施例:
以330MW抽汽式CHP机组为例,在Matlab2020b/Simulink中搭建相应仿真模型。机组不同工况模型关键状态参数变化情况见表1所示。
表1 CHP机组典型出力工况关键参数变化情况
Figure BDA0003862107450000091
发明设计如下算例,验证多工况模型DDPG自适应控制方法有效性:
算例1:对比理想全工况模型控制方法与实际多工况模型控制方法效果分析;
本算例分析计及系统状态参数变化的多工况模型控制方法的有效性。CHP机组响应达到稳态后,1800s时施加+20MW负荷扰动,观察图5不同模型控制方法下的机组误差响应曲线簇。
表2不同模型控制方法下发电负荷误差响应指标
Figure BDA0003862107450000092
表2为其发电负荷误差响应曲线性能指标。机组控制系统采用固定控制器,其控制参数为:[(12,0.1,0),(25,0.0004,0),(0.6,0.0028,0)]。
对比图5(a)~图5(c)虚实线及表2可知,采用多工况模型控制方法,CHP机组大范围负荷工况出力运行时,发电负荷上升时间平均由244.11s延长至360.30s,抽汽流量响应缓慢、稳态误差达35t/h,机组响应过程波动趋势复杂、过渡时间不一、跟踪效果差异显著。可见,大范围工况出力时实际状态参数变化给机组特性造成影响极大,理想全工况模型控制方法无法准确描述机组整个区间特性,控制效果亦较差。
算例2:针对多工况模型控制方法,对比发明所提MA-DDPG与其他算法的自适应收敛性能分析;
本算例对比发明所提MA-DDPG与其他算法的收敛性能。以训练机组子控制系统中发电负荷控制回路的Agent2为例,MA-DDPG、DDPG与DQN不同算法训练过程如图6所示。
从图6可知,训练开始时不同算法Agent累计奖励均为负值,学习效果较差。但是,MA-DDPG在多个Agent相互学习、独立决策训练过程中,奖励值不断增加直至迭代75次左右便基本收敛。
表3算法性能比较
Figure BDA0003862107450000101
由表3可知,与基准方法DDPG、DQN以及GA算法相比,发明所提MA-DDPG累计奖励值有效提升了18.76%、38.28%、12.55%。可见,多个Agent协同合作相较于单个Agent连续和离散动作算法,具有更快的收敛速度和更好的训练效果。此外,表3也显示了MA-DDPG、DDPG和DQN以及GA算法平均运行时间,证实了深度强化学习的收敛速度优势,这是由于在线测试环节得到离线知识的快速指导作用,避免了大量迭代工作。
算例3:对比发明多工况模型在传统控制方案与DDPG自适应控制方案下,大范围出力工况阶跃扰动控制效果分析;
本算例验证多工况模型在DDPG自适应控制方案下对大范围工况阶跃扰动的控制效果。
表4典型工况模型-子控制系统偶对自适应结果
Figure BDA0003862107450000102
Figure BDA0003862107450000111
表4为MA-DDPG的工况子模型-子控制系统自适应结果。CHP机组响应达稳态后,1800s施加+20MW负荷扰动,对比传统控制方案与发明自适应控制方案下图5(a)~图5(c)的误差响应曲线簇。
由图7(a)~图7(c)及表4可知,与传统控制方案相比,CHP机组采用自适应控制方案后,发电负荷上升时间由252~345s大幅缩短至57~82s,响应时间平均减少了37.34%;抽汽流量误差短时波动后迅速稳定至零附近;机前压力峰值平均缩减了25.07%,有效避免安全失稳现象。可见,在MA-DDPG的况子模型-子控制系统自适应作用下,CHP机组能够在大范围区间迅速准确地响应负荷需求而不影响供热及运行安全。
算例4:对比发明多工况模型在传统控制方案与DDPG自适应控制方案下,低负荷出力工况连续扰动控制效果分析。
本算例验证多工况模型在DDPG自适应控制方案下对低负荷工况连续扰动的控制效果。在30%~50%THA低负荷工况下进行该实验。CHP机组发电负荷在83~160MW内波动,9.96MPa定压运行,抽汽流量保持220t/h。相应仿真结果见图8(a)~图8(c)所示基于传统控制方案与自适应控制方案的误差响应曲线簇。其响应指标见表5。
表5 CHP机组不同工况的阶跃扰动响应指标
Figure BDA0003862107450000112
由图8(a)~图8(c)及表5可知,相比于传统控制方案下发电负荷响应缓慢、抽汽流量和机前压力的长时、大幅波动失稳趋势,发明自适应控制方案使得机组发电负荷上升时间平均减小了79.54%,响应时间由220~445s大幅缩至71~162s,且抽汽流量及机前压力响应过程过渡极为迅速平稳。
表6 CHP机组低负荷工况的连续扰动响应指标
Figure BDA0003862107450000121
综上所述,由表5、表6以及图7(a)~图7(c)、图8(a)~图8(c)分析可见,面对整个运行区间大范围随机出力要求,本发明所提多工况模型DDPG自适应控制发电负荷快速性、供热稳定性和运行安全性等指标均优于传统控制。

Claims (7)

1.计及深度强化学习的热电联产机组多工况自适应控制方法,其特征在于包括以下步骤:
步骤1:建立表征不同出力工况下的CHP机组状态运行模型;
步骤2:基于步骤1建立的CHP机组状态运行模型,计及系统状态参数不确定变化建立多工况自适应控制模型;
步骤3:针对多工况自适应控制模型中控制模块的参数优化问题,设计MA-DDPG算法多工况自适应控制参数优化策略;
通过上述步骤,实现热电联产机组在多工况自适应控制下的负荷快速跟踪。
2.根据权利要求1所述计及深度强化学习的热电联产机组多工况自适应控制方法,其特征在于:所述步骤1中,CHP机组大范围工况随机出力运行时,部分状态参数会发生非线性变化,其动态响应过程是一个包含了机械能量转换、热交换和两相流动的多工况复杂过程,典型抽汽式CHP机组的非线性动态过程为:
正压直吹式制粉系统惯性描述:
Figure FDA0003862107440000011
式(1)中,Tb为制粉惯性;t为时间;rB(t)为锅炉燃烧转换率;
Figure FDA0003862107440000012
为锅炉燃烧转换率对时间t的求导;uB为给煤量;τ为制粉延迟时间s;
锅炉能量平衡方程:
Figure FDA0003862107440000013
式(2)中,Cb为蓄热系数;pd为汽包压力;
Figure FDA0003862107440000014
为汽包压力对时间t的求导;K3为汽轮机增益;pT为机前压力;uT为高调门开度;K1为燃料增益;rB为锅炉燃烧率;
过热器机前压力差压特性描述:
pT=pd-K2(K1rB)1.5 (3);
式(3)中,pT为机前压力;pd为汽包压力;K2为压差拟合系数;K1为燃料增益;rB为锅炉燃烧率;
汽轮机能量平衡方程:
Figure FDA0003862107440000015
式(4)中,Tt为汽轮机惯性时间;Pe为机组发电负荷;
Figure FDA0003862107440000016
为机组发电负荷对时间t求导;K5为低压缸蒸汽作功增益;pz为供热抽汽压力;uH为抽汽蝶阀开度;K4为高中压缸占汽轮机作功比例;K3为汽轮机增益;pT为机前压力;uT为高调门开度;
中间抽汽压力动态关系:
Figure FDA0003862107440000021
式(5)中,Ch为热网加热器蓄热系数;pz为供热抽汽压力;
Figure FDA0003862107440000022
为供热抽汽压力对时间t的求导;K6为热网循环水有效比热容;qb为热网循环水流量;tc为热网循环水回水温度;K4为高中压缸占汽轮机作功比例;K3为汽轮机增益;pT为机前压力;uT为高调门开度;K5为低压缸蒸汽作功增益;uH为抽汽蝶阀开度;
抽汽流量计算:
qm=K7K6qb(96pz-tc+103) (6);
式(6)中,qm为抽汽流量;K7供热抽汽有效热量折合蒸汽流量系数;K6热网循环水有效比热容;qb为热网循环水流量;pz供热抽汽压力;tc为热网循环水回水温度;
机组在大范围工况随机出力运行时,上述式(1)-式(6)所表示的被控对象状态参数非线性变化明显。
3.根据权利要求2所述计及深度强化学习的热电联产机组多工况自适应控制方法,其特征在于:建立表征不同出力工况下的CHP机组状态运行模型,具体如下所示:
Figure FDA0003862107440000023
式(7)中:Fi为划分的第i个工况模型;Tb,i为第i个工况模型下的制粉惯性;rB(t)为锅炉燃烧转换率;
Figure FDA0003862107440000024
为锅炉燃烧转换率对时间t的求导;uB,i为第i个工况模型下的给煤量;τi为第i个工况模型下的制粉延迟时间;
Cb,i为第i个工况模型下的蓄热系数;pd为汽包压力;K3为汽轮机增益;pT为机前压力;uT,i为第i个工况模型下的高调门开度;K1,i为第i个工况模型下的燃料增益;
K2为压差拟合系数;Tt为汽轮机惯性时间;Pe为机组发电负荷;K5为低压缸蒸汽作功增益;pz为供热抽汽压力;
uH,i为第i个工况模型下的抽汽蝶阀开度;K4为高中压缸占汽轮机作功比例;
Ch为热网加热器蓄热系数;K6为热网循环水有效比热容;qb,i为第i个工况模型下的热网循环水流量;tc,i为第i个工况模型下的热网循环水回水温度;qm为抽汽流量;K7为供热抽汽有效热量折合蒸汽流量系数;
Figure FDA0003862107440000031
为锅炉燃烧转换率对时间t的求导;
Figure FDA0003862107440000032
为汽包压力对时间t的求导;
Figure FDA0003862107440000033
为机组发电负荷对时间t的求导;
Figure FDA0003862107440000034
为供热抽汽压力对时间t求导。
4.根据权利要求1所述计及深度强化学习的热电联产机组多工况自适应控制方法,其特征在于:所述步骤2中,建立的多工况自适应控制模型过程,包括多工况模型切换和多变量控制系统PID自适应控制设计两个过程;
其中,多变量控制系统共有三条控制回路,CHP机组将机前压力偏差△pT送入第1条高调门开度控制回路,发电负荷偏差△Pe送入第2条蝶阀开度控制回路,第3条燃料量控制回路输入由△Pe与抽汽流量扰动△qm等效发电负荷偏差构成;
因此,CHP机组控制系统为:
Figure FDA0003862107440000035
式(8)中:Y为三条控制回路输出矩阵,其中△yi、yi,0、△xi、kp,i、kI,i、kd,i分别为第i条控制回路控制器的输出增量、输出初始值、输入偏差以及3个控制参数,这些控制参数决定了机组调节性能;
多工况模型切换由积分型函数切换机制完成,其具体包括以下步骤:
S3.1:根据式(7)构造包含n个工况的模型库来覆盖被控对象整个区间的运行特性:
Ω={Fi|i=1,2,…,n} (9);
式(9)中:Fi为第i个工况下所对应的系统模型;Ω为模型元素Fi的集合,
S3.2:根据式(8)建立工况模型控制系统:
C={Yi|i=1,2,…n} (10);
式(10)中:Yi为第i个工况子模型所对应的子控制系统,C为其集合;
S3.3:利用积分型函数切换指标,评估各工况子模型与当前被控对象的匹配程度,切换至最优工况模型Fo
Figure FDA0003862107440000036
式(11)中:J为切换机制;△xi,j(t)为第i个工况模型与实际被控对象的第j条控制回路输入xi.j(t)与xref,j(t)的误差;α和β分别为当前瞬态误差和记忆长度内误差的权重;γ为遗忘因子,保证Ji(t)的收敛性,α>0,β>0,γ>0;
S3.4:设采样时刻t,系统采样偶对(Fi,Yi),下一采样时刻Jk=min{Ji(t)},切换如下:
Figure FDA0003862107440000041
式(12)中:Fi为第i个工况下所对应的系统模型;Yi为第i个工况子模型所对应的子控制系统;Ji为第i个工况子模型所对应的切换机制;δ为滞后时间;
由积分型函数切换机制能够获取最匹配工况模型,其输出
Figure FDA0003862107440000042
与机组负荷指令xref(t)相减,构成闭环最优工况控制模型。
5.根据权利要求1所述计及深度强化学习的热电联产机组多工况自适应控制方法,其特征在于:所述步骤3中,对于MA-DDPG算法,其在任意优化时刻,3个Agent共同探索工况子模型环境,借助经验回放池R在训练周期T内用N个随机样本快速更新各自网络参数和策略制定,及时用最小化损失函数L(Q)和确定性策略梯度DPG训练更新Q、μ网络参数;因此,每个Agent梯度更新公式:
Figure FDA0003862107440000043
Figure FDA0003862107440000044
式(13)、式(14)中:N为样本总数;i为回放池的随机样本编号;
Figure FDA0003862107440000045
为控制器被控变量的响应性能指标惩罚;s为当前状态;a为决策动作;ω为Q值迭代折扣因子;μ(s|θμ)为用于决策动作的Actor网络;Q(s,a|θQ)为用于动作评估的Critic网络;
Figure FDA0003862107440000046
为当前网络μ、Q所拷贝的目标网络;
Figure FDA0003862107440000047
为在状态
Figure FDA0003862107440000048
下执行动作
Figure FDA0003862107440000049
的Q值;θQ
Figure FDA00038621074400000410
θμ
Figure FDA00038621074400000411
为每个Agent的Critic、Actor的当前网络Q、μ的网络参数和目标网络
Figure FDA00038621074400000412
的网络参数;
接着,更新该Agent的Critic网络和Actor网络的参数θQ
Figure FDA00038621074400000413
和θμ
Figure FDA00038621074400000414
Figure FDA00038621074400000415
Figure FDA00038621074400000416
Figure FDA00038621074400000417
Figure FDA00038621074400000418
式中:
Figure FDA0003862107440000051
Figure FDA0003862107440000052
为第k+1次迭代的Q、μ和
Figure FDA0003862107440000053
网络参数;φ和
Figure FDA0003862107440000054
分别为Critic、Actor当前网络学习权重值;σ为目标网络更新权重;j为智能体的编号;Yj为第j个智能体的目标值函数;c为目标网络相对当前网络所延迟的步数。
6.根据权利要求5所述计及深度强化学习的热电联产机组多工况自适应控制方法,其特征在于:奖励函数辅助机制的设计在保证3个Agent决策相对独立基础上,协调各Agent之间的学习动作,实现每个Agent决策最优与全局最优:
Figure FDA0003862107440000055
Figure FDA0003862107440000056
Figure FDA0003862107440000057
式(19)~式(21)中:uT0为高调门开度初始值;uB0为给煤量初始值;t为迭代次数;r1,t、r2,t、r3,t分别为3个Agent各自PID控制器被控变量的响应性能指标惩罚;△x1,t、△x2,t、△x3,t分别为第1、2、3条控制回路发电负荷偏差值;△x20为第2条控制回路发电负荷初始偏差;ξ0、ξ1、ξ2、ξ3分别通过试验获得,ξ0=2、ξ1=5、ξ2=3、ξ3=15;
由于多智能体DDPG同步训练多个Agent来分别获得最大累积奖励,因此发明所述多目标控制问题等价于最大化各自控制回路控制器最优响应策略下的期望奖励值:
MaxE[Rii],i=1,2,3 (22);
式(22)中:
Figure FDA0003862107440000061
πi分别表示第i个控制器在周期T内作用于工况子模型的总奖惩值及最优响应策略。
7.根据权利要求6所述计及深度强化学习的热电联产机组多工况自适应控制方法,其特征在于:所述步骤3中,计及MA-DDPG算法的多工况自适应控制参数优化策略,其具体过程为:
Step1:多智能体Actor网络μ(s|θμ),根据当前状态sk决策动作a;
Step2:通过执行决策动作a得到新状态sk+1,并通过式(19)、式(20)、式(21)计算出奖励值r1,t、r2,t、r3,t
Step3:Critic网络Q(s,a|θQ)对当前动作策略进行估计,在与环境交互过程中通过离线训练-在线测试运作模式,使智能体不断评估Q值并修正策略,以实现期望回报最优决策,获取当前工况模型最优子控制系统;
在离线训练过程中,应保持工况子模型基本热电需求不变,然后尽可能多的考虑随机扰动,在“动作-评估”反复迭代过程中收获最优μ、Q网络,获取相应子控制系统,从而构建工况子模型-子控制系统偶对离线数据库;
在线学习决策过程中,系统不断输出离线经验数据用以指导在线自适应学习过程,即可以利用在线储备知识超快速更新各个Agent的μ、Q网络参数;当实际环境与离线环境存在差异时,DDPG快速适应新工况环境,从而在线指导CHP机组控制系统更快更有效地响应需求。
CN202211166934.3A 2022-09-23 2022-09-23 计及深度强化学习的热电联产机组多工况自适应控制方法 Pending CN115421390A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211166934.3A CN115421390A (zh) 2022-09-23 2022-09-23 计及深度强化学习的热电联产机组多工况自适应控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211166934.3A CN115421390A (zh) 2022-09-23 2022-09-23 计及深度强化学习的热电联产机组多工况自适应控制方法

Publications (1)

Publication Number Publication Date
CN115421390A true CN115421390A (zh) 2022-12-02

Family

ID=84205113

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211166934.3A Pending CN115421390A (zh) 2022-09-23 2022-09-23 计及深度强化学习的热电联产机组多工况自适应控制方法

Country Status (1)

Country Link
CN (1) CN115421390A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118011780A (zh) * 2024-04-08 2024-05-10 钛玛科(北京)工业科技有限公司 一种基于pid的锂电辊压分切机的控制方法及系统
CN118011780B (zh) * 2024-04-08 2024-06-11 钛玛科(北京)工业科技有限公司 一种基于pid的锂电辊压分切机的控制方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118011780A (zh) * 2024-04-08 2024-05-10 钛玛科(北京)工业科技有限公司 一种基于pid的锂电辊压分切机的控制方法及系统
CN118011780B (zh) * 2024-04-08 2024-06-11 钛玛科(北京)工业科技有限公司 一种基于pid的锂电辊压分切机的控制方法及系统

Similar Documents

Publication Publication Date Title
Li et al. Coordinated load frequency control of multi-area integrated energy system using multi-agent deep reinforcement learning
CN111443681B (zh) 超临界火电机组协调控制系统多模型预测控制设计方法
CN110285403B (zh) 基于被控参数预估的主蒸汽温度控制方法
CN108490790A (zh) 一种基于多目标优化的过热汽温自抗扰串级控制方法
CN111290282B (zh) 火电机组协调系统的预见式预测控制方法
Dong et al. Nonlinear observer-based feedback dissipation load-following control for nuclear reactors
CN105700357B (zh) 基于多变量pid-pfc的锅炉燃烧系统控制方法
Zou et al. Design of intelligent nonlinear robust controller for hydro-turbine governing system based on state-dynamic-measurement hybrid feedback linearization method
Hou et al. Application of multi-agent EADRC in flexible operation of combined heat and power plant considering carbon emission and economy
CN113189871B (zh) 一种面向火电机组灵活性运行的协调控制策略
CN115421390A (zh) 计及深度强化学习的热电联产机组多工况自适应控制方法
CN113282043A (zh) 基于多变量状态空间模型的超超临界机组协调控制方法
Ma et al. ANN and PSO based intelligent model predictive optimal control for large-scale supercritical power unit
CN113110628A (zh) 基于pso的压水堆除氧器水位控制方法
Ma et al. Inverse control for the coordination system of supercritical power unit based on dynamic fuzzy neural network modeling
CN113467237B (zh) 基于深度学习的主蒸汽温度的动态建模方法
CN113391552B (zh) 一种提高火电机组灵活性运行的级联自适应容积卡尔曼自抗扰控制方法
Tu et al. State variable-fuzzy prediction control strategy for superheated steam temperature of thermal power units
CN111273563B (zh) 一种基于供热机组agc综合指标的预测控制方法
CN118011805A (zh) 基于数据驱动和Tube优化的超超临界机组模型预测控制方法
Zhu et al. Cooperative control of NN super twisting sliding mode and EPH methods for uncertain nonlinear systems
Wang PID control of evaporation temperature control system based on fuzzy RBF neural network
Zhiguang et al. Application of feedforward predictive control in DC furnace coordination system
Li et al. Research on pressure and water level control of the pressurizer for marine nuclear power plant based on multivariable MPC
Xiao et al. Design of Liquid Level Control System of Steam Generator Based on Neural Network PID Controller

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination