CN115933410B - 一种基于q学习的双时间尺度燃煤发电系统最优跟踪控制方法 - Google Patents

一种基于q学习的双时间尺度燃煤发电系统最优跟踪控制方法 Download PDF

Info

Publication number
CN115933410B
CN115933410B CN202310024334.1A CN202310024334A CN115933410B CN 115933410 B CN115933410 B CN 115933410B CN 202310024334 A CN202310024334 A CN 202310024334A CN 115933410 B CN115933410 B CN 115933410B
Authority
CN
China
Prior art keywords
power generation
fired power
coal
control
generation system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310024334.1A
Other languages
English (en)
Other versions
CN115933410A (zh
Inventor
刘晓敏
余梦君
李福星
李博论
杨春雨
周林娜
王浩宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Original Assignee
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT filed Critical China University of Mining and Technology CUMT
Priority to CN202310024334.1A priority Critical patent/CN115933410B/zh
Publication of CN115933410A publication Critical patent/CN115933410A/zh
Application granted granted Critical
Publication of CN115933410B publication Critical patent/CN115933410B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于Q学习的双时间尺度燃煤发电系统最优跟踪控制方法,包括:将燃煤发电系统建模为双时间尺度系统;将燃煤发电最优跟踪控制问题转化为降阶增广误差系统的调节问题;引入连续单调有界奇函数,将不对称输入约束在控制范围的中值附近进行对称转换;设计不加额外惩罚项的性能指标函数,将约束控制问题转变为无约束控制问题;根据从原始燃煤发电系统采样获取的信息更新状态‑动作值函数,提出Q学习算法,利用单个评价神经网络近似Q函数,通过最小二乘法更新神经网络权值,运用策略梯度下降法设计自适应降阶控制器。本发明通过利用奇异摄动理论和系统运行数据解决了燃煤发电系统优化控制中的难以精确建模、非对称输入约束等难题。

Description

一种基于Q学习的双时间尺度燃煤发电系统最优跟踪控制 方法
技术领域
本发明涉及燃煤发电系统数据驱动控制领域,主要涉及一种基于Q学习的双时间尺度燃煤发电系统最优跟踪控制方法。
背景技术
随着能源消耗不断提升,“新能源+火力发电+储能”成为未来能源来源主要发展方向。燃煤发电是可备可储能源的重要来源,其灵活优化控制对于电网安全稳定运行非常关键。现有燃煤发电控制基于模型预测控制法、线性二次型调节法等。模型预测控制作为工业界一种先进的控制优化技术,为处理燃煤发电非线性系统提供一种解决方案。近年来,有学者提出对输入凸神经网络进行优化、将遗传算法引入传统模型预测控制算法以及利用多线性化模型来简化系统模型开发经济约束预测控制等方案来解决锅炉-汽轮机控制问题。此外,采用线性二次型调节器对控制动作限制,在满足控制饱和约束下,也可实现H下燃煤发电系统稳定性和保性能要求。然而,这些方法都依赖系统完整模型,模型建立精准与否会大大影响优化结果。对于过程繁杂、建模困难的燃煤发电系统的优化控制问题,这些方法存在控制器设计复杂、应对参数不确定及外部干扰鲁棒性差等缺点。
强化学习,又称自适应动态规划,作为一种数据驱动的人工智能算法,近年来吸引着控制领域学者的目光,可用于解决模型未知系统的优化控制问题。虽已有学者提出基于自适应动态规划的燃煤发电控制方法,但没有考虑燃煤发电系统的双时间尺度特性。针对原始高阶燃煤发电系统所设计的控制器维数较高,形式复杂。奇异摄动理论是处理双时间尺度系统控制问题的有效工具。因此,将奇异摄动理论和强化学习相结合是解决燃煤发电系统的优化控制问题的可行思路,目前仍有待开发。同时强化学习本身框架不易于处理输入约束问题,一般通过设置额外输入惩罚项进行约束控制,且大多集中于对称约束控制,对不对称的控制约束在设计控制器造成相当大的困难。
因此,迫切需要开发一种具有自学习能力的数据驱动控制方法,解决具有双时间尺度特性的非仿射非线性燃煤发电系统的优化控制问题。在满足生产过程非对称约束输入条件下,实现给定目标下燃煤发电系统的最优跟踪控制。
发明内容
本发明提供了一种基于Q学习的双时间尺度燃煤发电系统最优跟踪控制方法,解决含有未建模动态和不对称输入约束的燃煤发电系统最优跟踪控制问题,使得燃煤发电系统控制策略具有自适应、自学习能力,避免了设计双时间尺度系统控制器时容易发生的高维和病态数值问题,详见下文描述:
一种基于Q学习的双时间尺度燃煤发电系统最优跟踪控制方法,包括:
步骤1,将燃煤发电系统线性化,计算系统特征值进而确定快慢时间尺度参数,将燃煤发电系统建模为双时间尺度系统;
步骤2,利用奇异摄动理论,对双时间尺度燃煤发电系统进行快慢尺度分解得到降阶系统,以Ts为采样区间对降阶系统进行离散化,将原始燃煤发电系统最优跟踪控制问题转化为降阶增广误差系统的调节问题;
步骤3,通过引入连续单调有界奇函数作为对称约束函数,将不对称输入约束在控制范围的中值附近进行对称转换;
步骤4,设计不加额外惩罚项的性能指标函数,使其满足最优性能指标,将约束控制问题转变为无约束控制问题;
步骤5,根据从原始燃煤发电系统采样获取的信息更新状态-动作值函数,提出Q学习算法,利用单个评价神经网络近似Q函数,通过最小二乘法更新神经网络权值,运用策略梯度下降法设计自适应降阶控制器。
进一步的,步骤1具体包括如下内容:
步骤101,将燃煤发电系统进行线性化处理,计算系统特征值;
步骤102,计算系统特征值实部的最小值和最大值之比,确定时间尺度参数;
步骤103,将距离虚轴较远的特征值所对应的状态定义为快状态,将距离虚轴较近的特征值所对应的状态定义为慢状态,将燃煤发电系统转换为如下形式的双时间尺度系统
Figure BDA0004043949570000021
其中,x1,x2分别对应燃煤发电系统的慢、快变量,u是控制输入,0<ε<1为时间尺度参数,f,g为适当维数的向量或矩阵方程;
进一步的,步骤2具体包括如下内容;
步骤201,所述降阶系统为:
公式(1)中,令ε=0,得x2s=hs(x1s,us,t),那么
Figure BDA0004043949570000022
进一步,用x,u,f分别代换x1s,us,fs,将公式(2)重写为如下形式的降阶系统:
Figure BDA0004043949570000031
步骤202,离散化后的降阶系统形式如下:
x(k+1)=f(x(k),u(k)) (4)
其中,k为系统离散化后的时间序列。
步骤203,期望慢状态的跟踪轨迹由命令系统生成
r(k+1)=h(r(k)) (5)
其中h(r)是一个Lipschitz连续向量函数,h(0)=0。
跟踪误差动态可以表示为
e1(k+1)=f(e1(k)+r(k),u(k))-h(r(k)) (6)
其中,跟踪误差
Figure BDA0004043949570000032
步骤204,原始燃煤发电系统最优跟踪控制问题为:为系统(1)设计控制输入u(x1(k)),使得跟踪误差e(k1)最小化并使性能指标最小化。
步骤205,降阶增广误差系统如下
Figure BDA0004043949570000033
其中,增广系统状态
Figure BDA0004043949570000034
步骤206,降阶增广误差系统的调节问题为:为系统(7)设计控制输入u(k),使得如下性能指标最小
Figure BDA0004043949570000035
其中,0<γ≤1是折扣因子,W(e)和R(u)正定函数。
进一步的,步骤3具体包括如下内容;
步骤301,不对称输入约束控制范围设计如下:
(1)选择控制不对称动作vj约束范围为:
Figure BDA0004043949570000036
其中j=1,2,…,m,
Figure BDA0004043949570000037
m为不对称动作约束的个数。
(2)则控制输入的第j个可控区间长度有
Figure BDA0004043949570000038
(3)对应有不对称输入约束控制范围常数对角矩阵
Figure BDA0004043949570000041
步骤302,不对称输入约束在控制范围的中值为
Figure BDA0004043949570000042
步骤303,连续单调有界奇函数作为对称约束函数为:
Figure BDA0004043949570000043
并且
Figure BDA0004043949570000044
为一阶导数有界的单调递增奇函数且满足/>
Figure BDA0004043949570000045
步骤304,不对称输入约束在控制范围的中值附近进行对称转换,具体为:
Figure BDA0004043949570000046
其中v,
Figure BDA0004043949570000047
Figure BDA0004043949570000048
即无约束非对称输入u进行对称化约束后的结果,很容易推导出非对称约束控制满足约束范围/>
Figure BDA0004043949570000049
进一步的,步骤4具体包括如下内容;
步骤401,对于约束控制系统,则系统可以表示为:
x(k+1)=f(x(k),v) (15)
步骤402,约束控制策略对应增广系统转变为
Figure BDA00040439495700000410
步骤403,不加额外惩罚项的性能指标函数如下
Figure BDA00040439495700000411
其中,0<γ≤1是折扣因子,W(e)和R(v)正定函数,且
Figure BDA00040439495700000412
步骤404,将约束控制问题转变为无约束控制问题,具体为:
(1)性能指标(8)和(18)同时达到最小,则约束最优控制问题转换为无约束最优控制问题,无约束最优控制对应为
Figure BDA00040439495700000413
(2)从(14)和(19)中,约束最优控制设计为
Figure BDA0004043949570000051
进一步的,步骤5具体包括如下内容;
步骤501,更新状态-动作值函数,具体如下:
(1)对于稳定的控制策略u(y),将其值函数定义为
Figure BDA0004043949570000052
其中Vu(0)=0,且y中所涉及的x(k)由原始燃煤发电系统的慢状态测量值x1(k)重构得到。
(2)得到关于状态价值函数的贝尔曼方程
Figure BDA0004043949570000053
(3)引入状态-动作函数,对于可控u(y),满足Qu(y(k),u)=Vu(y(k)),改写Q值为
Figure BDA0004043949570000054
其中Qu(y,a)=0。
(4)最优控制策略下跟踪HJB方程为
Q*(y(k),a)=R(y(k),a)+γQ*(y(k+1),u(k))(24)
(5)最优控制策略u*(y)为
Figure BDA0004043949570000055
步骤502,利用评价神经网络来近似估计未知Q函数Q(y,a),近似Q函数
Figure BDA0004043949570000056
可以由下式给出:
Figure BDA0004043949570000057
其中
Figure BDA0004043949570000058
是理想神经网络权值向量θ的估计,/>
Figure BDA0004043949570000059
Figure BDA00040439495700000510
是神经网络的临界激活函数向量。
步骤503,Q学习算法,具体如下
(1)(策略评估)根据(23),可以通过采样信息对Q值进行迭代更新
Figure BDA00040439495700000511
其中i为迭代次数,i=0,1,2,…。
(2)(策略提升)对于
Figure BDA00040439495700000615
基于梯度下降法,我们有
Figure BDA0004043949570000061
其中α>0,表示步长,在
Figure BDA0004043949570000062
提升后,令i=i+1。重复(27)(28)直到收敛。
步骤504,利用从原始燃煤发电系统采样获取的数据更新评价网络权重,具体为:
(1)定义
Figure BDA0004043949570000063
为通过传感器测量得到的燃煤发电系统真实数据集,其大小为M,则误差残差为
Figure BDA0004043949570000064
(2)最小化如下残差
Figure BDA0004043949570000065
由最小二乘法更新
Figure BDA0004043949570000066
如下
Figure BDA0004043949570000067
其中,
Figure BDA0004043949570000069
Figure BDA00040439495700000610
步骤505,利用策略梯度下降法设计自适应降阶控制器,具体为:
(1)收敛后,评价神经网络权值向量记为θc,从(26)可知收敛后Q函数表示为
Figure BDA00040439495700000611
根据(25),给出了跟踪控制律
Figure BDA00040439495700000612
(2)根据(32),采用策略梯度下降法得到自适应跟踪控制策略为
Figure BDA00040439495700000613
(3)根据(14),带有约束的控制输入为
Figure BDA00040439495700000614
本发明提供的技术方案的有益效果是:
1)本发明针对具有非对称输入约束的无模型非仿射非线性离散系统,考虑数学模型难以精准构建、非对称输入约束等众多挑战,设计了一种基于单评价结构的燃煤电厂最优设定值跟踪控制控制方法,可以实现数据驱动的非对称控制约束的自适应设定值跟踪控制,相比已有的燃煤发电系统最优控制方法,更具自学习能力;
2)引入连续单调有界奇函数作为对称约束函数,将不对称输入约束在控制范围的中值附近进行对称转换,进一步设计了不加额外惩罚项的性能指标函数机制,解决了非对称输入约束最优控制问题。
3)将奇异摄动理论和强化学习算法用于燃煤发电控制中,针对降阶燃煤发电系统设计Q学习最优跟踪控制算法,不仅将Q学习算法推广到具有双时间尺度特性的燃煤发电控制系统中,设计了降阶控制器,避免了高维和病态数值问题,且算法实现过程仅利用单个评价网络,易于实现,适用性更广。
附图说明
图1是基于Q学习的双时间尺度燃煤发电系统最优跟踪控制框架图;
图2是评价神经网络权值θ迭代过程神经网络权重示意图;
图3是非对称约束控制输入曲线图;
图4是慢状态x1的状态轨迹以及误差e1曲线图。
图5是慢状态x3的状态轨迹以及误差e3曲线图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
本发明的一种基于Q学习的双时间尺度燃煤发电系统最优跟踪控制方法,如图1所示,该方法包括如下步骤:
步骤1,将燃煤发电系统线性化,计算系统特征值进而确定快慢时间尺度参数,将燃煤发电系统建模为双时间尺度系统;
步骤101,将燃煤发电系统进行线性化处理,计算系统特征值;
步骤102,计算系统特征值实部的最小值和最大值之比,确定时间尺度参数;
步骤103,将距离虚轴较远的特征值所对应的状态定义为快状态,将距离虚轴较近的特征值所对应的状态定义为慢状态,将燃煤发电系统转换为如下形式的双时间尺度系统
Figure BDA0004043949570000081
其中,x1,x2分别对应燃煤发电系统的慢、快变量,u是控制输入,0<ε<1为时间尺度参数,f,g为适当维数的向量或矩阵方程。
步骤2,利用奇异摄动理论,对双时间尺度燃煤发电系统进行快慢尺度分解得到降阶系统,以Ts为采样区间对降阶系统进行离散化,将原始燃煤发电系统最优跟踪控制问题转化为降阶增广误差系统的调节问题;具体内容如下:
步骤201,利用奇异摄动理论,对燃煤发电系统进行快慢尺度分解得到降阶系统,降阶系统为:
公式(1)中,令ε=0,得x2s=hs(x1s,us,t),那么
Figure BDA0004043949570000082
进一步,用x,u,f分别代换x1s,us,fs,将公式(2)重写为如下形式的降阶系统:
Figure BDA0004043949570000083
步骤202,以Ts为采样区间对降阶系统进行离散化,离散化后的降阶系统形式如下:
x(k+1)=f(x(k),u(k)) (4)
其中,k为系统离散化后的时间序列。
步骤203,期望慢状态的跟踪轨迹由命令系统生成
r(k+1)=h(r(k)) (5)
其中h(r)是一个Lipschitz连续向量函数,h(0)=0。
跟踪误差动态可以表示为
e1(k+1)=f(e1(k)+r(k),u(k))-h(r(k)) (6)
其中,跟踪误差
Figure BDA0004043949570000084
步骤204,原始燃煤发电系统最优跟踪控制问题为:为系统(1)设计控制输入u(x1(k)),使得跟踪误差e(k1)最小化并使性能指标最小化。
步骤205,降阶增广误差系统如下
Figure BDA0004043949570000085
其中,增广系统状态
Figure BDA0004043949570000086
步骤206,将原始燃煤发电系统最优跟踪控制问题转化为降阶增广误差系统的调节问题为:为系统(7)设计控制输入u(k),使得如下性能指标最小
Figure BDA0004043949570000091
其中,0<γ≤1是折扣因子,W(e)和R(u)正定函数。
步骤3,通过引入连续单调有界奇函数作为对称约束函数,将不对称输入约束在控制范围的中值附近进行对称转换;
步骤301,所述不对称输入约束控制范围设计如下:
(1)选择控制不对称动作vj约束范围为:
Figure BDA0004043949570000092
其中j=1,2,…,m,
Figure BDA0004043949570000093
m为不对称动作约束的个数。
(2)则控制输入的第j个可控区间长度有
Figure BDA0004043949570000094
(3)对应有不对称输入约束控制范围常数对角矩阵
Figure BDA0004043949570000095
步骤302,不对称输入约束在控制范围的中值为
Figure BDA0004043949570000096
步骤303,连续单调有界奇函数作为对称约束函数为:
Figure BDA0004043949570000097
并且
Figure BDA0004043949570000098
为一阶导数有界的单调递增奇函数且满足/>
Figure BDA0004043949570000099
步骤304,所述不对称输入约束在控制范围的中值附近进行对称转换,具体为:
Figure BDA00040439495700000910
其中
Figure BDA00040439495700000911
Figure BDA00040439495700000912
即无约束非对称输入/>
Figure BDA00040439495700000913
进行对称化约束后的结果,很容易推导出非对称约束控制满足约束范围/>
Figure BDA00040439495700000914
步骤4,设计不加额外惩罚项的性能指标函数,使其满足最优性能指标,将约束控制问题转变为无约束控制问题;
步骤401,对于约束控制系统,则系统可以表示为:
x(k+1)=f(x(k),v) (15)
步骤402,约束控制策略对应增广系统转变为
Figure BDA0004043949570000101
步骤403,不加额外惩罚项的性能指标函数如下
Figure BDA0004043949570000102
其中,0<γ≤1是折扣因子,W(e)和R(v)正定函数,且
Figure BDA0004043949570000103
步骤404,所述将约束控制问题转变为无约束控制问题,具体为:
(1)性能指标(8)和(18)同时达到最小,则约束最优控制问题转换为无约束最优控制问题,无约束最优控制对应为
Figure BDA0004043949570000104
(2)从(14)和(19)中,约束最优控制设计为
Figure BDA0004043949570000105
步骤5,根据从原始燃煤发电系统采样获取的信息更新状态-动作值函数,提出Q学习算法,利用单个评价神经网络近似Q函数,通过最小二乘法更新神经网络权值,运用策略梯度下降法设计自适应降阶控制器,具体步骤如下:
步骤501,根据从原始燃煤发电系统采样获取的信息更新状态-动作值函数,具体如下:
(1)对于稳定的控制策略u(y),将其值函数定义为
Figure BDA0004043949570000106
其中Vu(0)=0,且y中所涉及的x(k)由原始燃煤发电系统的慢状态测量值x1(k)重构得到。
(2)得到关于状态价值函数的贝尔曼方程
Figure BDA0004043949570000107
(3)引入状态-动作函数,对于可控u(y),满足Qu(y(k),u)=Vu(y(k)),改写Q值为
Figure BDA0004043949570000111
其中Qu(y,a)=0。
(4)最优控制策略下跟踪HJB方程为
Figure BDA00040439495700001113
(5)最优控制策略u*(y)为
Figure BDA0004043949570000112
步骤502,所述利用评价神经网络来近似估计未知Q函数Q(y,a),近似Q函数
Figure BDA0004043949570000113
可以由下式给出:
Figure BDA0004043949570000114
其中
Figure BDA0004043949570000115
是理想神经网络权值向量θ的估计,/>
Figure BDA0004043949570000116
Figure BDA0004043949570000117
是神经网络的临界激活函数向量。
步骤503,所述Q学习算法,具体如下
(1)(策略评估)根据(23),可以通过采样信息对Q值进行迭代更新
Figure BDA0004043949570000118
其中i为迭代次数,i=0,1,2,…。
(2)(策略提升)对于
Figure BDA00040439495700001114
基于梯度下降法,有
Figure BDA0004043949570000119
其中α>0,表示步长,在
Figure BDA00040439495700001110
提升后,令i=i+1。重复(27)(28)直到收敛。
步骤504,所述利用从原始燃煤发电系统采样获取的数据更新评价网络权重,具体为:
(1)定义
Figure BDA00040439495700001111
为通过传感器测量得到的燃煤发电系统真实数据集,其大小为M,则误差残差为
Figure BDA00040439495700001112
(2)最小化如下残差
Figure BDA0004043949570000121
由最小二乘法更新
Figure BDA00040439495700001210
如下
Figure BDA0004043949570000122
其中,
Figure BDA0004043949570000123
Figure BDA0004043949570000124
步骤505,所述利用策略梯度下降法设计自适应降阶控制器,具体为:
(4)收敛后,评价神经网络权值向量记为θc,从(26)可知收敛后Q函数表示为
Figure BDA0004043949570000125
根据(25),给出了跟踪控制律
Figure BDA0004043949570000126
(5)根据(32),采用策略梯度下降法得到自适应跟踪控制策略为
Figure BDA0004043949570000127
(6)根据(14),带有约束的控制输入为
Figure BDA0004043949570000128
本发明方法适用于多种运行工况下的燃煤发电系统。为使本领域技术人员更好的理解本发明,下面结合具体实施例,对基于Q学习的双时间尺度燃煤发电系统最优跟踪控制方法进行详细说明。
考虑如下非线性锅炉-汽轮机燃煤发电系统:
Figure BDA0004043949570000129
其中x1、x2、x3分别为汽包压力(kg/cm2)、电功率(MW)、汽水密度(kg/cm3);u1、u2、u3分别为燃料流量、蒸汽流量、给水流量控制阀的阀门开度。
对其在给定参考值xr=[121,90,389.92],vr=[0.4385,0.7787,0.5720]作为平衡点进行线性化,可得x1、x2、x3分别对应特征值0、-0.1000、-0.0029,将距离虚轴较远的特征值所对应的状态定义为快状态,将距离虚轴较近的特征值所对应的状态定义为慢状态,可知x2为快变量,所得降阶系统为
Figure BDA0004043949570000131
以采样间隔Ts进行离散化,得锅炉-汽轮机系统:
Figure BDA0004043949570000132
在设计基于Q学习的双时间尺度燃煤发电系统最优跟踪控制器时,引入单个评价神经网络。采样间隔Ts=0.5s。初始态和目标态分别为x(0)=[102,438.93]T和xr=[121,389.92]T,初始和稳态控制输入分别为v(0)=[0.3102,0.6711,0.3967]T和vr=[0.4385,0.7787,0.5720]T给定目标值为xr=[121,389.92]T。然后,由控制约束可以得出控制输入v(k)的上界为[1.0,1.0,1.0]T。性能指标函数构造为
Figure BDA0004043949570000133
Figure BDA0004043949570000134
折扣系数γ=0.99。
评价网络的激活函数向量为:
Figure BDA0004043949570000135
最终神经网络权值收敛值θc为:
[0.8873,0.0615,-1.1607,-1.5864,0.7002,-0.1589,-0.0220,0.5594,-2.3948,0.0232,-0.0227,0.7638,28.6670,-1.2661,8.5267,-2.7539,51.8880,-0.4968,0.6076,0.0756,1.4737,20.9530,1.5589,-0.9128,0.0806,0.2357]T
设置迭代终止阈值为10-4,经过51次迭代后,系统评价神经网络已经收敛,迭代过程如图2所示。对非对称约束控制下,系统输入变量v变化轨迹如图3所示。慢变量x1、x3的状态轨迹以及误差曲线分别如图4和图5所示,可知系统最终能够实现对给定目标值的跟踪。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种基于Q学习的双时间尺度燃煤发电系统最优跟踪控制方法,其特征在于,包括如下步骤:
步骤1,将燃煤发电系统线性化,计算系统特征值进而确定快慢时间尺度参数,将燃煤发电系统建模为双时间尺度系统,具体包括如下步骤:
步骤101,将燃煤发电系统进行线性化处理,计算系统特征值;
步骤102,计算系统特征值实部的最小值和最大值之比,确定时间尺度参数;
步骤103,将距离虚轴较远的特征值所对应的状态定义为快状态,将距离虚轴较近的特征值所对应的状态定义为慢状态,将燃煤发电系统转换为如下形式的双时间尺度系统
Figure FDA0004211908220000011
其中,x1,x2分别对应燃煤发电系统的慢、快变量,u是控制输入,0<ε<1为时间尺度参数,f,g为适当维数的向量或矩阵方程;
步骤2,利用奇异摄动理论,对双时间尺度燃煤发电系统进行快慢尺度分解得到降阶系统,以Ts为采样区间对降阶系统进行离散化,将原始燃煤发电系统最优跟踪控制问题转化为降阶增广误差系统的调节问题,具体包括如下步骤;
步骤201,利用奇异摄动理论,对燃煤发电系统进行快慢尺度分解得到降阶系统,所述降阶系统为:
公式(1)中,令ε=0,得x2s=hs(x1s,us,t),那么
Figure FDA0004211908220000012
进一步,用x,u,f分别代换x1s,us,fs,将公式(2)重写为如下形式的降阶系统:
Figure FDA0004211908220000013
步骤202,以Ts为采样区间对降阶系统进行离散化,离散化后的降阶系统形式如下:
x(k+1)=f(x(k),u(k)) (4)
其中,k为系统离散化后的时间序列;
步骤203,期望慢状态的跟踪轨迹由命令系统生成
r(k+1)=h(r(k)) (5)
其中h(r)是一个Lipschitz连续向量函数,h(0)=0;
跟踪误差动态表示为e1(k+1)=f(e1(k)+r(k),u(k))-h(r(k)) (6)
其中,跟踪误差
Figure FDA0004211908220000021
步骤204,原始燃煤发电系统最优跟踪控制问题为:为系统(1)设计控制输入u(x1(k)),使得跟踪误差e(k1)最小化并使性能指标最小化;
步骤205,降阶增广误差系统如下
Figure FDA0004211908220000022
其中,增广系统状态
Figure FDA0004211908220000023
e(k)=x(k)-r(k);
步骤206,将原始燃煤发电系统最优跟踪控制问题转化为降阶增广误差系统的调节问题为:为系统(7)设计控制输入u(k),使得如下性能指标最小
Figure FDA0004211908220000024
其中,0<γ≤1是折扣因子,W(e)和R(u)正定函数;
步骤3,通过引入连续单调有界奇函数作为对称约束函数,将不对称输入约束在控制范围的中值附近进行对称转换,具体包括如下内容:
步骤301,所述不对称输入约束控制范围设计如下:
(1)选择控制不对称动作vj约束范围为:
Figure FDA0004211908220000025
其中j=1,2,…,m,
Figure FDA0004211908220000026
m为不对称动作约束的个数;
(2)则控制输入的第j个可控区间长度有
Figure FDA0004211908220000027
(3)对应有不对称输入约束控制范围常数对角矩阵
Figure FDA0004211908220000028
步骤302,不对称输入约束在控制范围的中值为
Figure FDA0004211908220000029
步骤303,连续单调有界奇函数作为对称约束函数为:
Figure FDA00042119082200000210
并且
Figure FDA0004211908220000031
为一阶导数有界的单调递增奇函数且满足/>
Figure FDA0004211908220000032
步骤304,所述不对称输入约束在控制范围的中值附近进行对称转换,具体为:
Figure FDA0004211908220000033
其中
Figure FDA0004211908220000034
Figure FDA0004211908220000035
即无约束非对称输入u进行对称化约束后的结果,很容易推导出非对称约束控制满足约束范围/>
Figure FDA0004211908220000036
步骤4,设计不加额外惩罚项的性能指标函数,使其满足最优性能指标,将约束控制问题转变为无约束控制问题;
步骤5,根据从原始燃煤发电系统采样获取的信息更新状态-动作值函数,提出Q学习算法,利用单个评价神经网络近似Q函数,通过最小二乘法更新神经网络权值,运用策略梯度下降法设计自适应降阶控制器,具体包括如下内容:
步骤501,根据从原始燃煤发电系统采样获取的信息更新状态-动作值函数,具体如下:
(1)对于稳定的控制策略u(y),将其值函数定义为
Figure FDA0004211908220000037
其中Vu(0)=0,且y中所涉及的x(k)由原始燃煤发电系统的慢状态测量值x1(k)重构得到;
(2)得到关于状态价值函数的贝尔曼方程
Figure FDA0004211908220000038
(3)引入状态-动作函数,对于可控u(y),满足Qu(y(k),u)=Vu(y(k)),改写Q值为
Figure FDA0004211908220000039
其中Qu(y,a)=0;
(4)最优控制策略下跟踪HJB方程为
Figure FDA00042119082200000310
(5)最优控制策略u*(y)为
Figure FDA00042119082200000311
步骤502,所述利用评价神经网络来近似估计未知Q函数Q(y,a),近似Q函数
Figure FDA0004211908220000041
由下式给出:
Figure FDA0004211908220000042
其中
Figure FDA0004211908220000043
是理想神经网络权值向量θ的估计,/>
Figure FDA0004211908220000044
Figure FDA0004211908220000045
是神经网络的临界激活函数向量;
步骤503,所述Q学习算法,具体如下
(1)根据式(23),通过采样信息对Q值进行迭代更新
Figure FDA0004211908220000046
其中i为迭代次数,i=0,1,2,…;
(2)对于
Figure FDA0004211908220000047
基于梯度下降法,有
Figure FDA0004211908220000048
其中α>0,表示步长,在
Figure FDA0004211908220000049
提升后,令i=i+1;重复式(27)(28)直到收敛;
步骤504,所述利用从原始燃煤发电系统采样获取的数据更新评价网络权重,具体为:
(1)定义
Figure FDA00042119082200000410
为通过传感器测量得到的燃煤发电系统真实数据集,其大小为M,则误差残差为
Figure FDA00042119082200000411
(2)最小化如下残差
Figure FDA00042119082200000412
由最小二乘法更新
Figure FDA00042119082200000413
如下
Figure FDA00042119082200000414
其中,
Figure FDA00042119082200000415
Figure FDA00042119082200000416
步骤505,所述利用策略梯度下降法设计自适应降阶控制器,具体为:
(1)收敛后,评价神经网络权值向量记为θc,从式(26)可知收敛后Q函数表示为
Figure FDA0004211908220000051
根据式(25),给出了跟踪控制律
Figure FDA0004211908220000052
(2)根据式(32),采用策略梯度下降法得到自适应跟踪控制策略为
Figure FDA0004211908220000053
(3)根据式(14),带有约束的控制输入为
Figure FDA0004211908220000054
2.根据权利要求1所述一种基于Q学习的双时间尺度燃煤发电系统最优跟踪控制方法,其特征在于,步骤4具体包括如下内容:
步骤401,对于约束控制系统,则系统表示为:
x(k+1)=f(x(k),v) (15)
步骤402,约束控制策略对应增广系统转变为
Figure FDA0004211908220000055
步骤403,不加额外惩罚项的性能指标函数如下
Figure FDA0004211908220000056
其中,0<γ≤1是折扣因子,W(e)和R(v)正定函数,且
Figure FDA0004211908220000057
步骤404,所述将约束控制问题转变为无约束控制问题,具体为:
(1)性能指标(8)和(18)同时达到最小,则约束最优控制问题转换为无约束最优控制问题,无约束最优控制对应为
Figure FDA0004211908220000058
(2)从(14)和(19)中,约束最优控制设计为
Figure FDA0004211908220000059
CN202310024334.1A 2023-01-09 2023-01-09 一种基于q学习的双时间尺度燃煤发电系统最优跟踪控制方法 Active CN115933410B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310024334.1A CN115933410B (zh) 2023-01-09 2023-01-09 一种基于q学习的双时间尺度燃煤发电系统最优跟踪控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310024334.1A CN115933410B (zh) 2023-01-09 2023-01-09 一种基于q学习的双时间尺度燃煤发电系统最优跟踪控制方法

Publications (2)

Publication Number Publication Date
CN115933410A CN115933410A (zh) 2023-04-07
CN115933410B true CN115933410B (zh) 2023-07-07

Family

ID=86550741

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310024334.1A Active CN115933410B (zh) 2023-01-09 2023-01-09 一种基于q学习的双时间尺度燃煤发电系统最优跟踪控制方法

Country Status (1)

Country Link
CN (1) CN115933410B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116755409B (zh) * 2023-07-04 2024-01-12 中国矿业大学 一种基于值分布ddpg算法的燃煤发电系统协调控制方法
CN118192249B (zh) * 2024-04-10 2024-08-09 中国矿业大学 一种基于经验导向q学习的锅炉汽轮机系统负荷控制方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108964544A (zh) * 2018-07-23 2018-12-07 中国矿业大学 一种永磁直线同步电机双时间尺度滑模控制系统及方法
CN112720456A (zh) * 2020-12-02 2021-04-30 重庆大学 基于双时间尺度的柔性关节柔性杆机械臂控制方法及系统
CN112987573A (zh) * 2021-02-26 2021-06-18 中国计量大学 基于离策强化学习的小车倒立摆系统的鲁棒最优控制方法
CN115453884A (zh) * 2022-09-30 2022-12-09 辽宁石油化工大学 一种基于强化学习的多时间尺度系统最优跟踪控制方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108964544A (zh) * 2018-07-23 2018-12-07 中国矿业大学 一种永磁直线同步电机双时间尺度滑模控制系统及方法
CN112720456A (zh) * 2020-12-02 2021-04-30 重庆大学 基于双时间尺度的柔性关节柔性杆机械臂控制方法及系统
CN112987573A (zh) * 2021-02-26 2021-06-18 中国计量大学 基于离策强化学习的小车倒立摆系统的鲁棒最优控制方法
CN115453884A (zh) * 2022-09-30 2022-12-09 辽宁石油化工大学 一种基于强化学习的多时间尺度系统最优跟踪控制方法

Non-Patent Citations (10)

* Cited by examiner, † Cited by third party
Title
Adaptive composite suboptimal control for linear singularly perturbed systems with unknown slow dynamics;Chunyu Yang,等;Int J Robust Nonlinear Control;第30卷;2625–2643 *
Adaptive Neural Partial State Tracking Control for Full-State-Constrained Uncertain Singularly Perturbed Nonlinear Systems and Its Applications to Electric Circuit;Hao Wang,等;electronics;第11卷;1-13 *
Global asymptotic stability analysis of two-time-scale competitive neural networks with time-varying delays;Xiaomin Liu,等;Neurocomputing;357–366 *
Machine learning-aided optimization of coal decoupling combustion for lowering NO and CO emissions simultaneously;Nani Jin,等;Machine learning-aided optimization of coal decoupling combustion for lowering NO and CO emissions simultaneously;第162卷;1-11 *
New Methods for Optimal Operational Control of Industrial Processes Using Reinforcement Learning on Two Time Scales;Wenqian Xue,等;IEEE TRANSACTIONS ON INDUSTRIAL INFORMATICS;第16卷(第5期);3085-3099 *
SINGULAR PERTURBATION METHOD APPLIED TO THE OPEN-LOOP DISCRETE OPTIMAL CONTROL PROBLEM;A. KAILASA RAO ,D. s. NAIDU;OPTIMAL CONTROL APPLICATIONS & METHODS;第3卷;121-131 *
一种多时间尺度电力系统奇异摄动模型的推导;陈勇;广东电力;9-12 *
双时间尺度电力系统动态模型降阶研究(一)—电力系统奇异摄动模型;刘永强,等;电力系统自动化;1-5 *
基于不完整测量信息的奇异摄动系统的滤波与控制;闫艺芳;中国博士学位论文全文数据库;全文 *
非线性双时间尺度系统自学习优化控制;刘晓敏;中国博士学位论文全文数据库;全文 *

Also Published As

Publication number Publication date
CN115933410A (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN115933410B (zh) 一种基于q学习的双时间尺度燃煤发电系统最优跟踪控制方法
Na et al. Nonlinear constrained optimal control of wave energy converters with adaptive dynamic programming
Wang et al. Adaptive dynamic programming: An introduction
CN109062053B (zh) 一种基于多变量校正的脱硝喷氨控制方法
CN110285403B (zh) 基于被控参数预估的主蒸汽温度控制方法
Huang et al. LSTM-MPC: A deep learning based predictive control method for multimode process control
CN114839880B (zh) 一种基于柔性关节机械臂的自适应控制方法
CN102494336A (zh) 一种循环流化床锅炉燃烧过程多变量控制方法
CN116755409B (zh) 一种基于值分布ddpg算法的燃煤发电系统协调控制方法
CN107065556A (zh) 一种堆芯机组变功率运行策略优化方案的自动搜索方法
CN114784823A (zh) 基于深度确定性策略梯度的微电网频率控制方法及系统
CN113885328A (zh) 一种基于积分强化学习的核电功率跟踪控制方法
CN106843171B (zh) 一种基于数据驱动方式的运行优化控制方法
CN113868961A (zh) 一种基于自适应值迭代核电系统的功率跟踪控制方法
CN115986839A (zh) 一种风-水-火综合能源系统的智能调度方法及系统
CN105676645A (zh) 一种基于函数型权rbf-arx模型的双回路水箱液位预测控制方法
Zhou et al. RBF-ARX model-based robust MPC for nonlinear systems with unknown and bounded disturbance
Xu et al. Design of type-2 fuzzy fractional-order proportional-integral-derivative controller and multi-objective parameter optimization under load reduction condition of the pumped storage unit
CN114909706A (zh) 一种基于强化学习算法和压差控制的二级网平衡调控方法
Liu et al. Data learning‐based model‐free adaptive control and application to an NAO robot
CN116300755A (zh) 基于mpc的含储热的供热系统双层优化调度方法及装置
Feng et al. Nonlinear model predictive control for pumped storage plants based on online sequential extreme learning machine with forgetting factor
CN115327890A (zh) 一种改进型人群搜索算法优化pid控制火电深度调峰机组的主汽压力的方法
CN113189871B (zh) 一种面向火电机组灵活性运行的协调控制策略
CN112821554B (zh) 配电网信息物理系统及分布式经济调度反馈系数优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant