CN111637444A - 一种基于q学习的核电蒸汽发生器水位控制方法 - Google Patents

一种基于q学习的核电蒸汽发生器水位控制方法 Download PDF

Info

Publication number
CN111637444A
CN111637444A CN202010502742.XA CN202010502742A CN111637444A CN 111637444 A CN111637444 A CN 111637444A CN 202010502742 A CN202010502742 A CN 202010502742A CN 111637444 A CN111637444 A CN 111637444A
Authority
CN
China
Prior art keywords
steam generator
water level
water supply
learning
supply flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010502742.XA
Other languages
English (en)
Other versions
CN111637444B (zh
Inventor
齐义文
陈禹西
黄捷
李献领
张弛
岳文豪
邢宁
赵秀娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aerospace Promotion Suzhou Aerospace Technology Co ltd
Original Assignee
Shenyang Aerospace University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Aerospace University filed Critical Shenyang Aerospace University
Priority to CN202010502742.XA priority Critical patent/CN111637444B/zh
Publication of CN111637444A publication Critical patent/CN111637444A/zh
Application granted granted Critical
Publication of CN111637444B publication Critical patent/CN111637444B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F22STEAM GENERATION
    • F22DPREHEATING, OR ACCUMULATING PREHEATED, FEED-WATER FOR STEAM GENERATION; FEED-WATER SUPPLY FOR STEAM GENERATION; CONTROLLING WATER LEVEL FOR STEAM GENERATION; AUXILIARY DEVICES FOR PROMOTING WATER CIRCULATION WITHIN STEAM BOILERS
    • F22D5/00Controlling water feed or water level; Automatic water feeding or water-level regulators
    • F22D5/26Automatic feed-control systems
    • F22D5/34Applications of valves
    • GPHYSICS
    • G21NUCLEAR PHYSICS; NUCLEAR ENGINEERING
    • G21DNUCLEAR POWER PLANT
    • G21D3/00Control of nuclear power plant
    • G21D3/001Computer implemented control
    • G21D3/005Thermo-hydraulic simulations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E30/00Energy generation of nuclear origin

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Thermal Sciences (AREA)
  • Mechanical Engineering (AREA)
  • Plasma & Fusion (AREA)
  • High Energy & Nuclear Physics (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明提供一种基于Q学习的核电蒸汽发生器水位控制方法,属于核电控制与仿真技术领域,该方法包括:通过Q学习方法建立给水流量的动作值函数,根据控制指令和反馈参数,结合ε‑贪婪策略,得到适宜的蒸汽发生器给水流量;进一步,按所述给水流量对蒸汽发生器水位进行控制,并根据系统的反馈更新动作值函数。本发明能够在运行过程中,自主学习被控对象的特性,对给水流量动作值函数进行优化,从而实现传统控制方法难以实现的自学习和自寻优控制问题,使得随着学习时间的增加,水位控制效果不断改善,并且能够根据蒸汽发生器状况的改变及时做出调整,在一定程度上抑制设备老化对水位控制造成的影响,提高了蒸汽发生器的运行性能。

Description

一种基于Q学习的核电蒸汽发生器水位控制方法
技术领域
本发明属于核电控制与仿真技术领域,具体涉及一种基于Q学习的核电蒸汽发生器水位控制方法。
背景技术
蒸汽发生器是压水堆核电系统的重要组成部分,是核岛内三大设备之一。它将反应堆产生的热量传递给二次侧,产生的蒸汽经汽水分离器干燥后推动汽轮发电机发电。蒸汽发生器水位是核电系统运行的重要监视参数之一,直接影响核电系统的运行安全和蒸汽品质。
蒸汽发生器水位调节的目的,就是为了维持二次侧水位时刻满足安全运行需求,水位既不能过高,也不能过低,否则将给核电系统带来安全隐患,低负荷下蒸汽发生器水位失控导致的跳堆问题是造成安全事故的主要原因之一。因此,压水堆核电系统蒸汽发生器的水位控制尤为重要。非线性、时变性、“膨胀”和“收缩”等特性致使蒸汽发生器水位控制成为难题。传统PID控制器在水位控制过程中具有响应速度慢,变指令时震荡较大,难以抑制虚假水位等问题,难以在全功率范围内取得令人满意的性能品质。
近年来,出现了Q学习、SARSA、DQN等多种强化学习方法,用于解决智能体与环境之间的交互问题,交互过程中通过学习策略使回报最大化来实现特定目标。“试错”则是强化学习的核心思想,通过试错得到学习经验,从而能更好与外界环境交互。由于该方法随着学习时间的增长,学习经验越来越丰富,其响应能力也越来越快,引起了众多学者和工程技术人员的研究兴趣。很多基于Q学习的控制方法取得了很好的控制效果。然而,Q学习方法在蒸汽发生器控制及相关领域的应用却很少。
发明内容
针对现有技术存在的不足,本发明提供一种基于Q学习的核电蒸汽发生器水位控制方法,使得蒸汽发生器控制系统随学习时间的增长,水位控制效果不断改善,并且能够根据蒸汽发生器状况的改变即时做出调整,在一定程度上抑制设备老化对水位控制造成的影响,提高蒸汽发生器系统运行的稳定性。
为了实现上述目的,本发明所述一种基于Q学习的核电蒸汽发生器水位控制方法,根据水位误差、水位误差的导数,蒸汽流量,给水流量,蒸汽流量与给水流量的差值,通过Q学习方法得到核电蒸汽发生器给水流量的动作值函数,结合ε-贪婪策略,从而计算出适宜的蒸汽发生器给水流量,并按照所述给水流量对蒸汽发生器水位进行控制。
所述一种基于Q学习的核电蒸汽发生器水位控制方法,具体实现步骤如下:
步骤1:建立蒸汽发生器部件数学模型作为训练环境,创建二维表(Q表)对动作值函数Q(s,a)进行表示,其中,s为状态参数,a为给水流量;
步骤2:确定核电蒸汽发生器的当前时刻给水流量at
步骤2.1:获取蒸汽发生器当前的状态,计算当前时刻状态参数st
步骤2.2:将所述蒸汽发生器当前时刻状态参数st与给水流量a作为Q表的输入,查找所有可选择的给水流量a的价值,即Q值,利用ε-贪婪策略计算控制器输出,即当前时刻给水流量at
步骤3:将所述当前时刻给水流量at分配至给水阀门,实现蒸汽发生器的给水流量控制;
步骤4:更新动作值函数Q(s,a);
步骤4.1:获取蒸汽发生器下一时刻状态参数st+1,计算瞬时奖励值R;
步骤4.2:根据所述瞬时奖励值R对Q表在s=st,a=at处的值,即Q(st,at)进行更新;
步骤5:使用窗口平均方法计算控制获得的平均奖励值
Figure BDA0002525375190000021
若所述平均奖励值
Figure BDA0002525375190000022
小于设定的目标奖励值,令st=st+1,跳转至步骤2,进行迭代;否则,迭代结束,完成核电蒸汽发生器水位控制训练。
进一步地,所述步骤1中Q表大小为n×m,n为离散化后的状态总数,m为离散化的动作总数;Q表使用状态参数s与给水流量a作为索引,输出状态s下执行a的Q值。
进一步地,所述步骤2.1中核电蒸汽发生器状态包括:当前时刻的水位误差、当前时刻的水位误差的变化率、当前时刻的蒸汽流量、前一时刻的给水流量、当前时刻的蒸汽流量与当前时刻的给水流量差值,经过离散化后获得当前时刻状态参数st
进一步地,所述步骤2.2中利用的ε-贪婪策略如下:
Figure BDA0002525375190000023
其中,randoma是选择随机给水流量控制指令,
Figure BDA0002525375190000024
用于选择使Q值最大的给水流量a,rand是随机数,ε是随机因子,用于避免在训练动作值函数时发生过拟合。
进一步地,所述步骤4.1中的瞬时奖励值R定义如下:
Figure BDA0002525375190000025
其中,e表示蒸汽发生器的水位误差,
Figure BDA0002525375190000026
表示蒸汽发生器水位误差的变化率,x、y、z均为控制学习速度的常数,数值随训练效果的改善而减小,且满足x<y<z,
Figure BDA0002525375190000031
当水位误差小于z时,奖励只与误差的大小有关,而当水位误差超出一定范围时,使用误差的变化率
Figure BDA0002525375190000032
对瞬时奖励值进行补偿,使得能够快速纠正误差的动作同样能够获得较高奖赏,从而提升Q学习控制器的训练速度。
进一步地,所述步骤4.2中Q表的单点Q(st,at)更新规则如下:
Figure BDA0002525375190000033
其中,st是蒸汽发生器当前时刻状态参数,at是当前时刻给水流量,st+1是蒸汽发生器下一时刻状态参数,at+1是下一时刻给水流量,α是学习率,R是蒸汽发生器在st下执行at指令后,进入下一时刻状态st+1得到的瞬时奖励值,γ是回报衰减率。
进一步地,使用与Q学习控制器串联的给水限制模块对给水流量行修正,降低Q学习控制器可能产生的错误输出导致模型异常的频率。
本发明的有益技术效果:
本发明首次提出将Q学习技术应用于核电蒸汽发生器水位控制,来解决传统PID控制器在水位控制过程中出现响应速度慢,变指令时震荡较大,以及难以抑制虚假水位等问题。该方法能够在运行过程中,自主学习被控对象的特性,对给水流量动作值函数行优化,从而实现传统控制方法难以实现的自学习和自寻优控制问题,使得蒸汽发生器的水位响应速度随学习时间的增加而不断提高,从而可以大幅提高水位控制效果。此外,解决了传统控制方法在控制过程中出现的较大震荡问题,消除了部件衰退对蒸汽发生器带来的影响,提高蒸汽发生器的运行稳定性。
附图说明
图1为本发明实施例提供的方法流程图;
图2为一种传统蒸汽发生器给水控制结构;
图3为本发明实施例提供的基于Q学习的蒸汽发生器给水控制结构;
图4为本发明实施例提供的动作动作值函数表(Q表)结构图;
图5为本发明实施例提供的稳态下两种控制方法水位控制比较结果;
图6为本发明实施例提供的变蒸汽负荷下两种控制方法水位控制比较结果。
具体实施方式
针对现有控制技术响应速度慢,对于复杂系统控制器调参困难,变指令时存在较大震荡,难以抑制虚假水位等缺点,本发明的解决思路是将Q学习方法应用于核电蒸汽发生器水位控制,采用Q学习方法来构建核电蒸汽发生器水位控制器,使得随着学习时间的增加,给水控制器水位控制效果不断改善,并且能够根据蒸汽发生器状况的改变及时做出调整,在一定程度上抑制设备老化对水位控制造成的影响,提高了蒸汽发生器装置的稳定性。
本发明提出了一种基于Q学习的核电蒸汽发生器水位控制方法,包括:
给水限制模块,根据水位误差以及蒸汽发生器状态,对给水进行修正,降低Q学习控制器可能产生的错误输出引发的问题。
Q学习控制器,根据水位指令和反馈参数,通过Q学习方法得到蒸汽发生器的冷端给水流量,并按给水流量对蒸汽发生器的水位进行控制。
为便于公众理解,下面结合附图来对本发明的技术方案进行详细说明:
图2和图3分别给出了核电蒸汽发生器给水控制系统的传统控制结构和本发明实施例提供的基于Q学习的蒸汽发生器给水控制结构。如图2所示,传统控制系统主要由三冲量PID控制器及执行机构组成。如图3所示,本发明的给水控制系统由给水限制模块、Q学习控制器及执行机构组成。在传统控制系统中,通过蒸汽流量的前馈校正来避免水位反向调节。相比之下,本发明控制系统中由给水限制模块与Q学习控制器组成,其中,给水限制模块用于纠正Q学习控制器可能产生的异常输出,保护被控对象,Q学习控制器用于根据控制指令与反馈参数计算给水流量以直接修正核电蒸汽发生器水位。在传统蒸汽发生器水位控制系统中,通常采用比例积分微分(PID)或比例积分(PI)作为控制器结构。但由于控制器参数不可变,对于复杂工况的适应性较差,针对不同扰动的鲁棒性较差。为了提高水位调节的响应速度、加强控制器的适应性及鲁棒性,本发明设计了一种基于Q学习的核电蒸汽发生器水位控制方法,其具体实现过程如下:
步骤1:建立蒸汽发生器部件数学模型作为训练环境,创建二维表(Q表)对动作值函数Q(s,a)进行表示,其中,s为状态参数,a为给水流量;
本实施例中所述蒸汽发生器部件数学模型在合理假设下,根据蒸发器内热工水力过程,采用集总参数法构建,包括了一次传热管和水室内工质、二次侧工质液相部分、二次侧工质蒸汽部分等蒸汽发生器的重要参数,能够反映一定热工特性且便于MATLAB环境中调用,进行控制系统设计。
所述蒸汽发生器部件数学模型的输入包括:给水流量、给水温度、流出的蒸汽流量、一次侧进口比焓、一次侧进口流量和一次侧进口温度;输出包括:蒸汽发生器水位、蒸汽腔室压力、一次侧出口比焓和一次侧出口温度。蒸汽发生器部件数学模型从输入得到输出的计算过程可以参见《蒸汽发生器非线性机理模型与动态特性分析》(发电设备,2018年7月第32卷第4期261-267)。其中,该文章中提到的变量名称与本实施例中所述的输入输出名称对应关系如下:二回路下降段入口质量流量——给水流量;热水段出口温度——给水温度;汽水分离器出口蒸汽的质量流量——流出的蒸汽流量;一次侧进口比焓——一次侧进口比焓;一回路工质入口质量流量——一次侧进口流量;一回路工质入口温度——一次侧进口温度;SG水位——蒸汽发生器水位;SG蒸汽腔室压力——蒸汽腔室压力;一回路工质出口比焓——一次侧出口比焓;一回路工质出口温度——一次侧出口温度。
所述步骤1中Q表大小为27255×11,27255为离散化后的状态总数,11为离散化的动作总数;Q表使用状态参数s与给水流量a作为索引,输出状态s下执行a的Q值。
步骤2:确定核电蒸汽发生器的当前时刻给水流量at
步骤2.1:获取蒸汽发生器当前的状态,计算当前时刻状态参数st
控制器输入选择当前时刻的水位误差、当前时刻的水位误差的变化率、当前时刻的蒸汽流量、前一时刻的给水流量、当前时刻的蒸汽流量与当前时刻的给水流量差值,经过离散化后获得当前时刻状态参数st
如图4所示,由于Q学习方法通过Q表对动作值函数进行表示,因此需要将各个状态与动作进行离散化处理,划分规则如下:
水位误差(标幺处理后):(-∞,0.625]、(0.625,0.875]、(0.625,0.875]、(0.875,1.000]、(1.000,1.125]、(1.125,1.375]、(1.375,1.625]、(1.625,1.750]、(1.750,1.875]、(1.875,2.375]、(2.375,∞],共划分为以上11个状态。
水位误差微分(标幺处理后):(-∞,1.525]、(1.525,1.550]、(1.550,1.575]、(1.575,1.600]、(1.600,∞],共划分为以上5个状态。
蒸汽流量与给水流量差值(标幺处理后):(-∞,-1.50]、(-1.50,-0.50]、(-0.50,-0.25]、(-0.25,-0.05]、(-0.05,0.05]、(0.05,0.25]、(0.25,0.50]、(0.50,1.50]、(1.50,∞],共划分为以上9个状态。
蒸汽流量(标幺处理后):(-∞,0.625]、(0.625,0.875]、(0.625,0.875]、(0.875,1.000]、(1.000,1.125]、(1.125,1.375]、(1.375,1.625]、(1.625,1.750]、(1.750,1.875]、(1.875,2.375]、(2.375,∞],共划分为以上11个状态。
当前给水流量(标幺处理后):(-∞,1.525]、(1.525,1.550]、(1.550,1.575]、(1.575,1.600]、(1.600,∞],共划分为以上5个状态。
给水流量(标幺处理后)离散化为0、0.2、0.4、0.43、0.46、0.5、0.53、0.56、0.6、0.8、1,共11个动作。
综上,构造27255×11的二维表对动作值函数进行表示。
步骤2.2:将所述蒸汽发生器当前时刻状态参数st与给水流量a作为Q表的输入,查找所有可选择的给水流量a的价值,即Q值,利用ε-贪婪策略计算控制器输出,即当前时刻给水流量at
所述步骤2.2中利用的ε-贪婪策略如下:
Figure BDA0002525375190000061
其中,random a是选择随机给水流量控制指令,
Figure BDA0002525375190000062
用于选择使Q值最大的给水流量a,rand是随机数,ε是随机因子,用于避免在训练动作值函数时发生过拟合。控制器迁移至实际被控对象后,ε将被设置为始终小于rand,以保证控制效果的稳定。
步骤3:将所述当前时刻给水流量at分配至给水阀门,实现蒸汽发生器的给水流量控制。
步骤4:更新动作值函数Q(s,a);
步骤4.1:获取蒸汽发生器下一时刻状态参数st+1,计算瞬时奖励值R;
所述步骤4.1中的瞬时奖励值R定义如下:
Figure BDA0002525375190000063
其中,e表示蒸汽发生器的水位误差,
Figure BDA0002525375190000064
表示蒸汽发生器水位误差的变化率,x、y、z均为控制学习速度的常数,数值随训练效果的改善而减小,且满足x<y<z,
Figure BDA0002525375190000065
当水位误差小于z时,奖励只与误差的大小有关,而当水位误差超出一定范围时,使用误差的变化率
Figure BDA0002525375190000066
对瞬时奖励值进行补偿,使得能够快速纠正误差的动作同样能够获得较高奖赏,从而提升Q学习控制器的训练速度。
步骤4.2:根据所述瞬时奖励值R对Q表在s=st,a=at处的值,即Q(st,at)进行更新;
蒸汽发生器的运行过程是一个强非线性过程,而Q学习方法对于非线性对象具有自学习能力,因此选择该方法来更新动作值函数。
所述步骤4.2中Q表的单点Q(st,at)更新规则如下:
Figure BDA0002525375190000067
其中,st是蒸汽发生器当前时刻状态参数,at是当前时刻给水流量,st+1是蒸汽发生器下一时刻状态参数,at+1是下一时刻给水流量,α是学习率,R是蒸汽发生器在st下执行at指令后,进入下一时刻状态st+1得到的瞬时奖励值,γ是回报衰减率。
步骤5:使用窗口平均方法计算控制获得的平均奖励值
Figure BDA0002525375190000068
若所述平均奖励值
Figure BDA0002525375190000069
小于设定的目标奖励值,令st=st+1,跳转至步骤2,进行迭代;否则,迭代结束,完成核电蒸汽发生器水位控制训练。
在实际应用中,将已训练完成的Q表输入到蒸汽发生器控制程序中,以实现对核电蒸汽发生器水位的实际控制。
步骤6:仿真验证及结果分析。
为了验证本发明的先进性,对传统PID控制器和本发明控制系统进行了仿真对比研究。其中,蒸汽流量发生阶跃变化是最强的非线性过程,也是其他过渡态的研究基础。因此,这两种方案的模拟过程都选择蒸汽负荷阶跃变化过程。蒸汽发生器水位设定值为12m。每次仿真过程的起点和终点分别为蒸汽负荷发生阶跃变化时刻和水位重新稳定时刻。图5所示为本发明控制系统和传统PID控制系统的仿真结果。通过调试,将ε随机因子设置为0.2,学习率α设置为0.9,回报衰减率γ设置为0.7。
如图6所示,对于本发明提出的方法和PID方法中,当蒸汽流量发生10%阶跃变化时,分别需要11秒和33秒达到稳定。结果表明,本发明提出的方法比PID方法具有更快的响应能力,调整时间缩短了22秒。其主要原因是Q学习方法能够从历史信息中学习经验,并随着学习时间的增长,动作值函数不断得到优化,使得蒸汽发生器给水控制系统越来越智能、响应速度更快、超调量更小。此外,Q表具有在线更新的能力,使得所提出的方法可以减弱甚至抵消部件衰退对蒸发器带来的影响。
通过本文的附图与实施例给出了本发明的具体实施方式,但对于本领域的技术人员应当理解,本发明的保护范围是由所附的权利要求书限定的。本领域技术人员在本文所提及的原理下,可以对这些实施方式做出多种变更与更改,凡符合权利要求书范围内任何和变更与修改均落入本发明的保护范围。

Claims (7)

1.一种基于Q学习的核电蒸汽发生器水位控制方法,其特征在于:包括以下步骤:
步骤1:建立蒸汽发生器部件数学模型作为训练环境,创建二维表(Q表)对动作值函数Q(s,a)进行表示,其中,s为状态参数,a为给水流量;
步骤2:确定核电蒸汽发生器的当前时刻给水流量at
步骤2.1:获取蒸汽发生器当前的状态,计算当前时刻状态参数st
步骤2.2:将所述蒸汽发生器当前时刻状态参数st与给水流量a作为Q表的输入,查找所有可选择的给水流量a的价值,即Q值,利用ε-贪婪策略计算控制器输出,即当前时刻给水流量at
步骤3:将所述当前时刻给水流量at分配至给水阀门,实现蒸汽发生器的给水流量控制;
步骤4:更新动作值函数Q(s,a);
步骤4.1:获取蒸汽发生器下一时刻状态参数st+1,计算瞬时奖励值R;
步骤4.2:根据所述瞬时奖励值R对Q表在s=st,a=at处的值,即Q(st,at)进行更新;
步骤5:使用窗口平均方法计算控制获得的平均奖励值
Figure FDA0002525375180000011
若所述平均奖励值
Figure FDA0002525375180000012
小于设定的目标奖励值,令st=st+1,跳转至步骤2,进行迭代;否则,迭代结束,完成核电蒸汽发生器水位控制训练。
2.根据权利要求1所述的一种基于Q学习的核电蒸汽发生器水位控制方法,其特征在于:所述步骤1中Q表大小为n×m,n为离散化后的状态总数,m为离散化的动作总数;Q表使用状态参数s与给水流量a作为索引,输出状态s下执行a的Q值。
3.根据权利要求1所述的一种基于Q学习的核电蒸汽发生器水位控制方法,其特征在于:所述步骤2.1中核电蒸汽发生器状态包括:当前时刻的水位误差、当前时刻的水位误差的变化率、当前时刻的蒸汽流量、前一时刻的给水流量、当前时刻的蒸汽流量与当前时刻的给水流量差值,经过离散化后获得当前时刻状态参数st
4.根据权利要求1所述的一种基于Q学习的核电蒸汽发生器水位控制方法,其特征在于:所述步骤2.2中利用的ε-贪婪策略如下:
Figure FDA0002525375180000013
其中,random a是选择随机给水流量控制指令,
Figure FDA0002525375180000014
用于选择使Q值最大的给水流量a,rand是随机数,ε是随机因子,用于避免在训练动作值函数时发生过拟合。
5.根据权利要求1所述的一种基于Q学习的核电蒸汽发生器水位控制方法,其特征在于:所述步骤4.1中的瞬时奖励值R定义如下:
Figure FDA0002525375180000021
其中,e表示蒸汽发生器的水位误差,
Figure FDA0002525375180000022
表示蒸汽发生器水位误差的变化率,x、y、z均为控制学习速度的常数,数值随训练效果的改善而减小,且满足x<y<z,
Figure FDA0002525375180000023
当水位误差小于z时,奖励只与误差的大小有关,而当水位误差超出一定范围时,使用误差的变化率
Figure FDA0002525375180000025
对瞬时奖励值进行补偿,使得能够快速纠正误差的动作同样能够获得较高奖赏,从而提升Q学习控制器的训练速度。
6.根据权利要求1所述的一种基于Q学习的核电蒸汽发生器水位控制方法,其特征在于:所述步骤4.2中Q表的单点Q(st,at)更新规则如下:
Figure FDA0002525375180000024
其中,st是蒸汽发生器当前时刻状态参数,at是当前时刻给水流量,st+1是蒸汽发生器下一时刻状态参数,at+1是下一时刻给水流量,α是学习率,R是蒸汽发生器在st下执行at指令后,进入下一时刻状态st+1得到的瞬时奖励值,γ是回报衰减率。
7.根据权利要求1所述的一种基于Q学习的核电蒸汽发生器水位控制方法,其特征在于:使用与Q学习控制器串联的给水限制模块对给水流量行修正,降低Q学习控制器可能产生的错误输出导致模型异常的频率。
CN202010502742.XA 2020-06-05 2020-06-05 一种基于q学习的核电蒸汽发生器水位控制方法 Active CN111637444B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010502742.XA CN111637444B (zh) 2020-06-05 2020-06-05 一种基于q学习的核电蒸汽发生器水位控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010502742.XA CN111637444B (zh) 2020-06-05 2020-06-05 一种基于q学习的核电蒸汽发生器水位控制方法

Publications (2)

Publication Number Publication Date
CN111637444A true CN111637444A (zh) 2020-09-08
CN111637444B CN111637444B (zh) 2021-10-22

Family

ID=72329852

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010502742.XA Active CN111637444B (zh) 2020-06-05 2020-06-05 一种基于q学习的核电蒸汽发生器水位控制方法

Country Status (1)

Country Link
CN (1) CN111637444B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112684778A (zh) * 2020-12-24 2021-04-20 武汉第二船舶设计研究所(中国船舶重工集团公司第七一九研究所) 基于多源信息强化学习蒸汽发生器给水系统诊断方法
CN113029285A (zh) * 2021-02-04 2021-06-25 惠州拓邦电气技术有限公司 一种咖啡机自学习水位检测方法和咖啡机
CN113080499A (zh) * 2021-02-26 2021-07-09 红云红河烟草(集团)有限责任公司 一种基于策略的Q-Learning算法控制松散回潮热风温度的方法
CN114620819A (zh) * 2022-03-01 2022-06-14 红云红河烟草(集团)有限责任公司 一种卷烟异味气体喷淋水洗循环水pH值调节方法
CN115183224A (zh) * 2022-04-14 2022-10-14 哈尔滨工程大学 基于代理模型的自然循环蒸汽发生器给水控制方法及系统
CN115183224B (zh) * 2022-04-14 2024-05-31 哈尔滨工程大学 基于代理模型的自然循环蒸汽发生器给水控制方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107317756A (zh) * 2017-07-10 2017-11-03 北京理工大学 一种基于q学习的最佳攻击路径规划方法
CN107426772A (zh) * 2017-07-04 2017-12-01 北京邮电大学 一种基于q学习的动态竞争窗口调整方法、装置及设备
CN109451523A (zh) * 2018-11-23 2019-03-08 南京邮电大学 基于流量识别技术和q学习的快速切换方法
CN110195660A (zh) * 2019-06-19 2019-09-03 南京航空航天大学 基于深度q学习的航空发动机控制装置
CN110323758A (zh) * 2019-08-06 2019-10-11 南方电网科学研究院有限责任公司 一种基于串行q学习算法的电力系统离散无功优化方法
CN110515735A (zh) * 2019-08-29 2019-11-29 哈尔滨理工大学 一种基于改进q学习算法的多目标云资源调度方法
CN110930016A (zh) * 2019-11-19 2020-03-27 三峡大学 一种基于深度q学习的梯级水库随机优化调度方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107426772A (zh) * 2017-07-04 2017-12-01 北京邮电大学 一种基于q学习的动态竞争窗口调整方法、装置及设备
CN107317756A (zh) * 2017-07-10 2017-11-03 北京理工大学 一种基于q学习的最佳攻击路径规划方法
CN109451523A (zh) * 2018-11-23 2019-03-08 南京邮电大学 基于流量识别技术和q学习的快速切换方法
CN110195660A (zh) * 2019-06-19 2019-09-03 南京航空航天大学 基于深度q学习的航空发动机控制装置
CN110323758A (zh) * 2019-08-06 2019-10-11 南方电网科学研究院有限责任公司 一种基于串行q学习算法的电力系统离散无功优化方法
CN110515735A (zh) * 2019-08-29 2019-11-29 哈尔滨理工大学 一种基于改进q学习算法的多目标云资源调度方法
CN110930016A (zh) * 2019-11-19 2020-03-27 三峡大学 一种基于深度q学习的梯级水库随机优化调度方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112684778A (zh) * 2020-12-24 2021-04-20 武汉第二船舶设计研究所(中国船舶重工集团公司第七一九研究所) 基于多源信息强化学习蒸汽发生器给水系统诊断方法
CN113029285A (zh) * 2021-02-04 2021-06-25 惠州拓邦电气技术有限公司 一种咖啡机自学习水位检测方法和咖啡机
CN113029285B (zh) * 2021-02-04 2024-02-02 惠州拓邦电气技术有限公司 一种咖啡机自学习水位检测方法和咖啡机
CN113080499A (zh) * 2021-02-26 2021-07-09 红云红河烟草(集团)有限责任公司 一种基于策略的Q-Learning算法控制松散回潮热风温度的方法
CN114620819A (zh) * 2022-03-01 2022-06-14 红云红河烟草(集团)有限责任公司 一种卷烟异味气体喷淋水洗循环水pH值调节方法
CN115183224A (zh) * 2022-04-14 2022-10-14 哈尔滨工程大学 基于代理模型的自然循环蒸汽发生器给水控制方法及系统
CN115183224B (zh) * 2022-04-14 2024-05-31 哈尔滨工程大学 基于代理模型的自然循环蒸汽发生器给水控制方法及系统

Also Published As

Publication number Publication date
CN111637444B (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
CN111637444B (zh) 一种基于q学习的核电蒸汽发生器水位控制方法
CN107420874B (zh) 一种超超临界火力发电机组协调控制系统
CN107023825A (zh) 流化床锅炉控制与燃烧优化系统
CN102374520B (zh) 带有防止饱和蒸汽进入过热器的蒸汽温度的动态矩阵控制
CN102374518B (zh) 使用动态矩阵控制的蒸汽温度控制
CN104482525B (zh) 超超临界机组再热汽温的控制方法和系统
CN104865830A (zh) 一种机组负荷双重智能优化控制方法
CN106919053A (zh) 一种基于变结构预测控制算法的火电机组协调控制系统
CN107780982B (zh) 一种在线的间接空冷高背压供热机组背压控制系统及方法
EP0093118A4 (en) HOT GAS SUPPLY CONTROL FOR THERMAL RECOVERY STEAM GENERATORS.
CN103134046B (zh) 一种火电机组过热汽温两级协调预测控制方法
CN107664300B (zh) 多目标蒸汽温度控制
CN105299612A (zh) 基于多模型切换的主蒸汽温度控制方法及控制系统
CN106933202A (zh) 利用基于所估计的状态信息的间歇重新初始化的前馈控制
CN110879620A (zh) 一种核电站立式蒸汽发生器液位控制方法以及系统
CN109378833B (zh) 一种通过控制汽轮机抽汽量实现机组快速调频的方法
CN110376895A (zh) 一种基于分层受限预测控制的火电机组协调控制方法
CN111765447A (zh) 一种基于多变量解耦的发电锅炉主汽温控制方法和系统
CN111102559A (zh) 一种基于双神经网络逆模型的屛式过热器汽温控制方法
CN105720574A (zh) 基于spsa的电力系统单区域负荷频率的数据驱动控制方法
CN107402515A (zh) 一种优化同步发电机励磁系统pid参数的方法
JP3012716B2 (ja) プロセス制御方法及びその制御装置
CN114415496A (zh) 一种用于火电机组的凝结水节流系统及方法
CN113847594A (zh) 一种亚临界火电机组主蒸汽温度自动控制系统及方法
Deng et al. Quantitative analysis of energy storage in different parts of combined heat and power plants

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230927

Address after: 215200 No. 158, Chengsi Road, Lili Town, Wujiang District, Suzhou City, Jiangsu Province

Patentee after: Aerospace Promotion (Suzhou) Aerospace Technology Co.,Ltd.

Address before: 110136, Liaoning, Shenyang moral and Economic Development Zone, No. 37 South Avenue moral

Patentee before: SHENYANG AEROSPACE University

TR01 Transfer of patent right