CN111637444A

CN111637444A - 一种基于q学习的核电蒸汽发生器水位控制方法

Info

Publication number: CN111637444A
Application number: CN202010502742.XA
Authority: CN
Inventors: 齐义文; 陈禹西; 黄捷; 李献领; 张弛; 岳文豪; 邢宁; 赵秀娟
Original assignee: Shenyang Aerospace University
Current assignee: Aerospace Promotion Suzhou Aerospace Technology Co ltd
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2020-09-08
Anticipated expiration: 2040-06-05
Also published as: CN111637444B

Abstract

本发明提供一种基于Q学习的核电蒸汽发生器水位控制方法，属于核电控制与仿真技术领域，该方法包括：通过Q学习方法建立给水流量的动作值函数，根据控制指令和反馈参数，结合ε‑贪婪策略，得到适宜的蒸汽发生器给水流量；进一步，按所述给水流量对蒸汽发生器水位进行控制，并根据系统的反馈更新动作值函数。本发明能够在运行过程中，自主学习被控对象的特性，对给水流量动作值函数进行优化，从而实现传统控制方法难以实现的自学习和自寻优控制问题，使得随着学习时间的增加，水位控制效果不断改善，并且能够根据蒸汽发生器状况的改变及时做出调整，在一定程度上抑制设备老化对水位控制造成的影响，提高了蒸汽发生器的运行性能。

Description

一种基于Q学习的核电蒸汽发生器水位控制方法

技术领域

本发明属于核电控制与仿真技术领域，具体涉及一种基于Q学习的核电蒸汽发生器水位控制方法。

背景技术

蒸汽发生器是压水堆核电系统的重要组成部分，是核岛内三大设备之一。它将反应堆产生的热量传递给二次侧，产生的蒸汽经汽水分离器干燥后推动汽轮发电机发电。蒸汽发生器水位是核电系统运行的重要监视参数之一，直接影响核电系统的运行安全和蒸汽品质。

蒸汽发生器水位调节的目的，就是为了维持二次侧水位时刻满足安全运行需求，水位既不能过高，也不能过低，否则将给核电系统带来安全隐患，低负荷下蒸汽发生器水位失控导致的跳堆问题是造成安全事故的主要原因之一。因此，压水堆核电系统蒸汽发生器的水位控制尤为重要。非线性、时变性、“膨胀”和“收缩”等特性致使蒸汽发生器水位控制成为难题。传统PID控制器在水位控制过程中具有响应速度慢，变指令时震荡较大，难以抑制虚假水位等问题，难以在全功率范围内取得令人满意的性能品质。

近年来，出现了Q学习、SARSA、DQN等多种强化学习方法，用于解决智能体与环境之间的交互问题，交互过程中通过学习策略使回报最大化来实现特定目标。“试错”则是强化学习的核心思想，通过试错得到学习经验，从而能更好与外界环境交互。由于该方法随着学习时间的增长，学习经验越来越丰富，其响应能力也越来越快，引起了众多学者和工程技术人员的研究兴趣。很多基于Q学习的控制方法取得了很好的控制效果。然而，Q学习方法在蒸汽发生器控制及相关领域的应用却很少。

发明内容

针对现有技术存在的不足，本发明提供一种基于Q学习的核电蒸汽发生器水位控制方法，使得蒸汽发生器控制系统随学习时间的增长，水位控制效果不断改善，并且能够根据蒸汽发生器状况的改变即时做出调整，在一定程度上抑制设备老化对水位控制造成的影响，提高蒸汽发生器系统运行的稳定性。

为了实现上述目的，本发明所述一种基于Q学习的核电蒸汽发生器水位控制方法，根据水位误差、水位误差的导数，蒸汽流量，给水流量，蒸汽流量与给水流量的差值，通过Q学习方法得到核电蒸汽发生器给水流量的动作值函数，结合ε-贪婪策略，从而计算出适宜的蒸汽发生器给水流量，并按照所述给水流量对蒸汽发生器水位进行控制。

所述一种基于Q学习的核电蒸汽发生器水位控制方法，具体实现步骤如下：

步骤1：建立蒸汽发生器部件数学模型作为训练环境，创建二维表(Q表)对动作值函数Q(s,a)进行表示，其中，s为状态参数，a为给水流量；

步骤2：确定核电蒸汽发生器的当前时刻给水流量a_t；

步骤2.1：获取蒸汽发生器当前的状态，计算当前时刻状态参数s_t；

步骤2.2：将所述蒸汽发生器当前时刻状态参数s_t与给水流量a作为Q表的输入，查找所有可选择的给水流量a的价值，即Q值，利用ε-贪婪策略计算控制器输出，即当前时刻给水流量a_t；

步骤3：将所述当前时刻给水流量a_t分配至给水阀门，实现蒸汽发生器的给水流量控制；

步骤4：更新动作值函数Q(s,a)；

步骤4.1：获取蒸汽发生器下一时刻状态参数s_t+1，计算瞬时奖励值R；

步骤4.2：根据所述瞬时奖励值R对Q表在s＝s_t，a＝a_t处的值，即Q(s_t,a_t)进行更新；

步骤5：使用窗口平均方法计算控制获得的平均奖励值

若所述平均奖励值

小于设定的目标奖励值，令s_t＝s_t+1，跳转至步骤2，进行迭代；否则，迭代结束，完成核电蒸汽发生器水位控制训练。

进一步地，所述步骤1中Q表大小为n×m，n为离散化后的状态总数，m为离散化的动作总数；Q表使用状态参数s与给水流量a作为索引，输出状态s下执行a的Q值。

进一步地，所述步骤2.1中核电蒸汽发生器状态包括：当前时刻的水位误差、当前时刻的水位误差的变化率、当前时刻的蒸汽流量、前一时刻的给水流量、当前时刻的蒸汽流量与当前时刻的给水流量差值，经过离散化后获得当前时刻状态参数s_t。

进一步地，所述步骤2.2中利用的ε-贪婪策略如下：

其中，randoma是选择随机给水流量控制指令，

用于选择使Q值最大的给水流量a，rand是随机数，ε是随机因子，用于避免在训练动作值函数时发生过拟合。

进一步地，所述步骤4.1中的瞬时奖励值R定义如下：

其中，e表示蒸汽发生器的水位误差，

表示蒸汽发生器水位误差的变化率，x、y、z均为控制学习速度的常数，数值随训练效果的改善而减小，且满足x<y<z，

当水位误差小于z时，奖励只与误差的大小有关，而当水位误差超出一定范围时，使用误差的变化率

对瞬时奖励值进行补偿，使得能够快速纠正误差的动作同样能够获得较高奖赏，从而提升Q学习控制器的训练速度。

进一步地，所述步骤4.2中Q表的单点Q(s_t,a_t)更新规则如下：

其中，s_t是蒸汽发生器当前时刻状态参数，a_t是当前时刻给水流量，s_t+1是蒸汽发生器下一时刻状态参数，a_t+1是下一时刻给水流量，α是学习率，R是蒸汽发生器在s_t下执行a_t指令后，进入下一时刻状态s_t+1得到的瞬时奖励值，γ是回报衰减率。

进一步地，使用与Q学习控制器串联的给水限制模块对给水流量行修正，降低Q学习控制器可能产生的错误输出导致模型异常的频率。

本发明的有益技术效果：

本发明首次提出将Q学习技术应用于核电蒸汽发生器水位控制，来解决传统PID控制器在水位控制过程中出现响应速度慢，变指令时震荡较大，以及难以抑制虚假水位等问题。该方法能够在运行过程中，自主学习被控对象的特性，对给水流量动作值函数行优化，从而实现传统控制方法难以实现的自学习和自寻优控制问题，使得蒸汽发生器的水位响应速度随学习时间的增加而不断提高，从而可以大幅提高水位控制效果。此外，解决了传统控制方法在控制过程中出现的较大震荡问题，消除了部件衰退对蒸汽发生器带来的影响，提高蒸汽发生器的运行稳定性。

附图说明

图1为本发明实施例提供的方法流程图；

图2为一种传统蒸汽发生器给水控制结构；

图3为本发明实施例提供的基于Q学习的蒸汽发生器给水控制结构；

图4为本发明实施例提供的动作动作值函数表(Q表)结构图；

图5为本发明实施例提供的稳态下两种控制方法水位控制比较结果；

图6为本发明实施例提供的变蒸汽负荷下两种控制方法水位控制比较结果。

具体实施方式

针对现有控制技术响应速度慢，对于复杂系统控制器调参困难，变指令时存在较大震荡，难以抑制虚假水位等缺点，本发明的解决思路是将Q学习方法应用于核电蒸汽发生器水位控制，采用Q学习方法来构建核电蒸汽发生器水位控制器，使得随着学习时间的增加，给水控制器水位控制效果不断改善，并且能够根据蒸汽发生器状况的改变及时做出调整，在一定程度上抑制设备老化对水位控制造成的影响，提高了蒸汽发生器装置的稳定性。

本发明提出了一种基于Q学习的核电蒸汽发生器水位控制方法，包括：

给水限制模块，根据水位误差以及蒸汽发生器状态，对给水进行修正，降低Q学习控制器可能产生的错误输出引发的问题。

Q学习控制器，根据水位指令和反馈参数，通过Q学习方法得到蒸汽发生器的冷端给水流量，并按给水流量对蒸汽发生器的水位进行控制。

为便于公众理解，下面结合附图来对本发明的技术方案进行详细说明：

图2和图3分别给出了核电蒸汽发生器给水控制系统的传统控制结构和本发明实施例提供的基于Q学习的蒸汽发生器给水控制结构。如图2所示，传统控制系统主要由三冲量PID控制器及执行机构组成。如图3所示，本发明的给水控制系统由给水限制模块、Q学习控制器及执行机构组成。在传统控制系统中，通过蒸汽流量的前馈校正来避免水位反向调节。相比之下，本发明控制系统中由给水限制模块与Q学习控制器组成，其中，给水限制模块用于纠正Q学习控制器可能产生的异常输出，保护被控对象，Q学习控制器用于根据控制指令与反馈参数计算给水流量以直接修正核电蒸汽发生器水位。在传统蒸汽发生器水位控制系统中，通常采用比例积分微分(PID)或比例积分(PI)作为控制器结构。但由于控制器参数不可变，对于复杂工况的适应性较差，针对不同扰动的鲁棒性较差。为了提高水位调节的响应速度、加强控制器的适应性及鲁棒性，本发明设计了一种基于Q学习的核电蒸汽发生器水位控制方法，其具体实现过程如下：

本实施例中所述蒸汽发生器部件数学模型在合理假设下，根据蒸发器内热工水力过程，采用集总参数法构建，包括了一次传热管和水室内工质、二次侧工质液相部分、二次侧工质蒸汽部分等蒸汽发生器的重要参数，能够反映一定热工特性且便于MATLAB环境中调用，进行控制系统设计。

所述蒸汽发生器部件数学模型的输入包括：给水流量、给水温度、流出的蒸汽流量、一次侧进口比焓、一次侧进口流量和一次侧进口温度；输出包括：蒸汽发生器水位、蒸汽腔室压力、一次侧出口比焓和一次侧出口温度。蒸汽发生器部件数学模型从输入得到输出的计算过程可以参见《蒸汽发生器非线性机理模型与动态特性分析》(发电设备，2018年7月第32卷第4期261-267)。其中，该文章中提到的变量名称与本实施例中所述的输入输出名称对应关系如下：二回路下降段入口质量流量——给水流量；热水段出口温度——给水温度；汽水分离器出口蒸汽的质量流量——流出的蒸汽流量；一次侧进口比焓——一次侧进口比焓；一回路工质入口质量流量——一次侧进口流量；一回路工质入口温度——一次侧进口温度；SG水位——蒸汽发生器水位；SG蒸汽腔室压力——蒸汽腔室压力；一回路工质出口比焓——一次侧出口比焓；一回路工质出口温度——一次侧出口温度。

所述步骤1中Q表大小为27255×11，27255为离散化后的状态总数，11为离散化的动作总数；Q表使用状态参数s与给水流量a作为索引，输出状态s下执行a的Q值。

步骤2：确定核电蒸汽发生器的当前时刻给水流量a_t；

控制器输入选择当前时刻的水位误差、当前时刻的水位误差的变化率、当前时刻的蒸汽流量、前一时刻的给水流量、当前时刻的蒸汽流量与当前时刻的给水流量差值，经过离散化后获得当前时刻状态参数s_t。

如图4所示，由于Q学习方法通过Q表对动作值函数进行表示，因此需要将各个状态与动作进行离散化处理，划分规则如下：

水位误差(标幺处理后)：(-∞，0.625]、(0.625，0.875]、(0.625，0.875]、(0.875，1.000]、(1.000，1.125]、(1.125，1.375]、(1.375，1.625]、(1.625，1.750]、(1.750，1.875]、(1.875，2.375]、(2.375，∞]，共划分为以上11个状态。

水位误差微分(标幺处理后)：(-∞，1.525]、(1.525，1.550]、(1.550，1.575]、(1.575，1.600]、(1.600，∞]，共划分为以上5个状态。

蒸汽流量与给水流量差值(标幺处理后)：(-∞，-1.50]、(-1.50，-0.50]、(-0.50，-0.25]、(-0.25，-0.05]、(-0.05，0.05]、(0.05，0.25]、(0.25，0.50]、(0.50，1.50]、(1.50，∞]，共划分为以上9个状态。

蒸汽流量(标幺处理后)：(-∞，0.625]、(0.625，0.875]、(0.625，0.875]、(0.875，1.000]、(1.000，1.125]、(1.125，1.375]、(1.375，1.625]、(1.625，1.750]、(1.750，1.875]、(1.875，2.375]、(2.375，∞]，共划分为以上11个状态。

当前给水流量(标幺处理后)：(-∞，1.525]、(1.525，1.550]、(1.550，1.575]、(1.575，1.600]、(1.600，∞]，共划分为以上5个状态。

给水流量(标幺处理后)离散化为0、0.2、0.4、0.43、0.46、0.5、0.53、0.56、0.6、0.8、1，共11个动作。

综上，构造27255×11的二维表对动作值函数进行表示。

所述步骤2.2中利用的ε-贪婪策略如下：

其中，random a是选择随机给水流量控制指令，

用于选择使Q值最大的给水流量a，rand是随机数，ε是随机因子，用于避免在训练动作值函数时发生过拟合。控制器迁移至实际被控对象后，ε将被设置为始终小于rand，以保证控制效果的稳定。

步骤3：将所述当前时刻给水流量a_t分配至给水阀门，实现蒸汽发生器的给水流量控制。

步骤4：更新动作值函数Q(s,a)；

所述步骤4.1中的瞬时奖励值R定义如下：

其中，e表示蒸汽发生器的水位误差，

蒸汽发生器的运行过程是一个强非线性过程，而Q学习方法对于非线性对象具有自学习能力，因此选择该方法来更新动作值函数。

所述步骤4.2中Q表的单点Q(s_t,a_t)更新规则如下：

步骤5：使用窗口平均方法计算控制获得的平均奖励值

若所述平均奖励值

在实际应用中，将已训练完成的Q表输入到蒸汽发生器控制程序中，以实现对核电蒸汽发生器水位的实际控制。

步骤6：仿真验证及结果分析。

为了验证本发明的先进性，对传统PID控制器和本发明控制系统进行了仿真对比研究。其中，蒸汽流量发生阶跃变化是最强的非线性过程，也是其他过渡态的研究基础。因此，这两种方案的模拟过程都选择蒸汽负荷阶跃变化过程。蒸汽发生器水位设定值为12m。每次仿真过程的起点和终点分别为蒸汽负荷发生阶跃变化时刻和水位重新稳定时刻。图5所示为本发明控制系统和传统PID控制系统的仿真结果。通过调试，将ε随机因子设置为0.2，学习率α设置为0.9，回报衰减率γ设置为0.7。

如图6所示，对于本发明提出的方法和PID方法中，当蒸汽流量发生10％阶跃变化时，分别需要11秒和33秒达到稳定。结果表明，本发明提出的方法比PID方法具有更快的响应能力，调整时间缩短了22秒。其主要原因是Q学习方法能够从历史信息中学习经验，并随着学习时间的增长，动作值函数不断得到优化，使得蒸汽发生器给水控制系统越来越智能、响应速度更快、超调量更小。此外，Q表具有在线更新的能力，使得所提出的方法可以减弱甚至抵消部件衰退对蒸发器带来的影响。

通过本文的附图与实施例给出了本发明的具体实施方式，但对于本领域的技术人员应当理解，本发明的保护范围是由所附的权利要求书限定的。本领域技术人员在本文所提及的原理下，可以对这些实施方式做出多种变更与更改，凡符合权利要求书范围内任何和变更与修改均落入本发明的保护范围。