CN112886039B

CN112886039B - 一种基于强化学习的压水堆堆芯自动控制方法

Info

Publication number: CN112886039B
Application number: CN202110031428.2A
Authority: CN
Inventors: 李秀; 吕加飞; 杨瑞
Original assignee: Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2021-01-11
Filing date: 2021-01-11
Publication date: 2021-11-23
Anticipated expiration: 2041-01-11
Also published as: CN112886039A

Abstract

本发明公开了一种基于强化学习的压水堆堆芯自动控制方法，包括以下步骤：S1、获取参数控制目标；S2、在压水堆堆芯控制器中加入基于DQN的预先训练好的强化学习模块，然后将参数控制目标传递至强化学习模块；S3、通过强化学习模块获取实现参数控制目标的多个策略；S4、选择最优策略作为控制策略传递至控制器；S5、控制器基于控制策略控制压水堆堆芯的执行器执行相应动作；S6、控制器获取执行过程中压水堆堆芯内产生的物理量，以及动作和参数轨迹。本发明通过引入人工智能技术，提升了核电站运行的效率，完全不需要人的参与便可自动完成。

Description

一种基于强化学习的压水堆堆芯自动控制方法

技术领域

本发明涉及核反应堆自动控制方法领域，具体是一种基于强化学习的压水堆堆芯自动控制方法。

背景技术

典型的传统压水反应堆的一回路功率调节系统包括：发电机功率调节、冷却剂平均温度及控制棒位置调节、硼浓度调节、蒸汽旁通控制系统及闭锁系统。其中发电机功率调节及其所附属的汽轮机调节是外部调节，即不与反应堆堆芯交互或者作用而调节反应堆的功率(因为反应堆功率由一回路热量输出，进而蒸发冷凝水而推动汽轮机转动发电，因而反应堆的外在功率会因汽轮机的参数而不同)；蒸汽旁通控制系统用作功率调节系统的辅助，而闭锁系统则是为了防止控制棒提升过大而导致紧急停堆。冷却剂平均温度及控制棒位置调节与硼浓度调节是反应堆中最常见的通过直接与反应堆堆芯交互而调节堆芯功率的手段。

核电站发电需要反应堆堆芯能够持续释放出裂变能以转化为热能并最终转化为电能；而这一切的前提条件是堆芯需要超临界，也就是需要保证产生的中子数多于损失的中子(即实现中子的链式自持)。反应堆是否临界通常用反应性ρ＞1表示，若ρ＜1，则次临界；若ρ＝1，则反应堆临界；若ρ＞1，则超临界。而反应性是冷却剂温度、慢化剂温度(慢化剂用于慢化中子速度)等物理量的函数。硼会增强慢化剂对中子的寄生吸收，会对慢化剂温度系数造成影响；而控制棒调节则会引入外来反应性，因此冷却剂平均温度调控、控制棒位置调控、硼浓度调节对堆芯功率有直接影响。

目前已有一些用于核反应堆堆芯控制的系统和方法，如公开号为CN106340331B的中国专利：一种用于核反应堆功率的自抗扰控制方法，其公开了用于核反应堆功率的自抗扰控制方法，目的在于针对目前核反应堆对象没有既简单又能取得良好控制效果的控制器，提出将自抗扰控制器应用于核反应堆功率控制中的方法。通过推导将原有模型转化为适合设计自抗扰控制器的非线性模型；并且充分利用模型信息，减轻ESO的负担；还利用系统输出y可测的特点，设计基于RESO的自抗扰控制器；最后通过简单调整带宽、就能容易的得出控制器参数，此控制系统相比预测控制、模糊控制等先进控制算法结构简单，但是有更好的控制效果。

公开号为CN101840737B的中国专利：一种数字化棒位控制系统及其控制方法，系统包括：堆芯控制单元，其根据主控制室发送的控制棒控制命令输出相应的棒位运行指令；棒控驱动单元，其接受所述棒位运行指令并依据其控制控制棒驱动机构中钩爪的动作序列，从而实现控制棒沿轴向的相应移动；棒位处理及指示单元，其测量控制棒的实际棒位信息，并将所述实际棒位信息经整形、编码后送至棒位处理柜和主控制室里的棒位显示设备；同时，将所述实测棒位信息与所述棒位运行指令进行比较，当控制棒滑步、失步或偶然落棒超过预定阈值时发送故障报警信号。该专利还公开了一种数字化棒位控制方法。该专利实现了核电站中反应堆功率和温度的数字化控制，提高了棒位控制系统的可靠性和安全性。

但上述现有技术专利存在以下不足：

(1)现有的堆芯功率控制系统都是通过逻辑控制来完成对功率的控制，此类系统自动化水平不足、智能化水平则严重缺乏。

(2)现有的堆芯功率控制技术往往需要操作员的人为干预，并且在一定程度上依赖操作员的经验，这会在无形之中给操作员带来压力。

(3)传统功率控制系统感知能力及预防事故能力很差，如果发生某种突发情形往往需要经过操作员的判断及既定规程执行相应的动作，这造成了核电站的操作运行效率比较低下。

可见，现有的核电站堆芯功率控制系统几乎都是依赖于传统自动控制理论搭建的，尽管在实践中得到了很好地效果，但是其系统本身的智能化水平严重不足，只能基于固定的规程执行相应的动作，执行的效率相对较高但是也缺少了对堆芯环境的探索，同时也没有考虑到操作员的需求。因此压水反应堆功率控制系统亟需改进。

发明内容

本发明的目的是提供一种基于强化学习的压水堆堆芯自动控制方法，以解决现有技术核反应堆控制方法依赖于自动控制理论的问题。

为了达到上述目的，本发明所采用的技术方案为：

一种基于强化学习的压水堆堆芯自动控制方法，包括以下步骤：

S1、获取需要实现的参数控制目标。

步骤S1中，根据设定的压水堆堆芯工作要求，由操作人员人工向控制器输入参数控制目标。

S2、在压水堆堆芯控制器中加入基于DQN的强化学习模块，并采用专家数据作为训练集预先训练强化学习模块，然后将步骤S1获取的参数控制目标传递至预先训练好的强化学习模块。

步骤S2中，所述专家数据由以往压水堆堆芯控制过程中，操作员手动操控控制实现对应参数控制目标时得到的动作轨迹及参数轨迹构成。

步骤S2中，所述强化学习模块在自身监督学习框架下，基于专家数据学习对压水堆堆芯控制以实现专家数据对应的参数控制目标。

S3、通过强化学习模块获取实现参数控制目标的多个策略。

步骤S3中，使强化学习模块运行于虚拟仿真环境中，从而得到多个策略。

S4、对步骤S3获取的多个策略进行评估，选择其中最优策略作为控制策略传递至控制器。

步骤S4中，从多个策略中选择耗费时间最短且代价最小时实现参数控制目标的策略作为最优策略。

S5、控制器基于步骤S4得到的控制策略，控制压水堆堆芯的执行器执行相应动作，从而形成实现参数控制目标的动作和参数轨迹。

S6、控制器获取执行过程中压水堆堆芯内产生的物理量，以及动作和参数轨迹。

步骤S6中，控制器将物理量传递至强化学习模块的经验回放池，所述强化学习模块基于经验回放池内部分数据进行自我训练。

步骤S6中，控制器将控制策略、动作和参数轨迹加入专家数据中，以对训练集进行更新。

本发明通过在压水堆堆芯功率控制系统中引入强化学习算法，增加控制系统的智能化水平及感知能力，并进一步减少操作员的控制干预，可以辅助操作员以减轻操作员的工作压力；

本发明通过强化学习算法实现对堆芯功率在给定精度要求下的自动调节，给出某功率状态下最佳的控制策略，增加功率控制的鲁棒性，同时也可以保障控制过程的安全性。

本发明实现了压水堆堆芯功率的自动调节，进一步减小了操作员干预程度，同时也极大减轻了操作员的工作压力；

因此，与现有技术相比，本发明的优点为：

(1)本发明通过引入人工智能技术，改进了传统压水反应堆一回路功率控制系统，使其智能化、自动化水平更高，极大减小了电站运行时操作员的干预，同时也减小了操作员的工作压力，提升了核电站运行的效率；

(2)本发明通过强化学习算法可以找到调节功率的最优策略，进而将该策略输入给执行器，可以实现对反应堆堆芯功率的自动调节，这个过程完全不需要人的参与便可自动完成。

(3)本发明引入的技术使得传统压水堆控制系统具备了数据感知及大规模数据处理的能力，是对传统技术的一次革新。

附图说明

图1是本发明方法流程框图。

图2是本发明实施例中DQN算法原理示意图。

图3是本发明实施例中用于压水堆堆芯时的控制原理示意图。

图4是本发明实施例中在线测试的过程中压水堆堆芯功率的变化情况曲线图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

如图1所示，一种基于强化学习的压水堆堆芯自动控制方法包括以下步骤：

S1、获取需要实现的参数控制目标；

S2、在压水堆堆芯控制器中加入基于DQN的强化学习模块，并采用专家数据作为训练集预先训练强化学习模块，然后将步骤S1获取的参数控制目标传递至预先训练好的强化学习模块；

S3、通过强化学习模块获取实现参数控制目标的多个策略；

S4、对步骤S3获取的多个策略进行评估，选择其中最优策略作为控制策略传递至控制器；

S5、控制器基于步骤S4得到的控制策略，控制压水堆堆芯的执行器执行相应动作，从而形成实现参数控制目标的动作和参数轨迹；

本发明中强化学习模块可实现强化学习与深度强化学习，其中：

强化学习通常可以表示为马尔可夫决策过程(MDP)，MDP包含了五元组(S，A，R，P，γ)，其中S代表状态空间，A代表动作空间，R代表奖励函数，P代表状态转移概率矩阵，γ代表折扣因子。智能体每个时刻观测到状态s_t，根据状态执行动作a_t，环境接收到动作后转移到下一个状态s_t+1并反馈奖励r_t，强化学习优化的目标是最大化累积奖励值

智能体根据策略π(a_t|s_t)选择动作，动作值函数Q(s_t，a_t)代表在状态s_t执行动作a_t后的期望累积奖励，

深度强化学习通过将神经网咯引入传统强化学习，给智能体带来了强大的感知能力。其中较为典型的是DQN方法(Deep Q Network)。强化学习中的Q-learning方法通过创建一个包含所有状态和动作的表格并通过贪心算法不断更新动作值函数Q以在状态、动作空间中找到最优的策略。而对于现实中的很多问题，状态空间、动作空间往往是非常巨大的(比如说围棋游戏，若将每个时刻的棋盘图像作为一个状态，则其空间会非常巨大)，单纯使用创建表格的形式无法完全描述这样的问题，因此学者考虑通过使用神经网络去逼近Q值。DQN方法在很多强化学习环境中取得了传统方法无法逾越的表现，其损失函数采用：

L_loss＝∑(y_j-Q(φ_j，a_j；θ))² (1)，

上式中φ_j是j次迭代时的智能体状态，a_j是动作值，θ是网络参数。

公式(1)中，y_j＝r_j+γmax_a′Q(φ_j+1，a′；θ)。DQN同时引入了经验回放池(replaybuffer)和经验优先回放方法。使用这样的方法的动机在于：通过经验回放池存储智能体之前和环境交互产生的转移样本，并通过经验优先回放方法采样样本可以消除消除数据间的关联性及非平稳分布，保证结果的收敛。经验有效回放方法则保证每次智能体采样的时候可以采样到较好的转移样本，进而加速了训练过程。

本发明所涉及的压水堆热工方程，可考虑缓发中子先驱核份额并从单群扩散方程出发，推导得到六组缓发中子的反应堆时空动力学方程：

公式(2)中，v是中子速度，φ是中子通量密度，D是扩散系数，∑_a是中子吸收截面，k_∞是无穷介质增殖系数，C_i(t)是缓发中子先驱核浓度，β_i是缓发中子份额，λ_i是缓发中子衰变常数。

这个方程组公式(2)描述反应堆瞬态过程中中子通量密度随着时间、空间的演化情况，通过求解这个方程，可以得到任一时刻下反应堆的关键参数。通过外在手段或者反应堆内部毒物使得堆内反应性发生变化时，会直接导致中子通量密度的改变，进而最终影响反应堆的功率。

如果忽略空间效应，上述公式(2)可以写成

公式(3)是一个相互耦合的一阶线性微分方程组(共7个方程)，通过解这个方程，可以得到反应堆的动态特性即相应的中子变化规律。其中n(t)是中子数，Λ是中子代时间。

如图2所示，本发明所述的DQN中，引入经验回放池存储转移样本并在之后通过小批量采样的方式选出部分样本进行训练，这样做可以将样本之间的相关性进行解耦。智能体与环境交互产生的转移样本会被存储到经验回放池中，之后智能体会从经验回放池中采样以训练网络，targetnet的网络参数会定期和current net进行同步。本发明的强化学习模块就是基于上述DQN算法构建的。

本发明基于强化学习的压水堆堆芯自动控制方法详细说明如下：

如图3所示，为本发明用于压水堆堆芯时的控制原理示意图。本发明将强化学习框架融入到压水堆堆芯控制系统中。强化学习模块接收到用户的控制任务信号后，从反应堆中接受到一个初始的信息(例如功率、中子数、冷却剂温度、控制棒位置等)并传递给已经使用以往的专家数据预先训练好到了的基于DQN的强化学习模块。这里专家数据指的是以往压水堆堆芯控制过程中操作员手动操控控制系统得到的动作轨迹及参数(例如功率)轨迹。通过对专家数据的学习，可以让智能体在监督学习框架下学习到在数据集包含的情形下如何对堆芯环境进行控制以使得功率可以达到要求。可以用循环网络对这个问题进行建模，输入是功率轨迹，相应标签为动作输出。记真实动作为y，预测动作为

监督学习的损失函数仍然采用均方误差

之后强化学习模块可以根据控制目标在虚拟仿真环境中自动对堆芯功率进行调整，选择虚拟环境中测试的最优策略(最短时间内花费最小的代价到达目标功率即为最优策略)作为最终用户目标的一个控制策略输出给执行器执行，在执行过程中每次执行动作后堆内的物理量更新都会重新传入强化学习模块用于DQN的控制学习。同时控制成功的动作及参数轨迹会加入至专家数据实现更新训练集。

本发明只需要操作员给强化学习模块控制指令即可(比如说保持功率平稳、降功率、升功率等)，之后便可以自动对功率进行调控而完全不需要操作员人为手动干预，因此实现了很大程度上的智能化与自动化。同时，本发明可以在N个近似策略中找到最优的、最接近于最优策略的策略并将以实施，保证了功率控制的鲁棒性。因为不需要操作员的干预并且可以在某种程度上保证控制目标一定可以完成，因此本发明可以极大减轻操作员的工作压力，也因此可以提升核电站整体的运行效率。

需要指出的是，本发明并不能真正意义上取代操作员的控制，但是本发明可以在一定程度上保证操作的安全性，原因在于：

(1)本发明的控制算法利用过去的成功经验训练，可以学习到过去的经验及控制思路；

(2)本发明采用策略评判器甄选策略，并采用代价最小、速度最快的策略，这些策略都在虚拟仿真环境中经过测试，安全性某种程度上可以得到保障。

为了验证本发明的合理性及有效性，同时考虑到现有的很多反应堆虚拟机不提供外来控制算法接口，本发明基于公式(2)构筑了简单的压水反应堆环境，考虑反应堆毒物I，Xe。现在考虑功率控制任务为降负荷控制。这在实际中是经常见到的一个控制任务，例如在用电低峰期，核电站需要将电站的输出功率下降以适配电网需求，这就需要降低堆芯的功率。在这里为了简便，设定任务为将功率从满功率(100％)降到半功率(50％)，将强化学习方法控制下的堆芯功率变化和传统的PID控制进行对比，其中PID是经典的比例积分微分控制器，DQN(no prioritized replay)指不用经验优先回放的DQN算法，DQN(prioritizedreplay)指使用经验优先回放的DQN算法，其结果如表1所示。

表1本发明方法与经典方法在简易压水堆堆芯环境下功率控制性能对比

算法	达到目标所用步数	是否有超过超调量
			PID	>1000	是
DQN(no prioritized replay)	491	否
			DQN(prioritized replay)	251	否

表1中是否有超过超调量指的是控制过程中是否存在堆芯功率超过阈值的情况。可以发现本发明的方法明显优于传统的PID控制，尤其是带有经验优先回放技术的DQN算法，能够又快又好地到达目标。如图4所示，图4给出了在线测试的过程中压水堆堆芯功率的变化情况，可以发现功率以一种非常平稳的趋势快速达到了目标。

本发明所述的实施例仅仅是对本发明的优选实施方式进行的描述，并非对本发明构思和范围进行限定，在不脱离本发明设计思想的前提下，本领域中工程技术人员对本发明的技术方案作出的各种变型和改进，均应落入本发明的保护范围，本发明请求保护的技术内容，已经全部记载在权利要求书中。

Claims

1.一种基于强化学习的压水堆堆芯自动控制方法，其特征在于，包括以下步骤：

S1、获取需要实现的参数控制目标；

S3、通过强化学习模块获取实现参数控制目标的多个策略；

2.根据权利要求1所述的一种基于强化学习的压水堆堆芯自动控制方法，其特征在于，步骤S1中，根据设定的压水堆堆芯工作要求，由操作人员人工向控制器输入参数控制目标。

3.根据权利要求1所述的一种基于强化学习的压水堆堆芯自动控制方法，其特征在于，步骤S2中，所述专家数据由以往压水堆堆芯控制过程中，操作员手动操控控制实现对应参数控制目标时得到的动作轨迹及参数轨迹构成。

4.根据权利要求1所述的一种基于强化学习的压水堆堆芯自动控制方法，其特征在于，步骤S2中，所述强化学习模块在自身监督学习框架下，基于专家数据学习对压水堆堆芯控制以实现专家数据对应的参数控制目标。

5.根据权利要求1所述的一种基于强化学习的压水堆堆芯自动控制方法，其特征在于，步骤S3中，使强化学习模块运行于虚拟仿真环境中，从而得到多个策略。

6.根据权利要求1所述的一种基于强化学习的压水堆堆芯自动控制方法，其特征在于，步骤S4中，从多个策略中选择耗费时间最短且代价最小时实现参数控制目标的策略作为最优策略。

7.根据权利要求1所述的一种基于强化学习的压水堆堆芯自动控制方法，其特征在于，步骤S6中，控制器将物理量传递至强化学习模块的经验回放池，所述强化学习模块基于经验回放池内部分数据进行自我训练。

8.根据权利要求1所述的一种基于强化学习的压水堆堆芯自动控制方法，其特征在于，步骤S6中，控制器将控制策略、动作和参数轨迹加入专家数据中，以对训练集进行更新。