CN114675538A

CN114675538A - 核反应堆的自主控制方法、装置和计算机设备

Info

Publication number: CN114675538A
Application number: CN202210315659.0A
Authority: CN
Inventors: 丁鹏; 李文淮; 陈澍; 夏文卿; 于枫婉; 段承杰; 崔大伟; 林继铭
Original assignee: China General Nuclear Power Corp; China Nuclear Power Technology Research Institute Co Ltd; CGN Power Co Ltd; Lingdong Nuclear Power Co Ltd
Current assignee: China General Nuclear Power Corp; China Nuclear Power Technology Research Institute Co Ltd; CGN Power Co Ltd; Lingdong Nuclear Power Co Ltd
Priority date: 2022-03-29
Filing date: 2022-03-29
Publication date: 2022-06-28
Also published as: WO2023184899A1

Abstract

本申请涉及一种核反应堆的自主控制方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：确定核反应堆的目标状态轨迹和反应堆全状态轨迹；根据目标状态轨迹对反应堆全状态轨迹进行轨迹优化，得到核反应堆的控制动作组合；控制动作组合用于确保目标状态轨迹和反应堆全状态轨迹的偏差达到预设值，以及满足反应堆的动态演化特性；基于控制动作组合对核反应堆进行自主控制。采用本方法能够提高核反应堆的控制精度。

Description

核反应堆的自主控制方法、装置和计算机设备

技术领域

本申请涉及核反应技术领域，特别是涉及一种核反应堆的自主控制方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

通常反应堆运行过程中，包括了测量、控制效果和反应堆状态转移动态模型等多个角度不同来源的不确定性，因此通常需要将反应堆控制在全状态置信空间。反应堆的测量信号，包括中子探测器信号、热电偶读数或回路冷却剂流量、稳压器压力等，是可直接测量的。但也有大量的与安全相关的状态参数无法直接被测量，例如有效中子倍增系数keff、宏观燃耗、微观核子密度等。

核反应堆的自主控制要求反应堆具有更灵活的运行和自主控制能力，以确保系统在恶劣或偏远的服务环境中长期可靠运行；然而，现有的反应堆功率控制，主要采用了PID控制方法。PID控制器的输出信号驱动反应堆控制棒驱动机构，从而引入反应性进行反应堆的功率控制，导致核反应堆自主控制的控制精度低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高核反应堆自主控制的控制精度的核反应堆的自主控制方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种核反应堆的自主控制方法。所述方法包括：

确定核反应堆的目标状态轨迹和反应堆全状态轨迹；

根据所述目标状态轨迹对所述反应堆全状态轨迹进行轨迹优化，得到所述核反应堆的控制动作组合；所述控制动作组合用于确保所述目标状态轨迹和所述反应堆全状态轨迹的偏差达到预设值，以及满足反应堆的动态演化特性；

基于所述控制动作组合对所述核反应堆进行自主控制。

在其中一个实施例中，所述确定核反应堆的目标状态轨迹和反应堆全状态轨迹，包括：

确定核反应堆的目标状态轨迹；

将所述核反应堆的全状态参数输入预先构建的集成预测模型进行预测，得到反应堆全状态轨迹。

在其中一个实施例中，在所述确定核反应堆的目标状态轨迹之前，所述方法还包括：

预先构建所述核反应堆的数理模型和机器学习模型；

通过对所述数理模型和机器学习模型进行集成处理，得到所述集成预测模型。

在其中一个实施例中，所述预先构建所述核反应堆的数理模型和机器学习模型，包括：

构建所述核反应堆的数理模型；所述数理模型至少包括堆芯中子点堆动力学模型、热工水力模型、反应性反馈模型和核素衰变模型；

获取所述核反应堆的反应堆运行样本；

根据所述反应堆运行样本对构建的不同类型的机器学习模型进行训练，得到训练好的机器学习模型。

在其中一个实施例中，所述根据所述目标状态轨迹对所述反应堆全状态轨迹进行轨迹优化，得到所述核反应堆的控制动作组合，包括：

确定所述反应堆全状态轨迹中反应状态以及对应控制动作；

基于反应堆的动态演化特性，确定包含反应堆状态和控制动作的第一轨迹；

通过泰勒近似对所述第一轨迹进行线性化处理，得到最优策略下的第二轨迹；

对所述第二轨迹进行迭代处理，直到收敛到所述目标状态轨迹，得到所述核反应堆的控制动作组合。

在其中一个实施例中，在所述对所述第二轨迹进行迭代处理，直到收敛到所述目标状态轨迹，得到所述核反应堆的控制动作组合之前，所述方法还包括：

根据实际状态转移函数对所述第一轨迹的下一个反应堆状态进行更新，执行所述通过泰勒近似对所述第一轨迹进行线性化处理，得到最优策略下的第二轨迹步骤。

在其中一个实施例中，所述机器学习模型至少包括DNN预测模型、RNN预测模型和基于高斯回归的预测模型。

第二方面，本申请还提供了一种核反应堆的自主控制装置。所述装置包括：

确定模块，用于确定核反应堆的目标状态轨迹和反应堆全状态轨迹；

轨迹优化模块，用于根据所述目标状态轨迹对所述反应堆全状态轨迹进行轨迹优化，得到所述核反应堆的控制动作组合；所述控制动作组合使得所述目标状态轨迹和所述反应堆全状态轨迹的偏差达到预设值，且满足反应堆的动态演化特性；

控制模块，用于基于所述控制动作组合对所述核反应堆进行自主控制。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

确定核反应堆的目标状态轨迹和反应堆全状态轨迹；

基于所述控制动作组合对所述核反应堆进行自主控制。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

确定核反应堆的目标状态轨迹和反应堆全状态轨迹；

基于所述控制动作组合对所述核反应堆进行自主控制。

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

确定核反应堆的目标状态轨迹和反应堆全状态轨迹；

基于所述控制动作组合对所述核反应堆进行自主控制。

上述核反应堆的自主控制方法、装置、计算机设备、存储介质和计算机程序产品，通过根据目标状态轨迹和反应堆全状态轨迹进行轨迹优化，得到核反应堆的控制动作组合；控制动作组合使得目标状态轨迹和反应堆全状态轨迹的偏差达到预设值，且满足反应堆的动态演化特性；根据控制动作组合对核反应堆进行自主控制；即实现大状态空间下多目标运行优化，解决PID单输入单输出或多输入单输出的控制不足，以及采用动态规划方法，有效提高了核反应堆自主控制的精度。

附图说明

图1为本申请一个实施例中核反应堆的自主控制方法的流程示意图；

图2为本申请一个实施例中预测模型的集成处理示意图；

图3为本申请一个实施例中DNN预测模型的结构示意图；

图4为本申请一个实施例中RNN预测模型的结构示意图；

图5为本申请一个实施例中基于高斯回归的预测模型的结构示意图；

图6为本申请另一个实施例中核反应堆的自主控制方法的流程示意图；

图7为本申请一个实施例中核反应堆的自主控制的效果图；

图8为本申请一个实施例中核反应堆的自主控制装置的结构框图；

图9为本申请一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种核反应堆的自主控制方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

步骤102，确定核反应堆的目标状态轨迹和反应堆全状态轨迹。

其中，核反应堆包括二代堆、三代堆(压水堆、沸水堆等)、四代堆(金属冷却快堆、气冷快堆、熔盐快堆)等不同类型反应堆。

目标状态轨迹是预先确定不同时刻下的核反应的反应堆运行功率水平，目标状态轨迹表示为s_t,target；反应堆全状态轨迹是基于核反应堆全状态参数确定的状态轨迹；反应堆全状态轨迹可以是通过集成预测模型，根据核反应堆全状态参数进行预测得到的。

集成预测模型是通过将预先构建的核反应堆的数理模型和机器学习模型，基于Stacking技术框架进行集成得到的；通过构建数理模型和机器学习模型，降低于反应堆状态转移模型搭建难度，避免了传统基于反应堆数理模型的建模难，收敛慢等问题；集成的处理步骤如图2所示，将数理模型(包括点堆模型和高精度模型等)和机器学习模型(包括机器学习模型1……机器学习模型N)确定为基础学习模型，线性回归作为第二级学习模型(包括多元线性回归、随机森林回归等)，通过Stacking学习策略进行训练，将各模型的预测结果进行平均化或加权平均处理，得到集成预测模型。

数理模型可以但不仅限于点堆模型、一维模型、三维模型、分数阶模型；本实施例以点堆模型为例进行说明，点堆模型包括堆芯中子点堆动力学模型、热工水力模型、反应性反馈模型和核素衰变模型；

点堆动力学模型表示为：

热工水力模型可以表示为：

核素衰变模型可以表示为：

反应性反馈模型可以表示为：

ρ＝ρ₀+ρ_Xe+ρ_Sm+ρ_T+ρ_rod (9)

ρ_T＝α_f(T_f-T_f0)+α_c(T_cav-T_cav0) (10)

以下为上述点堆动力学模型、热工水力模型、核素衰变模型和反应性反馈模型中各参数的含义：

其中，核反应堆的状态空间里的参数包括：

s_t＝[n_r,C_r,1,C_r,2,C_r,3,C_r,4,C_r,5,C_r,6,T_f,T_cav,Xe,I_od,Pm,Sm]，反应堆的动作空间里的参数为：a_t＝[ρ_rod,T_cin]。核反应堆的控制作用包括反应性插入，包括控制棒或转鼓移动、可溶硼或其他中子吸收剂；通过调节一、二次核反应堆系统的压力和热交换来改变堆芯入口温度。

机器学习模型是通过根据确定的反应堆状态变化样本进行学习得到的，反应堆状态变化样本中包括反应堆状态空间与动作空间里的参数；反应堆状态变化样本的获取方式可以但不仅限于是基于高精度的数值反应堆，模拟大量的运行数据确定的。机器学习模型至少包括DNN(Deep Neural Networks，深度神经网络)预测模型(如图3所示)、RNN(Recurrent Neural Network，循环神经网络)预测模型(如图4所示)和基于高斯回归的预测模型(如图5所示)等。

如图3所示，为一个实施例中核反应堆的DNN预测模型，t时刻下的反应堆运行样本，包括了一个状态空间向量和一个动作空间向量，根据过去T个时刻(t,t-1,t-T+1)时刻运行样本数据，用于预测t+1时刻下的反应堆状态。DNN预测模型中包括输入层、隐藏层1-N和输出层；当获得完整的状态空间参数S_t时，DNN中不需要时间步长t之前的历史信息S_t-1。

图4中反应堆基于RNN预测模型中的网络结构不需要很深，即不需要很多隐藏层，根据过去T个时刻(t,t-1,t-T+1)时刻运行样本数据，用于预测t+1时刻下的反应堆状态。图5中基于高斯回归的预测模型，根据过去T个时刻(t,t-1,t-T+1)时刻运行样本数据，进行高斯过程回归处理预测t+1时刻下的反应堆状态。

步骤104，根据目标状态轨迹对反应堆全状态轨迹进行轨迹优化，得到核反应堆的控制动作组合。

其中，根据目标状态轨迹对反应堆全状态轨迹进行轨迹优化，是在功率运行过程中确保目标状态轨迹和反应堆全状态轨迹之间的偏差最小，达到核反应的反应要求，且满足反应堆的动态演化特性。动态演化特性是指t时刻的反应堆状态和t时刻的控制动作之间满足的关系(可以是线性关系，也可以是非线性关系)。

控制动作组合包括满足目标运行轨迹的反应堆状态和控制动作，反应堆状态包括相对中子密度比、第i组缓发中子先驱核密度(i为正整数)、堆芯燃料平均温度、冷却剂平均温度、氙密度、碘密度、钜密度和钐密度等；控制动作(可以理解为控制量)用于控制棒反应性负反馈和堆芯入口冷却剂平均温度；可以理解的是，目标运行轨迹是一种理想状况下的运行轨迹，控制动作组合对核反应堆进行控制，确保核反应堆的实际运行状态与目标运行状态之间的偏差达到最小。可以理解为控制动作组合使得目标状态轨迹和反应堆全状态轨迹的偏差达到预设值，且满足反应堆的动态演化特性。

具体地，根据预先确定的目标运行轨迹，结合集成预测模型，对反应堆全状态轨迹进行优化，得到反应堆状态每个时刻的控制动作组合。

步骤106，基于控制动作组合对核反应堆进行自主控制。

具体地，根据每个时刻的控制动作组合对核反应堆进行自主控制；也就是说根据控制动作组合驱动反应堆控制棒驱动机构，从而引入反应性进行反应堆的功率控制。

上述核反应堆的自主控制方法中，通过根据目标状态轨迹和反应堆全状态轨迹进行轨迹优化，得到核反应堆的控制动作组合；控制动作组合使得目标状态轨迹和反应堆全状态轨迹的偏差达到预设值，且满足反应堆的动态演化特性；根据控制动作组合对核反应堆进行自主控制；即实现大状态空间下多目标运行优化，解决PID单输入单输出或多输入单输出的控制不足，以及采用动态规划方法，有效提高了核反应堆自主控制的精度。

在另一个实施例中，如图6所示，提供了一种核反应堆的自主控制方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

步骤602，预先构建核反应堆的数理模型和机器学习模型。

步骤604，通过对数理模型和机器学习模型进行集成处理，得到集成预测模型。

具体地，将预先构建的核反应堆的数理模型和机器学习模型，基于Stacking技术框架进行集成，得到的集成预测模型。

步骤606，确定核反应堆的目标状态轨迹。

具体地，获取不同时刻下的核反应的反应堆运行功率水平，得到核反应堆的目标状态轨迹。

步骤608，将所述核反应堆的全状态参数输入预先构建的集成预测模型进行预测，得到反应堆全状态轨迹。

步骤610，确定反应堆全状态轨迹中反应状态以及对应控制动作。

具体地，根据反应堆全状态轨迹确定核反应堆系统的反应状态s_t，以及在反应在状态s_t采取行动a_t(即控制动作)。

步骤612，基于反应堆的动态演化特性，确定包含反应堆状态和控制动作的第一轨迹。

其中，在反应堆的状态转移中，反应堆的动态演化特性x_t+1＝f(τ_t)是高度非线性的函数。

具体地，基于反应堆的动态演化特性和模型预测控制(Model based predictivecontrol MPC)方法，确定包含反应堆状态和控制动作的第一轨迹。

MPC可以表示为：

其中，w是状态空间中各变量(含可测或不可测隐含变量)的权重，s为反应堆功率水平，s_t,target是反应堆目标功率水平，τ_t为第t时刻的控制动作，C_t为权重负值的对角线系数，x_t为第t时刻的反应堆状态。

根据反应堆全状态轨迹确定核反应堆系统的反应状态s_t，以及在反应状态s_t名义运行点处采取行动a_t(即控制动作)，得到包含反应堆状态和控制动作的第一轨迹

名义运行点为预先假设用于线性逼近的不动点。

步骤614，通过泰勒近似对第一轨迹进行线性化处理，得到最优策略下的第二轨迹。

其中，最优策略是指确定满足目标运行状态下的反应堆状态和控制动作。

具体地，基于反应堆的控制问题，根据第一轨迹对反应堆的动态演化特性x_t+1＝f(τ_t)(动态模型)进行线性化处理，得到线性化处理后的模型：

可知，s_t+1是s_t和a_t的线性函数：s_t+1≈A_t·s_t+B_t·a_t，即反应堆的下一个反应堆状态和上一时刻的反应堆状态和控制动作满足线性关系；由此可以确定

中的函数τ_t＝(s_t，a_t)进行泰勒展开近似为：

其中，其中H_sa是R_t在点的

的Hessian矩阵.R_t写为：

根据

将x_t+1＝f(τ_t)是高度非线性的函数确定在满足目标运行状态在的第二轨迹：

进一步地，在通过泰勒近似对所述第一轨迹进行线性化处理，得到最优策略下的第二轨迹，根据实际状态转移函数对所述第一轨迹的下一个反应堆状态进行更新，可以表示为

继续执行所述通过泰勒近似对所述第一轨迹进行线性化处理，得到最优策略下的第二轨迹步骤。

步骤616，对第二轨迹进行迭代处理，直到收敛到目标状态轨迹，得到核反应堆的控制动作组合。

具体地，将得到的第二轨迹进行迭代，直到收敛到目标状态轨迹，得到核反应堆的控制动作组合；可以理解为，在确定核反应堆的实际运行轨迹时，基于反应实际状态转移函数确定满足预设条件的标称轨迹，得到每个控制动作的预设反应堆状态(即，近似状态)，基于上述线性化函数进行跌代处理，生成下一个标称轨迹，直到标称轨迹收敛到目标轨迹，得到核反应堆的控制动作组合。

步骤618，基于控制动作组合对核反应堆进行自主控制。

如图7所示，基于集成预测模型确定的控制动作组合对核反应堆自主控制，与目标运行轨迹的效果图。

上述核反应堆的自主控制方法，通过对数理模型和机器学习模型进行集成处理；即结合不同反应堆模型的优点，提升控制精度，降低探测噪音污染影响；根据集成预测模型和目标状态轨迹进行轨迹优化，得到核反应堆的控制动作组合；控制动作组合使得目标状态轨迹和反应堆全状态轨迹的偏差达到预设值，且满足反应堆的动态演化特性；根据控制动作组合对核反应堆进行自主控制；即实现大状态空间下多目标运行优化，解决PID单输入单输出或多输入单输出的控制不足，以及采用动态规划方法，有效提高了核反应堆自主控制的精度，以及实现反应堆的集成模型预测控制。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的核反应堆的自主控制方法的核反应堆的自主控制装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个核反应堆的自主控制装置实施例中的具体限定可以参见上文中对于核反应堆的自主控制方法的限定，在此不再赘述。

在一个实施例中，如图8所示，提供了一种核反应堆的自主控制装置，包括：确定模块802、轨迹优化模块804和控制模块806，其中：

确定模块802，用于确定核反应堆的目标状态轨迹和反应堆全状态轨迹；

轨迹优化模块804，用于根据目标状态轨迹对反应堆全状态轨迹进行轨迹优化，得到核反应堆的控制动作组合；控制动作组合使得目标状态轨迹和反应堆全状态轨迹的偏差达到预设值，且满足反应堆的动态演化特性；

控制模块806，用于基于控制动作组合对核反应堆进行自主控制。

上述核反应堆的自主控制装置，通过根据目标状态轨迹和反应堆全状态轨迹进行轨迹优化，得到核反应堆的控制动作组合；控制动作组合使得目标状态轨迹和反应堆全状态轨迹的偏差达到预设值，且满足反应堆的动态演化特性；根据控制动作组合对核反应堆进行自主控制；即实现大状态空间下多目标运行优化，解决PID单输入单输出或多输入单输出的控制不足，以及采用动态规划方法，有效提高了核反应堆自主控制的精度。

可选地，在一个实施例中，确定模块802还用于确定核反应堆的目标状态轨迹。

可选地，在一个实施例中，核反应堆的自主控制装置还包括预测模块，用于将所述核反应堆的全状态参数输入预先构建的集成预测模型进行预测，得到反应堆全状态轨迹。

可选地，在一个实施例中，核反应堆的自主控制装置还包括构建模块和集成模块，其中：

构建模块，用于预先构建核反应堆的数理模型和机器学习模型；机器学习模型至少包括DNN预测模型、RNN预测模型和基于高斯回归的预测模型。

集成模块，用于通过对数理模型和机器学习模型进行集成处理，得到集成预测模型。

可选地，在一个实施例中，构建模块，用于构建核反应堆的数理模型；数理模型至少包括堆芯中子点堆动力学模型、热工水力模型、反应性反馈模型和核素衰变模型。

可选地，在一个实施例中，核反应堆的自主控制装置还包括训练模块，用于获取核反应堆的反应堆运行样本；根据反应堆运行样本对构建的不同类型的机器学习模型进行训练，得到训练好的机器学习模型。

可选地，在一个实施例中，轨迹优化模块804还用于确定反应堆全状态轨迹中反应状态以及对应控制动作；

通过泰勒近似对第一轨迹进行线性化处理，得到最优策略下的第二轨迹；

对第二轨迹进行迭代处理，直到收敛到目标状态轨迹，得到核反应堆的控制动作组合。

可选地，在一个实施例中，轨迹优化模块804还用于根据实际状态转移函数对第一轨迹的下一个反应堆状态进行更新。

上述核反应堆的自主控制装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种核反应堆的自主控制方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

确定核反应堆的目标状态轨迹和反应堆全状态轨迹；

根据目标状态轨迹对反应堆全状态轨迹进行轨迹优化，得到核反应堆的控制动作组合；控制动作组合用于确保目标状态轨迹和反应堆全状态轨迹的偏差达到预设值，以及满足反应堆的动态演化特性；

基于控制动作组合对核反应堆进行自主控制。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

确定核反应堆的目标状态轨迹；

预先构建核反应堆的数理模型和机器学习模型；

通过对数理模型和机器学习模型进行集成处理，得到集成预测模型。

构建核反应堆的数理模型；数理模型至少包括堆芯中子点堆动力学模型、热工水力模型、反应性反馈模型和核素衰变模型；

获取核反应堆的反应堆运行样本；

根据反应堆运行样本对构建的不同类型的机器学习模型进行训练，得到训练好的机器学习模型。

确定反应堆全状态轨迹中反应状态以及对应控制动作；

根据实际状态转移函数对第一轨迹的下一个反应堆状态进行更新，执行通过泰勒近似对第一轨迹进行线性化处理，得到最优策略下的第二轨迹步骤。

在一个实施例中，处理器执行计算机程序时还实现以下：

机器学习模型至少包括DNN预测模型、RNN预测模型和基于高斯回归的预测模型。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

确定核反应堆的目标状态轨迹和反应堆全状态轨迹；

基于控制动作组合对核反应堆进行自主控制。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

确定核反应堆的目标状态轨迹；

将所述核反应堆的全状态参数输入预先构建的集成预测模型进行预测，得到反应堆全状态轨迹。在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

预先构建核反应堆的数理模型和机器学习模型；

获取核反应堆的反应堆运行样本；

确定反应堆全状态轨迹中反应状态以及对应控制动作；

在一个实施例中，计算机程序被处理器执行时还实现以下：

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

确定核反应堆的目标状态轨迹和反应堆全状态轨迹；

基于控制动作组合对核反应堆进行自主控制。

确定核反应堆的目标状态轨迹；

预先构建核反应堆的数理模型和机器学习模型；

获取核反应堆的反应堆运行样本；

确定反应堆全状态轨迹中反应状态以及对应控制动作；

在一个实施例中，计算机程序被处理器执行时还实现以下：

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种核反应堆的自主控制方法，其特征在于，所述方法包括：

确定核反应堆的目标状态轨迹和反应堆全状态轨迹；

基于所述控制动作组合对所述核反应堆进行自主控制。

2.根据权利要求1所述的方法，其特征在于，所述确定核反应堆的目标状态轨迹和反应堆全状态轨迹，包括：

确定核反应堆的目标状态轨迹；

3.根据权利要求2所述的方法，其特征在于，在所述确定核反应堆的目标状态轨迹之前，所述方法还包括：

预先构建所述核反应堆的数理模型和机器学习模型；

4.根据权利要求3所述的方法，其特征在于，所述预先构建所述核反应堆的数理模型和机器学习模型，包括：

获取所述核反应堆的反应堆运行样本；

5.根据权利要求1所述的方法，其特征在于，所述根据所述目标状态轨迹对所述反应堆全状态轨迹进行轨迹优化，得到所述核反应堆的控制动作组合，包括：

确定所述反应堆全状态轨迹中反应状态以及对应控制动作；

6.根据权利要求5所述的方法，其特征在于，在所述对所述第二轨迹进行迭代处理，直到收敛到所述目标状态轨迹，得到所述核反应堆的控制动作组合之前，所述方法还包括：

7.根据权利要求3所述的方法，其特征在于，所述机器学习模型至少包括DNN预测模型、RNN预测模型和基于高斯回归的预测模型。

8.一种核反应堆的自主控制装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。