CN112380776B

CN112380776B - 面向反应堆状态转移概率估计分布的功率负荷控制方法

Info

Publication number: CN112380776B
Application number: CN202011335252.1A
Authority: CN
Inventors: 蔡杰进; 李文淮
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2024-03-19
Anticipated expiration: 2040-11-24
Also published as: CN112380776A

Abstract

本发明提供的面向反应堆状态转移概率估计分布的功率负荷控制方法，包括以下步骤：S1、定义全局运行目标或运行曲线；S2、构建反应堆状态转移概率模型；S3、定义区域运行曲线；S4、利用状态转移概率模型开展反应堆控制规划；S5、在每个控制时间步长内重复执行S2、S3、S4，直到控制过程达到所述全局运行目标。本发明通过状态转移概率模型，实现了不同动作组合在不同后续可能路径状态下的探索，选择动作组合中最小运行误差的动作，能够保证反应堆控制的最优性；选择动作组合在不同状态抽样下的期望值作为评判标准，保证了反应堆控制的鲁棒性。

Description

面向反应堆状态转移概率估计分布的功率负荷控制方法

技术领域

本发明属于核反应堆监测及运行支持领域，尤其涉及面向反应堆状态转移概率估计分布的功率负荷控制方法。

背景技术

一方面，基于现有信息的反应堆当前状态分布是概率置信的。随机现象在自然界广泛存在，据描述微观尺度物理行为的量子力学理论的观点，自然界在基础层面上就是随机的。具体在核反应堆中子学领域，中子与材料发生的各种反应道(如(n,f),(n,γ)等)是以一定的反应截面(概率)来发生的。虽然基于确定性假设建立的现有核反应堆运行理论，在运行保守条件下描述系统状态安全行之有效，但当面临反应堆状态的探测不确定性、动态系统含有非线性噪声、中子的随机裂变与吸收等现象时，如何捕捉反应堆运行状态以及在运行边界范围内的高效控制，是亟需解决的问题。

另一方面，反应堆存在一定的运行范围。堆芯的安全与堆芯内部发热最高并且传热最差的区域直接相关，该区域容易发生局部热流过大和传热太差导致燃料芯块或者包壳由于高温或者传热失效导致性能失效。因此需要限制堆内最热区域的发热功率(称为最大线功率密度MLPD)。因为MLPD主要与堆芯的功率水平和相对三维功率分布相关，因此在反应堆运行时，需要同时监测参数并限制其运行的范围，称为运行点范围。

从当前核反应堆安全分析技术方法论的角度出发，运行点是反应堆正常运行或运行瞬态下的工况点，是作为安全分析(事故分析)的状态起始点。因此从安全分析的角度，希望运行点范围越小越好，以减少安全分析时所需覆盖的论证工况，也更容易达到符合堆芯安全运行的相关安全裕量。然而从反应堆操作运行的角度而言，较窄较小的运行点范围将导致堆芯运行操作的难度增大，同时也大幅减少了堆芯灵活运行的可行性，比如快速降功率、负荷摇摆等，也丧失了相关的经济性。因此运行点范围的区域大小本质上是堆芯安全性和运行灵活性的平衡。

核反应堆正常运行及运行瞬态工况下，需保证反应堆堆芯的主要参数在一个运行范围内。该运行范围表征了核反应堆所允许运行的最大边界，超过运行边界将触发控制或者保护信号，将可能导致机组降功率或停堆等。电厂在调峰运行时，堆芯运行参数随着时间、运行功率和控制棒位的变化而变化，需要保证在调峰运行范围内实现各状态点的在线监测及跟踪，并确保在运行图范围内。通常在电厂调峰运行时，根据人工的调峰经验，应事先定义功率及控制棒的变化策略，通过堆芯设计软件或者堆芯三维在线监测系统进行预测计算。电厂根据人工搜索的运行策略来调节反应堆的运行，并保证实际的堆芯运行仍然满足运行范围。

当前存在的问题是，确定性视角下的现有反应堆运行与控制的不足。理论上只要知道反应堆的初始分布以及后续的控制目标，就能基于离线的反应堆理论模型，结合规划优化算法，预先确定一连串的行动建议。例如在确定负荷跟踪(如台风过境降功率过程)的目标后，运行人员进行堆芯理论建模并根据控制手段(如调硼、调灰棒、调黑棒)等，生成一个合理可行的方案。然而，离线产生的规划方案仅作为操作员的预先参考以判断整体趋势。具体操作控制过程却由操作员依据实时状态相机决定，使得实际操作路径与离线规划路径存在较大差异。造成控制规划容易失败的原因，包括：(a)在规划执行过程中累计的模型误差，盲目执行规划将导致误差发散；(b)控制行动效果的不确定性的发散；(c)全状态参数的感知缺失以及测量不确定性导致的观测不确定性发散。

以负荷跟踪为例，需满足运行图、废液排放、关联系统稳定性等多目标控制。一般而言在寿期末氙毒比较大，而慢化剂温度效应比寿期初大了几倍，氙的振荡相比寿期初更明显，更难控制。仅靠依赖操作员的判断，在寿期末发生大幅度的快速负荷变化在实际上是很难实现的。过去大亚湾核电机组也曾出现多次大幅度负荷跟踪下控制违反技术规范，例如2000年1号机的超出I区使得堆芯出现不可控的氙振荡。2016年防城港2号机也出现在进行汽轮机甩厂用电瞬态实验后进入计时区事件等。

在不确定性的环境中，只考虑最可能的状态是不够的，需要根据概率置信状态而不是最可能的状态调整行动，设计最优运行控制规划是概率运行反应堆相比于传统确定性方法的优势所在。反应堆的不确定性，包括控制效果的不确定性、测量感知的不确定性和关于反应堆状态演化的不确定性，需要解决如何在概率状态空间下的反应堆控制策略搜索与优化问题。

发明内容

为了解决现有技术中存在的缺陷，本发明提供面向反应堆状态转移概率估计分布的功率负荷控制方法，属于反应堆运行控制的范围，适用于各种负荷变化下的控制和优化。

本发明采用的技术方案如下：

面向反应堆状态转移概率估计分布的功率负荷控制方法，包括以下步骤：

S1、定义全局运行目标函数；

S2、构建反应堆状态转移概率模型；

S3、定义预测时间窗口T内的运行目标函数；

S4、利用状态转移概率模型开展反应堆控制规划；

S5、在每个控制时间步长内重复执行S2、S3、S4，直到控制过程达到控制运行目标。

进一步地，步骤S1中所述全局运行目标函数定义如下：

其中，为从t＝1时刻到t＝T_target时刻下最优控制动作，T_target为控制间隔相关的预测步数，s₁表示t＝1时刻下的反应堆状态向量，s_init为初始的已知的反应堆状态向量，s_t+1表示在t+1时刻下的反应堆状态向量，f(a_t,s_t)表示为一个反应堆状态转移函数或模型，表征反应堆t时刻状态s_t在动作a_t下的状态变化，而s_t,Target表示t时刻下的反应堆状态的目标向量，w₁为n×n维度的单对角矩阵，对应每个运行参数的权重，w₂为各个参数的运行限制的权重。

进一步地，步骤S2中所述构建反应堆状态转移概率模型，具体包括：

S2.1、构建反应堆状态向量St；

S2.2、构建反应堆动作向量At；

S2.3、在反应堆运行期间，构建运行数据集合DATAset；

S2.4、利用人工神经网络考虑系统不确定性，并建立所述状态转移概率模型。

进一步地，步骤S2中，在建立所述状态转移概率模型过程中，利用样本抽样学习来消除数据认知的不确定性。

进一步地，采用Bagging算法进行抽样，给定一个样本量大小为N的训练集DATAset，每个样本被选中的概率均为1/N，从中均匀、有放回地选出N个训练样本，构成数据子集DATAset(i)，取各数据子集的平均来消除数据认知的不确定性，即：

进一步地，根据控制规划的步长来确定所述预测时间窗口T。

进一步地，步骤S4中所述利用状态转移概率模型开展反应堆控制规划，具体包括：

S4.1、在当前时刻t下，基于前期(t-1,t-2,…,t-N)的反应堆控制动作，对T时间间隔内的整体控制动作空间进行M次抽样，获取t到t+T时间范围内的控制动作空间中的多个动作组合其中m表示第m/M次抽样；

S4.2、在当前t时刻下的反应堆状态参数的概率分布中，进行抽样，获得P个状态点粒子每个粒子则通过状态转移概率模型进行传播，从而获得第p个粒子在第m个动作空间下第i个数据集训练下的概率神经网络模型的预测值/>

S4.3、评估t时刻下的第m个控制动作组合的控制效果，对于第n个控制动作组合时，整体评估为：

S4.4、确定当前动作，更新概率数据集如下：

其中，序列的第一个动作即为t时刻下需要采用的动作；

S4.5、返回步骤4.1更新动作空间概率分布，实现交叉熵的重新抽样。

进一步地，为：

与现有技术相比，本发明能够实现的有益效果至少如下：

本发明通过状态转移概率模型，实现了不同时刻反应堆运行状态点的值的概率分布(均值与方差)，从而为更全面综合判断反应堆的安全和高效运行奠定基础；

本发明通过带有不确定度的反应堆状态点，在运行目标轨迹中考虑运行不确定度的影响，保证运行安全的保守性；

本发明通过状态转移概率模型，实现了不同动作组合在不同后续可能路径状态下的探索，选择动作组合中最小运行误差的动作，能够保证反应堆控制的最优性；选择动作组合在不同状态抽样下的期望值作为评判标准，保证了反应堆控制的鲁棒性(抗不确定性干扰)。

附图说明

图1是本发明实施例的流程图。

图2是典型压水堆核电厂的典型运行模式及其自动化水平示意图。

图3是本实施例中12-3-6-3负荷跟踪示意图。

图4是节假日降功率过程示意图。

图5是本发明实施例中目标运行动作的探索示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

因为测量不确定性、控制效果的不确定性以及状态转移动态不确定性，因此需要在置信空间内应对反应堆可能面临的所有情况下选择控制策略。本发明基于如下几个重要结论：

(1)本发明认为对反应堆状态转移的精确建模和预测模型的精度，对于获取高质量的反应堆控制结果是至关重要的，特别是针对核反应堆这样非常复杂且可能存在不连续的动态系统。现有反应堆建模与预测，主要基于数理方程模型的理论预测软件，或者基于运行或设计数据的机器学习方法。一般而言，理论预测软件的计算精度较高，但存在计算效率缓慢以及未能给出定量不确定性等缺点。在机器学习范围内，虽然高斯过程回归等有效模型学习速度非常快，在数据量较少时也能有较高精度，但在数据量大或高维度时，计算复杂度大幅提高，影响计算效率；神经网络(NN)模型虽然可扩展到具有高维输入的大数据集，但却面临着相反的问题，即在小数据集时，存在过拟合线性，对反应堆状态的预测很差。

(2)本发明认为，将不确定性适当的考虑到反应堆的状态转移概率模型中，将显著提升控制效果，解决在动态不确定性环境下，反应堆的控制规划效果差等问题。

本发明主要说明，针对核反应堆的规划运行控制：

(1)如何构建一个核反应堆运行时的状态转移概率模型；

(2)如何基于反应堆的状态转移概率模型实现反应堆的最优规划控制。

步骤S1：定义全局运行目标函数。

反应堆的运行，是在一定运行范围区间的。其全局运行目标与当前反应堆的运行场景密切相关。图2给出正常典型运行模式的功率变化图及其自动化水平。在满功率运行时，反应堆已经实现了完全的自主控制。在反应堆启动和停堆阶段，则完全依赖手动操作。在反应堆升降功率时，由于要协调多种手段，实现控制反应性、功率分布和抑制氙震荡等多个目标，需要手动完成。手动操作模式是一个可能导致高工作负荷和人为错误的过程，因为操作员需要根据操作过程中电厂功率的变化等检查许多电厂参数和控制部件。这种操作环境可能导致很高的人因错误概率。以韩国核安全研究所的核电站运行性能信息系统记录为例，1997年至2017年启停运行期间的意外跳闸，人为失误约占整个行程历史的40％。一旦核电站跳闸，就会造成巨大的经济损失，这同样给操作人员带来沉重的心理负担。

本发明分解运行目标为：

(1)启动阶段，目标是自动实现多个标志性阶段，包括自动搜索达临界点、多普勒点、升功率、各功率台架测量与状态评估。

(2)短时间内，阶跃升降功率，即在短时间内，反应堆输出功率实现快速变化、时间最小的稳定时间和最小的超调量；

(3)功率负荷摇摆，包括几种典型场景：

a)堆跟机的功率负荷摇摆，典型如白天用电需求多，功率要求较高；而夜晚用电需求少，功率要求低。如图3所示，全天24小时内功率负荷变化形成了12(100％FP)-3(下降阶段)-6(50％FP)-3(升功率阶段)的变化趋势，

b)较长时间低功率运行模式，典型如节假日用电需求降低、台风过境的降功率过程，或者燃料循环末期的长期低功率运行。如图4所示，图中横坐标表示反应堆轴向功率偏差(堆芯上半部分功率值减去下半部分功率值(％FP)，FP为full power满功率，纵坐标表示全堆堆芯的功率值(％FP)，反应堆运行状态点需要在运行图范围内。且运行点不能超过运行图的各种边界，或者在进入运行图的某些区域时，需要开始进行计时。限制累计时间，可有效抑制潜在的功率或氙的不平衡，避免引起氙毒物或功率分布的震荡。

(4)停堆阶段，保证足够的次临界深度，并保证反应堆余热持续排出。

因此从全局的角度上讲，全局运行目标函数可以定义为：

其中，为从t＝1时刻到t＝T_target时刻下最优控制动作，T_target为控制间隔相关的预测步数(根据控制目标不同，控制间隔与预测步数也不同，例如实时控制一般小于秒，如果是长周期的氙毒控制则需要达到小时或天的间隔)，s₁表示t＝1时刻下的反应堆状态向量，s_init为初始的已知的反应堆状态向量，s_t+1表示在t+1时刻下的反应堆状态向量，f(a_t,s_t)表示为一个反应堆状态转移函数或模型，表征反应堆t时刻状态s_t在动作a_t下的状态变化，而s_t,Target表示t时刻下的反应堆状态的目标向量。所有时刻下的s_t,Target构成了反应堆的目标运行轨迹，而B_limit为反应堆运行的各种参数的运行边界，且值与状态向量的具体参数变量直接相关。

本实施例假设反应堆的状态向量的维度为n，即有n个运行参数，包括了一些与核安全或高效运行相关参数，例如燃料芯块或包壳最高温度、冷却剂最高温度，也包括了一些基础的核子密度参数，对反应堆的安全存在间接影响。w₁为n×n维度的单对角矩阵，对应每个运行参数的权重，当关注类似功率、温度等第k个参数时，w_1,k＞0，但对于非重要变量如盒子密度参数时w_1,k＝0。

而w₂的设置与w₁相类似，为n×n维度的单对角矩阵，为各个参数的运行限制的权重。有些运行限制的权重要求很高，直接触发安全系统动作，有些运行边界的权重较低，可能触发警报等。一种方法是，对于仅仅提供警告的参数(具体可以包括控制棒插入超过低限、运行点进入计时区、运行点进入左侧预警线、温度超过预警区间)，其对应w₂可以取值较小，例如w_2,k＝0，有些至关反应堆运行安全的运行边界(具体可以包括象限功率倾斜超过限值、轴向热点因子超出限值、运行点超出左右安全线、控制棒插入超过低低限)，则不允许超界，此时w₂应该取的很大，例如w_2,k→∞。另一种方法是，当且仅当出现运行参数超过运行边界的时候，w₂就设置成为w_2,k→+∞。

从全局的角度上讲，希望尽量与目标运行轨迹相当，同时尽量远离运行边界。

步骤S2：构建反应堆状态转移概率模型。

此步骤描述针对核反应堆运行时，真实但未知的反应堆状态转移概率模型的建模方法。在反应堆运行的初期，很难获得足够的反应堆运行数据，此时数据量很少。但在反应堆长期运行控制的后期，则运行的数据量很大，很难找到一种合适的机器学习方法能够适用于全控制过程。

本实施例提出的状态转移概率模型是一种函数逼近模型，能够实现在反应堆运行的初期数据量较少的情况下，不会过拟合且精度较高，能够实现在运行末期数据丰富的情况下，能够精确反应复杂的反应堆动力学系统。

本发明构建反应堆状态转移概率模型的基本流程如下：

步骤2.1构建反应堆状态向量St。

核反应堆运行过程中的主要获取测量参数包括：(1)RPN系统中的：四个象限轴向6段(或2段)的电离室分段电压或电流，以及延伸计算得到的堆外核功率测量值、轴向功率不平衡偏差、功率量程有效性检验值等；(2)RIC系统中的：环路入口冷段温度、出口热端温度、稳压器压力、主泵泵速度、热功率；(3)SPND系统中的：堆内中子探测器的电流信号(4)T/C系统中的：堆芯出口靠近燃料组件顶部热电偶组(约40-50组)温度值等；(5)二次侧的给水流量、冷端温度、压力等。

核反应堆运行过程中存在的不可直接测量，但可基于理论方程进行推导得到的参数，例如：(1)三维功率分布，以及轴向功率分布、径向功率分布、功率峰值因子、功率倾斜(径向、轴向)；(2)三维宏观燃耗分布，以及三维微观燃耗分布，包括各三维节点上的重要微观核素的核子密度变化，如U235/238、Pu238等裂变核素或Gd、B10等中子吸收毒物、或Xe或Sm等裂变产物衰变产生的中子毒物等；(3)堆芯内与冷却剂流体相关的温度场、压力场、速度场(流场)等；(4)堆芯中各燃料组件中燃料元件的包壳温度场、燃料芯块温度场等。

在构建反应堆状态转移概率模型时，可根据需要确定反应堆状态向量中包含的参数，一般而言：

(1)反应堆的状态参数本质上是由不可直接测量的核子密度上确定的，为此在反应堆状态向量St中包括核子密度等参数，有助于构建更高精度的预测模型；

(2)核子密度等隐含不可测量状态参数的推导，受到可测量参数的不确定性、理论推导模型的简化及不确定性的影响；

(3)在传统的核反应堆运行中，并不对核子密度等隐含变量进行监测或控制，因此这些参数可能是不可获取的；反应堆的控制或安全监测主要依靠可直接测量变量。本发明也可以摆脱核子密度等，直接搭建基于大量的可测量状态参数到下一时刻的可测量状态参数的转移模型。

因此本发明的反应堆状态转移概率模型的构建的数据来源，可以主要包括可测量状态参数，也可以同时包括可测量状态参数以及隐藏的不可测状态参数。

为了便于理解，以一个简化后的点堆为例，不带有三维空间分布，其状态向量为：

s_t＝[p C_r,1...C_r,6ρT_f T_cav I_od Xe Pm Sm]^T

其中p为反应堆功率，C_r,1...C_r,6分别为6群缓发中子先驱核的核子密度，ρ为反应堆的反应性，T_f为燃料芯块温度，T_cav为燃料包壳温度，I_od Xe Pm Sm分别为碘、氙、钷、钐等中子吸收核或衰变先驱核的核子密度。

步骤2.2构建反应堆动作向量At。

涉及的反应堆控制变量，包括：(1)RGL系统中的：各黑棒、灰棒棒的指示棒位和测量棒位；(2)硼化系统上充下泄涉及的冷却剂中硼浓度；(3)二次侧的温度、压力控制，进而影响一次测的堆芯入口温度等。

为了便于理解，以上述简化后的点堆为例，其动作向量为：

A_t＝[ρ_in,T_in]^T

其中ρ_in为反应性引入大小，由控制棒的棒位或临界硼浓度决定，而T_in为堆芯入口温度。

本发明不限于具体反应堆的控制变量。

步骤2.3在反应堆运行期间，构建运行数据集合DATAset。

将核反应堆运行过程中的前一时刻的状态参数向量S_t-1，动作向量A_t-1,当前时刻的反应堆状态S_t，构建一个实时累计的运行数据集合，用于后续的机器学习拟合。

具体而言，前一时刻的状态参数向量S_t-1包括的参数已在步骤2.1中说明，动作向量A_t-1包括的参数在已在步骤2.2中说明，对于数据集合的一个样本，需要拟合的输入参量为(S_t-1,A_t-1)，输出变量为S_t，因此需要构建大量的运行样本集合DATAset，每个样本均包括[(S_t-1,A_t-1),S_t]。

步骤2.4：利用人工神经网络考虑系统不确定性，建立状态转移概率模型。

反应堆状态转移机器学习模型选择，对反应堆预测控制至关重要，即使是小偏差也会显著影响相应预测控制的质量。核反应堆的状态变量维度很高，而类似于高斯过程回归等方面面临维度灾难，为此，本发明采用人工神经网络方法。传统的人工神经网络的原理、结构和训练方法等已经被大量公开，是一种成熟技术，本发明将不赘述。

系统不确定性是由系统固有的随机性引起的，如观测噪声和过程噪声。本发明通过将人工神经网络的输出从状态点转为输出某种概率分布，从而捕捉系统不确定性。传统的神经网络模型，输入为(S_t,A_t)，输出为S_t+1，本发明中，采用概率神经网络模型f_θ，其中θ为人工神经网络的待学习参数，如神经网络中的权重系数等。输出为每个状态参数的高斯分布，N(μ_θ(s_t,a_t),σ_θ(s_t,a_t))，其中μ_θ(s_t,a_t)为预测的后一时刻S_t+1的期望值，而σ_θ(s_t,a_t)为S_t+1的单对角协方差矩阵。此时神经网络的训练损失函数为：

步骤2.5：利用样本抽样学习考虑数据认知不确定性。

数据认知不确定性体现为对核反应堆运行系统的动力学探索不足或数据经验不足，导致的认知不确定性，本质上是缺乏足够的数据来定义底层的核反应性系统。在数据量无限的情况下，认知不确定性消失，但对于有限大小的数据集，不管采用何种机器学习方法都仍然存在认知不确定性。高斯过程回归等基于贝叶斯建模的学习方法，有助于确定主观认知不确定性，有助于数据量较少时缓解过度拟合，但需要大量的计算资源。

本发明采用Bagging的采用方法，实现数据不确定性的估计。

给定一个样本量大小为N的训练集DATAset，该数据集根据步骤2.3中进行创建。每个样本被选中的概率均为1/N，采用Bagging算法，从中均匀、有放回地(即使用自助抽样法)选出N个训练样本，即重复选择次数与DATAset的前面用N表示样本量大小是相同的，构成一个数据子集DATAset(i)，因为有些样本被多次抽到而有些样本却一次也没有被抽到，此时数据子集DATAset(i)样本量约为总样本量N的63％。

本发明基于数据子集DATAset(i)，进行步骤2.4中的人工神经网络的建模与学习，建立第i个人工神经网络在所有数据集合DATAset的结果是各数据子集的平均,能够有效消除数据认知的不确定性，即：

其中，表示第i个人工神经网络的输出结果，而/>为状态转移概率模型的输出结果，(*)为人工神经网络的输入(s_t,a_t)，Bag表示为bagging采用的重复次数，本发明中可选择(3-100)次，根据样本集数据量与反应堆系统的复杂度，一般而言取5或10就能获得较好的结果。

步骤S3：定义预测时间窗口内的运行目标函数。

在控制过程中，不需考虑长远的目标，而考虑近期运行目标，因此在反应堆运行规划控制时，当前t时刻下，只考虑从t到t+T时刻范围内的运行目标，其中T为预测时间窗口。一方面是为了减少控制过程的运算量，另一方面是因为反应堆状态过程是马尔可夫过程，对近期时刻的有效控制能够有效避免远期的运行目标。

本发明关于预测时间窗口T的选取，应该根据控制规划的步长来确定。例如，对反应堆快速功率负荷变化，以秒的时间作为控制间隔，预测时间窗口T可在秒级范围，此时很多反应堆状态变化可大幅简化，例如可假设反应堆核子密度不变，大幅提高预测计算效率。但对于反应堆日功率负荷摇摆变化，以分钟或小时的时间作为控制间隔，此时预测窗口需要达到小时或天的量级，以实现核子密度变化导致的宏观参数变化，例如氙毒的控制或氙空间分布的震荡导致的功率分布震荡等效应。

具体的，本实施例中，在预测时间窗口T中，定义时间窗口内的运行目标函数。具体方法与步骤1相关。与步骤1的唯一区别在于当前运行时刻t到t+T时刻下的运行时间上，考虑这段时间内的运行目标。预测时间窗口T内的运行目标函数如下：

步骤S4：利用状态转移概率模型开展反应堆控制规划。

本发明重复利用状态转移概率模型的概率预测功能，实现在给定运行目标和限值的情况下的最优规划与控制。

一旦学习了一个状态转移概率模型，就可以通过预测候选策略或行为的未来结果来使用它进行控制，然后选择预计会产生最高回报的特定候选。

给定当前时刻t下的状态S_t，因为反应堆控制动作手段是有限的，可通过随机抽样的方法定义在预测时间窗口T下的控制动作序列A_t:t+T＝{A_t,…,A_t+T}，通过状态转移概率模型获得在该动作序列下的状态轨迹S_t+1:t+T。基于模型预测控制的原则，将采用最小化运行状态损失的动作组合A_t:t+T的第一个动作A_t作为t时刻控制动作。

具体步骤包括：

步骤4.1：在当前时刻t下，基于前期(t-1,t-2,…,t-N)的反应堆控制动作，对T时间间隔内的整体控制动作空间进行M次抽样，获取t到t+T时间范围内的控制动作空间中的多个动作组合其中m表示第m/M次抽样。

本发明拟采用交叉熵的方法。在反应堆控制动作空间中，在t-1时刻已开展了M次抽样，并获得每组动作的样本点的误差。交叉熵方法，类似于进化算法，可根据这些误差信息决定下一轮控制动作的抽样。交叉熵方法相对比较成熟，本发明将不赘述。

步骤4.2：当前反应堆状态的粒子抽样以及在状态转移概率模型下的传播。

首先在当前t时刻下的反应堆状态参数的概率分布中，进行抽样，获得P个状态点粒子其中p表示第p个粒子，每个粒子通过状态转移概率模型/>进行传播，从而获得第p个粒子在第m个动作空间下第i个数据集训练下的状态转移概率模型的预测值：

步骤4.3：评估t时刻下的第m个控制动作组合的控制效果。

定义在t时刻下的反应堆状态的奖励为：

其中，s_τ、s_τ,Target等参数的意义，与步骤1或步骤3中的参数定义一致，但增加了一个δ项，δ表示为反应堆状态不确定性对反应堆运行边界考虑的影响。对于某个状态参数，其95％-95％的置信区间约等于(μ_θ(s_t,a_t)-kσ_θ(s_t,a_t)，μ_θ(s_t,a_t)+kσ_θ(s_t,a_t),k＝1.96)。为此,当该置信区间触及该参数的运行边界B_limit时，增加一个附加的惩罚项，即当置信区间超出运行边界时，δ＞0，当不触及运行边界时δ＝0。关于如何利用当前状态的置信区间的使用方法，可以有更多的变种，本发明仅举例一个最简单通用的例子。

因此对于第m个控制动作组合时，整体评估为：

其中，RR_m表示第m个控制动作的获得的控制效果奖励，而表征针对第m个控制组合下的第p次粒子状态抽样下的第i次样本训练下的奖励。

步骤4.4：确定当前动作，更新概率数据集。

选择最优控制动作组合的第一个动作作为当前t时刻的控制动作。步骤4.1中提出了M个动作组合的采样，步骤4.4则针对这M个动作采样样本进行评估，从而选择一个最大收益的控制动作样本/>本发明选择序列的第一个动作/>作为t时刻下需要采用的动作。

根据需要，更新运行数据库DATAset，并重新训练状态转移概率模型。

步骤4.5：返回步骤4.1更新动作空间概率分布，实现交叉熵的重新抽样。

整体的搜索与控制过程，如图5所示。其中，在从高功率到低功率的目标过程中，分叉曲线为本发明通过动作抽样下的控制曲线，需要进行大量的抽样模拟评估。

步骤5、在每个控制时间步长内重复执行S2,S3，S4，直到控制过程达到控制运行目标。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.面向反应堆状态转移概率估计分布的功率负荷控制方法，其特征在于，包括以下步骤：

S1、定义全局运行目标函数，所述全局运行目标函数定义如下：

其中，为从t=1时刻到t=/>时刻下最优控制动作，/>为控制间隔相关的预测步数，/>表示t=1时刻下的反应堆状态向量，/>为初始的已知的反应堆状态向量，/>表示在t+1时刻下的反应堆状态向量，/>表示为一个反应堆状态转移函数或模型，表征反应堆t时刻状态/>在动作/>下的状态变化，而/>表示t时刻下的反应堆状态的目标向量，为/>维度的单对角矩阵，对应每个运行参数的权重，/>为各个参数的运行限制的权重；

S2、构建反应堆状态转移概率模型，具体包括：

S2.1、构建反应堆状态向量St；

S2.2、构建反应堆动作向量At；

S2.3、在反应堆运行期间，构建运行数据集合DATAset；

S2.4、利用人工神经网络考虑系统不确定性，并建立所述状态转移概率模型，所述状态转移概率模型采用概率神经网络模型，/>为人工神经网络的待学习参数，输出为每个状态参数的高斯分布，/>，/>为预测的后一时刻/>的期望值，为/>的单对角协方差矩阵，/>表示动作，/>表示t时刻下的反应堆状态向量；

步骤S2中，在建立所述状态转移概率模型过程中，利用样本抽样学习来消除数据认知的不确定性；

S3、定义预测时间窗口T内的运行目标函数；

S4、利用状态转移概率模型开展反应堆控制规划，具体包括：

S4.1、在当前时刻t下，基于前期t-1,t-2,…,t-N的反应堆控制动作，对T时间间隔内的整体控制动作空间进行M次抽样，获取t到t+T时间范围内的控制动作空间中的多个动作组合，其中m表示第m/M次抽样；

S4.2、在当前t时刻下的反应堆状态参数的概率分布中，进行抽样，获得P个状态点粒子，每个粒子则通过状态转移概率模型进行传播，从而获得第p个粒子在第m个动作空间下第i个数据集训练下的概率神经网络模型的预测值/>；

其中，为：

式中，表示第m个控制动作的获得的控制效果奖励，/>表征针对第m个控制组合下的第p次粒子状态抽样下的第i次样本训练下的奖励，/>表示为反应堆状态不确定性对反应堆运行边界考虑的影响，/>为参数的运行边界，/>表示为bagging采用的重复次数，为/>维度的单对角矩阵，对应每个运行参数的权重，/>为各个参数的运行限制的权重；

S4.4、确定当前动作，更新概率数据集如下：

其中，序列的第一个动作即为t时刻下需要采用的动作；

S4.5、返回步骤4.1 更新动作空间概率分布，实现交叉熵的重新抽样；

2.根据权利要求1所述的面向反应堆状态转移概率估计分布的功率负荷控制方法，其特征在于，采用Bagging算法进行抽样，给定一个样本量大小为N的训练集DATAset，每个样本被选中的概率均为1/N，从中均匀、有放回地选出N个训练样本，构成数据子集DATAset(i)，取各数据子集的平均来消除数据认知的不确定性，即：

其中，表示第i个人工神经网络的输出结果，而/>为状态转移概率模型的输出结果，/>为人工神经网络的输入/>，/>表示为bagging采用的重复次数。

3.根据权利要求2所述的面向反应堆状态转移概率估计分布的功率负荷控制方法，其特征在于，的取值范围为3-100。

4.根据权利要求1所述的面向反应堆状态转移概率估计分布的功率负荷控制方法，其特征在于，根据控制规划的步长来确定所述预测时间窗口T。

5.根据权利要求1所述的面向反应堆状态转移概率估计分布的功率负荷控制方法，其特征在于，步骤S3中所述预测时间窗口T内的运行目标函数为：

式中，为参数的运行边界，t为时刻，/>为/>维度的单对角矩阵，对应每个运行参数的权重，/>为各个参数的运行限制的权重，/>表示/>时刻下的反应堆状态的目标向量，/>表示在t时刻下的反应堆状态向量。