CN110278651A

CN110278651A - 一种校准加速器束流偏移的强化学习方法

Info

Publication number: CN110278651A
Application number: CN201810206762.5A
Authority: CN
Inventors: 周庆国; 王金强; 杨旭辉; 雍宾宾; 申泽邦; 谢启荣; 武强
Original assignee: Lanzhou University
Current assignee: Lanzhou University
Priority date: 2018-03-14
Filing date: 2018-03-14
Publication date: 2019-09-24
Anticipated expiration: 2038-03-14
Also published as: CN110278651B

Abstract

本发明公开一种校准加速器束流偏移的强化学习方法。在加速器的中能束流传输段中，束流受设备安装精度和周围复杂环境的影响而发生位置偏移，其严重影响了束流所能够达到的能量级别。传统方法是通过复杂的物理计算得到校准电压值，并使用脚本程序自动输入进行不断尝试，其过程复杂繁琐。本文通过对中能束流传输段中的三组水平和竖直方向的四极磁铁内部集成的校准线圈分析，依靠强化学习利用环境和智能体之间交互学习的特性对加速器环境进行建模，是一种使用确定性策略探索连续的大状态空间和动作空间，并利用神经网络逼近最优校准电压值的束流偏移校准方法。

Description

一种校准加速器束流偏移的强化学习方法

技术领域

本发明涉及一种校准加速器束流偏移的强化学习方法。

背景技术

质子直线加速器是由高频电源离子源、加速电极、靶室、直空系统等组成的一种束流强度高、粒子注入和引出容易的科学装置。质子直线加速装置的中能束流传输段由多个四极磁铁沿轴线中心安装，由于安装精度和周围复杂磁场互相影响原因，不可避免的导致被加速的高能量质子束在运动过程中会发生轨道偏移，过多的偏移会影响进入超导腔体部分的质子质量，甚至存在高能量安全隐患。目前的质子束流轨道偏移矫正主要依靠复杂的物理方法和大量的数学运算来计算轨道偏移量，然后依次不断输入磁铁线圈电压值进行校准，由于质子直线加速器系统是一个变量非常多的复杂系统，采用逐个线圈重复式调试是非常低效的，根据束流运动的位置信息来直接自动矫正磁铁线圈电压值的方法基本没有。

强化学习是机器学习中的一个领域，其灵感来源于心理学中的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。在控制理论研究通常研究关于最优解的存在和特性，其中，DavidSliver等人证明了深度神经网络在强化学习中可以逼近最优值函数后，该方法成功的解决了大状态空间和大动作空间下的连续变量的函数值逼近方法和探索过程。

发明内容

本发明提供了一种可以克服以上不足，原理简单、全局优化的质子束流轨道偏移校准的方法，质子束流在经过加速设备加速后进入中等能量传输段，智能体根据位置信息利用神经网络逼近最优策略，并得到最优的校准线圈电压值。

一种校准加速器束流偏移的强化学习方法，包括以下步骤：

步骤1：在加速器中使用强化学习主要包括环境、智能体、校准束流奖励机制、确定性策略等。所述的环境即加速器系统，主要包括校准线圈、位置检测器两个核心部件；所述的智能体是强化学习的核心元素，其根据位置检测器的位置检测，对校准线圈施加电压的过程做出一套最优策略；所述的校准束流奖励机制是根据智能体动态决策后，根据施加电压值情况判断束流在校准之后的位置距离轴线中心的距离而设置的一种奖惩规则；所述的确定性策略是指大状态空间和动作空间下，智能体能够自身的在一个确定策略下搜索状态和动作空间的方法。

步骤2：根据强化学习过程所需元素信息，构建四元组马尔科夫过程，将加速器系统中位置检测信息、加速器系统中校准线圈施加电压值进行抽象化，定义状态空间S为位置检测器测量值BPM，动作空间A为所施加的校准电压值C(c1,c2,c3)，智能体输出动作后获得的奖励R:S×A×S’→R，共同组成马尔科夫决策过程四元组<BPM1,C,R,BPM2>。

步骤3：根据动态的束流位置和校准线圈电压值，对加速器系统环境进行建模，并在设置长期累积期望γ折扣奖励的基础上，定义策略π，状态-动作值函数Q(s,c)。建立Q(s,a)的Bellman方程关系，得出下一个状态与当前状态之间的关系，并得到最优状态-动作值函数Q^*(s,c)。

步骤4：根据状态-动作值函数的Bellman方程，使用确定性策略对大状态空间和动作空间进行探索学习。

步骤5：使用Actor-Critic框架和深度神经网络逼近最优值求解。

所述的步骤5的具体步骤为：

步骤5.1：根据Actor-Critc框架分别为策略和状态动作值函数进行学习，同时采用神经网络逼近策略网络和状态-动作值函数网络，其中状态-动作值函数网络采用Temporal-Difference learning method(TD-error)方法更新策略网络。

步骤5.2：采用“soft”更新方法更新策略网络和状态-动作值函数网络的目标网络

附图说明：

图-1为直线加速器中束流校准的强化学习结构图。

图-2为Actor-Critic异步更新的结构图。

图-3为方法的评价网络和目标网络的更新网络结构图。

图-4为束流偏移校准学习过程图。

具体实施方式：

为了使本发明的内容、技术方案和优点更加的清楚，结合附图，进一步对本发明做详细说明。在图-1中对环境进行强化学习的建模：

步骤1)：建立一个强化学习方法，主要包括环境、智能体、校准束流奖励机制、确定性策略等。

步骤1.1：所述的环境即加速器系统的校准线圈电压值、位置检测器(BPM)值，其可以在系统中直接读取(也可以从系统数据库中直接读取)。

步骤1.2：所述的智能体是深度强化学习的核心部件，其具体的神经网络在步骤4.2描述。

步骤1.3：所述的校准束流奖励机制是根据智能体动态决策后施加电压值情况下束流位置发生校准之后的位置而判断该位置好坏的一种奖惩规则，本发明使用了长期累积期望折扣奖励，折扣因子为γ，其描述为：

步骤1.4：所述的确定性策略是在大状态空间(BPM位置空间信息)和动作空间(校准线圈电压值信息)下，智能体能够自身的在确定的策略下探索状态空间进行智能决策。

步骤2)：抽象化位置信息、校准线圈电压值信息、奖励为序列<BPM1,C,R,BPM2>。

步骤3)：得到下一个状态与当前状态之间的最优值函数和状态-动作值函数。

步骤3.1：为了能够促进智能体高效学习需设置序列每一步奖励R，其设置是根据校准后的束流距离轴线中心的距离进行。如果距离超过2，则奖励直接设置R＝-1，表明是一个比较差的校准效果；如果奖励在2之间且不等于0，奖励则为R＝|distance|；如果距离为0，奖励直接设置0，表示是最好校准电压值。

步骤3.2：根据累积期望折扣奖励,最大化策略π^*，并得到最优值函数V^*(s)和状态-动作值函数Q^*(s,c)。

通过Bellman方程的推导得到下一个状态s_t+1(BPM2)和当前状态s_t(BPM1)之间的最优状态-动作值函数关系为：

步骤3.3：为了能够使用神经网络逼近最优状态-动作值函数，采用确定性策略μ＝μ_θ(s)在状态空间和动作空间上探索后可以消除求解内部动作期望，其描述为：

在图-2中进行Actor-Critic框架的学习：

步骤4)：根据值函数和动作-值函数的Bellman方程，使用确定性策略进行对大状态空间和动作空间进行探索学习，并利用Actor-Critic异步更新方法指导策略网络更新。

步骤4.1：为了增大探索空间和找到优秀策略，定义μ′进行探索，其中M为探索空间的大小。

在图-3中构建方法的网络结构图。

步骤4,2：根据Actor-Critic框架思想，分别构建评价网路Actor网络(策略网络)和Critic(值网络)。其中Actor网络的输入是加速器的位置信息BPM，输出为校准电压的三个电压值(C1，C2，C3),而Critic网络的输入则是位置信息BPM和电压值(C1,C2,C3),它是在当前位置BPM下评价策略网络得到的动作值的好坏效果。

步骤5)：根据加速器系统校准线圈电压值和校准位置之间的状态-动作值函数的Bellman关系，使用深度神经网络逼近最优值求解。

步骤5.1：根据Actor-Critc框架，采用神经网络逼近值函数评价网络，同时使用Temporal-Difference learning method(TD-error)方法更新策略评价网络。其中Actor网络根据如下公式(6)更新策略梯度。

同时Critic网络根据如下公式(7)(8)最小化损失函数并逼近最优值。

y_t＝r_t+γQ′(s_t+1,μ′(s_t+1|θ^μ′)|θ^Q′) (8)

步骤5.2：由于束流位置的序列数据间数据具有一定的关联性，其不满足强化学习的条件，采用打乱数据之间的关联性进行学习，本发明使用创建目标网络和经验回放的方式进行该更新网络参数，其中目标网络的网络结构和Actor网络和Critic网络结构完全一致，其更新依据公式(9)(10)：

θ^Q′←τθ^Q+(1-τ)θ^Q′ (9)

θ^μ′←τθ^μ+(1-τ)θ^μ′ (10)

图-4为束流偏移校准学习过程图，它是对上文过程的一个整体概述和过程指导。

Claims

1.一种校准加速器束流偏移的强化学习方法，其特征在于：包括以下步骤：

步骤5：使用Actor-Critic框架和深度神经网络逼近最优值求解。

2.根据权利要求1所述的一种校准加速器束流偏移的强化学习方法，其特征在于：步骤4所描述的确定性策略是一种在确定的策略基础上进行探索最大化奖励的一种方法，其策略描述为μ。

3.根据权利要求1所述的一种校准加速器束流偏移的强化学习方法，所述步骤5的具体执行过程为：

步骤5.2：采用“soft”更新方法更新策略网络和状态-动作值函数网络的目标网络。