CN110278651A - 一种校准加速器束流偏移的强化学习方法 - Google Patents

一种校准加速器束流偏移的强化学习方法 Download PDF

Info

Publication number
CN110278651A
CN110278651A CN201810206762.5A CN201810206762A CN110278651A CN 110278651 A CN110278651 A CN 110278651A CN 201810206762 A CN201810206762 A CN 201810206762A CN 110278651 A CN110278651 A CN 110278651A
Authority
CN
China
Prior art keywords
state
network
accelerator
intensified learning
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810206762.5A
Other languages
English (en)
Other versions
CN110278651B (zh
Inventor
周庆国
王金强
杨旭辉
雍宾宾
申泽邦
谢启荣
武强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lanzhou University
Original Assignee
Lanzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lanzhou University filed Critical Lanzhou University
Priority to CN201810206762.5A priority Critical patent/CN110278651B/zh
Publication of CN110278651A publication Critical patent/CN110278651A/zh
Application granted granted Critical
Publication of CN110278651B publication Critical patent/CN110278651B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H05ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
    • H05HPLASMA TECHNIQUE; PRODUCTION OF ACCELERATED ELECTRICALLY-CHARGED PARTICLES OR OF NEUTRONS; PRODUCTION OR ACCELERATION OF NEUTRAL MOLECULAR OR ATOMIC BEAMS
    • H05H7/00Details of devices of the types covered by groups H05H9/00, H05H11/00, H05H13/00
    • H05H7/001Arrangements for beam delivery or irradiation
    • HELECTRICITY
    • H05ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
    • H05HPLASMA TECHNIQUE; PRODUCTION OF ACCELERATED ELECTRICALLY-CHARGED PARTICLES OR OF NEUTRONS; PRODUCTION OR ACCELERATION OF NEUTRAL MOLECULAR OR ATOMIC BEAMS
    • H05H7/00Details of devices of the types covered by groups H05H9/00, H05H11/00, H05H13/00
    • H05H7/22Details of linear accelerators, e.g. drift tubes
    • HELECTRICITY
    • H05ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
    • H05HPLASMA TECHNIQUE; PRODUCTION OF ACCELERATED ELECTRICALLY-CHARGED PARTICLES OR OF NEUTRONS; PRODUCTION OR ACCELERATION OF NEUTRAL MOLECULAR OR ATOMIC BEAMS
    • H05H7/00Details of devices of the types covered by groups H05H9/00, H05H11/00, H05H13/00
    • H05H7/001Arrangements for beam delivery or irradiation
    • H05H2007/002Arrangements for beam delivery or irradiation for modifying beam trajectory, e.g. gantries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Plasma & Fusion (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Particle Accelerators (AREA)

Abstract

本发明公开一种校准加速器束流偏移的强化学习方法。在加速器的中能束流传输段中,束流受设备安装精度和周围复杂环境的影响而发生位置偏移,其严重影响了束流所能够达到的能量级别。传统方法是通过复杂的物理计算得到校准电压值,并使用脚本程序自动输入进行不断尝试,其过程复杂繁琐。本文通过对中能束流传输段中的三组水平和竖直方向的四极磁铁内部集成的校准线圈分析,依靠强化学习利用环境和智能体之间交互学习的特性对加速器环境进行建模,是一种使用确定性策略探索连续的大状态空间和动作空间,并利用神经网络逼近最优校准电压值的束流偏移校准方法。

Description

一种校准加速器束流偏移的强化学习方法
技术领域
本发明涉及一种校准加速器束流偏移的强化学习方法。
背景技术
质子直线加速器是由高频电源离子源、加速电极、靶室、直空系统等组成的一种束流强度高、粒子注入和引出容易的科学装置。质子直线加速装置的中能束流传输段由多个四极磁铁沿轴线中心安装,由于安装精度和周围复杂磁场互相影响原因,不可避免的导致被加速的高能量质子束在运动过程中会发生轨道偏移,过多的偏移会影响进入超导腔体部分的质子质量,甚至存在高能量安全隐患。目前的质子束流轨道偏移矫正主要依靠复杂的物理方法和大量的数学运算来计算轨道偏移量,然后依次不断输入磁铁线圈电压值进行校准,由于质子直线加速器系统是一个变量非常多的复杂系统,采用逐个线圈重复式调试是非常低效的,根据束流运动的位置信息来直接自动矫正磁铁线圈电压值的方法基本没有。
强化学习是机器学习中的一个领域,其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。在控制理论研究通常研究关于最优解的存在和特性,其中,DavidSliver等人证明了深度神经网络在强化学习中可以逼近最优值函数后,该方法成功的解决了大状态空间和大动作空间下的连续变量的函数值逼近方法和探索过程。
发明内容
本发明提供了一种可以克服以上不足,原理简单、全局优化的质子束流轨道偏移校准的方法,质子束流在经过加速设备加速后进入中等能量传输段,智能体根据位置信息利用神经网络逼近最优策略,并得到最优的校准线圈电压值。
一种校准加速器束流偏移的强化学习方法,包括以下步骤:
步骤1:在加速器中使用强化学习主要包括环境、智能体、校准束流奖励机制、确定性策略等。所述的环境即加速器系统,主要包括校准线圈、位置检测器两个核心部件;所述的智能体是强化学习的核心元素,其根据位置检测器的位置检测,对校准线圈施加电压的过程做出一套最优策略;所述的校准束流奖励机制是根据智能体动态决策后,根据施加电压值情况判断束流在校准之后的位置距离轴线中心的距离而设置的一种奖惩规则;所述的确定性策略是指大状态空间和动作空间下,智能体能够自身的在一个确定策略下搜索状态和动作空间的方法。
步骤2:根据强化学习过程所需元素信息,构建四元组马尔科夫过程,将加速器系统中位置检测信息、加速器系统中校准线圈施加电压值进行抽象化,定义状态空间S为位置检测器测量值BPM,动作空间A为所施加的校准电压值C(c1,c2,c3),智能体输出动作后获得的奖励R:S×A×S’→R,共同组成马尔科夫决策过程四元组<BPM1,C,R,BPM2>。
步骤3:根据动态的束流位置和校准线圈电压值,对加速器系统环境进行建模,并在设置长期累积期望γ折扣奖励的基础上,定义策略π,状态-动作值函数Q(s,c)。建立Q(s,a)的Bellman方程关系,得出下一个状态与当前状态之间的关系,并得到最优状态-动作值函数Q*(s,c)。
步骤4:根据状态-动作值函数的Bellman方程,使用确定性策略对大状态空间和动作空间进行探索学习。
步骤5:使用Actor-Critic框架和深度神经网络逼近最优值求解。
所述的步骤5的具体步骤为:
步骤5.1:根据Actor-Critc框架分别为策略和状态动作值函数进行学习,同时采用神经网络逼近策略网络和状态-动作值函数网络,其中状态-动作值函数网络采用Temporal-Difference learning method(TD-error)方法更新策略网络。
步骤5.2:采用“soft”更新方法更新策略网络和状态-动作值函数网络的目标网络
附图说明:
图-1为直线加速器中束流校准的强化学习结构图。
图-2为Actor-Critic异步更新的结构图。
图-3为方法的评价网络和目标网络的更新网络结构图。
图-4为束流偏移校准学习过程图。
具体实施方式:
为了使本发明的内容、技术方案和优点更加的清楚,结合附图,进一步对本发明做详细说明。在图-1中对环境进行强化学习的建模:
步骤1):建立一个强化学习方法,主要包括环境、智能体、校准束流奖励机制、确定性策略等。
步骤1.1:所述的环境即加速器系统的校准线圈电压值、位置检测器(BPM)值,其可以在系统中直接读取(也可以从系统数据库中直接读取)。
步骤1.2:所述的智能体是深度强化学习的核心部件,其具体的神经网络在步骤4.2描述。
步骤1.3:所述的校准束流奖励机制是根据智能体动态决策后施加电压值情况下束流位置发生校准之后的位置而判断该位置好坏的一种奖惩规则,本发明使用了长期累积期望折扣奖励,折扣因子为γ,其描述为:
步骤1.4:所述的确定性策略是在大状态空间(BPM位置空间信息)和动作空间(校准线圈电压值信息)下,智能体能够自身的在确定的策略下探索状态空间进行智能决策。
步骤2):抽象化位置信息、校准线圈电压值信息、奖励为序列<BPM1,C,R,BPM2>。
步骤3):得到下一个状态与当前状态之间的最优值函数和状态-动作值函数。
步骤3.1:为了能够促进智能体高效学习需设置序列每一步奖励R,其设置是根据校准后的束流距离轴线中心的距离进行。如果距离超过2,则奖励直接设置R=-1,表明是一个比较差的校准效果;如果奖励在2之间且不等于0,奖励则为R=|distance|;如果距离为0,奖励直接设置0,表示是最好校准电压值。
步骤3.2:根据累积期望折扣奖励,最大化策略π*,并得到最优值函数V*(s)和状态-动作值函数Q*(s,c)。
通过Bellman方程的推导得到下一个状态st+1(BPM2)和当前状态st(BPM1)之间的最优状态-动作值函数关系为:
步骤3.3:为了能够使用神经网络逼近最优状态-动作值函数,采用确定性策略μ=μθ(s)在状态空间和动作空间上探索后可以消除求解内部动作期望,其描述为:
在图-2中进行Actor-Critic框架的学习:
步骤4):根据值函数和动作-值函数的Bellman方程,使用确定性策略进行对大状态空间和动作空间进行探索学习,并利用Actor-Critic异步更新方法指导策略网络更新。
步骤4.1:为了增大探索空间和找到优秀策略,定义μ′进行探索,其中M为探索空间的大小。
在图-3中构建方法的网络结构图。
步骤4,2:根据Actor-Critic框架思想,分别构建评价网路Actor网络(策略网络)和Critic(值网络)。其中Actor网络的输入是加速器的位置信息BPM,输出为校准电压的三个电压值(C1,C2,C3),而Critic网络的输入则是位置信息BPM和电压值(C1,C2,C3),它是在当前位置BPM下评价策略网络得到的动作值的好坏效果。
步骤5):根据加速器系统校准线圈电压值和校准位置之间的状态-动作值函数的Bellman关系,使用深度神经网络逼近最优值求解。
步骤5.1:根据Actor-Critc框架,采用神经网络逼近值函数评价网络,同时使用Temporal-Difference learning method(TD-error)方法更新策略评价网络。其中Actor网络根据如下公式(6)更新策略梯度。
同时Critic网络根据如下公式(7)(8)最小化损失函数并逼近最优值。
yt=rt+γQ′(st+1,μ′(st+1μ′)|θQ′) (8)
步骤5.2:由于束流位置的序列数据间数据具有一定的关联性,其不满足强化学习的条件,采用打乱数据之间的关联性进行学习,本发明使用创建目标网络和经验回放的方式进行该更新网络参数,其中目标网络的网络结构和Actor网络和Critic网络结构完全一致,其更新依据公式(9)(10):
θQ′←τθQ+(1-τ)θQ′ (9)
θμ′←τθμ+(1-τ)θμ′ (10)
图-4为束流偏移校准学习过程图,它是对上文过程的一个整体概述和过程指导。

Claims (3)

1.一种校准加速器束流偏移的强化学习方法,其特征在于:包括以下步骤:
步骤1:在加速器中使用强化学习主要包括环境、智能体、校准束流奖励机制、确定性策略等。所述的环境即加速器系统,主要包括校准线圈、位置检测器两个核心部件;所述的智能体是强化学习的核心元素,其根据位置检测器的位置检测,对校准线圈施加电压的过程做出一套最优策略;所述的校准束流奖励机制是根据智能体动态决策后,根据施加电压值情况判断束流在校准之后的位置距离轴线中心的距离而设置的一种奖惩规则;所述的确定性策略是指大状态空间和动作空间下,智能体能够自身的在一个确定策略下搜索状态和动作空间的方法。
步骤2:根据强化学习过程所需元素信息,构建四元组马尔科夫过程,将加速器系统中位置检测信息、加速器系统中校准线圈施加电压值进行抽象化,定义状态空间S为位置检测器测量值BPM,动作空间A为所施加的校准电压值C(c1,c2,c3),智能体输出动作后获得的奖励R:S×A×S’→R,共同组成马尔科夫决策过程四元组<BPM1,C,R,BPM2>。
步骤3:根据动态的束流位置和校准线圈电压值,对加速器系统环境进行建模,并在设置长期累积期望γ折扣奖励的基础上,定义策略π,状态-动作值函数Q(s,c)。建立Q(s,a)的Bellman方程关系,得出下一个状态与当前状态之间的关系,并得到最优状态-动作值函数Q*(s,c)。
步骤4:根据状态-动作值函数的Bellman方程,使用确定性策略对大状态空间和动作空间进行探索学习。
步骤5:使用Actor-Critic框架和深度神经网络逼近最优值求解。
2.根据权利要求1所述的一种校准加速器束流偏移的强化学习方法,其特征在于:步骤4所描述的确定性策略是一种在确定的策略基础上进行探索最大化奖励的一种方法,其策略描述为μ。
3.根据权利要求1所述的一种校准加速器束流偏移的强化学习方法,所述步骤5的具体执行过程为:
步骤5.1:根据Actor-Critc框架分别为策略和状态动作值函数进行学习,同时采用神经网络逼近策略网络和状态-动作值函数网络,其中状态-动作值函数网络采用Temporal-Difference learning method(TD-error)方法更新策略网络。
步骤5.2:采用“soft”更新方法更新策略网络和状态-动作值函数网络的目标网络。
CN201810206762.5A 2018-03-14 2018-03-14 一种校准加速器束流偏移的强化学习方法 Active CN110278651B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810206762.5A CN110278651B (zh) 2018-03-14 2018-03-14 一种校准加速器束流偏移的强化学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810206762.5A CN110278651B (zh) 2018-03-14 2018-03-14 一种校准加速器束流偏移的强化学习方法

Publications (2)

Publication Number Publication Date
CN110278651A true CN110278651A (zh) 2019-09-24
CN110278651B CN110278651B (zh) 2020-10-16

Family

ID=67958289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810206762.5A Active CN110278651B (zh) 2018-03-14 2018-03-14 一种校准加速器束流偏移的强化学习方法

Country Status (1)

Country Link
CN (1) CN110278651B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110831315A (zh) * 2019-11-09 2020-02-21 中国原子能科学研究院 一种用于加速器束流线调试束流的束流准直方法
CN110944445A (zh) * 2019-11-28 2020-03-31 中国原子能科学研究院 一种用于中能超导回旋加速器束流对中调节方法
CN114377307A (zh) * 2021-12-28 2022-04-22 中国原子能科学研究院 一种笔形束扫描束流位置快速校正装置及方法
CN115982407A (zh) * 2022-03-05 2023-04-18 兰州大学 一种基于多智能体强化学习的视频摘要生成方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN107356955A (zh) * 2017-06-28 2017-11-17 中国科学技术大学 一种基于神经网络的加速器束流位置测量方法及系统
CN108051999A (zh) * 2017-10-31 2018-05-18 中国科学技术大学 基于深度强化学习的加速器束流轨道控制方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN107356955A (zh) * 2017-06-28 2017-11-17 中国科学技术大学 一种基于神经网络的加速器束流位置测量方法及系统
CN108051999A (zh) * 2017-10-31 2018-05-18 中国科学技术大学 基于深度强化学习的加速器束流轨道控制方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110831315A (zh) * 2019-11-09 2020-02-21 中国原子能科学研究院 一种用于加速器束流线调试束流的束流准直方法
CN110944445A (zh) * 2019-11-28 2020-03-31 中国原子能科学研究院 一种用于中能超导回旋加速器束流对中调节方法
CN114377307A (zh) * 2021-12-28 2022-04-22 中国原子能科学研究院 一种笔形束扫描束流位置快速校正装置及方法
CN114377307B (zh) * 2021-12-28 2022-10-28 中国原子能科学研究院 一种笔形束扫描束流位置快速校正装置及方法
CN115982407A (zh) * 2022-03-05 2023-04-18 兰州大学 一种基于多智能体强化学习的视频摘要生成方法
CN115982407B (zh) * 2022-03-05 2023-09-19 兰州大学 一种基于多智能体强化学习的视频摘要生成方法

Also Published As

Publication number Publication date
CN110278651B (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
CN110278651A (zh) 一种校准加速器束流偏移的强化学习方法
Sterratt et al. Principles of computational modelling in neuroscience
Abarbanel Predicting the future: completing models of observed complex systems
CN109217955A (zh) 基于机器学习的无线环境电磁参数拟合方法
Mohemmed et al. Method for training a spiking neuron to associate input-output spike trains
Tang et al. Neural membrane mutual coupling characterisation using entropy-based iterative learning identification
Li et al. A high precision in-bore velocity measurement system of railgun based on improved Bi-LSTM network
Widloski et al. Inferring circuit mechanisms from sparse neural recording and global perturbation in grid cells
Hagen et al. Brain signal predictions from multi-scale networks using a linearized framework
CN110007617A (zh) 一种飞行器半实物仿真系统的不确定度传递分析方法
Li et al. Wing‐kinematics measurement and flight modelling of the bamboo weevil C. buqueti
Edvardsen A passive mechanism for goal-directed navigation using grid cells
Kobayashi et al. Estimating time-varying input signals and ion channel states from a single voltage trace of a neuron
Guha et al. Towards meaningful human-robot collaboration on object placement
Shergadwala et al. Students as sequential decision-makers: Quantifying the impact of problem knowledge and process deviation on the achievement of their design problem objective
Smith et al. Flexible mobility models using stochastic differential equations
CN113792863A (zh) 一种脉冲神经网络建模方法、系统及其应用
Li et al. Computational model of grid cells based on back‐propagation neural network
Campeau-Poirier et al. Time Delay Cosmography with a Neural Ratio Estimator
Ji et al. Learning the dynamics of autonomous nonlinear delay systems
Ye Systematic annealing approach for statistical data assimilation
Fadila et al. Improvement on I-Devices using L-GCNN classifier for smart mosque simulation
Chu Construction of artificial intelligence music teaching application model using deep learning
Mao et al. A feedforward method based on support vector machine
Kharratzadeh et al. Neural-network modelling of Bayesian learning and inference

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant