CN108051999A

CN108051999A - 基于深度强化学习的加速器束流轨道控制方法及系统

Info

Publication number: CN108051999A
Application number: CN201711053326.0A
Authority: CN
Inventors: 唐雷雷; 周泽然; 宣科
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2017-10-31
Filing date: 2017-10-31
Publication date: 2018-05-18
Anticipated expiration: 2037-10-31
Also published as: CN108051999B

Abstract

一种基于深度强化学习的加速器束流轨道控制方法及系统，其用于将加速器的束流轨道控制在目标状态，所述方法利用训练数据采用深度强化学习方法对深度神经网络进行预训练，存储训练完的深度神经网络的权重参数及轨道控制策略的经验数据；利用束流位置监测器在线获取束流轨道的状态数据，将其馈入到所述深度深度神经网络，将所述深度神经网络的输出耦接到束流轨道校正器；载入所述训练完的深度神经网络的权重数据及轨道控制策略的经验数据，所述深度神经网络通过预测控制并进行在线强化学习调整控制参数将束流轨道自适应稳定控制在目标状态。

Description

基于深度强化学习的加速器束流轨道控制方法及系统

技术领域

本发明涉及加速器束流诊断与控制技术领域，尤其涉及一种基于深度强化学习的加速器束流轨道控制方法及系统。

背景技术

在加速器束流诊断与控制技术领域中，通常利用束流轨道反馈控制技术对束流轨道进行校正使束流沿着优化轨道或目标轨道运动以保证束流的品质及稳定性。传统的束流轨道反馈控制技术中使用奇异值分解算法结合PID(比例、积分、微分)控制算法来解决加速器系统束流轨道控制这种大型的多变量输入输出的控制问题，但随着现代加速器工程的发展，加速器系统规模变得越来越庞大，束流轨道的控制参数数量不断增加，与其相关的束流轨道控制问题变得愈加复杂，传统的控制算法虽然在原理及实现上较简单，但实际应用中存在很大的局限性。此外，传统的束流轨道控制方法需要人工去精确测量束流位置监测器(以下简称BPM)与轨道校正器之间的响应矩阵，这在具有数百甚至上千个BPM及轨道校正器的大型加速器上实现需要很大的工作量，且响应矩阵的测量准确性将直接影响轨道控制精度，在现代的加速器系统中由于非线性响应的影响，束流轨道状态与校正动作之间存在非线性映射的关系，因此响应矩阵往往又很难精确地测量得到。同时，由于传统的束流轨道控制器中采用PID控制算法，在实际工程应用阶段对所有的PID控制环路需要进行大量的PID调参工作，由于PID调参非常依赖于工程经验，这也将成为工程实践过程中的难点。当加速器运行条件及外部环境改变时，传统轨道控制方法的控制环路外部参数也会改变，此时又需要耗费大量的人力及时间去重新测量响应矩阵，以及重新调节控制器参数。因此，当前亟需开发更加复杂的方法以克服传统束流轨道控制方法的弊端。

现有技术中存在通过逆强化学习的方法实现直升机的自主飞行，但其研究成果很难应用在高维度状态空间及动作空间的控制场景中，即没能很好地解决“维度灾难”的问题。

加速器中的束流轨道控制问题为一种典型的高维度状态空间及高维度动作空间问题，如何设计一种束流轨道的控制方法以克服传统束流轨道控制方法中需要人工精确测量响应矩阵及PID调参的弊端是目前迫切需要解决的技术难题。

发明内容

针对上述技术问题，本发明的主要目的在于提供一种基于深度强化学习的加速器束流轨道控制方法及系统，以期至少部分地克服现有技术中的大型加速器束流轨道控制中需要人工精确测量响应矩阵及PID调参的难点及弊端，提高束流轨道控制的准确性及鲁棒性。

为实现上述目的，作为本发明的一个方面，本发明提供了一种基于深度强化学习的束流轨道控制方法，包括以下步骤：

步骤S11：在线获取所述加速器的束流轨道状态数据，采用通过深度强化学习方法预训练好的深度神经网络接收所述束流轨道状态数据，并输出用于控制所述加速器束流轨道的动作数据；

步骤S12：给所述深度神经网络加载其在预训练过程中获得的深度神经网络权重数据及轨道控制策略的经验数据，通过预测控制并进行在线强化学习调整控制参数将所述加速器的束流轨道稳定在目标状态。

其中，所述步骤S11中，所述通过深度强化学习方法预训练的深度神经网络是通过束流动力学模型仿真平台生成预训练数据，具体包括以下步骤：

利用束流动力学仿真平台构建所要控制的加速器模型；

在所述加速器模型上进行一系列的校正器动作，根据校正器动作数据及动作前起始束流轨道状态数据得到动作后束流轨道的下一状态数据，利用奖励函数得到所述动作的奖励数据；

将所述起始束流轨道状态数据、校正器动作数据、奖励数值及束流轨道的下一状态数据作为所述预训练数据。

其中，所述步骤S11中，所述深度神经网络包括动作深度神经网络、目标动作深度神经网络、价值深度神经网络及目标价值深度神经网络；所述深度神经网络通过深度强化学习方法进行预训练的具体步骤包括：

步骤11-1，通过向动作深度神经网络提供所述起始束流轨道状态数据并进行前向传播得到校正器动作数据，将所述校正器动作数据附加噪声后输入到所述加速器模型并反馈下一束流轨道状态数据，根据所述下一束流轨道状态数据由奖励函数得到所述动作的奖励数据；将所述起始束流轨道状态数据、校正器动作数据、奖励数据及束流轨道的下一状态数据存入经验数据缓存中；

步骤11-2，从所述经验数据缓存中随机抽取得到批量经验数据，所述批量经验数据包含起始束流轨道状态数据集合、校正器动作数据集合、奖励数据集合及束流轨道下一状态数据集合；

步骤11-3，将所述束流轨道下一状态数据集合提供给目标动作深度神经网络并进行前向传播得到目标校正器动作，将所述目标校正器动作集合及所述束流轨道下一状态数据集合提供给目标价值深度神经网络并进行前向传播得到目标Q价值函数值，根据贝尔曼方程由所述目标Q价值函数值及所述奖励数据得到目标价值函数值；

步骤11-4，将所述起始束流轨道状态数据及所述校正器动作数据提供给价值深度神经网络并进行前向传播得到所述动作的Q价值函数值，将所述动作的Q价值函数值与所述目标价值函数值的误差进行反向传播，以更新所述价值深度神经网络的权重，再利用策略梯度更新动作深度神经网络；

步骤11-5，延迟设定时间步后将所述价值深度神经网络权重复制到所述目标价值深度神经网络，将所述动作深度神经网络权重复制到目标动作深度神经网络；

步骤11-6，根据以上步骤11-1至11-5迭代更新所述深度神经网络权重，直到所述深度神经网络达到收敛。

其中，所述利用奖励函数得到所述动作的奖励数据的步骤具体包括：

基于LQR问题构造奖励函数的形式；

将所述校正器动作数据、所述下一束流轨道状态数据及目标束流轨道状态数据代入所述奖励函数以得到所述奖励数据。

其中，所述将所述动作的Q价值函数值与目标价值函数值的误差进行反向传播中的反向传播过程是采用Adam随机梯度下降方法更新所述深度神经网络的权重。

其中，使用贪婪搜索算法产生所述校正器动作数据。

其中，所述步骤S12中，所述在预训练过程中获得的深度神经网络权重数据包括动作深度神经网络权重数据、目标动作深度神经网络权重数据、价值深度神经网络权重数据、目标价值深度神经网络权重数据；所述轨道控制策略的经验数据包括起始束流轨道状态数据、校正器动作数据、奖励数据及束流轨道下一状态数据。

其中，所述步骤S12中，在线获取所述加速器的束流轨道状态数据，所述深度神经网络接收所述束流轨道状态数据的步骤具体包括：

利用束流位置监测器获取束流位置数据；其在，所述束流位置监测器包括束流位置前端探头及束流位置信号处理器；

在加速器中由不同位置处的多个束流位置监测器测量得到的束流位置组成束流轨道状态数据，所述束流轨道状态的维度等于所述束流位置监测器的个数；

由动作深度神经网络接收所述束流轨道状态数据。

其中，所述步骤S11中，所述输出用于控制所述加速器束流轨道的动作数据的步骤具体包括：

将动作深度神经网络输出的动作向量耦接到束流轨道校正器；

将所述动作向量作为多个束流轨道校正器的输入设定值，所述动作向量的维度等于所述校正器的个数。

其中，所述步骤S12中，所述预训练过程中获得的深度神经网络权重数据包括动作深度神经网络权重数据、目标动作深度神经网络权重数据、价值深度神经网络权重数据、目标价值深度神经网络权重数据；

所述预训练过程中获得的轨道控制策略的经验数据包括起始束流轨道状态数据、校正器动作数据、奖励数据及下一束流轨道状态数据。

其中，所述步骤S12中，所述深度神经网络通过预测控制并进行在线强化学习调整控制参数将束流轨道稳定在目标状态的步骤具体包括：

将所述在线获取的束流轨道的状态数据输入到所述预训练完成的动作深度神经网络进行前向传播，得到校正器动作数据，使用所述校正器动作数据改变束流轨道状态；

利用所述的束流位置监测器获取反馈的束流轨道状态数据，根据所述反馈的束流轨道状态数据分析所述校正器动作的奖励，更新所述经验数据；

从所述经验数据中随机抽取得到批量经验数据，所述批量经验数据包含束流轨道状态数据集合、校正器动作数据集合、奖励数据集合及下一束流轨道状态数据集合，根据所述批量经验数据进行在线强化学习，不断迭代更新所述动作深度神经网络、目标动作深度神经网络、价值深度神经网络及目标价值深度神经网络的权重；

根据强化学习得到的所述动作深度神经网络的权重及反馈的束流轨道状态数据，通过前向传播在线得到最优校正器动作数据，并根据获取的束流轨道状态自适应地调整所述校正器动作数据，将束流轨道稳定控制在目标状态。

其中，所述深度神经网络为深度前馈神经网络MLP或卷积神经网络CNN。

其中，所述动作深度神经网络的输出经边界限定后作为校正器动作数据。

作为本发明的另一个方面，本发明还提供了一种基于深度强化学习的加速器束流轨道控制系统，其特征在于，包括：

训练数据生成模块，用于生成深度神经网络训练所需的训练数据；

深度神经网络预训练模块，用于利用所述训练数据采用深度强化学习的方法训练深度神经网络，使所述深度神经网络用于束流轨道控制决策；

数据存储模块，用于存储训练完成的深度神经网络的权重数据及束流轨道控制策略的经验数据；

输入模块，用于接收来自待控制的加速器系统的束流位置监测器数据，并将其输入到深度神经网络控制及在线学习模块；

深度神经网络控制及在线学习模块，用于利用所述深度神经网络预训练模块训练得到的深度神经网络，加载数据存储模块中存储的深度神经网络权重数据及轨道控制策略的经验数据，在线预测得到最优控制的动作数据，并根据束流轨道状态数据在线强化学习所述深度神经网络权重；输出模块，用于将所述深度神经网络控制及在线学习模块预测得到的最优控制的动作数据提供给所述加速器系统束流轨道的校正器。

其中，所述训练数据生成模块用于执行如下步骤：

利用束流动力学仿真平台构建所要控制的加速器模型，通过在所述模型上进行一系列的校正器动作而生成起始束流轨道状态数据、校正器动作数据、下一束流轨道状态数据；

根据所述束流轨道状态数据及校正器动作数据，利用LQR问题构造的奖励函数形式得到所述动作的奖励数据；

将所述起始束流轨道状态数据、校正器动作数据、下一束流轨道状态数据以及奖励数据作为训练数据。

其中，所述深度神经网络包括动作深度神经网络，目标动作深度神经网络，价值深度神经网络及目标价值深度神经网络；所述深度神经网络预训练模块用于执行如下步骤：

利用所述训练数据，根据所述目标动作深度神经网络及目标价值深度神经网络得到目标Q价值函数值；

利用所述目标Q价值函数值与奖励数据的组合更新所述动作深度神经网络及价值深度神经网络的权重；

延迟设定时间步后，将所述价值深度神经网络权重复制到所述目标价值深度神经网络，将所述动作深度神经网络权重复制到目标动作深度神经网络；

迭代所述深度神经网络权重的更新过程，直到所述深度神经网络收敛。

其中，所述数据存储模块用于执行如下步骤：

存储深度神经网络的权重数据，包括动作深度神经网络、价值深度神经网络、目标动作深度神经网络以及目标价值深度神经网络的权重数据；

存储束流轨道控制策略的经验数据，包括起始束流轨道状态数据、校正器动作数据、下一束流轨道状态数据及奖励数据。

其中，所述输入模块还用于执行如下步骤：

将加速器系统中不同位置处的束流位置监测器分别耦接到动作深度神经网络输入层的各神经元上。

其中，所述所述输出模块还用于执行如下步骤：

将动作深度神经网络的输出层的各神经元耦接到加速器系统中不同位置处的校正器上。

其中，所述深度神经网络控制及在线学习模块用于执行如下步骤：

载入训练完成的所述深度神经网络的权重数据及束流轨道控制策略的经验数据，将所述经验数据存储在缓存器中；

将所述当前束流轨道状态数据提供给所述训练完成的所述动作深度神经网络；

利用所述动作深度神经网络预测校正器动作数据，将所述校正器动作数据输出到所述加速器系统，使得所述加速器系统从所述当前束流轨道状态转移为下一束流轨道状态；

由所述下一束流轨道状态数据、目标束流轨道状态数据及校正器动作数据得到状态转移的奖励数据；

将经验数据存储在所述缓存器中更新所述缓存器，所述经验数据包括所述当前束流轨道状态数据、所述下一束流轨道状态数据、所述动作数据以及所述奖励数据；

根据所述存储的经验数据，利用所述目标动作深度神经网络及目标价值深度神经网络得出目标价值函数值；

根据目标价值函数值更新所述动作深度神经网络的权重及价值深度神经网络的权重；

将所述动作深度神经网络的权重延时复制给所述目标动作深度神经网络，将所述价值深度神经网络的权重延时复制给所述目标价值深度神经网络。

其中，所述目标值函数的值通过从所述经验数据缓存器中随机读取起始束流轨道状态、动作、下一束流轨道状态以及奖励数据而被确定；所述深度神经网络控制及在线学习模块还用于执行如下步骤：

利用所述目标动作深度神经网络及目标价值深度神经网络确定目标Q价值函数值；

根据所述目标Q价值函数值与奖励数据由贝尔曼方程的组合形式确定所述目标价值函数值。

作为本发明的再一个方面，本发明还提供了一种基于深度强化学习的加速器束流轨道控制系统，其特征在于，包括：

处理器，用于执行存储器中存储的程序；

存储器，存储有用于运行如上所述的基于深度强化学习的加速器束流轨道控制方法的程序。

与现有技术相比，本发明的技术具有以下有益效果：

1、本发明通过束流动力学仿真平台生成训练数据，利用训练数据采用深度强化学习方法对深度神经网络进行预训练，这样可以避免在强化学习过程中由于策略搜索在某一控制策略下使束流轨道偏移过大导致束流丢失；

2、本发明采用训练完成的深度神经网络进行束流轨道状态到校正器动作的映射，可以满足多变量输入输出系统的控制，且可以解决束流轨道状态与校正动作之间的非线性映射关系，在此过程中无需人工测量响应矩阵，无需知道束流动力学模型，在整个反馈控制过程中没有PID控制器的介入，无需PID调参；

3、本发明采用深度强化学习方法可以保证深度神经网络稳定收敛，可以在线自适应调整控制参数。

附图说明

图1为作为本发明一实施例的基于深度强化学习的加速器束流轨道控制方法的流程图；

图2为作为本发明一实施例的基于深度强化学习的加速器束流轨道控制系统的结构示意图；

图3为作为本发明一实施例的深度神经网络预训练模块的结构示意图；

图4为作为本发明一实施例的深度神经网络控制及在线学习模块的结构示意图；

图5为作为本发明一实施例的强化学习过程的收敛曲线图；

图6为作为本发明一实施例的束流轨道自适应控制过程中某一处束流位置的变化曲线图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

本发明公开了一种基于深度强化学习的加速器束流轨道控制方法及系统，其用于将加速器的束流轨道控制在目标状态，所述方法利用训练数据采用深度强化学习方法对深度神经网络进行预训练，存储训练完的深度神经网络的权重参数及轨道控制策略的经验数据；利用束流位置监测器在线获取束流轨道的状态数据，将其馈入到所述深度神经网络，将所述深度神经网络的输出耦接到束流轨道校正器；载入所述训练完的深度神经网络的权重数据及轨道控制策略的经验数据，所述深度神经网络通过预测控制并在线学习调整控制参数将束流轨道自适应稳定控制在目标状态。

具体地，本发明的基于深度强化学习的加速器束流轨道控制方法包括以下步骤：

使用束流轨道状态及校正器动作的历史数据作为训练数据或通过束流动力学仿真平台生成训练数据，利用所述训练数据采用深度强化学习方法预训练深度神经网络，存储预训练完成的所述深度神经网络的权重数据及轨道控制策略的经验数据；

利用束流位置监测器在线获取所述加速器的束流轨道状态数据，所述深度神经网络接收所述束流轨道状态数据，并输出用于控制所述加速器束流轨道的动作数据；

加载所述预训练完成神经网络的权重数据及束流轨道控制策略的经验数据，所述深度神经网络通过预测控制参数并在线学习调整控制参数将束流轨道稳定在目标状态。

可选的，所述通过束流动力学模型仿真平台生成训练数据的步骤具体包括：

利用束流动力学仿真平台构建所要控制的加速器模型；

所述训练数据为通过在所述加速器模型上进行一系列的校正器动作而生成，根据校正器动作数据及动作前起始束流轨道状态数据得到动作后束流轨道的下一状态数据，利用奖励函数得到所述动作的奖励数据；

将所述起始束流轨道状态数据、校正器动作数据、奖励数值及束流轨道的下一状态数据作为所述训练数据。

可选的，所述利用所述训练数据采用深度强化学习方法预训练深度神经网络的步骤具体包括：

所述深度神经网络包括动作深度神经网络、目标动作深度神经网络、价值深度神经网络及目标价值深度神经网络；

通过向所述动作深度神经网络提供所述起始束流轨道状态数据并进行前向传播得到校正器动作数据，将所述校正器动作数据附加噪声后输入到所述的加速器模型并反馈下一束流轨道状态数据，根据所述下一束流轨道状态数据由奖励函数得到所述动作的奖励数据；

将所述起始束流轨道状态数据、校正器动作数据、奖励数据及束流轨道的下一状态数据存入经验数据缓存中；

从所述经验数据缓存中随机抽取得到批量经验数据，所述批量经验数据包含起始束流轨道状态数据集合、校正器动作数据集合、奖励数据集合及束流轨道下一状态数据集合；

将所述束流轨道下一状态数据集合提供给目标动作深度神经网络并进行前向传播得到目标校正器动作，将所述目标校正器动作集合及所述束流轨道下一状态数据集合提供给目标价值深度神经网络并进行前向传播得到目标Q价值函数值，根据贝尔曼(Bellman)方程由所述目标Q价值函数值及所述奖励数据得到目标价值函数值；

将所述起始束流轨道状态数据及所述校正器动作数据提供给价值深度神经网络并进行前向传播得到所述动作的Q价值函数值，将所述动作的Q价值函数值与所述目标价值函数值的误差进行反向传播，以更新所述价值深度神经网络的权重，再利用策略梯度更新动作深度神经网络；

延迟设定时间步后将所述价值深度神经网络权重复制到所述目标价值深度神经网络，将所述动作深度神经网络权重复制到目标动作深度神经网络；

根据以上步骤迭代更新所述深度神经网络权重，直到所述深度神经网络达到收敛。

可选的，所述利用奖励函数得到所述动作的奖励数据的步骤具体包括：

由LQR(Linear Quadratic Regulator，线性二次型调节器)问题构造奖励函数形式，将所述校正器动作数据、所述下一束流轨道状态数据及目标束流轨道状态数据代入所述奖励函数得到所述奖励数据。

可选的，所述反向传播过程中采用亚当(Adam)随机梯度下降方法更新所述深度神经网络的权重。

可选的，使用贪婪搜索算法产生所述校正器动作数据。

可选的，所述存储预训练完成的所述神经网络的权重数据及轨道控制策略的经验数据的步骤具体包括：

存储所述神经网络权重数据，包括所述动作深度神经网络权重数据、所述目标动作深度神经网络权重数据、所述价值深度神经网络权重数据、所述目标价值深度神经网络权重数据；

存储轨道控制策略的经验数据，包括起始束流轨道状态数据、校正器动作数据、奖励数据及下一束流轨道状态数据。

可选的，所述利用束流位置监测器在线获取束流轨道的状态数据，接收所述束流轨道状态数据的步骤具体包括：

在加速器中由不同位置处的多个束流位置监测器测量得到的束流位置组成束流轨道的状态数据，所述束流轨道状态的维度等于所述束流位置监测器的个数；其中，所述束流位置监测器包括束流位置前端探头及束流位置信号处理器；

由所述动作深度神经网络接收所述束流轨道状态数据。

可选的，所述输出用于控制所述加速器束流轨道的动作数据的步骤具体包括：

将所述动作深度神经网络输出的动作向量耦接到束流轨道校正器；

可选的，加载所述预训练完成的神经网络的权重数据及束流轨道控制策略的经验数据的步骤具体包括：

加载所述预训练完成的神经网络的权重数据，包括所述动作深度神经网络权重数据、所述目标动作深度神经网络权重数据、所述价值深度神经网络权重数据、所述目标价值深度神经网络权重数据；

载入所述轨道控制策略的经验数据，包括起始束流轨道状态数据、校正器动作数据、奖励数据及下一束流轨道状态数据。

可选的，所述深度神经网络通过在线学习调整控制参数将束流轨道稳定在目标状态的步骤具体包括：

利用所述束流位置监测器获取反馈的束流轨道状态数据，根据所述反馈的束流轨道状态数据分析所述校正器动作的奖励，更新所述经验数据；

从所述经验数据中随机抽取得到批量经验数据，所述批量经验数据包含束流轨道状态数据集合、校正器动作数据集合、奖励数据集合及下一束流轨道状态数据集合，根据所述批量经验数据进行在线学习，不断迭代更新所述动作深度神经网络、目标动作深度神经网络、价值深度神经网络及目标价值深度神经网络的权重；

根据学习得到的所述动作深度神经网络的权重及反馈的束流轨道状态数据，通过前向传播在线得到最优校正器动作数据，并根据获取的束流轨道状态自适应地调整所述校正器动作数据，将束流轨道稳定控制在目标状态。

可选的，所述深度神经网络为深度前馈神经网络(MLP)或卷积神经网络(CNN)。

可选的，所述动作深度神经网络的输出经边界限定后作为校正器动作数据。

本发明还公开了一种基于深度强化学习的加速器束流轨道控制系统，包括：

输入模块，用于接收来自所述加速器系统的束流位置监测器数据；

深度神经网络控制及在线学习模块，用于利用所述深度神经网络在线预测输出最优控制的动作数据，并根据束流轨道状态数据在线学习所述深度神经网络权重；

输出模块，用于提供控制所述加速器系统束流轨道的校正器动作数据。

可选的，所述训练数据生成模块，包括：

从加速器控制系统数据库中提取记录的校正器动作前起始束流轨道状态数据、校正器动作数据、及校正器动作后下一束流轨道状态数据；或者

利用束流动力学仿真平台构建所要控制的加速器模型，通过在所述模型上进行一系列的校正器动作而生成起始束流轨道状态数据，校正器动作数据，下一束流轨道状态数据；

将所述起始束流轨道状态数据、校正器动作数据、下一束流轨道状态数据以及奖励数据作为训练数据；

可选的，所述深度神经网络包括动作深度神经网络、目标动作深度神经网络、价值深度神经网络及目标价值深度神经网络；所述深度神经网络预训练模块，包括：

利用所述训练数据，根据所述目标动作深度神经网络及目标价值深度神经网络得到目标Q价值函数值的子模块；

利用所述目标Q价值函数值与奖励数据的组合更新所述动作深度神经网络及价值深度神经网络的权重的子模块；

延迟设定时间步后，将所述价值深度神经网络权重复制到所述目标价值深度神经网络，将所述动作深度神经网络权重复制到目标动作深度神经网络的子模块；

迭代所述深度神经网络权重的更新过程，直到所述深度神经网络收敛的子模块。

可选的，所述数据存储模块，包括：

存储深度神经网络的权重数据，包括动作深度神经网络、价值深度神经网络、目标动作深度神经网络以及目标价值深度神经网络的权重数据的子模块；

存储束流轨道控制策略的经验数据，包括起始束流轨道状态数据、校正器动作数据、下一束流轨道状态数据及奖励数据的子模块。

可选的，所述输入模块，用于：

将加速器系统中不同位置处的束流位置监测器分别耦接到动作深度神经网络输入层的各神经元上，所述深度神经网络接收来自所述加速器系统的束流位置监测器数据。

可选的，所述输出模块，用于：

将动作深度神经网络的输出层的各神经元耦接到加速器系统中不同位置处的校正器上，为所述校正器提供控制所述加速器系统束流轨道的校正器动作数据。

可选的，所述深度神经网络控制及在线学习模块，包括：

载入训练完成的所述深度神经网络的权重数据及束流轨道控制策略的经验数据，将所述经验数据存储在缓存器中的子模块；

将所述当前束流轨道状态数据提供给所述训练完成的所述动作深度神经网络的子模块；

利用所述动作深度神经网络预测校正器动作数据，将所述校正器动作数据输出到所述加速器系统，使得所述加速器系统从所述当前束流轨道状态转移为下一束流轨道状态的子模块；

由所述下一束流轨道状态数据、目标束流轨道状态数据及校正器动作数据得到状态转移的奖励数据的子模块；

将经验数据存储在所述缓存器中更新所述缓存器，所述经验数据包括所述当前束流轨道状态数据、所述下一束流轨道状态数据、所述动作数据以及所述奖励数据的子模块；

根据所述存储的经验数据，利用所述目标动作深度神经网络及目标价值深度神经网络得出目标价值函数的值的子模块；

根据目标值函数的值更新所述动作深度神经网络的权重及价值深度神经网络的权重的子模块；

将所述动作深度神经网络延时复制给所述目标动作深度神经网络，将所述价值深度神经网络延时复制给所述目标价值深度神经网络的子模块。

可选的，所述目标价值函数值通过从所述经验数据缓存器中随机读取起始束流轨道状态、动作、下一束流轨道状态以及奖励数据而被确定；所述方法进一步包括：

根据所述目标Q价值函数值与奖励数据由Bellman方程的组合形式确定所述目标价值函数值。

可选的，其中所述深度神经网络为深度前馈神经网络(MLP)或卷积神经网络(CNN)。

可选的，其中所述动作深度神经网络的输出经边界限定后作为校正器动作数据。

本发明还公开了一种基于深度强化学习的加速器束流轨道控制系统，其特征在于其完全通过软件方式来实现，包括：

处理器，用于执行存储器中存储的程序；

该控制系统例如通过现场可编程门阵列(FPGA)、专用集成电路(ASIC)、单片机、台式机或计算机网络来实现。

在本发明中，通过利用训练数据采用深度强化学习方法训练深度神经网络，使得训练完的所述深度神经网络用于根据当前束流轨道状态数据进行决策控制，使束流轨道自适应稳定控制在目标状态。

为使得本发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，所述实施例是示例性的，旨在用于解释本发明，而不是用于对本发明进行限制。基于本发明中的实施例，本领域的技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

图1为作为本发明一实施例的基于深度强化学习的加速器束流轨道控制方法的流程图，可以包括以下步骤：

步骤S101，通过加速器束流动力学仿真平台生成训练数据；

步骤S102，利用所述训练数据采用深度强化学习方法预训练深度神经网络，存储预训练完成的所述深度神经网络的权重数据及轨道控制策略的经验数据；

步骤S103，在线获取所述加速器的束流轨道状态数据，所述深度神经网络接收所述束流轨道状态数据，并输出用于控制所述加速器束流轨道的动作数据；

步骤S104，加载所述深度神经网络的权重数据及所述经验数据，所述深度神经网络通过预测控制并进行在线强化学习调整控制参数将束流轨道稳定在目标状态。

在本发明一实施例中，在所述的加速器系统中沿加速器装置一般有多个束流位置监测器做为观察束流轨道状态的传感器，同时在加速器装置的不同位置处放置校正磁铁(本发明中称校正器)用于校正改变束流的位置，在所有校正器同时作用时可以实现校正整个加速器全局束流轨道的目的。在本发明一实施例中借助加速器束流动力学仿真平台生成训练数据，首先在所述的仿真平台上搭建所要控制的加速器的模型，按照实际加速器中各元件的位置放置束流位置监测器(以下简称BPM)及校正器。在本实施例的加速器中有M个BPM及N个校正器，其中M≥N。

通过改变所述加速器校正器的设定值可以使加速器的束流轨道从当前状态转移至下一状态，利用此操作进行一系列的校正器动作生成大量的训练数据。在具体实施中，校正器的动作方向可以是水平方向或垂直方向，在本实施例中校正器动作方向为水平方向。校正器动作数据的生成有两种方式，一种是随机生成，另一种是在训练过程中，根据当前深度神经网络生成。在一个非限定例子中，可以通过贪婪搜索算法产生校正器动作数据。确定每一个校正器动作a_t∈R^N×1、执行前束流轨道状态S_t∈R^M×1及执行后的束流轨道状态S_t+1∈R^M×1。根据LQR问题构造奖励函数如下：

e_t＝S_t-S_ref；

其中，a_t为校正器动作，S_t为执行前束流轨道状态，S_t+1为执行后的束流轨道状态，r_t为反馈的动作奖励，Q_rew与R_rew都为对角正定矩阵，e_t为束流轨道误差向量，S_ref为目标束流轨道。将所述校正器动作执行后束流轨道状态数据、目标束流轨道数据及校正器动作数据代入所述奖励函数计算得到所执行的校正器动作的奖励数据r_t。由所述与加速器仿真模型之间的交互过程生成训练数据，包括起始束流轨道状态数据、校正器动作数据、下一束流轨道状态数据及奖励数据。

利用所述训练数据采用深度强化学习方法对深度神经网络进行预训练。在本实施例中所述深度强化学习方法为深度确定性策略梯度方法(DDPG)，所述DDPG方法为一种基于actor-critic结构的离策略无模型强化学习方法且融入了DQN中的经验回放及目标神经网络的技术，采用该方法可以将从对加速器仿真模型上训练得到的轨道控制经验用于实际加速器的束流轨道控制中。在具体实施中，DDPG框架的actor神经网络用于根据当前束流轨道状态映射校正器动作，包括动作深度神经网络和目标动作深度神经网络，所述两个actor神经网络的结构相同，都为深度前馈神经网络，包含1个输入层、2个隐藏层和1个输出层，隐藏层激活函数为ReLU函数，输出层激活函数为tanh函数，输入层的输入为束流轨道状态数据，输出层的输出为校正器设定值经边界限定后使其不超过校正器的最大设定值。在DDPG框架中还有critic神经网络用于对actor神经网络做出的行为动作进行评价，包括价值深度神经网络及目标价值深度神经网络，所述的两个critic神经网络的结构相同，都为深度前馈神经网络，包含1个输入层、2个隐藏层和1个输出层，隐藏层激活函数为ReLU函数，输出层为线性输出，输入层为束流轨道状态数据和校正器动作数据，输出层输出为Q价值函数值。在具体实施中，所述深度神经网络的预训练过程，可以包括以下步骤：

步骤S201，随机初始化所述深度神经网络权重，初始化经验数据缓存。所述数据缓存采用双端队列(deque)数据结构形式，deque的大小为10000。

步骤S202，向所述动作深度神经网络提供所述起始束流轨道状态数据并进行前向传播得到校正器动作数据，将所述校正器动作数据附加噪声后输入到所述的加速器模型并反馈下一束流轨道状态数据，根据所述下一束流轨道状态数据由奖励函数得到所述动作的奖励数据；将所述起始束流轨道状态数据、校正器动作数据、奖励数据及束流轨道的下一状态数据存入经验数据缓存中；

步骤S203，从所述经验数据缓存中随机抽取得到批量经验数据，所述批量经验数据包含起始束流轨道状态数据集合、校正器动作数据集合、奖励数据集合及束流轨道下一状态数据集合，各批量经验数据集的大小为128；

步骤S204，将所述束流轨道下一状态数据集合提供给目标动作深度神经网络并进行前向传播得到目标校正器动作，将所述目标校正器动作集合及所述束流轨道下一状态数据集合提供给目标价值深度神经网络并进行前向传播得到目标Q价值函数值，根据Bellman方程由所述目标Q价值函数值及所述奖励数据得到目标价值函数值，目标价值函数形式如下：

y_i＝r_i+γQ′(s_i+1，μ′(s_i+1θ^μ′)|θ^Q′)；

其中y_i为目标价值函数值，r_i为奖励值，γ为折扣因子，μ′(s_i+1|θ^μ′)为在下一束流轨道状态为s_i+1时通过权重为θ^μ′的目标动作深度神经网络映射的目标动作，Q′(s_i+1，μ′(s_i+1|θ_μ′)|θ^Q′)为在下一束流轨道状态s_i+1及目标动作下通过权重为θ^Q′的目标价值深度神经网络得到的目标Q价值函数；

步骤S205，将所述起始束流轨道状态数据及所述校正器动作数据提供给价值深度神经网络并进行前向传播得到所述动作的Q价值函数值，然后由下式得到TD error。

其中L为损失函数，N为批量数据的大小，此处为128，Q(s_i，a_i|θ^Q为在束流轨道状态s_i校正器动作为a_i时通过权重为θ^Q的价值深度神经网络得到的Q价值函数值；

步骤S206，将所述动作的Q价值函数值及所述目标价值函数值的误差进行反向传播，在反向传播过程中使用Adam随机梯度下降算法更新所述价值深度神经网络的权重。

步骤S207，根据链式法则得到策略梯度，再利用策略梯度更新动作深度神经网络的权重，如下：

其中，为策略梯度，为Q价值函数对动作的梯度，为动作对动作深度神经网络权重的梯度；

步骤S208，延迟设定时间步后将所述价值深度神经网络权重复制到所述目标价值深度神经网络，将所述动作深度神经网络权重复制到目标动作深度神经网络，如下所示：

θ^Q′←τθ^Q+(1-τ)θ^Q′；

θ^μ′←τθ^μ+(1-τ)θ^μ；

其中τ为更新率，在本实施例中取值为0.001；

步骤S209，根据以上步骤迭代更新所述深度神经网络权重，直到所述深度神经网络达到收敛，本实施例中迭代回合数为50000，收敛曲线见图5所示。

将训练完的所述深度神经网络的权重数据存储在参数存储器，并将经验数据缓存中的经验数据保存在参数存储器，所述参数存储器内容可以通过可移动存储设备进行移植。

利用BPM在线获取所述加速器的束流轨道状态数据，所述深度神经网络接收所述束流轨道状态数据，在加速器中由不同位置处的M个BPM测量得到的束流位置组成束流轨道的状态数据，由所述动作深度神经网络接收所述束流轨道状态数据。

将所述动作深度神经网络输出的动作向量耦接到N个束流轨道校正器，将所述动作向量作为多个束流轨道校正器的输入设定值。

加载所述预训练完成的神经网络的权重数据，包括所述动作深度神经网络权重数据、所述目标动作深度神经网络权重数据、所述价值深度神经网络权重数据、所述目标价值深度神经网络权重数据；载入所述轨道控制策略的经验数据，包括起始束流轨道状态数据、校正器动作数据、奖励数据及下一束流轨道状态数据。

通过所述训练完的深度神经网络通过预测控制并进行在线强化学习调整控制参数将束流轨道稳定在目标状态，在具体实施中可以利用如下步骤完成：

步骤301，将所述在线获取的束流轨道的状态数据输入到所述预训练完成的动作深度神经网络进行前向传播，得到校正器动作数据，使用所述校正器动作数据改变束流轨道状态；

步骤302，利用所述的束流位置监测器获取反馈的束流轨道状态数据，根据所述反馈的束流轨道状态数据分析所述校正器动作的奖励，更新所述经验数据；

步骤303，从所述经验数据中随机抽取得到批量经验数据，所述批量经验数据包含束流轨道状态数据集合、校正器动作数据集合、奖励数据集合及下一束流轨道状态数据集合，根据所述批量经验数据进行在线学习，不断迭代更新所述动作深度神经网络、目标动作深度神经网络、价值深度神经网络及目标价值深度神经网络的权重；

步骤304，根据学习得到的所述动作深度神经网络的权重及反馈的束流轨道状态数据，通过前向传播在线得到最优校正器动作数据，并根据获取的束流轨道状态自适应地调整所述校正器动作数据，将束流轨道稳定控制在目标状态。

其中所述的在线强化学习方法与步骤类似于深度神经网络在预训练过程中的方法与步骤可以参考步骤S204-步骤S209。束流轨道自适应控制过程中某一处束流位置的变化曲线图见图6所示。

本发明的该实施例中通过利用训练数据采用深度强化学习的方法预训练深度神经网络，可以避免由于策略搜索可能导致的束流丢失的情况，由于训练数据是根据束流动力学仿真平台产生的，数据中包含加速器动力学模型信息，通过利用训练数据的训练学习无需测量响应矩阵，无需已知系统模型，即可实现对加速器束流轨道状态的控制。由于通过强化学习构建的反馈控制器，轨道最优控制策略由强化学习过程产生，不采用PID控制器，实现过程无需PID经验调参。

本发明另一实施例还提供一种基于深度强化学习的加速器束流轨道控制系统，其结构示意图如图2所示，可以包括：

深度神经网络控制及在线学习模块，用于利用所述深度神经网络在线预测输出最优控制的动作数据，并根据束流轨道状态数据在线强化学习所述深度神经网络权重。

输出模块，用于提供控制所述加速器系统束流轨道的校正器动作数据；

在本发明实施例中，参见图2，所述的训练数据生成模块21，可以包括：

所述深度神经网络预训练模块22，可以包括：

采用DDPG强化学习方法训练所述深度神经网络；

DDPG框架的actor神经网络用于根据当前束流轨道状态映射校正器动作，包括动作深度神经网络和目标动作深度神经网络，所述两个actor神经网络的结构相同，输入层的输入为束流轨道状态数据，输出层的输出为校正器设定值经标量化后使其不超过校正器的最大设定值。在DDPG框架中还有critic神经网络用于对actor神经网络做出的行为动作进行评价，包括价值深度神经网络及目标价值深度神经网络，所述的两个critic神经网络的结构相同，输入层为束流轨道状态数据和校正器动作数据，输出层输出为Q价值函数值；

利用所述的训练数据，根据所述目标动作深度神经网络及目标价值深度神经网络得到目标Q价值函数值，利用所述目标Q价值函数的值与奖励数据由Bellman方程得到目标价值函数值；

利用所述目标价值函数值更新所述动作深度神经网络及价值深度神经网络的权重；

所述深度神经网络预训练模块结构示意图参见图3。

所述数据存储模块23，可以包括：

所述输入模块24，还用于：

所述深度神经网络控制及在线学习模块25，可以包括：

将所述动作深度神经网络延时复制给所述目标动作深度神经网络，将所述价值深度神经网络延时复制给所述目标价值深度神经网络。

其中所述目标值函数的值通过从所述经验数据缓存器中随机读取起始束流轨道状态、动作、下一束流轨道状态以及奖励数据而被确定；所述方法进一步包括：

所述深度神经网络控制及在线学习模块结构图参见图4。

所述输出模块26，还用于：

所述深度神经网络预测控制及在线学习结构示意图见图4。

由此可见，本发明的方法及系统首次应用深度强化学习算法进行加速器束流轨道的反馈控制，该方法不用人工精确测量响应矩阵，无需PID调参，可在线自适应地进行束流轨道控制，将加速器的束流轨道稳定控制在目标状态，极大地减少了人工参与，并能解决束流轨道与校正器之间的非线性映射问题，具有很好的应用前景。

需要说明的是，上述系统与上述方法是一一对应的关系，上述方法的实施细节同样适用于上述系统，本实施例不再对上述系统进行详细说明。

本发明的说明书中，说明了大量具体细节。然而，本领域技术人员能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细展示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

本领域技术人员可以理解，可以对实施例中的设备中的模块进行自适应地改变并且把它们设置在与实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是互相排斥之处，可以采用任何组合对本说明书(包括伴随的权利要求书、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求书、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其他实施例中所包括的某些特征而不是其他特征，但是不同实施例的特征组合意味着处于发明的范围之内并且形成不同的实施例。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域技术人员应当理解，可以在实践中使用通用处理器(CPU)或微处理器或数字信号处理器(DSP)或图形处理器(GPU)或现场可编程门阵列(FPGA)或专用集成电路(ASIC)来实现根据本发明实施例的一种设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是，上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求书中，不应将位于括号之间的任何附图标记构造成对权利要求的限制。

Claims

1.一种基于深度强化学习的加速器束流轨道控制方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述步骤S11中，所述通过深度强化学习方法预训练的深度神经网络是通过束流动力学模型仿真平台生成预训练数据，具体包括以下步骤：

利用束流动力学仿真平台构建所要控制的加速器模型；

3.根据权利要求2所述的方法，其特征在于，所述步骤S11中，所述深度神经网络包括动作深度神经网络、目标动作深度神经网络、价值深度神经网络及目标价值深度神经网络；所述深度神经网络通过深度强化学习方法进行预训练的具体步骤包括：

4.根据权利要求2或3所述方法，其特征在于，所述利用奖励函数得到所述动作的奖励数据的步骤具体包括：

基于LQR问题构造奖励函数的形式；

5.根据权利要求3所述的方法，其特征在于，所述将所述动作的Q价值函数值与目标价值函数值的误差进行反向传播中的反向传播过程是采用Adam随机梯度下降方法更新所述深度神经网络的权重。

6.根据权利要求2至4任意一项所述的方法，其特征在于，使用贪婪搜索算法产生所述校正器动作数据。

7.根据权利要求1所述的方法，其特征在于，所述步骤S12中，所述在预训练过程中获得的深度神经网络权重数据包括动作深度神经网络权重数据、目标动作深度神经网络权重数据、价值深度神经网络权重数据、目标价值深度神经网络权重数据；所述轨道控制策略的经验数据包括起始束流轨道状态数据、校正器动作数据、奖励数据及束流轨道下一状态数据。

8.根据权利要求1所述的方法，其特征在于，所述步骤S12中，在线获取所述加速器的束流轨道状态数据，所述深度神经网络接收所述束流轨道状态数据的步骤具体包括：

由动作深度神经网络接收所述束流轨道状态数据。

9.根据权利要求1所述的方法，其特征在于，所述步骤S11中，所述输出用于控制所述加速器束流轨道的动作数据的步骤具体包括：

10.根据权利要求1所述的方法，其特征在于，所述步骤S12中，所述预训练过程中获得的深度神经网络权重数据包括动作深度神经网络权重数据、目标动作深度神经网络权重数据、价值深度神经网络权重数据、目标价值深度神经网络权重数据；