CN107943022B

CN107943022B - 一种基于强化学习的pid机车自动驾驶优化控制方法

Info

Publication number: CN107943022B
Application number: CN201710990975.7A
Authority: CN
Inventors: 黄晋; 卢莎; 赵曦滨; 高跃; 夏雅楠
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2017-10-23
Filing date: 2017-10-23
Publication date: 2021-07-16
Anticipated expiration: 2037-10-23
Also published as: CN107943022A

Abstract

本发明提供了一种基于强化PID的机车自动驾驶优化控制方法，本发明首先根据机车实际运行速度和最优速度的速度差以及当前线路信息作为强化PID的输入，通过强化学习得到一组最优PID控制参数，然后根据强化学习模块给出的最优PID控制参数实现PID控制，给出控制量，控制机车运行。本发明将强化学习用于PID参数调整，利用强化学习能较好的跟环境交互，具有自学习能力，能够更好的实现具有最佳参数组合的PID控制，提升优化效果，降低人工设计难度。

Description

一种基于强化学习的PID机车自动驾驶优化控制方法

技术领域

本发明涉及机车运行优化操纵技术，尤其涉及一种基于强化学习的PID(比例、积分、微分)机车自动驾驶优化控制方法基于强化。

背景技术

机车自动驾驶优化控制是机车自动控制系统的核心功能之一，其主要作用为根据最优速度曲线轨迹，基于实际运动状态并结合跟随控制算法计算得到相应的控制输入量，并将该控制输入量作用于机车完成速度控制的实际操作过程。机车自动驾驶系统需要实现准点、舒适和节能运行等指标。最优速度曲线的优化生成是机车自动驾驶系统满足准点、舒适和节能等指标的保证，也是进行机车驾驶控制的依据。但在实际运行过程中，因为各种外部因素的影响，机车的实际运行轨迹较难与理想曲线重合，因此机车自动驾驶系统中最优速度曲线跟随控制算法的主要目标是尽可能减少机车实际运行速度曲线与最优速度曲线的误差，保证机车能够按照最优速度曲线完成运行任务，因此机车自动驾驶系统控制算法也是保证机车实现准点、平稳和节能运行的关键技术之一。

目前机车控制算法主要分为经典控制算法，改进PID控制算法，智能控制算法以及集成智能控制算法四类。经典控制算法和改进PID控制算法易于实现且鲁棒性较好但存在参数整定困难；智能控制算法也各有特点，如模糊控制对于难以建立精确模型而可根据经验控制的系统的控制效果较好，但存在模糊规则的设计过于依赖人工设计以及无法运用于延时大的系统；专家系统能较好的利用专家经验知识，但存在知识获取依赖人工以及推理能力较弱的不足。因为各类智能控制算法各有特点且存在互补的可能，所以集成智能控制算法根据不同智能控制算法的优点进行结合，但仍无法完全避免结合的智能控制算法本身的不足。如模糊预测控制，虽然提高了控制效果，但是仍需人工设计模糊规则。

虽然控制算法在理论上有了很多的研究成果，但目前投入使用的大部分机车控制算法采用的仍是PID控制算法，但PID控制算法本身的限制决定了控制性能无法达到最优。又由于机车运行环境存在复杂多变的特性，也会影响PID控制性能。

发明内容

本发明的目的是提供一种基于强化学习的PID机车自动驾驶控制方法，其能够适应机车运行环境复杂多变的特性，在不同的实际场景下实现在线控制且可提升控制性能优化效果，同时不需人工设计控制规则。

本发明通过如下技术方案实现：

本发明提供一种基于强化PID的机车自动驾驶优化控制方法，其包括：

步骤S101，获取机车实际运行速度和最优速度的速度差以及当前线路信息等状态信息；

步骤S102，基于上述速度差和当前线路信息，通过强化学习得到一组最优PID控制参数；

步骤S103，采用学习得出的最优PID控制参数实现PID控制，得出控制量，并基于该控制量控制机车运行。

更优选地，所述步骤S102包括：

基于机车当前实际运行速度和最优速度的速度差及线路信息确定状态空间，基于待优化的PID参数构建动作空间，基于机车当前实际运行速度和最优速度的速度差的加权平方和确定回报函数，并基于所述状态空间、动作空间和回报函数构建MDP模型；

采用DHP算法对所构建的MDP模型进行强化学习训练，得到一组最优PID控制参数。

更优选地，所述采用DHP算法对所构建的MDP模型进行强化学习训练的过程包括：

步骤一，将机车在当前时刻k的实际运行速度和最优速度的速度差及线路信息作为特征数据信息输入，并输入到MDP模型中；

步骤二，评价器网络根据列车的特征数据信息输入，进行状态抽象，得到当前状态下最优调度动作，评价器网络在动作空间中选择相应的调度动作，并将该选择的调度动作以及状态空间中的前一时刻的列车状态、司机状态发送给执行器网络；执行器网络根据前一时刻的列车状态、司机状态和当前时刻的动作选择来进行状态转移，同时根据回报函数计算得出回报值，并将该回报值和改变后的状态信息反馈给评价器网络；

重复步骤一级步骤二，不断迭代地进行模型训练和学习，最终通过执行器网络输出当前状态下的一组最优PID参数值。

更优选地，在所述步骤S103中采用如下公式计算控制量：

其中K_P，K_I，K_D分别表示比例、微分和积分参数；e(t)为机车实际运行速度和期望速度的差值。

由上述本发明的技术方案可以看出，本发明具有如下有益效果：

本发明将强化学习引入PID控制算法中，强化学习能较好的跟环境交互，具有自学习功能，适应不确定系统的动态特性，因此能适应机车运行环境复杂多变的特性，在不同的实际场景下实现在线控制，同时不需人工设计控制规则。利用本发明的方法，可以提升优化效果，降低人工设计难度。

附图说明

图1为本发明的实施流程图；

图2为DHP强化学习模型；

图3为机车多质点动力学模型图；

图4为机车牵引特性曲线图；

图5为机车制动特性曲线图。

具体实施方式

以下结合附图及其实施例对本发明进行详细说明，但并不因此将本发明的保护范围限制在实施例描述的范围之中。

为使本发明更为清晰，下面对本发明进行详细的说明。

本发明第一实施例提供一种基于强化学习的PID机车自动驾驶控制方法，其处理过程如图1所示，包括：

步骤S101，获取机车实际运行速度和最优速度的速度差以及当前线路信息等状态信息。

机车上的LKJ(机车运行监控装置)能够记录机车的实际运行速度，因此可以从LKJ中获取到机车实际运行速度。

可以从实验室研发的硬件设施中或者机车调度系统中获取到机车的最优速度。

当前线路信息在机车运行前根据事先安排的线路获取到，该当前线路信息包括：当前坡度值、上一段坡度的坡度值和下一段坡度的坡度值等。

步骤S102，基于上述速度差和当前线路信息，通过强化学习得到一组最优PID控制参数。

该步骤S102的具体实现过程如下：

1、构建MDP(Markov Decision Processes,马尔科夫决策过程)模型

利用强化学习来优化PID控制参数属于一种序贯决策过程，因此，首先要确定状态空间，动作空间和回报函数三部分，继而依据这三部分来构建机车自动驾驶优化控制过程的MDP模型，该MDP模型的三大部分如表1所示：

表1 MDP模型

其中的状态空间由机车当前实际运行速度和最优速度的速度差及线路信息来表示。动作空间由待优化的PID参数来表示，该待优化的PID参数包括K_P，K_I，K_D。该K_P，K_I，K_D分别表示比例、微分和积分参数。回报函数由机车当前实际运行速度和最优速度的速度差的加权平方和来表示。

2、利用上述构建的MDP模型进行强化学习训练，得到一组最优PID控制参数。

在本实施例中强化学习部分采用DHP算法。利用上述构建的MDP模型进行强化学习训练时，采用如图2所示的DHP强化学习模型来完成。

由图2可以看出，该DHP强化学习模型中，包括评价器网络，执行器网络、回报函数和PID控制器。

采用DHP算法进行强化学习训练时，利用机车实际运行过程中实际速度和最优速度之间的速度差，当前线路信息，系统的当前回报值，执行器网络和评价器网络能够进行在线学习，并最终通过PID控制器输出当前状态下的一组最优PID参数值。具体实现流程包括如下步骤：

将机车在当前时刻k的实际运行速度和最优速度的速度差及线路信息输入到MDP模型中；

根据评价器网络和执行器网络计算当前时刻的最优PID控制参数；具体如下：

评价器网络根据列车的特征数据信息(如机车实际运行速度、最优速度、当前线路信息)输入，进行状态抽象，得到当前状态下最优调度动作，评价器网络在动作空间中选择相应的调度动作，并将该选择的调度动作以及状态空间中的前一时刻的列车状态、司机状态发送给执行器网络；执行器网络根据前一时刻的列车状态、司机状态和当前时刻的动作选择来进行状态转移，同时根据回报函数计算得出回报值，并将该回报值和改变后的状态信息反馈给评价器网络，如此不断迭代地进行模型训练和学习，最终通过执行器网络输出当前状态下的一组最优PID参数值。

基于最优PID控制参数，输入机车当前实际运行速度，根据MDP模型获取速度控制量，根据该速度控制量即可得到k+1时刻的速度，计算k+1时刻的实际运行速度和最优速度之间的速度差，同时更新折扣因子及评价器网络和执行器网络。

迭代结束条件为累计误差和大于累计误差阈值。迭代结束后得到的执行器网络即用于为步骤S103的预测控制过程中预测PID最优参数。

在线学习完成后，利用训练好的执行器网络来进行机车跟踪控制。对于状态空间中的每一个当前状态，该执行器网络都能够生成一组相应的最优PID参数，从而用来计算出当前的控制量。

步骤S103、采用学习得出的最优PID控制参数实现PID控制，得出控制量，并基于该控制量控制机车运行。

PID控制的过程也是采用如下公式计算控制量的过程：

其中K_P，K_I，K_D分别表示比例、微分和积分参数，也为PID控制参数；e(t)为速度误差(即机车实际运行速度和期望速度之间的差值)。

最终得到的K_P，K_I，K_D参数即为PID控制参数。计算得出PID控制参数后，便可通过硬件设施控制机车的速度(如：利用现有算法根据速度的变化来换算成相应的挡位变化，通过控制挡位来控制机车的运行速度)。

经过上述步骤S101至步骤S103后，在机车自动驾驶过程中能够达到很好的控制效果。以下是通过设置实验环境进行控制效果验证的情况：

图3所示为机车多质点动力学模型。可以看出，该机车多质点动力学模型是以每一台机车或车辆为单位，将其看成一个质点，这些质点带有类型、质量和长度的属性，既相互独立，又通过前后车之间的拉力紧密地结合在一起，构成一个能够反映机车真实编组情况的质点链。机车多质点动力学模型能够反映机车编组情况、长度和相互之间的连接方式对机车受力的影响，最重要的是可以观察车厢之间的车钩力，避免纵向冲动过大导致车钩被拉断。

为精确反映机车在线路条件变化(变坡点和变曲率点)时的受力情况，将机车多质点动力学模型与线路信息紧密结合。提前采集线路信息并存储在机车控制系统中，在机车运行过程中，当机车经过某段线路时，在线读取此段线路的坡度信息，并计算此时该机车所受到的坡道附加阻力，从而使对每个质点的受力分析更加精确。

在机车多质点动力学模型中，将每台机车或车辆看成是一个质点，考虑这些质点之间互相的拉力，在每节车厢的两端，缓冲器连接到底盘上，作为一个缓冲装置与车钩或者牵引杆相连。缓冲器承受来自车钩的压力，它们的整体长度变化量取决于车钩的最大位移。缓冲器由刚性支撑架和提供阻尼的缓冲装置构成，一旦形变量达到最大值，缓冲器就变成刚性体，冲击力就会直接传递到车体。

图4所示为机车牵引特性曲线拟合结果，图5为机车制动特性曲线拟合结果。机车牵引特性曲线、机车制动特性曲线是机车牵引计算的基本数据内容，是机车优化操纵的模型基础。本发明中，机车特性曲线，根据机车实际运行数据反求拟合得到，根据多辆机车运行数据平均反求得到。

由图3、图4和图5构建机车仿真环境，模拟机车运行过程。然后基于本发明的方案设计控制器，在机车实际运行线路，通过模拟线路和机车信号信息，实验验证本发明的方案能够在机车自动驾驶过程中达到很好的控制效果，进而迭代改进本发明的方案的有效性。

虽然上面结合本发明的优选实施例对本发明的原理进行了详细的描述，本领域技术人员应该理解，上述实施例仅仅是对本发明的示意性实现方式的解释，并非对本发明包含范围的限定。实施例中的细节并不构成对本发明范围的限制，在不背离本发明的精神和范围的情况下，任何基于本发明技术方案的等效变换、简单替换等显而易见的改变，均落在本发明保护范围之内。

Claims

1.一种基于强化PID的机车自动驾驶优化控制方法，其特征在于，所述的方法包括：

步骤S101，获取机车实际运行速度和最优速度的速度差以及当前线路信息的状态信息；当前线路信息包括：当前坡度值、上一段坡度的坡度值和下一段坡度的坡度值；

步骤S102，基于机车当前实际运行速度和最优速度的速度差及线路信息确定状态空间，基于待优化的PID参数构建动作空间，基于机车当前实际运行速度和最优速度的速度差的加权平方和确定回报函数，并基于所述状态空间、动作空间和回报函数构建MDP模型；

基于DHP强化学习模型，利用机车实际运行过程中实际速度和最优速度之间的速度差，当前线路信息，当前回报值，通过执行器网络和评价器网络采用DHP算法对所构建的MDP模型进行强化学习训练，得到当前状态下的一组最优PID控制参数；

2.根据权利要求1所述的一种基于强化PID的机车自动驾驶优化控制方法，其特征在于，所述采用DHP算法对所构建的MDP模型进行强化学习训练的过程包括：

重复步骤一及步骤二，不断迭代地进行模型训练和学习，最终通过执行器网络输出当前状态下的一组最优PID参数值；迭代结束条件为累计误差和大于累计误差阈值。

3.根据权利要求1所述的一种基于强化PID的机车自动驾驶优化控制方法，其特征在于，在所述步骤S103中采用如下公式计算控制量：