CN107943022B - 一种基于强化学习的pid机车自动驾驶优化控制方法 - Google Patents

一种基于强化学习的pid机车自动驾驶优化控制方法 Download PDF

Info

Publication number
CN107943022B
CN107943022B CN201710990975.7A CN201710990975A CN107943022B CN 107943022 B CN107943022 B CN 107943022B CN 201710990975 A CN201710990975 A CN 201710990975A CN 107943022 B CN107943022 B CN 107943022B
Authority
CN
China
Prior art keywords
locomotive
speed
pid
optimal
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710990975.7A
Other languages
English (en)
Other versions
CN107943022A (zh
Inventor
黄晋
卢莎
赵曦滨
高跃
夏雅楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201710990975.7A priority Critical patent/CN107943022B/zh
Publication of CN107943022A publication Critical patent/CN107943022A/zh
Application granted granted Critical
Publication of CN107943022B publication Critical patent/CN107943022B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明提供了一种基于强化PID的机车自动驾驶优化控制方法,本发明首先根据机车实际运行速度和最优速度的速度差以及当前线路信息作为强化PID的输入,通过强化学习得到一组最优PID控制参数,然后根据强化学习模块给出的最优PID控制参数实现PID控制,给出控制量,控制机车运行。本发明将强化学习用于PID参数调整,利用强化学习能较好的跟环境交互,具有自学习能力,能够更好的实现具有最佳参数组合的PID控制,提升优化效果,降低人工设计难度。

Description

一种基于强化学习的PID机车自动驾驶优化控制方法
技术领域
本发明涉及机车运行优化操纵技术,尤其涉及一种基于强化学习的PID(比例、积分、微分)机车自动驾驶优化控制方法基于强化。
背景技术
机车自动驾驶优化控制是机车自动控制系统的核心功能之一,其主要作用为根据最优速度曲线轨迹,基于实际运动状态并结合跟随控制算法计算得到相应的控制输入量,并将该控制输入量作用于机车完成速度控制的实际操作过程。机车自动驾驶系统需要实现准点、舒适和节能运行等指标。最优速度曲线的优化生成是机车自动驾驶系统满足准点、舒适和节能等指标的保证,也是进行机车驾驶控制的依据。但在实际运行过程中,因为各种外部因素的影响,机车的实际运行轨迹较难与理想曲线重合,因此机车自动驾驶系统中最优速度曲线跟随控制算法的主要目标是尽可能减少机车实际运行速度曲线与最优速度曲线的误差,保证机车能够按照最优速度曲线完成运行任务,因此机车自动驾驶系统控制算法也是保证机车实现准点、平稳和节能运行的关键技术之一。
目前机车控制算法主要分为经典控制算法,改进PID控制算法,智能控制算法以及集成智能控制算法四类。经典控制算法和改进PID控制算法易于实现且鲁棒性较好但存在参数整定困难;智能控制算法也各有特点,如模糊控制对于难以建立精确模型而可根据经验控制的系统的控制效果较好,但存在模糊规则的设计过于依赖人工设计以及无法运用于延时大的系统;专家系统能较好的利用专家经验知识,但存在知识获取依赖人工以及推理能力较弱的不足。因为各类智能控制算法各有特点且存在互补的可能,所以集成智能控制算法根据不同智能控制算法的优点进行结合,但仍无法完全避免结合的智能控制算法本身的不足。如模糊预测控制,虽然提高了控制效果,但是仍需人工设计模糊规则。
虽然控制算法在理论上有了很多的研究成果,但目前投入使用的大部分机车控制算法采用的仍是PID控制算法,但PID控制算法本身的限制决定了控制性能无法达到最优。又由于机车运行环境存在复杂多变的特性,也会影响PID控制性能。
发明内容
本发明的目的是提供一种基于强化学习的PID机车自动驾驶控制方法,其能够适应机车运行环境复杂多变的特性,在不同的实际场景下实现在线控制且可提升控制性能优化效果,同时不需人工设计控制规则。
本发明通过如下技术方案实现:
本发明提供一种基于强化PID的机车自动驾驶优化控制方法,其包括:
步骤S101,获取机车实际运行速度和最优速度的速度差以及当前线路信息等状态信息;
步骤S102,基于上述速度差和当前线路信息,通过强化学习得到一组最优PID控制参数;
步骤S103,采用学习得出的最优PID控制参数实现PID控制,得出控制量,并基于该控制量控制机车运行。
更优选地,所述步骤S102包括:
基于机车当前实际运行速度和最优速度的速度差及线路信息确定状态空间,基于待优化的PID参数构建动作空间,基于机车当前实际运行速度和最优速度的速度差的加权平方和确定回报函数,并基于所述状态空间、动作空间和回报函数构建MDP模型;
采用DHP算法对所构建的MDP模型进行强化学习训练,得到一组最优PID控制参数。
更优选地,所述采用DHP算法对所构建的MDP模型进行强化学习训练的过程包括:
步骤一,将机车在当前时刻k的实际运行速度和最优速度的速度差及线路信息作为特征数据信息输入,并输入到MDP模型中;
步骤二,评价器网络根据列车的特征数据信息输入,进行状态抽象,得到当前状态下最优调度动作,评价器网络在动作空间中选择相应的调度动作,并将该选择的调度动作以及状态空间中的前一时刻的列车状态、司机状态发送给执行器网络;执行器网络根据前一时刻的列车状态、司机状态和当前时刻的动作选择来进行状态转移,同时根据回报函数计算得出回报值,并将该回报值和改变后的状态信息反馈给评价器网络;
重复步骤一级步骤二,不断迭代地进行模型训练和学习,最终通过执行器网络输出当前状态下的一组最优PID参数值。
更优选地,在所述步骤S103中采用如下公式计算控制量:
Figure BDA0001441480100000031
其中KP,KI,KD分别表示比例、微分和积分参数;e(t)为机车实际运行速度和期望速度的差值。
由上述本发明的技术方案可以看出,本发明具有如下有益效果:
本发明将强化学习引入PID控制算法中,强化学习能较好的跟环境交互,具有自学习功能,适应不确定系统的动态特性,因此能适应机车运行环境复杂多变的特性,在不同的实际场景下实现在线控制,同时不需人工设计控制规则。利用本发明的方法,可以提升优化效果,降低人工设计难度。
附图说明
图1为本发明的实施流程图;
图2为DHP强化学习模型;
图3为机车多质点动力学模型图;
图4为机车牵引特性曲线图;
图5为机车制动特性曲线图。
具体实施方式
以下结合附图及其实施例对本发明进行详细说明,但并不因此将本发明的保护范围限制在实施例描述的范围之中。
为使本发明更为清晰,下面对本发明进行详细的说明。
本发明第一实施例提供一种基于强化学习的PID机车自动驾驶控制方法,其处理过程如图1所示,包括:
步骤S101,获取机车实际运行速度和最优速度的速度差以及当前线路信息等状态信息。
机车上的LKJ(机车运行监控装置)能够记录机车的实际运行速度,因此可以从LKJ中获取到机车实际运行速度。
可以从实验室研发的硬件设施中或者机车调度系统中获取到机车的最优速度。
当前线路信息在机车运行前根据事先安排的线路获取到,该当前线路信息包括:当前坡度值、上一段坡度的坡度值和下一段坡度的坡度值等。
步骤S102,基于上述速度差和当前线路信息,通过强化学习得到一组最优PID控制参数。
该步骤S102的具体实现过程如下:
1、构建MDP(Markov Decision Processes,马尔科夫决策过程)模型
利用强化学习来优化PID控制参数属于一种序贯决策过程,因此,首先要确定状态空间,动作空间和回报函数三部分,继而依据这三部分来构建机车自动驾驶优化控制过程的MDP模型,该MDP模型的三大部分如表1所示:
表1 MDP模型
Figure BDA0001441480100000051
其中的状态空间由机车当前实际运行速度和最优速度的速度差及线路信息来表示。动作空间由待优化的PID参数来表示,该待优化的PID参数包括KP,KI,KD。该KP,KI,KD分别表示比例、微分和积分参数。回报函数由机车当前实际运行速度和最优速度的速度差的加权平方和来表示。
2、利用上述构建的MDP模型进行强化学习训练,得到一组最优PID控制参数。
在本实施例中强化学习部分采用DHP算法。利用上述构建的MDP模型进行强化学习训练时,采用如图2所示的DHP强化学习模型来完成。
由图2可以看出,该DHP强化学习模型中,包括评价器网络,执行器网络、回报函数和PID控制器。
采用DHP算法进行强化学习训练时,利用机车实际运行过程中实际速度和最优速度之间的速度差,当前线路信息,系统的当前回报值,执行器网络和评价器网络能够进行在线学习,并最终通过PID控制器输出当前状态下的一组最优PID参数值。具体实现流程包括如下步骤:
将机车在当前时刻k的实际运行速度和最优速度的速度差及线路信息输入到MDP模型中;
根据评价器网络和执行器网络计算当前时刻的最优PID控制参数;具体如下:
评价器网络根据列车的特征数据信息(如机车实际运行速度、最优速度、当前线路信息)输入,进行状态抽象,得到当前状态下最优调度动作,评价器网络在动作空间中选择相应的调度动作,并将该选择的调度动作以及状态空间中的前一时刻的列车状态、司机状态发送给执行器网络;执行器网络根据前一时刻的列车状态、司机状态和当前时刻的动作选择来进行状态转移,同时根据回报函数计算得出回报值,并将该回报值和改变后的状态信息反馈给评价器网络,如此不断迭代地进行模型训练和学习,最终通过执行器网络输出当前状态下的一组最优PID参数值。
基于最优PID控制参数,输入机车当前实际运行速度,根据MDP模型获取速度控制量,根据该速度控制量即可得到k+1时刻的速度,计算k+1时刻的实际运行速度和最优速度之间的速度差,同时更新折扣因子及评价器网络和执行器网络。
迭代结束条件为累计误差和大于累计误差阈值。迭代结束后得到的执行器网络即用于为步骤S103的预测控制过程中预测PID最优参数。
在线学习完成后,利用训练好的执行器网络来进行机车跟踪控制。对于状态空间中的每一个当前状态,该执行器网络都能够生成一组相应的最优PID参数,从而用来计算出当前的控制量。
步骤S103、采用学习得出的最优PID控制参数实现PID控制,得出控制量,并基于该控制量控制机车运行。
PID控制的过程也是采用如下公式计算控制量的过程:
Figure BDA0001441480100000061
其中KP,KI,KD分别表示比例、微分和积分参数,也为PID控制参数;e(t)为速度误差(即机车实际运行速度和期望速度之间的差值)。
最终得到的KP,KI,KD参数即为PID控制参数。计算得出PID控制参数后,便可通过硬件设施控制机车的速度(如:利用现有算法根据速度的变化来换算成相应的挡位变化,通过控制挡位来控制机车的运行速度)。
经过上述步骤S101至步骤S103后,在机车自动驾驶过程中能够达到很好的控制效果。以下是通过设置实验环境进行控制效果验证的情况:
图3所示为机车多质点动力学模型。可以看出,该机车多质点动力学模型是以每一台机车或车辆为单位,将其看成一个质点,这些质点带有类型、质量和长度的属性,既相互独立,又通过前后车之间的拉力紧密地结合在一起,构成一个能够反映机车真实编组情况的质点链。机车多质点动力学模型能够反映机车编组情况、长度和相互之间的连接方式对机车受力的影响,最重要的是可以观察车厢之间的车钩力,避免纵向冲动过大导致车钩被拉断。
为精确反映机车在线路条件变化(变坡点和变曲率点)时的受力情况,将机车多质点动力学模型与线路信息紧密结合。提前采集线路信息并存储在机车控制系统中,在机车运行过程中,当机车经过某段线路时,在线读取此段线路的坡度信息,并计算此时该机车所受到的坡道附加阻力,从而使对每个质点的受力分析更加精确。
在机车多质点动力学模型中,将每台机车或车辆看成是一个质点,考虑这些质点之间互相的拉力,在每节车厢的两端,缓冲器连接到底盘上,作为一个缓冲装置与车钩或者牵引杆相连。缓冲器承受来自车钩的压力,它们的整体长度变化量取决于车钩的最大位移。缓冲器由刚性支撑架和提供阻尼的缓冲装置构成,一旦形变量达到最大值,缓冲器就变成刚性体,冲击力就会直接传递到车体。
图4所示为机车牵引特性曲线拟合结果,图5为机车制动特性曲线拟合结果。机车牵引特性曲线、机车制动特性曲线是机车牵引计算的基本数据内容,是机车优化操纵的模型基础。本发明中,机车特性曲线,根据机车实际运行数据反求拟合得到,根据多辆机车运行数据平均反求得到。
由图3、图4和图5构建机车仿真环境,模拟机车运行过程。然后基于本发明的方案设计控制器,在机车实际运行线路,通过模拟线路和机车信号信息,实验验证本发明的方案能够在机车自动驾驶过程中达到很好的控制效果,进而迭代改进本发明的方案的有效性。
虽然上面结合本发明的优选实施例对本发明的原理进行了详细的描述,本领域技术人员应该理解,上述实施例仅仅是对本发明的示意性实现方式的解释,并非对本发明包含范围的限定。实施例中的细节并不构成对本发明范围的限制,在不背离本发明的精神和范围的情况下,任何基于本发明技术方案的等效变换、简单替换等显而易见的改变,均落在本发明保护范围之内。

Claims (3)

1.一种基于强化PID的机车自动驾驶优化控制方法,其特征在于,所述的方法包括:
步骤S101,获取机车实际运行速度和最优速度的速度差以及当前线路信息的状态信息;当前线路信息包括:当前坡度值、上一段坡度的坡度值和下一段坡度的坡度值;
步骤S102,基于机车当前实际运行速度和最优速度的速度差及线路信息确定状态空间,基于待优化的PID参数构建动作空间,基于机车当前实际运行速度和最优速度的速度差的加权平方和确定回报函数,并基于所述状态空间、动作空间和回报函数构建MDP模型;
基于DHP强化学习模型,利用机车实际运行过程中实际速度和最优速度之间的速度差,当前线路信息,当前回报值,通过执行器网络和评价器网络采用DHP算法对所构建的MDP模型进行强化学习训练,得到当前状态下的一组最优PID控制参数;
步骤S103,采用学习得出的最优PID控制参数实现PID控制,得出控制量,并基于该控制量控制机车运行。
2.根据权利要求1所述的一种基于强化PID的机车自动驾驶优化控制方法,其特征在于,所述采用DHP算法对所构建的MDP模型进行强化学习训练的过程包括:
步骤一,将机车在当前时刻k的实际运行速度和最优速度的速度差及线路信息作为特征数据信息输入,并输入到MDP模型中;
步骤二,评价器网络根据列车的特征数据信息输入,进行状态抽象,得到当前状态下最优调度动作,评价器网络在动作空间中选择相应的调度动作,并将该选择的调度动作以及状态空间中的前一时刻的列车状态、司机状态发送给执行器网络;执行器网络根据前一时刻的列车状态、司机状态和当前时刻的动作选择来进行状态转移,同时根据回报函数计算得出回报值,并将该回报值和改变后的状态信息反馈给评价器网络;
重复步骤一及步骤二,不断迭代地进行模型训练和学习,最终通过执行器网络输出当前状态下的一组最优PID参数值;迭代结束条件为累计误差和大于累计误差阈值。
3.根据权利要求1所述的一种基于强化PID的机车自动驾驶优化控制方法,其特征在于,在所述步骤S103中采用如下公式计算控制量:
Figure FDA0002900464280000021
其中KP,KI,KD分别表示比例、微分和积分参数;e(t)为机车实际运行速度和期望速度的差值。
CN201710990975.7A 2017-10-23 2017-10-23 一种基于强化学习的pid机车自动驾驶优化控制方法 Active CN107943022B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710990975.7A CN107943022B (zh) 2017-10-23 2017-10-23 一种基于强化学习的pid机车自动驾驶优化控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710990975.7A CN107943022B (zh) 2017-10-23 2017-10-23 一种基于强化学习的pid机车自动驾驶优化控制方法

Publications (2)

Publication Number Publication Date
CN107943022A CN107943022A (zh) 2018-04-20
CN107943022B true CN107943022B (zh) 2021-07-16

Family

ID=61935544

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710990975.7A Active CN107943022B (zh) 2017-10-23 2017-10-23 一种基于强化学习的pid机车自动驾驶优化控制方法

Country Status (1)

Country Link
CN (1) CN107943022B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108897211A (zh) * 2018-07-19 2018-11-27 中国人民解放军国防科技大学 一种磁浮列车的悬浮控制系统参数优化方法
CN109193075B (zh) * 2018-09-28 2020-06-05 合肥工业大学 基于强化学习的纯电动汽车动力电池冷却系统控制方法
CN109204390B (zh) * 2018-09-29 2021-03-12 交控科技股份有限公司 一种基于深度学习的列车控制方法
CN109407666A (zh) * 2018-10-11 2019-03-01 智久(厦门)机器人科技有限公司上海分公司 一种无人车辆的控制方法、装置、设备及存储介质
CN109739228B (zh) * 2018-12-28 2021-12-10 创泽智能机器人集团股份有限公司 一种安防机器人的速度调节参数自训练方法
EP3693243A1 (en) * 2019-02-06 2020-08-12 Zenuity AB Method and system for controlling an automated driving system of a vehicle
JP7200037B2 (ja) * 2019-04-17 2023-01-06 株式会社日立製作所 機械の自動運転制御方法、及びシステム
CN110109454A (zh) * 2019-04-18 2019-08-09 福建信息职业技术学院 一种智能小车运动轨迹复制方法
CN110284426B (zh) * 2019-06-25 2021-07-09 衡橡科技股份有限公司 一种桥梁检查车变频控制系统及其控制方法
CN112631120B (zh) * 2019-10-09 2022-05-17 Oppo广东移动通信有限公司 Pid控制方法、装置和视频编解码系统
CN111026147B (zh) * 2019-12-25 2021-01-08 北京航空航天大学 基于深度强化学习的零超调量无人机位置控制方法及装置
CN112947054A (zh) * 2021-02-22 2021-06-11 武汉理工大学 基于Q-learning的船舶PID控制参数整定方法、系统及存储介质
CN113050418A (zh) * 2021-03-02 2021-06-29 山东罗滨逊物流有限公司 自适应增益调度人工智能控制方法
CN113762464B (zh) * 2021-07-30 2024-04-30 北京交通大学 一种基于学习的列车运行参考曲线动态生成方法
CN113805478B (zh) * 2021-09-15 2024-02-23 深圳市塞防科技有限公司 车辆pid参数的调试方法及车辆
CN114237267B (zh) * 2021-11-02 2023-11-24 中国人民解放军海军航空大学航空作战勤务学院 基于强化学习的飞行机动决策的辅助方法
CN115489572B (zh) * 2022-09-21 2024-05-14 交控科技股份有限公司 基于强化学习的列车ato控制方法、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101667012A (zh) * 2008-09-03 2010-03-10 长春工程学院 基于强化学习自适应比例积分微分配电静止同步补偿器控制方法
CN103381826B (zh) * 2013-07-31 2016-03-09 中国人民解放军国防科学技术大学 基于近似策略迭代的自适应巡航控制方法

Also Published As

Publication number Publication date
CN107943022A (zh) 2018-04-20

Similar Documents

Publication Publication Date Title
CN107943022B (zh) 一种基于强化学习的pid机车自动驾驶优化控制方法
CN112193280B (zh) 一种重载列车强化学习控制方法及系统
CN103381826B (zh) 基于近似策略迭代的自适应巡航控制方法
CN106844949B (zh) 一种用于实现机车节能操纵的双向lstm模型的训练方法
Yin et al. Data-driven models for train control dynamics in high-speed railways: LAG-LSTM for train trajectory prediction
CN103879414A (zh) 一种基于自适应A-Star算法的铁路机车优化操纵方法
CN112486024A (zh) 一种基于多质点模型的高速列车自适应控制方法及系统
Liu et al. Driving intention identification based on long short-term memory and a case study in shifting strategy optimization
Li et al. Neural adaptive fault tolerant control for high speed trains considering actuation notches and antiskid constraints
CN113911172A (zh) 一种基于自适应动态规划的高速列车优化运行控制方法
CN104898414A (zh) 一种高速列车动力学性能设计关键参数识别方法
CN106777717A (zh) 一种考虑载客量变化的ato速度命令节能优化方法
CN116027669A (zh) 一种高速列车自适应滑模控制方法、系统及电子设备
CN111832790A (zh) 一种供水管网预测中长期需水量的方法及系统
CN112198799B (zh) 一种基于深度学习的高速列车停车控制方法及系统
CN109204390A (zh) 一种基于深度学习的列车控制方法
CN102567576B (zh) 一种轮重减载率的预测方法
CN110427690A (zh) 一种基于全局粒子群算法生成ato速度曲线的方法及装置
CN110456799A (zh) 一种无人驾驶车辆控制模型在线增量式学习方法
CN115965057A (zh) 一种面向列车传动系统的类脑持续学习故障诊断方法
CN115496201A (zh) 一种基于深度强化学习的列车精确停车控制方法
CN114519433A (zh) 多智能体强化学习、策略执行方法及计算机设备
CN116560223A (zh) 一种基于物理信息神经网络的智能车辆动力学模型、ilqr控制算法及轨迹跟踪控制器
Guo et al. Adaptive fuzzy sliding mode control for high‐speed train using multi‐body dynamics model
CN112947056B (zh) 基于igwo-bp-pid的磁浮列车位移速度跟踪控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant