CN115489572A - 基于强化学习的列车ato控制方法、设备及存储介质 - Google Patents

基于强化学习的列车ato控制方法、设备及存储介质 Download PDF

Info

Publication number
CN115489572A
CN115489572A CN202211150119.8A CN202211150119A CN115489572A CN 115489572 A CN115489572 A CN 115489572A CN 202211150119 A CN202211150119 A CN 202211150119A CN 115489572 A CN115489572 A CN 115489572A
Authority
CN
China
Prior art keywords
train
controlled
control
reinforcement learning
automatic driving
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211150119.8A
Other languages
English (en)
Other versions
CN115489572B (zh
Inventor
陈明亮
张蕾
肖骁
王伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Traffic Control Technology TCT Co Ltd
Original Assignee
Traffic Control Technology TCT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Traffic Control Technology TCT Co Ltd filed Critical Traffic Control Technology TCT Co Ltd
Priority to CN202211150119.8A priority Critical patent/CN115489572B/zh
Priority claimed from CN202211150119.8A external-priority patent/CN115489572B/zh
Publication of CN115489572A publication Critical patent/CN115489572A/zh
Application granted granted Critical
Publication of CN115489572B publication Critical patent/CN115489572B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B61RAILWAYS
    • B61LGUIDING RAILWAY TRAFFIC; ENSURING THE SAFETY OF RAILWAY TRAFFIC
    • B61L27/00Central railway traffic control systems; Trackside control; Communication systems specially adapted therefor
    • B61L27/04Automatic systems, e.g. controlled by train; Change-over to manual control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B61RAILWAYS
    • B61LGUIDING RAILWAY TRAFFIC; ENSURING THE SAFETY OF RAILWAY TRAFFIC
    • B61L15/00Indicators provided on the vehicle or vehicle train for signalling purposes ; On-board control or communication systems
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B61RAILWAYS
    • B61LGUIDING RAILWAY TRAFFIC; ENSURING THE SAFETY OF RAILWAY TRAFFIC
    • B61L15/00Indicators provided on the vehicle or vehicle train for signalling purposes ; On-board control or communication systems
    • B61L15/0018Communication with or on the vehicle or vehicle train
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B61RAILWAYS
    • B61LGUIDING RAILWAY TRAFFIC; ENSURING THE SAFETY OF RAILWAY TRAFFIC
    • B61L15/00Indicators provided on the vehicle or vehicle train for signalling purposes ; On-board control or communication systems
    • B61L15/0072On-board train data handling
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B61RAILWAYS
    • B61LGUIDING RAILWAY TRAFFIC; ENSURING THE SAFETY OF RAILWAY TRAFFIC
    • B61L27/00Central railway traffic control systems; Trackside control; Communication systems specially adapted therefor
    • B61L27/60Testing or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/06Multi-objective optimisation, e.g. Pareto optimisation using simulated annealing [SA], ant colony algorithms or genetic algorithms [GA]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/14Force analysis or force optimisation, e.g. static or dynamic forces

Abstract

本申请提供基于强化学习的列车ATO控制方法、设备、存储介质,其中方法包括:每隔预设控制周期,将被控列车的当前状态信息和移动授权信息作为预先训练好的列车自动驾驶控制算法的输入,得到期望控制量;其中,列车自动驾驶控制算法基于强化学习训练环境训练,所述强化学习训练环境基于被控列车的动力学特性和被控列车的运行控制系统功能搭建;将期望控制量下发给被控列车,以使被控列车根据期望控制量,通过被控车辆的控制系统得出施加的牵引力/制动力,控制被控列车运行,实现了列车运行安全、准时、节能、舒适、精确停车的多目标优化控制,增强列车自动驾驶控制算法自适应和泛化能力,适配多种运行场景的参数自适应,提升控制算法的鲁棒性。

Description

基于强化学习的列车ATO控制方法、设备及存储介质
技术领域
本申请涉及轨道交通技术领域,尤其涉及一种基于强化学习的列车ATO控制方法、设备及存储介质。
背景技术
城市轨道交通已经广泛应用列车ATO(Automatic Train Operation,自动驾驶)系统,传统的列车ATO控制算法以采用PID(Proportional-Integral-Derivative,比例-积分-微分)控制器为主,在调节控制器参数时主要以满足运营需求中的停车精度为主,较少考虑列车运行能耗、车辆性能变化、运行环境变化等因素,导致ATO系统需要针对特定线路、特定环境、特定车辆设计开发不同的代码版本,设置不同的配置参数。开发周期长,调试成本高,控制性能差。
发明内容
为了解决上述技术缺陷之一,本申请提供了一种基于强化学习的列车ATO控制方法、设备及存储介质。
本申请第一个方面,提供了一种基于强化学习的列车ATO控制方法,所述方法包括:
每隔预设控制周期,将被控列车的当前状态信息和移动授权信息作为预先训练好的列车自动驾驶控制算法的输入,得到期望控制量;其中,列车自动驾驶控制算法基于强化学习训练环境训练,所述强化学习训练环境基于被控列车的动力学特性和被控列车的运行控制系统功能搭建;
将所述期望控制量下发给所述被控列车,以使所述被控列车根据所述期望控制量,通过所述被控车辆的控制系统得出施加的牵引力/制动力,控制所述被控列车运行。
可选地,所述每隔预设控制周期,将被控列车的当前状态信息和移动授权信息作为预先训练好的列车自动驾驶控制算法的输入,得到期望控制量之前,还包括:
对被控列车的动力学特性进行建模;
基于建立的模型,结合所述被控列车的运行控制系统功能搭建强化学习训练环境;
确定基于强化学习的列车自动驾驶控制算法架构;
基于架构和所述强化学习训练环境,对列车自动驾驶控制算法进行训练,得到训练好的列车自动驾驶控制算法。
可选地,所述对被控列车的动力学特性进行建模,包括:
提取被控列车的数据,所述数据包括:自动驾驶通控数据中的控制指令以及列车实际的加速度;
通过所述数据辨识出系统增益K和时间常数τ;
采用惯性环节对被控列车制动延时建立如下模型:
Figure BDA0003856724630000021
其中,a为表示被控列车的实际加速度,ades表示被控列车的期望加速度。
可选地,所述强化学习训练环境,根据所述被控列车在N周期时刻施加的动作指令aN,得到执行所述动作指令的状态转移:SN+1←SN(aN);
其中,SN+1为所述被控列车N+1周期时刻的状态,SN表示列车N周期的状态。
可选地,所述动作指令为加速指令,或者,减速指令,或者惰行指令。
可选地,所述状态为如下的一种或多种:速度,加速度,位置。
可选地,所述基于架构和所述强化学习训练环境,对列车自动驾驶控制算法进行训练,得到训练好的列车自动驾驶控制算法,包括:
基于架构和所述强化学习训练环境,得到状态空间
Figure BDA0003856724630000022
动作空间
Figure BDA0003856724630000023
折扣率γ,学习率α;
随机初始化Q表Q(s,a),其中,s为状态空间
Figure BDA0003856724630000024
中的状态标识,a为动作标识,且对于任意状态s和动作a,
Figure BDA0003856724630000031
初始化起始状态s;
选择动作a=π(s);
执行动作a,得到环境反馈的即时奖励r和新状态s′;
更新Q(s,a)←Q(s,a)+α(r+γmaxa′Q(s′,a′)-Q(s,a)),其中,a′为新动作;
更新状态s←s′;
重复初始化起始状态s的步骤及后续步骤,直至s为终止状态;
重复初始化起始状态s的步骤及后续步骤,直至Q表Q(s,a)收敛;
得到训练好的列车自动驾驶控制算法
Figure BDA0003856724630000032
可选地,所述将被控列车的当前状态信息和移动授权信息作为预先训练好的列车自动驾驶控制算法的输入,得到期望控制量之前,还包括:
将预先训练好的列车自动驾驶控制算法集成至所述被控列车的自动驾驶模块。
本申请第二个方面,提供了一种电子设备,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如上述第一个方面所述的方法。
本申请第三个方面,提供了一种计算机可读存储介质,其上存储有计算机程序;所述计算机程序被处理器执行以实现如上述第一个方面所述的方法。
本申请提供基于强化学习的列车ATO控制方法、设备、存储介质,其中方法包括:每隔预设控制周期,将被控列车的当前状态信息和移动授权信息作为预先训练好的列车自动驾驶控制算法的输入,得到期望控制量;其中,列车自动驾驶控制算法基于强化学习训练环境训练,所述强化学习训练环境基于被控列车的动力学特性和被控列车的运行控制系统功能搭建;将期望控制量下发给被控列车,以使被控列车根据期望控制量,通过被控车辆的控制系统得出施加的牵引力/制动力,控制被控列车运行。
本申请提供的方法实现了列车运行安全、准时、节能、舒适、精确停车的多目标优化控制,增强列车自动驾驶控制算法自适应和泛化能力,适配多种运行场景的参数自适应,提升控制算法的鲁棒性。
另外,在一种实现中,对被控列车的动力学特性进行建模,进而搭建强化学习训练环境,确定基于强化学习的列车自动驾驶控制算法架构后,基于架构和所述强化学习训练环境,对列车自动驾驶控制算法进行训练,保证了训练好的列车自动驾驶控制算法的准确性,进而实现了列车运行安全、准时、节能、舒适、精确停车的多目标优化控制。
另外,在一种实现中,通过被控列车的数据对被控列车的动力学特性进行建模,保证了训练环境的质量,进而保证了训练好的列车自动驾驶控制算法的准确性,实现了列车运行安全、准时、节能、舒适、精确停车的多目标优化控制。
另外,在一种实现中,强化学习训练环境可以根据所述被控列车在周期时刻施加的动作指令,得到执行所述动作指令的状态转移,进而通过强化学习训练环境可以模拟实际列车运行过程,进而实现了列车运行安全、准时、节能、舒适、精确停车的多目标优化控制。
另外,在一种实现中,明确了动作指令,保证了强化学习训练环境可以模拟实际列车运行过程,进而实现了列车运行安全、准时、节能、舒适、精确停车的多目标优化控制。
另外,在一种实现中,明确了状态,保证了强化学习训练环境可以模拟实际列车运行过程,进而实现了列车运行安全、准时、节能、舒适、精确停车的多目标优化控制。
另外,在一种实现中,明确了基于架构和所述强化学习训练环境,对列车自动驾驶控制算法进行训练的过程,保证了训练好的列车自动驾驶控制算法的准确性,实现了列车运行安全、准时、节能、舒适、精确停车的多目标优化控制。
另外,在一种实现中,通过将预先训练好的列车自动驾驶控制算法集成至所述被控列车的自动驾驶模块,保证了期望控制量的高效、准确确定,实现了列车运行安全、准时、节能、舒适、精确停车的多目标优化控制。
本申请提供的电子设备,其上计算机程序被处理器执行以实现列车运行安全、准时、节能、舒适、精确停车的多目标优化控制,增强列车自动驾驶控制算法自适应和泛化能力,适配多种运行场景的参数自适应,提升控制算法的鲁棒性。
本申请提供的计算机可读存储介质,其上的计算机程序被处理器执行以实现列车运行安全、准时、节能、舒适、精确停车的多目标优化控制,增强列车自动驾驶控制算法自适应和泛化能力,适配多种运行场景的参数自适应,提升控制算法的鲁棒性。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种基于强化学习的列车ATO控制方法的流程示意图;
图2为本申请实施例提供的一种强化学习示意图;
图3为本申请实施例提供的一种基于Q-learning的ATO算法框架图;
图4为本申请实施例提供的一种Q-learning算法流程图。
具体实施方式
为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在实现本申请的过程中,发明人发现,城市轨道交通已经广泛应用列车ATO系统,传统的列车ATO控制算法以采用PID控制器为主,在调节控制器参数时主要以满足运营需求中的停车精度为主,较少考虑列车运行能耗、车辆性能变化、运行环境变化等因素,导致ATO系统需要针对特定线路、特定环境、特定车辆设计开发不同的代码版本,设置不同的配置参数。开发周期长,调试成本高,控制性能差。
针对上述问题,本申请实施例中提供了一种基于强化学习的列车ATO控制方法、设备、存储介质,其中方法包括:每隔预设控制周期,将被控列车的当前状态信息和移动授权信息作为预先训练好的列车自动驾驶控制算法的输入,得到期望控制量;将期望控制量下发给被控列车,以使被控列车根据期望控制量,通过被控车辆的控制系统得出施加的牵引力/制动力,控制被控列车运行。本申请提供的方法实现了列车运行安全、准时、节能、舒适、精确停车的多目标优化控制,增强列车自动驾驶控制算法自适应和泛化能力,适配多种运行场景的参数自适应,提升控制算法的鲁棒性。
参见图1,本实施例提供一种基于强化学习的列车ATO控制方法,其实现流程如下:
101,每隔预设控制周期,将被控列车的当前状态信息和移动授权信息作为预先训练好的列车自动驾驶控制算法的输入,得到期望控制量。
本步骤的期望控制量是基于预先训练好的列车自动驾驶控制算法得到的,因此在执行步骤101之前会训练好的列车自动驾驶控制算法,其中,列车自动驾驶控制算法基于强化学习训练环境训练,所述强化学习训练环境基于被控列车的动力学特性和被控列车的运行控制系统功能搭建。
具体的训练过程为:
201,对被控列车的动力学特性进行建模。
在步骤201中,对被控对象列车进行动力学特性建模。列车的动力学模型是搭建强化学习“环境”的基础,如图2所示。可以选择参数辨识、机器学习等等建模方法,对列车的动力学特性进行仿真建模,作为强化学习中智能体即列车执行动作(加速/减速)之后状态转移的重要依据。
本步骤示例性的提供一种理想的列车动力学模型,并根据历史数据进行参数辨识,采用惯性环节对列车制动延时建立模型。具体的,
1、提取被控列车的数据。
其中,数据包括:自动驾驶通控数据中的控制指令以及列车实际的加速度。
2、通过数据辨识出系统增益K和时间常数τ。
3、采用惯性环节对被控列车制动延时建立如下模型:
Figure BDA0003856724630000071
其中,a为表示被控列车的实际加速度,ades表示被控列车的期望加速度。
通过提取车载ATO通控数据中的控制指令以及实际列车的加速度等数据信息,通过数据筛选剔除无效数据,采用数据辨识的方法辨识出模型中的系统增益和时间常数。其中关于基本阻力和坡道阻力的建模可以采用经验值对其建模,在控制器设计完之后作为干扰补偿控制列车运行。
202,基于建立的模型,结合被控列车的运行控制系统功能搭建强化学习训练环境。
列车运行控制系统式基于计算机、通信及控制等现代信息技术应用,实现全过程实时控制列车运行的复杂自动控制系统。为了模拟实际列车运行过程,需要基于步骤201的基础上实现列车动力学模块的仿真。为了简化实现,选择只实现关键模块逻辑,包括电子地图数据生成、防护速度计算等功能。
当强化学习ATO模块输出列车的动作(加速、减速和惰行)指令时,环境能够根据智能体输出的动作指令,输出在该状态下执行该动作的状态转移。
即,强化学习训练环境可以根据被控列车在N周期时刻施加的动作指令aN,得到执行动作指令的状态转移:SN+1←SN(aN)。
其中,SN+1为被控列车N+1周期时刻的状态,SN表示列车N周期的状态。
动作指令aN为加速指令,或者,减速指令,或者惰行指令。
状态为如下的一种或多种:速度,加速度,位置。
203,确定基于强化学习的列车自动驾驶(ATO)控制算法架构。
同时,还会设计强化学习算法的奖励函数。
常用的强化学习算法有Q-learning、DQN、A2C、A3C等。根据实际的硬件条件和功能需求,本步骤可以采用其中一种算法作为列车ATO控制算法的架构。
例如,基于Q-learning的强化学习ATO控制算法,其算法框架图如图3所示,Q-learning的算法流程图如图4所示。
列车自动驾驶控制过程是一个多目标的控制过程,通过量化运行控制过程中评价指标,其中包括但不限于安全性(不超过ATP限速)、节能性、停车精度(±30cm)、准时性和舒适性(冲击率)等,不同评价指标根据需求设置不同的权重来区分不同评价指标之间的重要程度,可通过加权平均的方式作为强化学习的奖励函数。
204,基于架构和强化学习训练环境,对列车自动驾驶(ATO)控制算法进行训练,得到训练好的列车自动驾驶控制算法。
根据步骤203选取的强化学习算法架构结合步骤202建立的训练环境,对基于强化学习的ATO控制算法进行离线训练。
本步骤采用如下的训练流程:
基于架构和强化学习训练环境,得到状态空间
Figure BDA0003856724630000081
动作空间
Figure BDA0003856724630000082
折扣率γ,学习率α。将状态空间
Figure BDA0003856724630000083
动作空间
Figure BDA0003856724630000084
折扣率γ,学习率α作为训练的输入。
1、随机初始化Q表Q(s,a),
其中,s为状态空间
Figure BDA0003856724630000085
中的状态标识,a为动作标识,且对于任意状态s和动作a,
Figure BDA0003856724630000086
2、初始化起始状态s。
3、在状态s,选择动作a=π(s)。
4、执行动作a,得到环境反馈的即时奖励r和新状态s′。
5、更新Q(s,a)←Q(s,a)+α(r+γmaxa′Q(s′,a′)-Q(s,a)),其中,a′为新动作。
6、更新状态s←s′。
7、重复初始化起始状态s的步骤及后续步骤,直至s为终止状态。
即重复步骤2-7直至s为终止状态。
8、重复初始化起始状态s的步骤及后续步骤,直至Q表Q(s,a)收敛。
即重复步骤2-8直至Q表Q(s,a)收敛。
得到训练好的列车自动驾驶控制算法
Figure BDA0003856724630000091
即输出为策略
Figure BDA0003856724630000092
102,将期望控制量下发给被控列车,以使被控列车根据期望控制量,通过被控车辆的控制系统得出施加的牵引力/制动力,控制被控列车运行。
1、将预先训练好的列车自动驾驶控制算法集成至被控列车的自动驾驶(ATO)模块。
2、根据传感器采集的列车状态信息和移动授权信息作为强化学习的列车ATO控制算法的输入,输出列车的期望控制量。
3、将2所得列车控制量下发给被控列车,被控列车根据列车控制量通过车辆控制系统得出其应施加的牵引力/制动力,控制列车运行。
待到下一个控制周期,重复步骤101和步骤102的内容,从而完成了基于强化学习的智能列车自动驾驶控车运行。
本实施例提供的方法针对传统列车ATO控制算法自适应能力弱,控制效果不理想等问题,提出一种基于强化学习的列车智能控制算法,实现列车运行安全、准时、节能、舒适、精确停车的多目标优化控制。
另外,本实施例提供的方法基于历史数据对被控对象进行数学建模,基于被控对象模型和强化学习算法架构设计基于强化学习的列车智能ATO控制算法,对列车进行智能自动驾驶控车运行。
此外,本实施例提供的方法,在学习优秀司机驾驶操纵模式、泛化对未知状态的适应能力等方面具有很大的优势,有较大潜力实现城市轨道交通列车车载的智能控制,全面提升列车驾驶控制的灵活性、准点、舒适及节能等性能。
本实施例提供基于强化学习的列车ATO控制方法,每隔预设控制周期,将被控列车的当前状态信息和移动授权信息作为预先训练好的列车自动驾驶控制算法的输入,得到期望控制量;其中,列车自动驾驶控制算法基于强化学习训练环境训练,所述强化学习训练环境基于被控列车的动力学特性和被控列车的运行控制系统功能搭建;将期望控制量下发给被控列车,以使被控列车根据期望控制量,通过被控车辆的控制系统得出施加的牵引力/制动力,控制被控列车运行,实现了列车运行安全、准时、节能、舒适、精确停车的多目标优化控制,增强列车自动驾驶控制算法自适应和泛化能力,适配多种运行场景的参数自适应,提升控制算法的鲁棒性。
基于基于强化学习的列车ATO控制方法的同一发明构思,本实施例提供一种电子设备,该电子设备包括:存储器,处理器,以及计算机程序。
其中,计算机程序存储在存储器中,并被配置为由处理器执行以实现上述基于强化学习的列车ATO控制方法。
具体的,
每隔预设控制周期,将被控列车的当前状态信息和移动授权信息作为预先训练好的列车自动驾驶控制算法的输入,得到期望控制量。其中,列车自动驾驶控制算法基于强化学习训练环境训练,所述强化学习训练环境基于被控列车的动力学特性和被控列车的运行控制系统功能搭建。
将期望控制量下发给被控列车,以使被控列车根据期望控制量,通过被控车辆的控制系统得出施加的牵引力/制动力,控制被控列车运行。
可选地,每隔预设控制周期,将被控列车的当前状态信息和移动授权信息作为预先训练好的列车自动驾驶控制算法的输入,得到期望控制量之前,还包括:
对被控列车的动力学特性进行建模。
基于建立的模型,结合被控列车的运行控制系统功能搭建强化学习训练环境。
确定基于强化学习的列车自动驾驶控制算法架构。
基于架构和强化学习训练环境,对列车自动驾驶控制算法进行训练,得到训练好的列车自动驾驶控制算法。
可选地,对被控列车的动力学特性进行建模,包括:
提取被控列车的数据,数据包括:自动驾驶通控数据中的控制指令以及列车实际的加速度。
通过数据辨识出系统增益K和时间常数τ。
采用惯性环节对被控列车制动延时建立如下模型:
Figure BDA0003856724630000111
其中,a为表示被控列车的实际加速度,ades表示被控列车的期望加速度。
可选地,强化学习训练环境,根据被控列车在N周期时刻施加的动作指令aN,得到执行动作指令的状态转移:SN+1←SN(aN)。
其中,SN+1为被控列车N+1周期时刻的状态,SN表示列车N周期的状态。
可选地,动作指令为加速指令,或者,减速指令,或者惰行指令。
可选地,状态为如下的一种或多种:速度,加速度,位置。
可选地,基于架构和强化学习训练环境,对列车自动驾驶控制算法进行训练,得到训练好的列车自动驾驶控制算法,包括:
基于架构和强化学习训练环境,得到状态空间
Figure BDA0003856724630000112
动作空间
Figure BDA0003856724630000113
折扣率γ,学习率α。
随机初始化Q表Q(s,a),其中,s为状态空间
Figure BDA0003856724630000114
中的状态标识,a为动作标识,且对于任意状态s和动作a,
Figure BDA0003856724630000115
初始化起始状态s。
选择动作a=π(s)。
执行动作a,得到环境反馈的即时奖励r和新状态s′。
更新Q(s,a)←Q(s,a)+α(r+γmaxa′Q(s′,a′)-Q(s,a)),其中,a′为新动作。
更新状态s←s′。
重复初始化起始状态s的步骤及后续步骤,直至s为终止状态。
重复初始化起始状态s的步骤及后续步骤,直至Q表Q(s,a)收敛。
得到训练好的列车自动驾驶控制算法
Figure BDA0003856724630000121
可选地,将被控列车的当前状态信息和移动授权信息作为预先训练好的列车自动驾驶控制算法的输入,得到期望控制量之前,还包括:
将预先训练好的列车自动驾驶控制算法集成至被控列车的自动驾驶模块。
本实施例提供的电子设备,其上计算机程序被处理器执行以实现列车运行安全、准时、节能、舒适、精确停车的多目标优化控制,增强列车自动驾驶控制算法自适应和泛化能力,适配多种运行场景的参数自适应,提升控制算法的鲁棒性。
基于基于强化学习的列车ATO控制方法的同一发明构思,本实施例提供一种计算机可其上存储有计算机程序。计算机程序被处理器执行以实现上述基于强化学习的列车ATO控制方法。
具体的,
每隔预设控制周期,将被控列车的当前状态信息和移动授权信息作为预先训练好的列车自动驾驶控制算法的输入,得到期望控制量。其中,列车自动驾驶控制算法基于强化学习训练环境训练,所述强化学习训练环境基于被控列车的动力学特性和被控列车的运行控制系统功能搭建。
将期望控制量下发给被控列车,以使被控列车根据期望控制量,通过被控车辆的控制系统得出施加的牵引力/制动力,控制被控列车运行。
可选地,每隔预设控制周期,将被控列车的当前状态信息和移动授权信息作为预先训练好的列车自动驾驶控制算法的输入,得到期望控制量之前,还包括:
对被控列车的动力学特性进行建模。
基于建立的模型,结合被控列车的运行控制系统功能搭建强化学习训练环境。
确定基于强化学习的列车自动驾驶控制算法架构。
基于架构和强化学习训练环境,对列车自动驾驶控制算法进行训练,得到训练好的列车自动驾驶控制算法。
可选地,对被控列车的动力学特性进行建模,包括:
提取被控列车的数据,数据包括:自动驾驶通控数据中的控制指令以及列车实际的加速度。
通过数据辨识出系统增益K和时间常数τ。
采用惯性环节对被控列车制动延时建立如下模型:
Figure BDA0003856724630000131
其中,a为表示被控列车的实际加速度,ades表示被控列车的期望加速度。
可选地,强化学习训练环境,根据被控列车在N周期时刻施加的动作指令aN,得到执行动作指令的状态转移:SN+1←SN(aN)。
其中,SN+1为被控列车N+1周期时刻的状态,SN表示列车N周期的状态。
可选地,动作指令为加速指令,或者,减速指令,或者惰行指令。
可选地,状态为如下的一种或多种:速度,加速度,位置。
可选地,基于架构和强化学习训练环境,对列车自动驾驶控制算法进行训练,得到训练好的列车自动驾驶控制算法,包括:
基于架构和强化学习训练环境,得到状态空间
Figure BDA0003856724630000132
动作空间
Figure BDA0003856724630000133
折扣率γ,学习率α。
随机初始化Q表Q(s,a),其中,s为状态空间
Figure BDA0003856724630000134
中的状态标识,a为动作标识,且对于任意状态s和动作a,
Figure BDA0003856724630000141
初始化起始状态s。
选择动作a=π(s)。
执行动作a,得到环境反馈的即时奖励r和新状态s′。
更新Q(s,a)←Q(s,a)+α(r+γmaxa′Q(s′,a′)-Q(s,a)),其中,a′为新动作。
更新状态s←s′。
重复初始化起始状态s的步骤及后续步骤,直至s为终止状态。
重复初始化起始状态s的步骤及后续步骤,直至Q表Q(s,a)收敛。
得到训练好的列车自动驾驶控制算法
Figure BDA0003856724630000142
可选地,将被控列车的当前状态信息和移动授权信息作为预先训练好的列车自动驾驶控制算法的输入,得到期望控制量之前,还包括:
将预先训练好的列车自动驾驶控制算法集成至被控列车的自动驾驶模块。
本实施例提供的计算机可读存储介质,其上的计算机程序被处理器执行以实现列车运行安全、准时、节能、舒适、精确停车的多目标优化控制,增强列车自动驾驶控制算法自适应和泛化能力,适配多种运行场景的参数自适应,提升控制算法的鲁棒性。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java和直译式脚本语言JavaScript等。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种基于强化学习的列车ATO控制方法,其特征在于,所述方法包括:
每隔预设控制周期,将被控列车的当前状态信息和移动授权信息作为预先训练好的列车自动驾驶控制算法的输入,得到期望控制量;其中,列车自动驾驶控制算法基于强化学习训练环境训练,所述强化学习训练环境基于被控列车的动力学特性和被控列车的运行控制系统功能搭建;
将所述期望控制量下发给所述被控列车,以使所述被控列车根据所述期望控制量,通过所述被控车辆的控制系统得出施加的牵引力/制动力,控制所述被控列车运行。
2.根据权利要求1所述的方法,其特征在于,所述每隔预设控制周期,将被控列车的当前状态信息和移动授权信息作为预先训练好的列车自动驾驶控制算法的输入,得到期望控制量之前,还包括:
对被控列车的动力学特性进行建模;
基于建立的模型,结合所述被控列车的运行控制系统功能搭建强化学习训练环境;
确定基于强化学习的列车自动驾驶控制算法架构;
基于架构和所述强化学习训练环境,对列车自动驾驶控制算法进行训练,得到训练好的列车自动驾驶控制算法。
3.根据权利要求2所述的方法,其特征在于,所述对被控列车的动力学特性进行建模,包括:
提取被控列车的数据,所述数据包括:自动驾驶通控数据中的控制指令以及列车实际的加速度;
通过所述数据辨识出系统增益K和时间常数τ;
采用惯性环节对被控列车制动延时建立如下模型:
Figure FDA0003856724620000011
其中,a为表示被控列车的实际加速度,ades表示被控列车的期望加速度。
4.根据权利要求2所述的方法,其特征在于,所述强化学习训练环境,根据所述被控列车在N周期时刻施加的动作指令aN,得到执行所述动作指令的状态转移:SN+1←SN(aN);
其中,SN+1为所述被控列车N+1周期时刻的状态,SN表示列车N周期的状态。
5.根据权利要求4所述的方法,其特征在于,所述动作指令为加速指令,或者,减速指令,或者惰行指令。
6.根据权利要求4所述的方法,其特征在于,所述状态为如下的一种或多种:速度,加速度,位置。
7.根据权利要求2所述的方法,其特征在于,所述基于架构和所述强化学习训练环境,对列车自动驾驶控制算法进行训练,得到训练好的列车自动驾驶控制算法,包括:
基于架构和所述强化学习训练环境,得到状态空间
Figure FDA0003856724620000021
动作空间
Figure FDA0003856724620000022
折扣率γ,学习率α;
随机初始化Q表Q(s,a),其中,s为状态空间
Figure FDA0003856724620000023
中的状态标识,a为动作标识,且对于任意状态s和动作a,
Figure FDA0003856724620000024
初始化起始状态s;
选择动作a=π(s);
执行动作a,得到环境反馈的即时奖励r和新状态s′;
更新Q(s,a)←Q(s,a)+α(r+γmaxa′Q(s′,a′)-Q(s,a)),其中,a′为新动作;
更新状态s←s′;
重复初始化起始状态s的步骤及后续步骤,直至s为终止状态;
重复初始化起始状态s的步骤及后续步骤,直至Q表Q(s,a)收敛;
得到训练好的列车自动驾驶控制算法
Figure FDA0003856724620000025
8.根据权利要求1所述的方法,其特征在于,所述将被控列车的当前状态信息和移动授权信息作为预先训练好的列车自动驾驶控制算法的输入,得到期望控制量之前,还包括:
将预先训练好的列车自动驾驶控制算法集成至所述被控列车的自动驾驶模块。
9.一种电子设备,其特征在于,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如权利要求1-8任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序;所述计算机程序被处理器执行以实现如权利要求1-8任一项所述的方法。
CN202211150119.8A 2022-09-21 基于强化学习的列车ato控制方法、设备及存储介质 Active CN115489572B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211150119.8A CN115489572B (zh) 2022-09-21 基于强化学习的列车ato控制方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211150119.8A CN115489572B (zh) 2022-09-21 基于强化学习的列车ato控制方法、设备及存储介质

Publications (2)

Publication Number Publication Date
CN115489572A true CN115489572A (zh) 2022-12-20
CN115489572B CN115489572B (zh) 2024-05-14

Family

ID=

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB311309A (en) * 1928-02-09 1929-05-09 Ass Telephone & Telegraph Co Improvements in and relating to train control systems
JP2017017904A (ja) * 2015-07-02 2017-01-19 日本信号株式会社 列車監視システム
CN106802553A (zh) * 2017-01-13 2017-06-06 清华大学 一种基于强化学习的铁路机车运行操控系统混合任务调度方法
CN107943022A (zh) * 2017-10-23 2018-04-20 清华大学 一种基于强化学习的pid机车自动驾驶优化控制方法
DE102019206241A1 (de) * 2019-04-30 2020-11-05 Siemens Mobility GmbH Verfahren zum Bestimmen einer Gleisbelegung sowie Achszähleinrichtung
CN112590738A (zh) * 2020-12-23 2021-04-02 交控科技股份有限公司 兼容不同代际车辆的ato停车控制方法
JPWO2021106042A1 (zh) * 2019-11-25 2021-06-03
WO2021238303A1 (zh) * 2020-05-29 2021-12-02 华为技术有限公司 运动规划的方法与装置
US11205124B1 (en) * 2020-12-04 2021-12-21 East China Jiaotong University Method and system for controlling heavy-haul train based on reinforcement learning

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB311309A (en) * 1928-02-09 1929-05-09 Ass Telephone & Telegraph Co Improvements in and relating to train control systems
JP2017017904A (ja) * 2015-07-02 2017-01-19 日本信号株式会社 列車監視システム
CN106802553A (zh) * 2017-01-13 2017-06-06 清华大学 一种基于强化学习的铁路机车运行操控系统混合任务调度方法
CN107943022A (zh) * 2017-10-23 2018-04-20 清华大学 一种基于强化学习的pid机车自动驾驶优化控制方法
DE102019206241A1 (de) * 2019-04-30 2020-11-05 Siemens Mobility GmbH Verfahren zum Bestimmen einer Gleisbelegung sowie Achszähleinrichtung
JPWO2021106042A1 (zh) * 2019-11-25 2021-06-03
WO2021238303A1 (zh) * 2020-05-29 2021-12-02 华为技术有限公司 运动规划的方法与装置
US11205124B1 (en) * 2020-12-04 2021-12-21 East China Jiaotong University Method and system for controlling heavy-haul train based on reinforcement learning
CN112590738A (zh) * 2020-12-23 2021-04-02 交控科技股份有限公司 兼容不同代际车辆的ato停车控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张淼;张琦;刘文韬;周博渊;: "一种基于策略梯度强化学习的列车智能控制方法", 铁道学报, no. 01, 15 January 2020 (2020-01-15) *

Similar Documents

Publication Publication Date Title
Kuefler et al. Imitating driver behavior with generative adversarial networks
CN110969848B (zh) 一种对向双车道下基于强化学习的自动驾驶超车决策方法
CN107102644B (zh) 基于深度强化学习的水下机器人轨迹控制方法及控制系统
CN105700538B (zh) 基于神经网络和pid算法的轨迹跟随方法
CN111483468A (zh) 基于对抗模仿学习的无人驾驶车辆换道决策方法和系统
CN113044064B (zh) 基于元强化学习的车辆自适应的自动驾驶决策方法及系统
CN113561994B (zh) 轨迹规划方法、装置、存储介质及电子设备
CN109204390B (zh) 一种基于深度学习的列车控制方法
CN112464577B (zh) 车辆动力学模型的构建及车辆状态信息预测方法、装置
CN110027547B (zh) 车辆横向控制方法和装置
CN109878534B (zh) 一种车辆的控制方法、模型的训练方法和装置
CN105480228A (zh) 增强的车辆速度控制
CN110456799A (zh) 一种无人驾驶车辆控制模型在线增量式学习方法
CN113291304B (zh) 自动驾驶车辆的控制方法、装置及系统
CN113492892A (zh) 虚拟编组列车追踪控制方法、装置、电子设备及可读存储介质
CN111661045A (zh) 训练用于察觉碰撞的轨迹预测的生成器单元和鉴别器单元
CN115392111A (zh) 一种列车追踪控制方法、设备、存储介质
CN115496201A (zh) 一种基于深度强化学习的列车精确停车控制方法
CN115489572B (zh) 基于强化学习的列车ato控制方法、设备及存储介质
CN114987511A (zh) 模拟人类驾驶行为以训练基于神经网络的运动控制器的方法
JPH1199848A (ja) 車両挙動推定装置
CN115489572A (zh) 基于强化学习的列车ato控制方法、设备及存储介质
CN107512267A (zh) 一种基于自适应神经模糊模型的车速预测方法
CN110955466A (zh) 用于测定智能体的策略的方法、装置和计算机程序
CN112835362B (zh) 一种自动变道规划方法及装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant