CN112193280A - 一种重载列车强化学习控制方法及系统 - Google Patents

一种重载列车强化学习控制方法及系统 Download PDF

Info

Publication number
CN112193280A
CN112193280A CN202011396657.6A CN202011396657A CN112193280A CN 112193280 A CN112193280 A CN 112193280A CN 202011396657 A CN202011396657 A CN 202011396657A CN 112193280 A CN112193280 A CN 112193280A
Authority
CN
China
Prior art keywords
heavy
train
reinforcement learning
duty
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011396657.6A
Other languages
English (en)
Other versions
CN112193280B (zh
Inventor
杨辉
王禹
李中奇
付雅婷
谭畅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Jiaotong University
Original Assignee
East China Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Jiaotong University filed Critical East China Jiaotong University
Priority to CN202011396657.6A priority Critical patent/CN112193280B/zh
Publication of CN112193280A publication Critical patent/CN112193280A/zh
Priority to AU2021100503A priority patent/AU2021100503A4/en
Priority to US17/186,795 priority patent/US11205124B1/en
Application granted granted Critical
Publication of CN112193280B publication Critical patent/CN112193280B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B61RAILWAYS
    • B61LGUIDING RAILWAY TRAFFIC; ENSURING THE SAFETY OF RAILWAY TRAFFIC
    • B61L15/00Indicators provided on the vehicle or vehicle train for signalling purposes ; On-board control or communication systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B61RAILWAYS
    • B61LGUIDING RAILWAY TRAFFIC; ENSURING THE SAFETY OF RAILWAY TRAFFIC
    • B61L25/00Recording or indicating positions or identities of vehicles or vehicle trains or setting of track apparatus
    • B61L25/02Indicating or recording positions or identities of vehicles or vehicle trains
    • B61L25/021Measuring and recording of train speed
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B61RAILWAYS
    • B61LGUIDING RAILWAY TRAFFIC; ENSURING THE SAFETY OF RAILWAY TRAFFIC
    • B61L25/00Recording or indicating positions or identities of vehicles or vehicle trains or setting of track apparatus
    • B61L25/02Indicating or recording positions or identities of vehicles or vehicle trains
    • B61L25/023Determination of driving direction of vehicle or vehicle train
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B61RAILWAYS
    • B61LGUIDING RAILWAY TRAFFIC; ENSURING THE SAFETY OF RAILWAY TRAFFIC
    • B61L25/00Recording or indicating positions or identities of vehicles or vehicle trains or setting of track apparatus
    • B61L25/02Indicating or recording positions or identities of vehicles or vehicle trains
    • B61L25/028Determination of vehicle position and orientation within a train consist, e.g. serialisation
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B61RAILWAYS
    • B61LGUIDING RAILWAY TRAFFIC; ENSURING THE SAFETY OF RAILWAY TRAFFIC
    • B61L27/00Central railway traffic control systems; Trackside control; Communication systems specially adapted therefor
    • B61L27/04Automatic systems, e.g. controlled by train; Change-over to manual control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B61RAILWAYS
    • B61LGUIDING RAILWAY TRAFFIC; ENSURING THE SAFETY OF RAILWAY TRAFFIC
    • B61L27/00Central railway traffic control systems; Trackside control; Communication systems specially adapted therefor
    • B61L27/20Trackside control of safe travel of vehicle or vehicle train, e.g. braking curve calculation
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B61RAILWAYS
    • B61LGUIDING RAILWAY TRAFFIC; ENSURING THE SAFETY OF RAILWAY TRAFFIC
    • B61L27/00Central railway traffic control systems; Trackside control; Communication systems specially adapted therefor
    • B61L27/60Testing or simulation
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Abstract

本发明涉及一种重载列车强化学习控制方法及系统,涉及重载列车智能控制技术领域,包括获取当前时刻重载列车的运行状态信息;根据当前时刻重载列车的运行状态信息和重载列车虚拟控制器,获取下一时刻重载列车控制指令,并将下一时刻重载列车控制指令发送至重载列车控制单元以控制重载列车运行;重载列车虚拟控制器是根据重载列车运行状态数据和专家经验网络训练强化学习网络得到的;强化学习网络包括一个控制网络和两个评价网络;强化学习网络是根据SAC强化学习算法构建的。本发明能够使重载列车在运行过程中具有安全、稳定、高效的性质。

Description

一种重载列车强化学习控制方法及系统
技术领域
本发明涉及重载列车智能控制技术领域,特别是涉及一种重载列车强化学习控制方法及系统。
背景技术
当前中国重载铁路线路正在不断拓展,重载铁路运输在轨道运输中具有非常重要的战略地位和经济地位。目前,重载列车的操纵依靠司机的经验技术,而重载线路具有距离长、线路情况复杂的特点,且重载列车运载重量大、组合车辆多,对司机的操纵水平以及精神状态有着非常大的考验。为了使重载列车安全正点行驶,需要用更好的控制策略来控制重载列车行驶过程。所以,重载列车的建模和控制成为当今研究的重点和方向。
对于重载列车运行控制,通常使用经典控制方法设计一条目标曲线,同时设计一个跟踪控制器来实现自动驾驶。跟踪控制器常常采用经典的PID控制算法,但是PID控制算法在参数的选取上依靠人为调节,不适合重载列车复杂过程控制。对此,有人提出使用广义预测控制算法实现重载列车速度跟踪控制,但是广义预测控制算法计算繁琐复杂,在实时响应的重载列车控制系统中表现不佳。有人把重载列车的自动停车控制和模糊控制相结合,但是模糊控制中模糊规则以及隶属函数凭借经验得出,在重载列车运行过程中难以控制和计算。
随着人工神经网络的发展,有人提出基于数据驱动的重载列车操纵控制方法,但是普通的神经网络训练需要大量实际数据,并且实际数据样本分布不均匀会导致训练出的控制器过拟合,实际场景的变化更多,训练的控制器状态在未知样本空间的情况下容易崩溃,在实际应用中有非常大的风险。
发明内容
本发明的目的是提供一种重载列车强化学习控制方法及系统,以具有安全、稳定、高效的性质。
为实现上述目的,本发明提供了如下方案:
一种重载列车强化学习控制方法,包括:
获取当前时刻重载列车的运行状态信息;所述重载列车是由多个车辆组成,所述车辆包括牵引机车和普通货车;所述运行状态信息包括重载列车速度和重载列车位置;
根据所述当前时刻重载列车的运行状态信息和重载列车虚拟控制器,获取下一时刻重载列车控制指令,并将所述下一时刻重载列车控制指令发送至重载列车控制单元以控制重载列车运行;
其中,所述重载列车虚拟控制器存储有重载列车的线路信息;
所述重载列车虚拟控制器是根据重载列车运行状态数据和专家经验网络训练强化学习网络得到的;所述强化学习网络包括一个控制网络和两个评价网络;所述强化学习网络是根据SAC强化学习算法构建的;所述重载列车运行状态数据为M个周期重载列车的位置、速度与奖励的时序序列。
可选的,所述专家经验网络的训练过程为:
利用重载列车实际运行历史数据对递归神经网络进行预训练,得到专家经验网络;其中,所述重载列车实际运行历史数据为N个周期重载列车在线路上的位置、速度与控制力的时序序列。
可选的,所述重载列车虚拟控制器的训练过程包括:
构建重载列车虚拟控制器训练架构;所述重载列车虚拟控制器训练架构包括专家经验网络、强化学习网络、记忆库和重载列车运行仿真环境;其中,所述记忆库内存储有重载列车运行状态数据;
将同周期重载列车运行状态数据的位置分别输入所述专家经验网络和所述强化学习网络的控制网络中,将同周期重载列车运行状态数据的速度分别输入所述专家经验网络和所述强化学习网络的控制网络中,得到专家控制指令和强化学习控制指令;
将所述强化学习控制指令以及同周期重载列车运行状态数据的速度和位置输入至所述强化学习网络的评价网络中,得到评价损失;
根据所述专家控制指令和所述强化学习控制指令计算指令损失;
根据综合损失更新所述强化学习网络的控制网络参数,直至得到满足需求的重载列车虚拟控制器;所述综合损失为所述评价损失和所述指令损失的和。
可选的,所述重载列车虚拟控制器的训练过程还包括:
根据重载列车运行状态数据的奖励更新所述强化学习网络的评价网络参数。
可选的,所述重载列车虚拟控制器的训练过程还包括:
将所述强化学习控制指令输入到所述重载列车运行仿真环境中,以获取更新后的重载列车运行状态数据,并将所述更新后的重载列车运行状态数据存储在所述记忆库中。
可选的,所述重载列车运行仿真环境的构建过程为:
确定重载列车运动学模型;
在强化学习环境中确定重载列车运行过程的奖励函数;所述奖励函数包括速度奖励函数、探索范围奖励函数和最大车钩力奖励函数;
根据所述重载列车运动学模型和所述奖励函数组成重载列车运行仿真环境。
可选的,所述确定重载列车运动学模型,具体包括:
利用多质点列车纵向动力学方程对重载列车运行过程进行建模,得到重载列车运动学模型。
一种重载列车强化学习控制系统,包括:
信息获取模块,用于获取当前时刻重载列车的运行状态信息;所述重载列车是由多个车辆组成,所述车辆包括牵引机车和普通货车;所述运行状态信息包括重载列车速度和重载列车位置;
控制指令确定模块,用于根据所述当前时刻重载列车的运行状态信息和重载列车虚拟控制器,获取下一时刻重载列车控制指令,并将所述下一时刻重载列车控制指令发送至重载列车控制单元以控制重载列车运行;
其中,所述重载列车虚拟控制器存储有重载列车的线路信息;
所述重载列车虚拟控制器是根据重载列车运行状态数据和专家经验网络训练强化学习网络得到的;所述强化学习网络包括一个控制网络和两个评价网络;所述强化学习网络是根据SAC强化学习算法构建的;所述重载列车运行状态数据为M个周期重载列车的位置、速度与奖励的时序序列。
可选的,所述控制指令确定模块中的专家经验网络的训练过程为:
利用重载列车实际运行历史数据对递归神经网络进行预训练,得到专家经验网络;其中,所述重载列车实际运行历史数据为N个周期重载列车在线路上的位置、速度与控制力的时序序列。
可选的,所述控制指令确定模块中的重载列车虚拟控制器的训练过程包括:
构建重载列车虚拟控制器训练架构;所述重载列车虚拟控制器训练架构包括专家经验网络、强化学习网络、记忆库和重载列车运行仿真环境;其中,所述记忆库内存储有重载列车运行状态数据;
将同周期重载列车运行状态数据的位置分别输入所述专家经验网络和所述强化学习网络的控制网络中,将同周期重载列车运行状态数据的速度分别输入所述专家经验网络和所述强化学习网络的控制网络中,得到专家控制指令和强化学习控制指令;
将所述强化学习控制指令以及同周期重载列车运行状态数据的速度和位置输入至所述强化学习网络的评价网络中,得到评价损失;
根据所述专家控制指令和所述强化学习控制指令计算指令损失;
根据综合损失更新所述强化学习网络的控制网络参数,直至得到满足需求的重载列车虚拟控制器;所述综合损失为所述评价损失和所述指令损失的和。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明对复杂环境下重载列车非线性系统的控制问题,提出了一种重载列车强化学习控制方法及系统,采用强化学习算法对重载列车运行状态空间进行探索,利用递归神经网络对专家经验数据进行拟合预测,训练得到一个安全、稳定、高效的重载列车虚拟控制器,并将重载列车虚拟控制器运用到重载列车实际运行中,以具有安全、稳定、高效的性质。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一重载列车强化学习控制方法的流程图;
图2为本发明实施例一重载列车强化学习控制系统的结构图;
图3为本发明实施例三重载列车虚拟控制器训练结构框图;
图4为本发明实施例三重载列车实际运行过程图;
图5为本发明实施例三启动阶段训练奖励变化曲线图;
图6为本发明实施例三启动过程速度位移曲线图;
图7为本发明实施例三停车制动阶段训练奖励变化曲线图;
图8为本发明实施例三制动过程速度位移曲线图;
图9为本发明实施例三巡航阶段训练奖励变化曲线图;
图10为本发明实施例三巡航过程速度位移曲线图;
图11为本发明实施例三启动阶段控制力曲线图;
图12为本发明实施例三巡航阶段控制力曲线图;
图13为本发明实施例三制动阶段控制力曲线图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种重载列车强化学习控制方法及系统,以具有安全、稳定、高效的性质。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
强化学习算法由控制(Actor)网络和评价(Critic)网络两部分组成;控制网络输入列车及线路状态,输出控制指令;评价网络输入列车及线路状态和控制指令,输出价值(value)。
实施例一
如图1所示,本实施例提供的一种重载列车强化学习控制方法包括如下步骤。
步骤101:获取当前时刻重载列车的运行状态信息;所述重载列车是由多个车辆组成,所述车辆包括牵引机车和普通货车;所述运行状态信息包括重载列车速度和重载列车位置。
步骤102:根据所述当前时刻重载列车的运行状态信息和重载列车虚拟控制器,获取下一时刻重载列车控制指令,并将所述下一时刻重载列车控制指令发送至重载列车控制单元以控制重载列车运行。
其中,所述重载列车虚拟控制器存储有重载列车的线路信息。
所述重载列车虚拟控制器是根据重载列车运行状态数据和专家经验网络训练强化学习网络得到的;所述强化学习网络包括一个控制网络和两个评价网络;所述强化学习网络是根据SAC强化学习算法构建的;所述重载列车运行状态数据为M个周期重载列车的位置、速度与奖励的时序序列。
所述专家经验网络的训练过程为:利用重载列车实际运行历史数据对递归神经网络进行预训练,得到专家经验网络;其中,所述重载列车实际运行历史数据为N个周期重载列车在线路上的位置、速度与控制力的时序序列。
所述重载列车虚拟控制器的训练过程为:
步骤11:构建重载列车虚拟控制器训练架构;所述重载列车虚拟控制器训练架构包括专家经验网络、强化学习网络、记忆库和重载列车运行仿真环境;其中,所述记忆库内存储有重载列车运行状态数据;所述重载列车运行仿真环境用于根据当前控制指令对重载列车运行状态数据进行更新,并将更新后的重载列车运行状态数据存入所述记忆库中。
步骤12:将同周期重载列车运行状态数据的位置分别输入所述专家经验网络和所述强化学习网络的控制网络中,将同周期重载列车运行状态数据的速度分别输入所述专家经验网络和所述强化学习网络的控制网络中,得到专家控制指令和强化学习控制指令。
步骤13:将所述强化学习控制指令以及同周期重载列车运行状态数据的速度和位置输入至所述强化学习网络的评价网络中,得到评价损失。
步骤14:根据所述专家控制指令和所述强化学习控制指令计算指令损失。
步骤15:根据综合损失更新所述强化学习网络的控制网络参数,直至得到满足需求的重载列车虚拟控制器;所述综合损失为所述评价损失和所述指令损失的和。
所述重载列车虚拟控制器的训练过程还包括:
步骤16:将所述强化学习控制指令输入到所述重载列车运行仿真环境中,以获取更新后的重载列车运行状态数据,并将所述更新后的重载列车运行状态数据存储在所述记忆库中。
步骤17:根据重载列车运行状态数据的奖励更新所述强化学习网络的评价网络参数。
所述重载列车运行仿真环境的构建过程为:
步骤1101:确定重载列车运动学模型,具体为利用多质点列车纵向动力学方程对重载列车运行过程进行建模,得到重载列车运动学模型。
步骤1102:在强化学习环境中确定重载列车运行过程的奖励函数;所述奖励函数包括速度奖励函数、探索范围奖励函数和最大车钩力奖励函数。
步骤1103:根据所述重载列车运动学模型和所述奖励函数组成重载列车运行仿真环境。
实施例二
如图2所示,本实施例提供了一种重载列车强化学习控制系统,包括:
信息获取模块201,用于获取当前时刻重载列车的运行状态信息;所述重载列车是由多个车辆组成,所述车辆包括牵引机车和普通货车;所述运行状态信息包括重载列车速度和重载列车位置。
控制指令确定模块202,用于根据所述当前时刻重载列车的运行状态信息和重载列车虚拟控制器,获取下一时刻重载列车控制指令,并将所述下一时刻重载列车控制指令发送至重载列车控制单元以控制重载列车运行。
其中,所述重载列车虚拟控制器存储有重载列车的线路信息。
所述重载列车虚拟控制器是根据重载列车运行状态数据和专家经验网络训练强化学习网络得到的;所述强化学习网络包括一个控制网络和两个评价网络;所述强化学习网络是根据SAC强化学习算法构建的;所述重载列车运行状态数据为M个周期重载列车的位置、速度与奖励的时序序列。
所述控制指令确定模块中的专家经验网络的训练过程为:
利用重载列车实际运行历史数据对递归神经网络进行预训练,得到专家经验网络;其中,所述重载列车实际运行历史数据为N个周期重载列车在线路上的位置、速度与控制力的时序序列。
所述控制指令确定模块中的重载列车虚拟控制器的训练过程包括:
构建重载列车虚拟控制器训练架构;所述重载列车虚拟控制器训练架构包括专家经验网络、强化学习网络、记忆库和重载列车运行仿真环境;其中,所述记忆库内存储有重载列车运行状态数据。
将同周期重载列车运行状态数据的位置分别输入所述专家经验网络和所述强化学习网络的控制网络中,将同周期重载列车运行状态数据的速度分别输入所述专家经验网络和所述强化学习网络的控制网络中,得到专家控制指令和强化学习控制指令。
将所述强化学习控制指令以及同周期重载列车运行状态数据的速度和位置输入至所述强化学习网络的评价网络中,得到评价损失。
根据所述专家控制指令和所述强化学习控制指令计算指令损失。
根据综合损失更新所述强化学习网络的控制网络参数,直至得到满足需求的重载列车虚拟控制器;所述综合损失为所述评价损失和所述指令损失的和。
实施例三
为实现上述目的,本实施例提供了一种重载列车强化学习控制方法,该方法包括:
步骤一:构建重载列车虚拟控制器
利用重载列车实际运行历史数据对递归神经网络进行预训练,得到专家经验网络;利用多质点列车纵向动力学方程对重载列车运行过程进行建模,得到重载列车运动学模型,并在强化学习环境中确定重载列车运行过程的奖励函数(用作对当前控制指令的奖励评价),重载列车运动学模型和奖励函数组成重载列车运行仿真环境,该重载列车运行仿真环境通过输入控制指令以更新重载列车的速度与位置,并给出该控制指令作用后得到的奖励。每次与重载列车运行仿真环境互动得到的数据均存储在记忆库中,在训练强化学习网络时从记忆库中采样M组数据进行学习,相同的重载列车的位置和速度分别输入专家经验网络和强化学习网络的控制网络中,分别得到专家控制指令和强化学习控制指令,计算强化学习网络的控制网络的输出与专家经验网络的输出之间的损失,计算强化学习网络的评价网络的输出对强化学习网络的控制网络的损失,将两个损失进行加权求和得到强化学习网络的控制网络的综合损失,并通过综合损失更新强化学习网络的参数,最终得到一个满足需要的重载列车虚拟控制器。
其中,本实施例将训练过程划分成启动、巡航、制动三个阶段,加速仿真的训练。
步骤二:获取当前时刻重载列车的运行状态信息;重载列车是由多个车辆组成,车辆包括牵引机车和普通货车;运行状态信息包括重载列车速度和重载列车位置。
步骤三:根据当前时刻重载列车的运行状态信息和重载列车虚拟控制器,获取下一时刻重载列车控制指令,并将下一时刻重载列车控制指令发送至重载列车控制单元以控制重载列车运行。其中,重载列车虚拟控制器存储有重载列车的线路信息。
下面重点介绍重载列车虚拟控制器的构建过程
步骤1、重载列车运行状态空间
考虑到万吨重载列车由一组牵引机车牵引着多辆普通货车组成,而且每一个训练周期都有多个状态转移,为简化计算复杂度,本实施例的重载列车运行状态空间只包含头车的速度与位置,如公式(1)所示。
Figure 635250DEST_PATH_IMAGE001
(1);
其中,
Figure 224495DEST_PATH_IMAGE002
表示k时刻重载列车所处的运行状态;
Figure 800969DEST_PATH_IMAGE003
表示k时刻头部牵引机车的速度;
Figure 363888DEST_PATH_IMAGE004
表示k时刻头部牵引机车所处的位置;
Figure 584785DEST_PATH_IMAGE005
分别表示速度的下限与上限,
Figure 203985DEST_PATH_IMAGE006
分别表示重载列车的起始位置与结束位置,限速是根据路段和运行时间变化的,重载列车的起始位置与结束位置则是根据线路信息进行调整的;k=1,2,…,Ndone,Ndone为触发终止条件的时刻。
步骤2、专家经验网络
RNN(循环神经网络或者成递归神经网络)是一个具有时间动态行为的神经网络。在重载列车控制上,采用具有时序维度的状态能够提升重载列车的稳定性与安全性。本实施例采用RNN结合重载列车实际运行历史数据(N个周期重载列车在线路上的位置、速度与控制力的时序序列)训练得到专家经验网络,用作强化学习网络的约束,使重载列车的操纵更加稳定。
RNN为多输入多输出的网络结构,能够最大化的利用历史数据,拟合出最优的专家操纵经验,在给强化学习网络做约束时有更高的可信度。
但是,用作强化学习网络约束时,专家经验网络是一个多输入单输出的递归神经网络,该专家经验网络的输入为重载列车速度和重载列车位置,来预测下一时刻重载列车的控制力。
步骤3、重载列车速度和重载列车位置的更新方程
由于重载列车载重大、分布长、动力集中在前端且车钩连接存在空隙,故本实施例采用多质点列车纵向动力学模型作为重载列车运动学模型,有利于重载列车寻找,减小重载列车运行时纵向冲动,通过动力学特性构建多质点列车纵向动力学方程,然后得到公式(2)所示的重载列车速度更新方程:
Figure 877543DEST_PATH_IMAGE007
(2);
式中,
Figure 14126DEST_PATH_IMAGE008
为第i辆车的质量;
Figure 853644DEST_PATH_IMAGE009
为第i辆车的加速度;
Figure 378166DEST_PATH_IMAGE010
为牵引机车的牵引力;
Figure 804600DEST_PATH_IMAGE011
为牵引机车的电制动力;
Figure 213715DEST_PATH_IMAGE012
为前车钩力;
Figure 268259DEST_PATH_IMAGE013
为后车钩力;
Figure 370207DEST_PATH_IMAGE014
为空气制动力;
Figure 142991DEST_PATH_IMAGE015
为车辆运行基本阻力;
Figure 591683DEST_PATH_IMAGE016
为重载列车的附加阻力,并且
Figure 907258DEST_PATH_IMAGE017
,其中,
Figure 773583DEST_PATH_IMAGE018
为曲线附加阻力,
Figure 174609DEST_PATH_IMAGE019
为坡道附加阻力。
重载列车的运行状态由其运行的加速度、速度以及所处的路况决定。建立好多质点列车纵向动力学方程,对非线性动力学方程进行数值积分求解,得到列车的加速度、速度、位移等状态量。数值积分过程如公式(3):
Figure 925527DEST_PATH_IMAGE020
(3);
式中,
Figure 954663DEST_PATH_IMAGE021
为重载列车下一时刻的位移量,
Figure 896949DEST_PATH_IMAGE022
为重载列车当前时刻的位移量,
Figure 254112DEST_PATH_IMAGE023
为重载列车下一时刻的速度量,
Figure 933355DEST_PATH_IMAGE024
为重载列车当前时刻的速度量,
Figure 957943DEST_PATH_IMAGE025
为重载列车当前时刻的加速度量,
Figure 307016DEST_PATH_IMAGE026
为重载列车上一时刻的加速度量,
Figure 541688DEST_PATH_IMAGE027
为时间积分步长,下标n-1、n、n+1分别代表上一步
Figure 864435DEST_PATH_IMAGE028
时刻、当前步
Figure 9108DEST_PATH_IMAGE029
时刻、下一步
Figure 653716DEST_PATH_IMAGE030
;ψ、
Figure 251051DEST_PATH_IMAGE031
为控制积分方法特性的独立参数,在此取0.5。
步骤4、强化学习奖励设计
好的奖励能够帮助重载列车学习,稀疏的奖励会使重载列车在抵达目标前无法获得任何奖励,加大训练难度,奖励分布的方差太大也会使得策略梯度太大导致学习不平稳,将奖励归一化能够有效提升学习效率。
虽然强化学习算法的本质就是积累奖励值使奖励最大化,奖励的设置与要实现的目标有很强的关联性,负奖励有利于有限步数内快速结束该回合,正奖励鼓励重载列车不断累积奖励以维持最高奖励状态。重载列车学习操控重载列车有两种目标:在启动至巡航阶段,应当获得正奖励以累积奖励值,鼓励重载列车将奖励最大化;而在制动过程中操控的目标是在安全操纵下停在指定地点,这时应该将奖励设计为负值,以期重载列车快速达到目标状态。本实施例将速度奖励函数为:
Figure 6517DEST_PATH_IMAGE032
(4)
其中,
Figure 740118DEST_PATH_IMAGE033
,d为当前位置到停车点的距离,单位km;
Figure 195108DEST_PATH_IMAGE034
Figure 138793DEST_PATH_IMAGE035
为归一化后的速度与距离;&为距离
Figure 838896DEST_PATH_IMAGE036
的指数参数,调整&大小可以改变制动阶段到停车点距离的奖励变化斜率;k1,k2为有关速度的缩放系数。距终点2km以内为停车制动工况下的速度奖励函数,在启动牵引和巡航工况下的速度奖励为公式(4)的后两项。制动条件下的奖励函数表达式包含了速度和距离两个维度的参数,距离越近,速度越低则奖励越高。
为加快算法的训练速度,对目标探索空间进行约束。为提高算法的训练效率,将重载列车的搜索空间进行一定的约束,给定重载列车探索的上限与下限。上限为机车满级位运行的速度-位移曲线,下线为以初始40%牵引力,每隔200步递减1%的牵引力运行的速度-时间曲线,对超出期望探索范围的状态-动作进行惩罚,探索范围奖励函数为:
Figure 427003DEST_PATH_IMAGE037
(5);
Figure 413414DEST_PATH_IMAGE038
(6);
其中,
Figure 985341DEST_PATH_IMAGE039
为k+1时刻最高限速的奖励函数,
Figure 725020DEST_PATH_IMAGE040
为k+1时刻最低限速的奖励函数,c1~c8为常数,
Figure 698792DEST_PATH_IMAGE041
为k+1时刻机车的速度,
Figure 590525DEST_PATH_IMAGE042
为k+1时刻所在位置的速度上限,
Figure 649748DEST_PATH_IMAGE043
为k+1时刻速度下限值。
重载列车运行过程中,车钩力应当在最大应力极限范围内变化,以免造成脱钩事故。为避免重载列车一直施加最小的控制力,将车钩力的奖励函数进行分段处理,在正常车钩力范围内奖励函数为定值,当车钩力大于1000时,车钩力奖励逐渐下降。最大车钩力奖励函数
Figure 550708DEST_PATH_IMAGE044
构造为:
Figure 113407DEST_PATH_IMAGE045
(7);
其中,Fc max为整列车的最大车钩力。将以上奖励整合加入经验库,奖励的形式为:
Figure 815522DEST_PATH_IMAGE046
(8);
其中
Figure 221095DEST_PATH_IMAGE047
Figure 66691DEST_PATH_IMAGE048
=1。
为提升训练效果,所有奖励均经过归一化操作。
步骤5、记忆库
在SAC强化学习算法中需要引入记忆库来存储重载列车运行状态数据以训练强化学习网络。由于专家经验网络输入的数据为时序结构,重载列车运行状态数据需要做预处理,以满足专家经验网络采样的准确度。
步骤6、SAC强化学习算法训练强化学习网络
本实施例采用强化学习中的SAC(Soft Actor-Critic)算法架构,该算法是面向最大熵的强化学习开发的一种离线策略算法,与常用的确定性策略的强化学习算法不同,SAC强化学习算法生成的是随机策略,使状态空间的探索有更优的性能。SAC强化学习算法的架构由一个控制网络和两个评价网络组成,相较于一个评价网络的结构,使用两个评价网络能够有效减少网络的过估计,能够让训练曲线更加平滑。控制网络的输入为当前状态,控制网络的输出为动作分布的动作与方差。评价网络的输出为当前状态下动作的价值,作为控制网络跟新的依据。SAC强化学习算法结合了在线策略和离线策略两种策略的优点,并引入了记忆库,强化学习网络能够在记忆库中采样训练,提高数据的利用率,打破连续样本的相关性,有利于强化学习网络的训练。
本实施例的结构框图如图3所示,包含专家经验网络、强化学习网络、记忆库、重载列车运行仿真环境。训练阶段,强化学习网络在当前网络参数下根据重载列车运行状态数据将生成的控制指令提供给重载列车运行仿真环境;重载列车运行仿真环境根据当前控制指令对重载列车运行状态进行更新,并对当前控制指令给出奖励,重载列车运行状态和奖励都将存储在记忆库中,等待强化学习网络进行采样学习,且被专家经验网络约束。
SAC算法的最优策略表达式由公式(9)表示,描述了最优策略、奖励与熵值之间的关系,最优策略分为奖励和熵正则化项,在训练初期的策略随机,获得的奖励小,通过增加熵值可以探寻更好的策略;随着获得的奖励变大,应当将熵值减小使好的策略能够保持,直至训练末期,收获最大的奖励与最小熵,获得稳定的最优策略。
Figure 749477DEST_PATH_IMAGE049
(9);
式中,r(st,at)为当前重载列车运行状态下采取控制指令的奖励;
Figure 248591DEST_PATH_IMAGE050
表示动作的熵值,熵值前面的系数
Figure 16827DEST_PATH_IMAGE051
为温度系数,控制着控制指令的随机性,温度系数
Figure 919578DEST_PATH_IMAGE051
越大则控制指令越随机,更有利于重载列车运行状态空间的探索。每个时刻的状态与动作组合在一起形成了一条轨迹,对该轨迹求最解大的期望就是期望得到的最优策略。其中,温度系数
Figure 315924DEST_PATH_IMAGE051
随训练过程会有变化,公式(17)便是用来自动调整该参数,
Figure 126885DEST_PATH_IMAGE051
也用在值函数的表达式中,并结合熵作为正则化项
SAC算法的熵的正则化不仅仅体现在策略上,也体现在状态-动作价值函数Q (st,at)之上,计算公式为公式(10):
Figure 116838DEST_PATH_IMAGE052
(10);
Figure 304237DEST_PATH_IMAGE053
(11)。
其中,
Figure 86248DEST_PATH_IMAGE054
为Bellman算子,为算法的收敛性提供保障;Bellman方程为当前时刻控制指令的及时奖励r(st,at)加下一时刻控制指令的折扣价值期望,状态价值V(st)的计算为当前运行状态减去控制指令的Q值加上熵项
Figure 301067DEST_PATH_IMAGE055
Figure 43895DEST_PATH_IMAGE056
为折扣因子,确保价值函数收敛;
Figure 894039DEST_PATH_IMAGE057
为状态转移概率p下的下一时刻的状态价值期望。
评价网络的损失由公式(12)给出,为一个时序差分(Temporal Differential, TDerror)的损失。
Figure 405923DEST_PATH_IMAGE058
(12);
其中
Figure 558687DEST_PATH_IMAGE059
为target评价网络输出的Q值减去熵值,如式(11);target评价网络和评价网络结构相同,但是参数更新滞后评价网络。SAC强化学习算法中有两个评价网络
Figure 382286DEST_PATH_IMAGE060
Figure 412952DEST_PATH_IMAGE061
,在训练时选取最小的Q值作为
Figure 779343DEST_PATH_IMAGE062
,减少过估计。
本实施例采用两种损失函数同时训练控制网络:一种由评价网络输出的价值对控制网络进行训练,期望控制指令的价值最大化;另一种由专家经验网络在相同环境状态下输出控制指令,与控制网络输出的控制指令的均方差损失来训练,以训练出与专家经验网络相似的决策。
评价网络的输出对控制网络的价值损失由公式(13)给出,
Figure 103008DEST_PATH_IMAGE063
(13);
其中
Figure 945062DEST_PATH_IMAGE064
是根据
Figure 12375DEST_PATH_IMAGE065
隐式定义的,
Figure 731807DEST_PATH_IMAGE066
为重参数化后的控制指令,帮助网络将误差反向传递;
Figure 351007DEST_PATH_IMAGE067
是从固定分布(如球形高斯分布)中采样的噪声。
强化学习网络的控制网络的输出与专家经验网络的输出之间的损失由公式(14)给出:
Figure 290145DEST_PATH_IMAGE068
(14);
其中μ(st)为专家网络在当前状态 st下输出的控制指令;
Figure 161149DEST_PATH_IMAGE069
为控制网络在状态st下输出的控制指令,通过计算二者的均方根误差作为专家的监督损失;D、π为状态、策略的空间。
将评价网络输出对控制网络的损失Jori和专家网络输出对控制网络输出的损失Jsup乘上比例系数λ之和得到控制网络的综合损失,如式(15):
Figure 95607DEST_PATH_IMAGE070
(15)。
温度参数决定了熵的大小,在训练过程中需要自动调整温度参数使模型可以稳定训练,所以将温度参数作为约束对象,当作一个优化问题:最大化期望收益的同时,保持策略的熵大于一个阈值。需要优化的表达式如(16)所示。
Figure 26653DEST_PATH_IMAGE071
(16);
其中,
Figure 948692DEST_PATH_IMAGE072
为0到T时刻的累计奖励,对其求解最大期望
Figure 216862DEST_PATH_IMAGE073
Figure 412352DEST_PATH_IMAGE074
表示状态到动作的映射;
Figure 248721DEST_PATH_IMAGE075
为熵的期望;
Figure 21504DEST_PATH_IMAGE076
为最小期望熵,作为从0时刻到T时刻整条轨迹奖励
Figure 234311DEST_PATH_IMAGE072
期望最大的约束。
根据式(16),最终得到需要优化的损失函数(17):
Figure 782842DEST_PATH_IMAGE077
(17)。
本实施例的具体实施方式如图4所示,在得到一个训练好的强化学习控制器后,从列车LKJ设备中读取当前的线路信息以及车辆状态信息(当前位置、速度等),读取的信息输入到重载列车虚拟控制器中,由重载列车虚拟控制器输出控制指令给列车中央控制单元,完成一个周期的控制。
为得到一个具有鲁棒性的预测模型,需要在专家经验数据(即重载列车实际运行历史数据)中添加高斯噪声。
线路区段的选择按照正常大秦线的启停区段截取部分线路提供训练,牵引启动工况选择30~50公里区间训练,列车初始速度0km/h;巡航工况选择80~100公里区段进行训练,列车初始速度70km/h;制动工况选择545~550公里区段进行训练,列车初始速度70km/h。
图5为重载列车在启动牵引阶段迭代训练中的学习曲线,从环境中获得的奖励越高,重载列车在设定目标下的操控越好,从图5中可以看到结合专家经验的SAC算法在训练后期能够获得稳定且较高的环境总奖励;图6中的启动阶段列车的速度在期望的状态空间区间内,重载列车在启动牵引的速度曲线比较平稳。在停车制动方面,图7中重载列车探索到了非常好的停车制动方案,图8中重载列车的速度曲线在前期更加平滑、稳定,在中后期由于制动力变大导致速度减小的更快,符合专家经验控制;在巡航操纵控制上,图9中结合专家经验的SAC算法训练的重载列车获得的在训练后期也获得了稳定且较高的奖励;图10中,结合专家经验的SAC算法在刚进入巡航控制时有一段过度区间,其速度变化比较缓慢,在巡航的后期提高了运行速度,且在安全运行的限速下方,满足列车运行的高效要求。
图11~13为启动牵引、巡航控制、制动操纵三工况的控制力变化曲线,在三种工况下基本保持牵引/制动状态,在巡航工况下能够通过调节控制力应对变化的线路条件,且牵引制动工况切换比较平缓,不会造成过大的纵向冲动,满足HXD1机车的牵引/制动力特性和列车安全稳定控制的指标。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种重载列车强化学习控制方法,其特征在于,包括:
获取当前时刻重载列车的运行状态信息;所述重载列车是由多个车辆组成,所述车辆包括牵引机车和普通货车;所述运行状态信息包括重载列车速度和重载列车位置;
根据所述当前时刻重载列车的运行状态信息和重载列车虚拟控制器,获取下一时刻重载列车控制指令,并将所述下一时刻重载列车控制指令发送至重载列车控制单元以控制重载列车运行;
其中,所述重载列车虚拟控制器存储有重载列车的线路信息;
所述重载列车虚拟控制器是根据重载列车运行状态数据和专家经验网络训练强化学习网络得到的;所述强化学习网络包括一个控制网络和两个评价网络;所述强化学习网络是根据SAC强化学习算法构建的;所述重载列车运行状态数据为M个周期重载列车的位置、速度与奖励的时序序列。
2.根据权利要求1所述的一种重载列车强化学习控制方法,其特征在于,所述专家经验网络的训练过程为:
利用重载列车实际运行历史数据对递归神经网络进行预训练,得到专家经验网络;其中,所述重载列车实际运行历史数据为N个周期重载列车在线路上的位置、速度与控制力的时序序列。
3.根据权利要求1所述的一种重载列车强化学习控制方法,其特征在于,所述重载列车虚拟控制器的训练过程包括:
构建重载列车虚拟控制器训练架构;所述重载列车虚拟控制器训练架构包括专家经验网络、强化学习网络、记忆库和重载列车运行仿真环境;其中,所述记忆库内存储有重载列车运行状态数据;
将同周期重载列车运行状态数据的位置分别输入所述专家经验网络和所述强化学习网络的控制网络中,将同周期重载列车运行状态数据的速度分别输入所述专家经验网络和所述强化学习网络的控制网络中,得到专家控制指令和强化学习控制指令;
将所述强化学习控制指令以及同周期重载列车运行状态数据的速度和位置输入至所述强化学习网络的评价网络中,得到评价损失;
根据所述专家控制指令和所述强化学习控制指令计算指令损失;
根据综合损失更新所述强化学习网络的控制网络参数,直至得到满足需求的重载列车虚拟控制器;所述综合损失为所述评价损失和所述指令损失的和。
4.根据权利要求3所述的一种重载列车强化学习控制方法,其特征在于,所述重载列车虚拟控制器的训练过程还包括:
根据重载列车运行状态数据的奖励更新所述强化学习网络的评价网络参数。
5.根据权利要求3所述的一种重载列车强化学习控制方法,其特征在于,所述重载列车虚拟控制器的训练过程还包括:
将所述强化学习控制指令输入到所述重载列车运行仿真环境中,以获取更新后的重载列车运行状态数据,并将所述更新后的重载列车运行状态数据存储在所述记忆库中。
6.根据权利要求3所述的一种重载列车强化学习控制方法,其特征在于,所述重载列车运行仿真环境的构建过程为:
确定重载列车运动学模型;
在强化学习环境中确定重载列车运行过程的奖励函数;所述奖励函数包括速度奖励函数、探索范围奖励函数和最大车钩力奖励函数;
根据所述重载列车运动学模型和所述奖励函数组成重载列车运行仿真环境。
7.根据权利要求6所述的一种重载列车强化学习控制方法,其特征在于,所述确定重载列车运动学模型,具体包括:
利用多质点列车纵向动力学方程对重载列车运行过程进行建模,得到重载列车运动学模型。
8.一种重载列车强化学习控制系统,其特征在于,包括:
信息获取模块,用于获取当前时刻重载列车的运行状态信息;所述重载列车是由多个车辆组成,所述车辆包括牵引机车和普通货车;所述运行状态信息包括重载列车速度和重载列车位置;
控制指令确定模块,用于根据所述当前时刻重载列车的运行状态信息和重载列车虚拟控制器,获取下一时刻重载列车控制指令,并将所述下一时刻重载列车控制指令发送至重载列车控制单元以控制重载列车运行;
其中,所述重载列车虚拟控制器存储有重载列车的线路信息;
所述重载列车虚拟控制器是根据重载列车运行状态数据和专家经验网络训练强化学习网络得到的;所述强化学习网络包括一个控制网络和两个评价网络;所述强化学习网络是根据SAC强化学习算法构建的;所述重载列车运行状态数据为M个周期重载列车的位置、速度与奖励的时序序列。
9.根据权利要求8所述的一种重载列车强化学习控制系统,其特征在于,所述控制指令确定模块中的专家经验网络的训练过程为:
利用重载列车实际运行历史数据对递归神经网络进行预训练,得到专家经验网络;其中,所述重载列车实际运行历史数据为N个周期重载列车在线路上的位置、速度与控制力的时序序列。
10.根据权利要求8所述的一种重载列车强化学习控制系统,其特征在于,所述控制指令确定模块中的重载列车虚拟控制器的训练过程包括:
构建重载列车虚拟控制器训练架构;所述重载列车虚拟控制器训练架构包括专家经验网络、强化学习网络、记忆库和重载列车运行仿真环境;其中,所述记忆库内存储有重载列车运行状态数据;
将同周期重载列车运行状态数据的位置分别输入所述专家经验网络和所述强化学习网络的控制网络中,将同周期重载列车运行状态数据的速度分别输入所述专家经验网络和所述强化学习网络的控制网络中,得到专家控制指令和强化学习控制指令;
将所述强化学习控制指令以及同周期重载列车运行状态数据的速度和位置输入至所述强化学习网络的评价网络中,得到评价损失;
根据所述专家控制指令和所述强化学习控制指令计算指令损失;
根据综合损失更新所述强化学习网络的控制网络参数,直至得到满足需求的重载列车虚拟控制器;所述综合损失为所述评价损失和所述指令损失的和。
CN202011396657.6A 2020-12-04 2020-12-04 一种重载列车强化学习控制方法及系统 Active CN112193280B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202011396657.6A CN112193280B (zh) 2020-12-04 2020-12-04 一种重载列车强化学习控制方法及系统
AU2021100503A AU2021100503A4 (en) 2020-12-04 2021-01-27 Method and system for controlling heavy-haul train based on reinforcement learning
US17/186,795 US11205124B1 (en) 2020-12-04 2021-02-26 Method and system for controlling heavy-haul train based on reinforcement learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011396657.6A CN112193280B (zh) 2020-12-04 2020-12-04 一种重载列车强化学习控制方法及系统

Publications (2)

Publication Number Publication Date
CN112193280A true CN112193280A (zh) 2021-01-08
CN112193280B CN112193280B (zh) 2021-03-16

Family

ID=74034439

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011396657.6A Active CN112193280B (zh) 2020-12-04 2020-12-04 一种重载列车强化学习控制方法及系统

Country Status (3)

Country Link
US (1) US11205124B1 (zh)
CN (1) CN112193280B (zh)
AU (1) AU2021100503A4 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113276852A (zh) * 2021-04-08 2021-08-20 南京大学 一种基于最大熵强化学习框架的无人驾驶车道保持方法
CN113327055A (zh) * 2021-06-23 2021-08-31 浙江师范大学 调车作业计划的生成方法、装置、电子装置和存储介质
CN113537603A (zh) * 2021-07-21 2021-10-22 北京交通大学 一种高速列车智能调度控制方法和系统
CN113825171A (zh) * 2021-09-30 2021-12-21 新华三技术有限公司 网络拥塞控制方法、装置、设备及介质
CN114620098A (zh) * 2022-01-21 2022-06-14 太原理工大学 一种适用于高速列车自动停车的深度强化学习方法
CN114802370A (zh) * 2021-01-29 2022-07-29 西门子交通有限公司 用于训练轨道车辆的控制装置的方法、控制装置和轨道车辆
CN115128957A (zh) * 2022-07-20 2022-09-30 西南交通大学 一种基于迭代学习的重载列车运行控制方法
CN116137113A (zh) * 2023-04-20 2023-05-19 眉山中车制动科技股份有限公司 一种重载列车模型驾驶系统
CN116476825A (zh) * 2023-05-19 2023-07-25 同济大学 一种基于安全可信强化学习的自动驾驶车道保持控制方法

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11603111B2 (en) * 2019-10-18 2023-03-14 Toyota Jidosha Kabushiki Kaisha Vehicle controller, vehicle control system, and learning device for vehicle
CN113377662B (zh) * 2021-06-24 2022-09-27 吉林大学 一种基于势场法和信息熵的自动驾驶安全性评价方法
CN113534668B (zh) * 2021-08-13 2022-06-10 哈尔滨工程大学 基于最大熵的演员-评论家框架的auv运动规划方法
CN113779871A (zh) * 2021-08-26 2021-12-10 清华大学 一种电热耦合系统调度方法、装置、电子设备及其存储介质
CN113771918B (zh) * 2021-09-14 2023-10-20 重庆交通大学 用于高速列车应对动态客流的自动驾驶控制方法
EP4166419A1 (en) * 2021-10-18 2023-04-19 Tata Consultancy Services Limited System and method for railway network access planning
CN114633780B (zh) * 2021-12-30 2022-11-25 中南大学 重载列车及其纵向动力学牵引运行优化控制系统
CN114357884B (zh) * 2022-01-05 2022-11-08 厦门宇昊软件有限公司 一种基于深度强化学习的反应温度控制方法和系统
CN114609925B (zh) * 2022-01-14 2022-12-06 中国科学院自动化研究所 水下探索策略模型的训练方法及仿生机器鱼水下探索方法
WO2023155231A1 (zh) * 2022-02-21 2023-08-24 东南大学 一种高度类人的自动驾驶营运车辆安全驾驶决策方法
CN114527642B (zh) * 2022-03-03 2024-04-02 东北大学 一种基于深度强化学习的agv自动调整pid参数的方法
CN114819925B (zh) * 2022-06-29 2022-10-11 成都秦川物联网科技股份有限公司 基于事件序列分析预测的工业物联网系统及其控制方法
CN115691110B (zh) * 2022-09-20 2023-08-25 东南大学 一种面向动态车流的基于强化学习的交叉口信号周期稳定配时方法
CN115489572A (zh) * 2022-09-21 2022-12-20 交控科技股份有限公司 基于强化学习的列车ato控制方法、设备及存储介质
CN115649240B (zh) * 2022-12-29 2023-03-17 中南大学 一种在线实时优化多列车协同巡航控制方法及系统
CN116443080B (zh) * 2023-05-05 2023-12-29 北京交通大学 一种轨道交通行车调度指挥方法、系统、设备及介质
CN116506309B (zh) * 2023-06-27 2023-09-08 新唐信通(浙江)科技有限公司 一种车载atp通信信号综合监测系统及方法
CN117369286B (zh) * 2023-12-04 2024-02-09 中国海洋大学 一种海洋平台动力定位控制方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106802553A (zh) * 2017-01-13 2017-06-06 清华大学 一种基于强化学习的铁路机车运行操控系统混合任务调度方法
CN106842925A (zh) * 2017-01-20 2017-06-13 清华大学 一种基于深度强化学习的机车智能操纵方法与系统
CN109703606A (zh) * 2019-01-16 2019-05-03 北京交通大学 基于历史运行数据的高速列车智能驾驶控制方法
CN109835375A (zh) * 2019-01-29 2019-06-04 中国铁道科学研究院集团有限公司通信信号研究所 基于人工智能技术的高速铁路列车自动驾驶系统
WO2020012475A1 (en) * 2018-07-10 2020-01-16 Rail Vision Ltd Method and system for railway obstacle detection based on rail segmentation
CN111222630A (zh) * 2020-01-17 2020-06-02 北京工业大学 一种基于深度强化学习的自主驾驶规则学习方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9956974B2 (en) * 2004-07-23 2018-05-01 General Electric Company Vehicle consist configuration control
US10572850B2 (en) * 2015-05-22 2020-02-25 Ge Global Sourcing Llc Vehicle building system and method
US9683546B1 (en) * 2015-11-30 2017-06-20 Utc Overseas, Inc. Modular systems and methods for transporting tower assembly of wind turbine
US10752154B2 (en) * 2015-11-30 2020-08-25 Utc Overseas, Inc. Modular systems and methods for transporting tower assembly of wind turbine
US9937936B2 (en) * 2015-11-30 2018-04-10 General Electric Company System and method for monitoring coupler fatigue
US11107002B2 (en) * 2018-06-11 2021-08-31 Traxen Inc. Reinforcement learning based ground vehicle control techniques
US11100643B2 (en) * 2019-09-11 2021-08-24 Nvidia Corporation Training strategy search using reinforcement learning
US20210089966A1 (en) * 2019-09-24 2021-03-25 Nnaisense SA Upside-down reinforcement learning

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106802553A (zh) * 2017-01-13 2017-06-06 清华大学 一种基于强化学习的铁路机车运行操控系统混合任务调度方法
CN106842925A (zh) * 2017-01-20 2017-06-13 清华大学 一种基于深度强化学习的机车智能操纵方法与系统
WO2020012475A1 (en) * 2018-07-10 2020-01-16 Rail Vision Ltd Method and system for railway obstacle detection based on rail segmentation
CN109703606A (zh) * 2019-01-16 2019-05-03 北京交通大学 基于历史运行数据的高速列车智能驾驶控制方法
CN109835375A (zh) * 2019-01-29 2019-06-04 中国铁道科学研究院集团有限公司通信信号研究所 基于人工智能技术的高速铁路列车自动驾驶系统
CN111222630A (zh) * 2020-01-17 2020-06-02 北京工业大学 一种基于深度强化学习的自主驾驶规则学习方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张淼 等: "一种基于策略梯度强化学习的列车智能控制方法", 《铁道雪豹》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114802370A (zh) * 2021-01-29 2022-07-29 西门子交通有限公司 用于训练轨道车辆的控制装置的方法、控制装置和轨道车辆
CN113276852A (zh) * 2021-04-08 2021-08-20 南京大学 一种基于最大熵强化学习框架的无人驾驶车道保持方法
CN113327055A (zh) * 2021-06-23 2021-08-31 浙江师范大学 调车作业计划的生成方法、装置、电子装置和存储介质
CN113327055B (zh) * 2021-06-23 2024-04-23 浙江师范大学 调车作业计划的生成方法、装置、电子装置和存储介质
CN113537603A (zh) * 2021-07-21 2021-10-22 北京交通大学 一种高速列车智能调度控制方法和系统
CN113825171A (zh) * 2021-09-30 2021-12-21 新华三技术有限公司 网络拥塞控制方法、装置、设备及介质
CN113825171B (zh) * 2021-09-30 2023-07-28 新华三技术有限公司 网络拥塞控制方法、装置、设备及介质
CN114620098A (zh) * 2022-01-21 2022-06-14 太原理工大学 一种适用于高速列车自动停车的深度强化学习方法
CN115128957A (zh) * 2022-07-20 2022-09-30 西南交通大学 一种基于迭代学习的重载列车运行控制方法
CN116137113A (zh) * 2023-04-20 2023-05-19 眉山中车制动科技股份有限公司 一种重载列车模型驾驶系统
CN116476825A (zh) * 2023-05-19 2023-07-25 同济大学 一种基于安全可信强化学习的自动驾驶车道保持控制方法
CN116476825B (zh) * 2023-05-19 2024-02-27 同济大学 一种基于安全可信强化学习的自动驾驶车道保持控制方法

Also Published As

Publication number Publication date
AU2021100503A4 (en) 2021-04-15
US11205124B1 (en) 2021-12-21
CN112193280B (zh) 2021-03-16

Similar Documents

Publication Publication Date Title
CN112193280B (zh) 一种重载列车强化学习控制方法及系统
CN103324085B (zh) 基于监督式强化学习的最优控制方法
WO2021114742A1 (zh) 一种混合动力电动汽车综合预测能量管理方法
CN111267831A (zh) 一种混合动力车辆智能变时域模型预测能量管理方法
CN114241778B (zh) 高速公路网联车协同匝道汇入多目标优化控制方法和系统
CN110949366B (zh) 应用智能车辆纵向速度控制的rbf神经网络的终端滑模控制方法
Yin et al. Data-driven models for train control dynamics in high-speed railways: LAG-LSTM for train trajectory prediction
CN112150808B (zh) 一种基于深度学习的城市交通系统调度策略生成方法
CN110450794B (zh) 一种基于最优蠕滑速度搜寻与跟踪的优化粘着控制方法
CN106056238B (zh) 列车区间运行轨迹的规划方法
Tang et al. Reinforcement learning approach for optimal control of multiple electric locomotives in a heavy-haul freight train: A Double-Switch-Q-network architecture
CN113911172A (zh) 一种基于自适应动态规划的高速列车优化运行控制方法
CN112198799A (zh) 一种基于深度学习的高速列车停车控制方法及系统
CN114074680B (zh) 基于深度强化学习的车辆换道行为决策方法及系统
CN113815679A (zh) 一种高速列车自主驾驶控制的实现方法
WO2024001301A1 (zh) 一种无信号灯交叉路口车辆协同控制方法及系统
Lin et al. Reinforcement learning method for the multi-objective speed trajectory optimization of a freight train
CN111598311B (zh) 一种新型列车运行速度曲线智能优化方法
CN113759701A (zh) 一种高速列车速度控制方法及系统
CN113326962B (zh) 基于bp神经网络的地铁列车ato速度曲线预测方法
CN114386620A (zh) 一种基于动作约束的离线多智能体强化学习方法
Kerbel et al. Residual policy learning for powertrain control
Han et al. Fuel-saving control strategy for fuel vehicles with deep reinforcement learning and computer vision
Yang et al. Research on Multi-objective Optimal Control of Heavy Haul Train Based on Improved Genetic Algorithm
CN113741199B (zh) 一种基于智能网联信息的整车经济性速度规划方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant