CN107194612B - 一种基于深度强化学习的列车运行调度方法及系统 - Google Patents

一种基于深度强化学习的列车运行调度方法及系统 Download PDF

Info

Publication number
CN107194612B
CN107194612B CN201710467955.1A CN201710467955A CN107194612B CN 107194612 B CN107194612 B CN 107194612B CN 201710467955 A CN201710467955 A CN 201710467955A CN 107194612 B CN107194612 B CN 107194612B
Authority
CN
China
Prior art keywords
train
reinforcement learning
action
deep reinforcement
train operation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710467955.1A
Other languages
English (en)
Other versions
CN107194612A (zh
Inventor
黄晋
黄思光
赵曦滨
高跃
夏雅楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201710467955.1A priority Critical patent/CN107194612B/zh
Publication of CN107194612A publication Critical patent/CN107194612A/zh
Application granted granted Critical
Publication of CN107194612B publication Critical patent/CN107194612B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06Q50/40

Abstract

本发明涉及一种基于深度强化学习的列车运行调度方法及系统,其首先收集真实场景中一个车站的所有可调度列车及其时刻表信息以及所有可调度安排的司机信息,构成原始信息;将收集的原始信息进行规则化处理,利用规则化处理后的数据信息建立列车深度强化学习模型;利用深度强化学习模型进行离线训练和学习,得到训练好的列车深度强化学习模型;基于深度强化学习的列车运行调度系统利用训练好的深度强化学习模型进行列车运行调度。本发明不仅能够使得调度更加智能化,而且技术处理过程简单,灵活度高,寻优的效率高。

Description

一种基于深度强化学习的列车运行调度方法及系统
技术领域
本发明涉及铁路运输调度领域,尤其是涉及一种基于深度强化学习的列车运行调度技术。
背景技术
列车运行调度是铁路行车调度指挥工作的重要内容,其计算机自动计算求解问题是我国铁路信息化建设的核心技术和难点。当前,不论是相关优化模型的建立还是对相应模型的求解均没有让人满意的符合实际需求的研究成果。而且,列车运行环境的复杂性决定了列车运行调度问题是一个大规模的复杂组合优化问题,这使得当前列车运行调度问题的研究具有一定的片面性。因此,对轨道交通列车运行调度优化问题做进一步研究无论在理论上还是实际上都有着重要的意义。
目前关于列车运行调度的方法已有较多的研究文献,具体可归纳为以下三类:(1)通过建立严格的数学模型,来设计列车运行调度的精确算法,如分支定界算法,或者利用商业优化软件,如CPLEX和GAMS,来求得问题的精确解;(2)对建立的数学模型,设计启发式算法(如粒子群算法,遗传算法,拉格朗日松弛等)求得问题的近似最优解;(3)合理设计列车运行规则,开发列车运行模拟算法(如元胞自动机)求得高质量的可行解。
上述现有方法虽然在一定程度上能够解决列车运行调度的问题,但是分别又存在着较多的局限性。其中,精确算法具有设计复杂,且算法难以满足复杂约束条件场景的问题;启发式算法虽然全局搜索能力较强、计算效率也比较高,但是其处理过程复杂,计算难度大,寻优的效率比较低;列车运行模拟算法能够较好的模拟真实列车运行调度场景,但是需要搭建模型运行平台,而且寻优效率也比较低。所以,现有列车运行调度的解决方案均在列车运行调度方面存在着各类弊端。
发明内容
本发明的目的是针对现有技术存在的问题,提供一种基于深度强化学习的列车运行调度方法及系统,其不仅能够使得调度更加智能化,而且技术处理过程简单,灵活度高,寻优的效率高。
本发明的目的通过如下技术方案实现:
本发明提供一种基于深度强化学习的列车运行调度方法,其包括:
步骤S10,收集真实场景中一个车站的所有可调度列车及其时刻表信息以及所有可调度安排的司机信息,构成原始信息;
步骤S20,将收集的原始信息进行规则化处理;
步骤S30,利用规则化处理后的数据信息建立列车深度强化学习模型;所述列车深度强化学习模型给予强化学习智能体奖惩值和状态转移信息,并确定出可供智能体选择的动作空间;并通过车站内规则化处理的所有列车和司机的状态,抽象出列车和司机的状态对应的动作的价值,并根据该价值确定出最优调度动作;
步骤S40,利用深度强化学习模型进行离线训练和学习,得到训练好的列车深度强化学习模型;
步骤S50,利用训练好的深度强化学习模型进行列车运行调度。
更优选地,所述步骤S20具体包括:
将每辆列车抽象为一个多元组,该多元组包含的信息为:车次,列车类型,列车当前状态,列车当前所处位置,列车到站时间,列车发车时间,列车平均运行速度;其中列车类型指的是客运列车或货运列车,列车当前状态分为待调度状态,未到站状态,已调度状态,已出站状态;
将车站司机的信息规则化为二元组,该二元组包含的信息为:司机编号,司机状态;其中司机状态分为已分配任务,未分配任务,已请假。
更优选地,所述步骤S30中的列车深度强化学习模型包括:
列车运行调度环境模型模块和价值网络模块;
所述列车运行调度环境模型给予强化学习智能体奖惩值和状态转移信息,并确定出可供智能体选择的动作空间;
所述价值网络模块用于抽象车站内所有列车和司机的状态,并输出列车和司机在该状态下对应不同动作时的价值,根据抽象出的列车和司机的状态对应的动作的价值进行最优调度动作的选择,并将选择到的最优调度动作反馈到列车运行调度环境模型;其中所选择的最优动作在所述列车运行调度环境模型提供的动作空间中。
更优选地,所述列车运行调度环境模型模块包括:
状态转移单元、动作空间单元以及奖赏函数单元;
所述状态转移单元根据前一时刻的列车状态和价值网络模块输出的当前时刻的动作,来对当前时刻车站内的列车和司机的状态实施状态转移;其中车站内列车和司机的状态根据规则化处理的列车信息和司机信息来定义;
所述动作空间单元用于根据当前车站内列车的状态信息及司机的状态信息来确定可供智能体选择的动作范围;
所述奖赏函数单元用于针对列车运行调度情况利用设定的奖赏函数计算输出奖惩值,奖赏函数单元的输出端连接价值网络的输入端;所述奖赏函数根据列车运行调度的优化目标来确定。
更优选地,所述列车运行调度的优化目标包括:正点率。
更优选地,所述奖赏函数用如下公式表示:
r=w1F1(A)+w2F2(B)
其中r为奖惩值,F1(A)和F2(B)分别为调度的客运列车和货运列车的误点率评分,w1和w2为权重值;
对于客运列车,所述误点率评分表示为:
Figure GDA0002646809000000041
其中N为调度时间段内总的客运列车数量,a为误点的列车数量;
对于货运列车,所述误点率评分表示为:
Figure GDA0002646809000000042
其中N为调度时间段内总的货运列车数量,b为误点的列车数量。
更优选地,所述步骤S40具体包括:
价值网络根据列车信息和司机信息输入进行状态抽象,得到当前状态下最优的调度动作,价值网络可选择的动作范围由动作空间确定,价值网络选择的最优动作将发送给列车运行环境模型;
列车运行环境模型根据前一时刻的列车状态、司机状态和当前时刻的动作选择来进行状态转移,同时根据奖赏函数计算得出奖惩值,并将该奖惩值和改变后的状态信息反馈给价值网络;
如此不断迭代地进行训练和学习,最终使得深度强化学习模型得以收敛。
更优选地,所述步骤S50具体包括:
列车运行调度控制器根据实际真实的列车运行调度环境,首先输出当前时刻车站内的所有的列车信息和司机信息作为状态信息,将其传输给列车深度强化学习模型,该列车深度强化学习模型根据输入的状态信息输出最优的调度动作;将该最优调度动作返回列车运行调度控制器;
列车运行调度控制器收到最优调动动作,执行完该调度动作,随后监控等待时间达到设定的发车时间间隔时,则列车运行调度控制器继续根据当前列车运行调度环境,将当前时刻车站内所有列车和司机的状态信息发送到该列车深度强化学习模型,并获取新的最优调度动作,如此不断循环上述过程,最终使得所有的列车和司机得到调度。
更优选地,所述根据输入的状态信息输出最优的调度动作的过程具体包括:
列车深度强化学习模型中的价值网络模块根据列车运行调度控制器输入的状态信息,进行状态抽象,并结合动作空间提供的动作范围,得到当前状态下最优的调度动作。
本发明还提供一种基于深度强化学习的列车运行调度系统,其包括:
列车运行调度控制器和列车深度强化学习模型;其中所述列车深度强化学习模型为上述的基于深度强化学习的列车运行调度方法中的训练好的列车深度强化学习模型;
所述列车运行调度控制器根据实际真实的列车运行调度环境,输出当前时刻车站内的所有的列车信息和司机信息作为状态信息,将其传输给列车深度强化学习模型,该列车深度强化学习模型根据输入的状态信息输出最优调度动作;将该最优调度动作返回列车运行调度控制器;
列车运行调度控制器收到最优调动动作,执行该调度动作;监控等待时间达到设定的发车时间间隔时,则列车运行调度控制器根据当前列车运行调度环境,将当前时刻车站内所有列车和司机的状态信息发送到该列车深度强化学习模型,以获取新的最优调度动作。
由上述本发明的技术方案可以看出,本发明具有如下技术效果:
(1)其结合了深度学习和强化学习的优势,仅需要环境模型的信息进行自学习的模型训练,极少依赖人工经验和外界数据信息;
(2)深度强化学习模型中的深度神经网络具有极强的状态抽象表征能力,能有效抽象复杂的列车和司机的状态信息,在不同车站场景下的适应性更强;
(3)深度强化学习模型可根据列车运行调度的优化目标设计奖赏函数,能够满足多目标复杂优化问题的需求,其奖赏函数的设计具有较强的灵活性。
(4)通过训练好的深度强化学习模型进行列车调度应用,只需要根据实际真实的调度环境输入当前时刻车站内列车和司机的状态信息到训练好的深度强化学习模型中即可获得当次调度动作,使得列车调度更加智能化。
附图说明
图1为本发明中的一种基于深度强化学习的列车运行调度方法的实施流程图;
图2为本发明中列车运行调度的深度强化学习模型的结构框图;
图3为本发明中的一种基于深度强化学习的列车运行调度系统的结构框图。
具体实施方式
以下将结合附图对本发明的技术方案做进一步详细说明。
本发明提供一种基于深度强化学习的列车运行调度方法,其实施流程如图1所示,包括如下步骤:
步骤S10,收集真实场景中一个车站的所有可调度列车及其时刻表信息以及所有可调度安排的司机信息,构成原始信息。
需要对某个具体车站进行列车运行调度模型训练时,首先需要从该车站收集所有可调度的列车(即所有经过该车站,可能需要被调度的列车)信息以及相应的时刻表信息,这些信息构成了用于深度强化学习方法训练的原始信息。具体地,每个列车需要收集的数据信息包括:车次、列车类型、列车属性信息、列车当前所处位置、当前列车的状态信息以及列车的时刻表信息等。同时,收集该车站所有可调度安排的司机信息并对其进行统一编号,也作为原始数据信息。
步骤S20,将收集的原始信息进行规则化处理。
步骤S10中收集到的原始数据信息存在冗余以及格式不规范等问题,需要进一步进行规则化处理。具体规则化处理方法为:将每一辆可调度的列车抽象为一个多元组,该多元组包含的信息为<车次,列车类型,列车当前状态,列车当前所处位置,列车到站时间,列车发车时间,列车平均运行速度>。其中列车类型指的是客运列车或货运列车,列车当前状态分为待调度状态,未到站状态,已调度状态,已出站状态。车站司机的信息可规则化为二元组,包含信息为<司机编号,司机状态>,其中司机状态可分为已分配任务,未分配任务,已请假三种情况。
步骤S30,利用规则化处理后的数据信息建立列车深度强化学习模型。
本发明中,列车深度强化学习模型结合了深度学习和强化学习,是一种智能体基于环境模型的自学习方法。在本发明中,智能体指的是列车运行调度控制器,从待调度的列车中选择一个列车或不选择任何列车进行调度是智能体的动作。
该列车深度强化学习模型的结构组成如图2所示,可以看出,该列车深度强化学习模型包括:列车运行调度环境模型模块和价值网络模块。
以上各模块的功能如下:
列车运行调度环境模型模块:
列车运行调度环境模型给予强化学习智能体奖惩值和状态转移信息,并确定出可供智能体选择的动作空间。该列车运行环境模型模块由状态转移、动作空间以及奖赏函数三个单元组成。
状态转移单元:
状态转移单元根据前一时刻的列车状态和价值网络模块输出的当前时刻的动作,来对当前时刻车站内的列车和司机的状态实施状态转移。其中车站内列车和司机的状态根据规则化处理的列车信息和司机信息来定义。
因为列车的运行调度状态由列车时刻表信息和司机任务分配信息共同决定,所以列车运行调度状态使用规则化处理的列车信息和司机信息来定义。状态转移时,则根据前一时刻的状态值以及当前时刻的调度动作,得出下一个时刻的列车运行调度状态,从而实现状态转移功能。具体定义方式,举例来讲,如当到达列车时刻表的时间T时,有N辆车已经到了可发车状态,则修改该N辆车的状态,使其处于待调度状态;如果有M个司机被分配任务,则修改其状态为已分配任务状态,从而完成车站内列车和司机的状态转移。
列车运行调度环境模型将转移后的状态信息反馈给价值网络。
动作空间单元:
动作空间单元用于根据当前车站内列车的状态信息及司机的状态信息来确定可供智能体选择的动作范围。
其中动作是指智能体在某个状态下进行的可行操作,本发明中从待调度的列车中选择一个列车或不选择任何列车进行调度的过程属于一个动作。该动作空间根据处于可调度状态的列车信息和司机信息来确定,也就是说动作空间是由列车的状态信息及司机的状态信息共同决定的,比如只有当前时刻处于待调度状态的列车才能被调度,即作为一个动作被选择。只有当前时刻处在无调度任务的司机才能被分配给新的任务。本发明的应用场景中,动作空间会随着时间发生变化,即不同的时刻,可调度的列车和司机都是不同的,智能体可选择的动作范围是不同的。同时,列车调度过程中,需要考虑时间约束问题,即安全性方面,两列车不能同时从车站出发,需要满足一定的时间间隔。当不满足时间间隔时,当前不可调度任何列车,即此时动作空间为空。
奖赏函数单元
奖赏函数单元用于针对列车运行调度情况利用设定的奖赏函数计算输出奖惩值,奖赏函数单元的输出端连接价值网络的输入端。上述奖赏函数根据列车运行调度的优化目标来确定。
奖赏函数的确定在深度强化学习模型的整个学习和训练过程中至关重要,直接影响到学习的结果,具体确定奖赏函数时遵循的原则是当列车运行调度效果满足优化目标时计算得出一个奖赏值,否则计算得出一个惩罚值。奖赏函数可以通过键值对形式或函数表达式形式来表达,奖赏函数的计算结果能够直接反馈给价值网络。价值网络则根据该值是奖赏值还是惩罚值,进一步进行参数调整,执行自学习的训练过程。所以,奖赏函数需要根据优化目标进行详细设计。本发明中,列车运行调度的优化目标是正点率,提高列车的正点率意味着增加正点列车的数量。同时,考虑列车的类型包括客运列车和货运列车,不同类型的列车误点造成的影响不同,所以,奖赏函数的设计需要针对不同的列车类型误点情况给予不同的权重。此外,如果有其它优化目标(如考虑待调度列车的等待时间),也可以用同样的方法进行奖赏函数的设计。
具体地,本发明以一个实施例举例说明奖赏函数的设计如下:
r=w1F1(A)+w2F2(B)
其中r为奖赏值,F1(A)和F2(B)分别为调度的客运列车和货运列车的误点率评分,w1和w2为权重值,一般地,w1>w2,即客运列车误点带来的影响比货运列车误点影响大,深度强化学习模型优先考虑客运列车的调度问题。
误点率评分方法如下:
对于客运列车
Figure GDA0002646809000000111
其中N为调度时间段内总的客运列车数量,a为误点的列车数量,当有误点的列车时,即a>0时,
Figure GDA0002646809000000112
为负值,即惩罚值,而且误点数越多该值越小,表示相应的惩罚越大。当没有误点的列车时,打分为1,即给予1的奖赏值。
同理,对于货运列车
Figure GDA0002646809000000113
其中N为调度时间段内总的货运列车数量,b为误点的列车数量,当有误点的列车时,即b>0时,
Figure GDA0002646809000000114
为负值,即惩罚值,而且误点数越多该值越小,表示相应的惩罚越大。当没有误点的列车时,打分为1,即给予1的奖赏值。
所以,通过以上公式就能够进行奖赏函数的设计,本设计方案只是一个具体的实施例。如果有更多的优化目标,则同理添加更多的评分函数,并以不同的权重将各个评分函数组合在一起形成最终的奖赏函数。
价值网络模块
价值网络模块用于抽象车站内所有列车和司机的状态,并输出列车和司机在该状态下对应不同动作时的价值,根据抽象出的列车和司机的状态对应的动作的价值进行最优调度动作的选择,并将选择到的最优调度动作反馈到列车运行调度环境模型。
价值网络抽象出的列车状态和司机状态所对应动作的价值越大,则对应的调度动作也越优。因此可以根据每个调度动作价值输出的大小,选择最大价值对应的动作作为最优调度动作进行列车调度任务的执行。
通过价值网络不断将选择到的最优动作反馈到列车运行调度环境模型中,从而实现价值网络与列车运行调度环境模型不断迭代训练,使得模型学习到最优的列车运行调度方案。其中,价值网络的更新遵循强化学习中的Bellman方程。
价值网络由深度神经网络构成,通过使用深度神经网络模型来抽象列车状态、司机状态和价值拟合。该深度神经网络模型可以需要根据列车的状态信息数据特点来选择,可选择的深度神经网络模型包括ANN、CNN、RNN、LSTM、AutoEncoder等网络模型及其组合或者变体。
上述价值网络是深度强化学习模型的核心,相比与现有的方法,使得深度强化学习模型具有极强的状态抽象与表征能力,使得强化学习方法得以应用于复杂的列车运行调度问题上。
步骤S40,利用深度强化学习模型进行离线训练和学习,得到训练好的列车深度强化学习模型。
深度强化学习模型的训练过程就是价值网络与列车运行调度环境模型的不断交互过程,价值网络根据列车的特征数据信息输入,进行状态抽象,得到当前状态下最优调度动作,价值网络可选择的动作范围由动作空间确定,价值网络选择的最优调度动作将发送给列车运行环境模型;列车运行环境模型根据前一时刻的列车状态、司机状态和当前时刻的动作选择来进行状态转移,同时根据奖赏函数计算得出奖惩值,并将该奖惩值和改变后的状态信息反馈给价值网络,如此不断迭代地进行模型训练和学习,最终使得深度强化学习模型得以收敛。
步骤S50,利用训练好的深度强化学习模型进行列车运行调度。
利用训练好的深度强化学习模型进行列车运行调度时,可以基于图3所示的一种基于深度强化学习的列车运行调度系统来实施。
由图3可以看出,该基于深度强化学习的列车运行调度系统包括:列车运行调度控制器和列车深度强化学习模型。其中该列车深度强化学习模型是经过上述步骤S40训练好的列车深度强化学习模型。
在具体应用时,列车运行调度控制器根据实际真实的列车运行调度环境,首先输出当前时刻车站内的所有的列车信息和司机信息作为状态信息,将其传输给列车深度强化学习模型,该列车深度强化学习模型根据输入的状态信息输出最优的调度动作(如使某一个列车搭配某一个司机可发车)。其中根据输入的状态信息输出最优的调度动作的过程具体为:列车深度强化学习模型中的价值网络模块根据列车运行调度控制器输入的状态信息,进行状态抽象,并结合动作空间提供的动作范围,得到当前状态下最优的调度动作。
之后该列车深度强化学习模型将该最优调度动作返回列车运行调度控制器。
列车运行调度控制器收到最优调动动作,执行完该调度动作,随后监控等待时间达到设定的发车时间间隔时,则列车运行调度控制器继续根据当前列车运行调度环境,将当前时刻车站内所有列车和司机的状态信息发送到该列车深度强化学习模型,并获取新的最优调度动作,如此不断循环上述过程,最终使得所有的列车和司机得到调度。
虽然本发明已以较佳实施例公开如上,但实施例并不限定本发明。在不脱离本发明之精神和范围内,所做的任何等效变化或润饰,同样属于本发明之保护范围。因此本发明的保护范围应当以本申请的权利要求所界定的内容为标准。

Claims (9)

1.一种基于深度强化学习的列车运行调度方法,其特征在于,所述列车运行调度方法包括:
步骤S10,收集真实场景中一个车站的所有可调度列车及其时刻表信息以及所有可调度安排的司机信息,构成原始信息;
步骤S20,将收集的原始信息进行规则化处理;
步骤S30,利用规则化处理后的数据信息建立列车深度强化学习模型;所述列车深度强化学习模型给予强化学习智能体奖惩值和状态转移信息,并确定出可供智能体选择的动作空间;并通过车站内规则化处理的所有列车和司机的状态,抽象出列车和司机的状态对应的动作的价值,并根据该价值确定出最优调度动作;
所述列车深度强化学习模型包括:列车运行调度环境模型模块和价值网络模块;
所述列车运行调度环境模型给予强化学习智能体奖惩值和状态转移信息,并确定出可供智能体选择的动作空间;
所述价值网络模块用于抽象车站内所有列车和司机的状态,并输出列车和司机在该状态下对应不同动作时的价值,根据抽象出的列车和司机的状态对应的动作的价值进行最优调度动作的选择,并将选择到的最优调度动作反馈到列车运行调度环境模型;其中所选择的最优动作在所述列车运行调度环境模型提供的动作空间中;
步骤S40,利用深度强化学习模型进行离线训练和学习,得到训练好的列车深度强化学习模型;
步骤S50,利用训练好的深度强化学习模型进行列车运行调度。
2.根据权利要求1所述的基于深度强化学习的列车运行调度方法,其特征在于,所述步骤S20具体包括:
将每辆列车抽象为一个多元组,该多元组包含的信息为:车次,列车类型,列车当前状态,列车当前所处位置,列车到站时间,列车发车时间,列车平均运行速度;其中列车类型指的是客运列车或货运列车,列车当前状态分为待调度状态,未到站状态,已调度状态,已出站状态;
将车站司机的信息规则化为二元组,该二元组包含的信息为:司机编号,司机状态;其中司机状态分为已分配任务,未分配任务,已请假。
3.根据权利要求2所述的基于深度强化学习的列车运行调度方法,其特征在于,所述列车运行调度环境模型模块包括:
状态转移单元、动作空间单元以及奖赏函数单元;
所述状态转移单元根据前一时刻的列车状态和价值网络模块输出的当前时刻的动作,来对当前时刻车站内的列车和司机的状态实施状态转移;其中车站内列车和司机的状态根据规则化处理的列车信息和司机信息来定义;
所述动作空间单元用于根据当前车站内列车的状态信息及司机的状态信息来确定可供智能体选择的动作范围;
所述奖赏函数单元用于针对列车运行调度情况利用设定的奖赏函数计算输出奖惩值,奖赏函数单元的输出端连接价值网络的输入端;所述奖赏函数根据列车运行调度的优化目标来确定。
4.根据权利要求3所述的基于深度强化学习的列车运行调度方法,其特征在于,所述列车运行调度的优化目标包括:正点率。
5.根据权利要求4所述的基于深度强化学习的列车运行调度方法,其特征在于,所述奖赏函数用如下公式表示:
r=w1F1(A)+w2F2(B)
其中r为奖惩值,F1(A)和F2(B)分别为调度的客运列车和货运列车的误点率评分,w1和w2为权重值;
对于客运列车,所述误点率评分表示为:
Figure FDA0002646808990000031
其中N为调度时间段内总的客运列车数量,a为误点的列车数量;
对于货运列车,所述误点率评分表示为:
Figure FDA0002646808990000032
其中N为调度时间段内总的货运列车数量,b为误点的列车数量。
6.根据权利要求1所述的基于深度强化学习的列车运行调度方法,其特征在于,所述步骤S40具体包括:
价值网络根据列车信息和司机信息输入进行状态抽象,得到当前状态下最优的调度动作,价值网络可选择的动作范围由动作空间确定,价值网络选择的最优动作将发送给列车运行环境模型;
列车运行环境模型根据前一时刻的列车状态、司机状态和当前时刻的动作选择来进行状态转移,同时根据奖赏函数计算得出奖惩值,并将该奖惩值和改变后的状态信息反馈给价值网络;
如此不断迭代地进行训练和学习,最终使得深度强化学习模型得以收敛。
7.根据权利要求1所述的基于深度强化学习的列车运行调度方法,其特征在于,所述步骤S50具体包括:
列车运行调度控制器根据实际真实的列车运行调度环境,首先输出当前时刻车站内的所有的列车信息和司机信息作为状态信息,将其传输给列车深度强化学习模型,该列车深度强化学习模型根据输入的状态信息输出最优的调度动作;将该最优调度动作返回列车运行调度控制器;
列车运行调度控制器收到最优调动动作,执行完该调度动作,随后监控等待时间达到设定的发车时间间隔时,则列车运行调度控制器继续根据当前列车运行调度环境,将当前时刻车站内所有列车和司机的状态信息发送到该列车深度强化学习模型,并获取新的最优调度动作,如此不断循环上述过程,最终使得所有的列车和司机得到调度。
8.根据权利要求7所述的基于深度强化学习的列车运行调度方法,其特征在于,所述根据输入的状态信息输出最优的调度动作的过程具体包括:
列车深度强化学习模型中的价值网络模块根据列车运行调度控制器输入的状态信息,进行状态抽象,并结合动作空间提供的动作范围,得到当前状态下最优的调度动作。
9.一种基于深度强化学习的列车运行调度系统,其特征在于,所述列车运行调度系统包括:
列车运行调度控制器和列车深度强化学习模型;其中所述列车深度强化学习模型为权利要求1至8任一项所述的基于深度强化学习的列车运行调度方法中的训练好的列车深度强化学习模型;
所述列车运行调度控制器根据实际真实的列车运行调度环境,输出当前时刻车站内的所有的列车信息和司机信息作为状态信息,将其传输给列车深度强化学习模型,该列车深度强化学习模型根据输入的状态信息输出最优调度动作;将该最优调度动作返回列车运行调度控制器;
列车运行调度控制器收到最优调动动作,执行该调度动作;监控等待时间达到设定的发车时间间隔时,则列车运行调度控制器根据当前列车运行调度环境,将当前时刻车站内所有列车和司机的状态信息发送到该列车深度强化学习模型,以获取新的最优调度动作。
CN201710467955.1A 2017-06-20 2017-06-20 一种基于深度强化学习的列车运行调度方法及系统 Active CN107194612B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710467955.1A CN107194612B (zh) 2017-06-20 2017-06-20 一种基于深度强化学习的列车运行调度方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710467955.1A CN107194612B (zh) 2017-06-20 2017-06-20 一种基于深度强化学习的列车运行调度方法及系统

Publications (2)

Publication Number Publication Date
CN107194612A CN107194612A (zh) 2017-09-22
CN107194612B true CN107194612B (zh) 2020-10-13

Family

ID=59879314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710467955.1A Active CN107194612B (zh) 2017-06-20 2017-06-20 一种基于深度强化学习的列车运行调度方法及系统

Country Status (1)

Country Link
CN (1) CN107194612B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108762079B (zh) * 2018-06-04 2022-03-11 河海大学常州校区 基于深度强化学习的绞吸挖泥船横移过程控制系统及方法
CN109243172B (zh) * 2018-07-25 2021-06-08 华南理工大学 基于遗传算法优化lstm神经网络的交通流预测方法
CN108986470B (zh) * 2018-08-20 2022-03-29 华南理工大学 粒子群算法优化lstm神经网络的行程时间预测方法
WO2020050873A1 (en) * 2018-09-04 2020-03-12 Didi Research America, Llc System and method for ride order dispatching and vehicle repositioning
CN109204390B (zh) * 2018-09-29 2021-03-12 交控科技股份有限公司 一种基于深度学习的列车控制方法
CN113015981A (zh) * 2018-11-16 2021-06-22 华为技术有限公司 利用第一原则和约束进行有效、连续和安全学习的系统和方法
CN109740839B (zh) * 2018-11-23 2021-06-18 北京交通大学 一种突发事件下的列车动态调整方法及系统
CN109835375B (zh) * 2019-01-29 2021-05-11 中国铁道科学研究院集团有限公司通信信号研究所 基于人工智能技术的高速铁路列车自动驾驶系统
CN110006486B (zh) * 2019-04-01 2021-07-20 中清控(武汉)科技有限公司 一种智能流温采集控制模块及智能流温测量方法
CN110045614A (zh) * 2019-05-16 2019-07-23 河海大学常州校区 一种基于深度学习的绞吸船横移过程自学习控制系统及方法
CN112288205B (zh) * 2019-10-18 2024-02-27 南京行者易智能交通科技有限公司 一种驾驶员实时调度方法、装置,及移动端设备
CN111026110B (zh) * 2019-11-20 2021-04-30 北京理工大学 面向含软、硬约束线性时序逻辑的不确定动作规划方法
CN111413974B (zh) * 2020-03-30 2021-03-30 清华大学 一种基于学习采样式的汽车自动驾驶运动规划方法及系统
CN111376954B (zh) * 2020-06-01 2020-09-29 北京全路通信信号研究设计院集团有限公司 一种列车自主调度方法和系统
CN111369181B (zh) * 2020-06-01 2020-09-29 北京全路通信信号研究设计院集团有限公司 一种列车自主调度深度强化学习方法和装置
CN111619624B (zh) * 2020-06-01 2022-06-21 北京全路通信信号研究设计院集团有限公司 一种基于深度强化学习的有轨电车运行控制方法和系统
CN112116156B (zh) * 2020-09-18 2023-02-03 中南大学 基于深度强化学习的混动列车的能量管理方法及系统
CN112231870B (zh) * 2020-09-23 2022-08-02 西南交通大学 一种复杂山区铁路线路智能化生成方法
EP4035969A1 (de) * 2021-01-29 2022-08-03 Siemens Mobility GmbH Verfahren zum trainieren einer steuerung für ein schienenfahrzeug, steuerung und schienenfahrzeug
CN112991750B (zh) * 2021-05-14 2021-11-30 苏州博宇鑫交通科技有限公司 基于强化学习与生成式对抗网络的局部交通优化方法
CN113525462B (zh) * 2021-08-06 2022-06-28 中国科学院自动化研究所 延误情况下的时刻表调整方法、装置和电子设备
CN113807687B (zh) * 2021-09-06 2024-01-30 交控科技股份有限公司 调度集中仿真系统、接口设备及无线闭塞控制仿真系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105894847A (zh) * 2016-06-27 2016-08-24 华南理工大学 一种云平台环境下无监督学习的实时公交动态调度系统及方法
CN106347359A (zh) * 2016-09-14 2017-01-25 北京百度网讯科技有限公司 用于操作自动驾驶车辆的方法和装置
CN106599773A (zh) * 2016-10-31 2017-04-26 清华大学 用于智能驾驶的深度学习图像识别方法、系统及终端设备
CN106652434A (zh) * 2016-12-02 2017-05-10 东南大学 一种基于轨道交通协调的公交调度方法
CN106802553A (zh) * 2017-01-13 2017-06-06 清华大学 一种基于强化学习的铁路机车运行操控系统混合任务调度方法
CN106842925A (zh) * 2017-01-20 2017-06-13 清华大学 一种基于深度强化学习的机车智能操纵方法与系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0513045D0 (en) * 2005-06-27 2005-08-03 Vidus Ltd Resource scheduling method and system
US8924976B2 (en) * 2011-08-26 2014-12-30 Knu-Industry Cooperation Foundation Task scheduling method and apparatus

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105894847A (zh) * 2016-06-27 2016-08-24 华南理工大学 一种云平台环境下无监督学习的实时公交动态调度系统及方法
CN106347359A (zh) * 2016-09-14 2017-01-25 北京百度网讯科技有限公司 用于操作自动驾驶车辆的方法和装置
CN106599773A (zh) * 2016-10-31 2017-04-26 清华大学 用于智能驾驶的深度学习图像识别方法、系统及终端设备
CN106652434A (zh) * 2016-12-02 2017-05-10 东南大学 一种基于轨道交通协调的公交调度方法
CN106802553A (zh) * 2017-01-13 2017-06-06 清华大学 一种基于强化学习的铁路机车运行操控系统混合任务调度方法
CN106842925A (zh) * 2017-01-20 2017-06-13 清华大学 一种基于深度强化学习的机车智能操纵方法与系统

Also Published As

Publication number Publication date
CN107194612A (zh) 2017-09-22

Similar Documents

Publication Publication Date Title
CN107194612B (zh) 一种基于深度强化学习的列车运行调度方法及系统
CN111376954B (zh) 一种列车自主调度方法和系统
CN111369181B (zh) 一种列车自主调度深度强化学习方法和装置
Chen et al. An intelligent path planning scheme of autonomous vehicles platoon using deep reinforcement learning on network edge
CN104881527B (zh) 城市轨道交通列车ato速度命令优化方法
CN111105141B (zh) 一种需求响应型公交调度方法
CN106027300B (zh) 一种应用神经网络的智能机器人参数优化系统及方法
CN109753751A (zh) 一种基于机器学习的mec随机任务迁移方法
CN103366262B (zh) 一种铁路运输物流智能调度系统及其调度计划生成方法
Keskin et al. Energy-efficient train operation using nature-inspired algorithms
CN102269593B (zh) 基于模糊虚拟力的无人机航路规划方法
CN111619624B (zh) 一种基于深度强化学习的有轨电车运行控制方法和系统
CN107943022A (zh) 一种基于强化学习的pid机车自动驾驶优化控制方法
CN110963209A (zh) 一种基于深度强化学习的垃圾分拣装置与方法
Ning et al. ACP-based control and management of urban rail transportation systems
CN108932356A (zh) 一种考虑列车晚点因素的ato速度命令节能优化方法
CN115145796B (zh) 一种码头操作系统效能的评估方法和码头数字仿真平台
US20220147664A1 (en) Systems and Methods for Multi-Modal Transportation Simulation Verification
Hani et al. Simulation based optimization of a train maintenance facility
CN114936783A (zh) 一种基于mmddpg算法的rgv小车调度方法及系统
CN114859883A (zh) 一种检修机器人多机协作控制方法、系统及储存介质
CN109947130A (zh) 一种基于网格化管理的输电多机编队巡视管理方法和系统
CN116720703A (zh) 一种基于深度强化学习的agv多目标任务调度方法及系统
US20220391558A1 (en) Multi-agent simulation system and method
CN115471124A (zh) 一种基于深度强化学习的行车调度方法、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant