CN111369181B - 一种列车自主调度深度强化学习方法和装置 - Google Patents

一种列车自主调度深度强化学习方法和装置 Download PDF

Info

Publication number
CN111369181B
CN111369181B CN202010481727.1A CN202010481727A CN111369181B CN 111369181 B CN111369181 B CN 111369181B CN 202010481727 A CN202010481727 A CN 202010481727A CN 111369181 B CN111369181 B CN 111369181B
Authority
CN
China
Prior art keywords
train
time
neural network
cost
value function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010481727.1A
Other languages
English (en)
Other versions
CN111369181A (zh
Inventor
韦伟
刘岭
张�杰
李擎
王舟帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CRSC Research and Design Institute Group Co Ltd
Original Assignee
CRSC Research and Design Institute Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CRSC Research and Design Institute Group Co Ltd filed Critical CRSC Research and Design Institute Group Co Ltd
Priority to CN202010481727.1A priority Critical patent/CN111369181B/zh
Publication of CN111369181A publication Critical patent/CN111369181A/zh
Application granted granted Critical
Publication of CN111369181B publication Critical patent/CN111369181B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06312Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06313Resource planning in a project environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06315Needs-based resource requirements planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Primary Health Care (AREA)
  • Train Traffic Observation, Control, And Security (AREA)

Abstract

本发明提出一种列车自主调度深度强化学习方法和装置,基于轨道交通数据,以列车运行状态S、列车动作A、根据列车运行状态S和列车动作A组成的回报R(S,A)、采取动作后达到的后续状态S´建立N个单列列车四元组(S,A,R,S´),选择n个四元组(S,A,R,S´),计算梯度值,利用梯度值更新值函数神经网络参数,判断值函数神经网络参数是否达到预定条件,若值函数神经网络参数达到预定条件,停止更新值函数神经网络参数,若值函数神经网络参数未达到预定条件,重新选择n个四元组(S,A,R,S´),继续更新值函数神经网络参数,得到训练好的值函数神经网络,训练好的值函数神经网络可用于列车调度。

Description

一种列车自主调度深度强化学习方法和装置
技术领域
本发明属于轨道交通领域,特别涉及一种列车自主调度深度强化学习方法和装置。
背景技术
既有运输组织模式下,运输计划通常是基于阶段的客流需求预测进行编制。在短时间内,由于实时客流需求的波动,运输供给和运输需求存在一定不匹配关系,从而导致运输系统服务水平降低。同时,由于列车在运行过程中受到各种外部因素的影响,列车运行逐渐偏离运行时刻表和既定节能操纵曲线,列车运行的准点性和节能性难以保证。因此,针对实际运行情况进行列车运行调度是解决这一问题的重要手段。
既有的关于列车运行调度的研究主要为集中式调度。集中式调度方法通过建立列车调度的优化模型并进行求解,从而生成列车运行调度方案。然而,在列车运行过程中,需要考虑的周边环境和运输需求异常复杂且呈现较强的动态时变特性,而集中式调度方法往往难以适应实时性和灵活性要求较高的应用场景。在轨道交通系统调度任务的非线性和实时性要求下,其不仅存在求解时间过长的问题,在动态调度场景下其灵活性也受到制约。
发明内容
针对上述问题,本发明提出一种列车自主调度深度强化学习方法,基于轨道交通数据,以列车运行状态
Figure 706061DEST_PATH_IMAGE001
、列车动作
Figure 373803DEST_PATH_IMAGE002
、根据列车运行状态
Figure 760791DEST_PATH_IMAGE001
和列车动作
Figure 957417DEST_PATH_IMAGE002
组成的回报
Figure 180588DEST_PATH_IMAGE003
、采取动作后达到的后续状态
Figure 904217DEST_PATH_IMAGE004
建立N个单列列车四元组
Figure 896444DEST_PATH_IMAGE005
选择n个四元组
Figure 529551DEST_PATH_IMAGE006
,计算所述n个四元组
Figure 974439DEST_PATH_IMAGE006
的梯度值,利用梯度值更新值函数神经网络参数;
判断值函数神经网络参数是否达到预定条件,若值函数神经网络参数达到预定条件,停止更新值函数神经网络参数,若值函数神经网络参数未达到预定条件,重新选择n个四元组
Figure 233251DEST_PATH_IMAGE006
,继续更新值函数神经网络参数。
优选地,所述列车运行状态
Figure 814405DEST_PATH_IMAGE001
Figure 883992DEST_PATH_IMAGE007
时刻具体包括:
Figure 65443DEST_PATH_IMAGE008
Figure 878679DEST_PATH_IMAGE009
为列车在
Figure 579918DEST_PATH_IMAGE007
时刻与其前车间的间隔时间,
Figure 554828DEST_PATH_IMAGE010
为列车根据时刻表到达前方所有车站时,在
Figure 223575DEST_PATH_IMAGE007
时刻所预测的这些车站的单位时间产生的候车客流量向量,
Figure 574922DEST_PATH_IMAGE011
为列车在
Figure 396248DEST_PATH_IMAGE007
时刻的实时载客量,
Figure 807637DEST_PATH_IMAGE012
为列车从出发开始到达目前为止的运行时间,
Figure 966611DEST_PATH_IMAGE013
为列车
Figure 856069DEST_PATH_IMAGE007
时刻所在线路,
Figure 531901DEST_PATH_IMAGE014
为列车在所在线路上的里程位置,
Figure 363460DEST_PATH_IMAGE015
为列车在
Figure 491953DEST_PATH_IMAGE007
时刻的运行速度,
Figure 185102DEST_PATH_IMAGE016
为列车在
Figure 981020DEST_PATH_IMAGE007
时刻的加速度,
Figure 717901DEST_PATH_IMAGE017
为列车在
Figure 599269DEST_PATH_IMAGE007
时刻是否在车站停靠(0表示未停靠,1表示停靠)。
优选地,基于
Figure 830530DEST_PATH_IMAGE018
策略生成列车动作
Figure 730222DEST_PATH_IMAGE002
,具体包括以下步骤:
初始化列车运行状态;
确定
Figure 654316DEST_PATH_IMAGE019
数值;
产生一个区间[0,1]之内的随机数;
若该随机数小于
Figure 491822DEST_PATH_IMAGE019
,则从所有可能的动作中随机选择一个动作;
若该随机数大于等于
Figure 247813DEST_PATH_IMAGE019
,则将当前列车运行状态
Figure 18323DEST_PATH_IMAGE020
输入值函数神经网络,选择值函数最大的动作
Figure 113318DEST_PATH_IMAGE021
,作为当前采取的动作
Figure 703699DEST_PATH_IMAGE002
优选地,基于旅客等待时间成本、列车采用动作
Figure 791610DEST_PATH_IMAGE022
的能耗成本、列车在状态
Figure 416626DEST_PATH_IMAGE023
下的安全间隔超限成本和列车在状态
Figure 682522DEST_PATH_IMAGE023
下的准点超限成本获取
Figure 760200DEST_PATH_IMAGE007
时刻回报
Figure 386222DEST_PATH_IMAGE024
优选地,基于单位旅客候车时间成本、列车与前车实时间隔时间、列车位于运行线路第几个车站、候车客流量获取旅客等待时间成本。
优选地,基于列车
Figure 865745DEST_PATH_IMAGE007
时刻牵引功率、决策过程离散时间长度、单位能耗成本、工况转换固定成本获取列车采用动作
Figure 302542DEST_PATH_IMAGE022
的能耗成本。
优选地,基于列车间隔时间超限的单位经济成本系数、列车在
Figure 867516DEST_PATH_IMAGE025
时刻与其前车间的间隔时间和列车之间的最小安全间隔时间获取安全间隔超限成本。
优选地,基于目前为止的总运行时间、列车到达当前位置允许的最短时间、列车到达当前位置允许的最长时间和列车不准点的单位经济成本系数获取准点超限成本。
优选地,存储建立后的N个单列列车四元组
Figure 297229DEST_PATH_IMAGE006
优选地,随机选择n个四元组
Figure 365679DEST_PATH_IMAGE006
,计算所述n个四元组
Figure 973378DEST_PATH_IMAGE006
的梯度值,利用梯度值更新值函数神经网络参数。
优选地,所述选择n个四元组
Figure 289564DEST_PATH_IMAGE006
,计算所述n个四元组
Figure 273700DEST_PATH_IMAGE006
的梯度值,利用梯度值更新值函数神经网络参数具体包括:
将列车状态
Figure 196657DEST_PATH_IMAGE001
输入目标值函数神经网络
Figure 975257DEST_PATH_IMAGE026
,计算时间差分目标:
Figure 764090DEST_PATH_IMAGE027
Figure 20759DEST_PATH_IMAGE028
为回报函数的折扣系数,
Figure 329381DEST_PATH_IMAGE029
表示当前值函数神经网络,
Figure 528150DEST_PATH_IMAGE030
为当前值函数神经网络参数,
Figure 555012DEST_PATH_IMAGE031
为目标值函数神经网络参数,
计算损失函数:
Figure 349792DEST_PATH_IMAGE032
利用第
Figure 512921DEST_PATH_IMAGE033
个四元组更新参数
Figure 148170DEST_PATH_IMAGE034
Figure 396749DEST_PATH_IMAGE035
优选地,基于优先经验回放机制选择n个四元组
Figure 995220DEST_PATH_IMAGE006
,则
Figure 530631DEST_PATH_IMAGE036
其中,
Figure 556356DEST_PATH_IMAGE037
为梯度下降步长,
Figure 292231DEST_PATH_IMAGE038
Figure 959973DEST_PATH_IMAGE039
为重要性采样系数,
Figure 346961DEST_PATH_IMAGE040
Figure 543587DEST_PATH_IMAGE041
为采样概率
Figure 766758DEST_PATH_IMAGE042
Figure 956300DEST_PATH_IMAGE043
为防止除零而添加的参数。
优选地,建立N个单列列车四元组
Figure 948526DEST_PATH_IMAGE006
后,对N个单列列车四元组
Figure 847212DEST_PATH_IMAGE005
进行规则化处理。
本发明还提出一种列车自主调度深度强化学习装置,包括:
学习型智能体,用于探索轨道交通数据,以列车运行状态
Figure 557679DEST_PATH_IMAGE020
、列车动作
Figure 285333DEST_PATH_IMAGE044
、根据状态和动作组成的回报
Figure 397645DEST_PATH_IMAGE003
、采取动作后达到的后续状态
Figure 201653DEST_PATH_IMAGE004
建立的N个单列列车四元组
Figure 386034DEST_PATH_IMAGE006
;用于判断值函数神经网络参数是否达到预定条件,若值函数神经网络参数达到预定条件,停止更新值函数神经网络参数,若值函数神经网络参数未达到预定条件,继续更新值函数神经网络参数;
值函数神经网络,用于选择n个四元组
Figure 933690DEST_PATH_IMAGE006
,计算所述n个四元组
Figure 900509DEST_PATH_IMAGE005
的梯度值,利用梯度值更新值函数神经网络参数;
回报函数单元,用于计算回报
Figure 140998DEST_PATH_IMAGE003
优选地,还包括:
数据规则化处理单元,用于对四元组
Figure 544166DEST_PATH_IMAGE006
进行规则化处理;
缓存回放记忆器,用于存储经规则化处理后的四元组
Figure 895513DEST_PATH_IMAGE006
数据传输单元,用于建立深度强化学习装置内部实时通信。
本发明的列车自主调度深度强化学习方法和装置,利用轨道交通数据构成的四元组对值函数神经网络进行训练,得到训练好的值函数神经网络,训练好的值函数神经网络可用于列车调度,输入当前列车运行状态至值函数神经网络,即可得到列车当前最优动作,从而提高调度的实时性和灵活性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了列车自主调度原理示意图;
图2示出了深度强化学习装置与仿真模块交互示意图;
图3示出了列车自主调度原理示意图;
图4示出了枢纽/车站仿真内容关系图;
图5示出了线网运输过程仿真内容关系图;
图6示出了基于
Figure 716839DEST_PATH_IMAGE045
的旅客等待时间成本计算示意图;
图7示出了列车采用动作
Figure 111917DEST_PATH_IMAGE022
的能耗成本计算示意图;
图8示出了安全间隔超限成本计算示意图;
图9示出了准点超限成本计算示意图;
图10示出了值函数神经网络结构示意图;
图11示出了考虑优先经验回放的
Figure 18693DEST_PATH_IMAGE046
详细流程图;
图12示出了列车自主调度系统结构示意图;
图13示出了仿真模块的结构示意图;
图14示出了轨道交通网络列车自主调度分布式实施架构图;
图15示出了仿真模块和深度强化学习装置部分结构示意图;
图16示出了仿真模块和深度强化学习装置部分结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为解决集中式调度模式所存在的问题,本发明的实施例提出一种列车自主调度的方法,其原理如图1所示。在列车自主调度模式中,每列车根据列车自身状态、既定运输计划、与其他列车关系、列车自身运行能耗、车站客流进行列车操纵策略的调整,从而在保证列车运行安全和准点的前提下,降低列车运行能耗和旅客等待时间。相对于传统的集中式调度,分布式列车调度具备以下优势:
调度决策针对单列车进行,调度的实时性和灵活性较高,能够适应复杂场景下的调度任务,同时有助于简化列车调度系统,降低系统建设成本;
根据列车运行环境直接生成列车操纵策略,可实现列车运行调度策略的生成和实施的高度耦合,减少中间过程,提高列车运行调度的可靠性。
根据列车自主调度原理,首先需要构建一种列车智能调度仿真模块,利用仿真模块仿真实际轨道交通系统,利用
Figure 908151DEST_PATH_IMAGE046
算法(深度强化学习算法),以保证列车运行安全性和准点性、降低列车运行能耗和旅客等待时间为目标,对列车自主调度决策智能体进行训练,经过深度强化学习训练的列车自主调度决策模型,即可用于在实际运行环境中动态生成列车自主调度方案。
在强化学习中,深度强化学习装置是以“试错”的方式进行学习,并通过与仿真模块进行交互获得的回报来指导行为,从而实现既定目标任务的一种决策主体。强化学习中深度强化学习装置与仿真模块的交互过程如图2所示。深度强化学习装置在完成某项任务时,首先通过动作与仿真模块进行交互,在动作和环境的作用下,仿真模块会产生新的状态,同时仿真模块会给出一个立即回报。如此循环下去,深度强化学习装置与环境不断地交互从而产生很多数据。深度强化学习算法利用产生的数据修改自身的动作策略,再与仿真模块交互,产生新的数据,并利用新的数据进一步改善自身的行为,经过数次迭代学习后,深度强化学习装置最终能够学到完成相应任务的最优动作(即产生最优动作的最优策略)。
利用深度强化学习方法对列车自主调度问题中的列车调度进行建模,首先需要对仿真模块和列车调度智能体设计。在列车运行调度仿真模块中,涉及到的实体较多,不是所有实体都需要进行抽象。列车是铁路路网系统中最主要的元素,也是列车运行智能调度研究的主体。因此,本实施例将单列列车作为列车自主调度的主体单元,在仿真模块中,仿真得到的线路、车站、设施设备以及旅客等其它对象均与列车自主调度智能体进行交互。
列车自主调度智能体作为高度自治的实体,能够根据设计的规则动态获取外部环境信息,并且拥有自己的知识和在特殊情况下的决策判断能力,所以能够适应复杂的路网环境。列车自主调度智能体结构如图3所示。列车调度智能决策模块是列车自主调度智能体的核心部分,通过该模块,列车自主调度智能体根据列车动力学特性、列车运行计划、固定设备状态、通过通信模块获知与其他列车之间关系,实时进行智能判断决策,从而保证列车运行的安全性和准点性,同时进一步降低列车运行能耗与旅客等待时间。
利用深度强化学习进行列车自主调度模型和调度方案研究,除了需要对轨道交通的列车自主调度智能体进行建模之外,还需对整个实际轨道交通系统进行仿真模拟。轨道交通系统仿真模拟包括枢纽/车站仿真和线网运输过程仿真两个部分。对实际轨道交通系统进行模拟仿真,可以在列车自主调度模型中考虑列车与列车、列车与运输计划、列车与客流之间的相互影响关系,从而通过对列车自主调度方案的优化来保证列车运行的安全性和准点性,并降低列车运行能耗和旅客候车时间。
1、枢纽/车站仿真
枢纽/车站仿真包括枢纽/车站模型搭建、列车进出站作业仿真、枢纽/车站内流线仿真、枢纽/车站旅客微观行为仿真等几个部分。枢纽/车站仿真的主要仿真模拟内容如图4所示。
环境搭建:枢纽网络搭建搭建
枢纽网络搭建主要根据枢纽拓扑网络图和枢纽内主要设施设备布局实现枢纽网络搭建,搭建的枢纽网络需反映枢纽内部设施设备相对关系、主要功能间逻辑关系以及枢纽内部与整体网络的逻辑关系。
列车流仿真:列车进出站仿真
列车进出站作业仿真需实现枢纽内列车严格地按照列车进出站时刻信息和接发车进路计划完成在枢纽的进出站作业。该功能需以列车时刻表和接发车作业计划为基础,列车在车站的运行需实现接发车进路计划和枢纽中车场的拓扑结构的匹配。
客流仿真:枢纽内流线仿真,枢纽旅客微观出行链仿真
根据枢纽网络结构和旅客在枢纽内主要的出行环节(包括进站、出站、安检、检票、乘降、等待、走行等),设计枢纽内主要的客流流线。该功能实现客流流线与构建的枢纽网络的匹配,根据实际客流需求实现客流在枢纽内的动态仿真评估。
根据旅客的出行属性、枢纽特征以及引导信息,获取旅客在枢纽中完整的出行过程并进行评估,出行过程包括完整的出行信息以及每个出行环节和枢纽内设施设备、车流的对应关系。
2、线网运输过程仿真
线网运输过程仿真是对列车运行的线路、区间、线网客流进行综合仿真模拟。其主要包括运输网络搭建、运输网络列车流仿真、列车区间追踪运行仿真、网络客流宏观态势仿真以及网络旅客微观出行链仿真。线网运输过程仿真的主要仿真模拟内容如图5所示。
环境搭建:运输网络环境搭建
运输网络环境搭建可根据交通线网拓扑结构和列车时刻表信息实现符合研究需求的时空拓展网络搭建。运输网络包含节点和弧段的主要属性信息,同时可清晰表示运输网络中节点间、弧段间、节点和弧段间的关系。
列车流仿真:列车进出站作业仿真,列车区间追踪运行仿真
列车运行仿真可实现网络中所有列车严格按照列车时刻表中的到发信息和列车运行径路在网络中运行。列车运行的仿真需要列车时刻表信息和列车运行径路,列车运行径路需要以运输网络为基础。
列车区间追踪仿真是以列车运行控制技术为核心实现列车在区间的安全、高效运行。该功能可仿真不同闭塞制式下的列车追踪运行并得到最小追踪列车间隔时间。
客流仿真:网络客流宏观态势仿真,网络旅客微观出行链仿真
该功能以实时客流量为输入,实现实时客流与运输网络、车流的时空匹配,预测当前和未来一段时间内客流在网络中的分布状态。该功能的实现以运输网络环境搭建和运输网络列车流仿真为基础。
根据旅客的出行属性、运输网络特征以及外界信息,通过仿真获取旅客在网络中完整的出行过程,出行过程包括完整的出行信息以及每个出行环节和运输网络、车流的对应关系,根据仿真结果进行出行链评估。
传统
Figure 849563DEST_PATH_IMAGE047
算法在进行值函数拟合过程中,存在过估计的缺陷,即网络逼近得到的动作值函数比真实的动作值函数要大。而
Figure 681121DEST_PATH_IMAGE048
算法可以有效的解决
Figure 809614DEST_PATH_IMAGE047
算法中出现的过估计问题。DDQN算法在轨道交通系统的应用可以进一步优化轨道交通的自主调度策略。在基于深度强化学习对深度强化学习装置进行训练时,其目标是在确保每列车安全和准点的前提下,降低列车自身的能量消耗并减少旅客的候车时间。为简化所研究的列车自主调度过程,便于进行深度强化学习建模,本实施例引入如下假设:
列车运行过程中不考虑空气、弯道、坡道等附加作用力的影响,本实施例将列车看作运行在平直轨道上、且除牵引力之外不受其他外力作用的运动实体。
轨道交通线网中旅客的路径选择服从最短路原则,本实施例根据最短路径原则,将线网
Figure 502764DEST_PATH_IMAGE049
客流量(
Figure 285299DEST_PATH_IMAGE050
,始发地和目的地客流)矩阵预测值在路网上进行分配,从而获得各线路各车站的进站客流量与换入客流量,从而作为基于列车自主调度方案的决策依据。
本实施例以单列列车为研究对象,对每辆列车的运行状态进行属性定义,其属性包括:列车运行的线路信息(列车与前车的实时距离和所在线路车站的实时客流)、车辆自身属性(列车当前载客量、重量、最大牵引力和最大制动力)和实时运行状态(列车的位置、速度、加速度),对于单列列车,
Figure 38492DEST_PATH_IMAGE007
时刻的运行状态
Figure 919860DEST_PATH_IMAGE023
如下式所表示:
Figure 151121DEST_PATH_IMAGE051
其中,
Figure 50813DEST_PATH_IMAGE009
表示列车在
Figure 709328DEST_PATH_IMAGE007
时刻与其前车间的间隔时间;
Figure 77992DEST_PATH_IMAGE010
表示列车根据时刻表到达前方所有车站时,在
Figure 112944DEST_PATH_IMAGE007
时刻所预测的这些车站的单位时间产生的候车客流量向量;
Figure 867142DEST_PATH_IMAGE052
表示列车在
Figure 696558DEST_PATH_IMAGE007
时刻的实时载客量;
Figure 552519DEST_PATH_IMAGE012
表示列车从出发开始、到达目前为止的总运行时间;
Figure 640429DEST_PATH_IMAGE013
表示列车在
Figure 999866DEST_PATH_IMAGE007
时刻所在线路(
Figure 265763DEST_PATH_IMAGE053
编码);
Figure 609019DEST_PATH_IMAGE014
表示列车在所在线路上的里程位置;
Figure 251353DEST_PATH_IMAGE054
表示列车在
Figure 971355DEST_PATH_IMAGE007
时刻的运行速度;
Figure 408152DEST_PATH_IMAGE055
表示列车在
Figure 973126DEST_PATH_IMAGE007
时刻的加速度;
Figure 137260DEST_PATH_IMAGE017
表示列车在
Figure 471289DEST_PATH_IMAGE056
时刻是否在车站停靠(0表示未停靠,1表示停靠)。
Figure 813409DEST_PATH_IMAGE010
中,设
Figure 865678DEST_PATH_IMAGE057
表示列车到达车站
Figure 833503DEST_PATH_IMAGE058
时,
Figure 287618DEST_PATH_IMAGE007
时刻所预测的前方车站
Figure 66218DEST_PATH_IMAGE058
单位时间内产生的候车客流量(包括进站量和换入量),当列车已经过车站
Figure 605784DEST_PATH_IMAGE058
时,
Figure 377300DEST_PATH_IMAGE057
为0。则
Figure 685922DEST_PATH_IMAGE010
Figure 635423DEST_PATH_IMAGE057
关系为
Figure 396706DEST_PATH_IMAGE059
回报函数构建
针对列车,在
Figure 974842DEST_PATH_IMAGE007
时刻的回报函数
Figure 137970DEST_PATH_IMAGE003
在状态
Figure 258373DEST_PATH_IMAGE023
下,采取动作
Figure 756219DEST_PATH_IMAGE022
得到的回报函数
Figure 620270DEST_PATH_IMAGE060
如下所。本实施例将列车运行的回报值设为各种类型运行成本(或惩罚值)的相反数,
Figure 637905DEST_PATH_IMAGE061
其中,
Figure 194788DEST_PATH_IMAGE062
为旅客等待时间成本,
Figure 179930DEST_PATH_IMAGE063
为列车采用动作
Figure 582093DEST_PATH_IMAGE022
的能耗成本,
Figure 454234DEST_PATH_IMAGE064
为列车在状态
Figure 182018DEST_PATH_IMAGE023
下的安全间隔超限成本,
Figure 654457DEST_PATH_IMAGE065
为列车在状态
Figure 860310DEST_PATH_IMAGE023
下的列车准点超限成本。
对于旅客等待时间成本
Figure 852537DEST_PATH_IMAGE062
,首先在
Figure 737841DEST_PATH_IMAGE007
时刻对网络
Figure 182729DEST_PATH_IMAGE066
客流矩阵进行预测。然后,根据客流分配确定列车按照时刻表到达沿线所有站台时的候车客流量
Figure 926694DEST_PATH_IMAGE057
(进站量和换入量),其详细过程如图6所示。因此,
Figure 39006DEST_PATH_IMAGE007
时刻状态下的旅客等待时间成本函数
Figure 92282DEST_PATH_IMAGE067
,如下式所示:
Figure 290045DEST_PATH_IMAGE068
其中,
Figure 837701DEST_PATH_IMAGE069
为单位旅客候车时间所造成的经济成本,
Figure 788208DEST_PATH_IMAGE070
Figure 763118DEST_PATH_IMAGE007
时刻列车与前车实时间隔时间。
Figure 448177DEST_PATH_IMAGE071
代表车站
Figure 799524DEST_PATH_IMAGE058
位于列车运行线路第几个车站。若列车位于列车运行线路第1个车站,则
Figure 870117DEST_PATH_IMAGE071
取值为1,依此类推。
设列车在
Figure 281507DEST_PATH_IMAGE007
时刻状态
Figure 188283DEST_PATH_IMAGE023
下,采取的动作可表示为
Figure 77741DEST_PATH_IMAGE022
;根据列车车型及其自动驾驶系统(
Figure 271350DEST_PATH_IMAGE072
)相关参数,设列车操纵(列车牵引或制动)的工况级位有n个级别,则列车在任意时刻可采取的驾驶工况
Figure 322482DEST_PATH_IMAGE073
可取正整数集合
Figure 716555DEST_PATH_IMAGE074
之内数值;列车在某一驾驶工况
Figure 409704DEST_PATH_IMAGE073
,列车具有特定的牵引或制动加速度。因此,
Figure 454889DEST_PATH_IMAGE022
表示的是列车从
Figure 208082DEST_PATH_IMAGE007
时刻的工况
Figure 89450DEST_PATH_IMAGE073
转移到
Figure 304400DEST_PATH_IMAGE007
+1时刻工况
Figure 954824DEST_PATH_IMAGE075
的状态转移动作,该动作的能耗成本函数
Figure 878918DEST_PATH_IMAGE063
可表示在下式中表示,
Figure 247582DEST_PATH_IMAGE076
其中,
Figure 266222DEST_PATH_IMAGE077
是列车在
Figure 771153DEST_PATH_IMAGE078
时刻列车的牵引功率,
Figure 866148DEST_PATH_IMAGE079
为决策过程离散时段长度,
Figure 722109DEST_PATH_IMAGE019
为单位能耗成本,K为一个极大的正实数(可取
Figure 293509DEST_PATH_IMAGE080
),
Figure 918526DEST_PATH_IMAGE081
为列车转换一次工况所导致损耗的固定经济成本,简称工况转换固定成本,函数
Figure 184422DEST_PATH_IMAGE082
明确了在时刻
Figure 245788DEST_PATH_IMAGE007
列车处于工况
Figure 888122DEST_PATH_IMAGE073
时,基于列车运行稳定性和乘客舒适考虑,是否禁止转换到工况
Figure 367644DEST_PATH_IMAGE083
,若禁止转换
Figure 804442DEST_PATH_IMAGE082
为1,可以转换为0。
当从
Figure 353104DEST_PATH_IMAGE025
时刻到
Figure 267970DEST_PATH_IMAGE025
+1时刻的工况保持不变且列车为加速运动时,该离散时间段内的列车运行能耗为
Figure 867579DEST_PATH_IMAGE084
。当从
Figure 724545DEST_PATH_IMAGE007
时刻到
Figure 776815DEST_PATH_IMAGE007
+1时刻列车的工况发生变化,则列车运行能耗成本可仅仅只有工况转换成本(列车减速或匀速运动)
Figure 495372DEST_PATH_IMAGE085
,或列车牵引能耗和工况转换能耗之和(列车加速运动)
Figure 949487DEST_PATH_IMAGE086
,图7示出了列车运行过程中的能耗成本设置原理。
研究列车在状态
Figure 980285DEST_PATH_IMAGE023
下的安全间隔超限成本
Figure 519851DEST_PATH_IMAGE087
的如下式所示,其中,
Figure 42099DEST_PATH_IMAGE009
为研究列车在
Figure 350720DEST_PATH_IMAGE007
时刻与其前车间的间隔时间,
Figure 549489DEST_PATH_IMAGE088
为列车之间的最小安全间隔时间,
Figure 310772DEST_PATH_IMAGE089
为列车间隔时间超限的单位经济成本系数,K为一个极大的正实数。
Figure 636711DEST_PATH_IMAGE090
列车在追踪运行过程中,安全间隔超限成本设置如图8所示。当列车间距小于等于列车之间的最小安全间隔时间
Figure 799839DEST_PATH_IMAGE088
时,列车运行的安全间隔超限成本为极大值K。而当列车间距大于最小安全间隔时间
Figure 169510DEST_PATH_IMAGE088
时,列车运行的安全间隔超限成本呈现出随冗余间隔
Figure 683667DEST_PATH_IMAGE091
增加逐渐降低的趋势。
研究列车在状态
Figure 547718DEST_PATH_IMAGE023
下的列车准点超限成本
Figure 565353DEST_PATH_IMAGE065
,其计算方法如下式表示。其中,
Figure 371504DEST_PATH_IMAGE012
表示研究列车从出发开始、到达目前为止的总运行时间,
Figure 107379DEST_PATH_IMAGE092
为研究列车到达当前位置允许的最短时间,
Figure 509541DEST_PATH_IMAGE093
为研究列车到达当前位置允许的最长时间,
Figure 647261DEST_PATH_IMAGE094
为列车不准点的单位经济成本系数。
Figure 627243DEST_PATH_IMAGE095
当列车到达车站的时间位于最短时间
Figure 319256DEST_PATH_IMAGE096
和最长时间
Figure 790688DEST_PATH_IMAGE097
之间时,列车的准点成本为0。当列车到达车站的时间早于
Figure 782915DEST_PATH_IMAGE096
时,列车运行准点成本随提前时间
Figure 665289DEST_PATH_IMAGE096
-
Figure 375756DEST_PATH_IMAGE012
线性增加;当列车到达车站的时间晚于
Figure 385301DEST_PATH_IMAGE097
时,则列车运行准点成本同样随滞后时间
Figure 232034DEST_PATH_IMAGE012
-
Figure 550889DEST_PATH_IMAGE097
线性增加。通过这种方式,可将列车到达车站的时间约束在可接受范围内。列车运行的准点成本设置原理如图9示。
初始化仿真模块,也即初始化列车运行状态,利用
Figure 483073DEST_PATH_IMAGE018
策略,探索并搜集仿真模块不断产生的系统状态
Figure 296308DEST_PATH_IMAGE023
、研究列车采取的动作
Figure 263127DEST_PATH_IMAGE022
、根据状态和动作组成的回报函数
Figure 487304DEST_PATH_IMAGE024
以及列车采取动作后达到的状态
Figure 172363DEST_PATH_IMAGE098
。对四者分别去掉时间信息后得到第
Figure 523710DEST_PATH_IMAGE033
个由当前状态
Figure 345035DEST_PATH_IMAGE001
、当前动作
Figure 743043DEST_PATH_IMAGE002
、当前回报R以及后续状态
Figure 649819DEST_PATH_IMAGE004
构成的四元组
Figure 804857DEST_PATH_IMAGE099
其中,
Figure 480689DEST_PATH_IMAGE018
策略可随机产生一个区间[0,1]之内的随机数,若该随机数小于
Figure 46668DEST_PATH_IMAGE019
,则从所有可能的动作中随机选择一个动作,在仿真模块中执行该动作,获取该动作的回报值和下一个状态;若该随机数不小于
Figure 440741DEST_PATH_IMAGE019
,则将当前列车运行状态输入当前值函数神经网络,选择值函数最大的动作
Figure 133890DEST_PATH_IMAGE100
,作为当前采取的动作
Figure 913496DEST_PATH_IMAGE002
Figure 666689DEST_PATH_IMAGE046
中,动作选择与动作评估分别采用不同的值函数神经网络,其中,动作选择采用当前值函数神经网络,而动作评估则采用目标值函数神经网络,如下式所示。其中,
Figure 16898DEST_PATH_IMAGE028
为回报函数的折扣系数,为区间(0,1)之内的正实数。本实施例借助当前值函数神经网络
Figure 763006DEST_PATH_IMAGE029
中的当前参数
Figure 413431DEST_PATH_IMAGE030
选择最优动作,之后通过目标值函数神经网络
Figure 337524DEST_PATH_IMAGE101
中的参数
Figure 706189DEST_PATH_IMAGE102
评估时间差分目标。
Figure 981619DEST_PATH_IMAGE103
训练
Figure 486550DEST_PATH_IMAGE046
的深度学习神经网络时,通常假设训练数据是独立同分布的,但是通过强化学习采集的数据之间存在强关联性,利用这些数据进行顺序训练,神经网络很不稳定。因此,需要利用经验回放的方式从探索的经验集合中选取四元组记录
Figure 581545DEST_PATH_IMAGE104
优先经验回放(
Figure 906347DEST_PATH_IMAGE105
)是一种常用的采样方法。优先经验回放通过赋予学习效率高的样本更大的采样权重,有效提高经验数据的利用效率。优先经验回放所使用的采样权重值是根据时间差分误差来确定的。设样本
Figure 994258DEST_PATH_IMAGE033
处的时间差分误差为
Figure 353695DEST_PATH_IMAGE106
,在样本处的采样概率如下式所示。
Figure 619591DEST_PATH_IMAGE107
Figure 946536DEST_PATH_IMAGE108
为优先回放因子,其取值为0表示不使用优先级经验回放,1表示完全使用优先级经验回放。n为当前经验数据队列的大小,
Figure 323291DEST_PATH_IMAGE109
Figure 802814DEST_PATH_IMAGE110
决定,在实现过程中,我们采用比例型优先经验回放(
Figure 974032DEST_PATH_IMAGE111
)。在下式中,
Figure 788273DEST_PATH_IMAGE112
为防止除零而添加的参数。
Figure 968719DEST_PATH_IMAGE113
当使用优先回放经验的概率分布时,因为经验数据的概率分布与动作值函数的概率分布是两个完全不同的分布,为了弥补这个估计偏差,需要使用重要性采样系数(
Figure 568327DEST_PATH_IMAGE114
),下式定义了重要性采样系数。
Figure 162644DEST_PATH_IMAGE115
其中,N为经验回放队列大小;
Figure 949335DEST_PATH_IMAGE116
为重要性采样补偿系数,其取值为0表示不进行重要性采样补偿偏差,1表示完全使用重要性补偿偏差。
利用值函数神经网络对所研究问题的值函数进行描述。该网络如图10所示,包含输入层、输出层及多层隐藏层,隐藏层的数目可根据实际需要灵活配置,输入为当前状态
Figure 933471DEST_PATH_IMAGE001
,输出为当前所有可能的列车动作值函数
Figure 387586DEST_PATH_IMAGE117
的集合。
Figure 149875DEST_PATH_IMAGE118
为当前第
Figure 423861DEST_PATH_IMAGE033
个可能的列车动作。如前文所述,在
Figure 946110DEST_PATH_IMAGE046
中的值函数网络训练的目标(标签)与
Figure 238419DEST_PATH_IMAGE119
存在很大差异,为当前值函数神经网络所选择的最佳动作在目标值函数神经网络中的评估值
Figure 187921DEST_PATH_IMAGE120
(在训练中进行
Figure 214783DEST_PATH_IMAGE121
编码)。根据值函数值函数神经网络的输出值与评估值,值函数神经网络的损失函数
Figure 275143DEST_PATH_IMAGE122
如下式表示。
Figure 687538DEST_PATH_IMAGE123
设值函数神经网络的参数集合为
Figure 807941DEST_PATH_IMAGE034
,根据值函数神经网络结构,利用链式求导法则获取值函数神经网络的损失函数L对参数集合
Figure 56520DEST_PATH_IMAGE034
的梯度函数
Figure 920571DEST_PATH_IMAGE124
,该梯度函数的具体形式与值函数神经网络结构的层数与结构有关。利用经验回放将训练样本中的时间顺序打乱,则可利用第
Figure 190402DEST_PATH_IMAGE033
个样本更新值函数神经网络参数
Figure 481707DEST_PATH_IMAGE034
,如下式所示。
Figure 217581DEST_PATH_IMAGE125
在采用优先经验回放时,需要对值函数神经网络参数
Figure 134591DEST_PATH_IMAGE034
的更新公式进行修正,修正后的值函数神经网络参数
Figure 272311DEST_PATH_IMAGE034
更新公式如下式所示:
Figure 734516DEST_PATH_IMAGE126
综上所述,考虑优先经验回放的
Figure 957687DEST_PATH_IMAGE046
算法详细流程可参考图11,根据该算法对基于深度强化学习的列车自主调度值函数神经网络进行训练完毕后,即得到训练好的调度决策模型,即可利用调度决策模型进行列车自主调度方案的生成。
仿真模块的准确性对于模型训练非常重要。在数字孪生中,仿真模块与实际轨道交通系统始终保持高度一致,便于利用仿真模拟对实际轨道交通系统状态进行预测和分析。
基于数字孪生的理念,设计了如图12-图13所示的自主调度系统。系统主要包括实时数据采集接口、仿真模块、深度强化学习装置(包括学习型智能体、值函数神经网络、缓存回放记忆器、回报函数单元、数据规则化处理单元)以及调度方案模块。
其中,实时数据采集接口主要从实际轨道交通系统中采集列车运行实时数据,作为仿真模块的数据基础。仿真模块则根据实时采集的实际系统运营数据,对实际轨道交通系统开展仿真模拟。由于基于实际的运行数据进行建模和运行参数标定,仿真模块与实际轨道交通系统之间存在着较高的一致性。这种高一致性体现了数字孪生的理念,便于利用仿真模块对实际轨道交通系统进行预测分析。深度强化学习装置中包含了学习型智能体及其他训练辅助功能,学习型智能体通过与仿真模块进行交互训练,获得列车自主调度决策模型。深度强化学习装置将训练好的列车自主调度决策模型输出到调度方案模块,从而在列车运行过程中自动生成自主调度方案。
实际轨道交通系统中包含有列车运行状态、沿线设施设备状态、车站/枢纽进出站客流量和车站/枢纽客流聚集状态;实时数据采集接口主要从实际轨道交通系统中采集实时列车设备监测数据、实时车站客流聚集数据、实时车站进出站流量。其中,列车设备状态数据用于为设施设备的故障过程对列车运行影响的仿真模拟提供基础,实时车站客流聚集数据为客流态势的仿真提供数据支撑,实时列车运行实绩则将实际的列车运行状况(包括位置、速度、加速度、与其他车之间位置关系及时刻表等信息)传递给仿真模块进行列车运行仿真。
仿真模块是整个列车自主调度系统的重要支撑,主要是对实际轨道交通系统状态进行模拟等。其中,系统综合数据库存储有历史数据、实时数据、设备数据、模型数据、地理信息数据和线网三维模型。系统将设施设备、列车与旅客看成具有独立行为和属性的智能体。设施设备是整个轨道交通系统运营的基础,设施设备状态演化仿真实现了设施设备故障对列车运行情况的模拟,包括车、机、电、工、系统设施设备等行为功能仿真和车、机、电、工、系统设施设备等行为状态仿真,以便于开展复杂运营场景下的列车调度模型训练。列车动态运行仿真实现了列车运行时刻表、列车动力学以及驾驶控制过程等的仿真。车站/枢纽交通客流仿真则实现了客流进出站、站台客流量、线路宏观客流等过程的仿真模拟。仿真模块的详细设计见后文。
深度强化学习装置的核心是学习型智能体,其能够通过与仿真模块进行虚拟交互训练,实现列车自主调度模型的不断训练和完善。为便于开展深度强化学习训练,其详细构成和设计将在后文进行阐述。
调度方案模块主要包括列车自主调度方案生成模块以及列车自主调度方案传输模块。基于深度强化学习装置训练完成的列车自主调度模型,列车自主调度方案生成模块生成实时的列车自主调度方案,列车自主调度方案传输模块将调度方案传输到实际轨道交通系统中实施运行调度,在保证列车运行安全性和准点性的前提下,降低列车运行能耗和旅客等待时间。
在列车自主调度系统主要工作流程中,首先,由实时数据采集接口从实际轨道交通系统中采集列车运行实时数据,作为仿真模块的数据基础,以保证仿真模块与实际轨道交通系统的高度一致性。其次,利用仿真模块与深度强化学习装置进行不断交互训练,不断提升列车自主调度模型的决策能力。同时也可利用仿真模块对训练好的列车自主调度模型进行评估。最后将深度强化学习装置训练好的模型输出给调度方案模块,调度方案模块基于列车自主调度方案决策模型所生成的调度方案传输到实际轨道交通系统进行调度方案的落实。
另外,与传统的集中式调度机制不同,本实施例所提出的智能调度方法和系统主要基于列车的自主调度模式进行。列车自主调度分布式实施架构如图14所示。在自主调度模式下,列车的调度由各列车的自主调度智能体负责完成。每个车载自主调度智能体为一套基于数字孪生的列车自主调度系统,该系统具备调度算法的自主进化能力。在自主调度分布式实施架构中,原有集中式调度的中心功能被进一步弱化,仅承担全局信息共享功能。全局信息共享服务整合轨道线网范围内的运输方案、设施设备状态、车站/枢纽客流状态、运行环境、故障与应急以及旅客服务等多种信息,形成信息共享资源池,并共享给轨道交通线网范围内的所有列车作为数字孪生仿真模型完善和训练的基础。在线路范围内,多列车之间还可通过车联网进行实时信息的交互,进一步提升线路范围内局部信息的实时性和准确性。
另外,数据采集接口不仅仅将采集的数据发送至仿真模块,还直接将数据发送至深度强化学习装置,深度强化学习装置基于数据采集接口发送过来的实时数据进行离线训练,并且离线训练、深度强化学习装置与仿真模块之间的虚拟交互训练同步进行,实现列车自主调度模型的不断进化。
数据采集接口内还包括实时系统运输态势预测模块,仿真模块将与深度强化学习装置交互得到的新的列车运行状态发送至实时系统运输态势预测模块,经实时系统运输态势预测模块预测,将预测得到的结果发送至实际轨道交通系统。
仿真模块是列车自主调度系统的重要支撑,其主要是由仿真引擎、轨道交通系统仿真内核、仿真数据采集与监测单元、列车调度方案仿真实现接口、技术指标统计与评价单元、调度策略回报评价单元以及三维展示单元等构成。仿真模块详细结构如图15-图16所示。为了说明仿真模块与深度强化学习装置的关系,图15-图16中也包括了深度强化学习装置及二者之间的交互接口和关系。
其中,仿真引擎是仿真模块运行的底层支撑,主要包括仿真模块运行控制、界面交互和基础数据。仿真模块运行控制主要包括系统运行时的一些资源配置、通信管理、节奏控制以及场景带入,制定仿真模块运行的运行标准。界面交互主要是进行参数调整、事件输入以及系统编辑,主要由仿真人员进行控制。基础数据包括复合网络三维模型数据、复合网络拓扑数据、设施设备属性数据、评价与分析场景数据和宏观实时客流需求数据。
轨道交通系统仿真内核主要包括运输与客流运行演化仿真模块和设施设备状态演化仿真模块两个部分,两部分之间存在频繁的交互作用,在仿真运行过程中不断相互影响,以模拟实际轨道交通系统运行过程。运输与客流运行演化仿真主要是针对列车运行、实时客流和车站进行的仿真,包括网络客流宏观态势仿真、枢纽内部客流仿真、个体微观出行链仿真、列车追踪运行仿真、列车运行时刻表仿真和列车停站及乘降仿真。设施设备状态演化仿真模块主要包括列车、机、电、工、系统设施全局功能行为仿真以及状态演化过程。
仿真数据采集与监测单元,是对轨道交通系统仿真内核中模拟的“轨道交通系统”进行全方位的数据采集,监测列车运行状态、旅客出行链、设施设备状态和车站/枢纽客流,将采集的数据进行汇集,以支撑技术指标统计与评价及调度策略回报评价功能,并作为深度强化学习装置的训练数据支撑。
列车调度方案仿真实现接口承接深度强化学习装置中学习型智能体所探索的调度方案,并将调度方案在轨道交通系统仿真内核中予以实施。
技术指标统计与评价单元则根据数据采集与监测单元所提供的仿真内核中模拟的“轨道交通系统”运行状态数据,对列车正点率、运行安全性、列车运行能耗和旅客候车时间等技术指标进行统计和评价。
列车调度策略回报评价单元,根据列车调度方案仿真实现接口所注入的列车调度方案在仿真模块中的实施结构,从数据采集与监测单元中提取相关数据,开展列车调度方案的正点回报、安全回报、能耗回报及旅客等待时间回报的计算,这里计算得到的回报进入深度强化学习装置中的回报函数计算单元再次进行计算,即得到列车准点超限成本、安全间隔超限成本、能耗成本和旅客等待时间成本。
三维展示单元则直接与仿真引擎、轨道交通仿真内核相连,通过三维模型,实时展示设施设备状态及行为、车站/枢纽内部客流/旅客行为和列车运行过程三维仿真,方便研究人员能够直观地对仿真过程进行观察和分析。
仿真模块的构建和运行过程离不开仿真引擎的支撑,仿真模块可将Anylogic等仿真软件作为平台基础,在软件平台的基础上,为了实现包含轨道交通系统模拟仿真,仿真引擎需要具备复合网络、客流、设施设备属性等大量基础数据的输入和管理功能,同时,仿真模块各功能之间的通信管理、资源调度等机制也需要在仿真运行控制中予以明确,仿真引擎还需要提供友好便捷的交互界面,便于研究人员进行仿真模型编辑修改。
轨道交通系统仿真内核主要是对实际轨道交通系统运行状况的模拟,如列车运行过程、设施设备功能与状态演化、旅客微观出行链、宏观客流态势、车站或枢纽内部客流组织等。其中,设施设备状态与功能的仿真,是运输与客流仿真的基础,决定了轨道交通系统的功能发挥,运输与客流状态则会反过来影响设施设备的负荷度,从而影响其状态和功能。可以说,二者在仿真过程中存在相互影响、相互制约的关系。
在仿真过程中,针对轨道交通系统仿真内核中模拟的“轨道交通系统”运行状态,由数据采集与监测单元进行全方位的数据采集,将数据进行汇集之后,一方面支撑技术指标统计评价与调度策略回报评价,另一方面可作为深度强化学习装置中学习型智能体的训练输入。仿真模块中的这一过程称为:数据采集、指标与回报评价及列车自主调度模型训练过程,构成了仿真系统中“数据采集-数据汇集-指标与回报评价-自主调度模型训练”的“上行回路”。
仿真模块中,由数据采集-数据汇集-指标与回报评价-自主调度模型训练构成了“上行回路”。同时,由深度强化学习装置中学习型智能体、调度方案模块和列车调度方案仿真实现接口,则构成了仿真模块的“下行回路”。调度方案实现控制接口是仿真模块“下行回路”的核心,其主要任务是将深度强化学习所探索的列车调度方案输入仿真模块中,并开展相应的运行效果评估与分析。
仿真模块的“上行回路”与“下行回路”构成了整个深度强化学习自主调度模型仿真训练的框架。首先,数据采集与监测单元可为深度强化学习列车调度模型的训练提供训练数据输入,便于其更加深入地识别轨道交通运输态势,从而开展具有针对性的调度方案决策。其次,将深度强化学习所探索的列车调度方案输入仿真模块实施落实,并对其在仿真模块中的实施效果进行仿真模拟。最后,仿真数据采集与监测单元通过采集仿真模块中“轨道交通系统”的运行情况数据,开展列车调度方案的回报评价,可得到列车调度方案的回报反馈信号,从而支撑列车自主调度模型的迭代循环训练和优化演进。
深度强化学习装置是整个列车自主调度系统的核心。其主要包括学习型智能体、值函数神经网络、缓存回放记忆器、回报函数单元、数据规则化处理单元及数据传输单元六个部分。其中,深度强化学习装置的核心是学习型智能体。
在值函数神经网络的训练过程中,学习型智能体首先在仿真模块中进行探索,并将从仿真数据采集与监测单元所采集的数据集(包括当前状态
Figure 412808DEST_PATH_IMAGE001
、当前动作
Figure 405035DEST_PATH_IMAGE002
、当前回报R以及后续状态
Figure 772562DEST_PATH_IMAGE004
)数据进行规则化处理操作,并将规则化后的数据自动导入到缓存回放记忆器中。从缓存回放器中随机抽取数据进行值函数神经网络的训练,判断值函数神经网络参数是否达到预定条件,若值函数神经网络参数达到预定条件,停止更新值函数神经网络参数,若值函数神经网络参数未达到预定条件,继续更新值函数神经网络参数,从而提升学习型智能体的决策能力。后续智能体将在更新后的神经网络值函数下,进行新一轮的探索、数据采集和训练,从而实现不断优化自身决策能力的过程。在这个过程中,学习型智能体和仿真模块之间的通讯框架设置能够促进学习型智能体和仿真模块之间的状态、行动和收益的通讯。
学习型智能体能够通过与仿真模块进行交互,从而实现列车自主调度算法的训练。学习型智能体的演化过程及采用什么动作,与最终的训练目标有关。也就是说当前采用什么动作,可以使得整个任务序列达到最优。而如何使整个任务序列达到最优,就需要学习型智能体不断地与仿真模块交互,不断尝试,因为学习型智能体刚开始也不知道在当前状态下哪个动作有利于实现目标。在本实施例中,学习型智能体的目标,是在保证列车运行安全和准点的情况下,降低列车运行能耗和旅客的等待时间,从而在提升用户体验的同时,降低运营单位成本。
值函数神经网络是深度强化学习的重要组成部分,是对值函数进行拟合的重要手段,用于选择n个四元组
Figure 732297DEST_PATH_IMAGE006
,计算所述n个四元组
Figure 741841DEST_PATH_IMAGE006
的梯度值,利用梯度值更新值函数神经网络参数。深度强化学习即是深度学习与强化学习相结合的产物。在深度强化学习装置中,值函数神经网络用于存储值函数神经网络结构及相关参数状态。学习型智能体所学到的有效表示,都存储在值函数的值函数神经网络中。
训练值函数的值函数神经网络时,前提假设是训练数据是独立同分布的,但是通过强化学习采集的数据之间存在着关联性,利用这些数据进行顺序训练,值函数神经网络存在不稳定性。因此,学习型智能体可将观测到的数据存储在缓存回放记忆器的数据库中,在训练时从缓存回放记忆器中利用随机采样的方法抽取数据,然后利用抽取的数据训练值函数神经网络。这种方式打破了数据之间存在的关联性,有效提升值函数神经网络的稳定性和描述能力。
回报函数单元明确了深度强化学习中学习型智能体所需要完成的具体任务。所以,强化学习所学到的最优策略是与具体的任务相对应的,回报函数单元的设置也决定了学习型智能体的具体行为和决策模式。在本实施例中,回报函数单元包括旅客等待时间成本、列车采用动作的能耗成本、安全间隔超限成本以及准点超限成本计算工程,最终得到总回报
Figure 588575DEST_PATH_IMAGE003
,该回报函数单元明确了学习型智能体的训练目标是在保证列车运行安全性和准点性的情况下,降低列车的运行能耗和旅客等待时间。
在深度强化学习中,数据规则化处理单元主要是对输入训练数据进行规则化处理。由于值函数深度学习网络要求将输入变量进行/规则化(数据取值和维度满足某一要求),因此需要对输入数据进行规则化处理(包括对数据进行标准化、降维、补全等操作),从而提升值函数神经网络的训练和描述效果。
另外,在整个深度强化学习装置中,各功能单元之间需要进行实时的通信。因此,数据传输单元可满足学习型智能体与仿真模块之间,学习型智能体与缓存回放记忆器、深度强化学习与回报函数单元等单元之间的实时通信。在数据传输单元的保障下,学习型智能体能够通过与仿真模块进行高效交互,同时进行实时训练和数据参数存储,从而实现列车自主调度模型的不断训练和演化完善。
在基于数字孪生的列车自主调度系统中,基于深度强化学习的列车自主调度模型是深度强化学习装置的训练目标,是该系统的核心。列车自主调度模型的训练过程主要基于仿真模块与深度强化学习装置的动态交互。在模型训练过程中,首先需要对列车运行过程进行仿真建模或对实际轨道交通系统列车运行过程进行监测,实时采集列车运行过程中与调度决策相关的运行状态数据,作为列车自主调度模型的决策基础。
列车运行状态数据主要包括列车编号、列车距前车距离、前方车站候车人数、列车载客量、总运行时间、列车所在线路、列车运行里程、列车运行速度、列车加速度以及列车是否在站停靠等详细信息。这些数据主要来源于仿真模块或实际轨道交通系统的列车运行数据,并经过深度强化学习装置中的规则化处理单元进行预处理。
列车自主调度模型的回报函数相关数据,用于描述列车自主调度模型的训练目标,由深度强化学习装置中的回报函数单元进行计算、存储与管理。列车自主调度回报函数相关数据包括旅客等待时间成本、列车采用动作的能耗成本、安全间隔超限成本以及准点超限成本几种类型。这些数据来源于仿真模块中的调度方案回报评价功能模块进行数据汇集和初步计算,并由深度强化学习装置中的回报函数单元进行最终计算。
列车自主调度模型相关数据主要用于存储基于深度强化学习的值函数神经网络相关的训练数据及模型参数集合。如前文所述,用于训练值函数神经网络的输入数据为一种四元组数据集,是由系统当前状态、所采取行动、总回报值以及下一步状态所构成的数据集合。值函数神经网络参数集合则用于动态存储训练过程中的模型参数取值,是模型进行自主调度决策方案生成的关键。由于所提出的基于数字孪生的列车自主调度系统中,列车自主调度模型存在不断优化的过程,因此所存储的模型参数也是动态更新的。
尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (13)

1.一种列车自主调度深度强化学习方法,其特征在于,
基于轨道交通数据,以列车运行状态
Figure 154599DEST_PATH_IMAGE001
、列车动作
Figure 839789DEST_PATH_IMAGE002
、根据列车运行状态
Figure 364311DEST_PATH_IMAGE001
和列车动作
Figure 649799DEST_PATH_IMAGE002
组成的回报
Figure 462510DEST_PATH_IMAGE003
、采取动作后达到的后续状态
Figure 251474DEST_PATH_IMAGE004
建立N个单列列车四元组
Figure 212477DEST_PATH_IMAGE005
选择n个四元组
Figure 985261DEST_PATH_IMAGE005
,计算所述n个四元组
Figure 339013DEST_PATH_IMAGE005
的梯度值,利用梯度值更新值函数神经网络参数;
判断值函数神经网络参数是否达到预定条件,若值函数神经网络参数达到预定条件,停止更新值函数神经网络参数,若值函数神经网络参数未达到预定条件,重新选择n个四元组
Figure 513642DEST_PATH_IMAGE005
,继续更新值函数神经网络参数;
基于旅客等待时间成本、列车采用动作
Figure 379967DEST_PATH_IMAGE006
的能耗成本、列车在状态
Figure 125201DEST_PATH_IMAGE007
下的安全间隔超限成本和列车在状态
Figure 735173DEST_PATH_IMAGE007
下的准点超限成本获取
Figure 29889DEST_PATH_IMAGE008
时刻回报
Figure 67115DEST_PATH_IMAGE009
基于单位旅客候车时间成本、列车与前车实时间隔时间、列车位于运行线路第几个车站、候车客流量获取旅客等待时间成本;
对于旅客等待时间成本
Figure 299644DEST_PATH_IMAGE010
,首先在
Figure 713308DEST_PATH_IMAGE008
时刻对网络OD客流矩阵进行预测,然后,根据客流分配确定列车按照时刻表到达沿线所有站台时的候车客流量
Figure 596950DEST_PATH_IMAGE011
Figure 70657DEST_PATH_IMAGE011
表示进站量和换入量,因此,
Figure 793412DEST_PATH_IMAGE008
时刻状态下的旅客等待时间成本函数
Figure 745188DEST_PATH_IMAGE010
,如下式所示:
Figure 748916DEST_PATH_IMAGE012
其中,
Figure 393524DEST_PATH_IMAGE013
为单位旅客候车时间所造成的经济成本,
Figure 397383DEST_PATH_IMAGE014
Figure 152849DEST_PATH_IMAGE008
时刻列车与前车实时间隔时间,
Figure 479925DEST_PATH_IMAGE015
代表车站
Figure 46167DEST_PATH_IMAGE016
位于列车运行线路第几个车站,若列车位于列车运行线路第1个车站,
Figure 989852DEST_PATH_IMAGE015
则取值为1,依此类推。
2.根据权利要求1所述的列车自主调度深度强化学习方法,其特征在于,所述列车运行状态
Figure 549010DEST_PATH_IMAGE001
Figure 809221DEST_PATH_IMAGE008
时刻具体包括:
Figure 530052DEST_PATH_IMAGE017
Figure 961033DEST_PATH_IMAGE018
为列车在
Figure 58302DEST_PATH_IMAGE008
时刻与其前车间的间隔时间,
Figure 638932DEST_PATH_IMAGE019
为列车根据时刻表到达前方所有车站时,在
Figure 265085DEST_PATH_IMAGE008
时刻所预测的这些车站的单位时间产生的候车客流量向量,
Figure 183363DEST_PATH_IMAGE020
为列车在
Figure 84323DEST_PATH_IMAGE008
时刻的实时载客量,
Figure 256809DEST_PATH_IMAGE021
为列车从出发开始到达目前为止的运行时间,
Figure 381760DEST_PATH_IMAGE022
为列车
Figure 521754DEST_PATH_IMAGE008
时刻所在线路,
Figure 977138DEST_PATH_IMAGE023
为列车在所在线路上的里程位置,
Figure 253398DEST_PATH_IMAGE024
为列车在
Figure 752513DEST_PATH_IMAGE008
时刻的运行速度,
Figure 927273DEST_PATH_IMAGE025
为列车在
Figure 170036DEST_PATH_IMAGE008
时刻的加速度,
Figure 566382DEST_PATH_IMAGE026
为列车在
Figure 236398DEST_PATH_IMAGE008
时刻是否在车站停靠。
3.根据权利要求1所述的列车自主调度深度强化学习方法,其特征在于,基于
Figure 827348DEST_PATH_IMAGE027
策略生成列车动作
Figure 608222DEST_PATH_IMAGE002
,具体包括以下步骤:
初始化列车运行状态;
确定
Figure 124654DEST_PATH_IMAGE028
数值;
产生一个区间[0,1]之内的随机数;
若该随机数小于
Figure 513042DEST_PATH_IMAGE028
,则从所有可能的动作中随机选择一个动作;
若该随机数大于等于
Figure 114924DEST_PATH_IMAGE028
,则将当前列车运行状态
Figure 433910DEST_PATH_IMAGE029
输入值函数神经网络,选择值函数最大的动作
Figure 804849DEST_PATH_IMAGE030
,作为当前采取的动作
Figure 567399DEST_PATH_IMAGE002
4.根据权利要求1所述的列车自主调度深度强化学习方法,其特征在于,基于列车
Figure 390999DEST_PATH_IMAGE008
时刻牵引功率、决策过程离散时间长度、单位能耗成本、工况转换固定成本获取列车采用动作
Figure 779255DEST_PATH_IMAGE006
的能耗成本。
5.根据权利要求1所述的列车自主调度深度强化学习方法,其特征在于,基于列车间隔时间超限的单位经济成本系数、列车在
Figure 4700DEST_PATH_IMAGE008
时刻与其前车间的间隔时间和列车之间的最小安全间隔时间获取安全间隔超限成本。
6.根据权利要求1所述的列车自主调度深度强化学习方法,其特征在于,基于目前为止的总运行时间、列车到达当前位置允许的最短时间、列车到达当前位置允许的最长时间和列车不准点的单位经济成本系数获取准点超限成本。
7.根据权利要求1-3中任一项所述的列车自主调度深度强化学习方法,其特征在于,存储建立后的N个单列列车四元组
Figure 734890DEST_PATH_IMAGE005
8.根据权利要求1-3中任一项所述的列车自主调度深度强化学习方法,其特征在于,随机选择n个四元组
Figure 45785DEST_PATH_IMAGE005
,计算所述n个四元组
Figure 972153DEST_PATH_IMAGE005
的梯度值,利用梯度值更新值函数神经网络参数。
9.根据权利要求8所述的列车自主调度深度强化学习方法,其特征在于,所述选择n个四元组
Figure 596645DEST_PATH_IMAGE005
,计算所述n个四元组
Figure 215845DEST_PATH_IMAGE005
的梯度值,利用梯度值更新值函数神经网络参数具体包括:
将列车状态
Figure 14037DEST_PATH_IMAGE001
输入目标值函数神经网络
Figure 494828DEST_PATH_IMAGE031
,计算时间差分目标:
Figure 429286DEST_PATH_IMAGE032
Figure 219387DEST_PATH_IMAGE033
为回报函数的折扣系数,
Figure 504875DEST_PATH_IMAGE034
表示当前值函数神经网络,
Figure 523778DEST_PATH_IMAGE035
为当前值函数神经网络参数,
Figure 578321DEST_PATH_IMAGE036
为目标值函数神经网络参数,
计算损失函数:
Figure 539324DEST_PATH_IMAGE037
利用第
Figure 780950DEST_PATH_IMAGE038
个四元组更新参数
Figure 603543DEST_PATH_IMAGE039
Figure 778173DEST_PATH_IMAGE040
10.根据权利要求9所述的列车自主调度深度强化学习方法,其特征在于,基于优先经验回放机制选择n个四元组
Figure 644498DEST_PATH_IMAGE005
,则
Figure 904578DEST_PATH_IMAGE041
其中,
Figure 64950DEST_PATH_IMAGE042
为梯度下降步长,
Figure 94086DEST_PATH_IMAGE043
Figure 131312DEST_PATH_IMAGE044
为重要性采样系数,
Figure 629421DEST_PATH_IMAGE045
Figure 43085DEST_PATH_IMAGE046
为重要性采样补偿系数,
Figure 661148DEST_PATH_IMAGE047
为采样概率
Figure 134854DEST_PATH_IMAGE048
Figure 854680DEST_PATH_IMAGE049
为防止除零而添加的参数。
11.根据权利要求1-3中任一项所述的列车自主调度深度强化学习方法,其特征在于,建立N个单列列车四元组
Figure 806455DEST_PATH_IMAGE005
后,对N个单列列车四元组
Figure 810183DEST_PATH_IMAGE005
进行规则化处理。
12.一种列车自主调度深度强化学习装置,其特征在于,包括:
学习型智能体,用于探索轨道交通数据,以列车运行状态
Figure 189212DEST_PATH_IMAGE029
、列车动作
Figure 396334DEST_PATH_IMAGE002
、根据状态和动作组成的回报
Figure 151800DEST_PATH_IMAGE003
、采取动作后达到的后续状态
Figure 10035DEST_PATH_IMAGE004
建立的N个单列列车四元组
Figure 825544DEST_PATH_IMAGE005
;用于判断值函数神经网络参数是否达到预定条件,若值函数神经网络参数达到预定条件,停止更新值函数神经网络参数,若值函数神经网络参数未达到预定条件,继续更新值函数神经网络参数;
值函数神经网络,用于选择n个四元组
Figure 313770DEST_PATH_IMAGE005
,计算所述n个四元组
Figure 607348DEST_PATH_IMAGE005
的梯度值,利用梯度值更新值函数神经网络参数;
回报函数单元,用于基于旅客等待时间成本、列车采用动作
Figure 320089DEST_PATH_IMAGE006
的能耗成本、列车在状态
Figure 57232DEST_PATH_IMAGE007
下的安全间隔超限成本和列车在状态
Figure 488213DEST_PATH_IMAGE007
下的准点超限成本获取
Figure 319903DEST_PATH_IMAGE008
时刻回报
Figure 887150DEST_PATH_IMAGE009
基于单位旅客候车时间成本、列车与前车实时间隔时间、列车位于运行线路第几个车站、候车客流量获取旅客等待时间成本;
对于旅客等待时间成本
Figure 795195DEST_PATH_IMAGE010
,首先在
Figure 713472DEST_PATH_IMAGE008
时刻对网络
Figure 145591DEST_PATH_IMAGE050
客流矩阵进行预测,然后,根据客流分配确定列车按照时刻表到达沿线所有站台时的候车客流量
Figure 36186DEST_PATH_IMAGE011
Figure 115132DEST_PATH_IMAGE011
表示进站量和换入量,因此,
Figure 255126DEST_PATH_IMAGE008
时刻状态下的旅客等待时间成本函数
Figure 959777DEST_PATH_IMAGE010
,如下式所示:
Figure 501617DEST_PATH_IMAGE051
其中,
Figure 562850DEST_PATH_IMAGE013
为单位旅客候车时间所造成的经济成本,
Figure 190140DEST_PATH_IMAGE014
Figure 167323DEST_PATH_IMAGE008
时刻列车与前车实时间隔时间,
Figure 314402DEST_PATH_IMAGE015
代表车站
Figure 781155DEST_PATH_IMAGE016
位于列车运行线路第几个车站,若列车位于列车运行线路第1个车站,则
Figure 895742DEST_PATH_IMAGE015
取值为1,依此类推。
13.根据权利要求12所述的列车自主调度深度强化学习装置,其特征在于,还包括:
数据规则化处理单元,用于对四元组
Figure 161769DEST_PATH_IMAGE005
进行规则化处理;
缓存回放记忆器,用于存储经规则化处理后的四元组
Figure 678201DEST_PATH_IMAGE005
数据传输单元,用于建立深度强化学习装置内部实时通信。
CN202010481727.1A 2020-06-01 2020-06-01 一种列车自主调度深度强化学习方法和装置 Active CN111369181B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010481727.1A CN111369181B (zh) 2020-06-01 2020-06-01 一种列车自主调度深度强化学习方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010481727.1A CN111369181B (zh) 2020-06-01 2020-06-01 一种列车自主调度深度强化学习方法和装置

Publications (2)

Publication Number Publication Date
CN111369181A CN111369181A (zh) 2020-07-03
CN111369181B true CN111369181B (zh) 2020-09-29

Family

ID=71212271

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010481727.1A Active CN111369181B (zh) 2020-06-01 2020-06-01 一种列车自主调度深度强化学习方法和装置

Country Status (1)

Country Link
CN (1) CN111369181B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112035251B (zh) * 2020-07-14 2023-09-26 中科院计算所西部高等技术研究院 基于强化学习作业布局的深度学习训练系统及方法
CN112116156B (zh) * 2020-09-18 2023-02-03 中南大学 基于深度强化学习的混动列车的能量管理方法及系统
CN112002179B (zh) * 2020-10-28 2021-01-26 成都运达科技股份有限公司 一种基于异地分布的轨道交通多工种联动控制方法及系统
CN112529727A (zh) * 2020-11-06 2021-03-19 台州宏远电力设计院有限公司 基于深度强化学习的微电网储能调度方法及装置及设备
CN112561104A (zh) * 2020-12-10 2021-03-26 武汉科技大学 基于强化学习的车辆共享服务订单派遣方法及系统
CN113537603B (zh) * 2021-07-21 2022-02-01 北京交通大学 一种高速列车智能调度控制方法和系统
CN113525462B (zh) * 2021-08-06 2022-06-28 中国科学院自动化研究所 延误情况下的时刻表调整方法、装置和电子设备
CN113759841B (zh) * 2021-08-26 2024-01-12 山东师范大学 一种多目标优化的机床柔性车间调度方法及系统
CN113917851A (zh) * 2021-09-16 2022-01-11 北京天玛智控科技股份有限公司 一种基于数字孪生的虚拟测试环境搭建方法
CN113788050B (zh) * 2021-10-12 2022-09-23 北京城建设计发展集团股份有限公司 一种轨道交通行车指挥系统及二三维数据呈现方法
EP4166419A1 (en) * 2021-10-18 2023-04-19 Tata Consultancy Services Limited System and method for railway network access planning
CN114202316A (zh) * 2021-12-17 2022-03-18 南京理工大学 基于深度强化学习的城市轨道交通列车时刻表优化方法
CN114338497B (zh) * 2021-12-24 2022-10-11 中南大学 基于在线强化学习的列车车队数据路由系统及方法
CN114707410A (zh) * 2022-04-02 2022-07-05 郑州铁路职业技术学院 具有强化补偿能力的铁路轨道高低不平顺诊断方法及系统
CN115291508B (zh) * 2022-06-16 2023-08-29 扬州大学 一种基于分布式深度强化学习的动态公交控制系统及方法
CN115352502B (zh) * 2022-08-30 2023-11-24 东南大学 一种列车运行方案调整方法、装置、电子设备及存储介质
CN115170006B (zh) * 2022-09-08 2022-11-29 南方科技大学 发车调度方法、装置、设备和存储介质
CN116443080B (zh) * 2023-05-05 2023-12-29 北京交通大学 一种轨道交通行车调度指挥方法、系统、设备及介质
CN116506309B (zh) * 2023-06-27 2023-09-08 新唐信通(浙江)科技有限公司 一种车载atp通信信号综合监测系统及方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102109821A (zh) * 2010-12-30 2011-06-29 中国科学院自动化研究所 车辆自适应巡航控制系统及方法
CN102929281A (zh) * 2012-11-05 2013-02-13 西南科技大学 一种不完全感知环境下的机器人kNN路径规划方法
CN106802553A (zh) * 2017-01-13 2017-06-06 清华大学 一种基于强化学习的铁路机车运行操控系统混合任务调度方法
CN107194612A (zh) * 2017-06-20 2017-09-22 清华大学 一种基于深度强化学习的列车运行调度方法及系统
WO2018212918A1 (en) * 2017-05-18 2018-11-22 Microsoft Technology Licensing, Llc Hybrid reward architecture for reinforcement learning
CN109514553A (zh) * 2018-11-21 2019-03-26 苏州大学 一种机器人移动控制的方法、系统及设备
CN109657845A (zh) * 2018-11-29 2019-04-19 河海大学 一种针对时变客流的城市轨道交通列车时刻表优化系统
CN110766298A (zh) * 2019-10-10 2020-02-07 北京全路通信信号研究设计院集团有限公司 一种多制式多业务轨道交通仿真模拟方法及系统
CN110969848A (zh) * 2019-11-26 2020-04-07 武汉理工大学 一种对向双车道下基于强化学习的自动驾驶超车决策方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102109821A (zh) * 2010-12-30 2011-06-29 中国科学院自动化研究所 车辆自适应巡航控制系统及方法
CN102929281A (zh) * 2012-11-05 2013-02-13 西南科技大学 一种不完全感知环境下的机器人kNN路径规划方法
CN106802553A (zh) * 2017-01-13 2017-06-06 清华大学 一种基于强化学习的铁路机车运行操控系统混合任务调度方法
WO2018212918A1 (en) * 2017-05-18 2018-11-22 Microsoft Technology Licensing, Llc Hybrid reward architecture for reinforcement learning
CN107194612A (zh) * 2017-06-20 2017-09-22 清华大学 一种基于深度强化学习的列车运行调度方法及系统
CN109514553A (zh) * 2018-11-21 2019-03-26 苏州大学 一种机器人移动控制的方法、系统及设备
CN109657845A (zh) * 2018-11-29 2019-04-19 河海大学 一种针对时变客流的城市轨道交通列车时刻表优化系统
CN110766298A (zh) * 2019-10-10 2020-02-07 北京全路通信信号研究设计院集团有限公司 一种多制式多业务轨道交通仿真模拟方法及系统
CN110969848A (zh) * 2019-11-26 2020-04-07 武汉理工大学 一种对向双车道下基于强化学习的自动驾驶超车决策方法

Also Published As

Publication number Publication date
CN111369181A (zh) 2020-07-03

Similar Documents

Publication Publication Date Title
CN111369181B (zh) 一种列车自主调度深度强化学习方法和装置
CN111376954B (zh) 一种列车自主调度方法和系统
CN109740839B (zh) 一种突发事件下的列车动态调整方法及系统
Cao et al. Application of fuzzy predictive control technology in automatic train operation
WO2021068602A1 (zh) 一种多制式多业务轨道交通仿真模拟方法及系统
Yang et al. Collaborative optimization for train scheduling and train stop planning on high-speed railways
CN111619624B (zh) 一种基于深度强化学习的有轨电车运行控制方法和系统
Huang et al. Saving energy and improving service quality: Bicriteria train scheduling in urban rail transit systems
CN109508751B (zh) 高速铁路列车晚点时间预测的深度神经网络模型建模方法
Dakic et al. On the design of an optimal flexible bus dispatching system with modular bus units: Using the three-dimensional macroscopic fundamental diagram
CN110222924B (zh) 多方式的城市轨道交通车站客流控制系统及控制方法
CN114312926B (zh) 一种城市轨道交通列车运行调整方案优化方法和系统
Li et al. Train timetabling with the general learning environment and multi-agent deep reinforcement learning
Li et al. A little bit flexibility on headway distribution is enough: Data-driven optimization of subway regenerative energy
Li et al. Comprehensive optimization of a metro timetable considering passenger waiting time and energy efficiency
CN116513273A (zh) 基于深度强化学习的列车运行调度优化方法
Zhang et al. Coupling analysis of passenger and train flows for a large-scale urban rail transit system
CN114004452A (zh) 城轨调度方法、装置、电子设备及存储介质
CN109118412B (zh) 城市轨道交通网络客流在线控制系统
Wang et al. A simulation-based metro train scheduling optimization incorporating multimodal coordination and flexible routing plans
Liang et al. Research on automatic train operation performance optimization of high speed railway based on asynchronous advantage actor-critic
CN115352502A (zh) 一种列车运行方案调整方法、装置、电子设备及存储介质
CN114021291A (zh) 一种城市轨道交通线网限流方案仿真评价建模方法
Rao et al. Potential railway benefits according to enhanced cooperation between traffic management and automatic train operation
Yang et al. A parallel intelligent system for optimizing high-speed railway rescheduling by learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant