CN114004452A

CN114004452A - 城轨调度方法、装置、电子设备及存储介质

Info

Publication number: CN114004452A
Application number: CN202111145795.1A
Authority: CN
Inventors: 卫亮; 白祎阳; 马苗苗; 赵国志; 贾琛
Original assignee: CRSC Urban Rail Transit Technology Co Ltd
Current assignee: CRSC Urban Rail Transit Technology Co Ltd
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2022-02-01

Abstract

本发明提供一种城轨调度方法、装置、电子设备及存储介质，包括：确定待规划交路的当前次循环的列车运行时刻和乘客规模；将当前次循环的列车运行时刻和乘客规模输入至城轨调度模型，得到城轨调度模型输出的下一次循环的列车调度动作；城轨调度模型是基于样本列车运行时刻和样本乘客规模，以乘客等待成本和列车运营成本最小为目标，通过强化学习算法求得最优调度动作。本发明提供的方法、装置、电子设备及存储介质，通过使用强化学习后的城轨调度模型根据当次循环状态决策下一次循环的列车调度动作，提高了以城市轨道交通中客流量实时变化而实时调整未来短时间内的运输策略的列车调度决策能力，降低了运营成本以及提升了乘客的乘车体验度。

Description

城轨调度方法、装置、电子设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种城轨调度方法、装置、电子设备及存储介质。

背景技术

城市轨道交通是城市公共交通的骨干，具有节能、省地、运量大、全天候、无污染又安全等特点，在整个城市交通网络中起到极其重要的作用。

但是城市轨道交通在实际运营过程中常常会出现时刻表与实际客流并不匹配的情况，事实上目前城市轨道交通的运行基本上严格按照“运行图”执行，工作日一套运行图，节假日一套运行图，但是城市轨道交通客流的波动性和复杂性往往使提前编制的运行图不能切合实际的需求状态，导致运营成本的升高以及乘客乘车体验度低的问题。

发明内容

本发明提供一种城轨调度方法、装置、电子设备及存储介质，用以解决现有技术中无法应对城市轨道交通客流的波动性和复杂性的缺陷。

本发明提供一种城轨调度方法，包括：确定待规划交路的当前次循环的列车运行时刻和乘客规模；

将所述当前次循环的列车运行时刻和乘客规模输入至城轨调度模型，得到所述城轨调度模型输出的下一次循环的列车调度动作；

所述城轨调度模型是基于样本列车运行时刻和样本乘客规模，以乘客等待成本和列车运营成本最小为目标，强化学习得到的。

根据本发明提供的一种城轨调度方法，所述将所述当前次循环的列车运行时刻和乘客规模输入至城轨调度模型，得到所述城轨调度模型输出的下一次循环的列车调度动作，包括：

将所述当前次循环的列车运行时刻和乘客规模输入至城轨调度模型的第一调度层，得到所述第一调度层输出的下一次循环的调度动作特征；

将所述当前次循环的列车运行时刻和乘客规模，以及所述下一次循环的调度动作特征输入至城轨调度模型的第二调度层，得到所述第二调度层输出的执行下一次循环的列车调度动作的总预期未来成本。

根据本发明提供的一种城轨调度方法，所述第一调度层以最小化所述当前次循环至最后一次循环结束的乘客等待成本和列车运营成本为目标进行下一次循环的调度决策特征的预估。

根据本发明提供的一种城轨调度方法，所述乘客等待成本和所述列车运营成本是基于如下步骤确定的：

将所述样本列车运行时刻和所述样本乘客规模输入至强化学习中的城轨调度模型，得到所述城轨调度模型输出的预估调度动作；

基于所述预估调度动作和所述样本乘客规模，确定所述乘客等待成本和所述列车运营成本。

根据本发明提供的一种城轨调度方法，所述当前次循环的列车运行时刻包括所述当前次循环的列车到达站点的时间和所述当前次循环的列车离开所述站点的时间；所述乘客规模为所述当前次循环的列车离开所述站点时剩余的等待乘客数量。

根据本发明提供的一种城轨调度方法，所述下一次循环的列车调度动作，包括：

所述当前次循环的列车和所述下一次循环的列车从转换轨出发的时间间隔、所述下一次循环的列车在所述站点停靠的时间以及所述下一次循环的列车从所述站点运行到所述站点的下一站点的运行时间。

本发明还提供一种城轨调度装置，包括：确定模块，用于确定待规划交路的当前次循环的列车运行时刻和乘客规模；

训练模块，用于所述城轨调度模型是基于样本列车运行时刻和样本乘客规模，以乘客等待成本和列车运营成本最小为目标，强化学习得到的；

决策模块，用于将所述当前次循环的列车运行时刻和乘客规模输入至城轨调度模型，得到所述城轨调度模型输出的下一次循环的列车调度动作。本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述城轨调度方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述城轨调度方法的步骤。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述城轨调度方法的步骤。

本发明提供的一种城轨调度方法、装置、电子设备及存储介质，通过当次循环的列车运行时刻和乘客规模输入到已经强化学习完成的城轨调度模型，该城轨调度模型输出得到下一次循环的列车调度动作，实现了以强化学习完成的城轨调度模型为基础，根据当次循环的列车运行时刻和乘客规模决策下一次循环的列车调度动作，提高了以城市轨道交通中客流量实时变化而实时调整未来短时间内的运输策略的列车调度决策能力，降低了运营成本以及提升了乘客的乘车体验度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的用于城轨调度的流程示意图之一；

图2是本发明提供的用于决策列车调度动作的流程示意图；

图3是本发明提供的用于获取乘客等待成本和列车运营成本的流程示意图；

图4是本发明提供的城轨调度模型强化学习的流程示意图；

图5是本发明提供的用于城轨调度的流程示意图之二；

图6是本发明提供的城轨调度模型双层神经网络的具体结构图；

图7是本发明提供的城轨调度装置的结构示意图；

图8是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有的城市轨道交通的运行都是严格按照运行图运行，不能应对客流量的实时变化，会出现乘客在车站大量积压，譬如：工作日的早晚高峰，也会出现空座率高的情况，譬如：工作日的高峰过后的时段，可见，提前编制的运行图时无法应对客流量的实时变化。

以往的城市轨道交通调度优化研究大多只探讨了遇到突发事故或者故障时如何使用最优化理论求解恢复正常运营的最优策略。另一部分学者研究了中长时间范围内客流的变化情况，例如：以1个月、3个月或半年为区间，以天为单位，或者区分工作日和节假日对客流的变化情况进行统计研究，从而优化运行图的编制工作。这两种方案一种是应急方案，并不是针对客流量的变化情况进行优化，而一种是针对运行图进行优化，针对的也是中长时间范围的客流量的变化情况。

因此，如何提高城市轨道交通中客流量实时变化而实时调整未来短时间内运输策略的列车调度决策能力，从而降低运营成本以及提升乘客的乘车体验度的问题是本领域亟待解决的问题。

图1是本发明实施例提供的用于城轨调度的流程示意图之一，如图1所示，本发明实施例提供了一种城轨调度方法，包括：

步骤110，确定待规划交路的当前次循环的列车运行时刻和乘客规模；

具体地，待规划交路为一个固定交路，列车在待规划交路中运行往返一次为一次循环，当前次循环为当天截至到当前次循环的列车从该待规划交路起点出发后，一共从该待规划交路起点出发的列车的次数，例如：列车从待规划交路起点出发后，当前从待规划交路起点出发的列车的次数为m次，则当前次循环为m，列车运行时刻可以为列车在该待规划交路中每一个站点的到站的时间，在站点停留的时间或者离开站点的时间，乘客规模可以为每个站点当次循环的列车离开时站内剩余的乘客数量，也可以时当次循环的列车每个站点上车的乘客数量，本发明实施例对此不做限制。

步骤120，将当前次循环的列车运行时刻和乘客规模输入至城轨调度模型，得到该城轨调度模型输出的下一次循环的列车调度动作；

该城轨调度模型是基于样本列车运行时刻和样本乘客规模，以乘客等待成本和列车运营成本最小为目标，强化学习得到的。

考虑到城轨每个站内的客流量的是波动的并且情况复杂，譬如：城轨线路中某一个站点附近要举办大型活动，则有可能出现当大型活动结束后该站点的客流量会激增，而这种情况是通过优化运行图无法解决的问题，因此，需要一个能根据客流量的实时变化而实时做出列车调度动作决策的方法。具体地，本发明实施例通过预先强化学习所得的城轨调度模型，根据当前次循环的列车运行时刻和乘客规模对下一次循环的列车调度动作进行决策。需要说明的是，该决策是针对于待规划交路中任意一个站点进行的调度动作决策，城轨调度模型根据当次循环的列车在该交路中某一站点的运行时刻和该站点的乘客规模对下一次循环的列车到达该站点的调度动作进行决策，该站点为待规划交路中的任意一个站点。

此外，该城轨调度模型是以乘客等待成本和列车运营成本最小为目标，强化学习得到的。需要说明的是，城轨调度模型是一个马尔科夫模型，乘客等待成本可以基于对乘客等车的时间进行统计得出，还可以根据经典排队理论得到；列车运营成本包括与能源相关的成本，如：用电成本、用水成本等，和/或维护成本，如列车的常规维护、站点的基础设施维护等，本发明实施例对此不作限制。

强化学习所得的城轨调度模型，可以针对输入的当前次循环的列车运行时刻和乘客规模，根据下一次循环时采用不同的列车调度动作分别预估其对应的乘客等待成本和列车运营成本，从而选取使得乘客等待成本和列车运行成本最小的列车调度动作作为下一次循环的列车调度动作并输出。

本发明提供的一种城轨调度方法，通过当次循环的列车运行时刻和乘客规模输入到已经强化学习完成的城轨调度模型，该城轨调度模型输出得到下一次循环的列车调度动作，实现了以强化学习完成的城轨调度模型为基础，根据当次循环的列车运行时刻和乘客规模决策下一次循环的列车调度动作，提高了以城市轨道交通中客流量实时变化而实时调整未来短时间内的运输策略的列车调度决策能力，降低了运营成本以及提升了乘客的乘车体验度。

基于上述实施例，图2是本发明实施例提供的用于决策列车调度动作的流程示意图，如图2所示，步骤120，包括：

步骤121，将当前次循环的列车运行时刻和乘客规模输入至城轨调度模型的第一调度层，得到第一调度层输出的下一次循环的调度动作特征；

步骤122，将当前次循环的列车运行时刻和乘客规模，以及下一次循环的调度动作特征输入至城轨调度模型的第二调度层，得到第二调度层输出的执行下一次循环的列车调度动作的总预期未来成本。

考虑到城轨调度模型的计算量非常大，以及乘客规模的不确定性，会导致城轨调度模型计算陷入维度诅咒之中，因此，为了避免这种情况的出现，本发明实施例城轨调度模型使用了双层神经网络来解决此问题。

具体地，将当次循环的列车运行时刻和乘客规模输入城轨调度模型的第一调度层即第一层神经网络，经过第一调度层决策，输出得到下一次循环的调度动作特征，将该调度动作特征和当次循环的列车运行时刻和乘客规模输入城轨调度模型的第二调度层即第二层神经网络，经过第二调度层的计算得到执行下一次循环的列车调度动作的总预期未来成本。需要说明的是，下一次循环的调度动作特征是第一调度层得到的下一次循环的列车的期望调度动作，其中，第一调度层可以以下一次循环的乘客等待成本和列车运营成本为目标进行决策，还可以以基于当前次循环到最后一次循环的最小化乘客等待成本和列车运营成本为目标进行决策，本发明实施例对此不作限制；第二调度层会将第一调度层输出的下一次循环的调度动作特征作为输入参数，并联合当次循环的列车运行时刻和乘客规模进行预估，以得到可用于执行的下一次循环的列车调度动作和该列车调度动作导致的总预期未来成本，其中，总预期未来成本用于表示在当前次循环的列车运行时刻和乘客规模的状态下，执行下一次循环的列车调度动作能够得到的期望收益，即Q估计值。此处的期望收益，可以根据预估的乘客等待成本和列车运营成本确定。

基于上述实施例，步骤121中，第一调度层以最小化当前次循环至最后一次循环结束的乘客等待成本和列车运营成本为目标进行下一次循环的调度动作特征的预估。

具体地，为了兼顾乘客的乘车体验和列车的运营成本，本发明实施例的城轨调度模型首先以总成本最小化为目标进行决策，以得到下一次循环的列车期望的调度决策动作特征。具体地，第一调度层将当次循环至最后一次循环结束时乘客等待成本和列车运营成本最小化作为目标，基于该目标进行下一次循环的列车调度决策特征的预估。需要说明的是，最后一次循环是指当天的最后一次循环；考虑到列车运营成本会受到客流量影响，因此乘客等待成本和列车运行成本不可能达到理想状态，即乘客等待成本最小化的同时列车运行成本也最小化，此处，乘客等待成本和列车运营成本最小化可以是以乘客等待成本为主和列车运营成本为辅达到的总成本最小化，还可以是列车运营成本为主和乘客等待成本为辅的总成本最小化，或者两者均衡的总成本最小化，本发明实施例对此不作限制。

基于上述实施例，图3是本发明实施例提供的用于获取乘客等待成本和列车运营成本的流程示意图，如图3所示，步骤120中，城轨调度模型强化学习时的乘客等待成本和列车运营成本是基于如下步骤确定的包括：

步骤310，将样本列车运行时刻和样本乘客规模输入至强化学习中的城轨调度模型，得到城轨调度模型输出的预估调度动作；

步骤320，基于预估调度动作和样本乘客规模，确定乘客等待成本和列车运营成本。

考虑到城轨调度模型需要以乘客等待成本和列车运营成本最小为目标进行列车调度动作的决策。可见，城轨调度模型的训练也必然是以乘客等待成本和列车运营成本最小为目标进行的。具体地，该城轨调度模型是以乘客等待成本和列车运营成本最小为目标，强化学习得到的，其中，强化学习可以是基于Q-Learning、SARSA(State action rewardstate action)、DQN(Deep Q Network)和DDPG(Deep Deterministic Policy Gradient)算法进行学习，本发明实施例对此不作限制；而乘客等待成本和列车运营成本的获取则是通过强化学习中的城轨调度模型每一轮迭代中输出获得，并将得到的乘客等待成本和列车运营成本用于下一轮的学习中。

具体地，获取乘客等待成本和列车运营成本是将样本列车运行时刻和样本乘客规模输入到强化学习中的城轨调度模型，其中该强化学习中的城轨调度模型是基于双层神经网络构建，第一层神经网络根据输入的样本列车运行时刻和样本乘客规模得到预估的调度动作，第二层神经网络根据第一层神经网络输出的预估的调度动作以及样本乘客规模，确定乘客等待成本和样本列车运营成本。需要说明的是，样本列车运行时刻和样本乘客规模可以是根据实际的历史真实的运行数据模拟出的数据，也可以是真实的当前的实时数据，本发明实施例对此不作限制，其中样本列车运行时刻和样本乘客规模与实际中的列车运行时刻和乘客规模相同，样本列车运行时刻可以为列车在该待规划交路中每一个站点的到站的时间，在站点停留的时间或者离开站点的时间，样本乘客规模可以为每个站点当次循环的列车离开时站内剩余的乘客数量，也可以是当次循环的列车每个站点上车的乘客数量，本发明实施例对此不做限制。

基于上述实施例，图4是本发明实施例提供的城轨调度模型强化学习的流程示意图，如图4所示，本发明实施例提供一种城轨调度模型强化学习的方法，包括：

步骤410，初始化双层神经网络，将策略函数中的各项参数设置为默认数值，即设置默认策略；

步骤420，从网络环境中采集客流信息以及列车运行时刻，生成状态参数；

步骤430，在任意一个状态下，依据策略函数，对当前的环境状态应用相应的动作，并产生新的网络环境状态，即状态转移；

步骤440，依据状态的变化，计算相应的奖励函数值，并对采取的动作进行评价，用于表示所选动作的实施效果；

步骤450，依据评价结果，对策略函数中的参数进行修改，调整从状态到动作的映射准则；

重复上述步骤420到步骤450直到选择出成本最低的列车运输策略。

基于上述任一实施例，步骤110中，当前次循环的列车运行时刻包括当前次循环的列车到达站点的时间和当前次循环的列车离开该站点的时间；乘客规模为当前次循环的列车离开站点时剩余的等待乘客数量。

考虑到列车运行时刻主要包括到达站点的时间，停靠站点的时间以及离开站点的时间，其中停靠的时间可以通过到达站点的时间和离开站点的时间计算出来，并且需要在当前次循环的列车离开站点的时间对下一次循环的列车到达该站点的调度动作进行决策，为了简化计算逻辑，具体地，此处将当次循环的列车到达站点的时间和列车离开站点的时间作为状态参数。

考虑到乘客等待成本，尤其是当次循环的列车离开站点时未能乘车的剩余乘客的等待成本最高，并且剩余的等待乘客的数量可以最直接的反应当前站点的客流量的大小，可见，将剩余的等待乘客数量作为决策下一次循环列车到达该站点的调度动作的状态参数是必要的。具体地，此处将当前次循环的列车离开站点时剩余的等待乘客数量作为状态参数。

基于上述实施例，步骤120中，下一次循环的列车调度动作，包括：当前次循环的列车和下一次循环的列车从转换轨出发的时间间隔、下一次循环的列车在站点停靠的时间以及下一次循环的列车从站点运行到该站点的下一站点的运行时间。

考虑到下一次循环的列车调度动作中最重要的动作是下一次循环列车到达当前次循环的列车的状态参数所在站点的时间，以及根据该站点的乘客数量确定在站点停留的时间，并且考虑到对下一次循环的列车调度动作的连贯性，需要考虑该站点到该站点下一站点的运行时间，以确定后续站点的列车调度动作决策。具体地，城轨调度模型输出的下一次循环的列车调度动作包括当前次循环的列车和下一次循环的列车从转换轨出发的时间间隔、下一次循环的列车在站点停靠的时间以及下一次循环的列车从站点运行到该站点的下一站点的运行时间。

基于上述实施例，图5为本发明实施例提供的用于城轨调度的流程示意图之二，如图5所示，本发明实施例提供了一种城轨调度方法，包括：

步骤510，设置当前网络环境中的状态参数和智能调度控制器的调度动作格式，其中，状态参数为：

调度动作为：

m为第m次循环，m+1为第m+1次循环，i为第i站点，

表示第m次循环中列车到达i站的时间，

表示第m次循环中列车离开i站的时间，

为当m次循环列车离开i站时还剩下未上车的乘客数量，interval_time_m+1表示m+1次循环列车与第m次循环列车从转换轨出发的间隔时间，

代表m+1次循环列车在i站的停站时间，

表示为m+1次循环列车在i站和i+1站之间的运行时间。

步骤520，通过客流预测模块确定每一站的客流随机需求Q_t,客流预测模块的输入为客流探测器、视频监控、车重数据等。

步骤530，确定智能控制器决策的目标函数，目标函数从两方面考虑，一是从乘客的角度出发，要使整体的等待成本最低，二是从运营商的角度出发，使列车的运行成本最低。当控制器做出决策

时，通过经典排队理论可以得到乘客等待成本的定量表达

从运营商的角度出发，列车服务的运营成本包括与能源相关的成本和与维护相关的成本,量化得到

步骤540，基于强化学习后的城轨调度模型，根据运营时间状况，可以确定第m次循环决策的可行解集合Ω_m，城轨调度模型在根据客流实时的需求变化时所做出的动作x_m在该可行解集合Ω_m中，即应满足x_m∈Ω_m，其中，城轨调度模型第一层神经网络在给定列车第m次循环的状态变量

后，该神经网络生成一个相应的(嵌入)决策动作特征，其目标是最小化从第m次循环开始的总成本。第二层神经网络由第一层网络中得出的期望动作特征得到Q估计值，然后根据Q估计值在可行性解集合Ω_m找到对应的动作x_m，Q估计值被定义为在当前状态和(嵌入)决策情况下，从第m次循环开始的总预期未来成本。

其中，图6是本发明实施例提供的城轨调度模型双层神经网络的具体结构图，如图6所示，将第m次循环的列车状态变量输入到第一层神经网络中，经过两层隐藏层的处理之后，由嵌入层输出第m+1次循环的列车决策变量(即期望的动作特征)，再将该决策变量联合第m次循环的列车状态变量一同输入到第二层神经网络中，经过两层隐藏层的处理得到输出的Q估计值。

下面对本发明提供的城轨调度装置进行描述，下文描述的城轨调度装置与上文描述的城轨调度方法可相互对应参照。

图7是本发明提供的城轨调度装置的结构示意图，如图7所示，该装置包括：确定模块710，训练模块720，决策模块730。

其中，

确定模块710，用于确定待规划交路的当前次循环的列车运行时刻和乘客规模；

训练模块720，用于城轨调度模型是基于样本列车运行时刻和样本乘客规模，以乘客等待成本和列车运营成本最小为目标，强化学习得到的；

决策模块730，用于将当前次循环的列车运行时刻和乘客规模输入至城轨调度模型，得到城轨调度模型输出的下一次循环的列车调度动作。

在本发明实施例中，通过确定模块710，用于确定待规划交路的当前次循环的列车运行时刻和乘客规模；训练模块720，用于城轨调度模型是基于样本列车运行时刻和样本乘客规模，以乘客等待成本和列车运营成本最小为目标，强化学习得到的，具体地，根据历史客流数据训练调度模型，实现对策略函数中的一系列参数进行调整，并由神经网络完成对策略函数的拟合，基于样本列车运行时刻和乘客规模，以乘客等待成本和列车运营成本最小为目标，得到不同客流状态到列车运行策略的映射规则；决策模块730，用于将当前次循环的列车运行时刻和乘客规模输入至城轨调度模型，得到城轨调度模型输出的下一次循环的列车调度动作，实现了以强化学习完成的城轨调度模型为基础，根据当次循环的列车运行时刻和乘客规模决策下一次循环的列车调度动作，提高了以城市轨道交通中客流量实时变化而实时调整未来短时间内的运输策略的列车调度决策能力，降低了运营成本以及提升了乘客的乘车体验度。

基于上述任一实施例，决策模块730，包括：

第一调度子模块，用于将当前次循环的列车运行时刻和乘客规模输入至城轨调度模型的第一调度层，得到第一调度层输出的下一次循环的调度动作特征；

第二调度子模块，用于将当前次循环的列车运行时刻和乘客规模，以及下一次循环的调度动作特征输入至城轨调度模型的第二调度层，得到第二调度层输出的执行下一次循环的列车调度动作的总预期未来成本。

基于上述任一实施例，第一调度子模块中具体用于第一调度层以最小化当前次循环至最后一次循环结束的乘客等待成本和列车运营成本为目标进行下一次循环的调度动作特征的预估。

基于上述任一实施例，训练模块720中乘客等待成本和列车运营成本是基于依次执行以下模块获得，包括：

预估调度子模块，用于将样本列车运行时刻和样本乘客规模输入至强化学习中的城轨调度模型，得到城轨调度模型输出的预估调度动作；

成本预估子模块，用于基于预估调度动作和样本乘客规模，确定乘客等待成本和列车运营成本。

基于上述任一实施例，确定模块710中当前次循环的列车运行时刻包括当前次循环的列车到达站点的时间和当前次循环的列车离开站点的时间；乘客规模为当前次循环的列车离开站点时剩余的等待乘客数量。

基于上述任一实施例，决策模块730中下一次循环的列车调度动作，包括：

当前次循环的列车和下一次循环的列车从转换轨出发的时间间隔、下一次循环的列车在站点停靠的时间以及下一次循环的列车从站点运行到该站点的下一站点的运行时间。

图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行城轨调度方法，该方法包括：确定待规划交路的当前次循环的列车运行时刻和乘客规模；将当前次循环的列车运行时刻和乘客规模输入至城轨调度模型，得到城轨调度模型输出的下一次循环的列车调度动作；城轨调度模型是基于样本列车运行时刻和样本乘客规模，以乘客等待成本和列车运营成本最小为目标，强化学习得到的。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的执行城轨调度方法，该方法包括：确定待规划交路的当前次循环的列车运行时刻和乘客规模；将当前次循环的列车运行时刻和乘客规模输入至城轨调度模型，得到城轨调度模型输出的下一次循环的列车调度动作；城轨调度模型是基于样本列车运行时刻和样本乘客规模，以乘客等待成本和列车运营成本最小为目标，强化学习得到的。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的执行城轨调度方法，该方法包括：确定待规划交路的当前次循环的列车运行时刻和乘客规模；将当前次循环的列车运行时刻和乘客规模输入至城轨调度模型，得到城轨调度模型输出的下一次循环的列车调度动作；城轨调度模型是基于样本列车运行时刻和样本乘客规模，以乘客等待成本和列车运营成本最小为目标，强化学习得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种城轨调度方法，其特征在于，包括：

确定待规划交路的当前次循环的列车运行时刻和乘客规模；

2.根据权利要求1所述的城轨调度方法，其特征在于，将所述当前次循环的列车运行时刻和乘客规模输入至城轨调度模型，得到所述城轨调度模型输出的下一次循环的列车调度动作，包括：

3.根据权利要求2所述的城轨调度方法，其特征在于，所述第一调度层以最小化所述当前次循环至最后一次循环结束的乘客等待成本和列车运营成本为目标进行下一次循环的调度动作特征的预估。

4.根据权利要求1所述的城轨调度方法，其特征在于，所述乘客等待成本和所述列车运营成本是基于如下步骤确定的：

5.根据权利要求1至4中任一项所述的城轨调度方法，其特征在于，所述当前次循环的列车运行时刻包括所述当前次循环的列车到达站点的时间和所述当前次循环的列车离开所述站点的时间；所述乘客规模为所述当前次循环的列车离开所述站点时剩余的等待乘客数量。

6.根据权利要求5所述的城轨调度方法，其特征在于，所述下一次循环的列车调度动作，包括：

7.一种城轨调度装置，其特征在于，包括：

确定模块，用于确定待规划交路的当前次循环的列车运行时刻和乘客规模；

决策模块，用于将所述当前次循环的列车运行时刻和乘客规模输入至城轨调度模型，得到所述城轨调度模型输出的下一次循环的列车调度动作。

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述城轨调度方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述城轨调度方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述城轨调度方法的步骤。