CN115743248A

CN115743248A - 列车时刻表确定方法、装置、设备及介质

Info

Publication number: CN115743248A
Application number: CN202211469422.4A
Authority: CN
Inventors: 程高云; 潘龙飞; 刘义卿; 赵兴东; 王伟
Original assignee: Traffic Control Technology TCT Co Ltd
Current assignee: Traffic Control Technology TCT Co Ltd
Priority date: 2022-11-22
Filing date: 2022-11-22
Publication date: 2023-03-07

Abstract

本发明提供一种列车时刻表确定方法、装置、设备及介质，涉及轨道交通技术领域，该方法包括：获取当前发车间隔及下一发车间隔；输入当前车次状态组以及当前发车间隔至价值网络模型，获取第一评价值及第二评价值；根据当前发车间隔及第一评价值对策略网络模型进行更新，根据第一评价值及第二评价值对价值网络模型进行更新；在满足预设条件后，输入目标车次状态组至策略网络模型，获取目标发车间隔；根据初始发车时刻及目标发车间隔确定列车时刻表。本发明采用强化学习算法进行学习和优化，模拟列车运行情况，得到列车时刻表，本发明可操作性强，鲁棒性高，极大提高长交路模式下列车时刻表优化效率，并有效的降低地铁运营成本和乘客等待成本。

Description

列车时刻表确定方法、装置、设备及介质

技术领域

本发明涉及轨道交通技术领域，尤其涉及一种列车时刻表确定方法、装置、设备及介质。

背景技术

在城市轨道交通的运营过程中，列车时间表的优劣关系到企业运营成本和乘客等待成本的高低，发车时间间隔过大会增加乘客等待成本进而降低乘客满意度，而发车时间间隔过小会增加企业运营成本。

发明内容

本发明提供一种列车时刻表确定方法、装置、设备及介质，用以解决现有技术无法优化发车时间间隔，无法合理平衡企业运营成本和乘客等待成本的技术问题，提供了一种基于强化学习的长交路模式下交通列车时刻表的优化方案。

第一方面，本发明提供了一种列车时刻表确定方法，包括：

重复执行以下步骤，直至满足预设条件：

输入当前车次状态组至策略网络模型，获取所述策略网络模型输出的当前发车间隔；输入下一车次状态组至所述策略网络模型，获取所述策略网络模型输出的下一发车间隔；

输入所述当前车次状态组以及所述当前发车间隔至价值网络模型，获取所述价值网络模型输出的第一评价值；输入所述下一车次状态组以及所述下一发车间隔至所述价值网络模型，获取所述价值网络模型输出的第二评价值；

根据所述当前发车间隔以及所述第一评价值对所述策略网络模型进行更新，根据所述第一评价值以及所述第二评价值对所述价值网络模型进行更新；

在满足预设条件后，输入目标车次状态组至所述策略网络模型，获取所述策略网络模型输出的目标发车间隔；

根据目标车次的初始发车时刻以及所述目标发车间隔确定所述目标车次的列车时刻表；

其中，所述状态组是根据所述状态组对应的车次的初始发车时刻以及在所述状态组对应的车次沿线的所有车站中无法乘坐所述状态组对应的车次列车的总遗留人数而确定的。

根据本发明提供的列车时刻表确定方法，在输入所述下一车次状态组以及所述下一发车间隔至所述价值网络模型之前，还包括：根据当前车次状态组以及所述当前发车间隔确定下一车次状态组；

所述根据所述当前车次状态组以及所述当前发车间隔确定下一车次状态组，具体包括：

根据当前车次的初始发车时刻以及所述当前发车间隔确定下一车次的初始发车时刻；

根据车次沿线的所有车站中每一车站无法乘坐当前车次列车而被迫等待下一车次列车的人数以及从每一车站出发前往指定车站的新进乘客人数确定每一车站等待乘坐下一车次列车的总人数；

根据下一车次列车的剩余承载容量以及每一车站等待乘坐下一车次列车的总人数确定每一车站到达指定车站的实际乘车人数；

根据从每一车站出发前往指定车站总乘客人数以及每一车站到达指定车站的实际乘车人数确定每一车站无法乘坐下一车次列车到达指定车站的遗留人数，以确定在所有车站中无法乘坐下一车次列车的总遗留人数；

根据下一车次的初始发车时刻以及在所有车站中无法乘坐下一车次列车的总遗留人数确定所述下一车次状态组。

根据本发明提供的列车时刻表确定方法，所述根据所述当前发车间隔以及所述第一评价值对所述策略网络模型进行更新，包括：

根据第一学习参数、当前发车间隔的影响梯度以及第一评价值的影响梯度确定第一更新值；

根据所述策略网络模型所对应的策略网络参数以及所述第一更新值确定更新后策略网络参数，以根据所述更新后策略网络参数对所述策略网络模型进行更新。

根据本发明提供的列车时刻表确定方法，所述根据所述第一评价值以及所述第二评价值对所述价值网络模型进行更新，包括：

根据乘客等待成本以及企业运营成本确定当前车次的奖励函数；

根据奖励函数以及所述第二评价值确定奖励目标；

根据所述第一评价值以及所述奖励目标确定奖励误差；

根据第二学习参数、所述奖励误差、第一评价值的影响梯度确定第二更新值；

根据所述价值网络模型所对应的价值网络参数以及所述第二更新值确定更新后价值网络参数，以根据所述更新后价值网络参数对所述价值网络模型进行更新；

所述乘客等待成本是根据当前车次中所有车站中乘客所花费的总等待时间而确定的。

根据本发明提供的列车时刻表确定方法，所述根据乘客等待成本以及企业运营成本确定当前车次的奖励函数，包括：

根据乘客等待时间与单位时间价值的乘积确定乘客等待成本；

根据所述乘客等待成本以及第一权重值确定第一加权值；

根据所述企业运营成本以及第二权重值确定第二加权值；

根据所述第一加权值以及所述第二加权值确定当前车次的奖励函数；

所述第一权重值与所述第二权重值之和为预设常数。

根据本发明提供的列车时刻表确定方法，所述预设条件为如下条件中的任一种：

列车发车时间超过交通运营时间；

所有车站中没有遗留人数；

或者，列车发车时间超过交通运营时间，且在所有车站中没有遗留人数。

根据本发明提供的列车时刻表确定方法，所述根据目标车次的初始发车时刻以及所述目标发车间隔确定所述目标车次的列车时刻表，包括：

根据目标车次的初始发车时刻、所述目标发车间隔、各车站间的运行时间、各车站的停留时间确定车次沿线的所有车站中每一车站的出发时刻，以根据所有车站的出发时刻确定所述目标车次的列车时刻表。

第二方面，本发明提供了一种列车时刻表确定装置，包括：

执行单元：用于重复执行以下步骤，直至满足预设条件：

获取单元：用于在满足预设条件后，输入目标车次状态组至所述策略网络模型，获取所述策略网络模型输出的目标发车间隔；

确定单元：用于根据目标车次的初始发车时刻以及所述目标发车间隔确定所述目标车次的列车时刻表；

第三方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述列车时刻表确定方法。

第四方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述列车时刻表确定方法。

本发明提供了一种列车时刻表确定方法、装置、设备及介质，能够通过策略网络模型以及当前车次状态组确定当前发车间隔，并根据当前车次状态组以及当前发车间隔确定下一车次状态组，进而确定下一发车间隔，从而实现了车次状态组与发车间隔的不断交互迭代，同时引入价值网络模型，以奖励误差作为价值引导不断迭代更新策略网络模型以及价值网络模型，从而确定出优化后的策略网络模型，最终根据优化后的策略网络模型确定出列车时刻表。本发明根据客流信息和列车动力学特征构建虚拟运营环境，采用强化学习算法在构建的环境上进行学习和优化，模拟列车运行情况，进而得到列车时刻表，本发明可操作性强，鲁棒性高，可以极大地提高长交路模式下列车时刻表优化效率，并有效的降低地铁运营成本和乘客等待成本。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的列车时刻表确定方法的流程示意图之一；

图2是本发明提供的确定下一车次状态组的流程示意图；

图3是本发明提供的对所述策略网络模型进行更新的流程示意图；

图4是本发明提供的对所述价值网络模型进行更新的流程示意图；

图5是本发明提供的确定当前车次的奖励函数的流程示意图；

图6是本发明提供的长交路中交通运营场景示意图；

图7是本发明提供的列车时刻表确定方法的流程示意图之二；

图8是本发明提供的列车时刻表确定装置的结构示意图；

图9是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

传统优化列车时刻表的方法可以分为两大类，第一大类是整数规划或混合整数规划方法，该类方法计算复杂度高，计算量大，收敛速度慢；第二大类是启发式方法，如粒子群算法、遗传算法、差分进化算法，该类方法依赖专家经验，性能不稳定，容易陷入局部最优解。

本发明摒弃上述传统优化算法，采用强化学习算法中的无模型强化学习，直接与环境进行实时交互学习最优策略，对于复杂的应用场景来说具备很好的通用性。图1是本发明提供的列车时刻表确定方法的流程示意图之一，本发明公开了一种列车时刻表确定方法，包括：

重复执行以下步骤，直至满足预设条件：

本发明在获取最终优化后的策略网络模型之前，需通过不断的模型训练进而使得策略网络模型达到最优效果，故需重复执行以下步骤，直至满足预设条件：

在步骤101中，输入当前车次状态组至策略网络模型，获取所述策略网络模型输出的当前发车间隔；输入下一车次状态组至所述策略网络模型，获取所述策略网络模型输出的下一发车间隔，本发明首先初始化训练环境，根据初始策略网络参数训练策略网络模型，以使得所述策略网络模型能够根据所述当前车次状态组，输出当前发车间隔，本领域技术人员理解，在构建完设计环境之后，本发明采用确定性策略强化学习算法，策略网络控制指示做运动，基于状态做出动作，价值网络模型基于状态给动作进行评价，从而指导策略网络做出改进，在本发明中，所述状态即为所述当前车次状态组，所述动作即为当前发车间隔，进而根据所述当前车次状态组以及所述当前发车间隔确定下一车次状态组，输入所述下一车次状态组至策略网络模型中，获取所述策略网络模型输出的下一发车间隔。

所述状态组是根据所述状态组对应的目标车次的初始发车时刻以及在所述目标车次沿线的所有车站中无法乘坐所述目标车次列车的总遗留人数而确定的，本发明以当前车次的初始发车时刻以及在所有车站中无法乘坐当前车次列车的总遗留人数作为一个状态元组，在执行动作，即输入当前发车间隔后，生成下一状态元组，即下一车次状态组，而下一车次的初始发车时刻是根据当前车次的初始发车时刻以及当前发车间隔确定的，所有车站中无法乘坐下一车次列车的总遗留人数，是根据从每一车站出发前往指定车站总乘客人数以及每一车站到达指定车站的实际乘车人数确定每一车站无法乘坐下一车次列车到达指定车站的遗留人数之和确定的。

可选地，所述输入当前车次状态组至策略网络模型中，获取所述策略网络模型输出的当前发车间隔，包括：根据初始策略网络参数构建所述策略网络模型；输入当前车次的初始发车时刻以及在所有车站中无法乘坐当前车次列车的总遗留人数，获取所述策略网络模型输出的当前发车间隔。

具体地，根据初始策略网络参数构建所述策略网络模型，所述初始策略网络参数为无模型强学学习中的用于构建所述策略网络模型的参数，本发明在进行构建虚拟运营环境之前，需要假定长交路模式下列车充足且编组固定、列车采用站站停的停站模式且禁止越行，已知列车在车站之间的运行时间、车站的停车时间以及终点站折返时间，此时，列车时刻表仅与列车从列车始发站的出发的时间有关。

进一步地，预设乘客出行的数量矩阵，所述数量矩阵由三维组成，第一维是时间，第二维是出发车站，第三维是目的车站，例如：

在式(1)中，数量矩阵表示在t-1时刻到t时刻内，从车站i出发到达车站j的乘客数量为Δ。

在所有车站中无法乘坐当前车次列车的总遗留人数即可根据上述所构建的虚拟运营环境中直接获取，所述当前车次的初始发车时刻以及在所有车站中无法乘坐当前车次列车的总遗留人数将作为一个整体，即当前车次状态组，输入至所述策略网络模型中，并根据所述策略网络模型输出当前发车间隔。

本领域技术人员理解，当前发车间隔作为强化学习中的动作，由一个标量a_k组成，表示第k+1次列车与第k次列车之间的发车时间间隔，根据运营规定，所述列车的发车时间间隔有一个限制区间[h_min,h_max]，其中，h_max表示列车发车所允许的最大时间间隔，为了保证服务质量，h_max不超过720秒，h_min表示列车发车所允许的最小时间间隔，为了保证列车行车安全，h_min不低于90秒。因此a_k被限制在[h_min,h_max]范围内，可选地，本发明采用神经网络模型输出a_k，为了保证强化学习算法的稳定，可以将神经网络输出值

限制在[-1,1]范围内，然后通过下面公式，将其转换为[h_min,h_max]范围内，从而得到当前发车间隔a_k：

式(2)中，当前发车间隔，h_max表示列车发车所允许的最大时间间隔，h_min表示列车发车所允许的最小时间间隔，

为神经网络输出值，a_k为当前发车间隔。

在步骤102中，输入所述当前车次状态组以及所述当前发车间隔至价值网络模型，获取所述价值网络模型输出的第一评价值，输入所述下一车次状态组以及所述下一发车间隔至所述价值网络模型，获取所述价值网络模型输出的第二评价值，所述价值网络模型与所述测量网络模型的构建相似，根据初始价值网络模型参数构建所述价值网络模型，由于训练开始阶段的初始价值网络参数以及初始策略网络参数均是随机无目标的参数，但会在后续的不断迭代过程中，根据奖励函数所引导的奖励误差，形成不断趋近于优化价值网络模型与所述测量网络模型的方向不断更新，故本步骤的目的是为了确定出当前车次状态下的价值评价，以及下一车次状态下的价值评价的差异性。

在步骤103中，根据所述当前发车间隔以及所述第一评价值对所述策略网络模型进行更新，根据所述第一评价值以及所述第二评价值对所述价值网络模型进行更新，本发明根据当前发车间隔以及第一评价值更新所述策略网络模型，获取更新后策略网络模型，根据所述第一评价值以及所述第二评价值更新所述价值网络模型，获取更新后价值网络模型，本发明通过当前发车间隔以及第一评价值计算出用于更新策略网络模型的更新参数，进而根据策略网络模型的初始策略网络参数以及更新参数计算出更新后策略网络参数，进而确定更新后策略网络模型，相应地，根据奖励误差、第一评价值计算出用于更新价值网络模型的更新参数，进而根据价值网络模型的初始价值网络参数以及相应的更新参数计算出更新后价值网络参数，进而确定出更新后价值网络模型。

而促使上述价值网络模型更新的依据即为奖励误差，而所述奖励误差是根据所述第一评价值、所述第二评价值以及奖励函数确定的，即根据每一次迭代前后的评价值以及奖励函数实现价值网络模型的更新，而奖励函数中所规定的乘客等待成本与企业运营成本之间的关系，则是本发明所需要解决的，如何以乘客等待成本与企业运营成本作为根本，优化列车时刻表的关键所在。

更为具体地，在步骤104中，在满足预设条件后，输入目标车次状态组至所述策略网络模型，获取所述策略网络模型输出的目标发车间隔，本发明通过输入下一车次状态组至所述更新后策略网络模型，输入所述下一车次状态组以及所述下一发车间隔至更新后价值网络模型，迭代处理，直至达到预设条件后，确定最优策略网络模型，输入目标车次状态组至所述策略网络模型，获取所述策略网络模型输出的目标发车间隔，并最终确定列车时刻表，输入下一车次状态组至所述更新后策略网络模型，以及输入所述下一车次状态组以及所述下一发车间隔至更新后价值网络模型，给出了下一次迭代中，下一车次状态组以及下一发车间隔将作为输入参数，而更新后策略网络模型以及更新后价值网络模型将作为所使用的模型，从而实现不断迭代，然而对于本发明而言，需要设定迭代完成条件，例如设置迭代次数，设置迭代效果估计等等。

可选地，所述预设条件为如下条件中的任一种：

列车发车时间超过交通运营时间；

所有车站中没有遗留人数；

可选地，在列车发车时间超过交通运营时间，且在所有车站中没有遗留人数的情况下，停止迭代，根据上一次迭代中所确定的策略网络参数以及最终更新值确定最终策略网络参数，以根据所述最终策略网络参数构建最终策略网络模型；所述最终更新值是根据第一学习参数、上一次迭代中发车间隔的影响梯度以及上一次迭代中第一评价值的影响梯度而确定的。

所述交通运营时间即为列车工作时间，例如早8点至晚9点，又例如早6点至晚11点，而为了确保每个人都能够搭上列车，本发明设置在所有车站中没有遗留人数，才算迭代完成，综合上述预期，本发明实际上需要在列车发车时间超过交通运营时间，且在所有车站中没有遗留人数的情况下，停止迭代，进而根据在停止迭代前的上一次迭代中所确定的策略网络参数以及最终更新值确定最终策略网络参数，根据所述最终策略网络参数构建最终策略网络模型。

在步骤105中，根据目标车次的初始发车时刻以及所述目标发车间隔确定所述目标车次的列车时刻表，在一个可选地实施例中，所述根据目标车次的初始发车时刻以及所述目标发车间隔确定所述目标车次的列车时刻表，包括：

在这样的实施例中，设存在四站，分别为第一站、第二站，第三站以及第四站，其中，8点当前车次发车，而各车站间的运行时间是确定的，即从第一站至第二站需要花费11分钟，从第二站至第三站需要花费13分钟，从第三站至第四站需要花费8分钟，在长交路模式下，不仅会有去程方向的线路时刻表，还会存在返程方向的线路时刻表，例如，从第四站至第三站需要花费8分钟，从第三站至第二站需要花费13分钟，从第二站至第一站需要花费11分钟，更为具体地，在第一站停留2分钟，在第二站停留3分钟，在第三站停留2分钟，在第四站停留5分钟，此时，在知道每次列车的发车间隔的情况下，则可以确定出所有列次的列车时刻表。

可选地，由于各车站之间的运行时间、各车站停留时间、终点站折返时间固定，因此可以通过以下公式推算出车站i的出发时间：

式(3)中，wⁱ表示车站i的停留时间，z^i-1,i表示车站i-1和i之间的运行时间，需要注意的是，在终点站的情况下，式(3)需要加上折返时间。

与城际之间的铁路运营相比，城市轨道交通运营具有复杂的列车时间表，在城市轨道交通的运营过程中，列车时间表的优劣关系到企业运营成本和乘客等待成本的高低，发车时间间隔过大则会增加乘客等待成本进而降低乘客满意度，而发车时间间隔过小会增加企业运营成本，影响企业收益，列车时刻表是指列车在沿线各车站的到达以及出发的时刻。值得注意的是，由于车站之间距离固定，当车站之间的运行速度、停站时间以及折返时间确定，列车时刻表仅与列车从初始发车站出发的时间有关。

为了方便理解，图6是本发明提供的长交路中交通运营场景示意图，如图6所示，长交路是指列车在线路起点和终点开行贯通式列车的交路形式，共有i+1个节点，其中0节点表示初始发车站，1到i节点表示供乘客上下车的车站，列车从0节点出发，经过i个节点后，回到0节点，其中i/2节点为上行方向的终点站，i为下行方向的终点站。

图7是本发明提供的列车时刻表确定方法的流程示意图之二，为了避免传统方法的缺点，本发明提出使用无模型强化学习对列车时刻表进行优化，无模型强化学习通过智能体与环境进行交互，如图7所示，智能体首先获取环境的状态，然后根据策略，选择一个动作作用于环境，环境接受该动作后状态发生变化，同时产生一个奖励反馈给智能体，智能体根据环境的当前状态再选择下一个动作。在这样的实施例中，智能体的目的是学习策略函数，尽可能多的从环境中获取奖励，映射在本发明中，将列车的发车时间和车站遗留总人数作为状态，将列车发车间隔作为动作，企业运营成本和乘客等待成本的加权和的相反数作为奖励，通过使用强化学习算法，可以得到运营时间内所有的列车发车时间，由列车发车时间可以推算出每站列车的到发时间，进而得到列车时刻表。

本发明公开了一种基于强化学习的长交路模式下城市轨道交通列车时刻表优化方法，面向城市轨道交通的运营过程中，长交路模式下对列车时刻表进行优化的情况，根据客流信息和列车动力学特征构建虚拟运营环境，创建状态、创建动作、创建状态转移规则、创建奖励函数、创建终止条件。

图2是本发明提供的确定下一车次状态组的流程示意图，在输入所述下一车次状态组以及所述下一发车间隔至所述价值网络模型之前，还包括：根据当前车次状态组以及所述当前发车间隔确定下一车次状态组；

在步骤201中，根据当前车次的初始发车时刻以及所述当前发车间隔确定下一车次的初始发车时刻，本领域技术人员理解，在当前车次状态组

的情况下，采取动作a_k，即输入所述当前发车间隔，此时，下一车次的列车，即第k+1次列车从始发站或停车场发车的时间为

在步骤202中，根据车次沿线的所有车站中每一车站无法乘坐当前车次列车而被迫等待下一车次列车的人数以及从每一车站出发前往指定车站的新进乘客人数确定每一车站等待乘坐下一车次列车的总人数，每一车站等待乘坐下一车次列车的总人数不仅包括由于无法乘坐当前车次列车而被迫等待下一车次列车的人数，还应当考虑到本就需要从当前车站出发前往指定车站的人群，故根据每一车站无法乘坐当前车次列车而被迫等待下一车次列车的人数与从每一车站出发前往指定车站的新进乘客人数之和确定每一车站等待乘坐下一车次列车的总人数，具体地，可以参考如下公式：

其中，

表示在车站i未乘坐k次列车被迫等待第k+1次列车的人数，而

即为从每一车站i出发前往指定车站j的新进乘客人数，

为在t-1时刻到t时刻内，从车站i出发到达车站j的乘客数量。

在步骤203中，根据下一车次列车的剩余承载容量以及每一车站等待乘坐下一车次列车的总人数确定每一车站到达指定车站的实际乘车人数，首先，需要确定下一车次列车的剩余承载容量，由于列车中本就存在一定数量的乘客，且考虑到有乘客上下车的情况，在列车容量有限的情况下，当在车站i等待乘坐第k+1次车人数大于列车剩余容量时，部分乘客将无法乘车而被迫等待第k+2次列车，当第k+1次列车到达车站i时，所能提供的剩余承载容量

计算公式如下：

其中，Γ表示列车总容量，

表示列车到达车站i之前列车内乘客数量，

在车站i下车的乘客数量。

在确定出下一车次列车的剩余承载容量后，根据下一车次列车的剩余承载容量以及每一车站等待乘坐下一车次列车的总人数确定每一车站到达指定车站的实际乘车人数，包括：

在式(7)中，

为每一车站到达指定车站的实际乘车人数，

为在车站i等待乘坐第k+1次列车到达车站j的乘客，即如果列车的剩余承载容量足够让在车站i等待乘坐第k+1次列车到达车站j的乘客上车，则

否则列车剩余空间按照在车站i等待乘列车前往车站j的乘客人数占所有在车站i等待列车的人数的百分比分配给乘客，例如，在车站i等待乘列车前往车站j的乘客人数有5人，而所有在车站i等待列车的人数有15人，则在车站i等待乘列车前往车站j的乘客人数占所有在车站i等待列车的人数的百分比为1:3，此时，若剩余承载容量为9，则允许在车站i等待乘列车前往车站j的乘客人数中的3人上车。

在步骤204中，根据从每一车站出发前往指定车站总乘客人数以及每一车站到达指定车站的实际乘车人数确定每一车站无法乘坐下一车次列车到达指定车站的遗留人数，以确定在所有车站中无法乘坐下一车次列车的总遗留人数，以确定在所有车站中无法乘坐下一车次列车的总遗留人数，结合步骤201至步骤203，通过如下公式确定每一车站无法乘坐下一车次列车到达指定车站的遗留人数：

式(8)中，

为每一车站无法乘坐下一车次列车到达指定车站的遗留人数，

为从每一车站出发前往指定车站总乘客人数，

表示每一车站到达指定车站的实际乘车人数。

确定在所有车站中无法乘坐下一车次列车的总遗留人数可以参考如下公式：

式(9)中，

为每一车站无法乘坐下一车次列车到达指定车站的遗留人数，l_k+1为所有车站中无法乘坐下一车次列车的总遗留人数。

在步骤205中，根据下一车次的初始发车时刻以及在所有车站中无法乘坐下一车次列车的总遗留人数确定所述下一车次状态组，根据步骤201确定下一车次的初始发车时刻，根据步骤202至步骤204确定在所有车站中无法乘坐下一车次列车的总遗留人数，进而确定出所述下一车次状态组。

图3是本发明提供的对所述策略网络模型进行更新的流程示意图，所述根据所述当前发车间隔以及所述第一评价值对所述策略网络模型进行更新，包括：

在步骤1031中，根据第一学习参数、当前发车间隔的影响梯度以及第一评价值的影响梯度的乘积确定第一更新值。

在步骤1032中，根据所述策略网络模型所对应的策略网络参数以及所述第一更新值确定更新后策略网络参数，以根据所述更新后策略网络参数对所述策略网络模型进行更新，根据所述策略网络模型所对应的策略网络参数以及所述第一更新值的差值确定更新后策略网络参数，具体地，参考如下公式：

式(10)中，θ_new为更新后策略网络参数，θ_now为所述策略网络模型所对应的策略网络参数，β为第一学习参数，

为当前发车间隔的影响梯度，

为第一评价值的影响梯度，进而根据所述更新后策略网络参数构建更新后策略网络模型。

图4是本发明提供的对所述价值网络模型进行更新的流程示意图，所述根据所述第一评价值以及所述第二评价值对所述价值网络模型进行更新，包括：

根据奖励函数以及所述第二评价值确定奖励目标；

根据所述第一评价值以及所述奖励目标确定奖励误差；

在步骤1033中，根据乘客等待成本以及企业运营成本确定当前车次的奖励函数，所述乘客等待成本是根据当前车次中所有车站中乘客所花费的总等待时间而确定的，具体地，强化学习的核心在于通过与环境交互，尽可能的获取最多的奖励，因此奖励对于强化学习算法至关重要，奖励函数可以看做成本函数的相反数，首先计算成本函数，成本可以分成两种，第一种是乘客等待成本，第二种是企业运营成本，企业运营成本通常由车底配置成本、运行成本，折旧和维护成本等一些列复杂成本组成，由于本发明专注于列车的运行时刻的优化，而非列车运行速度的控制，因此无法精确计算运营每次列车的成本，故将每次列车运行的总成本视为相同并用CO表示。

而针对乘客等待成本，是根据乘客等待时间与单位时间价值的乘积确定的，由于单位时间价值是固定且已知的，计算乘客等待成本重点在于计算乘客等待时间。

可选地，以第k次列车乘客等待时间为例进行说明，第k次列车的乘客等待时间由各车站等待第k次列车的乘客的总等待时间组成，对于车站i而言，乘客等待时间由两部分组成，第一部分是未乘坐第k-1次列车而被遗留下来的乘客

第二部分是在第k-1次列车从车站i出发到第k次列车从车站i出发的时间段内到达车站i的乘客

对于

其等待时间计算公式为

为第k次列车到达车站i的时间与第k-1次列车从车站i出发的时间时间差。

对于

其等待时间计算公式为

含义为第k次列车到达车站i的时间与乘客到达车站时间的时间差，其中通过上述得到车站i的乘客的等待时间

为：

进而可得第k次列车所有车站乘客等待时间为

在步骤1034中，根据奖励函数以及所述第二评价值确定奖励目标，确定奖励目标可以参考如下公式：

在式(12)中，

为奖励目标，r_k为奖励函数，γ为折扣因子，一般为0.99，q_k+1为第二评价值。

在步骤1035中，根据所述第一评价值以及所述奖励目标确定奖励误差，确定奖励误差可以参考如下公式：

式(13)中，δ_k为奖励误差，q_k为第一评价值，

为奖励目标。

在步骤1036中，根据第二学习参数、所述奖励误差、第一评价值的影响梯度的乘积确定第二更新值。

在步骤1037中，根据所述价值网络模型所对应的价值网络参数以及所述第二更新值确定更新后价值网络参数，以根据所述更新后价值网络参数对所述价值网络模型进行更新，可以参考如下公式：

式(14)中，w_new为更新后价值网络参数，w_now为所述价值网络模型所对应的价值网络参数，α为第二学习参数，δ_k为奖励误差，

为第一评价值的影响梯度，以根据所述更新后价值网络参数构建更新后价值网络模型。

图5是本发明提供的确定当前车次的奖励函数的流程示意图，所述根据乘客等待成本以及企业运营成本确定当前车次的奖励函数，包括：

根据所述乘客等待成本以及第一权重值确定第一加权值；

根据所述企业运营成本以及第二权重值确定第二加权值；

所述第一权重值与所述第二权重值之和为预设常数。

在步骤10331中，根据乘客等待时间与单位时间价值的乘积确定乘客等待成本，所述乘客等待成本是根据当前车次中所有车站中乘客所花费的总等待时间以及单位时间价值相乘而确定的。

在步骤10332中，根据所述乘客等待成本以及第一权重值的乘积确定第一加权值。

在步骤10332中，根据所述企业运营成本以及第二权重值确定第二加权值，由于所述第一权重值与所述第二权重值之和为预设常数，故所述第二权重值为预设常数与所述第一权重值之差，进而根据所述企业运营成本以及第二权重值的乘积确定第二加权值。

在步骤10333中，根据所述第一加权值以及所述第二加权值确定当前车次的奖励函数，具体地，参考如下公式：

r＝-(α×CP_k+(1-α)×CO) (15)

式(15)中，α为取值为0至1的权值，以对两者进行加权求和，CP_k为乘客等待成本，CO为企业运营成本。

图8是本发明提供的列车时刻表确定装置的结构示意图，本发明还提供了一种列车时刻表确定装置，包括执行单元1：用于重复执行以下步骤，直至满足预设条件：

根据所述当前发车间隔以及所述第一评价值对所述策略网络模型进行更新，根据所述第一评价值以及所述第二评价值对所述价值网络模型进行更新，所述执行单元1的工作原理可以参考前述步骤101至步骤103，在此不予赘述。

所述列车时刻表确定装置还包括获取单元2：用于在满足预设条件后，输入目标车次状态组至所述策略网络模型，获取所述策略网络模型输出的目标发车间隔，所述获取单元2的工作原理可以参考前述步骤104，在此不予赘述。

所述列车时刻表确定装置还包括确定单元3：用于根据目标车次的初始发车时刻以及所述目标发车间隔确定所述目标车次的列车时刻表，所述确定单元3的工作原理可以参考前述步骤105，在此不予赘述。

图9是本发明提供的电子设备的结构示意图。如图9所示，该电子设备可以包括：处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940，其中，处理器910，通信接口920，存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令，以执行列车时刻表确定方法，该方法包括：重复执行以下步骤，直至满足预设条件：输入当前车次状态组至策略网络模型，获取所述策略网络模型输出的当前发车间隔；输入下一车次状态组至所述策略网络模型，获取所述策略网络模型输出的下一发车间隔；输入所述当前车次状态组以及所述当前发车间隔至价值网络模型，获取所述价值网络模型输出的第一评价值；输入所述下一车次状态组以及所述下一发车间隔至所述价值网络模型，获取所述价值网络模型输出的第二评价值；根据所述当前发车间隔以及所述第一评价值对所述策略网络模型进行更新，根据所述第一评价值以及所述第二评价值对所述价值网络模型进行更新；在满足预设条件后，输入目标车次状态组至所述策略网络模型，获取所述策略网络模型输出的目标发车间隔；根据目标车次的初始发车时刻以及所述目标发车间隔确定所述目标车次的列车时刻表；其中，所述状态组是根据所述状态组对应的车次的初始发车时刻以及在所述状态组对应的车次沿线的所有车站中无法乘坐所述状态组对应的车次列车的总遗留人数而确定的。

此外，上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的一种列车时刻表确定方法，该方法包括：重复执行以下步骤，直至满足预设条件：输入当前车次状态组至策略网络模型，获取所述策略网络模型输出的当前发车间隔；输入下一车次状态组至所述策略网络模型，获取所述策略网络模型输出的下一发车间隔；输入所述当前车次状态组以及所述当前发车间隔至价值网络模型，获取所述价值网络模型输出的第一评价值；输入所述下一车次状态组以及所述下一发车间隔至所述价值网络模型，获取所述价值网络模型输出的第二评价值；根据所述当前发车间隔以及所述第一评价值对所述策略网络模型进行更新，根据所述第一评价值以及所述第二评价值对所述价值网络模型进行更新；在满足预设条件后，输入目标车次状态组至所述策略网络模型，获取所述策略网络模型输出的目标发车间隔；根据目标车次的初始发车时刻以及所述目标发车间隔确定所述目标车次的列车时刻表；其中，所述状态组是根据所述状态组对应的车次的初始发车时刻以及在所述状态组对应的车次沿线的所有车站中无法乘坐所述状态组对应的车次列车的总遗留人数而确定的。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的列车时刻表确定方法，该方法包括：重复执行以下步骤，直至满足预设条件：输入当前车次状态组至策略网络模型，获取所述策略网络模型输出的当前发车间隔；输入下一车次状态组至所述策略网络模型，获取所述策略网络模型输出的下一发车间隔；输入所述当前车次状态组以及所述当前发车间隔至价值网络模型，获取所述价值网络模型输出的第一评价值；输入所述下一车次状态组以及所述下一发车间隔至所述价值网络模型，获取所述价值网络模型输出的第二评价值；根据所述当前发车间隔以及所述第一评价值对所述策略网络模型进行更新，根据所述第一评价值以及所述第二评价值对所述价值网络模型进行更新；在满足预设条件后，输入目标车次状态组至所述策略网络模型，获取所述策略网络模型输出的目标发车间隔；根据目标车次的初始发车时刻以及所述目标发车间隔确定所述目标车次的列车时刻表；其中，所述状态组是根据所述状态组对应的车次的初始发车时刻以及在所述状态组对应的车次沿线的所有车站中无法乘坐所述状态组对应的车次列车的总遗留人数而确定的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种列车时刻表确定方法，其特征在于，包括：

重复执行以下步骤，直至满足预设条件：

2.根据权利要求1所述的列车时刻表确定方法，其特征在于，在输入所述下一车次状态组以及所述下一发车间隔至所述价值网络模型之前，还包括：根据当前车次状态组以及所述当前发车间隔确定下一车次状态组；

3.根据权利要求1所述的列车时刻表确定方法，其特征在于，所述根据所述当前发车间隔以及所述第一评价值对所述策略网络模型进行更新，包括：

4.根据权利要求1所述的列车时刻表确定方法，其特征在于，所述根据所述第一评价值以及所述第二评价值对所述价值网络模型进行更新，包括：

根据奖励函数以及所述第二评价值确定奖励目标；

根据所述第一评价值以及所述奖励目标确定奖励误差；

5.根据权利要求4所述的列车时刻表确定方法，其特征在于，所述根据乘客等待成本以及企业运营成本确定当前车次的奖励函数，包括：

根据所述乘客等待成本以及第一权重值确定第一加权值；

根据所述企业运营成本以及第二权重值确定第二加权值；

所述第一权重值与所述第二权重值之和为预设常数。

6.根据权利要求1所述的列车时刻表确定方法，其特征在于，所述预设条件为如下条件中的任一种：

列车发车时间超过交通运营时间；

所有车站中没有遗留人数；

7.根据权利要求1所述的列车时刻表确定方法，其特征在于，所述根据目标车次的初始发车时刻以及所述目标发车间隔确定所述目标车次的列车时刻表，包括：

8.一种列车时刻表确定装置，其特征在于，包括：

执行单元：用于重复执行以下步骤，直至满足预设条件：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述列车时刻表确定方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述列车时刻表确定方法。