CN113327055B

CN113327055B - 调车作业计划的生成方法、装置、电子装置和存储介质

Info

Publication number: CN113327055B
Application number: CN202110696483.3A
Authority: CN
Inventors: 施俊庆; 陈林武; 孟国连; 夏顺娅; 程明慧
Original assignee: Zhejiang Normal University CJNU
Current assignee: Zhejiang Normal University CJNU
Priority date: 2021-06-23
Filing date: 2021-06-23
Publication date: 2024-04-23
Anticipated expiration: 2041-06-23
Also published as: CN113327055A

Abstract

本申请涉及一种调车作业计划的生成方法、装置、电子装置和存储介质，其中，该生成方法包括：获取待编车列的下落状态和下落动作；定义奖励函数，并根据该下落状态、该下落动作和该奖励函数建立强化学习模型；其中，该奖励函数用于表示该待编车列的调车程数量与奖励值之间的对应关系；利用该强化学习模型生成该待编车列的调车作业计划表。通过本申请，解决了调车作业计划的生成效率低，实现了调车作业计划编制的智能化决策。

Description

调车作业计划的生成方法、装置、电子装置和存储介质

技术领域

本申请涉及调车作业计划技术领域，特别是涉及调车作业计划的生成方法、装置、电子装置和存储介质。

背景技术

调车工作是铁路编组站的主要生产活动之一，处于中心环节地位，而调车作业计划的质量决定了车站调车工作的效率。调车作业计划是面向调车班组规定其作业程序的具体行动计划。在相关技术中，摘挂列车的调车作业计划一般通过表格调车法、统筹对口调车法或消逆调车法等到实现摘挂列车的编组，由于上述方法通常得到的调车方案发生的连挂钩数较多，且筛选过程复杂繁琐，导致调车作业计划的生成效率较低。

目前针对相关技术中调车作业计划的生成效率低的问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种调车作业计划的生成方法、装置、电子装置和存储介质，以至少解决相关技术中调车作业计划的生成效率低的问题。

第一方面，本申请实施例提供了一种调车作业计划的生成方法，所述方法包括：

获取待编车列的下落状态和下落动作；

定义奖励函数，并根据所述下落状态、所述下落动作和所述奖励函数建立强化学习模型；其中，所述奖励函数用于表示所述待编车列的调车程数量与奖励值之间的对应关系；

利用所述强化学习模型生成所述待编车列的调车作业计划表。

在其中一些实施例中，所述根据所述下落状态、所述下落动作和所述奖励函数建立强化学习模型包括：

根据所述下落状态和所述下落动作生成Q值表；

根据所述Q值表中的当前状态，基于预设策略获取所述下落动作中的当前动作；

根据所述当前动作和所述奖励函数更新所述下落状态中的下一个状态；

在判断所述下一个状态为目标状态的情况下，检测所述Q值表是否收敛；

在所述Q值表收敛时，获取所述强化学习模型。

在其中一些实施例中，所述利用所述强化学习模型生成所述待编车列的调车作业计划表包括：

利用所述强化学习模型，根据预设调车表获取最优调车表，并根据所述最优调车表获取目标状态；

在所述待编车列到达所述目标状态的情况下，根据所述最优调车表和预设摘挂条件生成所述调车作业计划表。

在其中一些实施例中，所述根据所述最优调车表和预设摘挂条件生成所述调车作业计划表包括：

根据所述最优调车表，判断所述预设摘挂条件中的挂车条件是否成立；若针对所述挂车条件的判断结果为否，检测所述待编车列中是否有预设车组；

在检测所述预设车组失败的情况下，判断所述预设摘挂条件中的摘车条件是否成立，若针对所述摘车条件的判断结果为是，基于所述摘车条件进行摘车，直至检测到存在所述预设车组；

在检测到存在所述预设车组的情况下循环检测所述预设摘挂条件，直至所述待编车列中所有车列构成所述预设车组，进而得到所述调车作业计划表。

在其中一些实施例中，获取所述下落状态和所述下落动作包括：

基于预设调车表获取所述下落状态；

根据所述待编车列的下落股道编号获取动作空间，基于所述预设调车表获取所述动作空间中的所述下落动作。

在其中一些实施例中，所述定义奖励函数包括：

获取所述下落动作对应的预设即时奖励，并根据所述预设即时奖励生成所述奖励函数。

第二方面，本申请实施例提供了一种调车作业计划的生成装置，所述装置包括：获取模块、建立模型和生成模块；

所述获取模块，用于获取待编车列的下落状态、下落动作和奖励函数；

所述建立模块，用于定义奖励函数，并根据所述下落状态、所述下落动作和所述奖励函数建立强化学习模型；其中，所述奖励函数用于表示所述待编车列的调车作业计划表的奖励值；

所述生成模块，用于利用所述强化学习模型生成所述待编车列的调车作业计划表。

在其中一些实施例中，所述装置包括：获取模块、建立模型和生成模块；

第三方面，本申请实施例提供了一种电子装置，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的调车作业计划的生成方法。

第四方面，本申请实施例提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所述的调车作业计划的生成方法。

相比于相关技术，本申请实施例提供的调车作业计划的生成方法、装置、电子装置和存储介质，通过获取待编车列的下落状态和下落动作；定义奖励函数，并根据该下落状态、该下落动作和该奖励函数建立强化学习模型；其中，该奖励函数用于表示该待编车列的调车程数量与奖励值之间的对应关系；利用该强化学习模型生成该待编车列的调车作业计划表，解决了调车作业计划的生成效率低，实现了调车作业计划编制的智能化决策。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种M-N区段中间站设置的示意图；

图2是根据本申请实施例的一种M站调车场的示意图；

图3是根据本申请实施例的一种调车作业计划的生成方法的流程图；

图4是根据本申请实施例的另一种调车作业计划的生成方法的流程图；

图5是根据本申请实施例的一种Q值变化的示意图；

图6是根据本申请实施例的一种车组重组方法的流程图；

图7是根据本申请实施例的一种调车作业计划的生成装置的结构框图；

图8是根据本申请实施例的一种计算机设备内部的结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

需要说明的是，在本申请实施例中，摘挂列车编组调车作业计算，是指将调车场某调车线上集结的去往前方中间站的车辆，从杂乱无章的顺序，按站顺编组，即利用调车机车、牵出线和调车线，采用推送调车和溜放调车的方法，将同一到站的车辆挂在一起，并按车辆到站的先后顺序进行编挂。为叙述方便，用阿拉伯数字代替车组到站，并规定距离最远的车站对应的车组为1，从远到近依次编为2，3，…。本申请假设调车机车在右端作业，每个车组含一辆车。

例如，M站与相邻技术站N站之间的中间站设置如图1所示，开行方向为从M站至N站，M站与N站之间的中间站名包括：a，b，c，d，e，f，g，则规定离距离M站最远的中间站g站对应车组为1，到站序号从左至右分别是7至1。M站调车线上待编车列如图2所示，待编车列编号为3，4，1，7，2，6，1，2，5，3，7。要求按站顺编组，即列车编成后，其排列顺序为1，1，2，2，3，3，4，5，6，7，7。

调车作业计划可分两个部分：第一部分为下落，第二部分为重组。在编组列车时，为了调转列车的顺序，需要将反顺序的车组分解到不同的股道上，这种调车过程反映在调车表上，称为下落。表格调车法是一种常用且简单的编组摘挂列车方法，该方法通过车组下落分解待编车列，然后再通过合并形成暂合列，减少占用股道数及推送钩数，最后通过重复摘挂车辆进行重组，形成符合站顺要求的车列。

调车作业计划以调车钩为基本单位对调车作业做出安排。机车连挂一组车辆的作业，称为“挂车钩”，用“+”表示，表示车列中车辆数将增加；机车摘解一组车辆的作业，称为“摘车钩”，用“-”表示，表示车列中车辆数将减少。调车程是指机车或机车连挂车辆加减速一次的移动，通常，挂车钩对应于2个调车程，摘车钩则对应于1个调车程，调车作业计划的本质就是通过调车作业方案的优选，实现调车程的最小化，而调车作业方案的优选实质上是对下落方案的优选。

为建立问题模型，引入如下定义：

(1)接连：从左侧某车组起，相邻车组编号差值不大于1且为递增(或相等)的连接形式。

(2)非接连：与接连相对应，指相邻车组不满足接连的连接形式。

(3)调车表：一个行列的表格，用于表示车组在调车场中的位置，调车表中的行表示股道，列表示车组。

(4)目标暂合列：调车表中非接连形式车组所在行。

(5)非接连数：暂合列中非接连形式的数量。相邻两车组组成非接连形式，即产生一个非接连数。

如“1，3，2，4，4，5，6”中1，3之间空缺2差值大于1，且3，2不为递增或相等的关系，因此1，3与3，2均组成非接连，产生2个非接连数，后续从第4个车组4起与车组4，5，6构成接连形式。

本实施例提供了一种调车作业计划的生成方法，图3是根据本申请实施例的一种调车作业计划的生成方法的流程图，如图3所示，该流程包括如下步骤：

步骤S302，获取待编车列的下落状态和下落动作。

其中，假设K为编组站实际可用的股道数量，L为待编车列中车组数量，G为挂车钩数，D为摘车钩数，C_ij表示调车表中第i行中第j辆车，L_i为第i条股道上的车组数，P_i为第i条股道上的最右端车组编号(若第i条股道上没有车组，则不存在P_i)。Z表示调车机车最左端连挂的车组编号；上述符号汇总如表1所示。

表1

符号	定义
		L	车组数
K	股道数
		G	挂车钩数
D	摘车钩数
		C_ij	调车表的第i行中第j辆车
L_i	股道i上的车组数量
		P_i	第i条股道上最右端车组编号
Z	调车机车最左端的车组编号

如图1中的待编车列，当其下落后，在调车场，即预设调车表中的位置如表2所示时，其K＝5，L＝11，C₁₁＝3，C₁₂＝4，C₁₃＝5，L₁＝3，P₁＝5，上述案例中存在唯一目标暂合列，即i＝4，仅7、6构成非接连，因此非接连数为1。

表2

其中，马尔科夫决策过程(Markov decision process，简称为MDP)是强化学习的理论基础，即假设下一个状态仅与当前状态有关。本申请根据MDP过程进行强化学习建模，引入表格调车法的思想，通过状态、动作和奖励三要素的设置构建强化学习模型，用于摘挂列车下落方案的优选。不失一般性，本申请假设牵出线及调车线的存车、调机的牵引能力等不受限制。

步骤S304，定义奖励函数，并根据该下落状态、该下落动作和该奖励函数建立强化学习模型；其中，该奖励函数用于表示该待编车列的调车程数量与奖励值之间的对应关系。

需要说明的是，由于在编组待编车列的过程中调车程数量是评判下落方案优劣的主要依据，因此根据调车程数量设计奖励函数。规定下落过程中，第t车组选择动作a_t后获得的预设即时奖励为r(s_t-1,a_t)＝C1，C1为常数。当所有动作完成后，计算出下落方案的最终奖励R_final，如公式1所示。

其中C为正数，G为挂车钩数，D为摘车钩数，根据调车作业计划表获取；而每一步下的累积奖励R如公式2所示。

然后根据上述下落状态、下落动作和奖惩函数建立用于优化调车作业表的强化学习模型。

步骤S306，利用该强化学习模型生成该待编车列的调车作业计划表。

通过上述步骤S302至步骤S306，通过获取待编车列的下落状态和下落动作，并根据该下落状态、该下落动作以及定义的奖励函数建立强化学习模型，利用该强化学习模型生成待编车列的调车作业计划表，从而将强化学习算法用于调车作业计划的优化，建立了最佳调车作业计划与待编车列之间的映射关系，解决了调车作业计划的生成效率低的问题。

在其中一些实施例中，提供了一种调车作业计划的生成方法，图4是根据本申请实施例的另一种调车作业计划的生成方法的流程图，如图4所示，该流程包括图3所示的步骤S302和步骤S306，此外还包括如下步骤：

步骤S402，定义奖励函数，根据该下落状态和该下落动作生成Q值表；根据该Q值表中的当前状态，基于预设策略获取该下落动作中的当前动作；根据该当前动作和该奖励函数更新该下落状态中的下一个状态；在判断该下一个状态为目标状态的情况下，检测该Q值表是否收敛；在该Q值表收敛时，获取该强化学习模型。

其中，本申请实施例主要应用Q学习算法，根据累积的奖励R来决定环境状态S与相应的最佳动作A之间的映射关系。每对状态-动作(s,a)都具有相应的Q值，表示状态-动作对的预期长期积累的奖励值。在每次迭代中，根据当前状态S，从动作集A中选择可用的动作a_t并执行，Q值根据迭代中的累积奖励R进行更新。

本申请使用动态的Q值表来存储学习所得到的记忆，如表3所示。其中每行表示对应车组所学习到的状态及其Q值，前L列组成状态向量，L+1列为状态对应的Q值。初始时刻，Q值表仅记录了初始状态s₀及其对应的Q值，每当状态发生变化时，Q表中该状态对应的Q值将被更新，若Q表中无该状态，则插入该状态及其Q值。

表3

1	2	3	4	…	L	L+1
							0	0	0	0	0	0	Q₀
1	0	0	0	0	0	Q₁
							1	1	0	0	0	0	Q₂
1	2	0	0	0	0	Q₃
							1	1	1	0	0	0	Q₄
1	1	2	0	0	0	Q₅
							1	1	3	0	0	0	Q₆
…	…	…	…	…	…	…

根据状态获得的经验知识，采取公式2更新Q值，更新后的Q值和动作分别如公式3和公式4所示：

其中，Q(s_t-1,a_t)表示状态s_t-1执行动作a_t的Q值，a_t由预设策略π(a|s)决定，该预设策略表示状态s下选择动作a的概率，如公式4所示，其中ε＝1/x为贪婪率，x为迭代次数，argmaxQ(s,a')表示Q值最大下的动作的取值。α为学习率，γ∈(0,1]为折扣系数。研究表明，当α满足一定条件时，马尔科夫决策过程下Q学习算法能够收敛；如果γ接近于0，则调车机车会倾向于即时奖励。如果γ接近于1，则调车机车会更多地考虑未来的奖励，愿意延迟奖励。同时，我们设定连续1000步内累积Q值不发生变化即收敛。算法的具体过程如下：

Step1：初始化Q值表，确定待编车列，默认参数α＝0.5，γ＝0.9，C1＝0，C＝5000。

Step2：生成初始状态s₀，执行Step3。

Step3：根据当前状态s，从可选择的动作方案中，按公式4选择动作a，执行Step4。

Step4：根据动作a将状态转移至s'，并计算R，根据公式4更新Q值，执行Step5。

Step5：将s'作为新的s，判断s是否为目标状态，是则执行Step6，否则执行Step3。

Step6：判断Q值表是否已经收敛，是则退出循环，记录数据，否则执行Step2。需要补充说明的是，本申请实施例中定义的收敛标准为：上述Q值表中所有Q值累加和不再发生变化。

通过上述步骤S402至步骤S406，通过下落状态和下落动作生成Q值表，根据Q值表确定当前动作，并基于该当前动作和奖励函数进行下落状态更新，最终生成强化学习模型，从而实现了将Q学习算法用于调车作业计划的优化，有效提高了调车作业计划生成的准确性。

在其中一些实施例中，上述步骤S306还包括：利用该强化学习模型，根据预设调车表获取最优调车表，并根据该最优调车表获取目标状态；在该待编车列到达该目标状态的情况下，根据该最优调车表和预设摘挂条件生成该调车作业计划表。

具体地，本申请中强化学习模型的实验运行环境可以为：设备CPU—Intel Corei7，工具Visual Studio(C#)。以上述待编车列3，4，1，7，2，6，1，2，5，3，7为例，在可用线路为3条，即K＝3时，强化学习模型进行充分学习后，累加Q值的变化形式如图5所示。起始阶段累加Q值为零，并且调车机车会有较大概率进行探索，学习各种方案，随着迭代次数的增加，累加Q值会不断变化，而当调车机车学习充分后，会执行回报最大的动作序列，使得累加Q值趋于固定，达到收敛状态。

调车机车学习充分后的最优调车表如表4所示，即目标状态为s₁₁＝(1,1,2,3,3,3,2,2,1,2,2)。

表4最优调车表

当到达目标状态后，调车机车依照车组重组流程，根据下落方案将车组依次溜放至相应股道上。而本方案中，端组是最大编号车组(7号车组)，并且在调车表中其左端相邻位置存在车组3，因此末尾部分车组(3和7)均不溜放，连挂于调车机车上，结束下落；

下落结束后根据重组流程，需在调车表中依次寻找满足挂车条件1～3的车组，股道3(目标暂合列)中第2个车组满足条件2，因此将2号车组及其右端所有车组连挂至调车机车；紧接着确定调车机车上所有车组并不构成接连，因而根据摘车条件4～5寻找能够溜放的股道，股道2中第3个车组满足条件4，因此将Z＝2溜放至股道2，此时调车机车上所有车组仍不构成接连，须继续根据条件4～5寻找能够溜放的股道，直至调车机车上所有车组构成接连且股道中有无比Z大的车组，因此将Z＝6溜放至股道1，Z＝3溜放至股道2；此时仅剩端组7连挂在机车上，已构成接连且股道中无比7大的车组，因此须再次寻找满足挂车条件1～3的车组，直至股道中无车组。具体调车作业计划如表5所示，该方案共用12个钩(5个挂车钩、7个摘车钩)，17个调车程。

表5

序号	作业方案
		1	1+9
2	2-1
		3	3-3
4	2-2
		5	1-1
6	3+2
		7	2-1
8	1-1
		9	2-1
10	3+1
		11	1+4
12	2+5
		总计	14
调车程	18

本申请通过三个案例来比较算法性能，对于案例一中的统筹对口调车法，本申请随机选择一种进行对比；其中，案例二和案例三中的车组序列，各方法的调车结果取自相关文献。

案例一中待编车列采用统筹对口法实现按站顺编组，须使用4条线路，共用13钩(5个挂车钩、8个摘车钩)，18个调车程；本申请算法在可用线路为2条时，共用12钩(6个挂车钩、6个摘车钩)，18个调车程；在可用线路为3条时，调车作业计划如上述表5所示。案例二中待编车列采用排序二叉树算法实现按站顺编组，须使用4条线路，共用19钩(6个挂车钩、13个摘车钩)，25个调车程；本申请算法在可用线路为2条时，共用19钩(6个挂车钩、13个摘车钩)，25个调车程；在可用线路为3条时，共用18个钩(6个挂车钩、12个摘车钩)，24个调车程。案例三中，待编车列采用分支定界法实现按站顺编组，须使用3条线路，共用14钩，包括5个挂车钩和9个摘车钩，以及使用19个调车程；同时，根仿真结果显示，案例三中分支定界法在相似设备及工具条件下求解时间为1076秒，而本申请实施例的求解时间为53.36秒。

上述算法比较的具体结果如表6所示：

表6

通过对比分析案例一、二结果，可以看出本申请算法能在使用更少股道数量情况下得到优于统筹对口法及排序二叉树算法的调车作业计划。案例三中各方法的结果表明，本申请算法能在比消逆规则的分支定界算法更短的时间求解出具有类似质量的调车作业计划。

在其中一些实施例中，根据该最优调车表和预设摘挂条件生成该调车作业计划表包括如下步骤：根据该最优调车表，判断该预设摘挂条件中的挂车条件是否成立；若针对该挂车条件的判断结果为否，检测该待编车列中是否有预设车组；在检测该预设车组失败的情况下，判断该预设摘挂条件中的摘车条件是否成立，若针对该摘车条件的判断结果为是，基于该摘车条件进行摘车，直至检测到该预设车组；在检测到存在该预设车组的情况下，循环检测该预设摘挂条件，直至该待编车列中所有车列构成该预设车组，进而得到该调车作业计划表。

需要补充说明的是，上述预设摘挂条件是指可以由调度人员预先进行设置的，用于判断是否需要进行摘车和挂车的条件。具体地，当到达目标状态后，需要根据此状态(下落方案)将车组依次溜放至相应股道上，然后通过挂车和摘车对调车场上的车辆进行重组，以实现按站顺编组，并根据调车程数量计算奖励值。

考虑到分解待编车列时，若待编车列端组(最右端车组)为最大编号车组，将其下落可能会产生一个多余的溜放钩。基于此，本申请假设端组为最大编号车组时，根据下落方案所得的调车表，端组及其左端直接相连的车组将连挂在调车机车上，不进行下落。如表2中，端组为最大编号车组(7号车组)，但调车表中其左端相邻位置并无车组，所以仅端组不下落。

待编车列下落完毕后，其余车组需先根据调车表依次判断上述预设摘挂条件中的挂车条件，确定是否挂车。若针对上述挂车条件的判断结果为是，即挂车条件成立，则执行挂车并继续判断挂车条件直至挂车条件不成立；若上述针对挂车条件的判断结果为否，即该挂车条件不成立，则判断调车机车上所有待编车组中是否有预设车组，该预设车组可以设置为构成接连且股道中有无比Z大的车组。若检测到不存在上述预设车组，则根据上述预设摘挂条件中的摘车条件确定摘车，溜放车组直至调车机车上所有车组构成接连且股道中无比Z大的车组，若本轮未进行过挂车或摘车，需将Z车组随机溜放至任意股道；当检测到存在上述预设车组，且调车表中存在剩余车组时再次判断摘挂条件，循环上述过程，直至调车表中无剩余车组，最后获得调车作业计划表，并根据计划表得到挂车钩数G和摘车钩数D。

图6是根据本申请实施例的一种车组重组方法的流程图，如图6所示，该流程包括如下步骤：

步骤S602，在输入下落方案后，进行下落分解并依次判断挂车条件。其中，该挂车条件包括：条件1：存在C_ij及其右端所有车组都能与调车机车上连挂的车组构成“接连”，且股道中不存在比C_ij大的车组；条件2：目标暂合列(按非接连数从大到小依次寻找)中存在C_ij＝P_m或C_ij＝P_m+1(i≠m，此时i为目标暂合列)；条件3：调车表中存在C_ij＝P_m或C_ij＝P_m+1(i≠m)。

步骤S604，当满足任一挂车条件时，车组C_ij及其右端的所有车组都将挂至调机上。

步骤S606，若上述挂车条件均不满足，判断调车机车上是否存在构成接连且股道中有无比Z大的车组。

步骤S608，若上述步骤S606判断结果为否，依次判断摘车条件。其中，该摘车条件包括：条件4：存在P_i，使Z＝P_i；条件5：存在P_i，使Z＝P_i+1。

步骤S610，当满足任一摘车条件时，将调车机车最左端的车组(即Z号车组)溜放至相应股道。

步骤S612，判断本轮是否进行过挂车或摘车；若步骤S612判断结果为是，则继续执行上述步骤S602判断上述挂车条件；若步骤S612判断结果为否，需将车组随机溜放至任意股道，再继续判断上述挂车条件。

步骤S614，若上述步骤S606判断结果为是，则判断调车表中是否存在剩余车组；若步骤S614判断结果为是，则循环上述步骤S602至步骤S612，再次判断摘挂条件，直至步骤S614判断结果为否，即调车表中无剩余车组，最后输出获得调车作业计划表。

通过上述实施例，基于最优调车表，依次判断预设摘挂条件中的挂车条件和摘车条件是否成立，检测待编车列中是否有预设车组，并基于循环检测获得调车作业计划表，从而进一步提高了调车作业计划生成的准确性。

在其中一些实施例中，上述步骤S302还包括如下步骤：基于预设调车表获取该下落状态；根据该待编车列的下落股道编号获取动作空间，基于该预设调车表获取该动作空间中的该下落动作。

本申请将调车表简化为一个L维的行向量，并用其来表示模型的状态，其中第t(t≤L)维对应第t车组，第t维数值为第t车组所在股道编号，如上述表2中调车表对应的状态为s₁₁＝(1,1,2,4,3,4,2,2,1,3,4)。初始状态s₀为L维的零向量；当第t车组选择一条股道下落时，向量中第t维数值就会变为所选股道编号(规定编号均不为零)，并且状态发生一次变化，将变化后的状态定义为s_t；目标状态为s_L，表示所有车组均选择了动作。

本申请将车组下落的股道编号定义为动作，并假设各车组可选择的动作有K种，即动作空间A＝{1,2,…,K}。考虑到如果各车组可选择的动作均为K种时，会存在大量的重复解，因此为了减少重复性，规定第t车组可选择的动作集如下：

若t<K，动作集A_t＝{1,2,…,t}；若t≥K，动作集A_t＝{1,2,…,K}；

其中是第t车组选择的动作集合，a_t∈A_t是第t车组的动作。

初始状态s₀，首次动作选择为a₁(即第1个车组选择的动作)，据此更新的状态为s₁。以此类推，即状态s_t-1采取动作a_t后，状态更新为s_t，如式2所示，其中s′为转移后的状态，如公式5所示。

s′＝s_t←s_t-1+a_t 公式5

需要说明的是，在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本实施例还提供了一种调车作业计划的生成装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图7是根据本申请实施例的一种调车作业计划的生成装置的结构框图，如图7所示，该装置包括：获取模块72、建立模块74和生成模块76；该获取模块72，用于获取待编车列的下落状态、下落动作和奖励函数；该建立模块74，用于定义奖励函数，并根据该下落状态、该下落动作和该奖励函数建立强化学习模型；其中，该奖励函数用于表示该待编车列的调车作业计划表的奖励值；该生成模块76，用于利用该强化学习模型生成该待编车列的调车作业计划表。

通过上述实施例，获取模块72获取待编车列的下落状态和下落动作，建立模块74根据该下落状态、该下落动作以及定义的奖励函数建立强化学习模型，生成模块76利用该强化学习模型生成待编车列的调车作业计划表，从而将强化学习算法用于调车作业计划的优化，建立了最佳调车作业计划与待编车列之间的映射关系，解决了调车作业计划的生成效率低的问题。

在其中一些实施例中，该建立模块74还用于根据该下落状态和该下落动作生成Q值表；该建立模块74根据该Q值表中的当前状态，基于预设策略获取该下落动作中的当前动作；该建立模块74根据该当前动作和该奖励函数更新该下落状态中的下一个状态；该建立模块74在判断该下一个状态为目标状态的情况下，检测该Q值表是否收敛；该建立模块74在该Q值表收敛时，获取该强化学习模型。

在其中一些实施例中，该生成模块76还用于利用该强化学习模型，根据预设调车表获取最优调车表，并根据该最优调车表获取目标状态；该生成模块76在该待编车列到达该目标状态的情况下，根据该最优调车表和预设摘挂条件生成该调车作业计划表。

在其中一些实施例中，该生成模块76还用于根据该最优调车表，判断该预设摘挂条件中的挂车条件是否成立；若针对该挂车条件的判断结果为否，该生成模块76检测该待编车列中是否有预设车组；该生成模块76在检测该预设车组失败的情况下，断该预设摘挂条件中的摘车条件是否成立，若针对该摘车条件的判断结果为是，基于该摘车条件进行摘车，直至检测到存在该预设车组；该生成模块76在检测到存在该预设车组的情况下，循环检测该预设摘挂条件，直至该待编车列中所有车列构成该预设车组，进而得到该调车作业计划表。

在其中一些实施例中，该获取模块72还用于基于预设调车表获取该下落状态；该获取模块72根据该待编车列的下落股道编号获取动作空间，基于该预设调车表获取该动作空间中的该下落动作。

在其中一些实施例中，该建立模块74还用于获取该下落动作对应的预设即时奖励，并根据该预设即时奖励生成该奖励函数。

需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

在其中一些实施例中，提供了一种计算机设备，该计算机设备可以是服务器，图8是根据本申请实施例的一种计算机设备内部的结构图，如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储强化学习模型。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种调车作业计划的生成方法。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取待编车列的下落状态和下落动作。

S2，定义奖励函数，并根据该下落状态、该下落动作和该奖励函数建立强化学习模型；其中，该奖励函数用于表示该待编车列的调车程数量与奖励值之间的对应关系。

S3，利用该强化学习模型生成该待编车列的调车作业计划表。

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

另外，结合上述实施例中的调车作业计划的生成方法，本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序；该计算机程序被处理器执行时实现上述实施例中的任意一种调车作业计划的生成方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域的技术人员应该明白，以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种调车作业计划的生成方法，其特征在于，所述方法包括：

获取待编车列的下落状态和下落动作；

定义奖励函数，并根据所述下落状态、所述下落动作和所述奖励函数建立强化学习模型；其中，所述奖励函数用于表示所述待编车列的调车程数量与奖励值之间的对应关系；所述奖励函数如下公式所示：r(S_t-1,a_t)＝C1，其中，所述C1为常数，所述S_t-1为t-1时刻的环境状态，a_t为t时刻的最佳动作；建立所述强化学习模型包括：通过所述下落状态和所述下落动作生成Q值表，根据所述Q值表确定当前动作，并基于所述当前动作和所述奖励函数进行所述下落状态的更新，最终生成所述强化学习模型；其中，所述Q值基于累积奖励进行更新，所述累积奖励如下公式所示：其中，L为待编车列中车组数量，R_final为最终奖励，所述最终奖励如下公式所示：/>其中，C为正数，G为挂车钩数，D为摘车钩数；

2.根据权利要求1所述的生成方法，其特征在于，所述利用所述强化学习模型生成所述待编车列的调车作业计划表包括：

3.根据权利要求2所述的生成方法，其特征在于，所述根据所述最优调车表和预设摘挂条件生成所述调车作业计划表包括：

在检测到存在所述预设车组的情况下，循环检测所述预设摘挂条件，直至所述待编车列中所有车列构成所述预设车组，进而得到所述调车作业计划表。

4.根据权利要求1所述的生成方法，其特征在于，获取所述下落状态和所述下落动作包括：

基于预设调车表获取所述下落状态；

5.根据权利要求1至4任一项所述的生成方法，其特征在于，所述定义奖励函数包括：

6.一种调车作业计划的生成装置，其特征在于，所述装置包括：获取模块、建立模块和生成模块；

所述建立模块，用于定义奖励函数，并根据所述下落状态、所述下落动作和所述奖励函数建立强化学习模型；其中，所述奖励函数用于表示所述待编车列的调车作业计划表的奖励值；具体地，所述奖励函数如下公式所示：r(St-1,at)＝C1，其中，所述C1为常数，所述St-1为t-1时刻的环境状态，at为t时刻的最佳动作；建立所述强化学习模型包括：通过所述下落状态和所述下落动作生成Q值表，根据所述Q值表确定当前动作，并基于所述当前动作和所述奖励函数进行所述下落状态的更新，最终生成所述强化学习模型；其中，所述Q值基于累积奖励进行更新，所述累积奖励如下公式所示：其中，L为待编车列中车组数量，所述R_final为最终奖励，所述最终奖励如下公式所示：其中，C为正数，G为挂车钩数，D为摘车钩数；

7.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至5中任一项所述的调车作业计划的生成方法。

8.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1至5中任一项所述的调车作业计划的生成方法。