CN118278145B

CN118278145B - 一种基于模仿和强化学习的铁路选线方法、设备及介质

Info

Publication number: CN118278145B
Application number: CN202410605295.9A
Authority: CN
Inventors: 李伟; 徐兴楠; 蒲浩; 宋陶然; 王光辉; 曾庆新; 谭俊豪; 康善浩; 张世成; 赵航宇
Original assignee: National Engineering Research Center Of High Speed Railway Construction Technology; Central South University
Current assignee: National Engineering Research Center Of High Speed Railway Construction Technology; Central South University
Priority date: 2024-05-16
Filing date: 2024-05-16
Publication date: 2024-08-16
Anticipated expiration: 2044-05-16
Also published as: CN118278145A

Abstract

本申请涉及铁路线路技术领域，提供了一种基于模仿和强化学习的铁路选线方法、设备及介质。该方法包括：获取专家铁路线路数据以及实际交通设施信息，基于专家铁路线路数据获取专家铁路轨迹；利用线路生成模型在噪声范围内生成专家铁路轨迹对应的初始线路；按照初始线路被选择的概率进行排序，根据排序后初始线路获取奖励推断函数；将奖励推断函数作为PPO模型的评价网络并生成铁路线路；基于实际交通设施信息计算质量指标；根据质量指标获取线路质量；根据线路质量对线路生成模型和PPO模型进行优化得到最终线路生成模型和最终PPO模型；利用最终线路生成模型和最终PPO模型生成最终铁路线路。本申请的方法能提高铁路线路的合理性。

Description

一种基于模仿和强化学习的铁路选线方法、设备及介质

技术领域

本申请涉及铁路线路技术领域，尤其涉及一种基于模仿和强化学习的铁路选线方法、设备及介质。

背景技术

铁路线路设计是铁路建设事关全局的总体性工作，是需要结合自然、社会、经济环境来确定的非线性规划问题。理论上连接起终点的线路方案方案有无穷多个，如何快速获得满足目标的最优方案是铁路线路设计面临的关键问题。

为应对上述问题，国内外众多学者开展了大量计算机辅助选线设计的研究。从单纯的二维空间线路平面优化或纵断面优化，发展为三维空间的平纵面整体优化算法；从最早期的解析数学算法，到以遗传算法、粒子群优化算法为代表的启发式算法，再到以深度学习、强化学习为代表的人工智能算法，计算机辅助选线设计算法愈发完善。但目前以粒子群算法为代表的启发式算法需要先生成线路走向，再对线路进行精细调整，计算耗时高。以深度学习、强化学习为代表的人工智能算法也逐渐引用到选线当中来，但目前已有的选线强化学习算法没有对既有专家选线规律进行深层次挖掘，模型收敛性较差，且不能充分发挥人工智能算法的先进性，导致生成铁路线路的合理性低。

发明内容

本申请实施例提供了一种基于模仿和强化学习的铁路选线方法、设备及介质，可以解决生成铁路线路的合理性低的问题。

第一方面，本申请实施例提供了一种基于模仿和强化学习的铁路选线方法，该铁路选线方法包括：

获取目标区域的多个专家铁路线路数据以及每个专家铁路线路数据对应的实际交通设施信息，并基于每个专家铁路线路数据获取专家铁路轨迹；

利用线路生成模型在多个噪声范围内生成每条专家铁路轨迹对应的多条初始线路；

按照每条专家铁路轨迹对应的每条初始线路被选择的概率将多条初始线路进行排序，并根据排序后所有专家铁路轨迹对应的多条初始线路获取奖励推断函数；

将奖励推断函数作为PPO模型的评价网络，并利用PPO模型生成目标区域的多条铁路线路；

分别针对每条铁路线路，基于所有专家铁路线路数据对应的实际交通设施信息计算铁路线路的建设困难度指标，并根据建设困难度指标计算铁路线路的质量指标；

根据每条铁路线路的质量指标获取每条铁路线路的线路质量；

根据多条铁路线路的线路质量对线路生成模型和PPO模型进行优化，并将优化后的线路生成模型作为最终线路生成模型，将优化后的PPO模型作为最终PPO模型；

利用最终线路生成模型和最终PPO模型为待建设区域生成多条最终铁路线路。

可选的，基于每个专家铁路线路数据获取专家铁路轨迹，包括：

通过公式：

获取第个专家铁路线路数据对应的专家铁路轨迹；

其中，表示所述第条专家铁路轨迹的第1个特征点的状态，表示所述第条专家铁路轨迹的第1个特征点的动作，表示所述第条专家铁路轨迹的第2个特征点的状态，，表示专家铁路线路数据的总数，所述第条专家铁路轨迹的第2个特征点的动作，表示所述第条专家铁路轨迹的第个特征点的状态，表示所述第条专家铁路轨迹的第个特征点的动作：

其中，表示所述第个专家铁路线路数据中第个特征点的横坐标，表示所述第个专家铁路线路数据中第个特征点的纵坐标，表示所述第个专家铁路线路数据中第个特征点的高程坐标，表示所述第个专家铁路线路数据中第个特征点的坡度，表示所述第个专家铁路线路数据中第个特征点的方位角，，表示所述第个专家铁路线路数据中最后一个特征点，表示所述第个专家铁路线路数据中特征点之间的距离，表示所述第个专家铁路线路数据中第个特征点的坡度变化值，表示所述第个专家铁路线路数据中第个特征点的方位角变化值。

可选的，利用线路生成模型在多个噪声范围内生成每条专家铁路轨迹对应的多条初始线路，包括：

利用行为克隆算法对第条专家铁路轨迹进行学习，得到第条专家铁路轨迹的专家策略；

设定噪声集合；其中，表示第1个噪声，表示第2个噪声，表示第个噪声，；

通过公式：

生成所述第条专家铁路轨迹在第个噪声范围内第个特征点的策略；

其中，表示所述第条专家铁路轨迹的专家策略在第个特征点的策略，表示在第个噪声范围内生成的第个特征点的随机策略，，表示噪声总数，表示贪婪系数，，，表示专家铁路线路数据的总数，，表示初始线路的特征点总数；

将所述第条专家铁路轨迹在第个噪声范围内所有特征点的策略进行整合，得到所述第条专家铁路轨迹对应的第条初始线路。

可选的，按照每条专家铁路轨迹对应的每条初始线路被选择的概率将多条初始线路进行排序，包括：

通过公式：

对初始线路进行排序；

其中，表示排序后得到的第个初始线路序列，表示所述第条专家铁路轨迹对应的第条初始线路，表示所述第条专家铁路轨迹对应的第条初始线路，表示所述第条专家铁路轨迹对应的第条初始线路被选择的概率小于所述第条专家铁路轨迹对应的第条初始线路，。

可选的，奖励推断函数为：

其中，表示初始线路的状态，表示参数，表示所有专家铁路轨迹对应的第条初始线路的集合，表示所有专家铁路轨迹对应的第条初始线路的集合，，表示噪声总数。

可选的，实际交通设施信息包括桥梁数量和桥梁长度、隧道数量和隧道长度、专家铁路线路长度；

基于所有专家铁路线路数据对应的实际交通设施信息计算铁路线路的建设困难度指标，包括：

通过公式：

计算第条铁路线路的建设困难度指标；

其中，，表示所述铁路线路的总数，均表示权重系数，和均表示对比系数：

其中，表示所述第条铁路线路的超长桥梁的数量，表示所述第条铁路线路的超长桥梁的公里数，表示所述第条铁路线路的超长隧道的数量，表示所述第条铁路线路的超长隧道的公里数，表示所述第条铁路线路在复杂地质地区的铁路总长度，表示专家铁路轨迹的超长桥梁的平均数量，表示专家铁路轨迹的超长桥梁的平均公里数，表示专家铁路轨迹的超长隧道的平均数量，表示专家铁路轨迹的超长隧道的平均公里数，表示专家铁路轨迹的在复杂地质地区的铁路总长度平均值；

根据建设困难度指标计算铁路线路的质量指标，包括：

通过公式：

计算第条铁路线路的质量指标；

其中，表示所述第条铁路线路的第种建设成本，表示建设成本的种类总数。

可选的，根据每条铁路线路的质量指标获取每条铁路线路的线路质量，包括：

分别针对每条铁路线路，进行以下步骤：

判断铁路线路的质量指标是否小于等于；其中，表示系数，表示专家质量指标；

若是，则铁路线路的线路质量为优质；

否则，铁路线路的线路质量为劣质。

可选的，根据多条铁路线路的线路质量对线路生成模型和PPO模型进行优化，包括：

判断线路质量为优质的铁路线路的数量是否达到预设占比；

若是，则将铁路线路生成模型作为优化后的线路生成模型，并将PPO模型作为优化后的PPO模型；

否则，调整铁路线路生成模型和PPO模型中的参数，并返回利用线路生成模型在多个噪声范围内生成每条专家铁路轨迹对应的多条初始线路的步骤。

第二方面，本申请实施例提供了一种基于模仿和强化学习的铁路选线装置，包括：

获取模块，获取目标区域的多个专家铁路线路数据以及每个专家铁路线路数据对应的实际交通设施信息，并基于每个专家铁路线路数据获取专家铁路轨迹；

第一生成模块，利用线路生成模型在多个噪声范围内生成每条专家铁路轨迹对应的多条初始线路；

排序模块，按照每条专家铁路轨迹对应的每条初始线路被选择的概率将多条初始线路进行排序，并根据排序后所有专家铁路轨迹对应的多条初始线路获取奖励推断函数；

第二生成模块，将奖励推断函数作为PPO模型的评价网络，并利用PPO模型生成目标区域的多条铁路线路；

计算模块，分别针对每条铁路线路，基于所有专家铁路线路数据对应的实际交通设施信息计算铁路线路的建设困难度指标，并根据建设困难度指标计算铁路线路的质量指标；

线路质量获取模块，根据每条铁路线路的质量指标获取每条铁路线路的线路质量；

优化模块，根据多条铁路线路的线路质量对线路生成模型和PPO模型进行优化，并将优化后的线路生成模型作为最终线路生成模型，将优化后的PPO模型作为最终PPO模型；

第三生成模块，利用最终线路生成模型和最终PPO模型为待建设区域生成多条最终铁路线路。

第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，该处理器执行上述计算机程序时实现上述的基于模仿和强化学习的铁路选线方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述的基于模仿和强化学习的铁路选线方法。

本申请的上述方案有如下的有益效果：

在本申请的实施例中，通过获取目标区域的多个专家铁路线路数据以及每个专家铁路线路数据对应的实际交通设施信息，并基于每个专家铁路线路数据获取专家铁路轨迹，然后利用线路生成模型在多个噪声范围内生成每条专家铁路轨迹对应的多条初始线路，再按照每条专家铁路轨迹对应的每条初始线路被选择的概率将多条初始线路进行排序，并根据排序后所有专家铁路轨迹对应的多条初始线路获取奖励推断函数，然后将奖励推断函数作为PPO模型的评价网络，并利用PPO模型生成目标区域的多条铁路线路，再分别针对每条铁路线路，基于所有专家铁路线路数据对应的实际交通设施信息计算铁路线路的建设困难度指标，并根据建设困难度指标计算铁路线路的质量指标，然后根据每条铁路线路的质量指标获取每条铁路线路的线路质量，再根据多条铁路线路的线路质量对线路生成模型和PPO模型进行优化，并将优化后的线路生成模型作为最终线路生成模型，将优化后的PPO模型作为最终PPO模型，最后利用最终线路生成模型和最终PPO模型为待建设区域生成多条最终铁路线路。其中，基于专家铁路轨迹生成初始线路是对专家铁路轨迹的模仿，在噪声范围内生成初始线路，使得初始线路对专家铁路轨迹进行随机性的模仿，将基于初始线路得到的奖励推断函数作为PPO模型的评价网络，使得PPO模型在生成铁路线路时对专家铁路轨迹的选线原理进行学习，进而提高铁路线路的合理性，基于实际交通设施信息获取每条铁路线路的线路质量，使得获取的线路质量在实际建设方面的精确度和合理性提高，根据精确且合理的线路质量对线路生成模型和PPO模型进行优化，能够有效提高线路生成模型和PPO模型的质量，进而提高生成的最终铁路线路的合理性。

本申请的其它有益效果将在随后的具体实施方式部分予以详细说明。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的基于模仿和强化学习的铁路选线方法的流程图；

图2为本申请一实施例提供的行为克隆算法的结构示意图；

图3为本申请一实施例提供的奖励推断的流程示意图；

图4为本申请一实施例提供的基于模仿和强化学习的铁路选线装置的结构示意图；

图5为本申请一实施例提供的终端设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

针对现有的生成铁路线路的合理性低的问题，本申请实施例提供了一种基于模仿和强化学习的铁路选线方法，该铁路选线方法通过获取目标区域的多个专家铁路线路数据以及每个专家铁路线路数据对应的实际交通设施信息，并基于每个专家铁路线路数据获取专家铁路轨迹，然后利用线路生成模型在多个噪声范围内生成每条专家铁路轨迹对应的多条初始线路，再按照每条专家铁路轨迹对应的每条初始线路被选择的概率将多条初始线路进行排序，并根据排序后所有专家铁路轨迹对应的多条初始线路获取奖励推断函数，然后将奖励推断函数作为PPO模型的评价网络，并利用PPO模型生成目标区域的多条铁路线路，再分别针对每条铁路线路，基于所有专家铁路线路数据对应的实际交通设施信息计算铁路线路的建设困难度指标，并根据建设困难度指标计算铁路线路的质量指标，然后根据每条铁路线路的质量指标获取每条铁路线路的线路质量，再根据多条铁路线路的线路质量对线路生成模型和PPO模型进行优化，并将优化后的线路生成模型作为最终线路生成模型，将优化后的PPO模型作为最终PPO模型，最后利用最终线路生成模型和最终PPO模型为待建设区域生成多条最终铁路线路。其中，基于专家铁路轨迹生成初始线路是对专家铁路轨迹的模仿，在噪声范围内生成初始线路，使得初始线路对专家铁路轨迹进行随机性的模仿，将基于初始线路得到的奖励推断函数作为PPO模型的评价网络，使得PPO模型在生成铁路线路时对专家铁路轨迹的选线原理进行学习，进而提高铁路线路的合理性，基于实际交通设施信息获取每条铁路线路的线路质量，使得获取的线路质量在实际建设方面的精确度和合理性提高，根据精确且合理的线路质量对线路生成模型和PPO模型进行优化，能够有效提高线路生成模型和PPO模型的质量，进而提高生成的最终铁路线路的合理性。

接下来对本申请提供的基于模仿和强化学习的铁路选线方法做示例性说明。

如图1所示，本申请提供的基于模仿和强化学习的铁路选线方法包括如下步骤：

步骤11，获取目标区域的多个专家铁路线路数据以及每个专家铁路线路数据对应的实际交通设施信息，并基于每个专家铁路线路数据获取专家铁路轨迹。

需要说明的是，上述目标区域为具有由专家制定的铁路线路的区域，上述专家铁路线路数据为专家铁路线路所覆盖区域的地形信息以及专家铁路线路的线路信息，地形信息如坡度、坐标、高程等，线路信息如专家铁路线路在每个特征点的方位角、特征点之间的距离等。特征点为专家铁路线路上的点。

具体的，通过公式：

获取第个专家铁路线路数据对应的专家铁路轨迹。

在本申请的一些实施例中，上述特征点的横坐标和纵坐标均为以目标区域的多个地图顶点中与海平面海拔相同的点为原点构建的高程坐标系中的坐标。

示例性的，可以通过中国铁路地图等网站获取目标区域的多个专家铁路线路数据，并利用matlab等数据处理软件获取专家铁路轨迹。

值得一提的是，专家铁路轨迹中包括每个特征点的动作和状态，可以很好地表示专家铁路线路数据中所包含的信息，便于后续的计算。

步骤12，利用线路生成模型在多个噪声范围内生成每条专家铁路轨迹对应的多条初始线路。

在本申请的一些实施例中，上述利用线路生成模型在多个噪声范围内生成每条专家铁路轨迹对应的多条初始线路的步骤具体为：

第一步，利用行为克隆算法对第条专家铁路轨迹进行学习，得到第条专家铁路轨迹的专家策略。

第二步，设定噪声集合；其中，表示第1个噪声，表示第2个噪声，表示第个噪声，。

第三步，通过公式：

；

生成第条专家铁路轨迹在第个噪声范围内第个特征点的策略；

其中，表示第条专家铁路轨迹的专家策略在第个特征点的策略，表示在第个噪声范围内生成的第个特征点的随机策略，，表示噪声总数，表示贪婪系数，，，表示专家铁路线路数据的总数，，表示初始线路的特征点总数。

第四步，将第条专家铁路轨迹在第个噪声范围内所有特征点的策略进行整合，得到第条专家铁路轨迹对应的第条初始线路。

可以理解的是，上述生成策略的公式可以理解为线路生成模型的表达式。

需要说明的是，上述行为克隆算法可以是基于长短期记忆网络（LSTM，LongShort-Term Memory）模型的行为克隆算法，贪婪系数表现为选择策略的概率。上述策略为动作和以及对应的状态的组合。

示例性的，利用行为克隆算法得到第2条专家铁路轨迹的专家策略，并选取第1个噪声，贪婪系数设定为0.2，说明生成第2条专家铁路轨迹在第1个噪声范围内第1个特征点的策略时，有0.8的概率选择第2条专家铁路轨迹的专家策略在第1个特征点的策略，有0.2的概率选择在第1个噪声范围内生成的随机策略，将线路生成模型生成的第2条专家铁路轨迹在第1个噪声范围内所有特征点的策略进行整合，得到第2条专家铁路轨迹对应的第1条初始线路。

下面结合一具体示例对上述行为克隆算法进行示例性说明。

基于LSTM模型的行为克隆算法如图2所示，图中将专家选线示例库（即上文中的专家铁路线路数据）进行数据预处理得到专家铁路轨迹，并将专家铁路轨迹输入到输入层，输入层将专家铁路轨迹输入到LSTM层，LSTM层的输出端与隐藏层的输入端相连接，隐藏层的输出端与全连接层的输入端相连接，全连接层向输出层输出距离、坡度变化值、方位角变化值等信息，这些信息构成了专家铁路轨迹的策略。

值得一提的是，基于专家铁路轨迹生成初始线路是对专家铁路轨迹的模仿，学习了专家铁路轨迹的信息，在噪声范围内生成初始线路，提高了初始线路的合理性的同时保证了初始线路的随机性。

步骤13，按照每条专家铁路轨迹对应的每条初始线路被选择的概率将多条初始线路进行排序，并根据排序后所有专家铁路轨迹对应的多条初始线路获取奖励推断函数。

在本申请的一些实施例中，上述按照每条专家铁路轨迹对应的每条初始线路被选择的概率将多条初始线路进行排序，并根据排序后所有专家铁路轨迹对应的多条初始线路获取奖励推断函数的步骤具体包括：

第一步，通过公式：

；

对初始线路进行排序。

其中，表示排序后得到的第个初始线路序列，表示第条专家铁路轨迹对应的第条初始线路，表示第条专家铁路轨迹对应的第条初始线路，表示第条专家铁路轨迹对应的第条初始线路被选择的概率小于第条专家铁路轨迹对应的第条初始线路，。

第二步，根据排序后所有专家铁路轨迹对应的多条初始线路获取奖励推断函数。

上述奖励推断函数为：

其中，表示初始线路的状态，表示参数，表示所有专家铁路轨迹对应的第条初始线路的集合，表示所有专家铁路轨迹对应的第条初始线路的集合，，表示噪声总数，为现有的状态函数，如演员评论家算法中的状态函数。

需要说明的是，初始线路被选择的概率是由对应的噪声决定的，通过不同的噪声生成的初始线路被选择的概率不同。

示例性的，可以利用Matlab等计算机软件对多条初始线路进行排序，并获取奖励推断函数。

下面结合一具体示例对上述步骤做示例性说明。

进行奖励推断（即上文中获取奖励推断函数）的过程如图3所示，图中通过行为克隆学习到的有监督神经网络（即上文中的行为克隆算法和线路生成模型）引入噪声并进行噪声轨迹（即上文中的初始线路）生成，得到有噪声的轨迹库，对轨迹库中的所有噪声轨迹进行数据预处理，并进入输入层，输入层将数据输入到并行全连接层中（即上文中的奖励推断函数）得到奖励推断结果，奖励推断结果输出到输出层，奖励推断结果为所有专家铁路轨迹对应的多条初始线路中被选择概率最大的一条初始线路。

值得一提的是，根据排序后的初始线路计算得到的奖励推断函数能够对初始线路被选择的概率进行推断，并反映初始线路对专家铁路轨迹的学习程度。

步骤14，将奖励推断函数作为PPO模型的评价网络，并利用PPO模型生成目标区域的多条铁路线路。

在本申请的一些实施例中，近端策略优化（PPO，Proximal Policy Optimization）模型中的状态转移函数为：

执行第个特征点的动作。

若第个特征点为变坡点，即，，则第个特征点的状态为：

若第个特征点为交点，即，，则第个特征点的状态为：

其中，表示第个特征点的横坐标，表示第个特征点的纵坐标，表示第个特征点的高程，表示第个特征点的坡度，表示第个特征点的方位角，表示第条专家铁路轨迹中特征点之间的距离，表示第个特征点的坡度变化值，表示第个特征点的方位角变化值，表示第个特征点的横坐标，表示第个特征点的纵坐标，表示第个特征点的坡度，表示第个特征点的方位角，表示第个特征点的高程。

当时，特征点的状态为预设状态。

示例性的，可以利用Matlab等计算机软件运行PPO模型，并生成目标区域的多条铁路线路。

值得一提的是，将基于初始线路得到的奖励推断函数作为PPO模型的评价网络，使得PPO模型在生成铁路线路时对专家铁路轨迹的选线原理进行学习，进而提高铁路线路的合理性。

步骤15，分别针对每条铁路线路，基于所有专家铁路线路数据对应的实际交通设施信息计算铁路线路的建设困难度指标，并根据建设困难度指标计算铁路线路的质量指标。

需要说明的是，上述实际交通设施信息包括桥梁数量和桥梁长度、隧道数量和隧道长度、专家铁路线路长度。

在本申请的一些实施例中，上述分别针对每条铁路线路，基于所有专家铁路线路数据对应的实际交通设施信息计算铁路线路的建设困难度指标，并根据建设困难度指标计算铁路线路的质量指标的步骤具体为：

第一步，基于所有专家铁路线路数据对应的实际交通设施信息计算铁路线路的建设困难度指标。

具体的，通过公式：

计算第条铁路线路的建设困难度指标。

其中，，表示铁路线路的总数，均表示权重系数，和均表示对比系数：

其中，表示第条铁路线路的超长桥梁的数量，表示第条铁路线路的超长桥梁的公里数，表示第条铁路线路的超长隧道的数量，表示第条铁路线路的超长隧道的公里数，表示第条铁路线路在复杂地质地区的铁路总长度，表示专家铁路轨迹的超长桥梁的平均数量，表示专家铁路轨迹的超长桥梁的平均公里数，表示专家铁路轨迹的超长隧道的平均数量，表示专家铁路轨迹的超长隧道的平均公里数，表示专家铁路轨迹的在复杂地质地区的铁路总长度平均值。

第二步，根据建设困难度指标计算铁路线路的质量指标。

具体的，通过公式：

计算第条铁路线路的质量指标。

其中，表示第条铁路线路的第种建设成本，表示建设成本的种类总数。

需要说明的是，上述超长桥梁的平均数量、超长隧道的平均公里数、超长桥梁的平均数量、超长桥梁的平均公里数、在复杂地质地区的铁路总长度平均值均是通过分析起点和终点相同的专家铁路轨迹得到的。上述建设成本为桥梁成本、隧道成本、土方成本、征地费等实际建设时需要考虑的成本。

示例性的，可以利用Mathematica等数学计算的软件计算铁路线路的质量指标。

值得一提的是，基于实际交通设施信息获取每条铁路线路的线路质量，考虑了实际建设方面的信息，对实际建设的困难程度进行了分析，使得获取的线路质量在实际建设方面的精确度和合理性提高。

步骤16，根据每条铁路线路的质量指标获取每条铁路线路的线路质量。

具体的，分别针对每条铁路线路，进行以下步骤：

判断铁路线路的质量指标是否小于等于；其中，表示系数，表示专家质量指标。

若是，则铁路线路的线路质量为优质。

否则，铁路线路的线路质量为劣质。

需要说明的是，上述优质表示铁路线路被划分为优质线路，劣质表示铁路线路被划分为劣质线路。

示例性的，第1条铁路线路的质量指标为3.2，系数，专家质量指标，第1条铁路线路的质量指标大于，则第1条铁路线路的线路质量为优质，被划分为优质线路，第2条铁路线路的质量指标为2.7，小于，则第2条铁路线路的线路质量为劣质，被划分为劣质线路。

值得一提的是，通过对铁路线路的质量指标和专家质量指标之间的差距进行分析，能够很好地判断出生成的铁路线路的质量优劣。

步骤17，根据多条铁路线路的线路质量对线路生成模型和PPO模型进行优化，并将优化后的线路生成模型作为最终线路生成模型，将优化后的PPO模型作为最终PPO模型。

具体的，判断线路质量为优质的铁路线路的数量是否达到预设占比。

若是，则将铁路线路生成模型作为优化后的线路生成模型，并将PPO模型作为优化后的PPO模型。

示例性的，在共10条铁路线路中，线路质量为优质的铁路线路为4条，占比40%，预设占比为50%，说明此时线路生成模型和PPO模型需要优化，则调整线路生成模型和PPO模型中的参数，并返回利用线路生成模型在多个噪声范围内生成专家铁路轨迹对应的多条初始线路的步骤，此时线路质量为优质的铁路线路为7条，占比70%，达到预设占比，则将此时的线路生成模型作为最终线路生成模型，PPO模型作为最终PPO模型。

值得一提的，根据精确且合理的线路质量对线路生成模型和PPO模型进行优化，能够有效提高线路生成模型和PPO模型的质量。

步骤18，利用最终线路生成模型和最终PPO模型为待建设区域生成多条最终铁路线路。

需要说明的是，上述待建设区域为需要进行铁路线路生成的区域。

示例性的，获取待建设区域的多条专家线路轨迹，并利用线路生成模型生成多条初始线路，然后根据所有初始线路获取奖励推断函数，再将该奖励推断函数作为最终PPO模型的评价网络，最后利用最终PPO模型为待建设区域生成多条最终铁路线路，在实际建设时根据待建设区域的实际地理情况和建设情况选取对应的最终铁路线路。

值得一提的是，基于专家铁路轨迹生成初始线路是对专家铁路轨迹的模仿，在噪声范围内生成初始线路，使得初始线路对专家铁路轨迹进行随机性的模仿，将基于初始线路得到的奖励推断函数作为PPO模型的评价网络，使得PPO模型在生成铁路线路时对专家铁路轨迹的选线原理进行学习，进而提高铁路线路的合理性，基于实际交通设施信息获取每条铁路线路的线路质量，使得获取的线路质量在实际建设方面的精确度和合理性提高，根据精确且合理的线路质量对线路生成模型和PPO模型进行优化，能够有效提高线路生成模型和PPO模型的质量，进而提高生成的最终铁路线路的合理性。

下面对本申请提供的铁路选线装置进行示例性说明。

如图4所示，本申请实施例提供了一种基于模仿和强化学习的铁路选线装置，该铁路选线装置400包括：

获取模块401，获取目标区域的多个专家铁路线路数据以及每个专家铁路线路数据对应的实际交通设施信息，并基于每个专家铁路线路数据获取专家铁路轨迹；

第一生成模块402，利用线路生成模型在多个噪声范围内生成每条专家铁路轨迹对应的多条初始线路；

排序模块403，按照每条专家铁路轨迹对应的每条初始线路被选择的概率将多条初始线路进行排序，并根据排序后所有专家铁路轨迹对应的多条初始线路获取奖励推断函数；

第二生成模块404，将奖励推断函数作为PPO模型的评价网络，并利用PPO模型生成目标区域的多条铁路线路；

计算模块405，分别针对每条铁路线路，基于所有专家铁路线路数据对应的实际交通设施信息计算铁路线路的建设困难度指标，并根据建设困难度指标计算铁路线路的质量指标；

线路质量获取模块406，根据每条铁路线路的质量指标获取每条铁路线路的线路质量；

优化模块407，根据多条铁路线路的线路质量对线路生成模型和PPO模型进行优化，并将优化后的线路生成模型作为最终线路生成模型，将优化后的PPO模型作为最终PPO模型；

第三生成模块408，利用最终线路生成模型和最终PPO模型为待建设区域生成多条最终铁路线路。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

如图5所示，本申请的实施例提供了一种终端设备，该实施例的终端设备D10包括：至少一个处理器D100（图5中仅示出一个处理器）、存储器D101以及存储在所述存储器D101中并可在所述至少一个处理器D100上运行的计算机程序D102，所述处理器D100执行所述计算机程序D102时实现上述任意各个方法实施例中的步骤。

具体的，所述处理器D100执行所述计算机程序D102时，通过获取目标区域的多个专家铁路线路数据以及每个专家铁路线路数据对应的实际交通设施信息，并基于每个专家铁路线路数据获取专家铁路轨迹，然后利用线路生成模型在多个噪声范围内生成每条专家铁路轨迹对应的多条初始线路，再按照每条专家铁路轨迹对应的每条初始线路被选择的概率将多条初始线路进行排序，并根据排序后所有专家铁路轨迹对应的多条初始线路获取奖励推断函数，然后将奖励推断函数作为PPO模型的评价网络，并利用PPO模型生成目标区域的多条铁路线路，再分别针对每条铁路线路，基于所有专家铁路线路数据对应的实际交通设施信息计算铁路线路的建设困难度指标，并根据建设困难度指标计算铁路线路的质量指标，然后根据每条铁路线路的质量指标获取每条铁路线路的线路质量，再根据多条铁路线路的线路质量对线路生成模型和PPO模型进行优化，并将优化后的线路生成模型作为最终线路生成模型，将优化后的PPO模型作为最终PPO模型，最后利用最终线路生成模型和最终PPO模型为待建设区域生成多条最终铁路线路。其中，基于专家铁路轨迹生成初始线路是对专家铁路轨迹的模仿，在噪声范围内生成初始线路，使得初始线路对专家铁路轨迹进行随机性的模仿，将基于初始线路得到的奖励推断函数作为PPO模型的评价网络，使得PPO模型在生成铁路线路时对专家铁路轨迹的选线原理进行学习，进而提高铁路线路的合理性，基于实际交通设施信息获取每条铁路线路的线路质量，使得获取的线路质量在实际建设方面的精确度和合理性提高，根据精确且合理的线路质量对线路生成模型和PPO模型进行优化，能够有效提高线路生成模型和PPO模型的质量，进而提高生成的最终铁路线路的合理性。

所称处理器D100可以是中央处理单元(CPU，Central Processing Unit)，该处理器D100还可以是其他通用处理器、数字信号处理器 (DSP，Digital Signal Processor)、专用集成电路 (ASIC，Application Specific Integrated Circuit)、现成可编程门阵列(FPGA，Field-Programmable Gate Array) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器D101在一些实施例中可以是所述终端设备D10的内部存储单元，例如终端设备D10的硬盘或内存。所述存储器D101在另一些实施例中也可以是所述终端设备D10的外部存储设备，例如所述终端设备D10上配备的插接式硬盘，智能存储卡（SMC，SmartMedia Card ），安全数字（SD，Secure Digital）卡，闪存卡（Flash Card）等。进一步地，所述存储器D101还可以既包括所述终端设备D10的内部存储单元也包括外部存储设备。所述存储器D101用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器D101还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行时实现可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到基于模仿和强化学习的铁路选线方法装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上所述是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种基于模仿和强化学习的铁路选线方法，其特征在于，包括：

按照每条专家铁路轨迹对应的每条初始线路被选择的概率将所述多条初始线路进行排序，并根据排序后所有专家铁路轨迹对应的多条初始线路获取奖励推断函数；

将所述奖励推断函数作为PPO模型的评价网络，并利用所述PPO模型生成所述目标区域的多条铁路线路；

分别针对每条铁路线路，基于所有专家铁路线路数据对应的实际交通设施信息计算所述铁路线路的建设困难度指标，并根据所述建设困难度指标计算所述铁路线路的质量指标；

根据所述多条铁路线路的线路质量对所述线路生成模型和所述PPO模型进行优化，并将优化后的线路生成模型作为最终线路生成模型，将优化后的PPO模型作为最终PPO模型；

利用所述最终线路生成模型和所述最终PPO模型为待建设区域生成多条最终铁路线路；

其中，所述基于每个专家铁路线路数据获取专家铁路轨迹的步骤包括：

通过公式：

获取第个专家铁路线路数据对应的专家铁路轨迹；

其中，表示第条专家铁路轨迹的第1个特征点的状态，表示所述第条专家铁路轨迹的第1个特征点的动作，表示所述第条专家铁路轨迹的第2个特征点的状态，，表示所述专家铁路线路数据的总数，所述第条专家铁路轨迹的第2个特征点的动作，表示所述第条专家铁路轨迹的第个特征点的状态，表示所述第条专家铁路轨迹的第个特征点的动作：

其中，表示所述第个专家铁路线路数据中第个特征点的横坐标，表示所述第个专家铁路线路数据中第个特征点的纵坐标，表示所述第个专家铁路线路数据中第个特征点的高程坐标，表示所述第个专家铁路线路数据中第个特征点的坡度，表示所述第个专家铁路线路数据中第个特征点的方位角，，表示所述第个专家铁路线路数据中最后一个特征点，表示所述第个专家铁路线路数据中特征点之间的距离，表示所述第个专家铁路线路数据中第个特征点的坡度变化值，表示所述第个专家铁路线路数据中第个特征点的方位角变化值；

所述利用线路生成模型在多个噪声范围内生成每条专家铁路轨迹对应的多条初始线路，包括：

通过公式：

其中，表示所述第条专家铁路轨迹的专家策略在第个特征点的策略，表示在第个噪声范围内生成的第个特征点的随机策略，，表示噪声总数，表示贪婪系数，，，表示所述专家铁路线路数据的总数，，表示初始线路的特征点总数；

将所述第条专家铁路轨迹在第个噪声范围内所有特征点的策略进行整合，得到所述第条专家铁路轨迹对应的第条初始线路；

所述将所述奖励推断函数作为PPO模型的评价网络，并利用所述PPO模型生成所述目标区域的多条铁路线路的步骤包括：

PPO模型中的状态转移函数为：

执行第个特征点的动作；

若第个特征点为变坡点，即，，则第个特征点的状态为：

；

若第个特征点为交点，即，，则第个特征点的状态为：

；

其中，表示第个特征点的横坐标，表示第个特征点的纵坐标，表示第个特征点的高程，表示第个特征点的坡度，表示第个特征点的方位角，表示第条专家铁路轨迹中特征点之间的距离，表示第个特征点的坡度变化值，表示第个特征点的方位角变化值，表示第个特征点的横坐标，表示第个特征点的纵坐标，表示第个特征点的坡度，表示第个特征点的方位角，表示第个特征点的高程；

当时，特征点的状态为预设状态。

2.根据权利要求1所述的铁路选线方法，其特征在于，所述按照每条专家铁路轨迹对应的每条初始线路被选择的概率将所述多条初始线路进行排序，包括：

通过公式：

对初始线路进行排序；

3.根据权利要求1所述的铁路选线方法，其特征在于，所述奖励推断函数为：

4.根据权利要求1所述的铁路选线方法，其特征在于，所述实际交通设施信息包括桥梁数量和桥梁长度、隧道数量和隧道长度、专家铁路线路长度；

所述基于所有专家铁路线路数据对应的实际交通设施信息计算所述铁路线路的建设困难度指标，包括：

通过公式：

计算第条铁路线路的建设困难度指标；

所述根据所述建设困难度指标计算所述铁路线路的质量指标，包括：

通过公式：

计算第条铁路线路的质量指标；

5.根据权利要求1所述的铁路选线方法，其特征在于，所述根据每条铁路线路的质量指标获取每条铁路线路的线路质量，包括：

分别针对每条铁路线路，进行以下步骤：

判断所述铁路线路的质量指标是否小于等于；其中，表示系数，表示专家质量指标；

若是，则所述铁路线路的线路质量为优质；

否则，所述铁路线路的线路质量为劣质。

6.根据权利要求5所述的铁路选线方法，其特征在于，所述根据所述多条铁路线路的线路质量对所述线路生成模型和所述PPO模型进行优化，包括：

判断线路质量为优质的铁路线路的数量是否达到预设占比；

若是，则将所述铁路线路生成模型作为优化后的线路生成模型，并将所述PPO模型作为优化后的PPO模型；

否则，调整所述铁路线路生成模型和所述PPO模型中的参数，并返回所述利用线路生成模型在多个噪声范围内生成每条专家铁路轨迹对应的多条初始线路的步骤。

7.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6一项所述的基于模仿和强化学习的铁路选线方法。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的基于模仿和强化学习的铁路选线方法。