CN115809502B

CN115809502B - 一种山区铁路大临工程配套道路的智能规划与设计方法

Info

Publication number: CN115809502B
Application number: CN202310089524.1A
Authority: CN
Inventors: 王浩; 何庆; 高岩; 张天龙; 徐双婷; 高天赐; 甘蜜; 王平
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2023-02-09
Filing date: 2023-02-09
Publication date: 2023-04-25
Anticipated expiration: 2043-02-09
Also published as: CN115809502A

Abstract

本发明涉及山区铁路规划技术领域，涉及一种山区铁路大临工程配套道路的智能规划与设计方法，其包括以下步骤：S1:获取研究区域大临工程以及既有道路的空间信息，以及研究区域的相关地形信息；S2:问题阐述以及优化目标定义；S3:配套道路初始规划方案生成；采用最小生成树算法，生成配套道路的初始规划方案；S4:配套道路最终方案的智能化优化方法；本发明可大量节省人力物力，有效提升了山区铁路建设的效率和水平。

Description

一种山区铁路大临工程配套道路的智能规划与设计方法

技术领域

本发明涉及山区铁路规划技术领域，具体地说，涉及一种山区铁路大临工程配套道路的智能规划与设计方法。

背景技术

山区大型铁路临时工程（大临工程包括：制梁场、项目临时指挥部、钢筋加工厂、混凝土拌合站、铺轨、弃渣场等）配套道路规划与设计是目前国家落实“高铁走出去”战略的重大需求。然而，不同一般地区的铁路建设，山区具有自然条件极度恶劣、生态脆弱、既有交通条件薄弱等特点，因此，山区的大型铁路工程配套道路建设是一项极具挑战的工程，配套道路的规划与设计直接决定了山区铁路建设的施工难度，极有可能成为制约交通强国战略落实的关键因素。因此，破解山区多因素约束下的大型铁路临时工程配套道路规划与选线设计对于西部地区未来的铁路建设，比如渝西高铁、成渝中线、西（宁）成铁路等，具有十分重要的建设意义。

针对大型铁路临时工程配套道路建设的问题，长期采用人工决策和手工选线等传统方法，这种方法不但效率低下，而且选定的线路往往不是最优方案。同时，大临工程配套道路在规划与设计时不仅需要解决物资运输效率、配套道路造价的问题，还需要协同考虑与既有道路达成“永临结合”的空间布局。因此，依靠传统设计有限的时间与精力，难以实现山区铁路大临工程配套道路的综合最优，亟需提出一种智能化方法以提高其布局规划和设计效率。

发明内容

本发明的内容是提供一种山区铁路大临工程配套道路的智能规划与设计方法，其能够综合考虑山区铁路大临工程配套道路的建造成本和物资运输效率，并对既有道路进行充分利用。

根据本发明的一种山区铁路大临工程配套道路的智能规划与设计方法，其包括以下步骤：

S1:获取研究区域大临工程以及既有道路的空间信息，以及研究区域的相关地形信息；

S2: 定义优化目标；具体为：

a、需满足一个基本规划设计原则，即大临工程必须与既有道路产生直接和间接的连接；

b、将大临工程设施和既有道路视为节点，节点与节点之间连接时需应用连接代价，采用节点之间真实的建造成本作为连接代价；

c、需应用铁路建设物资的运输效率；

S3: 生成配套道路初始规划方案；

采用最小生成树算法，生成配套道路的初始规划方案，使山区铁路大临工程配套道路满足步骤S2中定义的基本规划设计原则，同时确保配套道路的初始规划方案的连接代价最低；

S4:使用配套道路最终方案的智能化优化方法，使连接代价和运输效率综合最优；具体为：

A、定义优化函数；

优化函数定义为：

式中，表示第一个优化目标，即最小化整体连接代价；表示第二个优化目标，即最小化配套道路的货运周转量；表示第个连接的连接代价，表示第个连接的连接状态，代表可以连接，代表不可连接；为配套道路的总运输周转量；

B、确定优化的连接总数；

优化的连接总数为：

潜在可行的连接数量减去最小生成树算法产生的连接数量，即：

式中，为节点总数，每个节点对应一个大临设施或者施工道路；为节点之间存在的潜在连接的总量；为最小生成树算法产生的总的连接数量；

C、根据优化函数和优化的连接总数，采用多目标深度强化学习的方法来搜索最优的配套道路规划方案，采用MODDPG算法来求解配套道路的最优规划方案。

作为优选，步骤S2中，计算建造成本之前需要确定节点之间的平纵断面线形，先生成平纵断面，然后进一步地计算出建造成本，其中，代表各类大临设施或者既有道路；

在计算配套道路的运输效率之前，首先提出假设，即每一个工点处所需的物资和产生的废弃资源由该工点最近的大临设施负责处理；基于该假设，山区铁路隧道建设的配套道路的物资运输效率用货运周转量来描述：

式中，配套道路的货运周转量；为第个隧道斜井距离其最近的混凝土拌合站的运输距离；为第个隧道斜井距离其最近的弃渣场的运输距离；为第个隧道斜井所需的混凝土量；为第个隧道斜井产生的弃渣量。

作为优选，步骤S3中，基于最小生成树算法生成配套道路初始方案的如下：

定义为所有道路节点的集合，节点包括各个大临设施和既有道路；同时，定义为经过k个迭代步骤以后已连接节点的集合，为经过k个迭代步骤以后未连接节点的集合；最小生成树算法的具体迭代流程如下：

Step 0: 设置：；

Step 1:从中随机选取一个节点，将其放入中并将其从中移除，因此，；

Step k:从中选取一个节点，节点对于集合中的每一个节点具有最小的连接代价，将节点加入到集合中，并将其中中移除，即：

判断是否为空集，如果为空集，那么迭代结束，获取初始的配套道路规划方案；如果不是空集则开始k+1次迭代步骤。

作为优选，步骤S4中，多目标深度强化学习的方法中，强化学习包含以下属性：

1）智能体：智能体理解为山区铁路大临工程配套道路的规划和设计人员；

2）环境：环境包含各个大临设施以及既有道路之间的连接代价，当前配套道路布局的物资运输效率的计算规则；

3）状态：状态理解为当前配套道路的布局情况；

4）动作：动作为对配套道路布局的调整；

在利用强化学习进行优化时，智能体首先从环境中观测当前的状态，并根据不断学习的策略函数选择最优的动作与环境进行交互，环境会因为智能体执行的动作而产生状态改变，同时会反馈给智能体相应的奖励值，最后智能体根据环境反馈的奖励值来判断在状态下执行动作是否合理，并从中汲取教训，更新策略函数；之后，智能体将进入下一轮与环境的交互，如此循环往复直到智能体能够满足所执行任务的进度或者达到最终的迭代次数。

作为优选，步骤S4中，山区铁路大临工程配套道路的优化在强化学习框架下的数学表达：

（1）状态

状态表示为现有配套道路初始方案的基础上，对配套道路的修改，其数学表达式为：

（2）动作

动作表示为对现有配套道路的第m个连接方式进行修改，其数学表达式为：

式中，，且为正整数；

执行动作后，现有配套道路的第m个连接方式修改为：；

此时，现有配套道路的状态改变为：

（3）奖励

奖励的数学表达式为：

式中，为针对配套道路连接代价的奖励函数，由于优化目标为降低配套道路的总连接代价，因此奖励值可取为总连接代价的负数，连接代价越小越大；为针对配套道路物资运输效率的奖励函数。

作为优选，步骤S4中，MODDPG包含了 Actor-Net和 Critic-Net，其中，Actor-Net负责根据当前的状态输出动作， Critic-Net负责评价智能体在当前状态下采用输出动作的好坏； Actor-Net将当前的状态和随机生成偏好作为输入，并且将该偏好下的动作作为输出；每一次执行动作时，不同目标之间的偏好或者权重需要重新随机生成一次；

在更新MODDPG网络参数时，通过创建一个Memory Buffer来存储从过渡到的transition step的各类属性，包括智能体当前的状态、在此状态下的动作、采取此动作后环境给予智能体的反馈以及采取此动作后智能体到达的下一步状态；在训练时，会从Memory Buffer中随机选择若干个transition step进行训练，首先将计算得到的policy gradient利用随机梯度下降法更新MODDPG中的Revised- Actor-Net，然后借助Target Net中的两个神经网络计算TD Error值用于更新MODDPG中的Revised-Critic-Net；Target Net中的结构参数不直接更新，每隔多个迭代步骤以后将Revised- Actor-Net和Revised-Critic-Net的神经网络参数复制到Target Net来实现更新；最终，将MODDPG用于配套道路布局的优化，直到搜索结果收敛。

作为优选，步骤S4中，每一次开始对配套道路方案进行优化时，将配套道路的初始状态设为在S3中获得的配套道路初始方案，此时即初始状态为不对步骤S3的方案做任何修改；此外，在训练时，每经过次优化后即结束本次回合，并开始下一个回合，即，将配套道路的状态重新设为初始状态。

本发明能够综合考虑山区铁路大临工程配套道路的建造成本和物资运输效率，并对既有道路进行充分利用，有利于实现“永临结合”的布局规划；通过本发明中提出的山区大临工程配套智能化生成方法可大量节省人力物力，有效提升了山区铁路建设的效率和水平。

附图说明

图1为实施例中一种山区铁路大临工程配套道路的智能规划与设计方法的流程图；

图2为实施例中山区铁路大临设施配套道路规划所需的相关资料图；

图3为实施例中配套道路基本规划设计原则示意图；

图4为实施例中“最小生成树”算法生成配套道路初始方案示意图；

图5（a）为实施例中配套道路初始规划方案示意图；

图5（b）为实施例中配套道路改进方案示意图；

图6为实施例中强化学习基本属性示意图。

具体实施方式

为进一步了解本发明的内容，结合附图和实施例对本发明作详细描述。应当理解的是，实施例仅仅是对本发明进行解释而并非限定。

实施例

如图1所示，本实施例提供了一种山区铁路大临工程配套道路的智能规划与设计方法，其包括以下步骤：

S1:获取研究区域大临工程以及既有道路（交通基础设施）的空间信息，以及研究区域的相关地形信息

如图2所示，本步骤中需要采集的信息包括研究区域的地形资料、大临工程的空间位置以及既有道路的空间信息等；需要说明的是，既有道路包含了一般的路基段、桥梁区段以及隧道区段，只有路基段可以与大临工程进行连接。

S2:问题阐述以及优化目标定义

在对山区铁路大临工程配套道路进行规划时，需要满足一个基本规划设计原则，即大临工程（如：混凝土拌合站、制梁场、钢筋加工厂等）必须与既有道路产生“直接”和“间接”的连接，这样能够保证相关建设物资能够运送到大临工程中以便铁路能够顺利投入建设。“直接”和“间接”连接的介绍如图3所示，大临设施-1和大临设施-3与既有道路之间的连接属于是“直接”连接，这是由于这两个设施与既有道路之间存在一条配套道路；大临设施-2与既有道路之间的连接方式为“间接”连接，这是因为大临设施-2未与既有道路之间存在相关的配套道路，但是大临设施-2与大临设施-1之间存在配套道路，在运送物资时，运输车辆可从大临设施-2出发，先到达大临设施-1，最后再到达既有道路；大临设施-4与既有道路之间不存在“直接”或者“间接”，这在配套道路规划时是不允许的。

可将大临工程设施和既有道路视为节点，节点与节点之间连接时需要考虑连接代价(link cost)，本方法采用节点之间真实的建造成本作为连接代价（连接成本）。计算建造成本之前需要确定节点之间的平纵断面线形，先生成平纵断面，然后进一步地计算出建造成本，其中，代表各类大临设施或者既有道路。

除了需要考虑建造成本以外，配套道路的规划与设计还需要考虑铁路建设物资的运输效率。在计算配套道路的运输效率之前，首先提出一个假设方便后续计算，即每一个工点处所需的物资和产生的废弃资源由该工点最近的大临设施负责处理，例如：在修建铁路隧道时，某个隧道斜井所需的混凝土由距离其最近的混凝土拌合站提供，而该斜井产生的弃渣则需要运送到距离其最近的弃渣场即可。基于该假设，以山区铁路隧道建设为例，其配套道路的物资运输效率可用货运周转量来描述：

(1)

式中，配套道路的货运周转量，其单位为；为第个隧道斜井距离其最近的弃渣场的运输距离(km)；为第个隧道斜井距离其最近的弃渣场的运输距离(km)；为第个隧道斜井所需的混凝土量(t)；为第个隧道斜井产生的弃渣量（t）。

S3:配套道路初始规划方案生成

采用“最小生成树”算法，生成配套道路的初始规划方案，确保各个大临设施和既有道路存在“直接”和“间接”的连接方式，保证山区铁路大临工程配套道路满足S2中定义的基本规划设计原则，同时确保了配套道路的初始规划方案的总连接代价最低。基于“最小生成树”算法生成配套道路初始方案的介绍如下：

定义为所有道路节点的集合，节点包括各个大临设施和既有道路，需要说明的是，虽然既有道路是“条状”物，根据拓扑学原理，也可将其视为单个节点；同时，定义为经过k个迭代步骤以后已连接节点的集合，为经过k个迭代步骤以后未连接节点的集合；“最小生成树”算法的具体迭代流程如下（如图4所示）：

Step 0: 设置：；

Step 1:从中随机选取一个节点 i，将其放入中并将其从中移除，因此，；

Step k:从中选取一个节点，节点对于集合中的每一个节点具有最小的连接代价（连接代价的计算见S2），将节点加入到集合中，并将其中中移除，即：

(2)

S4:配套道路最终方案的智能化优化方法

S3中生成配套道路初始方案可以确保配套道路能够满足S1中定义的基本规划设计原则，即各个大临设施与既有道路必须存在“直接”或者“间接”的连接方式，同时保证了配套道路的总体规划布局具有最小的连接代价。然而，S3中生成的配套道路规划方案不能保证配套道路具有最高的物资运输效率。

如图5(a)和图5(b)所示，假设需要从大临设施-B运送物资到大临设施-E，在基于S3生产的配套道路初始规划方案中（图5(a)），车辆的运输路线为：大临设施-B—大临设施-C—大临设施-A—大临设施-D—大临设施-F—大临设施-E，极大地增加了不必要的运输距离；如果在初始方案的基础之上加以修改，例如：直接在大临设施B和大临设施-E之间新建一条配套道路（图5(b)），虽然增加了配套道路的总体连接代价，但是对于物资运输的效率具有极大的提升。因此，S4的主要目的是对S3中生成的方案进行深化改进，提出能够使连接代价和运输效率综合最优的山区铁路大临工程配套道路规划布局方案。

因此，优化函数可定义为：

式中，表示第一个优化目标，即最小化整体连接代价；表示第二个优化目标，即最小化配套道路的货运周转量；表示第个连接的连接代价，表示第个连接的连接状态，代表可以连接，代表不可连接；为配套道路的总运输周转量，其具体计算方式见 S2。

由于S4的配套道路的规划方案是在S3的基础时之上进行改进，不对S3中产生的既有连接进行修改，因此在S4中可以进行优化的连接总数为潜在可行的连接数量减去S3中产生的连接数量，即：

(5)

式中，为节点总数（每个节点对应一个大临设施或者施工道路）；为节点之间存在的潜在连接的总量；为“最小生成树”算法产生的总的连接数量，即S3中产生的连接个数。

上述问题共有种规划方案，数量极其庞大，因此本方法采用一种多目标深度强化学习的方法来搜索最优的配套道路规划方案，强化学习主要包含以下重要属性（见图6）：

1）智能体（Agent）：可以感知所处环境并采取动作的实体，可理解为执行动作或者策略的主体，可以是人也可以是计算机程序。在本方法中，智能体可以理解为山区铁路大临工程配套道路的规划和设计人员；

2）环境（Environment）：智能体所交互的区域或者规则即为环境。在本方法中，环境包含了各个大临设施以及既有道路之间的连接代价，当前配套道路布局的物资运输效率的计算规则等；

3）状态（State）：对智能体所处环境的描述即为状态。在本方法中，状态可以理解为当前配套道路的布局情况；

4）动作（Action）：智能体根据当前环境的状态所执行的决策。在本方法中，动作为对配套道路布局的调整；

在利用强化学习进行优化时，智能体首先从环境中观测当前的状态，并根据不断学习的策略函数选择最优的动作与环境进行交互，环境会因为智能体执行的动作而产生状态改变，同时会反馈给智能体相应的奖励值，最后智能体根据环境反馈的奖励值来判断在状态下执行动作是否合理，并从中汲取教训，更新策略函数；之后，智能体将进入下一轮与环境的交互，如此循环往复直到智能体能够满足所执行任务的进度或者达到最终的迭代次数。下面介绍山区铁路大临工程配套道路的优化在强化学习框架下的数学表达：

（1）状态(state)

状态可以表示为现有配套道路初始方案（初始方案的生成见S3）的基础上，对配套道路的修改，其数学表达式为：

(6)

式中，的含义见（式3）；

（2）动作(action)

动作可以表示为对现有配套道路的第m个连接方式进行修改，其数学表达式为：

(7)

式中，，且为正整数。

执行动作后，现有配套道路的第m个连接方式修改为：此时，现有配套道路的状态改变为：

(8)

（3）奖励(reward)

执行动作后，配套道路的状态会从过度到，此时环境会给予智能体奖励或者反馈，以使智能体调整策略；奖励的数学表达式为：

式中，为针对配套道路连接代价的奖励函数，由于优化目标为降低配套道路的总连接代价，因此奖励值可取为总连接代价的负数，连接代价越小越大；为针对配套道路物资运输效率的奖励函数，由于优化目标为增加配套道路的整体运输效率，因此奖励值可取为总运输周转量的负数，运输周转量越小越大。

进一步地，本方法提出一种多目标强化学习方法：Multi-Objective DeepDeterministic Policy Gradient (MODDPG)算法来求解配套道路的最优规划方案。

与传统的DDPG结构类似，MODDPG同样包含了 Actor-Net和 Critic-Net，其中，Actor-Net负责根据当前的状态(state)输出动作(action)，而 Critic-Net则负责评价智能体在当前状态下采用输出动作的好坏，输出的值（policy gradient）越大表示智能体所采用的动作越有利。由于配套道路连接代价与物资运输效率之间的重要程度或者设计人员对二者的偏好是未知的，因此，为了保证智能体在任何偏好下都能执行较为合理的动作，MODDPG中的Actor-Net（记为π(θ_1)）将当前的“状态”和随机生成偏好作为输入，并且将该偏好下的“动作”作为输出。并且，每一次执行“动作”时，不同目标之间的偏好或者权重都需要重新随机生成一次。

在更新MODDPG网络参数时，本方法通过创建一个Memory Buffer来存储从过渡到的transition step的各类属性，主要包括智能体当前的状态（State或）、在此状态下的动作（Action或）、采取此动作后环境给予智能体的反馈（Reward或）以及采取此动作后智能体到达的下一步状态（State’或）。在训练时，会从MemoryBuffer中随机选择若干个transition step进行训练，首先将计算得到的policy gradient利用随机梯度下降法更新MODDPG中的Revised- Actor-Net，然后与DDOG结构类似，借助Target Net中的两个神经网络计算TD Error值用于更新MODDPG中的Revised-Critic-Net。Target Net中的结构参数不直接更新，每隔多个迭代步骤以后将Revised- Actor-Net和Revised-Critic-Net的神经网络参数复制到Target Net来实现更新。最终，将MODDPG用于配套道路布局的优化，直到搜索结果收敛。

需要注意的是，每一次开始对配套道路方案进行优化时，将配套道路的初始状态设为在S3中获得的配套道路初始方案，此时，即初始状态为不对S3的方案做任何修改。此外，理论上最多经过次方案修改后，即可找到最优方案，因此，在训练时，每经过次优化后即结束本次回合，并开始下一个回合，即，将配套道路的状态重新设为初始状态。

通过本发明中提出的山区大临工程配套智能化生成方法可大量节省人力物力，有效提升了山区铁路建设的效率和水平。

以上示意性的对本发明及其实施方式进行了描述，该描述没有限制性，附图中所示的也只是本发明的实施方式之一，实际的结构并不局限于此。所以，如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。

Claims

1.一种山区铁路大临工程配套道路的智能规划与设计方法，其特征在于：包括以下步骤：

S2:定义优化目标；具体为：

c、需应用铁路建设物资的运输效率；

S3:生成配套道路初始规划方案；

A、定义优化函数；

优化函数定义为：

式中，obj₁表示第一个优化目标，即最小化整体连接代价；obj₂表示第二个优化目标，即最小化配套道路的货运周转量；L_m表示第m个连接的连接代价，δ_m表示第m个连接的连接状态，δ_m＝1代表可以连接，δ_m＝0代表不可连接；T为配套道路的总运输周转量；

B、确定优化的连接总数；

优化的连接总数为：

(M-1)！-(M-1)

式中，M为节点总数，每个节点对应一个大临设施或者施工道路；(M-1)！为节点之间存在的潜在连接的总量；(M-1)为最小生成树算法产生的总的连接数量；

C、根据优化函数和优化的连接总数，采用多目标深度强化学习的方法来搜索最优的配套道路规划方案，采用MODDPG算法来求解配套道路的最优规划方案；

步骤S4中，多目标深度强化学习的方法中，强化学习包含以下属性：

1)智能体：智能体理解为山区铁路大临工程配套道路的规划和设计人员；

2)环境：环境包含各个大临设施以及既有道路之间的连接代价，当前配套道路布局的物资运输效率的计算规则；

3)状态：状态理解为当前配套道路的布局情况；

4)动作：动作为对配套道路布局的调整；

在利用强化学习进行优化时，智能体首先从环境中观测当前的状态s，并根据不断学习的策略函数选择最优的动作与环境进行交互，环境会因为智能体执行的动作a而产生状态改变s′，同时会反馈给智能体相应的奖励值r，最后智能体根据环境反馈的奖励值r来判断在状态s下执行动作a是否合理，并从中汲取教训，更新策略函数；之后，智能体将进入下一轮与环境的交互，如此循环往复直到智能体能够满足所执行任务的进度或者达到最终的迭代次数；

步骤S4中，山区铁路大临工程配套道路的优化在强化学习框架下的数学表达：

(1)状态

S＝[δ₁,δ₂,…,δ_m,…,δ_(M-1)！-M+1]

(2)动作

A＝m

式中，1≤m≤(M-1)！-M+1，且m为正整数；

执行动作后，现有配套道路的第m个连接方式修改为：δ_m←1-δ_m；

此时，现有配套道路的状态改变为：

S′＝[δ₁,δ₂,…,1-δ_m,…,δ_(M-1)！-M+1]

(3)奖励

奖励的数学表达式为：

R₂＝-T

式中，R₁为针对配套道路连接代价的奖励函数，由于优化目标为降低配套道路的总连接代价，因此奖励值可取为总连接代价的负数，连接代价越小R₁越大；R₂为针对配套道路物资运输效率的奖励函数。

2.根据权利要求1所述的一种山区铁路大临工程配套道路的智能规划与设计方法，其特征在于：步骤S2中，计算建造成本之前需要确定节点之间的平纵断面线形，先生成平纵断面，然后进一步地计算出建造成本L_i,j，其中，i,j代表各类大临设施或者既有道路；

T＝∑D′_i×A_i+∑D″_i×B_i

式中，T配套道路的货运周转量；D′_i为第i个隧道斜井距离其最近的混凝土拌合站的运输距离；D″_i为第i个隧道斜井距离其最近的弃渣场的运输距离；A_i为第i个隧道斜井所需的混凝土量；B_i为第i个隧道斜井产生的弃渣量。

3.根据权利要求2所述的一种山区铁路大临工程配套道路的智能规划与设计方法，其特征在于：步骤S3中，基于最小生成树算法生成配套道路初始方案的如下：

定义N＝{1,2,…,n}为所有道路节点的集合，节点包括各个大临设施和既有道路；同时，定义C_k为经过k个迭代步骤以后已连接节点的集合，

为经过k个迭代步骤以后未连接节点的集合；最小生成树算法的具体迭代流程如下：

Step 0:设置：

并令k＝1；

Step 1:从

中随机选取一个节点i，将其放入C₁中并将其从

中移除，因此，

令k＝1；

Step k:从

中选取一个节点j^*，节点j^*对于集合C_k-1中的每一个节点具有最小的连接代价，将节点j^*加入到集合C_k-1中，并将其中

中移除，即：

判断

是否为空集，如果

为空集，那么迭代结束，获取初始的配套道路规划方案；如果不是空集则开始k+1次迭代步骤。

4.根据权利要求3所述的一种山区铁路大临工程配套道路的智能规划与设计方法，其特征在于：步骤S4中，MODDPG包含了Actor-Net和Critic-Net，其中，Actor-Net负责根据当前的状态输出动作，Critic-Net负责评价智能体在当前状态下采用输出动作的好坏；Actor-Net将当前的状态和随机生成偏好作为输入，并且将该偏好下的动作作为输出；每一次执行动作时，不同目标之间的偏好或者权重需要重新随机生成一次；

在更新MODDPG网络参数时，通过创建一个Memory Buffer来存储从S_i过渡到S_i+1的transition step的各类属性，包括智能体当前的状态S_i、在此状态下的动作A_i、采取此动作后环境给予智能体的反馈以及采取此动作后智能体到达的下一步状态S_i+1；在训练时，从Memory Buffer中随机选择若干个transition step进行训练，首先将计算得到的policygradient利用随机梯度下降法更新MODDPG中的Revised-Actor-Net，然后借助Target Net中的两个神经网络计算TD Error值用于更新MODDPG中的Revised-Critic-Net；Target Net中的结构参数不直接更新，每隔多个迭代步骤以后将Revised-Actor-Net和Revised-Critic-Net的神经网络参数复制到Target Net来实现更新；最终，将MODDPG用于配套道路布局的优化，直到搜索结果收敛。

5.根据权利要求4所述的一种山区铁路大临工程配套道路的智能规划与设计方法，其特征在于：步骤S4中，每一次开始对配套道路方案进行优化时，将配套道路的初始状态S₀设为在S3中获得的配套道路初始方案，此时

δ_m＝0，即初始状态为不对步骤S3的方案做任何修改；此外，在训练时，每经过(M-1)！-M+1次优化后即结束本次回合，并开始下一个回合，即，将配套道路的状态重新设为初始状态S₀。