CN114779780B

CN114779780B - 一种随机环境下路径规划方法及系统

Info

Publication number: CN114779780B
Application number: CN202210448863.XA
Authority: CN
Inventors: 梁学栋; 李潇岩; 黎斯攀; 劳佳乐; 伍薪丞; 刘雨果; 王霞; 舒灵丽
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2022-04-26
Filing date: 2022-04-26
Publication date: 2023-05-12
Anticipated expiration: 2042-04-26
Also published as: GB202306164D0; CN114779780A; GB2620242A

Abstract

本发明涉及一种随机环境下路径规划方法及系统，通过专家评价技术对得到环境内所有可通行区域进行综合安全性与时间效率的分数，所得到的每分数服从一定的概率分布，以此模拟随机环境中交通过程中的不确定性；且利用了区块链技术中的分布式架构，提高了路径探索的效率。本发明采用分布式异步训练架构，多个子系统可以以独立线程进行训练，并将与环境交互得到的大量数据用以更新主系统的网络，从而加速主系统的训练。主系统也会在一定运算间隔后将其网络参数复制给子系统，从而指导子系统进一步加速训练。

Description

一种随机环境下路径规划方法及系统

技术领域

本发明涉及路径规划技术领域，特别是涉及一种随机环境下路径规划方法及系统。

背景技术

随着我国工业水平的高速发展，越来越多的大型高端设备制造业正在我国崛起。这同时也带来了一个不容忽视的问题：大型高端装备制造往往依赖于专业化分工协作的生产体系，这也使得其具有更加复杂的供应链系统。一旦交通环境发生大范围地改变，会严重地影响大型高端装备的供应链效率。

现有的路径规划方法大多考虑的是环境稳定下的最快时效的规划，少量一些考虑不确定性环境的路径规划也往往考虑的是个别交通点的堵塞造成的交付延迟，对于大范围的不确定性环境的路径规划没有形成针对性的方法。传统的路径规划算法必须基于确定性的环境，强化学习算法是今年来兴起的常用于解决动态环境优化问题的人工智能算法。但主流的强化学习算法在求解大范围随机环境路径规划问题时仍然面对着空间探索性能低和难以收敛的问题。

发明内容

为了克服现有技术的不足，本发明的目的是提供一种随机环境下路径规划方法及系统。

为实现上述目的，本发明提供了如下方案：

一种随机环境下路径规划方法，包括：

根据预设的交通环境构建不确定性环境模型，并确定所述不确定性环境模型中每个区域的随机分值和概率分布；

构建主系统神经网络和多个子系统神经网络；所述主系统神经网络包括第一动作神经网络和第一评分神经网络；所述子系统神经网络包括第二动作神经网络和第二评分神经网络；所述第一动作神经网络、所述第二动作神经网络、所述第一评分神经网络和所述第二评分神经网络的输入均为所述交通环境及智能体的实时位置；所述第一动作神经网络和所述第二动作神经网络的输出均为在实时位置下，所述智能体所有移动方向的概率分布；所述第一评分神经网络和所述第二评分神经网络的输出均为对所述智能体所选移动方向进行评分后得到的分值；

基于分布式的异步多线程算法，利用每个所述子系统神经网络，根据所述随机分值进行路径规划训练，并根据所述子系统神经网络的网络参数对所述主系统神经网络进行更新；每个所述子系统神经网络的网络参数在间隔预设次数的训练后更新为所述主系统神经网络的参数；

将所述智能体在所述交通环境的各个位置输入至更新好的所述第一动作神经网络中，得到最优动作序列。

优选地，所述根据预设的交通环境构建不确定性环境模型，并确定所述不确定性环境模型中每个区域的随机分值和概率分布，包括：

将所述交通环境刻画为一个N×N尺寸的可通行的网格地图；所述网格地图中的每个网格代表一个所述智能体的可通行区域；

基于使用多专家评价方法对每个所述可通行区域进行评价，以确定每个所述可通行区域的所述随机分值和所述概率分布。

优选地，所述第一动作神经网络、第一评分神经网络、第二动作神经网络和第二评分神经网络均包括卷积网络、全连接网络和噪声层。

优选地，所述基于分布式的异步多线程算法，利用每个所述子系统神经网络，根据所述随机分值进行路径规划训练，并根据所述子系统神经网络的网络参数对所述主系统神经网络进行更新，包括：

在每个子系统中，控制所述智能体从所述不确定性环境模型中的预设的起点出发进行移动；所述智能体在每次进行移动前进行方向选择；

当所述智能体每到达下一个区域时，计算所述随机分值、所述第二动作神经网络的损失和所述第二评分神经网络的损失；

根据所述损失和所述随机分值更新所述第二动作神经网络和所述第二评分神经网络；

根据更新好的所述第二动作神经网络和所述第二评分神经网络更新所述第一动作神经网络和第一评分神经网络。

优选地，所述基于分布式的异步多线程算法，利用每个所述子系统神经网络，根据所述随机分值进行路径规划训练，并根据所述子系统神经网络的网络参数对所述主系统神经网络进行更新之后，还包括：

判断当前的路径规划训练次数是否大于预设训练限值，若是，则结束所述路径规划训练；若否，则控制所述智能体继续进行移动。

一种随机环境下路径规划系统，包括：

模型建立模块，用于根据预设的交通环境构建不确定性环境模型，并确定所述不确定性环境模型中每个区域的随机分值和概率分布；

网络构建模块，用于构建主系统神经网络和多个子系统神经网络；所述主系统神经网络包括第一动作神经网络和第一评分神经网络；所述子系统神经网络包括第二动作神经网络和第二评分神经网络；所述第一动作神经网络、所述第二动作神经网络、所述第一评分神经网络和所述第二评分神经网络的输入均为所述交通环境及智能体的实时位置；所述第一动作神经网络和所述第二动作神经网络的输出均为在实时位置下，所述智能体所有移动方向的概率分布；所述第一评分神经网络和所述第二评分神经网络的输出均为对所述智能体所选移动方向进行评分后得到的分值；

强化学习模块，用于基于分布式的异步多线程算法，利用每个所述子系统神经网络，根据所述随机分值进行路径规划训练，并根据所述子系统神经网络的网络参数对所述主系统神经网络进行更新；每个所述子系统神经网络的网络参数在间隔预设次数的训练后更新为所述主系统神经网络的参数；

序列获取模块，用于将所述智能体在所述交通环境的各个位置输入至更新好的所述第一动作神经网络中，得到最优动作序列。

优选地，所述模型建立模块具体包括：

刻画单元，用于将所述交通环境刻画为一个N×N尺寸的可通行的网格地图；所述网格地图中的每个网格代表一个所述智能体的可通行区域；

评分单元，用于基于使用多专家评价方法对每个所述可通行区域进行评价，以确定每个所述可通行区域的所述随机分值和所述概率分布。

优选地，所述强化学习模块具体包括：

移动单元，用于在每个子系统中，控制所述智能体从所述不确定性环境模型中的预设的起点出发进行移动；所述智能体在每次进行移动前进行方向选择；

计算单元，用于当所述智能体每到达下一个区域时，计算所述随机分值、所述第二动作神经网络的损失和所述第二评分神经网络的损失；

第一更新单元，用于根据所述损失和所述随机分值更新所述第二动作神经网络和所述第二评分神经网络；

第二更新单元，用于根据更新好的所述第二动作神经网络和所述第二评分神经网络更新所述第一动作神经网络和第一评分神经网络。

优选地，还包括：

判断模块，用于判断当前的路径规划训练次数是否大于预设训练限值，若是，则结束所述路径规划训练；若否，则控制所述智能体继续进行移动。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供了一种随机环境下路径规划方法及系统，通过专家评价技术对得到环境内所有可通行区域进行综合安全性与时间效率的分数，所得到的每分数服从一定的概率分布，以此模拟随机环境中交通过程中的不确定性；且利用了区块链技术中的分布式架构，提高了路径探索的效率。本发明采用分布式异步训练架构，多个子系统可以以独立线程进行训练，并将与环境交互得到的大量数据用以更新主系统的网络，从而加速主系统的训练。主系统也会在一定运算间隔后将其网络参数复制给子系统，从而指导子系统进一步加速训练。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的实施例中的随机环境下路径规划方法的流程图；

图2为本发明提供的实施例中的规划流程示意图；

图3为本发明提供的实施例中的分布式强化学习结构示意图；

图4为本发明提供的实施例中的网格地图；

图5为本发明提供的实施例中的网络结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤、过程、方法等没有限定于已列出的步骤，而是可选地还包括没有列出的步骤，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤元。

本发明的目的是提供一种随机环境下路径规划方法及系统，能够模拟随机环境中交通过程中的不确定性，并克服大范围随机环境中路径规划所面对的探索效率低和难以收敛等问题。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明提供的实施例中的随机环境下路径规划方法的流程图，如图1所示，本发明提供了一种随机环境下路径规划方法，包括：

步骤100：根据预设的交通环境构建不确定性环境模型，并确定所述不确定性环境模型中每个区域的随机分值和概率分布。

步骤200：构建主系统神经网络和多个子系统神经网络；所述主系统神经网络包括第一动作神经网络和第一评分神经网络；所述子系统神经网络包括第二动作神经网络和第二评分神经网络；所述第一动作神经网络、所述第二动作神经网络、所述第一评分神经网络和所述第二评分神经网络的输入均为所述交通环境及智能体的实时位置；所述第一动作神经网络和所述第二动作神经网络的输出均为在实时位置下，所述智能体所有移动方向的概率分布；所述第一评分神经网络和所述第二评分神经网络的输出均为对所述智能体所选移动方向进行评分后得到的分值。

步骤300：基于分布式的异步多线程算法，利用每个所述子系统神经网络，根据所述随机分值进行路径规划训练，并根据所述子系统神经网络的网络参数对所述主系统神经网络进行更新；每个所述子系统神经网络的网络参数在间隔预设次数的训练后更新为所述主系统神经网络的参数。

步骤400：将所述智能体在所述交通环境的各个位置输入至更新好的所述第一动作神经网络中，得到最优动作序列。

优选地，所述步骤100具体包括：

将所述交通环境刻画为一个N×N尺寸的可通行的网格地图；所述网格地图中的每个网格代表一个所述智能体的可通行区域。

图2为本发明提供的实施例中的规划流程示意图，如图2所示，本实施例包括建立网格地图、评价每个区域的随机分值、搭建主系统和子系统的神经网络和搭建分布式强化学习框架这四个流程。

具体的，本实施例中第一个流程和第二个流程为第一个步骤，即建立不确定性环境模型。其具体包括：

步骤11：构造一个包含起点与终点的N×N尺寸的网格地图，如图4所示，每个网格(最深色的黑色方框)代表一个可通行区域；

步骤12：对每个区域邀请多个专家使用评价方法进行评价，评价指标包括天气、地理环境、交通状况、突发事件保障能力、区域救援能力等，并依据指标对每个区域打分，分数体现了智能体通过该区域时的安全性与时间效率，打分制经过标准化处理，s为专家对该区域的打分，S为所有专家打分的集合，s^*为标准化后的分公式如下：

步骤13：对每个区域的所有专家打分结果划分分段，该分段内所有分数的均值为一个该区域的分值，该分段内专家人数在所有专家中的比例为该分值的概率分布；

步骤14：通过步骤13，得到所有区域的分数以及其概率分布，再对所有分数进一步处理，得到最终每个区域的得分以及概率分布，以10位专家，每隔0.1划分一个分段，共得到三个分段的分数为例，其中r_i为第i个区域的得分，p为不同分数的概率分布，公式如下：

具体的，步骤12中方法所输出的不同区域的评价值并非是固定值，而是基于概率分布的变量。

进一步地，本实施例步骤1为建立随机环境模型，还可以包括：

步骤11：将交通环境刻画为一个N*N尺寸的可通行的网格地图，每个网格代表一个智能体可以通过的区域。

步骤12：从安全性、组织保障能力、通行效率方面对每个可通行区域使用多专家评价方法进行评价，得到每个区域的分值及其概率分布。

可选地，上述第三个流程为本实施例的第二步，即搭建神经网络，如图3所示，搭建的方法具体为：

步骤21：搭建主系统，主系统为两个神经网络，一是GlobalActor(第一动作神经网络)，由卷积神经网络与线性网络组成，输入数据为整体环境以及智能体当前所在的位置，输出是当前位置下所有可选的移动方向的概率分布，可通过随机抽样得到一个确定性的移动方向。二是Global Critic(第一评分神经网络)，其结构和输入数据与前者相同，其输出是对所选移动方向的打分，所选的移动方向能带来更高的收益，分数就越大。

步骤22：搭建M个子系统，每个子系统为两个神经网络，LocalActor(第二动作神经网络)和Local Critic(第二评分神经网络)。

LocalActor和GlobalActor的结构相同，输出一致。Local Critic和GlobalCritic结构和输出完全一致。

进一步地，神经网络中，GlobalActor和LocalActor网络的全连接层并非是普通的线性层，而是在线性层的基础上加入随机干扰和更多可学习参数的噪声层。

图5为本发明提供的实施例中的网络结构示意图，如图5所示，本实施例中的神经网络包括卷积层、线性层和噪声层。具体的，步骤21中搭建卷积网络，具体包括：

(1)所有网络的卷积结构相同，输入环境模型为x，卷积核大小为k，步幅为s，补零层数为p，则卷积后产生的环境特征x'大小计算公式为:

(2)经过一次卷积后，特征依次按行展开，连接成向量，输入全连接网络。

搭建全连接网络，具体为：

全连接网络为线性网络，w为权重，b为偏置，y为输出，公式如下：

y＝wx+b

搭建噪声层，具体为：

噪声层是线性层的变种，在噪声网络中，μ^w+σ^w⊙ε^w和μ^b+σ^b⊙ε^b分别替代了线性网络中的w和b。μ^w，μ^b，σ^w，和σ^b为可学习的参数，ε^w和ε^b为服从高斯分布的随机噪声。原先的线性层需要学习的的只有w，即权重，而改进后的噪声层既要学习w的均值μ^w，又要学习w的标准差σ^w。此外偏置量的均值μ^b和标准差σ^b也是需要学习的参数，ε^w和ε^b都是从独立的高斯分布中抽样。

通过在线性层上加入噪声来增加随机性，增加探索效率。同时噪声的参数是可学习的，可以根据环境复杂性的变化来调整噪声的大小，如此可以更加适应大规模随机环境下的拟合需求。完整公式如下：

y＝(μ^w+σ^w⊙ε^w)x+μ^b+σ^b⊙ε^b

设置激活函数，具体为：

GlobalActor和LocalActor网络最终输出前使用激活函数Softmax进行激活，P为选择不同方向的概率，I为所有可选方向集合，h为上一层线性层的输出，公式如下：

优选地，所述步骤300具体包括：

在每个子系统中，控制所述智能体从所述不确定性环境模型中的预设的起点出发进行移动；所述智能体在每次进行移动前进行方向选择。

当所述智能体每到达下一个区域时，计算所述随机分值、所述第二动作神经网络的损失和所述第二评分神经网络的损失。

根据所述损失和所述随机分值更新所述第二动作神经网络和所述第二评分神经网络。

具体的，不同于以往的强化学习算法使用一个固定的概率去随机选择一个动作，本发明采用了一种动态概率下降技术，随着算法的迭代不断地减少随机性探索。

优选地，所述步骤300之后，还包括：

具体的，本实施例中最后一个流程和步骤为搭建强化学习训练框架，其中，步骤3中所述的强化学习训练架构采用了分布式架构，异步多线程并行训练，并将交互数据反馈给主系统更新网络，再由主系统传递参数给所有子系统。其具体包括：

步骤31：在每个子系统中，智能体从起点出发，每次选择方向后进行移动。

步骤32：每次移动到达一个区域后可以获得由步骤12得到的分数；

步骤33：当智能体做出移动方向选择并到达一个区域后，都会计算Local Actor和Local Critic网络的损失，该损失会用来更新自身的两个网络。待自身网络更新后，会用自身网络再去更新主系统的GlobalActor和Global Critic网络，如此完成一次训练；每个子系统间隔J次训练后复制主系统两个网络的参数至自身。

步骤34：待通行路径收敛后，所有训练结束。

作为一种可选的实施方式，所提出的算法是一个分布式的异步多线程算法，每个子系统有独立的线程，彼此之间互不干扰，异步执行。每个子系统在路径规划中和整体环境进行交互后都会收集大量的数据，并利用这些数据独立训练各自的LocalActor和LocalCritic网络。主系统的更新依靠于子系统网络的参数，主系统的网络参数也会在一定间隔后复制参数给子系统，以此指导子系统后面在环境中规划最优路径。

本实施例以任意一个子系统为例，去掩饰子系统的训练过程和主系统的更新过程，每个子系统有两个神经网络LocalActor和Local Critic，两个网络共享卷积层参数，区别在于二者有自己独立的全连接层，且LocalActor具有噪声层。分别记做π(a|s；θ)和q(a,s；w)，分别输出不同位置下智能体的不同方向选择的概率分布和对该方向选择的打分；训练过程如下：

步骤31：智能体移动，具体为：

智能体从起点s_t出发。

智能体有ε概率随机选择一个方向选择a_t，有1-ε的概率通过π(a|s；θ)随机抽样得到一个方向选择a_t。ε是一个随着算法迭代而动态上升的数值，ε_min、ε_max、ε_decay为超参数，其中ε_decay为随机变量控制上升速度，t为算法迭代次数，其计算公式如下：

执行a_t，到达下一个区域s_t+1并收获一个步骤14计算得到的奖励r_t。

此时智能体得到一个五元组(s_t,a_t,r_t,s_t+1,done),分别代表智能体在环境中的当前位置，当前位置下选择的方向，该方向选择带来的即时收益，到达的下一个区域，done是一个布尔变量用以判断是否到达终点。

步骤32：更新q(s,a；w)。

每轮移动都会得到一个新的得分r，并更新一次网络，直到到达终点。

计算TD-target，记作y_t，γ为折扣系数，a_t+1是智能体从位置s_t执行动作a_t后，到达位置s_t+1后，抽样得到一个a_t+1～π(·|s_t+1；θ)，抽样得到的动作不会真正的执行，这是一个模拟执行的动作，公式如下：

y_t＝r_t+γ×q(s_t+1,a_t+1；w)

计算损失，q(s,a；w)的损失主要体现在其当前评估动作分数与TD-target的差异，由于TD-target的计算中包含了真实数据中的奖励r_t，故其更能反应智能体的方向选择所带来的收益，其公式如下：

更新网络，通过更新，使q(s,a；w)可以更接近真实的动作的收益，α为学习率，公式如下：

步骤33：更新π(a|s；θ)。

每轮移动都会得到一个新的得分r，并更新一次网络，直到到达终点：

计算梯度，公式如下：

使用梯度上升更新参数，β为学习率：

θ_t+1＝θ_t+β·g(a,θ_t)

步骤34：更新主系统网络GlobalActor和Global Critic。

每当一个子系统完成一次完整的路径规划，都会对主系统的网络进行更新，更新公式如下：

w_global＝w_global-α_global·w_local

θ_global＝θ_global-β_global·θ_local

步骤35：子系统继承主系统网络，每经过设定的t次迭代后，将主系统的网络参数复制给子系统网络。

步骤36：达到最大迭代次数T后，将智能体在环境下的各个位置输入主系统的GlobalActor，并输出一连串的动作序列，由此生成大规模随机环境下最优路径规划。

对应上述方法，本实施例还提供了一种随机环境下路径规划系统，包括：

优选地，所述模型建立模块具体包括：

优选地，所述强化学习模块具体包括：

优选地，还包括：

本发明的有益效果如下：

(1)本发明通过专家评价技术对得到环境内所有可通行区域进行综合安全性与时间效率的分数，所得到的每分数服从一定的概率分布，以此模拟随机环境中交通过程中的不确定性，这种建模技术是现有技术所不具备的。

(2)本发明利用了区块链技术中的分布式架构，可以克服大范围随机环境中路径规划所面对的两个难点。一是探索效率低，通过动态上升的公式，使得算法随着迭代会逐渐增加探索过程的随机性，避免陷入局部最优解，以及避免在随机环境干扰下的无效动作(比如两个相邻位置间的往复移动)；通过噪声网络，也增强了神经网络在强随机环境干扰下的鲁棒性。二是难以收敛，该技术采用分布式异步训练架构，多个子系统可以以独立线程进行训练，并将与环境交互得到的大量数据用以更新主系统的网络，从而加速主系统的训练。主系统也会在一定运算间隔后将其网络参数复制给子系统，从而指导子系统进一步加速训练。这些优势是现有路径规划技术所欠缺的。本发明可以在大规模随机环境下进行路径规划，能够帮助供高端装备制造企业的供应链系统在一些极端或不确定性环境下尽可能流畅的运行，填补了现有路径规划技术的空白。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种随机环境下路径规划方法，其特征在于，包括：

根据预设的交通环境构建不确定性环境模型，并确定所述不确定性环境模型中每个区域的随机分值和概率分布；将所述交通环境刻画为一个N×N尺寸的可通行的网格地图；所述网格地图中的每个网格代表一个智能体的可通行区域；基于使用多专家评价方法对每个所述可通行区域进行评价，以确定每个所述可通行区域的所述随机分值和所述概率分布；

构建主系统神经网络和多个子系统神经网络；所述主系统神经网络包括第一动作神经网络和第一评分神经网络；所述子系统神经网络包括第二动作神经网络和第二评分神经网络；所述第一动作神经网络、所述第二动作神经网络、所述第一评分神经网络和所述第二评分神经网络的输入均为所述交通环境及所述智能体的实时位置；所述第一动作神经网络和所述第二动作神经网络的输出均为在实时位置下，所述智能体所有移动方向的概率分布；所述第一评分神经网络和所述第二评分神经网络的输出均为对所述智能体所选移动方向进行评分后得到的分值；

2.根据权利要求1所述的随机环境下路径规划方法，其特征在于，所述第一动作神经网络、第一评分神经网络、第二动作神经网络和第二评分神经网络均包括卷积网络、全连接网络和噪声层。

3.根据权利要求1所述的随机环境下路径规划方法，其特征在于，所述基于分布式的异步多线程算法，利用每个所述子系统神经网络，根据所述随机分值进行路径规划训练，并根据所述子系统神经网络的网络参数对所述主系统神经网络进行更新，包括：

4.根据权利要求1所述的随机环境下路径规划方法，其特征在于，所述基于分布式的异步多线程算法，利用每个所述子系统神经网络，根据所述随机分值进行路径规划训练，并根据所述子系统神经网络的网络参数对所述主系统神经网络进行更新之后，还包括：

5.一种随机环境下路径规划系统，其特征在于，包括：

序列获取模块，用于将所述智能体在所述交通环境的各个位置输入至更新好的所述第一动作神经网络中，得到最优动作序列；

所述模型建立模块具体包括：

6.根据权利要求5所述的随机环境下路径规划系统，其特征在于，所述强化学习模块具体包括：

7.根据权利要求5所述的随机环境下路径规划系统，其特征在于，还包括：