CN111061277A

CN111061277A - 一种无人车全局路径规划方法和装置

Info

Publication number: CN111061277A
Application number: CN201911414795.XA
Authority: CN
Inventors: 王学强; 张一凡; 邹李兵; 李保明
Original assignee: Goertek Inc
Current assignee: Goertek Inc
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-04-24
Anticipated expiration: 2039-12-31
Also published as: US11747155B2; US20220196414A1; WO2021135554A1; CN111061277B

Abstract

本发明公开了一种无人车全局路径规划方法和装置，该方法包括：通过强化学习方法建立对象模型，对象模型中包括：无人车状态、采用地图图片进行描述的环境状态、以及路径规划结果的评估指标；基于对象模型，搭建深度强化学习神经网络，并利用无人车状态和地图图片对深度强化学习神经网络进行训练，得到稳定的神经网络模型；启动路径规划后，将当前任务场景下的环境状态的地图图片和无人车状态输入到训练后的深度强化学习神经网络中，根据深度强化学习神经网络输出的路径规划结果的评估指标，生成无人车的运动路径。本发明通过地图图片标识场景中的环境信息，通过深度神经网络提取地图特征，简化了对地图场景的建模过程。

Description

一种无人车全局路径规划方法和装置

技术领域

本发明涉及无人车全局路径规划领域，具体涉及一种无人车全局路径规划方法和装置。

背景技术

近年来，无人车在智能制造和物流领域的应用逐步推广普及，有效的提高了生产、制造和搬运环节的运输效率，减轻人力工作负担。其中，全局路径规划方法引导无人车在工作场景内搜索最佳路径，能够提高无人车的工作效率，避免产生碰撞等问题。常见的路径规划算法，例如A*算法，人工势场法等方法，存在计算代价高，容易陷入局部最小解等问题。基于深度强化学习方法的人工智能算法，能够不依赖人工进行轨迹标记，适用于动态变化的场景。深度强化学习方法将强化学习和深度神经网络相结合，其中强化学习主要采用试错(trial and error)方法搜寻最优策略，深度神经网络有助于强化学习解决高维空间输入和动作空间连续等问题。同时，随着深度神经网络在图像分类和识别领域的迅速发展，通过深度神经网络能够准确提取地图图片的特征并有效表达信息。以上工作为基于地图图片和无人车状态实现全局路径规划提供了理论基础。

然而，在无人车全局路径规划实现过程中，目前仍然存在建模困难，神经网络模型训练时间长、模型性能差等一系列问题。

发明内容

鉴于上述问题，本发明实施例提出了一种无人车全局路径规划方法和装置，以便解决或者部分解决上述问题。

依据本发明实施例的一个方面，提供了一种无人车全局路径规划方法，该方法包括：

通过强化学习方法建立用于描述无人车路径规划的序列决策过程的对象模型，对象模型中包括：无人车状态、采用地图图片进行描述的环境状态、以及路径规划结果的评估指标；

基于建立的对象模型，搭建深度强化学习神经网络，并利用无人车状态和环境状态的地图图片对深度强化学习神经网络进行训练，直至得到稳定的神经网络模型；

启动路径规划后，将当前任务场景下的环境状态的地图图片和无人车状态输入到训练后的深度强化学习神经网络中，根据深度强化神经网络输出的路径规划结果的评估指标，生成无人车的运动路径。

依据本发明实施例的又一方面，提供了一种无人车全局路径规划装置，该装置包括：

建模单元，用于通过强化学习方法建立用于描述无人车路径规划的序列决策过程的对象模型，对象模型中包括：无人车状态、采用地图图片进行描述的环境状态、以及路径规划结果的评估指标；

训练单元，用于基于建立的对象模型，搭建深度强化学习神经网络，并利用无人车状态和环境状态的地图图片对深度强化学习神经网络进行训练，直至得到稳定的神经网络模型；

实施单元，用于启动路径规划后，将当前任务场景下的环境状态的地图图片和无人车状态输入到训练后的深度强化学习神经网络中，根据深度强化神经网络输出的路径规划结果的评估指标，生成无人车的运动路径。

本发明实施例通过强化学习方法建立用于描述无人车路径规划的序列决策过程的对象模型，基于该对象模型搭建深度强化学习神经网络，则在启动路径规划后，将当前任务场景下的环境状态的地图图片和无人车状态输入到训练后的深度强化学习神经网络中，即可生成无人车的运动路径，从而实现了基于地图图片的无人车全局路径规划。

本发明实施例的技术方案通过对象模型中的地图图片标识场景中的环境信息，以任务场景的地图图片和无人车状态作为路径规划的输入，显著简化了对地图场景的建模过程；通过深度神经网络提取地图特征，并应用场景的地图图片实现路径规划，准确率和效率都得到大幅提高。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例示出的一种无人车全局路径规划方法的流程示意图；

图2为本发明实施例示出的一种基于GA3C框架建立的深度强化学习训练框架的结构示意图；

图3为本发明实施例示出的一种多GPU的神经网络搭建方法的流程示意图；

图4为本发明实施例示出的一种深度强化学习神经网络训练方法的流程示意图；

图5为本发明实施例示出的一种多GPU神经网络的参数更新方法的流程示意图；

图6为本发明实施例示出的一种无人车全局路径规划装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

图1为本发明实施例示出的一种无人车全局路径规划方法的流程示意图，如图1所示，本实施例的无人车全局路径规划方法，包括如下步骤：

步骤S110，通过强化学习方法建立用于描述无人车路径规划的序列决策过程的对象模型，对象模型中包括：无人车状态、采用地图图片进行描述的环境状态、以及路径规划结果的评估指标。

步骤S120，基于建立的对象模型，搭建深度强化学习神经网络，并利用无人车状态和环境状态的地图图片对深度强化学习神经网络进行训练，直至得到稳定的神经网络模型。

步骤S130，启动路径规划后，将当前任务场景下的环境状态的地图图片和无人车状态输入到训练后的深度强化学习神经网络中，根据深度强化神经网络输出的路径规划结果的评估指标，生成无人车的运动路径。

综上所述，本发明的技术方案，通过强化学习方法建立用于描述无人车路径规划的序列决策过程的对象模型，基于该对象模型搭建深度强化学习神经网络，则在启动路径规划后，将当前任务场景下的环境状态的地图图片和无人车状态输入到训练后的深度强化学习神经网络中，即可生成无人车的运动路径，从而实现了基于地图图片的无人车全局路径规划。本发明实施例的技术方案通过对象模型中的地图图片标识场景中的环境信息，以任务场景的地图图片和无人车状态作为路径规划的输入，显著简化了对地图场景的建模过程；通过深度神经网络提取地图特征，应用场景的地图图片实现路径规划，准确率和效率都得到大幅提高。

基于图1中所示的方案，进一步的，本发明的一个实施例中，上述步骤S110具体是使用马尔可夫决策过程{s,a,p,r,γ}，描述无人车路径规划的序列决策过程，并结合强化学习方法建立对象模型。马尔可夫决策过程(Markov Decision Process,MDP)是序贯决策(sequential decision)的数学模型，用于在系统状态具有马尔可夫性质的环境中模拟智能体可实现的随机性策略与回报。

在本实施例的无人车全局路径规划应用场景中，对象模型包括：状态s、动作a、状态转移模型p、奖励r、折扣因子γ。上述各对象模型具体内容如下。

状态s包括：无人车状态s_a和环境状态s_e，其中：

无人车状态s_a包含无人车位置、方向和尺寸、无人车当前速度、目标位置和目标方向，无人车状态s_a的获得方式不依赖于特定传感器，表示如下：

其中，在基于环境的全局坐标系Σ_e下，(p_x,p_y)表示无人车的当前位置，θ表示方向，r表示车体尺寸，(p_gx,p_gy)表示目标位置，θ_g表示目标方向，在基于无人车的本体坐标系Σ_b下，v表示线速度，ω表示角速度。

本实施例以地图和无人车状态作为输入，构建地图的方法和获得无人车状态的方式不依赖于特定传感器，适用范围广泛。

环境状态s_e通过以图片表示的地图进行描述，描述环境状态s_e的图片为全局地图图片，该全局地图图片上至少标识出地图的通行区域、障碍区域，以限定无人车路径规划的范围，表示如下：

其中，

表示实数集。

t时刻无人车的当前状态s_t表示为s_t＝[s_a；s_e]。

无人车采取的动作a包括无人车在本体坐标系Σ_b下的线速度v和角速度ω，动作a基于本体坐标系Σ_b描述，不受不同场景下全局坐标系Σ_e的坐标变换影响，t时刻的动作a_t表示如下：

状态转移模型p表示无人车在当前状态s_t采取动作a_t，转移到下一状态s_t+1的概率分布，表示如下：

P(s_t+1,s_t|a_t)

奖励r描述的是对无人车采取的动作给予的奖励，该奖励包括至少两种描述类型，第一种描述类型为在无人车到达或靠近目标时给予的奖励R_goal，第二种描述类型为在无人车碰撞或靠近障碍物时给予的惩罚R_coll。

具体的，通过下述方式设置第一种描述类型：当无人车到达目标位置时，给予正值的最大奖励值；基于距离设置折扣系数，由折扣系数和最大奖励值计算折扣奖励值，当无人车与目标位置的距离小于距离阈值时，给予折扣奖励值；以及当无人车与目标位置的距离大于距离阈值时，不给予奖励。

表示如下：

其中，式(1)表示无人车到达目标位置p_g和目标方向θ_g时，给予奖励α；为了体现出奖励的性质，α采用正值；

式(2)表示无人车靠近目标位置p_g时(即无人车与目标的距离小于距离阈值)给予奖励i*α，i表示基于距离计算的折扣系数；式(3)表示无人车远离目标位置p_g时(即无人车与目标的距离大于距离阈值)不给予奖励。

具体的，通过下述方式设置第二种描述类型：无人车与障碍物的距离小于第一阈值条件时，给予负值的最大惩罚值；基于距离设置折扣系数，由折扣系数和最大惩罚值计算折扣惩罚值，当无人车与障碍物的距离大于所述第一阈值条件且小于第二阈值条件时，给予折扣惩罚值；以及当无人车与障碍物的距离大于第二阈值条件时，不给予惩罚。

表示如下：

其中，式(1)表示无人车与障碍物距离d_coll小于阈值条件t_coll时(即无人车与障碍物的距离小于第一阈值条件)，给予惩罚ξ；式(2)表示无人车靠近障碍物时(即无人车与障碍物的距离大于所述第一阈值条件且小于第二阈值条件)给予惩罚j*ξ，j表示基于距离计算的折扣系数，m表示系数；式(3)表示无人车与障碍物的距离d_coll在阈值条件以外时(即无人车与障碍物的距离大于第二阈值条件时)不给予惩罚。

在t时刻，完整的奖励函数R_t表述为：

R_t＝R_goal+R_coll

折扣因子γ是在计算无人车执行多个动作所获得奖励时使用的衰减因子γ∈[0,1)，用于调整值函数的输出。

本实施例所建立的对象模型中，无人车状态不依赖于传感器而获得，环境状态采用全局地图图片进行描述，克服了现有技术中存在的依赖人工进行标记，计算代价高，依赖于特定传感器装置，适用范围狭窄等问题。

本发明的一个实施例中，上述步骤S110建立的用于描述路径规划结果的评估指标的对象模型包括：策略π和值函数V。其中，

策略π的目的为最小化到达目标位置和目标方向的期望时间，并避免与环境障碍物发生碰撞。根据无人车在t时刻的状态s_t，无人车选择动作a_t的策略π可描述为：

π:(a_t|s_t；θ_t)

其中，θ_t表示t时刻神经网络的参数。该策略π的主旨为最小化到达目标位置p_g和目标方向θ_g的期望时间，并避免与环境障碍物发生碰撞。

值函数V用于描述无人车在t时刻的状态s_t(包括无人车状态s_a和环境状态s_e)下，采取策略π的预期收益，可描述为：

其中，

表示期望。

本发明的一个实施例中，上述步骤S120中的“基于建立的对象模型，搭建深度强化学习神经网络”包括：

基于GA3C框架建立深度强化学习训练框架，搭建深度强化学习神经网络；建立的深度强化学习训练框架由无人车构成的智能体、数据队列和单GPU的神经网络三个部分组成。

需要说明的是，GA3C是指应用于图形处理器(Graphics Processing Unit，GPU)的异步优势评价器算法(Asynchronous Advantage Actor-Critic，A3C)。GA3C框架使用GPU进行强化学习训练，能够提升模型训练速度和性能。

本发明的一个实施例中，上述步骤S120进一步包括：在GA3C框架中添加多个并行运算GPU，搭建基于多GPU的神经网络；本实施例中深度强化学习训练框架由智能体、数据队列和多GPU的神经网络组成。

图2为本发明实施例示出的一种基于GA3C框架建立的深度强化学习训练框架的结构示意图。如图2所示，本实施例中的深度强化学习训练框架200包括：

由无人车构成的智能体210，用于与外界环境交互，实时获取无人车的状态s、动作a等数据，为搭建深度强化学习训练框架的提供数据。

数据队列220中包括有预测器和训练器，得到的训练数据和预测数据均存储在该数据队列中。

其中，通过预测器根据当前策略π选择动作a，并收集状态s、动作a和奖励r作为训练数据，输入训练器进行训练，并通过预测器输入当前状态s到神经网络，从神经网络得到策略π和值函数V，并选择动作a，计算奖励r得到预测数据；通过训练器输入状态s、动作a、奖励r到神经网络，训练神经网络，以更新神经网络的参数。

多GPU的神经网络230，由多个并行运算的单GPU组成，构成多GPU的神经网络。

本发明将单GPU的GA3C框架改进至多GPU的GA3C框架，多GPU训练方式，能够并行处理训练数据，包括地图图片和无人车状态。在多GPU并行运算方法下，GA3C框架的数据处理效率提升，模型训练时间缩短，模型性能更好。

图3为本发明实施例示出的一种搭建深度强化学习神经网络方法的流程示意图。采用卷积神经网络、全连接神经网络搭建每个单GPU的神经网络。如图3所示，本实施例的单GPU的神经网络搭建方法包括如下步骤：

步骤S310，将地图图片输入到卷积神经网络，得到地图图片的特征向量，将无人车状态输入到单隐层全连接神经网络，得到状态输出向量。

其中，地图图片指以图片方式表示任务场景中的障碍物区域、通行区域等图形特征。无人车状态包含无人车的位置、方向、速度、目标位置、目标方向等状态。环境状态的地图图片和无人车状态即为该单GPU的神经网络的输入。

步骤S320，将地图图片的特征向量和状态输出向量进行拼接融合后输入到双隐层全连接神经网络。

其中，全连接神经网络中的1个隐藏层由1个全连接层和1个激活函数组成。

步骤S330，由双隐层全连接神经网络输出策略π和值函数V。双隐层全连接神经网络的输出即为该单GPU的神经网络的输出。

图4为本发明实施例示出的一种深度强化学习神经网络训练方法的流程示意图，如图4所示，本实施例的训练深度强化学习神经网络的方法包括如下步骤：

步骤S410，将环境状态s_e的地图图片、无人车状态s_a作为训练数据。

步骤S420，随机初始化神经网络参数，基于动作a和获得的奖励r，计算策略损失函数f_π(θ)和值函数损失函数f_v(θ)。

步骤S430，通过反向传播算法，更新各个GPU中神经网络的参数，训练深度强化学习神经网络。

其中，策略损失函数f_π(θ)表示为：

f_π(θ)＝logπ(a_t|s_t；θ)(R_t-V(s_t；θ_t))+βH(π(s_t；θ))

其中，R_t表示奖励函数，V(s_t；θ_t)表示值函数，βH(π(s_t；θ))表示策略损失函数f_π(θ)中的正则项，起到调节f_π(θ)的作用。

值函数损失函数f_v(θ)表示为：

f_v(θ)＝(R_t-V(s_t；θ_t))²

同样其中，R_t表示奖励函数，V(s_t；θ_t)表示值函数。

步骤S440，检测一段时间内累积的奖励r、策略损失函数f_π(θ)和值函数损失函数f_v(θ)的变化过程，根据奖励和损失函数判断神经网络的性能，直至得到稳定的神经网络模型。

其中，累积的奖励越高，表示神经网络的性能越好，损失函数的值越低，表示神经网络的性能越好。当奖励和损失函数的值均到达稳定区间，则可得到稳定的神经网络模型。

图5为本发明实施例示出的一种多GPU神经网络的参数更新方法的流程示意图，如图5所示，上述步骤S430中的“通过反向传播算法，更新各个GPU中神经网络的参数”包括如下步骤：

步骤S510，将神经网络分布到n个GPU中，n≥2。

步骤S520，将当前训练轮次的训练数据平均分布到各个GPU中，并输入到神经网络得到参数的梯度(grad,var)，其中grad表示梯度，var表示变量。

步骤S530，根据各个GPU得到的梯度(grad,var)计算参数的平均梯度mean(grad,var)。

步骤S540，基于该平均梯度mean(grad,var)，同步更新各个GPU中神经网络的参数。

本发明的一个实施例中，上述步骤S130中“根据深度强化神经网络输出的路径规划结果的评估指标，生成无人车的运动路径”包括：在输出的策略π中选取概率最大的动作作为当前无人车的动作，将当前任务场景下的环境状态的地图图片和无人车状态不断输入到训练后的深度强化学习神经网络中，直至无人车到达目标，获取无人车从起点直至到达目标的所有动作，生成无人车的运动路径。

综上所述，本发明的技术方案，以环境状态的全局地图图片和无人车状态作为输入，构建地图的方法和获得无人车状态的方式不依赖于特定传感器，适用范围广泛；通过地图图片标识场景中的环境信息，通过深度神经网络提取地图特征，并应用场景的地图图片实现路径规划，简化了建模过程；采用卷积神经网络、全连接神经网络等神经网络结构建立深度强化学习网络，改进基于单GPU的GA3C框架至多GPU的GA3C框架，在多GPU并行运算方法下，数据处理效率提升，模型训练时间缩短，模型性能更好。

图6为本发明实施例示出的一种无人车全局路径规划装置的结构示意图，如图6所示，本实施例的无人车全局路径规划装置600包括：

建模单元610，用于通过强化学习方法建立用于描述无人车路径规划的序列决策过程的对象模型，所述对象模型中包括：无人车状态、采用地图图片进行描述的环境状态、以及路径规划结果的评估指标；

训练单元620，用于基于建立的对象模型，搭建深度强化学习神经网络，并利用无人车状态和环境状态的地图图片对所述深度强化学习神经网络进行训练，直至得到稳定的神经网络模型；

实施单元630，用于启动路径规划后，将当前任务场景下的环境状态的地图图片和无人车状态输入到训练后的所述深度强化学习神经网络中，根据深度强化神经网络输出的路径规划结果的评估指标，生成无人车的运动路径。

本发明的一个实施例中，上述建模单元610具体用于，使用马尔可夫决策过程{s,a,p,r,γ}描述所述对象模型，该对象模型包括：状态s、动作a、状态转移模型p、奖励r、折扣因子γ；在本发明的无人车全局路径规划应用场景中，上述各对象模型具体定义如下：

状态s包括：无人车状态s_a和环境状态s_e，t时刻的状态s_t表示为s_t＝[s_a；s_e]；其中：无人车状态不依赖于传感器而获得，无人车状态s_a包含无人车位置、方向和尺寸、无人车当前速度、目标位置和目标方向；描述环境状态s_e的图片为全局地图图片，该全局地图图片上至少标识出地图的通行区域、障碍区域；

动作a包括无人车在本体坐标系下的线速度和角速度，t时刻的动作，表示为a_t；

状态转移模型p表示无人车在当前状态s_t采取动作a_t，转移到下一状态s_t+1的概率分布；

奖励r描述的是对无人车采取的动作给予的奖励，该奖励包括至少两种描述类型，第一种描述类型为在无人车到达或靠近目标时给予的奖励，第二种描述类型为在无人车碰撞或靠近障碍物时给予的惩罚；

折扣因子γ是在计算无人车执行多个动作所获得奖励时使用的衰减因子，用于调整值函数的输出。

本发明的一个实施例中，上述训练单元620包括：

训练框架构建模块，用于基于GA3C框架建立深度强化学习训练框架；以及

神经网络构建模块，用于在GA3C框架中添加多个并行运算GPU，搭建基于多GPU的神经网络。

本发明的一个实施例中，上述训练框架构建模块具体用于：

建立由无人车构成的智能体、数据队列和多GPU的神经网络三个部分构成的深度强化学习训练框架，其中，所述智能体与外界环境交互，所述数据队列中包括有预测器和训练器，得到的训练数据和预测数据均存储在所述数据队列中；

通过预测器根据当前策略π选择动作a，并收集状态s、动作a和奖励r作为训练数据，输入训练器进行训练；通过预测器输入当前状态s到神经网络，从神经网络得到策略π和值函数V，并选择动作a，计算奖励r得到预测数据；通过训练器输入状态s、动作a、奖励r到神经网络，训练神经网络，以更新神经网络的参数。

基于多GPU的神经网络由多个单GPU的神经网络构成。本发明的一个实施例中，上述神经网络构建模块具体用于：

采用卷积神经网络、全连接神经网络搭建每个单GPU的神经网络，其中，单GPU的神经网络的输入为环境状态的地图图片和无人车状态；

将地图图片输入到卷积神经网络，得到地图图片的特征向量，将无人车状态输入到单隐层全连接神经网络，得到状态输出向量，以及将地图图片的特征向量和状态输出向量进行拼接融合后输入到双隐层全连接神经网络，由双隐层全连接神经网络输出策略π和值函数V，该双隐层全连接神经网络输出即为每个单GPU的神经网络的输出。

本发明的一个实施例中，上述的训练单元620还具体用于，将环境状态s_e的地图图片、无人车状态s_a作为训练数据；随机初始化神经网络参数，基于动作a和获得的奖励r，计算策略损失函数和值函数损失函数；通过反向传播算法，更新各个GPU中神经网络的参数，训练所述深度强化学习神经网络；检测一段时间内累积的奖励r、策略损失函数和值函数损失函数的变化过程，根据奖励和损失函数判断神经网络的性能，直至得到稳定的神经网络模型。

其中，上述训练单元620中的“通过反向传播算法，更新各个GPU中神经网络的参数”包括：将神经网络分布到n个GPU中，n≥2；将当前训练轮次的训练数据平均分布到各个GPU中，并输入到神经网络得到参数的梯度(grad,var)；根据各个GPU得到的梯度(grad,var)计算参数的平均梯度mean(grad,var)；基于所述平均梯度mean(grad,var)，同步更新各个GPU中神经网络的参数。

本发明的一个实施例中，上述的实施单元630具体用于，在输出的策略π中选取概率最大的动作作为当前无人车的动作，获取无人车从起点直至到达目标的所有动作，生成无人车的运动路径。

以上所描述的装置实施例仅仅是示意性的，具体实施方式可以参照前述方法实施例的具体实施方式进行，在此不再赘述。

需要说明的是，装置实施例中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明的具体实施方式，在本发明的上述教导下，本领域技术人员可以在上述实施例的基础上进行其他的改进或变形。本领域技术人员应该明白，上述的具体描述只是更好的解释本发明的目的，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种无人车全局路径规划方法，其特征在于，所述方法包括：

通过强化学习方法建立用于描述无人车路径规划的序列决策过程的对象模型，所述对象模型中包括：无人车状态、采用地图图片进行描述的环境状态、以及路径规划结果的评估指标；

基于建立的对象模型，搭建深度强化学习神经网络，并利用无人车状态和环境状态的地图图片对所述深度强化学习神经网络进行训练，直至得到稳定的神经网络模型；

启动路径规划后，将当前任务场景下的环境状态的地图图片和无人车状态输入到训练后的所述深度强化学习神经网络中，根据深度强化神经网络输出的路径规划结果的评估指标，生成无人车的运动路径。

2.如权利要求1所述的方法，其特征在于，所述无人车状态不依赖于传感器而获得，无人车状态s_a包含无人车位置、方向和尺寸、无人车当前速度、目标位置和目标方向；

描述所述环境状态s_e的图片为全局地图图片，该全局地图图片上至少标识出地图的通行区域、障碍区域；

所述路径规划结果的评估指标包括：策略π和值函数V；

所述策略π的目的为最小化到达目标位置和目标方向的期望时间，并避免与环境障碍物发生碰撞；

所述值函数V用于描述在无人车状态s_a和环境状态s_e下，采取策略π的预期收益。

3.如权利要求2所述的方法，其特征在于，

使用马尔可夫决策过程{s,a,p,r,γ}描述所述对象模型，所述对象模型包括：状态s、动作a、状态转移模型p、奖励r、折扣因子γ；其中，

所述状态s包括：无人车状态s_a和环境状态s_e，t时刻的当前状态s_t表示为s_t＝[s_a；s_e]；

所述动作a包括无人车在本体坐标系下的线速度和角速度，t时刻的动作，表示为a_t；

所述状态转移模型p表示无人车在当前状态s_t采取动作a_t，转移到下一状态s_t+1的概率分布；

所述奖励r描述的是对无人车采取的动作给予的奖励，该奖励包括至少两种描述类型，第一种描述类型为在无人车到达或靠近目标时给予的奖励，第二种描述类型为在无人车碰撞或靠近障碍物时给予的惩罚；

所述折扣因子γ是在计算无人车执行多个动作所获得奖励时使用的衰减因子，用于调整值函数的输出。

4.如权利要求3所述的方法，其特征在于，

通过下述方式设置所述第一种描述类型：

当无人车到达目标位置时，给予正值的最大奖励值；

基于距离设置折扣系数，由折扣系数和最大奖励值计算折扣奖励值，当无人车与目标位置的距离小于距离阈值时，给予折扣奖励值；以及

当无人车与目标位置的距离大于距离阈值时，不给予奖励；

通过下述方式设置所述第二种描述类型：

无人车与障碍物的距离小于第一阈值条件时，给予负值的最大惩罚值；

基于距离设置折扣系数，由折扣系数和最大惩罚值计算折扣惩罚值，当无人车与障碍物的距离大于所述第一阈值条件且小于第二阈值条件时，给予折扣惩罚值；以及

当无人车与障碍物的距离大于所述第二阈值条件时，不给予惩罚。

5.如权利要求3所述的方法，其特征在于，所述根据神经网络输出的路径规划结果的评估指标，生成无人车的运动路径包括：

在输出的策略π中选取概率最大的动作作为当前无人车的动作，获取无人车从起点直至到达目标的所有动作，生成无人车的运动路径。

6.如权利要求3或5所述的方法，其特征在于，所述基于建立的对象模型，搭建深度强化学习神经网络包括：

基于GA3C框架建立深度强化学习训练框架，搭建深度强化学习神经网络；建立的深度强化学习训练框架由无人车构成的智能体、数据队列和单GPU的神经网络三个部分组成，其中，

所述智能体与外界环境交互，所述数据队列中包括有预测器和训练器，得到的训练数据和预测数据均存储在所述数据队列中；

通过所述预测器根据当前策略π选择动作a，并收集状态s、动作a和奖励r作为训练数据，输入所述训练器进行训练；

通过所述预测器输入当前状态s到所述单GPU的神经网络，从所述单GPU的神经网络得到策略π和值函数V，并选择动作a，计算奖励r得到预测数据；

通过所述训练器输入状态s、动作a、奖励r到所述单GPU的神经网络，训练所述单GPU的神经网络，以更新所述单GPU的神经网络的参数。

7.如权利要求6所述的方法，其特征在于，在GA3C框架中添加多个并行运算GPU，搭建基于多GPU的神经网络；所述深度强化学习训练框架由智能体、数据队列和多GPU的神经网络组成。

8.如权利要求7所述的方法，其特征在于，所述搭建深度强化学习神经网络包括：

采用卷积神经网络、全连接神经网络搭建所述单GPU的神经网络，其中，

所述单GPU的神经网络的输入为环境状态的地图图片和无人车状态，

将地图图片输入到所述卷积神经网络，得到地图图片的特征向量，将无人车状态输入到单隐层全连接神经网络，得到状态输出向量；地图图片的特征向量和状态输出向量进行拼接融合后输入到双隐层全连接神经网络，由双隐层全连接神经网络输出策略π和值函数V；

所述单GPU的神经网络的输出为所述双隐层全连接神经网络的输出。

9.如权利要求8所述的方法，其特征在于，所述利用无人车状态和环境状态的地图图片对所述深度强化学习神经网络进行训练，直至得到稳定的神经网络模型，包括：

将环境状态s_e的地图图片、无人车状态s_a作为训练数据；

随机初始化神经网络参数，基于动作a和获得的奖励r，计算策略损失函数和值函数损失函数；

通过反向传播算法，更新各个GPU中神经网络的参数，训练所述深度强化学习神经网络；

检测一段时间内累积的奖励r、策略损失函数和值函数损失函数的变化过程，根据奖励和损失函数判断神经网络的性能，直至得到稳定的神经网络模型。

10.如权利要求9所述的方法，其特征在于，所述通过反向传播算法，更新各个GPU中神经网络的参数包括：

将神经网络分布到n个GPU中，n≥2；

将当前训练轮次的训练数据平均分布到各个GPU中，并输入到神经网络得到参数的梯度；

根据各个GPU得到的梯度计算参数的平均梯度；

基于所述平均梯度，同步更新各个GPU中神经网络的参数。

11.一种无人车全局路径规划装置，其特征在于，所述装置包括：

建模单元，用于通过强化学习方法建立用于描述无人车路径规划的序列决策过程的对象模型，所述对象模型中包括：无人车状态、采用地图图片进行描述的环境状态、以及路径规划结果的评估指标；

训练单元，用于基于建立的对象模型，搭建深度强化学习神经网络，并利用无人车状态和环境状态的地图图片对所述深度强化学习神经网络进行训练，直至得到稳定的神经网络模型；

实施单元，用于启动路径规划后，将当前任务场景下的环境状态的地图图片和无人车状态输入到训练后的所述深度强化学习神经网络中，根据深度强化神经网络输出的路径规划结果的评估指标，生成无人车的运动路径。

12.如权利要求11所述的装置，其特征在于，所述训练单元具体用于，

基于GA3C框架建立深度强化学习训练框架，以及在GA3C框架中添加多个并行运算GPU，搭建基于多GPU的神经网络；所述深度强化学习训练框架由智能体、数据队列和多GPU的神经网络组成。