CN111483468B

CN111483468B - 基于对抗模仿学习的无人驾驶车辆换道决策方法和系统

Info

Publication number: CN111483468B
Application number: CN202010331216.1A
Authority: CN
Inventors: 綦科
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2021-09-07
Anticipated expiration: 2040-04-24
Also published as: WO2021212728A1; JP2022532972A; JP7287707B2; CN111483468A

Abstract

本发明公开了基于对抗模仿学习的无人驾驶车辆换道决策方法和系统，首先基于将无人驾驶车辆换道决策任务描述为部分可观测马尔可夫决策过程；然后将采用采用对抗模仿学习方法从专业驾驶示教提供的范例中进行训练，获得无人驾驶车辆换道决策模型；车辆在无人进行驾驶行驶过程中，以当前获取的环境车辆信息为无人驾驶车辆换道决策模型的输入参数，通过无人驾驶车辆换道决策模型获取到车辆换道决策结果。本发明通过对抗模仿学习从专业驾驶示教提供的范例中学习换道策略，无需人为设计任务奖励函数，可以直接建立从车辆状态到车辆换道决策的直接映射，有效提高了无人驾驶车辆在动态车流条件下换道决策的正确性、鲁棒性和自适应性。

Description

基于对抗模仿学习的无人驾驶车辆换道决策方法和系统

技术领域

本发明属于无人自主驾驶车辆技术领域，特别涉及一种基于对抗模仿学习的无人驾驶车辆换道决策方法和系统。

背景技术

无人驾驶的发展有助于提升道路交通智能化水平、推动交通运输行业的转型升级。无人驾驶车辆是硬件和软件的结合体，硬件包括各种类型的传感器、控制器，软件则是集环境感知、行为决策、运动规划与自主控制模块于一体的综合系统。

换道决策是无人驾驶车辆决策技术的重要组成模块，是后续动作规划模块执行的依据。目前，现有技术包括公开的专利，主要采用的无人驾驶车辆换道决策方法包括：基于规则的决策、基于动态规划的决策、基于模糊控制的决策等传统方法。然而车辆行驶环境是一种复杂多变的高动态交通环境，很难建立精确的数学模型进行决策方法的设计，传统换道决策方法的鲁棒性和自适应性已无法完全满足无人驾驶换道决策的要求。

近年来，人工智能在无人驾驶领域的应用得到飞速发展，采用人工智能的手段来解决无人驾驶车辆换道决策问题成为一种可行方案。端到端的有监督学习和深度强化学习是两种较为普遍的方法。端到端的有监督学习和深度强化学习都可以训练一个神经网络模型直接映射感知数据到换道决策输出，然而，端到端的有监督学习通常需要大量的训练数据且模型泛化能力较弱，深度强化学习需要人为设计满足任务需求的奖励函数。

综合考虑当前无人驾驶技术的瓶颈以及换道决策技术的不足，需要设计一种新的无人驾驶车辆换道决策方法。

发明内容

本发明的第一目的在于克服现有技术的缺点与不足，提供一种基于对抗模仿学习的无人驾驶车辆换道决策方法，该方法能够从专业驾驶示教提供的范例中学习，无需人为设计任务奖励函数，可以直接建立从车辆状态到车辆换道决策的直接映射，能够有效提高无人驾驶车辆在动态车流条件下换道决策的正确性、鲁棒性和自适应性。

本发明的第二目的在于提供一种无人驾驶车辆换道决策系统。

本发明的第三目的在于提供一种存储介质。

本发明的第四目的在于提供一种计算设备。

本发明的第一目的通过下述技术方案实现：一种基于对抗模仿学习的无人驾驶车辆换道决策方法，包括：

步骤S1、将无人驾驶车辆换道决策任务描述为部分可观测马尔可夫决策过程；

步骤S2、采用对抗模仿学习方法从专业驾驶示教提供的范例中进行训练，获得无人驾驶车辆换道决策模型；其中，在训练过程中，对抗模仿学习方法基于方差缩减策略梯度的学习策略来模拟专业驾驶表现；

步骤S3、车辆在无人进行驾驶行驶过程中，以当前获取的环境车辆信息为无人驾驶车辆换道决策模型的输入参数，通过无人驾驶车辆换道决策模型获取到车辆换道决策结果。

优选的，步骤S1中，将无人驾驶车辆换道决策任务描述为部分可观测马尔可夫决策过程，具体如下：

步骤S11、确定状态O_t空间：包括车辆自车、车辆行车道前后方车辆及左右车道上距离本车最近车辆的行驶状态[l,v₀,s_f,v_f,s_b,v_b,s_lf,v_lf,s_lb,v_lb,s_rf,v_rf,s_rb,v_rb]；

其中：

l为车辆自车所在车道，v₀为车辆自车行驶速度；

s_f、v_f分别对应为自车行车道前方最近车辆到自车的距离和到自车的相对速度；

s_b、v_b分别对应为自车车道后方最近车辆到自车的距离和到自车的相对速度；

s_lf、v_lf分别对应为自车的左车道前方最近车辆到自车的距离和到自车的相对速度；

s_lb、v_lb分别对应为自车的左车道后方最近车辆到自车的距离和到自车的相对速度；

s_rf、v_rf分别对应为自车的右车道前方最近车辆到自车的距离和到自车的相对速度；

s_rb、v_rb分别对应为自车的右车道后方最近车辆到自车的距离和到自车的相对速度；

步骤S12、确定动作A_t空间：包括车辆左转换道、车辆右转换道、车辆车道保持且车速保持、车辆车道保持且加速以及车辆车道保持且减速。

更进一步的，针对于车辆自车：

当检测不到其行车道前方的车辆时，将s_f、v_f分别对应置为固定值；

当检测不到其行车道后方的车辆时，将s_b、v_b分别对应置为固定值；

当检测不到其左车道前方的车辆时，将s_lf、v_lf分别对应置为固定值；

当检测不到其左车道后方的车辆时，将s_lb、v_lb分别对应置为固定值；

当检测不到其右车道前方的车辆时，将s_rf、v_rf分别对应置为固定值；

当检测不到其右车道后方的车辆时，将s_rb、v_rb分别对应置为固定值。

更进一步的，步骤S2中，采用对抗模仿学习方法从专业驾驶示教提供的范例中进行训练的具体过程如下：

步骤S21、对专业驾驶员的车辆驾驶行为进行数据采集，包括采集专业驾驶员驾驶的状态数据和动作数据；

步骤S22、将采集的车辆状态数据和动作数据对抽取出来，构成数据集合τ＝{τ₁,τ₂,τ₃,...,τ_N}＝{(O₁,A₁),(O₂,A₂),(O₃,A₃),...,(O_N,A_N)}，定义τ为对抗模仿学习的专家轨迹，τ₁至τ_N分别表示第1至N个数据对，O₁至O_N分别表示采集的第1至N个状态数据，A₁至A_N分别表示采集的第1至N个动作数据；

其中N为训练数据集合中数据对的总数，对应为采样次数；

步骤S23、以数据集合τ为输入，采用对抗模仿学习方法训练，模仿专业驾驶员的驾驶行为，获得无人驾驶车辆换道决策模型。

更进一步的，步骤S23中，在训练过程中，对抗模仿学习方法基于方差缩减策略梯度的学习策略来模拟专业驾驶表现，具体过程如下：

步骤S231、初始化：

设置最大训练轮次T、训练步长α和采样次数N；

对无人驾驶车辆代理策略π_θ进行初始化，将无人驾驶车辆代理策略π_θ的权重参数初始化为θ₀；

初始化对抗网络判别器D_φ的权重参数，其中，φ₀为对抗网络判别器D_φ的初始化权重参数；

获取无人驾驶车辆当前状态向量O和当前动作向量A；

步骤S232、对每一训练轮次t，0≤t≤T，执行步骤S233至步骤S239；

步骤S233、随机采样，生成N个均值为0且方差为ν的高斯向量δ_t＝{δ₁,δ₂,...,δ_N}，其中δ₁至δ_N为第1至N个高斯向量，δ_t为N个高斯向量组合后的向量；

步骤S234、计算当前训练轮次t时，无人驾驶车辆代理策略π_θ的权重参数θ_t的均方差

步骤S235、计算无人驾驶车辆当前状态向量O的均值μ；

步骤S236、针对于每个k，k∈{1,2,...,N}，采用方差缩减方法计算随机代理策略π_t,(k)：

δ_k为步骤S233中得到的第k个高斯向量；

步骤S237、以无人驾驶车辆当前状态向量O为输入，应用随机代理策略π_t,(k)，k＝1,2,...,N，生成样本轨迹

其中，

至

分别是以O为输入，k取1到N值，通过随机代理策略π_t,(k)生成的第1至N个样本轨迹，

至

分别对应表示第1至N个样本轨迹中的动作数据；

步骤S238、更新对抗网络判别器D_φ的权重参数φ_t：采用最小二乘损失函数训练更新对抗网络判别器D_φ的权重参数φ_t，即采用最小二乘损失函数对决策边界两侧远离专家轨迹的样本轨迹进行惩罚，损失函数为：

式中：π_E、π_θ分别对应为专家策略和无人驾驶车辆代理策略，

为专家策略的熵正则化，

为无人驾驶车辆代理策略的熵正则化；

步骤S239、更新无人驾驶车辆代理策略π_θ的权重承参数θ_t：采用基于方差缩减策略梯度方法更新代理策略π_θ的权重参数θ_t，得到更新后的权重参数θ_t+1，直到当前训练轮次t到达最大训练轮次T。

更进一步的，步骤S239中，采用基于方差缩减策略梯度方法更新代理策略π_θ的参数θ_t的具体过程包括：

步骤S2391、对每一随机代理策略π_t,(k)(k∈{1,2,...,N})，计算奖励函数：

式中，

为熵正则化；

步骤S2392、更新无人驾驶车辆代理策略π_θ的参数θ_t：

更进一步的，步骤S3中，通过无人驾驶车辆换道决策模型获取到无人驾驶车辆换道决策结果的具体过程为：

步骤S31、获取无人驾驶车辆当前的环境车辆信息，包括无人驾驶车辆状态数据；

步骤S32、根据无人驾驶车辆的状态数据，对无人驾驶车辆换道决策模型的输入状态赋值；

步骤S33、通过无人驾驶车辆换道决策模型获取到换道决策结果；

步骤S34、判断是否连续出现n次的决策结果均是换道，且换道方向相同，n为常量；

若否，则进入步骤S35；

若是，则进入步骤S36；

步骤S35、判断当前决策结果是否为换道；

若否，则根据当前决策结果控制无人驾驶车辆当前驾驶动作，即控制无人驾驶车辆保持当前车道行驶，并执行加速、减速或车速保持的动作；返回步骤S31；

若是，无人驾驶车辆保持当前决策结果之前的驾驶状态；返回步骤S31；

步骤S36、根据决策结果进行换道；同时在无人驾驶车辆换道过程中检测是否有紧急情况，若有，则脱离无人驾驶状态，进行人工干预；若无，则根据换道决策结果完成换道，返回步骤S31。

本发明的第二目的通过以下技术方案实现：一种无人驾驶车辆换道决策系统，包括：

任务描述模块，用于将无人驾驶车辆换道决策任务描述为部分可观测马尔可夫决策过程；

换道决策模型构建模块，用于采用对抗模仿学习方法从专业驾驶示教提供的范例中进行训练，获得无人驾驶车辆换道决策模型；其中，在训练过程中，对抗模仿学习方法基于方差缩减策略梯度的学习策略来模拟专业驾驶表现；

环境车辆信息获取模块，用于车辆在无人进行驾驶行驶过程中，获取当前的环境车辆信息；

换道决策模块，用于以当前获取的环境车辆信息为无人驾驶车辆换道决策模型的输入参数，通过无人驾驶车辆换道决策模型获取到车辆换道决策结果。

本发明的第三目的通过以下技术方案实现：一种存储介质，存储有程序，所述程序被处理器执行时，实现实施例1所述的基于对抗模仿学习的无人驾驶车辆换道决策方法。

本发明的第四目的通过以下技术方案实现：一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现实施例1所述的基于对抗模仿学习的无人驾驶车辆换道决策方法。

本发明相对于现有技术具有如下的优点及效果：

(1)本发明无人驾驶车辆换道决策方法，首先基于将无人驾驶车辆换道决策任务描述为部分可观测马尔可夫决策过程；然后将采用采用对抗模仿学习方法从专业驾驶示教提供的范例中进行训练，获得无人驾驶车辆换道决策模型；车辆在无人进行驾驶行驶过程中，以当前获取的环境车辆信息为无人驾驶车辆换道决策模型的输入参数，通过无人驾驶车辆换道决策模型获取到车辆换道决策结果。本发明通过对抗模仿学习从专业驾驶示教提供的范例中学习换道策略，无需人为设计任务奖励函数，可以直接建立从车辆状态到车辆换道决策的直接映射，有效提高了无人驾驶车辆在动态车流条件下换道决策的正确性、鲁棒性和自适应性。

(2)本发明无人驾驶车辆换道决策方法中，对抗模仿学习方法基于方差缩减策略梯度的学习策略来模拟专业驾驶表现，能够进一步提高换道决策的正确性。另外，无人驾驶车辆换道决策模型在对无人驾驶车辆换道决策过程中，只有在连续多次获取到决策结果是换道时，才根据决策结果进行换道，因此上述操作也是更进一步保证了决策结果的正确性，保证了换道的安全性。

(3)本发明无人驾驶车辆换道决策方法中，在无人驾驶车辆根据决策结果进行换道过程中，实时检测是否有紧急情况，在有紧急情况下，脱离无人驾驶状态，进行人工干预，以保证车辆驾驶的安全性，保障车上人员的生命安全，最大程度的避免交通事故的发生。

附图说明

图1是本发明方法基于对抗模仿学习的离线训练流程图。

图2是本发明方法无人驾驶车辆换道决策流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例1

本实施例公开了一种基于对抗模仿学习的无人驾驶车辆换道决策方法，通过方法可以使得无人驾驶车辆进行正确、安全的切换车道，该方法包括如下步骤：

步骤S1、将无人驾驶车辆换道决策任务描述为部分可观测马尔可夫决策过程。

在本实施例中，将无人驾驶车辆换道决策任务描述为部分可观测马尔可夫决策过程，具体如下：

其中：

l为车辆自车所在车道，v₀为车辆自车行驶速度；在本实施例中，车辆自车行驶速度v₀可以通过车辆自车的车速传感器。

s_rb、v_rb分别为右车道后方最近车辆到自车的距离和到自车的相对速度。

在本实施例中，其他车辆到自车的距离s_f、s_b、s_lf、s_lb、s_rf、s_rb，可以通过自车的图像传感器或雷达传感器采集检测到，其他车辆到自车相对速度v_f、v_b、v_lf、v_lb、v_rf、v_rb可以通过自车雷达传感器采集检测到。

其中，针对于车辆自车：

其中上述设置的s_f、s_b、s_lf、s_lb、s_rf、s_rb的固定值可以是取雷达最大感知距离，例如是300米，上述设置的v_f、v_b、v_lf、v_lb、v_rf、v_rb的固定值可以取智能车的期望行驶速度，例如100km/h。

上述车辆自车即指的是无人驾驶车辆自车。

步骤S12、确定动作空间A_t：包括第一种，车辆左转换道；第二种，车辆右转换道；第三种，车辆车道保持且车速保持；第四种，车辆车道保持且加速；第五种，车辆车道保持且减速。

步骤S2、采用对抗模仿学习方法从专业驾驶示教提供的范例中进行离线训练，获得无人驾驶车辆换道决策模型；其中，在训练过程中，对抗模仿学习方法基于方差缩减策略梯度的学习策略来模拟专业驾驶表现；如图1所示，具体过程如下：

步骤S21、对专业驾驶员的车辆驾驶行为进行数据采集，包括采集专业驾驶员驾驶的状态数据和动作数据；其中每个状态数据中包括状态空间O_t中的数据[l,v₀,s_f,v_f,s_b,v_b,s_lf,v_lf,s_lb,v_lb,s_rf,v_rf,s_rb,v_rb]，即包括专业驾驶员驾驶车辆自车、车辆行车道前后方车辆及左右车道上距离本车最近车辆的行驶状态。动作数据即对应为动作空间A_t中的数据，每次采集到的动作数据可以为车辆左转换道、车辆右转换道、车辆车道保持且车速保持、车辆车道保持且加速或者车辆车道保持且减速。

步骤S22、将采集的车辆状态数据和动作数据对抽取出来，构成数据集合τ＝{τ₁,τ₂,τ₃,...,τ_N}＝{(O₁,A₁),(O₂,A₂),(O₃,A₃),...,(O_N,A_N)}，定义τ为对抗模仿学习的专家轨迹，τ₁至τ_N分别表示第1至N个数据对，O₁至O_N分别表示采集的第1至N个状态数据，A₁至A_N分别表示采集的第1至N个动作数据；其中N为训练数据集合中数据对的总数，对应为采样次数。本实施例中，采样次数N可以设置为N＝10⁵。

步骤S23、以数据集合τ为输入，采用对抗模仿学习方法训练，模仿专业驾驶员的驾驶行为，获得无人驾驶车辆换道决策模型。具体过程如下：

步骤S231、初始化，包括：

1)设置最大训练轮次T、训练步长α和采样次数N；

在本实施例中，最大训练轮次T可以设置为T＝2000，训练步长α可以设置为α＝0.3，如步骤S22所示，采样次数N可以设置为N＝10⁵。

2)采用行为克隆方法对无人驾驶车辆代理策略π_θ进行初始化，其中将无人驾驶车辆代理策略π_θ的权重参数初始化为θ₀；

3)采用Xavier方式初始化对抗网络判别器D_φ的权重参数，其中，φ₀为对抗网络判别器D_φ的初始化权重参数；

3)在无人驾驶车辆行驶过程中，获取车辆环境信息，包括无人驾驶车辆当前状态向量O和当前动作向量A；

其中，无人驾驶车辆当前状态向量O中包括状态空间O_t中的数据[l,v₀,s_f,v_f,s_b,v_b,s_lf,v_lf,s_lb,v_lb,s_rf,v_rf,s_rb,v_rb]，即包括无人驾驶车辆自车、车辆行车道前后方车辆及左右车道上距离本车最近车辆的行驶状态。无人驾驶车辆当前动作向量A即对应为动作空间A_t中的数据，当前获取到的动作数据可以为无人驾驶车辆左转换道、车辆右转换道、车辆车道保持且车速保持、车辆车道保持且加速或者车辆车道保持且减速。

该无人驾驶车辆即对应为步骤S3中要进行换道决策的无人驾驶车辆。

步骤S233、随机采样，生成N个均值为0且方差为ν的高斯向量δ_t＝{δ₁,δ₂,...,δ_N}，其中δ₁至δ_N为第1至N个高斯向量，δ_t为N个高斯向量组合后的向量；本实施例中，ν为常量，ν可以取0.3～0。

步骤S235、计算无人驾驶车辆当前状态向量O的均值μ；

δ_k为步骤S233中得到的第k个高斯向量。

本步骤中，基于δ_k＝δ₁,δ₂,...,δ_N，可以得到N个随机代理策略，即π_t,(1),π_t,(2),π_t,(3),...,π_t,(N)；

本步骤中，将无人驾驶车辆当前状态向量O作为输入，分别应用N个随机代理策略π_t,(1),π_t,(2),π_t,(3),...,π_t,(N)，对应生成样本轨迹

其中，

至

至

分别对应表示第1至N个样本轨迹中的动作数据；

为专家策略的熵正则化，

为无人驾驶车辆代理策略的熵正则化；

表示以

为输入，按照权重参数φ_t进行计算的结果。

步骤S239、更新无人驾驶车辆代理策略π_θ的权重承参数θ_t：采用基于方差缩减策略梯度方法更新代理策略π_θ的权重参数θ_t，得到更新后的权重参数θ_t+1，直到当前训练轮次t到达最大训练轮次T；

步骤S239中，采用基于方差缩减策略梯度方法更新代理策略π_θ的参数θ_t的具体过程包括：

步骤S2391、对每一随机代理策略π_t,(k),(k∈{1,2,...,N})，计算奖励函数：

式中，

为熵正则化；

表示判别器以(O,A)，进行判别计算的结果。

步骤S2392、更新无人驾驶车辆代理策略π_θ的权重参数θ_t：

本步骤中通过对抗网络判别器D_φ的权重参数和无人驾驶车辆代理策略π_θ的权重参数相应训练次数的更新实现对抗模仿学习方法的训练，获得无人驾驶车辆换道决策模型。

步骤S3、车辆在无人进行驾驶行驶过程中，以当前获取的环境车辆信息为无人驾驶车辆换道决策模型的输入参数，通过无人驾驶车辆换道决策模型获取到车辆换道决策结果。具体如图2中所示：

步骤S31、获取无人驾驶车辆当前的环境车辆信息，包括无人驾驶车辆状态数据，包括状态空间O_t中的数据[l,v₀,s_f,v_f,s_b,v_b,s_lf,v_lf,s_lb,v_lb,s_rf,v_rf,s_rb,v_rb]，即包括无人驾驶车辆自车、车辆行车道前后方车辆及左右车道上距离本车最近车辆的行驶状态。

步骤S32、根据无人驾驶车辆的状态数据，对无人驾驶车辆换道决策模型的输入状态赋值；即将步骤S31中获取到的无人驾驶车辆的状态数据[l,v₀,s_f,v_f,s_b,v_b,s_lf,v_lf,s_lb,v_lb,s_rf,v_rf,s_rb,v_rb]输入到无人驾驶车辆换道决策模型。

步骤S33、通过无人驾驶车辆换道决策模型获取到换道决策结果；本实施例中，无人驾驶车辆换道决策模型获取到换道决策结果对应为动作空间A_t中的内容：包括第一种，车辆左转换道；第二种，车辆右转换道；第三种，车辆车道保持且车速保持；第四种，车辆车道保持且加速；第五种，车辆车道保持且减速。

步骤S34、判断是否连续出现n次的决策结果均是换道，且换道方向相同，即是否连续n次均为向左换道或者向右换道，n为常量，可以设置为3～5；

若否，则进入步骤S35；

若是，则进入步骤S36；

步骤S35、判断当前决策结果是否为换道；

若否，则根据当前决策结果控制无人驾驶车辆当前驾驶动作，即控制无人驾驶车辆保持当前车道行驶，并执行加速、减速或车速保持的动作；返回步骤S31；例如若当前决策结果为车辆车道保持且加速，则控制无人驾驶车辆保持当前行驶车道且执行加速的动作。

若是，无人驾驶车辆保持当前决策结果之前的驾驶状态；该情况下，虽然决策结果是换道，但是由于没有出现连续n次的决策结果是换道，所以此时不换道，保持当前决策结果之前的驾驶状态，包括保持决策结果之前的驾驶车道和驾驶速度。

实施例2

本实施例公开一种用于实现实施例1基于对抗模仿学习的无人驾驶车辆换道决策方法的无人驾驶车辆换道决策系统，包括：

进一步的，本实施例中，任务描述模块包括

状态空间确定模块，用于确定状态O_t空间：包括车辆自车、车辆行车道前后方车辆及左右车道上距离本车最近车辆的行驶状态[l,v₀,s_f,v_f,s_b,v_b,s_lf,v_lf,s_lb,v_lb,s_rf,v_rf,s_rb,v_rb]。

动作空间确定模块，用于确定动作空间A_t：包括第一种，车辆左转换道；第二种，车辆右转换道；第三种，车辆车道保持且车速保持；第四种，车辆车道保持且加速；第五中，车辆车道保持且减速。

进一步的，本实施例中，换道决策模型构建模块包括第一数据采集模块、专家轨迹生成模块和训练模块；

第一数据采集模块，用于对专业驾驶员的车辆驾驶行为进行数据采集，包括采集专业驾驶员驾驶的状态数据和动作数据；

专家轨迹生成模块，用于将采集的车辆状态数据和动作数据对抽取出来，构成数据集合τ＝{τ₁,τ₂,τ₃,...,τ_N}＝{(O₁,A₁),(O₂,A₂),(O₃,A₃),...,(O_N,A_N)}，定义τ为对抗模仿学习的专家轨迹，τ₁至τ_N分别表示第1至N个数据对，O₁至O_N分别表示采集的第1至N个状态数据，A₁至A_N分别表示采集的第1至N个动作数据；

所述训练模块，用于以数据集合τ为输入，采用对抗模仿学习方法训练，模仿专业驾驶员的驾驶行为，获得无人驾驶车辆换道决策模型。具体训练过程如实施例1中步骤S231至步骤S239中所示。

本实施例无人驾驶车辆换道决策系统与实施例1的无人驾驶车辆换道决策方法相对应，因此各个模块的具体实现可以参见上述实施例1，在此不再一一赘述；需要说明的是，本实施例提供的装置仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

实施例3

本实施例公开了一种存储介质，存储有程序，所述程序被处理器执行时，实现实施例1所述的基于对抗模仿学习的无人驾驶车辆换道决策方法，如下：

将无人驾驶车辆换道决策任务描述为部分可观测马尔可夫决策过程；

采用对抗模仿学习方法从专业驾驶示教提供的范例中进行训练，获得无人驾驶车辆换道决策模型；其中，在训练过程中，对抗模仿学习方法基于方差缩减策略梯度的学习策略来模拟专业驾驶表现；

车辆在无人进行驾驶行驶过程中，以当前获取的环境车辆信息为无人驾驶车辆换道决策模型的输入参数，通过无人驾驶车辆换道决策模型获取到车辆换道决策结果。

本实施例中存储介质可以是磁盘、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、U盘、移动硬盘等介质。

实施例4

本实施例中公开了一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现实施例1所述的基于对抗模仿学习的无人驾驶车辆换道决策方法，如下：

本实施例中计算设备可以是台式电脑、笔记本电脑、智能手机、PDA手持终端、平板电脑或其他具有处理器功能的终端设备。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于对抗模仿学习的无人驾驶车辆换道决策方法，其特征在于，包括：

步骤S3、车辆在无人进行驾驶行驶过程中，以当前获取的环境车辆信息为无人驾驶车辆换道决策模型的输入参数，通过无人驾驶车辆换道决策模型获取到车辆换道决策结果；

步骤S1中，将无人驾驶车辆换道决策任务描述为部分可观测马尔可夫决策过程，具体如下：

其中：

l为车辆自车所在车道，v₀为车辆自车行驶速度；

2.根据权利要求1所述的基于对抗模仿学习的无人驾驶车辆换道决策方法，其特征在于，针对于车辆自车：

3.根据权利要求1所述的基于对抗模仿学习的无人驾驶车辆换道决策方法，其特征在于，步骤S2中，采用对抗模仿学习方法从专业驾驶示教提供的范例中进行训练的具体过程如下：

其中N为训练数据集合中数据对的总数，对应为采样次数；

4.根据权利要求3所述的基于对抗模仿学习的无人驾驶车辆换道决策方法，其特征在于，步骤S23中，在训练过程中，对抗模仿学习方法基于方差缩减策略梯度的学习策略来模拟专业驾驶表现，具体过程如下：

步骤S231、初始化：

设置最大训练轮次T、训练步长α和采样次数N；

获取无人驾驶车辆当前状态向量O和当前动作向量A；

步骤S235、计算无人驾驶车辆当前状态向量O的均值μ；

δ_k为步骤S233中得到的第k个高斯向量；

步骤S237、以无人驾驶车辆当前状态向量O为输入，应用随机代理策略π_t(k)，k＝1,2,...,N，生成样本轨迹

其中，

至

至

分别对应表示第1至N个样本轨迹中的动作数据；

为专家策略的熵正则化，

为无人驾驶车辆代理策略的熵正则化；

5.根据权利要求4所述的基于对抗模仿学习的无人驾驶车辆换道决策方法，其特征在于，步骤S239中，采用基于方差缩减策略梯度方法更新代理策略π_θ的参数θ_t的具体过程包括：

式中，

为熵正则化；

步骤S2392、更新无人驾驶车辆代理策略π_θ的参数θ_t：

6.根据权利要求4所述的基于对抗模仿学习的无人驾驶车辆换道决策方法，其特征在于，步骤S3中，通过无人驾驶车辆换道决策模型获取到无人驾驶车辆换道决策结果的具体过程为：

若否，则进入步骤S35；

若是，则进入步骤S36；

步骤S35、判断当前决策结果是否为换道；

7.一种用于实现权利要求1～6中任一项基于对抗模仿学习的无人驾驶车辆换道决策方法的无人驾驶车辆换道决策系统，其特征在于，包括：

8.一种存储介质，存储有程序，其特征在于，所述程序被处理器执行时，实现权利要求1～6中任一项所述的基于对抗模仿学习的无人驾驶车辆换道决策方法。

9.一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现权利要求1～6中任一项所述的基于对抗模仿学习的无人驾驶车辆换道决策方法。