CN110304045A

CN110304045A - 智能驾驶横向换道决策方法、系统和装置

Info

Publication number: CN110304045A
Application number: CN201910552495.1A
Authority: CN
Inventors: 张启超; 王俊杰; 赵冬斌
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2019-10-08
Anticipated expiration: 2039-06-25
Also published as: CN110304045B

Abstract

本发明属于智能驾驶领域，具体涉及一种智能驾驶横向换道决策方法，旨在为了解决现有决策方法对未知情况的泛化能力和对异常情况的抗干扰能力较差的问题。本发明采集目标车辆及相邻车辆的速度信息和位置信息，转化为环境表征；通过基于深度强化学习算法构建的高层决策模型获取高层横向驾驶决策动作；基于环境信息和高层横向驾驶决策动作，通过基于规则的低层校正器校正高层横向驾驶决策动作，获取目标车辆最终的横向驾驶决策动作。本发明在基于学习的方法的基础上，加入规则的限制，相比于规则的方法提高了泛化能力，相比于学习的方法提高了对异常情况的抗干扰能力，提高了稳定性，可实现高速路场景下安全、稳定的车辆自主横向换道决策。

Description

智能驾驶横向换道决策方法、系统和装置

技术领域

本发明属于智能驾驶领域，具体涉及一种智能驾驶横向换道决策方法、系统和装置。

背景技术

驾驶员失误作为发生交通事故的主要原因已被世界各国所公认，据统计，道路交通事故的原因中大约有75％是人为驾驶失误，其中有19％是因为无意识的车道偏离，26％是因为前向追尾。美国伊诺交通中心的研究发现，如果美国车辆的10％都是自动驾驶的，那么每年可以减少二十一万多起事故，挽救超过一千人的生命，汽车事故的经济成本将减少二百多亿美元。如果90％的汽车都是自动驾驶，这个数字将会更加可观：可以预防四百二十万起事故，挽救两万七千人的生命，并减少超过四千亿美元的损失。相对于人类驾驶，智能驾驶系统具有反应时间短、感知精度高等优点，因此研究智能驾驶技术对于减少因人为因素导致的交通事故具有十分重要的意义。

目前在智能驾驶的决策领域，主要有基于规则的方法和基于学习的方法这两大类。基于规则的方法通常需要大量的人工设计的规则和大量的专家知识，面对未出现过的复杂驾驶场景，如何做出正确可靠的决策行为是基于规则的传统方法面临的难题。基于学习的方法大多依赖于深度神经网络，虽然相较于基于规则的方法具有更好的泛化能力，但是在输入中加入小的扰动可能导致输出的巨大不同。

综上所述，现有决策方法对未知情况的泛化能力和对异常情况的抗干扰能力较差，因此一种稳定可靠的决策方法对车辆的智能驾驶系统至关重要。

发明内容

为了解决现有技术中的上述问题，即为了解决现有决策方法对未知情况的泛化能力和对异常情况的抗干扰能力较差的问题，本发明的第一方面，提出了一种智能驾驶横向换道决策方法，该方法包括：

步骤S100，获取目标车辆及其相邻车辆的预设类别环境信息，并转化为环境表征；

步骤S200，基于所述环境表征，通过高层决策模型获取所述目标车辆的高层横向驾驶决策动作；所述高层决策模型为基于深度强化学习算法构建的决策模型；

步骤S300，基于所述环境信息、所述目标车辆的高层横向驾驶决策动作，通过基于规则的低层校正器校正所述高层横向驾驶决策动作，获取目标车辆最终的横向驾驶决策动作；所述低层校正器为基于规则的分类器。

在一些优选的实施方式中，所述目标车辆及其相邻车辆的预设类别环境信息包括目标车辆及其相邻车辆的速度信息和位置信息。

在一些优选的实施方式中，步骤S100中“转化为环境表征”，其方法为：

步骤S110，将目标车辆、其相邻车辆的速度标准化至设定区间；

步骤S120，基于目标车辆及其所在车道构建N×L的网格阵列，其中L为车道数、N为每个车道所包含的纵向网格数；

步骤S130，依据预设的车辆在车道中所占的纵向网格数，以及目标车辆及其相邻车辆的位置、步骤S120中得到标准化后的速度，对所述网格阵列中各网格进行速度填充，获取矩阵形式的环境表征。

在一些优选的实施方式中，所述高层决策模型为基于深度强化学习算法的奖赏函数R、横向动作决策集合A构建的基于深度Q网络的决策模型，其训练方法为：

按照比例分别从训练样本集的不同经验池中随机采样构成训练样本最小集M；

基于训练样本最小集M，计算损失函数值，采用随机梯度下降法优化迭代更新所述深度神经Q网络参数，直至收敛；

目标网络参数以设定的步数间隔利用Q网络参数进行更新。

所述训练样本集为由t-1时刻状态表征、t-1时刻决策动作、t-1时刻奖赏值、t时刻状态表征构成的样本集合，其中，t为决策时刻。

在一些优选的实施方式中，所述的横向动作决策集合A，其决策动作包括：

动作a₀：目标车辆保持在当前车道行驶；

动作a₁：目标车辆向左换道；

动作a₂：目标车辆向右换道。

在一些优选的实施方式中，所述奖赏函数定义为：

高层横向驾驶决策动作在决策周期内导致碰撞，奖赏函数输出惩罚r_co；

高层横向驾驶决策动作导致目标车辆驶入非法车道或者驶离路面，奖赏函数输出惩罚r_ch1；

目标车辆前方没有障碍物阻挡，高层决策模型输出换道决策，奖赏函数输出惩罚r_ch2；

当换道发生时，没有前述意外情况发生，奖赏函数输出λ(v-v_ref)+r_ch3；

在正常行驶的情况下，奖赏函数输出奖赏r_v＝λ(v-v_ref)；

其中：v表示自上次决策以来的一个决策周期内目标车辆的平均时速，v_ref为参考车速，λ为调节系数。

在一些优选的实施方式中，所述“通过基于规则的低层校正器校正所述高层横向驾驶决策动作”的步骤为：

步骤S310，基于所述高层横向驾驶决策动作，获取目标车辆下一时间段行驶轨迹作为第一行驶轨迹；

步骤S320，基于所述高层横向驾驶决策动作，获取相邻车辆下一时间段行驶轨迹作为第二行驶轨迹；

步骤S330，基于第一行驶轨迹和第二行驶轨迹间的最短距离，通过低层校正器根据预设的规则获取所述高层横向驾驶决策动作的分类结果。

在一些优选的实施方式中，所述低层校正器中的分类包括车辆非法换道、车辆安全换道；

所述低层校正器中的预设规则包括：

如果车辆在最左侧车道且换道动作为向左换道或车辆在最右侧车道且换道动作为向右换道，则为车辆非法换道；

如果第一行驶轨迹和第二行驶轨迹间的最短距离小于等于设定安全阈值，则为车辆非法换道；

如果车辆换道方向存在目标车道，且第一行驶轨迹和第二行驶轨迹间的最短距离大于设定安全阈值，则为车辆安全换道。

在一些优选的实施方式中，步骤S300中“通过基于规则的低层校正器校正所述高层横向驾驶决策动作”，其方法为：

根据所述低层校正器对所述高层横向驾驶决策动作的分类，若为车辆非法换道则取消当前决策动作并保持当前车道行驶，若为车辆安全换道则执行所述高层横向驾驶决策动作。

本发明的第二方面提出了一种智能驾驶横向换道决策系统，该系统包括环境表征获取模块，高层横向驾驶决策动作获取模块，最终横向驾驶决策动作获取模块；

所述环境表征获取模块，配置为获取目标车辆及其相邻车辆的预设类别环境信息，并转化为环境表征；

所述高层横向驾驶决策动作获取模块，配置为基于所述环境表征，通过高层决策模型获取所述目标车辆的高层横向驾驶决策动作；所述高层决策模型为基于深度强化学习算法构建的决策模型；

所述最终横向驾驶决策动作获取模块，配置为基于所述环境信息、所述目标车辆的高层横向驾驶决策动作，通过基于规则的低层校正器校正所述高层横向驾驶决策动作，获取目标车辆最终的横向驾驶决策动作；所述低层校正器为基于规则的分类器。

本发明的第三方面提出了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的智能驾驶横向换道决策方法。

本发明的第四方面提出了一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的智能驾驶横向换道决策方法。

本发明的有益效果：

本发明针对高速路场景提出了一种基于规则和基于学习相结合的智能驾驶横向换道决策方法，在基于学习的方法的基础上，加入规则的限制，相比于单一的基于规则的方法提高了泛化能力，相比于学习的方法提高了对异常情况的抗干扰能力，提高了稳定性，可实现高速路场景下安全、稳定的车辆自主横向换道决策。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明一种实施例的智能驾驶横向换道决策方法流程示意图；

图2是本发明一种实施例的深度Q网络模型的网络结构示意图；

图3是本发明一种实施例中获取包括目标车辆及相邻车辆信息的环境表征的示例图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明的一种智能驾驶横向换道决策方法，如图1所示，包括以下步骤：

步骤S200，基于环境表征，通过高层决策模型获取目标车辆的高层横向驾驶决策动作；高层决策模型为基于深度强化学习算法构建的决策模型；

步骤S300，基于环境信息、目标车辆的高层横向驾驶决策动作，通过基于规则的低层校正器校正高层横向驾驶决策动作，获取目标车辆最终的横向驾驶决策动作；低层校正器为基于规则的分类器。

为了更好的对本发明智能驾驶横向换道决策方法的实施例进行说明，以下从高层决策模型获取、发明步骤详细说明两个部分进行描述。

1、高层决策模型获取

1.1定义基于深度强化学习算法的奖赏函数R

通常，在换道决策过程中，安全性和效率是最重要的考虑因素。在安全方面，自动驾驶汽车在行驶过程中应该能够避免碰撞，并且需要在规定的车道上行驶。因此，本实施例中的奖赏函数的定义如式(1)所示。

下面对式(1)各项做详细说明。

(1)如果一个变道决策在决策周期内导致碰撞，则会给智能体一个较大的惩罚r_co。

(2)为了限制目标车辆在规定的车道上行驶，当高层决策器作出会导致目标车辆驶入非法车道或者驶离路面的决策动作时，称其为非法换道，会给智能体一个惩罚r_ch1。

(3)为了让目标车辆在不超过最高限速的前提下尽可能以快的速度行驶，在正常直线行驶的情况下，以目标车辆的速度来定义基本奖赏r_v＝λ(v-v_ref)，其中，其中v表示自上次决策以来的一个决策周期内汽车的平均时速，v_ref为参考车速，λ为调节系数。

(4)为了防止目标车辆频繁换道，一方面，如果目标车辆前方没有障碍物阻挡，而智能体作出了换道决策，此时该决策没有意义，称其为无效换道，会给智能体一个换道惩罚r_ch2。

(5)为了防止目标车辆频繁换道，另一方面，当换道发生时，没有前述意外情况发生，称其为合法换道，则一个小的惩罚r_ch3会被加到基本奖赏r_v中。

1.2定义横向动作决策集合A

横向动作决策集合如式(2)所示。

本发明旨在解决智能车的横向变道决策问题，因此本实施例中，动作的定义针对横向决策：动作a₀，对应行为是目标车辆保持在当前车道行驶；动作a₁，对应行为是目标车辆向左换道；动作a₂，对应行为是目标车辆向右换道。

1.3定义深度Q神经网络结构

本实施例中，预设的高层决策模型为卷积神经网络构建的决策模型。该预设的高层决策模型由多个卷积层堆叠构成，首先环境表征输入网络后经过三层卷积层，得到的特征层经过拉长，将二维的输入一维化，之后连接两层全连接层，最终连接输出，对应动作集合中各动作的值函数。为了说明该预设的高层决策模型的网络结构，用Conva(kh,kw,In,Out,pad)表示卷积层，其中卷包含四个重要的参数(kh,kw,In,Out,pad)，分别表示卷积模板的长，宽，输入通道数，输出通道数和填充尺寸；用Flatten表示降维层；用FC(n)表示全连接层，其中参数n表示该层神经元个数。那么模型中卷积神经网络部分的结构可以表示成：Conv1(4,2,1,64,0)→Conv2(4,2,64,64,0)→Conv3(1,1,64,3,0)→Flatten→FC(256)→FC(64)，最终0、1、2三个神经元输出横向动作决策集合A中三个决策动作的Q值。具体网络结构图如图2所示，将此神经网络复制一份，分别用Q(s,a；θ)和Q(s,a；θ^-)表示，称Q(s,a；θ^-)为目标网络。

1.4依据上一次决策到当前决策这两次决策周期之间的环境状态以及奖赏函数，计算上一次决策的奖赏值大小。

1.5依据上一次决策动作的不同，将历史经验放入不同的经验池中，历史经验为四元组信息(s,a,r,s′)，其中s为上一次决策时的状态表征；a为上一次决策动作；r为所述上一次决策的奖赏值，即r＝R(v)，v表示自上次决策以来的一个决策周期内汽车的平均时速；s′为当前决策时刻的状态表征，其中，上一时刻动作是根据上一时刻状态表征输入深度神经网络并利用ε-贪心策略得到。ε-贪心策略的主要思想是以ε的概率从动作集合中随机选择一个操作，以1-ε的概率的按贪心方法从动作空间中选择当前的最优操作。本实施例中，ε定义如式(3)，不是一个一成不变的值，而是会随着迭代次数的增加从1慢慢降到0：

其中，step是当前的迭代次数，startstep是ε开始减小的迭代次数，totalsteps是ε降到0时的迭代次数，startstep和totalsteps可以设置的，totalsteps的值并不一定要等于训练时总迭代次数的值。

在智能体与环境进行不断交互的过程中持续采集历史经验，并存储到经验回放存储器中，得到训练样本集D。

按照一定比例分别从所述训练样本集的不同经验池中随机采样部分历史经验四元组构成训练最小集M，利用深度强化学习中的DQN算法更新所述深度Q神经网络参数。用Q(s,a；θ_i)表示第i次迭代时网络的参数，本实施例中，根据式(4)定义的损失函数训练网络模型。

其中，表示目标网络在迭代i次时的网络参数，γ∈(0,1]为折扣因子。目标网络参数只在每C步利用Q网络(θ_i)参数进行更新，本实施例中，设定C＝10，在两次更新过程中保持不变。为了计算方便，本事示例采用随机梯度下降法对损失函数进行优化。

2、本发明一种实施例的智能驾驶横向换道决策方法步骤详细说明

步骤S100，获取目标车辆及其相邻车辆的预设类别环境信息，并转化为环境表征。

通过全球定位系统(GPS)与惯性导航、车载相机、激光雷达、超声波距离传感器等传感器获得目标车辆及周围车辆的位置、速度信息，将这些信息转化成满足基于深度强化学习的高层决策模型输入要求的环境表征，具体步骤包括：

步骤S111，将目标车辆及其相邻车辆的速度根据式(5)标准化到[0,0.5]区间。

其中，v为车辆的速度，v_max为所行驶路段允许的最大车速，v_n为车辆速度的标准化。

步骤S121，定义状态矩阵。本实施例中，使用N×L大小的矩阵来作为环境表征，N和L值可根据不同驾驶场景进行定义。对于高速路场景，如图3所示，设定N＝45，L＝3。整个矩阵对应的是横向范围为目标车辆所在车道及目标车辆左右车道这三个车道，纵向范围为目标车辆前方60米、后方30米距离内的交通状况。矩阵中的每一行纵坐标为2米，考虑到实际中车辆的大小，一辆汽车占据4个单元格。用步骤S110中得到的各辆汽车的标准化速度来填充每辆汽车对应的4个单元格，速度的归一化值对目标车辆(图3中所示的深灰度方块)为正，其相邻车辆的归一化值为负(图3中所示的浅灰度方块)。在道路中没有车的地方，对应的单元格填充一个默认值v_default＝1。

步骤S200，基于环境表征，通过高层决策模型获取目标车辆的高层横向驾驶决策动作。

本实施例中将环境表征输入高层决策模型，获取高层驾驶决策动作。

步骤S300，基于环境信息、目标车辆的高层横向驾驶决策动作，通过基于规则的低层校正器校正高层横向驾驶决策动作，获取目标车辆最终的横向驾驶决策动作。

具体步骤为：

步骤S311，基于高层横向驾驶决策动作，计算目标车辆下一时刻目标位置，根据目标车辆当前置和目标位置，获取目标车辆下一时间段的行驶轨迹作为第一行驶轨迹；

步骤S321，基于高层横向驾驶决策动作，获取处在目标车道且与目标车辆纵向距离在一定阈值范围内的相邻车辆的位置、速度，依据相邻车辆的位置、速度，预测相邻车辆下一时间段行驶轨迹，作为第二行驶轨迹；

步骤S331，基于第一行驶轨迹和第二行驶轨迹间的最短距离，分别计算附近车辆与目标车辆轨迹的最短距离，并设定安全阈值。低层校正器根据预设的规则获取高层横向驾驶决策动作的分类结果。

本实施例中，低层校正器为基于规则建立的分类器，低层校正器中的分类包括车辆非法换道、车辆安全换道。

低层校正器中的预设规则包括：

根据低层校正器对高层横向驾驶决策动作的分类，若为车辆非法换道则取消当前决策动作并保持当前车道行驶，若为车辆安全换道则执行所述高层横向驾驶决策动作。

本发明实施例的一种智能驾驶横向换道决策系统，包括环境表征获取模块，高层横向驾驶决策动作获取模块，最终横向驾驶决策动作获取模块；

环境表征获取模块，配置为获取目标车辆及其相邻车辆的预设类别环境信息，并转化为环境表征；

高层横向驾驶决策动作获取模块，配置为基于环境表征，通过高层决策模型获取目标车辆的高层横向驾驶决策动作；高层决策模型为基于深度强化学习算法构建的决策模型；

最终横向驾驶决策动作获取模块，配置为基于环境信息、目标车辆的高层横向驾驶决策动作，通过基于规则的低层校正器校正高层横向驾驶决策动作，获取目标车辆最终的横向驾驶决策动作；低层校正器为基于规则的分类器。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的智能驾驶横向换道决策系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明实施例的一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的智能驾驶横向换道决策方法。

本发明实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的智能驾驶横向换道决策方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种智能驾驶横向换道决策方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的智能驾驶横向换道决策方法，其特征在于，所述目标车辆及其相邻车辆的预设类别环境信息包括目标车辆及其相邻车辆的速度信息和位置信息。

3.根据权利要求1所述的智能驾驶横向换道决策方法，其特征在于，步骤S100中“转化为环境表征”，其方法为：

4.根据权利要求1所述的智能驾驶横向换道决策方法，其特征在于，所述高层决策模型为基于深度强化学习算法的奖赏函数R、横向动作决策集合A构建的基于深度Q网络的决策模型，其训练方法为：

目标网络参数以设定的步数间隔利用Q网络参数进行更新。

5.根据权利要求4所述的智能驾驶横向换道决策方法，其特征在于，所述的横向动作决策集合A，其决策动作包括：

动作a₀：目标车辆保持在当前车道行驶；

动作a₁：目标车辆向左换道；

动作a₂：目标车辆向右换道。

6.根据权利要求4所述的智能驾驶横向换道决策方法，其特征在于，所述奖赏函数定义为：

在正常行驶的情况下，奖赏函数输出奖赏r_v＝λ(v-v_ref)；

7.根据权利要求1所述的智能驾驶横向换道决策方法，其特征在于，所述“通过基于规则的低层校正器校正所述高层横向驾驶决策动作”的步骤为：

8.根据权利要求5所述的智能驾驶横向换道决策方法，其特征在于，所述低层校正器中的分类包括车辆非法换道、车辆安全换道；

所述低层校正器中的预设规则包括：

9.根据权利要求8所述的智能驾驶横向换道决策方法，其特征在于，步骤S300中“通过基于规则的低层校正器校正所述高层横向驾驶决策动作”，其方法为：

10.一种智能驾驶横向换道决策系统，其特征在于，该系统包括环境表征获取模块，高层横向驾驶决策动作获取模块，最终横向驾驶决策动作获取模块；

11.一种存储装置，其中存储有多条程序，其特征在于，所述程序适于由处理器加载并执行以实现权利要求1-9中任一权利要求所述的智能驾驶横向换道决策方法。

12.一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；其特征在于，所述程序适于由处理器加载并执行以实现权利要求1-9中任一权利要求所述的智能驾驶横向换道决策方法。