CN114056328A

CN114056328A - 基于dqn实现车辆l3级自动驾驶的行人避让方法及系统

Info

Publication number: CN114056328A
Application number: CN202111281663.1A
Authority: CN
Inventors: 管达志; 徐庶; 刘庆杰; 马金艳; 高爽
Original assignee: Nanhu Research Institute Of Electronic Technology Of China
Current assignee: Nanhu Research Institute Of Electronic Technology Of China
Priority date: 2021-11-01
Filing date: 2021-11-01
Publication date: 2022-02-18
Anticipated expiration: 2041-11-01
Also published as: CN114056328B

Abstract

本发明提出的一种基于DQN实现车辆L3级自动驾驶的行人避让方法，包括：通过所述自动驾驶车辆的传感器探测前方是否存在行人和周边是否存在车辆；根据所述探测的行人和车辆的信息，以及所述自动驾驶车辆的行驶路线的超车道是否具有其他车辆确定所述DQN训练后的行人避让策略。本发明利用DQN以较低的训练成本实现了L3级自动驾驶行人避让策略。

Description

基于DQN实现车辆L3级自动驾驶的行人避让方法及系统

【技术领域】

本发明涉及自动驾驶技术领域，尤其涉及一种基于DQN实现车辆L3级自动驾驶的行人避让方法及系统。

【背景技术】

为了便于理解，对本申请中使用的下述术语做一解释：

L2、L3：美国汽车工程师协会于2014年制定自动驾驶分类标准(L0～L5)，L2代表为实现部分自动驾驶，通过驾驶环境对方向盘和加减速中的多项操作提供驾驶支援，其他的驾驶动作都由人类驾驶员进行操作；L3代表为有条件自动化，由无人驾驶系统完成所有的驾驶操作，根据系统请求，人类驾驶者提供适当的应答。

AEB：自动紧急制动技术。

TensorFlow：是一个基于数据流编程的符号数学系统，被广泛应用于各类机器学习算法的编程实现，其前身是谷歌的神经网络算法库DistBelief。

Unity：实时3D互动内容创作和运营平台。

毫米波雷达：工作在毫米波波段探测的雷达。通常毫米波是指30～300GHz频域(波长为1～10mm)的。

深度强化学习和DQN：深度强化学习将深度学习的感知能力和强化学习的决策能力相结合，是一种更接近人类思维方式的人工智能方法。DQN(深度Q网络)，是深度强化学习最重要的算法之一，其将Q learning和卷积神经网络(CNN)结合在一起，利用神经网络来近似值函数。

汽车的安全系统中包括被动安全与主动安全，区分的主要依据为事故发生前后车辆采取的动作，被动安全指的是指在交通事故发生后能尽量减小人身损伤的安全装置，包括对乘客和行人的保护，我们常见的汽车被动安全配置包括安全气囊、安全带、防撞钢梁等；而主动安全指的是一切能够使汽车主动采取措施，避免事故发生的安全技术，如ABS(防抱死制动系统)、AEB(自动紧急制动技术)、ESP(电子稳定系统)、LDWS(车道偏离预警系统)、BSW(盲点警示系统)、并道辅助系统等。

行人避让是自动驾驶汽车主动安全亟待解决的重要问题，行人在道路上动作的不确定性大大增加了道路的复杂性，目前实现行人避让主动安全功能的方式主要为制动与转向两大方面，制动方面，是以AEB为代表，自2006年始有量产车装配AEB系统，2013年被列为E-NCAP的汽车安全加分项，2022年美国99％新车将装配AEB，制定距离的影响因素包括驾驶员反应时间、系统响应时间、车辆控制强度等，当驾驶员反应时间滞后或车辆控制强度控制不足以保证制动安全距离的话，此时最优的解决方案为切换至侧道进行转向。但在转向避让方面，目前仍处于研发阶段，并未装载至新车中。

近些年，自动驾驶技术迎来蓬勃发展，但行人避让策略中仍停留在L2级，即采用AEB策略实施行人避让，通过车身环境感知传感器(毫米波雷达或视觉摄像头等)感知前方可能与行人所发生的碰撞风险，自动触发执行机构完成制动，但实际道路交通环境高度复杂，如遇行人突然出现在道路前方，由于车辆本身的惯性，刹车距离不足以确保安全距离。可见，虽然最优的解决方案为切换至侧道进行转向，但目前在车辆自动驾驶方面，还未有实用的解决方案。现有技术中，David Fernández Lorca等人在2011年提出一种基于模糊控制器的行人避让决策(D.Fernandez Llorca et al.,"Autonomous Pedestrian CollisionAvoidance Using a Fuzzy Steering Controller,"in IEEE Transactions onIntelligent Transportation Systems,vol.12,no.2,pp.390-401,June 2011,doi:10.1109/TITS.2010.2091272.)。这种方法是使用模糊控制器去模仿在碰撞避让过程中的行人行为及反应，实验表明这种基于模糊控制器的可以实现避让并且可靠性达到75％，但是这种方法存在一个明显的缺点：参见图1的(a)-(b)所示，它仅能工作在一个特定的状态，即是车辆和行人行驶在同一个车道上，同时，左侧的车道需要空着且有足够的距离去超越行人。中国专利CN112572462A在自动驾驶避让行人方面，提出了一种自动驾驶的控制方法，采用策略树模型实现驾驶策略的选择。中国专利CN111273670A在无人驾驶艇方面，公开的一种针对快速移动障碍物的无人艇避碰方法提出了通过计算安全避让范围来实现安全避让。中国专利CN108407805A在自动泊车方面，公开的一种基于DQN的车辆自动泊车方法提出了使用DQN训练得到的强化学习来实现自动泊车。这些现有技术都不能实现车辆L3级自动驾驶的行人避让。

【发明内容】

可见现有技术中，L2级自动驾驶技术的行人避让策略存在较大的事故风险。对此，本发明基于深度强化学习在决策模块开发的一种端到端行人避让解决方案，通过在深度强化学习框架TensorFlow下进行算法训练并在Unity3D进行仿真模拟自动驾驶车辆在有无交通情况下的行人避让策略，实现L3级自动驾驶技术，即通过自动切换侧车道以确保行人避免碰撞。

一方面，本发明提出了一种基于DQN实现车辆L3级自动驾驶的行人避让方法，包括：

步骤1：通过所述自动驾驶车辆的传感器探测前方是否存在行人和周边是否存在车辆；

步骤2：根据所述探测的行人和车辆的信息，以及所述自动驾驶车辆的行驶路线的超车道是否具有其他车辆确定所述DQN训练后的行人避让策略。

进一步的，在上述技术方案的基础上，所述步骤2还包括：

(1)如果所述超车道没有其他车辆，则所述行人避让策略包括：

S1-1：所述自动驾驶车辆通过传感器探测到前方行人时，获取所述行人的位置并根据所述自动驾驶车辆的自身位置信息及速度计算所述自动驾驶车辆与所述行人在行驶方向上的相对距离；

S1-2：当所述相对距离在第一距离内时，所述自动驾驶车辆减速至第一速度，同时，所述自动驾驶车辆不断探测前方所述行人的位置、移动方向和所述相对距离，预判所述行人是否与所述自动驾驶车辆位于同一车道，如在同一车道则进行转弯避让，进入超车道；

S1-3：当所述自动驾驶车辆在超车道超越所述行人后，当所述自动驾驶车辆与所述行人在行驶方向上的相对距离不小于第一距离时，所述自动驾驶车辆从所述超车道切换回原行驶车道；

(2)如果所述超车道有其他车辆时，则所述行人避让策略包括：

S2-1：所述自动驾驶车辆通过传感器探测到前方行人和超车道上的车辆时，获取所述行人和超车道上的车辆的位置、移动方向信息，并根据所述自动驾驶车辆自身位置信息及速度计算与所述行人和超车道上的车辆在行驶方向上的相对距离；

S2-2：所述自动驾驶车辆加速并超越位于所述超车道上的车辆，直至与所述超车道的车辆在行驶方向上保持至少第一距离；

S2-3：与S2-2同时，当所述自动驾驶车辆与所述行人在行驶方向上的相对距离在第一距离内时，所述自动驾驶车辆减速至第一安全速度，所述自动驾驶车辆不断探测前方的所述行人位置、移动方向，及所述自动驾驶车辆后方道路的车辆与所述自动驾驶车辆在行驶方向上的相对距离，确保所述相对距离不低于相对安全距离；预判所述行人是否与所述自动驾驶车辆属于同一车道，如在同一车道则进行转弯避让，切换到超车道；

S2-4：当所述自动驾驶车辆在超车道超越所述行人后，且所述自动驾驶车辆与所述行人在行驶方向上的相对距离不小于第一距离时，此时继续探测所述自动驾驶车辆的前方是否具有车辆，如果有车辆，则当所述自动驾驶车辆分别与所述前方的车辆和所述行人在行驶方向上的相对距离都不小于相对安全距离时，所述自动驾驶车辆减速，实施换道操作，切换到原行驶车道。

进一步的，在上述技术方案的基础上，如果所述超车道没有其他车辆，所述行人避让策略使用的DQN的训练方法包括：

步骤2.11：所述自动驾驶车辆在行驶路线的第一个路径点；

步骤2.12：检测所述自动驾驶车辆是否行驶在右车道；

步骤2.13：如果未在右车道，则给予惩罚，即增加惩罚值；如果在右车道，则获得奖励，即增加奖励值；

步骤2.14：所述自动驾驶车辆移动到所述行驶路线的下一个路径点；

步骤2.15：探测行驶路线方向的前方第一距离内是否有行人，如否，则给予惩罚，转步骤2.12；

步骤2.16：判断所述行人与所述自动驾驶车辆是否在不同车道，如是，则获得奖励；如否，则给予惩罚，并转步骤2.15；

步骤2.17：检测所述自动驾驶车辆是否在右车道，如是，则获得奖励；如否，则给予惩罚；

步骤2.18：所述自动驾驶车辆移动到下一个路径点。

进一步的，在上述技术方案的基础上，如果所述超车道有其他车辆时，所述行人避让策略使用的所述DQN的训练方法包括：

步骤2.21：所述自动驾驶车辆在行驶路线的第一路径点；

步骤2.22：检测所述自动驾驶车辆是否行驶在右车道，如是，则获得奖励，即增加奖励值；如否，则给予惩罚，即增加惩罚值；

步骤2.23：所述自动驾驶车辆移动到下一个路径点；

步骤2.24：检测所述超车道位于所述自动驾驶车辆的前方是否有车辆，如是，则所述自动驾驶车辆加速；

步骤2.25：检测所述自动驾驶车辆在行驶方向上是否超过所述超车道的车辆且在行驶方向上的相对距离超过第一距离，如否，则转步骤2.24；

步骤2.26：检测所述自动驾驶车辆在行驶方向上的前方第一距离内是否有行人，如否，则转步骤2.23；

步骤2.27：判断所述行人是否与所述自动驾驶车辆在不同车道，如否，则给予惩罚，并转步骤2.26；如是，则获得奖励；

步骤2.28：判断所述自动驾驶车辆的前方的第一距离内是否有车辆，如否，则给予惩罚，并转步骤2.30；如是，则获得奖励；

步骤2.29：所述自动驾驶车辆减速；

步骤2.30：检测所述自动驾驶车辆是否在右车道，如是，则获得奖励；如否，则给予惩罚，并转步骤2.28；

步骤2.31：所述车辆移动到下一个路径点。

进一步的，在上述技术方案的基础上，所述第一距离为15米，第一安全速度为20公里/小时，相对安全距离为10米。

进一步的，在上述技术方案的基础上，所述传感器为激光传感器。

进一步的，在上述技术方案的基础上，所述DQN基于TensorFlow框架，采用TensorFlow与Unity3D联合仿真训练。

另一方面，本发明还提出了一种基于DQN实现车辆L3级自动驾驶的行人避让系统，包括处理器、存储器和控制器，所述控制器控制所述自动驾驶车辆执行车道切换操作，所述存储器存储有程序代码的介质，当所述处理器系统读取所述介质存储的程序代码时，所述设备能够执行权利要求1-7任一项所述的方法。

基于本发明的发明构思，能使得本发明获得如下有益的技术效果：

(1)基于道路的不同交通状况，分别使用相应的DQN，有利于改善行人避让策略的使用效能。

(2)由于采用针对不同道路交通状况的DQN分别训练，降低了Q learning中的Q-table的构建复杂度，有利于提升模型训练的速度。

(3)由于将深度强化学习的DQN引入到自动驾驶中行人避让策略中，减少了传统深度学习所需的大量训练样本，降低了训练复杂度。

(4)本发明运用DQN算法实施动态物体的避障决策，如行走的行人及移动的车辆，达到自动驾驶L3级；

(5)采用对表征自动驾驶车辆的agent进行训练，提高迭代效率，另外，由于只需少量的通用传感器即可训练agent，大大降低了开发成本，缩短了开发周期，同时获得较好的行人避让性能，训练agent的成功率验证了有效性。

(6)本发明采用基于DQN的深度强化学习可以让主体适应不同的驾驶情境，而无需在程式中设定状态。通过不断地与道路环境互动，可在训练足够的时间后采取适当的行动。并且在TensorFlow和Unity的支持下，本发明只需要改变少量关键代码，降低了程序开发的复杂度。

【附图说明】

图1为自动驾驶车辆与行人在同一车道上避让行人示意图。

图2为本发明提出的基于DQN实现车辆L3级自动驾驶的行人避让方法的一行人避让策略优选实施例示意图。

图3为本发明提出的基于DQN实现车辆L3级自动驾驶的行人避让方法的一行人避让策略优选实施例的训练方法流程图。

图4为本发明提出的基于DQN实现车辆L3级自动驾驶的行人避让方法另一行人避让策略优选实施例示意图。

图5为本发明提出的基于DQN实现车辆L3级自动驾驶的行人避让方法另一行人避让策略优选实施例的训练方法流程图。

【具体实施方式】

为了便于理解，本具体实施方式是本发明提出的基于DQN实现L3级自动驾驶的行人避让方法和设备的优选实施例，以详细说明本发明的结构和发明点，但并不作为本发明权利要求的限定保护范围。

本发明将强化学习创新地应用到车辆自动驾驶的行人避让中。强化学习可通过评估代理agent(本发明中即自动驾驶车辆)和环境(本发明中即道路环境)状态的交互来获得数字奖励，并利用贪婪策略寻找回报最大化的行为。通过强化学习框架对agent与环境交互中目标导向学习进行抽象，如假设它具有马尔可夫性。当agent试图学习目标导向行为时，需要具备以下三个基本要素：状态、行动和奖励。其中：

状态(state)：agent和环境的状态描述了在执行某个操作时系统的整体变化。而且，某种状态是做出选择的基础。

操作(action)：可选操作表示agent所做的选择。当做出一个选择时，整个系统的状态会立即发生变化。通过多次操作，总能找到一系列的选择来实现目标。

奖励(reward)：使用奖励信号来描述目标的实现是强化学习最重要的特征之一。特别地，奖励信号是对agent的预期目标的描述。

决策模块的任务是根据从传感器接收到的信息做出相应的决策，然后规划一条通往控制模块的可行驶路径。决策系统可视为自动驾驶车辆的大脑。它接收来自感知模块的信息，做出决策，并将其发送给控制模块和执行模块。在行人避让中，感知模块通过高清地图和传感器获取行人的位置和行为特征。决策模块通过计算碰撞时间来判断是减速还是变道超车。

根据道路的不同情况，本发明将行人避让策略分为两种情况。

如图2、4分别所示的行人避让策略优选实施例的示意图，其中，1为自动驾驶车辆，2为行人，3为自动驾驶车辆1所在的车道，4为超车道，5和6分别为车辆A和车辆B。对于实行右侧通行的交通原则的国家，机动车、非机动车在道路上行驶时，如果道路上划设中心线的，以中心线为界；未划设中心线的，以几何中心为界，以面对方向定左右，即左手一侧的道路为左侧道路，右手一侧的道路为右车道路，除有特殊规定的车辆外，一律靠右侧的道路行驶。位于右车道路的左侧道路通常作为超车道。

参见图2，在无道路交通的情况下，即自动驾驶车辆1所在的车道3和超车道4均无其他车辆，行人避让策略主要分为三个部分，分别为行人探测前期、行人避让过程、以及避让后正常驾驶过程：

S1(行人探测前期)：自动驾驶车辆1通过前方传感器(激光传感器等)探测到行人2，获得行人位置并根据自身位置信息及速度计算与行人2的相对距离；

S2(行人避让过程)：当自动驾驶车辆1与行人2相对距离在15m内时，自动驾驶车辆1减速至20km/h，同时，自动驾驶车辆1不断探测前方行人2的信息(位置、移动方向、相对距离)，预判行人2是否与自动驾驶车辆1同一车道，如在同一车道则进行转弯避让，如不在同一车道则正常行驶；

S3(避让后正常驾驶过程)：当自动驾驶车辆1超越行人2后，自动驾驶车辆1在超过行人后获得相对安全距离(≥15m)后，为符合道路交通规则，自动驾驶车辆1将从超车道4切换到正常行驶道3。

为实现上述行人避让策略，采用如图3所示的训练手段训练用于深度强化学习的DQN模型。

步骤2.11：所述自动驾驶车辆在行驶路线的第一个路径点；

步骤2.12：检测所述自动驾驶车辆是否行驶在右车道；

步骤2.15：探测前方行驶路线方向上的第一距离内是否有行人；如是，转步骤2.16；如否，则给予惩罚，转步骤2.12；

步骤2.16：判断所述行人与所述自动驾驶车辆是否在不同车道，如是，则获得奖励，转步骤2.17；如否，则给予惩罚，转步骤2.15；

步骤2.18：所述自动驾驶车辆移动到下一个路径点。

参见图4，为有道路交通的情况下，行人避让策略的示意图，不同于无道路交通的情况，自动驾驶车辆1的前后方(位于其所在车道左侧的超车道)均可能有其他车辆。在进行行人避让时，分为四个阶段，分别为：行人探测前期、行人超越前、行人避让过程、避让后正常驾驶过程。

S1(行人探测前期)：自动驾驶车辆1通过前方传感器(激光传感器等)探测到行人2、周边车辆，获得行人及周边车辆信息(位置、移动方向)，并根据自身位置信息及速度计算与周边环境(行人、其他车辆)在行驶方向上的相对距离；

S2(行人超越前)：自动驾驶车辆1根据周边道路环境计算躲避行人的策略，在此阶段进行加速并超越侧方车辆5，确保与侧方车辆在行驶方向上的相对距离保持至少15米的安全距离；

S3(行人避让过程)：与S2同时，当自动驾驶车辆1与行人2相对距离在15m内时，车辆减速至20km/h，同时，自动驾驶车辆1不断探测前方行人2信息(位置、移动方向)及后方道路车辆5相对安全距离，预判行人是否与车辆同一车道，如在同一车道则进行转弯避让，如不在同一车道则进行正常行驶；

S4(避让后正常驾驶)：当自动驾驶车辆1超越行人2后，为符合道路交通规则，自动驾驶车辆1将从超车道4切换到正常行驶道3，自动驾驶车辆1在超过行人2后获得相对安全距离(≥15米)，此时需探测前方车辆6的信息，在保证与行人安全距离下进行减速，确保回归正常道路3时与前方车辆6保持安全距离。确保行人2及车辆6的相对安全距离后，控制车辆实施换道操作，回到原行驶车道继续行驶。

为实现上述行人避让策略，采用如图5所示的训练手段训练用于深度强化学习的DQN模型。

步骤2.21：所述自动驾驶车辆在行驶路线的第一路径点；

步骤2.23：所述自动驾驶车辆移动到下一个路径点；

步骤2.24：检测所述超车道位于所述自动驾驶车辆的前方是否有车辆A，如是，则所述自动驾驶车辆加速；

步骤2.25：检测所述自动驾驶车辆在行驶方向上是否超过所述超车道的车辆A达到第一距离，如是，转步骤2.26，如否，则转步骤2.24；

步骤2.26：检测所述自动驾驶车辆在行驶方向上的第一距离内是否有行人，如是，则转步骤2.27；如否，则转步骤2.23；

步骤2.27：判断所述行人是否与所述自动驾驶车辆在不同车道，如否，则给予惩罚，转步骤2.26；如是，转获得奖励，转步骤2.28；

步骤2.28：判断所述自动驾驶车辆的前方的第一距离内是否有车辆B，如否，则给予惩罚，转步骤2.30；如是，则获得奖励，转步骤2.29；

步骤2.29：所述自动驾驶车辆减速；

步骤2.30：检测所述自动驾驶车辆是否在右车道，如是，则获得奖励；如否，则给予惩罚，转步骤2.28；

步骤2.31：所述车辆移动到下一个路径点。

作为一个更优的实施方式，所述第一距离为15米。

以上是本发明的一些具体实施方式，但本发明并不仅局限于上述方式，所有对本发明技术特征的简单变换，凡依本发明专利申请范围所述的构造、特征及原理所做的等效变化或修饰，都将落入本发明的保护范围之内。

Claims

1.一种基于DQN实现车辆L3级自动驾驶的行人避让方法，其特征在于：

2.如权利要求1所述的方法，其特征在于所述步骤2还包括：

3.如权利要求2所述的方法，其特征在于如果所述超车道没有其他车辆，所述行人避让策略使用的DQN的训练方法包括：

步骤2.11：所述自动驾驶车辆在行驶路线的第一个路径点；

步骤2.12：检测所述自动驾驶车辆是否行驶在右车道；

步骤2.18：所述自动驾驶车辆移动到下一个路径点。

4.如权利要求2所述的方法，其特征在于如果所述超车道有其他车辆时，所述行人避让策略使用的所述DQN的训练方法包括：

步骤2.21：所述自动驾驶车辆在行驶路线的第一路径点；

步骤2.23：所述自动驾驶车辆移动到下一个路径点；

步骤2.29：所述自动驾驶车辆减速；

步骤2.31：所述车辆移动到下一个路径点。

5.如权利要求1-4任一项所述的方法，所述第一距离为15米，第一安全速度为20公里/小时，相对安全距离为10米。

6.如权利要求5所述的方法，其特征在于所述传感器为激光传感器。

7.如权利要求6所述的方法，其特征在于所述DQN基于TensorFlow框架，采用TensorFlow与Unity3D联合仿真训练。

8.一种基于DQN实现车辆L3级自动驾驶的行人避让系统，其特征在于包括处理器、存储器和控制器，所述控制器控制所述自动驾驶车辆执行车道切换操作，所述存储器存储有程序代码的介质，当所述处理器系统读取所述介质存储的程序代码时，所述设备能够执行权利要求1-7任一项所述的方法。