CN110363295A

CN110363295A - 一种基于dqn的智能车多车道换道方法

Info

Publication number: CN110363295A
Application number: CN201910574458.0A
Authority: CN
Inventors: 胡江平; 吕维; 李咏章
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2019-10-22

Abstract

本发明公开了一种基于DQN的智能车多车道换道方法，通过原始传感器高维数据作为状态集合输入，以离散有限驾驶行为动作作为动作集合，考虑驾驶任务的需求，设计立即回报集合，再通过基于长短时记忆的深度神经网络的拟合，能充分考虑环境的不确定性，通过训练基于长短时记忆的深度神经网络完成智能车安全行为驾驶的策略性学习，最后使用训练所得的深度神经网络对无人驾驶进行决策。

Description

一种基于DQN的智能车多车道换道方法

技术领域

本发明属于深度强化学习技术领域，更为具体地讲，涉及一种基于DQN的智能车多车道换道方法。

背景技术

近年来，伴随人工智能的新一轮热潮，国内外许多大型厂商和研究机构已经着手打造面向智慧城市的自动驾驶车辆。决策系统则扮演者“大脑”的角色，综合感知系统得到的环境信息和车身信息，产生使得自动驾驶汽车安全、合理的的决策行为，并指导车辆运动控制系统完成车辆的底层控制。自动驾驶中的决策规划技术作为智能车安全保障的重要环节，也成为各公司及专家学者研究的热点。

智能车决策问题有时候缺少有监督信号，而深度增强学习又擅长于策略性问题的学习。智能车决策的输入为原始传感器信息，数据维度高，需要借助神经网络进行特征提取。基于DQN(Deep Q Network,深度Q网络)的学习方式有助于智能车在加速、减速、均速、左转、右转的离散动作空间内寻找最优的策略，对先验规则依赖较少，通过环境和智能体的交互与奖惩方式进行建模，通过神经网络的深度学习工具，能充分考虑环境的不确定性，最终完成智能体“趋利避害”的策略性学习。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于DQN的智能车多车道换道方法，在离散动作空间内直接通过高维状态信息作为输入，实现无人驾驶系统的有效决策。

为实现上述发明目的，本发明一种基于DQN的智能车多车道换道方法，其特征在于，包括以下步骤：

(1)、构建驾驶行为的MDP(Markov Decision Processes，马可夫决策过程)过程的状态集合S，包括：智能车传感器检测的距离状态、高级驾驶辅助系统ADAS的预警信息和智能车前向、左右两侧的车辆信息；

(2)、构建驾驶行为的MDP过程的动作集合A，包括：不采取行动，加速，减速，向左变更车道，向右变更车道；

(3)、构建驾驶行为的MDP过程的回报集合R，包括：

r_sum＝r_v(v)+r_col+r_lc+r_overtake

其中，v为智能车当前速度，v_max、v_min为智能车符合规则下的最大速度和最小速度，r_v,max为最大速度下所对应的奖赏值，r_collision为对于车辆碰撞的惩罚值，r_lanechange为对车辆进行换道的基础惩罚，r_overtake为智能车成功超越其他车辆的奖赏值；

(4)、训练基于长短时记忆的深度神经网络；

(4.1)、初始化深度神经网络的权重，初始化深度神经网络的输入神经元个数对应着状态集合S的维度，输出神经元个数对应着动作集合A的维度；

(4.2)、对状态集合S中的当前状态s_t进行归一化，得到深度神经网络的输入特征；

(4.3)、智能车在当前状态s_t下，采用ε-greedy贪婪策略探索环境，并选取一定的动作a_t；

其中，ε为智能车随机探索的概率，表示以s_t作为输入，深度神经网络Q所得到的最大值所对应的动作a_t；

(4.4)、记录当前状态s_t下得到回报r_t，并将智能车迁移到下一个状态s_t+1；

(4.5)、智能车在当前状态s_t+1下，重复步骤(4.2)～(4.4)，并将各状态值形成元组tuple(s_t,a_t,r_t,s_t+1)，将其存入至深度神经网络的经验回放记忆池D中；

(4.6)、当经验回放记忆池D中的元组个数大于n个后，在经验回放记忆池D中随机采样一个样本tuple(s_i,a_i,r_i,s_i+1)，i＝1,2,…,n；

判断采样样本是否为终止状态，如果不是，则将采样样本的数据标签记为：否则记为：r_i；

(4.7)、计算误差损失函数值；

其中，γ为折扣因子；

(4.8)、采用随机梯度下降法SGD完成神经网络的参数θ_i的更新；

(4.9)、重复步骤(4.6)～(4.8)，直到重复迭代次数达到预设次数或深度神经网络收敛，则迭代停止，得到训练好的深度神经网络；

(5)、利用训练好的深度神经网络完成智能车的最优策略选择

将智能车的当前状态进行归一化后输入至训练好的深度神经网络，深度神经网络输出该状态下一个最优动作的选择argmax_aQ(s,a)。

本发明的发明目的是这样实现的：

本发明基于DQN的智能车多车道换道方法，通过原始传感器高维数据作为状态集合输入，以离散有限驾驶行为动作作为动作集合，考虑驾驶任务的需求，设计立即回报集合，再通过基于长短时记忆的深度神经网络的拟合，能充分考虑环境的不确定性，通过训练基于长短时记忆的深度神经网络完成智能车安全行为驾驶的策略性学习，最后使用训练所得的深度神经网络对无人驾驶进行决策。

同时，本发明基于DQN的智能车多车道换道方法还具有以下有益效果：

(1)、输入传感器数据，通过神经网络，直接输出决策指令，是一种端到端的驾驶策略方法。

(2)、换道过程对先验信息依赖较少，不需要细致的换道行为分析，反映了智能车与环境的交互过程。

(3)、使用训练好的深度神经网络，在保障安全的情况下，智能车能以较快速度，进行合理的安全变道策略。

附图说明

图1是本发明基于DQN的智能车多车道换道方法流程图；

图2是雷达测距示意图；

图3是ADAS预警信息示意图；

图4是智能车平均车速变化曲线；

图5是智能车平均变道频次变化曲线；

图6是智能车安全超车频次变化曲线；

图7是智能车成功完成完整行驶次数的变化曲线。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明基于DQN的智能车多车道换道方法流程图。

在本实施例中，如图1所示，本发明一种基于DQN的智能车多车道换道方法，包括以下步骤：

S1、构建驾驶行为的MDP过程的状态集合S，包括：智能车传感器检测的距离状态、高级驾驶辅助系统ADAS的预警信息和智能车前向、左右两侧的车辆信息，其具体元素如表1所示：

表1

在本实施例中，智能车传感器检测的距离状态为高维状态输入，如图2所示，通过360度雷达点云信息，在传感器检测范围内，可以得到每隔一度方向上离障碍物的距离。

高级驾驶辅助系统(ADAS)预警信息为为车辆提供了车距预警监测和车辆碰撞检测，如图3所示，本系统考虑了智能车前向、左右两侧作用范围的预警信号作为状态集合输入。另外，前方车辆速度、纵向距离、本车车速都也是状态集合参考因素。

S2、构建驾驶行为的MDP过程的动作集合A；

动作集合A考虑了智能车换道策略的动作空间采用离散的动作空间。智能车在多车道上行驶，驾驶员的驾驶动作涉及到加减速、向左向右变更车道、车速保持、车辆跟随等复杂细节动作。在纵向方向上，有三种动作：速度为v+vcc的巡航控制，其中vcc为额外目标速度；当前速度为v的巡航控制；速度巡航控制v-vcc。这些纵向动作将涵盖自动紧急制动(AEB)和自适应巡航控制(ACC)。在横向方向上，还有三种动作：保持车道；向左转换车道；向右转换车道。作为自主车辆纵向和横向动作应该同时被驱动，可定义下列5个离散动作：不采取行动，加速，减速，向左变更车道，向右变更车道。

S3、构建驾驶行为的MDP过程的回报集合R；

回报集合R的设计需要与对智能车行为期望一致。当车辆在多车道上行驶时，它应满足以下几个条件：

①车辆需要避免交通阻塞，因此设定一定的纵向速度奖励机制，并鼓励车辆在安全行驶的基础上快行找到使车辆高速行驶的策略。

②为了防止智能车在正常交通流情况下频繁的变更车道，故需要对变道过程设定一定的基础惩罚。

③以无碰撞为原则，智能车运行过程中，需要保证其安全性，不管是何种情况，智能车在道路行驶出现与其他静止障碍物或运动车辆发生碰撞或者擦挂时，均认定发生碰撞惩罚。

④为了鼓励在前方车辆过慢需要超车变道的实际情况是，我们需要设定超车奖赏。

综上，具体回报值设计如下：

r_sum＝r_v(v)+r_col+r_lc+r_overtake

S4、训练基于长短时记忆的深度神经网络；

S4.1、初始化深度神经网络的权重，初始化深度神经网络的输入神经元个数对应着状态集合S的维度，输出神经元个数对应着动作集合A的维度；

S4.2、对状态集合S中的当前状态s_t进行归一化，得到深度神经网络的输入特征；

S4.3、智能车在当前状态s_t下，采用ε-greedy贪婪策略探索环境，并选取一定的动作a_t；

其中，π(a_t|s_t)表示智能车的驾驶策略，即基于当前状态s_t，所采取的动作a_t，ε为智能车随机探索的概率，表示以s_t作为输入，深度神经网络Q所得到的最大值所对应的动作a_t；

S4.4、记录当前状态s_t下得到回报r_t，并将智能车迁移到下一个状态s_t+1；

S4.5、智能车在当前状态s_t+1下，重复步骤S4.2～S4.4，并将各状态值形成元组tuple(s_t,a_t,r_t,s_t+1)，将其存入至深度神经网络的经验回放记忆池D中；

S4.6、当经验回放记忆池D中的元组个数大于n个后，在经验回放记忆池D中随机采样一个样本tuple(s_i,a_i,r_i,s_i+1)，i＝1,2,…,n；

S4.7、计算误差损失函数值；

其中，γ为折扣因子；

S4.8、采用随机梯度下降法SGD完成神经网络的权重参数θ_i的更新；

S4.9、重复步骤S4.6～S4.8，直到重复迭代次数达到预设次数或深度神经网络收敛，则迭代停止，得到训练好的深度神经网络；

S5、利用训练好的深度神经网络完成智能车的最优策略选择

图4是智能车平均车速变化曲线；

图5是智能车平均变道频次变化曲线；

图6是智能车安全超车频次变化曲线；

图7是智能车成功完成完整行驶次数的变化曲线。

在本实施例中，图4—7反应了智能车的安全性能在深度神经网络训练过程的变化趋势，智能车已经逐渐掌握了趋于合理的安全行车策略。其中，图4反应了智能车的速度在不断提高，最后趋于能保证安全驾驶的最高速，避免交通阻塞；如图5所示，变道频次在不断减小，逐渐避免了频繁的换道行为，最后趋于合理必要的换道；如图6所示，安全超车频次在不断增加，智能车能逐渐掌握正确的超车策略；最后，如图7所示，智能车成功完成路段行驶的次数也是不断增加。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于DQN的智能车多车道换道方法，其特征在于，包括以下步骤：

(1)、构建驾驶行为的MDP过程的状态集合S，包括：智能车传感器检测的距离状态、高级驾驶辅助系统ADAS的预警信息和智能车前向、左右两侧的车辆信息；

(2)、构建驾驶行为的MDP过程的动作集合A，包括：不采取行动，加速，减速，向左变更车道，向向右变更车道；

(3)、构建驾驶行为的MDP过程的回报集合R，包括：

r_sum＝r_v(v)+r_col+r_lc+r_overtake

(4)、训练基于长短时记忆的深度神经网络；

其中，表示以s_t作为输入，深度神经网络Q所得到的最大值所对应的动作a_t；

(4.7)、计算误差损失函数值；

其中，γ为折扣因子；

(4.9)、重复步骤(4.6)～(4.8)，直到重复迭代次数达到预设次数或深度神经网络收敛，则迭迭代停止，得到训练好的深度神经网络；

(5)、利用训练好的深度神经网络完成智能车的最优策略选择