CN110027553A

CN110027553A - 一种基于深度强化学习的防碰撞控制方法

Info

Publication number: CN110027553A
Application number: CN201910283506.0A
Authority: CN
Inventors: 谢国涛; 王静雅; 胡满江; 秦晓辉; 王晓伟; 徐彪; 秦兆博; 孙宁; 钟志华
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2019-04-10
Filing date: 2019-04-10
Publication date: 2019-07-19
Anticipated expiration: 2039-04-10
Also published as: CN110027553B

Abstract

本发明公开了一种基于深度强化学习的防碰撞控制方法，采用深度确定性策略梯度方法(DDPG算法)进行深度强化学习，该方法包括：步骤1，提取本车参数和环境车辆参数；步骤2，利用本车参数和环境车辆参数，构建虚拟环境模型；步骤3，根据本车参数和环境车辆参数和虚拟环境模型，定义所述深度确定性策略梯度方法的基础参数；步骤4，根据步骤3定义好的基础参数，采用深度强化学习中的神经网络构建防碰撞控制决策系统，所述防碰撞控制决策系统包括策略网络和评价网络；步骤5，训练所述策略网络和评价网络，得到所述防碰撞控制决策系统。本发明通过构建基于深度神经网络的防碰撞控制决策系统，基于时间差分强化学习方法不断优化网络控制结果的防碰撞控制决策系统，有效提高了防碰撞控制决策系统的控制性能。

Description

一种基于深度强化学习的防碰撞控制方法

技术领域

本发明涉及辅助驾驶以及自动驾驶技术领域，尤其涉及一种基于深度强化学习的防碰撞控制方法。

背景技术

在车辆行驶时，与前方车辆保持稳定的安全距离，能够有效地防止碰撞事故的发生。随着汽车数量的增加，道路上汽车的密度越来越大，因此车辆前向碰撞预警显得尤为重要。防碰撞控制系统可以判断本车1与前车2以及旁车道前方车辆之间的纵横向距离、纵横向相对速度以及方位，当存在潜在碰撞危险时对车辆进行一定的控制，能够有效降低车辆与前车以及旁车道前方车辆的碰撞事故，提高交通安全、降低交通事故的发生率。目前，提高防碰撞控制系统判断能力和系统的自适应能力是防碰撞技术的重点和难点。

申请公开号为CN107886043A，申请公布日为2018年4月6号的专利文献中提供了一种前撞预警系统，具体是一种视觉感知的汽车前视车辆和行人防碰撞预警系统及方法，对汽车前视摄像头获取的视频进行逐帧读取，并运用训练级联分类器，实现对视频中的车辆、行人进行识别，并同时结合直线检测，来对识别结果进行过滤，利用深度DBN网络完成对本车前方车辆、行人信息的判定。然后计算本车1与前车2、本车与前面行人的相对距离及相对角度，计算出安全时距，则发出警报。此发明虽然可以实现较为准确的识别，但是计算量大时效性差，只能通过学习识别感知外界环境，不能逐渐优化动作策略，也无法针对旁车道车辆状态进行有效预警。

申请公开号为CN105946766A，申请公布日为2016年9月21号的专利中提供了一种前撞预警系统，此系统涉及一种基于激光雷达与视觉的车辆碰撞预警系统及其控制方法，包括处理模块和人机交互模块，处理模块包括决策控制单元、图像采集单元以及雷达采集单元，其分别可采集视频图像信息、雷达信息并进行相应的处理。人机交互模块与处理模块通讯连接，用于接收决策控制单元输出的信息并进行相应人机交互。此专利虽然可以准确实现碰撞预警但是成本过于高，不利于普遍推广使用。

综上所述，车辆防碰撞控制系统中，一般是通过摄像头获取前方状况图像，提取特征值识别车辆、行人等，获取其距离和速度信息，然后进行危险性判定，这个系统不仅需要设计复杂的防碰撞控制决策系统模型，而且自适应能力弱，不具有自学习能力，无法适应不同环境下的预警需求；同时，目前前撞预警系统没有考虑车辆旁边两车道车辆的影响而进行前撞预警决策。

发明内容

本发明的目的在于提供一种基于深度强化学习的防碰撞控制方法来克服或至少减轻现有技术的上述缺陷中的至少一个。

为实现上述目的，本发明提供一种基于深度强化学习的防碰撞控制方法，采用深度确定性策略梯度方法进行深度强化学习，该方法包括如下步骤：

步骤1，提取本车参数和环境车辆参数；

步骤2，利用步骤1提取得到的本车参数和环境车辆参数，构建虚拟环境模型；

步骤3，根据步骤1提取得到的本车参数和环境车辆参数和步骤2构建得到的虚拟环境模型，定义所述深度确定性策略梯度方法的基础参数，所述基础参数包括：虚拟环境模型在当前时刻t的状态s_t、虚拟环境模型在下一时刻t+1 的状态s_t+1、所述本车基于s_t能够进行防碰撞控制的动作a_t、动作a_t对应的回报值r_t；

步骤4，根据步骤3定义好的基础参数，采用深度强化学习中的神经网络构建防碰撞控制决策系统，所述防碰撞控制决策系统包括策略网络和评价网络，所述策略网络的输入是状态s，输出是动作a；所述评价网络的输入是状态s和动作a，输出是Q值：Q(s，a)；

步骤5，训练所述策略网络和评价网络，得到所述防碰撞控制决策系统：首先，设置所述虚拟环境模型的当前状态表示为s_t，作为所述策略网络的输入，并在所述策略网络上加高斯扰动，所述策略网络输出一个动作a_t；在本车接收到所述动作a_t后，所述评价网络生成对所述动作a_t评价的回报值r_t，同时检测获得下一时刻状态s_t+1；然后，根据所述回报值r_t更新所述评价网络的参数，并沿所述评价网络建议的方向更新所述策略网络的参数。

进一步地，所述步骤2中，所述虚拟环境模型是一个三车道模型，包括本车，与所述本车行驶在同一车道上、且在纵向位于所述本车前方的前车，行驶在所述本车所在车道的相邻左侧车道上、且在纵向位于本车1前方的左车，以及行驶在所述本车所在车道的相邻右侧车道上、且在纵向位于所述本车前方的右车；

若动作a_t之后能够使得所述本车的状态更加安全，则回报值r_t是奖赏；否则，回报值r_t是惩罚，使得所述防碰撞控制决策系统对上一次执行的动作有一定的判断，r_t具体定义为所述前车的回报值r_F，t、左车的回报值r_L，t、右车的回报值r_R，t之和，并且，当所述本车位于左侧车道时不考虑r_L，t，当所述本车位于右侧车道时不考虑r_R，t。

进一步地，对于所述前车，同车道虚拟环境模型具体定义为下式(2)：

式(2)中：d_F，y，t为t时刻所述本车与所述前车之间的纵向距离；d_F，y，t+1为t+1时刻所述本车与所述前车之间的纵向距离；D_F为t+1时刻所述本车与所述前车之间的纵向最佳车距；Δd_F是所述本车1在动作a_t前后与所述前车之间的纵向距离的变化量，Δd_F＝d_F，y，t+1-d_F，y，t；Δv_F是所述本车在动作a_t前后与所述前车之间的纵向相对速度的变化量，Δv_F＝(v_F，y，t+1-v_y，t+1) (v_F，y，t-v_y，t)；v_F，y，t为t时刻所述前车的纵向速度；v_F，y，t+1为t+1时刻所述前车的纵向速度；v_y，t为t时刻所述本车的纵向速度；v_y，t+1为t+1时刻所述本车的纵向速度；μ_F，1和μ_F，2是在(-100，100)范围之内的经验因子；ε_d为t+1时刻所述本车与所述前车实际间距在最佳间距D_F附近的邻域。

进一步地，对于所述左车，左侧车道虚拟环境模型具体定义为下式(3)：

式(3)中：θ_L，t+1为t+1时刻所述本车向左的横摆角；Δv是所述本车在时刻t和时刻t+1的速度变化量；d_L，t+1是时刻t+1所述本车与左车之间的直线距离；μ_L是在(-100，100)范围之内的经验因子；ε_θ为θ_L，t+1附近的邻域。

进一步地，对于所述右车，右侧车道虚拟环境模型具体定义为下式(4)：

式(4)中：θ_R，t+1为t+1时刻所述本车向右的横摆角；Δv是所述本车在时刻t和时刻t+1的速度变化量；d_R，t+1是时刻t+1所述本车与右车之间的直线距离；μ_R是在(-100，100)范围之内的经验因子；ε_θ为θ_R，t+1附近的邻域。

本发明通过构建基于深度确定性策略梯度方法的防碰撞控制决策系统，基于时间差分强化学习方法不断优化网络控制结果的防碰撞控制决策系统，有效提高了防碰撞控制决策系统的控制性能。本发明提供的防碰撞控制决策系统无需人为设计复杂的前撞预警控制模型，自适应性强，并考虑了旁车道车辆状态信息进行碰撞预计。

附图说明

图1是本发明实施例提供的虚拟环境模型的示意图；

图2是本发明实施例提供的同车道虚拟环境模型的示意图；

图3是本发明实施例提供的左侧车道虚拟环境模型的示意图；

图4是本发明实施例提供的右侧车道虚拟环境模型的示意图；

图5是本发明实施例提供的防碰撞控制决策系统的原理框图。

具体实施方式

在附图中，使用相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面结合附图对本发明的实施例进行详细说明。

本实施例提供的基于深度强化学习的防碰撞控制方法采用深度确定性策略梯度方法进行深度强化学习，该方法包括如下步骤：

步骤1，提取本车参数和环境车辆参数。其中：

本车参数包括本车1行驶的速度v。

以三车道情况为例，环境车辆包括与本车1行驶在同一车道上、且在纵向位于本车1前方的车辆(下文均简称为“前车2”)、行驶在本车1所在车道的相邻左侧车道上、且在纵向位于本车1前方的车辆(下文均简称为“左车3”) 和行驶在本车1所在车道的相邻右侧车道上、且在纵向位于本车1前方的车辆 (下文均简称为“右车4”)。

环境车辆参数主要由摄像头和毫米波雷达采集得到，包括环境车辆行驶的速度(该速度包括前车2行驶的速度v_F、左车3行驶的速度v_L和右车4行驶的速度v_R)、本车1与前车2的纵向距离(下文均简称为“距离”)d_F、以及本车1的横摆角，本车1的横摆角包括本车1向左的横摆角θ_L和向右的横摆角θ_R。

步骤2，利用步骤1提取得到的本车参数和环境车辆参数，构建如图1 示出的虚拟环境模型。在行驶过程中，本车1会受到前车2、左车3和右车4 行驶状态的影响，因此本实施例希望可以对前车2、左车3和右车4进行防碰撞控制。本实施例所构建的虚拟环境模型是一个三车道模型，不失一般性，假设本车1在中间车道,以本车1的车体坐标系为虚拟环境模型的空间坐标系。其中，“车体坐标系”采用右手定则确定坐标系，本车1的质心为原点，x轴是本车1的长度方向，即本实施例中提及的纵向；y轴是本车1的宽度方向，即本实施例中提及的横向。

步骤3，根据步骤1提取得到的本车参数和环境车辆参数和步骤2构建得到的虚拟环境模型，定义所述深度确定性策略梯度方法的基础参数，该基础参数包括：虚拟环境模型在当前时刻t的状态s_t、虚拟环境模型在下一时刻t+1的状态s_t+1、动作a_t、动作a_t对应的回报值r_t。下面对各深度强化学习基础参数具体说明，下标为t的参数均为当前时刻t的状态，下标为t+1的参数均为下一时刻t+1的状态：

s_t包括本车1的纵向速度v_y，t，本车1的横向速度v_x，t，前车2的纵向速度v_F，y，t，前车2的横向速度v_F，x，t，左车3的纵向速度v_L，y，t，左车3的横向速度 v_L，x，t，右车4的纵向速度v_R，y，t，右车4的横向速度v_R，x，t，本车1与前车2之间的纵向距离d_F，y，t，本车1与前车2之间的横向距离d_F，x，t，本车1与左车3的纵向距离d_L，y，t，本车1与左车3的横向距离d_L，x，t，本车1与右车4的纵向距离d_R，y，t，本车1与右车4的横向距离d_R，x，t，以及本车1的横摆角，本车1的横摆角包括本车1向左的横摆角θ_L，t和向右的横摆角θ_R，t。

a_t具体包括本车1的节气门开度控制量δ_t和制动压力大小控制量p_t，在虚拟环境模型中不考虑采取改变本车1的行驶方向的方法进行防碰撞控制，各种车祸现场表明变道避让可能带来危害更大的连锁碰撞。a_t的选择基于当前状态 s_t，与动作相应决策概率表示为P＝p(a_t|s_t)。

r_t为动作a_t对应的回报值，具体包括：若动作a_t之后能够使得本车1的状态更加安全，则回报值r_t是奖赏；否则，回报值r_t是惩罚，使得防碰撞控制决策系统对上一次执行的动作有一定的判断。作为实现回报值r_t的一种实现方式， r_t具体定义为前车2的回报值r_F，t、左车3的回报值r_L，t、右车4的回报值r_R，t之和，其表示为下式(1)：

r_t＝r_F，t+r_L，t+r_R，t (1)

需要说明的是：当本车1位于左侧车道时不考虑r_L，t，即本车1位于左侧车道时，r_t＝r_F，t+r_R，t；当本车1位于右侧车道时不考虑r_R，t，即本车1位于左侧车道时，r_t＝r_F，t+r_L，t。

对于前车2，最好的状态是：本车1与前车2在下一时刻t+1之间的纵向距离d_F，y，t+1保持在一个合适的距离D_F附近，即：|d_F，y，t+1-D_F|＜ε_d，此时的回报值r_F，t最大。若本车1与前车2在下一时刻t+1之间的距离太近，超出此范围，即d_F，y，t+1＜D_F-ε_d时，则应该使距离拉大的动作a_t获得高的回报值 r_F，t。若本车1与前车2在下一时刻t+1之间的距离太远，即d_F，y，t+1＞D_F+ε_d时，则应该使距离减小的动作a_t获得高的回报值r_F，t。若本车1与前车2在下一时刻t+1发生碰撞，即d_F，t+1＝0时，则动作a_t回报值r_F，t最小。因此，如图2所示，同车道虚拟环境模型具体定义为下式(2)：

式(2)中：d_F，y，t为t时刻所述本车1与所述前车2之间的纵向距离；d_F，y，t+1为 t+1时刻所述本车1与所述前车2之间的纵向距离；D_F为t+1时刻所述本车1 与所述前车2之间的纵向最佳车距；Δd_F是所述本车(1)在动作a_t前后与所述前车2之间的纵向距离的变化量，Δd_F＝d_F，y，t+1-d_F，y，t；Δv_F是所述本车1 在动作a_t前后与所述前车2之间的纵向相对速度的变化量，Δv_F＝(v_F，y，t+1- v_y，t+1)-(v_F，y，t-v_y，t)；V_F，y，t为t时刻所述前车2的纵向速度；v_F，y，t+1为t+1时刻所述前车2的纵向速度；v_y，t为t时刻所述本车1的纵向速度；v_y，t+1为t+1时刻所述本车1的纵向速度；μ_F，1和μ_F，2是在(-100，100)范围之内的经验因子；ε_d为t+1时刻所述本车1与所述前车2之间的实际纵向距离与纵向最佳车距之间差值的阈值。μ_F，1、μ_F，2根据调研本车1的一般状态和之后的实验结果不断优化经验因子，直至确定一个合适的具体值。ε_d为t+1时刻本车1与前车2 实际间距在最佳间距D_F附近的邻域，在这个领域内两侧间距是正常的。D_F和ε_d根据经验取值，在训练以及使用中观察并修正，D_F的初始值取5m，ε_d的初始值取0.5m。

对于旁车道侧前方的车辆，其最好的状态是：旁车道侧前方车辆在其车道内稳定地行驶，横摆角保持在可接受的小幅度ε_θ内，当超出可接受的范围时，本车1必须采取措施，并得到相应的回报值。当旁车道侧前方的车辆横摆角较大，两车距离较近时，本车控制速度减慢的动作应该获得较大回报值，而且速度减慢的越快回报值应该越大。因对于左右旁车道情况略不相同，下面分开详细分析。

对于左车3，向右横摆过可接受角度ε_θ之后，才对本车1的行驶有影响，向左横摆或者向右横摆且未超出可接受范围时，对本车1的行驶不生成影响。也就是说，本车1不必对其生成动作。规定左车3向右横摆时横摆角θ_L为正，向左横摆时横摆角θ_L为负。如图3所示，左侧车道虚拟环境模型具体定义为下式(3)：

式(3)中：

Δv是本车1在时刻t和时刻t+1的速度变化量，具体表示为：Δv＝v_t+1-v_t。

d_L，t+1是时刻t+1本车1与左车3之间的直线距离，其表示为：

μ_L是控制表达式的值在(-100，100)范围之内的经验因子，ε_θ为t+1时刻本车1向左的安全横摆角阈值，μ_L可根据调研本车1的一般状态和之后的实验结果不断优化经验因子，直至确定一个合适的具体值。

ε_θ为θ_L，t+1附近的邻域，在这个邻域中是正常安全的情况，ε_θ根据经验取值，在训练以及使用中观察并修正，初始值取5度。

对于右车4，向左横摆过可接受角度ε_θ之后，才对本车1的行驶有影响，向右横摆或者向左横摆但是没有超出可接受范围时，对本车1行驶不生成影响. 也就是说，本车1不必对其生成动作。规定右车4向左横摆时横摆角θ_R为正，向右横摆时横摆角θ_R为负。如图4所示，右侧车道虚拟环境模型具体定义为下式(4)：

式(4)中：

Δv是本车1在时刻t和时刻t+1的速度变化量，具体表示为：Δv＝v_t+1-v_t。 d_R，t+1是时刻t+1本车1与右车4之间的直线距离，其表示为：

μ_R是控制表达式的值在(-100，100)范围之内的经验因子，ε_θ为t+1时刻本车1向左的安全横摆角阈值，μ_R可根据调研本车1的一般状态和之后的实验结果不断优化经验因子，直至确定一个合适的具体值。

s_t+1为本车动作a_t之后的下一个时刻，即t+1时刻的状态，具体表示为：本车1的纵向速度v_y，t+1，本车1的横向速度v_x，t+1，前车2的纵向速度v_F，y，t+1，前车2的横向速度v_F，x，t+1，左车3的纵向速度v_L，y，t+1，左车3的横向速度v_L，x，t+1，左车3的纵向速度v_R，y，t+1，左车3的横向速度V_R，x，t+1，本车1与前车2之间的纵向距离d_F，y，t+1，本车1与前车2之间的横向距离d_F，x，t+1，本车1与左车3的纵向距离d_L，y，t+1，本车1与左车3的横向距离d_L，x，t+1，本车1与右车4的纵向距离d_R，y，t+1，本车1与右车4的横向距离d_R，x，t+1，本车1与左车3之间的横摆角θ_L，t+1，本车1与右车4之间的横摆角θ_R，t+1。

步骤4，采用深度强化学习中的神经网络构建防碰撞控制决策系统，如图 5所示，防碰撞控制决策系统包括策略网络5和评价网络6。其中：策略网络 5的输入是状态s，输出是动作a。评价网络6的输入是状态s和动作a，输出是Q函数值(下文简称为“Q值”)：Q(s，a)。

步骤5，训练策略网络5和评价网络6，得到防碰撞控制决策系统：首先，设置虚拟环境模型的当前状态表示为s_t，作为策略网络5的输入，并在策略网络5上加高斯扰动，策略网络5输出一个动作a_t。在本车1接收到所述动作a_t后，评价网络6生成对所述动作a_t评价的回报值r_t，同时检测获得下一时刻状态s_t+1；然后，根据所述回报值r_t更新评价网络6的参数，并沿评价网络6建议的方向更新所述策略网络5的参数。

需要说明的是，策略网络5具体包括当前策略子网络51和目标策略子网络52，评价网络6包括当前评价子网络61和目标评价子网络62。更新策略网络5时，只需要更新当前策略子网络51的参数(下文均成为“当前策略子网络参数”)，目标策略子网络52则可由当前策略子网络51复制得到。当前策略子网络参数表示为θ^μ，目标策略子网络参数表示为θ^μ′。更新评价网络6时，只需要更新当前评价子网络61的参数(下文均成为“当前评价子网络参数”)，目标评价子网络62的参数(下文均成为“目标评价子网络参数”)则可由当前评价子网络61复制得到。当前评价子网络参数表示为θ^Q，目标评价子网络参数表示为θ^Q′。这种方式能够保证网络参数的收敛性。如图5所示，具体训练更新步骤包括如下步骤5.1至步骤5.3：

步骤5.1：随机初始化当前评价子网络参数θ^Q和当前策略子网络参数θ^μ。

步骤5.2：通过当前评价子网络参数θ^Q初始化所要求解的目标评价子网络参数θ^Q′,通过当前策略子网络参数θ^μ初始化所要求解的目标策略子网络参数θ^μ′，同时开辟一个空间R作为经验回放存储空间；

步骤5.3：初始化时刻1的状态S₁之后，准备进行迭代求解，在每一个迭代具体包括如下步骤5.31至步骤5.37：

5.31，通过当前策略子网络51加上一个高斯扰动N_t，当前策略子网络51 输出一个动作a_t表示为a_t＝μ(s|θ^μ)+N_t，并输出。

5.32，虚拟环境模型接收步骤5.31输出的动作a_t，生成对动作a_t评价的回报值r_t和下一时刻状态s_t+1，并形成元组(s_t，a_t，r_t，s_t+1)，存储到经验回放存储空间R。

5.33，根据5.32获得的回报值r_t，更新当前评价子网络参数θ^Q。

步骤5.33具体包括步骤5.331和步骤5.333：

步骤5.331，当前评价子网络61通过Q函数计算得到Q值：Q(s_t，a_t|θ^Q)。

步骤5.332，在步骤5.32得到的经验回放存储空间R中随机选择N个元组数据(s_i，a_i，r_i，s_i+1)，i＝0......N，通过贝尔曼方程估计Q值，该Q值采用如下式(5)所示的第i个元组的Q值y_i表示：

y_i＝r_i+γQ′(s_i+1，μ′(s_i+1|θ^μ′)|θ^Q′) (5)

式(5)中，r_i是第i个元组的回报值；γ是折扣因子；s_i+1是第i+1个状态；θ^Q′是目标评价子网络参数；θ^μ′是目标策略子网络参数；μ′(s_i+1|θ^μ′)是目标策略子网络52根据输入的状态s_i+1得到的动作；Q′(s_i+1，μ′(s_i+1|θ^μ′)|θ^Q′)是目标评价子网络62根据输入的s_i+1和动作μ′(s_i+1|θ^μ′)而计算得到的Q值。

步骤5.333，根据步骤5.331和步骤5.332分别计算得到的Q值之间的差值L，利用下式(6)更新当前评价子网络参数θ^Q：

步骤5.334，根据步骤5.333更新好的当前评价子网络参数θ^Q，利用式 (7)对目标评价子网络参数θ^Q′进行更新：

θ^Q′←τθ^Q+(1-τ)θ^Q′ (7)

式(7)中，τ为权重，取0.9～0.99，并且根据实际收敛效果调整。

步骤5.34，根据步骤5.333更新得到的当前评价子网络参数θ^Q，更新当前策略子网络参数θ^μ，其具体如下：

采用如式(8)所示的梯度上升方式，获得最大化期望回报值，以选出最大期望回报值对应的当前评价子网络参数θ^Q：

式(8)中,N为元组个数，a为动作，s为状态，θ^Q为当前评价子网络参数，θ^μ为当前策略子网络参数，μ()为策略，在此指动作。

步骤5.35，根据步骤5.34更新好的当前策略子网络参数θ^μ，利用式(9) 更新目标策略子网络参数θ^μ′：

θ^μ′←τθ^μ+(1-τ)θ^μ′ (9)

式(9)中，τ为权重，取0.9～0.99，并且根据实际收敛效果调整。

防碰撞控制决策系统包括动作策略网络5和评价网络6，两部分网络都存在自己的网络参数，在训练迭代的时候对两部分的网络进行更新，使得网络收敛以得到更佳的结果。

步骤5.4，按照步骤5.3提供的方法对当前策略子网络参数θ^μ、目标策略子网络参数θ^μ′、当前评价子网络参数θ^Q和目标评价子网络参数θ^Q′进行迭代更新，使策略网络5和评价网络6逐步收敛，当达到能够稳定准确地进行防碰撞控制时，即视为达到了迭代步数，从而能够实现较为准确的防碰撞控制。需要说明的是：在系统运行的同时，网络继续不断地优化，提高了系统自适应性能。因此，在一般正常的交通环境中，可以进行稳定准确的防碰撞控制。

利用摄像头和毫米波雷达采集外界环境状态，抽象到所建立的虚拟环境模型中，应用深度强化学习训练后的防碰撞控制决策系统，获得虚拟环境模型下的最优控制动作序列，最终实现防碰撞控制。

进一步地，动作的策略网络5和评价网络6通过对大量数据的深度强化学习，具有良好的容错能力、并行能力和自学习能力。基于此，提出一种无需设计复杂的前撞预警系统模型，自适应性强，可以不断优化结果的基于深度强化学习的防碰撞控制系统，具体为通过构建前撞预警系统的深度神经网络，设计前撞预警控制网络价值函数，基于时间差分强化学习方法不断优化网络控制结果的一种防碰撞控制系统。

最后需要指出的是：以上实施例仅用以说明本发明的技术方案，而非对其限制。本领域的普通技术人员应当理解：可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于深度强化学习的防碰撞控制方法，其特征在于，采用深度确定性策略梯度方法进行深度强化学习，该方法包括如下步骤：

步骤1，提取本车参数和环境车辆参数；

步骤3，根据步骤1提取得到的本车参数和环境车辆参数和步骤2构建得到的虚拟环境模型，定义所述深度确定性策略梯度方法的基础参数，所述基础参数包括：虚拟环境模型在当前时刻t的状态s_t、虚拟环境模型在下一时刻t+1的状态s_t+1、所述本车(1)基于s_t能够进行防碰撞控制的动作a_t、动作a_t对应的回报值r_t；

步骤4，根据步骤3定义好的基础参数，采用深度强化学习中的神经网络构建防碰撞控制决策系统，所述防碰撞控制决策系统包括策略网络(5)和评价网络(6)，所述策略网络(5)的输入是状态s，输出是动作a；所述评价网络(6)的输入是状态s和动作a，输出是Q值：Q(s，a)；

步骤5，训练所述策略网络(5)和评价网络(6)，得到所述防碰撞控制决策系统：首先，设置所述虚拟环境模型的当前状态表示为s_t，作为所述策略网络(5)的输入，并在所述策略网络(5)上加高斯扰动，所述策略网络(5)输出一个动作a_t；在本车(1)接收到所述动作a_t后，所述评价网络(6)生成对所述动作a_t评价的回报值r_t，同时检测获得下一时刻状态s_t+1；然后，根据所述回报值r_t更新所述评价网络(6)的参数，并沿所述评价网络(6)建议的方向更新所述策略网络(5)的参数。

2.如权利要求1所述的基于深度强化学习的防碰撞控制方法，其特征在于，所述步骤2中，所述虚拟环境模型是一个三车道模型，包括本车(1)，与所述本车(1)行驶在同一车道上、且在纵向位于所述本车(1)前方的前车(2)，行驶在所述本车(1)所在车道的相邻左侧车道上、且在纵向位于本车1前方的左车(3)，以及行驶在所述本车(1)所在车道的相邻右侧车道上、且在纵向位于所述本车(1)前方的右车(4)；

若动作a_t之后能够使得所述本车(1)的状态更加安全，则回报值r_t是奖赏；否则，回报值r_t是惩罚，使得所述防碰撞控制决策系统对上一次执行的动作有一定的判断，r_t具体定义为所述前车(2)的回报值r_F，t、左车(3)的回报值r_L，t、和右车(4)的回报值r_R，t之和，并且，当所述本车(1)位于左侧车道时不考虑r_L，t，当所述本车(1)位于右侧车道时不考虑r_R，t。

3.如权利要求2所述的基于深度强化学习的防碰撞控制方法，其特征在于，对于所述前车(2)，同车道虚拟环境模型具体定义为下式(2)：

式(2)中：d_F，y，t为t时刻所述本车(1)与所述前车(2)之间的纵向距离；d_F，y，t+1为t+1时刻所述本车(1)与所述前车(2)之间的纵向距离；D_F为t+1时刻所述本车(1)与所述前车(2)之间的纵向最佳车距；Δd_F是所述本车(1)在动作a_t前后与所述前车(2)之间的纵向距离的变化量，Δd_F＝d_F，y，t+1-d_F，y，t；Δv_F是所述本车(1)在动作a_t前后与所述前车(2)之间的纵向相对速度的变化量，Δv_F＝(v_F，y，t+1-v_y，t+1)-(v_F，y，t-v_y，t)；v_F，y，t为t时刻所述前车(2)的纵向速度；v_F，y，t+1为t+1时刻所述前车(2)的纵向速度；v_y，t为t时刻所述本车(1)的纵向速度；v_y，t+1为t+1时刻所述本车(1)的纵向速度；μ_F，1和μ_F，2是在(-100，100)范围之内的经验因子；ε_d为t+1时刻所述本车(1)与所述前车(2)实际间距在最佳间距D_F附近的邻域。

4.如权利要求2所述的基于深度强化学习的防碰撞控制方法，其特征在于，对于所述左车(3)，左侧车道虚拟环境模型具体定义为下式(3)：

式(3)中：θ_L，t+1为t+1时刻所述本车(1)向左的横摆角；Δv是所述本车(1)在时刻t和时刻t+1的速度变化量；d_L，t+1是时刻t+1所述本车(1)与左车(3)之间的直线距离；μ_L是在(-100，100)范围之内的经验因子；ε_θ为θ_L，t+1附近的邻域。

5.如权利要求2所述的基于深度强化学习的防碰撞控制方法，其特征在于，对于所述右车(4)，右侧车道虚拟环境模型具体定义为下式(4)：

式(4)中：θ_R，t+1为t+1时刻所述本车(1)向右的横摆角；Δv是所述本车(1)在时刻t和时刻t+1的速度变化量；d_R，t+1是时刻t+1所述本车(1)与右车(4)之间的直线距离；μ_R是在(-100，100)范围之内的经验因子；ε_θ为θ_R，t+1附近的邻域。