CN113341960B

CN113341960B - 基于监督式dqn算法的自动驾驶汽车转向控制方法

Info

Publication number: CN113341960B
Application number: CN202110577276.6A
Authority: CN
Inventors: 汪锋; 金书峰; 唐小林; 张志强; 彭颖
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2022-06-03
Anticipated expiration: 2041-05-26
Also published as: CN113341960A

Abstract

本发明涉及一种基于监督式DQN算法的自动驾驶汽车转向控制方法，属于自动驾驶汽车领域。该方法包括：S1：获取周边车辆状态信息；S2：建立汽车运动学模型；S3：利用DQN算法构建自动驾驶汽车转向控制模型对车辆的转向角进行控制，并优化Q网络的损失函数，利用MOBIL算法构建转向角监督信号，对DQN算法的训练进行引导和优化。本发明提升了DQN算法的训练效率。

Description

基于监督式DQN算法的自动驾驶汽车转向控制方法

技术领域

本发明属于自动驾驶汽车领域，涉及一种基于监督式DQN算法的自动驾驶汽车转向控制方法。

背景技术

在汽车驾驶过程中，存在驾驶员疲劳、情绪波动、操作不当等人为因素的影响，交通事故的预测和预防存在较大困难，而汽车自动驾驶技术的出现和发展为这一问题提供了新的解决思路。

传统自动驾驶技术采用分层结构，各层职能清晰，算法可解释性强，但分层结构需要对多种传统算法进行大量手动调参，且应对复杂交通环境自适应能力弱，鲁棒性欠佳。AI技术与硬件性能的发展为自动驾驶提供了全新的思路，其中深度强化学习的出现催生出端到端的自动驾驶结构。深度强化学习将深度学习的表征能力和强化学习的试错机制完美结合，通过对智能体策略不断训练优化来获得更优的期望奖励，基于深度强化学习的端到端结构可以利用感知输入直接获得油门、刹车、车轮转角等控制动作，大大减少了各层算法构建的工作量和调参成本，同时提升了自动驾驶的泛化能力。

但由于深度强化学习的神经网络在未得到充分训练时将会产生大量无意义甚至危险的动作，训练效率较低，而传统算法可以为深度强化学习算法提供一定程度的引导，提升其训练速度。因此，亟需一种能够综合考虑环境自适应能力和训练时间成本的自动驾驶汽车控制方法。

发明内容

有鉴于此，本发明的目的在于提供一种基于监督式DQN算法的自动驾驶汽车转向控制方法，利用深度强化学习算法-DQN对自动驾驶汽车实现转向控制，并对Q网络的损失函数进行了优化，同时采用传统算法MOBIL提供转向角监督信号进行引导，提升DQN算法的训练效率。

为达到上述目的，本发明提供如下技术方案：

一种基于监督式DQN算法的自动驾驶汽车转向控制方法，具体包括以下步骤：

S1：获取周边车辆状态信息；

S2：搭建汽车运动学模型；

S3：利用DQN(Deep Q Network)算法构建自动驾驶汽车转向控制模型对车辆的转向角进行控制，并优化Q网络的损失函数，利用MOBIL(Minimize Overall Braking Inducedby Lane changes)算法构建转向角监督信号，对DQN算法的训练进行引导和优化。

进一步，步骤S1中，获取的周边车辆状态信息，包括：周边车辆与本车的横纵向相对车速，以及周边车辆与本车的横纵向距离。

进一步，步骤S2中，搭建的汽车运动学模型为：

其中，x，y分别为全局坐标系下车辆质心横坐标和纵坐标，

分别为全局坐标系下车辆质心横向速度和纵向速度，v为车辆速度，θ为车辆航向角，

为车辆横摆角速度，β为车辆侧偏角，a为车辆加速度，l_f为车辆前轴到质心的距离，l_r为车辆后轴到质心的距离，δ为车辆前轮转向角。

进一步，步骤S3中，利用DQN算法构建自动驾驶汽车转向控制模型，具体包括以下步骤：

S301：构建车辆状态空间；

所述车辆状态空间为包含周边车辆与本车的横纵向相对速度以及周边车辆与本车的横纵向距离的集合S，表示为：

D_i＝{Δv_x,Δv_y,Δx,Δy},i＝1,2,……,n

其中，D_i为车辆i的状态集合，n为所观测车辆的总数，Δv_x，Δv_y分别为周边车辆与本车的横向相对速度和纵向相对速度，Δx，Δy分别为周边车辆与本车的横向距离和纵向距离；

S302：设置n个离散转向角值，构建由多层深度神经网络组成的在线Q网络、目标Q网络，将当前状态S作为在线Q网络的输入，并输出每个离散转向角值所对应的Q值，选择其中Q值最大的转向角作为所要执行的动作A：

其中，a_i为离散的转向角值，Q(S,a_i)为输入状态S，选择动作a_i时的Q值。

进一步，步骤S3中，利用MOBIL算法构建转向角监督信号，具体包括：基于MOBIL算法，选择满足以下条件的车道作为目标车道：

其中，

为本车变道后新车道上相邻后车的加速度，b_safe为最大减速度，

为本车变道后的加速度，

为本车变道前的加速度，p为礼貌系数，

为本车变道前新车道上相邻后车的加速度，

为本车变道后原车道上相邻后车的加速度，

为本车变道前原车道上相邻后车的加速度，a_th为加速度阈值；

选择目标车道后，根据比例微分控制器计算出当前状态下的转向角δ_s为：

v_ex,lat＝-K_pd_lat

其中，v_ex,lat为横向期望速度，K_p为横向增益系数，d_lat为当前车道与目标车道的横向偏移量，θ_ex为期望航向角，θ_L为目标车道方向角，θ为本车航向角，

为本车横摆角速度，K_p,θ为航向角增益系数；

选择与转向角δ_s之差绝对值最小的离散转向角值a_i作为当前状态下的转向角监督信号A_s：

进一步，步骤S3中，设计奖励函数R，表达式为：

其中，k₁，k₂，k₃，k₄为各项奖励的权重系数；第一项为碰撞奖励，collision代表碰撞事件，碰撞发生时为1，未发生时为0；第二项为右侧车道奖励，lane为本车当前所在车道的序号，lane_num为车道总数；第三项为舒适性奖励，鼓励本车尽量采取较小的转向角，δ_min为奖励范围内的最小转向角，δ_max为奖励范围内的最大转向角；第四项为车道中心保持奖励，Δx为车辆与车道中心线的横向距离。

进一步，步骤S3中，对DQN算法进行训练，具体包括以下步骤：

S311：本车执行动作后，根据奖励函数计算当前状态S下执行该动作的奖励值R，并根据汽车运动模型得到本车的下一状态S′；

S312：设置经验池用于存放本步的经验样本{S,A,R,S′,A_s}，当经验池样本数超过经验池容量后，最早的经验样本将被新的经验样本替换；其中，S为当前状态，A为执行的动作，A_s为当前状态下的转向角监督信号；

S313：从经验池中随机抽取N个样本进行在线Q网络更新；

S314：每隔M步对目标Q网络进行更新：

θ^Q′＝θ^Q

其中，θ^Q为在线Q网络参数，θ^Q′为目标Q网络参数。

进一步，步骤S313中，对在线Q网络的更新方式进行优化，具体包括两个更新目标：

1)使在线Q网络输出的Q值逼近目标Q值；

2)使监督信号所对应的Q值尽量大，故监督式DQN算法的在线Q网络的损失函数J_Q为：

J_Q＝kJ_q+(1-k)J_S

其中，k为平衡系数，J_q为传统DQN算法在线Q网络的损失函数：

其中：

y_j＝r_j+γmaxQ′(s_j+1；θ^Q′)

其中，y_j为目标Q值，s_j、a_j、r_j、s_j+1为所抽取的第j个经验样本的当前时刻状态、当前时刻动作、当前时刻奖励以及下一时刻状态，Q(s_j,a_j；θ^Q)为在线Q网络输出的Q值，γ为衰减系数，Q′(s_j+1；θ^Q′)为目标Q网络输出的Q值；

采用梯度下降法计算传统DQN算法在线Q网络的更新公式：

其中，l_r为Q网络的学习率；

J_S为监督部分的损失函数：

其中，

为所抽取的第j个经验样本的当前时刻监督信号；

采用梯度上升法计算监督部分的更新公式：

故监督式DQN算法的在线Q网络更新公式为：

本发明的有益效果在于：本发明对Q网络的损失函数进行了优化并采用了传统算法MOBIL提供转向角监督信号，提升DQN算法的训练效率。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明基于监督式DQN算法的自动驾驶汽车转向控制方法的流程图；

图2为汽车运动学示意图；

图3为DQN算法框架图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1～图3，本发明设计了一种基于监督式DQN算法的自动驾驶汽车转向控制方法，利用深度强化学习算法-DQN对自动驾驶汽车实现转向控制，并对Q网络的损失函数进行了优化，同时采用传统算法MOBIL提供转向角监督信号进行引导，提升DQN算法的训练效率。如图1所示，该控制方法具体包括以下步骤：

S1：获取周边车辆状态信息；

其中，周边车辆状态信息包括：周边车辆与本车的横纵向相对车速，周边车辆与本车的横纵向距离。

S2：如图2所示，搭建汽车运动学模型，表达式为：

其中，x，y为全局坐标系下车辆质心横纵坐标，

为全局坐标系下车辆质心横纵向速度，v为车辆速度，θ为车辆航向角，

S3：利用DQN算法构建自动驾驶汽车转向控制模型对车辆的转向角进行控制，并优化Q网络的损失函数，同时利用MOBIL算法构建转向角监督信号，对DQN算法的训练进行引导和优化；

如图3所示，利用DQN算法实现对自动驾驶汽车转向角的控制，并对Q网络的损失函数进行了优化，同时采用MOBIL算法为DQN算法的网络训练更新提供转向角监督信号，引导Q网络向正确的方向进行更新，提升Q算法的训练速度。步骤S3具体包括以下步骤：

S31：状态空间为包含周边车辆与本车的横纵向相对速度以及周边车辆与本车的横纵向距离的集合S，表示为：

D_i＝{Δv_x,Δv_y,Δx,Δy},i＝1,2,……,n

其中，D_i为单一车辆的状态集合，n为所观测车辆的总数，Δv_x，Δv_y为周边车辆与本车的横纵向相对速度，Δx，Δy为周边车辆与本车的横纵向距离。

S32：设置n个离散转向角值，构建由多层深度神经网络组成的在线Q网络、目标Q网络，将当前状态S作为在线Q网络的输入，并输出每个离散转向角值所对应的Q值，选择其中Q值最大的转向角作为所要执行的动作A：

S33：同时，基于MOBIL算法，选择满足以下条件的车道作为目标车道：

其中，

为本车变道后的加速度，

为本车变道前的加速度，p为礼貌系数，

为本车变道前新车道上相邻后车的加速度，

为本车变道后原车道上相邻后车的加速度，

为本车变道前原车道上相邻后车的加速度，a_th为加速度阈值。

v_ex,lat＝-K_pd_lat

其中，v_ex,lat为横向期望速度，K_p为横向增益系数，d_lat为当前车道与目标车道的横向偏移量，θ_ex为期望航向角，θ_L为目标车道方向角，θ为本车航向角，K_p,θ为航向角增益系数；

S34：设计奖励函数R：

其中，k₁，k₂，k₃，k₄为各项奖励的权重系数；第一项为碰撞奖励，collision代表碰撞事件，碰撞发生时为1，未发生时为0；第二项为右侧车道奖励，lane为本车当前所在车道的序号，lane_num为车道总数；第三项为舒适性奖励，鼓励本车尽量采取较小的转向角，δ_min为奖励范围内的最小转向角，δ_max为奖励范围内的最大转向角；第四项为车道中心保持奖励，Δx为车辆与车道中心线的横向距离；

本车执行动作后，根据奖励函数计算当前状态下执行该动作的奖励值；

S35：本车执行动作后，根据奖励函数计算当前状态S下执行该动作的奖励值R，并根据汽车运动学模型得到本车的下一状态S′。

S36：设置经验池用于存放本步的经验样本{S,A,R,S′,A_s}，当经验池样本数超过经验池容量后，最早的经验样本将被新的经验样本替换。

S37：从经验池中随机抽取N个样本进行在线Q网络更新。监督式DQN算法的在线Q网络有两个更新目标：1)使在线Q网络输出的Q值逼近目标Q值；2)使监督信号所对应的Q值尽量大，故监督式DQN算法的在线Q网络的损失函数J_Q为：

J_Q＝kJ_q+(1-k)J_S

其中k为平衡系数，J_q为传统DQN算法在线Q网络的损失函数：

其中：

y_j＝r_j+γmaxQ′(s_j+1；θ^Q′)

采用梯度下降法计算传统DQN算法在线Q网络的更新公式：

其中，l_r为Q网络的学习率。

J_S为监督部分的损失函数：

其中，

为所抽取的第j个经验样本的当前时刻监督信号；

采用梯度上升法计算监督部分的更新公式：

故监督式DQN算法的在线Q网络更新公式为：

S38：每隔M步对目标Q网络进行更新。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于监督式DQN算法的自动驾驶汽车转向控制方法，其特征在于，该方法具体包括以下步骤：

S1：获取周边车辆状态信息；

S2：搭建汽车运动学模型；

S3：利用DQN算法构建自动驾驶汽车转向控制模型对车辆的转向角进行控制，并优化Q网络的损失函数，利用MOBIL算法构建转向角监督信号，对DQN算法的训练进行引导和优化；

步骤S3中，利用MOBIL算法构建转向角监督信号，具体包括：基于MOBIL算法，选择满足以下条件的车道作为目标车道：

其中，

为本车变道后的加速度，

为本车变道前的加速度，p为礼貌系数，

为本车变道前新车道上相邻后车的加速度，

为本车变道后原车道上相邻后车的加速度，

v_ex,lat＝-K_pd_lat

为本车横摆角速度，K_p,θ为航向角增益系数；

对DQN算法进行训练，具体包括以下步骤：

S313：从经验池中随机抽取N个样本进行在线Q网络更新；

S314：每隔M步对目标Q网络进行更新：

θ^Q′＝θ^Q

其中，θ^Q为在线Q网络参数，θ^Q′为目标Q网络参数；

步骤S313中，对在线Q网络的更新方式进行优化，具体包括两个更新目标：

1)使在线Q网络输出的Q值逼近目标Q值；

J_Q＝kJ_q+(1-k)J_S

其中：

y_j＝r_j+γmaxQ′(s_j+1；θ^Q′)

采用梯度下降法计算传统DQN算法在线Q网络的更新公式：

其中，l_r为Q网络的学习率；

J_S为监督部分的损失函数：

其中，

为所抽取的第j个经验样本的当前时刻监督信号；

采用梯度上升法计算监督部分的更新公式：

故监督式DQN算法的在线Q网络更新公式为：

2.根据权利要求1所述的自动驾驶汽车转向控制方法，其特征在于，步骤S1中，获取的周边车辆状态信息，包括：周边车辆与本车的横纵向相对车速，以及周边车辆与本车的横纵向距离。

3.根据权利要求1所述的自动驾驶汽车转向控制方法，其特征在于，步骤S2中，搭建的汽车运动学模型为：

其中，x，y分别为全局坐标系下车辆质心横坐标和纵坐标，

4.根据权利要求1所述的自动驾驶汽车转向控制方法，其特征在于，步骤S3中，利用DQN算法构建自动驾驶汽车转向控制模型，具体包括以下步骤：

S301：构建车辆状态空间；

D_i＝{Δv_x,Δv_y,Δx,Δy},i＝1,2,……,n

5.根据权利要求1所述的自动驾驶汽车转向控制方法，其特征在于，步骤S3中，设计奖励函数R，表达式为：

其中，k₁，k₂，k₃，k₄为各项奖励的权重系数；第一项为碰撞奖励，collision代表碰撞事件；第二项为右侧车道奖励，lane为本车当前所在车道的序号，lane_num为车道总数；第三项为舒适性奖励，鼓励本车尽量采取较小的转向角，δ_min为奖励范围内的最小转向角，δ_max为奖励范围内的最大转向角；第四项为车道中心保持奖励，Δx为车辆与车道中心线的横向距离。