CN113885497A

CN113885497A - 一种基于竞争深度q网络的车辆纵向动力学标定方法

Info

Publication number: CN113885497A
Application number: CN202111163046.1A
Authority: CN
Inventors: 何吕; 罗彪; 孟步敏; 张东波
Original assignee: Xiangtan University
Current assignee: Xiangtan University
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2022-01-04

Abstract

本发明公开了一种基于竞争深度Q网络的车辆纵向动力学标定方法，包括如下步骤：获取车辆载重状态、速度、前后车距离信息以及前后车速度，建立车辆纵向行驶坐标系；建立竞争深度Q网络模型并训练；实时采集车辆纵向行驶坐标系中的参数，放入车辆纵向行驶坐标系中，并通过训练好的竞争深度Q网络模型预测与前方车辆保持一致的速度、保持同样速度所需要的刹车和油门的开合度百分比，以此保持和前车的最小安全距离；根据预测结果对车辆进行控制使车辆处于安全行驶状态。本发明通过使用竞争深度Q网络使车辆在高速公路中控制车辆加速或减速反应更快，保持控制过程更加平稳，平均速度更快，能够有效提高自动驾驶车辆的舒适性，并有效降低发生交通事故的风险。

Description

一种基于竞争深度Q网络的车辆纵向动力学标定方法

技术领域

本发明涉及一种基于竞争深度Q网络的车辆纵向动力学标定方法。

背景技术

人工智能技术在不断地发展，特别是深度强化学习的发展与应用，人工智能技术在自动驾驶领域应用非常广泛。自动驾驶系统中，车载毫米波雷达获取同车道车辆的距离和通过车载摄像头预测前车速度，控制模块通过对车辆的位置误差、速度误差进行计算和校正，使车辆始终处于安全行驶速度状态。现在的高速公路上有很多快递大货车，每到一个地区就会卸载或者装货，使车辆载重发生变化，不同的车辆载重进行车辆加速或者减速导致的油门的开合度是不一样的，车辆载重和油门的开合度对应一定的关系。不同的车辆对应自身载重又是不一样的。现有的控制方法难以实现不同车辆在不同载重情况下快速控制车辆加速或减速保持安全速度和安全距离。

发明内容

为了解决上述技术问题，本发明提供一种算法简单、安全可靠的基于竞争深度Q网络的车辆纵向动力学标定方法。

本发明解决上述技术问题的技术方案是：一种基于竞争深度Q网络的车辆纵向动力学标定方法，使用竞争深度Q网络模型在车辆载重发生变化时，预测车辆安全行驶时的速度，并控制油门和刹车始终在纵向行驶时保持安全状态，具体包括如下步骤：

S₁：获取车辆载重状态、速度、前后车距离信息以及前后车速度，建立车辆纵向行驶坐标系；

S₂：根据获取的信息建立竞争深度Q网络模型，模型的输入为车辆载重状态、速度、前后车距离信息；

S₃：预采集竞争深度Q网络模型的参数，对竞争深度Q网络模型进行训练，得到训练好的竞争深度Q网络模型；

S₄：实时采集车辆纵向行驶坐标系中的参数，放入车辆纵向行驶坐标系中，并通过训练好的竞争深度Q网络模型预测与前方车辆保持一致的速度、保持同样速度所需要的刹车和油门的开合度百分比，以此保持和前车的最小安全距离；

S₅:根据步骤S₄中的预测结果对车辆进行控制使车辆处于安全行驶状态。

上述基于竞争深度Q网络的车辆纵向动力学标定方法，所述步骤S₂中，首先构建自动驾驶车辆纵向标定算法模型，确定模型网络结构，将车辆纵向驾驶行为优化策略模型转化为马尔可夫决策过程模型：

其中，所述马尔可夫决策过程是一个五元组<S,A,P,R,γ>模型，包括状态空间S＝{s₁,s₂,...,s_t}、动作空间A＝{a₁,a₂,...,a_t}、状态转移概率矩阵P、奖励函数R、折扣因子γ，s_t表示时间t时刻的状态，a_t表示t时刻状态下选择的动作；竞争深度Q网络模型DuelingDQN把Q值函数拆分为状态值函数V(s)和优势函数A(s,a；θ,α)，所以有：

Q(s,a；θ,α,β)＝V(s；θ,β)+A(s,a；θ,α)

其中V(s；θ,β)是状态值函数，输出一个标量，A(s,a；θ,α)是优势函数，输出一个矢量，矢量长度等于动作空间大小；s表示状态，θ指网络卷积层的参数；α和β别是2个分支的全连接层的参数；

竞争深度Q网络模型Dueling DQN中包括两个结构相同但是参数不同的神经网络，即目标神经网络和当前神经网络，当前神经网络用于计算当前状态，即当前状态s_t下每一个动作a的Q值Q(s_t,a_t)，a表示当前车辆加速或者减速的动作，目标神经网络计算用于下一个状态s_t+1下每一个动作a的Q值Q(s_t+1,a_t)。

上述基于竞争深度Q网络的车辆纵向动力学标定方法，所述步骤S₂中，竞争深度Q网络的输入层为车辆位置信息L_t＝(X_t,Y_t,V_t)、前方车辆信息C_f＝(X_f,Y_f,D_f,V_f)、后方车辆信息C_b＝(X_b,Y_b,D_b,V_b)，X_t、Y_t是当前车辆纵向标定坐标系中的x、y坐标，V_t是当前车辆的速度；X_f、Y_f为前方位置在纵向标定坐标系里的x、y坐标，D_f是前车与主车的距离，V_f是前车的速度，X_b、Y_b为后方车辆位置在纵向标定坐标系里的x、y坐标，D_b是后方车辆与主车的距离，V_b是后车的速度，竞争深度Q网络输出为当前状态s_t下每一个动作a的Q值Q(s_t,a_t)；车辆制动踏板加速或者减速。

上述基于竞争深度Q网络的车辆纵向动力学标定方法，所述步骤S₃中，用深度强化学习网络模型Dueling DQN进行训练时，将当前车辆位置信息L_t＝(X_t,Y_t,V_t)、自身载重信息W_t，前方车辆信息C_f＝(X_f,Y_f,D_f,V_f)，后方车辆信息C_b＝(X_b,Y_b,D_b,V_b)输入到训练好的竞争深度Q网络模型中，S_t是车辆t时刻的速度状态，A_t是踩油门和踩刹车动作的集合，Q(S_t,A_t)是t时刻的动作值函数，S_t+1是车辆t时刻的状态，A_t+1是t+1时刻的动作，Q(S_t+1,A_t+1)是t+1时刻的动作值函数，a是选择执行的动作，α是学习率，λ是参数，R_t+1是t+1时刻的奖励，maxQ(S_t+1,a)是选择动作a时t+1时刻的S_t+1状态下的最大的动作值函数；

Q(S_t+1,A_t+1)←Q(S_t,A_t)+α(R_t+1+λmaxQ(S_t+1,a)-Q(S_t,A_t))

通过竞争深度Q网络模型计算，状态值函数V(s)输出车辆期望的车速值和优势函数A控制车辆油门和刹车的动作保持车辆纵向行驶安全。

上述基于竞争深度Q网络的车辆纵向动力学标定方法，所述步骤S₄中，在高速公路路况中，主车辆与前方车辆速度都为m，当前方车辆突然减速速度从m下降到n时，将前方车辆速度变化信息和自身载重输入竞争深度Q网络模型通过其状态值函数V(s)评估现在所处速度状态是否依然处于安全行驶状态以及是否和前车保持安全距离，若处于与前车保持距离小于安全距离50米，表示有碰撞危险，则将速度下降到与前车一样的速度n，此刻车辆在此载重和速度状态s下通过刹车和油门将速度降为n，优势函数A评估车辆在状态s下采取的各动作是否达到预期目标速度。

上述基于竞争深度Q网络的车辆纵向动力学标定方法，所述步骤S₄中，通过车载毫米波雷达反馈的数据判断是否与前车保持安全距离50米，若小于50米，则继续降低速度，控制车辆刹车和油门使车辆减速，使车辆与前方车辆继续保持最小安全距离。

本发明的有益效果在于：本发明采用竞争深度Q网络模型，竞争深度Q网络能够使自动驾驶车辆在高速路上根据自身载重的变化迅速做出最合理的加速或减速决策，使车辆保持在当前车道上行驶平均速度更加快，提高自动驾驶的舒适性，降低交通事故的风险。提升在纵向行驶中标定的效率，减少车祸事故发生的概率。

附图说明

图1为本发明的流程图。

图2为主车辆行驶过程中与前后车关系示意图。

图3为竞争深度Q网络结构图。

具体实施方式

下面结合附图和实施例对本发明作进一步的说明。

如图1-图3所示，一种基于竞争深度Q网络的车辆纵向动力学标定方法，包括如下步骤：

S₁：获取车辆载重状态、速度、前后车距离信息以及前后车速度，建立车辆纵向行驶坐标系.

S₂：根据获取的信息建立竞争深度Q网络模型，模型的输入为车辆载重状态、速度、前后车距离信息。

首先构建自动驾驶车辆纵向标定算法模型，确定模型网络结构，将车辆纵向驾驶行为优化策略模型转化为马尔可夫决策过程模型：

其中，所述马尔可夫决策过程是一个五元组<S,A,P,R,γ>模型，包括状态空间S＝{s₁,s₂,...,s_t}、动作空间A＝{a₁,a₂,...,a_t}、状态转移概率矩阵P、奖励函数R、折扣因子γ，s_t表示时间t时刻的状态，a_t表示t时刻状态下选择的动作；确定竞争深度Q网络模型Dueling DQN把Q值函数拆分为状态值函数V(s)和优势函数A，所以有：

Q(s,a；θ,α,β)＝V(s；θ,β)+A(s,a；θ,α)

其中V(s；θ,β)是状态值函数，计算预测出与前车保持安全距离的速度，A(s,a；θ,α)是优势函数，控制车辆的油门和刹车达到预期的速度，s表示状态，θ指网络卷积层的参数；α和β别是2个分支的全连接层的参数；

竞争深度Q网络模型Dueling DQN中包括两个结构相同但是参数不同的神经网络，即目标神经网络和当前神经网络，当前神经网络用于计算当前状态，即当前状态s_t下每一个动作a的Q值Q(s_t,a_t)，a表示当前车辆加速或者减速的动作，目标神经网络计算用于下一个状态s_t+1下每一个动作a的Q值Q(s_t+1,a_t)；

神经网络的输入层为车辆位置信息L_t＝(X_t,Y_t,V_t)、前方车辆信息为C_f＝(X_f,Y_f,D_f,V_f)，后方车辆信息为C_b＝(X_b,Y_b,D_b,V_b)，X_t、Y_t是当前车辆纵向标定坐标系中的x、y坐标，在图2中，V_t是当前车辆的速度；X_f、Y_f为前方位置在纵向标定坐标系里的x、y坐标，D_f是前车与主车的距离，V_f是前车的速度，X_b、Y_b为后方车辆位置在纵向标定坐标系里的x、y坐标，D_b是后方车辆与主车的距离，V_b是后车的速度，神经网络输出为当前状态s_t下每一个动作a的Q值Q(s_t,a_t)，车辆制动踏板加速或者减速。

S₃：预采集竞争深度Q网络模型的参数，对竞争深度Q网络模型进行训练，得到训练好的竞争深度Q网络模型。

在图3中，用竞争深度Q网络模型Dueling DQN进行训练，将当前车辆位置信息L_t＝(X_t,Y_t,V_t)、前方车辆信息C_f＝(X_f,Y_f,D_f,V_f)、后方车辆信息C_b＝(X_b,Y_b,D_b,V_b)、自身载重信息输入到竞争深度Q网络模型中，得到车辆期望的车速值。

用深度强化学习网络模型Dueling DQN进行训练时，将当前车辆位置信息L_t＝(X_t,Y_t,V_t)、自身载重信息W_t，前方车辆信息C_f＝(X_f,Y_f,D_f,V_f)，后方车辆信息C_b＝(X_b,Y_b,D_b,V_b)输入到训练好的竞争深度Q网络模型中，S_t是车辆t时刻的速度状态，A_t是踩油门和踩刹车动作的集合，Q(S_t,A_t)是t时刻的动作值函数，S_t+1是车辆t时刻的状态，A_t+1是t+1时刻的动作，Q(S_t+1,A_t+1)是t+1时刻的动作值函数，a是选择执行的动作，α是学习率，λ是参数，R_t+1是t+1时刻的奖励，maxQ(S_t+1,a)是选择动作a时t+1时刻的S_t+1状态下的最大的动作值函数；

Q(S_t+1,A_t+1)←Q(S_t,A_t)+α(R_t+1+λmaxQ(S_t+1,a)-Q(S_t,A_t))

S₄：实时采集车辆纵向行驶坐标系中的参数，放入车辆纵向行驶坐标系中，并通过训练好的竞争深度Q网络模型预测与前方车辆保持一致的速度、保持同样速度所需要的刹车和油门的开合度百分比，以此保持和前车的最小安全距离。

在高速公路路况中，主车辆与前方车辆速度都为m，当前方车辆突然减速速度从m下降到n时，将前方车辆速度变化信息和自身载重输入竞争深度Q网络模型通过其状态值函数V(s)评估现在所处速度状态是否依然处于安全行驶状态以及是否和前车保持安全距离，若处于与前车保持距离小于安全距离50米，表示有碰撞危险，则将速度下降到与前车一样的速度n，此刻车辆在此载重和速度状态s下通过刹车和油门将速度降为n，优势函数A评估车辆在状态s下采取的各动作是否达到预期目标速度。

与深度Q网络(DQN)相比，包含值函数逼近器的竞争深度Q网络(Dueling DQN)这一特性特别适用于车辆纵向标定问题。

竞争深度Q网络从Q函数中分离出状态值函数V(s)和优势函数A，状态值函数V(s)用于评估预测车辆的速度，而优势函数A用于执行预期速度的动作，使得车辆在高速公路行驶过程中平均速度更快，预测速度和控制车辆加速或减速更快速，并有效降低发生交通事故的风险。

Claims

1.一种基于竞争深度Q网络的车辆纵向动力学标定方法，其特征在于，使用竞争深度Q网络模型在车辆载重发生变化时，预测车辆安全行驶时的速度，并控制油门和刹车始终在纵向行驶时保持安全状态，具体包括如下步骤：

2.根据权利要求1所述的基于竞争深度Q网络的车辆纵向动力学标定方法，其特征在于，所述步骤S₂中，首先构建自动驾驶车辆纵向标定算法模型，确定模型网络结构，将车辆纵向驾驶行为优化策略模型转化为马尔可夫决策过程模型：

其中，所述马尔可夫决策过程是一个五元组<S,A,P,R,γ>模型，包括状态空间S＝{s₁,s₂,...,s_t}、动作空间A＝{a₁,a₂,...,a_t}、状态转移概率矩阵P、奖励函数R、折扣因子γ，s_t表示时间t时刻的状态，a_t表示t时刻状态下选择的动作；竞争深度Q网络模型Dueling DQN把Q值函数拆分为状态值函数V(s)和优势函数A(s,a；θ,α)，所以有：

Q(s,a；θ,α,β)＝V(s；θ,β)+A(s,a；θ,α)

3.根据权利要求2所述的基于竞争深度Q网络的车辆纵向动力学标定方法，其特征在于，所述步骤S₂中，竞争深度Q网络的输入层为车辆位置信息L_t＝(X_t,Y_t,V_t)、前方车辆信息C_f＝(X_f,Y_f,D_f,V_f)、后方车辆信息C_b＝(X_b,Y_b,D_b,V_b)，X_t、Y_t是当前车辆纵向标定坐标系中的x、y坐标，V_t是当前车辆的速度；X_f、Y_f为前方位置在纵向标定坐标系里的x、y坐标，D_f是前车与主车的距离，V_f是前车的速度，X_b、Y_b为后方车辆位置在纵向标定坐标系里的x、y坐标，D_b是后方车辆与主车的距离，V_b是后车的速度，竞争深度Q网络输出为当前状态s_t下每一个动作a的Q值Q(s_t,a_t)；车辆制动踏板加速或者减速。

4.根据权利要求3所述的基于竞争深度Q网络的车辆纵向动力学标定方法，其特征在于，所述步骤S₃中，用深度强化学习网络模型Dueling DQN进行训练时，将当前车辆位置信息L_t＝(X_t,Y_t,V_t)、自身载重信息W_t，前方车辆信息C_f＝(X_f,Y_f,D_f,V_f)，后方车辆信息C_b＝(X_b,Y_b,D_b,V_b)输入到训练好的竞争深度Q网络模型中，S_t是车辆t时刻的速度状态，A_t是踩油门和踩刹车动作的集合，Q(S_t,A_t)是t时刻的动作值函数，S_t+1是车辆t+1时刻的状态，A_t+1是t+1时刻的动作，Q(S_t+1,A_t+1)是t+1时刻的动作值函数，a是选择执行的动作，α是学习率，λ是参数，R_t+1是t+1时刻的奖励，max Q(S_t+1,a)是选择动作a时t+1时刻的S_t+1状态下的最大的动作值函数；

Q(S_t+1,A_t+1)←Q(S_t,A_t)+α(R_t+1+λmax Q(S_t+1,a)-Q(S_t,A_t))

5.根据权利要求4所述的基于竞争深度Q网络的车辆纵向动力学标定方法，其特征在于，所述步骤S₄中，在高速公路路况中，主车辆与前方车辆速度都为m，当前方车辆突然减速速度从m下降到n时，将前方车辆速度信息和自身载重输入竞争深度Q网络模型通过其状态值函数V(s)评估现在所处速度状态是否依然处于安全行驶状态以及是否和前车保持安全距离，若处于与前车保持距离小于安全距离50米，表示有碰撞危险，则将速度下降到与前车一样的速度n，此刻车辆在此载重和速度状态s下通过刹车和油门将速度降为n，优势函数A评估车辆在状态s下采取的各动作是否达到预期目标速度。

6.根据权利要求5所述的基于竞争深度Q网络的车辆纵向动力学标定方法，其特征在于，所述步骤S₄中，通过车载毫米波雷达反馈的数据判断是否与前车保持安全距离50米，若小于50米，则继续降低速度，控制车辆刹车和油门使车辆减速，使车辆与前方车辆继续保持最小安全距离。