CN111311945B

CN111311945B - 一种融合视觉和传感器信息的驾驶决策系统及方法

Info

Publication number: CN111311945B
Application number: CN202010106154.4A
Authority: CN
Inventors: 李琳; 赵万忠; 程青云; 徐灿
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2020-02-20
Filing date: 2020-02-20
Publication date: 2021-07-09
Anticipated expiration: 2040-02-20
Also published as: CN111311945A

Abstract

本发明公开了一种融合视觉和传感器信息的驾驶决策系统及方法，包括传感器模块，视觉和传感器数据融合模块，决策模块和控制模块；传感器模块，采集当前驾驶车辆周边的道路，车道线和其他车辆的图像信息，当前驾驶车辆位置和速度信息；视觉和传感器数据融合模块，从图像信息中分离并提取车道线、道路结构、其他道路使用者和空间特征，从GPS和车速传感器数据中提取当前车辆的运动特征；决策模块，通过决策模型获取当前车辆的决策量；控制模块，驱动自动驾驶车辆的转向电机，踏板和制动系统，控制车辆完成驾驶任务，更新车辆的位置和速度状态。本发明提高了泛化能力，能够处理样本中未出现的异常情况，实现智能车辆更安全，稳定和高效地自主行驶。

Description

一种融合视觉和传感器信息的驾驶决策系统及方法

技术领域

本发明属于智能驾驶技术领域，具体涉及一种融合视觉和传感器信息的驾驶决策系统及方法。

背景技术

随着汽车保有量的日益增加，道路交通逐渐趋于密集化和复杂化，进而导致驾驶压力的增大，使得驾驶员在正常交通场景下的驾驶能力下降，大大增加了交通事故的发生几率。其中，换道行为是导致交通事故和交通拥堵的重要致因之一，尤其在城市区域，车流密度大，极易发生换道碰撞事故，甚至导致连环追尾碰撞。相对于人类驾驶，智能驾驶系统具有反应时间短、感知精度高等优点，因此研究智能驾驶技术对于减少因人为因素导致的交通事故具有十分重要的意义。

目前在智能驾驶的决策领域，在决策信息感知方面，主要有基于视觉和传感器数据的方式这两大类。得益于近年来卷积神经网络和深度神经网络的发展，基于视觉信息的感知方法利于实现端到端的驾驶决策设计，面对交通环境的复杂性和图像信息数据过于庞大，系统如何得到可靠性的决策是一大难题；基于传感器数据的方法，数据处理较为简单，这也会使得系统难以深刻理解当前所处的交通环境。而在模型的学习方法方面，主要依靠历史数据的学习，但缺乏好的泛化能力，无法应对未知的输入。

发明内容

针对于上述现有技术的不足，本发明的目的在于提供一种融合视觉和传感器信息的驾驶决策系统及方法，以解决现有技术中决策模型不能完全理解环境输入和对未知情况泛化能力差的问题；本发明提高了智能车决策的可靠性。

为达到上述目的，本发明采用的技术方案如下：

本发明的一种融合视觉和传感器信息的驾驶决策系统，包括传感器模块，视觉和传感器数据融合模块，决策模块和控制模块；

所述传感器模块，包括：摄像头，GPS和车速传感器；所述摄像头用于采集当前驾驶车辆周边的道路，车道线和其他车辆的图像信息；所述GPS和车速传感器用于采集当前驾驶车辆的位置和速度信息；

所述视觉和传感器数据融合模块，获取上述传感器模块采集到的信息，进行特征提取和编码处理，从图像信息中分离并提取车道线、道路结构、其他道路使用者和空间特征，从GPS和车速传感器数据中提取当前车辆的运动特征；并采用的融合方式通过注意力机制来分配对不同特征的权重后，生成一个新的特征向量。

所述决策模块，将上述融合后的特征信息作为决策模型的输入，通过决策模型获取当前车辆的决策量：方向盘转角和加速度。

所述控制模块，接收决策模块输出的方向盘转角和加速度信号，来驱动自动驾驶车辆的转向电机，踏板和制动系统，控制车辆完成驾驶任务，从而更新车辆的位置和速度状态。

进一步地，所述摄像头为环视摄像头，分布在整车的四周，提供360度无死角的环视视野。

进一步地，所述图像特征提取是基于ResNet50卷积神经网络，GPS和车速传感器数据特征提取是基于全连接神经网络。

进一步地，所述决策模型是基于异策略学习方法，采用AC(Actor-CriticAlgorithm)学习框架。

进一步地，所述异策略学习方法中包括两个同等地位的元素，一个元素是Actor，即行动策略；另一个元素是Critic策略，即评估；异策略是指行动策略和评估策略不是同一个策略，行动策略是随机策略，以保证对最优策略的充足探索；Critic策略这里是指利用函数逼近方法估计值函数，为确定性策略。

本发明一种融合视觉和传感器信息的驾驶决策方法，包括步骤：

步骤1：获取当前交通环境图像I_t、GPS的位置(x_t,y_t)、车速信息v_t；x_t，y_t分别为横、纵方向的位置坐标，传感器数据信息X_t记为X_t＝[x_t,y_t,v_t]，并用S_t＝[I_t,X_t]来表示两者联合的环境输入；

步骤2：每一时刻t采集的交通环境图像I_t，通过图像语义分割提取不同目标，包括车道线l_t，道路结构r_t，其他道路使用者o_t和空间s_t,并基于ResNet50卷积网络分别进行特征编码，得到车道线特征向量E_1,t，道路结构特征向量E_2,t，其他道路使用者特征向量E_3,t，和空间特征向量E_4,t；其过程用公式表示如下：

E_1,t＝ResNet50(l_t；W₁)

E_2,t＝ResNet50(r_t；W₂)

E_3,t＝ResNet50(o_t；W₃)

E_4,t＝ResNet50(s_t；W₄)

其中，ResNet50表示卷积网络对应的函数关系，W₁，W₂，W₃，W₄分别为对应网络的全部参数；

步骤3：采用一个两层全连接神经网络对相同时刻t的传感器数据信息X_t进行特征提取和编码，生成自车运动特征向量E_5,t；

E_5,t＝FC(X_t；W_FC2)

其中，FC表示全连接层的函数关系，W_FC2表示两层全连接神经网络的所有参数；

步骤4：将上述步骤2，3中生成的特征向量和上一时刻生成的决策输出通过注意力机制，分配当前时刻对不同特征量的注意权重α_i,t，依据下式生成融合特征向量F_t；

其中，tanh为hyperbolic tangent函数，

为上一刻决策模型的输出值，W_att，U_att为注意力模型的参数；

步骤5：定义动作决策的集合A，包括方向盘转角δ和加速度a；

步骤6：定义回报函数R，具体公式如下：

其中，v_t为当前车辆速度，v_d为驾驶员的期望速度，x_t，y_t是当前车辆的纵向和横向位移，

为当前车辆所在车道和左右相邻车道的前后车辆；w_v，w_la，w_lo分别为速度，纵向位移和横向位移的权重调节系数；

步骤7：建立行为策略网络，通过访问上述步骤4中的决策特征向量F_t，其中，t的取值范围为历史时域[t-T_obs,t]，基于Bi-LSTM神经网络建立时序决策模型，连接三层全连接层，最终连接混合密度输出层，得到二维决策量a_t＝(δ_t,a_t)的二元概率分布P_π,μ,σ(a_t|S)，并计算出输出结果的置信因子，具体过程用公式表示如下：

a_t＝(δ_t,a_t)

其中，Bi-LSTM为双向长短时记忆网络的函数关系，

表示时域[t-T_obs,t]内的所有融合特征向量的集合，W_LSTM为Bi-LSTM网络的参数，W_FC3为三层全连接网络的参数；π_k为混合密度网络中的分配系数；Φ为二元高斯函数；μ_k为均值；Σ_k为协方差矩阵；σ_k为标准差；ρ_k为相关系数；k为第k个高斯函数混合；

上述随机策略简记为：

π_θ(a|S)＝P[a|S；θ]＝ξ(S；θ)；

步骤8：基于深度神经网络建立评估策略，用来评估基于定义的回报函数下，在环境特征的输入S，由行为策略输出的行为a所得到的累计回报值函数，记为Q(S,a；w)，通过更新参数w来逼近行为值函数Q_π(S,a)；

步骤9：基于深度确定性策略搜索算法(DDPG)学习上述步骤2-8所涉及到的模型的参数，输出最优的动作决策策略a*。

进一步地，所述深度确定性策略搜索算法具体包括：

1)随机初始化评估策略网络Q(S,a；w)和行为策略网络ξ(S；θ)的参数w和θ；

2)用计算所得的参数w'和θ'来得到更新后的目标网络Q'和ξ'；

3)初始化回报函数R；

4)对每个进程重复以下操作：

5)初始化环境信息输入S；

6)对每一时刻t重复一下操作：

7)根据行为策略网络和噪声η_t在环境信息S_t输入下选择动作a_t＝ξ(S；θ)+η_t；

8)执行动作a_t，观察回报R_t和下一时刻的环境信息输入S_t+1；

9)将经验转换(S_t,a_t,R_t,S_t+1)储存在空间D中；

10)从D中随机小批量采样N组经验转化(S_i,a_i,R_i,S_i+1)；

11)赋值y_i＝R_i+γQ'(S_i+1,ξ'(S_i+1；θ')；w')；

12)依据下式计算损失L，评估策略网络通过最小化L：

13)行为策略基于采样梯度，采样梯度计算公式如下：

14)依据下式迭代更新参数，得到目标网络：

w’←τw+(1-τ)w’

θ’←τθ+(1-τ)θ’；

15)结束。

本发明的有益效果：

1)本发明在现有决策模型的基础上，将视觉信息经语义分割后和传感器数据信息的特征分别提取和编码后通过注意力机制融合，该方法可使得决策系统同时处理多源信息，并对不同的特征分配不同的权重；

2)采用AC(Actor-Critic Algorithm)学习框架来建立决策模型，并基于深度确定性策略搜索算法(DDPG)来求解最优策略，强化学习通过与环境的交互和回报函数的引导，来优化系统的决策输出，较之现有学习算法，有更好的泛化能力，适应多变复杂的交通环境，而异策略学习方法，结合了确定性和随机性策略，在保证策略优化的同时，大大提高了策略搜索效率。

附图说明

图1为本发明决策系统的框图；

图2为本发明决策方法中的视觉和传感器数据模块的算法流程图；

图3为本发明所采用的决策方法的行为-评估模型图。

具体实施方式

为了便于本领域技术人员的理解，下面结合实施例与附图对本发明作进一步的说明，实施方式提及的内容并非对本发明的限定。

参照图1所示，本发明的一种融合视觉和传感器信息的驾驶决策系统，包括传感器模块，视觉和传感器数据融合模块，决策模块和控制模块；

所述传感器模块，包括：摄像头，GPS和车速传感器；所述摄像头用于采集当前驾驶车辆周边的道路，车道线和其他车辆的图像信息；所述GPS和车速传感器用于采集当前驾驶车辆的位置和速度信息；所述摄像头为环视摄像头，分布在整车的四周，提供360度无死角的环视视野。

所述视觉和传感器数据融合模块，获取上述传感器模块采集到的信息，进行特征提取和编码处理，从图像信息中分离并提取车道线、道路结构、其他道路使用者和空间特征，从GPS和车速传感器数据中提取当前车辆的运动特征；并采用的融合方式通过注意力机制来分配对不同特征的权重后，生成一个新的特征向量。所述图像特征提取是基于ResNet50卷积神经网络，GPS和车速传感器数据特征提取是基于全连接神经网络。

其中，所述决策模型是基于异策略学习方法，采用AC(Actor-Critic Algorithm)学习框架。

所述异策略学习方法中包括两个同等地位的元素，一个元素是Actor，即行动策略；另一个元素是Critic策略，即评估；异策略是指行动策略和评估策略不是同一个策略，行动策略是随机策略，以保证对最优策略的充足探索；Critic策略这里是指利用函数逼近方法估计值函数，为确定性策略。

参照图2、图3所示，本发明一种融合视觉和传感器信息的驾驶决策方法，包括步骤：

E_1,t＝ResNet50(l_t；W₁)

E_2,t＝ResNet50(r_t；W₂)

E_3,t＝ResNet50(o_t；W₃)

E_4,t＝ResNet50(s_t；W₄)

E_5,t＝FC(X_t；W_FC2)

其中，tanh为hyperbolic tangent函数，

步骤6：定义回报函数R，具体公式如下：

a_t＝(δ_t,a_t)

其中，Bi-LSTM为双向长短时记忆网络的函数关系，

上述随机策略简记为：

π_θ(a|S)＝P[a|S；θ]＝ξ(S；θ)；

进一步地，所述深度确定性策略搜索算法具体包括：

2)用计算所得的参数w'和θ'来得到更新后的目标网络Q'和ξ'；

3)初始化回报函数R；

4)对每个进程重复以下操作：

5)初始化环境信息输入S；

6)对每一时刻t重复一下操作：

8)执行动作a_t，观察回报R_t和下一时刻的环境信息输入S_t+1；

9)将经验转换(S_t,a_t,R_t,S_t+1)储存在空间D中；

10)从D中随机小批量采样N组经验转化(S_i,a_i,R_i,S_i+1)；

11)赋值y_i＝R_i+γQ'(S_i+1,ξ'(S_i+1；θ')；w')；

12)依据下式计算损失L，评估策略网络通过最小化L：

13)行为策略基于采样梯度，采样梯度计算公式如下：

14)依据下式迭代更新参数，得到目标网络：

w’←τw+(1-τ)w’

θ’←τθ+(1-τ)θ’；

15)结束。

本发明具体应用途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进，这些改进也应视为本发明的保护范围。

Claims

1.一种融合视觉和传感器信息的驾驶决策方法，其特征在于，包括步骤：

E_1,t＝ResNet50(l_t；W₁)

E_2,t＝ResNet50(r_t；W₂)

E_3,t＝ResNet50(o_t；W₃)

E_4,t＝ResNet50(s_t；W₄)

E_5,t＝FC(X_t；W_FC2)

其中，tanh为hyperbolic tangent函数，

步骤6：定义回报函数R，具体公式如下：

步骤7：建立行为策略网络，通过访问上述步骤4中的决策特征向量F_t，其中，t的取值范围为历史时域[t-T_obs,t]，基于Bi-LSTM神经网络建立时序决策模型，连接三层全连接层，最终连接混合密度输出层，得到二维决策量a_t＝(δ_t,a_t)的二元概率分布Pπ,μ,σ(a_t|S)，并计算出输出结果的置信因子，具体过程用公式表示如下：