CN116975781A

CN116975781A - 一种自动驾驶车辆行为决策系统和方法

Info

Publication number: CN116975781A
Application number: CN202310983299.6A
Authority: CN
Inventors: 岑明; 杨程; 杨润; 杨浩波; 张靖
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-08-04
Filing date: 2023-08-04
Publication date: 2023-10-31

Abstract

本发明涉及一种自动驾驶车辆行为决策系统，属于智能车辆领域，包括数据采集模块通过传感器获取周围环境信息，并构建道路模型；时空特征提取模块利用以LSTM‑CNN为基础的决策模型对道路模型信息进行提取，得到时空特征；驾驶行为规则提取模块对车辆的交互性进行分析得到不同行为产生的特征，依据这些特征构建驾驶行为规则特征挖掘算法得到行为规则特征编码；融合决策模块采用WIDE&DEEP融合模型将行为特征和与时空特征融合，最后输出行为决策结果。本发明还提供一种方法。

Description

一种自动驾驶车辆行为决策系统和方法

技术领域

本发明属于智能车辆领域，涉及一种自动驾驶车辆行为决策系统和方法。

背景技术

行为决策是自动驾驶车辆中至关重要的环节，它基于环境感知数据对车辆的驾驶行为进行决策，以实现车辆的任务目标。

目前主要的自动驾驶车辆行为决策方法可以分为基于模型驱动和基于数据驱动的行为决策方法两种。但两种方法都存在一定的不足。

中国专利申请：停车场场景下融合预测算法的车辆行为决策方法及装置(申请号：CN202310045955.8)，公开了一种停车场场景下融合预测算法的车辆行为决策方法及装置，其特征在于，包括：利用预测算法对目标车辆的行为进行预测；根据不同的预测结果对目标车辆的轨迹分别进行预测。该方法采用了基于长短时记忆网络LSTM的行为预测模型，单一的数据驱动方法存在可解释性不足的问题。文献《A systematic solution of humandriving behavior modeling and simulation for automated vehicle studies》采用决策树模型，通过对车辆间距、是否处于交叉路口等属性的判断，将自动驾驶车辆的驾驶行为划分为停车、路口处理、躲避车辆、超车并道等不同的状态，然后使用“IF-THRN”规则对这些状态进行建模和描述，直到达到叶子节点，最终实现自动驾驶车辆的行为决策。但难以处理复杂的交通场景和异常情况，缺乏对不确定性的处理能力，可能导致行为决策的不准确和不完备性。

发明内容

有鉴于此，本发明的目的在于针对当前基于模型驱动的方法面对复杂场景建模困难、可移植性差，基于数据驱动的行为决策方法缺乏可解释性问题，提出一种将基于模型与基于数据驱动两种方法进行有效结合的方法，提高决策模型的准确性、泛化能力和预测性能，提高自动驾驶车辆行为决策的准确性。

为达到上述目的，本发明提供如下技术方案：

一方面，本发明提供一种自动驾驶车辆行为决策系统，包括数据采集模块、时空特征提取模块、驾驶行为规则提取模块，融合决策模块；

所述数据采集模块通过传感器获取周围环境信息，并构建道路模型；

所述时空特征提取模块利用以LSTM-CNN为基础的决策模型对道路模型信息进行提取，得到时空特征；

所述驾驶行为规则提取模块对车辆的交互性进行分析得到不同行为产生的特征，依据这些特征构建驾驶行为规则特征挖掘算法得到行为规则特征编码；

所述融合决策模块采用WIDE&DEEP融合模型将行为特征和与时空特征融合，最后输出行为决策结果。

另一方面，本发明提供一种自动驾驶车辆行为决策方法，包括以下步骤：

S1：数据采集：通过传感器获取车辆周围的环境信息，并构建道路模型，道路模型包含车辆信息V和车道信息R；

S2：时空特征提取：通过对车辆信息V和车道信息R进行处理，提取得到时空特征SC；

S3：驾驶行为规则提取：根据数据采集模块的车辆信息V和车道信息R使用驾驶行为规则特征挖掘算法来构建行为规则特征编码，得到驾驶行为规则特征D；

S4：融合决策：采用WIDE&DEEP融合模型将驾驶行为特征D和时空特征SC进行融合，得到当前车辆的行为决策Y。

进一步，步骤S1中所述道路模型为{V,R}，V是周围车辆集合{V_Ego,V_{Ego_front},V_{Ego_back},V_{Left_front},V_{Left_back},V_{Right_front},V_{Right_back}}，分别是目标车辆、前方车辆、后方车辆、左侧前方车辆、左侧后方车辆、右侧前方车辆、右侧后方车辆；R是道路信息{M,L_id,F}，其中M是车道数量，L_id是当前车道标号，F表明是否当前车道可进行变道，对于最左侧车道车辆无法进行左变道，对于最右侧车道车辆无法进行右变道；

对于每辆车有车辆状态信息{t,X,Y,Vel,Acc,θ,L,W,L_id,X_dis,Y_dis}分别是时间戳、横向位置、纵向位置、速度、加速度、转向角、车长、车宽、当前车道、与目标车辆横向偏移、与目标车辆纵向偏移；车辆之间的间距越大，车辆之间的交互性影响越小，用一个较大的值表示目标车辆的某一方位上没有车；针对周围没有车的缺省车辆的处理，用0m/s代表该缺省车辆的速度，对于与目标车辆横向偏移、与目标车辆纵向偏移，采用较大的值X_dis,Y_dis表示。

进一步，步骤S2中，搭建以LSTM-CNN为基础的行为决策模型提取时空特征，采用几个并行的LSTM分别提取左前车辆Left_front和左后车辆Left_back，右前车辆Right_front和右后车辆Right_back，前方车辆Front，后方车辆Back和目标车辆信息Ego时序特征的提取；最后利用全连接层融合特征得到时序特征S；采用残差CNN网络提取周围环境的空间特征C，最后将两者进行融合得到时空特征SC；

时序特征表达如下：

S＝F_lstm(V,R,T,N)

其中，S为时序特征；F_lstm为LSTM网络模型；V是周围车辆状态集合；R是车道状态集合；其中T为时间步长；N为输入信息维度。

进一步，步骤S3所述驾驶行为规则提取，用GBDT驾驶行为规则挖掘算法进行挖掘，得到驾驶行为特征D；所挖掘的规则属性包含影响目标车辆采取不同驾驶行为的因素，包括目标车辆与周围环境车辆的时间、横向坐标、纵向坐标、速度、加速度、横向偏移量、纵向偏移量相关特征；特征编码规则为：设驾驶行为规则挖掘算法迭代M次得到最终输出则构建M颗决策树，每个样本落到每棵决策树的叶子节点置为1，其余为0，进而利用这些特征构造出一组0-1特征。

进一步，步骤S3具体包括以下步骤：

S31：对于训练集{(x₁,y₁),(x₂,y₂),(x₃,y₃),…,(x_N,y_N)}，其中x_i＝{V,R},是当前环境下对应的决策，N为样本数量，初始化一个弱学习器：

其中，L为平方损失函数；

S32：迭代次数(1到M)，每次迭代拟合一颗树，对于每棵树首先计算每个样本的残差，即：

用(x_i,r_im)迭代更新一颗决策树，R_jm为新决策树的叶子节点区域，j＝1,2,3,..,J_m，J_m为新决策树的叶子节点总数；

对叶子节点j＝1,2,3,..,J_m计算最佳拟合值：

其中当样本对应的节点是叶子节点区域R_jm时I为1，否则为0；

S33：输出最后结果

当样本x最后输出结果与真实结果误差越小，拟合效果越好。

进一步，步骤S4中，将在特征提取阶段获得的时空特征与驾驶行为规则特征进行联合训练，最后输出当前的行为决策结果，包括车道保持、左换道和右换道，具体包括以下步骤：

S41：将挖掘的驾驶行为规则特征信息D通过Wide引入非线性交叉特征来实现记忆能力，得到驾驶行为规则信息WIDE_d；

WIDE_d＝W^T*D+b

式中W是权重矩阵，b偏移量；

S42：将提取的时空特征SC通过学习低维稠密向量，通过Deep组件探索历史数据中未出现或很少出现的特征；

时空特征SC由LSTM-CNN来实现，DEEP_s是时空特征SC由DEEP网络组件进行处理得到的输出；

DEEP_s＝f(SC)，SC＝f_LSTM-CNN(x)

S43：Wide&Deep输出：

在Wide组件与Deep组件的前向计算完成之后，对两部分的输出进行加权求和得到车辆决策结果，表示为：

Y＝σ(WIDE_d+DEEP_s+b)

式中σ和b分别为激活函数和偏移量，Y表示n维行为决策的输出概率。

本发明的有益效果在于：本发明针对当前基于模型驱动的方法面对复杂场景建模困难、可移植性差，基于数据驱动的行为决策方法缺乏可解释性问题，通过将基于模型与基于数据驱动两种方法进行有效结合，采用基于模型驱动的驾驶行为规则挖掘算法来为基于LSTM-CNN行为决策模型提供更多先验性知识和弥补可解释的不足。本发明将两种方法的优点进行互补，有效提高了自动驾驶车辆行为决策的准确性，从而提高了车辆行驶安全。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为图1是本发明提供优选实施例一种自动驾驶车辆行为决策系统和方法的总体框架；

图2是本发明所述道路模型示意图；

图3是本发明所述数据驱动模型框架示意图；

图4是本发明所述融合决策阶段示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

图1所示为本发明一种自动驾驶车辆行为决策系统总体框架。该系统包括数据采集模块、时空特征提取模块、驾驶行为规则提取模块，融合决策模块四个部分：

所述数据采集模块通过传感器获取周围环境信息，并构建道路模型。该道路模型将作为整个决策系统的输入数据。

所述时空特征提取模块利用以LSTM-CNN为基础的决策模型对道路模型信息进行提取得到时空特征。

所述驾驶行为规则提取模块对车辆的交互性进行分析得到不同行为产生的特点，依据这些特征构建驾驶行为规则特征挖掘算法得到行为规则特征编码。

图2所示为发明所述道路模型示意图，道路模型使用激光雷达采集的数据作为输入源，为了提取每辆车每条数据的周边车辆行驶信息，采用以下搜索策略来索引自车的周边车辆信息：

(1)对数据进行遍历，找到目标车辆并记录该车的时间戳和所在车道号。

(2)在数据中寻找与目标车辆时间号相同的其他车辆并加入候选周边车辆，记录它们的车道号，然后根据这些车辆与目标车辆所在的车道号、坐标位置来确定它们相对目标车辆的位置关系，如左侧、右侧、前方、后方等。

(3)对于每个候选车辆，计算其与目标车辆的横向偏差和纵向偏差，并根据这些距离筛选离目标车辆最近的6辆车，即左侧前方车辆、目标车前方车辆、右侧前方车、左侧后方车辆、目标车后方车辆和右侧后方车辆并记录这些车辆的状态信息。

(4)将所有周边车辆的状态信息加入到目标车辆的状态信息中，生成完整的车辆信息。

构建的道路模型为{V,R}，V是周围车辆集合{V_Ego,V_{Ego_front},V_{Ego_back},V_{Left_front},V_{Left_back},V_{Right_front},V_{Right_back}}，分别是目标车辆、前方车辆、后方车辆、左侧前方车辆、左侧后方车辆、右侧前方车辆、右侧后方车辆。R是道路信息{M,L_id,F}，其中M是车道数量，L_id是当前车道标号，F表明是否当前车道可进行变道，对于最左侧车道车辆无法进行左变道，对于最右侧车道车辆无法进行右变道。

对于每辆车有车辆状态信息{t,X,Y,Vel,Acc,θ,L,W,L_id,X_dis,Y_dis}分别是时间戳、横向位置、纵向位置、速度、加速度、转向角、车长、车宽、当前车道、与目标车辆横向偏移、与目标车辆纵向偏移。并非每辆车的周围都有几辆车同时存在，会有缺省车辆产生。针对缺省车辆的处理，用0m/s代表该缺省车辆的速度,对于与目标车辆横向偏移、与目标车辆纵向偏移，X_dis,Y_dis表示，一般采用较大的值。

在使用采集数据中的车辆轨迹数据进行模型训练之前先采用局部加权散点平滑方法对激光雷达采集数据中车辆的坐标位置、速度、加速度进行处理，减少误差的影响，提高训练模型的精度和可信度。

如图3所示为本发明所述数据驱动模型框架示意图。在处理完数据集之后，将其用于本发明搭建的自动驾驶行为决策模型的训练与测试。时空特征提取模块通过LSTM和CNN网络分别提取自动驾驶车辆行驶过程中时序特征S和空间特征C,采用全连接层将时序特征和空间特征进行融合得到时空特征SC。

时序特征表达如下：

S＝F_lstm(V,R,T,N) (1)

其中，S为时序特征；F_lstm为LSTM网络模型；V是周围车辆状态集合；R是车道状态集合；其中T为时间步长；N为输入信息维度。用GBDT驾驶行为规则挖掘算法进行挖掘，得到驾驶行为特征D。所挖掘的规则属性包含了影响目标车辆采取不同驾驶行为的因素，包括但不限于目标车辆与周围环境车辆的时间、横向坐标、纵向坐标、速度、加速度、横向偏移量、纵向偏移量等相关特征。特征编码规则为：设驾驶行为规则挖掘算法迭代M次得到最终输出则构建M颗决策树，每个样本落到每棵决策树的叶子节点置为1，其余为0，进而可以利用这些特征构造出一组0-1特征。具体包括以下步骤：

(1)对于训练集{(x₁,y₁),(x₂,y₂),(x₃,y₃),…,(x_N,y_N)}，其中x_i＝{V,R},是当前环境下对应的决策，N为样本数量。初始化一个弱学习器:

其中，L为平方损失函数。

(2)迭代次数(1到M)，每次迭代拟合一颗树，对于每棵树首先计算每个样本的残差，即

用(x_i,r_im)迭代更新一颗决策树，R_jm为新决策树的叶子节点区域，j＝1,2,3,..,J_m，J_m为新决策树的叶子节点总数。

对叶子节点j＝1,2,3,..,J_m计算最佳拟合值：

其中当样本对应的节点是叶子节点区域R_jm时I为1，否则为0。

(3)输出最后结果

当样本x最后输出结果与真实结果误差较小时，拟合效果好。

图4所示为融合决策阶段示意图，将在特征提取阶段获得的时空特征与驾驶行为规则特征用WIDE&DEEP框架进行融合，并进行联合训练，最后输出当前的行为决策结果Y。具体包括以下步骤：

(1)将挖掘的驾驶行为规则特征信息D通过Wide引入非线性交叉特征来实现高效的记忆能力，得到更具有先验性的驾驶行为规则信息WIDE_d。其中，驾驶行为特征D通过GBDT驾驶行为规则挖掘算法进行挖掘得到。

WIDE_d＝W^T*D+b (6)

(2)将提取的时空特征SC通过学习低维稠密向量，通过Deep组件探索历史数据中未出现或很少出现的特征，来增强网络模型的泛化能力。

时空特征SC由LSTM-CNN来实现，DEEP_s是时空特征SC由DEEP网络组件进行处理得到的输出。

DEEP_s＝f(SC)，SC＝f_LSTM-CNN(x) (7)

(3)Wide&Deep输出：

Y＝σ(WIDE_d+DEEP_s+b) (8)

式中σ和b分别为激活函数和偏移量，Y表示n维行为决策的输出概率。若决策输出只有左转道、右换道、跟车三类，则决策向量为1x3的列向量。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种自动驾驶车辆行为决策系统，其特征在于：包括数据采集模块、时空特征提取模块、驾驶行为规则提取模块，融合决策模块；

2.一种自动驾驶车辆行为决策方法，其特征在于：包括以下步骤：

3.根据权利要求2所述的自动驾驶车辆行为决策方法，其特征在于：步骤S1中所述道路模型为{V,R}，V是周围车辆集合{V_Ego,V_{Ego_front},V_{Ego_back},V_{Left_front},V_{Left_back},V_{Right_front},V_{Right_back}}，分别是目标车辆、前方车辆、后方车辆、左侧前方车辆、左侧后方车辆、右侧前方车辆、右侧后方车辆；R是道路信息{M,L_id,F}，其中M是车道数量，L_id是当前车道标号，F表明是否当前车道可进行变道，对于最左侧车道车辆无法进行左变道，对于最右侧车道车辆无法进行右变道；

4.根据权利要求2所述的自动驾驶车辆行为决策方法，其特征在于：步骤S2中，搭建以LSTM-CNN为基础的行为决策模型提取时空特征，采用几个并行的LSTM分别提取左前车辆Left_front和左后车辆Left_back，右前车辆Right_front和右后车辆Right_back，前方车辆Front，后方车辆Back和目标车辆信息Ego时序特征的提取；最后利用全连接层融合特征得到时序特征S；采用残差CNN网络提取周围环境的空间特征C，最后将两者进行融合得到时空特征SC；

时序特征表达如下：

S＝F_lstm(V,R,T,N)

5.根据权利要求2所述的自动驾驶车辆行为决策方法，其特征在于：步骤S3所述驾驶行为规则提取，用GBDT驾驶行为规则挖掘算法进行挖掘，得到驾驶行为特征D；所挖掘的规则属性包含影响目标车辆采取不同驾驶行为的因素，包括目标车辆与周围环境车辆的时间、横向坐标、纵向坐标、速度、加速度、横向偏移量、纵向偏移量相关特征；特征编码规则为：设驾驶行为规则挖掘算法迭代M次得到最终输出则构建M颗决策树，每个样本落到每棵决策树的叶子节点置为1，其余为0，进而利用这些特征构造出一组0-1特征。

6.根据权利要求5所述的自动驾驶车辆行为决策方法，其特征在于：步骤S3具体包括以下步骤：

其中，L为平方损失函数；

对叶子节点j＝1,2,3,..,J_m计算最佳拟合值：

其中当样本对应的节点是叶子节点区域R_jm时I为1，否则为0；

S33：输出最后结果

当样本x最后输出结果与真实结果误差越小，拟合效果越好。

7.根据权利要求2所述的自动驾驶车辆行为决策方法，其特征在于：步骤S4中，将在特征提取阶段获得的时空特征与驾驶行为规则特征进行联合训练，最后输出当前的行为决策结果，包括车道保持、左换道和右换道，具体包括以下步骤：

WIDE_d＝W^T*D+b

式中W是权重矩阵，b偏移量；

DEEP_s＝f(SC)，SC＝f_LSTM-CNN(x)

S43：Wide&Deep输出：

Y＝σ(WIDE_d+DEEP_s+b)