CN110281949B

CN110281949B - 一种自动驾驶统一分层决策方法

Info

Publication number: CN110281949B
Application number: CN201910572329.8A
Authority: CN
Inventors: 黄晋; 张恩徳; 任育琦; 胡昱坤; 刘尧
Original assignee: Tsinghua University; CRRC Dalian Institute Co Ltd; CRRC Information Technology Co Ltd
Current assignee: Tsinghua University; CRRC Dalian Institute Co Ltd; CRRC Information Technology Co Ltd
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2020-12-18
Anticipated expiration: 2039-06-28
Also published as: CN110281949A

Abstract

本申请公开了一种自动驾驶统一分层决策方法，该方法包括：步骤1，分别获取车辆驾驶过程中的视频数据和车辆运动信息；步骤2，提取视频数据的环境信息特征向量，并按照时间顺序，将环境信息特征向量与车辆运动信息进行关联，生成第一关联信息；步骤3，生成环境信息特征向量之间的第二关联信息，并利用多层感知模型、当前时刻的视频数据、第一关联信息和第二关联信息，确定下一时刻的预计驾驶动作，并计算预计驾驶动作对应的可行性得分，选取可行性得分最高的预计驾驶动作，生成驾驶行为推荐信息。通过本申请中的技术方案，从复杂多样的驾驶行为数据库中动态生成驾驶规则，显著提升驾驶决策可靠性。

Description

一种自动驾驶统一分层决策方法

技术领域

本申请涉及自动驾驶的技术领域，具体而言，涉及一种自动驾驶统一分层决策方法。

背景技术

从技术角度来看，自动驾驶包括三个主要技术：环境感知，决策和控制。对于环境感知来说，随着先进驾驶辅助系统(Advanced Driver Assistant System，ADAS)的广泛部署和学术界的长期技术研究，形成了一系列感知算法，包括道路目标检测，车道标记，可行驶区域分割和全帧场景分割。因此可以说环境感知技术不再是自动驾驶的主要瓶颈。此外，车辆驾驶的控制是传统汽车开发商非常擅长的，积累了大量的经验。因此，自动驾驶的技术竞争最终归结为决策。

自动驾驶决策是指在驾驶环境中整合多传感器信息，然后根据驾驶需求做出合理决策，避免撞到未知障碍，最终到达目的地的过程。

自动驾驶决策问题的一般解决方案主要包括：中介感知方法和端到端学习方法。中介感知方法是指基于规则的专家系统，其具有可识别的人类指定特征，例如：{车道标记和周围物体位置}作为输入。虽然具备良好的可解释性，但这种方法总是受到各种意外情况的影响，人为制定的规则无法充分覆盖所有可能面临的驾驶情况。

提出的使用深度学习或强化学习技术学习驾驶模型的端到端架构，如图1所示。这种端到端架构可以直接从视觉传感器输入获得控制器的输出(刹车、油门、转向等)。结果表明，从具有不同视觉信息和实际驾驶行为的大规模数据集中，学习的有效驾驶模型，将是学习驾驶员行为的关键因素。

上述提出的端到端架构可以将问题表述为学习通用驾驶模型策略，其中，基于当前视觉观察和车辆先前状态来学习车辆的决策输出(如刹车、油门、转向等)，然而当前方法受模型单一限制，只考虑一种模态环境信息，仍然有很多空间可以利用更复杂的环境信息进行关系推理和更可靠的驾驶决策。

发明内容

本申请的目的在于：提出一种新的基于超图的自动驾驶决策模型，从复杂多样的驾驶行为数据库中动态生成驾驶规则，显著提升驾驶决策可靠性。

本申请的技术方案是：提供了一种自动驾驶统一分层决策方法，该方法包括：步骤1，利用视觉传感器和车载传感器，分别获取车辆驾驶过程中的视频数据和车辆运动信息；步骤2，利用多层感知模型，提取视频数据的环境信息特征向量，并按照时间顺序，将环境信息特征向量与车辆运动信息进行关联，生成第一关联信息，其中，多层感知模型包括至少两个并行运算、不同类型的深度神经网络模型；步骤3，根据决策模型，生成环境信息特征向量之间的第二关联信息，并利用多层感知模型、当前时刻的视频数据、第一关联信息和第二关联信息，确定下一时刻的预计驾驶动作，并计算预计驾驶动作对应的可行性得分，选取可行性得分最高的预计驾驶动作，生成驾驶行为推荐信息。

上述任一项技术方案中，进一步地，决策模型HDM的计算公式为：

式中，u为环境信息特征向量，s为车辆运动信息，m为第一关联信息，a为预计驾驶动作，

为可行性得分。

上述任一项技术方案中，进一步地，决策模型包括超图模型，步骤3中，根据决策模型，生成环境信息特征向量之间的第二关联信息，具体包括：步骤31，将环境信息特征向量记作顶点，计算选取的顶点i与任一个相邻点j之间的亲和度A_ij，并将相邻点j按照亲和度A_ij由大到小进行排序，其中，相邻点j为除顶点i之外的其余顶点，亲和度A_ij的计算公式为：

式中，D_ij表示顶点i和顶点j之间的欧几里德距离，Δ是顶点之间的欧几里德距离的平均值，记作平均距离；

步骤32，在排序后的相邻点中，选取与第一预设数量相等的相邻点，记作第一邻接点，根据顶点i和第一邻接点构建第一超边，并将第一超边的超边权重设为第一预设值；

步骤33，在排序后的相邻点中，选取与第二预设数量相等的相邻点，记作第二邻接点，根据顶点i和第二邻接点构建第二超边，并将第二超边的超边权重设为第二预设值，其中，第一预设数量小于第二预设数量；

步骤34，根据顶点、第一超边、第二超边和超边权重，构建超图模型；

步骤35，利用超图模型和至少两个深度神经网络模型提取后的环境信息特征向量，分别计算关系矩阵，并将关系矩阵进行拼接，生成多模态超图关系矩阵，将多模态超图关系矩阵记作第二关联信息。

上述任一项技术方案中，进一步地，决策模型包括超图卷积模型，步骤3中，计算预计驾驶动作对应的可行性得分，具体包括：

步骤36，利用多层感知模型，提取当前时刻的视频数据的当前时刻的环境信息特征向量；

步骤37，利用超图卷积模型，根据当前时刻的环境信息特征向量、第一关联信息和第二关联信息，进行两次卷积运算后，确定预计驾驶动作，其中，超图卷积模型的计算公式为：

F′＝wF⁽³⁾+b

式中，F⁽¹⁾为当前时刻的环境信息特征向量，F⁽²⁾为第一次卷积运算的输出值、即第二次卷积运算的输入值，F⁽³⁾为两次卷积运算的输出值，σ(·)表示非线性激活函数，D_e和D_v分别表示超边度d(e)和顶点度d(v)的对角矩阵，H为多模态超图关系矩阵，W为超边权重矩阵，θ^(l)是第一可训练参数，F′为预计驾驶动作，w为第二可训练参数，b为第三可训练参数；

步骤38，根据得分计算公式，计算预计驾驶动作的可行性得分，其中，可行性得分

计算公式为：

式中，F^′t为预计驾驶动作中的第t个动作，c为车辆驾驶行为数量，

为第t个动作对应的可行性得分。

上述任一项技术方案中，进一步地，第一预设值等于第二预设值，第一预设值的取值为1。

本申请的有益效果是：

提出一种新的基于超图的自动驾驶决策模型，利用其因果推理和组合泛化能力，从复杂多样的驾驶行为数据库中动态生成驾驶规则，克服了中介感知方法人为定义规则考虑不周，无法覆盖所有驾驶情形的问题。

通过本申请中的自动驾驶决策方法，综合考虑多种环境因素，融合多模态环境信息，显著提升驾驶决策可靠性，克服了端到端模型考虑因素单一的问题。

附图说明

本申请的上述和/或附加方面的优点在结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本申请的现有技术中端到端框架的示意图；

图2是根据本申请的一个实施例的自动驾驶统一分层决策方法的框架的示意图；

图3是根据本申请的一个实施例的自动驾驶统一分层决策方法的示意流程图；

图4是根据本申请的一个实施例的生成驾驶行为推荐信息过程的示意框图。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和具体实施方式对本申请进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互结合。

在下面的描述中，阐述了很多具体细节以便于充分理解本申请，但是，本申请还可以采用其他不同于在此描述的其他方式来实施，因此，本申请的保护范围并不受下面公开的具体实施例的限制。

如图2所示，本实施例提出的框架采用三种并行的深度神经网络模型对车辆行驶过程中的数据进行提取，如：长短时记忆网络卷积神经网络模型(CNN+LSTM)、3D卷积神经网络模型(3D CNN)和点云网络模型(PointNet)，分别从图像数据、视频数据和点云数据中提取环境信息特征向量，其中，框架中的深度神经网络模型可以根据实际需求进行替换，再由高阶决策模型根据提取到的、三种不同形式的环境信息特征向量进行决策，生成自动驾驶的相关动作。以下将结合图3对对本实施例的具体方法进行说明。

如图3和图4所示，本实施例仅以视频数据为例，采用长短时记忆网络卷积神经网络模型(CNN+LSTM)、3D卷积神经网络模型(3D CNN)和长短时记忆网络3D卷积神经网络模型(3D CNN+LSTM)作为三种并行的深度神经网络模型对车辆行驶过程中的数据进行提取，本实施例提供了一种自动驾驶统一分层决策方法，包括：

步骤1，利用视觉传感器和车载传感器，分别获取车辆驾驶过程中的视频数据和车辆运动信息；

在本实施例中，使用由21,808个仪表板相机视频组成的BDD100K(Berkeley DeepDrive Video)数据集子集作为训练数据，1,470个视频作为验证数据，3,561个视频作为测试数据。

将每帧图像大小统一为320×180像素大小，并将视频下采样到3Hz，即每个视频分解为108帧图像，以避免将近乎重复的帧送入多层感知模型。

步骤2，利用多层感知模型，提取视频数据的环境信息特征向量，并按照时间顺序，将环境信息特征向量与车辆运动信息进行关联，生成第一关联信息，记作历史驾驶经验数据，其中，多层感知模型包括至少两个并行运算、不同类型的深度神经网络模型；

具体地，将视觉传感器获取到的视频数据，分别传送给本实施例中的三种深度神经网络模型，由深度神经网络模型分别对实时视频数据进行环境信息特征向量的提取，以CNN+LSTM为例，为了从视频数据中提取环境信息特征向量，使用在数据库ImageNet上预训练的ResNet-50(CNN)模型对视频中每一帧图像进行特征提取。

与此同时，车载传感器记录了车辆运动信息，如刹车、油门、转向等，将视频数据中相邻两帧间隔作为时间步长，按照时间顺序，将上述提取的、每一帧视频数据对应的、环境信息特征向量和对应时间的车辆运动信息作为输入，采用CNN+LSTM中的LSTM模型进行信息融合(关联)，融合为单一特征向量，该特征向量同时包含了车辆过去运动信息，并将该特征向量记作第一关联信息。

对于3D CNN和3D CNN+LSTM，我们需要将CNN+LSTM中的2D ResNet，替换为3DResNet，重复上述CNN+LSTM提取环境信息特征向量的过程，得到各自的环境信息特征向量。

深度神经网络模型可以是多种多样的，可以单独训练，即插即用，模块化配置。

将每12帧视频片段作为多层感知模型输入，每个训练批次包含8个视频片段。我们使用自适应优化算法(Adam)进行多层感知模型训练，学习率在前30次迭代设置为10^-4，之后减少到10^-6，其中，学习率为多层感知模型训练过程中的超参数配置。利用训练好的多层感知模型对1,470个验证数据和3,561个测试数据进行处理。

步骤3，根据决策模型，生成环境信息特征向量之间的第二关联信息，并利用多层感知模型、当前时刻的视频数据、第一关联信息和第二关联信息，确定下一时刻的预计驾驶动作，并计算预计驾驶动作对应的可行性得分，选取可行性得分最高的预计驾驶动作，生成驾驶行为推荐信息。

进一步地，决策模型HDM的计算公式为：

为可行性得分。

为综合考虑以上因素的高阶决策模型，通过组合泛化和关系推理，动态生成预计驾驶动作a对应的可行性得分

再通过对可行性得分

进行排序，即可选择可行性得分最高的预计驾驶动作a，作为推荐的驾驶行为，生成驾驶行为推荐信息。

根据超图模型的定义可知，超图模型G＝(ν,ε,W)由顶点集V、超边集ε和超边权重W组成。可以将上述多层感知模型提取的每一帧视频数据所对应的环境信息特征向量作为顶点，构成顶点集V。

优选地，决策模型包括超图模型，步骤3中，根据决策模型，生成环境信息特征向量之间的第二关联信息，具体包括：

步骤31，将环境信息特征向量记作顶点，计算选取的顶点i与任一个相邻点j之间的亲和度A_ij，并将相邻点j按照亲和度A_ij由大到小进行排序，其中，相邻点j为除顶点i之外的其余顶点，亲和度A_ij的计算公式为：

需要说明的是，通过亲和度矩阵A可以确定各顶点之间是否存在连接关系，即确定各环境信息特征向量之间是否存在关联，而环境信息特征向量又与车辆运动信息相关联，因此，可以由与当前顶点相关联的顶点确定关联的车辆运动信息，确定预计驾驶动作。

具体地，对于超边集ε，利用亲和度矩阵A表示、代表不同环境信息特征向量的、顶点之间的关系。可以设定第一预设数量为10，第二预设数量为20，通过选取，将顶点i和与其亲和度高的前10个和前20个相邻点分别构造出一条超边，分别记作第一超边和第二超边，第一超边对应前10个相邻点，第二超边对应前20个相邻点。

需要说明的是，构建超边的方式不同，可以得到不同权重中的超边权重，而在本实施例中，为例简化计算，设定第一预设值等于第二预设值，第一预设值的取值为1，因此，本实施例中构建出的超图模型，其超边权重矩阵中对角线的元素取值为1，其余元素的取值为0。

对于超图模型G而言，可以用一个|V|×|ε|的关系矩阵H_p来表示，其中，p的取值由深度神经网络模型的数量决定，在本实施例中，p＝1,2,3。关系矩阵H_p中的任一个元素h(v,e)表示顶点v是否在超边e上，其取值为：

在本实施例中，将不同深度神经网络模型提取的环境信息特征向量，分别用上述方法构造相应的关系矩阵H_p，其中，H₁代表CNN+LSTM的关系矩阵，H₂代表3D CNN的关系矩阵，H₃代表3D CNN+LSTM的关系矩阵。利用超边集ε的维度，对获取到的关系矩阵H_p进行拼接，来构建|V|×n|ε|的多模态超图关系矩阵H，n为深度神经网络模型的数量，在本实施例中n的取值为3。

为了确保运算过程的效率，选取亲和度最大的200个训练视频作为决策模型的历史驾驶经验数据集

然后，使用200*108训练视频的环境信息特征向量和108个测试视频的环境信息特征向量作为顶点，来构建超图模型。我们使用两层超图卷积，隐藏层特征维度为256。使用自适应优化算法(Adam)进行决策模型训练，初始学习率设为0.001，每100次迭代学习率为原来的0.9倍。

通过上述可知，通过构建超图模型，可以确定顶点之间的连接关系，而顶点所代表的环境信息特征向量、又通过第一关联信息与车辆运动信息相关联，因此，可以利用决策模型、对当前时刻获取到的视频数据进行运算，预测当前时刻视频数据对应的预计驾驶动作。

优选地，决策模型包括超图卷积模型，步骤3中，计算预计驾驶动作对应的可行性得分，具体包括：

F′＝wF⁽³⁾+b

步骤38，根据得分计算公式，计算预计驾驶动作的可行性得分，其中，可行性得分计算公式为：

式中，F^′t为预计驾驶动作中的第t个动作，c为车辆驾驶行为数值，

为第t个动作对应的可行性得分，其中，可以设定c＝1表示刹车，c＝2表示踩油门，c＝3表示左转向，c＝4表示右转向。

决策模型输出为可行性得分最高的预计驾驶动作，其中，预计驾驶动作包括刹车、油门、左转向和右转向。我们使用交叉熵损失作为决策准确率评估的指标。

其中，

是第k个驾驶动作的可行性得分，y是训练数据中真实驾驶动作，是一个One-Hot编码后的c维向量，这里c＝4。即如果当前帧驾驶决策为刹车，则y中对应位置值为1，其余为0，y＝(1,0,0,0)。

进一步地，在本实施例中，还包括：根据两次卷积运算后的输出值F⁽³⁾，对所述超图模型的顶点(环境信息特征向量)进行修订，更新所述超图模型。也就是说，在本实施例中，通过构建第一超边和第二超边、且第二超边包含第一超边，通过两次卷积运算对超图模型的顶点进行修订，这样，距离顶点i近的相邻点(第一超边中的相邻点)相当于对顶点i所代表的环境信息特征向量进行两次修订，有利于保证超图模型的准确性。

与仅聚合顶点特征的图卷积操作相比，超图卷积利用更多层次结构进行特征聚合。它将顶点特征聚合到超边，相邻的超边特征按顺序聚合到中心顶点。这种分层卷积方法可以更好地利用超图中高阶相关的局部和全局结构。因此，超图网络可以有效地模拟驾驶行为数据之间的复杂联系，并通过顶点-超边-顶点变换进行关系推理和组合泛化，最终产生更好的驾驶决策。

最后，我们根据高阶决策模型输出，选择可行性得分最高的驾驶动作(例如刹车、油门、转向等)作为决策指令控制汽车运动。

通过将多层感知模型与高阶决策模型相结合，该框架可以很容易地在高阶相关学习中充分利用深度神经网络提取的环境信息进行推理决策。

该方法可以作为统一的驾驶决策方法，用于具有不同感知模型(如深度神经网络)的自动驾驶系统的模块化集成。

高阶决策模型用于模拟驾驶行为历史数据之间的复杂联系，并通过超图网络的关系推理和组合推广更好地实现驾驶决策。

所提出的框架可以集成用于多模态传感器输入的多层感知模型，并学习潜在的高阶相关特征。

以上结合附图详细说明了本申请的技术方案，本申请提出了一种自动驾驶统一分层决策方法，包括：步骤1，分别获取车辆驾驶过程中的视频数据和车辆运动信息；步骤2，提取视频数据的环境信息特征向量，并按照时间顺序，将环境信息特征向量与车辆运动信息进行关联，生成第一关联信息；步骤3，生成环境信息特征向量之间的第二关联信息，并利用多层感知模型、当前时刻的视频数据、第一关联信息和第二关联信息，确定下一时刻的预计驾驶动作，并计算预计驾驶动作对应的可行性得分，选取可行性得分最高的预计驾驶动作，生成驾驶行为推荐信息。通过本申请中的技术方案，从复杂多样的驾驶行为数据库中动态生成驾驶规则，显著提升驾驶决策可靠性。

本申请中的步骤可根据实际需求进行顺序调整、合并和删减。

本申请装置中的单元可根据实际需求进行合并、划分和删减。

尽管参考附图详地公开了本申请，但应理解的是，这些描述仅仅是示例性的，并非用来限制本申请的应用。本申请的保护范围由附加权利要求限定，并可包括在不脱离本申请保护范围和精神的情况下针对发明所作的各种变型、改型及等效方案。

Claims

1.一种自动驾驶统一分层决策方法，其特征在于，该方法包括：

步骤2，利用多层感知模型，提取所述视频数据的环境信息特征向量，并按照时间顺序，将所述环境信息特征向量与所述车辆运动信息进行关联，生成第一关联信息，其中，所述多层感知模型包括至少两个并行运算、不同类型的深度神经网络模型；

步骤3，根据决策模型，生成所述环境信息特征向量之间的第二关联信息，其中，所述决策模型HDM的计算公式为：

式中，u为所述环境信息特征向量，s为所述车辆运动信息，m为所述第一关联信息，a为预计驾驶动作，

为可行性得分，计算所述第二关联信息，具体包括：

步骤31，将所述环境信息特征向量记作顶点，计算选取的顶点i与任一个相邻点j之间的亲和度A_ij，并将所述相邻点j按照所述亲和度A_ij由大到小进行排序，其中，所述相邻点j为除所述顶点i之外的其余顶点，所述亲和度A_ij的计算公式为：

式中，D_ij表示顶点i和顶点j之间的欧几里德距离，Δ是所述顶点之间的欧几里德距离的平均值，记作平均距离；

步骤32，在排序后的所述相邻点中，选取与第一预设数量相等的所述相邻点，记作第一邻接点，根据所述顶点i和所述第一邻接点构建第一超边，并将所述第一超边的超边权重设为第一预设值；

步骤33，在排序后的所述相邻点中，选取与第二预设数量相等的所述相邻点，记作第二邻接点，根据所述顶点i和所述第二邻接点构建第二超边，并将所述第二超边的超边权重设为第二预设值，其中，所述第一预设数量小于所述第二预设数量；

步骤34，根据所述顶点、所述第一超边、所述第二超边和所述超边权重，构建超图模型；

步骤35，利用所述超图模型和至少两个所述深度神经网络模型提取后的所述环境信息特征向量，分别计算关系矩阵，并将所述关系矩阵进行拼接，生成多模态超图关系矩阵，将所述多模态超图关系矩阵记作所述第二关联信息；

所述步骤3还包括，利用所述多层感知模型、当前时刻的视频数据、所述第一关联信息和所述第二关联信息，确定下一时刻的预计驾驶动作，并计算所述预计驾驶动作对应的可行性得分，选取所述可行性得分最高的预计驾驶动作，生成驾驶行为推荐信息。

2.如权利要求1所述的自动驾驶统一分层决策方法，其特征在于，所述决策模型包括超图卷积模型，步骤3中，计算所述预计驾驶动作对应的可行性得分，具体包括：

步骤36，利用所述多层感知模型，提取所述当前时刻的视频数据的当前时刻的环境信息特征向量；

步骤37，利用所述超图卷积模型，根据所述当前时刻的环境信息特征向量、所述第一关联信息和所述第二关联信息，进行两次卷积运算后，确定所述预计驾驶动作，其中，所述超图卷积模型的计算公式为：

F′＝wF⁽³⁾+b

式中，F⁽¹⁾为所述当前时刻的环境信息特征向量，F⁽²⁾为第一次卷积运算的输出值、即第二次卷积运算的输入值，F⁽³⁾为两次卷积运算的输出值，σ(·)表示非线性激活函数，D_e和D_v分别表示超边度d(e)和顶点度d(v)的对角矩阵，H为所述多模态超图关系矩阵，W为超边权重矩阵，θ^(l)是第一可训练参数，F′为所述预计驾驶动作，w为第二可训练参数，b为第三可训练参数；

步骤38，根据得分计算公式，计算所述预计驾驶动作的所述可行性得分，其中，所述可行性得分计算公式为：

式中，F′^t为所述预计驾驶动作中的第t个动作，c为车辆驾驶行为数量，

为第t个动作对应的可行性得分。

3.如权利要求1所述的自动驾驶统一分层决策方法，其特征在于，所述第一预设值等于所述第二预设值，所述第一预设值的取值为1。