CN116680656A

CN116680656A - 基于生成型预训练变换器的自动驾驶运动规划方法及系统

Info

Publication number: CN116680656A
Application number: CN202310945270.9A
Authority: CN
Inventors: 丁勇; 刘瑞香; 戴行
Original assignee: Hefei Haipu Microelectronics Co ltd
Current assignee: Hefei Haipu Microelectronics Co ltd
Priority date: 2023-07-31
Filing date: 2023-07-31
Publication date: 2023-09-01
Anticipated expiration: 2043-07-31
Also published as: CN116680656B

Abstract

本发明公开了基于生成型预训练变换器的自动驾驶运动规划方法及系统，包括以下步骤：获取至少一个感知传感器采集的模态数据；提取模态数据的体素特征，并统一体素特征的特征维度和分辨率，得到第一类型体素特征；将第一类型体素特征进行特征融合，得到第二类型体素特征；将第二类型体素特征进行特征编码，得到第二类型体素特征的编码信息；获取自动驾驶任务的Query请求，利用编码信息，根据Query请求进行特征解码后，完成相应的自动驾驶任务。既能够有效地降低多个独立模型的方式会带来的深度学习模型训练成本和部署难度，又能充分利用丰富的自动驾驶数据来预训练自动驾驶统一大模型，获得感知/预测/规划特定任务的性能上的提升。

Description

基于生成型预训练变换器的自动驾驶运动规划方法及系统

技术领域

本发明涉及自动驾驶技术领域，尤其涉及基于生成型预训练变换器的自动驾驶运动规划方法及系统。

背景技术

自动驾驶（Autonomous Driving）技术带来了汽车工业的产业革命，它的发展离不开自动驾驶感知、预测和规划技术的不断创新和进步。随着统一大模型在人工智能领域的不断发展，人工智能技术具备高效、准确地解决实际生活中各种问题的潜力，并逐步进入通用人工智能（Artificial general intelligence）阶段。因此，如何在统一大模型框架下，完成自动驾驶特定任务，是迈向完全自动驾驶的核心问题。

随着自动驾驶感知传感器技术和人工智能算法性能的不断提升，自动驾驶车辆可以获得更加准确、全面的场景信息，完成自动驾驶感知（Perception）、预测（Prediction）和规划（Planning）任务，从而实现更加安全、高效的行驶。感知是自动驾驶车辆获得周围丰富的自动驾驶场景信息的关键途径，预测是自动驾驶车辆周围物体行进轨迹的判断方式，规划是自动驾驶车辆对自身驾驶行为的核心决策，它们是迈向完全自动驾驶的关键技术。

感知传感器技术主要涉及激光雷达、毫米波雷达和摄像头，当前主流自动驾驶技术利用来自这多种类型的感知传感器采集的多模态数据，使用多个独立的深度学习模型分别完成自动驾驶感知、预测和规划任务。这种作法带来不少弊端：多模态数据特征提取网络是各自动驾驶任务共有的深度学习网络结构，并且是模型结构的主要组成之一。因此，多个独立模型的解决方式会带来模型训练成本的增加；独立模型需要单独提升各自动驾驶任务的精度；多个独立模型增加了深度学习模型的部署成本。因此，自动驾驶统一大模型是自动驾驶技术发展的必然趋势，也是本发明解决的核心问题。

发明内容

为解决背景技术中存在的技术问题，本发明提出基于生成型预训练变换器的自动驾驶运动规划方法及系统。

本发明提出的基于生成型预训练变换器的自动驾驶运动规划方法，包括以下步骤：

S1、获取至少一个感知传感器采集的模态数据；

S2、提取模态数据的体素特征，并统一体素特征的特征维度和分辨率，得到第一类型体素特征；

S3、将第一类型体素特征进行特征融合，得到第二类型体素特征；

S4、通过自动驾驶生成型预训练变换器的特征编码器，将第二类型体素特征进行特征编码，得到第二类型体素特征的编码信息；

S5、获取自动驾驶任务的Query请求，利用编码信息，根据Query请求进行特征解码后，完成相应的自动驾驶任务。

优选地，所述采集的模态数据包括但不限于摄像头传感器采集的图像、激光雷达传感器采集的点云/>、毫米波雷达传感器采集的点云/>。

优选地，“S2”具体包括：

通过模态数据一一对应的体素特征提取网络，提取所述模态数据的体素特征；

将体素特征设置为统一的特征维度C和分辨率，得到第一类型体素特征。

优选地，“S3”具体包括：

第一类型体素特征通过一一对应的深度神经网络生成体素特征自适应融合的权重并进行数值归一化；

第一类型体素特征与一一对应的自适应融合的权重先相乘后相加，获得自适应融合的第二类型体素特征。

优选地，“S4”具体包括：

通过自动驾驶生成型预训练变换器的特征编码器，将第二类型体素特征编码生成构建体素环境相关的Key与Value，得到第二类型体素特征的编码信息。

优选地，所述自动驾驶任务的Query请求包括但不限于自动驾驶的感知、预测、规划。

基于生成型预训练变换器的自动驾驶运动规划系统，包括：

数据采集模块，用于获取至少一个感知传感器采集的模态数据；

特征提取模块，用于提取模态数据的体素特征，并统一体素特征的特征维度和分辨率，得到第一类型体素特征；

特征融合模块，用于将第一类型体素特征进行特征融合，得到第二类型体素特征；

AD-GPT编码器模块，用于通过自动驾驶生成型预训练变换器的特征编码器，将第二类型体素特征进行特征编码，得到第二类型体素特征的编码信息；

AD-GPT解码器模块，用于获取自动驾驶任务的Query请求，利用编码信息，根据Query请求进行特征解码后，完成相应的自动驾驶任务。

优选地，“提取模态数据的体素特征，并统一体素特征的特征维度和分辨率，得到第一类型体素特征”具体包括：

优选地，“将第一类型体素特征进行特征融合，得到第二类型体素特征”具体包括：

本发明中，所提出的基于生成型预训练变换器的自动驾驶运动规划方法及系统，包括多模态体素特征生成和融合、自动驾驶生成型预训练变换器编码及解码多个阶段。在模态体素特征生成阶段，能够处理摄像头、激光雷达及毫米波雷达等多种传感器数据，将其融合到统一的体素空间，既可以灵活支持传感器数量的增删，还可以满足后续多种任务的特征需求。在自动驾驶生成型预训练变换器编码和解码阶段，对融合的体素特征进行特征编码，随后实现与Query对应的特征解码，完成自动驾驶感知/预测/规划特定任务的输出结果，从而构建自动驾驶统一大模型，这样既能够有效地降低多个独立模型的方式会带来的深度学习模型训练成本和部署难度，又能充分利用丰富的自动驾驶数据来预训练自动驾驶统一大模型，获得感知/预测/规划特定任务的性能上的提升。

附图说明

图1为本发明提出的基于生成型预训练变换器的自动驾驶运动规划方法的工作流程的结构示意图；

图2为本发明提出的基于生成型预训练变换器的自动驾驶运动规划方法的内部组成的结构示意图；

图3为本发明提出的基于生成型预训练变换器的自动驾驶运动规划系统的模块构成的结构示意图。

具体实施方式

参照图1和图2，本发明提出的基于生成型预训练变换器的自动驾驶运动规划方法，包括以下步骤：

S1、获取至少一个感知传感器采集的模态数据。

在本实施例中，感知传感器采用激光雷达、毫米波雷达、摄像头等采集自动驾驶场景下的模态数据。相应的采集的模态数据包括但不限于摄像头传感器采集的图像、激光雷达传感器采集的点云/>、毫米波雷达传感器采集的点云/>。

S2、提取模态数据的体素特征，并统一体素特征的特征维度和分辨率，得到第一类型体素特征。

第一类型体素特征包括图像模态体素特征、激光雷达点云模态体素特征、毫米波雷达点云模态体素特征/>。

通过模态数据一一对应的体素特征提取网络，提取模态数据的体素特征。

提取过程：

将摄像头传感器采集的图像输入基于图像的体素特征提取网络/>，生成图像模态体素特征/>：/>；

将激光雷达传感器采集的点云输入基于激光雷达点云的体素特征生成网络，生成激光雷达点云模态体素特征/>：/>；

将毫米波雷达传感器采集的点云输入基于毫米波雷达点云的体素特征生成网络/>，生成毫米波雷达点云模态体素特征/>：/>；

统一具体过程：

上述生成的体素特征、/>及/>均设置为相同的特征维度/>和分辨率。该特征维度可设置为128。该分辨率/>可设置为/>或者更大，可在真实三维空间的X、Y和Z方向上映射至/>或者更大的覆盖范围。

S3、将第一类型体素特征进行特征融合，得到第二类型体素特征。

第二类型体素特征为融合体素特征。

在本实施例中，由各模态的体素特征生成对应体素特征自适应融合的权重，各模态的体素特征与其对应自适应融合权重相乘后相加，获得自适应融合的多模态体素特征，具体为：

图像模态体素特征经由深度神经网络/>，生成图像模态体素特征的自适应融合权重/>：/>；

激光雷达点云模态体素特征经由深度神经网络/>，生成激光雷达点云模态体素特征的自适应融合权重/>：/>；

毫米波雷达点云模态体素特征经由深度神经网络/>，生成毫米波雷达点云模态体素特征的自适应融合权重/>：/>；

将上述生成的融合权重、/>及/>进行数值归一化：

其中，为归一化函数，可采用Softmax函数实现；

各模态的体素特征体素特征、/>及/>与对应自适应特征融合权重融合权重/>、/>及/>相乘后相加，获得自适应融合的融合体素特征/>：

；

该融合体素特征和/>、/>及/>具有相同的特征维度/>和分辨率/>，可以灵活适应传感器数量的增加和减少，即输入模态可以兼容多模态（摄像头、激光雷达和毫米波雷达），双模态组合（摄像头和激光雷达；激光雷达和毫米波雷达；摄像头和毫米波雷达），以及单模态（摄像头；激光雷达；毫米波雷达），获得融合体素特征/>。

S4、通过自动驾驶生成型预训练变换器的特征编码器，将第二类型体素特征进行特征编码，得到第二类型体素特征的编码信息。

在本实施例中，将获得的融合体素特征，输入到自动驾驶生成型预训练变换器的特征编码器中，编码生成构建体素环境相关的Key与Value，分别记作/>与/>,第二类型体素特征先经过多头注意力机制：/>;

其中，MHA是多头注意力机制，生成的特征随后经过相加正则化：/>;

其中，Norm是正则化过程，获得的特征经过前馈网络：/>;

其中，FFN是前馈网络,生成的特征经过相加正则化，生成构建体素环境相关的与/>：/>；

其中，与/>作为融合体素特征的编码信息输入到自动驾驶生成型预训练变换器的解码器中。

特征编码器具体为AD-GPT特征编码器。

在本实施例中，特征编码器包含第一多头注意力机制模块、第一相加并正则化模块、第一前馈网络模块和第二相加并正则化模块；第一多头注意力机制模块、第一相加并正则化模块、第一前馈网络模块和第二相加并正则化模块依次电性连接；将第二类型体素特征和位置编码经过第一多头注意力机制模块、第一相加并正则化模块、第一前馈网络模块和第二相加并正则化模块依次处理后输出至第二多头注意力机制模块。

特别地，特征解码器具体为AD-GPT特征解码器，特征解码器包含第二多头注意力机制模块、第三相加并正则化模块、第二前馈网络模块和第四相加并正则化模块；第二多头注意力机制模块、第三相加并正则化模块、第二前馈网络模块和第四相加并正则化模块依次电性连接；将第二类型体素特征自动驾驶任务的Query请求输入第二多头注意力机制模块，经过第二多头注意力机制模块、第三相加并正则化模块、第二前馈网络模块和第四相加并正则化模块依次处理后完成相应的自动驾驶任务。

具体的，如图2所示，自动驾驶任务的Query请求包括但不限于自动驾驶的感知、预测、规划。

在本实施例中，通过自动驾驶生成型预训练变换器（AD-GPT）的解码器（Decoder）进行解码，利用编码后的特征信息与/>，根据不同自动驾驶任务的Query（记作）进行特征解码，完成与Query对应的特征解码后，实现自动驾驶感知/预测/规划任务输出结果/>。

具体实现过程如下：

对自动驾驶感知/预测/规划任务输出结果相关的/>与/>对进行学习和更新，该过程基于Transformer结构的计算方式，如下：/>

其中，包括以下计算：/>

其中，计算了两者的相关性矩阵；/>函数对相关性矩阵进行归一化，由Softmax函数实现；/>为前馈神经网络，可设置为两层结构；/>为/>的特征维度，可设置为128，任务输入头/>用于输出自动驾驶感知/预测/规划特定任务结果。

参照图3，基于生成型预训练变换器的自动驾驶运动规划系统，包括：

具体的，如图3所示，采集的模态数据包括但不限于摄像头传感器采集的图像、激光雷达传感器采集的点云/>、毫米波雷达传感器采集的点云/>。

具体的，如图3所示，“提取模态数据的体素特征，并统一体素特征的特征维度和分辨率，得到第一类型体素特征”具体包括：

通过模态数据一一对应的体素特征提取网络，提取模态数据的体素特征；

具体的，如图3所示，“将第一类型体素特征进行特征融合，得到第二类型体素特征”具体包括：

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.基于生成型预训练变换器的自动驾驶运动规划方法，其特征在于，包括以下步骤：

S1、获取至少一个感知传感器采集的模态数据；

2.根据权利要求1所述的基于生成型预训练变换器的自动驾驶运动规划方法，其特征在于，所述采集的模态数据包括但不限于摄像头传感器采集的图像、激光雷达传感器采集的点云/>、毫米波雷达传感器采集的点云/>。

3.根据权利要求1所述的基于生成型预训练变换器的自动驾驶运动规划方法，其特征在于，“S2”具体包括：

4.根据权利要求1所述的基于生成型预训练变换器的自动驾驶运动规划方法，其特征在于，“S3”具体包括：

5.根据权利要求1所述的基于生成型预训练变换器的自动驾驶运动规划方法，其特征在于，“S4”具体包括：

6.根据权利要求1所述的基于生成型预训练变换器的自动驾驶运动规划方法，其特征在于，所述自动驾驶任务的Query请求包括但不限于自动驾驶的感知、预测、规划。

7.基于生成型预训练变换器的自动驾驶运动规划系统，其特征在于，包括：

8.根据权利要求7所述的基于生成型预训练变换器的自动驾驶运动规划系统，其特征在于，所述采集的模态数据包括但不限于摄像头传感器采集的图像、激光雷达传感器采集的点云/>、毫米波雷达传感器采集的点云/>。

9.根据权利要求7所述的基于生成型预训练变换器的自动驾驶运动规划系统，其特征在于，“提取模态数据的体素特征，并统一体素特征的特征维度和分辨率，得到第一类型体素特征”具体包括：

10.根据权利要求7所述的基于生成型预训练变换器的自动驾驶运动规划系统，其特征在于，“将第一类型体素特征进行特征融合，得到第二类型体素特征”具体包括：