CN111860425A

CN111860425A - 一种深度多模态跨层交叉融合方法、终端设备及存储介质

Info

Publication number: CN111860425A
Application number: CN202010752038.XA
Authority: CN
Inventors: 张新钰; 李志伟; 刘华平; 李骏; 柯锐
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2020-10-30
Anticipated expiration: 2040-07-30
Also published as: US11120276B1; CN111860425B

Abstract

本发明公开了一种深度多模态跨层交叉融合方法、终端设备及存储介质，所述方法包括：获取包含车道线的RGB图像和点云数据，并进行预处理；将预处理后的RGB图像和点云数据输入预先构建和训练好的语义分割模型，输出图像分割结果；所述语义分割模型用于实现RGB图像和点云数据的跨层交叉融合。本发明的方法将当前模态的当前层的特征与另一模态的后续所有层特征进行融合，既能将相似的或者相近的特征进行融合，也能将不相似的或者不相近的特征进行融合，对特征进行充分全面的融合；所有融合连接通过一个可学习的参数进行控制，使得融合更加灵活和智能，不用预设和固定融合方式；能够提高图像分割的准确度。

Description

一种深度多模态跨层交叉融合方法、终端设备及存储介质

技术领域

本发明属于无人驾驶技术领域，具体涉及一种深度多模态跨层交叉融合方法、终端设备及存储介质。

背景技术

近年来，无人驾驶技术发展迅速，汽车依赖于多种传感器对周围环境进行感知，这就涉及到多传感器数据的融合，也即多模态融合。多模态数据的融合能够为汽车提供更加精确可靠的信息，提高驾驶的安全性以及鲁棒性。

由于在全天候全场景下单模态数据的有效性获取很难保证，导致基于单模态数据的自动驾驶算法稳定可靠运行面临很大挑战。而无人驾驶对安全性要求高，基于多模态数据融合的自动驾驶技术能够将不同类型传感器的优势互补，被广泛应用于自动驾驶领域。当前，国内外对多模态数据的融合方法有了一定的研究，主要分为前融合、中间融合、后融合以及交叉融合四种融合方式。但这几种方式都存在一定的问题，前融合直接将多个模态原始数据进行融合，没有考虑不同模态数据所处特征表示空间的差异性。中间融合将多个模态数据在中间某一个特征层次上进行融合，而融合的特征未必在一个特征表示空间上。后融合直接在决策层进行融合，即直接融合多个模态的最终结果，没有考虑各个层次特征之间交互融合。交叉融合则是对前、中、后多种融合方式的结合，但是在对应层次融合的特征还是不能保证在同一特征空间。不同模态数据间具有差异性、互补性是融合存在的意义，多模态数据融合对于最终感知结果的影响分为融合增强和融合抑制两种，但是应该在两个不同模态数据特征差异大还是小的时候进行融合会产生融合增强效果目前没有成熟的理论解释和支撑，同时对多模态数据如何进行融合以及融合时机的选择一直也未得到明确的解决。

发明内容

本发明的目的在于克服上述技术缺陷，提供了一种深度多模态跨层交叉融合方法，该融合方式更加灵活，充分考虑到了融合的特征是否在一个特征表示空间上，将特征的融合转化为神经网络参数的学习，让网络自己学习融合方式，使已有的前融合、中间融合、后融合以及交叉融合可以看作是跨层交叉融合的特例。

为实现上述目的，本发明的实施例1提供了一种深度多模态跨层交叉融合方法，所述方法包括：

获取包含车道线的RGB图像和点云数据，并进行预处理；

将预处理后的RGB图像和点云数据输入预先构建和训练好的语义分割模型，输出图像分割结果；所述语义分割模型用于实现RGB图像和点云数据的跨层交叉融合。

作为上述方法的一种改进，所述RGB图像通过安装在行驶车辆上的前向单目相机或前向单目摄像头获得；该RGB图像包括行驶车辆的行车方向正前方和路面上方的路面图像信息；所述点云数据通过安装在行驶车辆上激光雷达获得，该点云包含行驶车辆的行车方向正前方和路面上方的路面点云信息，其视角范围可通过处理与相机图像对齐；RGB图像和点云数据是同步采集的。

作为上述方法的一种改进，所述语义分割模型为由点云分支和图像分支组成的SkipCrossNet模型，该模型划分为三个融合单元：

第一融合单元，用于对点云数据和RGB图像进行交叉融合；

第二融合单元，用于进行点云Encoder阶段的特征与图像Encoder阶段的特征融合；和

第三融合单元，用于进行点云Decoder阶段的特征与图像Decoder阶段的特征融合。

作为上述方法的一种改进，所述第一融合单元的具体实现过程为：

图像对点云的融合为：

Lidar_f＝R₀*RGB+Lidar

其中，Lidar为获取的点云数据，RGB为获取的RGB图像，Lidar_f为融合之后的点云数据，R₀为融合参数；

点云对图像的融合为：

RGB_f＝L₀*Lidar+RGB

其中，RGB_f为融合之后的图像，L₀为融合参数；

将Lidar_f和RGB_f输出至第二融合单元。

作为上述方法的一种改进，所述第二融合单元包括N个融合阶段；第一融合阶段的输入为：第一融合子单元输出的Lidar_f和RGB_f；第i融合阶段的输入为第i-1融合阶段的输出；第N融合阶段的输出为第三融合单元的输入；每个融合阶段的融合次数预先设定；

当一个融合阶段的融合次数为M时，该融合阶段的具体实现过程为：

对于点云分支，将Lidar Block的第一层特征与RGB Block的第一层特征进行融合：

Lidar_L_E_Feature₂＝S₁₁*RGB_L_E_feature₁+Lidar_L_E_feature₁

其中，Lidar_L_E_Feature₂表示Lidar Block的第二层特征，Lidar_L_D_feature₁表示Lidar Block的第一层特征，即输入该融合阶段的点云特征；RGB_L_D_feature₁表示RGBBlock的第一层特征，即输入该融合阶段的图像特征，S₁₁表示RGB Block的第一层特征与Lidar Block的第一层特征的融合参数；

当2≤m≤M-1时，将Lidar Block的第m层特征与RGB Block的前m层所有特征进行融合，得到Lidar Block的第m+1层特征Lidar_L_E_Feature_m：

其中，RGB_L_E_Feature_k表示RGB Block的第k层特征，S_k,m表示RGB Block的第k层特征与Lidar Block的第m层特征的融合参数；Lidar_L_E_Feature_m表示Lidar Block的第m层特征；

对于图像分支，将RGB Block的第一层特征与Lidar Block的第一层特征进行融合：

RGB_L_E_Feature₂＝T₁₁*Lidar_L_E_feature₁+RGB_L_E_feature₁

其中，RGB_L_E_Feature₂表示RGB Block的第二层特征，T₁₁表示Lidar Block的第一层特征与RGB Block的第一层特征的融合参数；

当2≤m≤M-1时，将RGB Block的第m层特征与Lidar Block的前m层所有特征进行融合，得到RGB Block的第m+1层特征RGB_L_E_Feature_m：

其中，Lidar_L_E_Feature_k表示Lidar Block的第k层特征，T_k,m表示Lidar Block的第k层特征与RGB Block的第m层特征的融合参数；RGB_L_E_Feature_m表示RGB Block的第m层特征；

该融合阶段的输出为Lidar_L_E_Feature_M和RGB_L_E_Fearure_M。

作为上述方法的一种改进，所述第三融合单元的具体实现过程为：

将点云Decoder阶段的第一层特征与图像Decoder阶段的第一层特征进行融合：

Lidar_L_D_Feature₂＝R₁*RGB_L_D_feature₁+Lidar_L_D_feature₁

其中，Lidar_L_D_Feature₂表示点云Decoder阶段的第二层特征，RGB_L_D_feature₁表示图像Decoder阶段的第一层特征，即第二融合单元输出的图像特征，Lidar_L_D_feature₁表示点云Decoder阶段的第一层特征，即第二融合单元输出的点云特征，R₁表示图像Decoder阶段的第一层特征与点云Decoder阶段的第一层特征的融合参数；

将图像Decoder阶段的第一层特征与点云Decoder阶段的第一层特征进行融合：

RGB_L_D_Feature₂＝L₁*Lidar_L_D_feature₁+RGB_L_D_feature₁

其中，RGB_L_D1_Feature_f表示图像Decoder阶段的第二层特征；L₁表示点云Decoder阶段的第一层特征与图形Decoder阶段的第一层特征的融合参数；

当2≤i≤N-1时，将点云Decoder阶段的第i层特征与图像Decoder阶段的第i层特征进行融合：

Lidar_L_D_Feature_i+1＝R_i*RGB_L_D_feature_i+Lidar_L_D_feature_i

其中，Lidar_L_D_Feature_i+1表示点云Decoder阶段的第i+1层特征，RGB_L_D_feature_i表示图像Decoder阶段的第i层特征，Lidar_L_D_feature_i表示点云Decoder阶段的第i层特征，R_i表示图像Decoder阶段的第i层特征与点云Decoder阶段的第i层特征的融合参数；

将图像Decoder阶段的第i层特征与点云Decoder阶段的第i层特征进行融合：

RGB_L_D_Feature_i+1＝L_i*Lidar_L_D_feature_i+RGB_L_D_feature_i

其中，RGB_L_D_Feature_i+1表示图像Decoder阶段的第i+1层特征；L_i表示点云Decoder阶段的第i层特征与图像Decoder阶段的第i层特征的融合参数；

第三融合单元的输出Output为：

Output＝L_N*Lidar_L_D_Feature_N+R_NRGB_L_D_Feature_N

其中，Lidar_L_D_Feature_N表示点云Decoder阶段的第N层特征，RGB_L_D_Feature_N示图像Decoder阶段的第N层特征，L_N和R_N表示点云Decoder阶段第N层的融合参数。

作为上述方法的一种改进，所述方法还包括：建立训练集，对所述语义分割模型进行训练，得到其中的融合参数，融合参数的取值范围均为[0,1]。

本发明的实施例3提供了一种终端设备，包括：包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述的方法。

本发明的实施例4提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述的方法。

本发明的优势在于：

1、本发明的方法将当前模态的当前层的特征与另一模态的后续所有层特征进行融合，既能将相似的或者相近的特征进行融合，也能将不相似的或者不相近的特征进行融合，对特征进行充分全面的融合；所有融合连接通过可学习的参数进行控制，使得融合更加灵活和智能，不用预设和固定融合方式；

2、本发明的方法能够提高图像分割以及其他模式识别任务的准确度。

附图说明

图1为本发明实施例1提供的深度多模态跨层交叉融合方法的流程图；

图2为本发明实施例1提供的深度跨层交叉融合方法的结构图；

图3为本发明实施例1提供的SkipCrossNet模型结构图；

图4为本发明实施例1提供的跨层交叉融合的三个阶段的示意图；

图5为本发明实施例2提供的深度多模态跨层交叉融合系统的构成的示意图；

图6为本发明的实施例3提供的终端设备的示意图。

具体实施方式

对本申请技术方案进行清楚、完整地描述。应当理解，所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

其次，此处所称的“一个实施例”或“实施例”是指可以包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

如图1所示，本发明的实施例1提出了一种深度多模态跨层交叉融合方法，具体包括步骤：

S101：获取携带有车道线的单目RGB图像和点云数据；

采用安装在行驶车辆上的前向单目相机或前向单目摄像头采集路面图像信息。前向单目相机采集的是行驶车辆的行车方向正前方和路面上方的路面图像信息。即采集的路面图像信息是对应于采集车辆的行车方向的正前方和路面上方的信息的透视图。

在本示例中，路面图像信息和路面点云信息是同步采集的。即可以在行驶车辆上安装配置激光雷达和前向单目相机后，标定它们的相对位置姿态，同时开始对同一路面开始路面数据信息采集。

为了便于计算，本发明下述实施例中所涉及的点云，均为360°点云中正对车辆前方，即图像所在方向的部分。并且，由于相机和激光雷达已经完成标定，可以确定点云投影到像素平面的转换矩阵，以方便后续点云信息和图像信息的处理。由于点云数据视野一般大于相机图像，因此按相机图像视野范围和数据尺寸对点云投影图像进行裁剪，获得与RGB图像相同尺寸的点云图像数据。

S102：构造语义分割模型，对RGB图像和点云数据实现跨层交叉融合；

跨层交叉融合的跨层指的是点云语义分割分支中的当前层的特征不仅与图像分支的同层特征进行融合(这是前融合、中间融合、后融合以及交叉融合采用的方式)，而且与图像分支的后续所有层特征进行融合，并且每一个融合连接都通过一个可学习参数来进行控制；交叉指的是点云分支的特征向图像分支进行融合，同时图像分支的特征也向点云分支进行融合；其中的融合参数为[0,1]之间的浮点数，为0表示不进行融合，否则表示进行融合。

跨层交叉融合在神经网络内进行，点云分支的每层特征与图像的对应层以及后续所有层的特征进行融合，相应地，图像分支的每层特征与点云分支的对应层以及后续所有层的特征进行融合，如图2所示。由于卷积神经网络在提取特征时，自然会形成特征金字塔，特征会逐层变抽象，比较靠近的几层特征会比较相近或者相似，因此在上述基础上，引入了融合阶段(域)的概念，即将整个跨层交叉融合模型划分为多个域，在域内进行跨层交叉融合，因为对于多个模态，一个区域内的特征更加相似或者相近，域的个数以及大小都可以调整，使得跨层交叉融合更灵活和高效，进一步改进了本发明。

语义分割模型可以是任何具有预测功能，或者称为语义分割功能、图像生成功能的神经网络模型，例如全卷积网络(FCN)等。示例性地，作为一种优选方案，考虑选用本发明提出的SkipCrossNet语义分割模型。本文都是基于该模型进行示例说明。如图3所示，SkipCrossNet语义分割模型由点云分支和图像分支组成，其中点云分支和图像分支都由编码器(Encoder)和解码器(Decoder)构成。其中，模型中的融合参数是可训练的参数，取值范围在[0,1]之间，如果为0，表示不需要进行融合，否则进行融合。

具体地，分为三个部分进行说明，如图4所示，分别是输入点云与输入图像的融合，点云Encoder阶段的特征与图像特征的融合，以及点云Decoder阶段的特征与图像Decoder阶段的特征的融合。

第一部分：输入点云与输入图像的融合。

融合采用的是按元素相加，加法不改变特征图的分辨率以及通道数，因此跨层交叉融合不会对网络的参数量几乎没有影响。

示例性地，根据图3，输入点云与图像，图像对点云的融合为：

Lidar_f＝R₀*RGB+Lidar

其中Lidar为所述的点云，RGB为所述的图像，Lidar_f为融合之后的点云，R₀为融合参数。

点云对图像的融合为：

RGB_f＝L₀*Lidar+RGB

其中，RGB_f为融合之后的图像，L₀为融合参数。

第二部分：点云Encoder阶段的特征与图像Encoder阶段的特征的融合。

示例性地，根据图3，获取上述融合后的Lidar_f和RGB_f，进行点云Encoder阶段的特征与图像Encoder阶段的特征融合。

首先，将点云Encoder阶段和图像Encoder阶段分为3个子阶段，如图3，分别是fusion stage 1、fusion stage 2和fusion stage 3，并不限定为3个，可以为多个。为了方便说明，跨层交叉融合在每个子阶段内进行。

示例性地，根据网络结构图3，在fusion stage 1内，Lidar Block包含有两层，RGBBlock包含有两层。下面对fusion stage1内的点云分支与图像分支分别作说明：

1、对于点云分支，Lidar Block的第一层特征与RGB Block的第一层特征进行融合,得到点云分支融合之后的第一层特征：

Lidar_L1_Feature_f＝R₁₁*RGB_L1_feature+Lidar_L1_Feature

其中Lidar_L1_Feature_f表示点云分支融合之后的第一层特征，Lidar_L1_Feature表示Lidar Block的第一层特征，RGB_L1_feature表示RGB Block的第一层特征，R₁₁表示RGB Block的第一层特征与Lidar Block的第一层特征的融合参数。

Lidar Block的第二层特征与RGB Block的第一层特征和第二层特征进行融合,得到点云分支融合之后的第二层特征：

Lidar_L2_Feature_f

＝R₁₂*RGB_L1_feature+R₂₂*RGB_L2_feature+Lidar_L2_Feature

其中Lidar_L2_Feature_f表示点云分支融合之后的第二层特征，RGB_L2_Feature表示RGB Block的第二层特征，Lidar_L2_feature表示Lidar Block的第二层特征，R₁₂表示RGB Block的第一层特征与Lidar Block的第二层特征的融合参数，R₂₂表示RGB Block的第二层特征与Lidar Block的第二层特征的融合参数。

2、对于图像分支，RGB Block的第一层特征与Lidar Block的第一层特征进行融合,得到图像分支融合之后的第一层特征：

RGB_L1_Feature_f＝L₁₁*Lidar_L1_feature+RGB_L1_Feature

其中RGB_L1_Feature_f表示图像分支融合之后的第一层特征，RGB_L1_Feature表示RGB Block的第一层特征，Lidar_L1_feature表示Lidar Block的第一层特征，L₁₁表示Lidar Block的第一层特征与RGB Block的第一层特征的融合参数。

RGB Block的第二层特征与Lidar Block的第一层特征和第二层特征进行融合,得到图像分支融合之后的第二层特征：

RGB_L2_Feature_f

＝L₁₂*Lidar_L1_feature+L₂₂*Lidar_L2_feature+RGB_L2_Feature

其中RGB_L2_Feature_f表示图像分支融合之后的第二层特征，RGB_L2_Feature表示RGB Block的第二层特征，Lidar_L2_feature表示Lidar Block的第二层特征，L₁₂表示Lidar Block的第一层特征与RGB Block的第二层特征的融合参数，L₂₂表示Lidar Block的第二层特征与RGB Block的第二层特征的融合参数。

第三部分：点云Decoder阶段的特征与图像Decoder阶段的特征的融合，最终得到语义分割结果。

如图3所示，点云Decoder阶段和图像Decoder阶段各有三层。下面对点云分支与图像分支分别作说明：

1、对于点云分支

点云Decoder阶段的第一层特征与图像Decoder阶段的第一层特征进行融合：

Lidar_L_D1_Feature_f＝R₁*RGB_L_D1_feature+Lidar_L_D1_feature

其中，Lidar_L_D1_Feature_f表示点云Decoder阶段融合之后的第一层特征，RGB_L_D1_feature表示图像Decoder阶段的第一层特征，Lidar_L_D1_feature表示点云Decoder阶段的第一层特征，R₁表示图像Decoder阶段的第一层特征与点云Decoder阶段的第一层特征的融合参数。

点云Decoder阶段的第二层特征与图像Decoder阶段的第二层特征进行融合：

Lidar_L_D2_Feature_f＝R₂*RGB_L_D2_feature+Lidar_L_D2_feature

其中，Lidar_L_D2_Feature_f表示点云Decoder阶段融合之后的第二层特征，RGB_L_D2_feature表示图像Decoder阶段的第二层特征，Lidar_L_D2_feature表示点云Decoder阶段的第二层特征，R₂表示图像Decoder阶段的第二层特征与点云Decoder阶段的第二层特征的融合参数。

2、图像分支

图像Decoder阶段的第一层特征与点云Decoder阶段的第一层特征进行融合：

RGB_L_D1_Feature_f＝L₁*Lidar_L_D1_feature+RGB_L_D1_feature

其中，RGB_L_D1_Feature_f表示图像Decoder阶段融合之后的第一层特征，Lidar_L_D1_feature表示点云Decoder阶段的第一层特征，RGB_L_D1_feature表示图像Decoder阶段的第一层特征，L₁表示点云Decoder阶段的第一层特征与图形Decoder阶段的第一层特征的融合参数。

图像Decoder阶段的第二层特征RGB_Decoder_L2_Feature与点云Decoder阶段的第二层特征Lidar_Decoder_L2_Feature进行融合：

RGB_L_D2_Feature_f＝L₂*Lidar_L_D2_feature+RGB_L_D2_feature

其中，RGB_L_D2_Feature_f表示图像Decoder阶段融合之后的第二层特征，Lidar_L_D2_feature表示点云Decoder阶段的第二层特征，RGB_L_D2_feature表示图像Decoder阶段的第二层特征，L₂表示点云Decoder阶段的第二层特征与图像Decoder阶段的第二层特征的融合参数。

对于Decoder阶段的第三层，是整个网络最后一层融合层：

Output＝L₃*Lidar_L_D3_feature+R₃RGB_L_D3_feature

其中，Output表示第三层的融合输出，Lidar_L_D3_feature表示点云Decoder阶段的第三层特征，RGB_L_D3_feature表示图像Decoder阶段的第三层特征，L₃表示点云Decoder阶段的第三层特征与图像Decoder阶段的第三层特征的融合参数。

Decoder阶段的融合次数与Encoder阶段的fusion stage的个数相同。

神经网络模型可以是经过预训练的，也可以是根据本地数据进行训练的。下面描述神经网络模型的示例性训练流程。

示例性地，对于预处理流程，规定点云的输入尺寸为(512，256，1)，规定图像的输入尺寸为(512，256，3)。对点云和图像进行预设的裁剪，以符合网络的输入要求。

本领域技术人员可以理解为神经网络模型的训练过程，本文不对此进行赘述，简单描述如下。

示例性地，基于工具PyTorch实现的神经网络，将样本点云和图像添加到inputs列表中作为输入，设定网络的批处理数量、训练轮次数等需要人工预设的超参数后，开始训练，编码器将计算得到中间层的隐向量，再有解码器解码得到图像，同目标输出作比较，根据损失函数计算出损失值loss以后，在反向传播步骤更新网络参数，从而完成一轮训练。当训练到一定轮次后，损失值将不再下降或在某一个值附近振荡，此时可以停止训练。

示例性地，对于神经网络的损失函数和激活函数，本实施例采用常用的交叉熵作为损失函数，Softmax和ReLu作为激活函数。应当理解，这里也可以替换为其他函数，但可能会对神经网络的性能带来部分影响。

当神经网络完成训练后，可以开始测试新的图像。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

S103:语义分割模型输出图像分割结果，可以用于车道线分割以及道路分割等。

实施例2

如图5所示，本发明的实施例2公开一种深度多模态跨层交叉融合系统，该系统包括点云采集模块、图像采集模块、跨层交叉融合模块和分割结果输出模块，其中：

点云采集模块，用于采集激光雷达点云数据；

图像采集模块，用于采集车载摄像头拍摄的路面上的RGB图像；

跨层交叉融合模块，用于通过语义分割模型对预处理后的RGB图像和点云数据进行交叉融合；所述语义分割模型用于实现RGB图像和点云数据的跨层交叉融合点云数据和RGB图像进行融合处理，包括三个子部分：输入点云与输入图像的融合，点云Encoder阶段的特征与图像Encoder阶段的特征的融合，以及点云Decoder阶段的特征与图像Decoder阶段的特征的融合；

分割结果输出模块，用于输出图像分割结果。

实施例3

如图6所示，本发明的实施例3提供的一种终端设备，包括：至少一个处理器301、存储器302、至少一个网络接口303和用户接口304。各个组件通过总线系统305耦合在一起。可理解，总线系统305用于实现这些组件之间的连接通信。总线系统305除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图中将各种总线都标为总线系统305。

其中，用户接口304可以包括显示器、键盘或者点击设备(例如，鼠标，轨迹球(track ball)、触感板或者触摸屏等。

可以理解，本公开实施例中的存储器302可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，DRRAM)。本文描述的存储器302旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器302存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作系统3021和应用程序3022。

其中，操作系统3021，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序3022，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本公开实施例方法的程序可以包含在应用程序3022中。

在本公开实施例中，通过调用存储器302存储的程序或指令，具体的，可以是应用程序3022中存储的程序或指令，处理器301用于：

执行实施例1的方法的步骤。

实施例1的方法可以应用于处理器301中，或者由处理器301实现。处理器301可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器301中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器301可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、现场可编程门阵列(Field Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行实施例1中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合实施例1所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器302，处理器301读取存储器302中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本发明描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(Application Specific Integrated Circuits，ASIC)、数字信号处理器(Digital SignalProcessing，DSP)、数字信号处理设备(DSP Device，DSPD)、可编程逻辑设备(ProgrammableLogic Device，PLD)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本发明的功能模块(例如过程、函数等)来实现本发明技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

实施例4

本发明实施例4提供一种非易失性存储介质，用于存储计算机程序。当该计算机程序被处理器执行时可以实现上述方法实施例中的各个步骤。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。本发明可以借助于包括有不同计算步骤的算法来实现，实施例中列举的简单的算法不应被视为对本发明所要求权利的限制。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种深度多模态跨层交叉融合方法，所述方法包括：

获取包含车道线的RGB图像和点云数据，并进行预处理；

2.根据权利要求1所述的深度多模态跨层交叉融合方法，其特征在于，所述RGB图像通过安装在行驶车辆上的前向单目相机或前向单目摄像头获得；该RGB图像包括行驶车辆的行车方向正前方和路面上方的路面图像信息；所述点云数据通过安装在行驶车辆上激光雷达获得；RGB图像和点云数据是同步采集的。

3.根据权利要求1或2所述的深度多模态跨层交叉融合方法，其特征在于，所述语义分割模型为由点云分支和图像分支组成的SkipCrossNet模型，该模型划分为三个融合单元：

第一融合单元，用于对点云数据和RGB图像进行交叉融合；

4.根据权利要求3所述的深度多模态跨层交叉融合方法，其特征在于，所述第一融合单元的具体实现过程为：

图像对点云的融合为：

Lidar_f＝R₀*RGB+Lidar

点云对图像的融合为：

RGB_f＝L₀*Lidar+RGB

其中，RGB_f为融合之后的图像，L₀为融合参数；

将Lidar_f和RGB_f输出至第二融合单元。

5.根据权利要求4所述的深度多模态跨层交叉融合方法，其特征在于，所述第二融合单元包括N个融合阶段；第一融合阶段的输入为：第一融合子单元输出的Lidar_f和RGB_f；第i融合阶段的输入为第i-1融合阶段的输出；第N融合阶段的输出为第三融合单元的输入；每个融合阶段的融合次数预先设定；

Lidar_L_E_Feature₂＝S₁₁*RGB_L_E_feature₁+Lidar_L_E_feature₁

其中，RGB_L_E_Feature_k表示RGB Block的第k层特征，S_k，m表示RGB Block的第k层特征与Lidar Block的第m层特征的融合参数；Lidar_L_E_Feature_m表示Lidar Block的第m层特征；

RGB_L_E_Feature₂＝T₁₁*Lidar_L_E_feature₁+RGB_L_E_feature₁

其中，RGB_L_E_Feature₂表示RGB Block的的第二层特征，T₁₁表示Lidar Block的第一层特征与RGB Block的第一层特征的融合参数；

其中，Lidar_L_E_Feature_k表示Lidar Block的第k层特征，T_k，m表示Lidar Block的第k层特征与RGB Block的第m层特征的融合参数；RGB_L_E_Feature_m表示RGB Block的第m层特征；

该融合阶段的输出为Lidar_L_E_Feature_M和RGB_L_E_Feature_M。

6.根据权利要求5所述的深度多模态跨层交叉融合方法，其特征在于，所述第三融合单元的具体实现过程为：

Lidar_L_D_Feature₂＝R₁*RGB_L_D_feature₁+Lidar_L_D_feature₁

RGB_L_D_Feature₂＝L₁*Lidar_L_D_feature₁+RGB_L_D_feature₁

Lidar_L_D_Feature_i+1＝R_i*RGB_L_D_feature_i+Lidar_L_D_feature_i

RGB_L_D_Feature_i+1＝L_i*Lidar_L_D_feature_i+RGB_L_D_feature_i

第三融合单元的输出Output为：

Output＝L_N*Lidar_L_D_Feature_N+R_NRGB_L_D_Feature_N

7.根据权利要求6所述的深度多模态跨层交叉融合方法，其特征在于，所述方法还包括：建立训练集，对所述语义分割模型进行训练，得到其中的融合参数，融合参数的取值范围均为[0，1]。

8.一种终端设备，其特征在于，包括：包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。

9.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的方法。