CN116343159A

CN116343159A - 一种非结构化场景可通行区域检测方法、装置及存储介质

Info

Publication number: CN116343159A
Application number: CN202310586543.5A
Authority: CN
Inventors: 叶宏量; 梅继林; 胡瑜
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-05-24
Filing date: 2023-05-24
Publication date: 2023-06-27
Anticipated expiration: 2043-05-24
Also published as: CN116343159B

Abstract

本发明涉及一种基于多模态数据融合的非结构化场景可通行区域检测方法、装置及存储介质，其中方法包括：获取图像数据；基于MCF模块对图像进行模态融合；基于主干网络对融合RGB特征图和融合表面法向量特征图进行特征提取；基于主干网络特征提取结果进行边缘分割，得到边缘分割特征图和可通行区域边缘预测结果；提取相机模态分割特征图、激光雷达模态分割特征图及其对应的可通行区域初步预测结果；对边缘分割特征图、相机模态分割特征图和激光雷达模态分割特征图在通道层面进行连接，通过分割特征图和卷积操作提取精细可通行区域预测结果。与现有技术相比，本发明提升了在非结构化道路场景数据集上的检测精确度。

Description

一种非结构化场景可通行区域检测方法、装置及存储介质

技术领域

本发明涉及自动驾驶领域，尤其是涉及一种基于多模态数据融合的非结构化场景可通行区域检测方法、装置及存储介质。

背景技术

近年来，自动驾驶领域受到越来越多的关注和研究。而环境感知在其中起着极其重要的作用。在行驶过程中，从车辆传感器中采集数据用于检测和识别等操作。可通行区域检测则是这些任务的其中之一，其目的是识别可以行驶的道路并确保安全驾驶。但目前大多数关于可通行区域检测的研究都集中在结构化的城市道路场景上，而对非结构化野外场景的研究在很大程度上仍未得到充分探索。非结构化野外场景比结构化的城市道路场景具有更复杂和多样化的环境，比如大多数结构化道路场景都有清晰的道路边缘边界和车道线，但野外场景具有草地、沙地、冰雪和泥土等多种多样的路面，并且背景复杂；同时，可通行区域和不可通行区域之间没有明确的分界线，这使得道路的检测变得困难。

为了应对上述困难，多模态融合是一个很好的解决方案。相机图像和激光雷达（LiDAR）点云是自动驾驶中的两种重要模态数据。相机图像数据更侧重于物体表面的颜色、纹理等信息，而激光雷达点云数据则包含了深度信息。多模态融合可以让这两种模态的特征相互补充。因此，如何有效地设计融合策略对可通行区域检测有着巨大的影响。R. Fan等在《Sne-roadseg: Incorporating surface normal information into semanticsegmentation for accurate freespace detection》中使用两个并行的编码器，这可能会增加模型的计算量；C. Min等在《Orfd: A dataset and benchmark for off-roadfreespace detection》中采用的融合模块结构设计不恰当，会导致网络学习到的特征容易偏向其中某一种模态，从而丢失多模态融合的意义。因此，现有技术中缺乏一个有效的融合模块来充分的结合多模态数据的特征信息，解决检测结果的正确性低下的问题。

发明内容

本发明的目的就是为了提供一种基于多模态数据融合的非结构化场景可通行区域检测方法、装置及存储介质，提高复杂野外环境下可通行区域的检测精度。

本发明的目的可以通过以下技术方案来实现：

一种基于多模态数据融合的非结构化场景可通行区域检测方法，包括以下步骤：

步骤1）通过采集设备获取相机RGB图像和激光雷达点云数据，并将激光雷达点云数据转换成具有更加明显的物体平面特征的表面法向量图像(surface normal图像)；

步骤2）基于MCF（Multi-modal Cross Fusion，多模态交叉融合）模块对图像进行模态融合，得到融合RGB特征图和融合表面法向量特征图；

步骤3）对融合RGB特征图和融合表面法向量特征图在通道层面进行连接后输入主干网络进行特征提取；

步骤4）基于主干网络特征提取结果进行边缘分割，得到边缘分割特征图和可通行区域边缘预测结果；

步骤5）对主干网络的最后一层特征提取结果进行进一步特征提取后，分别与融合RGB特征图、融合表面法向量特征图在通道层面进行连接，通过分割特征图和卷积操作提取相机模态分割特征图、激光雷达模态分割特征图及其对应的可通行区域初步预测结果；

步骤6）对边缘分割特征图、相机模态分割特征图和激光雷达模态分割特征图在通道层面进行连接，通过分割特征图和卷积操作提取精细可通行区域预测结果。

所述步骤2）包括以下步骤：

步骤2-1）基于自注意力模型编码器分别对相机RGB图像和表面法向量图像进行初步特征提取；

步骤2-2）将初步特征提取得到的特征图输入MCF模块，对两个特征图分别进行全局均值池化、全连接以及Sigmoid激活操作得到RGB全局特征向量和表面法向量全局特征向量，对输入的相机RGB图像的特征图和表面法向量全局特征向量做哈达玛积运算，生成多模态融合后的融合RGB特征图，同时对输入的表面法向量图像的特征图和RGB全局特征向量做哈达玛积运算，生成多模态融合后的融合表面法向量特征图。

所述步骤3）中，主干网络由连续的三个自注意力模型编码器组成，每个编码器输出一个特征图，经过主干网络特征提取后得到包括输入特征图在内的4个不同分辨率大小的特征图。

所述步骤4）包括以下步骤：

步骤4-1）将主干网络特征提取得到的前3个特征图分别通过一个MLP层进行进一步特征提取和尺寸统一，其中，所述MLP层由全连接层和上采样层组成，前3个特征图通过MLP层后的尺寸与输入特征图大小一致；

步骤4-2）将尺寸统一后的特征图在通道层面进行连接，并进行多层卷积操作，得到边缘分割特征图；

步骤4-3）基于边缘分割特征图进行边缘分割，得到可通行区域边缘预测结果。

所述步骤5）包括以下步骤：

步骤5-1）对主干网络的最后一个编码器输出的特征图基于MLP层和ASPP(AtrousSpatial Pyramid Pooling，空洞空间卷积池化金字塔)层进行进一步特征提取，得到新的特征图；

步骤5-2）将新的特征图与融合RGB特征图在通道层面进行连接，并进行卷积操作后得到相机模态分割特征图，基于相机模态分割特征图进行分割结果预测，得到粗略的可通行区域初步预测结果；

步骤5-3）将新的特征图与融合表面法向量特征图在通道层面进行连接，并进行卷积操作后得到激光雷达模态分割特征图，基于激光雷达模态分割特征图进行分割结果预测，得到粗略的可通行区域初步预测结果。

所述边缘分割和可通行区域预测基于深度学习语义分割网络模型实现。

所述边缘分割采用带权重的交叉熵损失函数进行模型训练：

其中，y _edge是边缘分割图的真值，

是可通行区域边缘预测结果，N表示总的像素个数，N _i表示属于第i个类别的像素个数，w _i表示第i个类别的损失权重。

一种基于多模态数据融合的非结构化场景可通行区域检测装置，包括：

数据采集与预处理模块，用于获取相机RGB图像和激光雷达点云数据，并将激光雷达点云数据转换成表面法向量图像；

模态融合模块，用于基于MCF模块对图像进行模态融合，得到融合RGB特征图和融合表面法向量特征图；

特征提取模块，用于对融合RGB特征图和融合表面法向量特征图在通道层面进行连接后输入主干网络进行特征提取；

边缘预测解码器模块，用于基于主干网络特征提取结果进行边缘分割，得到边缘分割特征图和可通行区域边缘预测结果；

多模态分割解码器模块，用于对主干网络的最后一层特征提取结果进行进一步特征提取后，分别与融合RGB特征图、融合表面法向量特征图在通道层面进行连接，通过分割特征图和卷积操作提取相机模态分割特征图、激光雷达模态分割特征图及其对应的可通行区域初步预测结果；

可通行区域精细检测模块，用于对边缘分割特征图、相机模态分割特征图和激光雷达模态分割特征图在通道层面进行连接，通过分割特征图和卷积操作提取精细可通行区域预测结果。

一种基于多模态数据融合的非结构化场景可通行区域检测装置，包括存储器、处理器，以及存储于所述存储器中的程序，所述处理器执行所述程序时实现如上述所述的方法。

一种存储介质，其上存储有程序，所述程序被执行时实现如上述所述的方法。

本发明的原理在于：

本发明利用MCF模块融合了多模态的数据特征，通过边缘预测解码器模块和多模态分割解码器模块提高了最终分割的准确度。本发明提出了MCF模块用于融合相机模态和激光雷达模态的特征，输入的RGB特征图经过全局池化层、全连接层和Sigmoid激活层提取全局特征，得到相机模态RGB全局特征向量；输入的表面法向量特征图也会经过同样的操作，得到激光雷达模态表面法向量全局特征向量。随后将输入的RGB特征图和表面法向量全局特征向量做哈达玛积运算，得到融合RGB特征图；而输入的表面法向量特征图和RGB全局特征向量做哈达玛积运算，得到融合表面法向量特征图，这种融合方式可以更加平衡两个模态的特征，充分利用两个模态的特征。本发明提出了边缘预测解码器模块，由于前三个低层的特征图具有相对较大的分辨率并且包含更多的细节，所以被用来作为边缘预测解码器模块的输入，将这三个特征图分别都通过一个MLP层进一步提取特征和统一尺寸后，在通道层面连接起来，经过卷积操作得到边缘分割特征图，最后通过边缘分割得到可通行区域边缘的预测结果。该模块有助于让模型学习到更精细的边缘信息，缓解了非结构化的野外场景路面边缘难以界定的问题。本发明提出了多模态分割解码器模块，通过结合浅层的多模态特征和深层模型特征让模型更充分的学习和利用两个模态的信息。其中用ASPP模块来扩大感受野，获取更多的上下文信息，随后将该特征图分别与MCF模块中输出的融合RGB特征图和融合表面法向量特征图在通道层面连接起来，经过卷积操作和分割结果预测层得到相应模态的分割特征图和可通行区域初步预测结果。最后结合边缘分割特征图、相机模态分割特征图和激光雷达模态分割特征图得到最后的可通行区域精细的预测结果。

与现有技术相比，本发明具有以下有益效果：

（1）相比现有的多模态的特征融合模块，本发明提出的MCF模块能够更好的平衡和利用两个模态的特征，从而提高检测精度。

（2）本发明针对非结构化场景下的可通行区域，提出了边缘预测模块，能够提高边缘像素的分割准确率。

（3）本发明通过多模态分割解码器模块，更够进一步的让模型充分学习到两个模态的特征，进而提升检测精度。

附图说明

图1为本发明一实施例提供的一种基于多模态数据融合的非结构化场景可通行区域检测方法的流程示意图；

图2为本发明方法对应模型的整体结构图，其中，（a）为MCF模块，（b）为边缘预测解码器模块，（c）为多模态分割解码器模块；

图3为MCF模块和其他结构提取的特征图对比示意图，其中，（a）为输入数据，（b）为交叉注意力（cross attention）输出特征图，（c）为MCF模块输出特征图；

图4为在ORFD数据集上的部分分割结果图和对比图，其中，（a）为RGB图像，（b）为表面法向量图像，（c）为OFF-Net模型分割结果，（d）为本发明分割结果，（e）为真值；

图5为在实际采集的场景中的部分分割结果图和对比图其中，（a）为RGB图像，（b）为表面法向量图像，（c）为OFF-Net模型分割结果，（d）为本发明分割结果；

图6为本发明一实施例提供的一种基于多模态数据融合的非结构化场景可通行区域检测装置的结构框图；

图7为本发明一实施例的装置对应的硬件结构示意图。

图中附图标记为：A-数据采集与预处理模块，B-模态融合模块，C-特征提取模块，D-边缘预测解码器模块，E-多模态分割解码器模块，F-可通行区域精细检测模块。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本实施例提供一种基于多模态数据融合的非结构化场景可通行区域检测方法，如图1所示，其基于深度学习语义分割网络模型实现，方法对应的模型整体结构如图2所示。具体的，方法包括以下步骤：

步骤1）通过采集设备获取相机RGB图像和激光雷达点云数据，并将激光雷达点云数据通过外参和内参信息投影到RGB图像的平面上，得到稀疏的深度图，经过计算得到稠密深度图和相应的具有更加明显的物体平面特征的表面法向量图像。

步骤2）基于MCF（Multi-modal Cross Fusion）模块对图像进行模态融合，得到融合RGB特征图和融合表面法向量特征图。

步骤2-1）基于自注意力模型编码器分别对相机RGB图像和表面法向量图像进行初步特征提取，得到相机模态RGB图像的特征图F ^RGB和激光雷达模态表面法向量图像的特征图F ^SN。

本实施例中，自注意力模型编码器采用transformer结构。

步骤2-2）将初步特征提取得到的特征图F ^RGB、F ^SN输入MCF（多模态特征融合）模块，MCF模块的结构图如图2（a）所示，对两个特征图分别进行全局均值池化、全连接以及Sigmoid激活操作得到RGB全局特征向量v ^RGB和表面法向量全局特征向量v ^SN，该过程见公式（1）和公式（2），

其中σ()表示Sigmoid激活函数，Linear表示全连接层，但是在本发明的模型中被1x1卷积取代，Pooling表示全局平均池化。

随后，对输入的相机RGB图像的特征图F ^RGB和表面法向量全局特征向量v ^SN做哈达玛积运算，生成多模态融合后的融合RGB特征图F’ ^RGB，同时对输入的表面法向量图像的特征图F ^SN和RGB全局特征向量v ^RGB做哈达玛积运算，生成多模态融合后的融合表面法向量特征图F ’ ^SN，该过程如公式（3）和公式（4）所示，

其中

表示哈达玛积运算。

步骤3）对融合RGB特征图F’ ^RGB和融合表面法向量特征图F’ ^SN在通道层面进行连接后，输入主干网络进行特征提取。

主干网络由连续的三个自注意力模型编码器组成，每个编码器输出一个特征图，经过主干网络特征提取后得到包括输入特征图在内的4个不同分辨率大小的特征图。本实施例中，自注意力模型编码器采用transformer结构。

步骤4）基于主干网络特征提取结果进行边缘分割，得到边缘分割特征图和可通行区域边缘预测结果。

步骤4-1）由于前三个低层的特征图具有相对较大的分辨率并且包含更多的细节，所以被用来作为边缘预测解码器模块的输入。如图2（b）边缘预测解码器模块所示，将主干网络特征提取得到的前3个特征图分别通过一个MLP层进行进一步特征提取和尺寸统一，其中，MLP层由全连接层和上采样层组成，前3个特征图通过MLP层后的尺寸与输入特征图大小一致。

步骤4-2）将尺寸统一后的特征图在通道层面进行连接，并进行多层卷积操作，进一步提取特征后得到边缘分割特征图

。

步骤4-3）基于边缘分割特征图

，通过边缘分割结果预测层进行边缘分割，得到可通行区域边缘预测结果/>

。

而由于属于边缘的像素个数和非边缘的像素个数差别巨大，用普通的交叉熵损失函数不太适合，所以本发明采用了带权重的交叉熵损失函数，如公式（5）和公式（6）所示：

其中，y _edge是边缘分割图的真值，

通过这样计算权重，像素个数少的类别损失权重会更大，而像素个数多的类别权重则会相应减少，能达到平衡两个类别损失的作用。

步骤5）对主干网络的最后一层特征提取结果进行进一步特征提取后，分别与融合RGB特征图、融合表面法向量特征图在通道层面进行连接，通过分割特征图和卷积操作提取相机模态分割特征图、激光雷达模态分割特征图及其对应的可通行区域初步预测结果。

为了让模型能更好的学习到两个模态的特征，本发明还提出了多模态分割解码器模块来预测两个模态的一个粗略的分割结果，如图2（c）多模态分割解码器模块所示，其执行以下步骤：

步骤5-1）对主干网络的最后一个编码器输出的特征图基于MLP层和ASPP(AtrousSpatial Pyramid Pooling，空洞空间卷积池化金字塔)层进行进一步特征提取，得到新的特征图。

由于高层低分辨率的特征图具有丰富的语义信息，但是缺少细节信息，所以本发明首先在最后一层添加了ASPP层来扩大感受野并获得更有用的上下文语义信息。

步骤5-2）将新的特征图与融合RGB特征图F’ ^RGB在通道层面进行连接，并进行卷积操作后得到相机模态分割特征图

，基于相机模态分割特征图，利用分割结果预测层进行分割结果预测，得到粗略的可通行区域初步预测结果/>

。

步骤5-3）将新的特征图与融合表面法向量特征图F’ ^SN在通道层面进行连接，并进行卷积操作后得到激光雷达模态分割特征图

，基于激光雷达模态分割特征图，利用分割结果预测层进行分割结果预测，得到粗略的可通行区域初步预测结果/>

。

步骤6）对边缘分割特征图

、相机模态分割特征图/>

和激光雷达模态分割特征图/>

在通道层面进行连接，通过卷积层进行进一步特征提取以及分割结果预测层进行分割结果预测，提取更精确的可通行区域预测结果。

为了验证本发明的有效性，本实施例将本发明中的方法与目前的一些方法在非结构化场景下的可通行区域分割结果，在非结构化场景可通行区域分割数据集ORFD上进行了比较，表1展示了本发明的MCF模块和其他方法中的交叉注意力模块在多模态融合层面的性能对比。

表1 本发明的MCF模块与交叉注意力模块的对比结果

模型	准确率	精度	召回率	F1	IoU
						交叉注意力模块	0.945	0.866	0.943	0.903	0.823
MCF模块	0.967	0.928	0.952	0.940	0.887

由表1可以看出，本发明的MCF模块带来的效果比交叉注意力模块在F1指标上提高了3.7%，在IoU指标上提高了6.4%，且在准确率、精度、召回率上都具有更好的表现。而两个多模态特征融合模块的输出特征图可视化结果对比如图3所示，可以看出图3（b）中交叉注意力模块输出的特征图很大程度上受到表面法向量图的影响，没能充分利用两个模态的信息，而图3（c）中本发明的MCF模块则能兼顾两个模态的特征。

表2展示了本发明提出的模型和其他方法模型的测试性能结果对比。从表2中可以看出，本发明比之前最好的方法OFF-Net在F1指标上提升了6.1%，在IoU指标上提升了10.8%，且在准确率、精度、召回率上都具有更好的表现。最后本发明的结果做可视化以及对比如图4所示，在ORFD数据集上进行了验证。图5则展示了在实际采集的场景下本发明的方法与其他方法的可通行区域分割结果对比。

表2 本发明与其他方法的各性能对比

本发明还提供了图6所示的一种对应于图1的基于多模态数据融合的非结构化场景可通行区域检测装置的示意结构图。如图7所述，在硬件层面，该装置包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所述的数据采集的方法。当然，除了软件实现方式之外，本发明并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该（微）处理器执行的计算机可读程序代码（例如软件或固件）的计算机可读介质、逻辑门、开关、专用集成电路（Application Specific Integrated Circuit，ASIC）、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依据本发明的构思在现有技术的基础上通过逻辑分析、推理、或者有限的实验可以得到的技术方案，皆应在权利要求书所确定的保护范围内。

Claims

1.一种基于多模态数据融合的非结构化场景可通行区域检测方法，其特征在于，包括以下步骤：

步骤1）获取相机RGB图像和激光雷达点云数据，并将激光雷达点云数据转换成表面法向量图像；

步骤2）基于MCF模块对图像进行模态融合，得到融合RGB特征图和融合表面法向量特征图；

2.根据权利要求1所述的一种基于多模态数据融合的非结构化场景可通行区域检测方法，其特征在于，所述步骤2）包括以下步骤：

步骤2-2）将初步特征提取得到的特征图输入MCF模块，对两个特征图分别进行全局均值池化、全连接以及激活操作得到RGB全局特征向量和表面法向量全局特征向量，对输入的相机RGB图像的特征图和表面法向量全局特征向量做哈达玛积运算，生成多模态融合后的融合RGB特征图，同时对输入的表面法向量图像的特征图和RGB全局特征向量做哈达玛积运算，生成多模态融合后的融合表面法向量特征图。

3.根据权利要求1所述的一种基于多模态数据融合的非结构化场景可通行区域检测方法，其特征在于，所述步骤3）中，主干网络由连续的三个自注意力模型编码器组成，每个编码器输出一个特征图，经过主干网络特征提取后得到包括输入特征图在内的4个不同分辨率大小的特征图。

4.根据权利要求3所述的一种基于多模态数据融合的非结构化场景可通行区域检测方法，其特征在于，所述步骤4）包括以下步骤：

5.根据权利要求4所述的一种基于多模态数据融合的非结构化场景可通行区域检测方法，其特征在于，所述步骤5）包括以下步骤：

步骤5-1）对主干网络的最后一个编码器输出的特征图基于MLP层和ASPP层进行进一步特征提取，得到新的特征图；

6.根据权利要求1所述的一种基于多模态数据融合的非结构化场景可通行区域检测方法，其特征在于，所述边缘分割和可通行区域预测基于深度学习语义分割网络模型实现。

7.根据权利要求6所述的一种基于多模态数据融合的非结构化场景可通行区域检测方法，其特征在于，所述边缘分割采用带权重的交叉熵损失函数进行模型训练：

，其中，y _edge是边缘分割图的真值，/>

8.一种基于多模态数据融合的非结构化场景可通行区域检测装置，其特征在于，包括：

9.一种基于多模态数据融合的非结构化场景可通行区域检测装置，包括存储器、处理器，以及存储于所述存储器中的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一所述的方法。

10.一种存储介质，其上存储有程序，其特征在于，所述程序被执行时实现如权利要求1-7中任一所述的方法。