CN116343159A - 一种非结构化场景可通行区域检测方法、装置及存储介质 - Google Patents
一种非结构化场景可通行区域检测方法、装置及存储介质 Download PDFInfo
- Publication number
- CN116343159A CN116343159A CN202310586543.5A CN202310586543A CN116343159A CN 116343159 A CN116343159 A CN 116343159A CN 202310586543 A CN202310586543 A CN 202310586543A CN 116343159 A CN116343159 A CN 116343159A
- Authority
- CN
- China
- Prior art keywords
- feature map
- segmentation
- feature
- fusion
- modal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 27
- 230000011218 segmentation Effects 0.000 claims abstract description 120
- 230000004927 fusion Effects 0.000 claims abstract description 73
- 239000013598 vector Substances 0.000 claims abstract description 67
- 238000000605 extraction Methods 0.000 claims abstract description 41
- 238000000034 method Methods 0.000 claims abstract description 38
- 230000006870 function Effects 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 5
- 238000013135 deep learning Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 238000012549 training Methods 0.000 claims description 2
- 101100295091 Arabidopsis thaliana NUDT14 gene Proteins 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 12
- 238000011176 pooling Methods 0.000 description 8
- 230000006872 improvement Effects 0.000 description 4
- 101000786842 Clostridium perfringens Uncharacterized 14.9 kDa protein in nagH 3'region Proteins 0.000 description 3
- 101000827608 Feline immunodeficiency virus (strain San Diego) Uncharacterized protein ORF3 Proteins 0.000 description 3
- 101000977849 Legionella pneumophila Uncharacterized protein in pal 3'region Proteins 0.000 description 3
- 101000791053 Methanothermus fervidus (strain ATCC 43054 / DSM 2088 / JCM 10308 / V24 S) Uncharacterized protein Mfer_0534 Proteins 0.000 description 3
- 101000623305 Trypanosoma brucei brucei Uncharacterized 21 kDa protein in aldolase locus Proteins 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/588—Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于多模态数据融合的非结构化场景可通行区域检测方法、装置及存储介质,其中方法包括:获取图像数据;基于MCF模块对图像进行模态融合;基于主干网络对融合RGB特征图和融合表面法向量特征图进行特征提取;基于主干网络特征提取结果进行边缘分割,得到边缘分割特征图和可通行区域边缘预测结果;提取相机模态分割特征图、激光雷达模态分割特征图及其对应的可通行区域初步预测结果;对边缘分割特征图、相机模态分割特征图和激光雷达模态分割特征图在通道层面进行连接,通过分割特征图和卷积操作提取精细可通行区域预测结果。与现有技术相比,本发明提升了在非结构化道路场景数据集上的检测精确度。
Description
技术领域
本发明涉及自动驾驶领域,尤其是涉及一种基于多模态数据融合的非结构化场景可通行区域检测方法、装置及存储介质。
背景技术
近年来,自动驾驶领域受到越来越多的关注和研究。而环境感知在其中起着极其重要的作用。在行驶过程中,从车辆传感器中采集数据用于检测和识别等操作。可通行区域检测则是这些任务的其中之一,其目的是识别可以行驶的道路并确保安全驾驶。但目前大多数关于可通行区域检测的研究都集中在结构化的城市道路场景上,而对非结构化野外场景的研究在很大程度上仍未得到充分探索。非结构化野外场景比结构化的城市道路场景具有更复杂和多样化的环境,比如大多数结构化道路场景都有清晰的道路边缘边界和车道线,但野外场景具有草地、沙地、冰雪和泥土等多种多样的路面,并且背景复杂;同时,可通行区域和不可通行区域之间没有明确的分界线,这使得道路的检测变得困难。
为了应对上述困难,多模态融合是一个很好的解决方案。相机图像和激光雷达(LiDAR)点云是自动驾驶中的两种重要模态数据。相机图像数据更侧重于物体表面的颜色、纹理等信息,而激光雷达点云数据则包含了深度信息。多模态融合可以让这两种模态的特征相互补充。因此,如何有效地设计融合策略对可通行区域检测有着巨大的影响。R. Fan等在《Sne-roadseg: Incorporating surface normal information into semanticsegmentation for accurate freespace detection》中使用两个并行的编码器,这可能会增加模型的计算量;C. Min等在《Orfd: A dataset and benchmark for off-roadfreespace detection》中采用的融合模块结构设计不恰当,会导致网络学习到的特征容易偏向其中某一种模态,从而丢失多模态融合的意义。因此,现有技术中缺乏一个有效的融合模块来充分的结合多模态数据的特征信息,解决检测结果的正确性低下的问题。
发明内容
本发明的目的就是为了提供一种基于多模态数据融合的非结构化场景可通行区域检测方法、装置及存储介质,提高复杂野外环境下可通行区域的检测精度。
本发明的目的可以通过以下技术方案来实现:
一种基于多模态数据融合的非结构化场景可通行区域检测方法,包括以下步骤:
步骤1)通过采集设备获取相机RGB图像和激光雷达点云数据,并将激光雷达点云数据转换成具有更加明显的物体平面特征的表面法向量图像(surface normal图像);
步骤2)基于MCF(Multi-modal Cross Fusion,多模态交叉融合)模块对图像进行模态融合,得到融合RGB特征图和融合表面法向量特征图;
步骤3)对融合RGB特征图和融合表面法向量特征图在通道层面进行连接后输入主干网络进行特征提取;
步骤4)基于主干网络特征提取结果进行边缘分割,得到边缘分割特征图和可通行区域边缘预测结果;
步骤5)对主干网络的最后一层特征提取结果进行进一步特征提取后,分别与融合RGB特征图、融合表面法向量特征图在通道层面进行连接,通过分割特征图和卷积操作提取相机模态分割特征图、激光雷达模态分割特征图及其对应的可通行区域初步预测结果;
步骤6)对边缘分割特征图、相机模态分割特征图和激光雷达模态分割特征图在通道层面进行连接,通过分割特征图和卷积操作提取精细可通行区域预测结果。
所述步骤2)包括以下步骤:
步骤2-1)基于自注意力模型编码器分别对相机RGB图像和表面法向量图像进行初步特征提取;
步骤2-2)将初步特征提取得到的特征图输入MCF模块,对两个特征图分别进行全局均值池化、全连接以及Sigmoid激活操作得到RGB全局特征向量和表面法向量全局特征向量,对输入的相机RGB图像的特征图和表面法向量全局特征向量做哈达玛积运算,生成多模态融合后的融合RGB特征图,同时对输入的表面法向量图像的特征图和RGB全局特征向量做哈达玛积运算,生成多模态融合后的融合表面法向量特征图。
所述步骤3)中,主干网络由连续的三个自注意力模型编码器组成,每个编码器输出一个特征图,经过主干网络特征提取后得到包括输入特征图在内的4个不同分辨率大小的特征图。
所述步骤4)包括以下步骤:
步骤4-1)将主干网络特征提取得到的前3个特征图分别通过一个MLP层进行进一步特征提取和尺寸统一,其中,所述MLP层由全连接层和上采样层组成,前3个特征图通过MLP层后的尺寸与输入特征图大小一致;
步骤4-2)将尺寸统一后的特征图在通道层面进行连接,并进行多层卷积操作,得到边缘分割特征图;
步骤4-3)基于边缘分割特征图进行边缘分割,得到可通行区域边缘预测结果。
所述步骤5)包括以下步骤:
步骤5-1)对主干网络的最后一个编码器输出的特征图基于MLP层和ASPP(AtrousSpatial Pyramid Pooling,空洞空间卷积池化金字塔)层进行进一步特征提取,得到新的特征图;
步骤5-2)将新的特征图与融合RGB特征图在通道层面进行连接,并进行卷积操作后得到相机模态分割特征图,基于相机模态分割特征图进行分割结果预测,得到粗略的可通行区域初步预测结果;
步骤5-3)将新的特征图与融合表面法向量特征图在通道层面进行连接,并进行卷积操作后得到激光雷达模态分割特征图,基于激光雷达模态分割特征图进行分割结果预测,得到粗略的可通行区域初步预测结果。
所述边缘分割和可通行区域预测基于深度学习语义分割网络模型实现。
所述边缘分割采用带权重的交叉熵损失函数进行模型训练:
一种基于多模态数据融合的非结构化场景可通行区域检测装置,包括:
数据采集与预处理模块,用于获取相机RGB图像和激光雷达点云数据,并将激光雷达点云数据转换成表面法向量图像;
模态融合模块,用于基于MCF模块对图像进行模态融合,得到融合RGB特征图和融合表面法向量特征图;
特征提取模块,用于对融合RGB特征图和融合表面法向量特征图在通道层面进行连接后输入主干网络进行特征提取;
边缘预测解码器模块,用于基于主干网络特征提取结果进行边缘分割,得到边缘分割特征图和可通行区域边缘预测结果;
多模态分割解码器模块,用于对主干网络的最后一层特征提取结果进行进一步特征提取后,分别与融合RGB特征图、融合表面法向量特征图在通道层面进行连接,通过分割特征图和卷积操作提取相机模态分割特征图、激光雷达模态分割特征图及其对应的可通行区域初步预测结果;
可通行区域精细检测模块,用于对边缘分割特征图、相机模态分割特征图和激光雷达模态分割特征图在通道层面进行连接,通过分割特征图和卷积操作提取精细可通行区域预测结果。
一种基于多模态数据融合的非结构化场景可通行区域检测装置,包括存储器、处理器,以及存储于所述存储器中的程序,所述处理器执行所述程序时实现如上述所述的方法。
一种存储介质,其上存储有程序,所述程序被执行时实现如上述所述的方法。
本发明的原理在于:
本发明利用MCF模块融合了多模态的数据特征,通过边缘预测解码器模块和多模态分割解码器模块提高了最终分割的准确度。本发明提出了MCF模块用于融合相机模态和激光雷达模态的特征,输入的RGB特征图经过全局池化层、全连接层和Sigmoid激活层提取全局特征,得到相机模态RGB全局特征向量;输入的表面法向量特征图也会经过同样的操作,得到激光雷达模态表面法向量全局特征向量。随后将输入的RGB特征图和表面法向量全局特征向量做哈达玛积运算,得到融合RGB特征图;而输入的表面法向量特征图和RGB全局特征向量做哈达玛积运算,得到融合表面法向量特征图,这种融合方式可以更加平衡两个模态的特征,充分利用两个模态的特征。本发明提出了边缘预测解码器模块,由于前三个低层的特征图具有相对较大的分辨率并且包含更多的细节,所以被用来作为边缘预测解码器模块的输入,将这三个特征图分别都通过一个MLP层进一步提取特征和统一尺寸后,在通道层面连接起来,经过卷积操作得到边缘分割特征图,最后通过边缘分割得到可通行区域边缘的预测结果。该模块有助于让模型学习到更精细的边缘信息,缓解了非结构化的野外场景路面边缘难以界定的问题。本发明提出了多模态分割解码器模块,通过结合浅层的多模态特征和深层模型特征让模型更充分的学习和利用两个模态的信息。其中用ASPP模块来扩大感受野,获取更多的上下文信息,随后将该特征图分别与MCF模块中输出的融合RGB特征图和融合表面法向量特征图在通道层面连接起来,经过卷积操作和分割结果预测层得到相应模态的分割特征图和可通行区域初步预测结果。最后结合边缘分割特征图、相机模态分割特征图和激光雷达模态分割特征图得到最后的可通行区域精细的预测结果。
与现有技术相比,本发明具有以下有益效果:
(1)相比现有的多模态的特征融合模块,本发明提出的MCF模块能够更好的平衡和利用两个模态的特征,从而提高检测精度。
(2)本发明针对非结构化场景下的可通行区域,提出了边缘预测模块,能够提高边缘像素的分割准确率。
(3)本发明通过多模态分割解码器模块,更够进一步的让模型充分学习到两个模态的特征,进而提升检测精度。
附图说明
图1为本发明一实施例提供的一种基于多模态数据融合的非结构化场景可通行区域检测方法的流程示意图;
图2为本发明方法对应模型的整体结构图,其中,(a)为MCF模块,(b)为边缘预测解码器模块,(c)为多模态分割解码器模块;
图3为MCF模块和其他结构提取的特征图对比示意图,其中,(a)为输入数据,(b)为交叉注意力(cross attention)输出特征图,(c)为MCF模块输出特征图;
图4为在ORFD数据集上的部分分割结果图和对比图,其中,(a)为RGB图像,(b)为表面法向量图像,(c)为OFF-Net模型分割结果,(d)为本发明分割结果,(e)为真值;
图5为在实际采集的场景中的部分分割结果图和对比图其中,(a)为RGB图像,(b)为表面法向量图像,(c)为OFF-Net模型分割结果,(d)为本发明分割结果;
图6为本发明一实施例提供的一种基于多模态数据融合的非结构化场景可通行区域检测装置的结构框图;
图7为本发明一实施例的装置对应的硬件结构示意图。
图中附图标记为:A-数据采集与预处理模块,B-模态融合模块,C-特征提取模块,D-边缘预测解码器模块,E-多模态分割解码器模块,F-可通行区域精细检测模块。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本实施例提供一种基于多模态数据融合的非结构化场景可通行区域检测方法,如图1所示,其基于深度学习语义分割网络模型实现,方法对应的模型整体结构如图2所示。具体的,方法包括以下步骤:
步骤1)通过采集设备获取相机RGB图像和激光雷达点云数据,并将激光雷达点云数据通过外参和内参信息投影到RGB图像的平面上,得到稀疏的深度图,经过计算得到稠密深度图和相应的具有更加明显的物体平面特征的表面法向量图像。
步骤2)基于MCF(Multi-modal Cross Fusion)模块对图像进行模态融合,得到融合RGB特征图和融合表面法向量特征图。
步骤2-1)基于自注意力模型编码器分别对相机RGB图像和表面法向量图像进行初步特征提取,得到相机模态RGB图像的特征图F RGB 和激光雷达模态表面法向量图像的特征图F SN 。
本实施例中,自注意力模型编码器采用transformer结构。
步骤2-2)将初步特征提取得到的特征图F RGB 、F SN 输入MCF(多模态特征融合)模块,MCF模块的结构图如图2(a)所示,对两个特征图分别进行全局均值池化、全连接以及Sigmoid激活操作得到RGB全局特征向量v RGB 和表面法向量全局特征向量v SN ,该过程见公式(1)和公式(2),
其中σ()表示Sigmoid激活函数,Linear表示全连接层,但是在本发明的模型中被1x1卷积取代,Pooling表示全局平均池化。
随后,对输入的相机RGB图像的特征图F RGB 和表面法向量全局特征向量v SN 做哈达玛积运算,生成多模态融合后的融合RGB特征图F’ RGB ,同时对输入的表面法向量图像的特征图F SN 和RGB全局特征向量v RGB 做哈达玛积运算,生成多模态融合后的融合表面法向量特征图F ’ SN ,该过程如公式(3)和公式(4)所示,
步骤3)对融合RGB特征图F’ RGB 和融合表面法向量特征图F’ SN 在通道层面进行连接后,输入主干网络进行特征提取。
主干网络由连续的三个自注意力模型编码器组成,每个编码器输出一个特征图,经过主干网络特征提取后得到包括输入特征图在内的4个不同分辨率大小的特征图。本实施例中,自注意力模型编码器采用transformer结构。
步骤4)基于主干网络特征提取结果进行边缘分割,得到边缘分割特征图和可通行区域边缘预测结果。
步骤4-1)由于前三个低层的特征图具有相对较大的分辨率并且包含更多的细节,所以被用来作为边缘预测解码器模块的输入。如图2(b)边缘预测解码器模块所示,将主干网络特征提取得到的前3个特征图分别通过一个MLP层进行进一步特征提取和尺寸统一,其中,MLP层由全连接层和上采样层组成,前3个特征图通过MLP层后的尺寸与输入特征图大小一致。
而由于属于边缘的像素个数和非边缘的像素个数差别巨大,用普通的交叉熵损失函数不太适合,所以本发明采用了带权重的交叉熵损失函数,如公式(5)和公式(6)所示:
通过这样计算权重,像素个数少的类别损失权重会更大,而像素个数多的类别权重则会相应减少,能达到平衡两个类别损失的作用。
步骤5)对主干网络的最后一层特征提取结果进行进一步特征提取后,分别与融合RGB特征图、融合表面法向量特征图在通道层面进行连接,通过分割特征图和卷积操作提取相机模态分割特征图、激光雷达模态分割特征图及其对应的可通行区域初步预测结果。
为了让模型能更好的学习到两个模态的特征,本发明还提出了多模态分割解码器模块来预测两个模态的一个粗略的分割结果,如图2(c)多模态分割解码器模块所示,其执行以下步骤:
步骤5-1)对主干网络的最后一个编码器输出的特征图基于MLP层和ASPP(AtrousSpatial Pyramid Pooling,空洞空间卷积池化金字塔)层进行进一步特征提取,得到新的特征图。
由于高层低分辨率的特征图具有丰富的语义信息,但是缺少细节信息,所以本发明首先在最后一层添加了ASPP层来扩大感受野并获得更有用的上下文语义信息。
步骤5-2)将新的特征图与融合RGB特征图F’ RGB 在通道层面进行连接,并进行卷积操作后得到相机模态分割特征图,基于相机模态分割特征图,利用分割结果预测层进行分割结果预测,得到粗略的可通行区域初步预测结果/>。
步骤5-3)将新的特征图与融合表面法向量特征图F’ SN 在通道层面进行连接,并进行卷积操作后得到激光雷达模态分割特征图,基于激光雷达模态分割特征图,利用分割结果预测层进行分割结果预测,得到粗略的可通行区域初步预测结果/>。
为了验证本发明的有效性,本实施例将本发明中的方法与目前的一些方法在非结构化场景下的可通行区域分割结果,在非结构化场景可通行区域分割数据集ORFD上进行了比较,表1展示了本发明的MCF模块和其他方法中的交叉注意力模块在多模态融合层面的性能对比。
表1 本发明的MCF模块与交叉注意力模块的对比结果
模型 | 准确率 | 精度 | 召回率 | F1 | IoU |
交叉注意力模块 | 0.945 | 0.866 | 0.943 | 0.903 | 0.823 |
MCF模块 | 0.967 | 0.928 | 0.952 | 0.940 | 0.887 |
由表1可以看出,本发明的MCF模块带来的效果比交叉注意力模块在F1指标上提高了3.7%,在IoU指标上提高了6.4%,且在准确率、精度、召回率上都具有更好的表现。而两个多模态特征融合模块的输出特征图可视化结果对比如图3所示,可以看出图3(b)中交叉注意力模块输出的特征图很大程度上受到表面法向量图的影响,没能充分利用两个模态的信息,而图3(c)中本发明的MCF模块则能兼顾两个模态的特征。
表2展示了本发明提出的模型和其他方法模型的测试性能结果对比。从表2中可以看出,本发明比之前最好的方法OFF-Net在F1指标上提升了6.1%,在IoU指标上提升了10.8%,且在准确率、精度、召回率上都具有更好的表现。最后本发明的结果做可视化以及对比如图4所示,在ORFD数据集上进行了验证。图5则展示了在实际采集的场景下本发明的方法与其他方法的可通行区域分割结果对比。
表2 本发明与其他方法的各性能对比
本发明还提供了图6所示的一种对应于图1的基于多模态数据融合的非结构化场景可通行区域检测装置的示意结构图。如图7所述,在硬件层面,该装置包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,以实现上述图1所述的数据采集的方法。当然,除了软件实现方式之外,本发明并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依据本发明的构思在现有技术的基础上通过逻辑分析、推理、或者有限的实验可以得到的技术方案,皆应在权利要求书所确定的保护范围内。
Claims (10)
1.一种基于多模态数据融合的非结构化场景可通行区域检测方法,其特征在于,包括以下步骤:
步骤1)获取相机RGB图像和激光雷达点云数据,并将激光雷达点云数据转换成表面法向量图像;
步骤2)基于MCF模块对图像进行模态融合,得到融合RGB特征图和融合表面法向量特征图;
步骤3)对融合RGB特征图和融合表面法向量特征图在通道层面进行连接后输入主干网络进行特征提取;
步骤4)基于主干网络特征提取结果进行边缘分割,得到边缘分割特征图和可通行区域边缘预测结果;
步骤5)对主干网络的最后一层特征提取结果进行进一步特征提取后,分别与融合RGB特征图、融合表面法向量特征图在通道层面进行连接,通过分割特征图和卷积操作提取相机模态分割特征图、激光雷达模态分割特征图及其对应的可通行区域初步预测结果;
步骤6)对边缘分割特征图、相机模态分割特征图和激光雷达模态分割特征图在通道层面进行连接,通过分割特征图和卷积操作提取精细可通行区域预测结果。
2.根据权利要求1所述的一种基于多模态数据融合的非结构化场景可通行区域检测方法,其特征在于,所述步骤2)包括以下步骤:
步骤2-1)基于自注意力模型编码器分别对相机RGB图像和表面法向量图像进行初步特征提取;
步骤2-2)将初步特征提取得到的特征图输入MCF模块,对两个特征图分别进行全局均值池化、全连接以及激活操作得到RGB全局特征向量和表面法向量全局特征向量,对输入的相机RGB图像的特征图和表面法向量全局特征向量做哈达玛积运算,生成多模态融合后的融合RGB特征图,同时对输入的表面法向量图像的特征图和RGB全局特征向量做哈达玛积运算,生成多模态融合后的融合表面法向量特征图。
3.根据权利要求1所述的一种基于多模态数据融合的非结构化场景可通行区域检测方法,其特征在于,所述步骤3)中,主干网络由连续的三个自注意力模型编码器组成,每个编码器输出一个特征图,经过主干网络特征提取后得到包括输入特征图在内的4个不同分辨率大小的特征图。
4.根据权利要求3所述的一种基于多模态数据融合的非结构化场景可通行区域检测方法,其特征在于,所述步骤4)包括以下步骤:
步骤4-1)将主干网络特征提取得到的前3个特征图分别通过一个MLP层进行进一步特征提取和尺寸统一,其中,所述MLP层由全连接层和上采样层组成,前3个特征图通过MLP层后的尺寸与输入特征图大小一致;
步骤4-2)将尺寸统一后的特征图在通道层面进行连接,并进行多层卷积操作,得到边缘分割特征图;
步骤4-3)基于边缘分割特征图进行边缘分割,得到可通行区域边缘预测结果。
5.根据权利要求4所述的一种基于多模态数据融合的非结构化场景可通行区域检测方法,其特征在于,所述步骤5)包括以下步骤:
步骤5-1)对主干网络的最后一个编码器输出的特征图基于MLP层和ASPP层进行进一步特征提取,得到新的特征图;
步骤5-2)将新的特征图与融合RGB特征图在通道层面进行连接,并进行卷积操作后得到相机模态分割特征图,基于相机模态分割特征图进行分割结果预测,得到粗略的可通行区域初步预测结果;
步骤5-3)将新的特征图与融合表面法向量特征图在通道层面进行连接,并进行卷积操作后得到激光雷达模态分割特征图,基于激光雷达模态分割特征图进行分割结果预测,得到粗略的可通行区域初步预测结果。
6.根据权利要求1所述的一种基于多模态数据融合的非结构化场景可通行区域检测方法,其特征在于,所述边缘分割和可通行区域预测基于深度学习语义分割网络模型实现。
8.一种基于多模态数据融合的非结构化场景可通行区域检测装置,其特征在于,包括:
数据采集与预处理模块,用于获取相机RGB图像和激光雷达点云数据,并将激光雷达点云数据转换成表面法向量图像;
模态融合模块,用于基于MCF模块对图像进行模态融合,得到融合RGB特征图和融合表面法向量特征图;
特征提取模块,用于对融合RGB特征图和融合表面法向量特征图在通道层面进行连接后输入主干网络进行特征提取;
边缘预测解码器模块,用于基于主干网络特征提取结果进行边缘分割,得到边缘分割特征图和可通行区域边缘预测结果;
多模态分割解码器模块,用于对主干网络的最后一层特征提取结果进行进一步特征提取后,分别与融合RGB特征图、融合表面法向量特征图在通道层面进行连接,通过分割特征图和卷积操作提取相机模态分割特征图、激光雷达模态分割特征图及其对应的可通行区域初步预测结果;
可通行区域精细检测模块,用于对边缘分割特征图、相机模态分割特征图和激光雷达模态分割特征图在通道层面进行连接,通过分割特征图和卷积操作提取精细可通行区域预测结果。
9.一种基于多模态数据融合的非结构化场景可通行区域检测装置,包括存储器、处理器,以及存储于所述存储器中的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一所述的方法。
10.一种存储介质,其上存储有程序,其特征在于,所述程序被执行时实现如权利要求1-7中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310586543.5A CN116343159B (zh) | 2023-05-24 | 2023-05-24 | 一种非结构化场景可通行区域检测方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310586543.5A CN116343159B (zh) | 2023-05-24 | 2023-05-24 | 一种非结构化场景可通行区域检测方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116343159A true CN116343159A (zh) | 2023-06-27 |
CN116343159B CN116343159B (zh) | 2023-08-01 |
Family
ID=86889729
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310586543.5A Active CN116343159B (zh) | 2023-05-24 | 2023-05-24 | 一种非结构化场景可通行区域检测方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116343159B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117974960A (zh) * | 2024-03-28 | 2024-05-03 | 临沂大学 | 一种双光融合动态超分辨率分层感知方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102019123483A1 (de) * | 2019-09-02 | 2021-03-04 | Audi Ag | Verfahren sowie Kraftfahrzeug-Steuereinheit zum Erfassen einer Umgebung eines Kraftfahrzeugs durch Fusionieren von Sensordaten auf Punktwolkenebene |
CN112731436A (zh) * | 2020-12-17 | 2021-04-30 | 浙江大学 | 基于点云上采样的多模态数据融合可行驶区域检测方法 |
CN113343875A (zh) * | 2021-06-18 | 2021-09-03 | 深圳亿嘉和科技研发有限公司 | 一种用于机器人的可行驶区域感知方法 |
DE102021102785A1 (de) * | 2020-03-03 | 2021-09-09 | GM Global Technology Operations LLC | Verfahren und vorrichtung zur spurerkennung auf einer fahrzeugfahrfläche |
CN113902933A (zh) * | 2021-09-27 | 2022-01-07 | 浙江大华技术股份有限公司 | 一种地面分割网络模型的训练方法、装置、设备和介质 |
CN114693924A (zh) * | 2022-03-14 | 2022-07-01 | 南京航空航天大学 | 一种基于多模型融合的道路场景语义分割方法 |
CN115398272A (zh) * | 2020-04-30 | 2022-11-25 | 华为技术有限公司 | 检测车辆可通行区域的方法及装置 |
CN115965783A (zh) * | 2022-12-21 | 2023-04-14 | 东南大学 | 一种基于点云和图像特征融合的非结构化道路分割方法 |
-
2023
- 2023-05-24 CN CN202310586543.5A patent/CN116343159B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102019123483A1 (de) * | 2019-09-02 | 2021-03-04 | Audi Ag | Verfahren sowie Kraftfahrzeug-Steuereinheit zum Erfassen einer Umgebung eines Kraftfahrzeugs durch Fusionieren von Sensordaten auf Punktwolkenebene |
DE102021102785A1 (de) * | 2020-03-03 | 2021-09-09 | GM Global Technology Operations LLC | Verfahren und vorrichtung zur spurerkennung auf einer fahrzeugfahrfläche |
CN115398272A (zh) * | 2020-04-30 | 2022-11-25 | 华为技术有限公司 | 检测车辆可通行区域的方法及装置 |
CN112731436A (zh) * | 2020-12-17 | 2021-04-30 | 浙江大学 | 基于点云上采样的多模态数据融合可行驶区域检测方法 |
CN113343875A (zh) * | 2021-06-18 | 2021-09-03 | 深圳亿嘉和科技研发有限公司 | 一种用于机器人的可行驶区域感知方法 |
CN113902933A (zh) * | 2021-09-27 | 2022-01-07 | 浙江大华技术股份有限公司 | 一种地面分割网络模型的训练方法、装置、设备和介质 |
CN114693924A (zh) * | 2022-03-14 | 2022-07-01 | 南京航空航天大学 | 一种基于多模型融合的道路场景语义分割方法 |
CN115965783A (zh) * | 2022-12-21 | 2023-04-14 | 东南大学 | 一种基于点云和图像特征融合的非结构化道路分割方法 |
Non-Patent Citations (2)
Title |
---|
刘子熠;余思雨;郑南宁;: "一种基于共点映射的无人车可行驶区域检测方法", ENGINEERING, no. 04 * |
周智;蔡自兴;余伶俐;: "基于直线特征提取的自主车辆可通行区域检测", 华中科技大学学报(自然科学版), no. 2 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117974960A (zh) * | 2024-03-28 | 2024-05-03 | 临沂大学 | 一种双光融合动态超分辨率分层感知方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116343159B (zh) | 2023-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109145939B (zh) | 一种小目标敏感的双通道卷积神经网络语义分割方法 | |
Jaritz et al. | Sparse and dense data with cnns: Depth completion and semantic segmentation | |
CN108647585B (zh) | 一种基于多尺度循环注意力网络的交通标识符检测方法 | |
CN111553406B (zh) | 基于改进yolo-v3的目标检测系统、方法及终端 | |
KR102337376B1 (ko) | 레인 마스크(Lane Mask)를 사용하여 후처리 없이 입력 이미지에 포함된 하나 이상의 차선을 검출하는 방법 및 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치 | |
CN107274445B (zh) | 一种图像深度估计方法和系统 | |
CN113642390B (zh) | 一种基于局部注意力网络的街景图像语义分割方法 | |
CN111861925B (zh) | 一种基于注意力机制与门控循环单元的图像去雨方法 | |
CN112016569B (zh) | 基于注意力机制的目标检测方法、网络、设备和存储介质 | |
KR20200091317A (ko) | 자율 주행 자동차의 레벨 4를 충족시키기 위해 영역의 클래스에 따라 모드를 전환하여 그리드 셀 별로 가중 컨벌루션 필터를 이용한 감시용 이미지 세그멘테이션 방법 및 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치 | |
CN116343159B (zh) | 一种非结构化场景可通行区域检测方法、装置及存储介质 | |
CN114764856A (zh) | 图像语义分割方法和图像语义分割装置 | |
CN116129386A (zh) | 可行驶区域检测方法、系统及计算机可读介质 | |
CN111178178B (zh) | 结合区域分布的多尺度行人重识别方法、系统、介质及终端 | |
CN112001453A (zh) | 一种视频事件检测算法的准确率计算方法及装置 | |
Liu et al. | A new multi-channel deep convolutional neural network for semantic segmentation of remote sensing image | |
CN115661767A (zh) | 一种基于卷积神经网络的图像前方车辆目标识别方法 | |
CN117218622A (zh) | 路况检测方法、电子设备及存储介质 | |
CN111079634A (zh) | 车辆行驶中检测障碍物的方法、装置、系统及车辆 | |
CN116861262B (zh) | 一种感知模型训练方法、装置及电子设备和存储介质 | |
CN112634289B (zh) | 一种基于非对称空洞卷积的快速可行域分割方法 | |
CN117634556A (zh) | 一种基于水面数据的语义分割神经网络的训练方法及装置 | |
CN117011819A (zh) | 基于特征引导注意力的车道线检测方法、装置及设备 | |
CN111144361A (zh) | 一种基于二值化cgan网络的公路车道检测方法 | |
Feng et al. | Improved deep fully convolutional network with superpixel-based conditional random fields for building extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |