CN115496923B - 一种基于不确定性感知的多模态融合目标检测方法及装置 - Google Patents

一种基于不确定性感知的多模态融合目标检测方法及装置 Download PDF

Info

Publication number
CN115496923B
CN115496923B CN202211131095.1A CN202211131095A CN115496923B CN 115496923 B CN115496923 B CN 115496923B CN 202211131095 A CN202211131095 A CN 202211131095A CN 115496923 B CN115496923 B CN 115496923B
Authority
CN
China
Prior art keywords
target
point cloud
target detection
iou
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211131095.1A
Other languages
English (en)
Other versions
CN115496923A (zh
Inventor
李志伟
王坤峰
王梓涵
谭启凡
张国英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Chemical Technology
Original Assignee
Beijing University of Chemical Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Chemical Technology filed Critical Beijing University of Chemical Technology
Priority to CN202211131095.1A priority Critical patent/CN115496923B/zh
Publication of CN115496923A publication Critical patent/CN115496923A/zh
Application granted granted Critical
Publication of CN115496923B publication Critical patent/CN115496923B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供了一种基于不确定性感知的多模态融合目标检测方法及装置,涉及自动驾驶技术领域,所述方法包括:获取RGB图像和点云数据;对点云数据进行处理,得到和RGB图像匹配的点云图像;对RGB图像进行特征提取得到RGB特征图,利用预先训练完成的图像目标检测模型对RGB特征图进行处理,得到第一目标检测结果;对点云图像进行特征提取,得到点云特征图,利用预先训练完成的点云目标检测模型对点云特征图进行处理,得到第二目标检测结果;通过不确定性感知的多源NMS算法,对第一目标检测结果和第二目标检测结果进行融合处理,得到融合后的目标检测结果。本申请通过不确定性实现多模态数据的自适应融合,提高自动驾驶的安全性。

Description

一种基于不确定性感知的多模态融合目标检测方法及装置
技术领域
本申请涉及自动驾驶技术领域,尤其是涉及一种基于不确定性感知的多模态融合目标检测方法及装置。
背景技术
深度学习对计算机视觉的发展做出了巨大的贡献,目前的模型在大多数任务上有很好的表现,但是它们对脏数据的局限性不能满足工业应用的实际标准。因此,模型的鲁棒性和泛化能力是开发的重点。由于观测模式的变化,数据中的噪声会导致识别不准确。虽然前沿研究利用多模态融合来弥补单传感器测量的局限性,但很少关注实际应用中的缺陷数据。这些问题都会影响模型的鲁棒性和泛化能力。针对这些问题,可以采用多管道松散耦合架构,结合点云和图像的特征和结果,并对不同模块中的不确定性进行建模,减少融合的随机性,产生可靠的输出。
在自动驾驶的多模态目标检测方面,早期基于模型的方法使用bagging方法进行结果融合,最新的数据驱动方法主要应用特征融合(增强或堆叠)以获得更深刻的信息融合,在特征提取或ROI区域生成阶段融合多模态数据。然而,现有的融合方法侧重于量化在标准视觉任务中的分数,而很少对融合的鲁棒性或泛化性做出贡献。
发明内容
有鉴于此,本申请提供了一种基于不确定性感知的多模态融合目标检测方法及装置,以解决上述技术问题。
第一方面,本申请实施例提供了一种基于不确定性感知的多模态融合目标检测方法,所述方法包括:
获取当前时刻的RGB图像和点云数据;
对当前时刻的点云数据进行处理,得到和RGB图像匹配的点云图像;
对RGB图像进行特征提取得到RGB特征图,利用预先训练完成的图像目标检测模型对RGB特征图进行处理,得到第一目标检测结果;所述第一目标检测结果包括多个目标边界框和对应的方差;
对点云图像进行特征提取,得到点云特征图,利用预先训练完成的点云目标检测模型对点云特征图进行处理,得到第二目标检测结果;所述第二目标检测结果包括多个目标边界框和对应的方差;
通过不确定性感知的多源NMS算法,对RGB特征图的第一目标检测结果和点云特征图的第二目标检测结果进行融合处理,得到融合后的目标检测结果。
进一步地,对当前时刻的点云数据进行处理,得到和RGB图像匹配的点云图像;包括:
将点云数据投影到相机像素平面上,得到二维深度图像;
对二维深度图像进行裁剪处理,得到和RGB图像对应的相同尺寸的点云图像,点云图像的每个像元的像素值为反射强度值。
进一步地,其特征在于,所述图像目标检测模型采用YOLOV3网络,其输入为RGB特征图,输出为n个目标预测框和对应的方差;所述图像目标检测模型的训练步骤包括:
获取多张RGB样本图像,对各RGB样本图像进行特征提取,得到对应的RGB特征图;
利用图像目标检测模型对每个RGB样本图像的RGB特征图进行处理,得到n个目标预测框和对应的方差;
根据目标预测框和目标真实框计算损失函数L1(θ):
其中,xi为所述RGB样本特征图的第i个目标预测框,σ(xi)表示第i个目标预测框的方差;θ1为图像目标检测模型的模型参数;x表示目标真实框;
利用损失函数,更新图像目标检测模型的模型参数。
进一步地,所述点云目标检测模型采用YOLOV3网络,其输入为点云特征图,输出为m个目标预测框和对应的方差;所述点云目标检测模型的训练步骤包括:
获取多个点云样本数据,对各点云样本数据进行特征提取,得到对应的点云特征图;
利用点云目标检测模型对每个点云样本数据的点云特征图进行处理,得到m个目标预测框和对应的方差;
根据目标预测框和目标真实框计算损失函数L2(θ):
其中,yj为点云样本数据的点云特征图的第j个目标预测框,σ(yj)表示第j个目标预测框的方差;θ2为点云目标检测模型的模型参数;y表示目标真实框;
利用损失函数,更新点云目标检测模型的模型参数。
进一步地,通过不确定性感知的多源NMS算法,对RGB特征图的第一目标检测结果和点云特征图的第二目标检测结果进行融合处理,得到融合后的目标检测结果;包括:
步骤S1:获取第一目标检测结果,包括n个目标边界框b1,b2…bn及其对应的方差获取第二目标检测结果,包括m个目标边界框c1,c2…cm及其对应的方差将b1,b2…bn,c1,c2…cm组成目标边界框集合T,将b1,b2…bn,c1,c2…cm组成目标边界框的方差集合S;
步骤S2:获取方差集合S中最大值对应的目标边界框M,将目标边界框集合T中的目标边界框M剔除,将方差集合S中目标边界框M的方差剔除;
步骤S3:判断目标边界框集合T是否为空集,若为否,进入步骤S4,否则,进入步骤S8;
步骤S4:对于目标边界框集合T中的目标边界框tk,通过下式对对应的方差sk进行更新:
其中,Nt为阈值,IOU(tk,M)为目标边界框tk和目标边界框M的交并比;
步骤S5:判断目标边界框tk是否为属于RGB特征图上的目标边界框,若为是,则进入步骤S6;否则,进入步骤S7;
步骤S6:令IOU等于IOU(cj,M)的最大值;若IOU≥t2,则将IOU(ci,M)中大于等于t2的目标边界框标记上idx;若t1≤IOU<t2,则将IOU(ci,M)中大于等于t1的目标边界框标记上idx;若IOU<t1,则将IOU(ci,M)中大于等于t1的目标边界框标记上idx;其中,t1和t2均为阈值;
步骤S7:令IOU等于IOU(bi,M)的最大值;若IOU≥t2,则将IOU(bi,M)中大于等于t2的目标边界框标记上idx;若t1≤IOU<t2,则将IOU(bi,M)中大于等于t1的目标边界框标记上idx;若IOU<t1,则将IOU(bi,M)中大于等于t1的目标边界框标记上idx;其中,t1和t2均为阈值;
步骤S8:获取所有标记idx的目标边界框,将所有标记idx的目标边界框的平均值作为最终的边界框,将最终的边界框作为融合后的目标检测结果。
第二方面,本申请实施例提供了一种基于不确定性感知的多模态融合目标检测装置,所述装置包括:
获取单元,用于获取当前时刻的RGB图像和点云数据;
预处理单元,用于对当前时刻的点云数据进行处理,得到和RGB图像匹配的点云图像;
第一目标检测单元,用于对RGB图像进行特征提取得到RGB特征图,利用预先训练完成的图像目标检测模型对RGB特征图进行处理,得到第一目标检测结果;所述第一目标检测结果包括多个目标边界框和对应的方差;
第二目标检测单元,用于对点云图像进行特征提取,得到点云特征图,利用预先训练完成的点云目标检测模型对点云特征图进行处理,得到第二目标检测结果;所述第二目标检测结果包括多个目标边界框和对应的方差;
融合单元,用于通过不确定性感知的多源NMS算法,对RGB特征图的第一目标检测结果和点云特征图的第二目标检测结果进行融合处理,得到融合后的目标检测结果。
第三方面,本申请实施例提供了一种电子设备,包括:存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令被处理器执行时实现本申请实施例的方法。
本申请通过不确定性实现多模态数据的自适应融合,提高自动驾驶的安全性。
附图说明
为了更清楚地说明本申请具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的基于不确定性感知的多模态融合目标检测方法的流程图;
图2为本申请实施例提供的基于不确定性感知的多模态融合目标检测装置的功能结构图;
图3为本申请实施例提供的电子设备的功能结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
首先对本申请实施例的设计思想进行简单介绍。
在自动驾驶的多模态目标检测方面,早期基于模型的方法使用bagging方法进行结果融合,最新的数据驱动方法主要应用特征融合(增强或堆叠)以获得更深刻的信息融合,在特征提取或ROI区域生成阶段融合多模态数据。然而,现有的融合方法侧重于量化在标准视觉任务中的分数,而很少对融合的鲁棒性或泛化性做出贡献。
为解决上述技术问题,本申请提出了一种基于不确定性感知的多模态融合目标检测方法,为了实现可靠的融合,在两个目标检测模型的输出中引入了不确定性量化(方差),在后续的目标检测结果融合中,对预测方差范围内的候选框进行加权平均,进而可以最大程度利用不确定性,提升融合效果。该方法可以增强模型对噪声的抵抗能力,实现不同模态数据的自适应融合,提高自动驾驶的安全性。
本申请的优势如下:
1、对目标边界框进行融合而不是对分类得分进行融合,在噪声环境下以及融合时有更好的效果;
2、后融合有较好的可扩展性,可以实现不同模态数据及其预测的自适应融合;
3、提高模型性能和鲁棒性的同时具有较强的可解释性。
在介绍了本申请实施例的应用场景和设计思想之后,下面对本申请实施例提供的技术方案进行说明。
如图1所示,本申请实施例中提供了一种基于不确定性感知的多模态融合目标检测方法,具体包括如下步骤:
步骤101:获取当前时刻的RGB图像和点云数据;
本实施例中,采用安装在行驶车辆上的前向单目相机或前向单目摄像头采集路面图像信息。前向单目相机采集的是行驶车辆的行车方向正前方和路面上方的路面图像信息。即采集的路面图像信息是对应于采集车辆的行车方向的正前方和路面上方的信息的透视图。通过车载激光雷达获取原始点云数据。
其中,路面图像信息和路面点云信息是同步采集的。即可以在行驶车辆上安装配置激光雷达和前向单目相机后,标定它们的相对位置姿态,同时开始对同一路面开始路面数据信息采集。
对相机的标定,采用张氏标定法,先设定相机坐标系与世界坐标系,利用相机在预设位置放置的棋盘格上的成像,计算棋盘格的角点位置在成像中的二维坐标,再与棋盘格角点的真实三维坐标计算出变换矩阵;对激光雷达的标定,先设定激光雷达坐标系与真实世界坐标系,在预设位置放置若干障碍物并对齐进行激光雷达扫描,利用障碍物获得的点云在激光雷达坐标系中的坐标和障碍物在真实世界坐标系中的坐标计算得到两个坐标系的变换矩阵,其余参数,包括激光雷达的扫描分辨率、扫描速度、激光雷达与相机的时间对齐等,由各自的硬件信息与安装时的测量可以获得。标定将获得世界坐标系与相机的成像坐标系、世界坐标系与激光雷达坐标系之间的相互转换矩阵。
步骤102:对当前时刻的点云数据进行处理,得到和RGB图像匹配的点云图像;
为了便于计算,本实施例中所涉及的点云,均为360°点云中正对车辆前方,即图像所在方向的部分。并且,由于相机和激光雷达已经完成标定,可以确定点云投影到相机像素平面的转换矩阵T,以方便后续点云信息的特征提取。
具体地,考虑激光雷达和前向摄像头已经完成标定工作,且根据标定参数得到了激光雷达三维坐标系和世界三维坐标系的转换矩阵K1,相机二维成像坐标系和世界三维坐标系的转换矩阵K2。假设世界坐标系下有一点P,在世界坐标系下对应的三维坐标为X10,在点云所在的雷达坐标系中对应的三维坐标为X11,在相机成像坐标系下的二维坐标为U,则U=K2·X10,X11=K1·X10,因此 接着截取二维深度图像和RGB图像对应位置且相同尺寸的部分,每个像素点的取值为对应的反射强度值,再对空缺的部分以0值填补。从而激光雷达点云可以转换为RGB图像对应的二维点云图像。
步骤103:对RGB图像进行特征提取得到RGB特征图,利用预先训练完成的图像目标检测模型对RGB特征图进行处理,得到第一目标检测结果;所述第一目标检测结果包括多个目标边界框和对应的方差;
其中,对RGB图像进行特征提取得到RGB特征图可以有多种实施方式,例如:利用现有的特征提取网络,或者直接提取RGB图像的特征数据,生成RGB特征图。
在本实施例中,所述图像目标检测模型采用YOLOV3网络,其输入为RGB特征图,输出为n个目标预测框和对应的方差;目标预测框由4个维度的向量表示:(μxywh),其中,μx和μy为目标预测框的中心点的二维坐标,μw和μh为预测框的宽和高;方差使用4个维度的向量表示:(ɑx,ɑy,ɑw,ɑh),ɑx为参数μx的方差,ɑy为参数μy的方差,ɑw为参数μw的方差,ɑh为参数μh的方差,方差就是本申请的不确定的量化参数;通常的目标检测模型输出的是4个维度的目标预测框,本申请扩展到8个维度(μx,μy,μw,μh,ɑx,ɑy,ɑw,ɑh),方差用于后续的融合。
所述图像目标检测模型的训练步骤包括:
获取多张RGB样本图像,对各RGB样本图像进行特征提取,得到对应的RGB特征图;
利用图像目标检测模型对每个RGB样本图像的RGB特征图进行处理,得到n个目标预测框和对应的方差;
根据目标预测框和目标真实框计算损失函数L1(θ):
其中,xi为所述RGB样本特征图的第i个目标预测框,σ(xi)表示第i个目标预测框的方差;θ1为图像目标检测模型的模型参数;x表示目标真实框;
利用损失函数,更新图像目标检测模型的模型参数。
步骤104:对点云图像进行特征提取,得到点云特征图,利用预先训练完成的点云目标检测模型对点云特征图进行处理,得到第二目标检测结果;所述第二目标检测结果包括多个目标边界框和对应的方差;
其中,对点云图像进行特征提取得到点云特征图可以有多种实施方式,例如:利用现有的特征提取网络,或者直接提取点云图像的特征数据,生成点云特征图。
所述点云目标检测模型采用YOLOV3网络,其输入为点云特征图,输出为m个目标预测框和对应的方差;所述点云目标检测模型的训练步骤包括:
获取多个点云样本数据,对各点云样本数据进行特征提取,得到对应的点云特征图;
利用点云目标检测模型对每个点云样本数据的点云特征图进行处理,得到m个目标预测框和对应的方差;
根据目标预测框和目标真实框计算损失函数L2(θ):
其中,yj为点云样本数据的点云特征图的第j个目标预测框,σ(yj)表示第j个目标预测框的方差;θ2为点云目标检测模型的模型参数;y表示目标真实框;
利用损失函数,更新点云目标检测模型的模型参数。
步骤105:通过不确定性感知的多源NMS算法,对RGB特征图的第一目标检测结果和点云特征图的第二目标检测结果进行融合处理,得到融合后的目标检测结果。
不确定性估计主要应用于融合策略中,可以更好地解释传感器故障或极端天气导致的每种模态中的噪声。
在多源融合的情况下,如果直接混合来自多个管道的多种模态的预测,将忽略不同模态之间的模式相关性,以及每个模态内的一致性。因此,给定两个阈值t1和t2,可以将两种模态A、B的预测之间的关系分为三种情况:
1)当IOU(A、B)∈[t2,1],该区域由两个模态数据激活,具有高置信度。
2)当IOU(A、B)∈[t1,t2),该区域存在来自不同模态的混淆模式。
3)当IOU(A、B)∈[0,t1),不同的模态数据检测不相关的不同区域中的物体。
具体的,该步骤包括:
步骤S1:获取第一目标检测结果,包括n个目标边界框b1,b2…bn及其对应的方差获取第二目标检测结果,包括m个目标边界框c1,c2…cm及其对应的方差将b1,b2…bn,c1,c2…cm组成目标边界框集合T,将b1,b2…bn,c1,c2…cm组成目标边界框的方差集合S;
步骤S2:获取方差集合S中最大值对应的目标边界框M,将目标边界框集合T中的目标边界框M剔除,将方差集合S中目标边界框M的方差剔除;
步骤S3:判断目标边界框集合T是否为空集,若为否,进入步骤S4,否则,进入步骤S8;
步骤S4:对于目标边界框集合T中的目标边界框tk,通过下式对对应的方差sk进行更新:
其中,Nt为阈值,IOU(tk,M)为目标边界框tk和目标边界框M的交并比;
步骤S5:判断目标边界框tk是否为属于RGB特征图上的目标边界框,若为是,则进入步骤S6;否则,进入步骤S7;
步骤S6:令IOU等于IOU(cj,M)的最大值;若IOU≥t2,则将IOU(ci,M)中大于等于t2的目标边界框标记上idx;若t1≤IOU<t2,则将IOU(ci,M)中大于等于t1的目标边界框标记上idx;若IOU<t1,则将IOU(ci,M)中大于等于t1的目标边界框标记上idx;其中,t1和t2均为阈值;
步骤S7:令IOU等于IOU(bi,M)的最大值;若IOU≥t2,则将IOU(bi,M)中大于等于t2的目标边界框标记上idx;若t1≤IOU<t2,则将IOU(bi,M)中大于等于t1的目标边界框标记上idx;若IOU<t1,则将IOU(bi,M)中大于等于t1的目标边界框标记上idx;其中,t1和t2均为阈值;
步骤S8:获取所有标记idx的目标边界框,将所有标记idx的目标边界框的平均值作为最终的边界框,将最终的边界框作为融合后的目标检测结果。
基于上述实施例,本申请实施例提供了一种基于不确定性感知的多模态融合目标检测装置,参阅图2所示,本申请实施例提供的基于不确定性感知的多模态融合目标检测装置200至少包括:
获取单元201,用于获取当前时刻的RGB图像和点云数据;
处理单元202,用于对当前时刻的点云数据进行处理,得到和RGB图像匹配的点云图像;
第一目标检测单元203,用于对RGB图像进行特征提取得到RGB特征图,利用预先训练完成的图像目标检测模型对RGB特征图进行处理,得到第一目标检测结果;所述第一目标检测结果包括多个目标边界框和对应的方差;
第二目标检测单元204,用于对点云图像进行特征提取,得到点云特征图,利用预先训练完成的点云目标检测模型对点云特征图进行处理,得到第二目标检测结果;所述第二目标检测结果包括多个目标边界框和对应的方差;
融合单元205,用于通过不确定性感知的多源NMS算法,对RGB特征图的第一目标检测结果和点云特征图的第二目标检测结果进行融合处理,得到融合后的目标检测结果。
需要说明的是,本申请实施例提供的基于不确定性感知的多模态融合目标检测装置200解决技术问题的原理与本申请实施例提供的基于不确定性感知的多模态融合目标检测相似,因此,本申请实施例提供的基于不确定性感知的多模态融合目标检测装置200的实施可以参见本申请实施例提供的基于不确定性感知的多模态融合目标检测方法的实施,重复之处不再赘述。
基于上述实施例,本申请实施例还提供了一种电子设备,参阅图3所示,本申请实施例提供的电子设备300至少包括:处理器301、存储器302和存储在存储器302上并可在处理器301上运行的计算机程序,处理器301执行计算机程序时实现本申请实施例提供的基于不确定性感知的多模态融合目标检测方法。
本申请实施例提供的电子设备300还可以包括连接不同组件(包括处理器301和存储器302)的总线303。其中,总线303表示几类总线结构中的一种或多种,包括存储器总线、外围总线、局域总线等。
存储器302可以包括易失性存储器形式的可读介质,例如随机存储器(RandomAccess Memory,RAM)3021和/或高速缓存存储器3022,还可以进一步包括只读存储器(ReadOnly Memory,ROM)3023。
存储器302还可以包括具有一组(至少一个)程序模块3024的程序工具3025,程序模块3024包括但不限于:操作子系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
电子设备300也可以与一个或多个外部设备304(例如键盘、遥控器等)通信,还可以与一个或者多个使得用户能与电子设备300交互的设备通信(例如手机、电脑等),和/或,与使得电子设备300与一个或多个其它电子设备300进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入/输出(Input/Output,I/O)接口305进行。并且,电子设备300还可以通过网络适配器306与一个或者多个网络(例如局域网(Local AreaNetwork,LAN),广域网(Wide Area Network,WAN)和/或公共网络,例如因特网)通信。如图3所示,网络适配器306通过总线303与电子设备300的其它模块通信。应当理解,尽管图3中未示出,可以结合电子设备300使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of IndependentDisks,RAID)子系统、磁带驱动器以及数据备份存储子系统等。
需要说明的是,图3所示的电子设备300仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机指令,该计算机指令被处理器执行时实现本申请实施例提供的基于不确定性感知的多模态融合目标检测方法。具体地,该可执行程序可以内置或者安装在电子设备300中,这样,电子设备300就可以通过执行内置或者安装的可执行程序实现本申请实施例提供的基于不确定性感知的多模态融合目标检测方法。
本申请实施例提供的多模态目标检测方法还可以实现为一种程序产品,该程序产品包括程序代码,当该程序产品可以在电子设备300上运行时,该程序代码用于使电子设备300执行本申请实施例提供的基于不确定性感知的多模态融合目标检测方法。
本申请实施例提供的程序产品可以采用一个或多个可读介质的任意组合,其中,可读介质可以是可读信号介质或者可读存储介质,而可读存储介质可以是但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合,具体地,可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、RAM、ROM、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、光纤、便携式紧凑盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请实施例提供的程序产品可以采用CD-ROM并包括程序代码,还可以在计算设备上运行。然而,本申请实施例提供的程序产品不限于此,在本申请实施例中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
最后所应说明的是,以上实施例仅用以说明本申请的技术方案而非限制。尽管参照实施例对本申请进行了详细说明,本领域的普通技术人员应当理解,对本申请的技术方案进行修改或者等同替换,都不脱离本申请技术方案的精神和范围,其均应涵盖在本申请的权利要求范围当中。

Claims (7)

1.一种基于不确定性感知的多模态融合目标检测方法,其特征在于,所述方法包括:
获取当前时刻的RGB图像和点云数据;
对当前时刻的点云数据进行处理,得到和RGB图像匹配的点云图像;
对RGB图像进行特征提取得到RGB特征图,利用预先训练完成的图像目标检测模型对RGB特征图进行处理,得到第一目标检测结果;所述第一目标检测结果包括多个目标边界框和对应的方差;
对点云图像进行特征提取,得到点云特征图,利用预先训练完成的点云目标检测模型对点云特征图进行处理,得到第二目标检测结果;所述第二目标检测结果包括多个目标边界框和对应的方差;
通过不确定性感知的多源NMS算法,对RGB特征图的第一目标检测结果和点云特征图的第二目标检测结果进行融合处理,得到融合后的目标检测结果;
通过不确定性感知的多源NMS算法,对RGB特征图的第一目标检测结果和点云特征图的第二目标检测结果进行融合处理,得到融合后的目标检测结果;包括:
步骤S1:获取第一目标检测结果,包括n个目标边界框b1,b2…bn及其对应的方差获取第二目标检测结果,包括m个目标边界框c1,c2…cm及其对应的方差将b1,b2…bn,c1,c2…cm组成目标边界框集合T,将b1,b2…bn,c1,c2…cm组成目标边界框的方差集合S;
步骤S2:获取方差集合S中最大值对应的目标边界框M,将目标边界框集合T中的目标边界框M剔除,将方差集合S中目标边界框M的方差剔除;
步骤S3:判断目标边界框集合T是否为空集,若为否,进入步骤S4,否则,进入步骤S8;
步骤S4:对于目标边界框集合T中的目标边界框tk,通过下式对对应的方差sk进行更新:
其中,Nt为阈值,IOU(tk,M)为目标边界框tk和目标边界框M的交并比;
步骤S5:判断目标边界框tk是否为属于RGB特征图上的目标边界框,若为是,则进入步骤S7;否则,进入步骤S6;
步骤S6:令IOU等于IOU(cj,M)的最大值;若IOU≥μ2,则将IOU(cj,M)中大于等于μ2的目标边界框标记上idx;若μ1≤IOU<μ2,则将IOU(cj,M)中大于等于μ1的目标边界框标记上idx;若IOU<μ1,则将IOU(cj,M)中大于等于μ1的目标边界框标记上idx;其中,μ1和μ2均为阈值,1≤j≤m,j为整数;
步骤S7:令IOU等于IOU(bi,M)的最大值;若IOU≥μ2,则将IOU(bi,M)中大于等于μ2的目标边界框标记上idx;若μ1≤IOU<μ2,则将IOU(bi,M)中大于等于μ1的目标边界框标记上idx;若IOU<μ1,则将IOU(bi,M)中大于等于μ1的目标边界框标记上idx;1≤i≤n,i为整数;
步骤S8:获取所有标记idx的目标边界框,将所有标记idx的目标边界框的平均值作为最终的边界框,将最终的边界框作为融合后的目标检测结果。
2.根据权利要求1所述的基于不确定性感知的多模态融合目标检测方法,其特征在于,对当前时刻的点云数据进行处理,得到和RGB图像匹配的点云图像;包括:
将点云数据投影到相机像素平面上,得到二维深度图像;
对二维深度图像进行裁剪处理,得到和RGB图像对应的相同尺寸的点云图像,点云图像的每个像元的像素值为反射强度值。
3.根据权利要求1所述的基于不确定性感知的多模态融合目标检测方法,其特征在于,所述图像目标检测模型采用YOLOV3网络,其输入为RGB特征图,输出为n个目标预测框和对应的方差;所述图像目标检测模型的训练步骤包括:
获取多张RGB样本图像,对各RGB样本图像进行特征提取,得到对应的RGB特征图;
利用图像目标检测模型对每个RGB样本图像的RGB特征图进行处理,得到n个目标预测框和对应的方差;
根据目标预测框和目标真实框计算损失函数L11):
其中,xi为所述RGB样本图像的RGB特征图的第i个目标预测框,σ(xi)表示第i个目标预测框xi的方差;θ1为图像目标检测模型的模型参数;x表示目标真实框;
利用损失函数,更新图像目标检测模型的模型参数。
4.根据权利要求3所述的基于不确定性感知的多模态融合目标检测方法,其特征在于,所述点云目标检测模型采用YOLOV3网络,其输入为点云特征图,输出为m个目标预测框和对应的方差;所述点云目标检测模型的训练步骤包括:
获取多个点云样本数据,对各点云样本数据进行特征提取,得到对应的点云特征图;
利用点云目标检测模型对每个点云样本数据的点云特征图进行处理,得到m个目标预测框和对应的方差;
根据目标预测框和目标真实框计算损失函数L22):
其中,yj为点云样本数据的点云特征图的第j个目标预测框,σ(yj)表示第j个目标预测框yj的方差;θ2为点云目标检测模型的模型参数;y表示目标真实框;
利用损失函数,更新点云目标检测模型的模型参数。
5.一种基于不确定性感知的多模态融合目标检测装置,其特征在于,所述装置包括:
获取单元,用于获取当前时刻的RGB图像和点云数据;
预处理单元,用于对当前时刻的点云数据进行处理,得到和RGB图像匹配的点云图像;
第一目标检测单元,用于对RGB图像进行特征提取得到RGB特征图,利用预先训练完成的图像目标检测模型对RGB特征图进行处理,得到第一目标检测结果;所述第一目标检测结果包括多个目标边界框和对应的方差;
第二目标检测单元,用于对点云图像进行特征提取,得到点云特征图,利用预先训练完成的点云目标检测模型对点云特征图进行处理,得到第二目标检测结果;所述第二目标检测结果包括多个目标边界框和对应的方差;
融合单元,用于通过不确定性感知的多源NMS算法,对RGB特征图的第一目标检测结果和点云特征图的第二目标检测结果进行融合处理,得到融合后的目标检测结果;
所述融合单元具体用于:
步骤S1:获取第一目标检测结果,包括n个目标边界框b1,b2…bn及其对应的方差获取第二目标检测结果,包括m个目标边界框c1,c2…cm及其对应的方差将b1,b2…bn,c1,c2…cm组成目标边界框集合T,将b1,b2…bn,c1,c2…cm组成目标边界框的方差集合S;
步骤S2:获取方差集合S中最大值对应的目标边界框M,将目标边界框集合T中的目标边界框M剔除,将方差集合S中目标边界框M的方差剔除;
步骤S3:判断目标边界框集合T是否为空集,若为否,进入步骤S4,否则,进入步骤S8;
步骤S4:对于目标边界框集合T中的目标边界框tk,通过下式对对应的方差sk进行更新:
其中,Nt为阈值,IOU(tk,M)为目标边界框tk和目标边界框M的交并比;
步骤S5:判断目标边界框tk是否为属于RGB特征图上的目标边界框,若为是,则进入步骤S7;否则,进入步骤S6;
步骤S6:令IOU等于IOU(cj,M)的最大值;若IOU≥μ2,则将IOU(cj,M)中大于等于μ2的目标边界框标记上idx;若μ1≤IOU<μ2,则将IOU(cj,M)中大于等于μ1的目标边界框标记上idx;若IOU<μ1,则将IOU(cj,M)中大于等于μ1的目标边界框标记上idx;其中,μ1和μ2均为阈值,1≤j≤m,j为整数;
步骤S7:令IOU等于IOU(bi,M)的最大值;若IOU≥μ2,则将IOU(bi,M)中大于等于μ2的目标边界框标记上idx;若μ1≤IOU<μ2,则将IOU(bi,M)中大于等于μ1的目标边界框标记上idx;若IOU<μ1,则将IOU(bi,M)中大于等于μ1的目标边界框标记上idx,1≤i≤n,i为整数;
步骤S8:获取所有标记idx的目标边界框,将所有标记idx的目标边界框的平均值作为最终的边界框,将最终的边界框作为融合后的目标检测结果。
6.一种电子设备,其特征在于,包括:存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-4任一项所述的方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令被处理器执行时实现如权利要求1-4任一项所述的方法。
CN202211131095.1A 2022-09-14 2022-09-14 一种基于不确定性感知的多模态融合目标检测方法及装置 Active CN115496923B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211131095.1A CN115496923B (zh) 2022-09-14 2022-09-14 一种基于不确定性感知的多模态融合目标检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211131095.1A CN115496923B (zh) 2022-09-14 2022-09-14 一种基于不确定性感知的多模态融合目标检测方法及装置

Publications (2)

Publication Number Publication Date
CN115496923A CN115496923A (zh) 2022-12-20
CN115496923B true CN115496923B (zh) 2023-10-20

Family

ID=84467745

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211131095.1A Active CN115496923B (zh) 2022-09-14 2022-09-14 一种基于不确定性感知的多模态融合目标检测方法及装置

Country Status (1)

Country Link
CN (1) CN115496923B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116958027A (zh) * 2023-03-02 2023-10-27 腾讯科技(上海)有限公司 三维工业异常检测方法、装置、存储介质及电子设备
CN116539619B (zh) * 2023-04-19 2024-05-10 广州里工实业有限公司 产品缺陷检测方法、系统、装置及存储介质
CN117173692B (zh) * 2023-11-02 2024-02-02 安徽蔚来智驾科技有限公司 3d目标检测方法、电子设备、介质以及驾驶设备
CN118245854B (zh) * 2024-05-29 2024-09-27 浙江大华技术股份有限公司 输电线路检测方法、装置、设备以及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111781611A (zh) * 2020-06-16 2020-10-16 当家移动绿色互联网技术集团有限公司 建立模型的方法、装置、存储介质及电子设备
WO2020237693A1 (zh) * 2019-05-31 2020-12-03 华南理工大学 一种水面无人装备多源感知方法及系统
CN112233097A (zh) * 2020-10-19 2021-01-15 中国科学技术大学 基于空时域多维融合的道路场景他车检测系统和方法
CN112464905A (zh) * 2020-12-17 2021-03-09 湖南大学 3d目标检测方法及装置
CN112833892A (zh) * 2020-12-31 2021-05-25 杭州普锐视科技有限公司 一种基于轨迹对齐的语义建图方法
CN113111974A (zh) * 2021-05-10 2021-07-13 清华大学 基于深度典型相关分析的视觉-激光雷达融合方法及系统
CN114463736A (zh) * 2021-12-28 2022-05-10 天津大学 一种基于多模态信息融合的多目标检测方法及装置
CN115049821A (zh) * 2022-05-23 2022-09-13 中国矿业大学 一种基于多传感器融合的三维环境目标检测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020237693A1 (zh) * 2019-05-31 2020-12-03 华南理工大学 一种水面无人装备多源感知方法及系统
CN111781611A (zh) * 2020-06-16 2020-10-16 当家移动绿色互联网技术集团有限公司 建立模型的方法、装置、存储介质及电子设备
CN112233097A (zh) * 2020-10-19 2021-01-15 中国科学技术大学 基于空时域多维融合的道路场景他车检测系统和方法
CN112464905A (zh) * 2020-12-17 2021-03-09 湖南大学 3d目标检测方法及装置
CN112833892A (zh) * 2020-12-31 2021-05-25 杭州普锐视科技有限公司 一种基于轨迹对齐的语义建图方法
CN113111974A (zh) * 2021-05-10 2021-07-13 清华大学 基于深度典型相关分析的视觉-激光雷达融合方法及系统
CN114463736A (zh) * 2021-12-28 2022-05-10 天津大学 一种基于多模态信息融合的多目标检测方法及装置
CN115049821A (zh) * 2022-05-23 2022-09-13 中国矿业大学 一种基于多传感器融合的三维环境目标检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Syeda Mariam Ahmed ,Chew Chee Meng.Density Based Clustering for 3D Object Detection in Point Clouds.《CVPR 2020》.2020,第10608-10617页. *
Xin Gao et al..Multi-scalemulti-modal fusion for object detection in autonomous driving based on selective kernel.《Measurement》.2022,第1-10页. *
王亚东 等.基于卷积神经网络的三维目标检测研究综述.《模式识别与人工智能》.2021,第34卷(第12期),第1103-1119页. *

Also Published As

Publication number Publication date
CN115496923A (zh) 2022-12-20

Similar Documents

Publication Publication Date Title
CN115496923B (zh) 一种基于不确定性感知的多模态融合目标检测方法及装置
CN115861632B (zh) 一种基于图卷积的视觉激光融合的三维目标检测方法
CN112967283B (zh) 基于双目摄像头的目标识别方法、系统、设备及存储介质
CN110363817B (zh) 目标位姿估计方法、电子设备和介质
CN115861601B (zh) 一种多传感器融合感知方法及装置
JP7438320B2 (ja) クロスモーダルセンサデータの位置合わせ
CN111445531B (zh) 一种多目相机导航方法、装置、设备及存储介质
CN111488812B (zh) 障碍物位置识别方法、装置、计算机设备和存储介质
CN112949366B (zh) 障碍物识别方法和装置
CN113657409A (zh) 车辆损失检测方法、装置、电子设备及存储介质
KR20200045701A (ko) 소실점 검출을 위한 학습 방법, 소실점 검출 방법 및 장치
CN114089330A (zh) 一种基于深度图像修复的室内移动机器人玻璃检测与地图更新方法
CN113624223B (zh) 一种室内停车场地图构建方法及装置
CN112907583B (zh) 目标对象姿态选择方法、图像评分方法及模型训练方法
CN116778262B (zh) 一种基于虚拟点云的三维目标检测方法和系统
CN112639822B (zh) 一种数据处理方法及装置
CN114627438A (zh) 目标检测模型生成方法、目标检测方法、设备及介质
CN112837404B (zh) 一种平面对象的三维信息的构建方法及装置
CN116642490A (zh) 基于混合地图的视觉定位导航方法、机器人及存储介质
CN116977959A (zh) 一种基于信息熵的全天时多模态融合方法及装置
CN116052120A (zh) 基于图像增强和多传感器融合的挖掘机夜间物体检测方法
CN113298044B (zh) 基于定位补偿的障碍物检测方法、系统、设备及存储介质
CN112364693B (zh) 基于双目视觉的障碍识别方法、装置、设备及存储介质
CN114494857A (zh) 一种基于机器视觉的室内目标物识别和测距方法
WO2024142571A1 (ja) 画像処理装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant