CN116778288A - 一种多模态融合目标检测系统及方法 - Google Patents

一种多模态融合目标检测系统及方法 Download PDF

Info

Publication number
CN116778288A
CN116778288A CN202310725760.8A CN202310725760A CN116778288A CN 116778288 A CN116778288 A CN 116778288A CN 202310725760 A CN202310725760 A CN 202310725760A CN 116778288 A CN116778288 A CN 116778288A
Authority
CN
China
Prior art keywords
point cloud
data
image
triangle
laser radar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310725760.8A
Other languages
English (en)
Inventor
刘爽
牛少峰
徐朋
张龙庆
司云博
赵佳晗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yanshan University
Original Assignee
Yanshan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yanshan University filed Critical Yanshan University
Priority to CN202310725760.8A priority Critical patent/CN116778288A/zh
Publication of CN116778288A publication Critical patent/CN116778288A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Length Measuring Devices By Optical Means (AREA)

Abstract

本发明公开了一种多模态融合目标检测系统及方法,所述检测系统包括获取模块、联合标定模块、数据预处理模块、预训练模块和目标检测模块,所述检测方法包括:获取激光雷达点云数据与相机图像数据;对两种数据进行坐标转换,完成空间对齐并获得点云在二维图像上的投影;对投影图像上的点集采用三角剖分,将图像分割成多个三角区域并得到投影点集的最小凸包;对每个三角形内部进行数据填充,将完成数据填充后的投影图进行滤波处理,得到致密的点云特征图;将点云特征图与RGB图像一同放入多模态特征融合深度学习网络进行特征提取并完成目标检测,本发明结合了目标的纹理与深度信息,提高了检测精度。

Description

一种多模态融合目标检测系统及方法
技术领域
本发明涉及一种多模态融合目标检测系统及方法,属于雷达数据处理和图像数据处理技术领域。
背景技术
随着自动驾驶和辅助驾驶的快速发展,环境感知技术显得尤为重要,是实现自动驾驶和辅助驾驶的关键基础之一。通过感知车辆周围的环境态势,不仅可以为车辆提供控制、路径规划和控制决策的参考信息,也可以和高精度地图匹配从而实现高精度定位。其中,障碍物识别是环境感知系统的关键组成部分。
目前,依靠单一传感器获取信息并进行目标检测仍然占据主流。相机成本低廉,通过相机可以获取场景宽广和纹理信息丰富的图像信息,但是缺少深度信息,并且严重依赖光照条件容易产生过曝或阴影遮挡的情况,依靠算法很难弥补信息的缺失。而激光雷达可以直接获取物体的三维坐标信息且不受光照条件的影响,但是激光雷达产生的点云较为稀疏,语义信息不够丰富很难对物体进行识别分类。因此这两种传感器具有很强的互补性,与单纯依靠相机或者激光雷达的目标检测算法相比,多模态融合的目标检测算法在识别效果上具有很大提升。
发明内容
本发明为解决上述技术问题,提供一种多模态融合目标检测系统及方法,结合了RGB图像丰富的纹理信息和点云的深度信息,提高了目标检测的准确性。
为解决上述技术问题,本发明所采用的一种技术方案是:
一种多模态融合目标检测系统,所述系统包括:
获取模块,用于获取激光雷达的点云数据和相机的图像数据;
联合标定模块,用于对所述相机和激光雷达进行联合标定,得到点云三维坐标和图像二维坐标之间的转换关系;
数据预处理模块,用于将所述点云数据进行坐标转换,通过点云三维坐标和图像二维坐标之间的转换关系将点云数据投影至二维平面且只保留深度特征,并通过上采样形成致密的点云特征图;
预训练模块,用于将致密点云特征图和RGB图像放入多模态特征融合的语义分割网络进行预训练,通过提取特征获取网络预训练模型;
目标检测模块,用于根据所述预训练模型对测试数据进行分类,完成目标检测。
本发明技术方案的进一步改进在于:所述联合标定模块具体包括:
相机标定单元,用于对所述相机的内外参标定,获取世界坐标系和像素坐标系之间的转换关系;
激光雷达标定单元,用于对所述激光雷达进行外参标定,获取激光雷达与世界坐标系之间的转换关系;
联合标定单元,用于将所述两种传感器与世界坐标系之间的转换关系进行联立,获取点云数据与图像数据之间的直接转换关系。
本发明技术方案的进一步改进在于:所述数据预处理模块,具体包括:
点云投影单元,用于对获取的点云进行预处理,将具有三维坐标的点云投影至二维图像形成稀疏点云投影图;
数据填充单元,用于对稀疏点云投影图进行三角剖分,通过加权求和填充三角形获取致密点云特征图。
本发明技术方案的进一步改进在于:所述多模态融合语义分割网络包括:
RGB图像编码网络:包含4个block,总共有4次下采样,每个block中包含3×3卷积提取特征和最大池化对图像尺寸压缩,每次下采样的同时通道数增加一倍;
点云特征图像编码网络:包含3个block,总共有三次下采样,每个block中包含3×3卷积提取特征和最大池化对图像尺寸压缩,每次下采样的同时通道数增加一倍;
特征解码网络:包含4个block,对应的每次上采样的同时特征图通道个数减少为原来的一半;
横向连接模块:对所述的三个DCNN网络对应层级之间的特征进行张量剪切并进行1×1的卷积。
为解决上述技术问题,本发明所采用的另一种技术方案是:
一种多模态融合目标检测方法,所述方法包括如下步骤:
步骤S1、激光雷达采集车辆周围环境的点云数据、相机采集车辆周围的图像数据,将采集到的两种模态数据进行数据融合,通过联合标定将激光雷达点云数据转换到图像二维坐标系下,完成稀疏点云投影,得到稀疏点云投影图;其中,相机采集的图像为RGB图像;
步骤S2、在数据融合过程中通过两种数据之间坐标转换关系获取点云对应深度Dlidar,并通过归一化将二维图像上点云对应投影像素坐标处像素赋值为Dimage
步骤S3、统计稀疏点云投影图中所有像素Dimage不为0的点,获取投影点集合,对集合内的点进行三角剖分,将二维图像分割成多个三角形区域并获取点集的最小凸包;
步骤S4、对所述三角形区域内任意一点Cha_P进行数据填充,将三角剖分平面内任意三角形顶点Pi_1,Pi_2,Pi_3进行加权求和,计算结果作为点Cha_P处的像素值;
步骤S5、根据步骤S4对每个三角形区域内的每个点进行像素值计算得到致密激光雷达点云特征图;
步骤S6、构建语义分割网络框架,根据所述语义分割网络对所述致密激光雷达点云特征图和RGB图像进行逐像素的分类,完成目标检测;其中,语义分割网络框架包括编码侧和解码侧两个部分。
本发明技术方案的进一步改进在于:所述步骤S1中数据融合的具体过程如下:
步骤S11、获取激光雷达和相机的时间戳数据,将激光雷达和相机的时间戳通过时间轴匹配,找到它们在时间轴上的相对位置,并通过截断法完成时间同步;
步骤S12、选取大小合适参数已知的标定板,放置在相机和激光雷达的重合视场内,进行点云和图像的特征点提取;
步骤S13、通过图像提取到的特征点坐标和已知的标定板参数可得图像二维坐标系与世界坐标系之间转换方程,方程如下:
其中,(u,v)表示像素坐标,(X,Y,Z)为世界坐标,由于世界坐标系设立在标定板上且Z轴与标定板垂直,故Z=0,A为相机内参矩阵,[R t]为相机外参矩阵,具体R为大小3×3的旋转矩阵,(r1,r2,r3)是旋转矩阵中的三个旋转向量,t为平移向量大小为3×1,s为比例因子;
步骤S14、通过点云提取到的特征点坐标和已知的标定板参数可得点云三维坐标系与世界坐标系之间转换方程,方程如下:
其中(Xr,Yr,Zr)为点云三维坐标系下的点云坐标,(X,Y,Z)为世界坐标,RLC为大小3×3的旋转矩阵,tLC为大小3×1的平移向量;由此可得目标函数:
步骤S15、根据所述相机与世界坐标系之间转换关系和激光雷达与世界坐标系之间转换关系,消去中间变量即世界坐标系即可完成激光雷达点云与图像之间的数据融合。
本发明技术方案的进一步改进在于:所述步骤S3中三角剖分的具体步骤如下:
步骤S31、构造一个能包含所有散点的矩形并记录该矩形4个顶点D1,D2,D3,D4的位置;
步骤S32、在散点点集中任选一点P1与矩形的4个顶点相连构成4个三角形;
步骤S33、插入剩余点,确定P2所在的三角形以及三角形顶点,做包含这三个顶点的全部的三角形的外接圆并找出包含P2点的三角形;如果这些三角形有公共边,则删除该公共边,并将P2与其余三角形的顶点连接起来,完成一个点的插入;
步骤S34、对以插入的三角形进行局部优化,将具有公共边的三角形看做一个四边形,根据DT三角形剖分的空圆准则,作其中一个三角形的外接圆,判断四边形的4个顶点是否在该外接圆内,如果在外接圆内,则将四边形的对角线对调,完成局部优化;
步骤S35、重复S33和S34,直到完成所有散点的插入。
本发明技术方案的进一步改进在于:所述步骤S4中三角形内数据填充的具体公式如下:
其中Cha_P为第i个三角形中任意一点,Pi_j为第i个三角形的第j个顶点的像素值,rj为Cha_P与Pi_j之间的欧式距离。
由于采用了上述技术方案,本发明取得的技术进步是:
本发明结合RGB图像丰富的纹理信息和点云的深度信息,提高了目标检测的准确性,提高了检测精度。
附图说明
图1是本发明多模态融合目标检测系统流程图;
图2是本发明多模态融合目标检测方法三角剖分示意图;
图3是本发明多模态融合目标检测方法原理图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明公开了一种多模态融合目标检测系统,如图3所示,所述系统包括:
获取模块,用于获取激光雷达的点云数据和相机的图像数据。
联合标定模块,用于对所述相机和激光雷达进行联合标定,获取点云三维坐标和图像二维坐标之间的转换关系。
数据预处理模块,用于将所述点云数据集进行坐标转换,通过点云三维坐标和图像二维坐标之间的转换关系将点云数据投影至二维平面且只保留深度特征,并通过上采样形成致密的点云特征图。
预训练模块,用于将致密点云特征图和RGB图像放入多模态特征融合的语义分割网络进行预训练,通过提取特征获取网络预训练模型。
目标检测模块,用于根据所述预训练模型对测试数据进行分类,完成目标检测。
作为一种实施方式,本发明所述联合标定模块,具体包括:
相机标定单元,用于对所述相机的内外参标定,获取世界坐标系和像素坐标系之间的转换关系。
激光雷达标定单元,用于对所述激光雷达进行外参标定,获取激光雷达与世界坐标系之间的转换关系。
联合标定单元,用于将所述两种传感器与世界坐标系之间的转换关系进行联立,获取点云数据与图像数据之间的直接转换关系。
作为一种实施方式,所述数据预处理模块,具体包括:
点云投影单元,用于对获取的点云进行预处理,将点云三维坐标投影至二维图像形成稀疏点云投影图。
数据填充单元,用于对稀疏点云投影图进行三角剖分,通过加权求和填充三角形获取致密点云特征图。
作为一种实施方式,所述预训练模块,具体包括:
RGB图像编码网络:包含4个block,总共有4次下采样,每个block中包含3×3卷积提取特征和最大池化对图像尺寸压缩。每次下采样的同时通道数增加一倍。
点云特征图像编码网络:包含3个block,总共有三次下采样,每个block中包含3×3卷积提取特征和最大池化对图像尺寸压缩。每次下采样的同时通道数增加一倍。
特征解码网络:包含4个block,对应的每次上采样的同时特征图通道个数减少为原来的一半。
横向连接模块:对所述的三个DCNN网络对应层级之间的特征进行张量剪切并进行1×1的卷积。
一种多模态融合目标检测的方法,如图1所示,所述方法包括:
步骤S1:激光雷达采集车辆周围环境的点云数据、相机采集车辆周围的图像数据,将采集到的两种模态数据进行数据融合,通过联合标定将激光雷达点云数据转换到图像二维坐标系下,完成稀疏点云投影。
步骤S2.通过两种数据集之间坐标转换关系获取点云对应深度Dlidar,并通过归一化将二维图像上点云对应投影像素坐标处像素赋值为Dimage
步骤S3.统计稀疏点云投影图中所有像素不为0的点,获取投影点集合,对集合内的点进行三角剖分,将二维图像分割成多个三角形区域并获取点集的最小凸包。
步骤S4.对所述三角形内任意一点Cha_P进行数据填充,将三角剖分平面内任意三角形顶点Pi_1,Pi_2,Pi_3进行加权求和,计算结果作为点Cha_P处的像素值。
步骤S5.根据所述三角形处理方法获取致密激光雷达点云特征图。
步骤S6.构建语义分割网络框架,框架分为两个部分:编码侧和解码侧。
步骤S7.根据所述语义分割网络对所述致密点云特征图和RGB图像进行逐像素的分类,完成目标检测。
下面对各个步骤进行详细论述:
步骤S1:激光雷达采集车辆周围环境的点云数据、相机采集车辆周围的图像数据,将采集到的两种模态数据进行数据融合,通过联合标定将激光雷达点云数据转换到图像二维坐标系下,完成稀疏点云投影,具体步骤包括:
S11:获取激光雷达和相机的时间戳数据,将激光雷达和相机的时间戳通过时间轴匹配,找到它们在时间轴上的相对位置。
S12:通过计算时间戳的差值确定相机和激光雷达数据之间的时间差,通过截断法进行时间同步。
S13:选取大小合适参数已知的标定板,放置在相机和激光雷达的重合视场内,进行点云和图像的特征点提取。
S14:相机与世界坐标系之间的转换方程为:
其中(u,v)表示像素坐标。(X,Y,Z)为世界坐标,由于世界坐标系设立在标定板上且Z轴与标定板垂直,故Z=0。A为相机内参矩阵,[R t]为相机外参矩阵,具体R为大小3×3的旋转矩阵,(r1,r2,r3)是旋转矩阵中的三个旋转向量,t为平移向量大小为3×1。s为比例因子。
S15:相机内外参矩阵求解:
用H代表内参和外参的乘积,则H是一个3×3的矩阵,通常被称为单应性矩阵,写成如下形式:
将上式与公式(1)联立可得:
写成矩阵形式可得公式:
上式中h表示的是将H矩阵元素展开表示成9×1向量形式,即:
h=[h1 h2 h3 h4 h5 h6 h7 h8 h9]T (8)
由式(4)可知,一对物方和图像对应像素点可以构建两个方程,因为H有一个元素作为齐次坐标,所以H具有8个自由度,因此四个对应点就可建立方程组求得H。因为H是内参矩阵和外参构造的矩阵的乘积,所以H求解出来后可以用来进一步求解相机内外参。H和相机内外参的关系可通过下式表达:
H=A[r1 r2 t]=[h1 h2 h3] (9)
当提取的角点个数大于4时,利用最小二乘求解H。因为外参矩阵的列向量之间存在单位正交关系,即:
‖r1‖=‖r2‖=1 (10)
带入公式(6)即可得:
可以看出,每个单应性矩阵可以列出两个方程,由于内参矩阵包含5个参数,因此需要至少三个单应性矩阵求解,可以通过改变相机和棋盘格之间的相对位置获取至少三张不同姿态的棋盘格图片,来确定三个单应性矩阵构建6个方程。定义如下公式:
则B是一个对称矩阵,通过公式(9),利用至少三幅不同姿态的棋盘格图像,经过矩阵转换求解可得内参矩阵,内参元素求解如下:
求得内参后,根据公式(6)很容易求解外参如下:
r3=r1×r2 (22)
S16:激光雷达与世界坐标系之间的转换方程:
其中(Xr,Yr,Zr)为点云三维坐标系下的点云坐标,(X,Y,Z)为世界坐标。RLC为大小3×3的旋转矩阵,tLC为大小3×1的平移向量。由此可得目标函数:
S17:根据所述相机与世界坐标系之间转换关系和激光雷达与世界坐标系之间转换关系,消去中间变量即世界坐标系即可完成激光雷达点云与图像之间的数据融合。
步骤S3.统计稀疏点云投影图中所有像素不为0的点,获取投影点集合,对集合内的点进行三角剖分,将二维图像分割成多个三角形区域并获取点集的最小凸包,所述的三角剖分如图2所示,具体步骤如下:
S31:构造一个能包含所有散点的矩形并记录该矩形4个顶点D1,D2,D3,D4的位置。
S32:在散点点集中任选一点P1与矩形的4个顶点相连构成4个三角形。
S33:插入剩余点,确定P2所在的三角形以及三角形顶点,做包含这三个顶点的全部的三角形的外接圆并找出包含P2点的三角形。如果这些三角形有公共边,则删除该公共边,并将P2与其余三角形的顶点连接起来,完成一个点的插入。
S34:对以插入的三角形进行局部优化,将具有公共边的三角形看做一个四边形,根据DT三角形剖分的空圆准则,作其中一个三角形的外接圆,判断四边形的4个顶点是否在该外接圆内,如果在外接圆内,则将四边形的对角线对调,完成局部优化。
S35:重复S33和S34,直到完成所有散点的插入。
步骤S4.对所述三角形内任意一点Cha_P进行数据填充,将三角剖分平面内任意三角形顶点Pi_1,Pi_2,Pi_3进行加权求和,计算结果作为点Cha_P处的像素值,所述的三角形内数据填充具体公式如下:
其中,Cha_P为第i个三角形中任意一点,Pi_j为第i个三角形的第j个顶点的像素值,rj为Cha_P与Pi_j之间的欧式距离。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种多模态融合目标检测系统,其特征在于,所述系统包括:
获取模块,用于获取激光雷达的点云数据和相机的图像数据;
联合标定模块,用于对所述相机和激光雷达进行联合标定,得到点云三维坐标和图像二维坐标之间的转换关系;
数据预处理模块,用于将所述点云数据进行坐标转换,通过点云三维坐标和图像二维坐标之间的转换关系将点云数据投影至二维平面且只保留深度特征,并通过上采样形成致密的点云特征图;
预训练模块,用于将致密点云特征图和RGB图像放入多模态特征融合的语义分割网络进行预训练,通过提取特征获取网络预训练模型;
目标检测模块,用于根据所述预训练模型对测试数据进行分类,完成目标检测。
2.根据权利要求1所述的一种多模态融合目标检测系统,其特征在于:所述联合标定模块具体包括:
相机标定单元,用于对所述相机的内外参标定,获取世界坐标系和像素坐标系之间的转换关系;
激光雷达标定单元,用于对所述激光雷达进行外参标定,获取激光雷达与世界坐标系之间的转换关系;
联合标定单元,用于将所述两种传感器与世界坐标系之间的转换关系进行联立,获取点云数据与图像数据之间的直接转换关系。
3.根据权利要求1所述的一种多模态融合目标检测系统,其特征在于:所述数据预处理模块,具体包括:
点云投影单元,用于对获取的点云进行预处理,将具有三维坐标的点云投影至二维图像形成稀疏点云投影图;
数据填充单元,用于对稀疏点云投影图进行三角剖分,通过加权求和填充三角形获取致密点云特征图。
4.根据权利要求1所述的一种多模态融合目标检测系统,其特征在于:所述多模态融合语义分割网络包括:
RGB图像编码网络:包含4个block,总共有4次下采样,每个block中包含3×3卷积提取特征和最大池化对图像尺寸压缩,每次下采样的同时通道数增加一倍;
点云特征图像编码网络:包含3个block,总共有三次下采样,每个block中包含3×3卷积提取特征和最大池化对图像尺寸压缩,每次下采样的同时通道数增加一倍;
特征解码网络:包含4个block,对应的每次上采样的同时特征图通道个数减少为原来的一半;
横向连接模块:对所述的三个DCNN网络对应层级之间的特征进行张量剪切并进行1×1的卷积。
5.采用权利要求1~4中任一项所述的一种多模态融合目标检测系统的检测方法,其特征在于,所述方法包括如下步骤:
步骤S1、激光雷达采集车辆周围环境的点云数据、相机采集车辆周围的图像数据,将采集到的两种模态数据进行数据融合,通过联合标定将激光雷达点云数据转换到图像二维坐标系下,完成稀疏点云投影,得到稀疏点云投影图;其中,相机采集的图像为RGB图像;
步骤S2、在数据融合过程中通过两种数据之间坐标转换关系获取点云对应深度Dlidar,并通过归一化将二维图像上点云对应投影像素坐标处像素赋值为Dimage
步骤S3、统计稀疏点云投影图中所有像素Dimage不为0的点,获取投影点集合,对集合内的点进行三角剖分,将二维图像分割成多个三角形区域并获取点集的最小凸包;
步骤S4、对所述三角形区域内任意一点Cha_P进行数据填充,将三角剖分平面内任意三角形顶点Pi_1,Pi_2,Pi_3进行加权求和,计算结果作为点Cha_P处的像素值;
步骤S5、根据步骤S4对每个三角形区域内的每个点进行像素值计算得到致密激光雷达点云特征图;
步骤S6、构建语义分割网络框架,根据所述语义分割网络对所述致密激光雷达点云特征图和RGB图像进行逐像素的分类,完成目标检测;其中,语义分割网络框架包括编码侧和解码侧两个部分。
6.根据权利要求5所述的一种多模态融合目标检测方法,其特征在于:所述步骤S1中数据融合的具体过程如下:
步骤S11、获取激光雷达和相机的时间戳数据,将激光雷达和相机的时间戳通过时间轴匹配,找到它们在时间轴上的相对位置,并通过截断法完成时间同步;
步骤S12、选取大小合适参数已知的标定板,放置在相机和激光雷达的重合视场内,进行点云和图像的特征点提取;
步骤S13、通过图像提取到的特征点坐标和已知的标定板参数可得图像二维坐标系与世界坐标系之间转换方程,方程如下:
其中,(u,v)表示像素坐标,(X,Y,Z)为世界坐标,由于世界坐标系设立在标定板上且Z轴与标定板垂直,故Z=0,A为相机内参矩阵,[Rt]为相机外参矩阵,具体R为大小3×3的旋转矩阵,(r1,r2,r3)是旋转矩阵中的三个旋转向量,t为平移向量大小为3×1,s为比例因子;
步骤S14、通过点云提取到的特征点坐标和已知的标定板参数可得点云三维坐标系与世界坐标系之间转换方程,方程如下:
其中(Xr,Yr,Zr)为点云三维坐标系下的点云坐标,(X,Y,Z)为世界坐标,RLC为大小3×3的旋转矩阵,tLC为大小3×1的平移向量;由此可得目标函数:
步骤S15、根据所述相机与世界坐标系之间转换关系和激光雷达与世界坐标系之间转换关系,消去中间变量即世界坐标系即可完成激光雷达点云与图像之间的数据融合。
7.根据权利要求5所述的一种多模态融合目标检测方法,其特征在于:所述步骤S3中三角剖分的具体步骤如下:
步骤S31、构造一个能包含所有散点的矩形并记录该矩形4个顶点D1,D2,D3,D4的位置;
步骤S32、在散点点集中任选一点P1与矩形的4个顶点相连构成4个三角形;
步骤S33、插入剩余点,确定P2所在的三角形以及三角形顶点,做包含这三个顶点的全部的三角形的外接圆并找出包含P2点的三角形;如果这些三角形有公共边,则删除该公共边,并将P2与其余三角形的顶点连接起来,完成一个点的插入;
步骤S34、对以插入的三角形进行局部优化,将具有公共边的三角形看做一个四边形,根据DT三角形剖分的空圆准则,作其中一个三角形的外接圆,判断四边形的4个顶点是否在该外接圆内,如果在外接圆内,则将四边形的对角线对调,完成局部优化;
步骤S35、重复S33和S34,直到完成所有散点的插入。
8.根据权利要求5所述的一种多模态融合目标检测方法,其特征在于:所述步骤S4中三角形内数据填充的具体公式如下:
其中Cha_P为第i个三角形中任意一点,Pi_j为第i个三角形的第j个顶点的像素值,rj为Cha_P与Pi_j之间的欧式距离。
CN202310725760.8A 2023-06-19 2023-06-19 一种多模态融合目标检测系统及方法 Pending CN116778288A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310725760.8A CN116778288A (zh) 2023-06-19 2023-06-19 一种多模态融合目标检测系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310725760.8A CN116778288A (zh) 2023-06-19 2023-06-19 一种多模态融合目标检测系统及方法

Publications (1)

Publication Number Publication Date
CN116778288A true CN116778288A (zh) 2023-09-19

Family

ID=87995756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310725760.8A Pending CN116778288A (zh) 2023-06-19 2023-06-19 一种多模态融合目标检测系统及方法

Country Status (1)

Country Link
CN (1) CN116778288A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117058342A (zh) * 2023-10-12 2023-11-14 天津科汇新创科技有限公司 一种基于投影图像的脊柱3d体素模型构建方法
CN117113283A (zh) * 2023-10-25 2023-11-24 天津阿尔法优联电气有限公司 隔离开关的状态识别方法及系统
CN117710396A (zh) * 2023-12-14 2024-03-15 安徽工布智造工业科技有限公司 一种基于3d点云的轻钢行业非标零件的识别方法
CN117974746A (zh) * 2024-04-01 2024-05-03 北京理工大学长三角研究院(嘉兴) 点云2d深度面三角剖分构图方法、装置、系统及设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117058342A (zh) * 2023-10-12 2023-11-14 天津科汇新创科技有限公司 一种基于投影图像的脊柱3d体素模型构建方法
CN117058342B (zh) * 2023-10-12 2024-01-26 天津科汇新创科技有限公司 一种基于投影图像的脊柱3d体素模型构建方法
CN117113283A (zh) * 2023-10-25 2023-11-24 天津阿尔法优联电气有限公司 隔离开关的状态识别方法及系统
CN117113283B (zh) * 2023-10-25 2024-01-26 天津阿尔法优联电气有限公司 隔离开关的状态识别方法及系统
CN117710396A (zh) * 2023-12-14 2024-03-15 安徽工布智造工业科技有限公司 一种基于3d点云的轻钢行业非标零件的识别方法
CN117974746A (zh) * 2024-04-01 2024-05-03 北京理工大学长三角研究院(嘉兴) 点云2d深度面三角剖分构图方法、装置、系统及设备

Similar Documents

Publication Publication Date Title
CN109615652B (zh) 一种深度信息获取方法及装置
CN111563415B (zh) 一种基于双目视觉的三维目标检测系统及方法
CN116778288A (zh) 一种多模态融合目标检测系统及方法
Kurka et al. Applications of image processing in robotics and instrumentation
CN107240129A (zh) 基于rgb‑d相机数据的物体及室内小场景恢复与建模方法
CN112801074B (zh) 一种基于交通摄像头的深度图估计方法
CN114067197B (zh) 一种基于目标检测及双目视觉的管道缺陷识别与定位方法
CN112929626B (zh) 一种基于智能手机影像的三维信息提取方法
CN115035235A (zh) 三维重建方法及装置
CN113393439A (zh) 一种基于深度学习的锻件缺陷检测方法
CN114140539A (zh) 一种室内物体的位置获取方法和装置
CN113793266A (zh) 一种多目机器视觉图像拼接方法、系统及存储介质
CN115376109A (zh) 障碍物检测方法、障碍物检测装置以及存储介质
CN111951339A (zh) 利用异构双目相机进行视差计算的图像处理方法
CN111325828A (zh) 一种基于三目相机的三维人脸采集方法及装置
CN113345084B (zh) 三维建模系统及三维建模方法
CN112017259B (zh) 一种基于深度相机与热像仪的室内定位与建图方法
CN114137564A (zh) 一种室内物体自动标识定位方法和装置
CN113808103A (zh) 基于图像处理的路面坑洼自动检测方法、设备和存储介质
CN117152330B (zh) 一种基于深度学习的点云3d模型贴图方法和装置
KR101673144B1 (ko) 부분 선형화 기반의 3차원 영상 정합 방법
CN111197976A (zh) 一种顾及弱纹理区域多阶段匹配传播的三维重建方法
CN116630528A (zh) 基于神经网络的静态场景重建方法
CN115601423A (zh) 一种双目视觉场景下基于边缘增强的圆孔位姿测量方法
CN115601430A (zh) 基于关键点映射的无纹理高反物体位姿估计方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination