CN116664851A - 一种基于人工智能的自动驾驶数据提取方法 - Google Patents
一种基于人工智能的自动驾驶数据提取方法 Download PDFInfo
- Publication number
- CN116664851A CN116664851A CN202310498874.3A CN202310498874A CN116664851A CN 116664851 A CN116664851 A CN 116664851A CN 202310498874 A CN202310498874 A CN 202310498874A CN 116664851 A CN116664851 A CN 116664851A
- Authority
- CN
- China
- Prior art keywords
- target
- algorithm
- point cloud
- point
- automatic driving
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000013075 data extraction Methods 0.000 title claims abstract description 20
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 18
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 93
- 230000004927 fusion Effects 0.000 claims abstract description 30
- 238000012545 processing Methods 0.000 claims abstract description 29
- 230000033001 locomotion Effects 0.000 claims abstract description 15
- 238000005259 measurement Methods 0.000 claims abstract description 13
- 238000005516 engineering process Methods 0.000 claims abstract description 5
- 238000001514 detection method Methods 0.000 claims description 45
- 238000013527 convolutional neural network Methods 0.000 claims description 23
- 239000013598 vector Substances 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000006073 displacement reaction Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000004807 localization Effects 0.000 claims description 4
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 230000003287 optical effect Effects 0.000 claims description 3
- 230000005764 inhibitory process Effects 0.000 claims description 2
- 238000000605 extraction Methods 0.000 abstract description 5
- 230000010365 information processing Effects 0.000 abstract description 2
- 230000008447 perception Effects 0.000 description 14
- 230000006399 behavior Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明公开一种基于人工智能的自动驾驶数据提取方法,包括以下步骤:S1:通过激光雷达和毫米波雷达分别获取点云数据,通过摄像头获取图像数据,通过惯性测量单元获取姿态信息;S2:使用VoxelNet算法对激光雷达获取的点云数据进行处理,使用Yolo算法对摄像头获取的图像数据进行处理;S3:将步骤S2中VoxelNet算法的输出与Yolo算法的输出进行后融合,得到第一融合特征,得到存在目标的区域;S4:在存在目标的区域,使用F‑PointNet算法对毫米波雷达获取的点云数据进行锥体处理,得到目标的运动速度;S5:将第一融合特征与目标的运动速度进行后融合,得到所需的物体信息。本发明运用多模态融合技术,保证数据信息处理准确性的基础上又进一步提高了提取速率。
Description
技术领域
本发明涉及自动驾驶数据提取技术领域,更具体地,涉及一种基于人工智能的自动驾驶数据提取方法。
背景技术
近年来,随着自动驾驶的不断发展,感知数据的获取和处理变得至关重要。但数据质量不稳定、数据量大难处理、数据标注困难问题仍难以解决,利用人工智能算法高效提取自动驾驶感知数据通常将是解决上述问题的重要解决方案。
由于自动驾驶采集的数据包含激光雷达、摄像头、毫米波雷达采集的多模态数据,对采集的数据进行提取和融合是得到物体信息的必要途径。对不同的数据类型采集不同的AI算法进行提取,得到不同维度的物体信息,可以仿真出最还原真实的物体。使用AI算法进行自动驾驶感知数据进行提取具有高效率、低成本、高质量的优点。
目前比较流行且方便的自动驾驶数据的提取方法是利用深度学习和卷积神经网络完成的。卷积神经网络是一种逐层递进的结构,可以从输入的图像中学习到特征表达。卷积层通过卷积运算提取输入图像的特征,并保留空间结构信息;池化层通过降采样的方式减少数据维度和计算量,同时保留重要的特征信息;全连接层通过连接各个特征,将卷积层和池化层中学到的特征转化为最终的输出。常用的目标检测和分类算法包括RCNN、Fast R-CNN、Faster R-CNN、YOLO、SSD等。这些算法使用CNN作为特征提取器,在特征图上执行目标检测和分类任务,并将处理后的数据保存为需要的格式,以供后续的分析和使用。处理后的数据通常保存为图片和标注信息的组合,标注信息包括目标类别、位置和大小等。
目前现有的实现方案有:
基于目标检测方法提取自动驾驶感知数据:由Ross Girshick等人提出了多种目标检测算法。通过车辆周围的传感器采集到物体检测所需的数据,例如相机采集到的图像数据,并对数据集进行标注,以识别出感兴趣的目标对象。然后,使用目标检测算法FasterR-CNN、YOLO、SSD训练目标检测模型,以便自动识别和定位目标对象。最后,使用物体跟踪算法对检测结果进行跟踪和维护,使用卡尔曼滤波对物体位置和速度进行估计和预测,并将处理后的感知数据进行融合和输出。但其算法需要大量的标注数据来训练模型,但是标注数据的获取成本较高,而且标注数据的质量会影响模型的准确性。在遮挡严重或者场景复杂的情况下,目标检测算法容易出现漏检、误检等问题,导致自动驾驶系统的性能受到影响。同时,目标检测算法对于高分辨率的图像计算量较大,导致检测速度较慢,不利于实时应用。
基于3D感知方法提取自动驾驶感知数据:由Ross Girshick等人提出了多种3D感知算法。激光雷达扫描周围环境获取点云数据,使用ICP、NDT、LOAM等算法进行点云匹配和SLAM建图,使用PointNet、VoxelNet、SECOND算法进行目标检测和语义分割。接下来使用跟踪算法,跟踪物体在不同时间步的位置和运动状态,以识别并预测物体的行为。最后对每个物体进行特征提取和分类,识别物体的类别和属性。但其基于点云分割和目标检测的算法在处理大规模、高密度的点云数据时,计算复杂度较高,需要消耗大量的计算资源,这会增加自动驾驶系统的成本。基于点云处理的算法对点云数据的表示方式较为敏感,对于点云中存在的噪声、缺失数据等情况,算法的性能可能会受到影响,从而导致目标检测和分割的准确性下降
基于行为识别方法提取自动驾驶感知数据:由Ross Girshick等人提出了多种行为识别算法。通过使用加速度计、陀螺仪、相机采集车辆周围的数据,使用深度学习算法对预处理后的数据进行特征提取,并通过监督学习算法对特征向量进行分类和识别,将训练好的行为识别算法应用到自动驾驶感知数据中,提取周围物体的行为信息,如车辆的转向、加速、减速等,行人的行走、奔跑、停留等,进而提取出车辆周围环境的动态信息。最终将处理后的感知数据进行融合和输出,以支持自动驾驶车辆的决策和行动。其需要大量的训练数据来训练模型,并且对数据的质量和多样性要求较高,这会增加自动驾驶系统的成本和复杂度。基于深度学习的行为识别算法容易受到数据噪声和干扰的影响,例如在恶劣的天气、光照条件下,算法的性能可能会下降。基于深度学习的行为识别算法通常需要进行实时计算,以便对车辆行为进行准确的识别和判断。这需要大量的计算资源和算法优化,以确保算法能够在有限的时间内完成识别任务,从而对自动驾驶系统的实时性提出了高要求。
发明内容
本发明提供一种基于人工智能的自动驾驶数据提取方法,提高自动驾驶感知数据的准确性、稳定性。
为解决上述技术问题,本发明的技术方案如下:
一种基于人工智能的自动驾驶数据提取方法,包括以下步骤:
S1:通过激光雷达和毫米波雷达分别获取点云数据,通过摄像头获取图像数据,通过惯性测量单元获取姿态信息;
S2:使用VoxelNet算法对激光雷达获取的点云数据进行处理,使用Yolo算法对摄像头获取的图像数据进行处理;
S3:将步骤S2中VoxelNet算法的输出与Yolo算法的输出进行后融合,得到第一融合特征,得到存在目标的区域;
S4:在所述存在目标的区域,使用F-PointNet算法对毫米波雷达获取的点云数据进行锥体处理,得到目标的运动速度;
S5:将所述第一融合特征与所述目标的运动速度进行后融合,得到所需的物体信息。
优选地,步骤S2中使用VoxelNet算法对激光雷达获取的点云数据进行处理,具体为:
S201:将激光雷达获取的点云数据分为多个立方体体素,点云数据中的每个点根据该点在三维空间中的坐标与体素大小来确定所属的立方体体素,确定每个立方体体素中包含的点云;
S202:将每个立方体体素内的点元信息编码为一个固定长度的向量;
S203:将所有立方体体素对应的向量输入到一个三维卷积神经网络中进行目标检测和定位。
优选地,步骤S201中点云数据中的每个点根据该点在三维空间中的坐标与体素大小来确定所属的立方体体素,具体为:
式中,i、j、k表示该点所属的立方体体素的索引,表示向下取整运算符,(x,,)为该点的三维坐标,(l,,h)为立方体体素的大小。
优选地,步骤S202中将每个立方体体素内的点元信息编码为一个固定长度的向量,具体为:
式中,fi为立方体体素内第i个点云信息,N为立方体体素内包含的点云数量,(xj,yj,zj)为立方体体素内第j个点云的三维坐标,为立方体体素的中心坐标。
优选地,步骤S203中三维卷积神经网络为Faster R-CNN的两阶段目标检测框架,其中,第一阶段使用卷积神经网络提取特征,第二阶段使用RPN生成候选框,并使用Fast R-CNN进行分类和定位。
优选地,步骤S2中使用Yolo算法对摄像头获取的图像数据进行处理,具体为:
S211:将摄像头获取的图像数据分割成SxS个网格,每个网格预测B个边界框和C个类别的概率;
S212:采用单个神经网络将摄像头获取的图像数据输入一次进行处理,输出目标的类别、位置信息和置信度;
S213:对于每个网格,选择置信度最高的边界框作为该网格的预测结果;
S214:最终,通过非极大值抑制去除重复的边界框,将所有的边界框按照不同的类别标签分组,组内按分数高低进行排序,取得分最高的边界框先放入结果序列,接着,遍历剩余边界框,计算与当前得分最高的边界框的交并比,若大于预设的阈值则剔除,然后对剩余的边界框重复上述操作,直到处理完图像内所有的边界框,即可得到最后的框序列信息,得到最终的目标检测结果。
优选地,步骤S3中将步骤S2中VoxelNet算法的输出与Yolo算法的输出进行后融合,得到第一融合特征,具体为:
S31:进行数据标定,使用手动选择、自动检测的方法标记用于将不同模态的数据对齐的关键点,使用标记点的坐标利用最小二乘法和最大似然估计法计算转换矩阵,通过转换矩阵将不同模态的数据转换到同一坐标下;
S32:每个VoxelNet算法检测出来的物体,找到与之对应匹配的Yolo算法检测出的物体,通过计算欧氏距离来完成,所述欧氏距离计算两个物体中心点之间的距离,并选取距离最小的那个Yolo算法检测结果作为匹配结果;
S33:通过匈牙利算法实现不同模态数据的融合,对于每个目标,检查它是否被激光雷达或摄像头检测到,如果只有其中之一检测到该目标,则根据其置信度确定是否要保留该目标;如果两个都检测到该目标,则将两个算法输出的匹配融合在一起,即将两个算法输出的位置和尺寸信息进行加权平均,以获得最终的检测结果。
优选地,步骤S32中计算欧氏距离,具体为:
式中,d(x,y)为欧式距离,x1、x2、…、xn为一个物体中心点的三维坐标,y1、y2、…、yn为另一个物体中心点的三维坐标。
优选地,步骤S4中在所述存在目标的区域,使用F-PointNet算法对毫米波雷达获取的点云数据进行锥体处理,得到目标的运动速度,具体为:
通过图像处理技术提取目标区域,得到目标的前后两帧图像It和It+1中目标的坐标(xt,yt)和(xt+1,yt+1);
计算目标在两帧图像中的像素位移向量(dx,dy),即
dx=xt+1-xt
dy=yt+1-yt
根据光流法的基本假设,假设目标在两帧图像中的像素位移向量(dx,dy)与两帧图像中相邻像素的灰度值梯度向量(Ix,Iy)相等,即:
对上式进行求解,得到目标的运动速度(vx,vy):
优选地,在步骤S3和S5中的后融合时,选定惯性测量单元的坐标系为中间坐标系,先将激光雷达获取的点云数据和摄像头获取的图像数据坐标转到惯性测量单元的坐标系进行融合,再将毫米波雷达的点云数据坐标也转到惯性测量单元的坐标系进行融合。
与现有技术相比,本发明技术方案的有益效果是:
本发明提出并运用一种基于VoxelNet、Yolo、F-PointNet算法提取自动驾驶感知数据提取方法,可以快速对不同设备采集的多模态数据进行处理和融合,在保证数据信息处理准确性的基础上又进一步提高了提取速率。同时本发明两次运用多模态融合技术,将VoxelNet和Yolo算法的输出结果进行后融合,可以提高物体检测和定位的准确性和鲁棒性,将融合结果与F-PointNet算法的输出结果进行二次融合,可以进一步提高物体检测和定位的精度,进一步提高自动驾驶感知数据提取的准确性和可靠性。
附图说明
图1为本发明的方法流程图。
图2为本发明的数据融合示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
一种基于人工智能的自动驾驶数据提取方法,如图1和图2所示,包括以下步骤:
S1:通过激光雷达和毫米波雷达分别获取点云数据,通过摄像头获取图像数据,通过惯性测量单元获取姿态信息;
S2:使用VoxelNet算法对激光雷达获取的点云数据进行处理,使用Yolo算法对摄像头获取的图像数据进行处理;
S3:将步骤S2中VoxelNet算法的输出与Yolo算法的输出进行后融合,得到第一融合特征,得到存在目标的区域;
S4:在所述存在目标的区域,使用F-PointNet算法对毫米波雷达获取的点云数据进行锥体处理,得到目标的运动速度;
S5:将所述第一融合特征与所述目标的运动速度进行后融合,得到所需的物体信息。
本发明实施例采用对多模态数据进行融合处理,充分利用不同模态数据的优势,提高自动驾驶感知数据的准确性、稳定性。本发明通过利用毫米波雷达、激光雷达、摄像头等设备,采集点云数据、图像数据等,结合VolexNet算法、Yolo算法以及F-PointNet算法对数据进行检测、处理,并逐步融合不同的数据,进而得到一个物体全面的信息。在保证感知数据的实时性的同时,实现多模态的检测,获得较为全面的数据,保证数据的有效性和可靠性。
实施例2
本实施例在实施例1的基础上,继续公开以下内容:
VoxelNet是一种用于处理激光雷达数据的神经网络算法,主要用于目标检测和定位。其基本思想是将点云数据划分为立方体体素(voxels),并将每个体素内的点云信息编码为一个固定长度的向量,最终将这些向量输入到一个三维卷积神经网络中进行目标检测和定位。步骤S2中使用VoxelNet算法对激光雷达获取的点云数据进行处理,具体为:
S201:将激光雷达获取的点云数据分为多个立方体体素,点云数据中的每个点根据该点在三维空间中的坐标与体素大小来确定所属的立方体体素,确定每个立方体体素中包含的点云;
S202:将每个立方体体素内的点元信息编码为一个固定长度的向量;
S203:将所有立方体体素对应的向量输入到一个三维卷积神经网络中进行目标检测和定位。
步骤S201中点云数据中的每个点根据该点在三维空间中的坐标与体素大小来确定所属的立方体体素,具体为:
式中,i、j、k表示该点所属的立方体体素的索引,表示向下取整运算符,(x,,)为该点的三维坐标,(l,,h)为立方体体素的大小。
步骤S202中将每个立方体体素内的点元信息编码为一个固定长度的向量,这个向量包括了该体素内点云的位置、反射强度和法向量等信息。具体来说,对于每个点,可以计算其相对于该体素中心的位置,以及其反射强度:
式中,fi为立方体体素内第i个点云信息,N为立方体体素内包含的点云数量,(xj,yj,zj)为立方体体素内第j个点云的三维坐标,为立方体体素的中心坐标。
步骤S203中三维卷积神经网络为Faster R-CNN的两阶段目标检测框架,其中,第一阶段使用卷积神经网络提取特征,第二阶段使用RPN(Region Proposal Network)生成候选框,并使用Fast R-CNN进行分类和定位。
通过上述VoxelNet算法对激光雷达获取的点云数据进行处理的步骤后,得到物体大小和距离信息。
Yolo算法是一种基于卷积神经网络的目标检测算法,其基本思想是将目标检测任务转化为一个回归问题。与传统的目标检测算法不同,Yolo算法在一次前向传播中,同时预测图像中多个目标的类别和位置信息。步骤S2中使用Yolo算法对摄像头获取的图像数据进行处理,具体为:
S211:将摄像头获取的图像数据分割成SxS个网格,每个网格预测B个边界框和C个类别的概率;在训练过程中,每个边界框会负责预测一个真实目标框。对于每个边界框,预测包括边界框的左上角和右下角坐标,以及边界框内部目标的类别概率。具体公式如下:
bx=(tx)+x
其中bx、by、bw、bn是预测边框的中心和宽高。
S212:采用单个神经网络将摄像头获取的图像数据输入一次进行处理,输出目标的类别、位置信息和置信度;置信度反映了模型预测框内是否包含目标的置信度,公式如下:
Pr(object)*IOU(b,object)=δ(t0)
S213:对于每个网格,选择置信度最高的边界框作为该网格的预测结果;
S214:最终,通过非极大值抑制(NMS)去除重复的边界框,将所有的边界框按照不同的类别标签分组,组内按分数高低进行排序,取得分最高的边界框先放入结果序列,接着,遍历剩余边界框,计算与当前得分最高的边界框的交并比,若大于预设的阈值则剔除,然后对剩余的边界框重复上述操作,直到处理完图像内所有的边界框,即可得到最后的框序列信息,得到最终的目标检测结果。
通过上述Yolo算法对摄像头获取的图像数据进行处理的步骤后,得到物体类别、朝向、颜色和姿态信息。
步骤S3中将步骤S2中VoxelNet算法的输出与Yolo算法的输出进行后融合,得到第一融合特征,具体为:
S31:进行数据标定,使用手动选择、自动检测的方法标记用于将不同模态的数据对齐的关键点,使用标记点的坐标利用最小二乘法和最大似然估计法计算转换矩阵,通过转换矩阵将不同模态的数据转换到同一坐标下;
S32:每个VoxelNet算法检测出来的物体,找到与之对应匹配的Yolo算法检测出的物体,通过计算欧氏距离来完成,所述欧氏距离计算两个物体中心点之间的距离,并选取距离最小的那个Yolo算法检测结果作为匹配结果;
S33:通过匈牙利算法实现不同模态数据的融合,对于每个目标,检查它是否被激光雷达或摄像头检测到,如果只有其中之一检测到该目标,则根据其置信度确定是否要保留该目标;如果两个都检测到该目标,则将两个算法输出的匹配融合在一起,即将两个算法输出的位置和尺寸信息进行加权平均,以获得最终的检测结果。
第一融合特征包括物体类别、朝向、颜色、姿态、大小和距离信息。
步骤S32中计算欧氏距离,具体为:
式中,d(x,y)为欧式距离,x1、x2、…、xn为一个物体中心点的三维坐标,y1、y2、…、yn为另一个物体中心点的三维坐标。
F-PointNet算法,在锥状物体内,准确生成多个边界框,在多个边界框内进行实例分割,同时,考虑平移不变性。计算原点与平移点的距离,进而测算出物体移动的速度。步骤S4中在所述存在目标的区域,使用F-PointNet算法对毫米波雷达获取的点云数据进行锥体处理,得到目标的运动速度,具体为:
通过图像处理技术提取目标区域,得到目标的前后两帧图像It和It+1中目标的坐标(xt,yt)和(xt+1,yt+1);
计算目标在两帧图像中的像素位移向量(dx,dy),即
dx=xt+1-xt
dy=yt+1-yt
根据光流法的基本假设,假设目标在两帧图像中的像素位移向量(dx,dy)与两帧图像中相邻像素的灰度值梯度向量(Ix,Iy)相等,即:
对上式进行求解,得到目标的运动速度(vx,vy):
步骤S5中所需的物体信息包括物体类别、朝向、颜色、姿态、大小、距离和速度。
实施例3
本实施例在实施例1和实施例2的基础上,继续公开以下内容:
在步骤S3和S5中的后融合时,选定惯性测量单元的坐标系为中间坐标系,先将激光雷达获取的点云数据和摄像头获取的图像数据坐标转到惯性测量单元的坐标系进行融合,再将毫米波雷达的点云数据坐标也转到惯性测量单元的坐标系进行融合。
为了提高对齐精度,我们选定IMU坐标系为多模态传感器的中间坐标系,先将激光雷达和摄像头转到IMU进行融合,再将毫米波雷达也转到IMU进行融合,将动态目标动态数据加入进来,提高数据处理和融合的效率,降低计算成本。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种基于人工智能的自动驾驶数据提取方法,其特征在于,包括以下步骤:
S1:通过激光雷达和毫米波雷达分别获取点云数据,通过摄像头获取图像数据,通过惯性测量单元获取姿态信息;
S2:使用VoxelNet算法对激光雷达获取的点云数据进行处理,使用Yolo算法对摄像头获取的图像数据进行处理;
S3:将步骤S2中VoxelNet算法的输出与Yolo算法的输出进行后融合,得到第一融合特征,得到存在目标的区域;
S4:在所述存在目标的区域,使用F-PointNet算法对毫米波雷达获取的点云数据进行锥体处理,得到目标的运动速度;
S5:将所述第一融合特征与所述目标的运动速度进行后融合,得到所需的物体信息。
2.根据权利要求1所述的基于人工智能的自动驾驶数据提取方法,其特征在于,步骤S2中使用VoxelNet算法对激光雷达获取的点云数据进行处理,具体为:
S201:将激光雷达获取的点云数据分为多个立方体体素,点云数据中的每个点根据该点在三维空间中的坐标与体素大小来确定所属的立方体体素,确定每个立方体体素中包含的点云;
S202:将每个立方体体素内的点元信息编码为一个固定长度的向量;
S203:将所有立方体体素对应的向量输入到一个三维卷积神经网络中进行目标检测和定位。
3.根据权利要求2所述的基于人工智能的自动驾驶数据提取方法,其特征在于,步骤S201中点云数据中的每个点根据该点在三维空间中的坐标与体素大小来确定所属的立方体体素,具体为:
式中,i、j、k表示该点所属的立方体体素的索引,表示向下取整运算符,(x,,)为该点的三维坐标,(l,,h)为立方体体素的大小。
4.根据权利要求3所述的基于人工智能的自动驾驶数据提取方法,其特征在于,步骤S202中将每个立方体体素内的点元信息编码为一个固定长度的向量,具体为:
式中,fi为立方体体素内第i个点云信息,N为立方体体素内包含的点云数量,(xj,yj,zj)为立方体体素内第j个点云的三维坐标,为立方体体素的中心坐标。
5.根据权利要求4所述的基于人工智能的自动驾驶数据提取方法,其特征在于,步骤S203中三维卷积神经网络为Faster R-CNN的两阶段目标检测框架,其中,第一阶段使用卷积神经网络提取特征,第二阶段使用RPN生成候选框,并使用Fast R-CNN进行分类和定位。
6.根据权利要求1所述的基于人工智能的自动驾驶数据提取方法,其特征在于,步骤S2中使用Yolo算法对摄像头获取的图像数据进行处理,具体为:
S211:将摄像头获取的图像数据分割成SxS个网格,每个网格预测B个边界框和C个类别的概率;
S212:采用单个神经网络将摄像头获取的图像数据输入一次进行处理,输出目标的类别、位置信息和置信度;
S213:对于每个网格,选择置信度最高的边界框作为该网格的预测结果;
S214:最终,通过非极大值抑制去除重复的边界框,将所有的边界框按照不同的类别标签分组,组内按分数高低进行排序,取得分最高的边界框先放入结果序列,接着,遍历剩余边界框,计算与当前得分最高的边界框的交并比,若大于预设的阈值则剔除,然后对剩余的边界框重复上述操作,直到处理完图像内所有的边界框,即可得到最后的框序列信息,得到最终的目标检测结果。
7.根据权利要求1所述的基于人工智能的自动驾驶数据提取方法,其特征在于,步骤S3中将步骤S2中VoxelNet算法的输出与Yolo算法的输出进行后融合,得到第一融合特征,具体为:
S31:进行数据标定,使用手动选择、自动检测的方法标记用于将不同模态的数据对齐的关键点,使用标记点的坐标利用最小二乘法和最大似然估计法计算转换矩阵,通过转换矩阵将不同模态的数据转换到同一坐标下;
S32:每个VoxelNet算法检测出来的物体,找到与之对应匹配的Yolo算法检测出的物体,通过计算欧氏距离来完成,所述欧氏距离计算两个物体中心点之间的距离,并选取距离最小的那个Yolo算法检测结果作为匹配结果;
S33:通过匈牙利算法实现不同模态数据的融合,对于每个目标,检查它是否被激光雷达或摄像头检测到,如果只有其中之一检测到该目标,则根据其置信度确定是否要保留该目标;如果两个都检测到该目标,则将两个算法输出的匹配融合在一起,即将两个算法输出的位置和尺寸信息进行加权平均,以获得最终的检测结果。
8.根据权利要求7所述的基于人工智能的自动驾驶数据提取方法,其特征在于,步骤S32中计算欧氏距离,具体为:
式中,d(x,y)为欧式距离,x1、x2、…、xn为一个物体中心点的三维坐标,y1、y2、…、yn为另一个物体中心点的三维坐标。
9.根据权利要求1所述的基于人工智能的自动驾驶数据提取方法,其特征在于,步骤S4中在所述存在目标的区域,使用F-PointNet算法对毫米波雷达获取的点云数据进行锥体处理,得到目标的运动速度,具体为:
通过图像处理技术提取目标区域,得到目标的前后两帧图像It和It+1中目标的坐标(xt,yt)和(xt+1,yt+1);
计算目标在两帧图像中的像素位移向量(dx,dy),即
dx=xt+1-xt
dy=yt+1-yt
根据光流法的基本假设,假设目标在两帧图像中的像素位移向量(dx,dy)与两帧图像中相邻像素的灰度值梯度向量(Ix,Iy)相等,即:
对上式进行求解,得到目标的运动速度(vx,vy):
10.根据权利要求1所述的基于人工智能的自动驾驶数据提取方法,其特征在于,在步骤S3和S5中的后融合时,选定惯性测量单元的坐标系为中间坐标系,先将激光雷达获取的点云数据和摄像头获取的图像数据坐标转到惯性测量单元的坐标系进行融合,再将毫米波雷达的点云数据坐标也转到惯性测量单元的坐标系进行融合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310498874.3A CN116664851A (zh) | 2023-05-05 | 2023-05-05 | 一种基于人工智能的自动驾驶数据提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310498874.3A CN116664851A (zh) | 2023-05-05 | 2023-05-05 | 一种基于人工智能的自动驾驶数据提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116664851A true CN116664851A (zh) | 2023-08-29 |
Family
ID=87710834
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310498874.3A Pending CN116664851A (zh) | 2023-05-05 | 2023-05-05 | 一种基于人工智能的自动驾驶数据提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116664851A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117237777A (zh) * | 2023-11-13 | 2023-12-15 | 四川观想科技股份有限公司 | 一种基于多模态融合的船舶目标识别方法 |
-
2023
- 2023-05-05 CN CN202310498874.3A patent/CN116664851A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117237777A (zh) * | 2023-11-13 | 2023-12-15 | 四川观想科技股份有限公司 | 一种基于多模态融合的船舶目标识别方法 |
CN117237777B (zh) * | 2023-11-13 | 2024-02-27 | 四川观想科技股份有限公司 | 一种基于多模态融合的船舶目标识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111626217B (zh) | 一种基于二维图片和三维点云融合的目标检测和追踪方法 | |
CN110956651B (zh) | 一种基于视觉和振动触觉融合的地形语义感知方法 | |
CN108445480B (zh) | 基于激光雷达的移动平台自适应扩展目标跟踪系统及方法 | |
CN111080659A (zh) | 一种基于视觉信息的环境语义感知方法 | |
CN110533048B (zh) | 基于全景区域场景感知的组合语义层次连接模型的实现方法及系统 | |
CN113506318B (zh) | 一种车载边缘场景下的三维目标感知方法 | |
Košecka | Detecting changes in images of street scenes | |
Wang et al. | An overview of 3d object detection | |
JP7439153B2 (ja) | 全方位場所認識のためのリフトされたセマンティックグラフ埋め込み | |
Deng et al. | Semantic rgb-d slam for rescue robot navigation | |
Balaska et al. | Enhancing satellite semantic maps with ground-level imagery | |
Zelener et al. | Cnn-based object segmentation in urban lidar with missing points | |
CN114325634A (zh) | 一种基于激光雷达的高鲁棒性野外环境下可通行区域提取方法 | |
CN117058646A (zh) | 基于多模态融合鸟瞰图的复杂道路目标检测方法 | |
Zhu et al. | A review of 6d object pose estimation | |
CN116664851A (zh) | 一种基于人工智能的自动驾驶数据提取方法 | |
Dimitrievski et al. | Semantically aware multilateral filter for depth upsampling in automotive lidar point clouds | |
Ghahremannezhad et al. | Automatic road detection in traffic videos | |
CN113255779A (zh) | 多源感知数据融合识别方法、系统及计算机可读存储介质 | |
Berrio et al. | Fusing lidar and semantic image information in octree maps | |
Gökçe et al. | Recognition of dynamic objects from UGVs using Interconnected Neuralnetwork-based Computer Vision system | |
Barth et al. | Probabilistic multi-class scene flow segmentation for traffic scenes | |
Aswini et al. | Drone Object Detection Using Deep Learning Algorithms | |
Huang et al. | Integrating visual and range data for road detection | |
CN111815667B (zh) | 一种相机移动条件下高精度检测运动目标的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |