CN116817891A - 一种实时多模态感知的高精地图构建方法 - Google Patents
一种实时多模态感知的高精地图构建方法 Download PDFInfo
- Publication number
- CN116817891A CN116817891A CN202310804237.4A CN202310804237A CN116817891A CN 116817891 A CN116817891 A CN 116817891A CN 202310804237 A CN202310804237 A CN 202310804237A CN 116817891 A CN116817891 A CN 116817891A
- Authority
- CN
- China
- Prior art keywords
- data
- point cloud
- gps
- namely
- laser radar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title abstract description 10
- 238000000034 method Methods 0.000 claims abstract description 42
- 230000004927 fusion Effects 0.000 claims abstract description 25
- 238000000605 extraction Methods 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000013480 data collection Methods 0.000 claims abstract description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 23
- 230000009471 action Effects 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 18
- 230000009466 transformation Effects 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 12
- 210000002569 neuron Anatomy 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 7
- 230000008447 perception Effects 0.000 claims description 7
- 238000013135 deep learning Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 230000002787 reinforcement Effects 0.000 claims description 6
- 230000003213 activating effect Effects 0.000 claims description 4
- 238000012805 post-processing Methods 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000007499 fusion processing Methods 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 238000003709 image segmentation Methods 0.000 claims description 2
- 238000003062 neural network model Methods 0.000 claims description 2
- 238000013519 translation Methods 0.000 description 7
- 239000013598 vector Substances 0.000 description 6
- 230000004913 activation Effects 0.000 description 4
- 230000008602 contraction Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007634 remodeling Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/05—Geographic models
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/38—Electronic maps specially adapted for navigation; Updating thereof
- G01C21/3804—Creation or updating of map data
- G01C21/3833—Creation or updating of map data characterised by the source of data
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/38—Electronic maps specially adapted for navigation; Updating thereof
- G01C21/3804—Creation or updating of map data
- G01C21/3833—Creation or updating of map data characterised by the source of data
- G01C21/3841—Data obtained from two or more sources, e.g. probe vehicles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Remote Sensing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Radar, Positioning & Navigation (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Automation & Control Theory (AREA)
- Geometry (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Graphics (AREA)
- Image Processing (AREA)
Abstract
一种实时多模态感知的高精地图构建方法,涉及电子地图技术领域,包括:数据收集,包括摄像头图像数据、激光雷达点云数据和GPS数据;数据预处理;同步与配准,对预处理后的数据进行时间同步操作和空间配准操作;特征提取,对摄像头图像数据、3D‑CNN进行激光雷达点云数据特征提取,利用GPS轨迹数据计算目标位置或路径;数据融合,包括摄像头图像数据、激光雷达点云数据的特征级融合,和摄像头图像数据、激光雷达点云数据以及GPS数据的决策级融合;模型训练;评估和优化;通过深度学习分割模型对融合的数据进行分析得到高精地图,本发明的方法采用了多模态感知,能提高地图的精度和完整性,且能更好地应对各种复杂的驾驶条件,能够提高系统的鲁棒性。
Description
技术领域
本发明涉及电子地图技术领域,具体涉及一种实时多模态感知的高精地图构建方法。
背景技术
随着自动驾驶技术的发展,高精地图成为无人驾驶领域的关键技术之一,它能为自动驾驶系统提供精确的路况信息和环境感知,从而提高导航的精确性和驾驶的安全性。然而,构建高精地图的挑战在于如何有效的捕捉和整合来自不同类型感知器的大量复杂数据。
在自动驾驶领域,高精地图的重要性日益凸显。一个精确、全面的高精地图能帮助自动驾驶系统更好地理解其周围的环境,从而做出更准确的决策。因此,研究一种实时多模态感知在高精地图构建的方法,不仅能提升自动驾驶系统的性能,也有助于推动自动驾驶技术的发展。如何能更好地应对各种复杂的驾驶条件,提高系统的鲁棒性,是高精地图构建需要解决的问题。
发明内容
为解决上述技术问题,本发明提供一种实时多模态感知的高精地图构建方法,包括如下步骤:
数据收集,从不同类型的传感器收集数据,包括摄像头图像数据、激光雷达点云数据和GPS数据;
数据预处理,对收集的数据分别进行不同方式的预处理;
同步与配准,对预处理后的数据进行时间同步操作和空间配准操作;
特征提取,从预处理后的数据中提取数据的特征;具体地,使用CNN对摄像头图像数据进行特征提取;使用3D-CNN进行激光雷达点云数据特征提取;利用GPS轨迹数据计算目标位置或路径;
数据融合,摄像头图像数据、激光雷达点云数据以及GPS数据进行多级融合,包括摄像头图像数据、激光雷达点云数据的特征级融合,和摄像头图像数据、激光雷达点云数据以及GPS数据的决策级融合;融合后的结果为高精地图;
模型训练,对特征提取过程和数据融合过程中的模型进行训练;
评估和优化,评估模型的性能或分析结果的准确性,如果结果达不到对应的精度,需要返回到前面的步骤,调整参数,优化模型,直到达到精度符合要求的结果。
优选地,所述数据预处理步骤包括:
对摄像头图像数据进行去噪、滤波等增强操作;
对激光雷达点云数据进行去噪、下采样操作;
对GPS数据进行去噪后,根据GPS接收器采样间隔进行插值操作以得到连续时间点的位置信息。
具体地,所述时间同步操作包括:
通过网络时间协议NTP将各不同类型数据同步到公共参考GPS时钟;
通过线性插值对激光雷达点云数据和/或摄像头数据进行扩展以获得时间戳对齐的数据。
具体地,所述配准操作为将摄像头图像数据、激光雷达点云数据以及GPS数据从各自的传感器坐标系转换到一个共同的车辆坐标系中,
对于摄像头图像数据和激光雷达点云数据,包括:位姿获取,提前在已知的环境中采集标定物数据,实时场景中再通过优化算法求解位姿,获取每种传感器数据相对于共同标系的位姿;坐标系转换,对于摄像头图像,使用相机的内参和外参进行坐标系转换,对于激光雷达点云数据,通过雷达到车辆坐标系的变换矩阵进行转换;
对于GPS数据,包括:将其从经纬度坐标系转换为笛卡尔坐标系,将这些数据与车辆相关联,将它们从笛卡尔坐标系转换到车辆坐标系,通过应用一个描述GPS接收器相对于车辆坐标系的位姿的变换矩阵来实现。
优选地,所述使用卷积神经网络对摄像头图像数据进行特征提取,使用的神经网络模型包括:
输入层,用于接收原始的像素数据;对于彩色图像,输入是一个三维的数组,包含图像的宽度、高度和颜色通道;
卷积层,在卷积层中,定义一些小的可学习的滤波器,每个滤波器都会在输入数据上滑动,计算滤波器和其覆盖的输入数据之间的点积,从而生成新的特征图;
激活函数层,紧跟在卷积层之后,用于引入非线性;
池化层,采用最大池化层,用于降低特征图的维度;
全连接层,用于将前面的特征进行整合,全连接层的每个神经元与前一层的所有神经元都相连;
输出层,用于输出最终的结果。
优选地,所述使用3D-CNN进行激光雷达点云数据特征提取包括如下步骤:
基于模型对三维点云数据进行分割,将点云数据划分为多个有意义的区域或物体;
通过3D-CNN从每个区域或物体中进行特征提取,包括几何特征、颜色特征和反射强度特征等;
通过点特征直方图对提取的特征进行描述子计算;
后处理,对提取的特征进行特征降维操作。
优选地,所述通过3D-CNN从每个区域或物体中进行特征提取包括:
3D卷积,通过在输入数据上滑动一个小的可学习的滤波器,计算滤波器和其覆盖的输入数据之间的点积,从而生成新的特征图;
激活函数层,紧跟在卷积层之后,用于引入非线性;
池化层,采用最大池化层,用于降低特征图的维度;
全连接层,用于将前面的特征进行整合,全连接层的每个神经元与前一层的所有神经元都相连;
输出层,用于输出最终的结果。
具体地,所述利用GPS轨迹数据计算目标位置或路径包括:
坐标转换,GPS数据以经纬度表示,将其转换为笛卡尔坐标系;
位置计算,若计算目标的当前位置,直接使用最新的GPS数据,若要预测目标的未来位置,基于历史的轨迹数据,使用时间序列模型进行预测;
路径计算,以将连续的GPS数据点连接起来,形成一个由线段组成的路径,对路径进行贝塞尔曲线平滑处理。
具体地,所述特征级融合,包括:
特征映射,对于激光雷达点云数据,使用其空间信息——距离进行映射,而对于摄像头图像,使用像素位置进行映射;
数据重塑,使用插值方法,以确保生成的二维特征图包含所有必要的信息,并且维度与深度学习分割模型相匹配;
图像分割,得到二维的摄像头和激光雷达特征图,通过深度学习分割模型U进行分割;
所述决策级融合包括:
采用深度强化学习方法,对各个传感器单独进行数据处理和决策,再将决策进行融合。
具体地,所述深度强化学习的DQN的训练过程如下:
A.初始化,初始化Q网络参数和目标Q网络参数。
B.行动选择,在当前状态下,利用Q网络选择一个行动,以1-ε的概率选择Q值最大的行动,以ε的概率随机选择一个行动;
C.环境交互,执行选择的行动,并从环境中获取下一个状态和奖励;
D.经验存储,将当前状态、行动、奖励和下一个状态存储在经验回放缓冲区中;
E.样本抽取,从经验回放缓冲区中随机抽取一批样本;
F.网络更新,计算每个样本的目标Q值,即奖励加上折扣因子乘以目标Q网络在下一个状态下的最大Q值,然后,利用目标Q值和Q网络的预测Q值之间的均方误差来更新Q网络的参数;
G.目标网络更新,每隔一段时间,用Q网络的参数来更新目标Q网络的参数;
H.迭代,反复执行步骤B-G,直到满足停止条件。
采用上述方案后,本发明的有益效果在于,摄像头图像能够提供丰富的颜色和纹理信息,有助于生成视觉上更真实的地图;激光雷达通过产生三维点云图能够精确测算物体的距离和相对速度,与摄像头图像的二维图像进行互补,能提高物体定位的精度;而GPS数据在宽阔开发的区域能为地图构建提供一个全局的参考,提高地图的整体精度,本发明的方法不仅能提高地图的精度和完整性,而且能实时处理和融合传感器数据,从而支持自动驾驶系统的实时决策,并且,本发明的方法采用了多模态感知,因此能更好地应对各种复杂的驾驶条件,能够提高系统的鲁棒性。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图,对本发明的具体实施方式进行详细描述,但应当理解本发明的保护范围并不受具体实施方式的限制。
除非另有其它明确表示,否则在整个说明书和权利要求书中,术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分,而并未排除其它元件或其它组成部分。
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
一种实时多模态感知的高精地图构建方法,包括如下步骤:
S100.数据收集,从不同类型的传感器收集数据,包括摄像头图像数据、激光雷达点云数据和GPS数据。在实际的数据采集阶段,每种设备(摄像头、激光雷达、GPS)都会在采集数据的同时记录下数据的时间戳,这些时间戳通常是设备内部的时钟生成的。
S200.数据预处理,对收集的数据分别进行不同方式的预处理;所述数据预处理步骤包括:
S210.对摄像头RGB图像数据进行去噪、滤波等增强操作;
S220.对激光雷达点云数据进行去噪、下采样操作;
S230.对GPS数据进行去噪后,根据GPS接收器采样间隔进行插值操作以得到连续时间点的位置信息,如果GPS数据没有缺失值,则无需进行插值操作。
S300.同步与配准,对预处理后的数据进行时间同步操作和空间配准操作;由于每种传感器的采样频率和时间戳可能不一样,因此需要对数据进行时间同步,使所有数据能对齐到同一时间戳,即进行时间同步操作。所有的传感器数据都有一个共享的时间参考,以此实现不同传感器的数据可以通过时间戳进行关联和同步,本发明中的时间同步操作先通过硬件触发再通过软件同步来实现,硬件触发是通过一个外部的信号来同时触发所有的传感器进行数据采集,软件同步是在数据采集后,通过软件算法来调整数据的时间戳,使得它们在时间上对齐,具体包括:
(1)通过网络时间协议NTP将各不同类型数据同步到公共参考GPS时钟;
(2)通过线性插值对激光雷达点云数据和/或摄像头数据进行扩展以获得时间戳对齐的数据,比如,采用的摄像头的采集频率是30Hz,激光雷达的采集频率是10Hz,通过线性插值的方法将激光雷达的数据扩展到30Hz,从而与摄像头图像数据对齐。
空间配准操作是将来自不同传感器的数据在空间上对齐,从各自的传感器坐标系转换到一个共同的坐标系,本具体实施方式采用车辆坐标系,获取每种传感器相对于共同坐标系的位姿,即位置和姿态,而这个位姿通过提前标定然后在实际场景中通过匹配算法来获得。对于摄像头图像数据和激光雷达点云数据,通过对应的变换矩阵直接转换到共同坐标系。位姿的提前标定过程包括如下步骤:
S311.准备标定场地:首先,需要准备一个标定场地,这个场地需要有足够的空间,以便可以在其中放置标定物。标定物通常是一些具有特定几何形状和颜色的物体,这些标定物的大小、形状和颜色都需要在标定过程中预先定义。
S312.放置标定物:在标定场地中,将标定物放置在不同的位置和角度。这样,当通过摄像头和激光雷达采集数据时,可以从不同的视角和距离观察到这些标定物。
S313.采集数据:然后,通过摄像头和激光雷达采集数据。在这个过程中,需要确保摄像头和激光雷达可以清晰地看到所有的标定物。同时,也需要记录下每个标定物在摄像头和激光雷达中的图像和点云数据。
S314.求解位姿:在采集了数据之后,可以通过优化算法来求解传感器的位姿了,通过最小化标定物在摄像头图像和激光雷达点云数据中的投影误差来实现,优化算法本文采用非线性最小二乘法。
S315.验证和调整:最后,需要验证求解的位姿是否准确。通过将求解的位姿应用到新的数据中,然后检查标定物在摄像头图像和激光雷达点云数据中的投影误差是否在可接受的范围内,如果误差过大,需要调整标定物的位置或者角度,然后重新采集数据并求解位姿。
上述过程是提前完成的,在实时系统中,对实际采集的数据与位姿库中的数据进行匹配,选择误差最小的位姿作为结果。
在获取了传感器的位姿之后,将传感器的数据转换到共同的坐标系,对于摄像头图像,使用相机标定结果即内参和外参进行坐标系转换。首先,获取摄像头的内参和外参,内参包括焦距、主点坐标等,可以描述摄像头的内部特性;外参包括旋转矩阵和平移向量,可以描述摄像头相对于车辆坐标系的位姿。然后,通过投影变换将摄像头坐标系中的点转换到车辆坐标系,投影变换包括旋转和平移,旋转通过旋转矩阵来实现,平移通过平移向量来实现。
对于激光雷达点云数据,通过雷达到车辆坐标系的变换矩阵进行转换;首先,获取激光雷达相对于车辆坐标系的位姿,该位姿通过标定来获得,包括一个旋转矩阵和一个平移向量。然后,通过坐标变换将激光雷达坐标系中的点转换到车辆坐标系。坐标变换通常包括旋转和平移两个步骤。旋转通过旋转矩阵来实现,平移通过平移向量来实现。
GPS数据处理,对于GPS数据,首先将其从经纬度坐标系转换为笛卡尔坐标系,此步骤通过地理坐标系转换的方法来实现。然后,GPS数据表示为在二维平面上的点。接下来,将这些数据与车辆相关联,将它们从笛卡尔坐标系转换到车辆坐标系,具体地,通过应用一个描述GPS接收器相对于车辆坐标系的位姿的变换矩阵来实现,通过应用这个变换矩阵,就可以把GPS数据成功转换到车辆坐标系。具体过程如下:
S321.获取变换矩阵:首先,获取一个描述GPS接收器相对于车辆坐标系的位姿的变换矩阵,这个变换矩阵通过标定来获得,标定的过程通常包括在已知的环境中采集GPS数据和车辆数据,然后通过非线性最小二乘法优化算法来求解变换矩阵。
S322.转换坐标系:通过应用这个变换矩阵来将GPS数据转换到车辆坐标系。这通常通过矩阵乘法来实现,将GPS数据表示为一个向量,然后将这个向量与变换矩阵相乘,得到的结果就是在车辆坐标系中的GPS数据。
S323.验证和调整:验证转换后的GPS数据是否准确,将转换后的GPS数据与车辆的实际位置进行比较来实现,如果误差过大,需要重新标定,然后重新计算变换矩阵。
在上述配准操作完成后,三种传感器数据取交集,以确保在后续的处理和分析中使用的数据是同步的,即所有的数据都是在同一时刻获取的,这样,可以确保数据之间的时间对齐,避免因为时间不同步导致的误差。
S400.特征提取,从预处理后的数据中提取数据的特征,特征提取操作能够从原始数据中提取能够描述数据的重要特性的信息,以此来简化后续的处理或者分析,提高计算效率。如果不进行上述的同步操作和配准操作就直接进行特征提取,可能会在特征提取时产生很多冗余数据或影响精度的干扰数据,冗余数据是指那些对任务没有帮助,或者与其他数据重复的数据,这些数据不仅增加了计算量,而且可能会引入噪声,会降低模型的实时性,增加系统计算量上的负担,影响高精地图构建的准确性。
使用卷积神经网络CNN(Convolutional Neural Networks)对摄像头图像数据进行特征提取,CNN中的卷积层可以有效地提取图像中的局部特征,如边缘、角点等,通过多个卷积层的堆叠,CNN能够捕捉到图像中的复杂模式。使用3D-CNN进行激光雷达点云数据特征提取,激光雷达点云数据是以点云形式进行表示的,3D-CNN模型将从点云数据中学习更加复杂或高级的特征;对于GPS数据,利用GPS轨迹数据计算目标位置或路径。GPS数据其表示为时间序列的经纬度坐标,从中提取基本特征,通常可以出计算车辆的位置、速度、加速度、行驶方向等,还可以通过对GPS轨迹的分析,提取出更高级的特征,如行驶模式、交通状态等。
所述使用卷积神经网络对摄像头图像数据进行特征提取,使用的神经网络模型包括:
输入层,用于接收原始的像素数据;对于彩色图像,输入是一个三维的数组,包含图像的宽度、高度和颜色通道(例如RGB三个通道)。卷积层,在卷积层中,定义一些小的可学习的滤波器,每个滤波器都会在输入数据上滑动,计算滤波器和其覆盖的输入数据之间的点积,从而生成新的特征图(Feature Map);这个过程可以捕捉到图像中的局部特征,例如边缘、角点等。激活函数层,紧跟在卷积层之后,用于引入非线性,常用的激活函数有ReLU(Rectified Linear Unit),它会将所有的负值变为0,保留所有的正值。池化层(PoolingLayer),采用最大池化层(Max Pooling),用于降低特征图的维度。全连接层(FullyConnected Layer),用于将前面的特征进行整合,全连接层的每个神经元与前一层的所有神经元都相连;输出层,用于输出最终的结果。
激光雷达(LiDAR)的输出是一个三维点云图,每个点包含了位置(x,y,z)和反射强度等信息。使用3D-CNN进行激光雷达点云数据特征提取包括如下步骤:
S411.基于模型对三维点云数据进行分割,将点云数据划分为多个有意义的区域或物体,例如地面和非地面、物体等。应当理解,在分割之前会将数据进行体素化,将三维空间划分为一系列的体素即小立方体,然后统计每个体素中的点的数量或其他属性,从而将点云转换为一个三维的数组。
S412.通过3D-CNN从每个区域或物体中进行特征提取,包括几何特征(如位置、大小、形状等)、颜色特征(如果激光雷达支持颜色信息)和反射强度特征等。具体而言,通过3D-CNN从每个区域或物体中进行特征提取包括:3D卷积,与2D卷积类似,3D卷积也是通过在输入数据上滑动一个小的可学习的滤波器(卷积核),计算滤波器和其覆盖的输入数据之间的点积,从而生成新的特征图,与二维卷积不同的是,不同的是,3D卷积在三个维度上进行滑动,可以捕捉到三维数据中的空间特征;激活函数层,紧跟在卷积层之后,用于引入非线性,使用激活函数ReLU(Rectified Linear Unit),它会将所有的负值变为0,保留所有的正值;池化层,采用最大池化层,用于降低特征图的维度,从而减少计算量,同时也能提高模型的鲁棒性;全连接层,用于将前面的特征进行整合,全连接层的每个神经元与前一层的所有神经元都相连;输出层,用于输出最终的结果。
S413.通过点特征直方图对提取的特征进行描述子计算,描述子是对特征的进一步抽象,可以用于区分不同的物体或场景。
S414.后处理,对提取的特征进行特征降维操作,后处理是对提取的特征进行优化或转换,以便于后续的任务,例如分类、检测、跟踪等。本方法中主要用于特征降维。
在激光雷达(LiDAR)三维点云图的应用场景中,对三维点云数据先进行分割再进行特征提取主要的有益效果包括:
(1)物体识别:通过对三维点云数据进行分割和特征提取,可以帮助系统更准确地识别和理解环境中的物体。例如,在自动驾驶场景中,可以通过点云数据的特征提取和分割来识别出行人、车辆、路标等关键元素,为自动驾驶系统提供关键信息。
(2)环境理解:分割和特征提取可以帮助系统从全局的角度理解环境。例如,可以识别出地面、建筑物、树木等场景元素,从而构建更精确的环境模型。
(3)空间定位:通过对点云进行特征提取,可以从数据中识别出特定的地标,这对于智能汽车的导航和定位非常有帮助。一些算法可以利用这些特征进行SLAM(Simultaneous Localization and Mapping)操作,即同时进行定位和地图构建。
(4)提高计算效率:通过对点云数据进行分割,可以有效地减少处理和分析的数据量,从而提高计算效率。只需关注那些有用的部分,而忽略那些无关的部分,可以降低算法的复杂性和运算时间。
(5)增强决策能力:在自动驾驶应用中,特征提取和分割可以提供更丰富的信息,帮助决策系统做出更精确的判断和决策。例如,自动驾驶系统可以通过识别物体和场景特征来预测可能的风险和动态变化,从而做出安全的驾驶决策。
总的来说,对激光雷达三维点云图进行分割和特征提取可以增强系统对环境的理解能力,提高决策精度和效率,增强系统的功能性和可靠性。
利用GPS轨迹数据计算目标位置或路径包括:
S21.坐标转换,GPS数据通常是以经纬度表示的,但在计算位置或路径时,需要将其转换为笛卡尔坐标系,这可以通过一些已知的地理坐标转换方法(如UTM,UniversalTransverse Mercator)来实现。
S22.位置计算,若计算目标的当前位置,直接使用最新的GPS数据,若要预测目标的未来位置,基于历史的轨迹数据,使用时间序列模型进行预测;
S23.路径计算,以将连续的GPS数据点连接起来,形成一个由线段组成的路径,对路径进行贝塞尔曲线平滑处理。
S500.数据融合,得到高精地图,摄像头图像数据、激光雷达点云数据以及GPS数据进行多级融合,包括摄像头图像数据、激光雷达点云数据的特征级融合,和摄像头图像数据、激光雷达点云数据以及GPS数据的决策级融合。融合后的结果为高精地图。数据融合可以减少噪声、增加鲁棒性、增加准确度。
所述特征级融合,包括:
S511.特征映射,对于激光雷达点云数据,使用其空间信息——距离进行映射,而对于摄像头图像,使用像素位置进行映射;
S512.数据重塑,使用插值方法,以确保生成的二维特征图包含所有必要的信息,并且维度与深度学习分割模型相匹配;
S513.图像分割,得到二维的摄像头和激光雷达特征图,通过深度学习分割模型U进行分割;本具体实施方式中的所述分割模型采用U-net模型,包括收缩和扩展两个阶段,在收缩阶段,模型学习到融合后的语义信息;在扩展阶段,模型恢复融合后的空间详细信息;收缩阶段和扩展阶段之间还包括跳跃连接,将收缩阶段的特征融合信息直接连接到扩展阶段的对应层。由于U-Net在网络设计中引入了大量的特征复用,使得它在相对较少的标注样本下仍然可以进行有效的训练。对于自动驾驶实时高精地图构建其标注样本稀缺的场合非常有用。最后,U-Net可以通过改变网络结构中的层数、层的深度和宽度等参数,来适应不同复杂度的任务和不同大小的图像。
所述决策级融合包括:
采用深度强化学习方法,对各个传感器单独进行数据处理和决策,再将决策进行融合。
深度强化学习方法,DQN(Deep Q-Network,DQN),利用深度神经网络来近似Q函数,Q函数表示在给定状态下执行各种行动的预期回报,在传统的Q学习算法中,Q函数通常使用表格(表格大小等于状态空间大小乘以行动空间大小)进行表示,但在具有高维度输入空间的问题中,这种方法是不切实际的。因此,DQN使用深度神经网络来近似Q函数。
DQN的训练过程如下:
所述深度强化学习的DQN的训练过程如下:
A.初始化,初始化Q网络参数和目标Q网络参数。
B.行动选择,在当前状态下,利用Q网络选择一个行动,这通常是一个ε-贪心策略,即以1-ε的概率选择Q值最大的行动,以ε的概率随机选择一个行动;
C.环境交互,执行选择的行动,并从环境中获取下一个状态和奖励;
D.经验存储,将当前状态、行动、奖励和下一个状态存储在经验回放缓冲区中;
E.样本抽取,从经验回放缓冲区中随机抽取一批样本;
F.网络更新,计算每个样本的目标Q值,即奖励加上折扣因子乘以目标Q网络在下一个状态下的最大Q值,然后,利用目标Q值和Q网络的预测Q值之间的均方误差来更新Q网络的参数;
G.目标网络更新,每隔一段时间,用Q网络的参数来更新目标Q网络的参数;
H.迭代,反复执行步骤B-G,直到满足停止条件,比如,达到最大训练步数即停止。
S600.模型训练,对特征提取过程和数据融合过程中的模型进行训练;应当理解,模型是提前训练好的,在实时获取地图的过程中,不会经过模型训练这一步,同样,模型的评估和优化在实时获取地图的过程中,也不会有这一步骤。在经过上述的融合后,得到的就是高精地图。
S700.评估和优化,评估模型的性能或分析结果的准确性,如果结果达不到对应的精度,需要返回到前面的步骤,调整参数,优化模型,直到达到精度符合要求的结果。本发明提供一些可以用于进行评估的性能:
(1)准确性:构建的高精地图应当能确保地图元素(如道路、车道线、交通标志等)的位置和形状等信息无误,且通过比较地图结果和真实环境,来评估地图的准确性。
(2)完整性:评估地图是否包含了所有需要的信息,是否有遗漏的地图元素。
(3)实时性:在自动驾驶中使用,其构建速度是否能满足实时或近实时的需求。
(4)鲁棒性:评估在不同环境条件(如不同天气、不同光照、不同道路类型等)下,地图构建的效果是否稳定。
(6)可重复性:评估对于同一地点,不同时间的地图构建结果是否一致。
(7)模型的泛化能力:所构建模型是否能适应不同场景和环境,对于新的、未见过的数据,高精地图构建效果如何。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种实时多模态感知的高精地图构建方法,其特征在于,包括如下步骤:
数据收集,从不同类型的传感器收集数据,包括摄像头图像数据、激光雷达点云数据和GPS数据;
数据预处理,对收集的数据分别进行不同方式的预处理;
同步与配准,对预处理后的数据进行时间同步操作和空间配准操作;
特征提取,从预处理后的数据中提取数据的特征;具体地,使用CNN对摄像头图像数据进行特征提取;使用3D-CNN进行激光雷达点云数据特征提取;利用GPS轨迹数据计算目标位置或路径;
数据融合,摄像头图像数据、激光雷达点云数据以及GPS数据进行多级融合,包括摄像头图像数据、激光雷达点云数据的特征级融合,和摄像头图像数据、激光雷达点云数据以及GPS数据的决策级融合;融合后的结果为高精地图;
模型训练,对特征提取过程和数据融合过程中的模型进行训练;
评估和优化,评估模型的性能或分析结果的准确性,如果结果达不到对应的精度,需要返回到前面的步骤,调整参数,优化模型,直到达到精度符合要求的结果。
2.根据权利要求1所述的一种实时多模态感知的高精地图构建方法,其特征在于,所述数据预处理步骤包括:
对摄像头图像数据进行去噪、滤波等增强操作;
对激光雷达点云数据进行去噪、下采样操作;
对GPS数据进行去噪后,根据GPS接收器采样间隔进行插值操作以得到连续时间点的位置信息。
3.根据权利要求1所述的一种实时多模态感知的高精地图构建方法,其特征在于,所述时间同步操作包括:
通过网络时间协议NTP将各不同类型数据同步到公共参考GPS时钟;
通过线性插值对激光雷达点云数据和/或摄像头数据进行扩展以获得时间戳对齐的数据。
4.根据权利要求1所述的一种实时多模态感知的高精地图构建方法,其特征在于,所述配准操作为将摄像头图像数据、激光雷达点云数据以及GPS数据从各自的传感器坐标系转换到一个共同的车辆坐标系中,
对于摄像头图像数据和激光雷达点云数据,包括:位姿获取,提前在已知的环境中采集标定物数据,实时场景中再通过优化算法求解位姿,获取每种传感器数据相对于共同标系的位姿;坐标系转换,对于摄像头图像,使用相机的内参和外参进行坐标系转换,对于激光雷达点云数据,通过雷达到车辆坐标系的变换矩阵进行转换;
对于GPS数据,包括:将其从经纬度坐标系转换为笛卡尔坐标系,将这些数据与车辆相关联,将它们从笛卡尔坐标系转换到车辆坐标系,通过应用一个描述GPS接收器相对于车辆坐标系的位姿的变换矩阵来实现。
5.根据权利要求1所述的一种实时多模态感知的高精地图构建方法,其特征在于,所述使用卷积神经网络对摄像头图像数据进行特征提取,使用的神经网络模型包括:
输入层,用于接收原始的像素数据;对于彩色图像,输入是一个三维的数组,包含图像的宽度、高度和颜色通道;
卷积层,在卷积层中,定义一些小的可学习的滤波器,每个滤波器都会在输入数据上滑动,计算滤波器和其覆盖的输入数据之间的点积,从而生成新的特征图;
激活函数层,紧跟在卷积层之后,用于引入非线性;
池化层,采用最大池化层,用于降低特征图的维度;
全连接层,用于将前面的特征进行整合,全连接层的每个神经元与前一层的所有神经元都相连;
输出层,用于输出最终的结果。
6.根据权利要求1所述的一种实时多模态感知的高精地图构建方法,其特征在于,所述使用3D-CNN进行激光雷达点云数据特征提取包括如下步骤:
基于模型对三维点云数据进行分割,将点云数据划分为多个有意义的区域或物体;
通过3D-CNN从每个区域或物体中进行特征提取,包括几何特征、颜色特征和反射强度特征等;
通过点特征直方图对提取的特征进行描述子计算;
后处理,对提取的特征进行特征降维操作。
7.根据权利要求1所述的一种实时多模态感知的高精地图构建方法,其特征在于,所述通过3D-CNN从每个区域或物体中进行特征提取包括:
3D卷积,通过在输入数据上滑动一个小的可学习的滤波器,计算滤波器和其覆盖的输入数据之间的点积,从而生成新的特征图;
激活函数层,紧跟在卷积层之后,用于引入非线性;
池化层,采用最大池化层,用于降低特征图的维度;
全连接层,用于将前面的特征进行整合,全连接层的每个神经元与前一层的所有神经元都相连;
输出层,用于输出最终的结果。
8.根据权利要求1所述的一种实时多模态感知的高精地图构建方法,其特征在于,所述利用GPS轨迹数据计算目标位置或路径包括:
坐标转换,GPS数据以经纬度表示,将其转换为笛卡尔坐标系;
位置计算,若计算目标的当前位置,直接使用最新的GPS数据,若要预测目标的未来位置,基于历史的轨迹数据,使用时间序列模型进行预测;
路径计算,以将连续的GPS数据点连接起来,形成一个由线段组成的路径,对路径进行贝塞尔曲线平滑处理。
9.根据权利要求1所述的一种实时多模态感知的高精地图构建方法,其特征在于,所述特征级融合,包括:
特征映射,对于激光雷达点云数据,使用其空间信息——距离进行映射,而对于摄像头图像,使用像素位置进行映射;
数据重塑,使用插值方法,以确保生成的二维特征图包含所有必要的信息,并且维度与深度学习分割模型相匹配;
图像分割,得到二维的摄像头和激光雷达特征图,通过深度学习分割模型U进行分割;
所述决策级融合包括:
采用深度强化学习方法,对各个传感器单独进行数据处理和决策,再将决策进行融合。
10.根据权利要求1所述的一种实时多模态感知的高精地图构建方法,其特征在于,所述深度强化学习的DQN的训练过程如下:
A.初始化,初始化Q网络参数和目标Q网络参数。
B.行动选择,在当前状态下,利用Q网络选择一个行动,以1-ε的概率选择Q值最大的行动,以ε的概率随机选择一个行动;
C.环境交互,执行选择的行动,并从环境中获取下一个状态和奖励;
D.经验存储,将当前状态、行动、奖励和下一个状态存储在经验回放缓冲区中;
E.样本抽取,从经验回放缓冲区中随机抽取一批样本;
F.网络更新,计算每个样本的目标Q值,即奖励加上折扣因子乘以目标Q网络在下一个状态下的最大Q值,然后,利用目标Q值和Q网络的预测Q值之间的均方误差来更新Q网络的参数;
G.目标网络更新,每隔一段时间,用Q网络的参数来更新目标Q网络的参数;
H.迭代,反复执行步骤B-G,直到满足停止条件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310804237.4A CN116817891A (zh) | 2023-07-03 | 2023-07-03 | 一种实时多模态感知的高精地图构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310804237.4A CN116817891A (zh) | 2023-07-03 | 2023-07-03 | 一种实时多模态感知的高精地图构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116817891A true CN116817891A (zh) | 2023-09-29 |
Family
ID=88140955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310804237.4A Pending CN116817891A (zh) | 2023-07-03 | 2023-07-03 | 一种实时多模态感知的高精地图构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116817891A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117635859A (zh) * | 2023-11-28 | 2024-03-01 | 青海省地理空间和自然资源大数据中心 | 基于gis数据的快速地图制图方法及系统 |
-
2023
- 2023-07-03 CN CN202310804237.4A patent/CN116817891A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117635859A (zh) * | 2023-11-28 | 2024-03-01 | 青海省地理空间和自然资源大数据中心 | 基于gis数据的快速地图制图方法及系统 |
CN117635859B (zh) * | 2023-11-28 | 2024-05-07 | 青海省地理空间和自然资源大数据中心 | 基于gis数据的快速地图制图方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111563442B (zh) | 基于激光雷达的点云和相机图像数据融合的slam方法及系统 | |
CN110988912B (zh) | 自动驾驶车辆的道路目标与距离检测方法、系统、装置 | |
CN109186606B (zh) | 一种基于slam和图像信息的机器人构图及导航方法 | |
CN111340797A (zh) | 一种激光雷达与双目相机数据融合检测方法及系统 | |
CN110726409B (zh) | 一种基于激光slam和视觉slam地图融合方法 | |
CN111060924B (zh) | 一种slam与目标跟踪方法 | |
CN110073362A (zh) | 用于车道标记检测的系统及方法 | |
Berrio et al. | Camera-LIDAR integration: Probabilistic sensor fusion for semantic mapping | |
CN112197770A (zh) | 一种机器人的定位方法及其定位装置 | |
CN115376109B (zh) | 障碍物检测方法、障碍物检测装置以及存储介质 | |
CN116817891A (zh) | 一种实时多模态感知的高精地图构建方法 | |
CN113724387A (zh) | 一种激光与相机融合的地图构建方法 | |
CN117576652B (zh) | 道路对象的识别方法、装置和存储介质及电子设备 | |
CN117111085A (zh) | 一种自动驾驶汽车车路云融合感知方法 | |
CN116222577A (zh) | 闭环检测方法、训练方法、系统、电子设备及存储介质 | |
Xiong et al. | Road-Model-Based road boundary extraction for high definition map via LIDAR | |
Valente et al. | Evidential SLAM fusing 2D laser scanner and stereo camera | |
Zhanabatyrova et al. | Automatic map update using dashcam videos | |
Chiu et al. | Sub-meter vehicle navigation using efficient pre-mapped visual landmarks | |
Schüle et al. | Augmenting night vision video images with longer distance road course information | |
Dehbi et al. | Improving gps trajectories using 3d city models and kinematic point clouds | |
Zhou et al. | Place recognition and navigation of outdoor mobile robots based on random Forest learning with a 3D LiDAR | |
Hyeon et al. | KR-Net: A dependable visual kidnap recovery network for indoor spaces | |
Aggarwal | Machine vision based SelfPosition estimation of mobile robots | |
CN113960614A (zh) | 一种基于帧-地图匹配的高程图构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |