CN117935206A - 数据预处理方法、装置、设备及存储介质 - Google Patents
数据预处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN117935206A CN117935206A CN202311652579.5A CN202311652579A CN117935206A CN 117935206 A CN117935206 A CN 117935206A CN 202311652579 A CN202311652579 A CN 202311652579A CN 117935206 A CN117935206 A CN 117935206A
- Authority
- CN
- China
- Prior art keywords
- feature map
- aerial view
- data
- image
- dimensional grid
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000007781 pre-processing Methods 0.000 title claims abstract description 36
- 230000002093 peripheral effect Effects 0.000 claims abstract description 58
- 238000001514 detection method Methods 0.000 claims abstract description 43
- 230000002776 aggregation Effects 0.000 claims abstract description 26
- 238000004220 aggregation Methods 0.000 claims abstract description 26
- 238000000605 extraction Methods 0.000 claims abstract description 26
- 238000013528 artificial neural network Methods 0.000 claims description 30
- 238000010606 normalization Methods 0.000 claims description 5
- 230000004927 fusion Effects 0.000 abstract description 5
- 230000004931 aggregating effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及智能驾驶技术领域,公开了一种数据预处理方法、装置、设备及存储介质。数据预处理方法包括:获取当前车辆周围环境的多个点云数据与多个图像数据;生成各点云数据对应的动态稀疏三维格网以及生成各图像数据对应的周视图像特征图;将动态稀疏三维格网以及预置固定稠密三维格网分别投影至周视图像特征图并进行特征聚合,对应得到第一俯瞰特征图与第二俯瞰特征图;将第一俯瞰特征图与第二俯瞰特征图进行叠加,得到第三俯瞰特征图;将第三俯瞰特征图与周视图像特征图进行空间特征提取,得到第四俯瞰特征图。本发明提高了深度预测准确性以及模型检测精度,同时增加了特征融合的鲁棒性,保证了检测模型的召回率。
Description
技术领域
本发明涉及智能驾驶技术领域,尤其涉及一种数据预处理方法、装置、设备及存储介质。
背景技术
三维目标检测对于智能驾驶感知任务至关重要。现有三维目标检测一般都是基于周视图像的感知方案进行检测,一般分为BEVDepth和BEVFormer两种建模方法。BEVDepth利用单目深度估计网络预测像素深度并利用深度预测聚合成俯瞰图特征作为初始查询特征,而BEVFormer则是利用三维空间中预先生成的固定格网点投影到周视图像上并取相应位置的特征聚合成俯瞰图特征作为初始查询特征。
现有建模方法中,由于单目深度估计存在深度预测不准确而造成错误位置检测,而固定格网对于射线上深度不同的位置无法区分而造成射线上的散射现象。
发明内容
本发明的主要目的在于解决现有建模方法存在深度预测不准确以及不同深度位置无法区分的技术问题。
本发明第一方面提供了一种数据预处理方法,应用于车辆周围环境的三维目标检测,所述数据预处理方法包括:
获取当前车辆周围环境的多个点云数据与多个图像数据;
生成各所述点云数据对应的动态稀疏三维格网以及生成各所述图像数据对应的周视图像特征图;
将所述动态稀疏三维格网以及预置固定稠密三维格网分别投影至所述周视图像特征图并进行特征聚合,对应得到第一俯瞰特征图与第二俯瞰特征图;
将所述第一俯瞰特征图与所述第二俯瞰特征图进行叠加,得到第三俯瞰特征图;
将所述第三俯瞰特征图与所述周视图像特征图进行空间特征提取,得到第四俯瞰特征图。
在本发明第一方面的第一种实现方式中,所述数据预处理方法还包括:
将所述第四俯瞰特征图输入预置检测模型进行处理,输出当前车辆周围环境中的三维目标检测框。
在本发明第一方面的第二种实现方式中,所述生成各所述点云数据对应的动态稀疏三维格网包括:
对各所述点云数据进行体素化处理,得到多个体数据;
基于各所述体数据,生成车辆周围环境的俯瞰图对应的深度先验;
基于所述深度先验,生成各所述点云数据对应的动态稀疏三维格网。
在本发明第一方面的第三种实现方式中,所述生成各所述图像数据对应的周视图像特征图包括:
将各所述图像数据输入预置深度神经网络进行特征提取,得到当前车辆周围环境对应的周视图像特征图。
在本发明第一方面的第四种实现方式中,所述将所述动态稀疏三维格网以及预置固定稠密三维格网分别投影至所述周视图像特征图并进行特征聚合,对应得到第一俯瞰特征图与第二俯瞰特征图包括:
将所述动态稀疏三维格网的中心点坐标投影至所述周视图像特征图,得到第一特征图;
采用双线性插值法对所述第一特征图进行放大,并通过所述深度神经网络对放大后的所述第一特征图进行区域特征聚合,得到第一俯瞰特征图;
将预置固定稠密三维格网的中心点坐标投影至所述周视图像特征图,得到第二特征图;
采用双线性插值法对所述第二特征图进行放大,并通过所述深度神经网络对放大后的所述第二特征图进行区域特征聚合,得到第二俯瞰特征图。
在本发明第一方面的第五种实现方式中,所述将所述第三俯瞰特征图与所述周视图像特征图进行空间特征提取,得到第四俯瞰特征图包括:
通过所述深度神经网络,对所述第三俯瞰特征图与所述周视图像特征图进行多层空间交叉注意力特征提取,并对特征提取结果进行全连接与归一化处理,输出第四俯瞰特征图。
在本发明第一方面的第六种实现方式中,采用车载激光雷达生成所述点云数据,采用多个不同朝向的车载摄像头生成所述图像数据。
本发明第二方面提供一种数据预处理装置,所述数据预处理装置包括:
获取模块,用于获取当前车辆周围环境的多个点云数据与多个图像数据;
生成模块,用于生成各所述点云数据对应的动态稀疏三维格网以及生成各所述图像数据对应的周视图像特征图;
聚合模块,用于将所述动态稀疏三维格网以及预置固定稠密三维格网分别投影至所述周视图像特征图并进行特征聚合,对应得到第一俯瞰特征图与第二俯瞰特征图;
叠加模块,用于将所述第一俯瞰特征图与所述第二俯瞰特征图进行叠加,得到第三俯瞰特征图;
提取模块,用于将所述第三俯瞰特征图与所述周视图像特征图进行空间特征提取,得到第四俯瞰特征图。
在本发明第二方面的第一种实现方式中,所述数据预处理装置还包括:
检测模块,用于将所述第四俯瞰特征图输入预置检测模型进行处理,输出当前车辆周围环境中的三维目标检测框。
在本发明第二方面的第二种实现方式中,所述生成模块具体用于:
对各所述点云数据进行体素化处理,得到多个体数据;
基于各所述体数据,生成车辆周围环境的俯瞰图对应的深度先验;
基于所述深度先验,生成各所述点云数据对应的动态稀疏三维格网。
在本发明第一方面的第三种实现方式中,所述生成模块还用于:
将各所述图像数据输入预置深度神经网络进行特征提取,得到当前车辆周围环境对应的周视图像特征图。
在本发明第二方面的第四种实现方式中,所述聚合模块具体用于:
将所述动态稀疏三维格网的中心点坐标投影至所述周视图像特征图,得到第一特征图;
采用双线性插值法对所述第一特征图进行放大,并通过所述深度神经网络对放大后的所述第一特征图进行区域特征聚合,得到第一俯瞰特征图;
将预置固定稠密三维格网的中心点坐标投影至所述周视图像特征图,得到第二特征图;
采用双线性插值法对所述第二特征图进行放大,并通过所述深度神经网络对放大后的所述第二特征图进行区域特征聚合,得到第二俯瞰特征图。
在本发明第二方面的第五种实现方式中,所述提取模块具体用于:
通过所述深度神经网络,对所述第三俯瞰特征图与所述周视图像特征图进行多层空间交叉注意力特征提取,并对特征提取结果进行全连接与归一化处理,输出第四俯瞰特征图。
在本发明第二方面的第六种实现方式中,采用车载激光雷达生成所述点云数据,采用多个不同朝向的车载摄像头生成所述图像数据。
本发明第三方面提供了一种计算机设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述计算机设备执行上述的数据预处理方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的数据预处理方法。
本发明提供的技术方案中,通过对输入检测模块的数据源类型以及各数据进行预处理,使得预处理后的数据间接解决现有建模方法存在深度预测不准确以及不同深度位置无法区分的问题,具体包括:利用点云数据作为深度初始化,生成动态稀疏三维格网并聚合俯瞰图特征,以保证特征的聚焦和解决散射问题。同时,为避免漏检的问题,在动态稀疏三维格网基础上保留固定稠密三维格网生成的俯瞰特征图,以保证召回率。本发明使用点云数据的准确深度信息,提高深度预测准确性,从而提高检测精度。同时为增加特征融合的鲁棒性,本发明采用将动态稀疏三维格网生成的俯瞰特征图和固定稠密三维格网生成的俯瞰特征图相加的方式,利用点云深度的同时保留无点云位置的特征以保证召回率。
附图说明
图1为本发明实施例中数据预处理方法的一个实施例示意图;
图2为本发明实施例中数据预处理装置的一个实施例示意图;
图3为本发明实施例中计算机设备的一个实施例示意图。
具体实施方式
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中数据预处理方法的一个实施例包括:
101、获取当前车辆周围环境的多个点云数据与多个图像数据;
本实施例应用于车辆周围环境的三维目标检测,比如前方车辆、周边行人、障碍物等的检测。
点云(point cloud)是空间中点的数据集,可以表示三维形状或对象,通常由三维扫描仪获取。点云中每个点的位置都由一组笛卡尔坐标(X,Y,Z)描述,有些可能含有色彩信息(R,G,B)或物体反射面强度(Intensity)信息。当这些点组合在一起时,就会形成一个点云,即空间中代表3D形状或对象的数据点集合。点数量较少且点与点的间距大的叫稀疏点云,点数量比较大并且比较密集的叫密集点云。
在一实施例中,点云数据由车载激光雷达采集获得。激光雷达是一种主动型点云获取方式,它通过向物体表面发射激光束,测量激光束反射回来的时间和强度信息,从而得到物体表面的三维点云数据。其原理是利用激光束在传输过程中的反射和回波时间来计算出物体表面的距离信息,再通过旋转激光器或移动激光头的方式扫描整个物体表面,从而获取完整的点云数据。
在一实施例中,图像数据由车载摄像头(相机)拍摄获得。车载摄像头通常设置多个,每个摄像头安装位置或朝向存在差异,不同摄像头拍摄的车辆周围环境的拍摄视角范围不同。例如,在车辆的前、后、左前侧、左后侧、右前侧和右后侧分别设置一个摄像头,从而实现车辆周围360°范围环境的拍摄与采集。
102、生成各所述点云数据对应的动态稀疏三维格网以及生成各所述图像数据对应的周视图像特征图;
三维格网是指点云数据在三维空间的离散分布,并采用格网化组织进行表示。格网由相互垂直的两组平行直线组成,直线的交点为格网点。三维格网包括动态稀疏三维格网和固定稠密三维格网,具体与点云的稀疏密集程度有关。
特征图是深度学习中常用的一种数据结构,是深度神经网络中的一个重要概念。特征图由一系列卷积核对输入图像进行卷积操作得到的结果,可以看作是原始图像的抽象表示,其中每个像素点表示一些特定的特征。在深度神经网络中,特征图是网络中的中间层结果,它们可以被进一步处理和传递到后续的层中。特征图的大小和数量取决于卷积核的大小和数量,以及卷积的步长和填充方式等参数。
周视图像特征图是指从车辆的多个车载摄像头拍摄的车辆周围环境图像中抽取出的图像特征构成的特征图。
在一实施例中,通过以下方式生成点云数据对应的动态稀疏三维格网:
对各所述点云数据进行体素化处理,得到多个体数据;
基于各所述体数据,生成车辆周围环境的俯瞰图对应的深度先验;
基于所述深度先验,生成各所述点云数据对应的动态稀疏三维格网。
本实施例中,体素(voxel)是像素(pixel)、体积(volume)和元素(element)的组合词,相当于3D空间中的像素。体素化(Voxelization)是将物体的几何形式表示转换成最接近该物体的体素表示形式,体素化会产生体数据,包含物体的表面信息和内部属性。体数据可以看成是在有限空间中对一种或多种物理属性的一组离散采样。
深度先验是指通过深度神经网络学习或表示图像的先验信息,这种由深度网络所表示的先验信息称为深度先验。深度先验通过深度网络自适应学习清晰图像的特性或模糊图像到清晰图像的映射关系。
本实施例中,将点云数据进行体素化处理得到的体数据输入深度神经网络进行处理,即可得到车辆周围环境的俯瞰图对应的深度先验,该深度先验可提供周围环境的准确深度信息,进而提高检测精度。
格网由相互垂直的两组平行直线组成,直线的交点为格网点。为了能够使像点坐标与物方点坐标一一对应,对每个格网点进行了编号:以O点为中心从下往上,从里到外用个位与十位表示列号,百位与千位表示行号,左边平面万位为1,右边平面万位为0。根据由点云数据生成的深度先验,即可对应生成各点云数据对应的动态稀疏三维格网。
在一实施例中,采用以下方式生成各图像数据对应的周视图像特征图:
将各所述图像数据输入预置深度神经网络进行特征提取,得到当前车辆周围环境对应的周视图像特征图。
卷积是一种数学运算,用于将两个函数结合起来产生第三个函数。在深度神经网络的上下文中,这两个函数是输入图像和滤波器,而得到的结果就是特征图。本实施例使用深度神经网络中的卷积层提取图像数据中的特征,并输出当前车辆周围环境对应的周视图像特征图。
103、将所述动态稀疏三维格网以及预置固定稠密三维格网分别投影至所述周视图像特征图并进行特征聚合,对应得到第一俯瞰特征图与第二俯瞰特征图;
本实施例中,为生成车辆周围环境的俯瞰特征图,需要将体素化点云对应的动态稀疏三维格网投影至周视图像特征图上,同时进行特征聚合,得到第一俯瞰特征图。本实施例只对存在点云的动态稀疏三维格网进行投影并聚合俯瞰图特征,以保证特征的聚焦,从而解决散射问题。
此外,为进一步提升俯瞰特征图的特征细节,避免漏检。本实施例预先设置相对自车坐标的固定稠密三维格网,并进一步生成固定稠密三维格对应的第二俯瞰特征图。
由于点云比较稀疏,动态稀疏三维格网相比固定稠密三维格网可能存在漏检的问题。为解决该问题,本实施例保留在周视图像特征图上投影固定稠密三维格网生成的第二俯瞰特征图,以保证召回率。
在一实施例中,上述步骤103包括:
将所述动态稀疏三维格网的中心点坐标投影至所述周视图像特征图,得到第一特征图;
采用双线性插值法对所述第一特征图进行放大,并通过所述深度神经网络对放大后的所述第一特征图进行区域特征聚合,得到第一俯瞰特征图;
将预置固定稠密三维格网的中心点坐标投影至所述周视图像特征图,得到第二特征图;
采用双线性插值法对所述第二特征图进行放大,并通过所述深度神经网络对放大后的所述第二特征图进行区域特征聚合,得到第二俯瞰特征图。
本可选实施例中,在得到点云数据对应的动态稀疏三维格网后,需要进一步根据动态稀疏三维格网与周视图像特征图,生成相应的第一俯瞰特征图,具体为:先将动态稀疏三维格网的中心点坐标投影至周视图像特征图上,得到第一特征图,由于在将动态稀疏三维格网的中心点坐标投影至周视图像特征图过程中会存在图像尺寸缩小而导致某些特征的丢失,因此本实施例中引入了双线性插值法对第一特征图进行放大处理,从而还原更多细节特征,然后再对放大的第一特征图进行区域特征聚合,即可得到第一俯瞰特征图。
此外,为进一步提升俯瞰特征图的特征细节,避免漏检,本实施例进一步保留了在周视图像特征图上投影固定稠密三维格网生成的第二俯瞰特征图,以供与第一俯瞰特征图进行特征叠加。其中,本实施例采用与第一俯瞰特征图相同的方式生成第二俯瞰特征图。
104、将所述第一俯瞰特征图与所述第二俯瞰特征图进行叠加,得到第三俯瞰特征图;
本实施例中,由于激光雷达采集生成的点云数据非常稀疏,对应的通过稀疏卷积产生的特征图也会非常稀疏,即便是边界点被精确检测到,但在确定边界框的比例和形状时仍然存在着不确定性,致使采用动态稀疏三维格网可能存在三维目标漏检的问题。
因此,本实施例中,进一步保留了在周视图像特征图上投影固定稠密三维格网生成的第二俯瞰特征图,以保证召回率。具体为:在分别获得动态稀疏三维格网对应的第一俯瞰特征图与固定稠密三维格网对应的第二俯瞰特征图后,将两者进行特征图叠加,得到保留有当前车辆周围环境更多特征的第三俯瞰特征图。
105、将所述第三俯瞰特征图与所述周视图像特征图进行空间特征提取,得到第四俯瞰特征图。
本实施例中,通过深度神经网络对第三俯瞰特征图与周视图像特征图进行空间特征提取,实现鸟瞰视图空间的特征融合,进而带来更好的全局感受野,让其在进行跨摄像头、跨传感器以及时序融合时,可以更好地在空间时序维度上建模,从而提升车辆周围三维目标感知的准确率。
本实施例中,通过预置的深度神经网络分别完成上述步骤101-105的数据预处理,最后再将预处理完成后的数据输入检测模型中进行三维目标检测。
在一实施例中,上述步骤105包括:
通过所述深度神经网络,对所述第三俯瞰特征图与所述周视图像特征图进行多层空间交叉注意力特征提取,并对特征提取结果进行全连接与归一化处理,输出第四俯瞰特征图。
本实施例中,为了聚合空间信息,本实施例在深度神经网络中引入了多层空间交叉注意力机制,以供从周视图像特征图中通过注意力机制提取所需的空间特征。空间注意力着重关注输入数据“在哪”的位置信息部分,这是对通道注意力的补,通道注意力聚焦于输入数据中“有意义”的部分。通过将第三俯瞰特征图与周视图像特征图进行多层空间交叉注意力特征提取,从而收集车辆周围环境中更多的独有特征,进而提取出更加精细的空间信息。
本实施例中,通过对输入检测模块的数据源类型以及各数据进行预处理,使得预处理后的数据间接解决现有建模方法存在深度预测不准确以及不同深度位置无法区分的问题,具体包括:利用点云数据作为深度初始化,生成动态稀疏三维格网并聚合俯瞰图特征,以保证特征的聚焦何解决散射问题。同时,为避免漏检的问题,在动态稀疏三维格网基础上保留固定稠密三维格网生成的俯瞰特征图,以保证召回率。本实施例使用点云数据的准确深度信息,提高深度预测准确性,从而提高检测精度。同时为增加特征融合的鲁棒性,本发明采用将动态稀疏三维格网生成的俯瞰特征图和固定稠密三维格网生成的俯瞰特征图相加的方式,利用点云深度的同时保留无点云位置的特征以保证召回率。
在一实施例中,所述数据预处理方法还包括:
将所述第四俯瞰特征图输入预置检测模型进行处理,输出当前车辆周围环境中的三维目标检测框。
本实施例中,用于车辆周围环境中三维目标检测的检测模型优选采用深度神经网络训练而成。在完成用于目标检测的输入数据的预处理后,将最终生成的第四俯瞰特征图输入预置检测模型进行处理,即可由检测模型输出当前车辆周围环境中的三维目标检测框。由于通过数据预处理解决了现有建模方法存在深度预测不准确以及不同深度位置无法区分的问题,因此能够极大提高深度预测准确性,从而提高模型检测精度。同时在满足检测精度的前提下也进一步保证了检测模型的召回率。
请参阅图2,本发明实施例中数据预处理装置的一个实施例包括:
获取模块201,用于获取当前车辆周围环境的多个点云数据与多个图像数据;
生成模块202,用于生成各所述点云数据对应的动态稀疏三维格网以及生成各所述图像数据对应的周视图像特征图;
聚合模块203,用于将所述动态稀疏三维格网以及预置固定稠密三维格网分别投影至所述周视图像特征图并进行特征聚合,对应得到第一俯瞰特征图与第二俯瞰特征图;
叠加模块204,用于将所述第一俯瞰特征图与所述第二俯瞰特征图进行叠加,得到第三俯瞰特征图;
提取模块205,用于将所述第三俯瞰特征图与所述周视图像特征图进行空间特征提取,得到第四俯瞰特征图。
在一实施例中,所述数据预处理装置还包括:
检测模块206,用于将所述第四俯瞰特征图输入预置检测模型进行处理,输出当前车辆周围环境中的三维目标检测框。
在本发明第二方面的第二种实现方式中,所述生成模块202具体用于:
对各所述点云数据进行体素化处理,得到多个体数据;
基于各所述体数据,生成车辆周围环境的俯瞰图对应的深度先验;
基于所述深度先验,生成各所述点云数据对应的动态稀疏三维格网。
在一实施例中,所述生成模块202还用于:
将各所述图像数据输入预置深度神经网络进行特征提取,得到当前车辆周围环境对应的周视图像特征图。
在一实施例中,所述聚合模块203具体用于:
将所述动态稀疏三维格网的中心点坐标投影至所述周视图像特征图,得到第一特征图;
采用双线性插值法对所述第一特征图进行放大,并通过所述深度神经网络对放大后的所述第一特征图进行区域特征聚合,得到第一俯瞰特征图;
将预置固定稠密三维格网的中心点坐标投影至所述周视图像特征图,得到第二特征图;
采用双线性插值法对所述第二特征图进行放大,并通过所述深度神经网络对放大后的所述第二特征图进行区域特征聚合,得到第二俯瞰特征图。
在一实施例中,所述提取模块205具体用于:
通过所述深度神经网络,对所述第三俯瞰特征图与所述周视图像特征图进行多层空间交叉注意力特征提取,并对特征提取结果进行全连接与归一化处理,输出第四俯瞰特征图。
在一实施例中,采用车载激光雷达生成所述点云数据,采用多个不同朝向的车载摄像头生成所述图像数据。
本实施例中,通过对输入检测模块的数据源类型以及各数据进行预处理,使得预处理后的数据间接解决现有建模方法存在深度预测不准确以及不同深度位置无法区分的问题,具体包括:利用点云数据作为深度初始化,生成动态稀疏三维格网并聚合俯瞰图特征,以保证特征的聚焦和解决散射问题。同时,为避免漏检的问题,在动态稀疏三维格网基础上保留固定稠密三维格网生成的俯瞰特征图,以保证召回率。
本实施例使用点云数据的准确深度信息,提高深度预测准确性,从而提高检测精度。同时为增加特征融合的鲁棒性,本发明采用将动态稀疏三维格网生成的俯瞰特征图和固定稠密三维格网生成的俯瞰特征图相加的方式,利用点云深度的同时保留无点云位置的特征以保证召回率。
图2从模块化功能实体的角度对本发明实施例中的数据预处理装置进行详细描述,下面从硬件处理的角度对本发明实施例中计算机设备进行详细描述。
图3是本发明实施例提供的一种计算机设备的结构示意图,该计算机设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对计算机设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在计算机设备500上执行存储介质530中的一系列指令操作。
计算机设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图3示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种计算机设备,所述计算机设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述数据预处理方法的步骤。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述数据预处理方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种数据预处理方法,应用于车辆周围环境的三维目标检测,其特征在于,所述数据预处理方法包括:
获取当前车辆周围环境的多个点云数据与多个图像数据;
生成各所述点云数据对应的动态稀疏三维格网以及生成各所述图像数据对应的周视图像特征图;
将所述动态稀疏三维格网以及预置固定稠密三维格网分别投影至所述周视图像特征图并进行特征聚合,对应得到第一俯瞰特征图与第二俯瞰特征图;
将所述第一俯瞰特征图与所述第二俯瞰特征图进行叠加,得到第三俯瞰特征图;
将所述第三俯瞰特征图与所述周视图像特征图进行空间特征提取,得到第四俯瞰特征图。
2.根据权利要求1所述的数据预处理方法,其特征在于,所述数据预处理方法还包括:
将所述第四俯瞰特征图输入预置检测模型进行处理,输出当前车辆周围环境中的三维目标检测框。
3.根据权利要求1所述的数据预处理方法,其特征在于,所述生成各所述点云数据对应的动态稀疏三维格网包括:
对各所述点云数据进行体素化处理,得到多个体数据;
基于各所述体数据,生成车辆周围环境的俯瞰图对应的深度先验;
基于所述深度先验,生成各所述点云数据对应的动态稀疏三维格网。
4.根据权利要求1所述的数据预处理方法,其特征在于,所述生成各所述图像数据对应的周视图像特征图包括:
将各所述图像数据输入预置深度神经网络进行特征提取,得到当前车辆周围环境对应的周视图像特征图。
5.根据权利要求4所述的数据预处理方法,其特征在于,所述将所述动态稀疏三维格网以及预置固定稠密三维格网分别投影至所述周视图像特征图并进行特征聚合,对应得到第一俯瞰特征图与第二俯瞰特征图包括:
将所述动态稀疏三维格网的中心点坐标投影至所述周视图像特征图,得到第一特征图;
采用双线性插值法对所述第一特征图进行放大,并通过所述深度神经网络对放大后的所述第一特征图进行区域特征聚合,得到第一俯瞰特征图;
将预置固定稠密三维格网的中心点坐标投影至所述周视图像特征图,得到第二特征图;
采用双线性插值法对所述第二特征图进行放大,并通过所述深度神经网络对放大后的所述第二特征图进行区域特征聚合,得到第二俯瞰特征图。
6.根据权利要求4所述的数据预处理方法,其特征在于,所述将所述第三俯瞰特征图与所述周视图像特征图进行空间特征提取,得到第四俯瞰特征图包括:
通过所述深度神经网络,对所述第三俯瞰特征图与所述周视图像特征图进行多层空间交叉注意力特征提取,并对特征提取结果进行全连接与归一化处理,输出第四俯瞰特征图。
7.根据权利要求1所述的数据预处理方法,其特征在于,采用车载激光雷达生成所述点云数据,采用多个不同朝向的车载摄像头生成所述图像数据。
8.一种数据预处理装置,其特征在于,所述数据预处理装置包括:
获取模块,用于获取当前车辆周围环境的多个点云数据与多个图像数据;
生成模块,用于生成各所述点云数据对应的动态稀疏三维格网以及生成各所述图像数据对应的周视图像特征图;
聚合模块,用于将所述动态稀疏三维格网以及预置固定稠密三维格网分别投影至所述周视图像特征图并进行特征聚合,对应得到第一俯瞰特征图与第二俯瞰特征图;
叠加模块,用于将所述第一俯瞰特征图与所述第二俯瞰特征图进行叠加,得到第三俯瞰特征图;
提取模块,用于将所述第三俯瞰特征图与所述周视图像特征图进行空间特征提取,得到第四俯瞰特征图。
9.一种计算机设备,其特征在于,所述计算机设备包括:存储器和至少一个处理器,所述存储器中存储有指令;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述计算机设备执行如权利要求1-7中任一项所述的数据预处理方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-7中任一项所述的数据预处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311652579.5A CN117935206A (zh) | 2023-12-04 | 2023-12-04 | 数据预处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311652579.5A CN117935206A (zh) | 2023-12-04 | 2023-12-04 | 数据预处理方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117935206A true CN117935206A (zh) | 2024-04-26 |
Family
ID=90758182
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311652579.5A Pending CN117935206A (zh) | 2023-12-04 | 2023-12-04 | 数据预处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117935206A (zh) |
-
2023
- 2023-12-04 CN CN202311652579.5A patent/CN117935206A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fan et al. | Road surface 3D reconstruction based on dense subpixel disparity map estimation | |
CN110741282B (zh) | 外参标定方法、装置、计算设备以及计算机存储介质 | |
EP3435029B1 (en) | Resolution adaptive mesh for performing 3-d metrology of an object | |
CN106407947B (zh) | 用于无人驾驶车辆的目标物体识别方法和装置 | |
CN112419494B (zh) | 用于自动驾驶的障碍物检测、标记方法、设备及存储介质 | |
JP5430456B2 (ja) | 幾何特徴抽出装置、幾何特徴抽出方法、及びプログラム、三次元計測装置、物体認識装置 | |
EP3723001A1 (en) | Transferring synthetic lidar system data to real world domain for autonomous vehicle training applications | |
CN105043350A (zh) | 一种双目视觉测量方法 | |
CN112997187A (zh) | 基于鸟瞰图点云的二维对象边界框信息估计 | |
CN110879994A (zh) | 基于形状注意力机制的三维目测检测方法、系统、装置 | |
JP6328327B2 (ja) | 画像処理装置及び画像処理方法 | |
CN112912890A (zh) | 用于使用生成模型生成合成点云数据的方法和系统 | |
EP2333481A1 (fr) | Système optronique et procédé d'élaboration d'images en trois dimensions dédiés à l'identification | |
WO2018091685A1 (en) | Self-calibrating sensor system for a wheeled vehicle | |
CN113111513B (zh) | 传感器配置方案确定方法、装置、计算机设备及存储介质 | |
CN112630469B (zh) | 一种基于结构光和多光场相机的三维检测方法 | |
CN112154448A (zh) | 目标检测方法、设备及可移动平台 | |
CN115436920A (zh) | 一种激光雷达标定方法及相关设备 | |
CN116921932A (zh) | 焊接轨迹识别方法、装置、设备及存储介质 | |
CN117935206A (zh) | 数据预处理方法、装置、设备及存储介质 | |
CN114359891A (zh) | 一种三维车辆检测方法、系统、装置及介质 | |
Klappstein | Optical-flow based detection of moving objects in traffic scenes | |
Ruf et al. | FaSS-MVS--Fast Multi-View Stereo with Surface-Aware Semi-Global Matching from UAV-borne Monocular Imagery | |
Agarwal et al. | A Monocular Camera Depth Estimate Approximation using Deep learning | |
EP4345750A1 (en) | Position estimation system, position estimation method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |