CN114782787A - 一种对点云与图像数据进行特征融合的处理方法和装置 - Google Patents
一种对点云与图像数据进行特征融合的处理方法和装置 Download PDFInfo
- Publication number
- CN114782787A CN114782787A CN202210536130.1A CN202210536130A CN114782787A CN 114782787 A CN114782787 A CN 114782787A CN 202210536130 A CN202210536130 A CN 202210536130A CN 114782787 A CN114782787 A CN 114782787A
- Authority
- CN
- China
- Prior art keywords
- feature
- image
- tensor
- semantic
- feature tensor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例涉及一种对点云与图像数据进行特征融合的处理方法和装置,所述方法包括:获取第一点云数据和第一图像数据;对第一点云数据进行鸟瞰特征提取处理生成对应的第一特征张量;对第一图像数据进行鸟瞰特征提取处理生成对应的第二特征张量;对第二特征张量进行像素级语义识别处理生成对应的第三特征张量;对第一、第三特征张量进行特征融合处理生成对应的融合特征张量。通过本发明,既可以达到多传感器鸟瞰图特征融合的目的,也可以不用另外维护一个融合模型从而达到减少开发维护成本的目的。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种对点云与图像数据进行特征融合的处理方法和装置。
背景技术
无人驾驶系统的感知模块以鸟瞰(Bird’s Eye View,BEV)图特征为参考进行多目标跟踪,可以进一步提高跟踪效率。常规情况下感知模块要么通过相机拍摄的图像数据获取鸟瞰图特征,要么通过激光雷达扫描的点云数据获取鸟瞰图特征,很少能在融合二者共性的前提下获取鸟瞰图特征,原因是基于图像或基于点云的鸟瞰图特征提取模型各自的计算量、维护量都较大,若另行再建设一个将二者融合在一起势必会造成更大的资源损耗。
发明内容
本发明的目的,就是针对现有技术的缺陷,提供一种对点云与图像数据进行特征融合的处理方法、装置、电子设备及计算机可读存储介质,首先使用成熟的图像和点云鸟瞰图特征模型分别对相机图像和激光雷达点云进行特征提取得到各自对应的特征张量,再对由图像提取而来的特征张量进行像素级的语义识别,再使用带有语义信息的特征张量与点云特征张量进行融合。通过本发明给出的这种松耦合的鸟瞰图特征融合处理机制,既可以达到多传感器鸟瞰图特征融合的目的,也可以不用另外维护一个融合模型从而达到减少开发维护成本的目的。
为实现上述目的,本发明实施例第一方面提供了一种对点云与图像数据进行特征融合的处理方法,所述方法包括:
获取第一点云数据和第一图像数据;
对所述第一点云数据进行鸟瞰特征提取处理生成对应的第一特征张量;
对所述第一图像数据进行鸟瞰特征提取处理生成对应的第二特征张量;
对所述第二特征张量进行像素级语义识别处理生成对应的第三特征张量;
对所述第一、第三特征张量进行特征融合处理生成对应的融合特征张量。
优选的,所述对所述第一点云数据进行鸟瞰特征提取处理生成对应的第一特征张量,具体包括:
基于PointPillars模型对所述第一点云数据进行鸟瞰平面伪图转换处理并对转换得到的鸟瞰平面伪图进行二维图像特征提取处理生成所述第一特征张量;所述第一特征张量的形状为H1*W1*C1;H1为图像高度、W1为图像宽度、C1为所述第一特征张量的特征维度。
优选的,所述对所述第一图像数据进行鸟瞰特征提取处理生成对应的第二特征张量,具体包括:
将所述第一图像数据输入BevFormer模型进行二维图像鸟瞰特征提取生成所述第二特征张量;所述第二特征张量的形状为H2*W2*C2;所述第二特征张量的图像高度H2、宽度W2分别与所述第一特征张量的图像高度H1、宽度W1保持一致;C2为所述第二特征张量的特征维度。
优选的,所述对所述第二特征张量进行像素级语义识别处理生成对应的第三特征张量,具体包括:
基于图像语义分割模型对所述第二特征张量进行像素级语义分割处理生成对应的语义图像特征张量;所述语义图像特征张量的形状为H3*W3*C3;所述语义图像特征张量的图像高度H3、宽度W3与所述第二特征张量的图像高度H2、宽度W2保持一致;C3为所述语义图像特征张量的特征维度;所述语义图像特征张量由H3*W3个一维的语义向量构成,每个所述语义向量由C3个语义类别评分构成,每个所述语义类别评分对应一个语义类型,每个所述语义类型对应一个类型索引;
将各个所述语义向量中取值最大的所述语义类别评分对应的所述语义类型的所述类型索引作为对应的语义向量类型索引,并根据各个所述语义向量类型索引与所述语义向量的对应关系构建所述第三特征张量;所述第三特征张量的形状为H4*W4*1;所述第三特征张量的图像高度H4、宽度W4与所述语义图像特征张量的图像高度H3、宽度W3保持一致;所述第三特征张量由H4*W4个所述语义向量类型索引构成,每个所述语义向量类型索引对应一个所述语义向量。
优选的,所述融合特征张量的形状为H5*W5*C4;所述融合特征张量的图像高度H5、宽度W5分别与所述第一特征张量的图像高度H1、宽度W1保持一致;C4为所述融合特征张量的特征维度,C4=C1+1。
本发明实施例第二方面提供了一种用于实现上述第一方面所述的对点云与图像数据进行特征融合的处理方法的装置,所述装置包括:获取模块、点云鸟瞰特征处理模块、图像鸟瞰特征处理模块和特征融合处理模块;
所述获取模块用于获取第一点云数据和第一图像数据;
所述点云鸟瞰特征处理模块用于对所述第一点云数据进行鸟瞰特征提取处理生成对应的第一特征张量;
所述图像鸟瞰特征处理模块用于对所述第一图像数据进行鸟瞰特征提取处理生成对应的第二特征张量;并对所述第二特征张量进行像素级语义识别处理生成对应的第三特征张量;
所述特征融合处理模块用于对所述第一、第三特征张量进行特征融合处理生成对应的融合特征张量。
本发明实施例第三方面提供了一种电子设备,包括:存储器、处理器和收发器;
所述处理器用于与所述存储器耦合,读取并执行所述存储器中的指令,以实现上述第一方面所述的方法步骤;
所述收发器与所述处理器耦合,由所述处理器控制所述收发器进行消息收发。
本发明实施例第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,当所述计算机指令被计算机执行时,使得所述计算机执行上述第一方面所述的方法的指令。
本发明实施例提供了一种对点云与图像数据进行特征融合的处理方法、装置、电子设备及计算机可读存储介质,首先使用成熟的图像和点云鸟瞰图特征模型分别对相机图像和激光雷达点云进行特征提取得到各自对应的特征张量,再对由图像提取而来的特征张量进行像素级的语义识别,再使用带有语义信息的特征张量与点云特征张量进行融合。通过本发明给出的这种松耦合的鸟瞰图特征融合处理机制,既实现了多传感器的鸟瞰图特征融合,也没有另外新增融合模型、减少了开发维护成本。
附图说明
图1为本发明实施例一提供的一种对点云与图像数据进行特征融合的处理方法示意图;
图2为本发明实施例二提供的一种对点云与图像数据进行特征融合的处理装置的模块结构图;
图3为本发明实施例三提供的一种电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例一提供一种对点云与图像数据进行特征融合的处理方法,如图1为本发明实施例一提供的一种对点云与图像数据进行特征融合的处理方法示意图所示,本方法主要包括如下步骤:
步骤1,获取第一点云数据和第一图像数据。
这里,第一点云数据即车载激光雷达产生的点云数据,车辆无人驾驶系统的感知模块从车载激光雷达处获得第一点云数据;第一图像数据即车载相机产生的图像数据,感知模块从车载相机处获得第一图像数据;本发明实施例中默认第一点云数据和第一图像数据的产生时间相互匹配,对应的空间范围也相互匹配。
步骤2,对第一点云数据进行鸟瞰特征提取处理生成对应的第一特征张量;
具体包括:基于PointPillars模型对第一点云数据进行鸟瞰平面伪图转换处理并对转换得到的鸟瞰平面伪图进行二维图像特征提取处理生成第一特征张量;
其中,第一特征张量的形状为H1*W1*C1;H1为图像高度、W1为图像宽度、C1为第一特征张量的特征维度。
这里,本发明实施例可基于多种成熟的可识别点云数据鸟瞰特征的模型对第一点云数据进行鸟瞰特征提取从而得到对应的鸟瞰特征张量也就是第一特征张量,默认使用PointPillars模型。PointPillars模型的模型实现可参考论文《PointPillars:FastEncoders for Object Detection from Point Clouds》,在此不做进一步赘述;由论文可知,PointPillars模型由点云柱特征提取网络(Pillar Feature Net)、二维特征提取主干网络(Backbone(2D CNN))和目标检测头(Detection Head(SSD))三部分构成,其中点云柱特征提取网络用于对输入点云进行点云柱(Pillar)聚类并对点云柱进行鸟瞰平面投影并将最终的投影结果作为鸟瞰平面伪图(Pseudo Image)输出,二维特征提取主干网络则基于传统的多级降采样卷积网络对鸟瞰平面伪图进行二维图像特征提取,目标检测头则对提取出的鸟瞰特征进行分类并将分类结果复原到原始点云数据中为原始点云数据中的各点增加语义特征。本发明实施在基于PointPillars模型对第一点云数据进行鸟瞰平面伪图转换处理时,使用PointPillars模型的点云柱特征提取网络对第一点云数据进行鸟瞰平面伪图转换处理得到对应的鸟瞰平面伪图张量,并使用PointPillars模型的二维特征提取主干网络对鸟瞰平面伪图张量进行二维图像特征提取处理生成对应的第一特征张量。由二维特征提取主干网络的输出张量结构可知第一特征张量为一个三维的图张量,设其形状为H1*W1*C1,其中,H1为图像高度、W1为图像宽度,C1为特征维度,即可将第一特征张量理解为一个二维图像,图像由H1*W1个像素点构成,每个像素点的都具有C1个特征数据。
步骤3,对第一图像数据进行鸟瞰特征提取处理生成对应的第二特征张量;
具体包括:将第一图像数据输入BevFormer模型进行二维图像鸟瞰特征提取生成第二特征张量;
其中,第二特征张量的形状为H2*W2*C2;第二特征张量的图像高度H2、宽度W2分别与第一特征张量的图像高度H1、宽度W1保持一致;C2为第二特征张量的特征维度。
这里,本发明实施例可基于多种成熟的可识别图像数据鸟瞰特征的模型对第一图像数据进行鸟瞰特征提取从而得到对应的鸟瞰特征张量也就是第二特征张量,默认使用BevFormer模型。BevFormer模型的模型实现可参考论文《BEVFormer:Learning Bird’s-Eye-View Representation from Multi-Camera Images via SpatiotemporalTransformers》,在此不做进一步赘述。本发明实施例在将第一图像数据输入BevFormer模型进行二维图像鸟瞰特征提取之后,由BevFormer模型通过查询得到第一图像数据的历史鸟瞰时间特征、通过特征提取网络得到第一图像数据的实时图像特征,再将对得到的历史鸟瞰时间特征与实时图像特征进行时空特征聚合从而得到对应的第二特征张量。此处,第二特征张量实际也为一个三维的图张量,设其形状为H2*W2*C2,其中,H2为图像高度、W2为图像宽度,C2为特征维度,即可将第二特征张量理解为一个二维图像,图像由H2*W2个像素点构成,每个像素点的都具有C2个特征数据。为便于后续的特征融合处理,本发明实施例特定会将PointPillars模型和BevFormer模型输出的特征张量的大小设定为相同大小,即通过设定模型参数确保H2=H1、W2=W1。
步骤4,对第二特征张量进行像素级语义识别处理生成对应的第三特征张量;
具体包括:步骤41,基于图像语义分割模型,对第二特征张量进行像素级语义分割处理生成对应的语义图像特征张量;
其中,语义图像特征张量的形状为H3*W3*C3;语义图像特征张量的图像高度H3、宽度W3与第二特征张量的图像高度H2、宽度W2保持一致;C3为语义图像特征张量的特征维度;语义图像特征张量由H3*W3个一维的语义向量构成,每个语义向量由C3个语义类别评分构成,每个语义类别评分对应一个语义类型;
这里,本发明实施例可基于多种成熟的图像语义分割模型对第二特征张量进行像素级的语义分割处理,诸如Unet模型、FastFCN模型、Gated-SCNN模型、DeepLabv3+模型等,具体实施可基于实际工程分割需求而定。各类图像语义分割模型的原理基本都是一致的,先通过由卷积或残差网络进行特征计算再基于解码器或分类器进行语义类型识别最终得到像素级的语义特征张量也就是语义图像特征张量;此处,语义图像特征张量实际也为一个三维的图张量,设其形状为H3*W3*C3,其中,H3为图像高度、W3为图像宽度,C3为特征维度;将语义图像特征张量理解为一个二维图像,则该图像由H3*W3个像素点构成,每个像素点的都具有C3个特征数据也就是语义类别评分,每个语义类别评分对应一个语义类型(诸如汽车、自行车、人、动物、植物、障碍物、道路、交通标识标志、道路标线等);为便于后续的特征融合处理,本发明实施例特定会将图像语义分割模型输出的特征张量的大小设定为与第二特征张量的大小一致,即通过设定模型参数确保H3=H2=H1、W3=W2=W1;
步骤42,将各个语义向量中取值最大的语义类别评分对应的语义类型的类型索引作为对应的语义向量类型索引,并根据各个语义向量类型索引与语义向量的对应关系构建第三特征张量;
第三特征张量的形状为H4*W4*1;第三特征张量的图像高度H4、宽度W4与语义图像特征张量的图像高度H3、宽度W3保持一致;第三特征张量由H4*W4个语义向量类型索引构成,每个语义向量类型索引对应一个语义向量。
例如,若语义类型包括汽车、自行车、人、动物、植物、障碍物、道路、交通标识标志、道路标线9种类型,依次对应的类型索引为1、2、3、4、5、6、7、8、9,又已知语义图像特征张量的形状为512*512*9;那么,就可以得到512*512个由9个语义类别评分组成的语义向量Ax,y(语义类别评分1,语义类别评2…语义类别评分9),其中,1≤x≤512,1≤y≤512;从各个语义向量Ax,y的9个语义类别评分中取最大值对应的类型索引作为语义向量类型索引Bx,y,则Bx,y的取值范围应为[1,9];在得到512*512个语义向量类型索引Bx,y之后,按语义向量类型索引Bx,y与语义向量Ax,y的脚标(x,y)对应关系就可以构建出第三特征张量;此处,得到的第三特征张量的形状为512*512*1,由512*512个语义向量类型索引Bx,y组成。
由步骤3-4可知,二者实际是在对第一图像数据的鸟瞰语义特征进行提取,即对第一图像数据对应的鸟瞰图的语义特征进行提取。需要说明的是,本发明实施例除了通过上述步骤3-4实现对第一图像数据的鸟瞰图语义特征提取得到对应的第三特征张量之外,还可通过其他实现方式达到上述步骤3-4的目的,其中一种为基于BEVSegFormer模型对第一图像数据进行鸟瞰语义特征提取处理生成对应的第三特征张量。这里,BEVSegFormer模型的模型实现可参考论文《BEVSegFormer:Bird’s Eye View Semantic Segmentation FromArbitrary Camera Rigs》,在此不做进一步赘述;由论文可知,BEVSegFormer模型由特征提取主干网络(backbone)、Transformer编码器(Transformer Encoder)和BEV Transformer解码器(BEV Transformer Decoder)三部分构成。本发明实施在基于BEVSegFormer模型对第一图像数据进行鸟瞰语义特征提取处理时,使用BEVSegFormer模型的特征提取主干网络对第一图像数据进行多尺寸图像特征提取处理得到多个不同尺寸的特征图,再使用BEVSegFormer模型的Transformer编码器对这多个不同尺寸的特征图进行自注意编码从而得到多个不同尺寸的增强特征图,再使用BEVSegFormer模型的BEV Transformer解码器对多个不同尺寸的增强特征图进行语义解析并通过逐级上采样对多个不同尺寸的解析特征图进行逐级特征融合最终得到带有语义特征的第三特征张量。通过该方式获得的第三特征张量,其形状也为H4*W4*1,具体由H4*W4个语义类型索引构成,每个语义类型索引对应一个语义类型(诸如汽车、自行车、人、动物、植物、障碍物、道路、交通标识标志、道路标线等),其图像高度H4、宽度W4分别与第一特征张量的图像高度H1、宽度W1保持一致。
步骤5,对第一、第三特征张量进行特征融合处理生成对应的融合特征张量;
其中,融合特征张量的形状为H5*W5*C4;融合特征张量的图像高度H5、宽度W5分别与第一特征张量的图像高度H1、宽度W1保持一致;C4为融合特征张量的特征维度,C4=C1+1。
这里,因为第三特征张量的H4=H3=H2=H1、W4=W3=W2=W1,所以在对第一、第三特征张量进行特征融合处理时实际是将一个形状为H1*W1*C1的张量与一个形状为H1*W1*1的张量进行融合,自然得到的融合特征张量的H5=H1、W5=W1、C4=C1+1。此处得到的融合特征张量不但包含了点云的鸟瞰特征还包括了图像的鸟瞰语义特征,感知模块后续可基于该融合特征张量为参考进行多目标跟踪。
图2为本发明实施例二提供的一种对点云与图像数据进行特征融合的处理装置的模块结构图,该装置为实现前述方法实施例的终端设备或者服务器,也可以为能够使得前述终端设备或者服务器实现前述方法实施例的装置,例如该装置可以是前述终端设备或者服务器的装置或芯片系统。如图2所示,该装置包括:获取模块201、点云鸟瞰特征处理模块202、图像鸟瞰特征处理模块203和特征融合处理模块204。
获取模块201用于获取第一点云数据和第一图像数据。
点云鸟瞰特征处理模块202用于对第一点云数据进行鸟瞰特征提取处理生成对应的第一特征张量。
图像鸟瞰特征处理模块203用于对第一图像数据进行鸟瞰特征提取处理生成对应的第二特征张量;并对第二特征张量进行像素级语义识别处理生成对应的第三特征张量。
特征融合处理模块204用于对第一、第三特征张量进行特征融合处理生成对应的融合特征张量。
本发明实施例提供的一种对点云与图像数据进行特征融合的处理装置,可以执行上述方法实施例中的方法步骤,其实现原理和技术效果类似,在此不再赘述。
需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,获取模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上确定模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所描述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,ASIC),或,一个或多个数字信号处理器(Digital Signal Processor,DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(System-on-a-chip,SOC)的形式实现。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照前述方法实施例所描述的流程或功能。上述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。上述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,上述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线路((Digital Subscriber Line,DSL))或无线(例如红外、无线、蓝牙、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。上述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。上述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
图3为本发明实施例三提供的一种电子设备的结构示意图。该电子设备可以为前述的终端设备或者服务器,也可以为与前述终端设备或者服务器连接的实现本发明实施例方法的终端设备或服务器。如图3所示,该电子设备可以包括:处理器301(例如CPU)、存储器302、收发器303;收发器303耦合至处理器301,处理器301控制收发器303的收发动作。存储器302中可以存储各种指令,以用于完成各种处理功能以及实现前述方法实施例描述的处理步骤。优选的,本发明实施例涉及的电子设备还包括:电源304、系统总线305以及通信端口306。系统总线305用于实现元件之间的通信连接。上述通信端口306用于电子设备与其他外设之间进行连接通信。
在图3中提到的系统总线305可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory,RAM),也可能还包括非易失性存储器(Non-Volatile Memory),例如至少一个磁盘存储器。
上述的处理器可以是通用处理器,包括中央处理器CPU、网络处理器(NetworkProcessor,NP)、图形处理器(Graphics Processing Unit,GPU)等;还可以是数字信号处理器DSP、专用集成电路ASIC、现场可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
需要说明的是,本发明实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中提供的方法和处理过程。
本发明实施例还提供一种运行指令的芯片,该芯片用于执行前述方法实施例描述的处理步骤。
本发明实施例提供了一种对点云与图像数据进行特征融合的处理方法、装置、电子设备及计算机可读存储介质,首先使用成熟的图像和点云鸟瞰图特征模型分别对相机图像和激光雷达点云进行特征提取得到各自对应的特征张量,再对由图像提取而来的特征张量进行像素级的语义识别,再使用带有语义信息的特征张量与点云特征张量进行融合。通过本发明给出的这种松耦合的鸟瞰图特征融合处理机制,既实现了多传感器的鸟瞰图特征融合,也没有另外新增融合模型、减少了开发维护成本。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种对点云与图像数据进行特征融合的处理方法,其特征在于,所述方法包括:
获取第一点云数据和第一图像数据;
对所述第一点云数据进行鸟瞰特征提取处理生成对应的第一特征张量;
对所述第一图像数据进行鸟瞰特征提取处理生成对应的第二特征张量;
对所述第二特征张量进行像素级语义识别处理生成对应的第三特征张量;
对所述第一、第三特征张量进行特征融合处理生成对应的融合特征张量。
2.根据权利要求1所述的对点云与图像数据进行特征融合的处理方法,其特征在于,所述对所述第一点云数据进行鸟瞰特征提取处理生成对应的第一特征张量,具体包括:
基于PointPillars模型对所述第一点云数据进行鸟瞰平面伪图转换处理并对转换得到的鸟瞰平面伪图进行二维图像特征提取处理生成所述第一特征张量;所述第一特征张量的形状为H1*W1*C1;H1为图像高度、W1为图像宽度、C1为所述第一特征张量的特征维度。
3.根据权利要求1所述的对点云与图像数据进行特征融合的处理方法,其特征在于,所述对所述第一图像数据进行鸟瞰特征提取处理生成对应的第二特征张量,具体包括:
将所述第一图像数据输入BevFormer模型进行二维图像鸟瞰特征提取生成所述第二特征张量;所述第二特征张量的形状为H2*W2*C2;所述第二特征张量的图像高度H2、宽度W2分别与所述第一特征张量的图像高度H1、宽度W1保持一致;C2为所述第二特征张量的特征维度。
4.根据权利要求1所述的对点云与图像数据进行特征融合的处理方法,其特征在于,所述对所述第二特征张量进行像素级语义识别处理生成对应的第三特征张量,具体包括:
基于图像语义分割模型对所述第二特征张量进行像素级语义分割处理生成对应的语义图像特征张量;所述语义图像特征张量的形状为H3*W3*C3;所述语义图像特征张量的图像高度H3、宽度W3与所述第二特征张量的图像高度H2、宽度W2保持一致;C3为所述语义图像特征张量的特征维度;所述语义图像特征张量由H3*W3个一维的语义向量构成,每个所述语义向量由C3个语义类别评分构成,每个所述语义类别评分对应一个语义类型,每个所述语义类型对应一个类型索引;
将各个所述语义向量中取值最大的所述语义类别评分对应的所述语义类型的所述类型索引作为对应的语义向量类型索引,并根据各个所述语义向量类型索引与所述语义向量的对应关系构建所述第三特征张量;所述第三特征张量的形状为H4*W4*1;所述第三特征张量的图像高度H4、宽度W4与所述语义图像特征张量的图像高度H3、宽度W3保持一致;所述第三特征张量由H4*W4个所述语义向量类型索引构成,每个所述语义向量类型索引对应一个所述语义向量。
5.根据权利要求1所述的对点云与图像数据进行特征融合的处理方法,其特征在于,
所述融合特征张量的形状为H5*W5*C4;所述融合特征张量的图像高度H5、宽度W5分别与所述第一特征张量的图像高度H1、宽度W1保持一致;C4为所述融合特征张量的特征维度,C4=C1+1。
6.一种用于实现权利要求1-5任一项所述的对点云与图像数据进行特征融合的处理方法的装置,其特征在于,所述装置包括:获取模块、点云鸟瞰特征处理模块、图像鸟瞰特征处理模块和特征融合处理模块;
所述获取模块用于获取第一点云数据和第一图像数据;
所述点云鸟瞰特征处理模块用于对所述第一点云数据进行鸟瞰特征提取处理生成对应的第一特征张量;
所述图像鸟瞰特征处理模块用于对所述第一图像数据进行鸟瞰特征提取处理生成对应的第二特征张量;并对所述第二特征张量进行像素级语义识别处理生成对应的第三特征张量;
所述特征融合处理模块用于对所述第一、第三特征张量进行特征融合处理生成对应的融合特征张量。
7.一种电子设备,其特征在于,包括:存储器、处理器和收发器;
所述处理器用于与所述存储器耦合,读取并执行所述存储器中的指令,以实现权利要求1-5任一项所述的方法步骤;
所述收发器与所述处理器耦合,由所述处理器控制所述收发器进行消息收发。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,当所述计算机指令被计算机执行时,使得所述计算机执行权利要求1-5任一项所述的方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210536130.1A CN114782787A (zh) | 2022-05-17 | 2022-05-17 | 一种对点云与图像数据进行特征融合的处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210536130.1A CN114782787A (zh) | 2022-05-17 | 2022-05-17 | 一种对点云与图像数据进行特征融合的处理方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114782787A true CN114782787A (zh) | 2022-07-22 |
Family
ID=82436156
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210536130.1A Pending CN114782787A (zh) | 2022-05-17 | 2022-05-17 | 一种对点云与图像数据进行特征融合的处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114782787A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115223067A (zh) * | 2022-09-19 | 2022-10-21 | 季华实验室 | 应用于无人机的点云融合方法、装置、设备及存储介质 |
CN115375707A (zh) * | 2022-08-18 | 2022-11-22 | 石河子大学 | 一种复杂背景下植物叶片精准分割方法及系统 |
CN115861601A (zh) * | 2022-12-20 | 2023-03-28 | 清华大学 | 一种多传感器融合感知方法及装置 |
CN117496165A (zh) * | 2024-01-03 | 2024-02-02 | 吉咖智能机器人有限公司 | 雨雪噪点过滤方法、装置、电子设备及存储介质 |
-
2022
- 2022-05-17 CN CN202210536130.1A patent/CN114782787A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115375707A (zh) * | 2022-08-18 | 2022-11-22 | 石河子大学 | 一种复杂背景下植物叶片精准分割方法及系统 |
CN115223067A (zh) * | 2022-09-19 | 2022-10-21 | 季华实验室 | 应用于无人机的点云融合方法、装置、设备及存储介质 |
CN115223067B (zh) * | 2022-09-19 | 2022-12-09 | 季华实验室 | 应用于无人机的点云融合方法、装置、设备及存储介质 |
CN115861601A (zh) * | 2022-12-20 | 2023-03-28 | 清华大学 | 一种多传感器融合感知方法及装置 |
CN115861601B (zh) * | 2022-12-20 | 2023-12-29 | 清华大学 | 一种多传感器融合感知方法及装置 |
CN117496165A (zh) * | 2024-01-03 | 2024-02-02 | 吉咖智能机器人有限公司 | 雨雪噪点过滤方法、装置、电子设备及存储介质 |
CN117496165B (zh) * | 2024-01-03 | 2024-03-12 | 吉咖智能机器人有限公司 | 雨雪噪点过滤方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114782787A (zh) | 一种对点云与图像数据进行特征融合的处理方法和装置 | |
US10984659B2 (en) | Vehicle parking availability map systems and methods | |
CN111160214B (zh) | 一种基于数据融合的3d目标检测方法 | |
US20230076266A1 (en) | Data processing system, object detection method, and apparatus thereof | |
US20210358153A1 (en) | Detection methods, detection apparatuses, electronic devices and storage media | |
WO2023193401A1 (zh) | 点云检测模型训练方法、装置、电子设备及存储介质 | |
CN115436910B (zh) | 一种对激光雷达点云进行目标检测的数据处理方法和装置 | |
CN113192646A (zh) | 目标检测模型构建方法及不同目标间距离监控方法、装置 | |
WO2022206414A1 (zh) | 三维目标检测方法及装置 | |
CN112288667A (zh) | 一种基于激光雷达与摄像头融合的三维目标检测方法 | |
CN114463736A (zh) | 一种基于多模态信息融合的多目标检测方法及装置 | |
CN113420637A (zh) | 自动驾驶中多尺度鸟瞰视角下的激光雷达检测方法 | |
CN114037640A (zh) | 图像生成方法及装置 | |
CN114998856B (zh) | 一种多相机图像的3d目标检测方法、装置、设备及介质 | |
CN113743417A (zh) | 语义分割方法和语义分割装置 | |
CN115965842A (zh) | 一种基于图像和点云融合的目标检测方法和系统 | |
CN114120067A (zh) | 一种物体识别方法、装置、设备及介质 | |
CN115147333A (zh) | 一种目标检测方法及装置 | |
CN114612883A (zh) | 一种基于级联ssd和单目深度估计的前向车辆距离检测方法 | |
CN113759338A (zh) | 一种目标检测方法、装置、电子设备及存储介质 | |
CN114419599A (zh) | 障碍物识别方法、装置及电子设备 | |
EP3764335A1 (en) | Vehicle parking availability map systems and methods | |
CN115810115B (zh) | 基于图像特征的图像和多帧毫米波雷达目标的融合方法 | |
CN116246119A (zh) | 3d目标检测方法、电子设备及存储介质 | |
CN115049872A (zh) | 一种融合图像点云特征的分类方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |