CN114445310A - 一种3d目标检测方法、装置、电子设备和介质 - Google Patents
一种3d目标检测方法、装置、电子设备和介质 Download PDFInfo
- Publication number
- CN114445310A CN114445310A CN202111588856.1A CN202111588856A CN114445310A CN 114445310 A CN114445310 A CN 114445310A CN 202111588856 A CN202111588856 A CN 202111588856A CN 114445310 A CN114445310 A CN 114445310A
- Authority
- CN
- China
- Prior art keywords
- feature
- point cloud
- loss calculation
- features
- laser point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 55
- 238000004364 calculation method Methods 0.000 claims abstract description 67
- 238000012545 processing Methods 0.000 claims abstract description 33
- 230000004927 fusion Effects 0.000 claims abstract description 30
- 238000013528 artificial neural network Methods 0.000 claims abstract description 25
- 238000000605 extraction Methods 0.000 claims abstract description 16
- 230000015654 memory Effects 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 12
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 claims description 10
- 230000000306 recurrent effect Effects 0.000 claims description 10
- 240000004050 Pentaglottis sempervirens Species 0.000 claims description 9
- 239000013589 supplement Substances 0.000 claims description 4
- 238000000034 method Methods 0.000 abstract description 17
- 238000004422 calculation algorithm Methods 0.000 abstract description 9
- 238000004891 communication Methods 0.000 description 8
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000005291 magnetic effect Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 101100498818 Arabidopsis thaliana DDR4 gene Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000005294 ferromagnetic effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种3D目标检测方法、装置、电子设备和介质,涉及目标检测技术领域。所述方法包括:获取场景中的图像数据以及激光点云数据;根据所述图像数据,进行特征处理,生成鸟瞰图特征;根据所述激光点云数据,进行特征处理,生成激光点云特征;将所述鸟瞰图特征与所述激光点云特征进行特征融合,得到融合后的特征;根据所述融合后的特征,通过时序神经网络进行时序特征提取,进行特征解码,得到3D目标框;对所述3D目标框进行损失计算,所述损失计算至少包括重叠度损失计算。本申请能够对自动驾驶多模态3D目标检测算法进行改进,大幅提高3D目标检测精度。
Description
技术领域
本申请涉及目标检测技术领域,特别是涉及一种3D目标检测方法、装置、电子设备和介质。
背景技术
随着科技的发展,自动驾驶技术正在飞速发展。然而,由于复杂、动态的驾驶环境,实现完全的自动驾驶仍然是一项艰巨的任务。为了理解车辆周边的驾驶环境,自动驾驶汽车需要配备一套传感器来进行强大而准确的环境感知。该套传感器装置及其配套的处理算法,称为感知系统。感知系统通过将一组传感器的数据作为输入,经过一系列的处理后,输出关于环境、其他周围物体(如汽车、行人)以及自动驾驶汽车本身的信息。
自动驾驶汽车上的传感器通常包括摄像头传感器(Camera sensor)以及激光雷达传感器(Light Detection And Ranging sensor,LiDAR)等。感知系统需要同时执行多个重要任务,如3D目标检测、跟踪、同步定位与映射(SLAM)等。其中,3D目标检测是感知系统的一项重要任务,其目的是在传感器数据中识别出所有感兴趣的物体,并确定它们的位置和类别(如机动车、非机动车、行人等)。在3D目标检测任务中,需要输出参数来指定物体周围的面向3d的边界框。
在实际的自动驾驶情况下,通过单一类型的传感器进行3D目标检测是远远不够的。首先,每种传感器都有其固有的缺点。例如,Camera only方法易遭受物体遮挡;LiDARonly方法的缺点是输入数据的分辨率比图像低,特别是在远距离时点过于稀疏。其次,要实现真正的自动驾驶,还需要考虑广泛的天气、道路和交通条件。感知子系统必须在所有不同的条件下都能提供良好的感知结果,这是依靠单一类型的传感器难以实现的。因此,增加传感器的数量和类型,并且将它们融合来更好地感知环境正在成为一种趋势。目前的算法主要是通过对图片数据和点云数据进行决策融合或特征融合。其中,特征融合是将不同模态的特征组合起来得到检测结果;而决策融合则是将每个单独的检测结果组合起来。然而目前的算法3D目标检测精度较低。
发明内容
为了解决上述背景技术中提到的至少一个问题,本申请提供了一种3D目标检测方法、装置、电子设备和介质,能够对自动驾驶多模态3D目标检测算法进行改进,大幅提高3D目标检测精度。
本申请实施例提供的具体技术方案如下:
第一方面,提供一种3D目标检测方法,包括:
获取场景中的图像数据以及激光点云数据;
根据所述图像数据,进行特征处理,生成鸟瞰图特征;
根据所述激光点云数据,进行特征处理,生成激光点云特征;
将所述鸟瞰图特征与所述激光点云特征进行特征融合,得到融合后的特征;
根据所述融合后的特征,通过时序神经网络进行时序特征提取,进行特征解码,得到3D目标框;
对所述3D目标框进行损失计算,所述损失计算至少包括重叠度损失计算。
进一步的,所述图像数据包括多相机图像信息,所述根据所述图像数据,进行特征处理,生成鸟瞰图特征,包括:
根据所述多相机图像信息,进行特征编码,得到多相机编码特征;
将所述多相机编码特征输入Transformer模型,进行特征解码生成鸟瞰图特征。
进一步的,所述根据所述多相机图像信息,进行特征编码,得到多相机编码特征,具体包括:
对所述多相机图像信息,进行多相机融合,对图像边缘区域的截断目标进行特征拼接,生成完整的目标特征;
对所述场景中相同的所述目标特征进行特征融合和特征补充。
进一步的,所述根据所述激光点云数据,进行特征处理,生成激光点云特征,包括:
根据所述激光点云数据,通过点云3D检测模型,进行3D稀疏卷积以及2D特征提取,得到激光点云特征。
进一步的,所述时序神经网络包括循环神经网络,所述根据所述融合后的特征,通过时序神经网络进行时序特征提取,进行特征解码,得到3D目标框,包括:
将连续多时间步的所述融合后的特征输入循环神经网络,进行时序特征提取,以便于增强当前时间步的特征预测信息。
进一步的,所述损失计算还包括回归损失计算以及分类损失计算,所述对所述3D目标框进行损失计算,还包括:
对所述3D目标框进行回归损失计算以及所述重叠度损失计算。
进一步的,所述对所述3D目标框进行回归损失计算以及所述重叠度损失计算,具体包括:
对所述3D目标框的x,y,z,w,l,h,r变量进行回归计算,其中,x,y,z是所述3D目标框的中心点坐标,w,h,l分别是所述3D目标框的宽、长、高,r是所述3D目标框的旋转量;
计算预测框与所述3D目标框的重叠度,进行重叠度损失计算,以弥补z方向上的精度损失。
第二方面,提供一种3D目标检测装置,所述装置包括:
数据获取模块,用于获取场景中的图像数据以及激光点云数据;
图像处理模块,用于根据所述图像数据,进行特征处理,生成鸟瞰图特征;
激光点云处理模块,用于根据所述激光点云数据,进行特征处理,生成激光点云特征;
特征融合模块,用于将所述鸟瞰图特征与所述激光点云特征进行特征融合,得到融合后的特征;
时间序列模块,用于根据所述融合后的特征,通过时序神经网络进行时序特征提取,进行特征解码,得到3D目标框;
损失计算模块,用于对所述3D目标框进行损失计算,所述损失计算至少包括重叠度损失计算。
第三方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述3D目标检测方法。
第四方面,提供一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行所述3D目标检测方法。
本申请实施例具有如下有益效果:
本申请实施例提供的一种3D目标检测方法、装置、电子设备和介质,能够通过多相机图像特征融合,提升图像边缘部分截断物体的检测精度;通过引入Transformer算法,进行鸟瞰图生成,进一步提升精度和鲁棒性;通过激光点云特征,对图像3D深度估计不准的特性进行修正;通过时间序列网络RNN提取时序特征,对前后时间帧的遮挡目标进行较好的检测、定位和追踪;最后通过3D检测头进行回归、分类以及重叠度损失计算,提升整体的损失计算精度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本申请实施例提供的3D目标检测方法的总流程图;
图2示出根据本申请一个实施例的3D目标检测方法的具体流程图;
图3示出根据本申请一个实施例的RNN时序处理示意图;
图4示出本申请实施例提供的3D目标检测装置的结构示意图;
图5示出可被用于实施本申请中所述的各个实施例的示例性系统。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要注意的是,术语“S1”、“S2”等仅用于步骤的描述目的,并非特别指称次序或顺位的意思,亦非用以限定本申请,其仅仅是为了方便描述本申请的方法,而不能理解为指示步骤的先后顺序。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
实施例一
本申请提供了一种3D目标检测方法,参照图1,包括:
S1、获取场景中的图像数据以及激光点云数据。
S2、根据图像数据,进行特征处理,生成鸟瞰图特征。
S3、根据激光点云数据,进行特征处理,生成激光点云特征。
S4、将鸟瞰图特征与激光点云特征进行特征融合,得到融合后的特征。
S5、根据融合后的特征,通过时序神经网络进行时序特征提取,进行特征解码,得到3D目标框。
S6、对3D目标框进行损失计算,损失计算至少包括重叠度损失计算。
具体的,上述步骤主要是基于多传感器融合(包含摄像头传感器以及激光雷达传感器)的自动驾驶3D目标检测方法的整体架构,主要应用于3D目标检测算法,对自动驾驶多模态3D目标检测算法进行改进,提高3D目标检测精度。上述步骤是数据/模型训练的过程,还可以进行测试验证,提升测试精度。另外,待数据/模型收敛,得到训练后的模型,在推理阶段,可以将3D目标框作为输出。
下面结合图2进行进一步的阐述:
在一些实施例中,上述的图像数据包括多相机图像信息,S2包括:
S21、根据多相机图像信息,进行特征编码,得到多相机编码特征;
S22、将多相机编码特征输入Transformer模型,进行特征解码生成鸟瞰图特征。
基于此,在一些实施例中,S21又具体包括:
S211、对多相机图像信息,进行多相机融合,对图像边缘区域的截断目标进行特征拼接,生成完整的目标特征;
S212、对场景中相同的目标特征进行特征融合和特征补充。
具体的,图像数据由原始的多相机输入,对多相机图像进行特征编码,设计了多相机特征融合网络模型架构,替代原始的单张图片特征提取。一方面,多相机融合能够对图像边缘区域的截断目标进行特征拼接,形成完整的目标特征,提升图像边缘部分截断物体的检测精度;另一方面,通过对图像进行多角度的特征融合,有利于特征表达更准确。多个相机对应的同一目标特征点能进行特征融合和特征补充,能够更好地表达特征。进一步的通过设计引入NLP(Natural Language Processing,自然语言处理)的常用模型架构Transformer,实现多相机编码特征后的鸟瞰图生成。通过多相机编码后的特征输入,进行相机之间的Key、Value、Query特征Attention,最终Decoder解码生成鸟瞰图特征。其精度更高,鲁棒性更好。
示例性的,可以这样来看待Attention机制:将Source中的构成元素想象成是由一系列的<Key,Value>数据组构成,此时给定Target中的某个元素Query,通过计算Query和各个Key的相似性或者相关性,能够得到每个Key对应Value的权重系数,然后对Value进行加权求和,即得到了最终的Attention数值。所以本质上Attention机制是对Source中元素的Value值进行加权求和,而Query和Key用来计算对应Value的权重系数。
在一些实施例中,S3包括:
根据激光点云数据,通过点云3D检测模型,进行3D稀疏卷积以及2D特征提取,得到激光点云特征。
具体的,由激光雷达的点云数据作为输入,先进行体素化特征提取,然后编码成bev特征。直接采用点云3D检测模型pointpillar,把3D的点云转换成2D的伪图像。其神经网络不做特殊处理,采用3D稀疏卷积,然后进行2D特征提取,最后将特征与上述鸟瞰图特征进行融合,对图像的3D深度估计不准的特性进行修正。
在一些实施例中,时序神经网络包括循环神经网络(Recurrent Neural Network,RNN),基于此,S5包括:
将连续多时间步的融合后的特征输入循环神经网络,进行时序特征提取,以便于增强当前时间步的特征预测信息。
具体的,参照图3,循环神经网络RNN的使用目的是处理序列数据。在传统的神经网络模型中,是从输入层到隐含层再到输出层,层与层之间是全连接的,每层之间的节点是无连接的。但是这种普通的神经网络对于很多问题却无能无力。RNN之所以称为循环神经网路,是因为序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中,即隐藏层之间的节点不再是无连接的而是有连接的,并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。理论上,RNN能够对任何长度的序列数据进行处理。通过时间序列特征提取,通过连续多时间帧的图像输入,来增强当前时间帧的特征预测信息,能够对前后时间帧的遮挡目标进行较好的检测、定位和追踪。
在一些实施例中,损失计算还包括回归损失计算以及分类损失计算,基于此,S6还包括:
S61、对3D目标框进行回归损失计算以及重叠度损失计算。
在一些实施例中,S61具体包括:
S611、对3D目标框的x,y,z,w,l,h,r变量进行回归计算,其中,x,y,z是3D目标框的中心点坐标,w,h,l分别是3D目标框的宽、长、高,r是3D目标框的旋转量。
S612、计算预测框与3D目标框的重叠度,进行重叠度损失计算,以弥补z方向上的精度损失。
具体的,在通过对特征网络进行解码后,需要通过3D检测头进行BOX IOU(Intersection over Union,重叠度)计算、回归计算和分类计算。对3D目标框的回归损失计算,主要回归x,y,z,w,l,h,r七个变量。其中,(x,y,z)是3D目标框的中心点坐标,w,h,l分别是3D目标框的宽、长、高,r是3D目标框的旋转量。由于在bev鸟瞰图上特征较多,所以x,y回归训练精度较高;但z方向回归精度较差。因此,为了弥补z方向上的精度损失,设计了3DIOU loss,通过对预测框和3D目标框的重叠度损失计算,来提高z方向上的训练精度,以提高整体的训练精度。
在本实施例中,能够通过多相机图像特征融合,提升图像边缘部分截断物体的检测精度;通过引入Transformer算法,进行鸟瞰图生成,进一步提升精度和鲁棒性;通过激光点云特征,对图像3D深度估计不准的特性进行修正;通过时间序列网络RNN提取时序特征,对前后时间帧的遮挡目标进行较好的检测、定位和追踪;最后通过3D检测头进行回归、分类以及重叠度损失计算,提升整体的损失计算精度。
实施例二
对应上述实施例,本申请还提供了一种3D目标检测装置,参照图4,装置包括:数据获取模块、图像处理模块、激光点云处理模块、特征融合模块、时间序列模块以及损失计算模块。
其中,数据获取模块,用于获取场景中的图像数据以及激光点云数据;图像处理模块,用于根据所述图像数据,进行特征处理,生成鸟瞰图特征;激光点云处理模块,用于根据所述激光点云数据,进行特征处理,生成激光点云特征;特征融合模块,用于将所述鸟瞰图特征与所述激光点云特征进行特征融合,得到融合后的特征;时间序列模块,用于根据所述融合后的特征,通过时序神经网络进行时序特征提取,进行特征解码,得到3D目标框;损失计算模块,用于对所述3D目标框进行损失计算,所述损失计算至少包括重叠度损失计算。
进一步的,所述图像数据包括多相机图像信息,图像处理模块还用于根据所述多相机图像信息,进行特征编码,得到多相机编码特征;以及用于将所述多相机编码特征输入Transformer模型,进行特征解码生成鸟瞰图特征。
进一步的,图像处理模块还用于对所述多相机图像信息,进行多相机融合,对图像边缘区域的截断目标进行特征拼接,生成完整的目标特征;以及用于对所述场景中相同的所述目标特征进行特征融合和特征补充。
进一步的,激光点云处理模块还用于根据所述激光点云数据,通过点云3D检测模型,进行3D稀疏卷积以及2D特征提取,得到激光点云特征。
进一步的,所述时序神经网络包括循环神经网络,时间序列模块还用于将连续多时间步的所述融合后的特征输入循环神经网络,进行时序特征提取,以便于增强当前时间步的特征预测信息。
进一步的,所述损失计算还包括回归损失计算以及分类损失计算,损失计算模块还用于对所述3D目标框进行回归损失计算以及所述重叠度损失计算。
进一步的,损失计算模块还用于对所述3D目标框的x,y,z,w,l,h,r变量进行回归计算,其中,x,y,z是所述3D目标框的中心点坐标,w,h,l分别是所述3D目标框的宽、长、高,r是所述3D目标框的旋转量;损失计算模块还用于计算预测框与所述3D目标框的重叠度,进行重叠度损失计算,以弥补z方向上的精度损失。
实施例三
对应上述实施例,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时可以实现上述3D目标检测方法。
如图5所示,在一些实施例中,系统能够作为各所述实施例中的任意一个用于3D目标检测方法的上述电子设备。在一些实施例中,系统可包括具有指令的一个或多个计算机可读介质(例如,系统存储器或NVM/存储设备)以及与该一个或多个计算机可读介质耦合并被配置为执行指令以实现模块从而执行本申请中所述的动作的一个或多个处理器(例如,(一个或多个)处理器)。
对于一个实施例,系统控制模块可包括任意适当的接口控制器,以向(一个或多个)处理器中的至少一个和/或与系统控制模块通信的任意适当的设备或组件提供任意适当的接口。
系统控制模块可包括存储器控制器模块,以向系统存储器提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。
系统存储器可被用于例如为系统加载和存储数据和/或指令。对于一个实施例,系统存储器可包括任意适当的易失性存储器,例如,适当的DRAM。在一些实施例中,系统存储器可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。
对于一个实施例,系统控制模块可包括一个或多个输入/输出(I/O)控制器,以向NVM/存储设备及(一个或多个)通信接口提供接口。
例如,NVM/存储设备可被用于存储数据和/或指令。NVM/存储设备可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如,一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。
NVM/存储设备可包括在物理上作为系统被安装在其上的设备的一部分的存储资源,或者其可被该设备访问而不必作为该设备的一部分。例如,NVM/存储设备可通过网络经由(一个或多个)通信接口进行访问。
(一个或多个)通信接口可为系统提供接口以通过一个或多个网络和/或与任意其他适当的设备通信。系统可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信。
对于一个实施例,(一个或多个)处理器中的至少一个可与系统控制模块的一个或多个控制器(例如,存储器控制器模块)的逻辑封装在一起。对于一个实施例,(一个或多个)处理器中的至少一个可与系统控制模块的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例,(一个或多个)处理器中的至少一个可与系统控制模块的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例,(一个或多个)处理器中的至少一个可与系统控制模块的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。
在各个实施例中,系统可以但不限于是:服务器、工作站、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)。在各个实施例中,系统可具有更多或更少的组件和/或不同的架构。例如,在一些实施例中,系统包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。本领域技术人员应能理解,计算机程序指令在计算机可读介质中的存在形式包括但不限于源文件、可执行文件、安装包文件等,相应地,计算机程序指令被计算机执行的方式包括但不限于:该计算机直接执行该指令,或者该计算机编译该指令后再执行对应的编译后程序,或者该计算机读取并执行该指令,或者该计算机读取并安装该指令后再执行对应的安装后程序。在此,计算机可读介质可以是可供计算机访问的任意可用的计算机可读存储介质或通信介质。
通信介质包括藉此包含例如计算机可读指令、数据结构、程序模块或其他数据的通信信号被从一个系统传送到另一系统的介质。通信介质可包括有导的传输介质(诸如电缆和线(例如,光纤、同轴等))和能传播能量波的无线(未有导的传输)介质,诸如声音、电磁、RF、微波和红外。计算机可读指令、数据结构、程序模块或其他数据可被体现为例如无线介质(诸如载波或诸如被体现为扩展频谱技术的一部分的类似机制)中的已调制数据信号。术语“已调制数据信号”指的是其一个或多个特征以在信号中编码信息的方式被更改或设定的信号。调制可以是模拟的、数字的或混合调制技术。
在此,根据本申请的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。
实施例四
对应上述实施例,本申请还提供了一种计算机可读存储介质,存储有计算机可执行指令,计算机可执行指令用于执行3D目标检测方法。
在本实施例中,计算机可读存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动的介质。例如,计算机可读存储介质包括,但不限于,易失性存储器,诸如随机存储器(RAM,DRAM,SRAM);以及非易失性存储器,诸如闪存、各种只读存储器(ROM,PROM,EPROM,EEPROM)、磁性和铁磁/铁电存储器(MRAM,FeRAM);以及磁性和光学存储设备(硬盘、磁带、CD、DVD);或其它现在已知的介质或今后开发的能够存储供计算机系统使用的计算机可读信息/数据。
尽管已描述了本申请实施例中的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例中范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种3D目标检测方法,其特征在于,包括:
获取场景中的图像数据以及激光点云数据;
根据所述图像数据,进行特征处理,生成鸟瞰图特征;
根据所述激光点云数据,进行特征处理,生成激光点云特征;
将所述鸟瞰图特征与所述激光点云特征进行特征融合,得到融合后的特征;
根据所述融合后的特征,通过时序神经网络进行时序特征提取,进行特征解码,得到3D目标框;
对所述3D目标框进行损失计算,所述损失计算至少包括重叠度损失计算。
2.根据权利要求1所述的3D目标检测方法,其特征在于,所述图像数据包括多相机图像信息,所述根据所述图像数据,进行特征处理,生成鸟瞰图特征,包括:
根据所述多相机图像信息,进行特征编码,得到多相机编码特征;
将所述多相机编码特征输入Transformer模型,进行特征解码生成鸟瞰图特征。
3.根据权利要求2所述的3D目标检测方法,其特征在于,所述根据所述多相机图像信息,进行特征编码,得到多相机编码特征,具体包括:
对所述多相机图像信息,进行多相机融合,对图像边缘区域的截断目标进行特征拼接,生成完整的目标特征;
对所述场景中相同的所述目标特征进行特征融合和特征补充。
4.根据权利要求1所述的3D目标检测方法,其特征在于,所述根据所述激光点云数据,进行特征处理,生成激光点云特征,包括:
根据所述激光点云数据,通过点云3D检测模型,进行3D稀疏卷积以及2D特征提取,得到激光点云特征。
5.根据权利要求1所述的3D目标检测方法,其特征在于,所述时序神经网络包括循环神经网络,所述根据所述融合后的特征,通过时序神经网络进行时序特征提取,进行特征解码,得到3D目标框,包括:
将连续多时间步的所述融合后的特征输入循环神经网络,进行时序特征提取,以便于增强当前时间步的特征预测信息。
6.根据权利要求1所述的3D目标检测方法,其特征在于,所述损失计算还包括回归损失计算以及分类损失计算,所述对所述3D目标框进行损失计算,还包括:
对所述3D目标框进行回归损失计算以及所述重叠度损失计算。
7.根据权利要求6所述的3D目标检测方法,其特征在于,所述对所述3D目标框进行回归损失计算以及所述重叠度损失计算,具体包括:
对所述3D目标框的x,y,z,w,l,h,r变量进行回归计算,其中,x,y,z是所述3D目标框的中心点坐标,w,h,l分别是所述3D目标框的宽、长、高,r是所述3D目标框的旋转量;
计算预测框与所述3D目标框的重叠度,进行重叠度损失计算,以弥补z方向上的精度损失。
8.一种3D目标检测装置,其特征在于,所述装置包括:
数据获取模块,用于获取场景中的图像数据以及激光点云数据;
图像处理模块,用于根据所述图像数据,进行特征处理,生成鸟瞰图特征;
激光点云处理模块,用于根据所述激光点云数据,进行特征处理,生成激光点云特征;
特征融合模块,用于将所述鸟瞰图特征与所述激光点云特征进行特征融合,得到融合后的特征;
时间序列模块,用于根据所述融合后的特征,通过时序神经网络进行时序特征提取,进行特征解码,得到3D目标框;
损失计算模块,用于对所述3D目标框进行损失计算,所述损失计算至少包括重叠度损失计算。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述3D目标检测方法。
10.一种计算机可读存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令用于执行权利要求1至7中任意一项所述3D目标检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111588856.1A CN114445310B (zh) | 2021-12-23 | 2021-12-23 | 一种3d目标检测方法、装置、电子设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111588856.1A CN114445310B (zh) | 2021-12-23 | 2021-12-23 | 一种3d目标检测方法、装置、电子设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114445310A true CN114445310A (zh) | 2022-05-06 |
CN114445310B CN114445310B (zh) | 2024-01-26 |
Family
ID=81363973
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111588856.1A Active CN114445310B (zh) | 2021-12-23 | 2021-12-23 | 一种3d目标检测方法、装置、电子设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114445310B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114998856A (zh) * | 2022-06-17 | 2022-09-02 | 苏州浪潮智能科技有限公司 | 一种多相机图像的3d目标检测方法、装置、设备及介质 |
CN115042821A (zh) * | 2022-08-12 | 2022-09-13 | 小米汽车科技有限公司 | 车辆控制方法、装置、车辆及存储介质 |
CN115170449A (zh) * | 2022-06-30 | 2022-10-11 | 陕西科技大学 | 一种多模态融合场景图生成方法、系统、设备和介质 |
CN116030023A (zh) * | 2023-02-02 | 2023-04-28 | 泉州装备制造研究所 | 一种点云检测方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111583337A (zh) * | 2020-04-25 | 2020-08-25 | 华南理工大学 | 一种基于多传感器融合的全方位障碍物检测方法 |
CN112001226A (zh) * | 2020-07-07 | 2020-11-27 | 中科曙光(南京)计算技术有限公司 | 一种无人驾驶3d目标检测方法、装置及存储介质 |
CN112580561A (zh) * | 2020-12-25 | 2021-03-30 | 上海高德威智能交通系统有限公司 | 目标检测方法、装置、电子设备及存储介质 |
CN113011317A (zh) * | 2021-03-16 | 2021-06-22 | 青岛科技大学 | 三维目标检测方法及检测装置 |
-
2021
- 2021-12-23 CN CN202111588856.1A patent/CN114445310B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111583337A (zh) * | 2020-04-25 | 2020-08-25 | 华南理工大学 | 一种基于多传感器融合的全方位障碍物检测方法 |
CN112001226A (zh) * | 2020-07-07 | 2020-11-27 | 中科曙光(南京)计算技术有限公司 | 一种无人驾驶3d目标检测方法、装置及存储介质 |
CN112580561A (zh) * | 2020-12-25 | 2021-03-30 | 上海高德威智能交通系统有限公司 | 目标检测方法、装置、电子设备及存储介质 |
CN113011317A (zh) * | 2021-03-16 | 2021-06-22 | 青岛科技大学 | 三维目标检测方法及检测装置 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114998856A (zh) * | 2022-06-17 | 2022-09-02 | 苏州浪潮智能科技有限公司 | 一种多相机图像的3d目标检测方法、装置、设备及介质 |
CN114998856B (zh) * | 2022-06-17 | 2023-08-08 | 苏州浪潮智能科技有限公司 | 一种多相机图像的3d目标检测方法、装置、设备及介质 |
CN115170449A (zh) * | 2022-06-30 | 2022-10-11 | 陕西科技大学 | 一种多模态融合场景图生成方法、系统、设备和介质 |
CN115170449B (zh) * | 2022-06-30 | 2023-09-22 | 陕西科技大学 | 一种多模态融合场景图生成方法、系统、设备和介质 |
CN115042821A (zh) * | 2022-08-12 | 2022-09-13 | 小米汽车科技有限公司 | 车辆控制方法、装置、车辆及存储介质 |
CN115042821B (zh) * | 2022-08-12 | 2022-11-04 | 小米汽车科技有限公司 | 车辆控制方法、装置、车辆及存储介质 |
CN116030023A (zh) * | 2023-02-02 | 2023-04-28 | 泉州装备制造研究所 | 一种点云检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114445310B (zh) | 2024-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114445310B (zh) | 一种3d目标检测方法、装置、电子设备和介质 | |
Nie et al. | A multimodality fusion deep neural network and safety test strategy for intelligent vehicles | |
CN113158763B (zh) | 4d毫米波和激光点云多视角特征融合的三维目标检测方法 | |
US11482014B2 (en) | 3D auto-labeling with structural and physical constraints | |
EP3506161A1 (en) | Method and apparatus for recovering point cloud data | |
WO2021072696A1 (zh) | 目标检测与跟踪方法、系统、可移动平台、相机及介质 | |
CN112749594B (zh) | 信息补全方法、车道线识别方法、智能行驶方法及相关产品 | |
US20190325597A1 (en) | Simultaneous Localization And Mapping Constraints In Generative Adversarial Networks For Monocular Depth Estimation | |
US10706505B2 (en) | Method and system for generating a range image using sparse depth data | |
Nieto et al. | Real-time lane tracking using Rao-Blackwellized particle filter | |
US11688090B2 (en) | Shared median-scaling metric for multi-camera self-supervised depth evaluation | |
CN114972654B (zh) | 一种基于路侧点云补全的三维目标检测方法 | |
US20230109473A1 (en) | Vehicle, electronic apparatus, and control method thereof | |
CN114782785A (zh) | 多传感器信息融合方法及装置 | |
EP3903232A1 (en) | Realistic sensor simulation and probabilistic measurement correction | |
Decourt et al. | A recurrent CNN for online object detection on raw radar frames | |
Liang et al. | Deep learning-based lightweight radar target detection method | |
Astudillo et al. | DAttNet: monocular depth estimation network based on attention mechanisms | |
Venugopala | Comparative study of 3D object detection frameworks based on LiDAR data and sensor fusion techniques | |
US20240355042A1 (en) | Fusing neural radiance fields by registration and blending | |
US11526965B2 (en) | Multiplicative filter network | |
KR102721587B1 (ko) | 센싱 정보 처리 장치 및 방법 | |
Kaskela | Temporal Depth Completion for Autonomous Vehicle Lidar Depth Sensing | |
CN117727001A (zh) | 一种基于全向视觉的车辆周围目标bev感知预测方法 | |
CN117953029B (zh) | 一种基于深度信息传播的通用深度图补全方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |