CN115424224A - 目标检测方法、装置、设备及存储介质 - Google Patents

目标检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115424224A
CN115424224A CN202210962461.1A CN202210962461A CN115424224A CN 115424224 A CN115424224 A CN 115424224A CN 202210962461 A CN202210962461 A CN 202210962461A CN 115424224 A CN115424224 A CN 115424224A
Authority
CN
China
Prior art keywords
data
feature
information
modal
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210962461.1A
Other languages
English (en)
Inventor
乐然
韩旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Weride Technology Co Ltd
Original Assignee
Guangzhou Weride Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Weride Technology Co Ltd filed Critical Guangzhou Weride Technology Co Ltd
Priority to CN202210962461.1A priority Critical patent/CN115424224A/zh
Publication of CN115424224A publication Critical patent/CN115424224A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及自动驾驶技术领域,公开了一种目标检测方法、装置、设备及存储介质,用于提高目标检测的准确度。所述目标检测方法包括:对至少一个相机拍摄的原始图像进行目标检测,得到多个初始检测信息;获取多模态的特征数据,并对多模态的特征数据进行鸟瞰图的特征融合,得到融合鸟瞰特征信息,多模态的特征数据包括多个数据采集装置的特征数据和/或多种特征提取方式获得的特征数据;通过融合鸟瞰特征信息对多个初始检测信息进行去重,得到至少一个目标检测信息。

Description

目标检测方法、装置、设备及存储介质
技术领域
本发明涉及自动驾驶技术领域,尤其涉及一种目标检测方法、装置、设备及存储介质。
背景技术
随着自动驾驶技术的发展,自动驾驶车辆的环境感知能力越来越强,而目标检测是环境感知任务中的重点。
现有技术在进行目标检测时,通常是分别对不同数据采集装置采集到的数据进行目标感知,再将不同数据采集装置的感知结果进行融合,最后对融合结果进行分割,得到检测目标,然而,由于不同数据采集装置采集的数据形态各异,目标感知的方式也各不相同,导致在对不同数据采集装置的感知结果进行融合时,融合难度大、准确度低,进而导致目标检测的准确度也随之降低。
发明内容
本发明提供了一种目标检测方法、装置、设备及存储介质,用于提高目标检测的准确度。
本发明第一方面提供了一种目标检测方法,包括:
对至少一个相机拍摄的原始图像进行目标检测,得到多个初始检测信息;
获取多模态的特征数据,并对所述多模态的特征数据进行鸟瞰图的特征融合,得到融合鸟瞰特征信息,所述多模态的特征数据包括多个数据采集装置的特征数据和/或多种特征提取方式获得的特征数据;
通过所述融合鸟瞰特征信息对所述多个初始检测信息进行去重,得到至少一个目标检测信息。
可选的,所述多模态的特征数据包括多模态的第一特征数据和/或多模态的第二特征数据,所述获取多模态的特征数据,包括:
获取多个数据采集装置采集的第一原始数据,并对所述第一原始数据进行特征提取,得到多模态的第一特征数据;和/或
获取同一数据采集装置采集的第二原始数据,并通过多种特征提取方式对所述第二原始数据进行特征提取,得到多模态的第二特征数据。
可选的,所述多个数据采集装置包括不同角度的数据采集装置,所述数据采集装置包括相机和/或激光雷达,所述获取多个数据采集装置采集的第一原始数据,并对所述第一原始数据进行特征提取,得到多模态的第一特征数据,包括:
获取相机拍摄的原始图像和/或激光雷达采集的原始点云,和/或获取不同角度的相机拍摄的原始图像和/或不同角度的激光雷达采集的原始点云,得到第一原始数据;
对所述第一原始数据中的原始图像进行图像特征提取,和/或对所述第一原始数据中的原始点云进行语义分割,得到多模态的第一特征数据。
可选的,所述第二原始数据包括同一相机拍摄的原始图像,通过多种特征提取方式对所述第二原始数据进行特征提取,得到多模态的第二特征数据,包括:
对所述第二原始数据中同一相机拍摄的原始图像进行目标检测,得到检测目标特征信息;
对所述第二原始数据中同一相机拍摄的原始图像进行深度估计,得到深度特征信息;
对所述第二原始数据中同一相机拍摄的原始图像进行每个像素点的语义分割,得到语义特征信息;
结合所述检测目标特征信息、所述深度特征信息和所述语义特征信息,得到多模态的第二特征数据。
可选的,对所述多模态的特征数据进行鸟瞰图的特征融合,得到融合鸟瞰特征信息,包括:
根据所述多模态的特征数据对应的数据采集装置与虚拟鸟瞰相机之间的相对位置关系,将所述多模态的特征数据投影至鸟瞰图,并对投影至所述鸟瞰图的各模态的特征数据进行同一像素点的特征拼接,得到融合鸟瞰特征信息。
可选的,所述通过所述融合鸟瞰特征信息对所述多个初始检测信息进行去重,得到至少一个目标检测信息,包括:
根据每个相机拍摄的原始图像与所述鸟瞰图之间的映射关系,对每个初始检测信息进行融合鸟瞰特征信息拼接,得到每个初始检测信息对应的多视角融合特征信息;
通过每个初始检测信息对应的多视角融合特征信息对所述多个初始检测信息进行筛选,得到至少一个目标检测信息。
可选的,所述对至少一个相机拍摄的原始图像进行目标检测,得到多个初始检测信息,包括:
获取激光雷达采集的原始点云和至少一个相机拍摄的原始图像,并通过所述激光雷达与每个相机之间的映射关系,将所述原始点云投影至所述原始图像,得到点云图像;
通过预先训练的目标检测模型,对所述点云图像进行目标检测,得到多个初始检测信息。
本发明第二方面提供了一种目标检测装置,包括:
检测模块,用于对至少一个相机拍摄的原始图像进行目标检测,得到多个初始检测信息;
融合模块,用于获取多模态的特征数据,并对所述多模态的特征数据进行鸟瞰图的特征融合,得到融合鸟瞰特征信息,所述多模态的特征数据包括多个数据采集装置的特征数据和/或多种特征提取方式获得的特征数据;
去重模块,用于通过所述融合鸟瞰特征信息对所述多个初始检测信息进行去重,得到至少一个目标检测信息。
可选的,所述多模态的特征数据包括多模态的第一特征数据和/或多模态的第二特征数据,所述融合模块包括:
第一获取单元,用于获取多个数据采集装置采集的第一原始数据,并对所述第一原始数据进行特征提取,得到多模态的第一特征数据;和/或
第二获取单元,用于获取同一数据采集装置采集的第二原始数据,并通过多种特征提取方式对所述第二原始数据进行特征提取,得到多模态的第二特征数据。
可选的,所述多个数据采集装置包括不同角度的数据采集装置,所述第一获取单元具体用于:
获取相机拍摄的原始图像和/或激光雷达采集的原始点云,和/或获取不同角度的相机拍摄的原始图像和/或不同角度的激光雷达采集的原始点云,得到第一原始数据;
对所述第一原始数据中的原始图像进行图像特征提取,和/或对所述第一原始数据中的原始点云进行语义分割,得到多模态的第一特征数据。
可选的,所述第二原始数据包括同一相机拍摄的原始图像,第二获取单元具体用于:
对所述第二原始数据中同一相机拍摄的原始图像进行目标检测,得到检测目标特征信息;
对所述第二原始数据中同一相机拍摄的原始图像进行深度估计,得到深度特征信息;
对所述第二原始数据中同一相机拍摄的原始图像进行每个像素点的语义分割,得到语义特征信息;
结合所述检测目标特征信息、所述深度特征信息和所述语义特征信息,得到多模态的第二特征数据。
可选的,所述融合模块具体用于:根据所述多模态的特征数据对应的数据采集装置与虚拟鸟瞰相机之间的相对位置关系,将所述多模态的特征数据投影至鸟瞰图,并对投影至所述鸟瞰图的各模态的特征数据进行同一像素点的特征拼接,得到融合鸟瞰特征信息。
可选的,所述去重模块具体用于:
根据每个相机拍摄的原始图像与所述鸟瞰图之间的映射关系,对每个初始检测信息进行融合鸟瞰特征信息拼接,得到每个初始检测信息对应的多视角融合特征信息;
通过每个初始检测信息对应的多视角融合特征信息对所述多个初始检测信息进行筛选,得到至少一个目标检测信息。
可选的,所述检测模块具体用于:
获取激光雷达采集的原始点云和至少一个相机拍摄的原始图像,并通过所述激光雷达与每个相机之间的映射关系,将所述原始点云投影至所述原始图像,得到点云图像;
通过预先训练的目标检测模型,对所述点云图像进行目标检测,得到多个初始检测信息。
本发明第三方面提供了一种目标检测设备,包括:存储器和至少一个处理器,所述存储器中存储有计算机程序;所述至少一个处理器调用所述存储器中的所述计算机程序,以使得所述目标检测设备执行上述的目标检测方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行上述的目标检测方法。
本发明提供的技术方案中,对至少一个相机拍摄的原始图像进行目标检测,得到多个初始检测信息;获取多模态的特征数据,并对多模态的特征数据进行鸟瞰图的特征融合,得到融合鸟瞰特征信息,多模态的特征数据包括多个数据采集装置的特征数据和/或多种特征提取方式获得的特征数据;通过融合鸟瞰特征信息对多个初始检测信息进行去重,得到至少一个目标检测信息。本发明实施例中,基于相机拍摄的图像初步获取目标对象的目标信息,再对不同数据采集装置和/或不同特征提取方式获得的多模态特征数据进行鸟瞰视角下的特征融合,从而得到融合不同特性的特征数据,用于对初步获得的目标信息进行筛选和去除,得到重叠率低且准确度高的目标对象的目标信息,从而提高目标检测的准确度。
附图说明
图1为本发明实施例中目标检测方法的一个实施例示意图;
图2为本发明实施例中目标检测方法的另一个实施例示意图;
图3为本发明实施例中目标检测装置的一个实施例示意图;
图4为本发明实施例中目标检测装置的另一个实施例示意图;
图5为本发明实施例中目标检测设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种目标检测方法、装置、设备及存储介质,用于提高目标检测的准确度。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
可以理解的是,本发明的执行主体可以为目标检测装置,还可以是终端或者服务器,终端可以为自动驾驶终端,具体此处不做限定。本发明实施例以终端为执行主体为例进行说明。
为了避免不同数据采集装置采集的形态各异的数据采用不同的方式进行目标检测后,得到形态各异、无统一标准的目标信息,终端可以对任一种数据采集装置采集的原始数据进行目标检测,得到多个初始检测信息,其中,任一种数据采集装置可以为相机、摄像机、激光雷达、毫米波雷达、超声波雷达等数据采集装置中的任意一种,任一种数据采集装置可以包括目标种类的至少一个数据采集装置,如3个相机、5个激光雷达,具体此处不做限定。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中目标检测方法的一个实施例包括:
101、对至少一个相机拍摄的原始图像进行目标检测,得到多个初始检测信息;
基于上述,由于图像在目标检测方面具有相对较高的精度和成熟的技术,因此,在数据采集装置的选择方面,采用相机拍摄的图像进行目标检测,能够保证目标检测的高精度要求。在一种实施方式中,终端对至少一个相机拍摄的原始图像进行目标检测,得到多个初始检测信息。具体的是,终端通过预设的目标检测算法或预先训练的目标检测模型对至少一个相机拍摄的原始图像进行目标检测,得到多个初始检测信息,其中,目标检测模型为神经网络结构模型,用于提高图像中目标检测的精度和效率。
需要说明的是,至少一个相机拍摄的原始图像为同一终端不同位置上安装的相机拍摄的图像,包括至少一个角度拍摄的图像,例如,自动驾驶车辆的车头和车尾上安装的相机拍摄的车头图像和车尾图像。本实施方式通过对不同角度的图像进行目标检测,能够多角度地检测目标信息,从而提高目标检测的精准度。
在一种实施方式中,在对至少一个相机拍摄的原始图像进行目标检测之前,还包括对每个相机拍摄的原始图像的重叠区域的融合。具体的,首先,终端确定目标相机,其中,目标相机可以是至少一个相机中的任意一个相机,也可以是至少一个相机之外的其它相机,包括虚拟相机,如虚拟鸟瞰相机,接着,终端根据各相机与目标相机之间的相对位置关系(即外参),将至少一个相机拍摄的原始图像投影至目标相机的坐标系下,得到融合图像,最后,终端对融合图像进行目标检测,得到多个初始检测信息。本实施方式能够基于融合的多角度图像进行目标检测,避免目标对象在图像中的目标信息不完整,或目标对象在每个图像中的重复检测,从而提高目标检测的准确度和检测效率。
可以理解的是,初始检测信息用于指示预设目标对象的信息,如障碍物的信息、行人的信息、交通灯的信息、行人附属物的信息、车道线的信息、三轮车的信息、马路边缘的信息等预设目标对象的信息,初始检测信息包括预设目标对象的属性信息,作为示例而非限定的是,初始检测信息包括但不限于预设目标对象的位置信息、尺寸信息、类型信息、深度信息、坐标信息等空间位置属性信息和预设目标对象的速度、朝向等运动属性信息。在一种实施方式中,初始检测信息为预设目标对象的检测框信息,进一步的,初始检测信息为预设目标对象的最小外接矩形信息。
需要说明的是,初始检测信息可以是2D空间的目标对象信息,也可以是3D空间的目标对象信息,在一种实施方式中,对至少一个相机拍摄的原始图像进行目标检测,得到多个初始检测信息包括:对至少一个相机拍摄的原始图像进行深度估计,得到深度估计结果,并基于深度估计结果对每个相机拍摄的原始图像进行目标检测,得到多个初始检测信息,其中,初始检测信息用于指示3D空间的目标对象信息。本实施方式能够获取3D空间的目标对象信息,从而获得目标对象的立体空间信息。
102、获取多模态的特征数据,并对多模态的特征数据进行鸟瞰图的特征融合,得到融合鸟瞰特征信息,多模态的特征数据包括多个数据采集装置的特征数据和/或多种特征提取方式获得的特征数据;
可以理解的是,如果直接对不同数据采集装置采集的数据进行目标检测,那么,由于目标检测结果数据的形态各异,容易导致融合难度的提升,使得难以获得准确的目标对象信息。因此,为了避免这个问题的出现,终端对多模态的特征数据进行鸟瞰图的特征融合,得到融合鸟瞰特征信息,用于对步骤101中多个初始检测信息进行筛选、去重和择优,使得即使免除了对不同数据采集装置采集到的数据进行目标检测,和目标对象信息融合的步骤,也能够精准地获取多模态的特征数据,为目标检测提供了完善且全面的数据支持,从而提高目标检测的精准度。
需要说明的是,多模态的特征数据是基于多模态的原始数据获得的,而多模态的原始数据包括多个数据采集装置采集的数据,多模态的特征数据是通过对多模态的原始数据进行多种特征提取方式的特征提取获得,因此,多模态的特征数据是指多个数据采集装置获得的特征数据和/或多种特征提取方式获得的特征数据。在一种实施方式中,获取多模态的特征数据包括:获取多个数据采集装置采集的数据,得到多模态的原始数据;对多模态的原始数据进行多种特征提取方式的特征提取,得到多模态的特征数据。其中,多个数据采集装置可以是同一终端上安装的多个相同种类的数据采集装置,如3个激光雷达,也可以是多个不同种类的数据采集装置,如2个激光雷达、1个相机和1个超声波雷达总共4个不同种类的数据采集装置,具体此处不做限定。本实施方式能够通过多数据采集装置或多特征提取方式获取多模态的特征数据,用于对目标对象信息进行筛选、去重和择优,从而提高目标检测的准确率。
在一种实施方式中,鸟瞰图可以通过对每个相机拍摄的原始图像进行鸟瞰坐标转换后获得,具体的是,根据每个相机与虚拟鸟瞰相机之间的相对位置关系,将每个相机拍摄的原始图像投影至虚拟鸟瞰相机的坐标系下,得到鸟瞰图。接着,终端根据多模态的特征数据与虚拟鸟瞰相机之间的相对位置关系,将多模态的特征数据投影至鸟瞰图,并对投影到鸟瞰图的多模态特征数据进行融合,得到融合鸟瞰特征信息。可以理解的是,由于多模态的特征数据可以基于至少一个数据采集装置采集的数据获得,因此,终端根据多模态的特征数据与虚拟鸟瞰相机之间的相对位置关系,将多模态的特征数据投影至鸟瞰图实质上是根据每个数据采集装置与虚拟鸟瞰相机之间的相对位置关系,将多模态的特征数据投影至鸟瞰图,从而准确地获得多模态特征数据在同一空间角度的融合信息,使得多模态特征数据的可利用性提高,融合难度降低,进而提高目标检测的准确度和效率。
在一种实施方式中,终端根据每个数据采集装置与虚拟鸟瞰相机之间的相对位置关系,将多模态的特征数据投影至鸟瞰图,再将投影到鸟瞰图的多模态特征数据进行拼接,得到融合鸟瞰特征信息。通过数据拼接的方式能够最大程度地保留特征数据,减少特征数据失真所导致的检测精度下降,从而提高目标检测的准确度。
103、通过融合鸟瞰特征信息对多个初始检测信息进行去重,得到至少一个目标检测信息。
需要说明的是,初始检测信息是目标检测的初步结果,由于各数据采集装置的位姿和特性不同,多个初始检测信息中可能存在部分或全部区域重叠的初始检测信息,因此,为了获取更准确的目标对象,终端通过融合鸟瞰特征信息对多个初始检测信息进行筛选、去重和择优,得到目标检测信息,其中,至少一个目标检测信息包括至少一个初始检测信息,例如,去重后保留了3个目标检测信息,这3个目标检测信息可以分别是行人检测信息、交通灯检测信息和车道线检测信息,可以是3个不同行人的检测信息,还可以是3个同一个行人的检测信息,具体此处不做限定。
在一种实施方式中,为了提高目标对象的去重效率,终端根据每个相机与虚拟鸟瞰相机之间的相对位置关系,从融合鸟瞰特征信息中提取每个初始检测信息对应的融合鸟瞰特征信息,再对每个初始检测信息对应的融合鸟瞰特征信息进行目标对象预测,得到目标检测信息。进一步的,为了提高目标检测的准确度,终端通过预先训练的目标对象去重模型对每个初始检测信息对应的融合鸟瞰特征信息进行目标对象预测,得到每个初始检测信息对应的目标对象概率值,再判断每个初始检测信息对应的目标对象概率值是否大于预置概率阈值,若目标对象概率值大于预置概率阈值,则将目标对象概率值大于预置概率阈值的初始检测信息确定为至少一个目标检测信息,其中,目标对象去重模型为神经网络结构的模型,包括卷积神经网络和注意力机制。本实施方式通过预先训练的模型能够提高目标对象去重的准确率,从而提高目标检测的准确率。
本发明实施例中,基于相机拍摄的图像初步获取目标对象的检测信息,再对不同数据采集装置和/或不同特征提取方式获得的多模态特征数据进行鸟瞰视角下的特征融合,从而得到融合不同特性的特征数据,用于对初步获得的目标对象进行筛选和去除,得到重叠率低且准确度高的目标对象信息,从而提高目标检测的准确度。
请参阅图2,本发明实施例中目标检测方法的另一个实施例包括:
201、对至少一个相机拍摄的原始图像进行目标检测,得到多个初始检测信息;
具体的,步骤201包括:获取激光雷达采集的原始点云和至少一个相机拍摄的原始图像,并通过激光雷达与每个相机之间的映射关系,将原始点云投影至原始图像,得到点云图像;通过预先训练的目标检测模型,对点云图像进行目标检测,得到多个初始检测信息。
可以理解的是,由于图像是在2D平面上的,能够准确地获得目标对象的存在性信息,但是难以目标对象在3D空间的精准3D位姿信息,因此,为了初步地获得较为精准的目标对象的存在性信息和目标对象在3D空间的位姿信息,结合激光雷达的点云信息和图像信息进行目标检测,从而获取准确的目标对象信息。具体的,终端根据激光雷达与每个相机之间的相对位置关系(即映射关系),将激光雷达采集的原始点云映射至对应相机拍摄的原始图像,得到每个原始图像对应的点云图像,再通过预先训练的目标检测模型,对点云图像进行目标检测,得到多个初始检测信息。其中,初始检测信息包括检测目标的检测框、检测框的位置、尺寸和类型
在一种实施方式中,为了避免不同的图像检测出来的目标对象不完整,以及避免不同图像对同一目标对象的重复检测导致的检测效率降低,终端根据激光雷达和每个相机分别与虚拟鸟瞰相机之间的相对位置关系,将激光雷达采集的原始点云和每个相机拍摄的原始图像投影至虚拟鸟瞰相机的坐标系,得到鸟瞰点云图像,再通过预先训练的目标检测模型,对鸟瞰点云图像进行目标检测,得到多个初始检测信息,从而提高目标检测的完整性和检测效率。
202、获取多个数据采集装置采集的第一原始数据,并对第一原始数据进行特征提取,得到多模态的第一特征数据;和/或
本实施方式中,多个数据采集装置包括多个相同类型的数据采集装置或多个不同类型的数据采集装置,例如,3个激光雷达即为多个相同类型的数据采集装置,1个激光雷达、1个相机、1个超声波雷达即为多个不同类型的数据采集装置,具体此处不做限定。对于包含多个数据采集装置采集的第一原始数据,在一种实施方式中,终端采用统一的特征提取方式进行特征提取,具体的,终端通过预设的特征提取方式对第一原始数据进行特征提取,得到多模态的第一特征数据,其中,同一特征提取方式用于指示相同的特征提取算法/模型/过程。例如,假设第一原始数据包含3个激光雷达采集的点云数据,那么,终端均通过预设的特征提取方式A对这3个激光雷达采集的点云数据进行特征提取,得到多个激光雷达的特征数据,即为多模态的第一特征数据,假设第一原始数据包含1个激光雷达、1个相机、1个超声波雷达分别采集的原始数据,那么,终端则通过预设的特征提取方式A对该激光雷达采集的原始数据进行特征提取,通过预设的特征提取方式B对该相机采集的原始数据进行特征提取,通过预设的特征提取方式C对该超声波雷达采集的原始数据进行特征提取,得到多类型的特征数据,即为多模态的第一特征数据,其中,每个类型的数据采集装置对应一种数据采集方式,也就是说,在该例子中,其它任何相机采集的原始数据均通过预设的特征提取方式B进行特征提取,其它任何超声波雷达采集的原始数据均通过预设的特征提取方式C进行特征提取,具体此处不做限定。本实施方式基于一种高精度的特征提取方式获取多模态的特征数据,从而提高目标检测的准确度。
具体的,多个数据采集装置包括不同角度的数据采集装置,数据采集装置包括相机和/或激光雷达,步骤202包括:获取相机拍摄的原始图像和/或激光雷达采集的原始点云,和/或获取不同角度的相机拍摄的原始图像和/或不同角度的激光雷达采集的原始点云,得到第一原始数据;对第一原始数据中的原始图像进行图像特征提取,和/或对第一原始数据中的原始点云进行语义分割,得到多模态的第一特征数据。
本实施方式为相机和/或激光雷达的特征提取方式的一个可能的实施例,在数据采集装置包括相机和/或激光雷达的情况下,终端通过预设的图像特征提取方式对第一原始数据中的原始图像进行图像特征提取,通过预设的语义分割算法对第一原始数据中的原始点云进行语义分割,得到多模态的第一特征数据。在多个数据采集装置包括多个角度的数据采集装置的情况下同样适用,即,终端通过预设的图像特征提取方式对第一原始数据中不同角度的原始图像分别进行图像特征提取,通过预设的语义分割算法对第一原始数据中不同角度的原始点云进行语义分割,得到多模态的第一特征数据。其中,语义分割对应的语义特征数据用于指示目标对象的存在性信息,例如,如果语义分割对应的语义特征数据若为真值,则代表存在目标对象,如果语义分割对应的语义特征数据若为假值,则代表不存在目标对象,具体此处不做限定。
203、获取同一数据采集装置采集的第二原始数据,并通过多种特征提取方式对第二原始数据进行特征提取,得到多模态的第二特征数据;
具体的,第二原始数据包括同一相机拍摄的原始图像,步骤203包括:对第二原始数据中同一相机拍摄的原始图像进行目标检测,得到检测目标特征信息;对第二原始数据中同一相机拍摄的原始图像进行深度估计,得到深度特征信息;对第二原始数据中同一相机拍摄的原始图像进行每个像素点的语义分割,得到语义特征信息;结合检测目标特征信息、深度特征信息和语义特征信息,得到多模态的第二特征数据。
本实施方式为基于图像的不同特征提取方式的一个可能的实施例,本实施方式中,多种特征提取方式包括目标检测、深度估计以及语义分割,具体的,终端分别对第二原始数据中同一相机拍摄的原始图像进行目标检测、深度估计以及语义分割,得到多模态的第二特征数据,其中,多模态的第二特征数据包括检测目标特征信息、深度特征信息以及语义特征信息,在一种实施方式中,终端对检测目标特征信息、深度特征信息以及语义特征信息进行拼接,得到多模态的第二特征数据。本实施方式能够通过不同的特征提取方式从图像中提取多模态的特征数据,使得特征数据能够结合不同特征提取方式的特性和优点,为目标检测提供更准确的数据支持,从而提高目标检测的效率。
204、对多模态的特征数据进行鸟瞰图的特征融合,得到融合鸟瞰特征信息,多模态的特征数据包括多个数据采集装置的特征数据和/或多种特征提取方式获得的特征数据,多模态的特征数据包括多模态的第一特征数据和/或多模态的第二特征数据;
具体的,步骤204包括:根据多模态的特征数据对应的数据采集装置与虚拟鸟瞰相机之间的相对位置关系,将多模态的特征数据投影至鸟瞰图,并对投影至鸟瞰图的各模态的特征数据进行同一像素点的特征拼接,得到融合鸟瞰特征信息。
本实施方式中,终端对多模态的第一特征数据和/或多模态的第二特征数据进行鸟瞰图的特征融合,得到融合鸟瞰特征信息,具体的是,终端根据多模态的特征数据对应的数据采集装置与虚拟鸟瞰相机之间的相对位置关系(即外参),将多模态的特征数据映射至鸟瞰图,得到多模态的特征数据再鸟瞰图中的坐标信息,再根据坐标信息将同一坐标的像素点的特征信息进行拼接,得到融合鸟瞰特征信息,融合鸟瞰特征信息中既包含相机视角的特征信息,也包含鸟瞰视角的特征信息,使得特征信息融合了不同视角的特性和优势,为目标检测提供更准确的数据支持,从而提高目标检测的效率。
205、通过融合鸟瞰特征信息对多个初始检测信息进行去重,得到至少一个目标检测信息。
具体的,步骤205包括:根据每个相机拍摄的原始图像与鸟瞰图之间的映射关系,对每个初始检测信息进行融合鸟瞰特征信息拼接,得到每个初始检测信息对应的多视角融合特征信息;通过每个初始检测信息对应的多视角融合特征信息对多个初始检测信息进行筛选,得到至少一个目标检测信息。
本实施方式中,终端根据每个相机与虚拟鸟瞰相机之间的相对位置关系,将每个初始检测信息也拼接到融合鸟瞰特征信息中,得到每个初始检测信息对应的多视角融合特征信息,使得多视角融合特征信息既包含相机视角的特征信息,也包含鸟瞰视角的特征信息,以通过不同视角的特性和优势为目标检测提供更准确的数据支持,从而提高目标检测的效率。终端将每个初始检测信息对应的多视角融合特征信息输入预先训练的目标对象筛选模型,得到目标检测信息,从而提高目标检测的准确度。
本发明实施例中,基于相机拍摄的图像初步获取目标对象的检测信息,再对不同数据采集装置采集的原始数据进行同一特征提取方式和/或不同特征提取方式的特征提取,得到多模态的特征数据后,进行鸟瞰视角下的特征融合,从而得到融合不同特性的特征数据,用于对初步获得的目标对象进行筛选和去除,得到重叠率低且准确度高的目标对象信息,从而提高目标检测的准确度。
上面对本发明实施例中目标检测方法进行了描述,下面对本发明实施例中目标检测装置进行描述,请参阅图3,本发明实施例中目标检测装置一个实施例包括:
检测模块301,用于对至少一个相机拍摄的原始图像进行目标检测,得到多个初始检测信息;
融合模块302,用于获取多模态的特征数据,并对所述多模态的特征数据进行鸟瞰图的特征融合,得到融合鸟瞰特征信息,所述多模态的特征数据包括多个数据采集装置的特征数据和/或多种特征提取方式获得的特征数据;
去重模块303,用于通过所述融合鸟瞰特征信息对所述多个初始检测信息进行去重,得到至少一个目标检测信息。
本发明实施例中,基于相机拍摄的图像初步获取目标对象的检测信息,再对不同数据采集装置和/或不同特征提取方式获得的多模态特征数据进行鸟瞰视角下的特征融合,从而得到融合不同特性的特征数据,用于对初步获得的目标对象进行筛选和去除,得到重叠率低且准确度高的目标对象信息,从而提高目标检测的准确度。
请参阅图4,本发明实施例中目标检测装置的另一个实施例包括:
检测模块301,用于对至少一个相机拍摄的原始图像进行目标检测,得到多个初始检测信息;
融合模块302,用于获取多模态的特征数据,并对所述多模态的特征数据进行鸟瞰图的特征融合,得到融合鸟瞰特征信息,所述多模态的特征数据包括多个数据采集装置的特征数据和/或多种特征提取方式获得的特征数据;
去重模块303,用于通过所述融合鸟瞰特征信息对所述多个初始检测信息进行去重,得到至少一个目标检测信息。
可选的,所述多模态的特征数据包括多模态的第一特征数据和/或多模态的第二特征数据,所述融合模块302包括:
第一获取单元3021,用于获取多个数据采集装置采集的第一原始数据,并对所述第一原始数据进行特征提取,得到多模态的第一特征数据;和/或
第二获取单元3022,用于获取同一数据采集装置采集的第二原始数据,并通过多种特征提取方式对所述第二原始数据进行特征提取,得到多模态的第二特征数据。
可选的,所述多个数据采集装置包括不同角度的数据采集装置,所述第一获取单元3021具体用于:
获取相机拍摄的原始图像和/或激光雷达采集的原始点云,和/或获取不同角度的相机拍摄的原始图像和/或不同角度的激光雷达采集的原始点云,得到第一原始数据;
对所述第一原始数据中的原始图像进行图像特征提取,和/或对所述第一原始数据中的原始点云进行语义分割,得到多模态的第一特征数据。
可选的,所述第二原始数据包括同一相机拍摄的原始图像,第二获取单元3022具体用于:
对所述第二原始数据中同一相机拍摄的原始图像进行目标检测,得到检测目标特征信息;
对所述第二原始数据中同一相机拍摄的原始图像进行深度估计,得到深度特征信息;
对所述第二原始数据中同一相机拍摄的原始图像进行每个像素点的语义分割,得到语义特征信息;
结合所述检测目标特征信息、所述深度特征信息和所述语义特征信息,得到多模态的第二特征数据。
可选的,所述融合模块302具体用于:根据所述多模态的特征数据对应的数据采集装置与虚拟鸟瞰相机之间的相对位置关系,将所述多模态的特征数据投影至鸟瞰图,并对投影至所述鸟瞰图的各模态的特征数据进行同一像素点的特征拼接,得到融合鸟瞰特征信息。
可选的,所述去重模块303具体用于:
根据每个相机拍摄的原始图像与所述鸟瞰图之间的映射关系,对每个初始检测信息进行融合鸟瞰特征信息拼接,得到每个初始检测信息对应的多视角融合特征信息;
通过每个初始检测信息对应的多视角融合特征信息对所述多个初始检测信息进行筛选,得到至少一个目标检测信息。
可选的,所述检测模块301具体用于:
获取激光雷达采集的原始点云和至少一个相机拍摄的原始图像,并通过所述激光雷达与每个相机之间的映射关系,将所述原始点云投影至所述原始图像,得到点云图像;
通过预先训练的目标检测模型,对所述点云图像进行目标检测,得到多个初始检测信息。
本发明实施例中,基于相机拍摄的图像初步获取目标对象的检测信息,再对不同数据采集装置采集的原始数据进行同一特征提取方式和/或不同特征提取方式的特征提取,得到多模态的特征数据后,进行鸟瞰视角下的特征融合,从而得到融合不同特性的特征数据,用于对初步获得的目标对象进行筛选和去除,得到重叠率低且准确度高的目标对象信息,从而提高目标检测的准确度。
上面图3和图4从模块化功能实体的角度对本发明实施例中的目标检测装置进行详细描述,下面从硬件处理的角度对本发明实施例中目标检测设备进行详细描述。
图5是本发明实施例提供的一种目标检测设备的结构示意图,该目标检测设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对目标检测设备500中的一系列计算机程序操作。更进一步地,处理器510可以设置为与存储介质530通信,在目标检测设备500上执行存储介质530中的一系列计算机程序操作。
目标检测设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5示出的目标检测设备结构并不构成对目标检测设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种计算机设备,所述计算机设备包括存储器和处理器,存储器中存储有计算机可读计算机程序,计算机可读计算机程序被处理器执行时,使得处理器执行上述各实施例中的所述目标检测方法的步骤。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得计算机执行所述目标检测方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干计算机程序用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-onlymemory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种目标检测方法,其特征在于,所述目标检测方法包括:
对至少一个相机拍摄的原始图像进行目标检测,得到多个初始检测信息;
获取多模态的特征数据,并对所述多模态的特征数据进行鸟瞰图的特征融合,得到融合鸟瞰特征信息,所述多模态的特征数据包括多个数据采集装置的特征数据和/或多种特征提取方式获得的特征数据;
通过所述融合鸟瞰特征信息对所述多个初始检测信息进行去重,得到至少一个目标检测信息。
2.根据权利要求1所述的目标检测方法,其特征在于,所述多模态的特征数据包括多模态的第一特征数据和/或多模态的第二特征数据,所述获取多模态的特征数据,包括:
获取多个数据采集装置采集的第一原始数据,并对所述第一原始数据进行特征提取,得到多模态的第一特征数据;和/或
获取同一数据采集装置采集的第二原始数据,并通过多种特征提取方式对所述第二原始数据进行特征提取,得到多模态的第二特征数据。
3.根据权利要求2所述的目标检测方法,其特征在于,所述多个数据采集装置包括不同角度的数据采集装置,所述数据采集装置包括相机和/或激光雷达,所述获取多个数据采集装置采集的第一原始数据,并对所述第一原始数据进行特征提取,得到多模态的第一特征数据,包括:
获取相机拍摄的原始图像和/或激光雷达采集的原始点云,和/或获取不同角度的相机拍摄的原始图像和/或不同角度的激光雷达采集的原始点云,得到第一原始数据;
对所述第一原始数据中的原始图像进行图像特征提取,和/或对所述第一原始数据中的原始点云进行语义分割,得到多模态的第一特征数据。
4.根据权利要求2所述的目标检测方法,其特征在于,所述第二原始数据包括同一相机拍摄的原始图像,所述通过多种特征提取方式对所述第二原始数据进行特征提取,得到多模态的第二特征数据,包括:
对所述第二原始数据中同一相机拍摄的原始图像进行目标检测,得到检测目标特征信息;
对所述第二原始数据中同一相机拍摄的原始图像进行深度估计,得到深度特征信息;
对所述第二原始数据中同一相机拍摄的原始图像进行每个像素点的语义分割,得到语义特征信息;
结合所述检测目标特征信息、所述深度特征信息和所述语义特征信息,得到多模态的第二特征数据。
5.根据权利要求1所述的目标检测方法,其特征在于,对所述多模态的特征数据进行鸟瞰图的特征融合,得到融合鸟瞰特征信息,包括:
根据所述多模态的特征数据对应的数据采集装置与虚拟鸟瞰相机之间的相对位置关系,将所述多模态的特征数据投影至鸟瞰图,并对投影至所述鸟瞰图的各模态的特征数据进行同一像素点的特征拼接,得到融合鸟瞰特征信息。
6.根据权利要求1所述的目标检测方法,其特征在于,所述通过所述融合鸟瞰特征信息对所述多个初始检测信息进行去重,得到至少一个目标检测信息,包括:
根据每个相机拍摄的原始图像与所述鸟瞰图之间的映射关系,对每个初始检测信息进行融合鸟瞰特征信息拼接,得到每个初始检测信息对应的多视角融合特征信息;
通过每个初始检测信息对应的多视角融合特征信息对所述多个初始检测信息进行筛选,得到至少一个目标检测信息。
7.根据权利要求1所述的目标检测方法,其特征在于,所述对至少一个相机拍摄的原始图像进行目标检测,得到多个初始检测信息,包括:
获取激光雷达采集的原始点云和至少一个相机拍摄的原始图像,并通过所述激光雷达与每个相机之间的映射关系,将所述原始点云投影至所述原始图像,得到点云图像;
通过预先训练的目标检测模型,对所述点云图像进行目标检测,得到多个初始检测信息。
8.一种目标检测装置,其特征在于,所述目标检测装置包括:
检测模块,用于对至少一个相机拍摄的原始图像进行目标检测,得到多个初始检测信息;
融合模块,用于获取多模态的特征数据,并对所述多模态的特征数据进行鸟瞰图的特征融合,得到融合鸟瞰特征信息,所述多模态的特征数据包括多个数据采集装置的特征数据和/或多种特征提取方式获得的特征数据;
去重模块,用于通过所述融合鸟瞰特征信息对所述多个初始检测信息进行去重,得到至少一个目标检测信息。
9.一种目标检测设备,其特征在于,所述目标检测设备包括:存储器和至少一个处理器,所述存储器中存储有计算机程序;
所述至少一个处理器调用所述存储器中的所述计算机程序,以使得所述目标检测设备执行如权利要求1-7中任意一项所述的目标检测方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述目标检测方法。
CN202210962461.1A 2022-08-11 2022-08-11 目标检测方法、装置、设备及存储介质 Pending CN115424224A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210962461.1A CN115424224A (zh) 2022-08-11 2022-08-11 目标检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210962461.1A CN115424224A (zh) 2022-08-11 2022-08-11 目标检测方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115424224A true CN115424224A (zh) 2022-12-02

Family

ID=84198072

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210962461.1A Pending CN115424224A (zh) 2022-08-11 2022-08-11 目标检测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115424224A (zh)

Similar Documents

Publication Publication Date Title
CN110148144B (zh) 点云数据的分割方法和装置、存储介质、电子装置
CN111027401B (zh) 一种摄像头和激光雷达融合的端到端目标检测方法
EP3505962B1 (en) Method and apparatus for processing point cloud data
EP3171292B1 (en) Driving lane data processing method, device, storage medium and apparatus
CN111222395A (zh) 目标检测方法、装置与电子设备
WO2022188663A1 (zh) 一种目标检测方法及装置
CN112560774A (zh) 一种障碍物位置检测方法、装置、设备和存储介质
JP2007527569A (ja) 立体視に基づく差し迫った衝突の検知
CN113052066B (zh) 三维目标检测中基于多视图和图像分割的多模态融合方法
EP2813973B1 (en) Method and system for processing video image
EP4047565A1 (en) Low level sensor fusion based on lightweight semantic segmentation of 3d point clouds
CN114708583A (zh) 目标物的检测方法、装置、设备及存储介质
WO2019121056A1 (fr) Methode de reconnaissance d'objets dans une scene observee en trois dimensions
CN113537049A (zh) 地面点云数据处理方法、装置、终端设备及存储介质
CN114792416A (zh) 一种目标检测方法及装置
CN113537047A (zh) 障碍物检测方法、装置、交通工具及存储介质
CN117789160A (zh) 一种基于聚类优化的多模态融合目标检测方法及系统
CN112733678A (zh) 测距方法、装置、计算机设备和存储介质
CN109598199B (zh) 车道线生成方法和装置
CN112529917A (zh) 一种三维目标分割方法、装置、设备和存储介质
CN116778262A (zh) 一种基于虚拟点云的三维目标检测方法和系统
CN114648639B (zh) 一种目标车辆的检测方法、系统及装置
CN115359332A (zh) 基于车路协同的数据融合方法、装置、电子设备及系统
CN115424224A (zh) 目标检测方法、装置、设备及存储介质
CN111890358B (zh) 双目避障方法、装置、存储介质及电子装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination