CN116206302A - 三维目标检测方法、装置、计算机设备和存储介质 - Google Patents

三维目标检测方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN116206302A
CN116206302A CN202211647892.5A CN202211647892A CN116206302A CN 116206302 A CN116206302 A CN 116206302A CN 202211647892 A CN202211647892 A CN 202211647892A CN 116206302 A CN116206302 A CN 116206302A
Authority
CN
China
Prior art keywords
target
dimensional
positioning information
uncertainty
confidence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211647892.5A
Other languages
English (en)
Inventor
凌强
周策
何欣栋
姚卯青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Anhui Weilai Zhijia Technology Co Ltd
Original Assignee
University of Science and Technology of China USTC
Anhui Weilai Zhijia Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC, Anhui Weilai Zhijia Technology Co Ltd filed Critical University of Science and Technology of China USTC
Priority to CN202211647892.5A priority Critical patent/CN116206302A/zh
Publication of CN116206302A publication Critical patent/CN116206302A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种三维目标检测方法、装置、计算机设备、存储介质和计算机程序产品。所述方法通过获取待检测图像,并通过预先训练的三维目标检测模型对待检测图像进行目标检测,得到候选目标的检测结果,进而根据检测结果中的不确定度以及分类置信度确定候选目标的目标置信度,由于该目标置信度可以表征候选目标所属类别和所在位置的综合可靠性,因此,实现了对候选目标的可靠性预测,提高了模型的检测性能。

Description

三维目标检测方法、装置、计算机设备和存储介质
技术领域
本申请涉及目标检测技术领域,特别是涉及一种三维目标检测方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
目标检测不仅需要识别出图像上存在的物体,给出对应的类别,还需要将该物体的位置通过最小包围框(Bounding box)的方式给出。随着目标检测技术的发展,基于点云的三维(3-Dimension,简称3D)目标检测算法在自动驾驶领域受到了广泛关注和应用。3D检测算法通常包括基于体素的检测方法和基于点的检测方法。其中,基于体素的检测方法首先将输入点云划分成规则的体素网格,然后对体素特征进行编码,再使用3D稀疏卷积神经网络对体素网格提取特征,输出特征经过密集化处理和2D骨干网络后通过检测头输出分类和回归结果(最小包围框即3D边界框的参数)。而基于点的检测方法会直接从原始点云中学习点的特征,不需要经过体素化等预处理操作。由于基于体素的检测方法具有高效的3D稀疏卷积,因此其实时性比较好,而基于点的检测方法由于是直接从原始点云提取特征,避免了结构化处理带来的信息损失,因此精度更高,但实时性较差。
传统技术中,为了满足实时性,工业界一般采用基于体素的检测方法用于3D点云的目标检测。3D目标检测通常会输出边界框的分类置信度以及定位的回归量,其中,定位的回归量一般包括三维中心点坐标、框的长宽高尺寸以及朝向角。
但是,目前的3D目标检测只能对边界框分类的置信度进行估计,而缺少对3D边界框定位的置信度进行估计,从而导致难以区分定位结果的可靠性。
发明内容
基于此,有必要针对上述目标检测定位结果的可靠性问题,提供一种能够衡量定位结果的可靠性的三维目标检测方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种三维目标检测方法。所述方法包括:
获取待检测图像;
通过预先训练的三维目标检测模型对所述待检测图像进行目标检测,得到候选目标的三维定位信息、所述三维定位信息的不确定度以及所述候选目标的分类置信度;
根据所述不确定度以及所述分类置信度确定所述候选目标的目标置信度,所述目标置信度用于表征所述候选目标所属类别和所在位置的综合可靠性。
在其中一个实施例中,所述三维目标检测模型的生成方法包括:获取待训练的三维目标检测模型,所述待训练的三维目标检测模型包括用于预测目标的三维定位信息的第一分支、用于预测所述三维定位信息的不确定度的第二分支以及用于预测所述目标的分类置信度的第三分支;将样本图像输入待训练的三维目标检测模型进行目标检测,得到所述第一分支预测的样本目标的三维定位信息、所述第二分支预测的所述三维定位信息的不确定度以及所述第三分支预测的所述样本目标的分类置信度;根据预测的样本目标的三维定位信息、所述三维定位信息的不确定度以及所述样本目标的分类置信度,采用预设的不确定度回归损失函数和分类损失函数,对所述第一分支、所述第二分支和所述第三分支进行训练,直到收敛时得到训练后的所述三维目标检测模型。
在其中一个实施例中,所述第二分支采用平均值为第一目标值、标准差为第二目标值的高斯分布进行初始化。
在其中一个实施例中,所述样本图像包括所述样本目标的三维定位信息标签;所述预设的不确定度回归损失函数,根据所述样本图像中样本目标的三维定位信息标签、预测的所述样本图像中样本目标的三维定位信息、预测的所述三维定位信息的不确定度以及超参数确定。
在其中一个实施例中,所述方法还包括:根据所述样本图像中所述样本目标的三维定位信息标签、预测的所述样本目标的三维定位信息以及预测的所述三维定位信息的不确定度,确定第一损失项;根据预测的所述三维定位信息的不确定度以及所述超参数确定第二损失项;根据所述第一损失项和所述第二损失项,确定所述不确定度回归损失函数。
在其中一个实施例中,所述根据所述不确定度以及所述分类置信度确定所述候选目标的目标置信度,包括:根据所述三维定位信息的不确定度以及预设的定位置信度,计算所述三维定位信息的目标定位置信度;获取所述目标定位置信度与所述分类置信度的乘积,将所述乘积确定为所述候选目标的目标置信度。
在其中一个实施例中,所述候选目标的三维定位信息包括所述候选目标的中心点坐标、所述候选目标的长、宽、高以及朝向角;所述三维定位信息的不确定度包括所述候选目标的中心点坐标、所述候选目标的长、宽、高以及朝向角分别对应的不确定度;所述根据所述三维定位信息的不确定度以及预设的定位置信度,计算所述三维定位信息的目标定位置信度,包括:获取所述候选目标的中心点坐标、所述候选目标的长、宽、高以及朝向角分别对应的不确定度的平均值;计算所述预设的定位置信度与所述平均值的差值,将所述差值确定为所述三维定位信息的目标定位置信度。
第二方面,本申请还提供了一种三维目标检测装置。所述装置包括:
待检测图像获取模块,用于获取待检测图像;
目标检测模块,用于通过预先训练的三维目标检测模型对所述待检测图像进行目标检测,得到候选目标的三维定位信息、所述三维定位信息的不确定度以及所述候选目标的分类置信度;
目标置信度确定模块,用于根据所述不确定度以及所述分类置信度确定所述候选目标的目标置信度,所述目标置信度用于表征所述候选目标所属类别和所在位置的综合可靠性。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上第一方面所述方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上第一方面所述方法的步骤。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上第一方面所述方法的步骤。
上述三维目标检测方法、装置、计算机设备、存储介质和计算机程序产品,通过获取待检测图像,并通过预先训练的三维目标检测模型对待检测图像进行目标检测,得到候选目标的检测结果,进而根据检测结果中的不确定度以及分类置信度确定候选目标的目标置信度,由于该目标置信度可以表征候选目标所属类别和所在位置的综合可靠性,因此,实现了对候选目标的可靠性预测,提高了模型的检测性能。
附图说明
图1为一个实施例中三维目标检测方法的流程示意图;
图2为一个实施例中三维目标检测模型的生成步骤的流程示意图;
图3为一个实施例中三维目标检测模型的训练原理示意图;
图4为一个实施例中确定候选目标的目标置信度步骤的流程示意图;
图5为一个实施例中计算目标定位置信度步骤的流程示意图;
图6为一个实施例中三维目标检测装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种三维目标检测方法,本实施例以该方法应用于终端为例进行说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。
本实施例中,该方法可以包括以下步骤:
步骤102,获取待检测图像。
其中,待检测图像是指待要进行目标检测的图像。具体地,目标检测是一种基于目标几何和统计特征的图像分割,它将目标的分割和识别合二为一,以识别出图像上存在的目标物体,并给出对应的类别,将目标物体的位置通过最小包围框的方式给出。
在本实施例中,待检测图像可以是终端中存储的图像,也可以是终端从服务器、数据库或云端获取的需要进行目标检测的图像。
步骤104,通过预先训练的三维目标检测模型对待检测图像进行目标检测,得到候选目标的检测结果。
其中,预先训练的三维目标检测模型是基于一定的检测目标,采用大数据对基础目标检测模型进行训练后得到的模型。
候选目标则是对待检测图像进行目标检测所识别到的目标物体。候选目标的检测结果则可以包括候选目标的三维定位信息、三维定位信息的不确定度以及候选目标的分类置信度。其中,候选目标的三维定位信息可以是候选目标位于图像中位置的相关信息。三维定位信息的不确定度,是指候选目标的三维定位信息的不能肯定的程度,即不可靠的程度,其是用于衡量对应三维定位信息质量的指标。通常,不确定度越小,则表示对应的三维定位信息的可信赖性越高,而不确定度越大,则表示对应的三维定位信息的可信赖性越低。候选目标的分类置信度,是用于衡量候选目标分类质量的指标,当分类置信度越高时,则表示对候选目标分类的可信赖性越高,而当分类置信度越低时,则表示对候选目标分类的可信赖性越低。
在本实施例中,终端可以通过预先训练的三维目标检测模型对待检测图像进行目标检测,即将待检测图像输入预先训练的三维目标检测模型,从而得到模型输出的候选目标的三维定位信息、三维定位信息的不确定度以及候选目标的分类置信度。
步骤106,根据不确定度以及分类置信度确定候选目标的目标置信度。
其中,目标置信度用于表征候选目标所属类别和所在位置的综合可靠性。又由于不确定度是用于衡量候选目标对应的三维定位信息质量的指标,而分类置信度是用于衡量候选目标分类质量的指标,因此,终端可以根据该两种指标,确定能够表征候选目标所属类别和所在位置的综合可靠性的目标置信度。
上述三维目标检测方法中,终端通过获取待检测图像,并通过预先训练的三维目标检测模型对待检测图像进行目标检测,得到候选目标的检测结果,进而根据检测结果中的不确定度以及分类置信度确定候选目标的目标置信度,由于该目标置信度可以表征候选目标所属类别和所在位置的综合可靠性,因此,实现了对候选目标的可靠性预测,提高了模型的检测性能。
在一个实施例中,如图2所示,上述三维目标检测模型的生成方法可以包括如下步骤:
步骤202,获取待训练的三维目标检测模型。
其中,待训练的三维目标检测模型是用于目标检测的基础目标检测模型。在本实施例中,该待训练的三维目标检测模型包括用于预测目标的三维定位信息的第一分支、用于预测三维定位信息的不确定度的第二分支以及用于预测目标的分类置信度的第三分支。
步骤204,将样本图像输入待训练的三维目标检测模型进行目标检测,得到样本目标的检测结果。
其中,样本目标是对样本图像进行目标检测所识别到的样本物体。样本目标的检测结果则可以包括第一分支预测的样本目标的三维定位信息、第二分支预测的三维定位信息的不确定度以及第三分支预测的样本目标的分类置信度。
在本实施例中,终端通过将样本图像输入待训练的三维目标检测模型进行目标检测,从而得到模型通过第一分支预测的样本目标的三维定位信息、第二分支预测的三维定位信息的不确定度以及第三分支预测的样本目标的分类置信度。
步骤206,根据样本目标的检测结果,采用预设的不确定度回归损失函数和分类损失函数,对模型进行训练,直到收敛时得到训练后的三维目标检测模型。
其中,预设的不确定度回归损失函数和分类损失函数均是预先设置的用于模型训练以改善模型输出结果准确性的函数。
具体地,分类损失函数是用于分类算法中的损失函数,包括但不限于交叉熵损失、指数损失、均方损失等,其用于在模型训练过程中评价模型对检测的样本目标进行分类的准确性,进而根据该准确性调整模型参数,以改善模型分类的准确性。通常,该损失越小,则模型的分类准确性越高,而该损失越大,则模型的分类准确性越低。
不确定度回归损失函数则是用于定位算法中的损失函数,其用于在模型训练过程中评价模型对检测的样本目标定位的准确性,进而根据该准确性调整模型参数,以改善模型定位的准确性。通常,该损失越小,则模型的定位准确性越高,而该损失越大,则模型的定位准确性越低。
在本实施例中,终端可以根据上述步骤中得到的样本目标的检测结果,采用预设的不确定度回归损失函数和分类损失函数,对模型进行训练,直到收敛时得到训练后的三维目标检测模型。
具体地,终端采用检测结果中样本目标的三维定位信息、三维定位信息的不确定度以及预设的不确定度回归损失函数对第一分支和第二分支进行训练,并采用检测结果中样本目标的分类置信度和分类损失函数对第三分支进行训练,直到各分支收敛时得到训练后的三维目标检测模型。
上述实施例中,终端通过获取待训练的三维目标检测模型,并将样本图像输入待训练的三维目标检测模型进行目标检测,得到样本目标的检测结果,进而根据样本目标的检测结果,采用预设的不确定度回归损失函数和分类损失函数,对模型进行训练,直到收敛时得到训练后的三维目标检测模型。由于本实施例在模型训练时采用了不确定度回归损失函数,使得模型能够对定位的准确度进行评价,从而能够更好地改善模型定位的准确性。
在一个实施例中,上述第二分支可以通过两层卷积层实现,并采用平均值为第一目标值、标准差为第二目标值的高斯分布对卷积层进行初始化。其中,第一目标值可以是0,第二目标值可以是0.001。
具体地,在本实施例中,使用上述参数进行初始化后,通过将目标检测得到的目标的三维定位信息建模成拉普拉斯分布,即可以将模型进行目标检测得到的目标的三维定位信息构造成拉普拉斯方程的平均值,将模型预测的三维定位信息的不确定度构造成拉普拉斯方程的标准差,并利用拉普拉斯函数构造不确定度回归损失函数。即将预测的定位不确定度整合到回归损失函数中,并采用整合后的损失函数对第一分支和第二分支进行训练,从而使得模型不仅能为检测目标的分类提供不确定度,同时也可以为检测目标的定位提供不确定度,以增强检测目标的可靠性预测,提高模型的检测性能。
在一个实施例中,样本图像包括样本目标的三维定位信息标签。则预设的不确定度回归损失函数,可以根据样本图像中样本目标的三维定位信息标签、预测的样本图像中样本目标的三维定位信息、预测的三维定位信息的不确定度以及超参数确定。其中,超参数是指机器学习算法中的调优参数,一般通过人为设定,例如,正则化系数λ,决策树模型中树的深度等。
在一个实施例中,以下进一步说明三维目标检测模型的训练原理,如图3所示,其具体包括:对样本图像进行点云处理,其中,样本图像包括样本目标的三维定位信息标签。将处理后的点云首先通过体素化处理,即将点云分割成大小相等的规则的体素网格,对每个体素内采样数目上限为K的点,然后通过体素特征提取器对体素内的点进行体素特征提取,得到体素的三维特征表示。随后将三维体素特征输入3D骨干网络中进行特征提取,3D骨干网络由3D稀疏卷积层构成,处理后输出稀疏特征图,经过z轴上的压缩和密集化处理得到鸟瞰图视角下的2D密集特征图。将得到的密集特征图输入2D骨干网络继续进行特征提取,输出的特征经过检测头得到3D检测结果。
在本实施例中,检测头的输出包括三个分支,即用于预测目标的三维定位信息的第一分支、用于预测三维定位信息的不确定度的第二分支以及用于预测目标的分类置信度的第三分支。其中,第二分支通过两层卷积层实现,并采用平均值为0、标准差为0.001的高斯分布进行初始化。
具体地,第一分支输出样本图像中样本目标的三维定位信息(x,y,z,l,w,h,θ),其中,x、y和z分别为目标的中心点坐标,l、w和h分别为目标的长、宽、高,θ为目标的朝向角。第二分支则输出与三维定位信息(x,y,z,l,w,h,θ)对应的不确定度(σxyzlwhθ),其中,(σxyz)分别对应样本目标的中心点坐标x、y和z的不确定度,(σlwh)分别对应样本目标的长宽高即l、w和h的不确定度,σθ则对应样本目标的朝向角θ的不确定度。第三分支则输出样本目标的分类置信度。
然后,根据样本图像中样本目标的三维定位信息标签、预测的样本目标的三维定位信息以及预测的三维定位信息的不确定度,确定第一损失项,并根据预测的三维定位信息的不确定度以及超参数确定第二损失项,进而根据第一损失项和第二损失项,确定不确定度回归损失函数。
具体地,可以通过拉普拉斯模型构造不确定度回归损失函数,即将样本目标的三维定位信息建模成模型中的均值,将三维定位信息的不确定度建模成模型中的标准差。得到的不确定度回归损失函数具体可以包括:
Figure BDA0004010548300000091
其中,
Figure BDA0004010548300000092
表示第一损失项,log(σ)×log(t)表示第二损失项,进而计算第一损失项与第二损失项之和。具体地,L表示不确定度回归损失,ypred为第一分支预测的样本图像中样本目标的三维定位信息,ytrue为样本图像中样本目标的三维定位信息标签,log(σ)为第二分支预测的三维定位信息的不确定度,t为超参数,n为样本目标的三维定位信息的参数数量。例如,目标的三维定位信息通常包括(x,y,z,l,w,h,θ),其中,x、y和z分别为目标的中心点坐标,l、w和h分别为目标的长、宽、高,θ为目标的朝向角。而每一个三维定位信息分别具有对应的不确定度,例如,当目标的三维定位信息包括n个时,则可以得到每一个三维定位信息对应的第一损失项和第二损失项,进而对n个第一损失项与第二损失项求和,以得到不确定度回归损失函数L。
在训练阶段,采用上述不确定度回归损失函数和分类损失函数对模型进行训练,直到收敛时得到训练后的三维目标检测模型。从而使得训练后的模型不仅能为检测目标的分类提供不确定度,同时也可以为检测目标的定位提供不确定度,以增强检测目标的可靠性预测,提高模型的检测性能。
在一个实施例中,如图4所示,在步骤106中,根据不确定度以及分类置信度确定候选目标的目标置信度,具体可以包括:
步骤402,根据三维定位信息的不确定度以及预设的定位置信度,计算三维定位信息的目标定位置信度。
其中,目标定位置信度是用于表征候选目标所在位置的可靠性,也即候选目标的三维定位信息的可靠性。预设的定位置信度则可以是期望的定位置信度,如1,即表示对应目标的三维定位信息100%可靠。
由于三维定位信息的不确定度是指不能肯定的程度,即不可靠的程度。因此,终端可以根据三维定位信息的不确定度以及预设的定位置信度,计算三维定位信息的目标定位置信度,即将预设的定位置信度减去三维定位信息的不确定度,从而得到三维定位信息的目标定位置信度。
步骤404,获取目标定位置信度与分类置信度的乘积,将乘积确定为候选目标的目标置信度。
由于在传统技术中,仅通过分类置信度衡量候选目标的可靠性有失偏颇,因此,在本实施例中,终端通过获取上述计算的目标定位置信度与分类置信度的乘积,并将该乘积确定为候选目标的目标置信度,从而能够表征候选目标所属类别和所在位置的综合可靠性。
上述实施例中,终端根据三维定位信息的不确定度以及预设的定位置信度,计算三维定位信息的目标定位置信度,并获取目标定位置信度与分类置信度的乘积,将乘积确定为候选目标的目标置信度。由于该目标置信度综合了目标定位置信度与分类置信度,从而能够表征候选目标所属类别和所在位置的综合可靠性,进而能够提高模型的检测性能。
在一个实施例中,候选目标的三维定位信息包括候选目标的中心点坐标、候选目标的长、宽、高以及朝向角。三维定位信息的不确定度则包括候选目标的中心点坐标、候选目标的长、宽、高以及朝向角分别对应的不确定度。
如图5所示,在步骤402中,根据三维定位信息的不确定度以及预设的定位置信度,计算三维定位信息的目标定位置信度,具体可以包括:
步骤502,获取候选目标的中心点坐标、候选目标的长、宽、高以及朝向角分别对应的不确定度的平均值。
例如,若候选目标的三维定位信息为(x,y,z,l,w,h,θ),其对应的不确定度为(σxyzlwhθ),其中,x、y和z分别为候选目标的中心点坐标,l、w和h分别为候选目标的长、宽、高,θ为候选目标的朝向角。(σxyz)分别对应候选目标的中心点坐标x、y和z的不确定度,(σlwh)分别对应候选目标的长宽高即l、w和h的不确定度,σθ则对应候选目标的朝向角θ的不确定度。则终端可以计算σxyzlwhθ的平均值,即将σxyzlwhθ相加后求平均。
步骤504,计算预设的定位置信度与平均值的差值,将差值确定为三维定位信息的目标定位置信度。
具体地,终端通过计算预设的定位置信度与上述步骤得到的平均值的差值,从而将差值确定为三维定位信息的目标定位置信度。
上述实施例中,终端通过获取候选目标的中心点坐标、候选目标的长、宽、高以及朝向角分别对应的不确定度的平均值,计算预设的定位置信度与平均值的差值,并将差值确定为三维定位信息的目标定位置信度,从而实现了对三维定位信息的目标定位置信度的检测,提高了检测性能。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的三维目标检测方法的三维目标检测装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个三维目标检测装置实施例中的具体限定可以参见上文中对于三维目标检测方法的限定,在此不再赘述。
在一个实施例中,如图6所示,提供了一种三维目标检测装置,包括:待检测图像获取模块602、目标检测模块604和目标置信度确定模块606,其中:
待检测图像获取模块602,用于获取待检测图像;
目标检测模块604,用于通过预先训练的三维目标检测模型对所述待检测图像进行目标检测,得到候选目标的三维定位信息、所述三维定位信息的不确定度以及所述候选目标的分类置信度;
目标置信度确定模块606,用于根据所述不确定度以及所述分类置信度确定所述候选目标的目标置信度,所述目标置信度用于表征所述候选目标所属类别和所在位置的综合可靠性。
在一个实施例中,所述装置还包括三维目标检测模型的生成模块,用于获取待训练的三维目标检测模型,所述待训练的三维目标检测模型包括用于预测目标的三维定位信息的第一分支、用于预测所述三维定位信息的不确定度的第二分支以及用于预测所述目标的分类置信度的第三分支;将样本图像输入待训练的三维目标检测模型进行目标检测,得到所述第一分支预测的样本目标的三维定位信息、所述第二分支预测的所述三维定位信息的不确定度以及所述第三分支预测的所述样本目标的分类置信度;根据预测的样本目标的三维定位信息、所述三维定位信息的不确定度以及所述样本目标的分类置信度,采用预设的不确定度回归损失函数和分类损失函数,对所述第一分支、所述第二分支和所述第三分支进行训练,直到收敛时得到训练后的所述三维目标检测模型。
在一个实施例中,三维目标检测模型的生成模块还用于对第二分支采用平均值为第一目标值、标准差为第二目标值的高斯分布进行初始化。
在一个实施例中,所述样本图像包括所述样本目标的三维定位信息标签;三维目标检测模型的生成模块还用于根据所述样本图像中样本目标的三维定位信息标签、预测的所述样本图像中样本目标的三维定位信息、预测的所述三维定位信息的不确定度以及超参数确定不确定度回归损失函数。
在一个实施例中,所述装置还包括损失函数确定模块,用于:根据所述样本图像中所述样本目标的三维定位信息标签、预测的所述样本目标的三维定位信息以及预测的所述三维定位信息的不确定度,确定第一损失项;根据预测的所述三维定位信息的不确定度以及所述超参数确定第二损失项;根据所述第一损失项和所述第二损失项,确定所述不确定度回归损失函数。
在一个实施例中,目标置信度确定模块具体用于:根据所述三维定位信息的不确定度以及预设的定位置信度,计算所述三维定位信息的目标定位置信度;获取所述目标定位置信度与所述分类置信度的乘积,将所述乘积确定为所述候选目标的目标置信度。
在一个实施例中,所述候选目标的三维定位信息包括所述候选目标的中心点坐标、所述候选目标的长、宽、高以及朝向角;所述三维定位信息的不确定度包括所述候选目标的中心点坐标、所述候选目标的长、宽、高以及朝向角分别对应的不确定度;目标置信度确定模块还用于:获取所述候选目标的中心点坐标、所述候选目标的长、宽、高以及朝向角分别对应的不确定度的平均值;计算所述预设的定位置信度与所述平均值的差值,将所述差值确定为所述三维定位信息的目标定位置信度。
上述三维目标检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图7所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种三维目标检测方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取待检测图像;
通过预先训练的三维目标检测模型对所述待检测图像进行目标检测,得到候选目标的三维定位信息、所述三维定位信息的不确定度以及所述候选目标的分类置信度;
根据所述不确定度以及所述分类置信度确定所述候选目标的目标置信度,所述目标置信度用于表征所述候选目标所属类别和所在位置的综合可靠性。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取待训练的三维目标检测模型,所述待训练的三维目标检测模型包括用于预测目标的三维定位信息的第一分支、用于预测所述三维定位信息的不确定度的第二分支以及用于预测所述目标的分类置信度的第三分支;将样本图像输入待训练的三维目标检测模型进行目标检测,得到所述第一分支预测的样本目标的三维定位信息、所述第二分支预测的所述三维定位信息的不确定度以及所述第三分支预测的所述样本目标的分类置信度;根据预测的样本目标的三维定位信息、所述三维定位信息的不确定度以及所述样本目标的分类置信度,采用预设的不确定度回归损失函数和分类损失函数,对所述第一分支、所述第二分支和所述第三分支进行训练,直到收敛时得到训练后的所述三维目标检测模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:所述第二分支采用平均值为第一目标值、标准差为第二目标值的高斯分布进行初始化。
在一个实施例中,所述样本图像包括所述样本目标的三维定位信息标签;处理器执行计算机程序时还实现以下步骤:根据所述样本图像中样本目标的三维定位信息标签、预测的所述样本图像中样本目标的三维定位信息、预测的所述三维定位信息的不确定度以及超参数确定所述不确定度回归损失函数。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据所述三维定位信息的不确定度以及预设的定位置信度,计算所述三维定位信息的目标定位置信度;获取所述目标定位置信度与所述分类置信度的乘积,将所述乘积确定为所述候选目标的目标置信度。
在一个实施例中,所述候选目标的三维定位信息包括所述候选目标的中心点坐标、所述候选目标的长、宽、高以及朝向角;所述三维定位信息的不确定度包括所述候选目标的中心点坐标、所述候选目标的长、宽、高以及朝向角分别对应的不确定度;处理器执行计算机程序时还实现以下步骤:获取所述候选目标的中心点坐标、所述候选目标的长、宽、高以及朝向角分别对应的不确定度的平均值;计算所述预设的定位置信度与所述平均值的差值,将所述差值确定为所述三维定位信息的目标定位置信度。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待检测图像;
通过预先训练的三维目标检测模型对所述待检测图像进行目标检测,得到候选目标的三维定位信息、所述三维定位信息的不确定度以及所述候选目标的分类置信度;
根据所述不确定度以及所述分类置信度确定所述候选目标的目标置信度,所述目标置信度用于表征所述候选目标所属类别和所在位置的综合可靠性。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取待训练的三维目标检测模型,所述待训练的三维目标检测模型包括用于预测目标的三维定位信息的第一分支、用于预测所述三维定位信息的不确定度的第二分支以及用于预测所述目标的分类置信度的第三分支;将样本图像输入待训练的三维目标检测模型进行目标检测,得到所述第一分支预测的样本目标的三维定位信息、所述第二分支预测的所述三维定位信息的不确定度以及所述第三分支预测的所述样本目标的分类置信度;根据预测的样本目标的三维定位信息、所述三维定位信息的不确定度以及所述样本目标的分类置信度,采用预设的不确定度回归损失函数和分类损失函数,对所述第一分支、所述第二分支和所述第三分支进行训练,直到收敛时得到训练后的所述三维目标检测模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:所述第二分支采用平均值为第一目标值、标准差为第二目标值的高斯分布进行初始化。
在一个实施例中,所述样本图像包括所述样本目标的三维定位信息标签;计算机程序被处理器执行时还实现以下步骤:根据所述样本图像中样本目标的三维定位信息标签、预测的所述样本图像中样本目标的三维定位信息、预测的所述三维定位信息的不确定度以及超参数确定所述不确定度回归损失函数。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据所述三维定位信息的不确定度以及预设的定位置信度,计算所述三维定位信息的目标定位置信度;获取所述目标定位置信度与所述分类置信度的乘积,将所述乘积确定为所述候选目标的目标置信度。
在一个实施例中,所述候选目标的三维定位信息包括所述候选目标的中心点坐标、所述候选目标的长、宽、高以及朝向角;所述三维定位信息的不确定度包括所述候选目标的中心点坐标、所述候选目标的长、宽、高以及朝向角分别对应的不确定度;计算机程序被处理器执行时还实现以下步骤:获取所述候选目标的中心点坐标、所述候选目标的长、宽、高以及朝向角分别对应的不确定度的平均值;计算所述预设的定位置信度与所述平均值的差值,将所述差值确定为所述三维定位信息的目标定位置信度。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取待检测图像;
通过预先训练的三维目标检测模型对所述待检测图像进行目标检测,得到候选目标的三维定位信息、所述三维定位信息的不确定度以及所述候选目标的分类置信度;
根据所述不确定度以及所述分类置信度确定所述候选目标的目标置信度,所述目标置信度用于表征所述候选目标所属类别和所在位置的综合可靠性。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取待训练的三维目标检测模型,所述待训练的三维目标检测模型包括用于预测目标的三维定位信息的第一分支、用于预测所述三维定位信息的不确定度的第二分支以及用于预测所述目标的分类置信度的第三分支;将样本图像输入待训练的三维目标检测模型进行目标检测,得到所述第一分支预测的样本目标的三维定位信息、所述第二分支预测的所述三维定位信息的不确定度以及所述第三分支预测的所述样本目标的分类置信度;根据预测的样本目标的三维定位信息、所述三维定位信息的不确定度以及所述样本目标的分类置信度,采用预设的不确定度回归损失函数和分类损失函数,对所述第一分支、所述第二分支和所述第三分支进行训练,直到收敛时得到训练后的所述三维目标检测模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:所述第二分支采用平均值为第一目标值、标准差为第二目标值的高斯分布进行初始化。
在一个实施例中,所述样本图像包括所述样本目标的三维定位信息标签;计算机程序被处理器执行时还实现以下步骤:根据所述样本图像中样本目标的三维定位信息标签、预测的所述样本图像中样本目标的三维定位信息、预测的所述三维定位信息的不确定度以及超参数确定所述不确定度回归损失函数。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据所述三维定位信息的不确定度以及预设的定位置信度,计算所述三维定位信息的目标定位置信度;获取所述目标定位置信度与所述分类置信度的乘积,将所述乘积确定为所述候选目标的目标置信度。
在一个实施例中,所述候选目标的三维定位信息包括所述候选目标的中心点坐标、所述候选目标的长、宽、高以及朝向角;所述三维定位信息的不确定度包括所述候选目标的中心点坐标、所述候选目标的长、宽、高以及朝向角分别对应的不确定度;计算机程序被处理器执行时还实现以下步骤:获取所述候选目标的中心点坐标、所述候选目标的长、宽、高以及朝向角分别对应的不确定度的平均值;计算所述预设的定位置信度与所述平均值的差值,将所述差值确定为所述三维定位信息的目标定位置信度。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种三维目标检测方法,其特征在于,所述方法包括:
获取待检测图像;
通过预先训练的三维目标检测模型对所述待检测图像进行目标检测,得到候选目标的三维定位信息、所述三维定位信息的不确定度以及所述候选目标的分类置信度;
根据所述不确定度以及所述分类置信度确定所述候选目标的目标置信度,所述目标置信度用于表征所述候选目标所属类别和所在位置的综合可靠性。
2.根据权利要求1所述的方法,其特征在于,所述三维目标检测模型的生成方法包括:
获取待训练的三维目标检测模型,所述待训练的三维目标检测模型包括用于预测目标的三维定位信息的第一分支、用于预测所述三维定位信息的不确定度的第二分支以及用于预测所述目标的分类置信度的第三分支;
将样本图像输入待训练的三维目标检测模型进行目标检测,得到所述第一分支预测的样本目标的三维定位信息、所述第二分支预测的所述三维定位信息的不确定度以及所述第三分支预测的所述样本目标的分类置信度;
根据预测的样本目标的三维定位信息、所述三维定位信息的不确定度以及所述样本目标的分类置信度,采用预设的不确定度回归损失函数和分类损失函数,对所述第一分支、所述第二分支和所述第三分支进行训练,直到收敛时得到训练后的所述三维目标检测模型。
3.根据权利要求2所述的方法,其特征在于,所述第二分支采用平均值为第一目标值、标准差为第二目标值的高斯分布进行初始化。
4.根据权利要求2所述的方法,其特征在于,所述样本图像包括所述样本目标的三维定位信息标签;所述预设的不确定度回归损失函数,根据所述样本图像中样本目标的三维定位信息标签、预测的所述样本图像中样本目标的三维定位信息、预测的所述三维定位信息的不确定度以及超参数确定。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
根据所述样本图像中所述样本目标的三维定位信息标签、预测的所述样本目标的三维定位信息以及预测的所述三维定位信息的不确定度,确定第一损失项;
根据预测的所述三维定位信息的不确定度以及所述超参数确定第二损失项;
根据所述第一损失项和所述第二损失项,确定所述不确定度回归损失函数。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述根据所述不确定度以及所述分类置信度确定所述候选目标的目标置信度,包括:
根据所述三维定位信息的不确定度以及预设的定位置信度,计算所述三维定位信息的目标定位置信度;
获取所述目标定位置信度与所述分类置信度的乘积,将所述乘积确定为所述候选目标的目标置信度。
7.根据权利要求6所述的方法,其特征在于,所述候选目标的三维定位信息包括所述候选目标的中心点坐标、所述候选目标的长、宽、高以及朝向角;
所述三维定位信息的不确定度包括所述候选目标的中心点坐标、所述候选目标的长、宽、高以及朝向角分别对应的不确定度;
所述根据所述三维定位信息的不确定度以及预设的定位置信度,计算所述三维定位信息的目标定位置信度,包括:
获取所述候选目标的中心点坐标、所述候选目标的长、宽、高以及朝向角分别对应的不确定度的平均值;
计算所述预设的定位置信度与所述平均值的差值,将所述差值确定为所述三维定位信息的目标定位置信度。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202211647892.5A 2022-12-21 2022-12-21 三维目标检测方法、装置、计算机设备和存储介质 Pending CN116206302A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211647892.5A CN116206302A (zh) 2022-12-21 2022-12-21 三维目标检测方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211647892.5A CN116206302A (zh) 2022-12-21 2022-12-21 三维目标检测方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN116206302A true CN116206302A (zh) 2023-06-02

Family

ID=86510377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211647892.5A Pending CN116206302A (zh) 2022-12-21 2022-12-21 三维目标检测方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN116206302A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117173257A (zh) * 2023-11-02 2023-12-05 安徽蔚来智驾科技有限公司 3d目标检测及其标定参数增强方法、电子设备、介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117173257A (zh) * 2023-11-02 2023-12-05 安徽蔚来智驾科技有限公司 3d目标检测及其标定参数增强方法、电子设备、介质
CN117173257B (zh) * 2023-11-02 2024-05-24 安徽蔚来智驾科技有限公司 3d目标检测及其标定参数增强方法、电子设备、介质

Similar Documents

Publication Publication Date Title
Xie et al. Multilevel cloud detection in remote sensing images based on deep learning
CN109815770B (zh) 二维码检测方法、装置及系统
CN107784288B (zh) 一种基于深度神经网络的迭代定位式人脸检测方法
CN111028327B (zh) 一种三维点云的处理方法、装置及设备
CN110991444B (zh) 面向复杂场景的车牌识别方法及装置
CN111292377B (zh) 目标检测方法、装置、计算机设备和存储介质
CN112927353A (zh) 基于二维目标检测和模型对齐的三维场景重建方法、存储介质及终端
CN113705297A (zh) 检测模型的训练方法、装置、计算机设备和存储介质
CN115457492A (zh) 目标检测方法、装置、计算机设备及存储介质
CN112884820A (zh) 一种影像初始配准及神经网络的训练方法、装置和设备
CN111488810A (zh) 人脸识别方法、装置、终端设备及计算机可读介质
CN116206302A (zh) 三维目标检测方法、装置、计算机设备和存储介质
CN110147460B (zh) 基于卷积神经网络与多视角图的三维模型检索方法及装置
CN115082498A (zh) 一种机器人抓取位姿估计方法、装置、设备及存储介质
Srivastava et al. Drought stress classification using 3D plant models
CN116704511A (zh) 设备清单文字识别方法和装置
CN117036425A (zh) 点云分级决策配准方法、系统、设备及介质
CN117011274A (zh) 自动化玻璃瓶检测系统及其方法
CN116977895A (zh) 用于通用相机镜头的污渍检测方法、装置及计算机设备
CN115311653A (zh) 一种3d目标检测方法、装置、终端和存储介质
Li et al. Research on hybrid information recognition algorithm and quality of golf swing
CN113569600A (zh) 物体重识别的方法、装置、电子设备及存储介质
CN110400313B (zh) 一种核磁共振影像的软组织分离方法和分离系统
Lin et al. Hausdorff point convolution with geometric priors
CN114821013B (zh) 基于点云数据的基元检测方法、装置和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination