CN113887407A - 用于无人车的3d目标检测方法、装置和计算可读存储介质 - Google Patents
用于无人车的3d目标检测方法、装置和计算可读存储介质 Download PDFInfo
- Publication number
- CN113887407A CN113887407A CN202111158130.4A CN202111158130A CN113887407A CN 113887407 A CN113887407 A CN 113887407A CN 202111158130 A CN202111158130 A CN 202111158130A CN 113887407 A CN113887407 A CN 113887407A
- Authority
- CN
- China
- Prior art keywords
- target
- dimensional
- branch network
- regression
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种用于无人车的3D目标检测方法、装置和计算可读存储介质。该方法包括:根据无人车的单目摄像头获取原始图像,得到二维预处理图像;通过预先训练的目标检测模型,得到原始图像中目标检测结果;通过目标检测结果中预设分类分支网络中多个目标的置信度,确定在预设分类分支网络中多个目标的目标位置;根据目标位置,确定在预设回归分支网络中与目标位置对应的特征向量;将特征向量解析之后,得到在原始图像中多个目标的三维信息,其中,三维信息至少包括如下之一:目标的深度信息、目标尺寸和目标航向角信息。本申请提供的方案,能够提升后续估算目标的三维信息时的精确性。
Description
技术领域
本申请涉及智能驾驶技术领域,尤其涉及用于无人车的3D目标检测方法、装置和计算可读存储介质。
背景技术
在智能驾驶领域,基于视觉的单目3D检测仍然属于一个极具挑战性的任务。究其原因,空间目标向图像上投影,即三维坐标向二维平面投影,目标的三维信息会丢失一个维度,从而导致对目标的位置信息的估计不够准确。相关技术中,是通过卷积神经网络直接逻辑回归出目标在图像中的位姿信息(位置和姿态)。然而,由于卷积神经网络的卷积操作对目标在图像中位置信息不够敏感,因而,最后所反算出的目标的空间位置信息精度欠缺。
发明内容
为解决或部分解决相关技术中存在的问题,本申请提供一种用于无人车的3D目标检测方法、装置和计算可读存储介质,能够提升目标3D信息的检测精度。
本申请第一方面提供一种用于无人车的3D目标检测方法,包括:
根据所述无人车的单目摄像头获取原始图像;
通过预先训练的目标检测模型,得到所述原始图像中目标检测结果,所述目标检测模型至少包括:预设分类分支网络和预设回归分支网络,所述预设分类分支网络用于获得目标在二维图像中的位置信息,所述预设回归分支网络中增设CoordConv卷积模块,用以获得目标的三维信息;
通过所述目标检测结果中所述预设分类分支网络中多个目标的置信度,确定在所述预设分类分支网络中多个目标的目标位置;
根据所述目标位置,确定在所述预设回归分支网络中与所述目标位置对应的特征向量;
将所述特征向量解析之后,得到在所述原始图像中多个目标的三维信息,所述三维信息至少包括如下之一:所述目标的深度信息、目标尺寸和目标航向角信息。
本申请第二方面提供一种用于无人车的3D目标检测装置,包括:
第一获取模块,用于根据所述无人车的单目摄像头获取原始图像;
第二获取模块,用于通过预先训练的目标检测模型,得到所述原始图像中目标检测结果,所述目标检测模型至少包括:预设分类分支网络和预设回归分支网络,所述预设分类分支网络用于获得目标在二维图像中的位置信息,所述预设回归分支网络中增设CoordConv卷积模块,用以获得目标的三维信息;
确定模块,用于通过所述目标检测结果中所述预设分类分支网络中多个目标的置信度,确定在所述预设分类分支网络中多个目标的目标位置;
特征提取模块,用于根据所述目标位置,确定在所述预设回归分支网络中与所述目标位置对应的特征向量;
估算模块,用于将所述特征向量解析之后,得到在所述原始图像中多个目标的三维信息,所述三维信息至少包括如下之一:所述目标的深度信息、目标尺寸和目标航向角信息。
本申请第三方面提供一种电子设备,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上所述的方法。
本申请第四方面提供一种计算机可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上所述的方法。
本申请提供的技术方案可以包括以下有益效果:通过原始图像中目标检测结果中预设分类分支网络中多个目标的置信度,确定了在预设分类分支网络中多个目标的目标位置,改变了在回归时所进行的卷积操作的平移等变性,使得卷积核知晓自己的位置,从而提升了后续估算目标的3D信息时的精确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
通过结合附图对本申请示例性实施方式进行更详细地描述,本申请的上述以及其它目的、特征和优势将变得更加明显,其中,在本申请示例性实施方式中,相同的参考标号通常代表相同部件。
图1是本申请实施例示出的用于无人车的3D目标检测方法的流程示意图;
图2是本申请实施例示出的用于无人车的3D目标检测装置的结构示意图;
图3是本申请实施例示出的电子设备的结构示意图;
图4是本申请实施例示出的目标检测模型的结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的实施方式。虽然附图中显示了本申请的实施方式,然而应该理解,可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本申请更加透彻和完整,并且能够将本申请的范围完整地传达给本领域的技术人员。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语“第一”、“第二”、“第三”等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在智能驾驶领域,检测目标三维信息的相关技术是通过卷积神经网络直接逻辑回归出目标在图像中的位姿信息(位置和姿态)。然而,由于卷积神经网络的卷积操作对目标在图像中位置信息不够敏感,因而,最后所反算出的目标的空间位置信息精度欠缺。
针对上述问题,本申请实施例提供一种用于无人车的3D目标检测方法,能够提升目标3D信息的检测精度。
以下结合附图详细描述本申请实施例的技术方案。
参见图1,图1是本申请实施例示出的用于无人车的3D目标检测方法的流程示意图,该方法主要包括步骤S101至步骤S105,说明如下:
步骤S101:根据无人车的单目摄像头获取原始图像。
在本申请实施例中,无人车即无人驾驶车辆、智能驾驶车辆或自动驾驶车辆。无人车的一个特点是安装有各种视觉设备,例如单目摄像头,因此,可以根据无人车的单目摄像头获取原始图像,原始图像中可能包含需要检测的目标。为了便于后续目标检测模型的处理,进一步可以对单目摄像头获取的原始图像进行分辨率的处理,得到二维预处理图像。具体是将原始图像(例如分辨率为720p)压缩为960*640的RGB图片,输入至深层聚合(DeepLayer Aggregation,DLA)网络。作为主干网络的DLA采用了anchor free算法,因此,DLA网络对960*640的RGB图片进行两次的下采样,例如,通过池化层进行池化,输出尺寸为64*160*240的二维预处理图像。需要说明的是,上述二维预处理图像的尺寸中,64表示通道数。
步骤S102:通过预先训练的目标检测模型,得到原始图像中目标检测结果,其中,预先训练的目标检测模型至少包括预设分类分支网络和预设回归分支网络,预设分类分支网络用于获得目标在二维图像中的位置信息,预设回归分支网络中增设CoordConv卷积模块,用以获得目标的三维信息。
如图4所示,是本申请实施例提供的目标检测模型示意图,其中包括主干网络(basebone net),主干网络可以是前述实施例提及的DLA网络。由于在目标检测领域,anchor free算法主要基于主干网络以及两个分支网络即分类网络和回归网络的架构,其中,分类网络用于识别图像中是否存在某个类别的目标,属于对问题的定性分析,其输出值为离散的值,而回归网络是在识别图像中存在某个类别的目标之后,可以对目标的位姿和大小等三维信息进行定量计算,其输出值为连续的值。因此,图4示例的目标检测模型除了包括主干网络(basebone net)之外,还包括预设分类分支网络和预设回归分支网络。从DLA主干网络输出的二维预处理图像输入至预设分类分支网络和预设回归分支网络。需要说明的是,附图4的目标检测模型为经过预先训练的目标检测模型。通过该预先训练的目标检测模型即主干网络、预设分类分支网络和预设回归分支网络,可以得到原始图像中目标检测结果。所谓原始图像中目标检测结果,可以认为是对无人车周边环境检测结果的一种客观反映,至于环境中的物体是否为目标,需要进行置信度的分析才能进一步确定。
步骤S103:通过目标检测结果中预设分类分支网络中多个目标的置信度,确定在预设分类分支网络中多个目标的目标位置。
如前所述,原始图像中目标检测结果仅仅是对无人车周边环境检测结果的一种客观反映,至于其中的物体是否为目标,尚需进行置信度的分析才能进一步确定。目标的置信度即检测结果中某个物体是待检测目标的可信程度,只有置信度超过一定值的物体才能确定是目标。具体地,步骤S103的实现可以是:采用所述预设分类分支网络对所述主干网络输出的二维预处理图像进行至少一次卷积操作,生成目标位置热力图,其中,目标位置热力图中每个目标的热力值正比于每个目标在预设分类分支网络中的置信度,比较每个目标在预设分类分支网络中的置信度与预设阈值,将置信度大于预设阈值的多个目标的位置确定为多个目标的目标位置。上述实施例中,目标位置热力图可以是尺寸为C*160*240的图像,此处,C为待识别目标的类别数,换言之,目标位置热力图的二维尺寸和DLA网络输出的二维预处理图像的二维尺寸相同,区别在于数量、深度或者层数。至于生成目标位置热力图的方法可以是类激活映射(Class Activation Map,CAM)方法、加权梯度类激活映射(Grad-CAM)方法或Grad-CAM++方法等。以在Grad-CAM方法为例,上述生成目标位置热力图可以包括:在分类网络的最后一层卷积层输出m个特征图后,对于m个特征图中任意一个特征图FPi,基于一个比对结果,计算特征图FPi中各像素的梯度,并基于计算的各像素的梯度,确定特征图FPi的总梯度。特征图FPi的总梯度用于反映特征图FPi的敏感度,或者说,用于反映特征图FPi所对应区域的敏感度。将对应于m个特征图中各特征图的总梯度作为其权重,对各特征图进行加权求和,得到若干热力值。将若干热力值各自映射为对应的颜色值,并基于映射得到的颜色值,绘制映射图。将映射图调整到与二维预处理图像相同大小后,叠加到二维预处理图像中,得到目标位置热力图。目标位置热力图示出二维预处理图像中各个区域对于前述比对结果的敏感度,或者说,各个区域对于产生前述比对结果的影响程度。无论是敏感度还是影响程度,目标位置热力图中每个位置的热力值正比于每个目标在分类算法中的置信度,即热力值越大(根据热力值与颜色值的映射关系,热力值越大,对应颜色越醒目),则表示该目标在预设分类分支网络中的置信度越高。
需要说明的是,目标位置热力图中每个目标在预设分类分支网络中的置信度,其实际为一个归一化评分值,范围在[0,1]之间,所采用归一化方法具体可以是max-min归一化方法,即,目标位置热力图中任意一个位置的归一化评分值其中,X是目标原始的评分值,Xmax和Xmin分别是目标位置热力图中所有位置原始的最大评分值和最小评分值。例如,目标位置热力图中包含A、B、C、D、E和F六个目标,每个目标原始的评分值分别为85、78、98、94、90和96,其中的最大评分值和最小评分值分别为98和78,则对A、B、C、D、E和F六个目标的评分值归一化后,分别得到该六个目标的归一化评分值为100%*(85-78)/(98-78)=35%、100%*(78-78)/(98-78)=0、100%*(98-78)/(98-78)=100%、100%*(94-78)/(98-78)=80%、100%*(90-78)/(98-78)=60%和100%*(96-78)/(98-78)=90%。具体的归一化算法可以由神经网络的softmax分类器执行。
在计算出每个目标在预设分类分支网络中的置信度后,比较每个目标在预设分类分支网络中的置信度与预设阈值,将在预设分类分支网络中的置信度大于预设阈值的多个目标的位置确定为该多个目标的目标位置。例如,假设预设阈值为70%,以上述实施例目标位置热力图中包含的A、B、C、D、E和F六个目标为例,A、B、C、D、E和F六个目标的归一化评分值分别为35%、0、100%、80%、60%和90%。由于只有C、D和F三个目标的归一化评分值大于70%,因此,最终确定C、D和F才是真正需要检测的目标,从而获取C、D和F在二维预处理图像中的位置。
步骤S104:根据目标位置,确定在预设回归分支网络中与目标位置对应的特征向量。
上述实施例步骤S104的实现可以是:在预设回归分支网络对二维预处理图像进行卷积操作过程中增添两个通道,回归得到回归特征图,从该回归特征图提取回归特征图上与目标位置对应的特征向量,其中,两个通道分别包含初次特征图上特征点的横坐标和纵坐标,初次特征图为预设回归分支网络在初次对二维预处理图像进行卷积操作所得特征图。
如前所述,预设回归分支网络的主要任务是对目标的位姿和大小等3D信息进行定量计算,其输出值为连续的值,因此,为了最终得到多个目标的3D信息,需要事先通过预设回归分支网络得到回归特征图。对于传统的卷积神经网络(Convolutional NeuralNetwork,CNN),虽然具有平移等变性的优秀属性,但在目标检测等涉及坐标建模的任务上,该优势反而成为了缺陷,即在识别目标的位置上的精度较差。因此,在本申请实施例中,在预设回归分支网络对二维预处理图像进行卷积操作过程中增添两个通道;由于该两个通道分别包含初次特征图上特征点的横坐标和纵坐标,改变了在卷积操作的平移等变性,使得卷积核知晓自己的位置,从而在后续估算目标的三维信息时能够提升精确性。作为本申请一个实施例,上述在预设回归分支网络对二维预处理图像进行卷积操作过程中增添两个通道,回归得到回归特征图的实现可通过如下步骤S1041至步骤S1043实现:
步骤S1041:通过预设回归分支网络对二维预处理图像进行初次卷积操作,得到初次特征图。
以前述主干网络输出的二维预处理图像的尺寸是64*160*240为例。由于二维预处理图像的通道为64,因此,在预设回归分支网络对二维预处理图像进行初次卷积操作时,选用的卷积核的深度为64,例如,选用64*3*3*64的卷积核,输出的初次特征图尺寸为64*160*240。
步骤S1042:在初次特征图上增添所述两个通道后,预设回归分支网络对增添两个通道后的初次特征图再次进行卷积操作,得到第二特征图。
当初次特征图尺寸为64*160*240时,在初次特征图上增添两个通道后,增添两个通道后的初次特征图为66*160*240,即通道数变为66。需要说明的是,此处增加的两个通道分别包含的初次特征图上特征点的横坐标和纵坐标为归一化的横坐标和纵坐标,即横坐标或纵坐标的值在[0,1]之间。至于归一化的方法,可以是z-score归一化或min-max归一化,本申请对此并不限制。由于通道后的初次特征图,其通道数变为66,因此,在对增添两个通道后的初次特征图再次进行卷积操作时,卷积核的深度也应为66,例如,可以选用66*3*3*64的卷积核对增添两个通道后的初次特征图再次进行卷积操作,得到尺寸为64*160*240的第二特征图。
步骤S1043:对第二特征图进行至少两次卷积操作,得到回归特征图。
例如,在对尺寸为64*160*240的第二特征图经过至少两次卷积操作后,得到尺寸为8*160*240的回归特征图。需要说明的是,最后得到的回归特征图,尽管通道数相对于前述实施例的目标位置热力图有所变化(目标位置热力图的通道数或者深度为待识别目标的类别数C),但在二维方向上则是一致的。例如,前述实施例生成的目标位置热力图尺寸为C*160*240,而经步骤S1043最后得到的回归特征图尺寸为8*160*240,在二维方向上两者没有变化即为160*240。
上述实施例中,从该回归特征图提取回归特征图上与目标位置对应的特征向量可以是对于回归特征图上与目标位置对应的特征向量,均提取一个n维特征向量,其中,n为不小于8的自然数。回归特征图包括一系列的特征点(特征点是回归特征图对物体的抽象化,而物体可能是待检测目标),每个特征点的位置信息是已知的,通过目标检测结果中预设分类分支网络中多个目标的置信度,确定在预设分类分支网络中多个目标的目标位置,而目标位置热力图与回归特征图在二维方向上两者大小一致。因此,根据目标位置热力图上多个目标的位置,可以获知回归特征图上与该多个目标对应的特征点,从而能够从该回归特征图提取回归特征图上与目标位置对应的特征向量,具体方法是对于回归特征图上与目标位置对应的特征向量,均提取一个n维特征向量,从而得到K个n维特征向量或者K*n阶矩阵,此处,K是多个目标包含的目标的数量,n为不小于8的自然数。
步骤S105:将回归特征图上与目标位置对应的特征向量解析之后,得到在原始图像中多个目标的三维信息,其中,三维信息至少包括如下之一:目标的深度信息、目标尺寸和目标航向角信息。
在本申请实施例中,目标的三维信息主要包括目标在图像中的深度值、目标在三维空间的位置信息、目标的三维尺寸即长宽高以及目标的偏航角等。具体而言,以下以n是8即对于回归特征图上与多个目标中每个目标的位置对应的特征点,均提取一个8维特征向量为例,结合步骤S1051至步骤S1054,说明将回归特征图上与目标位置对应的特征向量解析之后,得到在原始图像中多个目标的三维信息的技术方案:
步骤S1051:对于多个目标中任意一个目标Ok对应特征点的8维特征向量,使用8维特征向量中第1维度的分量估算目标Ok的深度值。
目标Ok的深度值反映了目标Ok至图像拍摄设备,例如相机的距离。本申请实施例中,估算目标Ok的深度值的方法是读取超参数a和b的值,然后,根据公式d=ax1+b计算目标Ok的深度值d,其中,x1为8维特征向量中第1维度分量。需要说明的是,超参数a和b的值为经验值,可以根据实际需要设置。
步骤S1052:使用8维特征向量中第2维度和第3维度的分量,并结合视觉设备的内参估算目标Ok在三维空间的位置信息。
目标Ok在三维空间的位置信息也即目标Ok的x轴坐标xc、y轴坐标yc和z轴坐标zc。在本申请实施例中,视觉设备,例如相机的内参是一个3阶方阵,该方阵在设备出厂时已经标定完成,作为配置参数保存为配置文件。具体而言,步骤S1052的实现可以是读取视觉设备的内参矩阵 其中,fx和fy分别是在视觉设备的焦距为f的成像平面,x轴方向和y轴方向上每f的范围内包含的像素数量,cx和cy是主点在成像面的实际位置坐标;获取目标Ok对应特征点在初次特征图上的横坐标i和纵坐标j;根据公式计算目标Ok在三维空间的位置信息xc、yc和zc,其中,xc、yc和zc分别为目标Ok的x、y和z轴坐标,A-1为视觉设备的内参矩阵A的逆矩阵,x2和x3分别为8维特征向量中第2维度和第3维度的分量。
步骤S1053:使用8维特征向量中第4维度、第5维度和第6维度的分量估算目标Ok的三维尺寸。
具体地,使用8维特征向量中第4维度、第5维度和第6维度的分量估算目标Ok的三维尺寸可以是:锚定基准长度Ls、基准宽度Ws和基准高度Hs;分别根据公式公式和公式计算目标Ok的长度L、宽度W和高度H,其中,x4、x5和x6分别为8维特征向量中第4维度、第5维度和第6维度的分量,e为自然指数。需要说明的是,上述实施例中,基准长度Ls、基准宽度Ws和基准高度Hs是在训练目标检测模型时使用的训练集上,目标Ok的长度、宽度和高度的统计值,一般取与目标Ok为同一类型的n个目标的均值。
步骤S1054:使用8维特征向量中第7维度和第8维度的分量估算目标Ok的偏航角。
具体地,步骤S1054的实现可以是获取目标Ok的深度值d和在三维空间的位置信息xc即目标的x轴坐标;根据公式roty=arctan(x7/x8)+arctan(d/xc),计算目标Ok的偏航角roty,其中,x7和x8分别为8维特征向量中第7维度和第8维度的分量,目标Ok的深度值d和在三维空间的位置信息xc已在前述实施例中计算得到。
从上述图1示例的用于无人车的3D目标检测方法可知,通过原始图像中目标检测结果中预设分类分支网络中多个目标的置信度,确定了在预设分类分支网络中多个目标的目标位置,即由于在预设回归分支网络对二维预处理图像进行卷积操作过程中增添两个通道,回归得到回归特征图,由于增添的两个通道包含初次特征图上特征点的横坐标和纵坐标,改变了在回归时所进行的卷积操作的平移等变性,使得卷积核知晓自己的位置,从而提升了后续估算目标的三维信息时的精确性。
与前述应用功能实现方法实施例相对应,本申请还提供了一种用于无人车的3D目标检测装置、电子设备及相应的实施例。
参见图2,是本申请实施例示出的用于无人车的3D目标检测装置的结构示意图。为了便于说明,仅示出了与本申请实施例相关的部分。图2示例的用于无人车的3D目标检测装置主要包括第一获取模块201、第二获取模块202、确定模块203、特征提取模块204和估算模块205,其中:
第一获取模块201,用于根据所述无人车的单目摄像头获取原始图像;
第二获取模块202,用于通过预先训练的目标检测模型,得到原始图像中目标检测结果,其中,目标检测模型至少包括:预设分类分支网络和预设回归分支网络,预设分类分支网络用于获得目标在二维图像中的位置信息,预设回归分支网络中增设CoordConv卷积模块,用以获得目标的三维信息;
确定模块203,用于通过目标检测结果中预设分类分支网络中多个目标的置信度,确定在预设分类分支网络中多个目标的目标位置;
特征提取模块204,用于根据目标位置,确定在预设回归分支网络中与所述目标位置对应的特征向量;
估算模块205,用于将特征向量解析之后,得到在原始图像中多个目标的三维信息,其中,三维信息至少包括如下之一:目标的深度信息、目标尺寸和目标航向角信息。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不再做详细阐述说明。
可选地,图2示例的确定模块203可以包括生成单元和比较单元,其中:
生成单元,用于采用预设分类分支网络对主干网络输出的二维预处理图像进行至少一次卷积操作,生成目标位置热力图,其中,目标位置热力图中每个目标的热力值正比于每个目标在预设分类分支网络中的置信度;
比较单元,用于比较每个目标在预设分类分支网络中的置信度与预设阈值,将置信度大于预设阈值的多个目标的位置确定为多个目标的目标位置。
可选地,图2示例的特征提取模块203可以包括回归单元和提取单元,其中:
回归单元,用于在预设回归分支网络对二维预处理图像进行卷积操作过程中增添两个通道,回归得到回归特征图,其中,两个通道分别包含初次特征图上特征点的横坐标和纵坐标,初次特征图为预设回归分支网络在初次对二维预处理图像进行卷积操作所得特征图;
提取单元,用于从回归特征图提取回归特征图上与目标位置对应的特征向量。
可选地,上述实施例的回归单元可以包括第一卷积操作单元、第二卷积操作单元和第三卷积操作单元,其中:
第一卷积操作单元,用于通过预设回归分支网络对二维预处理图像进行初次卷积操作,得到初次特征图;
第二卷积操作单元,用于在初次特征图上增添两个通道后,预设回归分支网络对增添两个通道后的初次特征图再次进行卷积操作,得到第二特征图;
第三卷积操作单元,用于对第二特征图进行至少两次卷积操作,得到回归特征图。
可选地,图2示例的特征提取模块204具体用于对于回归特征图上与目标位置对应的特征向量,均提取一个n维特征向量,其中,n为不小于8的自然数。
可选地,图2示例的估算模块205可以包括深度值估算单元、位置估算单元、尺寸估算单元和偏航角估算单元,其中:
深度值估算单元,用于对于多个目标中任意一个目标Ok对应特征点的8维特征向量,使用8维特征向量中第1维度的分量估算目标Ok的深度值;
位置估算单元,用于使用8维特征向量中第2维度和第3维度的分量,并结合视觉设备的内参估算目标Ok在三维空间的位置信息;
尺寸估算单元,用于使用8维特征向量中第4维度、第5维度和第6维度的分量估算目标Ok的三维尺寸;
偏航角估算单元,用于使用8维特征向量中第7维度和第8维度的分量估算目标Ok的偏航角。
可选地,上述示例的深度值估算单元可以包括超参数读取单元和第一计算单元,其中:
超参数读取单元,用于读取超参数a和b的值;
第一计算单元,用于根据公式d=ax1+b计算目标Ok的深度值d,其中,x1为第1维度分量。
可选地,上述示例的位置估算单元可以包括内参矩阵读取单元、坐标获取单元和第二计算单元,其中:
坐标获取单元,用于获取目标Ok对应特征点在初次特征图上的横坐标i和纵坐标j;
第二计算单元,用于根据公式计算目标Ok在三维空间的位置信息xc、yc和zc,其中,xc、yc和zc分别为目标Ok的x、y和z轴坐标,A-1为视觉设备的内参矩阵A的逆矩阵,x2和x3分别为8维特征向量中第2维度和第3维度的分量。
可选地,上述示例的尺寸估算单元可以包括锚定单元和第三计算单元,其中:
锚定单元,用于锚定基准长度Ls、基准宽度Ws和基准高度Hs;
可选地,上述示例的偏航角估算单元可以包括位置信息读取单元和第四计算单元,其中:
位置信息读取单元,用于获取目标Ok的深度值d和在三维空间的位置信息xc;
第四计算单元,用于根据公式roty=arctan(x7/x8)+arctan(d/xc),计算目标Ok的偏航角roty,其中,x7和x8分别为8维特征向量中第7维度和第8维度的分量。
图3是本申请实施例示出的电子设备的结构示意图。
参见图3,电子设备300包括存储器310和处理器320。
处理器320可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器310可以包括各种类型的存储单元,例如系统内存、只读存储器(ROM)和永久存储装置。其中,ROM可以存储处理器320或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器310可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(例如DRAM,SRAM,SDRAM,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器310可以包括可读和/或写的可移除的存储设备,例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM,双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等)、磁性软盘等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
存储器310上存储有可执行代码,当可执行代码被处理器320处理时,可以使处理器320执行上文述及的方法中的部分或全部。
此外,根据本申请的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本申请的上述方法中部分或全部步骤的计算机程序代码指令。
或者,本申请还可以实施为一种计算机可读存储介质(或非暂时性机器可读存储介质或机器可读存储介质),其上存储有可执行代码(或计算机程序或计算机指令代码),当可执行代码(或计算机程序或计算机指令代码)被电子设备(或服务器等)的处理器执行时,使处理器执行根据本申请的上述方法的各个步骤的部分或全部。
以上已经描述了本申请的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其他普通技术人员能理解本文披露的各实施例。
Claims (10)
1.一种用于无人车的3D目标检测方法,其特征在于,包括:
根据所述无人车的单目摄像头获取原始图像;
通过预先训练的目标检测模型,得到所述原始图像中目标检测结果,所述目标检测模型至少包括预设分类分支网络和预设回归分支网络,所述预设分类分支网络用于获得目标在二维图像中的位置信息,所述预设回归分支网络中增设CoordConv卷积模块,用以获得目标的三维信息;
通过所述目标检测结果中所述预设分类分支网络中多个目标的置信度,确定在所述预设分类分支网络中多个目标的目标位置;
根据所述目标位置,确定在所述预设回归分支网络中与所述目标位置对应的特征向量;
将所述特征向量解析之后,得到在所述原始图像中多个目标的三维信息,所述三维信息至少包括如下之一:所述目标的深度信息、目标尺寸和目标航向角信息。
2.根据权利要求1所述的用于无人车的3D目标检测方法,其特征在于,所述目标检测模型还包括主干网络,所述通过所述目标检测结果中所述预设分类分支网络中多个目标的置信度,确定在所述预设分类分支网络中多个目标的目标位置,包括:
采用所述预设分类分支网络对所述主干网络输出的二维预处理图像进行至少一次卷积操作,生成目标位置热力图,所述目标位置热力图中每个目标的热力值正比于所述每个目标在所述预设分类分支网络中的置信度;
比较所述每个目标在所述预设分类分支网络中的置信度与预设阈值,将所述置信度大于所述预设阈值的多个目标的位置确定为所述多个目标的目标位置。
3.根据权利要求2所述的用于无人车的3D目标检测方法,其特征在于,所述根据所述目标位置,确定在所述预设回归分支网络中与所述目标位置对应的特征向量,包括:
在所述预设回归分支网络对所述二维预处理图像进行卷积操作过程中增添两个通道,回归得到回归特征图,所述两个通道分别包含初次特征图上特征点的横坐标和纵坐标,所述初次特征图为所述预设回归分支网络在初次对所述二维预处理图像进行卷积操作所得特征图;
从所述回归特征图提取所述回归特征图上与所述目标位置对应的特征向量。
4.根据权利要求3所述的用于无人车的3D目标检测方法,其特征在于,所述在所述预设回归分支网络对所述二维预处理图像进行卷积操作过程中增添两个通道,回归得到回归特征图,包括:
通过所述预设回归分支网络对所述二维预处理图像进行初次卷积操作,得到所述初次特征图;
在所述初次特征图上增添所述两个通道后,所述预设回归分支网络对所述增添所述两个通道后的初次特征图再次进行卷积操作,得到第二特征图;
对所述第二特征图进行至少两次卷积操作,得到所述回归特征图。
5.根据权利要求3所述的用于无人车的3D目标检测方法,其特征在于,所述从所述回归特征图提取所述回归特征图上与所述目标位置对应的特征向量,包括:对于所述回归特征图上与所述目标位置对应的特征向量,均提取一个n维特征向量,所述n为不小于8的自然数。
6.根据权利要求4所述的用于无人车的3D目标检测方法,其特征在于,所述n等于8,所述将所述特征向量解析之后,得到在所述原始图像中多个目标的三维信息,包括:
对于所述多个目标中任意一个目标Ok对应的8维特征向量,使用所述8维特征向量中第1维度的分量估算所述目标Ok的深度值;
使用所述8维特征向量中第2维度和第3维度的分量,并结合所述视觉设备的内参估算所述目标Ok在三维空间的位置信息;
使用所述8维特征向量中第4维度、第5维度和第6维度的分量估算所述目标Ok的三维尺寸;
使用所述8维特征向量中第7维度和第8维度的分量估算所述目标Ok的偏航角。
8.根据权利要求7所述的用于无人车的3D目标检测方法,其特征在于,所述使用所述8维特征向量中第2维度和第3维度的分量,并结合所述视觉设备的内参估算所述目标Ok在三维空间的位置信息,包括:
获取所述目标Ok对应特征点在所述初次特征图上的横坐标i和纵坐标j;
9.一种用于无人车的3D目标检测装置,其特征在于,所述装置包括:
第一获取模块,用于根据所述无人车的单目摄像头获取原始图像;
第二获取模块,用于通过预先训练的目标检测模型,得到所述原始图像中目标检测结果,所述目标检测模型至少包括预设分类分支网络和预设回归分支网络,所述预设分类分支网络用于获得目标在二维图像中的位置信息,所述预设回归分支网络中增设CoordConv卷积模块,用以获得目标的三维信息;
确定模块,用于通过所述目标检测结果中所述预设分类分支网络中多个目标的置信度,确定在所述预设分类分支网络中多个目标的目标位置;
特征提取模块,用于根据所述目标位置,确定在所述预设回归分支网络中与所述目标位置对应的特征向量;
估算模块,用于将所述特征向量解析之后,得到在所述原始图像中多个目标的三维信息,所述三维信息至少包括如下之一:所述目标的深度信息、目标尺寸和目标航向角信息。
10.一种计算机可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1至8中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111158130.4A CN113887407A (zh) | 2021-09-30 | 2021-09-30 | 用于无人车的3d目标检测方法、装置和计算可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111158130.4A CN113887407A (zh) | 2021-09-30 | 2021-09-30 | 用于无人车的3d目标检测方法、装置和计算可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113887407A true CN113887407A (zh) | 2022-01-04 |
Family
ID=79004466
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111158130.4A Pending CN113887407A (zh) | 2021-09-30 | 2021-09-30 | 用于无人车的3d目标检测方法、装置和计算可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113887407A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114067108A (zh) * | 2022-01-13 | 2022-02-18 | 深圳比特微电子科技有限公司 | 一种基于神经网络的目标检测方法、装置 |
-
2021
- 2021-09-30 CN CN202111158130.4A patent/CN113887407A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114067108A (zh) * | 2022-01-13 | 2022-02-18 | 深圳比特微电子科技有限公司 | 一种基于神经网络的目标检测方法、装置 |
CN114067108B (zh) * | 2022-01-13 | 2022-04-19 | 深圳比特微电子科技有限公司 | 一种基于神经网络的目标检测方法、装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11210550B2 (en) | Image-based feature detection using edge vectors | |
CN111325713B (zh) | 基于神经网络的木材缺陷检测方法、系统及存储介质 | |
US10311595B2 (en) | Image processing device and its control method, imaging apparatus, and storage medium | |
US9665803B2 (en) | Image processing apparatus and image processing method | |
US10650260B2 (en) | Perspective distortion characteristic based facial image authentication method and storage and processing device thereof | |
US7587082B1 (en) | Object recognition based on 2D images and 3D models | |
US11227149B2 (en) | Method and apparatus with liveness detection and object recognition | |
US20230115606A1 (en) | Method and apparatus for tracking target | |
Ansari | A review on SIFT and SURF for underwater image feature detection and matching | |
WO2017094140A1 (ja) | 物体検出装置及び物体検出方法 | |
CN113920487A (zh) | 障碍物探测处理方法、装置及系统 | |
US9128188B1 (en) | Object instance identification using template textured 3-D model matching | |
CN111144425B (zh) | 检测拍屏图片的方法、装置、电子设备及存储介质 | |
CN114187579A (zh) | 自动驾驶的目标检测方法、装置和计算机可读存储介质 | |
CN113887407A (zh) | 用于无人车的3d目标检测方法、装置和计算可读存储介质 | |
US12002218B2 (en) | Method and apparatus with object tracking | |
Rashwan et al. | Using curvilinear features in focus for registering a single image to a 3D object | |
CN114331848A (zh) | 视频图像拼接方法、装置及设备 | |
WO2020132920A1 (en) | Systems and methods for object recognition | |
Wang et al. | LBP-based edge detection method for depth images with low resolutions | |
US11902497B2 (en) | Depth measurement | |
KR20210076660A (ko) | 합성곱 신경망 기반의 스테레오스코픽 이미지 화질 평가 방법 및 장치 | |
US20220058484A1 (en) | Method for training a neural network to deliver the viewpoints of objects using unlabeled pairs of images, and the corresponding system | |
CN114049394A (zh) | 一种单目测距方法、装置、设备及存储介质 | |
JP7070157B2 (ja) | 画像処理プログラム、画像処理装置及び画像処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |