CN114119749A - 一种基于密集关联的单目3d车辆检测方法 - Google Patents

一种基于密集关联的单目3d车辆检测方法 Download PDF

Info

Publication number
CN114119749A
CN114119749A CN202111405543.8A CN202111405543A CN114119749A CN 114119749 A CN114119749 A CN 114119749A CN 202111405543 A CN202111405543 A CN 202111405543A CN 114119749 A CN114119749 A CN 114119749A
Authority
CN
China
Prior art keywords
pixel point
target vehicle
gaussian mixture
vehicle
coordinate system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111405543.8A
Other languages
English (en)
Inventor
田炜
陈涵晟
黄禹尧
邓振文
谭大艺
韩帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202111405543.8A priority Critical patent/CN114119749A/zh
Publication of CN114119749A publication Critical patent/CN114119749A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明提供一种基于密集关联的单目3D车辆检测方法,包括以下步骤:通过车载相机采集单张的前视图像;计算前视图像中的各像素点在相机坐标系下的2D坐标;映射并计算前视图像中的各像素点在目标局部坐标系下的3D坐标;通过自下而上的实例分割方法划分前视图像中的各目标车辆在前视图像上所占的2D空间区域,并根据2D空间区域选取各目标车辆的像素点及其对应的2D坐标和3D坐标,并构建密集2D‑3D关联;由密集2D‑3D关联构建PnP问题并求解,获取目标车辆的位置和角度;由网络分支预测车辆的长、宽、高尺寸,并结合获取的目标车辆的位置和角度,获取目标车辆的3D检测框。与现有技术相比,该方法能够精确地对交通场景的车辆进行识别和定位。

Description

一种基于密集关联的单目3D车辆检测方法
技术领域
本发明涉及计算机视觉与智能驾驶汽车领域,尤其是涉及一种基于密集关联的单目3D车辆检测方法。
背景技术
在众多应用于智能汽车的传感器中,相机这一视觉传感器具有分辨率高、成本较低、部署方便等优点。利用相机获得的RGB图像数据进行3D车辆检测,可以成为在精度要求稍低的场合代替基于激光雷达的高成本方案。使用单张图像进行3D车辆检测,即单目3D车辆检测,是其中核心技术之一,在智能汽车领域有着广泛的需求。
单目3D车辆检测的难点在于仅凭2D图像估计车辆的距离。目前,主流的单目3D车辆检测方法有两类,一类是通过深层网络直接估计车辆的距离,另一类是构建2D-3D关联并通过几何推理间接估计车辆的距离。其中,前者往往存在依赖特定场景和相机内参,存在泛化性能差的问题。后者对于不同场景和相机内参下数据的迁移更加稳健,实用性更好,但现有方法仍然存在部分问题,主要体现如下:
第一,部分方法在训练模型时需要用到额外的人工标注,例如关键点、车辆3D模型等,增加了数据标注的成本;
第二,现有方法一般需要单独的目标检测或实例分割模块,先完成检测,再生成2D-3D关联并进行几何推理,未能将二者充分结合;
第三,现有方法往往采用固定数量的关键点或区域栅格形成2D-3D关联,不能自适应地去除车辆被遮挡区域的不可靠关联,易使部分被遮挡车辆的定位精度下降。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于密集关联的单目3D车辆检测方法,该方法能够精确地对交通场景的车辆进行识别和定位。
本发明的目的可以通过以下技术方案来实现:
本发明提供一种基于密集关联的单目3D车辆检测方法,用于自动驾驶车辆对交通场景中车辆的识别和定位,包括以下步骤:
S1:通过车载相机采集单张的前视图像;
S2:计算所述前视图像中的各像素点在相机坐标系下的实际2D坐标;
S3:对所述前视图像进行处理,依次获取多尺度特征、高分辨率特征图,以及由高斯混合模型描述的高分辨率特征图上各像素点的3D坐标向量的概率分布,将各像素点的3D坐标向量的概率分布处理为各像素点在各局部坐标系下的动态3D坐标的概率分布,训练时再将3D分布投影为相机坐标系下的2D坐标的概率分布,并采用负对数似然损失函数训练网络以最小化重影误差,使各像素点实际的2D坐标在2D坐标概率分布下的负对数似然最小化,进而使得每一个像素点生成一组2D-3D关联;
S4:设置第一网络分支,根据所述高斯混合模型,判定各像素点对应的唯一目标车辆,并对各像素点对应的唯一目标车辆的中心位置进行聚类,实现自下而上的实例分割,进而使得S3中构建的2D-3D关联被划分为各个车辆的密集2D-3D关联;
S5:由所述密集2D-3D关联构建PnP问题并进行求解,获取所述目标车辆的位置和角度;
S6:根据S4的实例分割结果,设置第二网络分支,获取各像素点对应的唯一目标车辆的尺寸,并结合S5获取的目标车辆的位置和角度,获取包含位置、角度、尺寸信息的车辆3D检测框。
优选地,所述目标局部坐标系为以每个所述目标车辆的底面中心点为原点,以每个所述目标车辆的前方为x轴,以每个所述目标车辆的下方为y轴,以每个所述目标车辆的左方为z轴而建立的坐标系。
优选地,所述S3包括以下步骤:
S3.1:依次通过残差网络和特征金字塔网络对前视图像进行处理,获取前视图像的多尺度特征;
S3.2:对所述多尺度特征依次进行变形卷积、双线性插值重采样和拼接处理,获取多尺度融合的高分辨率特征图;
S3.3:通过由卷积层构成的分支网络输出高分辨率特征图上各像素点的3D坐标向量,并采用高斯混合模型描述各像素点的3D坐标向量的概率分布;
S3.4:从多尺度特征中提取各目标车辆的区域特征,根据S3.3中的高斯混合模型获取各像素点在各局部坐标系下的动态3D坐标的概率分布,将各像素点在各局部坐标系下的动态3D坐标的概率分布转换为相机坐标系下的2D坐标的概率分布,采用负对数似然损失函数训练网络以最小化重影误差,即使各像素点实际的2D坐标在2D坐标概率分布下的负对数似然最小化,进而使得每一个像素点生成一组2D-3D关联。
优选地,采用高斯混合模型描述各像素点的3D坐标向量的概率分布具体为:
Figure BDA0003372711020000031
式中,S为预先设置的高斯混合模型的数量,φi为第i个高斯混合模型的混合权重,∑i为第i个高斯混合模型的协方差矩阵,μi为第i个高斯混合模型的均值,φi,∑ii均为网络所输出的变量,
Figure BDA0003372711020000032
为x3D的概率密度估计,x3D为目标局部坐标系下的一组坐标向量。
优选地,将各像素点在各局部坐标系下的动态3D坐标的概率分布投影为相机坐标系下的2D坐标的概率分布的表达式为:
[xcam ycam zcam]T=Rx3D+t
Figure BDA0003372711020000033
式中,R和t分别为局部坐标系向相机坐标系转换的旋转矩阵与位移向量,中间变量xcam,ycam,zcam分别为相机坐标系下的3D坐标,x3D为目标局部坐标系下的一组坐标向量,x2D为转换后的相机坐标系下的一组坐标向量。
优选地,采用负对数似然损失函数训练网络的公式为:
Figure BDA0003372711020000034
Figure BDA0003372711020000035
式中,
Figure BDA0003372711020000036
为权重归一化参数,满足
Figure BDA0003372711020000037
用以动态平衡损失函数的权重,
Figure BDA0003372711020000038
为各像素点实际的2D坐标向量,
Figure BDA0003372711020000039
为2D坐标真值
Figure BDA00033727110200000310
在转换后的2D坐标概率分布密度函数下的负对数似然,其中
Figure BDA00033727110200000311
为第i个2D高斯混合模型的协方差矩阵,
Figure BDA0003372711020000041
为第i个2D高斯混合模型的均值,φi为第i个高斯混合模型的静态混合权重,ψi为第i个高斯混合模型的动态混合权重。
优选地,所述S4包括以下步骤:
S4.1:划分前视图像中的各目标车辆在前视图像上所占的2D空间区域,并设置第一网络分支,在高分辨率特征图中回归各像素点所属目标车辆的几何中心点的2D位置相对于像素点位置的偏移量,使得每一个像素点都能定位其所属目标车辆的中心位置;
S4.2:通过最小重投影误差准则判定各高斯混合模型对应的目标车辆,进而获取高斯混合模型对应的目标车辆的实际中心位置
Figure BDA0003372711020000042
S4.3:计算每一个像素点所属的目标车辆的中心位置和高斯混合模型对应的目标车辆的实际中心位置之间的偏移量,并寻找最小的偏移量,进而判定各像素点对应的唯一目标车辆;并通过平滑L1损失函数训练第一网络分支,使得各像素点对应的唯一目标车辆的中心位置xctr与唯一目标车辆的实际中心位置
Figure BDA0003372711020000043
的偏移量最小;
S4.4:设置前景网络分支用以在高分辨率特征图上分割前景像素,通过交叉熵损失函数训练该网络分支,获取前景网络分支;
S4.5:根据前景网络分支和S3中建立的高斯混合模型,对各像素点对应的唯一目标车辆的中心位置进行聚类,实现自下而上的实例分割,进而使得S3.4中所构建的2D-3D关联被划分为各个车辆的密集2D-3D关联。
优选地,所述S5中获取所述目标车辆的位置和角度的公式为:
Figure BDA0003372711020000044
式中,β,t分别为经过初始化后的目标车辆的横摆角和位移偏量,μ2D,
Figure BDA0003372711020000045
分别为2D高斯混合模型的参数,且为β,t的函数,β*,t*分别为由β,t优化后的目标车辆的位置和角度。
优选地,在执行S5之前,采用EPnP算法对目标车辆的横摆角和位移偏量进行初始化。
优选地,所述S6包括以下步骤:
S6.1:设置第二网络分支,按照与S4.2相同的规则寻找各像素点对应的目标车辆的尺寸,通过平滑L1损失函数训练所述第二网络分支,并输出高分辨率特征图的各像素点对应的目标车辆的尺寸;
S6.2:根据S4.4的实例分割结果,确定各像素点对应的唯一目标车辆的尺寸;
S6.3:根据S5中的目标车辆的位置和角度,以及S6.2获取的目标车辆的尺寸,获取包含位置、角度、尺寸信息的车辆3D检测框。
与现有技术相比,本发明具有以下优点:
1、本发明设计的基于密集关联的单目3D车辆检测方法不必采用车辆的包括关键点和3D模型的3D几何信息,而是通过构建2D-3D关联,并通过最小化重投影误差来训练网络,使其预测各像素点所对应的3D坐标,避免了现有技术中在训练模型时需要用到额外的人工标注,增加数据标注成本的问题。
2、本发明通过预测2D-3D关联点对其进行聚类获取物体级别的信息的手段,解决了现有技术中先完成检测,再生成2D-3D关联进行几何推理,无法将二者充分结合的问题。
3、本发明通过聚类划分属于不同目标车辆的2D-3D关联点,每个目标车辆最终获得的关联点数量由实际情况确定,且每个像素点不能同时属于两个目标车辆,因此可以解决现有技术中因不能自适应地去除车辆被遮挡区域的不可靠关联,使得部分被遮挡车辆的定位精度下降的问题。
附图说明
图1为本实施例一种基于密集关联的单目3D车辆检测方法的流程示意图;
图2为本实施例中所用网络结构的一个具体实施例的示意图;
图3为本实施例中目标局部坐标系定义的一个具体实施例的示意图;
图4为本实施例中相机坐标系和目标局部坐标系的关系示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
本实施例提供一种基于密集关联的单目3D车辆检测方法,用于自动驾驶车辆对交通场景中车辆的识别和定位,包括以下步骤:
S1:通过车载相机采集单张的前视图像;
S2:通过相机内参矩阵计算所述前视图像中的各像素点在相机坐标系下的实际2D坐标;
Figure BDA0003372711020000061
式中,
Figure BDA0003372711020000062
为各像素点在相机坐标系下的实际2D坐标,K为相机内参矩阵,(u,v)为像素索引坐标,即为前视图像中第v行第u列的像素坐标。
S3:对前视图像进行处理,依次获取多尺度特征、高分辨率特征图,以及由高斯混合模型描述的高分辨率特征图上各像素点的3D坐标向量的概率分布,将各像素点的3D坐标向量的概率分布处理为各像素点在各局部坐标系下的动态3D坐标的概率分布,训练时再投影为相机坐标系下的2D坐标的概率分布,并采用负对数似然损失函数训练网络以最小化重影误差,使各像素点的实际2D坐标在2D坐标概率分布下的负对数似然最小化,进而使得每一个像素点生成一组2D-3D关联。
目标局部坐标系为以自动驾驶车辆为原点而建立的坐标系,参考图3所示,目标局部坐标系为以每个目标车辆的底面中心点为原点,以每个目标车辆的前方为x轴,以每个目标车辆的下方为y轴,以每个目标车辆的左方为z轴而建立的坐标系。
混合密度网络(Mixture Density Networks,MDN)输出的变量为高斯混合模型(Gaussian Mixture Model)的参数,共包括n个高斯混合模型的均值、协方差和其混合权重。
S3.1:依次通过残差网络和特征金字塔网络对前视图像进行处理,获取前视图像的多尺度特征。
将残差网络作为骨干网络提取前视图像的图像特征,并将图像特征经过特征金字塔网络得到多尺度特征;多尺度特征的分辨率分别为原图的1/4、1/8、1/16、1/32,通道维度为256。
S3.2:对多尺度特征依次进行变形卷积、双线性插值重采样和拼接处理,获取多尺度融合的高分辨率特征图。
通过3x3变形卷积对多尺度特征进行处理,将各级特征通过双线性插值重采样为原图1/4的尺寸,并在通道方向拼接,获取多尺度融合后的高分辨率特征图;通道维度为512。
S3.3:通过由卷积层构成的分支网络输出高分辨率特征图上各像素点的3D坐标向量,并采用高斯混合模型描述各像素点的3D坐标向量的概率分布。
采用高斯混合模型描述x3D的概率分布:
Figure BDA0003372711020000063
式中,S为预先设置的高斯混合模型的数量,φi为第i个高斯混合模型的混合权重,∑i为第i个高斯混合模型的协方差矩阵,μi为第i个高斯混合模型的均值,φi,∑ii均为网络所输出的变量,
Figure BDA0003372711020000071
为x3D的概率分布,x3D为各像素点在目标局部坐标系下的一组坐标向量[x,y,z]T
具体地,x3D完全是由网络学习而来,不一定具有强烈的物理意义。理想情况下,网络预测的x3D应满足投影约束,即由S3.4.2步骤得到的x2D应与其对应的相机坐标系下的实际2D坐标
Figure BDA0003372711020000072
一致。网络实际预测的不是单个x3D,而是x3D的概率分布,该分布可由φi,∑ii三个参数描述。分支网络由卷积层构成,将高分辨率特征图映射为φi,∑ii
由上式可知,分支网络输出S组φi,∑ii。其中,φi需要保证和为1,因此在输出端需要采用softmax层;矩阵∑i需要保证对称正定,因此,需要对矩阵进行LDL分解:
∑=LDLT
D=exp diag[d1 d2 d3]
Figure BDA0003372711020000073
式中,D为矩阵∑经LDL分解后的对称正定矩阵,L为单位下三角矩阵,d1、d2和d3分别为矩阵D的对角线上的三个参数,l1、l2和l3分别为L矩阵中的参数。
经LDL分解后,可保证∑对称正定,此时网络只需要输出d1、d2、d3、l1、l2和l3六个参数,因此协方差的输出层维度为6。
S3.4:从多尺度特征中提取各目标车辆的区域特征,根据S3.3中的高斯混合模型获取各像素点在各局部坐标系下的动态3D坐标的概率分布,将各像素点在各局部坐标系下的动态3D坐标的概率分布转换为相机坐标系下的2D坐标的概率分布,采用负对数似然损失函数训练网络以最小化重影误差,即使各像素点的实际2D坐标在2D坐标概率分布下的负对数似然最小化,进而使得每一个像素点生成一组2D-3D关联。
S3.4.1:增加一个区域卷积网络(R-CNN)作为辅助分支,从多尺度特征中提取各目标车辆的区域特征,并输出前视图像中目标车辆的像素框,即目标框,如果目标框之间有重叠,则重叠区域的像素对于每一个目标框都有一个权重,这个权重为动态混合权重ψi。通过该分支输出每个目标车辆的区域内各像素点的动态混合权重ψi,进而根据S3.3中的高斯混合模型获取各像素点在各局部坐标系下的动态3D坐标的概率分布。
Figure BDA0003372711020000081
式中,S为预先设置的高斯混合模型的数量,φi为第i个高斯混合模型的混合权重,∑i为第i个高斯混合模型的协方差矩阵,μi为第i个高斯混合模型的均值,φi,∑ii均为网络所输出的变量,
Figure BDA0003372711020000082
为x3D的概率密度估计,ψi为每个目标车辆的区域内各像素点的动态混合权重,x3D为各像素点在目标局部坐标系下的一组坐标向量[x,y,z]T
S3.4.2:将各像素点在各目标局部坐标系下的动态3D坐标的概率分布投影为相机坐标系下的2D坐标的概率分布。
[xcam ycam zcam]T=Rx3D+t
Figure BDA0003372711020000083
式中,R和t分别为目标局部坐标系向相机坐标系转换的旋转矩阵与位移向量,中间变量xcam,ycam,zcam分别为相机坐标系下的3D坐标。
对于高斯混合分布,采用局部线性化的方法计算变换后的2D高斯混合模型的参数。
具体的参数变换方式为:均值μi的变换方式与上式x3D一致,即先Rμ+t位姿变换得到
Figure BDA0003372711020000084
再除以Z轴坐标归一化
Figure BDA0003372711020000085
得到2D高斯混合模型的均值向量μ2D。2D高斯混合模型的协方差∑2D的投影变换为:
Figure BDA0003372711020000086
其中[:2,:2]表示取3×3矩阵的前两行两列。
S3.4.3:采用负对数似然损失函数训练网络以最小化重影误差,即使得各像素点的实际2D坐标在2D坐标概率分布下的负对数似然最小化,进而获取2D-3D关联。
网络训练的目标是最小化重投影误差,即使得各像素点的实际2D坐标在2D坐标概率分布下的负对数似然最小化,具体而言,采用负对数似然损失函数训练网络:
Figure BDA0003372711020000091
Figure BDA0003372711020000092
式中,
Figure BDA0003372711020000093
为权重归一化参数,满足
Figure BDA0003372711020000094
用以动态平衡损失函数的权重,
Figure BDA0003372711020000095
为各像素点实际的2D坐标向量,
Figure BDA0003372711020000096
为2D坐标真值
Figure BDA0003372711020000097
在转换后的2D坐标概率分布密度函数下的负对数似然,其中
Figure BDA0003372711020000098
为第i个2D高斯混合模型的协方差矩阵,
Figure BDA0003372711020000099
为第i个2D高斯混合模型的均值,φi为第i个高斯混合模型的静态混合权重,ψi为第i个高斯混合模型的动态混合权重。
S4:设置第一网络分支,根据高斯混合模型,判定各像素点对应的唯一目标车辆,并对各像素点对应的唯一目标车辆的中心位置进行聚类,实现自下而上的实例分割,进而使得S3中构建的2D-3D关联转化为密集2D-3D关联。
S4.1:划分前视图像中的各目标车辆在前视图像上所占的2D空间区域,并设置第一网络分支,在高分辨率特征图中回归各像素点所属目标车辆的几何中心点的2D位置相对于像素点位置的偏移量,使得每一个像素点都能定位其所属目标车辆的中心位置。
由于S3.3中的高斯混合模型中的同一个像素点的不同高斯混合模型可能会被分配至不同的目标车辆,对于K个高斯混合模型需要相应地别输出K个中心偏移量,以便区分这些目标车辆;S4.1中每一个像素点对应若干个目标车辆。
S4.2:通过最小重投影误差准则判定各高斯混合模型对应的目标车辆,进而获取高斯混合模型对应的目标车辆的实际中心位置
Figure BDA00033727110200000910
S4.3:计算每一个像素点所属的目标车辆的中心位置和高斯混合模型对应的目标车辆的实际中心位置之间的偏移量,并寻找最小的偏移量,进而判定各像素点对应的唯一目标车辆;并通过平滑L1损失函数训练第一网络分支,使得各像素点对应的唯一目标车辆的中心位置xctr与唯一目标车辆的实际中心位置
Figure BDA00033727110200000911
的偏移量最小。
S4.4:设置前景网络分支用以在高分辨率特征图上分割前景像素,通过交叉熵损失函数训练该网络分支,获取前景网络分支。
作为一种可选的实施方式,交叉熵损失函数的目标值的获取方式包括:图像的语义分割标注,以及将车辆2D框作为粗略的前景标签;
S4.5:根据前景网络分支和S3.3中建立的高斯混合模型,对各像素点对应的唯一目标车辆的中心位置进行聚类,实现自下而上的实例分割,进而使得S3.4中所构建的2D-3D关联转化为密集2D-3D关联。
具体地,首先通过前景网络分支选取所有前景像素点,取S3.3中混合权重φi最大的高斯混合模型参数μ,∑,及各像素点对应的唯一目标车辆的中心位置xctr,公式为:
Figure BDA0003372711020000101
对各像素点对应的唯一目标车辆的中心位置xctr进行聚类,实现自下而上的实例分割,进而使得S3.4中所构建的2D-3D关联划分为各个车辆的密集2D-3D关联。
作为一种可选的实施方式,采用DBSCAN算法对所有的前景像素点的中心点进行聚类。
S5:由所述密集2D-3D关联构建PnP问题并求解,获取所述目标车辆的位置和角度;
Figure BDA0003372711020000102
式中,β,t分别为经过初始化后的目标车辆的横摆角和位移偏量,并根据上式进行优化求解,μ2D,
Figure BDA0003372711020000103
分别为2D高斯混合模型的参数,且为β,t的函数,β*,t*分别为优化后的目标车辆的位置和角度,由于x2D在位姿变换时用到了R(β)、t,因此,x2D是β,t的函数。
该优化问题为寻找马氏距离度量下重投影误差最小的车辆角度和位置,从而实现对车辆的3D定位。
在进行S5之前,采用EPnP算法对目标车辆的横摆角β和位移偏量t进行初始化,然后采用Levenberg-Marquardt算法求解上述公式所描述的非线性最小二乘问题,得到最优解β*,t*
S6:根据S4的实例分割结果,设置第二网络分支,获取各像素点对应的唯一目标车辆的尺寸,并结合S5获取的目标车辆的位置和角度,获取包含位置、角度、尺寸信息的车辆3D检测框。
S6.1:设置第二网络分支,按照与S4.2相同的规则寻找各像素点对应的目标车辆的尺寸,通过平滑L1损失函数训练所述第二网络分支,并输出高分辨率特征图的各像素点对应的目标车辆的尺寸;
具体地,每个像素点对应若干个目标车辆及目标车辆的尺寸。
S6.2:根据S4.4的实例分割结果,确定各像素点对应的唯一目标车辆的尺寸。
S6.3:根据S5中的目标车辆的位置和角度,以及S6.2获取的目标车辆的尺寸,获取包含位置、角度、尺寸信息的车辆3D检测框。
上述的对实施例的描述是为便于该技术领域的普通技术人员能理解和使用发明。熟悉本领域技术的人员显然可以容易地对这些实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于上述实施例,本领域技术人员根据本发明的揭示,不脱离本发明范畴所做出的改进和修改都应该在本发明的保护范围之内。

Claims (10)

1.一种基于密集关联的单目3D车辆检测方法,用于自动驾驶车辆对交通场景中车辆的识别和定位,其特征在于,包括以下步骤:
S1:通过车载相机采集单张的前视图像;
S2:计算所述前视图像中的各像素点在相机坐标系下的实际2D坐标;
S3:对所述前视图像进行处理,依次获取多尺度特征、高分辨率特征图,以及由高斯混合模型描述的高分辨率特征图上各像素点的3D坐标向量的概率分布,将各像素点的3D坐标向量的概率分布处理为各像素点在各局部坐标系下的动态3D坐标的概率分布,训练时再将3D分布投影为相机坐标系下的2D坐标的概率分布,并采用负对数似然损失函数训练网络以最小化重影误差,使各像素点实际的2D坐标在2D坐标概率分布下的负对数似然最小化,进而使得每一个像素点生成一组2D-3D关联;
S4:设置第一网络分支,根据所述高斯混合模型,判定各像素点对应的唯一目标车辆,并对各像素点对应的唯一目标车辆的中心位置进行聚类,实现自下而上的实例分割,进而使得S3中构建的2D-3D关联被划分为各个车辆的密集2D-3D关联;
S5:由所述密集2D-3D关联构建PnP问题并进行求解,获取所述目标车辆的位置和角度;
S6:根据S4的实例分割结果,设置第二网络分支,获取各像素点对应的唯一目标车辆的尺寸,并结合S5获取的目标车辆的位置和角度,获取包含位置、角度、尺寸信息的车辆3D检测框。
2.根据权利要求1所述的一种基于密集关联的单目3D车辆检测方法,其特征在于,所述目标局部坐标系为以每个所述目标车辆的底面中心点为原点,以每个所述目标车辆的前方为x轴,以每个所述目标车辆的下方为y轴,以每个所述目标车辆的左方为z轴而建立的坐标系。
3.根据权利要求2所述的一种基于密集关联的单目3D车辆检测方法,其特征在于,所述S3包括以下步骤:
S3.1:依次通过残差网络和特征金字塔网络对前视图像进行处理,获取前视图像的多尺度特征;
S3.2:对所述多尺度特征依次进行变形卷积、双线性插值重采样和拼接处理,获取多尺度融合的高分辨率特征图;
S3.3:通过由卷积层构成的分支网络输出高分辨率特征图上各像素点的3D坐标向量,并采用高斯混合模型描述各像素点的3D坐标向量的概率分布;
S3.4:从多尺度特征中提取各目标车辆的区域特征,根据S3.3中的高斯混合模型获取各像素点在各局部坐标系下的动态3D坐标的概率分布,将各像素点在各局部坐标系下的动态3D坐标的概率分布转换为相机坐标系下的2D坐标的概率分布,采用负对数似然损失函数训练网络以最小化重影误差,即使各像素点实际的2D坐标在2D坐标概率分布下的负对数似然最小化,进而使得每一个像素点生成一组2D-3D关联。
4.根据权利要求3所述的一种基于密集关联的单目3D车辆检测方法,其特征在于,采用高斯混合模型描述各像素点的3D坐标向量的概率分布具体为:
Figure FDA0003372711010000021
式中,S为预先设置的高斯混合模型的数量,φi为第i个高斯混合模型的混合权重,∑i为第i个高斯混合模型的协方差矩阵,μi为第i个高斯混合模型的均值,φi,∑i,μi均为网络所输出的变量,
Figure FDA0003372711010000022
为x3D的概率密度估计,x3D为目标局部坐标系下的一组坐标向量。
5.根据权利要求4所述的一种基于密集关联的单目3D车辆检测方法,其特征在于,将各像素点在各局部坐标系下的动态3D坐标的概率分布投影为相机坐标系下的2D坐标的概率分布的表达式为:
[xcam ycam zcam]T=Rx3D+t
Figure FDA0003372711010000023
式中,R和t分别为局部坐标系向相机坐标系转换的旋转矩阵与位移向量,中间变量xcam,ycam,zcam分别为相机坐标系下的3D坐标,x3D为目标局部坐标系下的一组坐标向量,x2D为转换后的相机坐标系下的一组坐标向量。
6.根据权利要求5所述的一种基于密集关联的单目3D车辆检测方法,其特征在于,采用负对数似然损失函数训练网络的公式为:
Figure FDA0003372711010000031
Figure FDA0003372711010000032
式中,
Figure FDA0003372711010000033
为权重归一化参数,满足
Figure FDA0003372711010000034
用以动态平衡损失函数的权重,
Figure FDA0003372711010000035
为各像素点实际的2D坐标向量,
Figure FDA0003372711010000036
为2D坐标真值
Figure FDA0003372711010000037
在转换后的2D坐标概率分布密度函数下的负对数似然,其中
Figure FDA0003372711010000038
为第i个2D高斯混合模型的协方差矩阵,
Figure FDA0003372711010000039
为第i个2D高斯混合模型的均值,φi为第i个高斯混合模型的静态混合权重,ψi为第i个高斯混合模型的动态混合权重。
7.根据权利要求3所述的一种基于密集关联的单目3D车辆检测方法,其特征在于,所述S4包括以下步骤:
S4.1:划分前视图像中的各目标车辆在前视图像上所占的2D空间区域,并设置第一网络分支,在高分辨率特征图中回归各像素点所属目标车辆的几何中心点的2D位置相对于像素点位置的偏移量,使得每一个像素点都能定位其所属目标车辆的中心位置;
S4.2:通过最小重投影误差准则判定各高斯混合模型对应的目标车辆,进而获取高斯混合模型对应的目标车辆的实际中心位置
Figure FDA00033727110100000310
S4.3:计算每一个像素点所属的目标车辆的中心位置和高斯混合模型对应的目标车辆的实际中心位置之间的偏移量,并寻找最小的偏移量,进而判定各像素点对应的唯一目标车辆;并通过平滑L1损失函数训练第一网络分支,使得各像素点对应的唯一目标车辆的中心位置xctr与唯一目标车辆的实际中心位置
Figure FDA00033727110100000311
的偏移量最小;
S4.4:设置前景网络分支用以在高分辨率特征图上分割前景像素,通过交叉熵损失函数训练该网络分支,获取前景网络分支;
S4.5:根据前景网络分支和S3中建立的高斯混合模型,对各像素点对应的唯一目标车辆的中心位置进行聚类,实现自下而上的实例分割,进而使得S3.4中所构建的2D-3D关联被划分为各个车辆的密集2D-3D关联。
8.根据权利要求7所述的一种基于密集关联的单目3D车辆检测方法,其特征在于,所述S5中获取所述目标车辆的位置和角度的公式为:
Figure FDA0003372711010000041
式中,β,t分别为经过初始化后的目标车辆的横摆角和位移偏量,μ2D
Figure FDA0003372711010000042
分别为2D高斯混合模型的参数,且为β,t的函数,β*,t*分别为由β,t优化后的目标车辆的位置和角度。
9.根据权利要求8所述的一种基于密集关联的单目3D车辆检测方法,其特征在于,在执行S5之前,采用EPnP算法对目标车辆的横摆角和位移偏量进行初始化。
10.根据权利要求8所述的一种基于密集关联的单目3D车辆检测方法,其特征在于,所述S6包括以下步骤:
S6.1:设置第二网络分支,按照与S4.2相同的规则寻找各像素点对应的目标车辆的尺寸,通过平滑L1损失函数训练所述第二网络分支,并输出高分辨率特征图的各像素点对应的目标车辆的尺寸;
S6.2:根据S4.4的实例分割结果,确定各像素点对应的唯一目标车辆的尺寸;
S6.3:根据S5中的目标车辆的位置和角度,以及S6.2获取的目标车辆的尺寸,获取包含位置、角度、尺寸信息的车辆3D检测框。
CN202111405543.8A 2021-11-24 2021-11-24 一种基于密集关联的单目3d车辆检测方法 Pending CN114119749A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111405543.8A CN114119749A (zh) 2021-11-24 2021-11-24 一种基于密集关联的单目3d车辆检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111405543.8A CN114119749A (zh) 2021-11-24 2021-11-24 一种基于密集关联的单目3d车辆检测方法

Publications (1)

Publication Number Publication Date
CN114119749A true CN114119749A (zh) 2022-03-01

Family

ID=80372260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111405543.8A Pending CN114119749A (zh) 2021-11-24 2021-11-24 一种基于密集关联的单目3d车辆检测方法

Country Status (1)

Country Link
CN (1) CN114119749A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114648639A (zh) * 2022-05-19 2022-06-21 魔视智能科技(武汉)有限公司 一种目标车辆的检测方法、系统及装置
WO2024061079A1 (zh) * 2022-09-22 2024-03-28 虹软科技股份有限公司 单目视觉定位方法、装置、存储介质和电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114648639A (zh) * 2022-05-19 2022-06-21 魔视智能科技(武汉)有限公司 一种目标车辆的检测方法、系统及装置
WO2024061079A1 (zh) * 2022-09-22 2024-03-28 虹软科技股份有限公司 单目视觉定位方法、装置、存储介质和电子设备

Similar Documents

Publication Publication Date Title
CN110335319B (zh) 一种语义驱动的相机定位与地图重建方法和系统
CN110853075B (zh) 一种基于稠密点云与合成视图的视觉跟踪定位方法
CN109726627B (zh) 一种神经网络模型训练及通用接地线的检测方法
CN110781262B (zh) 基于视觉slam的语义地图的构建方法
CN110119679B (zh) 物体三维信息估计方法及装置、计算机设备、存储介质
CN110659664B (zh) 一种基于ssd的高精度识别小物体的方法
CN114119749A (zh) 一种基于密集关联的单目3d车辆检测方法
CN111340855A (zh) 一种基于轨迹预测的道路移动目标检测方法
CN112198878B (zh) 一种即时地图构建方法、装置、机器人及存储介质
CN114299464A (zh) 车道定位方法、装置及设备
CN113095152A (zh) 一种基于回归的车道线检测方法及系统
CN112132013B (zh) 一种车辆关键点检测方法
CN114913498A (zh) 一种基于关键点估计的并行多尺度特征聚合车道线检测方法
CN115345905A (zh) 目标对象跟踪方法、装置、终端及存储介质
CN116612468A (zh) 基于多模态融合与深度注意力机制的三维目标检测方法
CN117152228A (zh) 基于通道自注意力机制的自监督图像深度估计方法
CN110211190B (zh) 相机自运动参数估计模型的训练方法、装置及存储介质
JP6800901B2 (ja) 物体領域識別装置、物体領域識別方法およびプログラム
CN114648639B (zh) 一种目标车辆的检测方法、系统及装置
CN116129318A (zh) 一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法
CN115239559A (zh) 一种融合视图合成的深度图超分辨率方法及系统
EP4295271A1 (en) Apparatus, system and method for translating sensor label data between sensor domains
CN110059651B (zh) 一种相机实时跟踪注册方法
CN114155406A (zh) 一种基于区域级特征融合的位姿估计方法
CN113850293A (zh) 基于多源数据和方向先验联合优化的定位方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination