CN111563415B - 一种基于双目视觉的三维目标检测系统及方法 - Google Patents

一种基于双目视觉的三维目标检测系统及方法 Download PDF

Info

Publication number
CN111563415B
CN111563415B CN202010268413.3A CN202010268413A CN111563415B CN 111563415 B CN111563415 B CN 111563415B CN 202010268413 A CN202010268413 A CN 202010268413A CN 111563415 B CN111563415 B CN 111563415B
Authority
CN
China
Prior art keywords
target
dimensional
frame
dimensional target
center point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010268413.3A
Other languages
English (en)
Other versions
CN111563415A (zh
Inventor
李巍华
王子杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202010268413.3A priority Critical patent/CN111563415B/zh
Publication of CN111563415A publication Critical patent/CN111563415A/zh
Application granted granted Critical
Publication of CN111563415B publication Critical patent/CN111563415B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于双目视觉的三维目标检测系统及方法,包括特征提取模块、二维目标检测模块、三维目标检测模块和目标深度值计算模块,其中,特征提取模块用于从目标的左视图和右视图中获取左特征图和右特征图,二维目标检测模块用于通过左特征图和右特征图预测二维目标框,三维目标检测模块用于预测目标的类别、物理尺寸、朝向角以及投影中心点坐标,目标深度值计算模块用于计算目标深度,然后根据投影矩阵恢复目标真实的三维目标框。本发明解决了现有方法检测准确率低的问题,有较好的识别精度和速度。

Description

一种基于双目视觉的三维目标检测系统及方法
技术领域
本发明属于图像处理和自动驾驶领域的技术,具体涉及一种基于双目视觉的三维目标检测方法。
背景技术
在无人驾驶、机器人、增强现实等应用场景下,二维目标检测并不能提供感知环境所需要的全部信息,二维目标检测检测仅能提供目标在二维图片中的位置和对应类别的置信度,但是在真实的三维世界中,物体都是有三维形状的,大部分应用都需要有目标的空间坐标、物理尺寸以及偏转角等信息。例如在自动驾驶场景下,需要提供目标相对位置、物理尺寸及旋转角度等指标,从而帮助计算机确定自身和周围物体的位置关系,做出正确的运动交互和路径规划。
目前三维目标检测技术因应用场景丰富已成为研究热点,现有的方法主要分为三类:单目视觉、双目视觉以及激光点云算法。激光雷达扫描的点云数据可以直接得到深度信息,但由于激光雷达价格昂贵且环境适应性差,还不能大规模落地。相比于使用激光雷达系统,使用摄像机系统成本更低,但是需要进行图像点的反投影,计算点在空间中的位置。单目视觉由于图像投影过程中几何信息的丢失,定位三维目标显得十分困难,需要更多的假设条件或者先验信息来解决。双目视觉通过同步标定左右相机并采集左右图像,计算图像间的视差,来估计每一个像素的深度。现有的一些双目视觉的三维目标检测方法,如Xu等提出的Multi-Fusion三维目标检测算法主要使用独立的深度估计网络分支得到深度,计算费时且网络训练过程中需要真实的深度图信息,泛化能力较差(B.Xu and Z.Chen.Multi-level fusion based 3d object detection from monocular images.In IEEE CVPR,2018.)。Qin等基于双目几何模型提出了TLNet,其首先将左右视图分别提取特征,然后利用三维卷积进行三维目标框的直接回归,相比于将深度图作为附加输入的检测算法来说精度有所提高,但大量的三维卷积却带来了大量额外的计算量。
发明内容
为解决现有技术存在的上述问题,本发明提出一种基于双目视觉的三维目标检测系统及方法,通过准确检测出目标在左右视图中的中心投影点,然后通过中心投影点间的视差计算出目标深度值。与此同时,检测出目标的类别、物理尺寸以及朝向角。最终通过投影矩阵恢复出目标的真实三维目标框。本方法不需要额外的深度图信息且不涉及三维卷积,仅利用几何信息计算目标深度值,极大地减少了网络的计算量,提高了运行速度以及精度。
为了达到上述目的,本发明提供一种基于双目视觉的三维目标检测系统,包括特征提取模块、二维目标检测模块、三维目标检测模块和目标深度值计算模块,其中,特征提取模块用于从目标的左视图和右视图中获取左特征图和右特征图,二维目标检测模块用于通过左特征图和右特征图预测二维目标框,三维目标检测模块用于预测目标的类别、物理尺寸、朝向角以及投影中心点坐标,目标深度值计算模块用于计算目标深度,然后根据投影矩阵恢复目标真实的三维目标框。
本发明还提供了一种基于双目视觉的三维目标检测方法,包括:
将目标的左视图和右视图输入特征提取模块中,分别得到左特征图和右特征图,左特征图和右特征图通过通道叠加得到总特征图,
将总特征图输入到二维目标检测模块预测二维目标框,
三维目标检测模块根据二维目标框对目标的类别、角度、物理尺寸进行预测,并通过双目注意力机制对目标的投影中心点进行预测,
目标深度值计算模块计算目标深度,并根据投影矩阵恢复目标真实的三维目标框。
进一步地,将左视图和右视图输入特征提取模块前,先对所述三维目标检测方法进行训练,具体包括:
采用KITTI数据集进行训练,数据集中包含目标的左视图、右视图以及对于图像中目标的标注信息,
在获取目标中心投影点的真实坐标(X,Y,Z)时,由于数据集中目标空间坐标为目标底部中心坐标,所以目标中心坐标的Y需要减去目标高度的一半,然后通过投影矩阵P投影至左右视图像素坐标系中,得到目标的中心投影坐标(UL,VL,UR),其中U、V分别代表在像素坐标系的横坐标、纵坐标,L、R分别代表左视图、右视图,由于左右相机已经经过水平校准,所以VL=VR,VR为目标位于右视图中的纵坐标。
Figure BDA0002442223850000021
其中fx,fy为焦距;cx,cy为光心坐标;b为基线距离;X,Y,Z代表目标在左相机坐标系下的空间坐标。
进一步地,特征提取模块采用ResNet+FPN的网络架构,对ResNet各个尺寸残差块输出的特征图采用双线性插值进行上采样操作,使得上采样后的特征图具有与上一层特征图相同的大小,接着将上采样的结果和自下而上生成的特征图进行融合,得到一个新的特征图。为了提高目标检测精度特别是小目标的检测精度,本方法中特征提取模块采用了ResNet+FPN的网络架构。
进一步地,二维目标检测模块包括区域推荐网络,首先在特征图各个像素位置上预先设置不同尺寸大小的目标框,称为先验目标框,设置的长宽比例有0.5,1,2三种,先验目标框面积有322,642,1282,2562,5122共五种;其次,二维目标检测模块通过卷积层操作预测各个先验目标框的前景概率fg以及先验目标框对于真实目标框的偏差回归[dul,dv,dwl,dh,dur,dwr],其中u、v表示图像中二维目标框的中心坐标,w、h表示二维目标框的宽度和高度,下标l、r代表左视图或者右视图,基于左右视图已经进行水平校正处理,所以左右视图同一目标的dv和dh是一样的,对于生成的推荐目标框根据目标的前景概率fg以及目标间交并比进行非极大值抑制算法来减少冗余框,选择前2000个进行训练,选择前300个进行测试,真实目标框是指数据集中目标在图像中的真实坐标以宽高,推荐目标框是指先验目标框通过偏差回归计算得到的目标框,
所述真实目标框的偏差回归是按以下方式计算所得:
Figure BDA0002442223850000031
其中,G表示真实目标框,P表示先验目标框。
进一步地,三维目标检测模块进行预测前,先通过ROIAlign操作将二维目标检测模块输出的二维目标框所覆盖的特征图裁剪并将尺寸归一化为14x14用于目标类别、角度、物理尺寸的预测,另一分支将尺寸归一化为28x28用于目标的投影中心点的预测。
进一步地,三维目标检测模块包括类别、角度、物理尺寸和投影中心点四个预测分支,类别、角度、物理尺寸预测分支分别具有自己的预测网络,首先进行全局卷积将特征处理成[1,1,2048]形状,然后通过节点数为1024的全连接层,最后分别得到输出结果,
对于投影中心点的预测,将在二维目标检测模块中得到的二维目标框中心坐标作为目标投影中心点的先验值,预测结果为目标二维框中心坐标与目标投影中心点之间的偏差,投影中心点的的预测分支将尺寸为28x28的左右视图融合特征图作为输入,经过双目注意力机制学习左右视图特征,最终输出节点数为类别个数n*3,包括[dUL,dVL,dUR],
所述投影中心点的偏差回归是按以下方式计算所得:
Figure BDA0002442223850000041
其中,UL、VL、UR为真实投影中心点坐标,CUL、CVL、CUR为二维目标框中心坐标,Cw、Ch为二维目标框宽高,
上式中,二维目标框中心坐标需要通过二维目标检测模块中预测的坐标偏差计算得出:
CuL=Pw*dur+Pu,CuR=Pw*dur+Pu,CVL=Ph*dvr+Pv
Cw=Pw*edw,Ch=Ph*edh
进一步地,所述经过双目注意力机制学习左右视图特征,具体包括:将右相机特征图Mr转置后与左相机特征图Ml做矩阵乘法,并通过一个SoftMax层,得到右对左的视差注意力图Mr→l,并将其与通过1*1卷积后的右相机特征图Mr做矩阵乘法得到有效掩膜A,交换左右特征图重复上述步骤,得到有效掩膜B,然后将Mr、Ml、A、B通过卷积层进行融合,得到最终特征图以进行投影中心点的预测。
进一步地,所述目标深度值计算模块接收三维目标检测模块输出的类别、角度、物理尺寸以及投影中心点的偏差并以相应方式解码,最终得到目标的观测角度α和投影中心点坐标,
得出观测角度α后根据yaw=α-tan-1(-X/Z)得到目标的朝向角yaw,
得出目标的投影中心点坐标后,根据双目视觉几何模型进行目标深度的计算,得到目标深度Z后,根据投影矩阵以及投影中心点即可从图像像素坐标系反推回相机坐标系,得到目标基于相机坐标系的空间坐标(X,Y,Z),
根据目标的朝向角、物理尺寸以及空间坐标即可在图像坐标系中绘制出三维目标框。
进一步地,所述三维目标检测方法中的损失函数包括二维目标检测损失函数、三维目标检测损失函数以及左右视图光度损失函数三部分,其中二维目标检测损失由前景概率损失和二维目标框偏差回归损失组成,三维目标检测损失由分类损失和角度、物理尺寸、投影中心点回归损失组成,左右视图光度损失函数是用来训练三维目标检测模块中的双目注意力机制。
与现有技术相比,本发明能够实现的有益效果是:利用卷积神经网络有效提取左右图像信息进行目标的精确定位并使用双目视觉几何模型进行目标深度值的计算,不需要额外的深度图信息,极大地减少了网络的计算量,提高了运行速度以及精度。
附图说明
图1为本发明实施例提供的一种基于双目视觉的三维目标检测系统的示意图;
图2为本发明实施例中双目相机几何模型图。
图3为本发明实施例效果示意图。
图4为本发明实施例鸟瞰示意图。
具体实施方式
如图1所示,为本实施例提供的一种基于双目视觉的三维目标检测系统,其中包括:特征提取模块、二维目标检测模块、三维目标检测模块、目标深度值计算模块。首先,左右视图输入特征提取模块得到左右特征图,并将左右特征图堆叠输入二维目标检测模块预测二维目标框,然后连接三维目标检测模块预测目标的类别、物理尺寸、朝向角以及中心投影点坐标,最后通过目标深度值计算模块计算出目标深度并根据投影矩阵恢复目标真实三位目标框。
本实施例还提供一种基于双目视觉的三维目标检测方法,能够检测出车辆前方目标的空间位置、朝向以及物理尺寸,为车辆控制层和决策层提供数据信息,具体包括以下步骤:
第一步:运用现有数据库对本发明涉及三维目标检测方法进行训练,具体如下:
本方法采用KITTI数据集进行训练,该数据集数据包含左右视图以及对于图像中目标的标注信息:目标类别,如轿车、卡车、行人等;目标的观测角度α;目标的二维边界框坐标(xmin,ymin,xmax,ymax)为左上角坐标以及右下角坐标;目标在左相机坐标系下的空间坐标(X,Y,Z),单位为米;目标的物理尺寸(L,W,H),L,W,H分别代表长,宽,高;目标的朝向角yaw,目标朝向角与观测角度的关系为:yaw=α-tan-1(-X/Z)。
对于后续目标的中心投影点真实坐标获取,由于数据集中目标空间坐标为目标底部中心坐标,所以目标中心坐标的Y需要减去h/2,然后通过投影矩阵P投影至左右视图像素坐标系中,得到目标的中心投影坐标(UL,VL,UR),其中U代表在像素坐标系的横坐标,V代表在像素坐标系的纵坐标,由于左右相机已经经过水平校准,所以VL=VR,VR为目标位于右视图中的纵坐标,VL为目标位于左视图中的纵坐标。
Figure BDA0002442223850000051
其中fx,fy为焦距;cx,cy为光心坐标;b为基线距离,X,Y,Z代表目标在左相机坐标系下的空间坐标。
第二步:二维目标检测模块提取第一步训练后的特征提取模块输出的各尺寸特征图作为输入,通过卷积层预测每个先验目标框anchor为前景的概率fg以及目标分别位于左右视图的坐标。
为了提高目标检测精度特别是小目标的检测精度,本方法中特征提取模块采用了ResNet+FPN的网络架构,即对ResNet各个尺寸残差块输出的特征图采用双线性插值进行上采样操作,使得上采样后的特征图具有与上一层特征图相同的大小,接着将上采样的结果和自下而上生成的特征图进行融合,即将卷积神经网络中生成的对应层的特征图进行1×1的卷积操作,得到一个新的特征图,这个特征图融合了不同层的特征,具有更丰富的信息。最终输出尺寸为32x32,64x64,128x128,256x256,512x512共五种尺寸规格的特征图。
二维目标检测模块主要由区域推荐网络(RPN)构成,将左右视图经上述特征提取模块得到的特征图通过通道叠加得到的总特征图作为输入,首先在总特征图各个像素位置上预先设置不同尺寸大小的目标框,称为先验目标框anchor,设置的长宽比例有0.5,1,2三种,先验目标框面积有322,642,1282,2562,5122共五种;然后经过一系列卷积层操作预测各个anchor的前景概率fg以及anchor对于真实目标框的偏差回归[dul,dv,dwl,dh,dur,dwr],其中u、v表示图像中二维目标框的中心坐标,w、h表示二维目标框的宽度和高度,下标l、r代表左视图或者右视图。基于左右视图已经进行水平校正处理,所以左右视图同一目标的dv和dh是一样的。对于生成的推荐目标框根据目标的前景概率fg以及目标间交并比进行非极大值抑制算法来减少冗余框,选择前2000个进行训练,选择前300个进行测试。真实目标框是指数据集中目标在图像中的真实坐标以宽高,推荐目标框是指先验目标框通过偏差回归计算得到的目标框。
上述所提及的真实目标框偏差回归是按以下方式计算所得:
Figure BDA0002442223850000061
其中G表示真实目标框,P表示先验目标框。
第三步:三维目标检测模块首先通过ROIAlign操作将二维目标检测模块输出的二维目标框所覆盖的特征图裁剪并将尺寸归一化为14x14用于目标类别、角度、物理尺寸的预测,将尺寸归一化为28x28用于目标的投影中心点预测。
上述的ROIAlign操作是指采用双线性插值的方式进行尺寸归一化。
上述将尺寸为14x14特征图作为输入的部分中共有目标类别、角度、物理尺寸三个预测分支。每个预测分支都具有自己的预测网络,首先进行全局卷积将特征处理成[1,1,2048]形状,然后通过节点数为1024的全连接层,最后得到输出结果。目标类别预测分支输出节点为类别个数n;角度预测分支输出节点为类别个数n*2,由[cosα,sinα]组成;物理尺寸预测分支输出节点为类别个数n*3,由[dL,dW,dH]组成。
在本实施例中,由于同类别目标的物理尺寸方差偏小,所以对于目标物理尺寸的预测是基于同类别平均尺寸进行的。首先计算出数据集中每一类别的平均尺寸,然后预测分支输出对于平均尺寸的偏差值,则最终的目标物理尺寸为
Figure BDA0002442223850000073
上述关于目标投影中心点的预测分支将尺寸为28x28的左右视图融合特征图作为输入,经过双目注意力机制学习左右视图特征,最终输出节点数为类别个数n*3,由[dUL,dVL,dUR]组成。对于目标的投影中心点预测,将在二维目标检测模块中得到的二维目标框中心坐标作为目标投影中心点的先验值,预测结果为二维目标框中心坐标与目标投影中心点之间的偏差。
上述所提及的目标投影中心点的偏差回归是按以下方式计算所得:
Figure BDA0002442223850000071
其中UL、VL、UR为真实投影中心点坐标,CUL、CVL、CUR为二维目标框中心坐标,Cw、Ch为二维目标框宽高。
上式中的二维目标框中心坐标需要通过二维目标检测模块中预测的坐标偏差计算得出:
CUL=Pw*dul+Pu,CUR=Pw*dur+Pu,CvL=Ph*dvl+Pv
Cw=Pw*edw,Ch=Ph*edh
上述的双目注意力机制是指以左右视图同一水平面即极线为搜索空间,通过矩阵乘法,捕捉左右特征图中任意两个位置之间的相互作用。具体操作为将右相机特征图Mr转置后与左相机特征图Ml做矩阵乘法,并通过一个SoftMax层,得到右对左的视差注意力图Mr→l,并将其与通过1*1卷积后的右相机特征图Mr做矩阵乘法得到有效掩膜A,交换左右特征图重复上述步骤,得到有效掩膜B,然后将Mr、Ml、A、B通过卷积层进行融合,得到最终特征图以进行投影中心点的预测。
第四步:目标深度值计算模块接收三维目标检测模块输出的目标类别、角度、物理尺寸以及投影中心点的偏差并以相应方式解码,其中
Figure BDA0002442223850000072
UL=Cw*dUL+CuL,VL=Ch*dVL+CVL,UR=Cw*dUR+CUR
得出目标的投影中心点坐标后,按照如图2所示的双目视觉几何模型进行目标深度的计算。根据几何模型可得:Z=fb/d,其中d为视差,d=UL-UR。f为焦距,b为基线距离。得到目标的深度Z后,根据第一步中所述的投影矩阵P以及目标的投影中心点即可从图像像素坐标系反推回相机坐标系,得到目标基于相机坐标系的空间坐标(X,Y,Z),本系统是基于左侧相机建立相机坐标系。本系统通过预测目标的观测角度α,而目标的朝向角可根据观测角度以及目标空间坐标进行计算:yaw=α-tan-1(-X/Z)。根据目标的朝向角、物理尺寸以及空间坐标即可在图像坐标系中绘制出三维目标框。
本实施例中的三维目标检测系统采用端对端的训练方式,即将经过图像像素中心化的左右视图以及真实标注信息输入系统中,二维目标检测模块输出二维目标框坐标以及宽高偏差,接着三维目标检测模块输出目标的类别,角度、物理尺寸以及投影中心点的偏差。
本系统中的损失函数包括二维目标检测损失函数、三维目标检测损失函数以及左右视图光度损失函数三部分,其中二维目标检测损失由前景概率损失和二维目标框偏差回归损失组成,即:
Figure BDA0002442223850000081
其中,Ncls为网络训练中设定的推荐区域选取数,设为512;Nreg为二维目标检测模块中正负样本总数,μ为权重超参,设为1。fgi为网络输出的前景概率,fgi *为目标真实标签中的前景概率,每个目标都是前景,所以概率为1。di为偏差值,包括左右中心坐标以及宽高等六个数值,di *为真实标签中的偏差值。i代表推荐区域。
Figure BDA0002442223850000085
采用的是交叉熵损失,/>
Figure BDA0002442223850000086
采用的是Smooth-L1损失。
三维目标检测损失由分类损失和角度、物理尺寸、投影中心点回归损失组成,即:
Figure BDA0002442223850000082
其中,p表示目标类别概率,pi *表示目标真实类别,α表示目标预测角度,αi *表示目标真实角度,d表示物理尺寸偏差,di *表示目标真实尺寸与平均尺寸的差值,c表示投影中心点偏差,ci *表示目标真实投影中心点坐标与二维目标框中心坐标的偏差值,
Figure BDA0002442223850000083
表示各部分损失函数权重值。/>
Figure BDA0002442223850000084
采用的是交叉熵损失,其余采用Smooth-L1损失。
左右视图光度损失函数是用来训练三维目标检测模块中的双目注意力机制部分的,其表达式如下:
Lpm=∑l→r||Il(ui,vi)-(Mr→l*Ir(ui,vi))||+∑r→l||Ir(ui,vi)-(Ml→r*Il(ui,vi))||
其中Il、Ir表示左右特征图上的像素值。
本系统网络训练期间,设置batch为1,即每次训练输入一对左右视图,采集512个RoI。使用Adam算法进行网络的训练优化,并设置Adam超参数β1、β2分别为0.9和0.999。学习率初始值为0.001,共训练20个epoch。
训练完毕的三维目标检测系统接收左右视图对作为输入,并在进入特征提取模块前进行图像像素中心化并将图像较短边尺寸调整为600,接着送入特征提取模块进行不同尺寸特征图的生成,然后二维目标检测模块根据anchor预测出目标概率以及二维目标框坐标,相应区域的特征图进入三维目标检测模块进行目标类别、角度、物理尺寸以及投影中心点的预测。最终,通过目标深度值计算模块得出目标的空间坐标以及三维目标框,最终三维目标框效果如图3所示,鸟瞰图如图4所示。
上述仅为本发明的优选实施例,不是用来限制发明的实施与权利范围,凡依据本发明申请专利保护范围所述的内容做出的等效变化、修饰、替换等,均应包括在本发明申请专利范围内。本领域技术人员将认识到在不脱离本发明的范围和精神的情况下,可在更广阔的各方面中进行改变和修改。

Claims (5)

1.一种基于双目视觉的三维目标检测方法,其特征在于,包括:
将目标的左视图和右视图输入特征提取模块中,分别得到左特征图和右特征图,左特征图和右特征图通过通道数维度上叠加得到总特征图,
将总特征图输入到二维目标检测模块预测二维目标框,
三维目标检测模块根据二维目标框对目标的类别、角度和物理尺寸进行预测,并通过双目注意力机制对目标的投影中心点进行预测,
目标深度值计算模块计算目标深度,并根据投影矩阵恢复目标真实的三维目标框;三维目标检测模块进行预测前,先通过ROIAlign操作将二维目标检测模块输出的二维目标框所覆盖的特征图裁剪并将尺寸归一化为14x14用于目标类别、角度、物理尺寸的预测,另一分支将尺寸归一化为28x28用于目标的投影中心点的预测;三维目标检测模块包括类别、角度、物理尺寸和投影中心点四个预测分支,类别、角度、物理尺寸预测分支分别具有自己的预测网络,网络首先进行全局卷积将特征处理成[1,1,2048]形状,然后通过节点数为1024的全连接层进行信息传递,最后分别得到输出结果,
对于投影中心点的预测,将在二维目标检测模块中得到的二维目标框中心坐标作为目标投影中心点的先验值,预测结果为目标二维框中心坐标与目标投影中心点之间的偏差,投影中心点的预测分支将尺寸为28x28的左右视图融合特征图作为输入,经过双目注意力机制学习左右视图特征,最终输出节点数为类别个数n*3,类别个数包括[dUL,dVL,dUR],
所述投影中心点的偏差回归是按以下方式计算所得:
Figure FDA0004119952530000011
其中,UL、VL、UR为真实投影中心点坐标,CUL、CVL、CUR为二维目标框中心坐标,Cw、Ch为二维目标框宽高,
上式中,二维目标框中心坐标需要通过二维目标检测模块中预测的坐标偏差计算得出:
CUL=Pw*dul+Pu,CuR=Pw*dur+Pu,CVL=Ph*dvl+Pv
Cw=Pw*edw,Ch=Ph*edh
所述经过双目注意力机制学习左右视图特征,具体包括:将右相机特征图Mr转置后与左相机特征图Ml做矩阵乘法,并通过一个SoftMax层,得到右对左的视差注意力图Mr→l,并将其与通过1*1卷积后的右相机特征图Mr做矩阵乘法得到有效掩膜A,交换左右特征图重复上述步骤,得到有效掩膜B,然后将Mr、Ml、A、B通过卷积层进行融合,得到最终特征图以进行投影中心点的预测;所述目标深度值计算模块接收三维目标检测模块输出的类别、角度、物理尺寸以及投影中心点的偏差并以相应方式解码,最终得到目标的观测角度α和投影中心点坐标,
得出观测角度α后根据yaw=α-tan-1(-X/Z)得到目标的朝向角yaw,
得出目标的投影中心点坐标后,根据双目视觉几何模型进行目标深度的计算,得到目标深度Z后,根据投影矩阵以及投影中心点即可从图像像素坐标系反推回相机坐标系,得到目标基于相机坐标系的空间坐标(X,Y,Z),
根据目标的朝向角、物理尺寸以及空间坐标即在图像坐标系中绘制出三维目标框;
所述三维目标检测方法中的损失函数包括二维目标检测损失函数、三维目标检测损失函数以及左右视图光度损失函数三部分,其中二维目标检测损失包括前景概率损失和二维目标框偏差回归损失,三维目标检测损失包括分类损失和角度、物理尺寸和投影中心点回归损失,左右视图光度损失函数是用来训练三维目标检测模块中的双目注意力机制。
2.根据权利要求1所述的一种基于双目视觉的三维目标检测方法,其特征在于:在使用所述三维目标检测方法进行测试之前,先对其进行训练,具体包括:
采用KITTI数据集进行训练,数据集中包含目标的左视图、右视图以及对于图像中目标的标注信息,
在获取目标中心投影点的真实坐标(X,Y,Z)时,由于数据集中目标空间坐标为目标底部中心坐标,所以目标中心坐标的Y需要减去目标高度的一半,然后通过投影矩阵P投影至左右视图像素坐标系中,得到目标的中心投影坐标(UL,VL,UR),其中U、V分别代表在像素坐标系的横坐标、纵坐标,L、R分别代表左视图、右视图,由于左右相机已经经过水平校准处理,所以VL=VR,VR为目标位于右视图中的纵坐标,
Figure FDA0004119952530000021
其中,fx,fy为焦距;cx,cy为光心坐标;b为基线距离;X,Y,Z代表目标在左相机坐标系下的空间坐标。
3.根据权利要求1所述的一种基于双目视觉的三维目标检测方法,其特征在于:特征提取模块采用ResNet+FPN的网络架构,对ResNet各个尺寸残差块输出的特征图采用双线性插值进行上采样操作,使得上采样后的特征图具有与上一层特征图相同的大小,接着将上采样的结果和自下而上生成的特征图进行融合,得到一个新的特征图。
4.根据权利要求1所述的一种基于双目视觉的三维目标检测方法,其特征在于:二维目标检测模块包括区域推荐网络,首先在特征图各个像素位置上预先设置不同尺寸大小的目标框,称为先验目标框,设置的长宽比例有0.5,1,2三种,先验目标框面积有322,642,1282,2562,5122共五种;其次,二维目标检测模块通过卷积层操作预测各个先验目标框的前景概率fg以及先验目标框对于真实目标框的偏差回归[dul,dv,dwl,dh,dur,dwr],其中u、v表示图像中二维目标框的中心坐标,w、h表示二维目标框的宽度和高度,下标l、r代表左视图或者右视图,基于左右视图已经进行水平校正处理,所以左右视图同一目标的dv和dh是一样的,对于生成的推荐目标框根据目标的前景概率fg以及目标间交并比进行非极大值抑制算法来减少冗余框,选择前2000个进行训练,选择前300个进行测试,真实目标框是指数据集中目标在图像中的真实坐标以宽高,推荐目标框是指先验目标框通过偏差回归计算得到的目标框,
所述真实目标框的偏差回归是按以下方式计算所得:
Figure FDA0004119952530000031
(请补充说明红色字母的含义)
其中,G表示真实目标框,P表示先验目标框。
5.实现权利要求1-4任一项所述一种基于双目视觉的三维目标检测方法的三维目标检测系统,其特征在于:包括特征提取模块、二维目标检测模块、三维目标检测模块和目标深度值计算模块,其中,特征提取模块用于从目标的左视图和右视图中获取左特征图和右特征图,二维目标检测模块用于通过左特征图和右特征图预测二维目标框,三维目标检测模块用于预测目标的类别、物理尺寸、朝向角以及投影中心点坐标,目标深度值计算模块用于计算目标深度,然后根据投影矩阵恢复目标真实的三维目标框。
CN202010268413.3A 2020-04-08 2020-04-08 一种基于双目视觉的三维目标检测系统及方法 Active CN111563415B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010268413.3A CN111563415B (zh) 2020-04-08 2020-04-08 一种基于双目视觉的三维目标检测系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010268413.3A CN111563415B (zh) 2020-04-08 2020-04-08 一种基于双目视觉的三维目标检测系统及方法

Publications (2)

Publication Number Publication Date
CN111563415A CN111563415A (zh) 2020-08-21
CN111563415B true CN111563415B (zh) 2023-05-26

Family

ID=72072999

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010268413.3A Active CN111563415B (zh) 2020-04-08 2020-04-08 一种基于双目视觉的三维目标检测系统及方法

Country Status (1)

Country Link
CN (1) CN111563415B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112056301A (zh) * 2020-09-15 2020-12-11 河海大学常州校区 一种变电站自主侦测驱鸟系统
CN112489186B (zh) * 2020-10-28 2023-06-27 中汽数据(天津)有限公司 一种自动驾驶双目数据感知方法
CN112330693B (zh) * 2020-11-13 2023-12-29 北京伟景智能科技有限公司 一种煤矸石检测方法及系统
CN112381106B (zh) * 2020-11-28 2022-09-09 南京理工大学 基于全局区域先验注意力的目标检测方法
CN112614191B (zh) * 2020-12-16 2024-05-24 江苏智库智能科技有限公司 基于双目深度相机的装卸位置检测方法、装置和系统
CN112529960A (zh) * 2020-12-17 2021-03-19 珠海格力智能装备有限公司 目标对象的定位方法、装置、处理器和电子装置
CN112686865B (zh) * 2020-12-31 2023-06-02 重庆西山科技股份有限公司 一种3d视图辅助检测方法、系统、装置及存储介质
CN112766151B (zh) * 2021-01-19 2022-07-12 北京深睿博联科技有限责任公司 一种用于导盲眼镜的双目目标检测方法和系统
CN112837362A (zh) * 2021-01-28 2021-05-25 清华大学深圳国际研究生院 获取空间定位的三维人体姿态估计方法及计算机可读存储介质
CN113111718B (zh) * 2021-03-16 2024-06-21 北京航科威视光电信息技术有限公司 一种基于多模态遥感图像细粒度弱特征目标涌现检测方法
CN113128434B (zh) * 2021-04-27 2023-11-21 南京大学 一种对单目rgb图像进行3d目标检测的方法
CN113282088A (zh) * 2021-05-21 2021-08-20 潍柴动力股份有限公司 工程车的无人驾驶方法、装置、设备、存储介质及工程车
CN115205846A (zh) * 2022-06-28 2022-10-18 安徽蔚来智驾科技有限公司 三维目标检测方法、计算机设备、存储介质及车辆
CN116740334B (zh) * 2023-06-23 2024-02-06 河北大学 一种基于双目视觉和改进yolo的无人机入侵检测定位方法
CN117589065A (zh) * 2023-11-20 2024-02-23 河北工程大学 一种针对异形轴接口尺寸的检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110070025A (zh) * 2019-04-17 2019-07-30 上海交通大学 基于单目图像的三维目标检测系统及方法
CN110689008A (zh) * 2019-09-17 2020-01-14 大连理工大学 一种面向单目图像的基于三维重建的三维物体检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110070025A (zh) * 2019-04-17 2019-07-30 上海交通大学 基于单目图像的三维目标检测系统及方法
CN110689008A (zh) * 2019-09-17 2020-01-14 大连理工大学 一种面向单目图像的基于三维重建的三维物体检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
闫兴 ; 曹禹 ; 王晓楠 ; 朱立夫 ; 王君 ; 何文浩 ; .眼科手术机器人双目视觉标定方法研究.工具技术.2019,(12),第99-103页. *

Also Published As

Publication number Publication date
CN111563415A (zh) 2020-08-21

Similar Documents

Publication Publication Date Title
CN111563415B (zh) 一种基于双目视觉的三维目标检测系统及方法
CN111462135B (zh) 基于视觉slam与二维语义分割的语义建图方法
CN111862126B (zh) 深度学习与几何算法结合的非合作目标相对位姿估计方法
CN112396650B (zh) 一种基于图像和激光雷达融合的目标测距系统及方法
Varga et al. Super-sensor for 360-degree environment perception: Point cloud segmentation using image features
CN111429514A (zh) 一种融合多帧时序点云的激光雷达3d实时目标检测方法
EP4066160A1 (en) Method and system for lane detection
CN108648194B (zh) 基于cad模型三维目标识别分割和位姿测量方法及装置
CN115049700A (zh) 一种目标检测方法及装置
CN111998862B (zh) 一种基于bnn的稠密双目slam方法
CN112801074A (zh) 一种基于交通摄像头的深度图估计方法
EP3293700A1 (en) 3d reconstruction for vehicle
CN114972968A (zh) 基于多重神经网络的托盘识别和位姿估计方法
CN115359474A (zh) 适用于移动端的轻量级三维目标检测方法、装置及介质
CN110443228B (zh) 一种行人匹配方法、装置、电子设备及存储介质
CN115222884A (zh) 一种基于人工智能的空间对象分析及建模优化方法
CN115115917A (zh) 基于注意力机制和图像特征融合的3d点云目标检测方法
CN113012191B (zh) 一种基于点云多视角投影图的激光里程计算法
Cigla et al. Image-based visual perception and representation for collision avoidance
CN116403186A (zh) 基于FPN Swin Transformer与Pointnet++ 的自动驾驶三维目标检测方法
CN114648639B (zh) 一种目标车辆的检测方法、系统及装置
CN114898144A (zh) 一种基于相机和毫米波雷达数据的自动对齐方法
Lu et al. A geometric convolutional neural network for 3d object detection
Yao et al. Robust method for static 3d point cloud map building using multi-view images with multi-resolution
Berrio et al. Semantic sensor fusion: From camera to sparse LiDAR information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant