CN110688905A - 一种基于关键帧的三维物体检测与跟踪方法 - Google Patents

一种基于关键帧的三维物体检测与跟踪方法 Download PDF

Info

Publication number
CN110688905A
CN110688905A CN201910818311.1A CN201910818311A CN110688905A CN 110688905 A CN110688905 A CN 110688905A CN 201910818311 A CN201910818311 A CN 201910818311A CN 110688905 A CN110688905 A CN 110688905A
Authority
CN
China
Prior art keywords
frame
frames
dimensional
data
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910818311.1A
Other languages
English (en)
Other versions
CN110688905B (zh
Inventor
黄凯
郭叙森
许子潇
郭思璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Sun Yat Sen University
Original Assignee
National Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Sun Yat Sen University filed Critical National Sun Yat Sen University
Priority to CN201910818311.1A priority Critical patent/CN110688905B/zh
Publication of CN110688905A publication Critical patent/CN110688905A/zh
Application granted granted Critical
Publication of CN110688905B publication Critical patent/CN110688905B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于关键帧的三维物体检测与跟踪方法,通过输入包含点云数据和图像数据的相邻两关键帧,首先使用特征提取网络对数据进行特征提取分别得到特征图,然后将特征图输入候选框提取网络得到两关键帧共享的候选框;之后通过共享候选框截取特征图相应特征进行特征融合,回归得到三维预测框;然后使用共享候选框截取特征图进行特征互相关得到相关特征,回归得到物体三维框在两关键帧的偏移量;通过插值算法得到所有帧的检测结果之后,对所有帧物体框进行关联,得到跟踪结果。本发明利用了流数据的冗余性,通过只对关键帧预测,大大减少了计算量,并且能够利用时序信息改善检测结果,提升了检测速度和更好的追踪目标。

Description

一种基于关键帧的三维物体检测与跟踪方法
技术领域
本发明涉及三维目标检测和追踪领域,更具体地,涉及一种基于关键帧的三维物体检测与跟踪方法。
背景技术
目前自动驾驶与视觉感知任务主要分为基于图像,基于点云以及基于图像与点云融合,具体为:
1.基于图像的方法中主要以Mono3D,3DOP等为代表,由于图像数据没有深度信息,因此需要加入额外手工设计的三维特征。然而,单一的RGB数据以及特定的手工设计的特征不利于神经网络有效地学习3D空间信息,也限制这场景的扩展。此外,手工特征的获取一般耗时过长,这类方法目前效果有限,进展缓慢。
2.基于点云的方案可以细分为三个子分支:
①直接在点云上使用3DCNN进行物体检测。例如3DFCN和Vote3Deep等,这类方法先将点云数据结构化(一般为三维的voxel),然后使用三维卷积提取特征。由于点云十分稀疏,且三维卷积需要在三个维度上进行,检测过程极其耗时。另外,高耗时限制了感受野的大小,使得传统的3DCNN不能很好地学习不同尺度的局部特征。②另一种方案是针对点云提出特定的网络结构,如VoxelNet将点云划分成Voxel等结构单元,在非空的结构单元上采用网络提取特征。最近,随着PointNet,PointNet++,PointCNN,PointSIFT,OctNet,DynamicGraphCNN等模型的提出,研究的重心转移至从无序点云数据中更有效地学习空间几何表示的方法探究。以PointNet为例,基于点云数据的置换不变性与旋转不变性,该工作提出了对称函数的概念。使用全连接网络和池化层拟合对称函数,能够高校地提取点云特征。然而,由于这类方法使用全连接层,一般需要对所有点进行处理,因此运用到大型场景(点云数据非常多)时速度还有待提升。③以PIXOR,FaF以及Complex-YOLO为代表的工作将点云投影到某一平面,例如前视图和鸟瞰图。这种映射过程存在某一维度的信息损失,但由于自动驾驶场景下几乎所有物体都位于同一平面上,因此信息损失对检测结果的影响极小。此方法将3DCNN简化为2DCNN,减小了算法的空间和时间复杂度,使实时检测成为可能。然而由于点云的稀疏性,投影后的目标点很少,造成特征信息不足,特别是对小目标以及远处物体的检测,效果很不理想。
3.基于图像和点云融合的方案。这类方法将图像丰富的纹理信息以及点云的深度信息进行融合,代表性的工作有MV3D,FusingBEV&FV,AVOD,F-PointNet等。前三者将点云映射到某一或几个平面,并选择性地加入手动设计的特征,然后与RGB图像融合。其中MV3D在深网络层进行融合,而FusingBEV&FV提出在RPN之前进行融合会取得更好的检测效果。这类方法需要额外模块融合数据,导致模型运行速度降低,很难满足实时性。通过减少手工设计的特征的输入,AVOD能够达到一定的实时性。另一方面,F-PointNet先在图像数据上使用2D目标检测获取2D定位框,然后投影到三维空间获得对应的视场锥,最后使用PointNet对视场锥内的点云进行语义分割,最终获得目标的三维定位框。该方法缺点是精度受限于2D目标检测过程,并且对于遮挡等情况效果不佳。
发明内容
本发明为克服上述现有技术中对于流数据也只能用单帧数据检测的方法,而且针对现有技术速度慢且效果差导致难以处理多目标追踪的问题,提供一种基于关键帧的三维物体检测与跟踪方法,利用时序信息预测轨迹的出现与消失情况,能够很好的处理多目标追踪。
为解决上述技术问题,本发明采用的技术方案是:提供一种基于关键帧的三维物体检测与跟踪方法,包括以下步骤:
步骤一:输入前后两帧由点云数据和图像数据组成的关键帧数据,对数据进行预处理,其中的点云数据在俯视图方向上投影结构转化成BEV图;
步骤二:将步骤一中的两关键帧数据进行特征提取,得到两关键帧特征图,分别为图像特征图和点云特征图;
步骤三:将步骤一中的两关键帧数据输入共享区域提取网络模块,生成能被两个关键帧共享的共享候选框集合;
步骤四:步骤三中的候选框在所述特征图提取候选框特征,然后送入分类网络与框回归网络,得到物体的类别以及三维框位置;
步骤五:步骤三中的共享候选框分别提取两关键帧的BEV图特征块,送入追踪模块提取对应候选框的相关特征,然后输入偏移回归网络得到两关键帧对应物体的三维框的偏移量;
步骤六:根据物体的三维框和三维框对应的偏移量,运用插值法得到两个关键帧数据之间的其他帧数据的物体的三维框,从而得到所有帧中的物体的三维检测结果;
步骤七:根据检测结果,对所有帧数据对应的物体相互关联,得到跟踪结果。
优选的,在所述步骤一中,对图像数据进行归一化,然后裁剪到1200x360px;对点云数据,取范围在[-40,40]x[0,70]x[0,2.5]m内的点,然后去除掉在图像范围外的点值。由于车辆本身在运动,不同帧的参考系不一样,所以为了能够学习到正确的位置偏移,需要将两个关键帧的数据变换在同一坐标系下,变换矩阵可以通过IMU数据计算。我们使用基于投影的点云数据编码方式将点云编码为大小800x700x6的张量。首先将点云有效三维空间网格化成800x700x5的三维张量,张量中每个元素对应着三维区域0.1x0.1x0.5的小长方体,元素的值为小长方体内所有点高度的最大值,如果小长方体内没有点,则值为0。考虑到不同小长方体内点的个数不一样,新增加一个密度通道,其值为min(1.0,log(N+1)/log16)(N为小长方体内点的总数)。
优选的,在所述步骤二中,所述特征提取基于VGG16的结构并加入特征金字塔结构,对两个关键帧图像数据进行数据提取,分别得到点云特征图和图像特征图。
优选的,在所述步骤三中,将两关键帧各自生成的候选框合并为轴对齐的候选框,即生成可被两关键帧共享的共享候选框集合。生成的候选框集合经过全连接层得到每个候选框区域对应的坐标值和类别以及置信度,再经过非极大值抑制筛选掉重叠度高的候选框,最后选择置信度较高的若干预测值,对应着若干个候选框的预测结果。输入共享区域提取网络模块的点云数据有5帧,包括两关键帧以及两关键帧之间的所有非关键帧,由于点云数据是三维的,我们将这5帧点云变换到同一坐标系中,然后进行投影编码得到集成的BEV特征。由于点云的稀疏性以及使用了投影编码,该阶段不会增加任何计算量。而由于图像数据有很高的冗余性,因此我们只使用第一帧图像的特征。在训练阶段由于点云数据集成了5帧的信息,由于物体在移动,所以正样本区域要比之前的大,因此真值框也要相应的扩大。我们直接在5帧数据的真值框基础上生成轴对齐标签,将不同帧的对应物体全部包含。
优选的,在所述步骤四中,所述候选框分别在点云特征图和图像特征图上截取相应的特征块,调整至相同大小后经过多视角融合后通过全连接网络分类和回归,得到对应物体的三维框。
优选的,在所述步骤五中,追踪模块首先分别对每一对点云BEV特征做相关操作,提取两关键帧特征在同一候选框区域的特征的相关性,然后再通过全连接网络预测目标的位置偏移以及存在性;目标的位置偏移的编码方式为:
Figure BDA0002186879240000041
Figure BDA0002186879240000042
Figure BDA0002186879240000043
式子中,Ft和Ft+τ为前后两关键帧的输入,
Figure BDA0002186879240000044
为关键帧t的目标,
Figure BDA0002186879240000045
为关键帧t+τ的目标,Δt,t+τ为目标位置的偏移,
Figure BDA0002186879240000046
为目标在BEV平面上的中心点坐标偏移,为目标在BEV平面上的长宽偏移,
Figure BDA0002186879240000048
为目标在BEV平面上的转向角偏移。如果该物体同时在两关键帧中出现,则长宽的变化量为0,这是因为目标为刚性的,其形状不会随着时间变化而变化。追踪模块只需要预测物体的中心点位置偏移以及转向角变化。如果该物体只出现在某一帧,则物体位置变化以及转向角变化为0,而长宽变化显著。如果物体只出现在第一帧,则长宽变化都为-1,如果只出现在第二帧则为1。通过这种编码方式模型能检测轨迹的出现与消失,从而更好的配合插值算法工作。
优选的,在所述步骤六中,首先使用数据关联算法将两关键帧的三维框关联,相互关联的三维框表示为同一物体在两帧的位置,成功关联的物体,运用插值法得到所有帧中的物体的三维检测结果;关联失败的三维框,预设物体长宽变化阀值,根据预设的物体长宽变化阈值,物体长宽变化低于阀值,则根据位置的变化计算出物体在两关键帧的位置,最后运用线性插值生成中间帧的结果;物体长宽变化高于阀值,根据运动模型计算出物体的临界位置,然后进行线性插值生成中间帧的结果。
8.根据权利要求7所述的一种基于关键帧的三维物体检测与跟踪方法,其特征在于,所述运动模型的公式为:
x,Δz}={|ad|sin(ry),|ad|cos(ry)}
式子中,|ad|为物体中心点在前后两关键帧的真实偏移,|bc|为前一关键帧物体中心点在其运动方向上距离边界的距离,|cd|为后一关键帧物体中心点在去运动方向上距离边界的距离,w分别为物体的宽和长,ry为物体的转向角、z轴正方向为0度,角度按顺时针方向增大,△x、△z分别为物体在x轴方向与z轴方向的偏移量。
优选的,在所述步骤六中,得到所有帧的检测结果后,使用数据关联算法关联不同帧的三维框;具体为先设定一个重叠程度阈值,如果前后两帧图像的物体三维框的重叠程度超过该阈值,则判断为同一物体,相反,则认为不是同一物体。
与现有技术相比,有益效果是:
1.本发明利用流式数据之间存在信息冗余的特点,只需对关键帧进行目标检测,其余帧的检测框通过插值生成,能够加快流数据检测的速度,改善了现有三维目标检测网络对连续场景数据检测时间过长,无法达到自动驾驶环境对实时性的要求的问题。
2.本发明所提出的三维物体检测方法准确率高。由于同时融合了点云信息与图像信息,两者优劣互补。相对于只用图像的物体检测方法,本发明融合了点云的深度数据,且能够处理物体遮挡的情况;相对于只基于点云的三维物体检测方法,本发明融合了图像丰富的纹理信息,弥补了点云数据的稀疏性所造成的信息缺失,特别是对于远处物体以及小物体基本没有点云数据的情况下,能够有效的降低漏检率。
3.本发明的两关键帧共用同一套候选框,不但能够减少计算量,还能有针对性的利用时序信息。特别是在追踪模块中,通过只在对应候选框区域的特征进行相关操作,大大减少了相关卷积的计算量,提供检测的速度。
4.本发明提供一种基于运动模型的插值算法,能够准确的生成非关键帧的物体检测框。特别是当物体在某一帧未检出的情况,我算法提供了一种判断是漏检还是轨迹出现或终止的方法,为解决多目标追踪中物体消失等问题提出了一套可靠的解决方案。
附图说明
图1是本发明的流程图;
图2为本发明的运动模型的示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明,不能理解为对本专利的限制。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”“长”“短”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
下面通过具体实施例,并结合附图,对本发明的技术方案作进一步的具体描述:
实施例
如图1所示为一种基于关键帧的三维物体检测与跟踪方法的是实施例,包括以下步骤:
步骤一:输入前后两帧由点云数据和图像数据组成的关键帧数据,对数据进行预处理,其中的点云数据在俯视图方向上投影结构转化成BEV图;预处理为对图像数据进行归一化,然后裁剪到1200x360px;对点云数据,取范围在[-40,40]x[0,70]x[0,2.5]m内的点,然后去除掉在图像范围外的点值。由于车辆本身在运动,不同帧的参考系不一样,所以为了能够学习到正确的位置偏移,需要将两个关键帧的数据变换在同一坐标系下,变换矩阵可以通过IMU数据计算。我们使用基于投影的点云数据编码方式将点云编码为大小800x700x6的张量。首先将点云有效三维空间网格化成800x700x5的三维张量,张量中每个元素对应着三维区域0.1x0.1x0.5的小长方体,元素的值为小长方体内所有点高度的最大值,如果小长方体内没有点,则值为0。考虑到不同小长方体内点的个数不一样,新增加一个密度通道,其值为min(1.0,log(N+1)/log16)(N为小长方体内点的总数)。
步骤二:将步骤一中的两关键帧数据进行特征提取,特征提取基于VGG16的结构并加入特征金字塔结构,对两个关键帧图像数据进行数据提取,分别得到点云特征图和图像特征图。
步骤三:将步骤一中的两关键帧数据输入共享区域提取网络模块,两关键帧各自生成的候选框合并为轴对齐的候选框,该候选框为被两关键帧共享的共享候选框集合。生成的共享候选框集合经过全连接层得到每个候选框区域对应的坐标值和类别以及置信度,再经过非极大值抑制筛选掉重叠度高的候选框,最后选择置信度较高的若干预测值,对应着若干个候选框的预测结果。输入共享区域提取网络模块的点云数据有5帧,包括两关键帧以及两关键帧之间的所有非关键帧,由于点云数据是三维的,我们将这5帧点云变换到同一坐标系中,然后进行投影编码得到集成的BEV特征。由于点云的稀疏性以及使用了投影编码,该阶段不会增加任何计算量。而由于图像数据有很高的冗余性,因此我们只使用第一帧的特征。在训练阶段由于点云数据集成了5帧的信息,由于物体在移动,所以正样本区域要比之前的大,因此真值框也要相应的扩大。我们直接在5帧数据的真值框基础上生成轴对齐标签,将不同帧的对应物体全部包含。
步骤四:步骤三中的共享候选框在所述特征图提取候选框特征,然后送入分类网络与框回归网络,得到物体的类别以及三维框位置。
步骤五:步骤三中的共享候选框分别提取两关键帧的BEV图特征块,送入追踪模块提取对应候选框的相关特征,然后输入偏移回归网络得到两关键帧对应物体的三维框的偏移量;
具体的,追踪模块首先分别对每一对特征做相关操作,提取两关键帧特征在同一候选框区域的特征的相关性,然后再通过全连接层预测目标的位置偏移以及存在性;目标的位置偏移的编码方式为:
Figure BDA0002186879240000081
Figure BDA0002186879240000082
Figure BDA0002186879240000083
式子中,Ft和Ft+τ为前后两关键帧的输入,
Figure BDA0002186879240000084
为关键帧t的目标,
Figure BDA0002186879240000085
为关键帧t+τ的目标,Δt,t+τ为目标位置的偏移,
Figure BDA0002186879240000086
为目标在BEV平面上的中心点坐标偏移,
Figure BDA0002186879240000091
为目标在BEV平面上的长宽偏移,
Figure BDA0002186879240000092
为目标在BEV平面上的转向角偏移。如果该物体同时在两关键帧中出现,则长宽的变化量为0,这是因为目标为刚性的,其形状不会随着时间变化而变化。追踪模块只需要预测物体的中心点位置偏移以及转向角变化。如果该物体只出现在某一帧,则物体位置变化以及转向角变化为0,而长宽变化显著。如果物体只出现在第一帧,则长宽变化都为-1,如果只出现在第二帧则为1。通过这种编码方式模型能检测轨迹的出现与消失,从而更好的配合插值算法工作。
步骤六:根据物体的三维框和三维框对应的偏移量,运用插值法得到两个关键帧数据之间的其他帧数据的物体的三维框,从而得到所有帧中的物体的三维检测结果;首先使用数据关联算法将两关键帧的三维框关联,相互关联的三维框表示为同一物体在两帧的位置,成功关联的物体,运用插值法得到所有帧中的物体的三维检测结果;关联失败的三维框,预设物体长宽变化阀值(阀值为0.3),根据预设的物体长宽变化阈值,物体长宽变化低于阀值,则根据位置的变化计算出物体在两关键帧的位置,最后运用线性插值生成中间帧的结果;物体长宽变化高于阀值,根据运动模型计算出物体的临界位置,然后进行线性插值生成中间帧的结果。
另外的,如图2所示,运动模型的公式为:
Figure BDA0002186879240000093
x,Δz}={|ad|sin(ry),|ad|cos(ry)}
式子中,|ad|为物体中心点在前后两关键帧的真实偏移,|bc|为前一关键帧物体中心点在其运动方向上距离边界的距离,|cd|为后一关键帧物体中心点在去运动方向上距离边界的距离,w分别为物体的宽和长,ry为物体的转向角、z轴正方向为0度,角度按顺时针方向增大,△x、△z分别为物体在x轴方向与z轴方向的偏移量。
步骤7:根据检测结果,对所有帧数据对应的物体相互关联,得到跟踪结果。具体为有帧的检测结果后,使用数据关联算法关联不同帧的三维框;具体为先设定一个重叠程度阈值(阀值为0.8),如果前后两帧图像的物体三维框的重叠程度超过该阈值,则判断为同一物体,相反,则认为不是同一物体。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (9)

1.一种基于关键帧的三维物体检测与跟踪方法,其特征在于,包括如下步骤:
步骤一:输入前后两帧由点云数据和图像数据组成的关键帧数据,对数据进行预处理,其中的点云数据在俯视图方向上投影结构转化成BEV图;
步骤二:将步骤一中的两关键帧数据进行特征提取,分别得到两关键帧的特征图,分别为点云特征图和图像特征图;
步骤三:将步骤一中的两关键帧数据输入共享区域提取网络模块,生成能被两个关键帧共享的共享候选框集合;
步骤四:步骤三中的共享候选框在所述特征图提取候选框特征,然后送入分类网络与框回归网络,得到物体的类别以及三维框位置;
步骤五:步骤三中的共享候选框分别提取两关键帧的BEV图特征块,送入追踪模块提取对应候选框的相关特征,然后输入偏移回归网络得到两关键帧对应物体的三维框的偏移量;
步骤六:根据物体的三维框和三维框对应的偏移量,运用插值法得到两个关键帧数据之间的其他帧数据的物体的三维框,从而得到所有帧中的物体的三维检测结果;
步骤七:根据检测结果,对所有帧数据对应的物体相互关联,得到跟踪结果。
2.根据权利要求1所述的一种基于关键帧的三维物体检测与跟踪方法,其特征在于,在所述步骤一中,对图像数据进行归一化,然后裁剪到1200x360px;对点云数据,取范围在[-40,40]x[0,70]x[0,2.5]m内的点,然后去除掉在图像范围外的点值。
3.根据权利要求2所述的一种基于关键帧的三维物体检测与跟踪方法,其特征在于,在所述步骤二中,所述特征提取基于VGG16的结构并加入特征金字塔结构,对两个关键帧图像数据进行数据提取,分别得到点云特征图和图像特征图。
4.根据权利要求3所述的一种基于关键帧的三维物体检测与跟踪方法,其特征在于,在所述步骤三中,将两关键帧各自生成的候选框合并为轴对齐的候选框,即生成可被两关键帧共享的候选框集合。
5.根据权利要求4所述的一种基于关键帧的三维物体检测与跟踪方法,其特征在于,在所述步骤四中,所述候选框分别在点云特征图和图像特征图上截取相应的特征块,调整至相同大小后经过多视角融合后通过全连接网络分类和回归,得到对应物体的三维框。
6.根据权利要求5所述的一种基于关键帧的三维物体检测与跟踪方法,其特征在于,在所述步骤五中,追踪模块首先分别对每一对点云BEV特征做相关操作,提取两关键帧特征在同一候选框区域的特征相关性,然后再通过全连接网络测目标的位置偏移以及存在性;目标的位置偏移的编码方式为:
Figure FDA0002186879230000021
式子中,Ft和Ft+τ为前后两关键帧的输入,
Figure FDA0002186879230000024
为关键帧t的目标,
Figure FDA0002186879230000025
为关键帧t+τ的目标,Δt,t+τ为目标位置的偏移,
Figure FDA0002186879230000026
为目标在BEV平面上的中心点坐标偏移,
Figure FDA0002186879230000027
为目标在BEV平面上的长宽偏移,
Figure FDA0002186879230000028
为目标在BEV平面上的转向角偏移。
7.根据权利要求6所述的一种基于关键帧的三维物体检测与跟踪方法,其特征在于,在所述步骤六中,首先使用数据关联算法将两关键帧的三维框关联,相互关联的三维框表示为同一物体在两帧的位置,成功关联的物体,运用插值法得到所有帧中的物体的三维检测结果;关联失败的三维框,预设物体长宽变化的阀值,根据预设的物体长宽变化阈值,物体长宽变化低于阀值,则根据位置的变化计算出物体在两关键帧的位置,最后运用线性插值生成中间帧的结果;物体长宽变化高于阀值,根据运动模型计算出物体的临界位置,然后进行线性插值生成中间帧的结果。
8.根据权利要求7所述的一种基于关键帧的三维物体检测与跟踪方法,其特征在于,所述运动模型的公式为:
Figure FDA0002186879230000031
x,Δz}={|ad|sin(ry),|ad|cos(ry)}
式子中,|ad|为物体中心点在前后两关键帧的真实偏移,|bc|为前一关键帧物体中心点在其运动方向上距离边界的距离,|cd|为后一关键帧物体中心点在去运动方向上距离边界的距离,w分别为物体的宽和长,ry为物体的转向角、z轴正方向为0度,角度按顺时针方向增大,△x、△z分别为物体在x轴方向与z轴方向的偏移量。
9.根据权利要求1所述的一种基于关键帧的三维物体检测与跟踪方法,其特征在于,在所述步骤六中,得到所有帧的检测结果后,使用数据关联算法关联不同帧的三维框;具体为先设定一个重叠程度阈值,如果前后两帧图像的物体三维框的重叠程度超过该阈值,则判断为同一物体,相反,则认为不是同一物体。
CN201910818311.1A 2019-08-30 2019-08-30 一种基于关键帧的三维物体检测与跟踪方法 Active CN110688905B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910818311.1A CN110688905B (zh) 2019-08-30 2019-08-30 一种基于关键帧的三维物体检测与跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910818311.1A CN110688905B (zh) 2019-08-30 2019-08-30 一种基于关键帧的三维物体检测与跟踪方法

Publications (2)

Publication Number Publication Date
CN110688905A true CN110688905A (zh) 2020-01-14
CN110688905B CN110688905B (zh) 2023-04-18

Family

ID=69107634

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910818311.1A Active CN110688905B (zh) 2019-08-30 2019-08-30 一种基于关键帧的三维物体检测与跟踪方法

Country Status (1)

Country Link
CN (1) CN110688905B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101360A (zh) * 2020-11-17 2020-12-18 浙江大华技术股份有限公司 一种目标检测方法、装置以及计算机可读存储介质
CN113052031A (zh) * 2021-03-15 2021-06-29 浙江大学 一种无需后处理操作的3d目标检测方法
CN113177969A (zh) * 2021-04-29 2021-07-27 哈尔滨工程大学 一种基于运动方向变化的候选种子的点云单目标跟踪方法
CN114119671A (zh) * 2021-12-01 2022-03-01 清华大学 一种基于遮挡补偿的立体空间信息融合的多目标跟踪方法
TWI758205B (zh) * 2020-07-28 2022-03-11 大陸商浙江商湯科技開發有限公司 目標檢測方法、電子設備和電腦可讀儲存介質
CN115049130A (zh) * 2022-06-20 2022-09-13 重庆邮电大学 一种基于时空金字塔的自动驾驶轨迹预测方法
CN115474047A (zh) * 2022-09-13 2022-12-13 福州大学 一种基于增强映射图相关性LiDAR点云编码方法及解码方法
CN115496977A (zh) * 2022-09-14 2022-12-20 北京化工大学 一种基于多模态序列数据融合的目标检测方法及装置
CN117593685A (zh) * 2024-01-19 2024-02-23 福思(杭州)智能科技有限公司 真值数据的构建方法和装置、存储介质
CN115049130B (zh) * 2022-06-20 2024-06-04 重庆邮电大学 一种基于时空金字塔的自动驾驶轨迹预测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077804A (zh) * 2014-06-09 2014-10-01 广州嘉崎智能科技有限公司 一种基于多帧视频图像构建三维人脸模型的方法
US20160005228A1 (en) * 2013-05-01 2016-01-07 Legend3D, Inc. Method of converting 2d video to 3d video using 3d object models
US9478033B1 (en) * 2010-08-02 2016-10-25 Red Giant Software Particle-based tracking of objects within images
CN109242873A (zh) * 2018-08-22 2019-01-18 浙江大学 一种基于消费级彩色深度相机对物体进行360度实时三维重建的方法
CN109636854A (zh) * 2018-12-18 2019-04-16 重庆邮电大学 一种基于line-mod模板匹配的增强现实三维跟踪注册方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9478033B1 (en) * 2010-08-02 2016-10-25 Red Giant Software Particle-based tracking of objects within images
US20160005228A1 (en) * 2013-05-01 2016-01-07 Legend3D, Inc. Method of converting 2d video to 3d video using 3d object models
CN104077804A (zh) * 2014-06-09 2014-10-01 广州嘉崎智能科技有限公司 一种基于多帧视频图像构建三维人脸模型的方法
CN109242873A (zh) * 2018-08-22 2019-01-18 浙江大学 一种基于消费级彩色深度相机对物体进行360度实时三维重建的方法
CN109636854A (zh) * 2018-12-18 2019-04-16 重庆邮电大学 一种基于line-mod模板匹配的增强现实三维跟踪注册方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄凯,等: ""手机 ADAS:基于 OpenCL 的车道线检测应用评估"", 《电子技术应用》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI758205B (zh) * 2020-07-28 2022-03-11 大陸商浙江商湯科技開發有限公司 目標檢測方法、電子設備和電腦可讀儲存介質
CN112101360A (zh) * 2020-11-17 2020-12-18 浙江大华技术股份有限公司 一种目标检测方法、装置以及计算机可读存储介质
CN113052031B (zh) * 2021-03-15 2022-08-09 浙江大学 一种无需后处理操作的3d目标检测方法
CN113052031A (zh) * 2021-03-15 2021-06-29 浙江大学 一种无需后处理操作的3d目标检测方法
CN113177969A (zh) * 2021-04-29 2021-07-27 哈尔滨工程大学 一种基于运动方向变化的候选种子的点云单目标跟踪方法
CN113177969B (zh) * 2021-04-29 2022-07-15 哈尔滨工程大学 一种基于运动方向变化的候选种子的点云单目标跟踪方法
CN114119671A (zh) * 2021-12-01 2022-03-01 清华大学 一种基于遮挡补偿的立体空间信息融合的多目标跟踪方法
CN115049130A (zh) * 2022-06-20 2022-09-13 重庆邮电大学 一种基于时空金字塔的自动驾驶轨迹预测方法
CN115049130B (zh) * 2022-06-20 2024-06-04 重庆邮电大学 一种基于时空金字塔的自动驾驶轨迹预测方法
CN115474047A (zh) * 2022-09-13 2022-12-13 福州大学 一种基于增强映射图相关性LiDAR点云编码方法及解码方法
CN115496977A (zh) * 2022-09-14 2022-12-20 北京化工大学 一种基于多模态序列数据融合的目标检测方法及装置
CN117593685A (zh) * 2024-01-19 2024-02-23 福思(杭州)智能科技有限公司 真值数据的构建方法和装置、存储介质
CN117593685B (zh) * 2024-01-19 2024-04-26 福思(杭州)智能科技有限公司 真值数据的构建方法和装置、存储介质

Also Published As

Publication number Publication date
CN110688905B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN110688905B (zh) 一种基于关键帧的三维物体检测与跟踪方法
US20210150747A1 (en) Depth image generation method and device
CN108648161B (zh) 非对称核卷积神经网络的双目视觉障碍物检测系统及方法
CN110570457B (zh) 一种基于流数据的三维物体检测与跟踪方法
CN111832655A (zh) 一种基于特征金字塔网络的多尺度三维目标检测方法
CN110706269B (zh) 一种基于双目视觉slam的动态场景密集建模方法
CN110910437B (zh) 一种复杂室内场景的深度预测方法
CN103020606A (zh) 一种基于时空上下文信息的行人检测方法
CN111340922A (zh) 定位与地图构建的方法和电子设备
CN104331901A (zh) 一种基于tld的多视角目标跟踪装置及方法
CN104794737A (zh) 一种深度信息辅助粒子滤波跟踪方法
CN109063549A (zh) 基于深度神经网络的高分辨率航拍视频运动目标检测方法
CN112651423A (zh) 一种智能视觉系统
CN112446882A (zh) 一种动态场景下基于深度学习的鲁棒视觉slam方法
US7602966B2 (en) Image processing method, image processing apparatus, program and recording medium
CN117456136A (zh) 一种基于多模态视觉识别的数字孪生场景智能生成方法
Yang et al. [Retracted] A Method of Image Semantic Segmentation Based on PSPNet
CN110516527A (zh) 一种基于实例分割的视觉slam回环检测改进方法
Wen et al. Dynamic SLAM: A Visual SLAM in Outdoor Dynamic Scenes
CN107358624B (zh) 单目稠密即时定位与地图重建方法
Hong et al. Self-supervised monocular depth estimation via two mechanisms of attention-aware cost volume
CN112069997B (zh) 一种基于DenseHR-Net的无人机自主着陆目标提取方法及装置
CN113920254A (zh) 一种基于单目rgb的室内三维重建方法及其系统
Yasarla et al. Futuredepth: Learning to predict the future improves video depth estimation
Hu et al. Monocular 3D Object Detection with Motion Feature Distillation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant