CN115063789B - 基于关键点匹配的3d目标检测方法及装置 - Google Patents

基于关键点匹配的3d目标检测方法及装置 Download PDF

Info

Publication number
CN115063789B
CN115063789B CN202210574052.4A CN202210574052A CN115063789B CN 115063789 B CN115063789 B CN 115063789B CN 202210574052 A CN202210574052 A CN 202210574052A CN 115063789 B CN115063789 B CN 115063789B
Authority
CN
China
Prior art keywords
dimensional
edge
target
image
sides
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210574052.4A
Other languages
English (en)
Other versions
CN115063789A (zh
Inventor
张兆翔
李颖彦
陈韫韬
何嘉伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202210574052.4A priority Critical patent/CN115063789B/zh
Publication of CN115063789A publication Critical patent/CN115063789A/zh
Application granted granted Critical
Publication of CN115063789B publication Critical patent/CN115063789B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/12Acquisition of 3D measurements of objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于关键点匹配的3D目标检测方法及装置,其中方法包括:对二维图像进行目标检测,得到二维图像所包含目标的各关键点的二维坐标和三维坐标;基于各关键点的二维坐标和三维坐标,确定目标的各二维边和各三维边;对目标进行深度估计,得到各二维边和各三维边对应的候选深度;基于目标的各二维边的边特征和各三维边的边特征之间的差异,确定各二维边与各三维边之间的相似度;基于各二维边和各三维边对应的候选深度,以及各二维边与各三维边之间的相似度,确定目标的目标深度;基于目标的目标深度,进行3D目标检测。在此基础上,将得到的目标深度应用于目标检测,能够保证目标检测的可靠性和准确性。

Description

基于关键点匹配的3D目标检测方法及装置
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于关键点匹配的3D目标检测方法及装置。
背景技术
单目三维检测在智能驾驶以及避障导航等多种技术中的应用,吸引了大量的关注。然而,由于单目三维检测是针对二维图像的检测,图像深度信息的缺乏为单目三维检测带来了困难。
目前,存在多种方式在二维图像的基础上估计物体的三维位置,例如应用预先训练好的深度估计器进行深度估计,或者应用几何约束对物体的二维/三维边进行回归,从而估计物体深度。
其中,基于深度估计器的方式需要额外的训练数据,成本较高;而基于几何约束的方式,则由于几何约束不充分,常会产生多个候选深度,遂通过求平均确定最终的物体深度,但是多个候选深度的质量高低不定,直接求平均同样影响物体深度的准确性和可靠性。
发明内容
本发明提供一种基于关键点匹配的3D目标检测方法及装置,用以解决现有技术中单目三维检测中物体深度信息不准确、不可靠的问题。
本发明提供一种基于关键点匹配的3D目标检测方法,包括:
对二维图像进行目标检测,得到所述二维图像所包含目标的各关键点的二维坐标和三维坐标;
基于所述各关键点的二维坐标和三维坐标,确定所述目标的各二维边和各三维边;
对所述目标进行深度估计,得到所述各二维边和各三维边对应的候选深度;
基于所述目标的各二维边的边特征和各三维边的边特征之间的差异,确定各二维边与各三维边之间的相似度;
基于所述各二维边和各三维边对应的候选深度,以及所述各二维边与各三维边之间的相似度,确定所述目标的目标深度;
基于所述目标的目标深度,进行3D目标检测。
根据本发明提供的一种基于关键点匹配的3D目标检测方法,所述基于所述目标的各二维边的边特征和各三维边的边特征之间的差异,确定各二维边与各三维边之间的相似度,包括:
基于边匹配模型中的特征提取层,分别提取所述各二维边的边特征和所述各三维边的边特征;
基于边匹配模型的相似度计算层,应用所述各二维边的边特征和所述各三维边的边特征之间的差异构建边差异矩阵,并应用所述边差异矩阵确定所述各二维边与各三维边之间的相似度;
所述边匹配模型是基于样本图像所包含的样本目标的各二维边和各三维边的标签匹配关系训练得到的。
根据本发明提供的一种基于关键点匹配的3D目标检测方法,所述边匹配模型基于如下步骤训练得到:
确定初始模型;
基于所述初始模型,应用所述样本图像所包含的样本目标的各二维边和各三维边,确定所述样本目标的样本边差异矩阵;
基于所述样本边差异矩阵确定所述样本目标的各二维边和各三维边的预估匹配关系;
基于所述预估匹配关系和所述标签匹配关系,对所述初始模型进行参数迭代,得到所述边匹配模型。
根据本发明提供的一种基于关键点匹配的3D目标检测方法,所述对二维图像进行目标检测,得到所述二维图像所包含目标的各关键点的二维坐标和三维坐标,包括:
对所述二维图像进行特征提取,得到图像特征;
对所述图像特征进行关键点提取,得到所述二维图像所包含目标的各关键点的二维坐标和三维坐标。
根据本发明提供的一种基于关键点匹配的3D目标检测方法,所述对所述二维图像进行特征提取,得到图像特征,之后还包括:对所述图像特征进行二维目标检测,得到所述二维图像中所包含目标的二维位置;对所述图像特征进行三维目标检测,得到所述二维图像中所包含的目标的三维尺寸和三维姿态。
根据本发明提供的一种基于关键点匹配的3D目标检测方法,所述对所述目标进行深度估计,得到所述各二维边和各三维边对应的候选深度,包括:基于所述目标的二维位置、三维尺寸、三维姿态和所述目标的各二维边和各三维边,对所述目标进行深度估计,得到所述各二维边和各三维边对应的候选深度。
本发明还提供一种基于关键点匹配的3D目标检测装置,包括:
坐标确定单元,用于对二维图像进行目标检测,得到所述二维图像所包含目标的各关键点的二维坐标和三维坐标;
边确定单元,用于基于所述各关键点的二维坐标和三维坐标,确定所述目标的各二维边和各三维边;
候选深度确定单元,用于对所述目标进行深度估计,得到所述各二维边和各三维边对应的候选深度;
相似度确定单元,用于基于所述目标的各二维边的边特征和各三维边的边特征之间的差异,确定各二维边与各三维边之间的相似度;
目标深度确定单元,用于基于所述各二维边和各三维边对应的候选深度,以及所述各二维边与各三维边之间的相似度,确定所述目标的目标深度;
目标检测单元,用于基于所述目标的目标深度,进行3D目标检测。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于关键点匹配的3D目标检测方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于关键点匹配的3D目标检测方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于关键点匹配的3D目标检测方法。
本发明提供一种基于关键点匹配的3D目标检测方法及装置,基于目标的各二维边的边特征和各三维边的边特征之间的差异,确定各二维边与各三维边之间的相似度,此相似度是基于边匹配模型确定的,且边匹配模型是基于样本图像所包含的样本目标的各二维边和各三维边的标签匹配关系训练得到的,还进行了参数迭代,由此得到的边匹配模型有着优良的性能。基于各二维边和各三维边对应的候选深度,以及各二维边与各三维边之间的相似度进行加权求和,确定目标的目标深度,从而使得估计的目标深度很准确、很可靠,其结果可以在单目三维检测中进行广泛应用。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于关键点匹配的3D目标检测方法的流程示意图之一;
图2是本发明提供的基于关键点匹配的3D目标检测方法中步骤140的流程示意图之一;
图3是本发明提供的边匹配模型的训练流程示意图;
图4是本发明提供的基于关键点匹配的3D目标检测方法中步骤140的流程示意图之二;
图5是本发明提供的二维图像生成候选深度的流程示意图之一;
图6是本发明提供的基于关键点匹配的3D目标检测方法的流程示意图之二;
图7是本发明提供的基于关键点匹配的3D目标检测装置的结构示意图;
图8是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
深度估计是计算机视觉一个重要的研究问题,深度估计是对图像深度信息的提取,深度信息反映了几何信息,是理解三维几何问题的重要组成部分。
深度估计包括多目深度估计、双目深度估计以及单目深度估计,多目深度估计是通过对同一场景采用计算机阵列进行图像采集,利用视点图像之间出现冗余信息来进行深度信息的计算,能够获得较为准确的深度信息;双目深度估计是仿照人的双眼对深度感知,利用左右视差进行三角测距,而单目深度估计是基于单视点图像的深度估计,由于单视点图像在生活中应用广泛,因此,单目深度估计更贴近于实际应用的需求,但是单目深度估计是针对二维图像的检测,图像深度信息的缺乏为单目深度估计带来了困难,预测出的深度图,其准确性还需进一步提升。
考虑到这一问题,本发明实施例提供了一种基于关键点匹配的3D目标检测方法。图1是本发明提供的基于关键点匹配的3D目标检测方法的流程示意图之一,如图1所示,该方法包括:
步骤110,对二维图像进行目标检测,得到二维图像所包含目标的各关键点的二维坐标和三维坐标。
具体地,二维图像是指不包含深度信息的平面图像,是需要进行单目三维检测的图像,图像包含有需要进行单目三维检测的目标,例如车辆、路障、交通道路标志牌等,本发明实施例对此不作具体限定。
相应地,可以通过对二维图像做目标检测,得到其中包含目标的关键点的一系列二维坐标和三维坐标,此处,目标的关键点可以是多个,例如目标是车辆的情况,关键点可以是车辆的车头、车灯、后视镜等,本发明实施例对此不作具体限定。
针对二维图像所包含目标的关键点而言,二维坐标是指二维图像中的关键点在二维坐标系下的坐标,三维坐标是指以目标中心点为坐标原点构建的三维坐标系下,关键点在三维坐标系中的坐标。
步骤120,基于各关键点的二维坐标和三维坐标,确定目标的各二维边和各三维边。
具体地,针对各关键点的二维坐标而言,可以对二维图像中的各关键点进行两两连线,由此得到多个二维边,此处的二维边是以关键点的二维坐标为端点连接的,此处的端点是线段的起点或终点。
针对各关键点的三维坐标而言,可以对二维图像中的各关键点在三维坐标系中进行两两连线,由此得到多个二维边,此处的三维边是以关键点的三维坐标为端点连接的,此处的端点是线段的起点或终点。
需要说明的是,通过上述方式得到的各二维边和各三维边,是数量一致,且一一对应的,例如N个关键点,对应K条二维边、K条三维边,K=N(N-1)/2。并且,相对应的各二维边和各三维边可以理解为,两个关键点的二维坐标之间的连线和三维坐标之间的联系,相对应的二维边和三维边的端点是相同的。
步骤130,对目标进行深度估计,得到各二维边和各三维边对应的候选深度。
具体地,候选深度可以根据几何约束的方式,由任意一组对应的二维边和三维边通过全方位深度估计器(Dense Depth Estimator,DDE)求解出。需要说明的是,此处候选深度的数量与各二维边和三维边的数量保持一致,且与各二维边和各三维边一一对应,例如,二维边i和三维边i对应一个候选深度,此处的二维边i是指两个关键点的二维坐标之间的连线,三维边i是指相同的两个关键点的三维坐标之间的连线。
步骤140,基于目标的各二维边的边特征和各三维边的边特征之间的差异,确定各二维边与各三维边之间的相似度。
具体地,针对步骤120中确定的各二维边、各三维边,可以分别进行特征提取,从而得到边特征,此处的边特征可以反映边在空间上的特征。
具体地,将各二维边、各三维边分别放入二维特征提取器、三维特征提取器中,分别得到二维边特征F2d、三维边特征F3d,此处的二维特征提取器、三维特征提取器都可以是具有内容归一化的多层感知器。
在得到各二维边、各三维边的边特征的基础上,就可以计算各二维边、各三维边的边特征的差异,此处的差异可以是通过各二维边、各三维边的边特征相减得到的,也可以是通过计算各二维边、各三维边的边特征之间的相似度得到的。在得到各二维边、各三维边的边特征的差异之后,即可由此确定各二维边、各三维边的边特征之间的相似度。以二维边i和三维边i为例,二维边i和三维边i的边特征的差异越大,相似度越小;二维边i和三维边i的边特征的差异越小,相似度越大。
步骤150,基于各二维边和各三维边对应的候选深度,以及各二维边与各三维边之间的相似度,确定目标的目标深度。
具体地,步骤140中确定的各二维边、各三维边的边特征之间的相似度,可以反映各二维边和三维边的匹配情况,进而可以反映基于各二维边和三维边的匹配情况确定的候选深度的可靠性,各二维边、各三维边的边特征之间的相似度越高,则各二维边和三维边越匹配,相应地,各二维边和各三维边对应的候选深度的质量越可靠;各二维边、各三维边的边特征之间的相似度越低,则各二维边和三维边越不匹配,相应地,各二维边和各三维边对应的候选深度的质量越不可靠。因此,可以将相似度作为候选深度质量的评判依据,具体应用时,可以将相似度作为权重,与各二维边和各三维边对应的候选深度进行加权求和,得到目标的目标深度。
步骤160,基于所述目标的目标深度,进行3D目标检测。
具体地,基于目标的目标深度以及对图像特征进行二维目标检测得到的二维图像所包含的目标的二维位置,即可进行3D目标检测,此处的3D目标检测可以反映目标的各关键点的二维位置和目标的深度信息。
本发明实施例提供的方法,将各二维边与各三维边之间的相似度,作为各二维边和各三维边对应的候选深度的质量的评判依据,由此确定的目标深度,能够保证基于关键点匹配的3D目标检测的可靠性和准确性。
基于上述实施例,图2是本发明提供的基于关键点匹配的3D目标检测方法中步骤140的流程示意图之一,如图2所示,步骤140包括:
步骤141,基于边匹配模型中的特征提取层,分别提取各二维边的边特征和各三维边的边特征;
步骤142,基于边匹配模型的相似度计算层,应用各二维边的边特征和各三维边的边特征之间的差异构建边差异矩阵,并应用边差异矩阵确定各二维边与各三维边之间的相似度;
边匹配模型是基于样本图像所包含的样本目标的各二维边和各三维边的标签匹配关系训练得到的。
具体地,可以通过边匹配模型计算各二维边、各三维边的边特征之间的相似度,这里的边匹配模型,可以反映各二维边和三维边的匹配情况。本发明实施例中,边匹配模型包括特征提取层和相似度计算层。
其中的特征提取层,可以分别提取各二维边的边特征和各三维边的边特征,此处的特征提取,可以是将各二维边、各三维边分别输入特征提取层的二维特征提取器、三维特征提取器中,分别得到二维边特征F2d、三维边特征F3d,此处的二维特征提取器、三维特征提取器,均可以是具有内容归一化功能的多层感知器;
其中的相似度计算层,可以计算各二维边的边特征和各三维边的边特征之间的差异,以二维边i和三维边j为例,二维边i和三维边j的边特征分别为二维边特征三维边特征/>就可以计算二维边特征/>三维边特征/>之间的差异,此处的差异可以是通过各二维边、各三维边的边特征相减得到的,也可以是通过计算各二维边、各三维边的边特征之间的相似度得到的,计算完二维边特征/>三维边特征/>之间的差异,就可以构建边差异矩阵Mij,其中,/> M∈RK×K,K是N个关键点对应的二维边、三维边的数量,K=N(N-1)/2。再取边差异矩阵Mij对角线上的元素,并将对角线上的元素取倒数后,就可以确定各二维边与各三维边之间的相似度w∈RK×1,其中wi代表二维边i和三维边i的相似程度。
在执行步骤140之前,需要先训练得到可用于计算各二维边与各三维边之间的相似度的边匹配模型。对此,本发明实施例应用样本图像所包含的样本目标的各二维边和各三维边的标签匹配关系对边匹配模型进行有监督训练,模型的训练可以基于如下步骤实现:
收集大量样本图像,此处的样本图像可以是车辆图像、路障图像、交通道路标志牌图像等,本发明实施例对此不作具体限定。然后,对收集到的样本图像进行标注,具体为样本图像所包含的样本目标标注三维语义关键点,此处的三维语义关键点是样本图像所包含的样本目标的一些关键点,并且能够反映关键点的二维坐标和三维坐标,例如目标是车辆的情况,三维语义关键点可以是车辆的车头、车灯、后视镜等,本发明实施例对此不作具体限定。由样本目标标注的三维语义关键点,就可以得到样本图像所包含的样本目标的各二维边和各三维边的标签匹配关系,然后将各二维边和各三维边的标签匹配关系作为标签,对模型进行训练,得到关于各二维边和各三维边标签匹配关系的边匹配模型。
基于上述实施例,图3是本发明提供的边匹配模型的训练流程示意图,如图3所示,边匹配模型是基于如下步骤训练得到的:
步骤310,确定初始模型;
步骤320,基于所述初始模型,应用所述样本图像所包含的样本目标的各二维边和各三维边,确定所述样本目标的样本边差异矩阵;
步骤330,基于所述样本边差异矩阵确定所述样本目标的各二维边和各三维边的预估匹配关系;
步骤340,基于所述预估匹配关系和所述标签匹配关系,对所述初始模型进行参数迭代,得到所述边匹配模型。
具体地,为了实现更好地提升边匹配模型的边匹配效果,本发明实施例设置了初始模型,并基于初始模型,对各二维边和各三维边的匹配关系进行预估,此处的初始模型的参数可以是随机生成的,也可以是预先设置的,随即,根据预估匹配关系和标签匹配关系计算Binary Entropy Loss,并据此对初始模型进行参数迭代,得到边匹配模型。这里的边匹配模型是有监督模型,对比无监督学习输出结果的伪标签,边匹配模型以预估匹配关系和标签匹配关系作为标签,更容易获得更加真实的边匹配模型,并且训练效率更高。
基于上述实施例,图4是本发明提供的基于关键点匹配的3D目标检测方法中步骤140的流程示意图之二,如图4所示,步骤110包括:
步骤111,对所述二维图像进行特征提取,得到图像特征;
具体地,首先将二维图像归一化至统一的大小,此处的二维图像的大小可以是1280×380×3像素,也可以是640×480×3,还可以是1024×768×3,本发明实施例对此不作具体限定。然后将归一化的二维图像输入到一个深度全卷积神经网络Backbone中,由此得到图像特征。
步骤112,对图像特征进行关键点提取,得到二维图像所包含目标的各关键点的二维坐标和三维坐标。
具体地,在目标检测的过程中,可以将图像特征输入到检测网络进行关键点提取,得到二维图像所包含目标的各关键点的二维坐标和三维坐标,此过程可以仅应用检测网络中的二维关键点检测分支和三维关键点检测分支。其中,二维关键点检测分支用于检测二维图像所包含目标的各关键点的二维坐标,三维关键点检测分支用于检测二维图像所包含目标的各关键点的三维坐标。
基于上述实施例,步骤111之后还包括:
对图像特征进行二维目标检测,得到二维图像中所包含目标的二维位置;
对图像特征进行三维目标检测,得到二维图像中所包含的目标的三维尺寸和三维姿态。
具体地,对二维图像进行目标检测所应用的检测网络可以包括二维检测位置分支,三维尺寸检测分支,三维姿态检测分支,二维关键点检测分支以及三维关键点检测分支。其中,二维位置检测分支,用于检测二维图像中目标的二维中心点位置以及边界框;三维尺寸检测分支,用于检测二维图像中目标的三维尺寸;三维姿态检测分支,用于检测二维图像中目标相对于相机的旋转角度;二维关键点检测分支,用于检测目标上的关键点在二维图像上的坐标;三维关键点检测分支,用于检测目标上的关键点,在以目标中心点为坐标原点构建的三维坐标系下,关键点在三维坐标系中的坐标。
对二维图像进行特征提取,得到图像特征之后,也可以通过将图像特征输入到检测网络,对图像特征进行二维目标检测,得到二维图像中所包含目标的二维位置,此过程用到检测网络中的二维检测位置分支,用于检测二维图像中目标的二维中心点位置以及边界框,此处的二维中心点位置是指二维图像所包含的目标中心点所对应的关键点在二维坐标系下的坐标,此处的边界框是指可以包含二维图像所包含的目标所对应的所有关键点的矩形框;还可以通过将图像特征输入到检测网络,对图像特征进行三维目标检测,得到二维图像中所包含的目标的三维尺寸和三维姿态,此过程用到检测网络中的三维尺寸检测分支和三维姿态检测分支。其中,三维尺寸检测分支,用于检测二维图像中目标的三维尺寸,此处的三维尺寸可以是二维图像所包含目标的长、宽、高;三维姿态检测分支,用于检测二维图像中目标相对于相机的旋转角度,此处的旋转角度可以是30°,也可以是60°,还可以是90°等,本发明实施例对此不作具体限定。
基于上述实施例,图5是本发明提供的二维图像生成候选深度的流程示意图之一,对目标进行深度估计,得到各二维边和各三维边对应的候选深度,包括:
步骤510,基于目标的二维位置、三维尺寸、三维姿态和目标的各二维边和各三维边,对目标进行深度估计,得到各二维边和各三维边对应的候选深度。
具体地,对图像特征进行二维目标检测和三维目标检测,将得到的二维图像所包含的目标的二维位置、三维尺寸、三维姿态,以及对各二维边、各三维边进行投影约束得到的二维-三维边投影约束输入到全方位深度估计器中,此处由二维图像所包含的目标的二维位置、三维尺寸、三维姿态和目标的各二维边和各三维边,可以得出各个关键点的二维坐标和三维坐标,而各个关键点的二维坐标和三维坐标反映了各个关键点的三维语义关键点信息。此处的二维-三维边投影约束是指三维目标在二维空间上的投影,此处的全方位深度估计器是指可以估计目标的长、宽以及深度信息的目标估计器。将二维图像所包含的目标的二维位置、三维尺寸、三维姿态以及二维-三维边投影约束输入全方位深度估计器后,得到目标的各二维边和各三维边对应的K个候选深度d,记做d∈RK×1
图6是本发明提供的基于关键点匹配的3D目标检测方法的流程示意图之二,如图6所示,针对二维图像,可以通过特征提取得到图像特征,随后,基于图像特征即可确定二维图像所包含的目标的二维位置、三维尺寸、三维姿态和目标的各二维边和各三维边,对各二维边和各三维边进行投影约束得到的二维-三维边投影约束输入到全方位深度估计器中,并由此得到目标的各二维边和各三维边对应的K个候选深度d;与此同时,将二维图像所包含的目标的各二维边、各三维边分别输入二维特征提取器、三维特征提取器中,分别得到二维边特征三维边特征/>计算二维边特征/>三维边特征/>之间的差异,构建边差异矩阵Mij,/>M∈RK×K,K是二维边和三维边的边数,N是关键点数,K=N(N-1)/2。再取边差异矩阵Mij对角线上的元素,并将对角线上的元素取倒数后,就可以确定各二维边与各三维边之间的相似度w∈RK×1,其中wi代表二维边i和三维边i的相似程度。将得到目标的各二维边和各三维边对应的K个候选深度d与各二维边与各三维边之间的相似度w∈RK×1进行加权求和,得到最终的目标深度dfinal,即/>
需要说明的是,在此之前,对二维特征提取器和三维特征提取器进行训练的过程中,还可以将边差异矩阵Mij输入Sinkhorn算法中,得到一个矩阵P,P∈RK×K,以二维边i和三维边j为例,Pij代表二维边i和三维边j之间的匹配概率。另外,还可以设置一个单位矩阵I,I∈RK×K,来监督矩阵P,此处可以使用二元交叉熵损失函数(Binary Cross Entropy Loss,BCE)来监督矩阵P,也可以使用对数损失函数来监督矩阵P,还可以使用平方损失函数来监督矩阵P,本发明实施例对此不作具体限定。
下面对本发明提供的基于关键点匹配的3D目标检测装置进行描述,下文描述的基于关键点匹配的3D目标检测装置与上文描述的基于关键点匹配的3D目标检测方法可相互对应参照。
图7是本发明提供的基于关键点匹配的3D目标检测装置的结构示意图,如图7所示,该装置包括:
坐标确定单元710,用于对二维图像进行目标检测,得到所述二维图像所包含目标的各关键点的二维坐标和三维坐标;
边确定单元720,用于基于所述各关键点的二维坐标和三维坐标,确定所述目标的各二维边和各三维边;
候选深度确定单元730,用于对所述目标进行深度估计,得到所述各二维边和各三维边对应的候选深度;
相似度确定单元740,用于基于所述目标的各二维边的边特征和各三维边的边特征之间的差异,确定各二维边与各三维边之间的相似度;
目标深度确定单元750,用于基于所述各二维边和各三维边对应的候选深度,以及所述各二维边与各三维边之间的相似度,确定所述目标的目标深度;
目标检测单元760,用于基于所述目标的目标深度,进行3D目标检测。
本发明实施例提供的装置,将相似度计算单元确定的各二维边与各三维边之间的相似度,作为各二维边和各三维边对应的候选深度的质量的评判依据,由此确定的目标深度,能够保证基于关键点匹配的3D目标检测的可靠性和准确性。
基于上述任一实施例,基于所述目标的各二维边的边特征和各三维边的边特征之间的差异,确定各二维边与各三维边之间的相似度,包括:
基于边匹配模型中的特征提取层,分别提取所述各二维边的边特征和所述各三维边的边特征;
基于边匹配模型的相似度计算层,应用所述各二维边的边特征和所述各三维边的边特征之间的差异构建边差异矩阵,并应用所述边差异矩阵确定所述各二维边与各三维边之间的相似度;
所述边匹配模型是基于样本图像所包含的样本目标的各二维边和各三维边的标签匹配关系训练得到的。
基于上述任一实施例,所述边匹配模型基于如下步骤训练得到:
确定初始模型;
基于所述初始模型,应用所述样本图像所包含的样本目标的各二维边和各三维边,确定所述样本目标的样本边差异矩阵;
基于所述样本边差异矩阵确定所述样本目标的各二维边和各三维边的预估匹配关系;
基于所述预估匹配关系和所述标签匹配关系,对所述初始模型进行参数迭代,得到所述边匹配模型。
基于上述任一实施例,对所述二维图像进行目标检测,得到所述二维图像所包含目标的各关键点的二维坐标和三维坐标,包括:
对所述二维图像进行特征提取,得到图像特征;
对所述图像特征进行关键点提取,得到所述二维图像所包含目标的各关键点的二维坐标和三维坐标。
基于上述任一实施例,对所述二维图像进行特征提取,得到图像特征,之后还包括:
对所述图像特征进行二维目标检测,得到所述二维图像中所包含目标的二维位置;
对所述图像特征进行三维目标检测,得到所述二维图像中所包含的目标的三维尺寸和三维姿态。
基于上述任一实施例,对所述目标进行深度估计,得到所述各二维边和各三维边对应的候选深度,包括:
基于所述目标的二维位置、三维尺寸、三维姿态和所述目标的各二维边和各三维边,对所述目标进行深度估计,得到所述各二维边和各三维边对应的候选深度。
图8示例了一种电子设备的实体结构示意图,如图8所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行基于关键点匹配的3D目标检测方法,该方法包括:对二维图像进行目标检测,得到所述二维图像所包含目标的各关键点的二维坐标和三维坐标;基于所述各关键点的二维坐标和三维坐标,确定所述目标的各二维边和各三维边;对所述目标进行深度估计,得到所述各二维边和各三维边对应的候选深度;基于所述目标的各二维边的边特征和各三维边的边特征之间的差异,确定各二维边与各三维边之间的相似度;基于所述各二维边和各三维边对应的候选深度,以及所述各二维边与各三维边之间的相似度,确定所述目标的目标深度;基于所述目标的目标深度,进行3D目标检测。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的基于关键点匹配的3D目标检测方法,该方法包括:对二维图像进行目标检测,得到所述二维图像所包含目标的各关键点的二维坐标和三维坐标;基于所述各关键点的二维坐标和三维坐标,确定所述目标的各二维边和各三维边;对所述目标进行深度估计,得到所述各二维边和各三维边对应的候选深度;基于所述目标的各二维边的边特征和各三维边的边特征之间的差异,确定各二维边与各三维边之间的相似度;基于所述各二维边和各三维边对应的候选深度,以及所述各二维边与各三维边之间的相似度,确定所述目标的目标深度;基于所述目标的目标深度,进行3D目标检测。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的基于关键点匹配的3D目标检测方法,该方法包括:对二维图像进行目标检测,得到所述二维图像所包含目标的各关键点的二维坐标和三维坐标;基于所述各关键点的二维坐标和三维坐标,确定所述目标的各二维边和各三维边;对所述目标进行深度估计,得到所述各二维边和各三维边对应的候选深度;基于所述目标的各二维边的边特征和各三维边的边特征之间的差异,确定各二维边与各三维边之间的相似度;基于所述各二维边和各三维边对应的候选深度,以及所述各二维边与各三维边之间的相似度,确定所述目标的目标深度;基于所述目标的目标深度,进行3D目标检测。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.一种基于关键点匹配的3D目标检测方法,其特征在于,包括:
对二维图像进行目标检测,得到所述二维图像所包含目标的各关键点的二维坐标和三维坐标;
基于所述各关键点的二维坐标和三维坐标,确定所述目标的各二维边和各三维边;
对所述目标进行深度估计,得到所述各二维边和各三维边对应的候选深度;
基于所述目标的各二维边的边特征和各三维边的边特征之间的差异,确定各二维边与各三维边之间的相似度;
基于所述各二维边和各三维边对应的候选深度,以及所述各二维边与各三维边之间的相似度,确定所述目标的目标深度;
基于所述目标的目标深度,进行3D目标检测;
所述对二维图像进行目标检测,得到所述二维图像所包含目标的各关键点的二维坐标和三维坐标,包括:
对所述二维图像进行特征提取,得到图像特征;
对所述图像特征进行关键点提取,得到所述二维图像所包含目标的各关键点的二维坐标和三维坐标;
所述对所述二维图像进行特征提取,得到图像特征,之后还包括:
对所述图像特征进行二维目标检测,得到所述二维图像中所包含目标的二维位置;对所述图像特征进行三维目标检测,得到所述二维图像中所包含的目标的三维尺寸和三维姿态。
2.根据权利要求1所述的基于关键点匹配的3D目标检测方法,其特征在于,所述基于所述目标的各二维边的边特征和各三维边的边特征之间的差异,确定各二维边与各三维边之间的相似度,包括:
基于边匹配模型中的特征提取层,分别提取所述各二维边的边特征和所述各三维边的边特征;
基于边匹配模型的相似度计算层,应用所述各二维边的边特征和所述各三维边的边特征之间的差异构建边差异矩阵,并应用所述边差异矩阵确定所述各二维边与各三维边之间的相似度;
所述边匹配模型是基于样本图像所包含的样本目标的各二维边和各三维边的标签匹配关系训练得到的。
3.根据权利要求2所述的基于关键点匹配的3D目标检测方法,其特征在于,所述边匹配模型基于如下步骤训练得到:
确定初始模型;
基于所述初始模型,应用所述样本图像所包含的样本目标的各二维边和各三维边,确定所述样本目标的样本边差异矩阵;
基于所述样本边差异矩阵确定所述样本目标的各二维边和各三维边的预估匹配关系;
基于所述预估匹配关系和所述标签匹配关系,对所述初始模型进行参数迭代,得到所述边匹配模型。
4.根据权利要求1所述的基于关键点匹配的3D目标检测方法,其特征在于,所述对所述目标进行深度估计,得到所述各二维边和各三维边对应的候选深度,包括:
基于所述目标的二维位置、三维尺寸、三维姿态和所述目标的各二维边和各三维边,对所述目标进行深度估计,得到所述各二维边和各三维边对应的候选深度。
5.一种基于关键点匹配的3D目标检测装置,其特征在于,包括:
坐标确定单元,用于对二维图像进行目标检测,得到所述二维图像所包含目标的各关键点的二维坐标和三维坐标;
边确定单元,用于基于所述各关键点的二维坐标和三维坐标,确定所述目标的各二维边和各三维边;
候选深度确定单元,用于对所述目标进行深度估计,得到所述各二维边和各三维边对应的候选深度;
相似度确定单元,用于基于所述目标的各二维边的边特征和各三维边的边特征之间的差异,确定各二维边与各三维边之间的相似度;
目标深度确定单元,用于基于所述各二维边和各三维边对应的候选深度,以及所述各二维边与各三维边之间的相似度,确定所述目标的目标深度;
目标检测单元,用于基于所述目标的目标深度,进行3D目标检测;
所述坐标确定单元,具体用于:
特征提取单元,用于对所述二维图像进行特征提取,得到图像特征;
关键点提取单元,用于对所述图像特征进行关键点提取,得到所述二维图像所包含目标的各关键点的二维坐标和三维坐标;
所述特征提取单元,还具体用于:
对所述图像特征进行二维目标检测,得到所述二维图像中所包含目标的二维位置;对所述图像特征进行三维目标检测,得到所述二维图像中所包含的目标的三维尺寸和三维姿态。
6.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述基于关键点匹配的3D目标检测方法。
7.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述基于关键点匹配的3D目标检测方法。
CN202210574052.4A 2022-05-24 2022-05-24 基于关键点匹配的3d目标检测方法及装置 Active CN115063789B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210574052.4A CN115063789B (zh) 2022-05-24 2022-05-24 基于关键点匹配的3d目标检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210574052.4A CN115063789B (zh) 2022-05-24 2022-05-24 基于关键点匹配的3d目标检测方法及装置

Publications (2)

Publication Number Publication Date
CN115063789A CN115063789A (zh) 2022-09-16
CN115063789B true CN115063789B (zh) 2023-08-04

Family

ID=83198995

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210574052.4A Active CN115063789B (zh) 2022-05-24 2022-05-24 基于关键点匹配的3d目标检测方法及装置

Country Status (1)

Country Link
CN (1) CN115063789B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116189150B (zh) * 2023-03-02 2024-05-17 吉咖智能机器人有限公司 基于融合输出的单目3d目标检测方法、装置、设备和介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109064514A (zh) * 2018-07-03 2018-12-21 北京航空航天大学 一种基于投影点坐标回归的六自由度位姿估计算法
CN109784333A (zh) * 2019-01-22 2019-05-21 中国科学院自动化研究所 基于点云带权通道特征的三维目标检测方法及系统
CN109961461A (zh) * 2019-03-18 2019-07-02 湖南工程学院 一种基于三维分层图模型的多运动目标跟踪方法
CN110870297A (zh) * 2017-07-19 2020-03-06 高通股份有限公司 使用像素间网格关系的cmos图像传感器裸片上运动检测
CN111161349A (zh) * 2019-12-12 2020-05-15 中国科学院深圳先进技术研究院 物体姿态估计方法、装置与设备
CN111986250A (zh) * 2019-05-22 2020-11-24 顺丰科技有限公司 物体体积测量方法、装置、测量设备及存储介质
CN112257605A (zh) * 2020-10-23 2021-01-22 中国科学院自动化研究所 基于自标注训练样本的三维目标检测方法、系统及装置
CN112767489A (zh) * 2021-01-29 2021-05-07 北京达佳互联信息技术有限公司 一种三维位姿确定方法、装置、电子设备及存储介质
CN112989947A (zh) * 2021-02-08 2021-06-18 上海依图网络科技有限公司 一种人体关键点的三维坐标的估计方法及装置
CN112990050A (zh) * 2021-03-26 2021-06-18 清华大学 一种基于轻量级特征金字塔结构的单目3d目标检测方法
WO2021227694A1 (zh) * 2020-05-13 2021-11-18 北京市商汤科技开发有限公司 图像处理方法、装置、电子设备及存储介质
CN114187589A (zh) * 2021-12-14 2022-03-15 京东鲲鹏(江苏)科技有限公司 一种目标检测方法、装置、设备和存储介质
CN114491122A (zh) * 2021-12-29 2022-05-13 广东工业大学 一种用于同类图像检索的图匹配方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104660900B (zh) * 2013-10-30 2018-03-02 株式会社摩如富 图像处理装置及图像处理方法
US9990728B2 (en) * 2016-09-09 2018-06-05 Adobe Systems Incorporated Planar region guided 3D geometry estimation from a single image

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110870297A (zh) * 2017-07-19 2020-03-06 高通股份有限公司 使用像素间网格关系的cmos图像传感器裸片上运动检测
CN109064514A (zh) * 2018-07-03 2018-12-21 北京航空航天大学 一种基于投影点坐标回归的六自由度位姿估计算法
CN109784333A (zh) * 2019-01-22 2019-05-21 中国科学院自动化研究所 基于点云带权通道特征的三维目标检测方法及系统
CN109961461A (zh) * 2019-03-18 2019-07-02 湖南工程学院 一种基于三维分层图模型的多运动目标跟踪方法
CN111986250A (zh) * 2019-05-22 2020-11-24 顺丰科技有限公司 物体体积测量方法、装置、测量设备及存储介质
CN111161349A (zh) * 2019-12-12 2020-05-15 中国科学院深圳先进技术研究院 物体姿态估计方法、装置与设备
WO2021227694A1 (zh) * 2020-05-13 2021-11-18 北京市商汤科技开发有限公司 图像处理方法、装置、电子设备及存储介质
CN112257605A (zh) * 2020-10-23 2021-01-22 中国科学院自动化研究所 基于自标注训练样本的三维目标检测方法、系统及装置
CN112767489A (zh) * 2021-01-29 2021-05-07 北京达佳互联信息技术有限公司 一种三维位姿确定方法、装置、电子设备及存储介质
CN112989947A (zh) * 2021-02-08 2021-06-18 上海依图网络科技有限公司 一种人体关键点的三维坐标的估计方法及装置
CN112990050A (zh) * 2021-03-26 2021-06-18 清华大学 一种基于轻量级特征金字塔结构的单目3d目标检测方法
CN114187589A (zh) * 2021-12-14 2022-03-15 京东鲲鹏(江苏)科技有限公司 一种目标检测方法、装置、设备和存储介质
CN114491122A (zh) * 2021-12-29 2022-05-13 广东工业大学 一种用于同类图像检索的图匹配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Categorical Depth Distribution Network for Monocular 3D Object Detection;Cody Reading, Ali Harakeh, Julia Chae, Steven L. Waslander;《Computer Vision and Pattern Recognition》;1-11 *

Also Published As

Publication number Publication date
CN115063789A (zh) 2022-09-16

Similar Documents

Publication Publication Date Title
US10762359B2 (en) Computer aided traffic enforcement using dense correspondence estimation with multi-level metric learning and hierarchical matching
JP7106665B2 (ja) 単眼深度推定方法およびその装置、機器ならびに記憶媒体
JP6799169B2 (ja) マルチモーダル融合による3dオブジェクト検出と配向推定の結合
US11763485B1 (en) Deep learning based robot target recognition and motion detection method, storage medium and apparatus
US11348270B2 (en) Method for stereo matching using end-to-end convolutional neural network
CN111209770B (zh) 一种车道线识别方法及装置
CN111696196B (zh) 一种三维人脸模型重建方法及装置
Kim et al. Deep stereo confidence prediction for depth estimation
CN111928842B (zh) 一种基于单目视觉实现slam定位的方法及相关装置
Miclea et al. Real-time semantic segmentation-based stereo reconstruction
EP4246458A1 (en) System for three-dimensional geometric guided student-teacher feature matching (3dg-stfm)
CN111928857B (zh) 一种动态环境中实现slam定位的方法及相关装置
CN115063789B (zh) 基于关键点匹配的3d目标检测方法及装置
CN116402976A (zh) 三维目标检测模型训练方法及装置
JP7055867B2 (ja) 人体認識方法、機器及び記憶媒体
Harakeh et al. Ground segmentation and occupancy grid generation using probability fields
CN114494395A (zh) 基于平面先验的深度图生成方法、装置、设备及存储介质
Kim et al. Adversarial confidence estimation networks for robust stereo matching
CN113793251A (zh) 位姿确定方法、装置、电子设备和可读存储介质
CN116258748A (zh) 轨迹跟踪方法
JP2023065296A (ja) 平面検出装置及び方法
Morreale et al. Dense 3D visual mapping via semantic simplification
CN112380966B (zh) 基于特征点重投影的单眼虹膜匹配方法
Li et al. High accuracy and geometry-consistent confidence prediction network for multi-view stereo
CN112686155A (zh) 图像识别方法、装置、计算机可读存储介质及处理器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant